專利名稱:使用權利要求分析排序知識產權文檔的方法和系統的制作方法
技術領域:
本發明大體上涉及自然語言處理、信息檢索并且更具體地涉及確定文檔內的術語的相關性。本發明涉及術語或文檔的其他方面的統計加權以確定所述術語或方面與該文檔、尤其是與該文檔的內容如何相關或對其如何重要。此外,本發明涉及供與法務、企業及其他專業領域相關的服務傳遞使用的過程、軟件和系統。本發明涉及這樣的系統,其向諸如與專業服務相關的服務的訂戶的用戶提供搜索功能、處理搜索術語并且跨文檔數據庫應用搜索語法,以及顯示響應于所述搜索功能和處理而生成的搜索結果。
背景技術:
隨著印刷機、排版、打字機、計算機實現的字處理和海量數據存儲裝置的出現,由人類生成的信息的量已經顯著地并且以日益加速的步伐上升。結果,對收集和存儲、識別、追蹤、分類和編目以檢索和發布這種不斷增長的海量信息有持續且不斷增長的需要。對例如書籍和其他文字作品的信息進行編目和分類的一種傳統形式是杜威十進制系統。在專利領域中,僅在美國就已經公告了上百萬的專利。每個專利被公告為具有一組權利要求,其限定了由美國授權并且由專利權人擁有的產權。除了公告的專利之外,目前可得到的用于搜索和查看的已公開專利申請的數量也在不斷增長。每個已公開的專利申請同樣地包含對該發明的一個或多個權利要求。美國專利局使用基于主題的分類系統按本領域的技術中心、分類和子分類放置所提交的專利申請以更高效地處理專利權利要求的搜索及授權或者駁回。此外,一組國際專利分類號進一步按主題對專利和申請進行分類。歷史上,被指派來審查專利申請的審查員將查閱“鞋(shoes) ”,即與特定子分類相關聯并且包含基于由先前的發明人所公開和要求權利的主題而被分在一組的專利集合的盒子。在電子搜索之前,審查員將手動查閱所述鞋以努力找到現有技術,這是非常乏味、耗時并且低效的。電子數據庫有效地將專利文檔放置在電子“鞋”中以供搜索。在許多領域和行業中,例如包括金融和法律領域以及技術領域,存在內容和增強體驗提供商,諸如湯森路透公司(The Thomson Reuters Corporation)。這樣的提供商識另O、收集、分析和處理供生成內容使用的關鍵數據,所述內容諸如為法律相關的報告、文章等等,供專業人員以及例如律師等在相應行業中所涉及的其他人員消費。各個領域和行業中的提供商不斷尋找產品和服務來提供給訂戶、客戶及其他顧客,并且尋找使他們的公司在競爭中與眾不同的方法。這樣的提供努力創建和提供增強工具,包括搜索和排序工具,以使客戶能夠更高效和有效地處理信息并且做出知情的決定。例如,隨著跨例如已公告的專利、已公開的專利申請的數據庫等大量數據和文檔進行搜索的技術和復雜方法的進步,專業人員及其他用戶在做出專業和商業決定時越來越多地依賴于數學模型和算法。例如用于跨專利文檔的大型數據庫應用搜索術語的現有方法由于他們常常不充分地集中在所關心的關鍵信息上以產生一組集中的并且良好排序的文檔來最接近地匹配所表達的搜索術語和數據,而具有相當大的改進空間。盡管這樣的基于計算機的系統具有缺點,但較之于手動搜索、識別、過濾和分組IP文檔而言已有明顯進步,手動搜索、識別、過濾和分組IP文檔過于花費時間、成本高、效率低并且不一致。搜索引擎被用于響應用戶定義的查詢或搜索術語來檢索文檔。為此,搜索引擎可對術語出現在一個文檔中的頻率與那些術語出現在數據庫或數據庫網絡內的其他文檔中的頻率進行比較。這有助于搜索引擎確定文檔內不同術語各自的“重要性”,并且由此確定與給定查詢最匹配的文檔。用于將出現在一個文檔中的術語與文檔集合比較的一種方法被稱為術語頻率-反文檔頻率(TFIDF)。在這個方法中,術語總數與主題文檔內的所有術語相比較的百分率被賦值(作為分子),并且除以術語在其中出現的文檔在文集中的百分比的對數(作為分母)。更具體地,TFIDF將權重賦值為用于評估詞語對文檔集合或文集中的一個文檔的覆蓋(tile)重要性的統計測量。覆蓋詞語的相對“重要性”與覆蓋次數或這樣的詞語出現在文檔中的“頻率”成比例地增加。將重要性與該詞語出現在包括文集的文檔中的頻率相抵消或比較。TFIDF被表達為log(N/n(q)),其中q是查詢術語,N是集合中的文檔的數量,而N(q)是包含q的文檔的數量。TFIDF及這種加權方案的變型通常被諸如谷歌 的搜索引擎在給定用戶查詢的情況下用作評分和排序文檔的相關性的方法。一般地,對于包括在用戶查詢中的每個術語而言,可基于對與每個術語相關聯的分數求和而就相關性對文檔排序。可基于相關性及其他確定因素將響應于用戶查詢的文檔排序并且呈現給用戶。
發明內容
本發明提供了用于重排序專利文檔檢索系統中的搜索結果的方法和系統,其中查詢文本全部或部分地來源于專利權利要求,所述專利權利要求可來自于現有的專利。該重排序基于候選專利的一個或多個特征,諸如與所述權利要求的文本相似度、國際專利分類號或其他分類關聯性或重疊以及候選者的內部引用結構。本發明的一個特征提供了基于自動生成的訓練數據來訓練的重排序器,由此避免了昂貴且花費時間的專家評注步驟。在實現中,可自動地或半自動地,即以某種程度的人工干預來執行本發明的概念。發明人、專利審查員、代理人和律師需要可靠的專利檢索系統來例如調查現有技術、研究專利權利要求的有效性或者為訴訟做準備。專利檢索更為特殊和專業化并且例如在下列方面不同于一般的網絡搜索1)查詢文本-專利檢索中的查詢經常是權利要求,其具有某種固定結構并且可能非常長,而典型的基于網絡的搜索查詢是非常短的,包括很少的術語;2)專利文檔-專利通常具有標準結構,其包括諸如名稱、作者、申請日、IPC(國際專利分類號(IPC))、引用、摘要、技術概要和權利要求等字段,而網絡文檔可能具有各種格式和內容;以及3)搜索目的-專利檢索的主要目的是找到與被搜索專利相關的現有專利,例如可使指定的專利或專利申請的權利要求無效的現有專利,而網絡搜索的目標為找到相關的文檔或回答用戶問題。考慮到這些區別,與典型的基于網絡的搜索引擎和系統相關聯的信息檢索算法不是很好地適用于為專利檢索工作。現有方法以不同方式修改基線信息檢索算法。一些方法修改術語加權策略,例如使用TF(術語頻率)來代替TF-IDF(術語頻率-反文檔頻率)(H. Mase和M. Iwayama.2007.日立的Ntcir-6專利檢索實驗· NTCIR-6研討會紀要,第403-406頁);一些方法研究統計語言模型中的平滑效果(J. Kim、Y. H. Lee, S. H. Na和J. H. Lee. 2007. ntcir-6英文專利檢索子任務中的浦項科技大學.NTCIR-6研討會紀要,第393-395頁);一些方法使用查詢擴展策略(Y. H. Tseng、C. Y. Tsai和D. W. Huang. 2007.使用不同專利代理對美國專利商標局專利文檔的無效搜索.NTCIR-6研討會紀要,第390-392頁;H. Tanioka和K. Yamamoto. 2007.使用查詢擴展和強調的通路檢索系統.ΛΤΓΤΤΡΥ研討會紀要,第428-432頁;H. Nanba. 2007.使用自動構造的詞庫的查詢擴展.NTCIR-6研討會紀要,第414-419頁;Mase和Iwayama,2007);并且一些方法運用諸如專利的引用和IPC的特定字段(Atsushi Fujii. 2007.通過引用分析增強專利檢索.第30屆ACM信息檢索研究和發展(SIGIR)國際年會紀要,第793-794頁;Μ. Aono. 2007.為專利檢索運用基于類別的lsi. NTCIR-6研討會紀要,第373-376頁)。可被采用的另外的方法可使用潛在語義索引(LSI)或其他潛在語義分析。這些方法或者需要進行大量計算或者顯示較之于基線的有限改進。本發明提供了用于確定、檢索和呈現與基于專利權利 求的查詢最相關的一組專利的方法。本發明既能被用于對現有技術的調查也能被用于對現有或預期的權利要求的有效性的確定。在一個實施例中,本發明使用基于基線文本的檢索系統來得到初始的候選專利池,進而基于例如來源于所述候選專利的權利要求文本、名稱、摘要、前序、IPC中的一個或多個以及它們的內部引用結構的若干特征來重排序所述初始的候選專利池。本發明的另一特征是用于訓練重排序分類器的訓練數據的自動生成。在過去,已針對專利檢索提出了不同的檢索方法。Kim等人(Kim等人,2007)使用帶有Jelinek-Mercer平滑的基線語言模型來進行專利檢索。基于他們的結果,平滑是否有助于檢索性能是不確定的。Fujii (Fujii,2007)結合兩個搜索,一個搜索基于使用OkapiBM25 (S. Robertson>S. ffalker>S. Jones、M.M. Hancock-Beaulieu和M. Gatford. 1994.Okapi at trec-3.第三屆文本檢索大會紀要,第109-126頁)的文本檢索,而另一個搜索基于引用,其中基于來自于文本檢索的前N個文檔的引用來計算引用得分。這兩個得分的乘積被用于最終排序。兩階段專利檢索方法由Mase 等人提出(H. Mase、T. Matsubayashi、Y. Ogawa>Μ.Iwayama和T. Oshio. 2005.考慮權利要求結構的兩階段專利檢索方法的提議.ACM亞洲語言信息處理學報(TALIP),4 (2) : 190-206)。在階段一,使用標準信息檢索方法,其中將專利的整個文本用作檢索對象。在階段二,僅將權利要求文本用于重排序來自于第一階段的前N個專利,其中相關性得分基于使用不同加權策略的一組選擇性的權利要求術語。最終的相關性得分是來自這兩個階段的得分的線性組合。在另一篇論文中(Mase和Iwayama,2007),Mase等人比較若干檢索方法,其中所述方法使用不同的術語加權策略、查詢擴展策略和文檔過濾策略。這些方法顯示了較之于基線方法的改進,但由于對整個專利文本和術語選擇的使用而導致需要進行大量計算。查詢擴展是改進專利檢索的另一種嘗試。Tseng等人(Tseng等人,2007)使用選自初始檢索中的前6個文檔的一些關鍵術語來擴展權利要求查詢。Nanba(Nanba,2007)使用下義詞、縮寫詞、同義詞和有關術語來擴展查詢。A0n0(A0n0,2007)針對專利檢索提出了基于類別的潛在語義索引(LSI)方法。具體而言,他們的算法首先基于IPC(國際專利分類)將整個專利集合分類成各類別,隨后對每個類別反復地應用LSI。并且在給定查詢權利要求的情況下,與其最相似的類別中的前50個專利作為無效候選被返回。與現有方法相比,除其他優點以外,本發明提供了下列優點1)通過機器學習來自動學習排序模型,已知系統試探性地結合來自于多個源的不同排序結果;2)自動生成訓練數據,即使沒有消除昂貴且花費時間的人工相關性判斷步驟,也極大地減少了這樣的步驟;以及3)有效并且可高效計算的特征組。在一種實現中,本發明提供了以毫秒級的速度顯著地改進基線搜索的算法。在一個備選實施例中,本發明提供了一種用于處理與專利權利要求術語相關的用戶查詢以生成響應于所述查詢的一組專利文檔的基于計算機的系統,所述系統包括搜索引擎,其由計算機執行并且適于接收查詢以及基于所述查詢搜索包含在至少一個數據庫中的專利文檔的權利要求,并且適于產生第一組候選專利文檔;以及重排序模塊,其包括可由所述計算機執行的代碼并且適于至少部分地基于與所述專利相關聯的一組特征來重排序所述第一組候選專利文檔以及生成第二組經排序的專利文檔,所述重排序模塊適于基于先前執行的學習過程對所述一組特征進行加權。在一個備選方案中,所述重排序可至少部分地基于包括與要求權利的發明的主題相關的至少一個分類特征的一組特征。另外,重排序模塊還可適于為所述第一組候選專利文檔中的每個專利生成與所述一組特征相關聯的一組特征得分,所述重排序模塊適于至少部分地基于所述一組特征得分重排序來生成所述第二組經排序的專利文檔。此外,所述重排序模型還可適于為所述第一組候選專利文檔中的每個專利生成至少部分地來源于一組特征得分的總得分,所述重排序模塊適于至少部分地基于與所述第一組候選專利文檔中的每個專利相關聯的總得分重排序來生成所 述第二組經排序的專利文檔。所述一組特征可包括來自包括下列各項的集合的一個或多個專利的字段;專利名稱;專利摘要;專利IPC分類號;專利參考文獻;專利權利要求;排位-C(rank-C),其表示所述第一組候選專利中的專利的任何權利要求的最低排位;sim(c,
c),其表示所述查詢與所述第一組候選專利中的專利的權利要求之間的最高相似度得分;sim(c, cs),其表示所述查詢與所述第一組候選專利中的專利的所有權利要求之間的相似度得分;sim(c,名稱),其表示所述查詢與所述第一組候選專利中的專利的名稱之間的相似度得分;sim(c,摘要),其表示所述查詢與所述第一組候選專利中的專利的摘要之間的相似度得分;sim(關鍵概念,關鍵概念),其表示所述查詢的關鍵概念與所述第一組專利中的專利的關鍵概念之間的相似度得分;sim(關鍵概念,名稱),其表不所述查詢的關鍵概念與所述第一組專利中的專利的名稱之間的相似度得分;sim(關鍵概念,摘要),其表示所述查詢的關鍵概念與所述第一組專利中的專利的摘要之間的相似度得分;IPC-重疊,其表示所述第一組專利中的專利的IPC分類號與所述第一組專利中的一組初始高排位專利的IPC分類號之間重疊的IPC分類號的數量;以及直接引用(direct-Cite),其表示所述一組初始高排位專利文檔中引用所述第一組專利文檔中的專利或被所述第一組專利文檔中的專利引用的專利的數量。此外,所述一組特征得分可被歸一化并且可包括IPC-重疊,所述IPC-重疊表示所述第一組專利文檔中的專利的IPC分類號與所述第一組專利中的一組初始高排位專利文檔的IPC分類號之間重疊的IPC分類號的數量,所述重排序模塊還適于計算IPC-重疊,其包括適于定義兩個IPC分類號之間的重疊得分、基于IPC分類號結構將每個IPC分類號分為多個級的代碼,并且其中兩個IPC分類號之間的第一級重疊產生第一得分并且兩個IPC分類號之間的第二級重疊產生第二得分。給定專利文檔的IPC-重疊可以是該專利的IPC分類號與所述一組初始高排位專利文檔的所有IPC分類號之間的平均重疊得分,并且在專利具有低IPC-重疊得分的情況下,其可以被分配相對低的相關性得分。可基于先前執行的學習過程來配置所述重排序模塊,其包括自動生成的訓練數據,所述自動生成的訓練數據被處理以建立將被分配給所述一組特征中的各個特征的相關性權重。所述學習模塊可收集訓練數據并且至少部分地基于所收集的訓練數據為所述一組特征分配相關性權重。所述搜索引擎可包括適于產生所述第一組候選專利文檔的基于基線文本的檢索系統。所述查詢可包括多個獨立定義的查詢術語,所述獨立定義的查詢術語中的一個或多個被所述搜索引擎處理以對包括在所述第一組候選專利文檔中的專利進行劃界(delimit)或加權。所述查詢可包括多個獨立定義的查詢術語,所述獨立定義的查詢術語中的一個或多個被所述重排序模塊處理以對所述一組特征進行劃界或加權。在第二實施例中,本發明提供了用于接收和處理搜索查詢并且向用戶呈現搜索結果的方法,所述方法包括接收包括表示專利權利要求搜索的術語的查詢;使用搜索引擎從數據庫中檢索第一組專利文檔,所述第一組專利文檔中的每一個包括響應于所述查詢的一個或多個權利要求;基于一組專利特征重排序所述第一組專利文檔以生成一組經重排序的專利文檔;以及為顯示而從所述一組經重排序的專利文檔生成響應于所述查詢的權利要求的有序列表。在還有第三實施例中,本發明提供了一種用于接收和處理搜索查詢并且向用戶呈現搜索結果的方法,所述方法包括接收包括表示專利權利要求搜索的術語的查詢;使用 搜索引擎從數據庫中檢索一組專利權利要求,所述一組專利權利要求中的每一個響應于所述查詢;排序具有來自所述一組專利權利要求的一個或多個權利要求的一組專利文檔;使用一組專利特征重排序所述一組專利文檔以生成一組經重排序的專利文檔;以及為顯示從所述一組經重排序的專利文檔生成響應于所述查詢的專利權利要求的有序列表。在還有另一實施例中,本發明提供了在其上存儲有將由機器執行以進行操作的指令的機器可讀介質,所述指令包括用于下列操作的指令呈現包括用于接收查詢輸入的輸入框的圖形用戶界面屏幕;接收與專利權利要求術語相關的查詢;針對與在包括專利文檔的數據庫中所表示的專利文檔相關聯的權利要求處理所述查詢以生成響應于所述查詢的一組候選專利文檔;至少部分地基于一組專利特征重排序所述一組候選專利文檔并且生成第二組經排序的專利文檔;以及為查看而顯示與所述一組經排序的專利文檔相關聯的圖形用戶界面屏幕。
為了便于全面理解本發明,現在對附圖進行參考,在附圖中用相同的標號引用相同的元素。這些圖不應被解釋為限制本發明,而是旨在作為示例并且用于參考。圖I是示出用于實現本發明的示例性的基于計算機的系統的示意 圖2是示出實現本發明的示例性方法的搜索流程圖的第一部分;
圖3是示出實現本發明的示例性方法的搜索流程圖的第二部分;以及 圖4是示出本發明的實現的流程 圖5是用于實現本發明的基于處理器的系統的硬件配置的示意 圖6是示出具有用于輸入在處理本發明時所用的查詢數據的一組域的示例性用戶界面屏幕的屏幕截 圖7是示出結合本發明的用于輸入搜索數據并且啟動搜索的示例性用戶界面屏幕的屏幕的第一部分;
圖8是示出結合本發明的用于輸入搜索數據并且啟動搜索的示例性用戶界面屏幕的屏幕的第二部分;以及
圖9是示出通過處理本發明所得到的搜索結果屏幕的屏幕截圖。
具體實施例方式現在將參照如附圖所示的示例性實施例來更詳細地描述本發明。雖然此處參照示例性實施例來描述本發明,但應理解的是,本發明不限于這樣的示例性實施例。具有本領域的普通技術并且可以理解此處的示教的那些人員將認識到另外的實現、變型和實施例以及本發明所適用的其他應用,這在此處被充分預計為包含在此處所公開和要求權利的本發明的范圍之內,并且就此而言,本發明可具有顯著的實用性。本發明提供了用于專利文檔搜索和檢索的系統。在一個示例性實施例中,在給定權利要求文本cq作為查詢的情況下,本發明返回包含相似權利要求的專利文檔并且基于相關性得分對它們進行排序。所述系統適用于其中cq來自現有的專利文檔,例如專利或專利申請,或者并不是現有已公告或待定的權利要求的應用。在一個示例性實施例中,本發明包括三個步驟1)基于《7的權利要求文本從權利要求的全域中檢索一組權利要求;2)重排序其權利要求在步驟I中被返回的專利;3)返回來自經重排序的專利的最佳匹配的權利要求的有序列表。下面將在示例性實施例的上下文中更詳細地描述這個過程。“專利文檔”如該術語在說明書中被使用的那樣意指美國和非美國的專利以及已公開或披露的專利申請,并且還意指全部或部分地來源于這樣的文檔的文檔。例如,美國專利包括下列字段、特征或術語,其可以是獨立定義的可搜索字段摘要;申請日;申請序列號;申請類型;專利權人所在城市;專利權人所在國家;專利權人姓名;專利權人所在州;助理審查員;代理人或代理機構;權利要求;說明/說明書;外國優先權;外國參考文獻;政府利益;國際分類或IPC ;發明人所在城市;發明人所在國家;發明人姓名;發明人所在州;公告日;其他參考文獻;母案信息;專利號;專利類型;PCT信息;主審查員;再公告數據;名稱;相關的美國申請數據;當前的美國分類;以及被引用信息。其他體系可使用包括專利文檔的相似的或另外的字段。本發明允許用戶構造查詢以包括與權利要求相關的文本作為主要的或唯一的搜索術語。用戶也可構造這樣的查詢,即除了權利要求文本查詢術語之外,還包括另外的查詢術語來特別地限制或增強諸如上文所列的那些的其他術語的重要性。以這種方式,用戶可例如基于權利要求文本進行搜索并且將響應的一組專利文檔縮窄至與特定的專利權人、發明人、IPC或其他分類、日期范圍、公告日等相關的那些專利文檔。以這種方式,由用于處理所述查詢的搜索引擎產生的一組候選專利文檔可以被減少或特別指出以適應用戶的特定搜索需要或目標。在備選方式中,系統可以被配置為允許用戶輸入和配置系統,使得重排序模塊對諸如上文所列的那些的特定專利相關字段進行劃界或加權,或者在重排序過程中對與專利相關字段相關聯的特征進行劃界或加權。根據本發明的一種實現,對于第一步驟,即對一組初始權利要求或一組初始候選專利文檔的檢索,使用無監督的基于學習的檢索(ULR)算法,例如基于WIN搜索(Turtle,1994)的算法。由于權利要求文本通常較長并且具有特定于域的性質,像WIN那樣被設計用于一般信息檢索的搜索引擎作為用于將最相關的權利要求或專利文檔識別和返回為排在最前面的候選者的手段不是很有效,由此使重排序成為必須。在這個示例中,僅在查詢中使用權利要求文本。然而,如在別處所描述的那樣,另外的術語或步驟可被用于獲得一組初、始候選權利要求或專利文檔。接著,重排序步驟包括對初始組中的每個專利的若干數值特征的計算,這將在下文中更詳細地被解釋。在一個實施例中,基于支持向量機(SVM)的排序器,例如(T. Joachims. 2002b.使用點擊鏈接型數據優化搜索引擎.ACM知識發現和數據挖掘(KDD)大會紀要,第133-142頁)可被用于重排序候選專利文檔。另外,可基于自動生成的數據、訓練數據來訓練排序模型,將在下文中詳細解釋訓練數據的生成。下面的討論提供了對本發明的示例性實施例的特征提取方面的更詳細的描述。在給定查詢權利要求的情況下,例如WIN搜索引擎的搜索引擎被用于搜索搜索空間中的專利的所有單獨的權利要求。在這個示例中,產生排在最前面的一組結果的專利,例如前100個中的專利被看作為候選池。對于候選池中的每個專利pi,計算一組特征。下面的示例描述用于計算的十個特征。這些特征充分利用了專利的不同字段,諸如名稱、摘要、IPC、參考文獻和權利要求。這些特征可包括下列示例性字段中的一些或全部專利的字段;專利名稱;專利摘要;專利IPC分類號;專利參考文獻;專利權利要求;排位-c,其表示第一組候選專利中的專利的任何權利要求的最低排位;sim(c, c),其表示查詢與第一組候選專利中的專利的權利要求之間的最高相似度得分;sim(c, cs),其表示查詢與第一組候選專利中的專利的所有權利要求之間的相似度得分;sim(c,名稱),其表示查詢與第一組候選專利中 的專利的名稱之間的相似度得分;sim(c,摘要),其表示查詢與第一組候選專利中的專利的摘要之間的相似度得分;sim(關鍵概念,關鍵概念),其表示查詢的關鍵概念與第一組專利中的專利的關鍵概念之間的相似度得分;sim(關鍵概念,名稱),其表不查詢的關鍵概念與第一組專利中的專利的名稱之間的相似度得分;sim(關鍵概念,摘要),其表示查詢的關鍵概念與第一組專利中的專利的摘要之間的相似度得分;IPC-重疊,其表示第一組專利中的專利的IPC分類號與第一組專利中的一組初始高排位專利的IPC分類號之間重復的IPC分類號的數量;以及直接引用,其表示所述一組初始高排位專利文檔中引用第一組專利文檔中的專利或被第一組專利文檔中的專利引用的專利的數量。例如,排位-C是&5ri,其中ri是的任何權利要求在初始的WIN搜索中的最低排位。由于初始搜索不考慮單獨的權利要求,因此可具有出現在排在最前面的一組結果中的若干權利要求。實施例可使用那些權利要求之中的最低排位來為計算特征。就Sim(c, c)而言,這個特征是的權利要求與《7之間的最高相似度得分。這個特征根據由WIN搜索引擎提供的相似度得分將排位特征向上增大。可通過除以這個特征對于特定查詢的最高得分而對該特征進行歸一化。接著是sim(c, cs),其表示cq與pi的所有權利要求之間的相似度得分。同樣地,可通過最高得分對這個特征進行歸一化。接著是sim(c,名稱),其表示《7與的名稱之間的相似度得分,其如上文所述那樣被歸一化。接著是sim(c,摘要),其表示與pi的摘要之間的相似度得分,其如上文所述那樣被歸一化。接著是sim(關鍵概念,關鍵概念),其表不eg的關鍵概念與/72的關鍵概念之間的經歸一化的相似度得分。通常,獨立權利要求的起始句包含諸如下列各項的詞語包含、由…組成、包括、在于(in that)、聽到等等。這些詞語以及像它們那樣的詞語被稱為標識符。標識符之前的詞語通常指出權利要求的主題,其可被稱為“關鍵概念”。專利的關鍵概念被定義為專利的第一權利要求的關鍵概念。另一個術語是s im (關鍵概念,名稱),其表不eg的關鍵概念與的名稱之間的經歸一化的相似度得分。另一個術語是sim(關鍵概念,摘要),其表示cq的關鍵概念與的摘要之間的經歸一化的相似度得分。另一個術語是IPC-重疊。IPC-重疊特征基于的IPC與源專利組的IPC之間重疊的IPC的數量,所述源專利組例如可被定義為候選池中的前十個專利。為了計算IPC-重疊,優選的是首先定義兩個IPC之間的重疊得分。在一個示例性的實例中,可基于結構將每個IPC分為三個級。例如,像J61X/009=02那樣的IPC具有三個級A6IK (級l)、A61K-009(級2)以及洲Lf/009卻2 (級3)。兩個IPC之間的單級重疊給出例如為0.3的預定義得分。兩個IPC的重疊得分是來自于三個級的得分的總和。例如J6LT/009=02與J61X/009=10之間的重疊得分是0. 6,這是因為它們在級I和級2重疊。可將的IPC重疊定義為的IPC與所有源專利的所有IPC之間的平均重疊得分。這個特征基于下述假設即源專利中的大部分所共有的IPC將反映查詢權利要求的主題。因而,如果專利具有低IPC-重疊得分,則其不大可能是相關專利。 將要討論的下一個特征是直接引用,其與IPC-重疊的相似,這是因為直接引用表示引用或被引用的源專利的數量,用源專利的總數對其進行歸一化。本發明的這個優選實施例的下一個方面是自動生成訓練數據。重排序器算法自動學習諸如上文所描述的那些的特征的重要性,以充分利用這些特征。在優選實施例中,訓練數據被使用。可通過結果的人工評注來收集訓練數據,但這是耗時且昂貴的過程。代替地,本發明包括自動生成訓練數據的方法。第一步是被選擇為一組目標專利的第一權利要求的查詢的自動生成。通過WIN搜索引擎來運行這些查詢以得到一組候選專利并且如上文所描述的那樣計算這些候選專利的特征。可將訓練“標簽”分配給這些特征向量。標簽的生成依賴于知道查詢權利要求從其中被選擇的專利。所分配的國際專利分類號(IPC)和被引用的專利包含關于特定專利的豐富信息。優選實施例定義下列規則來判斷候選專利與目標專利/target的相關性。首先,如果的WC與ptarget的IPC匹配,并且引用或被tercet引用,那么與/target相關,并且被分配為A級。第二,如果的IPC與ptarget的IPC匹配,但既沒有被/target引用也沒有引用那么Ik為P與有些相關,并且被分配為C級。第三,如果的IPC與的IPC不匹配,并且既沒有被引用也沒有引用那么判斷與ptarget不相關,并且被分配為F級。在一種方式中,如果各IPC在第二級相同,則它們可以被定義為匹配。自動分配A級、C級和F級的過程不是無錯的,但其顯示了相對的相關性。只要具有更高等級的專利更有可能與目標專利相關,那么自動生成的訓練數據就將令人滿意地訓練重排序模型。基于世界知識產權組織,IPC(國際專利分類號)被分為八個部。在下面的實驗性示例中,IPC的A部部分中的所有專利被用作整個搜索空間,其包括大約五十萬個專利。對于每個專利而言,名稱、IPC、摘要和權利要求是已知的。重要的是注意到本發明不需要使用專利的全文。在本實例中,從五十萬個專利之中,隨機選出10,000個專利來生成訓練和測試數據。具體而言,在這個示例中,對于每個專利,第一權利要求被用于生成其候選專利并且使用下文所詳細討論的規則來自動為它們分配A/C/F級。沒有產生任何A級的查詢專利被放棄。在這個示例性測試中,查詢中的79個被分離并且被用于測試,而剩余的查詢被用于訓練。數據組被平衡以具有大約相同數量的A級、C級和F級,但對C級和F級進行二次采樣。總體來說,大約5,000個專利被選擇作為目標,產生大約40,000個標記的特征向量。具有多項式(度=2)核的SVM-Iight (T. Joachims. 2002a.使用支持向量機學習分類文本.學位論文.Kluwer)被用在這個示例中以訓練排序模型。對79個測試查詢權利要求進行重排序。對于這些測試查詢,前5個搜索結果被發送給專利專家來分配A級、C級和F級,其中A意指非常相關,C意指有些相關,而F意指不相關。進而將該人工評級與下面自動生成的計算機評級比較。就計算機評級與人工評級的相似度而言,表I顯示了對于大約600個候選專利在給定人工評級的情況下的計算機評級的條件概率。表I顯示了當專家將專利判斷為非常相關(人工評級為A)時,計算機評級很少為F ;并且當專利被判斷為不相關(人工評級為F)時,計算機評級很少為A。當專利被判斷為有些相關(C)時,計算機評級很可能也為C。這表明計算機評級在區分非常相關、相關和不相關的專利時是可靠的。
權利要求
1.一種用于處理與專利權利要求術語相關的用戶查詢以生成響應于所述查詢的一組專利文檔的基于計算機的系統,所述系統包括 搜索引擎,其由計算機執行并且適于接收查詢以及基于所述查詢搜索包含在至少一個數據庫中的專利文檔的權利要求,并且適于產生第一組候選專利文檔;以及 重排序模塊,其包括可由所述計算機執行的代碼并且適于至少部分地基于一組專利特征來重排序所述第一組候選專利文檔以及生成第二組經排序的專利文檔,所述重排序模塊適于基于先前執行的學習過程對所述一組特征進行加權。
2.根據權利要求I所述的系統,其中所述重排序模塊還適于為所述第一組候選專利文檔中的每一個生成與所述一組專利特征相關聯的一組特征得分,所述重排序模塊適于至少部分地基于所述一組特征得分重排序來生成所述第二組經排序的專利文檔。
3.根據權利要求2所述的系統,其中所述重排序模型還適于為所述第一組候選專利文檔中的每一個生成至少部分地來源于一組特征得分的總得分,所述重排序模塊適于至少部分地基于與所述第一組候選專利文檔中的每個專利相關聯的總得分重排序來生成所述第二組經排序的專利文檔。
4.根據權利要求2所述的系統,其中所述一組特征得分中的一個或多個被歸一化。
5.根據權利要求I所述的系統,其中所述一組專利特征包括來自包括下列各項的集合的一個或多個專利的字段;專利名稱;專利摘要;專利IPC分類號;專利參考文獻;專利權利要求;排位-C,其表示所述第一組候選專利中的專利的任何權利要求的最低排位;sim(c, c),其表示所述查詢與所述第一組候選專利中的專利的權利要求之間的最高相似度得分;sim(c,cs),其表示所述查詢與所述第一組候選專利中的專利的所有權利要求之間的相似度得分;sim(c,名稱),其表示所述查詢與所述第一組候選專利中的專利的名稱之間的相似度得分;sim(c,摘要),其表示所述查詢與所述第一組候選專利中的專利的摘要之間的相似度得分;sim(關鍵概念,關鍵概念),其表示所述查詢的關鍵概念與所述第一組專利中的專利的關鍵概念之間的相似度得分;sim(關鍵概念,名稱),其表示所述查詢的關鍵概念與所述第一組專利中的專利的名稱之間的相似度得分;sim(關鍵概念,摘要),其表示所述查詢的關鍵概念與所述第一組專利中的專利的摘要之間的相似度得分;IPC-重疊,其表示所述第一組專利中的專利的IPC分類號與所述第一組專利中的一組初始高排位專利的IPC分類號之間重疊的IPC分類號的數量;以及直接引用,其表示所述一組初始高排位專利文檔中引用所述第一組專利文檔中的專利或被所述第一組專利文檔中的專利引用的專利的數量。
6.根據權利要求I所述的系統,其中所述一組專利特征包括IPC-重疊,其表示所述第一組專利文檔中的專利的IPC分類號與所述第一組專利中的一組初始高排位專利文檔的IPC分類號之間重疊的IPC分類號的數量,所述重排序模塊還適于計算IPC-重疊,其包括適于定義兩個IPC分類號之間的重疊得分、基于IPC分類號結構將每個IPC分類號分為多個級的代碼,并且其中兩個IPC分類號之間的第一級重疊產生第一得分并且兩個IPC分類號之間的第二級重疊產生第二得分。
7.根據權利要求6所述的系統,其中給定專利文檔的IPC-重疊是該專利文檔的IPC分類號與所述一組初始高排位專利文檔的所有IPC分類號之間的平均重疊得分。
8.根據權利要求7所述的系統,其中專利文檔的IPC-重疊得分與其相關性得分直接相關。
9.根據權利要求I所述的系統,其中基于先前執行的學習過程所配置的所述重排序模塊包括自動生成的訓練數據,所述自動生成的訓練數據被處理以建立將被分配給所述一組專利特征中的各個特征的相關性權重。
10.根據權利要求9所述的系統,其中所述學習模塊收集訓練數據并且至少部分地基于所收集的訓練數據為所述一組專利特征分配相關性權重。
11.根據權利要求I所述的系統,其中所述搜索引擎包括適于產生所述第一組候選專利文檔的基于基線文本的檢索系統。
12.根據權利要求I所述的系統,其中所述查詢可包括多個獨立定義的查詢術語,所述獨立定義的查詢術語中的一個或多個被所述搜索引擎處理以對包括在所述第一組候選專利文檔中的專利進行劃界或加權。
13.根據權利要求I所述的系統,其中所述查詢可包括多個獨立定義的查詢術語,所述獨立定義的查詢術語中的一個或多個被所述重排序模塊處理以對所述一組專利特征進行劃界或加權。
14.一種用于接收和處理搜索查詢并且向用戶呈現搜索結果的方法,所述方法包括 a)接收包括表示專利權利要求搜索的術語的查詢; b)使用搜索引擎從數據庫中檢索第一組專利信息,所述第一組專利信息中的每一個包括響應于所述查詢的一個或多個權利要求; c)基于一組專利特征重排序所述第一組專利信息以生成一組經重排序的專利信息;以及 d)為顯示而生成來源于所述一組經重排序的專利信息的響應于所述查詢的一組有序信息。
15.根據權利要求14所述的方法,其中所述第一組專利信息包括專利文檔。
16.根據權利要求14所述的方法,其中為顯示而生成的所述一組有序信息包括響應于所述查詢的專利權利要求。
17.根據權利要求14所述的方法,其中為顯示而生成的所述一組有序信息包括到專利文檔的鏈接。
18.根據權利要求14所述的方法,其還包括收集訓練數據并且至少部分地基于所收集的訓練數據為所述一組專利特征分配相關性權重。
19.根據權利要求14所述的方法,其還包括為所述第一組專利信息中的每一個生成與所述一組專利特征相關聯的一組特征得分,并且至少部分地基于所述一組特征得分重排序來生成所述一組經重排序的專利信息。
20.根據權利要求19所述的方法,其還包括對所述一組特征得分中的一個或多個進行歸一化。
21.根據權利要求14所述的方法,其中所述一組專利特征包括來自包括下列各項的集合的一個或多個專利的字段;專利名稱;專利摘要;專利IPC分類號;專利參考文獻;專利權利要求;排位-c,其表示所述第一組候選專利中的專利的任何權利要求的最低排位;sim(c, c),其表示所述查詢與所述第一組候選專利中的專利的權利要求之間的最高相似度得分;sim(c,cs),其表示所述查詢與所述第一組候選專利中的專利的所有權利要求之間的相似度得分;sim(c,名稱),其表示所述查詢與所述第一組候選專利中的專利的名稱之間的相似度得分;sim(c,摘要),其表示所述查詢與所述第一組候選專利中的專利的摘要之間的相似度得分;sim(關鍵概念,關鍵概念),其表示所述查詢的關鍵概念與所述第一組專利中的專利的關鍵概念之間的相似度得分;sim(關鍵概念,名稱),其表示所述查詢的關鍵概念與所述第一組專利中的專利的名稱之間的相似度得分;sim(關鍵概念,摘要),其表示所述查詢的關鍵概念與所述第一組專利中的專利的摘要之間的相似度得分;IPC-重疊,其表示所述第一組專利中的專利的IPC分類號與所述第一組專利中的一組初始高排位專利的IPC分類號之間重疊的IPC分類號的數量;以及直接引用,其表示所述一組初始高排位專利文檔中引用所述第一組專利文檔中的專利或被所述第一組專利文檔中的專利引用的專利的數量。
22.根據權利要求14所述的方法,其中所述一組專利特征包括IPC-重疊,其表示所述第一組專利文檔中的專利的IPC分類號與所述第一組專利中的一組初始高排位專利文檔的IPC分類號之間重疊的IPC分類號的數量,所述重排序模塊還適于計算IPC-重疊,其包括適于定義兩個IPC分類號之間的重疊得分、基于IPC分類號結構將每個IPC分類號分為多個級的代碼,并且其中兩個IPC分類號之間的第一級重疊產生第一得分并且兩個IPC分類號之間的第二級重疊產生第二得分。
23.根據權利要求22所述的方法,其中給定專利文檔的IPC-重疊是該專利文檔的IPC分類號與所述一組初始高排位專利文檔的所有IPC分類號之間的平均重疊得分。
24.根據權利要求23所述的方法,其中專利文檔的IPC-重疊得分與其相關性得分直接相關。
25.根據權利要求14所述的方法,其中所述查詢可包括多個獨立定義的查詢術語。
26.一種在其上存儲有將由機器執行以進行操作的指令的機器可讀介質,所述指令包括用于下列操作的指令 呈現包括用于接收查詢輸入的輸入框的圖形用戶界面屏幕; 接收與專利權利要求術語相關的查詢; 針對與在包括專利文檔的數據庫中所表示的專利文檔相關聯的權利要求來處理所述查詢以生成響應于所述查詢的一組候選專利文檔; 至少部分地基于一組專利特征重排序所述一組候選專利文檔并且生成第二組經排序的專利文檔;以及 為查看而顯示與所述一組經排序的專利文檔相關聯的圖形用戶界面屏幕。
27.一種用于處理與專利權利要求術語相關的用戶查詢以生成響應于所述查詢的一組專利文檔的基于計算機的系統,所述系統包括 搜索引擎,其由計算機執行并且適于接收查詢以及基于所述查詢搜索包含在至少一個數據庫中的專利文檔的權利要求,并且適于產生第一組候選專利文檔;以及 重排序模塊,其包括可由所述計算機執行的代碼并且適于至少部分地基于一組專利特征來重排序所述第一組候選專利文檔以及生成第二組經排序的專利文檔,所述重排序模塊適于基于包括與所述權利要求的主題相關的至少一個分類特征的一組特征對所述一組特征進行加權。
28.根據權利要求27所述的系統,其中所述重排序模塊還適于為所述第一組候選專利文檔中的每一個生成與所述一組專利特征相關聯的一組特征得分,所述重排序模塊適于至少部分地基于所述一組特征得分重排序來生成所述第二組經排序的專利文檔。
29.根據權利要求28所述的系統,其中所述重排序模型還適于為所述第一組候選專利文檔中的每一個生成至少部分來源于一組特征得分的總得分,所述重排序模塊適于至少部分地基于與所述第一組候選專利文檔中的每個專利相關聯的總得分重排序來生成所述第二組經排序的專利文檔。
30.根據權利要求28所述的系統,其中所述一組特征得分中的一個或多個被歸一化。
31.根據權利要求27所述的系統,其中所述一組專利特征包括來自包括下列各項的集合的一個或多個專利的字段;專利名稱;專利摘要;專利IPC分類號;專利參考文獻;專利權利要求;排位-c,其表示所述第一組候選專利中的專利的任何權利要求的最低排位;sim(c, c),其表示所述查詢與所述第一組候選專利中的專利的權利要求之間的最高相似度得分;sim(c,cs),其表示所述查詢與所述第一組候選專利中的專利的所有權利要求之間的相似度得分;sim(c,名稱),其表示所述查詢與所述第一組候選專利中的專利的名稱之間的相似度得分;sim(c,摘要),其表示所述查詢與所述第一組候選專利中的專利的摘要之間的相似度得分;sim(關鍵概念,關鍵概念),其表示所述查詢的關鍵概念與所述第一組專利中的專利的關鍵概念之間的相似度得分;sim(關鍵概念,名稱),其表示所述查詢的關鍵概念與所述第一組專利中的專利的名稱之間的相似度得分;sim(關鍵概念,摘要),其表示所述查詢的關鍵概念與所述第一組專利中的專利的摘要之間的相似度得分;IPC-重疊,其表示所述第一組專利中的專利的IPC分類號與所述第一組專利中的一組初始高排位專利的IPC分類號之間重疊的IPC分類號的數量;以及直接引用,其表示所述一組初始高排位專利文檔中引用所述第一組專利文檔中的專利或被所述第一組專利文檔中的專利引用的專利的數量。
32.根據權利要求27所述的系統,其中所述一組專利特征包括IPC-重疊,其表示所述第一組專利文檔中的專利的IPC分類號與所述第一組專利中的一組初始高排位專利文檔的IPC分類號之間重疊的IPC分類號的數量,所述重排序模塊還適于計算IPC-重疊,其包括適于定義兩個IPC分類號之間的重疊得分、基于IPC分類號結構將每個IPC分類號分為多個級的代碼,并且其中兩個IPC分類號之間的第一級重疊產生第一得分并且兩個IPC分類號之間的第二級重疊產生第二得分。
33.根據權利要求32所述的系統,其中給定專利文檔的IPC-重疊是該專利文檔的IPC分類號與所述一組初始高排位專利文檔的所有IPC分類號之間的平均重疊得分。
34.根據權利要求33所述的系統,其中專利文檔的IPC-重疊得分與其相關性得分直接相關。
35.根據權利要求27所述的系統,其中基于先前執行的學習過程所配置的所述重排序模塊包括自動生成的訓練數據,所述自動生成的訓練數據被處理以建立將被分配給所述一組專利特征中的各個特征的相關性權重。
36.根據權利要求35所述的系統,其中所述學習模塊收集訓練數據并且至少部分地基于所收集的訓練數據為所述一組專利特征分配相關性權重。
37.根據權利要求27所述的系統,其中所述搜索引擎包括適于產生所述第一組候選專利文檔的基于基線文本的檢索系統。
38.根據權利要求27所述的系統,其中所述查詢可包括多個獨立定義的查詢術語,所述獨立定義的查詢術語中的一個或多個被所述搜索引擎處理以對包括在所述第一組候選專利文檔中的專利進行劃界或加權。
39.根據權利要求27所述的系統,其中所述查詢可包括多個獨立定義的查詢術語,所述獨立定義的查詢術語中的一個或多個被所述重排序模塊處理以對所述一組專利特征進行劃界或加權。
全文摘要
本發明提供了一種用于在專利檢索系統中重排序搜索結果的方法和系統,其中查詢文本全部或部分地來源于專利權利要求,所述專利權利要求可來自于現有的專利或預期的權利要求。所述重排序基于候選專利的若干特征,諸如與所述權利要求的文本相似度、國際專利分類號或其他分類或主題關聯性或重疊以及候選者的內部引用結構。一個備選方面提供了基于自動生成的訓練數據來訓練的重排序器,由此避免了昂貴且花費時間的專家評注步驟。
文檔編號G06F7/00GK102792262SQ201180008432
公開日2012年11月21日 申請日期2011年2月1日 優先權日2010年2月3日
發明者A.瓦奇赫, G.奎克, S.維拉馬查內尼, W.廖 申請人:湯姆森路透社全球資源公司