專利名稱:用于計算文檔重要性的設備及方法
技術領域:
本發明涉及信息檢索領域,具體涉及一種用于計算文檔重要性的設備及方法。
背景技術:
隨著電子信息量的不斷增長,大量的多樣化信息存在于不同的分布式系統中,使得用戶從中查找有用信息變得非常困難。 信息檢索(Infrmation Retrieval, IR)技術可用于在文檔集合中搜索特定信息,其可被進一步細分為搜索文檔中包含的信息、搜索文檔本身、搜索描述文檔的元數據、在數據庫中搜索文本、聲音、圖像或數據(無論是關系型單機數據庫還是超文本聯網數據庫,例如以太網或內容/文檔管理系統)。在給定查詢的情況下,文檔檢索主要使用查詢相關方法和查詢無關方法的組合來對文檔進行排序。查詢相關方法對查詢與文檔之間的相似度進行度量。查詢無關方法考慮與特定查詢的匹配程度無關的特征而對文檔進行排序。在實際使用中,無論是對于一般的文檔搜索引擎還是特定的查詢/回答或數據挖掘系統,使用查詢無關方法計算文檔重要性都扮演了重要的角色。傳統的信息檢索技術主要采用文檔的內部信息來度量查詢與文檔之間的相似度(查詢相關分數)。對于網頁排序,Web的超鏈接結構扮演了重要的角色。例如PageRank使用頁面在Web的圖結構中的位置來確定其重要性(查詢無關分數)。參考文獻I ( “The PageRank citation ranking Bringing order to theweb,,,L Page,S. Brin, R. Motwani,and T.Winograd, Technical Report,Stanford University,1999)描述了一種向網頁分配重要性等級的方法。該方法主要包括如下步驟(I)針對給定的網頁集合,提取超鏈接;(2)建立鏈接圖,將每一個頁面看作節點并將每一個超鏈接看作定向邊。⑶網頁重要性排序,鏈接圖可被理解為馬爾可夫鏈,其中網頁可被視為狀態,而頁面之間的鏈接可被視為狀態的跳轉。通過假定初始概率分布,計算對應的馬爾可夫鏈的穩態概率分布。參考文獻2(US6285999B1)描述了一種鏈接數據庫中的節點排序方法。對于鏈接數據庫中的文檔,根據引用該文檔的其他文檔的等級來計算該文檔的等級。然而,鏈接圖并不是很可靠的數據源,這是因為Web中的超鏈接可以由Web內容的創建者隨意增加或刪除,這使得網站的建立者能夠偽造網頁的重要性分數。此外,對于一般的文檔集合,不存在文檔之間的超鏈接關系,因此現有的技術方案無法應用于一般的文檔集合。
發明內容
為了解決上述技術問題,本發明使用目標文檔和外部文檔(即外部源中的文檔)之間的語義關聯來計算文檔重要性。具體地,本發明使用外部文檔集合作為隱性知識源,首先構建目標文檔與外部文檔之間的語義關聯,然后采用所構建的語義關聯來計算文檔的重要性分數。根據本發明的一個方面,提供了一種文檔重要性計算設備,包括語義關聯建立單元,用于建立來自目標文檔集合的目標文檔與來自外部文檔集合的外部文檔之間的語義關聯;以及文檔重要性計算單元,用于根據語義關聯來計算目標文檔的重要性分數。優選地,語義關聯建立單元度量目標文檔與外部文檔之間的文本相似度,由此來建立目標文檔與外部文檔之間的語義關聯。優選地,語義關聯建立單元把目標文檔和外部文檔分別定義為類文檔和實例文檔,并計算實例文檔屬于類文檔的概率,由此來建立目標文檔與外部文檔之間的語義關聯。
優選地,文檔重要性計算單元根據與目標文檔相關聯的外部文檔的個數來計算目標文檔的重要性分數。優選地,文檔重要性計算單元生成包括目標文檔作為節點的圖結構,所述圖結構中連接節點的每條邊都具有權重,所述每條邊的權重由與該邊所連接的兩個目標文檔都關聯的外部文檔的個數來決定,所述文檔重要性計算單元根據目標文檔的邊權重之和來計算目標文檔的重要性分數。優選地,文檔重要性計算單元生成包括目標文檔作為節點的圖結構,所述圖結構中連接節點的每條邊都具有權重,所述每條邊的權重由與該邊所連接的兩個目標文檔都關聯的外部文檔的個數來決定,所述文檔重要性計算單元根據與目標文檔相關聯的外部文檔的個數以及目標文檔的邊權重之和來計算目標文檔的重要性分數。優選地,文檔重要性計算單元首先根據與目標文檔相關聯的外部文檔的個數計算目標文檔的中間重要性分數,然后根據中間重要性分數和目標文檔的邊權重之和來計算目標文檔的重要性分數。優選地,文檔重要性計算設備還包括語義關聯存儲單元,用于存儲所述語義關聯建立單元建立的語義關聯。根據本發明的另一個方面,提供了一種文檔重要性計算方法,包括建立來自目標文檔集合的目標文檔與來自外部文檔集合的外部文檔之間的語義關聯;以及根據語義關聯來計算目標文檔的重要性分數。優選地,通過度量目標文檔與外部文檔之間的文本相似度,建立目標文檔與外部文檔之間的語義關聯。優選地,通過把目標文檔和外部文檔分別定義為類文檔和實例文檔并計算實例文檔屬于類文檔的概率,建立目標文檔與外部文檔之間的語義關聯。優選地,根據與目標文檔相關聯的外部文檔的個數來計算目標文檔的重要性分數。優選地,生成包括目標文檔作為節點的圖結構,所述圖結構中連接節點的每條邊都具有權重,所述每條邊的權重由與該邊所連接的兩個目標文檔都關聯的外部文檔的個數來決定,根據目標文檔的邊權重之和來計算目標文檔的重要性分數。優選地,生成包括目標文檔作為節點的圖結構,所述圖結構中連接節點的每條邊都具有權重,所述每條邊的權重由與該邊所連接的兩個目標文檔都關聯的外部文檔的個數來決定,根據與目標文檔相關聯的外部文檔的個數以及目標文檔的邊權重之和來計算目標文檔的重要性分數。
優選地,首先根據與目標文檔相關聯的外部文檔的個數計算目標文檔的中間重要性分數,然后根據中間重要性分數和目標文檔的邊權重之和來計算目標文檔的重要性分數。優選地,文檔重要性計算方法還包括在建立目標文檔與外部文檔之間的語義關聯后,存儲所述語義關聯。本發明能夠在文檔之間不存在超鏈接的情況下計算文檔的重要性分數,提高了文檔檢索的精確度。
通過下文結合附圖的詳細描述,本發明的上述和其它特征將會變得更加明顯,其中圖I是示出了根據本發明一個實施例的文檔重要性計算設備的框圖;圖2是示出了根據本發明另一個實施例的文檔重要性計算設備的框圖;以及圖3是示出了根據本發明一個實施例的文檔重要性計算方法的流程圖。
具體實施例方式下面,通過結合附圖對本發明的具體實施例的描述,本發明的原理和實現將會變得明顯。應當注意的是,本發明不應局限于下文所述的具體實施例。另外,為了簡便起見,省略了與本發明無關的公知技術的詳細描述。首先,通過下表I對本說明書中的幾個術語的含義做出如下說明
文檔重要性:I在給定查詢的情況下,主要使用查詢相關方
權利要求
1.一種文檔重要性計算設備,包括 語義關聯建立単元,用于建立來自目標文檔集合的目標文檔與來自外部文檔集合的外部文檔之間的語義關聯;以及 文檔重要性計算單元,用于根據語義關聯來計算目標文檔的重要性分數。
2.根據權利要求I所述的文檔重要性計算設備,其中,所述語義關聯建立単元度量目標文檔與外部文檔之間的文本相似度,由此來建立目標文檔與外部文檔之間的語義關聯。
3.根據權利要求I所述的文檔重要性計算設備,其中,所述語義關聯建立単元把目標文檔和外部文檔分別定義為類文檔和實例文檔,并計算實例文檔屬于類文檔的概率,由此來建立目標文檔與外部文檔之間的語義關聯。
4.根據權利要求I所述的文檔重要性計算設備,其中,所述文檔重要性計算單元根據與目標文檔相關聯的外部文檔的個數來計算目標文檔的重要性分數。
5.根據權利要求I所述的文檔重要性計算設備,其中,所述文檔重要性計算單元生成包括目標文檔作為節點的圖結構,所述圖結構中連接節點的每條邊都具有權重,所述每條邊的權重由與該邊所連接的兩個目標文檔都關聯的外部文檔的個數來決定,所述文檔重要性計算單元根據目標文檔的邊權重之和來計算目標文檔的重要性分數。
6.根據權利要求I所述的文檔重要性計算設備,其中,所述文檔重要性計算單元生成包括目標文檔作為節點的圖結構,所述圖結構中連接節點的每條邊都具有權重,所述每條邊的權重由與該邊所連接的兩個目標文檔都關聯的外部文檔的個數來決定,所述文檔重要性計算單元根據與目標文檔相關聯的外部文檔的個數以及目標文檔的邊權重之和來計算目標文檔的重要性分數。
7.根據權利要求6所述的文檔重要性計算設備,其中,所述文檔重要性計算單元首先根據與目標文檔相關聯的外部文檔的個數計算目標文檔的中間重要性分數,然后根據中間重要性分數和目標文檔的邊權重之和來計算目標文檔的重要性分數。
8.根據權利要求I所述的文檔重要性計算設備,還包括 語義關聯存儲単元,用于存儲所述語義關聯建立単元建立的語義關聯。
9.一種文檔重要性計算方法,包括 建立來自目標文檔集合的目標文檔與來自外部文檔集合的外部文檔之間的語義關聯;以及 根據語義關聯來計算目標文檔的重要性分數。
10.根據權利要求9所述的文檔重要性計算方法,其中,通過度量目標文檔與外部文檔之間的文本相似度,建立目標文檔與外部文檔之間的語義關聯。
11.根據權利要求9所述的文檔重要性計算方法,其中,通過把目標文檔和外部文檔分別定義為類文檔和實例文檔并計算實例文檔屬于類文檔的概率,建立目標文檔與外部文檔之間的語義關聯。
12.根據權利要求9所述的文檔重要性計算方法,其中,根據與目標文檔相關聯的外部文檔的個數來計算目標文檔的重要性分數。
13.根據權利要求9所述的文檔重要性計算方法,其中,生成包括目標文檔作為節點的圖結構,所述圖結構中連接節點的每條邊都具有權重,所述每條邊的權重由與該邊所連接的兩個目標文檔都關聯的外部文檔的個數來決定,根據目標文檔的邊權重之和來計算目標文檔的重要性分數。
14.根據權利要求9所述的文檔重要性計算方法,其中,生成包括目標文檔作為節點的圖結構,所述圖結構中連接節點的每條邊都具有權重,所述每條邊的權重由與該邊所連接的兩個目標文檔都關聯的外部文檔的個數來決定,根據與目標文檔相關聯的外部文檔的個數以及目標文檔的邊權重之和來計算目標文檔的重要性分數。
15.根據權利要求14所述的文檔重要性計算方法,其中,首先根據與目標文檔相關聯的外部文檔的個數計算目標文檔的中間重要性分數,然后根據中間重要性分數和目標文檔的邊權重之和來計算目標文檔的重要性分數。
16.根據權利要求9所述的文檔重要性計算方法,還包括 在建立目標文檔與外部文檔之間的語義關聯后,存儲所述語義關聯。
全文摘要
本發明提供了一種文檔重要性計算設備,包括語義關聯建立單元,用于建立來自目標文檔集合的目標文檔與來自外部文檔集合的外部文檔之間的語義關聯;以及文檔重要性計算單元,用于根據語義關聯來計算目標文檔的重要性分數。本發明還提供了一種文檔重要性計算方法。本發明能夠在文檔之間不存在超鏈接的情況下計算文檔的重要性分數,可以有效提高文檔檢索的精確度。
文檔編號G06F17/30GK102682040SQ20111007486
公開日2012年9月19日 申請日期2011年3月16日 優先權日2011年3月16日
發明者劉博 , 李建強, 趙彧 申請人:日電(中國)有限公司