專利名稱:一種基于語義索引的檢索方法
技術領域:
本發明涉及數據檢索領域,更具體地,涉及一種基于語義索引的數據檢索方法。
背景技術:
基于計算機系統的文檔搜索處理器(即搜索引擎)已廣泛地用于對互聯網上的文 檔執行關鍵詞搜索。用關鍵詞在網絡上進行搜索,固然會給用戶提供很大幫助,具備較高的價值,但該 方法本身也存在著一個先天的不足,以至于在很大程度上影響著這種價值的發揮。具體地 說,由于網絡上的可用信息是海量的,而關鍵詞搜索僅僅依據關鍵詞匹配就將所得到的結 果提交給了用戶,以至于產生了大量的下載信息,這其中的絕大多數是與用戶所想要的信 息無關的或不重要的。基于關鍵詞檢索方法所存在的問題在科學技術領域也廣泛地存在。隨著越來越多 的研究機構、大學、圖書館、專利部門以及其他可供網絡訪問的技術和科學信息的增加,該 問題顯得尤為嚴峻。科研人員被太多的報章、專利以及關于他們所感興趣的主題的一般性 信息所淹沒。與之形成巨大的反差的是,在實際查詢中,用戶所需要的僅僅是和某一特定請求 相關的若干篇文章。面對上述查準率較低的情況,用戶在檢查檢索結果以確定其與用戶查 詢的相關性時目前只有兩個選擇——一種選擇是讀取摘要,另一種是瀏覽全文以確定是否 保存或打印出該檢索到的文章。而實際上,由于很多摘要并不全面,所以其常常不能反映出 用戶真正感興趣的特定主題或以不全面的方式論述該主題。因此,瀏覽摘要可能幾乎沒有 價值。而瀏覽全文則需要用戶花費過多的時間。目前已有多種嘗試,試圖提高搜索的查準率,但這些方法僅僅依賴于基于關鍵詞 的變化或所謂短語理解的各種技術進行的關鍵詞或短語搜索,其仍然需要用戶耗費太多的 精力和時間來確定真正需要的文檔。
發明內容
本發明的目的在于提供一種查準率較高的基于語義索引的檢索方法。為實現上述目的,根據本發明的一個方面,提供了一種基于語義索引的檢索方法, 包括下列步驟10)提取用戶請求的候選動賓結構并進行篩選,獲得合法動賓結構;20)匹配所述合法動賓結構和文檔的動賓結構,其中所述文檔的動賓結構是對文 檔進行提取并篩選所獲得。在上述方法中,所述篩選進一步包括下列步驟100)采用動賓結構實例匹配進行所述候選動賓結構的篩選。在上述方法中,所述篩選進一步包括下列步驟101)采用動賓結構語義匹配進行所述候選動賓結構的篩選。
在上述方法中,所述步驟101)中所說動賓結構語義匹配進一步包括下列步驟將待篩選的動賓結構表示為具體動詞Wl和具體名詞W2 ;利用搭配知識詞典的動賓搭配實例,選取能夠和所述具體名詞W2搭配的動詞概 念 VC2 ;利用語義限制詞典的動詞概念關系,獲得所述具體動詞Wl的動詞概念VCl ;將所述動詞概念VCl和所述動詞概念VC2相匹配。在上述方法中,所述提取進一步包括下列步驟分詞和詞性標注;進行動詞短語、名詞短語的句法分析。在上述方法中,所述步驟10)后還包括11)將所述合法動賓結構進行同義擴展,生成查詢表達式;所述步驟20)還包括201)匹配所述查詢表達式和所述文檔的動賓結構。在上述方法中,所述步驟201)后還包括步驟202)對于所述文檔的動賓結構與所述合法動賓結構相同的情況,則所述文檔在檢 索結果中居前,對于所述文檔的動賓結構與所述查詢表達式相同的情況,則所述文檔在所 述檢索結果中居后。在上述方法中,對于所述合法動賓結構為多個的情況,所述步驟202)中居后的文 檔根據下述規則排序對于所述合法動賓結構的查詢表達式的個數最少的,將所述居后的文檔居于所述 檢索結果中的最后。本發明的技術效果在于根據本發明的檢索方法,對用戶輸入的問句進行預處理后 執行問題識別,更精確地理解問句,提高了檢索的查準率;進一步地,還可以對識別的問題 進行查詢擴展,從而提高檢索的查全率。
圖1是根據本發明優選實施例的基于語義索引的檢索方法的流程圖;圖2是根據本發明優選實施例的提取候選動賓結構并進行篩選的流程圖;圖3是根據本發明優選實施例的動賓結構語義匹配的流程圖。
具體實施例方式為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖,對根據本發 明實施例的基于語義索引的檢索方法進一步詳細說明。應當理解,此處所描述的具體實施 例僅僅用以解釋本發明,并不用于限定本發明。根據本發明的優選實施例,該方法開始于與用戶希望獲取的文檔概念相關的自然 語言文本的用戶請求,例如一個自然語言問句。解析該用戶請求,以識別和存儲用戶請求中 的動詞及其賓語所構成的候選動賓結構對用戶請求進行中文分詞、詞性標記;一旦該請 求中的所有詞都被標記,則執行語義分析,在一個示例中,該語義分析包括識別用戶請求中 的動詞短語,然后識別用戶請求中的名詞短語。對此候選動賓結構進行篩選,獲得合法動賓結構。采用該合法動賓結構及其同義擴展作為查詢表達式來搜索。對文檔集合也提取動賓 結構并據此建立文檔語義索引,通過將查詢表達式與文檔語義索引進行匹配,并對匹配成 功的文檔加以排序,使得只有滿足查詢表達式的少量文檔返回給用戶。圖1示出了根據本發明的優選實施例的檢索方法的流程圖,如其所示,本發明的 檢索方法包括下列步驟步驟10,首先提取用戶請求的候選動賓結構并進行篩選,獲得合法動賓結構,也即 問題識別,該合法動賓結構有效表示了用戶請求的意圖。圖2示出了該步驟10的詳細流程, 該過程將在后面詳細描述。步驟11,將上述步驟10所提取的用戶請求的合法動賓結構進行同義擴展,生成查 詢表達式。同義擴展可以利用同義動賓結構數據庫,該數據庫集中了同義的動賓結構的實 例,例如“加熱(動詞)一水(賓語)”的同義組合可以是“提高(動詞)一水溫(賓語)”等, 該數據庫中的每一條記錄均按照動作-賓語格式存儲,具有相同含義的動賓結構被賦以相 同的標識符(ID)。將所提取的動賓結構與該數據庫中記錄進行匹配,若數據庫中存在與之 相同的記錄,則依據該記錄的ID執行同義擴展。由此,生成代表用戶請求的查詢表達式。步驟12,與對用戶請求提取動賓結構類似,對文檔集合中的文檔進行動賓結構提 取和篩選。步驟13,存儲步驟12所提取的動賓結構作為文檔語義索引。步驟14,匹配用戶請求的合法動賓結構和步驟11所生成的查詢表達式二者與文 檔語義索引,獲取匹配成功的文檔構成匹配文檔集合。步驟15,對步驟14獲得的匹配文檔集合中的匹配文檔執行結果排序。更具體地, 若匹配文檔的語義索引與用戶請求的動賓結構完全相同,則該匹配文檔排序居前,若匹配 文檔的語義索引與步驟11所生成的查詢表達式相同,則該匹配文檔排序靠后。更優選地, 對于可能出現的用戶請求的合法動賓結構不唯一的情況,按照其查詢表達式的個數對靠后 的文檔加以排序,即設若用戶請求為S,經提取得到動賓結構A和B,動賓結構A經過同義 擴展,得到Na篇文檔,而動賓結構B經過同義擴展,得到Nb篇文檔,若Nb > Na,則排序時將 Nb篇文檔置于Na篇文檔前。圖2示出了根據本發明優選實施例的提取候選動賓結構并進行篩選的流程圖。下 面將根據圖2詳細描述該過程步驟20,對用戶請求執行分詞和詞性標注,即詞法分析,將用戶請求切分成若干詞 語構成的詞串,并對各個詞語標示詞性。分詞和詞性標注屬于常用技術,例如可以采用正向 最大匹配分詞算法進行分詞,采用863詞性標注集進行詞性標注,此處不詳細說明。例如, 用戶請求為“如何去除食用油中的游離脂肪酸? ”,經過詞法分析得到如下分析結果如何/r去除/V食用油/n中/nd的/u游離/V脂肪酸/n ? /wp表1給出863詞性標注集及含義,說明了上述分析結果中的詞性標注標識及其含 義。表1 863詞性標注集及含義
標識含義示例標識含義示例
權利要求
1.一種基于語義索引的檢索方法,包括下列步驟10)提取用戶請求的候選動賓結構并進行篩選,獲得合法動賓結構;20)匹配所述合法動賓結構和文檔的動賓結構,其中所述文檔的動賓結構是對文檔進 行提取并篩選所獲得。
2.根據權利要求1所述的方法,其特征在于,所述篩選進一步包括下列步驟100)采用動賓結構實例匹配進行所述候選動賓結構的篩選。
3.根據權利要求1所述的方法,其特征在于,所述篩選進一步包括下列步驟101)采用動賓結構語義匹配進行所述候選動賓結構的篩選。
4.根據權利要求2所述的方法,其特征在于,所述步驟100)后包括下列步驟101)采用動賓結構語義匹配進行未通過所述步驟100)篩選的候選動賓結構的篩選。
5.根據權利要求3或4所述的方法,其特征在于,所述步驟101)中所說動賓結構語義 匹配進一步包括下列步驟將待篩選的動賓結構表示為具體動詞Wl和具體名詞W2 ;利用搭配知識詞典的動賓搭配實例,選取能夠和所述具體名詞W2搭配的動詞概念VC2 ;利用語義限制詞典的動詞概念關系,獲得所述具體動詞Wl的動詞概念VCl ; 將所述動詞概念VCl和所述動詞概念VC2相匹配。
6.根據權利要求1所述的方法,其特征在于,所述提取進一步包括下列步驟 分詞和詞性標注;進行動詞短語、名詞短語的句法分析。
7.根據權利要求1所述的方法,其特征在于,所述步驟10)后還包括11)將所述合法動賓結構進行同義擴展,生成查詢表達式; 所述步驟20)還包括201)匹配所述查詢表達式和所述文檔的動賓結構。
8.根據權利要求7所述的方法,其特征在于,所述步驟201)后還包括步驟202)對于所述文檔的動賓結構與所述合法動賓結構相同的情況,則所述文檔在檢索結 果中居前,對于所述文檔的動賓結構與所述查詢表達式相同的情況,則所述文檔在所述檢 索結果中居后。
9.根據權利要求8所述的方法,其特征在于,對于所述合法動賓結構為多個的情況,所 述步驟202)中居后的文檔根據下述規則排序對于所述合法動賓結構的查詢表達式的個數最少的,將所述居后的文檔居于所述檢索 結果中的最后。
全文摘要
本發明提供一種基于語義索引的檢索方法,包括下列步驟10)提取用戶請求的候選動賓結構并進行篩選,獲得合法動賓結構;20)匹配所述合法動賓結構和文檔的動賓結構,其中所述文檔的動賓結構是對文檔進行提取并篩選所獲得。上述檢索方法,更精確地理解了用戶的目的,有效提高了檢索的查準率。
文檔編號G06F17/30GK102117285SQ20091024399
公開日2011年7月6日 申請日期2009年12月30日 優先權日2009年12月30日
發明者王永剛, 范祝滿, 趙琦, 高建忠 申請人:安世亞太科技(北京)有限公司