專利名稱:一種基于關系關鍵詞擴展的元組精化的控制方法
技術領域:
本發明涉及知識庫擴展、網絡抓取、淺層語言處理技術(實體識別、分詞)、數值統計等技術領域,具體的說是一種基于關系關鍵詞擴展的元組精化方法。
背景技術:
隨著互聯網的快速發展,如何從海量的無結構的數據里抽取出結構化的數據成為當前的研究熱點,目前信息抽取的主要研究方向是命名實體識別、指代消解、實體關系抽取等,其中實體關系抽取是當前的重要的研究內容。而當前實體關系抽取有基于知識工程的方法和基于機器學習的方法。但是基于知識工程的方法需要大量人力同時需要構建專業知識,使得領域的可移植性差,而基于機器學習的方法需要使用大量深層語言處理技術, 比如基于SVM方法在構造特征向量時需要用到句法分析和語義分析、基于kernel的方法通過引入依存樹來構建最短樹核、弱監督的自舉方法需要詞法分析中的命名實體識別技術等,僅從抽取方法上改進很難進一步提高實體關系的效果,本發明提出了一種元組精化方法以提聞實體關系抽取的準確率。
當前實體關系抽取中元組精化方法集中在可信度評估,snowball方法在沒有人工干預的情況下評估模式和元組,僅僅保留最可信(超過閾值T)的模式和元組進入下一輪迭代。但其可信度評估僅僅依賴關系的一個關鍵屬性擴展性小。哈工大方法設計了元組的可信度自動評估方法,哈工大方法僅僅利用種子元組可信度來評估其它元組,并未考慮到元組和模式的多樣性,使得準確率不高。本文提出了一種基于關系關鍵詞擴展的元組精化方法,利用關系的多樣性和網絡信息的冗余性,根據實體和關鍵詞共現特征和就近原則從網絡中提取實體,從而對實體關系抽取中的元組進行精化。此精化方法獨立于抽取方法,使得本發明的方法可移植性強,且準確率高。發明內容
針對現有技術的缺陷,本發明的目的是提供一種基于關系關鍵詞擴展的元組精化方法。
根據本發明的關系關鍵詞擴展,提供了一種基于知識庫擴展的關系關鍵詞擴展方法,利用關系的多樣性,利用《同義詞詞林擴展版》將實體關系關鍵詞進行初步擴展,然后再手工去掉一些停用詞和錯誤詞,這樣擴展后的詞語就能更好的表示關系的多樣性。
首先根據本發明的方法,需要用戶采取某種實體關系抽取方法(未經精化)抽取元組,作為待評估元組。然后,利用待評估元組構造初始元組,再利用實體和關鍵詞共現的特性,從網絡中就近抽取預先已定義類型的另一實體,從而達到元組精化的目的。
本方法中僅利用淺層語言處理技術(分詞、實體識別)等,避免了深層語言技術當前無可避免的噪音問題。
根據本發明的一個方面,提供一種在自然語言處理系統中基于關系關鍵詞擴展的元組精化的控制方法,其特征在于,包括如下步驟a.擴展待評估元組的關系關鍵詞;b.獲取與所述關系關鍵詞相適應的共現句集合;c.根據所述共現句集合抽取候選實體集合;以及d.確定用于替換的實體,將所述替換實體作為所述待評估元組中的實體。
根據本發明的另一個方面,還提供一種基于關系關鍵詞擴展的元組精化方法,其特征在于,包括如下步驟a.關系關鍵詞擴展;b.抓取共現句集合;c.抽取候選實體集合; d.數值統計抽取實體。
優選地,所述步驟a包括如下步驟al.構建初始元組(el, k, r_type),利用某一實體關系抽取出待評估元組(el, e2, k, r_type),初始元組來源于待評估元組;a2.構建關系擴展表{ (k,ki)},利用關系的多樣性,首先用《同義詞詞林擴展版》對關系關鍵詞進行同義詞擴展,再手工去掉一些停用詞和不常用詞;a3.構建關系擴展元組集合{ (el,ki,r_ type) },利用初始元組和關系關鍵詞擴展表對關系關鍵詞進行擴展,構成關系關鍵詞擴展后的元組集合。
優選地,所述步驟通過構建實體一與關系關鍵詞共現的句子集合SS,利用網絡信息的冗余性,抽取關系擴展元組集合中的實體一和關系關鍵詞共現的句子集合。
優選地,所述步驟c包括如下步驟cl.對共現句集合SS進行實體識別和分詞等淺層語言處理;c2.利用就近原則和預先定義的實體類型從共現句集合中抽取候選實體集口 ο
優選地,所述步驟d利用數值統計從候選實體集合中抽取統計值最高的詞作為實體二。
本發明公開了一種基于實體關鍵詞擴展的元組精化方法,不需要深層語言處理技術,也不需要依賴實體關系抽取方法。當用戶通過實體關系抽取方法抽出實體后(未經精化),利用關系關鍵詞擴展技術對實體關系關鍵詞進行擴展,再利用網絡信息的冗余性,利用實體和關鍵詞共現特征從共現句集合中就近抽取出候選實體,取候選實體集中統計值最優的詞作為實體,從而對元組進行精化。針對當前實體關系抽取準確率低,使用本方法可避免深層語言處理帶來的噪音,同時盡量獨立于實體關系抽取方法且獨立于抽取過程,期待能提聞實體關系抽取的效果。
通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發明的其它特征、 目的和優點將會變得更明顯
圖I示出根據本發明的第一實施例的,一種在自然語言處理系統中基于關系關鍵詞擴展的元組精化的控制方法的流程圖2示出根據本發明的第一實施例的,一種在自然語言處理系統中基于關系關鍵詞擴展的元組精化的控制方法擴展關系關鍵詞的流程圖3示出根據本發明的第一實施例的,一種在自然語言處理系統中基于關系關鍵詞擴展的元組精化的控制方法根據擴展關系關鍵詞替換元組實體的流程圖;以及
圖4示出根據本發明的一個具體實施方式
的,一種在自然語言處理系統中基于關系關鍵詞擴展的元組精化的控制方法的流程圖。
具體實施方式
本發明公開了一種基于實體關鍵詞擴展的元組精化方法,不需要深層語言處理技術,也不需要依賴實體關系抽取方法。
當用戶通過實體關系抽取方法抽出實體后(未經精化),利用關系關鍵詞擴展技術對實體關系關鍵詞進行擴展,再利用網絡信息的冗余性,利用實體和關鍵詞共現特征從共現句集合中就近抽取出候選實體,取候選實體集中統計值最優的詞作為實體,從而對元組進行精化。
針對當前實體關系抽取準確率低,使用本方法可避免深層語言處理帶來的噪音, 同時盡量獨立于實體關系抽取方法且獨立于抽取過程,提高實體關系抽取的效果。
本方法包含了一種關系關鍵詞擴展的方法。該方法結合了基于知識工程的自動擴展和手工擴展方法,充分利用了關系的多樣性。
本方法也利用了網絡信息的冗余性,通過實體和關系關鍵詞共現特征,從網絡中提取共現句集合,通過淺層語言處理技術就近提取實體,最后取統計值最優的詞作為實體, 從而對待評估元組進行精化。
本方法利用關系多樣性和網絡信息冗余性,實現了一種基于關系關鍵詞擴展的元組精化方法,避免使用深層語言處理技術,采用數值統計的方法就近抽取實體。本方法獨立于實體關系抽取方法,避免使用深層語言處理技術。使得實體關系抽取可移植性好抽取效果好。
通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發明的其它特征、 目的和優點將會變得更明顯
圖I示出根據本發明的第一實施例的,一種在自然語言處理系統中基于關系關鍵詞擴展的元組精化的控制方法的流程圖。具體地,本領域技術人員理解,本發明提供的基于關系關鍵詞擴展的方法適用于關系詞明確的實體關系抽取方法中。例如StatSnowbalI種子元祖由(el,e2, k)組成,其中el代表實體一,e2代表實體二,k代表關系詞。則可利用關系關鍵詞擴展對StatSnowball方法進行元祖精化。更具體地,圖I示出了四個步驟。首先是步驟S201,擴展待評估元組的關系關鍵詞。然后是步驟S202獲取與所述關系關鍵詞相適應的共現句集合。步驟S203根據所述共現句集合抽取候選實體集合。最后執行步驟S204 確定用于替換的實體,將所述替換實體作為所述待評估元組中的實體。本領域技術人員理解,所述待評估元組至少包括實體一,實體二,待評估關系關鍵詞以及待評估關系類型。本發明對所述待評估元組中的關系關鍵詞進行同義詞擴展,并進一步獲取與所述待評估元組中某一實體具有類似關系的,出現頻率最高的實體以對待評估元組進行精化,使得最后確定的用于替換的實體比原實體更加適用于原關系關鍵詞。本發明基于上述四個步驟針對當前實體關系抽取準確率低,可避免深層語言處理帶來的噪音,同時盡量獨立于實體關系抽取方法且獨立于抽取過程,提高實體關系抽取的效果。
圖2示出根據本發明的第一實施例的,一種在自然語言處理系統中基于關系關鍵詞擴展的元組精化的控制方法擴展關系關鍵詞的流程圖。具體地,本圖示出了五個步驟。 首先是步驟S301獲取待評估元組。然后是步驟S302根據待評估元組生成初始元組。步驟 S303將所述初始關系關鍵詞進行同義詞擴展。步驟S304去除停用詞和不常用詞。最后為步驟S305生成擴展后的關系關鍵詞集合。具體地,本領域技術人員理解,所述待評估元組至少包括實體一,實體二,待評估關系關鍵詞以及待評估關系類型。所述初始元組包括初始實體,初始關系關鍵詞以及初始關系類型。其中,所述初始實體從所述實體一、實體二中選擇,所述初始關系關鍵詞與待評估關系關鍵詞相同,所述初始關系類型與所述待評估關系類型相同。當所述初始實體任取所述待評估元組中所述實體一以及實體二中任意一個實體時,需要注意的是實體關系類型的變化。例如(奧巴馬,美國,總統),如果取(奧妾(巴)馬, 總統)則實體關系類型為“人物與國家”,如果取(美國,總統),則實體關系類型為“國家與人物”。更進一步地,本領域技術人員理解,所述關系關鍵詞優選地,根據《同義詞詞林擴展版》進行擴展。由于《同義詞詞林》著作時間較為久遠,且之后沒有更新,所以原書中的某些詞語成為生僻詞,而很多新詞又沒有加入。有鑒于此,哈爾濱工業大學信息檢索實驗室利用眾多詞語相關資源,并投入大量的人力和物力,完成了一部具有漢語大詞表的《哈工大信息檢索研究室同義詞詞林擴展版》。擴展版剔除了原版中的14,706個罕用詞和非常用詞,最終的詞表包含77,343條詞語。擴展后的《同義詞詞林》,含有比較豐富的語義信息。但是目前由于種種原因,《同義詞詞林》完整版并沒有共享,而只是共享了其中的詞典文件。期待著哈工大信息檢索實驗室能夠在不久的將來能夠將完整版進行共享,以滿足研究和實際應用的需要。所述關系關鍵詞基于所述《同義詞詞林擴展版》擴展后生成關系關鍵詞集合,本發明提供的基于關系關鍵詞擴展的兀組精化的方法根據生成的關系關鍵詞集合以及初始兀組中的實體對待評估元組進行精化。
圖3示出根據本發明的第一實施例的,一種在自然語言處理系統中基于關系關鍵詞擴展的元組精化的控制方法根據擴展關系關鍵詞替換元組實體的流程圖。首先是步驟 S401獲取所述初始實體與所述關系關鍵詞集合中每一個關系關鍵詞的所述共現句集合。之后為步驟S402對所述共現句集合中每一個共現句進行實體識別以及分詞處理。分詞處理完畢后,執行步驟S403提取所述共現句集合中與所述初始實體以及所述擴展后的關系關鍵詞最近的實體。步驟S404根據預先定義的實體類型抽取候選實體集合。上述步驟S402 至步驟S404基于就近原則完成候選實體集合的抽取。具體地,本領域技術人員理解,所述預先定義的實體類型是根據待評估元組中的關系類型推理出來的。例如所述關系類型為 “人物與國家”,則實體一表示是人物類型,實體二表示是國家類型。所述初始元組選擇了實體一,則“國家"類型即是預定義的要提取的實體類型。之后執行步驟S405,記錄所述候選實體集合中每一個實體的頻數。步驟S406將所述頻數最高的候選實體以及所述初始實體作為待評估實體中的實體一以及實體二。最后執行步驟S407,將替換后的待評估元組作為精化后的元組。上述步驟S405至步驟S407確定替換的實體,并將該實體替換并未被選作初始實體的所述待評估元組中的實體,生成精化的元組。
更進一步地,本領域技術人員理解,所述共現句集合優選地,通過如下步驟進行抽取,首先,將所述初始實體與所述關系關鍵詞集合中每一個關系關鍵詞作為搜索關鍵詞輸入搜索引擎,并根據所述搜索結果各項標題和摘要獲取共現句集合。在本實施例的一個變化例中,所述共現句集合通過如下步驟進行抽取,將所述初始實體與所述關系關鍵詞集合中每一個關系關鍵詞作為關鍵詞輸入語料庫,并根據所述語料庫搜索結果獲取共現句集入口 ο
本方法需要采用一種實體關系抽取方法抽取待評估元組,下面以哈工大抽取方法為例,結合附圖對本發明做進一步說明。
圖4為本發明的流程圖。具體地,在圖4示出的實施例中,利用關系擴展表對實體CN 102982063 A書明說5/5頁
關系進行擴展,利用實體和關鍵詞共現特性,從網絡中抽取大量實體關系句,利用淺層語言處理技術對共現句進行處理,利用就近原則從中提取出符合預先定義實體類型的詞作為候選實體,再取最大統計詞作為實體,從而對待評估元組進行精化。
具體的方法流程圖如下
I.利用哈工大實體關系抽取方法抽取待評估元組(el,e2, k, r_type),其中el代表實體一,e2代表實體二,k代表關系關鍵詞,r_type代表關系類型。再根據待評估元組構造初始元組(el, k, r_type).其中,el, k, r_type來源于待評估元組。
2.構建關系擴展表,首先利用《同義詞詞林擴展版》對關系關鍵詞k進行同義詞擴展,然后再手工去掉一些停用詞和不常用詞,擴展后的關系擴展表為 KeywordsList{(k, ki)}.
3.構建關系關鍵詞擴展元組集合,利用關系擴展表對關系進行擴展,從而將初始元組擴展成為一個關系擴展的元組集合{(el, ki, r_type)}.
4.抽取實體與擴展后的關系關鍵詞共現的句子集合SS { (el,ki)}·
5.從共現句集合中抽取候選實體集合。利用淺層語言技術,對共現句集合進行實體識別和分詞等處理,應用就近原則和預先定義的實體類型抽取候選實體結合。
6.從候選實體集合中取統計值最高的詞作為實體二。
本發明公開了一種基于關系關鍵詞擴展的元組精化方法,其通過對實體關系抽取的結果做進一步精化以提高實體關系抽取的效果,本發明中的方法完全獨立于任何實體關系抽取方法,也適用于自舉方法任一輪迭代后,而且本方法僅使用淺層語言處理技術,避免了深層語言當前無法控制的噪音問題。本發明公開的方法包含一種基于關系關鍵詞擴展的元組精化方法,其中關系關鍵詞擴展,通過利用實體關系的多樣性,提出了一種基于知識庫自動擴展結合手工擴展方法,本發明利用實體和關系關鍵詞共現特性,從共現句中就近抽取預定定義類型的詞作為候選實體,最后利用數值統計從候選實體中取最優值作為實體。 本發明充分利用網絡信息的冗余性和實體關系的多樣性,對實體關系抽取的結果做進一步精化,提高實體關系抽取的效果。
以上對本發明的具體實施例進行了描述。需要理解的是,本發明并不局限于上述特定實施方式,本領域技術人員可以在權利要求的范圍內做出各種變形或修改,這并不影響本發明的實質內容。8
權利要求
1.ー種在自然語言處理系統中基于關系關鍵詞擴展的元組精化的控制方法,其特征在于,包括如下步驟 a.擴展待評估兀組的關系關鍵詞; b.獲取與所述關系關鍵詞相適應的共現句集合; c.根據所述共現句集合抽取候選實體集合;以及 d.確定用于替換的實體,將所述替換實體作為所述待評估元組中的實體。
2.根據權利要求I所述的控制方法,其特征在于,所述步驟a還包括如下步驟 al.獲取待評估元組; a2.根據待評估元組生成初始元組。
3.根據權利要求I或2所述的控制方法,所述待評估元組至少包括實體一,實體ニ,待評估關系關鍵詞以及待評估關系類型。
4.根據權利要求I至3任一項所述的控制方法,所述初始元組包括初始實體,初始關系關鍵詞以及初始關系類型。
5.根據權利要求I至4任一項所述的控制方法,所述初始實體從所述實體一、實體ニ中選擇,所述初始關系關鍵詞與待評估關系關鍵詞相同,所述初始關系類型與所述待評估關系類型相同。
6.根據權利要求I至5任一項所述的控制方法,其特征在于,所述步驟a2之后還包括如下步驟 a3.將所述初始關系關鍵詞進行同義詞擴展; a4.去除停用詞和不常用詞;以及 a5.生成擴展后的關系關鍵詞集合。
7.根據權利要求I至6任一項所述的控制方法,其特征在于,所述步驟b包括 bl.獲取所述初始實體與所述關系關鍵詞集合中每ー個關系關鍵詞的所述共現句集ロ ο
8.根據權利要求7所述的控制方法,其特征在于,獲取所述步驟bl包括如下步驟 bll.將所述初始實體與所述關系關鍵詞集合中每ー個關系關鍵詞作為搜索關鍵詞輸入搜索引擎;以及 bl2.根據所述捜索結果各項標題和摘要獲取共現句集合。
9.根據權利要求7所述的控制方法,其特征在于,獲取所述步驟bl包括如下步驟 bll'.將所述初始實體與所述關系關鍵詞集合中每ー個關系關鍵詞作為關鍵詞輸入語料庫;以及 bl2".根據所述語料庫捜索結果獲取共現句集合。
10.根據權利要求I至7任一項所述的控制方法,其特征在于,所述步驟C包括 Cl.對所述共現句集合中每ー個共現句進行實體識別以及分詞處理; c2.提取所述共現句集合中與所述初始實體以及所述擴展后的關系關鍵詞左右兩邊取最近的ー個詞,中間部分取全部的實體詞;以及 c3.根據預先定義的實體類型抽取候選實體集合。
11.根據權利要求8所述的控制方法,其特征在于,所述預先定義的實體類型根據所述待評估關系類型由初始實體確定。
12.根據權利要求I至9任一項所述的控制方法,其特征在于,所述步驟d包括 dl.記錄所述候選實體集合中姆ー個實體的頻數; d2.將所述頻數最高的候選實體以及所述初始實體作為待評估實體中的實體ー以及實體ニ;以及 d3.將替換后的待評估元組作為精化后的元組。
全文摘要
本發明提供一種在自然語言處理系統中基于關系關鍵詞擴展的元組精化的控制方法,其特征在于,包括如下步驟a.擴展待評估元組的關系關鍵詞;b.獲取與所述關系關鍵詞相適應的共現句集合;c.根據所述共現句集合抽取候選實體集合;以及d.確定用于替換的實體,將所述替換實體作為所述待評估元組中的實體。本發明中的方法完全獨立于任何實體關系抽取方法,也適用于自舉方法任一輪迭代后,而且本方法僅使用淺層語言處理技術,避免了深層語言當前無法控制的噪音問題。
文檔編號G06F17/30GK102982063SQ20121034975
公開日2013年3月20日 申請日期2012年9月18日 優先權日2012年9月18日
發明者楊小玲, 楊靜 申請人:華東師范大學