一種基于圖模型的中文集成實體鏈接方法
【技術領域】
[0001]本發明涉及自然語言處理(NLP)領域,具體涉及到實體鏈接、知識庫擴展、信息抽取、問答系統以及搜索引擎優化。
【背景技術】
[0002]傳統的中文實體鏈接方法通過比較實體指稱項與候選實體的上下文相似度,然后選取相似度最大的候選作為鏈接的目標對象。然而這種方法存在缺陷,首先,它并沒有利用文本中實體間的語義相關性,而這種相關性恰恰可以在很大程度上提高消岐的準確性;其次,傳統的中文實體鏈接方法一次只能對一個歧義實體進行消歧,效率較低而且相似度比較的方法對于短文本的實體鏈接并不能取得很好的效果。
[0003]現有的集成實體鏈接方法在構建實體指示圖計算相關度時,將文本中所有實體指稱項均看做是可能相關的,然后在判斷它們的候選實體在現實世界中是否真實地存在關系。該方法是不合理的,因為一個實體指稱項在一般情況下只與文本中的少數實體指稱項可能相關。如果將文本中的所有實體指稱項均視為可能相關,在構建實體指示圖時會耗費很多不必要的計算時間,增加了計算的成本代價。
[0004]現有的中文知識庫較少,而且知識庫所包含的實體知識不完整,并不能很好的滿足實體鏈接的要求。因此,由于受到知識庫知識量的限制,實體鏈接的整體效果將會受到很大的影響。
【發明內容】
[0005]本發明提供了一種基于圖模型的中文集成實體鏈接方法。通過尋求最優的可能相關實體和增量證據挖掘構建實體指示圖,對文本中多個歧義實體進行消歧。用以解決現有實體鏈接方法中知識庫知識不足、構建實體指示圖效率低的缺陷,提供一種更加有效的實體鏈接方法。
[0006]本發明提供一種基于圖模型的中文集成實體鏈接方法,包括:
[0007]對于給定的文本,首先識別出其中的實體指稱項,獲取候選實體。然后將實體指稱項及其候選實體視為圖節點,實體間的相關性表示邊構造實體指稱圖。最后在實體指示圖應用出入度算法,實現對文本中多個歧義實體的消歧。
[0008]本發明提供一種基于圖模型的中文集成實體鏈接方法,還包括:
[0009]在構建實體指示圖計算實體相關性時,若當前知識庫的知識不能滿足實體鏈接所需的知識要求(在知識庫中找不到實體間的關系),則通過增量證據挖掘到實體的互動百科網頁去尋找證據。
[0010]為了減少構建實體指示圖所耗費的時間代價,利用依存路徑分析尋找最優可能相關實體指稱項。當兩個實體指稱項的依存路徑大小在設定值范圍內時才認為它們可能相關,進一步判斷它們的候選實體在現實世界中是否存在關系。
[0011]為了能夠對文本中的多個實體同時進行消歧,本發明在實體指示圖上應用出入度算法,并根據候選實體的出入度和先驗概率對候選實體進行重要性排序,選擇重要性最大的候選實體作為目標鏈接對象。
[0012]與現有技術相比,本發明的有益效果是主要有以下幾點:
[0013]1.本發明能夠同時對文本中的多個實體進行消歧,而且準確率比現有技術要好。
[0014]2.本發明構建實體指示圖的效率更高,構建的實體指示圖更準確。
【附圖說明】
[0015]為了更清楚地說明本發明,下面將對本發明所需使用的附圖作一簡單地介紹:
[0016]圖1為集成實體鏈接的流程圖
[0017]圖2為候選實體生成的示意圖
[0018]圖3為實體指示圖構造的示意圖
[0019]圖4為集成實體消歧的示意圖
【具體實施方式】
[0020]本發明的核心思想是:利用實體在知識庫中的關系構建實體指示圖,將文本中的實體以及他們的候選實體看做是圖的節點,節點之間的邊表示它們的語義相關性。若它們在知識庫中不存在關系時,通過增量證據挖掘到實體對應的百科頁面尋找證據構建實體指示圖。最后在實體指示圖上應用出入度算法,由此實現對同一文本中多個歧義實體的集成鏈接。
[0021]為了使本發明的目的,方法和有點更加清楚,下面結合附圖對本發明做進一步的詳細說明。
[0022]圖1為本發明集成實體鏈接方法的流程圖,如圖1所示,基于圖模型的中文集成實體鏈接的方法主要由候選實體生成、實體指示圖構造、集成實體消歧三部分組成。具體的實施方案如下:
[0023]100、候選實體生成
[0024]候選實體生成是整個方法的最為基本的一步,如圖2所示,其主要包含實體識別和候選實體的生成兩部分。對于步驟201實體識別,本發明借助中科院的分詞工具ICTCLAS的詞性標注(nr表人名,ns表地名,nt表機構名,nz表其他專用名詞)進行實體識別。由于中文語言具有一定的特殊性,為了保證實體識別的準確性和全面性,在利用ICTCLAS詞性標注的同時,針對一些專有名詞以及比較難識別的實體名創建一個名字字典。
[0025]針對步驟203候選實體的產生,本文采用Iucene對知識庫進行索引,比較輸入文本中實體指稱項與知識庫中實體的索引是否相同,如果相同,則將這些實體當做是文本中實體指稱項的候選實體(注:建立知識庫時,為每個實體都建立了索引且同一歧義實體的所有候選實體的索引相同)。
[0026]101、實體指示圖構造
[0027]將實體指稱項以及它們的候選實體看做是實體指示圖的節點,實體間的關系表示邊。實體指示圖是一個有向圖,如圖3所示,其構造主要包括先驗概率(上下文相似度)和實體相關度的計算以及增量證據挖掘。
[0028]候選實體的先驗概率給定了輸入文本中實體指稱項指向該候選實體的概率大小,對減少圖節點的數目,加快實體鏈接的速度具有重要作用。將實體指稱項的輸入文本與其候選實體百科頁面的余弦相似度作為候選實體的先驗概率,先驗概率小于設定值的候選實體將會被從候選實體集合中刪除。
[0029]步驟301相關度的計算是圖模型的核心,是實體指示圖中邊建立的依據。本發明的相關度計算方案如下:
[0030]I)利用依存分析樹對輸入文本進行解析,對每一個實體指稱項,根據依存路徑尋找其文本中與其最優可能相關的實體指稱項,當兩實體指稱項間的依存路徑大小在設定值范圍內時本發明則認為它們可能相關。
[0031]2)對于最有可能相關的實體指稱項,得到它們的候選實體集合,針對所有的候選實體節點,首先判斷兩個實體節點在知識庫中是否存在直接關系,若存在直接關系,則在兩個節點之間加一條有向邊,方向由關系的起點指向關系的終點。若兩個實體節點在知識庫中不存在直接關系,則判斷它們在知識庫是否存在間接關系,即兩個實體節點是否均與第三個節點有關系,若存在間接關系,則在兩個節點之間加兩條方向相反的有向邊。
[0032]3)若上述條件均不成立或某些實體在知識庫中不存在候選實體時,則通過步驟303增量證據挖掘到實體的百科頁面去尋找這些節點之間是否存在語義相關性。如果一個實體節點的百科頁面直接包含了另一個實體節點,說明這兩個實體節點之間是相關的,則在這兩個實體節點之間加一條有向邊,方向由前者指向后者。若一個實體節點的百科頁面沒有直接包含另一個實體節點,則判斷兩個實體節點的百科頁面是否包含一個或者多個相同的第三方實體(當然,該第三方節點不能是“大眾”節點,比如中國在好多實體頁面都出現的,但這些實體之間并不存在什么關系,采用基于規則的方法過濾掉這些鏈接),若是,則在兩個實體節點間加兩條方向相反的有向邊。注意同一實體指稱項的候選實體之間不加任何有向邊。
[0033]102、集成實體消岐
[0034]如圖4所示,集成實體消歧的核心是步驟401候選實體出入度計算。根據步驟304輸出的實體指示圖,計算每個歧義實體的候選實體的出入度之和,然后根據候選實體的出入度和與先驗概率對候選實體進行重要性排序,選擇重要性最大的候選實體節點作為最終的鏈接對象。
【主權項】
1.一種基于圖模型的中文集成實體鏈接方法,其特征是: 對于給定的文本,首先識別出其中的實體指稱項,獲取候選實體。然后將實體指稱項及其候選實體視為圖節點,實體間的相關性表示邊構造實體指稱圖。最后在實體指示圖應用出入度算法,實現對文本中多個歧義實體的消歧。2.根據權利要求1所述的方法,其特征在于: 本發明在計算實體相關性時,不完全依賴于知識庫固有的知識規模大小。在知識庫不能滿足鏈接所需的知識要求時,通過增量證據挖掘到實體的互動百科頁面尋找證據,以便最全面地計算實體相關性。3.根據權利要求1所述的方法,其特征在于,還包含: 本發明在尋找最優可能相關實體指稱項時,并不是粗糙地將文本中所有實體指稱項均看做是可能相關的,而是采用依存分析樹進行依存路徑分析。當兩個實體指稱項的依存路徑大小在設定值范圍內時才看做是最優可能相關的實體指稱項,在進一步判斷它們的候選實體在現實世界中是否存在關系,這樣可以大大提高消岐的效率。4.根據權利要求1所述的方法,其特征在于,還包括: 本發明在對文本中多個歧義實體進行同時消歧時,采用在實體指示圖上應用出入度算法,并根據候選實體的出入度和與先驗概率對候選實體進行重要性排序,選擇重要性最大的候選實體作為目標鏈接對象。該方法簡單、有效。
【專利摘要】本發明公開一種基于圖模型的中文集成實體鏈接方法,能夠將文本中的歧義實體映射成實世界的具體實體,為知識庫擴展、信息抽取、搜索引擎提供幫助。其方法主要包括候選實體生成、實體指示圖構造,集成實體消歧三部分。對于給定的文本,識別出其中的實體指稱項,獲取候選實體。將實體指稱項及其候選實體視為圖節點,構造實體指稱圖。對實體指示圖應用出入度算法,實現對文本中多個歧義實體的消歧。本發明在建立實體指示圖時不完全依賴于知識庫,能夠通過增量證據挖掘到百科網頁上尋找證據。采用依存路徑分析尋找可能相關實體指稱項,當兩個實體指稱項的依存路徑大小在設定值范圍內時才看做是可能相關實體指稱項,在進一步判斷它們的候選實體在現實世界中是否存在關系,這樣大大提高了消歧的效率。
【IPC分類】G06F17/30
【公開號】CN105183770
【申請號】CN201510475469
【發明人】劉嶠, 劉瑤, 秦志光, 其他發明人請求不公開姓名
【申請人】電子科技大學
【公開日】2015年12月23日
【申請日】2015年8月6日