專利名稱:利用結構信息進行實體關系提取的方法和系統的制作方法
技術領域:
本發明一般地涉及自然語言處理,更具體而言,涉及利用結構信息進行實體關系 提取的方法和系統
背景技術:
隨著數字信息量的持續增長及其可用性的不斷增強,用戶對于信息分析智能化的 要求越來越高,而傳統的信息檢索技術已經變得難以滿足這些需求。用戶希望計算機系統 能夠在理解明文文本方面扮演更加重要的角色。例如,用戶需要能夠自動提取出文本中的 實體之間的關系的系統。關系提取(Relation Extraction,RE)可被用于很多領域。例如,通過檢測開放域 文本并從中提取因果關系,可以有助于問答(Q-A)系統的開發。再比如,可以從生物醫學文 獻中發現基因與疾病的關系以用于疾病風險標記、診斷和預后,或者可以從在線社區站點 提取出社交關系并據此在日后向用戶提供更好的信息推薦。基于關系知識的應用的性能極大依賴于用于關系提取的所選算法或方法的質量。 最終用戶可以極大地受益于高質量的關系實例。因此,為了實現高性能的應用,如何提高關 系提取的精確性成為一個普遍問題。同時,僅僅通過對文本(例如句子)應用句法分析,無法解決關系提取的問題,因 為該問題的解決還依賴于找到某些語義信息。但是,現有技術中的語義分析方法的性能不 夠好,因此,如何最大限度地利用存在缺陷的語義技術也是一個極具挑戰性的問題。現有技術中已經開發出很多方法用于解決關系提取問題。但是這些現有方法在實 際應用中的性能并不令人滿意。基本的方案是從經標注的訓練文集學習平面文本模式(例 如正則表達式),并用提取出的模式來提取關系。正則表達式可以從標注了關系參數的句子 學習得至IJ。例如,在 EugeneAgichtein 禾口 Luis Gravano. Snowball 發表的文章“Extracting Relations fromLarge Plain-Text Collections,,(見 Proc. of the 5th ACM conference on Digitallibraries,2000)中提出一種用于提取“機構-地點”對的算法。該算法通過歸 納關系參數的上下文來生成模式。然后,提取出的候選模式被自動評價,并只有那些具有高 可信度的模式被保留下來,以用于尋找新的關系實例。新找到的關系實例將被用來提取更 多的候選模式。通過迭代,該算法可以獲得具有合理準確度的大量關系實例。該文章的內 容通過弓I用被整體上結合于此以用于所有目的。由于關系提取可以被視為一個順序標注問題,因此現有的順序標注方法(例如隱 馬爾可夫模型(HMM)、最大熵(ME)和條件隨機域(CRF))可以被用來解決關系提取問題。當 前廣泛使用的特征包括上下文詞、上下文詞的詞性(part-of-speech,P0S)標簽、判斷一對 實體(在依存樹中對應地標注為一對角色,也稱為參數(argument))是否處于同一窗口中 的窗口特征、從依存樹(cbpendency tree)或句法解析樹提取出的特征等等。例如,K. Nanda 所發表的文章"Combining lexical, syntacticand semantic features with maximum entropy models for extracting relations,,(見Proc. of the 42nd Anniversary Meetingof the Association forComputational Linguistics (ACL,04),2004)中就使用了從依存 樹或句法解析樹提取出的特征。被采用的特征包括在解析樹或依存樹上從關系的第一參數 到第二參數的路徑、第一和第二參數在依存樹上的父節點、上下文詞及其P0S標簽等。該方 法使用基于訓練文集的最大熵(ME)來訓練模型,并使用模型來提取新的關系實例。該文章 的內容通過弓丨用被整體上結合于此以用于所有目的。另外,關系提取還可以被視為一個分類問題,因此另一種關系提取技術可以基于 核方法(Kernel Method)。核方法是一種非參數密度估計技術,其計算數據實例之間的核函 數,其中核函數可以被理解為一種相似性度量。相關的核函數可以針對語串(句子的單詞 包)或依存樹(句子的結構信息)來定義。使用這種支持向量機(SVM)中的核,可以檢測 和提取出關系實例。Aron Culotta和Jeffrey Sorensen所發表的文章“D印endencyTree Kernels for Relation Extraction,,(見 Proc. of the 42nd AnniversaryMeeting of the Association for Computational Linguistics (ACL,04),2004)中提出了針對依存樹的核 函數。相應的特征包括樹節點的P0S標簽、依存類型、實體類型(例如“人”或“機構”)和 角色(例如“參數ARG-A”和“參數ARG-B”)。該函數首先檢查兩個依存樹的根是否相同。 如果兩個根不同,則兩個依存樹的相似性得分應該為0。否則,函數將計算子節點之間的相 似性。最后,該核函數在SVM中被使用,以訓練用于關系提取的分類器。該文章的內容通過 弓丨用被整體上結合于此以用于所有目的。然而,上述現有方法在關系提取期間都忽略了語義信息,而僅僅關注淺層的句子 結構信息,例如當前詞所依賴于的單詞的P0S標簽或者在依存樹上從關系參數“ARG-A”到 “ARG-B”的路徑。但是,這些“父節點”或“路徑”信息無法包含足夠有用的語義信息來區分 關系,因此現有的關系提取方案的性能較差。實際上,關系可以利用依存樹上具有完整語義含義的某一子結構來確定。這意味 著通過檢查句子的依存樹上枝干就足以檢測到關系。但是,當前已有的現有技術中尚未提 出有效的方法可被用來找到這些關鍵子結構。
發明內容
鑒于上述問題,本發明致力于提供一種更加精確且高效的實體關系提取方法和系 統。具體而言,本發明的技術首先從包含實際關系實例的依存樹提取出被稱之為“依存樹模 式”的關鍵子結構。然后,提取出的依存樹模式可被用于提高關系提取的精確度。根據本發明第一方面,提供了一種用于關系提取的方法,包括獲取文集,所述文 集包括多個已標注了關系的句子;獲取與所述文集中的句子結構相關的一組依存樹模式; 參考所述依存樹模式提取所述文集中的每個句子的特征,所述特征包含該句子的結構特 征;收集提取出的所述特征來訓練關系標注模型;以及將所述關系標注模型應用到未經標 注的句子以提取出關系實例。根據本發明第二方面,提供了一種用于關系提取的系統,包括文集獲取裝置,用 于獲取文集,所述文集包括多個已標注了關系的句子;依存樹模式獲取裝置,用于獲取與所 述文集中的句子結構相關的一組依存樹模式;特征提取裝置,用于參考提取出的所述依存 樹模式提取所述文集中的每個句子的特征,所述特征包含該句子的結構特征;關系標注模 型訓練裝置,用于收集所述特征提取裝置提取出的所述特征來訓練關系標注模型;以及模型應用裝置,用于將所述關系標注模型應用到未經標注的句子以提取出關系實例。由此可見,本發明的系統可以被分成兩個階段模型訓練階段和模型應用階段。在模型訓練階段期間,可以通過以下操作來獲得高度精確的關系標注模型1.首先,為了模型訓練,需要給出一已標注了關系的文集(;;同時,還需要從該文 集(;預先準備好一組依存樹模式,記作TPs。2.然后,可以利用準備好的依存樹模式提取出與文集(;中的各個句子相應的所需 特征,包括結構特征和傳統特征(例如上下文特征)。3.提取出的特征隨后被收集,并被用于訓練關系標注模型。關于關系標注模型的 訓練方法,可以使用傳統的機器學習技術。4.生成的關系標注模型被存儲,以備后用。在模型應用階段,本發明的系統可以通過以下操作來有效地提取關系實例5.用戶輸入希望提取關系實例的未經標注的文本,文本以句子為單位。6.對輸入的句子進行解析以獲得與之相關的依存樹。7.在模型訓練階段已經準備好的依存樹模式的集合此時可被用于提取與該輸入 的句子相應的特征。8.根據這些提取出的特征對輸入的句子標注關系參數。9.最后,將已經生成的關系標注模型應用到已標注了關系參數的句子,以提取出 關系實例。上述依存樹模式的集合可以由用戶預先創建,也可以從文集(;中自動提取。在從 文集(;中自動提取依存樹模式的情況下,本發明提出了的如下依存樹模式提取方法1.將文集中已標注的每個句子解析成相應的依存樹。依存樹可以由系統自動創 建,理想地,依存樹也可以由用戶手工創建。2.將所有依存樹聚類成不同群組,以使得同一群組中的依存樹在結構上具有高度 相似性。例如,在本發明的實施例中,可以基于最小嵌入子樹模式(LEST)來定義依存樹的 相似性函數。對于兩個依存樹、和、,其相似性函數SimUi,t2)具有兩個值,當依存樹、 和t2具有相同的LEST時Simai,、)= 1,而當依存樹、和t2具有不同的LEST時,Simh, t2) = 0。3.使用子樹挖掘算法提取出一個或多個閉合依存樹模式。例如,可以按如下迭代 方式提取3. 1使用每個群組的LEST作為種子模式的初始集合Sp ;3. 2向Sp中的種子模式添加一個額外節點以生成新的候選種子模式的集合;3. 3檢查各個候選種子模式的支持度以刪除掉無用的候選種子模式,這里的刪除 原則例如可以定義如下3. 3. 1如果一種子模式產生的所有候選種子模式的支持度都小于該種子模式的支 持度,則將該種子模式作為閉合依存樹模式輸出,并且對于該種子模式所產生的每個候選 種子模式若該候選種子模式的支持度小于一指定閾值,則刪除該候選種子模式,若該候選種子模式的支持度大于等于所述指定閾值,則保留該候選種子模式;否 則
3. 3. 2如果一候選種子模式的支持度等于生成該候選種子模式的種子模式的支持 度,則保留該候選種子模式,并且對于該種子模式的每個其它候選種子模式若該候選種子模式的支持度小于所述指定閾值,則刪除該候選種子模式,若該候選種子模式的支持度大于等于所述指定閾值,則保留該候選種子模式;3. 4使用保留的候選種子模式作為新的種子模式Sp重復上述步驟3. 2和3. 3,直 到種子模式的集合為空為止。利用本發明的系統和方法可以挖掘出有用的句子結構信息并將其用于關系提取。 并且,與現有方法相比,本發明的關系提取系統和方法能夠實現更好的性能。具體而言,句子結構信息是對實際關系的很好指示。在某些句子中指示關系的詞 通常位于相關依存樹上的固定位置上。即,在一組依存樹中通常包含某些潛在的公共子樹 模式。這些子樹模式可以很好地指示實際的實體關系。另外,提取出的句子結構信息對于過濾虛假關系實例也是非常有用的。利用句子 中的詞之間的語法關系可以提取出結構信息(即,依存樹模式)。這些依存樹模式可以容 易地將正確關系的結構與虛假關系的結構區分開來。例如,在句子“Tom,the brother of Kate, works in Microsoft now.,,中,可能形成虛假關系 < 人一組織,Kate,Microsoft〉。 利用傳統方法(例如正則表達式),該虛假關系很可能也會被識別出。然而,利用本發明的 系統,這樣的虛假關系可以被有效地過濾掉,因為“the brother of Kate”會被解析為節點 “Tom”的子樹。從結構角度講,“Kate”和“Microsoft”之間很難生成關系實例。另一方面, 如果傳統的正則表達式沒有被仔細地構建,則可能遺漏掉諸如 < 人_組織,Tom,Microsoft) 之類的正確關系。但是,利用本發明的系統,這樣的正確關系可以根據提取出的依存樹模式 來很容易地檢測出。還有,本發明采用了一種更有效的方法,用來集成句子結構特征和傳統特征。由于 句子結構可能非常復雜并且在解析句子期間可能發生某些差錯,因此某些依存樹模式可能 包含噪聲。因此,所提取的依存樹模型不能直接地、獨立地用來提取關系。本發明所提出的 方法建立了若干二元特征,用來反映某一句子的依存樹是否滿足某一依存樹模式。通過應 用基于特征的機器學習算法(例如CRF、SVM等),這些特征與其他傳統特征可以一起被用 于訓練關系標注模型。
結合附圖,從下面對本發明實施例的詳細描述,將更好地理解本發明,附圖中類似 的參考標注指示類似的部分,其中圖1A和圖1B是用于協助描述本發明所使用的基本概念的示意圖;圖2是示出根據本發明的實施例的關系提取系統200的內部結構的框圖;圖3是示出圖2所示系統200的操作示例的流程圖;圖4是示出系統200所包含的特征提取裝置的具體結構的框圖;圖5是示出通過解析獲得的與句子相關的依存樹的示例的示意圖;圖6是用于說明參考依存樹模式進行特征提取的過程的示意圖;圖7是示出系統200所包含的依存樹模式提取裝置的具體結構的框圖;圖8是示出圖7所包含的依存樹模式提取單元的一個示例的具體結構的框圖9是示出根據本發明的實施例的依存樹模式提取過程的流程圖;以及圖10是用于說明依存樹模式提取過程中進行的候選種子模式裁剪操作的一個示 例的示意圖。
具體實施例方式為了更好地描述本發明所提出的依存樹模式的提取過程,下面首先對描述中將用 到的一些基本概念作簡要說明。關系提取關系提取是一種用于發現兩個實體之間的關系的技術。例如,對于英文 句子“Tom works for Microsoft in Seattle. ”,關系提取可以檢出如下兩種關系(1)關 系 1 〈人-組織,Tom, Microsoft);或(2)關系 2 < 組織-地點,Microsoft, Seattle〉。依存樹依存樹是一種用于呈現句子成分之間的語法關系的表示方法。例如,以 上述句子“Tom works for Microsoft in Seattle. ”為例,其依存樹的結構可以如圖1A所 示,其中還對句子成分的詞性(P0S)和內嵌的關系進行了標注。交叉節點在一依存樹t上的兩個節點nl和n2的交叉節點n被記作crs (nl,n2, t) =n,其被定義為路徑nl —root(t)和路徑n2 — root (t)之間的第一個公共節點。例 如,如圖1B所示,在依存樹T上,節點E和節點P的交叉節點是節點p,即crs(E,P,T) = P, 而節點P和節點A的交叉節點是節點B,即crs (P,A, T) = B。依存樹模式根據本發明,依存樹模式被定義為依存樹上的閉合子樹,其保留所有 交叉節點并暗示出一對實體之間的關系。依存樹模式的支持度(support)依存樹模式p的支持度被記作supp (p),其可以 被定義為包含該依存樹模式P的依存樹的總數目。如果依存樹t包含依存樹模式p,則可以 說t滿足p。頻繁依存樹模式如果一依存樹模式的支持度大于一預定閾值“min_SUpp”,則可 以說該依存樹模式是頻繁的,即稱之為頻繁依存樹模式。最大依存樹模式如果一依存樹模式p是頻繁的,并且不存在其他頻繁模式p', 使得P'包含P,則稱該依存樹模式P為最大依存樹模式。閉合依存樹模式如果一依存樹模式p是頻繁的,并且不存在其他與p具有相同支 持度的模式P',使得P'包含P,則稱該依存樹模式P為閉合依存樹模式。最小嵌入子樹模式(LEST)依存樹t的LEST是一種包含關系的最小尺寸的依存 樹模式P,并且該模式P中的所有交叉節點都應該保留在LEST中。例如,對于模式p中的每 對節點111和112,都應該滿足(^8(111,1124) = crs(nl,n2,t)。參考圖1B,對于左側的依存 樹T,假設節點“P”代表人,節點“A”代表組織,則在節點“P”和“A”之間存在關系。因此, t的LEST可以如圖1B中的(1)所示。然而,圖1B中的⑵不能作為t的LEST,因為節點 “G”和“A”之間的交叉節點為“D”而非“B”。圖2是示出根據本發明的實施例的關系提取系統200的內部結構的框圖。如圖2 所示,系統200主要包括文集獲取裝置201、依存樹模式獲取裝置202、特征提取裝置203、關 系標注模型訓練裝置204和模型應用裝置205。可選地,系統200還包括依存樹模式提取裝 置206,用于自動提取所需的依存樹模式。如上所述,除了自動提取依存樹模式之外,用戶也 可以預先以手工方式準備依存樹模式,并將準備好的依存樹模式存儲到依存樹模式存儲器208中。本發明所提出的用于自動提取依存樹模式的方法將在下文中詳細描述。如上所述,本發明的關系提取系統200主要包含兩個階段,即模型訓練階段和模 型應用階段,其中模型訓練階段主要由文集獲取裝置201、依存樹模式獲取裝置202、特征 提取裝置203和關系標注模型訓練裝置204執行,而模型應用階段則由模型應用裝置205 實現。圖3的流程圖示出圖2所示系統200的操作示例。該過程開始于步驟301,其中文 集獲取裝置201從文集存儲器207獲取文集,該文集中例如包含有多個已標注了關系的句 子。在步驟303中,依存樹模式獲取裝置202從依存樹模式存儲器208獲取預先準備好的 依存樹模式。在步驟303之前,可以包含可選步驟302 (用虛線框示出),該步驟用于從獲 取文集自動提取所需的依存樹模式。具體的依存樹模式提取過程將在下文中進行描述。然 后,在步驟304中,特征提取裝置203可以參考已經獲取的依存樹模式來提取所獲取的文集 中的每個句子的特征,該特征可以包含句子的結構特征和傳統特征。作為示例,結構特征可 以是依存樹特征,傳統特征可以是上下文特征。在步驟305中,由特征提取裝置203提取出 的各個句子的特征被收集,并被提供到關系標注模型訓練裝置204。關系標注模型訓練裝置 204可以使用標準的機器學習技術來訓練關系標記模型。生成的關系標記模型可以被存儲 到關系標注模型存儲器209中。隨后,當有未經標注的句子輸入時,在步驟306中,模型應 用裝置205可以獲取預先存儲在關系標注模型存儲器209中的關系標記模型,并將其應用 到未經標注的句子以提取出所需的關系實例。然后,過程300結束。圖2中還詳細示出了模型應用裝置205的內部結構。模型應用裝置205例如可以 包括句子輸入單元2051、解析單元2052、依存樹模式獲取單元2053、特征提取單元2054、關 系標注單元2055和關系實例提取單元2056。關于模型應用階段的具體過程,在上文中已經 有所描述。具體地講,首先,用戶通過句子輸入單元2051輸入希望提取關系實例的未經標 注的句子。然后,解析單元2052對輸入的句子進行解析以獲得與之相關的依存樹。依存樹 模式獲取單元2053可以獲取在模型訓練階段已經準備好的依存樹模式的集合并將其提供 到特征提取單元2054。特征提取單元2054隨后可以參考依存樹模式提取出與該輸入的句 子相應的特征。關系標注單元2055根據特征提取單元2054提取出的特征對輸入的句子標 注關系參數。隨后,存儲在關系標注模型存儲器209中的、在模型訓練階段已經生成的關系 標注模型被提供到關系實例提取單元2056。該關系實例提取單元2056將獲取的關系標注 模型應用到已標注了關系參數的句子,以提取出關系實例。由于模型應用過程并非本發明 之創新點所在,因此不對其進行贅述。下面將首先描述根據本發明的特征提取過程。圖4是示出圖2所示系統200所包 含的特征提取裝置203的具體結構的框圖。上面已經提到,本發明針對每個句子除了提取傳統的上下文特征之外,還需要提 取與依存樹模式相關的依存樹特征。如圖4所示,特征提取裝置203主要包含用于提取上 下文特征的上下文特征提取單元401、用于提取依存樹特征的依存樹特征提取單元402以 及存儲特征的特征存儲單元403。對于上下文特征以及依存樹特征的提取方法,下文中將更 詳細地舉例說明。需要明確的是,雖然下文中將給出上下文特征以及依存樹特征的具體提 取方法,但是本發明并不局限于所描述的實施例。本領域技術人員已知的以及根據本發明 的描述可以設想的各種其他特征提取方法都應被包含在本發明的范圍之內。
如圖4所示,在該示例中,上下文特征提取單元401例如包含詞性標注單元4011 和上下文特征提取器4012,而存儲器4013主要用于存儲詞性標注單元4011所產生的中間 結果,即已經過詞性(P0S)標注的句子。上下文特征提取器4012可以通過分析經P0S標注 的句子來提取出傳統的上下文特征。這部分屬于本領域公知技術,因此在此不作贅述。依存樹特征提取單元402可以包含解析單元4021、依存樹特征提取器4022和用于 存儲解析單元4021的處理結果的存儲器4023。解析單元4021首先對所獲取的文集中的 句子進行解析,以生成相關的依存樹。所生成的相關依存樹隨后被存儲到存儲器4023中。 在本發明中,解析單元4021除了生成各個句子的相關依存樹之外,還可以對依存樹上的所 有節點進行歸納并添加各個節點的詞性(P0S)標簽。在本發明中之所以使用句子中單詞的 詞性而非單詞本身是因為單詞本身過于特殊而無法從中找到依存樹之間的公共模式。可選 地,用戶還可以向依存樹上的節點添加其他屬性(例如對其父節點的依存類型)及其在暗 示關系實例方面所扮演的角色(例如“參數ARG-1 ”、“參數ARG-2”或“關鍵子”)。例如,圖5示出通過解析獲得的與句子相關的兩個依存樹的示例。在該示例中,假 設文集包含兩個經標注的句子句子(1) "Tom works forMicrosoft in Seattle. ”和句子 (2) "Kate, once a leader of ACB, now worksin her sister' s company BCA.,,,其中句 子(1)具有關系〈人-組織,Tom,Microsoft〉,句子(2)具有關系〈人-組織,Kate,BCA>。 通過解析句子(1)和(2),解析單元4021可以得到與句子(1)和(2)相關的依存樹,如圖5 所示。在圖5的示例中,還對依存樹上的所有節點標注了詞性以及在暗示關系實例方面所 扮演的角色,其中“per”和“aff”分別是“人”和“組織”的簡寫。并且在圖5中用灰色框 指示“人_組織”關系的兩個參數。經過上述處理的依存樹可以被存儲到存儲器4023中。隨后,依存樹特征提取器 4022可以參考依存樹模式獲取裝置202所獲取的依存樹模式,來根據每個句子的相關依存 樹提取出該句子的依存樹特征。圖6示出根據本發明參考依存樹模式進行特征提取的過程的一個示例。假設依存 樹特征提取器4022獲取的依存樹模式如圖6左側示例所示。圖6右側分別示出了對于上 述句子(1)和句子(2)的特征提取結果,其中特征在第1-4列對應于傳統的上下文特征,而 虛線框中示出的m列對應于依存樹特征,其中m表示獲取的依存樹模式的數目。由于在圖 6的示例中只給出了一個依存樹模式,因此虛線框中的m列只示出了與之相對應的第一列。圖6所給出的示例中的特征被定義如下(1)第1列當前單詞的詞性標簽;(2)第2列該單詞是否表示人?(是為1,否為0);(3)第3列該單詞是否表示組織?(是為1,否為0);(4)第4列在當前單詞的前后4個單詞的范圍內是否存在一個人?(是為1,否 為0);(5)虛線框(依存樹特征)該單詞是否可以對應到依存樹模式上的節點?(是為 1,否為0)。上述特征僅僅作為示例,用戶可以根據實際需求定義不同的特征。返回圖2,在提取出特征之后,關系標注模型訓練裝置204收集提取出的特征,并 使用任意機器學習技術來利用提取出的特征訓練關系標注模型。這里,我們采用CRF作為示例來簡要說明如何使用收集的特征。對于CRF訓練過程,其關鍵部分在于特征的選擇。在進行關系標注的實際應用中, 如同搜索引擎系統一樣,精確度往往比召回率(recall)更重要。系統不需要返回所有相關 的信息,而只需要向用戶提供最重要的信息。因此,用戶可以選擇具有高精確度的依存樹模 式來用于提取新關系。如果用戶希望獲得高召回率或F度量(F-measure),則可以使用依 存樹模式作為二元特征來構造CRF模型。具體而言,如果一句子s滿足模式p,則二元特征 f(p,s) = 1,否則為0。因此,該特征可以被描述為“該句子的依存樹是否滿足模式p ?”。 例如,在圖6所示的示例中示出了這一思想的具體示例。然后,利用經過處理的數據,CRF可 以學習模型并將模型用于提取新關系。下面將參考7-10來詳細描述本發明的另一重要方面,即依存樹模式的自動提取 過程。值得注意的是,下文所給出的實施例僅僅是作為依存樹模式提取過程的一個示例,本 發明的范圍不應局限于此。依存樹模式可以由用戶預先手工準備,或者以其他本領域技術 人員已知的方式提前獲得。但是,在手工創建依存樹模式的情況下,用戶需要復查大量依存 樹,并將這些依存樹縮減成若干依存樹模式。這是一項非常耗時的工作。相反,利用本發明 則可以消除上述問題,因為依存樹模式能夠被自動提取。圖7是示出圖2所示系統200所包含的依存樹模式提取裝置206的具體結構的框 圖。如圖7所示,依存樹模式提取裝置206可以包含解析單元701、聚類單元702、依存樹模 式提取單元703、依存樹存儲器704以及聚類存儲器705。首先,解析單元701對來自文集 存儲器207的文集中已標注了關系的每個句子進行解析,以生成相應的依存樹。聚類單元 702可以將解析單元701生成的與各個句子相關的依存樹聚類成不同群組,其中同一群組 中的依存樹在結構上相似。聚類結果隨后可以被存儲到聚類存儲器705中。然后,依存樹 模式提取單元703可以應用子樹挖掘算法挖掘每個依存樹群組中的子樹,然后拾取滿足依 存樹模式要求的子樹作為輸出。傳統的子樹挖掘算法試圖提取出所有可能的子樹。但是,由于組合爆炸問題,子樹 的數目將隨子樹模式的尺寸呈指數增長。因此,如果最小支持度“min_SUpp”被設置為一個 小值,則將存在大量模式。這將可能導致挖掘過程的失敗。為了解決這個問題,本發明首先 對依存樹進行聚類,將結構上類似的依存樹組成群組,然后再從每個群組進行模式提取。作為示例,本發明可以基于依存樹的LEST來定義依存樹的相似性函數。對于兩個 依存樹和t2,其相似性函數Sim^, t2)具有兩個值,當依存樹和t2具有相同的LEST 時SimUi,t2) = 1,而當依存樹、和、具有不同的LEST時,SimUi,t2) =0。具有相同 LEST的依存樹被聚類到同一群組中。這種定義的優點在于用戶不需要為了依存樹聚類而預 先定義群組的數目或相似性閾值。而且,利用該定義,聚類算法的時間復雜度為0(N)。算 法僅需要對依存樹數據庫掃描一次。當新的依存樹t (具有LEST (t))到來時,用戶僅需要 將LEST (t)與每個當前群組的LEST相比較。如果找到其LEST等于LEST (t)的群組,則將 t添加到該群組。否則,為t創建一個新的群組。為了進一步提高找到與t具有相同LEST 的群組的效率,用戶可以使用對LEST的后序遍歷以及先序遍歷所產生的字符串序列的組 合來表示LEST,通常地,后序和先序遍歷的序列對一起可以確定一棵樹。然后再使用哈希表 來索引每個LEST對應的這個字符串序列以提高比較效率。在將依存樹聚類成不同群組之 后,可以對每個群組執行子樹挖掘算法來提取依存樹模式。
在本發明的實施例中,依存樹模式提取單元703可以根據各個群組所包含的依存 樹在結構上的相似性,提取出一個或多個閉合依存樹模式,作為輸出。關于閉合依存樹模式 的定義,前文已經有所介紹。即,對于一依存樹模式P,如果不存在另一依存樹模式P',使 得該依存樹模式P ‘包含所述依存樹模式P并與所述依存樹模式P具有相同的支持度,則該 依存樹模式P被稱為閉合依存樹模式。由依存樹模式提取單元703提取出的所有閉合依存 樹模式可以作為最終需要的依存樹模式被存儲到依存樹模式存儲器208中,以用于隨后的 特征提取以及關系標注模型的訓練。關于閉合依存樹模式的提取,本發明提出一種迭代方法。圖8是示出圖7所包含 的依存樹模式提取單元603以迭代方式工作時的內部結構示例。在此情況下,依存樹模式 提取單元603包含種子模式收集器801、候選種子模式生成器802和種子模式裁剪器803。 種子模式收集器801首先收集每個群組的LEST,作為種子模式的初始集合。然后,在每次迭 代中,候選種子模式生成器802向每個種子模式添加一個額外節點,以生成新的候選種子 模式的集合。種子模式裁剪器803根據預定標準對候選種子模式的集合進行調整,從中刪 除掉一些無用的候選種子模式。然后,所剩余的候選種子模式作為新的種子模式被再次提 供到候選種子模式生成器802,以用于下次迭代。該過程被不斷重復,直到種子模式的集合 為空為止。上面已經提到,在本發明的實施例中,依存樹模式提取單元703試圖提取出閉合 依存樹模式,作為最終特征提取的參考。圖9示出依存樹模式提取過程的一個示例,其中同 樣采取迭代的方式對種子模式集合進行逐輪調整。如圖9所示,該過程開始于步驟901,其中解析單元701解析所獲取的文集中的每 個句子,以生成相關的依存樹。在步驟902中,聚類單元702例如根據LEST對依存樹聚類 以生成不同群組。在步驟903中,各個群組的LEST被種子模式收集器801所收集,作為種 子模式的初始集合。然后,在步驟904中,候選種子模式生成器802向每個種子模式p添加 一個額外節點,以生成新的候選種子模式的集合{Pl,p2,...pn}。隨后,種子模式裁剪器803 在步驟905-915中對種子模式的集合進行調整。具體而言,在步驟905中,判斷由種子模式 P生成的所有候選種子模式{Pl,P2,. . . Pn}的支持度是否都小于種子模式P的支持度。如 果是,則在步驟906中將種子模式p作為閉合依存樹模式輸出。對于種子模式P所生成的 每個候選種子模式Pl,P2,...Pn,繼續在步驟907中判斷該候選種子模式是否是頻繁的,即 支持度S(Pi) (i = 1,2, ...n)是否小于一預定閾值Th。如果有一候選種子模式Pi的支持 度小于種子模式P的支持度,則說明該候選種子模式是不頻繁的,則將其從候選種子模式 的集合中刪除(步驟909)。否則,則保留該候選種子模式Pi (步驟908)。在步驟905處,如 果確定不是所有由種子模式P生成的候選種子模式{Pl,P2,. . . Pn}的支持度都小于種子模 式P的支持度,則過程繼續到步驟910。在步驟910中,判斷是否有一候選種子模式pm,使得 該候選種子模式Pm的支持度與生成它的種子模式P的支持度相等。如果是,則保留該候選 種子模(步驟911)。如果不是,則判斷該候選種子模式pm是否是頻繁的。即該候選種 子模式Pm的支持度是否小于預定閾值Th (步驟912)。如果是,則在步驟913中將該候選種 子模式Pm從候選種子模式的集合中刪除。如果否,則保留該候選種子模式Pm(步驟914)。 然后,在步驟915中,所有在這次迭代中被保留的候選種子模式被收集,作為新的種子模式 的集合,被用于下次迭代。在步驟916中判斷此次迭代之后種子模式的集合是否已經為空。如果否,過程返回步驟904并重復步驟904-915的處理。如果種子模式的集合已經為空,則過程結束。為了進一步提高閉合依存樹模式的提取效率,上述裁剪過程還可以包括如下處 理在每次迭代中,除了將每個候選種子模式Pi與生成它的種子模式p相比較之外,還可以 將該候選種子模式Pi與除了生成它的種子模式P之外的其他種子模式相比較,如果在其他 種子模式中有一個種子模式k被所述候選種子模式Pi所包含并且兩者具有相同的支持度, 則刪除該其他種子模式k以及由其所生成的所有候選種子模式{knk2,. . . kj。例如,圖10 示出了該裁剪過程的一個示例。在圖10中,假設在某次迭代中種子模式集合包含兩種種子模式⑴和⑵。在添 加了節點之后,種子模式(1)獲得兩種候選種子模式(11)和(12),而種子模式(2)獲得候 選種子模式(21)。由此種子模式(1)的所有節點均已被種子模式(2)所生成的候選種子模 式(21)所包含,因此根據上述算法,種子模式(1)及其所有候選種子模式(11)和(12)都 將被從種子模式的集合中刪除。這樣做可以提高提取閉合依存樹模式的效率,并且不會丟 掉任何閉合依存樹模式。下面將具體證明這一點。假設在第N此迭代中存在m個大小為N的種子模式,每個種子模式隨后被擴展到 大小N+1。再假設種子模式p(i,N)可以生成新的候選種子模式p(i,j,N+1)。然后,檢查 所有 P(i,j, N+1)和 p(k,N),i <>k。如果 p(k,N)被 p(i,j, N+1)包含并且 supp(p(k, N)) = supp(p(i, j, N+l)),則刪除p(k,N)和由其生成的所有候選種子模式p(k,1,N+1)。 現在,需要證明這樣做不會丟掉任意一個閉合模式。為了證明這一點,則需要證明“如果存 在一閉合模式P,該閉合模式P由P(k,N)直接或間接生成,則該閉合模式p將必然被另一 模式P'所包含,并且該模式P'可以從P(i,j,N+l)生成”。證明首先,我們使用ext(p,p')表示從p得到p'的擴展。然后,由于p(k,N) 被P(i,j,N+l)所包含,因此必然存在擴展^丨(?0^,吣,?(1,]_,貼1))。這里需要考慮兩種 情況(1)如果P已經執行了擴展ext(p(k, N),p(i,j,N+1)),則p必然包含p(i,j,N+1), 則其一定能夠從P(i,j,N+l)生成;否則(2)如果p無法包含p(i,j,N+l),則可以對p執行 擴展 ext(p(k,N),p(i,j,N+1))以得到 p',其必然滿足 supp(p) = supp(p'),從而^ 必然包含 P(k,N)和 p(i,j,N+l)。經過以上證明,可以看出,由圖10所例示出的裁剪過程不會漏掉任何閉合依存樹 模式。以上參考附圖詳細描述了根據本發明的實體關系提取系統和方法以及其中所利 用的依存樹模式提取過程。如前面所提到的,與現有方法相比,本發明的關系提取系統和方 法能夠實現更好的性能。具體而言,句子結構信息是對實際關系的很好指示。在某些句子中指示關系的詞 通常位于相關依存樹上的固定位置上。即,在一組依存樹中通常包含某些潛在的公共子樹 模式。這些子樹模式可以很好地指示實際的實體關系。另外,提取出的句子結構信息對于過濾虛假關系實例也是非常有用的。利用句子 中的詞之間的語法關系可以提取出結構信息(即,依存樹模式)。這些依存樹模式可以容易 地將正確關系的結構與虛假關系的結構區分開來。上面雖然已經描述了根據本發明的具體實施例,但是,本發明并不限于圖中示出的特定配置和處理。另外,為了簡明起見,這里省略對已知方法技術的詳細描述。在上述實 施例中,描述和示出了若干具體的步驟作為示例。但是,本發明的方法過程并不限于所描述 和示出的具體步驟,本領域的技術人員可以在領會本發明的精神之后,作出各種改變、修改 和添加,或者改變步驟之間的順序。本發明的元素可以實現為硬件、軟件、固件或者它們的組合,并且可以用在它們的 系統、子系統、部件或者子部件中。當以軟件方式實現時,本發明的元素是被用于執行所需 任務的程序或者代碼段。程序或者代碼段可以存儲在機器可讀介質中,或者通過載波中攜 帶的數據信號在傳輸介質或者通信鏈路上傳送。“機器可讀介質”可以包括能夠存儲或傳輸 信息的任何介質。機器可讀介質的例子包括電子電路、半導體存儲器設備、ROM、閃存、可擦 除ROM(ER0M)、軟盤、CD-ROM、光盤、硬盤、光纖介質、射頻(RF)鏈路,等等。代碼段可以經由 諸如因特網、內聯網等的計算機網絡被下載。本發明可以以其他的具體形式實現,而不脫離其精神和本質特征。例如,特定實施 例中所描述的算法可以被修改,而系統體系結構并不脫離本發明的基本精神。因此,當前的 實施例在所有方面都被看作是示例性的而非限定性的,本發明的范圍由所附權利要求而非 上述描述定義,并且,落入權利要求的含義和等同物的范圍內的全部改變從而都被包括在 本發明的范圍之中。
權利要求
一種用于關系提取的方法,包括獲取文集,所述文集包括多個已標注了關系的句子;獲取與所述文集中的句子結構相關的一組依存樹模式;參考所述依存樹模式提取所述文集中的每個句子的特征,所述特征包含該句子的結構特征;收集提取出的所述特征來訓練關系標注模型;以及將所述關系標注模型應用到未經標注的句子以提取出關系實例。
2.如權利要求1所述的方法,還包括 從所述文集中自動提取出所述依存樹模式。
3.如權利要求2所述的方法,其中所述提取依存樹模式的步驟包括 解析所述文集中已標注了關系的每個句子以生成相應的依存樹;將生成的所述多個依存樹聚類成不同群組,其中同一群組中的依存樹在結構上相似; 提取出一個或多個閉合依存樹模式,其中一依存樹模式P被稱為閉合依存樹模式,如 果不存在另一依存樹模式P',使得該依存樹模式P'包含所述依存樹模式P并與所述依存 樹模式P具有相同的支持度;以及收集并存儲提取出的所述閉合依存樹模式。
4.如權利要求3所述的方法,其中同一群組中的依存樹具有結構相同的最小嵌入子 樹模式(LEST),所述最小嵌入子樹模式包含一對關系節點以及這對關系節點的所有交叉節 點,所述一對關系節點之間具有已知關系。
5.如權利要求4所述的方法,其中所述提取出一個或多個閉合依存樹模式的步驟包括(a)收集每個群組的所述LEST,作為種子模式的初始集合;(b)向每個所述種子模式添加一個額外節點,以生成新的候選種子模式的集合;(c)按如下方式對所述候選種子模式的集合進行調整如果一種子模式產生的所有候選種子模式的支持度都小于該種子模式的支持度,則將 該種子模式作為閉合依存樹模式輸出,并且對于該種子模式所產生的每個候選種子模式 若該候選種子模式的支持度小于一指定閾值,則刪除該候選種子模式, 若該候選種子模式的支持度大于等于所述指定閾值,則保留該候選種子模式;否則 如果一候選種子模式的支持度等于生成該候選種子模式的種子模式的支持度,則保留 該候選種子模式,并且對于該種子模式所產生的每個其它候選種子模式 若該候選種子模式的支持度小于所述指定閾值,則刪除該候選種子模式, 若該候選種子模式的支持度大于等于所述指定閾值,則保留該候選種子模式;以及(d)以所保留的候選種子模式作為新的種子模式,重復上述步驟(b)和(c),直到種子 模式的集合為空。
6.如權利要求5所述的方法,還包括將每個候選種子模式與除了生成該候選種子模式的種子模式之外的其他種子模式相 比較,如果所述其他種子模式之一被所述候選種子模式所包含并且兩者具有相同的支持 度,則刪除該其他種子模式以及由其所生成的所有候選種子模式。
7.如權利要求2所述的方法,其中所述提取特征的步驟包括提取每個句子的上下文特征; 提取每個句子的依存樹特征;以及 存儲所述上下文特征和所述依存樹特征。
8.如權利要求7所述的方法,其中提取所述上下文特征的步驟包括 利用詞性標簽標注所述文集中的每個句子;以及通過分析標注了詞性的句子來提取出該句子的上下文特征。
9.如權利要求7所述的方法,其中提取所述依存樹特征的步驟包括 解析所述文集中的每個句子,以得到相關的依存樹;獲取已提取出的所有依存樹模式;以及通過比較所述相關依存樹和所述依存樹模式來構造針對該句子的依存樹特征。
10.如權利要求9所述的方法,其中針對每個句子的所述依存樹特征由一nXm矩陣構 成,其中m是所述提取出的依存樹模式的數目,n是該句子的相關依存樹所包含的節點的數 目,并且對于每種依存樹模式,如果該句子的相關依存樹滿足該依存樹模式,則在所述nXm 矩陣中與該依存樹模式相對應的列中,與該依存樹模式的每個節點相對應的矩陣元素被設 置為1,其它元素被設置為0。
11.一種用于關系提取的系統,包括文集獲取裝置,用于獲取文集,所述文集包括多個已標注了關系的句子; 依存樹模式獲取裝置,用于獲取與所述文集中的句子結構相關的一組依存樹模式; 特征提取裝置,用于參考提取出的所述依存樹模式提取所述文集中的每個句子的特 征,所述特征包含該句子的結構特征;關系標注模型訓練裝置,用于收集所述特征提取裝置提取出的所述特征來訓練關系標 注模型;以及模型應用裝置,用于將所述關系標注模型應用到未經標注的句子以提取出關系實例。
12.如權利要求11所述的系統,還包括依存樹模式提取裝置,用于從所述文集中自動提取出所述依存樹模式。
13.如權利要求12所述的系統,其中所述依存樹模式提取裝置包括解析單元,用于解析所述文集中已標注了關系的每個句子以生成相應的依存樹; 聚類單元,用于將生成的所述多個依存樹聚類成不同群組,其中同一群組中的依存樹 在結構上相似;以及依存樹模式提取單元,用于提取出一個或多個閉合依存樹模式,其中一依存樹模式P 被稱為閉合依存樹模式,如果不存在另一依存樹模式P',使得該依存樹模式P'包含所述 依存樹模式P并與所述依存樹模式P具有相同的支持度。
14.如權利要求13所述的系統,其中同一群組中的依存樹具有結構相同的最小嵌入子 樹模式(LEST),所述最小嵌入子樹模式包含一對關系節點以及這對關系節點的所有交叉節 點,所述一對關系節點之間具有已知關系。
15.如權利要求14所述的系統,其中所述依存樹模式提取單元包括種子模式收集器,用于收集每個群組的所述LEST,作為種子模式的初始集合; 候選種子模式生成器,用于向每個所述種子模式添加一個額外節點,以生成新的候選 種子模式的集合;以及種子模式裁剪器,用于按如下方式對所述候選種子模式的集合進行調整 如果一種子模式產生的所有候選種子模式的支持度都小于該種子模式的支持度,則將 該種子模式作為閉合依存樹模式輸出到依存樹模式存儲器,并且對于該種子模式所產生的 每個候選種子模式若該候選種子模式的支持度小于指定閾值,則刪除該候選種子模式, 若該候選種子模式的支持度大于等于所述指定閾值,則保留該候選種子模式;否則 如果一候選種子模式的支持度等于生成該候選種子模式的種子模式的支持度,則保留 該候選種子模式,并且對于該種子模式所產生的每個其它候選種子模式 若該候選種子模式的支持度小于所述指定閾值,則刪除該候選種子模式, 若該候選種子模式的支持度大于等于所述指定閾值,則保留該候選種子模式,并且 其中所述候選種子模式生成器和所述種子模式裁剪器以迭代方式工作,在每次迭代 中所保留的候選種子模式作為新的種子模式集合被用于下次迭代,直到種子模式的集合為 空。
16.如權利要求15所述的系統,其中所述種子模式裁剪器還被配置用于將每個候選種子模式與除了生成該候選種子模式的種子模式之外的其他種子模式相 比較,如果所述其他種子模式之一被所述候選種子模式所包含并且兩者具有相同的支持 度,則刪除該其他種子模式以及由其所生成的所有候選種子模式。
17.如權利要求12所述的系統,其中所述特征提取裝置包括 上下文特征提取單元,用于提取每個句子的上下文特征; 依存樹特征提取單元,用于提取每個句子的依存樹特征;以及 特征存儲單元,用于存儲所述上下文特征和所述依存樹特征。
18.如權利要求17所述的系統,其中所述上下文特征提取單元包括 詞性標注單元,用于利用詞性標簽標注所述文集中的每個句子;以及上下文特征提取器,用于分析標注了詞性的句子以提取出該句子的上下文特征。
19.如權利要求17所述的系統,其中所述依存樹特征提取單元包括 解析單元,用于解析所述文集中的每個句子,以得到相關的依存樹;以及依存樹特征提取器,用于通過比較所述相關依存樹和所述已提取出的依存樹模式來構 造針對該句子的依存樹特征。
20.如權利要求11所述的系統,其中所述模型應用裝置包括 句子輸入單元,用于輸入未經標注的句子;解析單元,用于解析所述未經標注的句子,以得到與其相關的依存樹; 依存樹模式獲取單元,用于獲取已從所述文集提取出的依存樹模式的集合; 特征提取單元,用于參考獲取的所述依存樹模式提取所述未經標注的句子的特征; 關系標注單元,用于對已經提取特征的句子標注關系參數;以及 關系實例提取單元,用于將所述關系標注模型應用到已標注了關系參數的句子,以提 取出關系實例。
全文摘要
本發明提供了利用結構信息進行實體關系提取的方法和系統。所述方法包括獲取文集,所述文集包括多個已標注了關系的句子;獲取與所述文集中的句子結構相關的一組依存樹模式;參考所述依存樹模式提取所述文集中的每個句子的特征,所述特征包含該句子的結構特征;收集提取出的所述特征來訓練關系標注模型;以及將所述關系標注模型應用到未經標注的句子以提取出關系實例。另外,本發明還提出了用于自動提取依存樹模式的過程。與現有技術相比,本發明的關系提取系統和方法能夠實現更好的性能。
文檔編號G06F17/27GK101799802SQ200910000499
公開日2010年8月11日 申請日期2009年2月5日 優先權日2009年2月5日
發明者沈國陽, 胡長建, 許洪志 申請人:日電(中國)有限公司