專利名稱:基于多層文本分類器的輕量級本體匹配方法
技術領域:
本發明涉及自然語言處理、文本分類和語義Web領域,更具體地講,涉及一種輕量級本體匹配方法。
背景技術:
隨著信息技術的發展,基于文本的分類技術、搜索技術也得到較快發展。當前引入了本體(ontology)的概念,本體是領域(可以是特定領域,也可以是更廣的范圍)內部不同主體(人、機器、軟件系統等)之間進行交流(對話、互操作、共享等)的一種語義基礎。 本體可以分為輕量級本體(Lightweight ontology)、中級本體(Middle ontology)和重量級本體(Heavyweight ontology),輕量級本體不具備邏輯推理功能,中級本體具有簡單的邏輯推理功能,重量級本體具有復雜的邏輯推理功能。輕量級本體除了包含概念層次結構之外,還包含若干概念實例。鑒于輕量級本體簡單易用,輕量級本體更適合于實際的應用程序設計和開發。本體匹配是解決本體異構問題的主要方法之一,一個高效、精確的相似度計算方法是實現本體匹配的前提條件。現有的文本分類技術一般用于管理文本或其他可采用向量形式描述的資源,基于分類技術能夠對未知資源的類別進行預測,從而為用戶提供一種輔助性的指導和幫助。而傳統的本體匹配的方法,大多通過某種策略直接衡量概念的相似程度,或對比兩個文本實例集合之間相似度。現有的一種本體匹配方法是基于傳統二元分類器的本體匹配方法,但在計算概念相似度時該方法需要為每個概念對都訓練一個分類模型,需要對兩個本體的文本實例都進行預測分類,故具有很高的復雜度;此外,源于特征選擇的局限性,分類模型訓練僅從兩個類別的文本中進行特征選擇,沒有考慮所選特征與其他類別的區分度,影響預測分類的準確性,也會造成相似度計算的準確性不高,影響本體匹配的正確性。現有的基于文本分類的本體匹配方法的計算復雜度較高,且利用多個二元分類器僅在兩個概念的文本實例中篩選特征,衡量每個概念對的相似度,具有很大的局限性,使得文本分類無法有效評估文本之間的相似度,限制了概念相似度計算的可信性。
發明內容
針對現有技術中本體匹配時計算復雜以及計算不精確的問題,本發明將文本分類技術應用于解決輕量級本體的匹配問題,提出了一種基于多層文本分類器的輕量級本體匹配方法。根據本發明的一方面,一種基于多層文本分類器的輕量級本體匹配方法,該方法包括以下步驟選擇待匹配的兩個本體中的第一本體,將第一本體的概念分類樹和文本實例作為訓練集,利用自底向上的多層文本特征選擇策略構造多層文本分類器;利用多層文本分類器對所述兩個本體中的第二本體的文本實例進行預測分類,將第二本體的文本實例分別歸屬到第一本體的多個概念;判定第二本體中的每個概念的所有文本實例中分別歸屬到第一本體中的每個概念的文本實例在所述所有文本實例中的比例,分別作為所述兩個本體中的相應概念之間的相似度;基于概念之間的相似度得出所述兩個本體的概念之間的映射關系,由此完成輕量級本體匹配。利用自底向上的多層文本特征選擇策略構造多層文本分類器的步驟可包括對第一本體的概念分類樹的各個葉節點進行文本特征選擇;利用自底向上的策略對第一本體的概念分類樹的分支節點進行文本特征選擇,直至當前分支節點為根節點,獲得最終的文本特征;使用最終的文本特征構造多層文本分類器。對于第二本體中的一個概念,如果所述一個概念的所有文本實例中分別歸屬到第一本體中的每個概念的文本實例在所述所有文本實例中的比例中的最大值大于或等于預定義的閾值,則確定第二本體中的一個概念與比例中的最大值所對應的第一本體的概念相似。所述兩個本體中的概念之間可構成概念對,每個概念對的相似度是第二本體的概念的所有文本實例被歸屬到概念對中的另一概念的文本實例在所有文本實例中的比例。根據概念對的相似度的計算結果,對于第二本體中的任一個概念,在第一本體中尋找與所述任一個概念的相似度最大的概念,根據預定義的閾值確定構成概念對的兩個概念之間的匹配關系。當最大相似度大于或等于所述預定義的閾值時,確定構成概念對的所述兩個概念彼此相似。
通過結合附圖,從下面的實施例的描述中,本發明這些和/或其它方面及優點將會變得清楚,并且更易于理解,其中圖1是根據本發明實施例的基于多層文本分類器的輕量級本體匹配方法的原理框圖;圖2是根據本發明實施例的基于多層文本分類器的輕量級本體匹配方法的流程圖;圖3是多層文本分類的類別的示意圖;圖4示出了根據本發明的多層文本特征選擇策略的示意圖。
具體實施例方式以下,參照附圖來詳細說明本發明的實施例。圖1是根據本發明實施例的基于多層文本分類器的輕量級本體匹配方法的原理框圖,圖2是根據本發明實施例的基于多層文本分類器的輕量級本體匹配方法的流程圖。參照圖1,根據本發明實施例的基于多層文本分類器的輕量級本體匹配方法包括四個步驟多層文本分類器的訓練(即,構造多層文本分類器);文本實例的預測分類;概念相似度(概念匹配)的計算;本體匹配關系的判定。參照圖1和圖2,在步驟201,選擇待匹配的兩個本體(第一本體01和第二本體 02)中的一個本體(例如選擇第一本體01),將選擇的第一本體01的概念分類樹和文本實例作為訓練集,利用自底向上的多層文本特征選擇策略構造多層文本分類器。
圖3是多層文本分類的類別的示意圖。參照圖3,“General Taxonomy”,是根節點, 最下層的矩形是葉節點(諸如“Animation & Comics”、“Music,Theatre & Dance” 等),第二層都是分支節點(諸如“ArtW'Business”等)。應該理解,雖然圖3中示出了基于英文的多層文本分類,但是本發明不限于此,也可適用于基于中文的多層文本分類。
在現有技術中,多層文本分類一般采用bing-Bang或自頂而下兩種策略;前者在分類過程中使用同一個分類器,將類別層次樹結構中所有頁節點看成平等的類,本質上還是一種單層分類;后者則是為不同類別訓練不同的分類器,枝分類器只關心當前的不同分支。在本發明中,采用自底向上的多層文本特征選擇策略構造多層文本分類器。具體地,首先對第一本體01的概念分類樹的各個葉節點進行文本特征選擇,再采用自底向上的策略對第一本體01的概念分類樹的分支節點進行文本特征選擇,直至當前分支節點為根節點,獲得最終的文本特征,使用最終的文本特征構造多層文本分類器。基于該策略的多層文本分類只需要訓練一個統一的分類器,具體策略如圖4所示。圖4示出了根據本發明的多層文本特征選擇策略的示意圖。在圖4中,A1、A2、A3、 Bl和B2為葉節點,A和B為分支節點,A和B上面的節點(未示出)為根節點。當然,還可以包含更多的分支節點,圖4中未示出,以省略號表示。如圖4所示,例如,分支節點Al對應的文本實例包含文本特征^、a2、. . . aN,分支節點A2對應的文本實例包含文本特征b” b2、. . . bM,分支節點A3對應的文本實例包含文本特征ci、c2、. . . q。在對各個葉節點進行文本特征選擇時,可分別提取各個葉節點的文本實例的前k個文本特征,例如apay...^,!^ b2、. . . bK,Cl、c2、. . . cK。然后,將提取的文本特征組合,可得到文本特征集合“ai、a2、. . . aK、 b^lv. . .bK、CpCy. . . cK”,如圖 4 右側所示。返回參照圖2,在步驟202,利用多層文本分類器對所述兩個本體01和02中的第二本體02的文本實例進行預測分類,從而將第二本體02的文本實例分別歸屬到第一本體 01的多個概念。即,按照第一本體01的多個概念來對第二本體02的文本實例進行分類,將第二本體02的文本實例分別歸類到第一本體01的多個概念。例如,假設第二本體02總共有χ個文本實例,χ個文本實例分別屬于第二本體02 自身包含的m個概念,并且第一本體01包含η個概念。現在利用構造的多層文本分類器對第二本體02的χ個文本實例進行預測分類,將第二本體02的χ個文本實例歸屬到第一本體01的每個概念。如果沒有第二本體02的文本實例歸屬到第一本體01的某個概念,則歸屬到第一本體01的這個概念的文本實例的數量為0。在步驟203,判定第二本體02中的每個概念的所有文本實例中分別歸屬到第一本體01中的每個概念的文本實例在所述所有文本實例中的比例(可稱為歸屬比例或歸屬關系),分別作為所述兩個本體中01和02的相應概念之間的相似度,其取值范圍為
。例如,假設第一本體01包含η個概念,第二本體02自身包含m個概念,第二本體 02的文本被預測分類,歸屬到第一本體01的每個概念。假設第二本體02中的第1個概念包含y個文本實例,則計算這y個文本實例中歸屬到第一本體01中的第1個概念的文本實例在所有y文本實例中的比例,計算這y個文本實例中歸屬到第一本體01中的第2個概念的文本實例在所有y個文本實例中的比例,依此類推,直到計算這y個文本實例中歸屬到第一本體01中的第η個概念的文本實例在所有y個文本實例中的比例,由此依次有η個所得值。類似地,按照上述方式,可計算第二本體02 中的第2個概念的所有文本實例中分別歸屬到第一本體01中的每個概念的文本實例在所有文本實例中的比例,直到計算第二本體02中的第m個概念的所有文本實例中分別歸屬到第一本體01中的每個概念的文本實例在所有文本實例中的比例。下面給出第二本體02中一個概念的文本實例的歸屬比例的計算公式。對于兩個本體01和02,第一本體01包含概念Cli,第二本體02包含概念C2j,給出概念C”的所有文本實例中歸屬到概念Cli的文本實例在所述所有文本實例中的比例的計算公式如下
權利要求
1.一種基于多層文本分類器的輕量級本體匹配方法,包括以下步驟選擇待匹配的兩個本體中的第一本體,將第一本體的概念分類樹和文本實例作為訓練集,利用自底向上的多層文本特征選擇策略構造多層文本分類器;利用多層文本分類器對所述兩個本體中的第二本體的文本實例進行預測分類,將第二本體的文本實例分別歸屬到第一本體的多個概念;判定第二本體中的每個概念的所有文本實例中分別歸屬到第一本體中的每個概念的文本實例在所述所有文本實例中的比例,分別作為所述兩個本體中的相應概念之間的相似度;基于概念之間的相似度得出所述兩個本體的概念之間的映射關系,由此完成輕量級本體匹配。
2.根據權利要求1所述的輕量級本體匹配方法,其中,利用自底向上的多層文本特征選擇策略構造多層文本分類器的步驟包括對第一本體的概念分類樹的各個葉節點進行文本特征選擇;利用自底向上的策略對第一本體的概念分類樹的分支節點進行文本特征選擇,直至當前分支節點為根節點,獲得最終的文本特征;使用最終的文本特征構造多層文本分類器。
3.根據權利要求2所述的輕量級本體匹配方法,其中,對于第二本體中的一個概念,如果所述一個概念的所有文本實例中分別歸屬到第一本體中的每個概念的文本實例在所述所有文本實例中的比例中的最大值大于或等于預定義的閾值,則確定所述第二本體中的所述一個概念與比例中的最大值所對應的第一本體的概念相似。
4.根據權利要求2所述的輕量級本體匹配方法,其中,所述兩個本體中的概念之間構成概念對,每個概念對的相似度是第二本體的概念的所有文本實例被歸屬到概念對中的另一概念的文本實例在所有文本實例中的比例。
5.根據權利要求4所述的輕量級本體匹配方法,其中,根據概念對的相似度的計算結果,對于第二本體中的任一個概念,在第一本體中尋找與所述任一個概念的相似度最大的概念,根據預定義的閾值確定構成概念對的兩個概念之間的匹配關系。
6.根據權利要求5所述的輕量級本體匹配方法,其中,當最大相似度大于或等于所述預定義的閾值時,確定構成概念對的所述兩個概念彼此相似。
全文摘要
一種基于多層文本分類器的輕量級本體匹配方法,該方法包括以下步驟選擇待匹配的兩個本體中的第一本體,將第一本體的概念分類樹和文本實例作為訓練集,利用自底向上的多層文本特征選擇策略構造多層文本分類器;利用多層文本分類器對所述兩個本體中的第二本體的文本實例進行預測分類,將第二本體的文本實例分別歸屬到第一本體的多個概念;判定第二本體中的每個概念的所有文本實例中分別歸屬到第一本體中的每個概念的文本實例在所述所有文本實例中的比例,分別作為所述兩個本體中的相應概念之間的相似度;基于概念之間的相似度得出所述兩個本體的概念之間的映射關系,由此完成輕量級本體匹配。
文檔編號G06F17/30GK102193928SQ20101012053
公開日2011年9月21日 申請日期2010年3月8日 優先權日2010年3月8日
發明者劉思培, 姜贏, 彭鴿, 王進, 胡晨 申請人:三星電子(中國)研發中心, 三星電子株式會社