專利名稱:針對自動化本體生成字典并確定共現上下文的制作方法
技術領域:
本發明總體上涉及辭典編纂分析領域,更具體地說,涉及針對自動化本體生成字典并確定共現(co-occurrence)的上下文。
背景技術:
領域語料庫可以是某領域的文檔集合。文檔可以是術語的集合。字典可以包括領 域中感興趣的術語。感興趣的術語和領域語料庫可以用來識別相關術語。
發明內容
根據本發明,可以減小或消除與用于生成字典和共現上下文的現有技術相關聯的 缺點和問題。根據一個實施方式,生成字典并確定共現上下文的方法包括訪問包含文章的領域 語料庫的步驟。每篇文章對應于特定主題,并且包括鏈接到與一個或更多個其他主題相對 應的一篇或更多篇其他文章的一個或更多個術語。指定每個主題作為術語,以產生字典。針 對領域語料庫定義共現上下文。認為出現在共現上下文中的至少兩個術語是共現的。根據 共現上下文來計算術語之間的共現。本發明的某些實施方式可以提供一個或更多個技術優點。一個技術優點可以是,實 施方式適用于諸如英語或其他語言的任意適當語言。另一技術優點可以是,實施方式產生字 典和共現上下文。另一技術優點可以是,可以從諸如在線文章數據庫的知識庫而生成語料庫。本發明的某些實施方式可以不包括上述技術優點,可以包括一些或全部上述技術 優點。根據此處包括的附圖、說明和權利要求,一個或更多個技術優點對于本領域技術人員 而言是可以顯見的。
為了更完整地理解本發明及其特征和優點,現在結合附圖進行以下說明,在附圖 中圖1示出確定術語和/或文檔深度的系統10的一個實施方式;圖2示出可與圖1的系統一起使用的語料庫模塊的一個實施方式;圖3示出可與圖1的系統一起使用的親和度模塊(affinity module)的一個實施 方式;圖4示出可與圖1的系統一起使用的用于識別術語并確定共現的方法的示例;以 及圖5示出可與圖1的系統一起使用的用于選擇文檔的方法的示例。
具體實施例方式通過參照附圖中的圖1至圖5,可以更好地理解本發明的實施方式及其優點,對于各圖中的相似部分和相應部分使用相同的標號。在某些實施方式中,可以創建領域本體,并且隨后對領域本體進行查詢。在某些示例中,處理可以包括如下步驟1.收集給定領域中的t檔。領域語料庫(或“領域”)是文檔的集合。文檔是術 語的集合。文檔的示例包括一段文本(例如,《新約圣經》)、書、文章以及一組獨立地和/或 共同地描述圖像內容的由用戶輸入的標簽。2.識別領域中感興趣的術語(字典術語)。術語可以是詞(例如“樹”)、短語(例 如,“圖形算法”)、命名實體(例如“紐約”)等。術語未必一字不差地出現在一個文檔或 多個文檔中。作為第一示例,術語能夠具有很多形式,例如“kidney stones (腎石頭)”和 "kidney calculi (腎結石)”表示相同的概念,外行所知的“kidney stones (腎石頭)”和 醫務人員所知的“kidney calculi (腎結石)”。出于創建本體的目的,可以將某術語的多 個形式處理為映射到相同術語(或概念)。作為第二示例,詞干形式(stemmed form)是一 個術語的各種屈折變型(inflected variant)中共同的部分。本體中的術語可以通過其 詞干形式引用。例如,術語“trees”的詞干為術語“tree”,因而,術語可能是“tree”而非 "trees,,。用于識別字典術語的方法的示例包括使用針對專業領域的人為創造的字典(例 如用于醫學領域的醫學術語字典),或基于語料庫中的文本字符串集而自動產生的術語列 表(例如,通過對語料庫文檔中的字符串編索引、然后將字符串按照頻率進行排序、并且選 擇頻率高于閾值的字符串而產生的列表,或通過使用類似統計方法而產生的列表)。3.對于字典術語,計算術語在給定的共現上下文中的共現次數。共現上下文的示 例是文檔,即,如果在同一文檔中兩個術語各自出現至少一次,則這兩個術語共現。共現上 下文的另一示例是段落,即,如果在同一段落中兩個術語各自出現至少一次,則這兩個術語 共現。4.使用字典術語作為節點并目.使用親和度(affinity)作為邊的權重來創建有向 加權圖。該圖包含領域本體。此處概念性地使用術語“有向加權圖”,因為可以以各種數據 結構(例如矩陣、二元判決圖)來實現對相同信息的實際表達。可以使用親和度的任意適當的定義。示例包括a.在某些情形中,術語A和B之間的基本親和度(Basic Affinity)定義為包含術 語A和B 二者的共現上下文數與包含術語A、B其中之一的共現上下文數之比<formula>formula see original document page 5</formula>
b.在其他情形中,基本親和度定義為包含術語A和B 二者的共現上下文數與包含 A的共現上下文數或包含B的共現上下文數中的最大值之比<formula>formula see original document page 5</formula>
c.術語A、B之間有向親和度(Directional Affinity) (DAff)定義為,在某一共 現上下文(例如,在同一文檔)中已觀察到A時觀察到B的條件概率<formula>formula see original document page 5</formula>
也就是說,DAff (A,B)可以是包含術語A和B 二者的共現上下文數與包含術語A 的共現上下文數之比。一般而言,DAff (A,B)不同于DAff (B,A)。d.術語 A和 B 之間的差分有向親和度(Differential DirectionalAffinity)(DiffDAff)定義為術語A和B之間的有向親和度減去考慮了語料庫中術語B的普通度 (common-ness)的因子。語料庫中術語B的普通度一般是術語B對于語料庫中所有其他術 語的所有基本親和度或有向親和度值的統計值。語料庫中術語B的普通度的一個示例是術 語B的平均親和度,得出差分有向親和度的如下定義DiffDaff (A, B) = DA (A, B) -AA (B)術語B的平均親和度(AA)或平均有向親和度定義為AA(B) = AVERAGE_x DAff (χ, B)也就是說,AA⑶可以是所有共現上下文中所有其他術語與術語B的有向親和度 的平均值。5.杳詢圖(本體)。給出一個或更多個字典術語作為輸入,該圖可用于輸出與輸入術語相關的一個或更多個字典術語。在一個示例中,給出術語作為輸入,輸出是與輸入術 語的差分有向親和度最高的術語的排序列表。在這種情形下,就本體所處的領域而言,輸出 術語與輸入術語更加密切關聯。圖1示出了可以為自動化本體產生領域語料庫和/或字典并且/或者確定共現上 下文的系統10的一個實施方式。在某些實施方式中,產生字典并確定共現上下文的方法包 括訪問包含文章的領域語料庫的步驟。每篇文章對應于特定主題,并且包含鏈接到與一個 或更多個其他主題相對應的一個或更多其他文章的一個或更多個術語。將各個主題指定為 術語以生成字典。針對領域語料庫定義共現上下文。認為在共現上下文中出現的至少兩個 術語是共現的。根據共現上下文來計算術語之間的共現。在某些實施方式中,產生領域語料庫的方法包含訪問知識庫的步驟。知識庫包含 一組文章。每篇文章對應于特定主題,并且包含鏈接到與其他主題相對應的其他文章的一 個或更多個術語。從用于領域語料庫的知識庫中選出第一組第一文章。識別與第一組第一 文章相關的第二組第二文章。從所述用于領域語料庫的知識庫中選出第二組第二文章。使 得領域語料庫是可訪問的。在所示實施方式中,系統10包括客戶端20、服務器22和存儲器24。客戶端20允 許用戶與服務器22通信,以針對自動化本體生成領域語料庫和/或字典并且/或者確定共 現上下文。客戶端20可以向服務器22發送用戶輸入,可以向用戶提供(例如,顯示或打 印)服務器輸出。服務器22管理用于產生語言本體的應用。存儲器24存儲服務器22使 用的數據。在所示實施方式中,存儲器24存儲語料庫50和記錄54。語料庫50可以包含文章 的集合,并且可以與特定的論題、團體、組織或其他實體相關聯。文章(或“頁”或“文檔”) 可以表示術語的集合。文章的示例包括文檔中的一頁或更多頁、一個或更多個文檔、一本或 更多本書、一個或更多個網頁、信件(例如,電子郵件或即時消息)和/或其他術語集合。可 以通過文章識別器來識別文章。文章可以電子地存儲在一個或更多個有形計算機可讀介質 中。文章可以與任意適當的內容相關聯,例如可以與文本(諸如字符、詞和/或數字)、圖像 (諸如圖形、照片或視頻)、音頻(諸如錄音或計算機生成的聲音)和/或軟件程序相關聯。 也可以針對知識庫52來描述文章。記錄54描述語料庫50。在本實施方式中,記錄54包括本體66。本體66代表語 言術語以及術語之間的關系。在一個實施方式中,本體66代表術語之間的親和度。在某些實施方式中,本體66包括親和度矩陣。作為示例,親和度矩陣可以記錄術語的基本親和度或兩兩親和度。作為另一示例,親和度矩陣可以記錄有向親和度。在該示例中,親和度矩陣 可以包括按行表示的A術語和按列表示的B術語。矩陣中的行記錄給定A術語時B術語的 親和度,而矩陣的列記錄給定B術語時A術語的親和度。作為另一示例,親和度矩陣可以記 錄平均親和度。在某些實施方式中,本體66包括親和度圖。作為示例,親和度圖包括節點、邊和鏈 接。節點代表術語。節點與節點之間的有向邊的權重代表節點所表示的術語之間的親和 度。例如,權重越大代表親和度越大。節點之間的鏈接指示節點所表示的術語之間的親和 度高于親和度閾值。親和度閾值可以具有任意適當的值,例如,大于或等于0. 25,0. 5,0. 75 或 0. 95。知識庫52代表可以從中選出語料庫50的數據庫中的信息。在某些實施方式中, 知識庫52可以包含文章的集合。每篇文章可以對應于特定主題。在某些實施方式中,文章 可以描述主題,例如,對應于主題X的百科全書文章可以描述主題X。在某些實施方式中,可 以通過術語來識別文章,該術語可以是主題。在某些實施方式中,文章引用其他文章。例如,文章包括的內容可以包括鏈接術 語。可以選擇鏈接術語以訪問對應于所鏈接術語的其他文章,或者可以具有到對應于所鏈 接術語的其他文章的“鏈接”。例如,對應于主題X的文章可以使用鏈接術語來描述主題X。 可選擇鏈接術語以訪問對應于主題Y的其他文章。有向鏈接可以是從對應于主題X的文章 到對應于主題Y的另一文章、但未必從對應于主題Y的文章到對應于主題X的文章的鏈接。在某些實施方式中,知識庫52可以是在線文章數據庫。在線文章數據庫包含 計算機可以經由例如因特網的任何適當網絡訪問的計算機化的文章。知識庫52的示 例包括在線百科全書(例如,Wikipedia(維基百科))、超文本百科全書(例如,online Britarmica (不列顛百科全書在線版)、Encarta (微軟的電子百科全書)等)、超文本字典 (例如,維基詞典)以及專業領域知識庫(例如,維基新聞)。在某些示例中,知識庫52和/或領域語料庫50可以包含描述主題的維基百科文 章。例如,維基百科文章可以描述諸如麥當娜(演員)之類的主題。作為另一示例,維基百 科文章可以描述諸如β羥基酸之類的主題。β羥基酸文章可以包括具有鏈接術語的內容, 該鏈接術語諸如是β羥基酸、有機化合物、羧酸、官能團、羥基、α羥基酸、水楊酸、痤瘡、 β-羥基丁酸、β-羥基β-丁酸甲酯、肉堿和3-羥基丙酸。在這些實施方式中,維基百科術語可以具有與之相關聯的很多別名術語。例如,針 對“Virgin Mary”和“Saint Mary”的維基百科文章重定向到維基百科文章瑪麗(耶穌的 母親)。因為別名術語指向相同的文章,所以它們不需要進行區分。在這些實施方式中,術 語別名的存在對于共現計算沒有影響,即,術語A和術語B之間的親和度與術語A和術語B 的任意別名之間的親和度相同。在所示實施方式中,服務器22包括語料庫模塊29和親和度模塊30。參照圖2更 詳細地描述語料庫模塊29。參照圖3更詳細地描述親和度模塊30。圖2示出了可以與圖1的系統10 —起使用的語料庫模塊29的一個實施方式。語 料庫模塊29可用于產生語料庫50。在所示實施方式中,語料庫模塊29包括文檔選擇器30、 術語識別器31和共現計算器32。在某些實施方式中,文檔選擇器30以任意適當的方式選擇用于語料庫50的文檔。將參照圖5更詳細地描述選擇文檔的方法的示例。在某些實施 方式中,術語識別器31以任意適當的方式識別用于字典的術語。參照圖4更詳細地描述識 別術語的方法的示例。在某些實施方式中,共現計算器32以任意適當的方式確定共現。將 參照圖4更詳細地描述確定共現的方法的示例。在某些實施方式中,可以針對與提取出了領域字典的語料庫50不同的第二語料 庫應用領域字典。第二語料庫可以具有不同的共現上下文。可以把領域術語映射到第二語 料庫中的術語,以計算親和度并生成領域本體。圖3示出了可以與圖1的系統10 —起使用的親和度模塊30的一個實施方式。親 和度模塊30可以計算術語對的親和度,將該親和度記錄在親和度矩陣中并且/或者報告親 和度矩陣。親和度模塊30還可以生成親和度圖。在所示實施方式中,親和度模塊30包括親和度計算器34、本體生成器38和詞推薦 器48。親和度計算器34計算術語Wi或者包含第一術語Wi和第二術語Wj的術語對的任意 適當類型的親和度。親和度的示例包含基本親和度、有向親和度、平均親和度、差分親和度 和/或其他親和度。在一個實施方式中,詞推薦器48接收種子術語且識別與種子術語的親和度高于 閾值親和度的術語。閾值親和度可以具有任意適當的值,諸如大于或等于0. 25,0. 5,0. 75 或0. 95。可以預擬定閾值親和度或由用戶指定閾值親和度。可以根據包括術語Wi和/或Wj的頁的量(例如,數目)來計算基本親和度。合取 頁(conjunction page)量代表包含術語Wi和術語二者的頁的量,析取頁(disjunction page)量代表包括術語Wi或術語Wj的頁的量。基本親和度可以通過合取頁量除以析取頁 量給出。在一個示例中,合取頁的數目表示包含術語Wi和術語 的頁的數目,析取頁的數 目表示包含術語Wi或術語Wj的頁的數目。基本親和度可以通過合取頁的數目除以析取頁 的數目給出Affinity (Wi, Wj) = Pdi & Ij)/P (Wfffj)在某些實施方式中,親和度組包含彼此具有高親和度的術語對,且可用于獲取關 于頁面內容在術語W1和W2之間的關系。可以將高親和度指定為大于親和度組閾值的親和 度。閾值可以設置為任意適當的值,諸如大于或等于0. 50、0.60、0. 75、0.90或0.95。一個 術語可以屬于多于一個的親和度組。有向親和度可用于測量術語Wi相對于術語%的重要性。親和度計算器34根據包括術語Wi和 的頁的量(例如,數目)來計算給定術語 時術語Wi的有向親和度。給定 術語Wj時術語Wi的有向親和度可以通過合取頁量除以術語Wj頁量給出。例如,術語Wj的 頁的數目表示包括術語Wj的頁的數目。給定術語^時術語Wj的有向親和度可以通過合取 頁的數目除以術語Wi的頁的數目給出DAffinity (Wi, Wj) = P (ffi&ffj) /P (Wi)DAffinity (wi; Wj)與DAffinity (wj,Wi)不同。術語Wi和Wj之間的有向親和度 DAffinity(WijWj)越高,就表示在頁包括術語Wi時該頁包括術語%的概率越高。在一個示 例中,頁[123456]包括術語^,頁[42]包括術語Wj。包括術語Wj的頁也包括術語Wi,所以, 從術語%的角度看,術語Wi的重要度高。包括術語Wi的頁中僅有三分之一的頁也包括術 語 所以從術語^的角度看,術語%的重要度低。
在某些實施方式中,可以計算術語Wi針對多個其他術語%的平均親和度。在一個 實施方式中,平均親和度可以是術語Wi和每個其他術語%之間的親和度的平均值。術語Wi 的N個術語的平均親和度可以由下式給出<formula>formula see original document page 9</formula>在某些實施方式中,術語的平均親和度可以表示術語的深度。具有較低平均親和度的術語可以被認為是較深的術語,具有較高平均親和度的術語可以被認為是較淺的術 語。較深的術語傾向于更加技術、專業和精確。具有較高百分比的較深術語的頁可以被認 為是較深頁,具有較低百分比的較深術語的頁可以被認為是較淺頁。在一個實施方式中,用 戶可以指定要檢索的術語和/或頁的深度。某頁的多個較深術語可以形成一簇或更多簇高度關聯的術語。簇可以代表共同的 思想或主題。頁的主題的數目可以表示頁的專指性。具有較少主題的頁可以被認為更專業, 具有較多主題的頁被認為較不專業。術語Wi針對術語Wj的差分親和度是術語Wi和Wj之間的有向親和度減去術語Wj 對于所有其他術語的平均親和度。差分親和度可以表示為<formula>formula see original document page 9</formula>差分親和度消除了由術語Wj在頁中出現的總體趨勢而導致的偏差。在具體環境 中,差分親和度可以提供在某頁包括術語Wj時該頁還包括術語Wi的概率的更精確表示。差分親和度可以用于各種用途。在一個示例中,人名之間的差分親和度可用于研 究社會網絡。在另一示例中,語言元素之間的差分親和度可用于研究自然語言處理。在另 一示例中,產品之間的差分親和度可用于研究市場營銷。親和度計算器34可以使用任意適當技術來搜索倒排索引列表,以計算親和度。例 如,為了識別包括術語Wi和Wj 二者的頁,親和度計算器34可以針對相同的元素,即相同的 頁面標識符,搜索術語Wi的列表Wi和術語 的列表W」。在特定實施方式中,本體生成器38生成語言的本體66,諸如親和度矩陣或親和度 圖。可以由諸如基本親和度、有向親和度、平均親和度、差分親和度和/或其他親和度的任 意適當的親和度來生成本體。可以根據以任意適當方式從語言選出的術語來生成本體66。 例如,可以選擇來自語言的共同使用部分的術語、或者與一個或更多個特定主題范圍相關 的術語。在所示實施方式中,本體生成器38包括親和度矩陣生成器42和親和度圖生成器 46。親和度矩陣生成器42生成記錄術語之間的親和度的親和度矩陣。親和度圖生成器46 生成表示術語之間的親和度的親和度圖。在親和度圖中,節點代表術語,節點之間的有向邊 的權重代表節點所表示的術語之間的親和度。親和度圖可以具有任意適當的維數。圖4示出了可以與圖1的系統10 —起使用的識別術語并確定共現的方法的示例。 該方法在步驟250開始,在步驟250訪問領域語料庫。參照圖5來描述用于選擇語料庫50 的方法的示例。在某些實施方式中,領域語料庫50包括一組文章。每篇文章對應于特定主 題。每篇文章包括鏈接到對應于其他主題的其他文章的一個或更多個術語。在某些示例中, 領域語料庫50可以包括描述主題的維基百科文章。例如,維基百科文章可以描述諸如麥當 娜(演員)的主題。
在步驟254,將每個文章主題指定為字典術語,以產生字典。例如,指定維基百科文章主題麥當娜(演員)作為字典術語。在步驟258定義共現上下文。共現上下文是用來確定術語是否共現文本的量如 果多個術語在同一共現上下文中出現,則它們共現。在某些實施方式中,可以將共現上下文 定義為文章,使得如果第一術語和第二術語處于同一文章中,則第一術語和第二術語是共 現的。在某些實施方式中,可以將共現上下文定義為文章的子集,使得如果第一術語和第二 術語處于文章的同一子集中,則第一術語和第二術語是共現的。文章子集的示例包括一個 或更多個章節或子章節。在某些實施方式中,可以根據共現上下文的最小術語數目和共現上下文的最大術 語數目來定義文章的共現上下文。在這些實施方式中,如果文章不分章節,則共現上下文是 文章。如果文章具有章節、并且如果章節的術語數目大于最小術語數目,則該章節是共現上 下文。否則,該章節與后續或前一章節合并成單個共現上下文,并且再次應用閾值測試。如 果章節中的術語數目大于最大術語數目,則根據術語的最小數目來測試子章節。最小術語 數目可以處于小于5、5至10、或10至20的范圍,最大術語數目可以處于25至30、30至40、 或大于40的范圍。文章標題可以包括在共現上下文中,可以計數為或者可以不計數為最小 和最大值。在步驟262,根據共現上下文來確定共現。出現在共現上下文中的術語是共現的。 在步驟266,根據共現來確定術語之間的相關度。在某些實施方式中,可以根據共現來計算 術語之間的親和度(例如有向親和度)。在某些實施方式中,可以根據親和度來構建親和 度圖(例如有向加權親和度圖)并對其進行查詢。在某些實施方式中,可以接收輸入術語。 可以根據親和度圖來確定與輸入術語相關的領域語料庫的一個或更多個術語。圖5示出可以與圖1的系統10 —起使用的選擇文檔的方法的示例。該方法開始 于步驟206,在步驟206訪問知識庫52。知識庫52包含一組文章。每篇文章對應于特定主 題,并且包括鏈接到對應于其他主題的其他文章的一個或更多個術語。在某些實施方式中, 知識庫52包含在線文章數據庫,例如包含文章Ai的維基百科。在步驟210,對領域語料庫50進行初始化。在某些實施方式中,可以將領域語料 庫50初始化為空。在步驟214,從用于領域語料庫50的知識庫52中選出第一組第一文章。 可以以任意適當的方式選擇第一組,例如如下方式中的一種或更多種。在某些實施方式中, 可以從用戶接收對于一篇或更多篇文章的選擇。可以將所選擇的文章指定為第一組的一篇 或更多篇第一文章。在某些實施方式中,可以將知識庫52的某類別(例如如維基百科類別 或內容入口)的一篇或更多篇文章指定為第一組的一篇或更多篇第一文章。作為示例,如 果領域為“能源”,則對于第一組可以選擇來自“能源”類別的文章。作為另一示例,如果領 域為“自動化技術”,則對于第一組可以選擇來自“自動化技術”內容入口的文章。在步驟218,第一組可能具有或不具有足夠的大小。根據語料庫50的應用,大 小可以是足夠的,并且可以是任意適當的數目,例如小于1000、1000至10,000、10,000至 50,000、或大于50,000的范圍內的數目。如果第一組為足夠大小,則該方法進行到步驟 238。如果第一組大小不足,則方法進行到步驟222。步驟222至234描述了識別與第一組第一文章相關的第二組第二文章并從用于領 域語料庫的知識庫中選擇第二組第二文章的方法的示例。在步驟222選擇文章。
在步驟226,識別與所選擇的文章相關的文章。可以以任意適當的方式識別相關文 章,例如,使用如下方法中的一種或更多種。在某些實施方式中,可以生成第一文章的親和 度圖。該親和度圖包含一個或更多個節點,每個節點代表對應于文章的術語。根節點代表 對應于根文章(例如,針對其產生親和度圖的文章)的術語。子節點代表在根文章中出現 的鏈接術語,該鏈接術語鏈接到子文章。孫節點代表在子文章中出現的鏈接術語,該鏈接術 語鏈接到孫文章。可以根據親和度圖來識別與各篇第一文章相關的一篇或更多篇文章。可 以將相關文章放置在第二組中。例如,圖可以包括Ai的子節點和孫節點以及節點之間的有向鏈接。節點A的子節 點代表在A的文章中出現的鏈接術語B,A的孫子代表在B的文章中出現的鏈接術語C。如 果下列條件中的一個或更多個成立,則Ai的子節點和孫節點可以添加到Related(Ai)—— 與Ai相關的節點組Ai的兒子具有到Ai的有向鏈接;Ai的兒子具有大于預定數目的到Ai的其他兒子或者到Ai的所有兒子的預定百分 比的有向鏈接;
Ai的孫子具有到Ai的鏈接;以及/或者Ai的孫子具有大于預定數目的到Ai其他兒子或者到Ai所有兒子中的預定百分比 的有向鏈接。所述預定數目和所述預定百分比可以具有任何適當的值。例如,所述預定數目可 以具有小于3、3至5、5至10、10至25的范圍內的值。所述預定百分比可以具有小于5%、 5%至10%、10%至25%、或25%至50%的范圍內的值。在某些實施方式中,可以產生第一文章的親和度圖。可以以任何適當方式對該親 和度圖進行加權。可以根據加權的親和度圖來識別與各個第一文章相關的一篇或更多篇文 章。可以將相關文章放置在第二組中。可以以任何適當方式對鏈接分配權重。例如,可以如上所述地計算親和度圖。可 以對與根節點較為接近的鏈接分配較高的權重。例如,根和子節點之間的權重可以高于子 節點和孫節點之間的權重。例如,可以分配如下權重,其中W1 > W2 > W3 :根-、子界丄子->根-.W1子->子潭2根->孫潭2子->孫潭2孫->子#3孫_>孫W3權重可以具有任何適當的值,如W1 = 1,W2 = 0. 5,W3 = 0. 25。可以以任何適當方式針對圖中的每個節點計算某值。例如,可以根據應用于與節 點相連接的一個或更多個或所有進入和/或離開鏈接的數學函數(如求和函數)來計算該 值。可以以任何適當方式選擇相關節點。可以選擇值大于預定值的節點、和/或預定百分 比的具有最大值的節點。所述預定值和所述預定百分比可以具有任何適當的值。例如,給 定上述權重,所述預定值可以具有1至3、3至5、5至10、或大于10的范圍內的值。所述預定百分比可以具有3%至10%、10%至25%、或大于50%的范圍內的值。作為另一示例,可以如這里所述地計算親和度圖。可以根據與某節點表示的術語對應的文章的流行度來對到該節點的鏈接進行加權。可以根據文章被用戶訪問的次數來測 量文章的流行度。次數越高表示文章越流行。可以由文章的PageRank或HITS來給出文章 被訪問的次數。可以以任何適當的方式(例如這里描述的方式),來計算圖中的每個節點的值。可 以以任何適當的方式(例如這里描述的方式)來選擇相關節點。預定值和預定百分比可 以具有任何適當的值。例如,給定上述權重,預定值可以具有0. 25x至0. 5x、0. 5x至lx、或 大于Ix的范圍內的值,其中χ代表平均節點值。預定百分比可以具有3%至10%、10%至 25%、或大于50%的范圍內的值。作為另一示例,可以如這里所述地計算親和度圖。可以根據Taggr技術選擇相關 文章。在 Yannis Labrou等人于 2009年2 月 10 日提交的名為“Determining Words Related to a Given Set of Words”的美國專利申請No. 12/368689中描述了 Taggr技術的示例,此 處通過引用將其并入。在某些實施方式中,Taggr技術涉及針對每篇第一文章從知識庫52選擇如下的一 篇或更多篇臨時文章根據親和度圖,所述臨時文章對于每篇第一文章的親和度(如差分 親和度)較高。可以針對每篇臨時文章計算平均親和度。平均親和度代表從每篇臨時文章 到第一組的每篇第一文章的親和度的平均值。在某些示例中,節點的平均親和度可以是節 點的進入鏈接中的至少兩個或所有權重的平均值。可以刪除如下的一篇或更多篇文章其 各自的平均差分親和度都不滿足預定閾值。可以將剩余的臨時文章放置到第二組中。在示例中,使用如下參數kl 術語可能暗示的候選術語的數目的上限;k2 平均差分親和度閾值;k3 每次迭代的結果的數目的上限;k4:迭代數目的上限;以及k5 返回結果的數目的上限。參數的示例范圍如下對于kl為[5,20],對于1^2為[-0. 1,0. 1],對于k3為[5, 20],對于 k4 為[1,3],對于1^5為[5,20]。在該示例中,可以接收初始術語組。可以對要從組S獲取的候選術語組Q進行初 始化。最初,組Q可以與組S相等。至多,針對組Q的每個術語,收集差分親和度最高的kl 個術語,將這kl個術語與其差分親和度一起放置在臨時組R中。也就是說,組Q的每個術 語最多產生與該組的起源術語的差分親和度最高的kl個術語。如果從組Q的多個術語獲 得相同術語,則該術語的差分親和度是各個差分親和度之和。對于組R的每個術語,計算從該術語到組S的每個術語的差分親和度的平均值,即 該術語的“平均差分親和度”。從組R刪除平均差分親和度低于平均差分親和度閾值k2的 術語。將組R中具有最高差分親和度的k3個術語添加到組Q。該步驟可以重復k4次。在k4次迭代之后,對組Q的術語進行排序。例如,可以基于術語的平均親和度、或 其對于組Q的其他術語的差分親和度的平均值,對術語進行排序,使得具有較高平均親和 度或較高平均差分親和度的術語位于列表的頂端。將組Q的頂端k5個術語相關聯。
在步驟230,將相關文章添加到語料庫50。可能有在步驟234中尚未選擇的第一組下一第一文章。如果存在下一文章,則該方法返回到步驟222以選擇該文章。如果不存 在下一文章,則該方法前進到步驟238。在步驟238,使得領域語料庫50可用。可以以任何適當方式使得領域語料庫50可 用。例如,可以使得語料庫50可由用戶訪問,從而用戶可以使用并搜索語料庫50。然后該 方法結束。在某些實施方式中,可以將所選擇文章的全部或僅僅一部分添加到領域語料庫 50。例如,文章可以包括諸如“歷史”“怎么干...”或“經濟”等特定類型的章節。可以添 加特定類型的章節,以創建諸如“怎么干.· · ”領域的特定領域的語料庫50。在某些情形中,領域語料庫50可能包括具有多余術語的多余文章。如果領域語料 庫50的大多數文章屬于所希望的領域,則多余術語的親和度低于與領域更加相關的術語 的親和度。在某些實施方式中,可以使用領域專用字典和泛用(未必是領域專用)語料庫來 計算有向加權圖。在這些實施方式中,字典是領域語料庫50的術語集,但是基于領域內和 領域外的文章的共現上下文來計算術語的親和度。在這些實施方式中,領域語料庫50可以 是知識庫52 (從其提取領域語料庫50)的適當子集或者可以與知識庫52有很大重合。在不偏離本發明范圍的情況下,可以對這里公開的系統和裝置進行修改、添加、或 者省略。系統和裝置的部件可以集成或分離。而且,系統和裝置的操作可以由更多、更少、 或者其他的部件來執行。例如,語料庫模塊29和親和度模塊30的操作可以由一個部件來 執行,或者,語料庫模塊29的操作可以由多于一個的部件來執行。另外,系統和裝置的操作 可以使用包括軟件、硬件、和/或其他邏輯的任何適當邏輯來執行。如在本文獻中所使用, “每個”指代一組中的每個元件或者一組中的子集的每個元件。在不偏離本發明范圍的情況下,可以對這里公開的方法進行修改、添加、或者省 略。方法可以包括更多、更少、或者其他的步驟。另外,可以任何適當順序執行步驟。系統和裝置的部件可以包括接口、邏輯部、存儲器、和/或其他適當元件。接口接 收輸入,發送輸出,對輸入和/或輸出進行處理,并且/或者執行其他適當操作。接口可以 包括硬件和/或軟件。邏輯部執行部件的操作,例如執行指令以根據輸入產生輸出。邏輯部可以包括硬 件、軟件、和/或其他邏輯。邏輯部可以編碼在一個或更多個有形介質中并且當由計算機執 行時可以執行操作。特定的邏輯部,例如處理器,可以管理部件的操作。處理器的示例包 括一個或更多個計算機、一個或更多個微處理器、一個或更多個應用程序、和/或其他邏輯 部。在特定實施方式中,實施方式的操作可以由一個或更多個計算機可讀的介質來執 行,所述計算機可讀介質編碼有計算機程序、軟件、計算機可執行指令、和/或能夠由計算 機執行的指令。在特定實施方式中,實施方式的操作可以由一個或更多個計算機可讀介質 來執行,所述計算機可讀介質存儲有計算機程序、用計算機程序實現、并且/或者編碼有計 算機程序,并且/或者具有存儲的和/或編碼的計算機程序。存儲器存儲信息。存儲器可以包括一個或更多個有形、計算機可讀、和/或計算機 可執行的存儲介質。存儲器的示例包括計算機存儲器(例如隨機存取存儲器(RAM)或只讀存儲器(ROM))、大容量存儲介質(例如硬盤)、可移除存儲介質(例如光盤(CD)或數字視 頻盤(DVD))、數據庫和/或網絡存儲器(例如服務器)、和/或其他計算機可讀介質。盡管根據特定實施方式描述了本公開,但是對于本領域技術人員來說,對實施方 式的變更和置換將是明顯的。因此,實施方式的以上描述不約束本公開。在不偏離如以下 權利要求所定義的本公開的精神和范圍的情況下,其他變化、替換和變更是可能的。相關申請本申請要求Yannis Labrou等于2009年2月26日遞交的序列號為 No. 61/155,611、題為 “GENERATING A DICTIONARY ANDCO-OCCURRENCE CONTEXTS FOR AN AUTOMATED ONTOLOGY”、代理人卷號為 073338. 0675 的美國臨時申請在 35U. S. C. § 119(e) 下的權益,通過引用將該臨時申請并入本文。
權利要求
一種方法,該方法包括以下步驟訪問包括多篇文章的領域語料庫,各篇文章對應于特定主題,各篇文章包括鏈接到與一個或更多個其他主題相對應的一篇或更多篇其他文章的一個或更多個術語;將各個主題指定為術語,以產生字典;為所述領域語料庫定義共現上下文,認為出現在所述共現上下文中的至少兩個術語是共現的;以及根據所述共現上下文,確定術語之間的多個共現。
2.如權利要求1所述的方法,其中,定義共現上下文的步驟還包括以下操作將共現上下文定義為文章,由此,如果第一術語和第二術語處于同一文章中,則所述第 一術語和所述第二術語是共現的。
3.如權利要求1所述的方法,其中,定義共現上下文的步驟還包括以下操作將共現上下文定義為文章的子集,由此,如果第一術語和第二術語處于文章的同一子 集中,則所述第一術語和所述第二術語是共現的。
4.如權利要求1所述的方法,其中,定義共現上下文的步驟還包括以下操作 根據共現上下文的最小術語數量和共現上下文的最大術語數量來定義文章的共現上下文。
5.如權利要求1所述的方法,該方法還包括以下步驟 根據術語之間的共現,來計算這些術語之間的多個親和度。
6.如權利要求1所述的方法,該方法還包括以下步驟 根據術語之間的共現,來生成親和度圖。
7.如權利要求1所述的方法,該方法還包括以下步驟 接收一個或更多個輸入術語;以及根據共現,識別與所述一個或更多個輸入術語相關的領域語料庫的一個或更多個術語。
8.如權利要求1所述的方法,其中,所述領域語料庫包括在線文章數據庫。
9.一種有形計算機可讀介質,該計算機可讀介質包括當被處理器執行時能夠進行如下 操作的代碼訪問包括多篇文章的領域語料庫,各篇文章對應于特定主題,各篇文章包括鏈接到與 一個或更多個其他主題相對應的一篇或更多篇其他文章的一個或更多個術語; 將各個主題指定為術語,以產生字典;為所述領域語料庫定義共現上下文,認為出現在所述共現上下文中的至少兩個術語是 共現的;以及根據所述共現上下文,確定術語之間的多個共現。
10.如權利要求9所述的計算機可讀介質,其中,所述代碼能夠如下地進行定義共現上 下文的操作將共現上下文定義為文章,由此,如果第一術語和第二術語處于同一文章中,則所述第 一術語和所述第二術語是共現的。
11.如權利要求9所述的計算機可讀介質,其中,所述代碼能夠如下地進行定義共現上 下文的操作將共現上下文定義為文章的子集,由此,如果第一術語和第二術語處于文章的同一子 集中,則所述第一術語和所述第二術語是共現的。
12.如權利要求9所述的計算機可讀介質,其中,所述代碼能夠如下地進行定義共現上 下文的操作根據共現上下文的最小術語數量和共現上下文的最大術語數量來定義文章 的共現上 下文。
13.如權利要求9所述的計算機可讀介質,其中,所述代碼能夠進行如下操作 根據術語之間的共現,來計算這些術語之間的多個親和度。
14.如權利要求9所述的計算機可讀介質,其中,所述代碼能夠進行如下操作 根據術語之間的共現,來生成親和度圖。
15.如權利要求9所述的計算機可讀介質,其中,所述代碼能夠進行如下操作 接收一個或更多個輸入術語;以及根據共現,識別與所述一個或更多個輸入術語相關的領域語料庫的一個或更多個術語。
16.如權利要求9所述的計算機可讀介質,其中,所述領域語料庫包括在線文章數據庫。
17.一種系統,該系統包括存儲器,該存儲器能夠進行存儲領域語料庫的操作,所述領域語料庫包括多篇文章,各 篇文章對應于特定主題,各篇文章包括鏈接到與一個或更多個其他主題相對應的一篇或更 多篇其他文章的一個或更多個術語;一個或更多個處理器,所述一個或更多個處理器能夠進行如下操作 將各個主題指定為術語,以產生字典;為所述領域語料庫定義共現上下文,認為出現在所述共現上下文中的至少兩個術語是 共現的;以及根據所述共現上下文,確定術語之間的多個共現。
18.如權利要求17所述的系統,其中,所述一個或更多個處理器能夠如下地進行定義 共現上下文的操作將共現上下文定義為文章,由此,如果第一術語和第二術語處于同一文章中,則所述第 一術語和所述第二術語是共現的。
19.如權利要求17所述的系統,其中,所述一個或更多個處理器能夠如下地進行定義 共現上下文的操作將共現上下文定義為文章的子集,由此,如果第一術語和第二術語處于文章的同一子 集中,則所述第一術語和所述第二術語是共現的。
20.如權利要求17所述的系統,其中,所述一個或更多個處理器能夠如下地進行定義 共現上下文的操作根據共現上下文的最小術語數量和共現上下文的最大術語數量來定義文章的共現上 下文。
全文摘要
本發明涉及針對自動化本體生成字典并確定共現上下文。根據一個實施方式,生成字典并確定共現上下文的方法包括訪問包含多篇文章的領域語料庫的步驟。每篇文章對應于特定主題,并且包括鏈接到與一個或更多個其他主題相對應的一篇或更多篇其他文章的一個或更多個術語。指定每個主題作為術語,以產生字典。針對領域語料庫定義共現上下文。認為出現在共現上下文中的至少兩個術語是共現的。根據共現上下文來計算術語之間的共現。
文檔編號G06F17/27GK101819567SQ201010126140
公開日2010年9月1日 申請日期2010年2月26日 優先權日2009年2月26日
發明者斯特吉奧斯·斯特吉奧, 雅納斯·郎布羅 申請人:富士通株式會社