縮寫詞擴展方法和裝置的制造方法
【技術領域】
[0001] 本發明信息處理領域,更具體地涉及一種縮寫詞擴展方法和裝置。
【背景技術】
[0002] 實體鏈接(Entitylinking)是將非結構化文本,如新聞,博客,論壇,微博等中的 實體,如人,地點,組織與互聯網知識庫,如Wikipedia,DBPedia進行關聯的技術。實體鏈 接技術可W用于知識庫的構建與動態更新,將文本內容語義化。然而,在實體鏈接過程中, 實體名的形式往往為縮寫形式,如"CNPC", "ABC"等。由于每一個縮寫詞可W指代多個 實體,例如"ABC"即可W用來指代"AmericanBroadcastingCompany"又可W用來指代 "Agricul化ralBankof化ina",因此增加了實體鏈接中的消除歧義的難度。因此,確定該 些縮寫詞的全稱形式是實體鏈接首要解決的問題。
[0003] 因此需要一種能夠對縮寫詞進行擴展的方法和裝置。
【發明內容】
[0004] 在下文中給出關于本發明的簡要概述,W便提供關于本發明的某些方面的基本理 解。應當理解,該個概述并不是關于本發明的窮舉性概述。它并不是意圖確定本發明的關 鍵或重要部分,也不是意圖限定本發明的范圍。其目的僅僅是W簡化的形式給出某些概念, W此作為稍后論述的更詳細描述的前序。
[0005] 本發明的一個主要目的在于,提供一種在多個語境中對縮寫詞進行擴展的方法, 包括:在多個語境中,將與縮寫詞具有共現模式關系的全稱詞確定為縮寫詞的第一類候選 全稱詞,并設置第一類候選全稱詞的置信度;在不存在具有共現模式關系的縮寫詞和全稱 詞的語境中,將第一類候選全稱詞作為檢索詞進行檢索,如果某個語境含有第一類候選全 稱詞,則將該第一類候選全稱詞確定為縮寫詞在該語境中的第二類候選全稱詞,并設置第 二類候選全稱詞的置信度;在不存在具有共現模式關系的縮寫詞和全稱詞的語境中,將基 于網絡信息獲取的與第一類候選全稱詞不同的所有其他與縮寫詞對應的全稱詞作為檢索 詞進行檢索,確定縮寫詞在各語境中的第H類候選全稱詞;W及根據多個語境與第一類候 選全稱詞和/或第二類候選詞的對應關系W及第一類候選全稱詞和/或第二類候選詞的置 信度來構建訓練數據集,利用訓練數據集學習分類模型,基于分類模型來確定第H類候選 全稱詞的置信度,從而確定縮寫詞在各個語境中對應的全稱詞。
[0006] 根據本發明的一個方面,提供了一種在多個語境中對縮寫詞進行擴展的裝置,包 括:第一類候選全稱詞確定單元,第一類候選全稱詞確定單元被配置為在多個語境中,將與 縮寫詞具有共現模式關系的全稱詞確定為縮寫詞的第一類候選全稱詞,并設置第一類候選 全稱詞的置信度;第二類候選全稱詞確定單元,第二類候選全稱詞確定單元被配置為在不 存在具有共現模式關系的縮寫詞和全稱詞的語境中,將第一類候選全稱詞作為檢索詞進行 檢索,如果某個語境含有第一類候選全稱詞,則將該第一類候選全稱詞確定為縮寫詞在該 語境中的第二類候選全稱詞,并設置第二類候選全稱詞的置信度;第H類候選全稱詞確定 單元,第H類候選全稱詞確定單元被配置為在不存在具有共現模式關系的縮寫詞和全稱詞 的語境中,將基于網絡信息獲取的與第一類候選全稱詞不同的所有其他與縮寫詞對應的全 稱詞作為檢索詞進行檢索,確定縮寫詞在各語境中的第H類候選全稱詞;W及第H類候選 全稱詞置信度確定單元,第H類候選全稱詞置信度確定單元被配置為根據多個語境與第一 類候選全稱詞和/或第二類候選詞的對應關系W及第一類候選全稱詞和/或第二類候選詞 的置信度來構建訓練數據集,利用訓練數據集學習分類模型,基于分類模型來確定第H類 候選全稱詞的置信度,從而確定縮寫詞在各個語境中對應的全稱詞。
[0007] 另外,本發明的實施例還提供了用于實現上述方法的計算機程序。
[0008] 此外,本發明的實施例還提供了至少計算機可讀介質形式的計算機程序產品,其 上記錄有用于實現上述方法的計算機程序代碼。
[0009] 通過本發明,可W利用縮寫詞出現的多個語境的上下文信息進行協同擴展來得到 與該縮寫詞對應的全稱詞(也稱為擴展詞)。從而可W在高召回率前提下,獲得更精確的全 稱詞候選,有效減少消歧處理的工作量。
[0010] 通過W下結合附圖對本發明的最佳實施例的詳細說明,本發明的該些W及其他優 點將更加明顯。
【附圖說明】
[0011] 參照下面結合附圖對本發明實施例的說明,會更加容易地理解本發明的W上和其 它目的、特點和優點。附圖中的部件只是為了示出本發明的原理。在附圖中,相同的或類似 的技術特征或部件將采用相同或類似的附圖標記來表示。
[0012] 圖1是示出根據本發明的一個實施例的縮寫詞擴展方法的示例性流程圖;
[001引圖2是互聯網知識庫中關于縮寫詞"IBM"的相關信息的示意圖;
[0014] 圖3是互聯網知識庫中關于縮寫詞"ABC"的消岐頁面的示意圖;
[0015]圖4是示出根據本發明的一個實施例的縮寫詞擴展裝置400的示例性配置的框圖
[0016] 圖5是示出可W用于實施本發明的文本提取方法和裝置的計算設備的舉例的結 構圖。
【具體實施方式】
[0017] 下面參照附圖來說明本發明的實施例。在本發明的一個附圖或一種實施方式中描 述的元素和特征可W與一個或更多個其它附圖或實施方式中示出的元素和特征相結合。應 當注意,為了清楚的目的,附圖和說明中省略了與本發明無關的、本領域普通技術人員已知 的部件和處理的表示和描述。
[001引本發明提出一種基于"協同+反饋"的縮寫詞擴展技術,該技術利用縮寫詞出現的 多個語境的上下文信息進行協同擴展來得到與該縮寫詞對應的全稱詞(也稱為擴展詞)。該 里,"語境"可W是一篇文檔、一個章節、一個段落、甚至一句話。
[001引例如,實體名"ABC"出現在n個文檔中,可W利用n個文檔中"ABC"的上下文對所 有的"ABC"進行協同擴展,而不是分別利用該n個文檔對"ABC"進行單獨擴展。因為,"ABC" 在第i個文檔中的上下文可W輔助"ABC"在第j個文檔中的擴展。同時,該技術利用互聯 網知識庫和數據得到與"ABC"對應的全稱詞候選集合,并將該全稱詞候選集合反饋到相關 文檔上下文,利用上下文進一步精煉全稱詞候選集合。該技術可w在高召回率前提下,獲得 更精確的全稱詞候選,從而有效減少消歧處理的工作量。
[0020] 下面,W文檔1至文檔5五篇文檔作為五個語境、"ABC"為給定縮寫詞為例,詳細 說明根據本發明的一個實施例的縮寫詞擴展方法。
[0021] 圖1示出了根據本發明的一個實施例的縮寫詞擴展方法的示意圖。
[0022] 首先,在步驟S110中,將與給定縮寫詞具有共現模式關系的全稱詞確定為縮寫詞 的第一類候選全稱詞,并設置第一類候選全稱詞的置信度。
[0023] 具體地,對于給定的縮寫詞"ABC",首先抽取該縮寫詞的局部上下文,如選取縮寫 詞前后各m個詞作為縮寫詞的局部上下文。然后利用全稱詞與縮寫詞的共現模式關系,例 女口"全稱詞(縮寫詞)"或"縮寫詞(全稱詞)"該樣格式,從縮寫詞的上下文中抽取縮寫詞的全 稱詞。
[0024]在該實施例中,在文檔 1 中找到了"ABC(AmericanBroadcastingCompany)",在 文檔2中找到"ABC(Agri州huralBankofQiina)"。
[0025] 為了方便說明,將通過W上共現模式找到的與給定縮寫詞"ABC"對應的全 稱詞稱為該縮寫詞的第一類候選全稱詞,即,"AmericanBroadcastingCompany"和 "Agri州;UuralBankof化ina"都是"ABC"的第一類候選全稱詞,并將其在文檔1和文檔 2中的置信度都設置為1.0。
[0026] 我們假設,如果在一個語境中出現了給定縮寫詞與對應的全稱詞的共現模式,貝U 與該縮寫詞對應的全稱詞是唯一確定的。例如,在一篇文檔中,如果出現了"ABCXAmerican BroadcastingCompany)",那么在該文檔中再次出現的"ABC"-定表示"American BroadcastingCompany",而不會是其它。如果在一篇文檔的不同位置處,例如不同段落 分別出現了"ABC(AmericanBroadcastingCompany)"和"ABC(Agri州huralBankof Qiina)",則可WW-個段落作為一個語境,即"ABC(AmericanBroadcastingCompany)" 和"ABC(Agricu;UuralBankof化ina)"是在不同語境中,來執行根據本發明的縮寫詞擴 展方法。
[0027] 在一個實施例中,可W通過表格來更清楚地示出根據本發明的縮寫詞擴展方法的 各個步驟。例如,可W將步驟S110的執行結果填入到表1中。在表1中,包括5列,分別 是縮寫詞、文檔ID、全稱ID、全稱名和置信度。其中,縮寫詞是給定的縮寫詞,在該實施例 中是"ABC";文檔ID是各個語境的標號,在該實施例中是D1-D5,分別指代文檔1至文檔 5 ;全稱ID是在文檔中出現的全稱名的標號,在該實施例中,D1中出現了"ABC(American Broadcast