中文企業名稱的識別方法
【技術領域】
[0001]本發明涉及互聯網的技術領域,具體說是一種通過確定左右邊界而實現的中文企業名稱的識別方法。
【背景技術】
[0002]未登錄詞識別是自然語言處理中一項關鍵技術,在信息抽取、信息檢索、自動問答、機器翻譯等領域中已得到廣泛的應用。在對互聯網上的信息進行收集時,需采集中文企業名稱,中文企業名稱是未登錄詞的一種,具有構成成分復雜、數量巨大、名稱不斷變化更新、無法窮舉等特點,被認為是專用名詞當中最難識別的,給自然語言處理、尤其是翻譯和機器理解帶來很大困擾。
[0003]對于中文企業名稱的識別,國內的研究主要有:利用隱馬爾科夫模型并結合概率估值公式來評價在真實文本中構成企業名稱的能力;基于層疊條件隨機場模型的中文機構名自動識別算法;基于類語言模型的中文機構名稱自動識別方法等。
[0004]在中文企業名稱中,往往存在多個不同的詞或短語,組成比較豐富,企業名稱中用字和用詞的隨意性和名稱長度的不確定性,都導致了中文企業名稱的識別過程較為困難,識別率也不高。
[0005]
【發明內容】
本發明要解決的技術問題是提供一種通過確定左右邊界而實現的中文企業名稱的識別方法。
[0006]本發明為解決公知技術中存在的技術問題所采取的技術方案是:
本發明的中文企業名稱的識別方法,包括以下步驟:
A、建立企業名稱知識庫,包括地名詞集、企業通名詞集、行業飾名詞集和企業專名禁止詞集,各詞集分別對應包括地名詞匯、企業同名詞匯、行業飾名詞匯和企業專名禁止詞匯;
B、建立企業名稱概率知識庫,包括單個漢字組成企業專名的概率知識;
C、掃描文本,對文本進行中文分詞;
D、當文本掃描中出現地名詞匯時,繼續掃描其后面的詞,若在2-5個漢字以后出現行業飾名詞匯且行業飾名后面緊鄰出現企業通名詞匯時,觸發企業名稱識別;
E、判斷上述地名詞匯和行業飾名詞匯之間的漢字是否包含企業專名禁止詞匯,如果包含則終止識別,不包含則匯總計算這些漢字構成企業專名的概率,形成專名概率加權計算結果;
F、判斷專名概率加權結果是否大于閾值,大于閾值則認定當前從地名到最后的企業通名之間的整個中文片段為中文企業名,小于則終止識別;
G、識別結果組織輸出為“以地名飾名開頭的企業名稱”。
[0007]本發明的中文企業名稱的識別方法,包括以下步驟:
A、建立企業名稱知識庫,包括地名詞集、企業通名詞集、行業飾名詞集和企業專名禁止詞集,各詞集分別對應包括地名詞匯、企業同名詞匯、行業飾名詞匯和企業專名禁止詞匯; B、統計資訊新聞數據得到企業名稱左鄰詞概率知識;建立企業名稱概率知識庫,包括單個漢字組成企業專名的概率知識和企業名稱左鄰詞概率知識;
C、掃描文本,對文本進行中文分詞;
D、當掃描到行業飾名詞匯出現時,繼續掃描其后是否緊鄰出現企業通名詞匯,如果緊鄰出現,且當前詞匯沒有被識別為“以地名飾名開頭的企業名稱”,則觸發企業名稱識別;
E、以行業飾名詞匯為起點,逐個詞匯往左掃描,判斷左側詞匯是否存在于企業專名禁止詞匯,如果存在則終止識別;
F、獲得步驟E中的左側詞匯中漢字,并匯總加權計算它們構成企業專名的概率,同時獲得該詞匯更左側詞語的“企業名稱左鄰詞概率”,根據隱馬爾科夫概率模型,計算當前的左側詞匯做為專名的整個企業名稱的識別概率;
G、繼續往左側掃描一個詞匯,將這個左側詞匯和步驟E的詞匯合并在一起做為企業專名看待,重復步驟F,直到專名漢字個數大于5則終止;
H、G步驟中獲得的多個識別概率,剔除概率值小于閾值的結果,選擇最大的一組結果,做為最終識別結果;
1、最終識別結果組織輸出。
[0008]本發明具有的優點和積極效果是:
本發明的中文企業名稱的識別方法,包括以下步驟:建立企業名稱知識庫和企業名稱概率知識庫,企業名稱知識庫中包括地名詞集、企業通名詞集、行業飾名詞集和企業專名禁止詞集,企業名稱概率知識庫中包括企業名稱左鄰詞概率知識和企業名稱左鄰詞概率知識;掃描文本,對文本進行分詞;分別完成以地名飾名開頭的企業名稱識別和無地名飾名開頭的企業名稱識別。利用本發明所述的中文企業名稱的識別方法可以加快文檔識別中的速度,且提高了企業名稱識別的準確率。
【具體實施方式】
[0009]以下結合實施例對本發明進行詳細說明:
本發明的中文企業名稱的識別方法,包括以下步驟:
A、建立企業名稱知識庫,包括地名詞集、企業通名詞集、行業飾名詞集和企業專名禁止詞集,各詞集分別對應包括地名詞匯、企業同名詞匯、行業飾名詞匯和企業專名禁止詞匯;
B、建立企業名稱概率知識庫,包括單個漢字組成企業專名的概率知識單個漢字組成企業專名的概率知識”,這個由常見的3600多個漢字構成,在1000萬以上的企業名錄中,統計得到每一個漢字組成企業專名的概率;
C、掃描文本,對文本進行中文分詞;
D、當文本掃描中出現地名詞匯時,繼續掃描其后面的詞,若在2-5個漢字(企業專名通常是2-5個字)以后出現行業飾名詞匯且行業飾名后面緊鄰出現企業通名詞匯時,觸發企業名稱識別;
E、判斷上述地名詞匯和行業飾名詞匯之間的漢字是否包含企業專名禁止詞匯,如果包含則終止識別,不包含則匯總計算這些漢字構成企業專名的概率,形成專名概率加權計算結果;
F、判斷專名概率加權結果是否大于閾值,大于閾值則認定當前從地名到最后的企業通名之間的整個中文片段為中文企業名,小于則終止識別;
G、識別結果組織輸出為“以地名飾名開頭的企業名稱”。
[0010]本發明的中文企業名稱的識別方法,包括以下步驟:
A、建立企業名稱知識庫,包括地名詞集、企業通名詞集、行業飾名詞集和企業專名禁止詞集,各詞集分別對應包括地名詞匯、企業同名詞匯、行業飾名詞匯和企業專名禁止詞匯;
B、統計資訊新聞數據得到企業名稱左鄰詞概率知識;建立企業名稱概率知識庫,包括單個漢字組成企業專名的概率知識和企業名稱左鄰詞概率知識;
C、掃描文本,對文本進行中文分詞;
D、當掃描到行業飾名詞匯出現時,行業飾名可以同時出現多個,如“天源浩業房地產經紀有限公司”,也可能出現地名飾名,如“信和財富投資管理(北京)有限公司”,繼續掃描其后是否緊鄰出現企業通名詞匯,如果緊鄰出現,且當前詞匯沒有被識別為“以地名飾名開頭的企業名稱”,則觸發企業名稱識別;
E、以行業飾名詞匯為起點,逐個詞匯往左掃描,判斷左側詞匯是否存在于企業專名禁止詞匯,如果存在則終止識別;
F、獲得步驟E中的左側詞匯中漢字,并匯總加權計算它們構成企業專名的概率,同時獲得該詞匯更左側詞語的“企業名稱左鄰詞概率”,根據隱馬爾科夫概率模型,計算當前的左側詞匯做為專名的整個企業名稱的識別概率;
G、繼續往左側掃描一個詞匯,將這個左側詞匯和步驟E的詞匯合并在一起做為企業專名看待,重復步驟F,直到專名漢字個數大于5則終止;
H、G步驟中獲得的多個識別概率,剔除概率值小于閾值的結果,選擇最大的一組結果,做為最終識別結果;
1、最終識別結果組織輸出。
[0011]以上所述,僅是本發明的較佳實施例而已,并非對本發明作任何形式上的限制,雖然本發明已以較佳實施例公開如上,然而,并非用以限定本發明,任何熟悉本專業的技術人員,在不脫離本發明技術方案范圍內,當然會利用揭示的技術內容作出些許更動或修飾,成為等同變化的等效實施例,但凡是未脫離本發明技術方案的內容,依據本發明的技術實質對以上實施例所作的任何簡單修改、等同變化與修飾,均屬于本發明技術方案的范圍內。
【主權項】
1.一種中文企業名稱的識別方法,包括以下步驟: A、建立企業名稱知識庫,包括地名詞集、企業通名詞集、行業飾名詞集和企業專名禁止詞集,各詞集分別對應包括地名詞匯、企業同名詞匯、行業飾名詞匯和企業專名禁止詞匯; B、建立企業名稱概率知識庫,包括單個漢字組成企業專名的概率知識; C、掃描文本,對文本進行中文分詞; D、當文本掃描中出現地名詞匯時,繼續掃描其后面的詞,若在2-5個漢字以后出現行業飾名詞匯且行業飾名后面緊鄰出現企業通名詞匯時,觸發企業名稱識別; E、判斷上述地名詞匯和行業飾名詞匯之間的漢字是否包含企業專名禁止詞匯,如果包含則終止識別,不包含則匯總計算這些漢字構成企業專名的概率,形成專名概率加權計算結果; F、判斷專名概率加權結果是否大于閾值,大于閾值則認定當前從地名到最后的企業通名之間的整個中文片段為中文企業名,小于則終止識別; G、識別結果組織輸出為“以地名飾名開頭的企業名稱”。2.一種中文企業名稱的識別方法,包括以下步驟: A、建立企業名稱知識庫,包括地名詞集、企業通名詞集、行業飾名詞集和企業專名禁止詞集,各詞集分別對應包括地名詞匯、企業同名詞匯、行業飾名詞匯和企業專名禁止詞匯; B、通過權利要求1所述的中文企業名稱的識別方法統計資訊新聞數據得到企業名稱左鄰詞概率知識;建立企業名稱概率知識庫,包括單個漢字組成企業專名的概率知識和企業名稱左鄰詞概率知識; C、掃描文本,對文本進行中文分詞; D、當掃描到行業飾名詞匯出現時,繼續掃描其后是否緊鄰出現企業通名詞匯,如果緊鄰出現,且當前詞匯沒有被識別為“以地名飾名開頭的企業名稱”,則觸發企業名稱識別; E、以行業飾名詞匯為起點,逐個詞匯往左掃描,判斷左側詞匯是否存在于企業專名禁止詞匯,如果存在則終止識別; F、獲得步驟E中的左側詞匯中漢字,并匯總加權計算它們構成企業專名的概率,同時獲得該詞匯更左側詞語的“企業名稱左鄰詞概率”,根據隱馬爾科夫概率模型,計算當前的左側詞匯做為專名的整個企業名稱的識別概率; G、繼續往左側掃描一個詞匯,將這個左側詞匯和步驟E的詞匯合并在一起做為企業專名看待,重復步驟F,直到專名漢字個數大于5則終止; H、G步驟中獲得的多個識別概率,剔除概率值小于閾值的結果,選擇最大的一組結果,做為最終識別結果; I、最終識別結果組織輸出。
【專利摘要】一種中文企業名稱的識別方法,包括以下步驟:建立企業名稱知識庫和企業名稱概率知識庫,企業名稱知識庫中包括地名詞集、企業通名詞集、行業飾名詞集和企業專名禁止詞集,企業名稱概率知識庫中包括企業名稱左鄰詞概率知識和企業名稱左鄰詞概率知識;掃描文本,對文本進行分詞;分別完成以地名飾名開頭的企業名稱識別和無地名飾名開頭的企業名稱識別。利用本發明所述的中文企業名稱的識別方法可以加快文檔識別中的速度,且提高了企業名稱識別的準確率。
【IPC分類】G06F17/27
【公開號】CN105320645
【申請號】CN201510614480
【發明人】宋傳寶, 史墨軒, 郝靜
【申請人】天津海量信息技術有限公司
【公開日】2016年2月10日
【申請日】2015年9月24日