一種識別命名實體的方法及裝置的制造方法
【技術領域】
[0001] 本發明涉及自然語言處理領域,具體涉及一種識別命名實體的方法及裝置。
【背景技術】
[0002] 命名實體是指如人名、地名、組織機構名稱等具有特定意義的名稱的詞匯,命名實 體識別是自然語言處理中的一項基本工作,它不僅是分詞和標注過程中的一個重要環節, 而且在句法分析、機器翻譯、信息檢索、自動問答系統等領域中也有直接的應用。由于部分 命名實體是新詞,如果對這類詞的類別不能進行準確的分類,必然影響后續的工作。
[0003] -般來說,對于一篇待處理文本,識別命名實體的任務是識別出待處理文本中三 大類(實體類、時間類和數字類)、七小類(人名、機構名、地名、時間、日期、貨幣和百分比) 命名實體。由于時間、日期、貨幣和百分比的構成有比較明顯的規律,識別起來相對容易,因 此命名實體識別通常指的是人名、地名和機構名的識別。例如,當出現字符串"李白"時,能 夠通過識別工具準確的判斷此詞的所屬類別為人名。
[0004]目前,不同領域內的命名實體識別需要人工專門進行特征提取,這一步往往需要 領域專家的參與,這項工作加大了人工工作量,降低了模型的適用范圍。
【發明內容】
[0005] 因此,本發明要解決的技術問題在于克服現有技術中識別命名實體需要人工量 大、模型使用范圍小的缺陷。
[0006] 本發明提供一種識別命名實體的方法,包括如下步驟:
[0007] 獲取各個類別的訓練樣本;
[0008] 獲取訓練樣本中每個字的字向量及該字在該訓練樣本的中的概率;
[0009] 獲取目標字符串,并將目標字符串拆分成單個目標字;
[0010] 針對每個類別,根據每個目標字及其所在的位置計算每個目標字屬于該類別的向 量,計算該目標字符串屬于該類別的似然函數;
[0011] 計算出所述目標字符串對應每個類別的似然函數,將似然函數最大的類別作為目 標字符串所屬的命名實體的類別。
[0012] 優選地,計算該目標字符串屬于該類別的似然函數的步驟,通過以下公式計算:
[0013]
[0014] 其中,end是指目標字符串中字符的總數,PB(str(l)|類別λ)表示目標字符串中 第一個字符屬于類別λ的概率;
[0015] (PM(str(i)I類別λ)表示目標字符串中第i字符屬于類別λ的概率;
[0016] (PE(str(end) |類別λ)表示目標字符串中最后一個字符屬于類別λ的概率; [0017]PMaAciv(Str(i) |類別λ)表示在類別λ中,目標字符串中的第i個字符出現在第 i-Ι個字符之后的概率。
[0018] 優選地,計算目標字符串中第一個字符屬于類別λ的概率的步驟,包括:
[001"? 3 cc t
[0020] 其中str(l)為目標字符串的首字符,cc'為類別λ的訓練樣本中的字,set指類 別λ的訓練樣本,PB'(cc' |類別λ)指cc'屬于類別λ的概率,ZB為概率歸一化系數,
在類別λ中的向量, V類別指cc'在類別λ中的向量。
[0021] 優選地,計算目標字符串中第i字符屬于類別λ的概率,通過如下公式計算:
[0022] ~M ac e>et
[0023] ,其中str(i)為目標字符串的一個中間字符,cc'為類別λ的訓練樣本中的字, set指類別λ的訓練樣本,PM'(cc' |類別λ)指cc'屬于類別λ的概率,ΖΜ為概率歸一化 系數
在類別λ中的向 量,%別λ#,指cc'在類別λ中的向量。
[0024] 優選地,目標字符串中最后一個字符屬于類別λ的概率,通過如下公式計算: 「00251
ΔEcc&Set^
[0026] ,其中str(end)為目標字符串的末字符,cc'為類別λ的訓練樣本中的字,set指 類別λ的訓練樣本,PE'(cc' |類別λ)指cc'屬于類別λ的概率,,ZE為概率歸一化系數,
指str(end)在類別λ 中的向量,指cc'在類別λ中的向量。
[0027] 優選地,目標字符串中的第i個字符出現在第i-Ι個字符之后的概率,通過如下公 式計算:
[0028]
Markov cc eSet
[0029] 其中,str⑴為目標字符串的第i個字,str(i-l)為str(i)的前一個字,cc'為類別 λ的訓練樣本中的字,set指類別λ的訓練樣5 CO' -t'Je-'t
表不.....
分別為概率歸一化系數。
[0030] 優選地,所述類別包括人名、地名、機構名。
[0031] 此外,本發明還提供一種識別命名實體的裝置,包括:
[0032] 訓練樣本獲取單元,獲取各個類別的訓練樣本;
[0033] 字向量及概率提取單元,獲取訓練樣本中每個字的字向量及該字在該訓練樣本的 中的概率;
[0034] 拆分單元,獲取目標字符串,并將目標字符串拆分成單個目標字;
[0035] 似然函數計算單元,針對每個類別,根據每個目標字及其所在的位置計算每個目 標字屬于該類別的向量,計算該目標字符串屬于該類別的似然函數;
[0036] 命名實體識別單元,計算出所述目標字符串對應每個類別的似然函數,將似然函 數最大的類別作為目標字符串所屬的命名實體的類別。
[0037] 優選地,似然函數計算單元包括以下公式計算:
[0038]
[0039] 其中,end是指目標字符串中字符的總數,PB(str(1) |類別λ)表示目標字符串中 第一個字符屬于類別λ的概率;
[0040] (PM(str⑴|類別λ)表示目標字符串中第i字符屬于類別λ的概率;
[0041] (PE(Str(end)I類別λ)表示目標字符串中最后一個字符屬于類別λ的概率; [0042] PMaAciv(Str(i) |類別λ)表示在類別λ中,目標字符串中的第i個字符出現在第 i-Ι個字符之后的概率。
[0043] 優選地,似然函數計算單元包括第一概率計算子單元,計算目標字符串中第一個 字符屬于類別λ的概率,包括:
[0044]
f
[0045] 其中str(l)為目標字符串的首字符,cc'為類別λ的訓練樣本中的字,set指類 別λ的訓練樣本,PB'(cc' |類別λ)指cc'屬于類別λ的概率,ZB為概率歸一化系數,
指str(l)在類別λ中的向量, V類別指cc'在類別λ中的向量。
[0046] 本發明技術方案,具有如下優點:
[0047]本發明提供的識別命名實體的方法,首先,獲取各個類別的訓練樣本以及目標字 符串,然后將將目標字符串拆分成單個目標字;之后,針對每個類別,計算每個目標字與該 類別的訓練樣本中的其他字的接近度;根據所述接近度計算該目標字符串屬于該類別的似 然函數;計算出該目標字符串對應每個類別的似然函數,將似然函數最大的類別作為目標 字符串所屬的命名實體的類別。該方案中,通過計算目標字符串屬于每個類別的似然函數, 將目標字符串與屬于各個類別的程度進行了量化,從而客觀表現出其所屬程度,從而對命 名實體進行分類,提高了分類效果和分類精度。
【附圖說明】
[0048]為了更清楚地說明本發明【具體實施方式】或現有技術中的技術方案,下面將對具體 實施方式或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的 附圖是本發明的一些實施方式,對于本領域普通技術人員來講,在不付出創造性勞動的前 提下,還可以根據這些附圖獲得其他的附圖。
[0049]圖1為本發明實施例1中識別命名實體的方法的一個具體示例的流程圖;
[0050]圖2為本發明實施例2中識別命名實體的裝置的結構框圖。
【具體實施方式】
[0051] 下面將結合附圖對本發明的技術方案進行清楚、完整地描述,顯然,所描述的實施 例是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術 人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
[0052] 此外,下面所描述的本發明不同實施方式中所涉及的技術特征只要彼此之間未構 成沖突就可以相互結合。
[0053] 實施例1
[0054] 本實施例中提供一種識別命名實體的方法,用于識別命名實體,例如當出現字符 串"李白"時,可以識別出其為人名,當出現"北京市"時,可識別其為地名。該識別命名實 體的方法,如圖1所示,包括以下步驟:
[0055]S1、獲取各個類別的訓練樣本。首先,需要針對命名實體的類別選擇合適的訓練 樣本,如類別包括人名、地名、機構名,則需要分別針對每個類別選擇合適的訓練樣本,即人 名、地名、機構名列表。
[0056]S2、獲取訓練樣本中每個字的字向量及該字在該訓練樣本中的概率。
[0057] 在每一個類別中,將單字看做語義基本單位,進行字向量訓練,獲得各個類別中單 字的字向量。此處的字向量是指將漢字映射到高維空間,漢字映射結果稱之為字向量,例 如:
[0058]V地名,縣"=[0·23,-0·15,0·33, 1. 23,-0·78,-0·28,-0·28,0·2]
[00