br>[0126]
[0127] 其中str(l)為目標字符串的首字符,cc'為類別λ的訓練樣本中的字,set指類 別λ的訓練樣本,PB'(cc' |類別λ)指cc'屬于類別λ的概率,ZB為概率歸一化系數,
)在類別λ中的向量, V類別指cc'在類別λ中的向量。
[0128]計算目標字符串中第i字符屬于類別λ的概率,通過如下公式計算:
[0129]
[0130],其中str(i)為目標字符串的一個中間字符,cc'為類別λ的訓練樣本中的字, set指類別λ的訓練樣本,PM'(cc' |類別λ)指cc'屬于類別λ的概率,ΖΜ為概率歸一化 系數:
指str(i)在類別λ中的向 量,%別λ#,指cc'在類別λ中的向量。
[0131] 其中,似然函數計算單元包括第二概率計算子單元,用于計算目標字符串中最后 一個字符屬于類別λ的概率,通過如下公式計算:
[0132]
[0133],其中str(end)為目標字符串的末字符,cc'為類別λ的訓練樣本中的字,set 指類別λ的訓練樣本,PE'(cc' |類別λ)指cc'屬于類別λ的概率,,&為概率歸一化系 數,
?類別 入中的向量,V|!|SljA,cc,指cc'在類別λ中的向量。
[0134] 其中,似然函數計算單元包括第三概率計算子單元,用于計算目標字符串中的第i 個字符出現在第i_l個字符之后的概率,通過如下公式計算:
[0135] iJarkov cc
[0136] 其中,str⑴為目標字符串的第i個字,Str(i-l)為stHi)的前一個字,cc'為類別λ 的訓練樣本中的字,set指類別λ的訓練樣本,ΣΟ"' 1類別 cv€.5e? 表不
,v分別為概率歸一化系數。
[0137] 其中,所述類別包括人名、地名、機構名。
[0138] 本領域內的技術人員應明白,本發明的實施例可提供為方法、系統、或計算機程序 產品。因此,本發明可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實 施例的形式。而且,本發明可采用在一個或多個其中包含有計算機可用程序代碼的計算機 可用存儲介質(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產 品的形式。
[0139] 本發明是參照根據本發明實施例的方法、設備(系統)、和計算機程序產品的流程 圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一 流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算 機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理 器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生 用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能 的裝置。
[0140] 這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特 定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指 令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或 多個方框中指定的功能。
[0141] 這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計 算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或 其他可編程設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖 一個方框或多個方框中指定的功能的步驟。
[0142] 顯然,上述實施例僅僅是為清楚地說明所作的舉例,而并非對實施方式的限定。對 于所屬領域的普通技術人員來說,在上述說明的基礎上還可以做出其它不同形式的變化或 變動。這里無需也無法對所有的實施方式予以窮舉。而由此所引伸出的顯而易見的變化或 變動仍處于本發明創造的保護范圍之中。
【主權項】
1. 一種識別命名實體的方法,其特征在于,包括如下步驟: 獲取各個類別的訓練樣本; 獲取訓練樣本中每個字的字向量及該字在該訓練樣本的中的概率; 獲取目標字符串,并將目標字符串拆分成單個目標字; 針對每個類別,根據每個目標字及其所在的位置計算每個目標字屬于該類別的向量, 計算該目標字符串屬于該類別的似然函數; 計算出所述目標字符串對應每個類別的似然函數,將似然函數最大的類別作為目標字 符串所屬的命名實體的類別。2. 根據權利要求1所述的方法,其特征在于:計算該目標字符串屬于該類別的似然函 數的步驟,通過以下公式計算:其中,end是指目標字符串中字符的總數,PB(str(l) I類別λ)表示目標字符串中第一 個字符屬于類別λ的概率; (PM(str(i) I類別λ)表示目標字符串中第i字符屬于類別λ的概率; (PE(str(end) I類別λ)表示目標字符串中最后一個字符屬于類別λ的概率; PMariiC]V(Str(i) I類別λ)表示在類別λ中,目標字符串中的第i個字符出現在第i-1 個字符之后的概率。3. 根據權利要求2所述的方法,其特征在于:計算目標字符串中第一個字符屬于類別 λ的概率的步驟,包括:其中str(l)為目標字符串的首字符,cc'為類別λ的訓練樣本中的字,set指類別 λ的訓練樣本,P' B(cc' I類別λ)指cc'屬于類別λ的概率,Zb為概率歸一化系數,指str(l)在類別λ中的向量, V類別λ#,指cc'在類別λ中的向量。4. 根據權利要求2所述的方法,其特征在于:計算目標字符串中第i字符屬于類別λ 的概率,通過如下公式計算:其中str (i)為目標字符串的一個中間字符,cc'為類別λ的訓練樣本中的字,set指 類別λ的訓練樣本,P'M(CC' I類別λ)指cc'屬于類別λ的概率,Zm為概率歸一化系數;指str(i)在類別λ中的向量,V類 別入,。。,指cc'在類別λ中的向量。5. 根據權利要求2所述的方法,其特征在于:目標字符串中最后一個字符屬于類別λ 的概率,通過如下公式計算:其中str(end)為目標字符串的末字符,cc'為類別λ的訓練樣本中的字,set指類 別λ的訓練樣本,P'M(CC' I類別λ)指cc'屬于類別λ的概率,,Ze為概率歸一化系數,指str (end)在類別λ 中的向量,指cc'在類別λ中的向量。6. 根據權利要求2所述的方法,其特征在于:目標字符串中的第i個字符出現在第i-1 個字符之后的概率,通過如下公式計算:I 其中,str⑴為目標字符串的第i個字,str (i-Ι)為str⑴的前一個字,cc'為類別λ的 訓練樣本中的字,set指類別λ的訓練樣本,表不......,分別為概率歸一化系數。7. 根據權利要求1所述的方法,其特征在于,所述類別包括人名、地名、機構名。8. -種識別命名實體的裝置,其特征在于,包括: 訓練樣本獲取單元,獲取各個類別的訓練樣本; 字向量及概率提取單元,獲取訓練樣本中每個字的字向量及該字在該訓練樣本的中的 概率; 拆分單元,獲取目標字符串,并將目標字符串拆分成單個目標字; 似然函數計算單元,針對每個類別,根據每個目標字及其所在的位置計算每個目標字 屬于該類別的向量,計算該目標字符串屬于該類別的似然函數; 命名實體識別單元,計算出所述目標字符串對應每個類別的似然函數,將似然函數最 大的類別作為目標字符串所屬的命名實體的類別。9. 根據權利要求8所述的方法,其特征在于:似然函數計算單元包括以下公式計算:其中,end是指目標字符串中字符的總數,PB(str(l) I類別λ)表示目標字符串中第一 個字符屬于類別λ的概率; (PM(str(i) I類別λ)表示目標字符串中第i字符屬于類別λ的概率; (PE(str(end) I類別λ)表示目標字符串中最后一個字符屬于類別λ的概率; PMariiC]V(Str(i) I類別λ)表示在類別λ中,目標字符串中的第i個字符出現在第i-1 個字符之后的概率。10. 根據權利要求8或9所述的方法,其特征在于:似然函數計算單元包括第一概率計 算子單元,計算目標字符串中第一個字符屬于類別λ的概率,包括:其中str(l)為目標字符串的首字符,cc'為類別λ的訓練樣本中的字,set指類別 λ的訓練樣本,P' B(cc' I類別λ)指cc'屬于類別λ的概率,Zb為概率歸一化系數,指str(l)在類別λ中的向量, V類別指cc'在類別λ中的向量。
【專利摘要】本發明提供的識別命名實體的方法,首先,獲取各個類別的訓練樣本以及目標字符串,然后將目標字符串拆分成單個目標字;之后,針對每個類別,計算每個目標字與該類別的訓練樣本中的其他字的接近度;根據所述接近度計算該目標字符串屬于該類別的似然函數;計算出該目標字符串對應每個類別的似然函數,將似然函數最大的類別作為目標字符串所屬的命名實體的類別。該方案中,通過計算目標字符串屬于每個類別的似然函數,將目標字符串與屬于各個類別的程度進行了量化,從而客觀表現出其所屬程度,從而對命名實體進行分類,提高了分類效果和分類精度。
【IPC分類】G06F17/27, G06F17/30
【公開號】CN105426464
【申請號】CN201510778326
【發明人】盧菁, 葉茂, 馬佳樂, 湯幟, 黃肖俊, 徐劍波
【申請人】北大方正集團有限公司, 北京方正阿帕比技術有限公司, 北京大學
【公開日】2016年3月23日
【申請日】2015年11月13日