命名實體識別方法和裝置的制造方法
【技術領域】
[0001]本發明涉及自然語言處理技術領域,尤其涉及一種命名實體識別方法和裝置。
【背景技術】
[0002]命名實體識別的主要任務是識別出文本中的人名、地名等專有名稱。傳統的命名實體識別方法主要分為基于規則詞典的方法和基于統計模型的方法。基于規則詞典的方法主要通過構建線下大規模的實體詞典以字符串匹配的方式來進行識別。基于統計模型的方法主要是通過構建統計模型,利用人工標注的訓練語料來訓練模型從而進行識別。但是,基于規則詞典的方式不能識別詞典之外的命名實體,并且即使在詞典內,基于規則詞典的方法無法解決命名實體歧義問題。基于統計模型的方法對沒有明顯特征的命名實體,如歌曲名、影視名等識別效果較差。
【發明內容】
[0003]本發明旨在至少在一定程度上解決相關技術中的技術問題之一。
[0004]為此,本發明的一個目的在于提出一種命名實體識別方法,該方法對存在歧義的命名實體以及特征不明顯的命名實體,也具有較好的識別效果。
[0005]本發明的另一個目的在于提出一種命名實體識別裝置。
[0006]為達到上述目的,本發明第一方面實施例提出的命名實體識別方法,包括:根據預設規則對待識別的文本進行預識別,得到識別出的初始命名實體,所述預設規則包括:基于規則詞典和基于統計模型;確定所述待識別的文本所屬的類別;根據所述類別和所述初始命名實體,得到組合文本,并根據所述組合文本確定最終的命名實體。
[0007]本發明第一方面實施例提出的命名實體識別方法,通過預識別時采用基于規則詞典和基于統計模型的方式,可以擴大初始命名實體的范圍,解決單純采用基于統計模型的方式不能識別特征不明顯的命名實體的問題;通過對待識別的文本進行分類,可以解決單純基于規則詞典的方式造成的命名實體歧義問題,從而對存在歧義的命名實體以及特征不明顯的命名實體,也具有較好的識別效果。
[0008]為達到上述目的,本發明第二方面實施例提出的命名實體識別裝置,包括:預處理模塊,用于根據預設規則對待識別的文本進行預識別,得到識別出的初始命名實體,所述預設規則包括:基于規則詞典和基于統計模型;分類模塊,用于確定所述待識別的文本所屬的類別;后處理模塊,用于根據所述類別和所述初始命名實體,得到組合文本,并根據所述組合文本確定最終的命名實體。
[0009]本發明第二方面實施例提出的命名實體識別裝置,通過預識別時采用基于規則詞典和基于統計模型的方式,可以擴大初始命名實體的范圍,解決單純采用基于統計模型的方式不能識別特征不明顯的命名實體的問題;通過對待識別的文本進行分類,可以解決單純基于規則詞典的方式造成的命名實體歧義問題,從而對存在歧義的命名實體以及特征不明顯的命名實體,也具有較好的識別效果。
[0010]本發明附加的方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到。
【附圖說明】
[0011]本發明上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:
[0012]圖1是本發明一實施例提出的命名實體識別方法的流程示意圖;
[0013]圖2是本發明另一實施例提出的命名實體識別方法的流程示意圖;
[0014]圖3是本發明另一實施例提出的命名實體識別裝置的結構示意圖;
[0015]圖4是本發明另一實施例提出的命名實體識別裝置的結構示意圖。
【具體實施方式】
[0016]下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發明,而不能理解為對本發明的限制。相反,本發明的實施例包括落入所附加權利要求書的精神和內涵范圍內的所有變化、修改和等同物。
[0017]圖1是本發明一實施例提出的命名實體識別方法的流程示意圖,該方法包括:
[0018]Sll:根據預設規則對待識別的文本進行預識別,得到識別出的初始命名實體,所述預設規則包括:基于規則詞典和基于統計模型。
[0019]本實施例中的命名實體識別可以應用在多種需要的場景,例如應用在語音合成中。在語音合成時需要先對輸入文本進行文本處理,之后對處理后的文本進行韻律預測、聲學參數生成等,得到合成的語音。其中,命名實體識別可以作為是文本處理的一個基本步驟。
[0020]本實施例中,通過采用基于規則詞典和基于統計模型的方式,相對于僅采用其中之一的方式,可以盡可能多的獲取命名實體。
[0021]例如,基于規則詞典的方式中,是基于字符串匹配的方式,可以識別出歌曲名、影視名等特征不明顯的實體,從而解決基于統計模型不能獲取歌曲名、影視名等不明顯特征的命名實體的問題。
[0022]基于統計模型的方式中,可以采用條件隨機場(Condit1nal Random Field, CRF)模型。基于統計模型的方式中,可以識別出一些人名、地名等特征明顯的實體。
[0023]例如,待識別的文本是:“好想聽劉德華的忘情水”,根據基于規則詞典的方式,可以識別出的命名實體包括:“好想(歌曲名)”、“劉德華(歌手名)”、“忘情水(歌曲名)”,根據基于統計模型的方式,可以識別出的命名實體包括:“劉德華(人名)”。
[0024]因此,預識別后得到的初始命名實體包括:“好想(歌曲名)”、“劉德華(歌手名)”、“忘情水(歌曲名)”、“劉德華(人名)”。
[0025]S12:確定所述待識別的文本所屬的類別。
[0026]文本類別是預先定義的類別,例如:音樂類、影視類、游戲類等。
[0027]可以根據識別出的命名實體以及待識別的文本中的文本信息,確定相應的文本類另IJ。具體的,可以從識別出的命名實體以及文本信息中提取出特征信息,根據特征信息采用最大熵的文本分類算法,確定文本所屬的類別。
[0028]本實施例中,特征信息包括:待識別的文本中的詞,初始命名實體類別與其前一個詞的組合,初始命名實體類別與其后一個詞的組合。
[0029]本實施例中,通過選擇命名實體與其前后的一個詞作為特征信息,可以使用命名實體的上下文信息對命名實體進行消岐,解決單獨的命名實體本身可能帶有歧義性的問題。
[0030]例如,在上述的待識別的文本的基礎上,選擇的特征信息包括:好想、聽、劉德華、的、忘情水、song_ 聽、s_song、聽 _singer、singer_ 的、的 _song、song_e、聽 _per、per_ 的。其中,song表示歌曲名,singer表示歌手名,per表示人名,s表示句首前面的一個詞,e表示句尾后面的一個詞。
[0031]在獲取特征信息后,可以根據特征信息以及預設文本分類算法,確定待識別的文本屬于的文本類別。假設預設文本分類算法是最大熵文本分類算法,則根據上述特征信息,以及最大熵文本分類算法,可以確定待識別的文本屬于的文本類別,例如,上述的待識別的文本屬于音樂類。
[0032]S13:根據所述類別和所述初始命名實體,得到組合文本,并根據所述組合文本確定最終的命名實體。
[0033]在組合時,可以具體包括:獲取屬于所述類別的初始命名實體,根據屬于所述類別的初始命名實體和待識別的文本中的其余詞進行組合,得到組合文本。
[0034]例如,在確定類別是音樂類時,可以獲取屬于音樂類的初始命名實體,如包括:好想(歌曲名)、劉德華(歌手名)、忘情水(歌曲名)。之后,可以將這些初始命名實體與待識別的文本中的其余詞進行組合,其余詞包括聽”、“的”,則經過組合后,得到的組合文本包括:^song聽singer的忘情水”、“好想聽singer的song”、“song聽劉德華的song”等。
[0035]在獲取如上所示的多個組合文本后,可以對每個組合文本進行分析,以確定出最終的命名實體,例如,采用語言模型的方式,分析哪個組合文本更像一句話,之后將更像一句話的組合文本中的初始命名實體確定為最終的命名實體。具體的,可以通過線下挖掘音樂類的訓練語料,假設訓練語料表明“好想聽singer的song”的出現概率最大,則可以確定出最終的命名實體包括:劉德華(歌手名),忘情水(歌曲名)。
[0036]本實施例中,通過預識別時采用基于規則詞典和基于統計模型的方式,可以擴大初始命名實體的范圍,解決單純采用基于統計模型的方式不能識別特征不明顯的命名實體的問題;通過對待識別的文本進行分類,可以解決單純基于規則詞典的方式造成的命名實體歧義問題,從而對存在歧義的命名實體以及特征不明顯的命名實體,也具有較好的識別效果。
[0037]圖2是本發明另一實施例提出的命名實體識別方法的流程示意圖,該方法包括:
[0038]S21:根據預設規則對待識別的文本進行預識別,得到識別出的初始命名實體,所述預設規則包括:基于規則詞典和基于統計模型。