命名實體識別方法及裝置的制造方法
【技術領域】
[0001] 本發明涉及自然語言處理技術領域,尤其涉及一種命名實體識別方法及裝置。
【背景技術】
[0002] 隨著互聯網技術的快速發展,信息服務變得越來越普及。其中,命名實體的識別是 信息提取、問答系統、句法分析、機器翻譯、面向互聯網的元數據標注等信息服務應用領域 的重要基礎工作。命名實體(簡稱實體),指的是人名、機構名、地名以及其他所有以名稱為 標識的實體,更廣泛的命名實體還包括數字、日期、貨幣、地址等。
[0003] 現有技術中已經有了采用神經網絡技術訓練命名實體識別的技術。現有的方法至 少具有如下幾個缺點:(1)主要依靠詞本身作為輸入特征,模型特征單一,并未直接引入實 體標記之間的前后依賴關系,導致識別的準確率不高,特別是在識別電商領域的命名實體 時經常識別不準;(2)由于網絡的初始值是隨機生成的,最終的參數優化結果很可能不夠 好,訓練時間較長導致開發效率低下;(3)未充分考慮訓練數據的分布情況導致模型對實 體的擬合程度不均勻。
[0004] 電商領域的命名實體,比如商品名(諾基亞1020、ThinkPadE431 14英寸筆記本 電腦)、價格、商品屬性等,這些命名實體通常由句子中一個或多個連續的詞組成,詞性通常 為"名詞+數詞"等形式。總之,電商領域的命名實體具有鮮明的特點,目前亟需針對電商 領域的命名實體開發出識別方法或識別裝置。
【發明內容】
[0005] 有鑒于此,本發明提供一種命名實體識別方法及裝置,能夠準確地識別出命名實 體,特別是電商領域的命名實體。
[0006] 為實現上述目的,根據本發明的一個方面,提供了一種命名實體識別方法,包括: 獲取向量庫,所述向量庫包括多個詞分別對應的詞向量,多類詞性分別對應的詞性向量,以 及多類實體標記分別對應的實體標記向量;將訓練語料文本串分詞得到順序化的多個樣本 詞;按順序地對于每個樣本詞查詢所述向量庫以構建第一特征向量,所述第一特征向量包 含樣本詞對應的詞向量、樣本詞對應的詞性向量以及樣本詞前一詞對應的實體標記向量; 將所有樣本詞對應的所述第一特征向量整體作為神經網絡的訓練輸入量,利用神經網絡BP 算法進行網絡參數求解,得到神經網絡命名實體識別模型;將待預測文本串分詞得到順序 化的多個待測詞;按順序地對于每個待測詞查詢所述向量庫以構建第二特征向量,所述第 二特征向量包含待測詞對應的詞向量、待測詞對應的詞性向量以及待測詞前一詞對應的實 體標記向量;將所述各個待測詞對應的所述第二特征向量分別輸入所述神經網絡命名實體 識別模型,輸出所述待測詞的實體標記。
[0007] 可選地,所述第一特征向量中還包含:所述樣本詞鄰近詞對應的詞向量以及所述 樣本詞鄰近詞對應的詞性向量,以及,所述第二特征向量中還包含:所述待測詞鄰近詞對應 的詞向量以及所述待測詞鄰近詞對應的詞性向量。
[0008] 可選地,對于順序化的多個樣本詞中的首個樣本詞構建所述第一特征向量時,所 述首個樣本詞的前一詞為預定字符串,以及,對于順序化的多個待測詞中的首個待測詞構 建所述第二特征向量時,所述首個待測詞的前一詞為預定字符串。
[0009] 可選地,所述神經網絡的訓練輸入量中還包括負例樣本。
[0010] 為實現上述目的,根據本發明的另一方面,提供了一種命名實體識別裝置,包括: 向量庫獲取模塊,用于獲取向量庫,所述向量庫包括多個詞分別對應的詞向量,多類詞性分 別對應的詞性向量,以及多類實體標記分別對應的實體標記向量;第一分詞模塊,用于將訓 練語料文本串分詞得到順序化的多個樣本詞;第一構建模塊,用于按順序地對于每個樣本 詞查詢所述向量庫以構建第一特征向量,所述第一特征向量包含樣本詞對應的詞向量、樣 本詞對應的詞性向量以及樣本詞前一詞對應的實體標記向量;訓練模塊,用于將所有樣本 詞對應的所述第一特征向量整體作為神經網絡的訓練輸入量,利用神經網絡BP算法進行 網絡參數求解,得到神經網絡命名實體識別模型;第二分詞模塊,用于將待預測文本串分詞 得到順序化的多個待測詞;第二構建模塊,用于按順序地對于每個待測詞查詢所述向量庫 以構建第二特征向量,所述第二特征向量包含待測詞對應的詞向量、待測詞對應的詞性向 量以及待測詞前一詞對應的實體標記向量;預測模塊,用于將所述各個待測詞對應的所述 第二特征向量分別輸入所述神經網絡命名實體識別模型,輸出所述待測詞的實體標記。
[0011] 可選地,所述第一特征向量中還包含:所述樣本詞鄰近詞對應的詞向量以及所述 樣本詞鄰近詞對應的詞性向量,以及,所述第二特征向量中還包含:所述待測詞鄰近詞對應 的詞向量以及所述待測詞鄰近詞對應的詞性向量。
[0012] 可選地,所述第一構建模塊還用于:對于順序化的多個樣本詞中的首個樣本詞構 建所述第一特征向量時,使用預定字符串作為所述首個樣本詞的前一詞,以及,所述第二構 建模塊還用于:對于順序化的多個待測詞中的首個待測詞構建所述第二特征向量時,使用 預定字符串作為所述首個待測詞的前一詞。
[0013] 可選地,所述訓練模塊中,所述神經網絡的訓練輸入量中還包括負例樣本。
[0014] 根據本發明的技術方案,采用了更加合理的特征向量來訓練模型以及利用模型進 行預測,該特征向量不僅包含當前詞詞本身的特征,還包含當前詞詞性特征、當前詞前一詞 的實體標記特征,與現有的僅僅考慮詞本身的識別技術相比,考慮的信息更加全面,導致最 終得到的識別結果更為準確,特別是對電商領域實體識別時準確率較高。
【附圖說明】
[0015] 附圖用于更好地理解本發明,不構成對本發明的不當限定。其中:
[0016] 圖1是根據本發明實施例的命名實體識別方法的主要步驟的流程圖;
[0017] 圖2是根據本發明實施例的命名實體識別裝置的主要部件的示意圖。
【具體實施方式】
[0018] 以下結合附圖對本發明的示范性實施例做出說明,其中包括本發明實施例的各種 細節以助于理解,應當將它們認為僅僅是示范性的。因此,本領域普通技術人員應當認識 到,可以對這里描述的實施例做出各種改變和修改,而不會背離本發明的范圍和精神。同 樣,為了清楚和簡明,以下的描述中省略了對公知功能和結構的描述。
[0019] 為使本領域技術人員更好地理解,先對相關術語做簡要介紹。
[0020] 詞:詞的文字本身。
[0021] 詞向量:詞的向量化表示,每個詞用一個多維的向量來表示。
[0022] 詞性:詞的性質。通常將詞分為兩類12種詞性。一類是實詞:名詞、動詞、形容詞、 數詞、副詞、擬聲詞、量詞和代詞。一類是虛詞:介詞、連詞、助詞和嘆詞。
[0023] 詞性向量:詞性的向量化表示,每種詞性用一個多維向量來表示,優選采用離散形 式的多維向量來表示。
[0024] 實體標記:每個實體標記代表一種實體類型,比如WID表示商品ID、WB表示商品名 的第一個詞,WI表示商品名的中間詞,WE表示商品名的結束詞,0表示其他詞等。比如:小 米(WB)2s(WI)紅色(WI)手機(WE)怎么樣(0)。
[0025] 實體標記向量:實體標記的向量化表示,每種實體標記用一個多維向量來表示,優 選采用離散形式的多維向量來表示。
[0026] 需要說明的是,詞向量、詞性向量以及實體標記向量這三個向量的維數并不需要 保持一致,可以根據需要靈活設置。
[0027] 圖1是根據本發明實施例的命名實體識別方法的主要步驟的流程圖。如圖1所示, 該命名實體識別方法可以包括步驟A至步驟G。
[0028] 步驟A:獲取向量庫。該向量庫包括多個詞分別對應的詞向量,多類詞性分別對應 的詞性向量,以及多類實體標記分別對應的實體標記向量。
[0029] 在本發明一個實施例中,對于給定的語料,可以利用word2dec確定語料中的每一 個詞對應的詞向量。word2vec是Google在2013年開源的一款將詞表征為實數值向量的工 具,能夠把詞映射到K維向量空間,甚至詞與詞之間的向量操作還能和語義相對應。因此利 用word2vec預先計算詞向量,可以節省時間、提高效率,并且能夠提高準確率。詞性向量和 實體標記向量可以采用隨機初始化的方法,得到隨機向量。將上述過程得到的詞