開的方法解釋成反映如下意圖:即所要求保 護的本發明要求比在每個權利要求中所明確記載的特征更多的特征。更確切地說,如下面 的權利要求書所反映的那樣,發明方面在于少于前面公開的單個實施例的所有特征。因此, 遵循【具體實施方式】的權利要求書由此明確地并入該【具體實施方式】,其中每個權利要求本身 都作為本發明的單獨實施例。
[0093] 本領域那些技術人員可以理解,可以對實施例中的客戶端中的模塊進行自適應性 地改變并且把它們設置在與該實施例不同的一個或多個客戶端中。可以把實施例中的模塊 組合成一個模塊,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特 征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包 括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者客戶端 的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權利要求、摘要和 附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。
[0094] 此外,本領域的技術人員能夠理解,盡管在此所述的一些實施例包括其它實施例 中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發明的 范圍之內并且形成不同的實施例。例如,在下面的權利要求書中,所要求保護的實施例的任 意之一都可以以任意的組合方式來使用。
[0095] 本發明的各個部件實施例可以以硬件實現,或者以在一個或者多個處理器上運行 的軟件模塊實現,或者以它們的組合實現。本領域的技術人員應當理解,可以在實踐中使用 微處理器或者數字信號處理器(DSP)來實現根據本發明實施例的加載有排序網址的客戶 端中的一些或者全部部件的一些或者全部功能。本發明還可以實現為用于執行這里所描述 的方法的一部分或者全部的設備或者裝置程序(例如,計算機程序和計算機程序產品)。這 樣的實現本發明的程序可以存儲在計算機可讀介質上,或者可以具有一個或者多個信號的 形式。這樣的信號可以從因特網網站上下載得到,或者在載體信號上提供,或者以任何其他 形式提供。
[0096] 應該注意的是上述實施例對本發明進行說明而不是對本發明進行限制,并且本領 域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施例。在權利要求中, 不應將位于括號之間的任何參考符號構造成對權利要求的限制。單詞"包含"不排除存在 未列在權利要求中的元件或步驟。位于元件之前的單詞"一"或"一個"不排除存在多個這 樣的元件。本發明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來 實現。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬件 項來具體體現。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為 名稱。
【主權項】
1. 一種語句意圖類別識別方法,其特征在于,包括: 提供問答日志信息,每條問答日志信息包括:問句和意圖類別; 根據從所述問句中獲取的關鍵詞生成詞典; 根據所述詞典分別對每個問句進行向量化計算,得到每個問句的向量; 根據每個問句的向量及對應的意圖類別進行分類模型的訓練,獲取意圖分類模型; 對當前問句進行向量化計算,得到當前問句的向量,根據所述當前問句的向量和所述 意圖分類模型確定當前問句對應的意圖類別。2. 如權利要求1所述的方法,其特征在于,根據從所述問句中獲取的關鍵詞生成詞典 包括: 對從問句獲取的語料進行預處理,得到文本數據; 對所述文本數據進行分詞處理,得到多個語料詞語; 對所述語料詞語進行過濾處理,得到包括多個關鍵詞的詞典; 對所述詞典進行降維處理。3. 如權利要求2所述的方法,其特征在于,所述降維處理包括:根據所述問答日志統計 問句對應的意圖類別,計算所述詞典中每個關鍵詞的信息熵,將信息熵小于信息熵閾值的 關鍵詞從所述詞典中刪除,其中,所述信息熵表示該關鍵詞在各意圖類別中出現的概率。4. 如權利要求1所述的方法,其特征在于,對問句進行向量化計算包括: 對所述問句進行預處理和分詞處理; 根據所述詞典的大小和相應問句中出現的關鍵詞的TF-IDF值,對該問句生成向量,其 中,所述向量的維度是所述詞典的大小,每個維度的值為:相應問句中未出現在詞典中的詞 的維度值為〇,相應問句中出現在詞典中的關鍵詞的維度值為該關鍵詞的TF-IDF值。5. 如權利要求4所述的方法,其特征在于,所述關鍵詞的TF-IDF值通過以下方式獲 取: 將問答日志中包括的問句總數目除以包含所述關鍵詞的問句的數目,將得到的商取對 數得到所述關鍵詞的IDF值; 計算所述關鍵詞在對應問句中出現的頻率,確定TF值; 將所述TF值乘以所述IDF值得到所述關鍵詞的TF-IDF值。6. 如權利要求2或4所述的方法,其特征在于,所述預處理包括:將問句的格式統一為 文本格式,過濾臟詞、敏感詞和停用詞中的一種或多種,并將過濾后的文本數據按照標點劃 分為多行。7. 如權利要求2或4所述的方法,其特征在于,所述分詞處理采用字典雙向最大匹配 法、viterbi方法、HMM方法和CRF方法中的一種或多種。8. 如權利要求2所述的方法,其特征在于,所述過濾處理采用以下任一種或兩種方式: 根據詞性對所述語料詞語進行過濾,保留名詞、動詞以及形容詞; 根據頻次對所述語料詞語進行過濾,保留頻次大于頻次閾值的語料詞語。9. 如權利要求1所述的方法,其特征在于,進行分類模型訓練的方法包括:SVM和樸素 貝葉斯中的一種或兩種。10. -種語句意圖類別識別裝置,其特征在于,包括: 提供模塊,用于提供問答日志信息,每條問答日志信息包括:問句和意圖類別; 生成模塊,用于根據從所述問句中獲取的關鍵詞生成詞典; 計算模塊,用于根據所述詞典分別對每個問句進行向量化計算,得到每個問句的向 量; 訓練模塊,用于根據每個問句的向量及對應的意圖類別進行分類模型的訓練,獲取意 圖分類模型; 識別模塊,用于對當前問句進行向量化計算,得到當前問句的向量,根據所述當前問句 的向量和所述意圖分類模型確定當前問句對應的意圖類別。11. 如權利要求10所述的裝置,其特征在于,所述生成模塊具體包括: 預處理子模塊,用于對從問句獲取的語料進行預處理,得到文本數據; 分詞處理子模塊,用于對所述文本數據進行分詞處理,得到多個語料詞語; 過濾處理子模塊,用于對所述語料詞語進行過濾處理,得到包括多個關鍵詞的詞典; 降維子模塊,用于對所述詞典進行降維處理。12. 如權利要求11所述的裝置,其特征在于,所述降維子模塊具體用于:根據所述問答 日志統計問句對應的意圖類別,計算所述詞典中每個關鍵詞的信息熵,將信息熵小于信息 熵閾值的關鍵詞從所述詞典中刪除,其中,所述信息熵表示該關鍵詞在各意圖類別中出現 的概率。13. 如權利要求10所述的裝置,其特征在于,所述計算模塊具體用于: 對所述問句進行預處理和分詞處理; 根據所述詞典的大小和相應問句中出現的關鍵詞的TF-IDF值,對該問句生成向量,其 中,所述向量的維度是所述詞典的大小,每個維度的值為:相應問句中未出現在詞典中的詞 的維度值為〇,相應問句中出現在詞典中的關鍵詞的維度值為該關鍵詞的TF-IDF值。14. 如權利要求13所述的裝置,其特征在于,所述計算模塊具體用于: 將問答日志中包括的問句總數目除以包含所述關鍵詞的問句的數目,將得到的商取對 數得到所述關鍵詞的IDF值; 計算所述關鍵詞在對應問句中出現的頻率,確定TF值; 將所述TF值乘以所述IDF值得到所述關鍵詞的TF-IDF值。15. 如權利要求11或13所述的裝置,其特征在于,所述預處理具體用于:將問句的格 式統一為文本格式,過濾臟詞、敏感詞和停用詞中的一種或多種,并將過濾后的文本數據按 照標點劃分為多行。16. 如權利要求11或13所述的裝置,其特征在于,所述分詞處理采用字典雙向最大匹 配法、viterbi方法、HMM方法和CRF方法中的一種或多種。17. 如權利要求11所述的裝置,其特征在于,所述過濾處理子模塊具體采用以下任一 種或兩種方式進行過濾處理: 根據詞性對所述語料詞語進行過濾,保留名詞、動詞以及形容詞; 根據頻次對所述語料詞語進行過濾,保留頻次大于頻次閾值的語料詞語。18. 如權利要求10所述的裝置,其特征在于,所述訓練模塊采用SVM和樸素貝葉斯中的 一種或兩種技術。
【專利摘要】本發明公開了一種語句意圖類別識別方法及裝置。該方法包括:提供問答日志信息,每條問答日志信息包括:問句和意圖類別;根據從問句中獲取的關鍵詞生成詞典;根據詞典分別對每個問句進行向量化計算,得到每個問句的向量;根據每個問句的向量及對應的意圖類別進行分類模型的訓練,獲取意圖分類模型;對當前問句進行向量化計算,得到當前問句的向量,根據當前問句的向量和意圖分類模型確定當前問句對應的意圖類別。借助于本發明的技術方案,能夠初步準確地識別用戶的問句意圖,提高語義理解的執行效率,降低了成本,節約了答案回復的時間,提高了用戶的使用體驗。
【IPC分類】G06F17/27
【公開號】CN105389307
【申請號】CN201510874529
【發明人】張昊, 朱頻頻
【申請人】上海智臻智能網絡科技股份有限公司
【公開日】2016年3月9日
【申請日】2015年12月2日