基于自動分類技術的語音意圖判定識別方法
【專利摘要】本發明公開了一種基于自動分類技術的語音意圖判定識別方法,其特征在于:該方法是先采用語音識別模塊對輸入語音進行降噪、特征提取處理,將輸入語音轉化為特征序列,并采用隱馬爾科夫連續語音識別器進行語音識別,將語音特征序列轉化為帶有置信度的詞圖網絡;然后用意圖分類模塊將用戶語音的詞圖網絡轉化為帶權重的空間向量,并利用意圖分類模塊中訓練好的意圖分類器進行意圖自動分類,實現從語音到意圖的轉化,最后根據意圖所對應字符庫領域選擇出最為正確的文字,形成高準確率的語音識別。
【專利說明】基于自動分類技術的語音意圖判定識別方法
【技術領域】
[0001]本發明涉一種基于自動分類技術的語音意圖判定識別方法,屬于語音識別【技術領域】。
【背景技術】
[0002]語音識別技術是語音意圖判定的基礎技術,實現從語音到文字的轉換。近年來,語音識別技術發展非常迅速,識別能力得到了很大的提高。隨著移動互聯網的興起,語音識別技術也逐漸進入了應用市場,成為了移動應用除了文字輸入之外的另一個入口。然而,這些應用都局限于用戶配合的應用場景,對于用戶的語音輸入的穩定性和輸入質量都有較高要求。由于用戶語音存在口音大、噪音大、窄帶失真率高、用戶說話不規范等特點,語音識別的結果一直停留在一個很低的水平,這在很大程度上限制了語音識別系統的準確率。
【發明內容】
[0003]本發明解決的技術問題是:為了解決語音識別準確性不高的問題,本發明提供了一種基于自動分類技術的語音意圖判定識別方法,從而更好地保證通過語音判定用戶意圖進而進一步提高語音識別準確性。
[0004]本發明的技術方案:為達到上述發明目的,本發明提出了基于自動分類技術的語音意圖判定識別方法,該方法是先采用語音識別模塊對輸入語音進行降噪、特征提取處理,將輸入語音轉化為特征序列,并采用隱馬爾科夫連續語音識別器進行語音識別,將語音特征序列轉化為帶有置信度的詞圖網絡;然后用意圖分類模塊將用戶語音的詞圖網絡轉化為帶權重的空間向量,并利用意圖分類模塊中訓練好的意圖分類器進行意圖自動分類,實現從語音到意圖的轉化,最后根據意圖所對應字符庫領域選擇出最為正確的文字,形成高準確率的語音識別。
[0005]前述的基于自動分類技術的語音意圖判定識別方法是,訓練意圖分類器的具體做法包括以下步驟
a收集并截取大量包含用戶意圖的語音,人工標注用戶語音中所包含的用戶意圖類別,得到大量帶有意圖標注的用戶語音;
b將帶有意圖標注的用戶語音,通過語音識別技術,將每一個用戶語音轉化為帶有置信度的詞圖網絡。
[0006]c針對詞圖網絡,采用特征選擇和特征抽取技術,從詞圖網絡中選擇最有代表性的特征,并實現從詞圖網絡到特征向量的映射;
d對于從每一個用戶語音得到的特征向量,將其與對應的用戶意圖類別進行關聯,并訓練兩者之間的映射模型,即意圖分類器模型。
[0007]前述的基于自動分類技術的語音意圖判定識別方法是,所述的字符庫領域包括生活、美食、機械、化工、電子產品、影視、明星等進行分類。
[0008]前述的基于自動分類技術的語音意圖判定識別方法是,每獲取一句用戶語音后,意圖分類模塊會對用戶語音分類細化,獲取更精細的字符庫領域,并調整前期識別文字中的錯誤。
[0009]前述的基于自動分類技術的語音意圖判定識別方法是,用語音識別模并不產生最終的識別結果,而是用于獲取帶權重的詞圖網絡。
[0010]相比于現有語音識別方法,本發明提供的方法有如下有益效果:
(I)由于在語音識別結果正確率不高,無法在這些含錯的文字上面采用自然語言處理技術分析用戶意圖。本發明提出了基于容錯率較高的自動分類技術替代自然語言處理技術進行語音意圖判定的方法。由于自動分類技術忽略文字間的結構關系,而是采用相似度計算實現用戶語音到意圖之間的映射,有利于降低錯誤識別的文字對用戶意圖的干擾。
[0011](2)目前,大多數語音識別的應用,都圍繞在通過語音識別獲取文字信息后,使用文字信息進行后繼的加工處理。這一點在文字信息正確率較高時,由于文字信息傳遞的用戶意圖足夠正確,使得它比較適用。當文字信息識別率較低時,大量的有用信息在識別過程中被語音識別搜索算法錯誤丟棄,導致文字信息傳遞的用戶意圖也同樣丟失在識別過程中。本技術發明提出了以語音識別過程中的詞圖網絡替代傳統的文字信息作為識別結果,它能夠降低語音識別搜索算法對用戶意圖信息的丟棄概率,使得用戶意圖信息在語音識別階段得以最大化的保存。當詞圖網絡結果傳遞到意圖分類模塊后,這些保存下來的用戶意圖信息,將通過意圖分類器得到正確的判定。
【專利附圖】
【附圖說明】
[0012]圖1是訓練意圖分類器的訓練流程圖;
圖2是語音識別產生的詞圖網絡結構示例;
圖3是意圖判定服務應用流程圖。
【具體實施方式】
[0013]為更好地理解本發明,下面結合【具體實施方式】及附圖對本發明進行更為詳細描述。在以下的描述中,當已有的現有技術的詳細描述也許會淡化本發明的主題內容時,這些描述在這兒將被忽略。
[0014]基于自動分類技術的語音意圖判定識別方法可以分為以下兩個模塊:
語音識別模塊,接收傳入的語音信息,對輸入語音進行降噪、特征提取處理,將輸入語音轉化為特征序列,然后采用隱馬爾科夫連續語音識別器進行語音識別,將語音特征序列轉化為帶有置信度的詞圖網絡;
意圖分類模塊,接收語音識別模塊處理后信息,將詞圖網絡轉化為帶權重的空間向量,并利用意圖分類模塊中訓練好的意圖分類器進行意圖自動分類,實現從語音到意圖的轉化,最后根據意圖所對應字符庫領域選擇出最為正確的文字,形成高準確率的語音識別,附圖1是訓練意圖分類器的訓練流程圖。
[0015]本發明提供的一種基于自動分類技術的語音意圖判定方法,突破了傳統的根據用戶語音中的文本來分析用戶的方法,而是在語音識別性能較差的情況下,采用并不足夠精確的詞圖網絡作為語音識別的產生結果,以自動分類方法替代文本語義分析的方法,實現對用戶意圖的判定。[0016]在本方法中,一個基礎性的工作,就是訓練意圖分類模塊所需的分類器。分類器的訓練步驟如下:
(I)人工整理準備訓練集合,收集并截取大量包含用戶意圖的語音,人工標注用戶語音中所包含的用戶意圖類別。最終得到大量帶有意圖標注的用戶語音作為意圖判定服務的訓練集合。
[0017](2)對訓練集合中的用戶語音文檔,通過語音識別技術,將每一個用戶語音轉化為帶有置信度的詞圖網絡。
[0018](3)針對詞圖網絡,采用特征選擇和特征抽取技術,從詞圖網絡中選擇最有代表性的特征,并實現從詞圖網絡到特征向量的映射。在特征向量映射過程中,可以采用各種統計值來衡量每一個詞語的信息量,包括詞文檔頻率(TF/IDF)、信息增益(Information Gain)、互信息(Mutual Information)、
Z2統計(CHI)等。同時,在這些統計量中,將詞圖網絡的詞語置信度以詞頻的方式進行統
計值疊加,使得最終實現的特征向量能夠包含語音識別置信度信息。
[0019](4)對于從每一個用戶語音得到的特征向量,將其與對應的用戶意圖類別進行關聯,并訓練兩者之間的映射模型,即意圖分類器模型。在模式識別領域,存在著大量的統計分類(statistical classifiers)和機器學習(machine learning)方法可以應用到意圖分類服務中,包括:支撐向量機SVM (Support Vector Machines),k近鄰分類kNN(k-NearestNeighbor classifier),神經網絡方法 NNet (neural network),樸素貝葉斯分類 NEKNaiveBayes)方法等。
[0020](5)最終,利用以上方法完成訓練過程,可以得到適用于意圖判定服務的意圖分類器模型。
[0021]附圖2是語音識別產生的詞圖網絡結構示例。
[0022]語音識別的目標,是實現從語音信號到文本內容的轉化。由于語音識別技術成熟度所限,在呼叫中心應用場景中,存在著口音大、噪音大、窄帶失真率高、用戶說話不規范等特點,使得語音識別最終得到的文本內容包含較多的錯誤。對這些錯誤進行文本分析時,會造成用戶意圖的誤解。
[0023]實際上,在語音識別最終生成文本內容之前,會在其識別過程中,保留很豐富的內容信息一詞圖網絡。在詞圖網絡中,將語音對應的幾乎所有可能的文本內容都保留了下來。這里面首先會包含更大量的錯誤內容,但同時也會包含幾乎所有的正確內容。這些錯誤和正確的內容混淆在一起,對于文本分析而言難以實用。
[0024]本發明創新性地引入文本分類的方法,在詞圖網絡上實現對意圖的判定。由于文本分類本質上是一種相似度計算方法,不需要完全解析文本中的精細結構,而是能夠將所有混淆的信息聚合在一起計算,根據各種置信度和統計量來區分其權重,最終實現對用戶意圖的判定,因而在當前的語音識別技術成熟度下,有很強的適應性。
[0025]圖中所示的即為一個用戶語音的詞圖網絡樣例。可以看到,這句話在語音識別詞圖網絡中,存在多種可能的識別結果,有所有正確的內容,同時也包含了大量錯誤的內容。它將所有應保留的信息都保留下來,通過后繼的意圖分類步驟實現對意圖的準確把握。
[0026]附圖3是意圖判定服務應用流程圖。
[0027]本發明提供的一種基于自動分類技術的語音意圖判定方法,在訓練階段完成后,即可實現對任一用戶語音的意圖判定。具體步驟如下:
(1)部署了意圖判定服務的云端服務器接收需要判定用戶意圖的語音;
(2)將用戶語音提交給語音識別模塊,將其轉化為帶有置信度的詞圖網絡;
(3)將詞圖網絡提交給意圖分類器進行分類。意圖分類器通過特征選擇、特征提取等步驟,將詞圖網絡轉化為特征向量后,調用分類器模型進行類別判定;
(4)得到用戶意圖后,實現從語音到意圖的轉化,最后根據意圖所對應字符庫領域選擇出最為正確的文字,形成高準確率的語音識別,并將識別后信息發至自動外呼系統服務器。
【權利要求】
1.一種基于自動分類技術的語音意圖判定識別方法,其特征在于:該方法是先采用語音識別模塊對輸入語音進行降噪、特征提取處理,將輸入語音轉化為特征序列,并采用隱馬爾科夫連續語音識別器進行語音識別,將語音特征序列轉化為帶有置信度的詞圖網絡;然后用意圖分類模塊將用戶語音的詞圖網絡轉化為帶權重的空間向量,并利用意圖分類模塊中訓練好的意圖分類器進行意圖自動分類,實現從語音到意圖的轉化,最后根據意圖所對應字符庫領域選擇出最為正確的文字,形成高準確率的語音識別。
2.根據權利要求1所述的基于自動分類技術的語音意圖判定識別方法,其特征在于:訓練意圖分類器的具體做法包括以下步驟 a收集并截取大量包含用戶意圖的語音,人工標注用戶語音中所包含的用戶意圖類別,得到大量帶有意圖標注的用戶語音; b將帶有意圖標注的用戶語音,通過語音識別技術,將每一個用戶語音轉化為帶有置信度的詞圖網絡; c針對詞圖網絡,采用特征選擇和特征抽取技術,從詞圖網絡中選擇最有代表性的特征,并實現從詞圖網絡到特征向量的映射; d對于從每一個用戶語音得到的特征向量,將其與對應的用戶意圖類別進行關聯,并訓練兩者之間的映射模型,即意圖分類器模型。
3.根據權利要求1所述的基于自動分類技術的語音意圖判定識別方法,其特征在于:所述的字符庫領域包括生活、美食、機械、化工、電子產品、影視、明星等進行分類。
4.根據權利要求1所述的基于自動分類技術的語音意圖判定識別方法,其特征在于:每獲取一句用戶語音后,意圖分類模塊會對用戶語音分類細化,獲取更精細的字符庫領域,并調整前期識別文字中的錯誤。
5.根據權利要求4所述的基于自動分類技術的語音意圖判定識別方法,其特征在于:用語音識別模并不產生最終的識別結果,而是用于獲取帶權重的詞圖網絡。
【文檔編號】G10L15/00GK103474065SQ201310437722
【公開日】2013年12月25日 申請日期:2013年9月24日 優先權日:2013年9月24日
【發明者】李建洲, 楊興榮 申請人:貴陽世紀恒通科技有限公司