專利名稱:語音輸入設備使用異常的檢測方法及系統的制作方法
技術領域:
本發明涉及電子信息行業語音信號處理技術領域,尤其涉及一種語音輸入設備使用異常的檢測方法及系統。
背景技術:
語音作為信息傳遞的重要載體,與其相關構成的通信、編碼、存儲和處理等系統已經成為現代社會信息交流的必要手段,且已廣泛應用于社會各個領域。尤其是在計算機自動口語考試中,對于前端輸入語音質量好壞與否的判斷成為后端學習者口語水平估計的關鍵。而前端輸入語音質量通常和口語學習者的水平是無關的。這就需要在系統設計時,盡可能地使其保持相同的標準和質量,以便學習者能夠公平、公正地進行考試。為達到這個目的,一方面要選用專用的統一制式考試用耳麥,并對耳麥故障進行自動排查、預警提出一系列行之有效的規則和措施;另一方面則需要通過自動檢測的方法,確定測試者由于使用不當等主觀原因而導致的前端語音輸入異常情況,由系統自動給出錯誤預警。本發明更關注由于主觀人為使用原因導致的異常情況,通常稱之為“使用設備異常”。與之對應的則為硬件故障原因導致的異常情況,通常稱之為“純設備異常”,該部分異常的檢測與處理不在本文所述之列。多項口語自動評分的研究表明即使評分算法性能再為優異、對噪聲再為魯棒,如果通過麥克風得到的前端語音輸入信號質量不好,對自動評分系統的結果就會帶來很大的偏頗。而在如今的技術條件下,由于麥克風質量缺陷導致的前端語音信號質量缺陷,其概率往往是比較低的。經過大規模觀察可以發現,多數前端語音信號質量缺陷的原因是由于使用者人為原因造成的。主要包括以下幾種類型1)遠講導致該現象的原因,一方面為使用者唇部距離麥克風過遠,另一方面為麥克風位置放置錯誤,包括遠離話者、戴偏或者戴反;2)信噪比過低口語自動測試時,由于教室房間的物理材質、形狀,麥克風之間距離違反要求等原因導致周圍發聲者的語音湮沒了目標語音,造成輸入信噪比過低;而現有的語音增強算法通常不能滿足以上需求。語音增強的過程勢必會在去除噪聲的情況下對主體語音有所影響。這也就更加彰顯了計算機自動檢測使用設備異常情況的重要性。通過自動檢測這些錯誤,更換耳麥或安排、指導測試者正確使用設備,重新進行考試,是目前在計算機口語評測中比較合理的方案。但是其召回率和檢測精度仍是亟待解決的問題。在聽感上,使用設備異常語音和語音質量評估是休戚相關的。語音質量評估是以人為主體來評價語音質量的,異常語音必然會對語音質量在聽感上有所影響。該方式雖較為繁雜,但由于人是語音最終的接受者,因此,這種評價應是語音質量的真實反映。目前, 國內外使用較多的主觀評價方法有平均意見分M0S、音韻字可懂度測量DRT和滿意度測量 DAM等。其中,MOS評分法是一種廣為使用的主觀評價方法,它以平均意見分來衡量語音質量,用五個等級來表示語音的質量等級優(5分)、良0分)、一般(3分)、差0分)、壞(1分)。顯然,主觀評價的優點是符合人對語音質量的感覺,缺點是費時費力費錢,且靈活性不夠、重復性和穩定性較差,受人的主觀影響較大等。為了克服主觀評價的缺點,人們不得不尋求一種能夠以方便、快捷的方式給出語音質量評估的客觀評估方法,即用機器來自動判別語音的質量。不過,值得注意的是,研究語音質量客觀評價的目的不是要用客觀評價來完全替代主觀評價,而是使客觀評價成為一種既方便快捷又能夠準確預測出主觀評價值的手段,并將該手段應用在異常語音檢測上。盡管客觀評價具有省時省力等優點,但它還不能夠反映機器對使用設備異常語音的接受能力。有兩個瓶頸制約著評估模塊的發揮首先,語音質量評估對于使用設備異常語音(尤其是遠講語音)和背景聲語音的區分度不夠(M0S值均較低),故系統應具有對使用設備異常語音、背景聲語音以及正常語音有較強的區分能力。而在信號特征的表現上,使用設備異常語音通常是與正常語音、背景聲語音有明顯區別的,所以加入特征提取和分類器的音頻分類模塊,在語音質量評估模塊的前端進行粗篩,可以有效提高系統精度;其次,傳統的介入式語音質量評估需要依賴純凈情況下的參考語音,如何針對使用設備異常語音的特點進行非介入式的語音質量評估,也是本發明所關注的問題。
發明內容
(一)要解決的技術問題為解決上述的一個或多個問題,本發明提供了一種語音輸入設備使用異常的檢測方法及系統,以提前發現遠講、背景干擾過強等使用過程中麥克風設備的異常問題。(二)技術方案本發明公開了一種語音輸入設備使用異常的檢測方法。該方法包括步驟A,利用語音輸入設備收集語音測試數據;步驟B,對每條語音測試數據對應的語音測試信號進行前端預處理,得到預處理后的增強語音測試信號;步驟C,對預處理后的增強語音測試信號進行遠講信號特征提取,遠講信號特征包括以下特征中的一種或多種線性預測系數LPC 殘差特征;頻譜低、高階矩統計量特征;能量高階統計量特征;時域遠講特征;步驟D,將從增強語音測試信號提取的遠講信號特征輸入音頻分類模型,對語音測試數據進行遠講模式分類,遠講模式包括背景語音、疑似正常語音和疑似遠講語音。優選地,本發明語音輸入設備使用異常的檢測方法中,步驟A之前還包括步驟 A',利用語音輸入單元收集語音訓練數據,對每條語音訓練數據,進行所屬為正常語音、背景聲語音、或遠講語音的類別標注;步驟B',對每條語音訓練數據對應的語音訓練信號進行前端預處理,得到預處理后的增強語音訓練信號;步驟C',對預處理后的增強語音訓練信號進行遠講信號特征提取;步驟D',結合語音訓練數據的類別標注及其對應的增強語音訓練信號的遠講信號特征,離線訓練用于檢測使用設備異常的音頻分類模型。優選地,本發明語音輸入設備使用異常的檢測方法中,步驟D之后還包括步驟E, 對于遠講模式分類結果中,判別類別為背景聲語音,以及類別為正常語音且置信度大于一定閥值的語音,將音頻分類結果直接作為最終的判別結果;或步驟F,對于判別類別為遠講語音、以及類別為正常且置信度小于一定閥值的語音進行MOS值打分;打分大于等于一定閥值的語音作為正常語音,小于一定閥值的語音作為使用設備異常語音。優選地,本發明語音輸入設備使用異常的檢測方法中,步驟F中,對于判別類別為遠講語音、以及類別為正常且置信度小于一定閥值的語音進行MOS值打分包括步驟Fl 將經過預處理后的該部分語音通過Hilbert變換,得到語音信號的時域包絡,并進行分幀;步驟F2 對每幀的時域語音信號通過加速的頻域變換,映射到對應的頻域中去;步驟F3 基于頻譜平方商的積分,得到頻域歸一化的調制譜能量;步驟F4 通過對調制譜能量進行對數變化,得到對數尺度下各幀的質量指標;步驟F5,對其在語音的全部時間幀上進行范數加權,以獲得MOS值打分。根據本發明的另一個方面,還提供了一種語音輸入設備使用異常的檢測系統。該系統包括語音輸入單元,用于收集語音測試數據;信號預處理單元,與語音輸入單元相連接,用于對每條語音測試數據對應的語音測試信號進行前端預處理,得到預處理后的增強語音測試信號;特征提取單元,與信號預處理單元相連接,用于對預處理后的增強語音測試信號進行遠講信號特征提取,遠講信號特征包括以下特征中的一種或多種LPC殘差特征, 頻譜低、高階矩統計量特征,能量高階統計量特征,子帶能量特征;設備異常粗測單元,與特征提取單元相連接,用于將從增強語音測試信號提取的遠講信號特征輸入音頻分類模型, 對語音測試數據進行遠講模式分類,遠講模式包括背景語音、疑似正常語音和疑似遠講語
曰O(三)有益效果本發明針對口語教學和口語自動化考試中的前端設備,提出一種語音輸入設備使用異常的檢測方法及系統,以解決在大規模口語測試中,由于人為設備使用錯誤而導致的前端輸入語音質量差異問題,以保證測試的公平、公正性。和傳統方法不同,在本發明音頻信號分類方法中,采用對遠講語音信號表征更全面、更趨近于人感知的特征提取方式,從而可以粗略的判斷背景語音,正常語音和遠講語音。在音頻信號分類的基礎上,在語音質量評估方法中,采用現代信號處理技術和統計機器學習理論相結合的方法,克服了傳統方法對前端語音輸入的諸多限制問題,使得信號級質量評分更趨近于人的評分。
圖1為本發明實施例語音輸入設備使用異常的檢測系統的整體工作流程框圖;圖2為本發明實施例語音輸入設備使用異常的檢測系統的信號預處理模塊的工作流程框圖;圖3為本發明實施例語音輸入設備使用異常的檢測系統的特征提取模塊、模型訓練單元和設備異常粗測單元的工作流程圖;圖4為本發明實施例語音輸入設備使用異常的檢測系統的設備異常細測單元的工作流程圖;圖5為本發明實施例語音輸入設備使用異常的檢測系統的運行界面。
具體實施例方式下面結合附圖詳細說明本發明技術方案中所涉及的各個細節問題。應指出的是, 所描述的實施例僅旨在便于對本發明的理解,而對其不起任何限定作用。本發明的方法主要包括兩個部分音頻分類方法和語音質量評估方法。其中,音頻分類方法可以單獨實施,而語音質量評估方法必須在音頻分類方法實施的基礎上執行。在使用本發明前,需要對硬件條件加以限制,以保證本發明能夠順利的實施1、麥克風設備必須在硬件和語音輸出上保持正常狀態,沒有由于麥克風硬件故障而導致的設備雜音、飽和噪聲、設備靜音、馬達聲等現象。后者屬于純硬件設備異常,和本發明由于人為使用而導致的使用設備異常有著本質的區別;2、麥克風最好為相同制式的,并且在做工工藝上個體差異要控制在較小的范圍內。且易于使用,佩戴方便,適合口語測試的需求;3、在測試者正常使用設備時,音質達到一定要求,通常可以用ITU-T p. 862 (PESQ) 進行衡量。另外,設備輸入端需具有良好的指向性和抗干擾性,采樣頻率在8K以上,14K以下,所采集語音沒有明顯由于硬件原因導致的頻譜畸變。以下將在上述硬件限制的基礎上, 對本發明的執行步驟逐一進行說明。一、單麥克風設備輸入語音的前端預處理盡管做了以上硬件上的限定。但是,對于麥克風設備錄入的語音,由于輸入制式不同,話者說話音量不同等因素,仍然會在信號級出現較大的差異。由于本發明方法建立在信號級,故在檢測前,需要對麥克風輸入語音進行標準的統一。下面將對這些步驟分別進行闡述。1、重采樣通過麥克風錄入的語音通常存在采樣率的差異,所以需要對采樣率進行重新調整。通常情況下,針對考試測試語音,采樣率在16K就可以了。根據Nyquist采樣定理,該采樣率可以描述0-8K頻段的聲音,滿足以語音為主的口語考試和自動評估系統的前端特征頻帶提取范圍。假設錄入采樣頻率為P,標準采樣頻率為Q,首先需要將P和Q除以兩者的最大公約數以得到有理倍率P和q。轉采樣時首先對進行升q采樣,設原始信號f (Π)的頻譜信號為F(W),則升采樣后信號u (η)帶來的頻域信號U(w)對應為F(qw)。如下式所示
權利要求
1.一種語音輸入設備使用異常的檢測方法,其特征在于,包括 步驟A,利用語音輸入設備收集語音測試數據;步驟B,對每條語音測試數據對應的語音測試信號進行前端預處理,得到預處理后的增強語音測試信號;步驟C,對所述增強語音測試信號進行遠講信號特征提取,所述遠講信號特征包括以下特征中的一種或多種線性預測系數LPC殘差特征;頻譜低、高階矩統計量特征;能量高階統計量特征;時域遠講特征;步驟D,將從所述增強語音測試信號提取的遠講信號特征輸入音頻分類模型,對所述語音測試數據進行遠講模式分類,并依據該遠講模式分類結果實現語音輸入設備使用異常的檢測;所述遠講模式包括背景語音、疑似正常語音和疑似遠講語音。
2.根據權利要求1所述的語音輸入設備使用異常的檢測方法,其特征在于,所述步驟A 之前還包括步驟A',利用語音輸入單元收集語音訓練數據,對每條語音訓練數據進行所屬為正常語音、背景聲語音、或遠講語音的類別標注;步驟B',對每條語音訓練數據對應的語音訓練信號進行前端預處理,得到預處理后的增強語音訓練信號;步驟C',對預處理后的所述增強語音訓練信號進行遠講信號特征提取; 步驟D',結合所述語音訓練數據的類別標注及其對應的增強語音訓練信號的遠講信號特征,離線訓練用于檢測使用設備異常的音頻分類模型。
3.根據權利要求1所述的語音輸入設備使用異常的檢測方法,其特征在于,所述步驟D 之后還包括步驟E,對于遠講模式分類結果中,判別類別為背景聲語音,以及類別為正常語音且置信度大于一定閥值的語音,將音頻分類結果直接作為最終的判別結果;或步驟F,對于判別類別為遠講語音、以及類別為正常且置信度小于一定閥值的語音進行 MOS值打分;打分大于等于一定閥值的語音作為正常語音,小于一定閥值的語音作為使用設備異常語音。
4.根據權利要求3所述的語音輸入設備使用異常的檢測方法,其特征在于,所述步驟 F中,對于判別類別為遠講語音、以及類別為正常且置信度小于一定閥值的語音進行MOS值打分包括步驟Fl 將經過預處理后的該部分語音通過Hilbert變換,得到語音信號的時域包絡, 并進行分幀;步驟F2 對每幀的時域語音信號通過加速的頻域變換,映射到對應的頻域中去; 步驟F3 基于頻譜平方商的積分,得到頻域歸一化的調制譜能量; 步驟F4 通過對調制譜能量進行對數變化,得到對數尺度下各幀的質量指標; 步驟F5,對其在語音的全部時間幀上進行范數加權,以獲得MOS值打分。
5.根據權利要求2所述的語音輸入設備使用異常的檢測方法,其特征在于,所述步驟 B'和步驟B中,對語音信號進行前端預處理,得到預處理后的增強語音信號包括將時域語音信號進行減均值操作;以有效語音段VAD語音為基準,將進行減均值操作后的語音信號幅值進行歸一化;對歸一化后的語音信號幅值進行中間參照系IRS濾波。
6.根據權利要求5所述的語音輸入設備使用異常的檢測方法,其特征在于,所述將時域語音信號進行減均值操作的步驟之前還包括將所述語音輸入設備采集的語音信號的采樣頻率調整至預設的標準采樣頻率。
7.根據權利要求6所述的語音輸入設備使用異常的檢測方法,其特征在于,所述步驟 C'和步驟C中,所述LPC殘差特征包括LPC殘差峰值率、LPC殘差峭度,其中,所述LPC殘差峭度為語音數據的三階或四階統計量峭度。
8.根據權利要求2所述的語音輸入設備使用異常的檢測方法,其特征在于,所述步驟 C'和步驟C中,所述低、高階矩統計量特征包括頻譜傾斜度、子頻帶對應譜帶能量的低階矩特性、子頻帶譜帶能量統計特征的時序高階矩特征。
9.根據權利要求2所述的語音輸入設備使用異常的檢測方法,其特征在于,所述步驟 C'和步驟C中,所述能量的高階矩統計量特征表示話者由于距離麥克風遠近的不同而導致的語音信號在能量上的變化。
10.根據權利要求2所述的語音輸入設備使用異常的檢測方法,其特征在于,所述步驟 C'和步驟C中,所述時域遠講特征包括VAD幀數量、語音能量過小的幀數、過零率和能量前后差分累計比例、信噪比。
11.根據權利要求2所述的語音輸入設備使用異常的檢測方法,其特征在于,所述步驟 D'中,所述音頻分類模型為混合高斯模型、神經網絡模型、支持向量機模型。
12.—種語音輸入設備使用異常的檢測系統,其特征在于,包括語音輸入單元,用于收集語音測試數據;信號預處理單元,與所述語音輸入單元相連接,用于對所述每條語音測試數據對應的語音測試信號進行前端預處理,得到預處理后的增強語音測試信號;特征提取單元,與所述信號預處理單元相連接,用于對預處理后的所述增強語音測試信號進行遠講信號特征提取,所述遠講信號特征包括以下特征中的一種或多種LPC殘差特征,頻譜低、高階矩統計量特征,能量高階統計量特征,子帶能量特征;設備異常粗測單元,與所述特征提取單元相連接,用于將從所述增強語音測試信號提取的遠講信號特征輸入音頻分類模型,對所述語音測試數據進行遠講模式分類,所述遠講模式包括背景語音、疑似正常語音和疑似遠講語音。
13.根據權利要求12所述的語音輸入設備使用異常的檢測系統,其特征在于所述語音輸入單元,還用于在訓練階段收集語音訓練數據,每條語音訓練數據,進行所屬為正常語音、背景聲語音、或遠講語音的類別標注;信號預處理單元,還用于對所述每條語音訓練數據對應的語音訓練信號進行前端預處理,得到預處理后的增強語音訓練信號; 特征提取單元,還用于對預處理后的所述增強語音訓練信號進行所述遠講信號特征提取;所述檢測系統還包括模型訓練單元,與所述特征提取模塊相連接,用于結合所述語音訓練數據的類別標注及其對應的增強語音訓練信號的遠講信號特征,離線訓練使用設備異常的音頻分類模型。
14.根據權利要求12所述的語音輸入設備使用異常的檢測系統,其特征在于,還包括設備異常細測單元,與所述設備異常粗測單元相連接,用于對于判別類別為遠講語音、以及類別為正常且置信度小于一定閥值的語音,進行MOS值打分;打分大于等于一定閥值的語音作為正常語音,小于一定閥值的語音作為使用設備異常語音。
15.根據權利要求14所述的語音輸入設備使用異常的檢測系統,其特征在于,所述設備異常細測單元包括Hilbert變換分幀子單元,與所述設備異常粗測單元相連接,用于將經過預處理后的該部分語音通過Hilbert變換,得到語音信號的時域包絡,并進行分幀;頻域變換映射子單元,與所述Hilbert變換分幀子單元相連接,用于對每幀的時域語音信號通過加速的頻域變換,映射到對應的頻域中去;調制譜能量子單元,與所述頻域變換映射子單元相連接,用于基于頻譜平方商的積分, 得到頻域歸一化的調制譜能量;質量指標子單元,與所述調制譜能量子單元相連接,用于通過對調制譜能量進行對數變化,得到對數尺度下各幀的質量指標;MOS值打分子單元,與所述質量指標子單元相連接,用于對在語音的全部時間幀上進行范數加權,以獲得MOS值打分。
全文摘要
本發明公開了一種語音輸入設備使用異常的檢測方法及系統。本發明采用對遠講語音信號表征更全面、更趨近于人感知的特征提取方式,從而可以粗略的判斷背景語音,正常語音和遠講語音。在音頻信號分類的基礎上,采用現代信號處理技術和統計機器學習理論相結合的方法,克服了傳統方法對前端語音輸入的諸多限制問題,使得信號級質量評分更趨近于人的評分。本發明解決了在大規模口語測試中,由于人為設備使用錯誤而導致的前端輸入語音質量差異問題。
文檔編號G10L11/00GK102324229SQ20111026547
公開日2012年1月18日 申請日期2011年9月8日 優先權日2011年9月8日
發明者徐波, 李宏言, 李鵬, 柯登峰, 王士進, 陳振標, 高鵬, 黃申 申請人:中國科學院自動化研究所