專利名稱:語音識別系統中的前導噪聲處理的制作方法
技術領域:
本發明屬于模式識別,數字信號處理和自然語言處理等技術領域,是一種利用說話環境 中語言和噪聲的位置關系,以增強語音識別系統抗噪性的方法,并據此建立了一種系統。
背景技術:
在人的交流環境中,由于地點的不同會產生大量噪聲源,譬如機器轟鳴,森林動物叫聲,商 場嘈雜的說話聲,甚至人在說話時的咂嘴聲等.語音數字信號處理的技術之一就是研究如何去 除各種噪聲,提取更有效的語音信號.在特定環境下,如果噪聲源是穩定的,處理手段相對比較 簡單, 一些簡單的濾波技術就可去處大部噪聲.但是語音識別的環境往往并非是特定的,其噪 聲源也非常不穩定,幾乎沒有辦法找到一種通用的去噪手段,雖然目前針對提高系統抗噪性出 現了很多解決辦法,如譜減法,并行模型合并法,數據丟棄法等,但最終效果都不是很理想, 本發明結合語音識別,提出了一種去除前導噪聲和隨機噪聲的方法。發明內容目前流行的語音識別技術通常是建立在隱含馬爾科夫模型(H麗)的基礎之上,這種技術把 人們說話過程看成一個狀態機.人的每句話,總是按前后順序一個音一個音發出,不同的人發 不同的音的停留長度通常是不一樣的,但停留的時間卻符合某種隨機過程.因此一句話的發聲, 可以用圖1所示的狀態關系來描述.其中每個圓Ql, Q2, Q3, Q4, Q5分別代表一個狀態,箭頭從一 個狀態轉移到下一個狀態,每個狀態都存在一自身轉移符號,也稱為停留.這種方式跟我們的 發聲機理非常類似.使用這種模型做語音識別,可以取得很高的識別效果,特別是在靜音環境 下,其識別率甚至可達99%以上.但是如果有像咂嘴聲和尾音,隨機噪聲等這類噪聲,其識別 率就會急劇下降.在前端根本無法處理,如果采用圖l所示的狀態結構,識別器就會把噪聲誤 認為第一個狀態,使第一個狀態的識別結果受到很大影響,從而影響整個識別結果.為了處理這種情況,本發明提出增加一個新的狀態,稱為噪聲模板,并采用一種新的狀態 結構,如圖2所示.該結構在語音狀態的開始前和結束后各增加一個可選的噪聲態Qffl,從而形 成一個多路選擇.在沒有噪聲的情況下,語音識別算法自動從Q1-〉 Q2-〉 Q3-〉 Q4-〉 Q5依次走 過,如果有噪聲,則經過帶噪聲模板的狀態圖,有三個途徑可供選擇Qm-〉 Ql-〉 Q2-〉 Q3-〉 Q4-〉 Q5, Qm-〉 Q1-〉 Q2-〉 Q3-〉 Q4-〉 Q5-〉 Qm, Ql-〉 Q2-〉 Q3-〉 Q4-〉 Q5-〉 Qm。這種方式 的引入,根本上解決了誤把前導噪聲當稱第一個語音態的可能,提高了識別率,在實踐中取得 了很好的抗噪效果。本發明中采用的噪聲模版可通過兩種方式來建立,在具體實踐中根據實際情況可以自由 選擇。方式一將采集到的所有語音、噪聲數據全部當成噪聲源數據進行統一訓練,得到一訓 練模版,將該模版當成噪聲模版用于識別匹配。方式二將語音數據和噪聲數據通過同一個動態賦值網絡進行Viterbi算法跟蹤,分別 計算各節點的值,最后從網絡起點到網絡終點確定出一條最佳路徑,語音數據和噪聲數據會 在網絡上各產生一輸出值,如果語音數據從終點到起點能正確回溯表示所經過的路徑為正確 地識別結果,這時就可將噪聲數據的輸出值作為噪聲模版用于識別匹配,否則需重新進行路 徑選擇。在語音識別中,其中一個關鍵技術就是模式匹配與模型訓練技術,模型訓練是指按照一 定的準則,從大量已知模式中獲取表征該模式本質特征的模型參數,而模式匹配則是根據一 定準則,使未知模式與模型庫中的某一個模型獲得最佳匹配。利用本發明的語音狀態轉移方 式進行模型訓練而建立的模型庫經實驗證明在模式匹配過程中能獲得更精確的匹配值,從而 增強了語音識別系統的抗噪性,提高了系統的識別率。本發明也包含了一個模型庫系統的建立,該模型庫系統主要包括兩個模塊噪聲模版和 純語音模版,其中純語音模版部分可采用安靜環境下語音模版的訓練方式來實現,因為這種 方式已相對成熟,這里不再贅述,而噪聲模版部分則根據前面所述兩種方式任選其一來建立, 由于Viterbi算法對于本領域的技術人員來說并不陌生,所以具體算法的實現也不再做具體 描述。該模型庫系統把兩個模版結合起來一起作為識別的匹配參數。該系統的結構相對比較簡單,實現也很方便,因此這里只對建立的思路做了一個簡單描 述,本領域的技術人員根據該思路可靈活建立自己的模型訓練庫,內容不限于上面提到的兩 個模塊,為了增加系統的健壯性,可以有其它模塊的加入,但是凡是用到上面提及的設計思 路的都屬于本發明的范圍。
下面結合附圖和實施方式對本發明作進一步說明。 圖1是常用的語音狀態結構圖。圖2是改進后的語音狀態結構圖,也即本發明采用的語音狀態轉移方式。 圖3是一種變通的語音狀態結構圖。 圖4是本實施過程的語音控制流程圖具體實施方式
本發明結合語音識別系統的軟件部分和硬件部分一起實現噪聲環境下的語音識別。在硬 件部分,微處理器選用了凌陽單片機SPCE061A ,它的CPU內核為y, nSP 16位微處理器芯 片,w , nSPW的指令系統提供具有較高運算速度的16位X 16位的乘法運算指令和內積運算 指令,并具有DSP功能,這使得ii' nSPw家族可以實現復雜的數字信號處理。同時內含雙通 道10位的DAC輸出通道可以實現音頻輸出。為降低成本,本發明的模型訓練采用芯片外完成, 并根據本發明的狀態結構訓練出語音模版,而語音識別和輸出部分采用芯片內實現。語音識別部分共有四個軟件模塊控制接口程序S1,語音識別器S6,語音解碼器S3和熵編碼器S4,各軟件模塊協同工作,可以有效實現語音控制功能。首先程序被加載進入 SPCE061A并正常運行后,控制接口程序Sl就打開語音輸入輸出設備等待用戶輸入命令,同 時監控語音輸入口, 一旦發現是正常語音,控制接口程序就會通知語音識別器S6處理輸入語 音。在識別引擎中語音是按幀處理的,每次處理一幀, 一般每幀10毫秒。將處理過的語音與 片外訓練生成的模型庫S7迸行匹配對比,最后確定識別結果。片外訓練生成的模型庫S7以 本發明采用的方式建立,包括噪聲模版和純語音模版兩部分。控制接口程序S1 —旦發現語音 輸入結束,就通知語音識別器S6,這時語音識別器S6就會將識別結果返回。識別結果包括 錯誤狀態信息S21和識別命令索引S22;如果識別到規定的命令,控制接口程序Sl會把命令 索引通過16位IO口輸出,同時通知語音解碼器S3播放一段相應錄音。語音解碼器S3根據 命令索引,在ROM中査找到相應位置,通過熵編碼器S4讀出語音編碼流,解出語音數據送 入D/A,產生語音效果。如果識別結果不正確,控制接口程序轉入錯誤處理。主要錯誤有-拒絕錯誤,該錯誤是由于讀入的命令是非內置命令所產生;命令太長錯誤,該錯誤是因用戶 讀的命令太長造成的;命令太短錯誤,該錯誤是因用戶讀的命令太短造成的。本發明提出的以增加噪聲模版的方式對語音識別中存在像咂嘴聲和尾音,隨機噪聲等這 類噪聲時具有很好的識別效果,是一種低成本且十分有效的提高系統抗噪性,提高識別率的方式。作為一種變通方式,還可以采用如圖3所示的狀態結構,這種結構不僅在語音狀態的開 始前和結束后加有噪聲模版,還可將它加在各狀態之間,用以濾除狀態之間的噪聲,當語音 識別算法進入時將有更多途徑可供選擇,例如Ql-〉 Q2-〉 Q3-〉 Q4-〉 Q5, Qm-〉 Q1-〉 Q2-〉 Q3-〉 Q4-〉 Q5, Qm-〉 Ql-〉 Qm-〉 Q2-〉 Q3-〉 Q4-〉 Q5等,不過發明者根據多年的實踐經驗發 現,采用圖2的結構其抗噪性更好,在語音識別系統中更具通用性。
權利要求
1.一種語音狀態結構模型,用以解決當存在諸如咂嘴聲和尾音,隨機噪聲等這類噪聲時識別率不高的問題,其特征是增加一個新的狀態,稱為噪聲模板,即在語音狀態的開始前和結束后各增加一個可選的噪聲態,從而形成一個多路選擇,當有噪聲時,可選帶噪聲模板的狀態圖,這樣增加了識別的概率,提高了語音識別系統的抗噪能力。
2. 根據權利要求1所述的語音狀態結構模型,其特征是,噪聲模版可采用兩種方式來建立-方式一將采集到的所有語音、噪聲數據全部當成噪聲源數據進行統一訓練,得到一訓練模版,將該模版當成噪聲模版用于識別匹配, 方式二將語音數據和噪聲數據通過同一個動態賦值網絡進行Viterbi算法跟蹤,分別 計算各節點的值,最后從網絡起點到網絡終點確定出一條最佳路徑,語音數據 和噪聲數據在網絡上各有一輸出值,如果語音數據從終點到起點能正確回溯表 示所經過的路徑為正確地識別結果,就可將噪聲數據的輸出值作為噪聲模版用 于識別匹配,否則需重新進行路徑選擇。
3. —種變通的語音狀態結構模型,可以解決狀態之間有噪聲的問題,其特征是,除了在語音 狀態的開始前和結束后各增加一個可選的噪聲態之外,還可以在各狀態之間也加上噪聲態。
4. 根據權利要求3所述的變通的語音狀態結構模型,其特征是,噪聲模版可采用兩種方式來 建立-方式一將采集到的所有語音、噪聲數據全部當成噪聲源數據進行統一訓練,得到一訓 練模版,將該模版當成噪聲模版用于識別匹配,方式二將語音數據和噪聲數據通過同一個動態賦值網絡進行Viterbi算法跟蹤,分別 計算各節點的值,最后從網絡起點到網絡終點確定出一條最佳路徑,語音數據 和噪聲數據在網絡上各有一輸出值,如果語音數據從終點到起點能正確回溯表 示所經過的路徑為正確地識別結果,就可將噪聲數據的輸出值作為噪聲模版用 于識別匹配,否則需重新進行路徑選擇。
5. —種模型庫系統,用于建立語音識別的模式匹配,其特征是,包含噪聲模版和純語音模版 兩個模塊, 一起作為識別的匹配參數。
6. 根據權利要求5所述的模型庫系統,其特征是,噪聲模版部分根據權利要求1和權利要求 3所述的語音狀態結構模型建立。
全文摘要
一種利用說話環境中語言和噪聲的位置關系,以增強語音識別系統抗噪性的方法。該方法增加了一個新的狀態,稱為噪聲模板,并采用一種新的狀態結構,該結構在語音狀態的開始前和結束后各增加一個可選的噪聲態,從而形成一個多路選擇,增加了語音識別的概率,這種方式的引入,根本上解決了誤把前導噪聲當稱第一個語音態的可能,在實踐中取得了很好的抗噪效果。根據該方法還簡單介紹了一種模型庫系統用于建立語音識別的模式匹配。
文檔編號G10L15/06GK101335005SQ20071004294
公開日2008年12月31日 申請日期2007年6月28日 優先權日2007年6月28日
發明者趙風光 申請人:上海聞通信息科技有限公司