一種增強聲環境中目標語音信號拾取的信號處理方法
【專利摘要】本發明涉及一種增強聲環境中目標語音信號拾取的信號處理方法。(1)通過實驗獲取ESN網絡的參數,建立相應的音源模型;(2)將模型用于兩種場合:當模型的輸出為期望的某目標語音信號,輸入為該目標語音源的聲環境反射聲信號和目標語音信號的混合時,模型可用于現場擴聲的回聲消除;當模型的輸出為期望的某目標語音信號,輸入為其它特定語音源的聲環境反射聲信號和目標語音信號的混合時,模型可用于兩個特定人間語音通信的回聲消除;(3)模型在實際聲環境中給目標語音人使用時,拾音的位置發生變化,也能抑制訓練所指的音源信號的反射信號,而輸出相應增強的目標語音信號。本發明克服因拾音位置移動,而造成語音信號質量受到的影響。
【專利說明】一種增強聲環境中目標語音信號拾取的信號處理方法
【技術領域】
[0001] 本發明屬于室內語音信號拾取的處理技術,涉及通過實驗對回聲狀態神經網絡的 參數選擇和訓練建模的數字信號處理方法,特別是一種增強聲環境中目標語音信號拾取的 信號處理方法。
【背景技術】
[0002] 在現場擴聲中,消除回聲影響的涉及對象是:特定目標語音和該特定目標語音的 環境反射聲,主要用于提高聲增益。主要的相關技術有:(1)傳統技術如窄帶均衡是濾除峰 值的處理,消除反饋自振;移頻法是采用對信號進行頻譜移動再擴聲,用以破壞反饋自振條 件等,它們存在的一個共同問題都是處理技術復雜,并且不利于語音信號的保真;(2)基于 現代的數字信號處理的方法則采用自適應濾波處理的回聲抵消技術。
[0003] 在語音通信中,消除回聲影響的涉及對象是:特定目標語音和另一個特定語音的 環境反射聲,主要達到語音增強的目的。回聲消除的相關產品主要在兩個方面:基于DSP平 臺的回聲消除器和基于Windows平臺的語音通信的回聲消除算法軟件。它們均是基于自適 應回聲抵消技術的產品,回聲抵消必須精確地模擬回聲路徑,并且迅速地適應它的變化。這 包括自適應濾波器的結構和自適應算法的選擇,以及減少噪聲對算法收斂速度的影響等。 自適應回聲抵消處理主要有以下兩方面問題: 首先,設計主要針對以下的使用問題:(1)處理同時通話。只有遠端信號沒有近端信號 時,獲得對回聲模擬的濾波器系數,當加入近端信號時等于引進另外大的隨機分量到自適 應過程,濾波器系數會圍繞這個中值的變化而顯著增大,導致性能下降。對此必須檢測近端 信號存在的關鍵元件,在同時講話時使自適應功能停止,保持前面的濾波器系數不變。(2) 基于自適應濾波的算法常用的LMS算法存儲量小、實現及檢測比較容易,但收斂性差;而收 斂性好的RLS算法計算量大,因此出現了許多它們的改進算法,以及應用于解決實際回聲 問題的自適應濾波抵消算法處理。(3)當回聲消除算法應用到Windows平臺,必須解決采集 和播放音頻流的同步問題。相對于傳統的DSP平臺,現在的PC機,擁有豐富的CPU資源和 海量的內存資源,再復雜的回聲消除算法都可以運行自如。但是,應用程序很難在底層直接 控制聲卡的采集播放,獲得的是非實時的音頻流,從而帶來了采集和播放音頻流的同步問 題。本地接收到遠端的語音后,要把這些語音數據傳給回聲消除算法做參考,這是算法需要 的一個輸入信號;然后再傳給聲卡,聲卡放出來后經過回音路徑,本地再采集后傳給回聲消 除算法,是算法需要的另一個輸入信號。如果傳給回聲消除算法的兩個信號同步得不好,即 兩個信號發生幀錯位,就很難進行消除了。
[0004] 其次,揚聲器與麥克風之間聲耦合形成的聲回波自適應濾波消除技術存在 以下的技術問題:(1)由于延遲時間較長(達到ls),需要幾千個系數的高階濾波器來 擬合,需要更多的計算資源。(2)如此長的高階濾波器的穩定性及提高其自適應速度 都是比較困難的事情。首先,聲回波路徑由于聲學特性的變化表現得不平穩;其次, 聲回波是通過多經傳播來的;再次,房間聲空間的傳播散射特性是非線性,用一般的 1^1(或Μ)線性濾波器不能較好地對其建模。(3)對于立體聲Mi¥0系統的聲回波抵消 問題,目前仍然是一個重要的、富有挑戰性的研究課題,隨著消回聲消除技術的發展,當前 回聲消除研究的重點,已由電路回聲的消除,轉向了聲學回聲的消除。
[0005] 作為語音信號的產生可以米用.A通£4或Ji?模型描述,室內揚聲器到麥克風的聲 信道(反射聲信號的產生)也可以用或模型近似描述,^模型具有以較少極點 較準確模擬聲信道的功能。對于室內聲信道相當于大量駐波疊加的結果,有較多峰值,需要 較多極點數的I模型模擬出來,而對于人聲系統發出的語音信號則通常只要很少極點數 的--模型就可以模擬出來。因此,如果能建立一個模型,其輸出為目標語音,而輸入 為目標語音和環境反射聲信號的,則抑制的是反射聲信號,而相應強化的是目標語音信號。
[0006] 動態神經網絡,又稱遞歸神經網絡,由動態神經元組成,是針對動態系統辨識研究 中發展出來的一種神經網絡。動態神經網絡的訓練過程是不斷調整網絡參數(如權值等) 使網絡輸出逼近理想輸出的過程,是建立iMfi模型的有力工具。作為一種新型遞歸神經 網絡,回聲狀態神經網絡網絡)在非線性系統辨識方面較傳統的遞歸神經網絡有較大 改進。首先,在穩定性方面,可以通過預先設定儲備池權值矩陣的譜半徑來保證遞歸網絡 的穩定性;其次,在網絡訓練方面,輸出權值的確定是唯一而且是全局最優的,因此沒有傳 統神經網絡普遍存在的局部最小問題,并且不存在傳統動態神經網絡靠誤差調整而收斂速 度慢的問題;除此之外網絡避免了傳統遞歸神經網絡求取時序偏微分的過程,因此 網絡的訓練過程變得特別簡單。
[0007] 正因為網絡在非線性系統辨識方面顯示出的良好性能,因此,本發明針對上 述需求,也利用ny網絡建立一種抑制室內聲環境反射聲信號而增強輸出目標語音信號 的模型。借此,在回聲消除處理中,上述自適應濾波器所遇到的問題將得到解決。
【發明內容】
[0008] 本發明的目的在于提供一種解決上述自適應濾波器抵消聲環境反射信號的方法 所存在的不足的增強聲環境中目標語音信號拾取的信號處理方法。
[0009] 為實現上述目的,本發明的技術方案是:一種增強聲環境中目標語音信號拾取的 信號處理方法,包括以下步驟: 步驟1 :確定建立的模型類型:包括第一音源模型和第二音源模型,所述第一音源模型 為抑制目標語音本身在聲環境中產生的的反射聲信號而相應增強目標語音信號;所述第 二音源模型為抑制另一特定人語音在聲環境中產生的反射聲信號而相應增強目標語音信 號; 步驟2 :模型的訓練數據源分為兩種獲取準備:當準備建立第一音源模型時,需獲取 目標語音信號的數據采樣點;當準備建立第二音源模型時,需獲取特定人語音信號 和目標語音信號5^〇)的數據采樣點; 步驟3 :獲取訓練模型用的環境反射聲信號:首先,從電聲系統對室內聲環境輸入激勵 信號,獲取室內聲環境的脈沖響應信號,并轉換成數字信號jK/?;其次,設定階數/?,利用 基于自相關的線性預測算法獲取全極點濾波器系數,該全極點濾波器用于模擬聲環境中的 聲信道傳輸特性;再而,以準備抑制的反射聲所對應的音源信號(;?)或:? 4經過全極點 濾波器獲得相應的環境反射聲信號公/λ); 步驟4必W網絡參數的確定: 網絡的方程為:
【權利要求】
1. 一種增強聲環境中目標語音信號拾取的信號處理方法,其特征在于:包括以下步 驟: 步驟1 :確定建立的模型類型:包括第一音源模型和第二音源模型,所述第一音源模型 為抑制目標語音本身在聲環境中產生的的反射聲信號而相應增強目標語音信號;所述第 二音源模型為抑制另一特定人語音在聲環境中產生的反射聲信號而相應增強目標語音信 號; 步驟2 :模型的訓練數據源分為兩種獲取準備:當準備建立第一音源模型時,需獲取 目標語音信號的數據采樣點;當準備建立第二音源模型時,需獲取特定人語音信號 ?〇!;)和目標語音信號的數據采樣點; 步驟3 :獲取訓練模型用的環境反射聲信號:首先,從電聲系統對室內聲環境輸入激勵 信號,獲取室內聲環境的脈沖響應信號,并轉換成數字信號其次,設定階數利用 基于自相關的線性預測算法獲取全極點濾波器系數,該全極點濾波器用于模擬聲環境中的 聲信道傳輸特性;再而,以準備抑制的反射聲所對應的音源信號(;?)或5^?:)經過全極點 濾波器獲得相應的環境反射聲信號; 步驟4必W網絡參數的確定: 網絡的方程為:
其中,/表示內部神經元激活函數,通常取雙曲正切函數,表示輸出函數,典型 情況下取恒等函數,if?為I'時刻儲備池的狀態變量,?/?為f時刻系統輸入向量,Γ?是 網絡/時刻的輸出;If為隨機產生并且稀疏連接的高維方陣,儲備池一經產生,其連接 權值保持不變和#分別為網絡的輸入權值矩陣和輸出權值向量;lf l22A為輸出對 狀態變量連接權值向量;表示輸出的偏置項或代表噪聲;和隨機產生而且保 持不變,唯一需要調整的是輸出權值%^; 為使麥克風取一定長度的信號巾貞輸入模型后,能夠處理輸出相應長度的目標語音中貞, 上述三個隨機連接權值向量的取值如下:
間; 其中,If值越小,建立狀態的時間相對越短,提高模型運算的實時性,而y值越大模型 精確性越高,但可能使泛化能力下降;i取值為:①決定輸入儲備池的尺度,a>1 ;?0<^<1;?0<€<1; 步驟5 :以?/_ = ;(?) +^(Λ)作為|;驟網絡輸入,D =作為目標期望,對篇f網 絡進行訓練,得到抑制特定音源反射聲而相應增強目標語音信號的模型;f'時刻,儲備池的 狀態變量JT的狀態方程:
對于給定非線性系統輸入輸出對= 利用網絡辨識該 系統的過程為:首先,初始化儲備池中的權值If和%;其次,輸入--激勵系統,求得 網絡的各個時刻狀態響應;儲備池中的狀態變量與期望輸出之間是線性關系,因此網 絡的訓練過程比較簡單,而且解的過程不會出現傳統神經網絡常有的多個局部最小、收斂 速度慢的缺點; 輸出權值i_f的確定采用基本的線性回歸算法:
2. 根據權利要求1所述的一種增強聲環境中目標語音拾取的信號處理方法,其特征在 于:所述訓練所得的模型還能夠用于實際聲環境中聲信道變化時的目標語音信號增強,即 從麥克風獲取的信號?/ζτι;)中包含:目標語音信號、特定的環境聲反射信號輸 入模型中,獲得增強的目標語音信號輸出,其采用liin#實現的代碼段如下:
3. 根據權利要求1所述的一種增強聲環境中目標語音拾取的信號處理方法,其特征在 于:所述步驟2中,獲取目標語音信號公的數據采樣點,其數據幀長度大于625ms。
4. 根據權利要求1所述的一種增強聲環境中目標語音拾取的信號處理方法,其特征在 于:所述步驟3中,所述的輸入激勵信號為白噪聲脈沖、周期脈沖或贗噪聲。
5. 根據權利要求1所述的一種增強聲環境中目標語音拾取的信號處理方法,其特征在 于:所述步驟3中,所述聲環境的脈沖響應信號由能夠在室內使用范圍的任意一種揚聲器 和麥克風相應位置獲取。
6. 根據權利要求1所述的一種增強聲環境中目標語音拾取的信號處理方法,其特征在 于:所述步驟3中,所述階數的確定過程如下: 室內極點數,即線性預測的階數對應的是室內聲駐波數,其按下式估算:
式中/為估算頻率為相應波長,為估算的帶寬為聲速,Λ = #7義p為室內 容積,為室內總表面積; 則所述階數p = MAT。
7. 根據權利要求1所述的一種增強聲環境中目標語音拾取的信號處理方法,其特征在 于:所述步驟3中,所述環境反射聲信號公2〇:),其是指:當為第一音源模型時,及 2〇^為由 目標語音信號,即由m_;) = &〇〇通過全極點濾波器形成;當為第二音源模型時,5·2〇ι:)為 由特定人語音信號(?;)通過全極點濾波器形成。
8. 根據權利要求1所述的一種增強聲環境中目標語音拾取的信號處理方法,其特征在 于:所述的網絡參數沒、?€、ΛΓ、Ρ由實驗選定,具體確定過程即:(1)取沒、況 、jP滿足Λ Μ,Ο <1,0 <c <1H3W,F= 0別仍中的任意一組值,輸入訓練數據 建模,再對模型輸入實例數據,觀察處理輸出時系統是否穩定,即是否存在振蕩,存在振蕩 時調小參數I?,直至模型穩定輸出;(2)增大或減小y值,重復上一步的訓練和仿真輸出, 達到最佳效果時以、厶、的取值,即為確定參數值。
9. 根據權利要求2所述的一種增強聲環境中目標語音拾取的信號處理方法,其特征在 于:所述訓練所得的模型能夠用于實際聲環境中聲信道變化時的目標語音信號增強,其是 指一旦模型建立后,拾音的位置發生變化時,還能夠抑制訓練所指的音源信號在時變聲環 境中的反射信號,輸出相應增強的目標語音信號。
【文檔編號】G10L21/02GK104157293SQ201410427254
【公開日】2014年11月19日 申請日期:2014年8月28日 優先權日:2014年8月28日
【發明者】陳國欽 申請人:福建師范大學福清分校