專利名稱:一種多通道語音增強方法
技術領域:
本發明涉及語音增強和噪聲消除的語音信號處理領域,特別涉及一種多通道語音增強方法。
背景技術:
信號子空間方法(Signal Subspace Approach, SSA)主要基于矩陣正交分解理論,利用特征值分解(Eigenvalue Decomposition, EVD 或奇異值分解(Singular ValueDecomposition, SVD),將帶噪語音信號的向量空間分解為彼此正交的兩部分信號子空間(信號+噪聲)和噪聲子空間(只有噪聲)。其中,EVD利用信號的自相關矩陣,實現由時域到特征域的變換,被視為依賴于信號的變換,其經常被稱作Kariumen-Loeve變換(KLT)。本質上,基于SSA的語音增強是將噪聲子空間置零,同時去除信號子空間中的噪聲成分。SSA首先被引入到單通道語音增強領域(參考文獻I IEphraim andH. L. VanTrees,“A signal subspace approach for speech enhancement,”IEEETrans. SpeechAudio Process.,vol. 3,no. 4,pp. 251-266,Jul. 1995),在 Karhunen-Loeve 域上設計了多種有約束的線性濾波器,很好的處理了白噪聲污染的語音信號。Hu等人(參考文獻2 :Y. Huand P. C. Loizou,“Ageneralized subspace approach for enhancing speech corruptedby colorednoise,,’ IEEE Trans. Speech Audio Process.,vol. 11,no. 4,pp. 334-341,Jul. 2003)利用廣義特征值分解(Generalized Eigenvalue Decomposition,GEVD)的方法,提高了 SSA處理有色噪聲的能力。程寧等人(參考文獻3 :N. Cheng,W. Liu and L. Wang,“Masking Property Based Microphone Array Post-filterDesign”, Interspeech,2010)將人耳的聽覺掩蔽效應應用到了 SSA中,精確了約束條件,使算法性能進一步得到提升。Doclo等人(參考文獻4 :S. Doclo and Μ· Moonen,“GSVD_basedoptimal filteringfor single and multimicrophone speech enhancement,,,IEEETrans. Signal Process.,vol. 50,no. 9,pp. 2230-2244, Sep. 2002)將SSA應用到多通道語音增強算法中,它以廣義奇異值分解(Generalized SingularValue Decomposition, GSVD)為工具,推導了在多通道環境下SSA的最優線性濾波器。Kim等人為提高語音識別系統的性能,先后提出了子頻帶獨立插值方法(參考文獻 5 G. Kim and N. I. Cho, Principal subspacemodification formulti-channel wiener filter in multi-microphone noisereduction, Proc.IEEE Int.Conference on Acoustics,Speech and SignalProcessing, 2008)和將多干擾源分離到不同的子空間中的子空間建模方法(參考文獻6 :G. Kim and P. C. Loizou,Improving SpeechIntelligibility inNoise Using Environment-Optimized Algorithms, IEEE Trans.Audio,Speech,And Language Process.,vol. 18,no. 8,pp.2080-2090,2010)。多通道SSA也存在著諸多缺陷,主要包括在實際環境中應用KLT時,信號子空間維度的難以精確估計;處理有色噪聲時的廣義特征向量矩陣并不是正交陣,因此在特征值域上設計的線性信號估計器會引入語音畸變;多通道條件下GEVD的計算復雜度極高,不利于SSA在實時系統中應用,而現有的快速算法并不能保證算法的性能。
從先驗知識的角度來審視SSA,其基于這樣一個假設一個長為P的隨機序列可以由長為Q < P的隨機序列的線性變換得到,稱之為低秩模型。由自回歸(AutoRegressive,AR)模型模型和線性預測系數(Linear PredictionCoefficients, LPC)等知識,我們知道這個假設對于語音信號是成立的。但將這個假設應用到語音增強算方法中,卻必須非常小心,對信號子空間(低秩模型)的維度必須精確估計。一方面,對信號子空間維度的過估計會導致信號子空間中噪聲成分增加,從而在增強后的語音中保留了過多殘余噪聲;另一方面,對信號子空間的欠估計又會導致語音成分的丟失,從而增大語音畸變,降低語音感知質量。因此,精確的信號子空間維度估計是SSA優異性能的保證,并直接影響到算法后續過程的有效性。但在實際應用,由于房間回聲和非平穩噪聲等因素的影響,信號子空間的維度往往難以精確估計,因此低秩模型的先驗知識難以準確運用。信號子空間維度估計的傳統方法的根本缺陷在于過分依賴噪聲估計,而忽略了信號子空間維度自身的變化規律。當基于SSA的語音增強算法工作在真實環境中時,由于噪聲的干擾,SVD或EVD都會產生大量接近于零的奇異值或特征值,而且其值變化具有連續性,這也信號子空間維度的確定增加了難度。
發明內容
(一 )要解決的技術問題針對傳統的信號子空間維度估計方法在真實環境中難以有效工作,其原因是過分依賴噪聲的估計,本發明充分利用語音離散傅里葉變換(Discrete Fourier Transform,DFT)數幅值的超高斯分布特性和麥克風之間的相關性,提出了一種新的信號子空間維度估計方法,目的在于精確估計信號子空間的維度。(二)技術方案本發明為解決上述問題而提出的一種F范數表征信號子空間維度的多通道語音增強方法,其包括下列步驟步驟I :通過N個麥克風組成的麥克風陣列采集帶噪聲的多路語音信號y(t),并計算該多路語音信號y (t)的帶噪語音互相關矩陣Ryy,其中,t表示離散時間點;步驟2 :利用噪聲估計算法估計加性噪聲互相關矩陣R ;步驟3 :利用所述帶噪語音互相關矩陣Ryy和加性噪聲互相關矩陣^vr估計純凈語音互相關矩陣I步驟4 :利用所述純凈語音互相關矩陣估計信號子空間的維度(_);步驟5 :對食=倉 進行廣義特征值分解,并結合信號子空間的維度0和拉格朗日乘子μ獲得時域約束線性信號估計器;步驟6 :利用時域約束線性信號估計器對多路語音信號y(t)進行濾波獲得增強后的語音ο(三)有益效果本發明充分利用了語音DFT系數幅值的超高斯分布特性和麥克風之間的相關性。首先利用超高斯分布模型來更好地擬合各個頻點上語音幅值譜的統計柱狀圖。其次,利用麥克風之間的相關性和正交變換不改變矩陣F范數的特點,獲得了語音互相關矩陣F范數的高斯分布模型。然后,利用一種基于最大化原則的估計策略,在接受原假設的前提下最大化信號子空間的維度。通過以上步驟,本發明能夠克服真實環境中噪聲能量波動的不利影響,更精確地估計信號子空間的維度,使SSA可以在語音畸變和噪聲消除之間建立更合理的折中。
圖I是本發明中F范數表征信號子空間維度的多通道語音增強方法流程圖;圖2是本發明中基于F范數的估計信號子空間維度的方法流程圖;圖3是本發明中TDC線性信號估計器的設計流程圖。
具體實施例方式為使本發明的目的、技術方案和優點更加清楚明白,以下結合具體實施例,并參照附圖,對本發明作進一步的詳細說明。本發明提供一種基于F范數的信號子空間維度估計方法,該方法的具體步驟如下步驟SI :通過N個麥克風組成的麥克風陣列采集多路帶噪語音信號y(t),具體包括步驟Sll :采集信號所用的麥克風陣列,其由N個等間距的麥克風組成。假設第η個麥克風在時刻t采集到的帶噪語音信號yn(t)為Xn(t)與Vn(k)之和,即yn (t) = gn*s(t)+vn(t) =xn(t)+vn(t) (I)其中,gn是聲源s(t)到第η個麥克風的沖擊響應,xn(t)是第η個麥克風采集到的純凈語音,vn(t)是第η個麥克風采集到的加性噪聲,t表示離散時間點。步驟S12 :利用長為L的漢寧窗對信號進行截短。信號模型可表示為向量形式yn = χη+νη, η = 1,2, ...,N (2)其中,yn= [yn(t)yn(t_l). . . yn(t_L+l)]T,其包含了帶噪語音信號 yn(t)最近的 L個采樣,vn和xn類比定義。那么,所有麥克風采集到的帶噪語音信號的全局向量形式為y = x+v (3)其中,
權利要求
1.一種F范數表征信號子空間維度的多通道語音增強方法,其特征在于,包括下列步驟 步驟I :通過N個麥克風組成的麥克風陣列采集帶噪聲的多路語音信號y (t),并計算該多路語音信號y (t)的帶噪語音互相關矩陣Ryy,其中,t表示離散時間點; 步驟2 :利用噪聲估計算法估計加性噪聲互相關矩陣食w ; 步驟3 :利用所述帶噪語音互相關矩陣Ryy和加性噪聲互相關矩陣R估計純凈語音互相關矩陣食 ; 步驟4 :利用所述純凈語音互相關矩陣食 估計信號子空間的維度^ ; 步驟5 :對食;;食口進行廣義特征值分解,并結合信號子空間的維度0和拉格朗日乘子u獲得時域約束線性信號估計器; 步驟6 :利用時域約束線性信號估計器對多路語音信號y(t)進行濾波獲得增強后的語音負O O
2.如權利要求I所述的方法,其特征在于,所述麥克風陣列由N個等間距的麥克風組成,利用長為L的漢寧窗對語音信號進行截短,所述帶噪語音互相關矩陣Ryy的階數為NLXNL。
3.如權利要求I所述的方法,其特征在于,所述步驟2中加性噪聲互相關矩陣的估計R通過下式得到 其中,Yth為SNR的下限閾值,Yk為第k幀的SNR;所述:是前一幀加性噪聲互相關矩陣的估計,Ryy是當前幀帶噪語音互相關矩陣,k是幀號。
4.如權利要求I所述的方法,其特征在于步驟4中所述估計信號子空間的維度0具體包括 步驟41 :計算純凈語音離散傅里葉變換系數幅值的超高斯分布模型 其中,0和n是可調參數,ax是純凈語音離散傅里葉變換系數的幅值,0;£是純凈語音的標準差,r是Ga_a函數,exp { }是指數算子; 步驟42 :利用所述純凈語音離散傅里葉變換系數幅值的超高斯分布模型獲得純凈語音互相關矩陣的F范數其中,E { }是求和算子,ax( )是純凈語音在頻點《處的離散傅里葉變換系數的幅值,
5.如權利要求4所述的方法,其特征在于,所述步驟41還包括 利用純凈語音數據訓練得到純凈語音離散傅里葉變換系數幅值的統計柱狀圖P。;通過將所述純凈語音離散傅里葉變換系數幅值的超高斯分布模型和純凈語音離散傅里葉變換系數幅值的統計柱狀圖P。之間的KLD距離最小化,得到最佳參數組合(θ,η),其中,KLD距離如下計算
6.如權利要求4所述的方法,其特征在于,所述當前幀語音互相關矩陣的拒絕水平δ如下計算
7.如權利要求I所述的方法,其特征在于,所述步驟5具體包括以下內容步驟51、對進行廣義特征值分解(GEVD),得到特征向量矩陣W和特征值矩陣A 步驟52、利用信噪比SNR Y計算拉格朗日乘子U
8.如權利要求3-7中任一項所述的方法,其特征在于,所述當前幀的后驗信噪比SNRY如下計算
9.如權利要求I所述的方法,其特征在于,所述步驟6具體為利用所述TDC線性信號估計器H對所述多路語音信號y (t)進行濾波,并對得到的濾波后的語音信號i(/)進行幀間重疊獲得增強后語音,其中濾波如下公式所示
10.如權利要求I所述的方法,其特征在于,所述步驟3中純凈語音互相關矩陣R如下估計 R = RA。
全文摘要
本發明公開了一種F范數表征信號子空間維度的多通道語音增強方法,該方法包括步驟1通過N個麥克風組成的麥克風陣列采集帶噪聲的多路語音信號y(t),并計算該多路語音信號y(t)的帶噪語音互相關矩陣Ryy,其中,t表示離散時間點;步驟2利用噪聲估計算法估計加性噪聲互相關矩陣步驟3利用所述帶噪語音互相關矩陣Ryy和加性噪聲互相關矩陣估計純凈語音互相關矩陣步驟4利用所述純凈語音互相關矩陣估計信號子空間的維度步驟5對進行廣義特征值分解,并結合信號子空間的維度和拉格朗日乘子μ獲得時域約束線性信號估計器;步驟6利用時域約束線性信號估計器對多路語音信號y(t)進行濾波獲得增強后的語音
文檔編號G10L21/02GK102969000SQ20121051486
公開日2013年3月13日 申請日期2012年12月4日 優先權日2012年12月4日
發明者劉文舉, 李超 申請人:中國科學院自動化研究所