專利名稱:與平穩頻譜功率相關的音頻增強系統的制作方法
技術領域:
本發明涉及一種音頻增強系統,這種音頻增強系統包括一個承載一個失真的所希望的信號的信號輸入端、一個參考信號輸入端和一個與這兩個信號輸入端相耦合的頻譜處理器,所述頻譜處理器用一個參考信號作為對所希望的信號的失真的估計從而處理所述失真的所希望的信號,本發明還涉及適合在這種音頻增強系統內使用的信號。
本發明還涉及配有這樣的音頻增強系統的系統,特別是通信系統,例如免提通信設備,諸如移動電話機、語音識別系統或語音控制的系統,以及涉及用參考信號作為對所希望的信號的失真的估計對失真的所希望的信號進行頻譜處理從而增強失真的所希望的信號的方法。
WO97/45995揭示了這樣的一種體現為抑制諸如使信號失真的噪聲之類的干擾分量的音頻增強系統。這種已知的系統包括連接到各個音頻信號輸入端上的若干麥克風。這些麥克風包括一個接收失真的所希望的信號的主麥克風和一個或多個接收干擾信號的參考麥克風。這種系統還包括一個體現為通過音頻信號輸入端與各麥克風連接的信號處理裝置的頻譜處理器。信號處理裝置在頻譜上從失真信號中減去干擾信號,從而在它的輸出端上給出一個干擾噪聲分量被減小了的輸出信號。
這種已知的音頻增強系統的缺點是,它的干擾信號消除能力取決于對于與語音處理裝置耦合的語音檢測器的應用。這種已知的音頻增強系統的效果關鍵性地取決于這個語音檢測器的對語音的正確檢測。
因此,本發明的目的是提供一種得到改善的音頻增強系統和方法,不需要有語音檢測器和語音檢測器的關鍵性操作,因而比較簡單。
此外,按照本發明設計的音頻增強系統的特征是,頻譜處理器配成使所述處理確定一個因子C′,從而所述估計為C′與參考信號的頻譜功率相乘的函數,并且因子C′被確定為信號z與x中的基本上隨時間平穩的那些分量之間的頻譜比。
同樣,按照本發明設計的方法的特征是,所述估計是一個因子C′與參考信號的頻譜功率相乘的函數,并且C′被確定為信號z和x中的基本上隨時間平穩的那些分量之間的頻譜比。
本發明的發明人發現這樣定義的因子C′對所希望的信號實質上是不敏感的。因子C′只考慮信號z與x中的平穩分量之比。可以用對因子C′的這個設想為實際輸入音頻增強系統的失真的所希望的信號的失真提供一個可靠的估計,而不需要用語音檢測器。這從而導致按照本發明設計得到的簡化音頻增強系統具有得到改善和穩當的失真消除特性。特別是在一個或多個參考信號包括諸如噪聲、回聲、競爭語音、所希望的語音的混響之類的失真的情況下,這種得到改善的失真消除仍然成立。此外,這種基于頻率的對失真的估計可以在任何可得到參考信號的情況下計算出來。
另一個優點是不必明確估計諸如固有噪聲或回聲拖尾的各個失真分量,雖然如果需要的話很容易可以實現一種處理這些分量的綜合技術。這在失真沒有很好的例如麥克風波束形成應用之類的估計技術予以估計的情況下特別有益。
按照本發明設計的音頻增強系統的一個實施例具有如在權利要求2中所述的特征。
通常,兩個一般都具有經平均的頻譜功率形式的頻譜功率是在若干個時間幀上測量的。確定兩個頻譜功率在一段時間間隔上的最小值,這并沒有顯著增加負擔,從而按照本發明設計的音頻增強系統的計算并不很復雜。
在按照本發明設計的音頻增強系統的另一個實施例中,這段時間間隔含有失真的所希望的信號內的至少一個停頓。這產生一個明確確定的失真的所希望的輸入信號的最小和平穩的頻譜分量值。這個最小的頻譜分量值準確地表示了輸入信號內的平穩失真。
優選的是,時間間隔延續至少4至5秒,使得在一般情況下可以在輸入音頻增強系統的失真的所希望的信號內包括一個語音停頓。
按照本發明設計的音頻增強系統的又一個實施例具有如在權利要求5中所述的特征。
通常,對所希望的信號的失真的估計可以有益地表示為某個正函數,例如由以上頻譜單位之一定義的信號功率或信號能量。
一個實際優選實施例具有權利要求6所述的特征。
在這種情況下,音頻增強系統包括高效率和容易實現的移位寄存器,用來存儲頻譜功率和/或經平滑的頻譜功率的值。
下面將結合附圖對按照本發明設計的音頻增強系統和方法及其其他優點作進一步說明,在這些附圖中類似的組件標以相同的標號。
在本說明的這些附圖中
圖1示出了按照本發明設計的音頻增強系統的原理圖;圖2示出了在另一個按照本發明設計的具有一個濾波與求和波束形成器的實施例中實現的原理圖;以及圖3示出了按照本發明設計的音頻增強系統的實施例的詳細情況。
圖1示出了體現為一個頻譜處理器SP的音頻增強系統1的原理圖,其中示出了頻域的輸入信號z和x以及輸出信號q。這些頻域信號在處理器SP用例如簡稱為STFT的短時DFT的離散傅里葉變換按塊進行頻譜計算得到。STFT是可以用自變量kB和lw0或有時只用自變量wk表示的時間和頻率的函數。在這里,k表示離散時間幀附標,B表示幀移,l表示(離散的)頻率附標,w0表示基本頻率間隔,而wk是指附標為k的頻譜分量。輸入信號z表示一個失真的所希望的信號。它包括通常呈現為語音的所希望的信號與諸如噪聲、回聲、競爭語音或所希望的信號混響之類的失真之和。信號x表示參考信號,要從中得出對失真的所希望的信號z內的失真的估計。信號z和x可以來自一個或多個麥克風2,如圖1和2所示。在多麥克風音頻增強系統1內,有兩個或更多個分開的麥克風2,以從一個或多個麥克風得出參考信號。
音頻增強系統1可以包括用來從中得出參考信號x的自適應濾波裝置(未示出)。在這種情況下參考信號來自通信系統的遠端。
在圖1所示的實施例中,信號x只包括參考或噪聲信號,而信號z包括所希望的信號和噪聲信號兩者。圖2示出了音頻增強系統在麥克風2通過麥克風陣列信號u1和u2感測語音和噪聲的情況下的實施例。現在,在麥克風2與頻譜處理器SP之間接有一個濾波與求和波束形成器3。同樣,頻譜處理器SP接收上述信號z和x,信號x只包括參考或噪聲,而信號z包括所希望的信號和噪聲信號兩者。這樣一個波束形成器3設計成通過用相應的傳遞函數f1(w)和f2(w)對麥克風陣列信號u1和u2進行線性組合從而得到失真的所希望的信號z。通過來自各個麥克風陣列信號的成塊矩陣B(w)得出參考信號x,用于將這些信號投影到一個與所希望的信號正交的子空間中。理想的情況是矩陣B(w)的輸出信號x不含所希望的語音而只含失真。然后,信號z和x饋給頻譜處理器SP,由頻譜處理器SP用參考信號x對失真的所希望的信號z進行頻譜處理。處理器SP輸出的信號q是一個幾乎沒有失真的輸出信號,q=G×z,其中G為增益函數,將在稍后說明。
音頻增強系統1可以包括在一個系統內,特別是一個例如免提通信設備的通信系統內,諸如移動電話機、語音識別系統或語音控制的系統之類的系統內。
頻譜處理器SP起著用于由以上所說明的離散傅里葉變換(DFT)產生的各頻率單位(frequency bin)的可控增益函數的作用。這個增益函數加到失真的所希望的語音信號z上,同時保持信號z的相位不變。為了使這種增益函數起到很好的音頻增強作用,特別重要的是估計輸入信號內存在的失真。然而,根據所涉及的最優化準則可以采用各種增益函數。例子包括以所涉及的信號的頻譜振幅或幅度、頻譜幅度平方、功率頻譜密度或經Mel度量平滑的頻譜密度為基礎的頻譜相減、維納濾波或者例如最小均方誤差(MMSE)估計或對數MMSE估計。這些技術可以與以上對具有一個或多個麥克風和/或揚聲器的音頻增強系統1所說明的應用結合。
在例如以下要說明的維納濾波器類型的情況下,頻譜處理器SP內所實現的增益函數具有以下形式G(kB,lw0)=1-γPzz,n(kB,lw0)/Pzz(kB,lw0) (1)其中,Pzz,n(kB,lw0)和Pzz(kB,lw0)是對輸入信號z內失真的功率分布和對輸入信號z本身的功率分布的估計。γ表示所謂的過減因子(over subtraction factor),用來調整對失真的抑制量。這樣就可以在失真抑制量與處理器輸出信號的聽覺質量之間進行折衷。
在式(1)中,Pzz,n(kB,lw0)通常是不知道的,因此必須加以估計。所提出估計的 為P^zz,n(kB,lw0)=C(kB,lw0)*Pxx(kB,lw0)---(2)]]>
其中,系數項為C(kB,lw0)=Pzz(kB,lw0)/Pxx(kB,lw0) (3)在這里,Pzz(kB,lw0)為失真的所希望的信號z的失真的經時間平均的頻譜功率(在沒有諸如語音之類的所希望的信號期間測量的),而Pxx(kB,lw0)是參考信號x的經時間平均的頻譜功率。作為一個正的對頻譜功率的度量,可以取所涉及的信號的例如頻譜振幅或幅度、頻譜幅度平方、功率頻譜密度或經Mel度量平滑的頻譜密度。在處理器SP內實現式(3)需要一個語音檢測器。如果這樣一個語音檢測器沒有準確實現,所希望的語音可能會受到影響,從而導致出現聽得到的人為假象,因此必須避免。然而,在諸如汽車或工廠內這種噪聲很多的條件下,可靠的語音檢測是一個難以執行的任務。
概括地說,由于提出了一個幾乎對所希望的語音不敏感的新的因子C′作為對因子C的估計(這實際上是通過將注意力集中于式(3)中的系數的平穩部分來實現的),因此創建了一種魯棒的算法,而不需要語音檢測器。在這個創意的實際實現中,因子C′定義為在一段時間間隔期間確定的失真的所希望的信號(z)的頻譜功率的最小值與參考信號(x)的頻譜功率的最小值之比,以表達式可以表示為C′(wk;l)=minm∈[l-L,...,l]Pzz(wk;m)/minm∈[l-L,...,l]Pxx(wk;m)(4)在從l-L到l時間幀之間的時間間隔覆蓋了L個時間幀,含有在失真的所希望的信號中存在的至少一個停頓。如果所希望的信號是語音信號,通常這個停頓是一個語音停頓。這樣確定的最小值將式(4)的比分別集中在信號z和x的平穩分量上,這極小值表示失真或噪聲的平穩分量。通常,時間間隔延續至少4至5秒。由式(4)給定的因子C′根據信號z和x的平穩分量確定。假設在這些信號中存在諸如語音的非平穩分量的情況下同樣成立,頻譜處理器SP所執行的操作是以這個假設為基礎的。
式(4)中的因子C′的分子和分母內的頻譜是通過分別在都具有平滑常數β的部件LPF1和LPF2內實現的一階遞歸中對功率頻譜進行平滑得到的。在這兩個部件內的遞歸實現包括如圖所示連接的乘法器X、加法器+和延遲線z-1,以得到輸入的x和z信號的經平滑的功率頻譜密度版本。例如,z信號頻譜于是服從以下平滑法則Pzz(wk;l)=βPzz(wk;l)+(1-β)Pzz(wk;l-1)其中,平滑常數β取一個在0到1之間的值。同樣的法則可以用于x信號頻譜。β的值可以用任何所希望的方式控制。它的值在典型情況下與50-200毫秒的時常數相應。每個時間幀附標、每個經平滑的量被存儲在一個在這里分別呈現為移位寄存器SR1和SR2的緩存器內。存儲在相應寄存器各個位置內的L個經平滑的值中的最小的值饋給除法器D,以按照式(4)得出所計算的C′的值。當然,要采取適當措施以避免分母值太小。
在所希望的語音信號的平均電平與失真的平均電平相比高得多的時候,可能出現LPF1和LPF2輸出的平均值受所希望的語音支配的問題。這是由于這些平均值在出現一個高的語音電平后需要很長時間才回到低的失真電平。在這種情況下,C′的估計可能仍然受所希望的語音的影響,從而導致對所希望的語音信號的有害抑制。可以在遞歸中例如按照下式施加一個多變量壓縮函數fc來減小這個影響Pzz(wk;l)=βPzz(wk;l-1)+(1-β)fc{Pzz(wk;l),Pzz(wk;l-1)}同樣的法則可以用于x信號。壓縮函數選擇成使得在新的輸入功率值比在濾波器LPF1和LPF2內的值更的時候減小遞歸的更新步幅。因此,壓縮函數減小了高的所希望的語音電平對經平均的信號功率的影響。一個合適的壓縮函數的例子為fc(A,B)=min{A-B,δB}其中,δ為一個正常數。δ的值越小,通過遞歸濾波器LPF1和LPF2的信號值上升越慢。圖3示出了包括壓縮部件fc的實施。如果不需要壓縮,可以就此省去壓縮部件fc。
雖然以上結合基本優選實施例和最佳可能模式作了說明,但可以理解,這決不是說將這些實施例看作是系統實現方式和有關方法的限制性實例,因為對在所附權利要求書所給出的專利保護范圍內的各個起重要作用的部分的各種修改和綜合對于技術熟練的人員來說都是顯而易見的。
權利要求
1.一種音頻增強系統,包括一個承載一個失真的所希望的信號z的信號輸入端、一個參考信號輸入端和一個與這兩個信號輸入端相耦合的頻譜處理器,所述頻譜處理器用一個參考信號x作為對所希望的信號的失真的估計,從而對失真的所希望的信號進行處理,所述音頻增強系統的特征是對于所述處理配置所述頻譜處理器,使得確定一個因子C′,從而所述估計為C′與參考信號的頻譜功率相乘的函數,并且因子C′被確定為信號z與x中的基本上隨時間平穩的那些分量之間的頻譜比。
2.按照權利要求1所述的音頻增強系統,其特征是所述因子C′定義為失真的所希望的信號的頻譜功率的最小值與參考信號的頻譜功率的最小值之比,這兩個最小值都是在一段時間間隔上確定的。
3.按照權利要求2所述的音頻增強系統,其特征是在所述時間間隔中包含失真的所希望的信號內的至少一個停頓。
4.按照權利要求3所述的音頻增強系統,其特征是所述時間間隔延續至少4至5秒。
5.按照權利要求1-4之一所述的音頻增強系統,其特征是所述相應頻譜功率定義為所涉及的頻譜功率的某個正函數,諸如頻譜幅度、頻譜幅度平方、功率頻譜密度或經Me1度量平滑的頻譜密度。
6.按照權利要求1-5之一所述的音頻增強系統,其特征是所述頻譜處理器包括用于存儲頻譜功率的值的移位寄存器。
7.按照權利要求1-6之一所述的音頻增強系統,其特征是所述頻譜功率是經平滑的頻譜功率。
8.一種配有一個音頻增強系統的系統,特別是例如免提通信設備的通信系統,諸如是移動電話機、語音識別系統或語音控制的系統,所述音頻增強系統包括一個承載一個失真的所希望的信號z的信號輸入端、一個參考信號輸入端和一個與這兩個信號輸入端相耦合的頻譜處理器,所述頻譜處理器用一個參考信號x作為對所希望的信號的失真的估計,從而對失真的所希望的信號進行處理,所述系統的特征是對于所述處理配置所述頻譜處理器,使得確定一個因子C′,從而所述估計為C′與參考信號的頻譜功率相乘的函數,并且因子C′被確定為信號z與x中的基本上隨時間平穩的那些分量之間的頻譜比。
9.一種增強一個失真的所希望的信號z的方法,用一個參考信號x作為對所希望的信號的失真的估計,從而對所希望的信號進行頻譜處理,所述方法的特征是所述估計是一個因子C′與參考信號的頻譜功率相乘的函數,并且因子C′被確定為信號z與x中的基本上隨時間平穩的那些分量之間的頻譜比。
10.適合在按照權利要求1-7之一所述的音頻增強系統內使用的信號。
全文摘要
本發明揭示了一種用于語音識別或語音控制的音頻增強系統(1),這種音頻增強系統(1)包括一個承載一個失真的所希望的信號(z)的信號輸入端、一個參考信號輸入端和一個與這兩個信號輸入端相耦合的頻譜處理器(SP),所述頻譜處理器(SP)用一個參考信號(x)作為對所希望的信號的失真的估計從而處理所述失真的所希望的信號(z)。對于所述處理配置頻譜處理器(SP),使得確定一個因子C′,從而所述估計為C′與參考信號(x)的頻譜功率相乘的函數,并且因子C′被確定為信號z與x中的基本上隨時間平穩的那些分量之間的頻譜比。這樣一個由這兩個信號的平穩部分確定的因子使得在音頻增強系統中不需要應用關鍵性的語音檢測器。
文檔編號G10L21/02GK1666495SQ03815493
公開日2005年9月7日 申請日期2003年6月19日 優先權日2002年7月1日
發明者D·A·C·M·魯維斯 申請人:皇家飛利浦電子股份有限公司