專利名稱:從兩個或多個麥克風中為語音處理系統,例如工作在嘈雜環境中的免提電話設備,選擇一 ...的制作方法
從兩個或多個麥克風中為語音處理系統,例如工作在嘈雜環境中的免提電話設備,選擇一個麥克風的方法
技術領域:
本發明涉及處理嘈雜環境中的語音。
本發明特別地,但以非限制的方式,涉及處理由用于機動車輛的免提型設備拾取的語音信號。
這種裝置具有靈敏的麥克風,該麥克風不僅拾取用戶的聲音,還拾取周圍的噪聲, 這種噪聲構成在特定狀況下能夠產生使用戶的語音不可理解的聲音干擾的干擾元素。如果期望實現語音識別技術,會發生同樣的狀況,因為對淹沒在高水平噪聲中的詞語進行形狀識別是很困難的。
與外界噪聲有關的這種困難對用于機動車輛的免提設備是特別有制約性的。特別地,麥克風與揚聲器之間的遠距離引起相對高水平的噪聲,使分離淹沒在噪聲中的有用信號很困難。更進一步地,汽車是典型的非常嘈雜的環境,其呈現不穩定的頻譜特性,即,作為駕駛狀況(在崎嶇的路面或鵝卵石上駕駛、開著的汽車收音機等)的函數以不可預測的方式變化。
一些這樣的設備提供利用多個麥克風,一般是兩個麥克風,對它們拾取的信號取平均,或者完成其它更復雜的操作,以得到低干擾水平的信號。特別地,稱作“波束成型”的技術實現麥克風陣列,以使用相對簡單的軟件工具產生能使信號噪聲比提高的方向性。然而,那種技術假設揚聲器相對于麥克風的位置或多或少是固定的,對于與駕駛員(但不是與乘客)在小汽車里的電話談話這通常是正確的。
一般地,在所有稱作“波束成型”的技術中,為了得到或多或少令人滿意的有效性, 有必要具有大量的麥克風(至少五個),在大多數工業應用中它們是不可獲得的。
那就是為什么使用僅涉及一個麥克風的技術更常見。
在這種情況下,使用能夠提供更好信號/噪聲比的單向麥克風是有利的,但是在不變化的單個方向才是這樣的,因此僅對于一個揚聲器位置是可行的。
例如,在WO 2008/049982 Al (Parrot SA)中描述了一個這樣的用于機動車輛的 “免提”設備,其描述了各種應用到由單個麥克風拾取的信號的回聲消除及抑制技術、噪音降低技術等,該單個麥克風從附近的揚聲器拾取與噪聲一起的聲音信號。
本發明涉及這樣的僅利用一個麥克風的語音處理系統(因此不同于“波束成型” 等類型的系統),但是其中的(一個)麥克風是從兩個不同的麥克風或者麥克風陣列中的多個麥克風中自動選擇的。
本發明的目的是提出一種方法,使得有可能確定兩個或多個麥克風中哪個麥克風以最低的噪聲拾取語音信號,從而隨后對以這種方式確定的、下面稱作“基準麥克風”的麥克風拾取的信號進行各種類型的處理(降噪,回聲消除等)。
已知各種用來從多個麥克風中選擇一個麥克風的技術,例如,在例如EP1564980A1 所描述的電話會議設備中,具有多個針對各個參與者、安裝在設備周圍的麥克風。該文件描述了適于區分語音和噪聲的動態選擇裝置,并且該動態選擇裝置適于在任何給定的時刻僅激活面向活躍的講話者的那一個麥克風。
對于上面提到的用于機動車輛的“免提”型設備,最經常(盡管不限于)的情況是系統中具有兩個麥克風。那么可能設想幾種配置。
第一種配置在于提供兩個彼此緊鄰的定向麥克風,例如在位于車艙中部的小汽車收音機的正面的兩端,一個麥克風具有指向駕駛員的方向圖主瓣,而另一個麥克風指向乘客。
另一個配置在于提供兩個空間分離的麥克風,例如置于高處,位于車輛頂部的最角上,或在儀表盤的兩端。
在兩種配置中,將被選擇的更有效的麥克風通常是指向活躍的講話者(駕駛員或者乘客)的麥克風。但是有時候考慮到特殊情況是有必要的,因此如果一輛摩托車正從車輛的左邊超車,即使講話者是左邊的駕駛員,選擇右邊的麥克風也是有利的。
本發明的目的是提出一種在具有兩個麥克風的系統中自動選擇麥克風的魯棒系統(通過將同樣的算法應用于每對可能的麥克風,本發明自然地適用于從多于兩個的麥克風中切換至一個麥克風)。
根本思想是不考慮麥克風的配置(緊鄰或空間分離),通過假設兩個麥克風中的一個麥克風拾取的信號優于另一個,即,兩個麥克風中的那一個對于拾取想要的具有更少干擾或損失的信號比另一個麥克風放置得更好,來區別被每個麥克風拾取的信號是可能的。
本發明基于的一個原理在于,為了這個目的,為對應于兩個麥克風的兩個信道中的每一個導出一個語音存在置信指數,以及應用決策規則選擇兩個麥克風中的一個或另一個,此外,該決策規則是所述語音存在置信指數的函數。
這個原理使大大增加基準麥克風隨時間被選擇的魯棒性,作為被不斷地計算出來的結果的函數成為可能,并且選擇適應于各種偏差變化的方式和聲音環境中的變化。
上述目的被上述EP 1564980 Al公開的常規類型的方法實現了,即為工作在嘈雜環境中的多麥克風語音處理系統從兩個或多個麥克風中選擇一個麥克風的方法,每個麥克風關聯于各自的信道并適于從混合了漫射噪聲分量的主要的聲音信號源拾取具有有用語音分量的嘈雜的聲音信號。該方法包括步驟
·數字化兩個麥克風同時拾取的聲音信號;
·以在一系列頻帶內產生一連續幀的方式,對在兩個信道上拾取到的聲音信號進行變換;
·應用為每個信道計算語音存在性指數的算法;
·通過對每個信道的連續幀應用決策規則從兩個麥克風中選擇一個,該規則既是信道選擇標準的函數還是所述語音存在性指數的函數;
·在該選擇的一個麥克風拾取的聲音信號的基礎上完成語音處理;
本發明具有特征方式是
·在兩個信道上拾取的信號的變換是短時距傅立葉變換;
·語音存在指數是為每個幀的每個頻帶計算的置信指數;以及
選擇標準僅在那些存在性指數大于第一給定閾值的頻帶的頻帶中被計算;
根據各種從屬實施的特征在于
·該方法進一步包括從連續幀中消除位于第二給定閾值下的頻帶的步驟;
·語音存在置信指數是語音存在的概率;
·為每個頻帶計算語音存在置信指數,當該指數大于第三給定閾值時,所述選擇在若干大于第四給定閾值的頻帶中執行;
·多麥克風語音處理系統是具有緊鄰定向麥克風的系統,并且該信道選擇標準是基于比較在兩個信道上同時拾取到的信號的各自相位的角度標準;
·用于選擇的麥克風是比另一個麥克風更早拾取信號的麥克風;
·多麥克風語音處理系統是一個具有空間分離的定向或非定向麥克風的系統,并且信道選擇標準是基于比較在兩個信道同時拾取的信號的各自信號噪聲比值的能量標準, 用于選擇的麥克風的信號噪聲比大于另一個麥克風的。
·僅當在若干比第五給定閾值大的連續幀上滿足決策規則時,有條件地執行選擇兩個麥克風中的一個。
·如果決定選擇麥克風中的一個,則通過對將要選擇的麥克風的信道增加增益并且對將不被選擇的麥克風的信道降低增益,經過一段給定轉換時間漸進地執行選擇。
接下來是基準附圖的本發明設備的實施例的說明,其中相同的編號用于指示功能類似的元件。
圖1是具有兩個緊鄰的麥克風的配置的圖示。
圖2是具有兩個空間分離的麥克風的配置的圖示。
本發明基于的原理在下面結合其在上述兩種配置中的應用描述(麥克風緊鄰和麥克風空間分離)。
基本的假設是被兩個麥克風拾取的信號中的一個先驗地優于另一個,S卩,與有用語音信號相比,它比另一個包含更少的干擾或損失。
本發明的目的是確定在被拾取的兩個信號中哪個信號在被單獨選擇之后進行語音處理(去噪,回聲消除等)更好,該信號在下面被稱作“基準信號”或“基準麥克風的信號”,的。
兩個麥克風都拾取從一個主信號源s發射的信號,且麥克風之間的位置的差別造成相對于s發射的信號的各種相移和幅度變化。更精確地,作為時間t的函數,應用下式
xn(t) = anXs(t-x n) +vn(t)
其中%是在聲音源s處與序號為η的麥克風之間的聲音路徑上的能量損失造成的幅度衰減,τ η是發射的信號與麥克風η接收到的信號的相移,附加項Vn代表麥克風η所在處的漫射噪聲場的值。
用大寫字母寫出上面信號的短時距傅里葉變換,該方程變為
Xn(k,1) = dn(k) XS(k,1)+Vn(k, 1)
其中k和1分別代表頻帶和考慮中的幀,
dn{k) =
其中fk是序號為k的頻帶的中心頻率。
應該注意系數dn(k)唯一地取決于系統的幾何數據,而不取決于發射信號s的性質。實際上,這些系數是考慮中的幾何配置的特性。
下面特別考慮兩種情景
· 一種麥克風緊鄰的配置,其中認為兩個麥克風之間的距離相對于源與麥克風之間的距離很小(這種情況的更精確的數學定義如下給出);以及
· —種麥克風空間分離的配置,其中認為源與兩個麥克風之一之間的距離比源與另一個麥克風之間的距離相對較大。
緊鄰麥克風配置
這種配置,圖示于圖1中,可被發現,例如當兩個麥克風都位于汽車收音機的正面,它本身被放于車輛儀表盤的中央位置。麥克風間的距離典型地是5厘米(cm)的數量級, 最多IOcm0
在這種配置中,使用具有不同方向的定向麥克風是最有利的。如果兩個麥克風被稱作為N和M,則麥克風M應該理想地具有主瓣覆蓋半平面Rn的指向性圖案,而麥克風N應該具有占據其它半平面Pn的指向性圖案。
在這里考慮的配置中,使用緊鄰的麥克風,作出聲音源發射平面波(它滿足源離麥克風幾厘米遠的需要)的近似是可能的,只有討論中的波的傳播方向是要被估計的(三維的或投影于一個特定的平面)。那么只有兩個麥克風間的相位差信息是有用的,使用下面的公式1 —
Tn-Tm= ——arg(E(Xm(k,l)X (k,l)))2對k
其中E是通過計算考慮中的多個幀上的乘積的均值可被估計的數學期望值。
麥克風“緊鄰”的假設可被更精確地表達為兩個麥克風間距離ln,m的情況,為了避免相位延遲與相位超前間的混亂,^P Xffl (t)間的相移△ Φ位于[-π ;π]區間是必要的,即
N=然而,如果距離D更大,使用同樣的算法仍然是可能的,但是這是當忽略分析的頻率中的更高頻率的時候。最大頻率于是表達如下rC
/max < ~n,m
它滿足確定兩個半平面Pn和Rii中的哪個包含源的需要。問題則簡化為研究表達式虹§(五(文 (之/)1 (眾,/》)的符號函數(sign)
sign[en^k,l)]=sign[Tn徹n[arg(五眾,/)))]
理論上,對于給定的幀,角度en,m(k,1)應該對所有頻率都相同。實際上,噪音支持者(proponent)造成小的變化。
因此為不同頻率計算
rn-Tm =^rMg⑶(IW)Z (A:,/)))的符號函數,并且通過計算未加權的個體決策的和,而執行作為每個頻率上的結果的分布的函數的整體決策。
實際上,涉及了各種類型的相位噪聲,對于en,m(k,1)的小值,en,m(k,1)的符號函數的確定可能是有偏差的。然而,下面的公式
權利要求
1.為工作在嘈雜環境中的多麥克風語音處理系統從兩個或多個麥克風中選擇麥克風的方法,每個麥克風都關聯于一個各自的信道,并且適于從混合了漫射噪聲分量的主要聲音信號源(S(t))中拾取具有有用語音分量的嘈雜聲音信號,所述方法包含下列步驟 數字化兩個麥克風(N,M)同時拾取的聲音信號; 以在一系列頻帶上產生連續幀的方式轉換在兩個信道上拾取的信號(Xn(t),Xm(t)); 對每個信道應用用于計算語音存在指數的算法; 通過對每個信道的連續幀應用決策規則選擇兩個麥克風中的一個,該規則是信道選擇標準以及所述語音存在指數的函數;以及 在所選擇的一個麥克風拾取的聲音信號的基礎上進行語音處理; 所述方法的特征在于 所述在兩個信道上拾取的信號0(n(t),Xm(t))的轉換是短時距傅立葉變換; 所述語音存在指數是為每個幀的每個頻帶計算的置信指數;并且 所述選擇標準僅在置信指數大于第一給定閾值的那些頻帶上計算。
2.如權利要求1所述的方法,進一步包括從所述連續幀中去除處于第二給定閾值之下的頻帶的步驟。
3.如權利要求1所述的方法,其中語音存在置信指數是語音存在的概率。
4.如權利要求1所述的方法,其中為每個頻帶計算語音存在置信指數,并且當所述指數大于第三給定閾值時,在大于第四給定閾值的數個頻帶上進行所述選擇。
5.如權利要求1所述的方法,其中 所述多麥克風語音處理系統是具有緊鄰的定向麥克風的系統;并且 所述信道選擇標準是基于對在兩個信道上同時拾取的信號的各自相位的比較的基礎上的角度標準,用于選擇的麥克風是比另一個更早拾取信號的麥克風。
6.如權利要求1所述的方法,其中 所述多麥克風語音處理器系統是具有空間分離的定向或非定向麥克風的系統;并且 所述信道選擇標準是基于對在兩個信道上同時拾取的信號的各自信號噪聲比值的比較的基礎上的能量標準,用于選擇的麥克風是信號噪聲比大于另一個的麥克風。
7.如權利要求1所述的方法,其中僅當比第五給定閾值大的若干連續幀上滿足所述決策規則時,才有條件地執行選擇兩個麥克風中的一個。
8.如權利要求1所述的方法,其中,如果決定選擇麥克風之一,則通過對將要選擇的麥克風的信道增加增益并且對將不被選擇的麥克風的信道降低增益,而在一段給定轉換時間推移上漸進地執行所述選擇。
全文摘要
本方法涉及的方法包括步驟數字化兩個麥克風(N,M)同時拾取的聲音信號;對在兩個信道上拾取的信號(Xn(t),Xm(t))執行短時距傅立葉變換以在一系列頻帶上產生連續幀;對每個信道應用用于計算語音存在置信指數的算法,特別是存在的語音的概率;通過對每個信道的連續幀應用決策規則選擇兩個麥克風中的一個,該規則基于信道選擇標準以及所述語音存在置信指數;對所選擇的麥克風拾取的聲音信號執行語音處理。
文檔編號H04M9/08GK102498709SQ201080021380
公開日2012年6月13日 申請日期2010年5月7日 優先權日2009年5月14日
發明者A·布里奧, G·平托, G·維泰 申請人:鸚鵡股份有限公司