使用Turbo型VAD的會議混音的制作方法
【專利摘要】一種會議混音器(102)包括單元(104),其被配置為接收多個輸入流;頻譜語音活動檢測(VAD)單元(136),其被配置為針對每個輸入流生成并輸出頻譜VAD判定,所述頻譜VAD判定指示包含數據分組的幀是否是語音;Turbo型VAD單元(110),其被配置為生成并輸出Turbo型VAD判定,所述Turbo型VAD判定針對包含數組分組的幀指示哪個輸入流是激活的,所述Turbo型VAD判定是基于頻譜VAD判定和基于功率的判定,所述基于功率的判定指示包含數據分組的幀的估計的瞬時功率級別是否大于功率閾值;以及有限狀態機(FSM)單元(114),其被配置為基于多個Turbo型VAD判定選擇將哪些輸入流作為激活流輸出,該Turbo型VAD判定部分基于FSM所提供的反饋。
【專利說明】使用Turbo型VAD的會議混音
[0001]相關申請的交叉引用
[0002]本申請要求于2011年9月28日提交的美國臨時專利申請第61/540,123號以及于2012年3月6日提交的美國臨時專利申請第61/607,356號的優先級,這兩篇文獻的公開內容全文并入于此以作參考。
【技術領域】
[0003]當前公開內容涉及語音通信,并且更具體地涉及會議混音技術。
【背景技術】
[0004]這里提供的背景描述用于一般性呈現公開內容的背景的目的。在背景部分中所描述的范圍內,當前名義發明人的工作和描述的各個方面可能并不適用為申請時的現有技術,它們既不直接地也不暗示地被承認為針對本申請公開內容的現有技術。
[0005]會議呼叫技術使得多個參與者或與會人能夠通過網絡互相通信。各種當前使用的會議呼叫技術采用了通過互聯網語音傳輸協議(VoIP),VoIP使用互聯網協議(IP)以使得能夠通過網絡(例如,互聯網)進行通信。會議呼叫設備通常使用會議混音器,會議混音器被配置為接收并處理來自每個與會人的音頻信號,并基于會議混音算法向每個與會人輸出適當的信號。
[0006]會議混音器的設計面臨著各種挑戰,包括:避免把降低會議質量的背景噪音當作語音信號、當多個與會人同時說話時管理多重會話時段、即便在受到之前未激活與會人的打斷的情況下仍然保持會議的自然流暢、以及保持與會人之間的平滑轉換,這避免會話從一個與會人轉到另一個與會人時會話的夾斷(clipping off)。
【發明內容】
[0007]本公開內容的一個或多個實施例涉及改進的會議混音的方法和設備。
[0008]根據一個實施例的會議混音器使用了基于時間級別標準(Time-Levelcriterion)的變化的混音算法。在一個實施例中,可以使用標準的VoIP模塊以及一些專用模塊。根據一個實施例的混音算法可以獲得常規會議混音器無法獲得的一種或多種有利的優點,包括例如在各種噪音條件下支持高質量會議呼叫的能力、低處理延遲、實現簡單、以及對計算資源的合理要求。根據一個實施例的混音算法可以使用簡單的構件塊以保證簡化和最小的處理延遲。根據實施例,鋪設于該混音算法的創建中的閉環反饋提供了噪音排斥并保證了高質量。
[0009]應當理解,當然,一些實施例的混音算法并不要求實現這些優點。
[0010]根據一個實施例,提供了一種會議混音器,包括:輸入流接收單元,被配置為從相應的與會議混音器相連接的多個與會人接收數據分組的多個輸入流;頻譜語音活動檢測(VAD)單元,被配置為針對每個所述輸入流生成并輸出頻譜VAD判定,所述頻譜VAD判定指示包含數據分組的幀是否是語音;Turbo型VAD單元,被配置為生成并輸出Turbo型VAD判定,所述Turbo型VAD判定為包含數組分組的幀指示哪個輸入流是激活的,所述Turbo型VAD判定基于每個述輸入流的頻譜VAD判定和基于功率的判定,所述基于功率的判定指示包含數據分組的幀的估計瞬時功率級別是否大于每個輸入流的功率閾值;以及有限狀態機(FSM)單元,被配置為基于與輸入流中的多個幀相對應的多個Turbo型VAD判定而選擇將哪些輸入流作為激活流輸出。
[0011]根據一個實施例,Turbo型VAD單元包括:功率估計單元,被配置為針對每個輸入流估計幀的瞬時功率級別;比較單元,被配置為針對每個輸入流對幀的估計瞬時功率級別與功率閾值進行比較,并且基于所述比較結果輸出所述基于功率的判定,其中所述功率閾值指示語音數據的最小功率級別;頻譜VAD單元,被配置為針對每個輸入流輸出所述頻譜VAD判定;以及乘法器,被配置為針對每個輸入流將基于功率的判定和頻譜VAD判定相乘以生成Turbo型VAD判定。
[0012]根據一個實施例,頻譜VAD單元被部署于Turbo型VAD單元內。
[0013]根據一個實施例,頻譜VAD單元包括按照ITU-T G.729附錄B推薦所實施的VAD單元。
[0014]根據一個實施例,會議混音器進一步包括:語音監控單元,被配置為針對每個所述輸入流估計輸入流的平均語音功率級別和平均噪音功率級別,并且基于所估計的平均語音功率級別和所估計的平均噪音功率級別的加權平均生成功率閾值。
[0015]根據一個實施例,FSM單元被配置為針對每個輸入流,生成基于Turbo型VAD判定的活動比率,所述活動比率指示輸入流是語音數據的可能性。
[0016]根據一個實施例,FSM單元生成活動比率使得所生成的活動比率包括O和I之間的數值,其中數值“O”指示輸入流中完全沒有語音數據,以及其中隨著輸入流中的語音數據的量的增加,所述數值逼近于數值“ I ”。
[0017]根據一個實施例,FSM單元進一步被配置為針對每個輸入流,生成指示輸入流的當前狀態的狀態信息,所述當前狀態指示輸入流當前是否攜帶語音數據,并且將狀態信息反饋給語音監控單元反饋狀態信息,以及語音監控單元進一步被配置為至少部分基于從FSM單元反饋的狀態信息估計輸入流的平均語音功率級別和平均噪音功率級別。
[0018]根據一個實施例,所述FSM單元生成所述狀態信息以指示所述輸入流中的以下當前狀態之一:(a)激活狀態,其指示所述輸入流當前正攜帶語音數據,(b)未激活狀態,其指示所述輸入流當前未攜帶任何語音數據,(C)漸強狀態,其指示所述輸入流正在從所述未激活狀態轉變為所述激活狀態,以及(d)漸弱狀態,其指示所述輸入流正在從所述激活狀態轉變為所述未激活狀態。
[0019]根據一個實施例,會議混音器進一步包括增益控制單元,其被配置為針對每個輸入流,基于所述輸入流的所述估計的平均語音功率級別和所述輸入流的所述估計的平均噪音功率級別來調整增益。
[0020]根據一個實施例,會議混音器進一步包括噪音抑制器,其被配置為針對每個輸入流,基于所述輸入流的所述估計的平均語音功率級別和所述輸入流的所述估計的平均噪音功率級別來抑制噪音。
[0021]根據一個實施例,一種會議混音器的方法,包括從相對應的多個與會人接收數據分組的多個輸入流;針對所述輸入流的每個輸入流生成并且輸出頻譜VAD判定,所述頻譜VAD判定指示包含數據分組的幀是否是語音;生成并且輸出Turbo型VAD判定,所述Turbo型VAD判定針對包含數據分組的幀指示哪個輸入流是激活的,所述Turbo型VAD判定的所述生成和輸出是基于每個所述輸入流的所述頻譜VAD判定和基于功率的判定,所述基于功率的判定指示幀的估計的瞬時功率級別是否大于每個所述輸入流的功率閾值;以及基于與所述輸入流中的多個幀相對應的多個所述Turbo型VAD判定,而選擇將哪些輸入流作為激活流輸出。
[0022]根據一個實施例,該方法進一步包括,為針對每個所述輸入流,估計幀的所述瞬時功率級別;針對每個所述輸入流,比較所述幀的所估計的瞬時功率級別與所述功率閾值,所述功率閾值指示語音數據的最小功率級別,并且基于所述比較的結果輸出所述基于功率的判定;針對每個輸入流,輸出所述頻譜VAD判定;以及針對每個輸入流,將所述基于功率的判定和所述頻譜VAD判定相乘以生成所述Turbo型VAD判定。
[0023]根據一個實施例,頻譜VAD判定的生成和輸出包括,使用部署于用于生成所述Turbo型VAD判定的Turbo型VAD單元內的頻譜VAD單元來生成和輸出所述頻譜VAD判定。
[0024]根據一個實施例,所述頻譜VAD判定的所述生成和輸出包括,使用按照ITU-TG.729附錄B的推薦所實施的VAD單元來生成和輸出所述頻譜VAD判定。
[0025]根據一個實施例,該方法進一步包括針對每個所述輸入流,估計所述輸入流的平均語音功率級別和平均噪音功率級別,并且基于所估計的平均語音功率級別和所估計的平均噪音功率級別的加權平均來生成所述功率閾值。
[0026]根據一個實施例,該方法進一步包括針對每個所述輸入流,生成基于所述Turbo型VAD判定的活動比率,所述活動比率指示所述輸入流是語音數據的可能性。
[0027]根據一個實施例,其中所述活動比率的所述生成,包括生成所述活動比率使得所生成的活動比率包括O和I之間的數值,其中所述數值“O”指示所述輸入流中完全沒有語音數據,并且其中隨著所述輸入流中的所述語音數據的量的增加,所述數值逼近于數值“ I ”。
[0028]根據一個實施例,該方法進一步包括針對每個輸入流,生成指示所述輸入流的當前狀態的狀態信息,所述當前狀態指示所述輸入流當前是否攜帶語音數據,并且反饋所述狀態信息,以及基于所述狀態信息的反饋,估計所述輸入流的所述平均語音功率級別和所述平均噪音功率級別。
[0029]根據一個實施例,所述狀態信息的所述生成包括,生成所述狀態信息以指示所述輸入流的以下當前狀態之一:(a)激活狀態,其指示所述輸入流當前正攜帶語音數據,(b)未激活狀態,其指示所述輸入流當前未攜帶任何語音數據,(C)漸強狀態,其指示所述輸入流正在從所述未激活狀態轉變為所述激活狀態,以及(d)漸弱狀態,其指示所述輸入流正在從所述激活狀態轉變為所述未激活狀態。
【專利附圖】
【附圖說明】
[0030]圖1是示出根據一個實施例的會議混音器的框圖;
[0031]圖2是示出根據一個實施例的有限狀態機(FSM)單元所使用的算法的狀態圖;
[0032]圖3是示出根據一個實施例的分數、活動比率和當前狀態之間關系的圖形;
[0033]圖4是示出根據一個實施例的會議混音方法的流程圖;
[0034]圖5是示出根據另一個實施例的會議混音方法的流程圖;以及[0035]圖6是示出根據又一個實施例的會議混音方法的流程圖。
【具體實施方式】
[0036]下面將參考附圖對實施例進行更加詳細地描述。接下來的詳細描述被提供用于幫助讀者對被描述的系統、設備和/或方法獲得全面的理解。相應地,本領域技術人員將有啟示獲得在此描述的設備、系統和/或方法的等效物、修改以及各種變化。同樣地,出于增加清楚表述以及簡潔的目的,可以省略公知功能和結構的描述。
[0037]以及,描述中所使用的術語旨在描述實施例。單數形式的表達包括復數形式的含義且決不意味著限制性的,除非有明確相反的指示。在本說明書中,表述“包含”、“包括”旨在指定特性、數字、步驟、元件和操作、部件或者及其組合,并且不應解釋為排除其他特性、數字、步驟、操作、元件、部分或者其組合中的一個或多個的存在或可能。
[0038]圖1是示出根據一個實施例的會議混音器102的框圖。如圖1所示,會議混音器102通過網絡101與多個與會人連接,該多個與會人包括與會人100-1、與會人100-2、與會人100-3、并且一直到與會人100-n。混音器102的位置相對于與會人100是靈活的。例如,會議混音器102與與會人相關的網關或其它網絡切換設備相關聯。在一個不例中,一個與會人200的設備被耦合到網關/網絡設備,而其他與會人通過互聯網耦合。可替換地,會議混音器102被居中定位,而所有與會人通過互聯網連接耦合到該會議混音器102。
[0039]網絡101是通信網絡或者各種通信網絡的組合。例如,在一個實施例中,網絡101是分組交換網絡,比如基于IP的全球互聯網,并且網絡101可以進一步包含用于訪問網絡的實體,比如互聯網服務提供商(ISP)。省略對各種涉及連接到互聯網的實體的詳細描述以免模糊本公開內容的教導。
[0040]與會人100-1使用會議呼叫通信設備、例如個人電腦、電話、或其它類型的能夠與其他與會人100-2到100-n進行通信的電子設備。與會人100-1的會議呼叫通信設備一般包括數個用于參與會議呼叫的部件,例如用于將與會人100-1的語音數據經由會議混音器102輸入到其他與會人100-2到100-n的麥克風,以及用于將語音數據從從一個或多個其它與會人100-2到100-n經由會議混音器102傳輸的揚聲器。與會人100-1的會議呼叫通信設備可以發生變化,例如,如果混音器102與網關或其他網絡切換設備相關聯以及與會人200之一耦合到該網關/網絡設備,則與會人將具有將該與會人與會議混音器102相連接的附加連接設備。
[0041]如圖1所示,當與會人100-1期望參與會議呼叫時,與會人100-1向他或她的會議呼叫通信設備說話,從而將語音數據的輸入流I1通過網絡101傳送給會議混音器102。與會人100-1的輸入流I1包括對應于與會人100-1的語音數據的數據分組。該數據分組被布置在幀k,k+1, k+2內,這些幀是數字數據傳送單元。圖1圖示與會人100-1,100-2,100-3和100-n分別向會議混音器102輸入輸入流11;12,13,和14。這些輸入流中的一些輸入流可以由與會人通信的實際語音數據組成,而這些輸入流中的其他輸入流可以由非語音數據,諸如由與會人所處環境產生的背景噪音組成。
[0042]對比常規會議混音器,這些常規會議混音器難以從語音數據中區分不需要的非語音數據(例如,背景噪音),該會議混音器102被配置為從會議中有效的過濾不需要的非語音數據。此外,會議混音器102實現了對常規會議混音器的多種改進,包括當多個與會人同時說話時對多重會話時段進行充分管理、承認未激活與會人對討論的打斷以保持會議的自然流暢、以及保持與會人間的順暢過渡。為了實現這些和/或其它相對于常規會議混音器的優點,根據實施例會議混音器102應用了一個創新組件,其被稱為Turbo語音活動檢測(VAD)單元110,也被稱作Turbo-VAD單元,它生成Turbo-VAD判定,該判定被用于支持快速閾值調整和在噪音條件下保持高質量會議呼叫。
[0043]應當注意常規VAD技術本質上傾向于語音判定,換句話說,傾向于將聲音判定為語音,即便這個聲音不是與會人的真實語音數據。這是因為常規VAD技術的主要功能是在不造成語音退化的情況下,減少點對點VoIP呼叫的帶寬。然而,在會議呼叫中這種傾向是不合需要的,因為來自一個與會人的未被偵測到的噪音可能會與另一個與會人的語音混在一起,或者甚至更糟,將語音一起遮蓋住。因此,常規VAD技術一般不被視為適合于會議呼叫混音。Turbo型VAD單元110采用了修改后的適合會議呼叫混音的VAD技術,將在下文中被詳細描述。
[0044]為了保持會議混音器使用的混音算法的靈活性,針對算法只定義了少數外部輸入。圖1中示出了根據一個實施例的主輸入,并且將在下文對其進行詳細描述。下文描述的單元的實現可以在保持同樣的端口的同時改變。
[0045]在一個實施例中,會議混音器102包括輸入流接收單元104、增益控制單元106、語音監控單元108、Turbo型VAD單元110、噪音抑制單元112、有限狀態機(FSM)單元114、分數計算單元116、混音單元118、系數計算單元120、舒適噪音生成單元122、輸出流傳輸單元124、以及舒適噪音傳輸單元126。這些組件如圖1所示,被耦合在一起。
[0046]輸入流接收單元104是被配置為接收從與會人100-1,100-2,100-3和100_n各自傳輸的輸入流I1,12,I3,和I4的組件。在一個實施例中,輸入流接收單元104是被配置為接收數字信號、并起到作為與會人100-1,100-2,100-3和100-n與會議混音器102之間端口的作用的組件。在一個實施例中,輸入流接收單元104是用軟件實現的邏輯塊。輸入流可以源自在網絡的VoIP電話等。在一個實施例中,輸入流接收單元104接收來自對應的連接到會議混音器102的多個與會人的多個數據分組的輸入流。
[0047]語音監控單元108包括語音功率估計單元128、噪音功率估計單元130、和閾值生成單元132。
[0048]在一個實施例中,語音功率估計單元128和噪音功率估計單元130根據FSMl 14的狀態,持續地測量輸入流的平均語音和噪音功率。這些測量被Turbo型VAD單元使用,并用于增益控制單元106和噪音抑制單元112 (如果啟用)的激活。更具體的說,如圖1所示,語音功率估計單元128和噪音功率估計單元130被連接至輸入流接收單元104以接收輸入流信息。而且,語音功率估計單元128和噪音功率估計單元130也被連接至有限狀態機單元114以接收狀態信息,并基于所接收的狀態信息計算輸入流的平均語音和噪音功率。
[0049]在一個實施例中,語音功率估計單元128和噪音功率估計單元130根據系統狀態被激活并且使用自回歸計算。語音功率估計單元128有一個滲漏屬性,其被配置用于避免死鎖(該死鎖例如可能由被頻譜VAD單元136錯誤歸類為語音的非常密集的噪音所引起)。估計方案通過下面的等式I給出(其中k表示幀索引,以及Pk表示幀k的功率):
[0050]等式1:
[0051]'(1- CVOice) * Voice _Estk_! + Cvoice * Pk,狀態=激活
Voice_EstIc =< (1- ζleakage) * Voice—Estk— i,狀態=未激活
^ Voice_Estk~ I,其它
[0052]
^(1 - ζ noise) * Noise _Estk i +ζ noise* Pk ,狀態=未激活
Noise _Estk = <
、Noise_Estk— I,其它
[0053]如等式I所示,取決于從FSM單元114傳輸的狀態信息是否指示“激活”狀態、“未激活”狀態、或另 一個狀態(比如從激活到未激活的轉變狀態,或者反之亦然),使用三個方程式中的一個來計算給定幀k的平均語音功率估計。同樣,取決于從FSM單元114傳輸的狀態信息是否指示“未激活”狀態或其它狀態(比如轉變狀態),使用兩個方程式之一來計算給定幀k的平均噪音功率估計。
[0054]在一個實施例中,平均噪音和語音功率估計被初始化的值為_40dBm。這個數值相對較低,因此在頻譜VAD單元136不正確地指示語音的情況下,系統將只在輸入真實語音時進行適配。
[0055]系數ζ 應當?兩足以下關系:ζ leakage〈〈 ^ Voice ^ ζ noise〈〈 ^ power2〈 ^ power I °
原因是語音和噪音估計表示被用于閾值和增益控制的長期級別(1-10秒)。另一方面,功率估計被用于每一幀的活動判定,并且因此表示瞬時功率級別(50-100ms)。
[0056]閾值生成單元132基于由語音功率估計單元128和噪音功率估計單元130分別計算的平均語音和噪音功率估計生成功率閾值,并將生成的功率閾值傳輸到Turbo型VAD單元110中的比較單元138。在一個實施例中,功率閾值被計算為噪音和語音功率級別(以dBm為單位)的加權平均值,并且有一些修改-該閾值被保持在-40到-20dBm之間并且不低于(Voice_Estk-10dB)的值。可替換地,可以其它任何合適的方式計算功率閾值。功率閾值被Turbo型VAD單元110用作語音數據的最小功率級別的指示器,這將在后面解釋。
[0057]在一個實施例中,Turbo型VAD單元110使用閉環反饋方案生成Turbo型VAD判定以支持快速閾值調整,并保證在噪音條件下的高質量會議呼叫。Turbo型VAD判定以逐幀為基礎指示給定幀是否為“激活”(也被稱為“發聲”),換句話說,幀是否是語音數據,或者為“未激活”(也被稱為“無發聲”),換句話說,幀是否是非語音數據。
[0058]Turbo型VAD單元110包括瞬時功率估計單元134、頻譜VAD單元136、比較單元138、和乘法器140。
[0059]在一個實施例中,瞬時功率估計單元134估計輸入流在瞬時的(即逐幀)基礎上的平均功率。給定幀的瞬時功率包括來自給定幀的語音數據和非語音數據(例如,背景噪音)的功率兩者,換句話說,總體功率。在一個實施例中,瞬時功率估計單元134按照下面的等式2 (k表示幀索引,Pk表示幀k的功率,Power_Estk表示步驟k的平均功率估計)估計平均瞬時功率:
[0060]等式2:
[0061]
【權利要求】
1.一種會議混音器,包括: 輸入流接收單元,被配置為從相對應的與所述會議混音器相連接的多個與會人接收數據分組的多個輸入流; 頻譜語音活動檢測(VAD)單元,被配置為針對每個所述輸入流生成并輸出頻譜VAD判定,所述頻譜VAD判定指示包含數據分組的幀是否是語音; Turbo型VAD單兀,被配置為生成并輸出Turbo型VAD判定,所述Turbo型VAD判定為包含數組分組的幀指示哪些所述輸入流是激活的,所述Turbo型VAD判定基于每個所述輸入流的所述頻譜VAD判定和基于功率的判定,所述基于功率的判定指示包含數據分組的幀的估計瞬時功率級別是否大于每個所述輸入流的功率閾值;以及 有限狀態機(FSM)單元,被配置為基于與所述輸入流中的多個幀相對應的多個所述Turbo型VAD判定選擇將哪些所述輸入流作為激活流輸出。
2.根據權利要求1所述的會議混音器,其中,所述Turbo型VAD單元包括: 功率估計單元,被配置為針對每個所述輸入流估計幀的瞬時功率級別; 比較單元,被配置為針對每個所述輸入流對所述幀的估計瞬時功率級別與所述功率閾值進行比較,并且基于所述比較的結果輸出所述基于功率的判定,其中所述功率閾值指示語音數據的最小功率級別; 所述頻譜VAD單元,被配置為針對每個所述輸入流輸出所述頻譜VAD判定;以及乘法器,被配置為針對每個所述輸入流將所述基于功率的判定和所述頻譜VAD判定相乘以生成所述Turbo型VAD判定。
3.根據權利要求1所述的會議混音器,其中,所述頻譜VAD單元被部署于所述Turbo型VAD單元內。
4.根據權利要求1所述的會議混音器,其中,所述頻譜VAD單元包括按照ITU-TG.729附錄B推薦所實施的VAD單元。
5.根據權利要求1所述的會議混音器,進一步包括: 語音監控單元,被配置為針對每個所述輸入流估計所述輸入流的平均語音功率級別和平均噪音功率級別,并且基于所估計的平均語音功率級別和所估計的平均噪音功率級別的加權平均生成所述功率閾值。
6.根據權利要求5所述的會議混音器,其中,所述FSM單元被配置為針對每個所述輸入流,基于所述Turbo型VAD判定生成活動比率,所述活動比率指示所述輸入流是語音數據的可能性。
7.根據權利要求6所述的會議混音器,其中,所述FSM單元生成所述活動比率,使得所生成的活動比率包括O和I之間的數值,其中數值“O”指示所述輸入流中完全沒有語音數據,以及其中隨著所述輸入流中的所述語音數據的量的增加,所述數值逼近于數值“ I ”。
8.根據權利要求7所述的會議混音器,其中, 所述FSM單元進一步被配置為針對每個所述輸入流,生成指示所述輸入流的當前狀態的狀態信息并且將所述狀態信息反饋給所述語音監控單元,所述當前狀態指示所述輸入流當前是否攜帶語音數據,以及 所述語音監控單元進一步被配置為基于從所述FSM單元反饋的所述狀態信息估計所述輸入流的所述平均語音功率級別和所述平均噪音功率級別。
9.根據權利要求8所述的會議混音器,其中,所述FSM單元生成所述狀態信息以指示所述輸入流的以下當前狀態之一:(a)激活狀態,其指示所述輸入流當前正攜帶語音數據,(b)未激活狀態,其指示所述輸入流當前未攜帶任何語音數據,(C)漸強狀態,其指示所述輸入流正在從所述未激活狀態轉變為所述激活狀態,以及(d)漸弱狀態,其指示所述輸入流正在從所述激活狀態轉變為所述未激活狀態。
10.根據權利要求5所述的會議混音器,還包括:增益控制單元,其被配置為針對每個所述輸入流,基于所述輸入流的所估計的平均語音功率級別和所述輸入流的所估計的平均噪音功率級別來調整增益。
11.根據權利要求5所述的會議混音器,還包括:噪音抑制器,其被配置為針對每個所述輸入流,基于所述輸入流的所估計的平均語音功率級別和所述輸入流的所估計的平均噪音功率級別來抑制噪音。
12.—種會議混音的方法,包括: 從相對應的多個與會人接收數據分組的多個輸入流; 針對每個所述輸入流生成并且輸出頻譜VAD判定,所述頻譜VAD判定指示包含數據分組的幀是否是語首; 生成并且輸出Turbo型VAD判定,所述Turbo型VAD判定針對包含數據的幀指示哪些輸入流是激活的,所述Turbo型VAD判定的所述生成和輸出是基于每個所述輸入流的所述頻譜VAD判定和基于功率的判定,所述基于功率的判定指示幀的估計的瞬時功率級別是否大于每個所述輸入流的功率閾值;以及 基于與所述輸入流中的多個幀相對應的多個所述Turbo型VAD判定,選擇將哪些所述輸入流作為激活流輸出。
13.根據權利要求12所述的方法,還包括: 針對每個所述輸入流,估計幀的所述瞬時功率級別; 針對每個所述輸入流,比較所述幀的所估計的瞬時功率級別與所述功率閾值,并且基于所述比較的結果輸出所述基于功率的判定,所述功率閾值指示語音數據的最小功率級別; 針對每個所述輸入流,輸出所述頻譜VAD判定;以及 針對每個所述輸入流,將所述基于功率的判定和所述頻譜VAD判定相乘以生成所述Turbo型VAD判定。
14.根據權利要求12所述的方法,其中,所述頻譜VAD判定的所述生成和輸出包括,使用部署于用于生成所述Turbo型VAD判定的Turbo型VAD單元內的頻譜VAD單元來生成和輸出所述頻譜VAD判定。
15.根據權利要求12所述的方法,其中,所述頻譜VAD判定的所述生成和輸出包括,使用按照ITU-T G.729附錄B的推薦所實施的VAD單元來生成和輸出所述頻譜VAD判定。
16.根據權利要求12所述的方法,還包括: 針對每個所述輸入流,估計所述輸入流的平均語音功率級別和平均噪音功率級別,并且基于所估計的平均語音功率級別和所估計的平均噪音功率級別的加權平均來生成所述功率閾值。
17.根據權利要求16所述的方法,還包括:針對每個所述輸入流,生成基于所述Turbo型VAD判定的活動比率,所述活動比率指示所述輸入流是語音數據的可能性。
18.根據權利要求17所述的方法,其中所述活動比率的所述生成包括生成所述活動比率,使得所生成的活動比率包括O和I之間的數值,其中所述數值“O”指示所述輸入流中完全沒有語音數據,并且其中隨著所述輸入流中的所述語音數據的量的增加,所述數值逼近于數值“1”。
19.根據權利要求18所述的方法,還包括: 針對每個所述輸入流,生成指示所述輸入流的當前狀態的狀態信息并且反饋所述狀態信息,所述當前狀態指示所述輸入流當前是否攜帶語音數據,以及 基于所述狀態信息的反饋,估計所述輸入流的所述平均語音功率級別和所述平均噪音功率級別。
20.根據權利要求19所述的方法,其中,所述狀態信息的所述生成包括,生成所述狀態信息以指示所述輸入流的以下當前狀態之一:(a)激活狀態,其指示所述輸入流當前正攜帶語音數據,(b)未激活狀態,其指示所述輸入流當前未攜帶任何語音數據,(c)漸強狀態,其指示所述輸入流正在從所述未激活狀態轉變為所述激活狀態,以及(d)漸弱狀態,其指示所述輸入流正在從所述激活狀態轉變為所述未激活狀態。
【文檔編號】H04M3/42GK103931166SQ201280047507
【公開日】2014年7月16日 申請日期:2012年9月27日 優先權日:2011年9月28日
【發明者】A·普洛特尼科夫, T·卡達肖夫, M·科瓦倫科 申請人:馬維爾國際貿易有限公司