專利名稱::聲音活動檢測方法和聲音活動檢測器的制作方法
技術領域:
:本發明涉及通信領域,尤其涉及語音信號處理技術。
背景技術:
:在語音信號處理領域,存在一種對語音活動性進行檢測的技術,當其應用在語音編碼技術中,稱為語音活動檢測(VoiceActivityDetection,VAD),當其應用在語音識別技術中,通常稱為語音端點檢測(SpeechEndpointDetection),而當其應用在語音增強技術中,則通常稱之為語音間隙檢測(SpeechPauseDetection)。針對不同的應用場景,這些技術會有不同的側重點,會產生不同的處理結果。但是它們的本質都是用來檢測語音通信時是否有語音存在,檢測結果的準確性直接影響著后續處理(如語音編碼、語音識別和增強)的質量。語音活動檢測VAD技術主要針對輸入到編碼器內的語音信號而開發。在語音編碼技術中,將輸入到編碼器內的音頻信號分為兩種背景噪聲和活動語音,然后對背景噪聲和活動語音采用不同的速率進行編碼,即對背景噪聲用較低的速率進行編碼,對活動語音用較高的速率進行編碼,從而達到降低通信的平均碼率,促進變速率語音編碼技術的發展的目的。但隨著編碼技術向多碼率、寬帶方向的發展,輸入編碼器的信號呈多元化趨勢,即不僅限于語音,還包含音樂和各種噪聲,因此,在對輸入信號進行編碼前,需要對不同的輸入信號進行區分,以便能夠采用不同的碼率,甚至采用不同的核心編碼算法的編碼器對不同的輸入信號進行編碼。與本發明有關的現有技術一,是3GPP(the3rdGenerationPartnershipProject,第三代移動通信標準化伙伴項目)組織制訂的針對但不限于第三代移動通信系統的多速率編碼標準AMR-WB+(AdaptiveMulti-Rate-Wideband),其有代數碼本激勵線性預測(AlgebraicCodeExcitedLinearPrediction,ACELP)和TCX(Transformcodedexcitation)模式兩種核心編碼算法,ACELP模式適合于語音信號編碼,TCX適合于包含音樂的寬帶信號,因此兩種模式的選擇可以認為是語音與音樂的選擇。編碼算法中ACELP和TCX的模式選擇方法有開環和閉環兩種,閉環選擇是一種基于感知加權信噪比的遍歷搜索的選擇方式,與VAD模塊無關;開環選擇則是在采用AMR-WB+編碼算法的VAD模塊的基礎上,增加了特征參數的短時和長時統計,并針對非語音特征進行了改進,能在一定程度上實現語音和音樂的分類;而且當連續選擇ACELP模式的次數小于三次的情況下,仍會進行小規模的遍歷搜索,且由于分類時用到的特征參數均通過編碼算法得到,因此該方法與AMR-WB+編碼算法的耦合非常密切。與本發明有關的現有技術二,是3GPP2(theThirdGenerationPartnershipProject2,第三代移動通信標準化伙伴項目2)組織針對CDMA2000系統制定的多碼率模式語音編碼標準SMV(SelectableModeVocoder),其有四種編碼速率可供選擇,分別為9.6、4.8、2.4和1.2kbps(實際凈碼率為8.55、4.0、2.0和0.8kbps),以支持移動運營商在系統容量和語音質量之間靈活選擇,其算法中含有音樂檢測模塊。該模塊利用VAD模塊計算出的部分參數來進一步計算音樂檢測需要的參數,并在VAD檢測之后執行,根據VAD模塊的輸出判決,以及所計算出的音樂檢測需要的參數進行補充判斷,輸出音樂和非音樂的分類結果,因此與編碼算法的耦合非常密切。由現有技術可以看出,現有技術是在現有的語音編碼標準中的VAD技術的基礎上檢測音樂信號的,因此和編碼算法密切相關,即與編碼器本身耦合性太大,獨立性、通用性和可維護性普遍比較差,且在編碼間的移植成本很高。另外,現有的VAD算法均是針對語音信號而開發,所以只會將輸入的音頻信號分為兩種噪聲和語音(非噪聲),即使包含音樂信號的檢測,也只是作為VAD判決的一個修正和補充。因此,隨著編解碼算法應用場景從以處理語音為主逐步過渡到處理多媒體語音(包括多媒體音樂),編解碼算法本身也逐步從窄帶到寬帶擴展,所以隨著應用場景的變化,現有VAD算法的簡單的輸出類別顯然不足以描述各種各樣的音頻信號特性。
發明內容本發明的實施例提供一種聲音活動檢測方法和聲音活動檢測器,其能夠獨立于編碼算法提取信號的特征參數,并利用所提取出的特征參數判斷輸入的信號幀所歸屬的聲音類別。本發明的實施例通過如下的技術方案實現本發明的實施例提供一種聲音活動檢測方法,其包括在需要進行聲音活動檢測時,提取當前信號幀中的特征參數;根據所述特征參數以及設定的參數閾值確定所述當前信號幀歸屬的聲音類別。本發明的實施例還提供一種聲音活動檢測器,其包括特征參數提取模塊,用于在需要進行聲音活動檢測時,提取當前信號幀中的特征參數;信號類別判定模塊,用于根據所述特征參數以及設定的參數閾值確定所述當前信號幀歸屬的聲音類別。由上述本發明提供的具體實施方案可以看出,本發明的實施例是在需要進行聲音活動檢測時提取判斷輸入的信號幀所歸屬的聲音類別的過程所使用的特征參數的,因此不依賴于某一具體的編碼算法,獨立進行,方便了維護和更新。圖1為本發明提供的第一實施例的結構圖;圖2為本發明提供的第一實施例中的信號預處理模塊的工作原理圖;圖3為本發明提供的第一實施例中的第一信號類別判定子模塊的工作原理圖;圖4為本發明提供的第一實施例中的第二信號類別判定子模塊判定非噪聲信號的類別時的工作原理圖;圖5為本發明提供的第一實施例中的第二信號類別判定子模塊判定不確定信號時的工作原理圖。具體實施例方式由于語音信號、噪聲信號和音樂信號在頻譜上具有不同的分布特點,而且語音、音樂和噪聲序列的幀與幀之間的變化也都各自有各自的特點。本發明的實施例考慮首先基于這些信號幀的特點提取出各種音頻信號的特征參數,然后根據這些特定參數對輸入的窄帶音頻或寬帶音頻數字信號幀進行初級分類,將輸入信號分為非噪聲信號幀(即有用信號,包括語音和音樂)和噪聲幀、靜音信號幀。然后對判為非噪聲的信號幀進一步分為濁音、清音和音樂信號幀。本發明提供的第一實施例是一種聲音活動檢測器(GeneralSoundActivityDetection,GSAD),其結構如圖1所示,包括信號預處理模塊、特征參數提取模塊和信號類別判定模塊。其中,所述信號類別判定模塊包括第一信號類別判定子模塊和第二信號類別判定子模塊。各個模塊之間的信號傳遞關系如下輸入信號幀進入所述信號預處理模塊,在此模塊內對輸入的數字聲音信號序列進行頻譜預加重和快速傅里葉變換(FastFourierTransform,FFT),為下一步特征參數提取做好準備。信號經所述信號預處理模塊處理后,輸入到所述特征參數提取模塊以獲得特征參數。為了降低系統的復雜度,GSAD的所有特征參數均在FFT頻譜上提取。另外在這一模塊中,還要提取和更新噪聲參數,來計算信號的信噪比,以控制一些判決閾值的更新。在信號類別判定模塊中,首先通過第一信號類別判定子模塊根據提取的特征參數對所述信號預處理模塊輸入的信號幀進行初級分類,將輸入信號分為非噪聲信號(即有用信號,包括語音和音樂)和噪聲、靜音信號。然后在第二信號類別判定子模塊中,對所述第一信號類別判定子模塊判為非噪聲的信號進一步分為濁音、清音和音樂信號。這樣通過兩級分類,給出最終的信號分類結果,即噪聲、靜音、濁音、清音和音樂。下面對各個模塊的具體處理過程進行描述,如下一、信號預處理模塊信號預處理模塊的工作原理如圖2所示,對輸入信號依次進行分幀、預加重、加窗、FFT變換等處理。分幀對輸入的數字聲音信號序列進行分幀處理,處理的幀長是10ms,幀移也是10ms,即幀與幀之間無重疊。若本實施例后續的處理系統,如編碼器的處理幀長是10ms的倍數,則可以分成10ms的聲音幀進行處理。預加重假設在n時刻的聲音采樣值為x(n),則經過預加重處理后得到的語音采樣值xp如公式[1]所示xp(n)=x(n)-αx(n-1).....................................公式[1]其中,α(0.9<α<1.0)是預加重因子。加窗加窗處理是為了減小幀起始和結束處的信號的不連續性,其將預加重處理后得到的語音采樣值xp按幀與hamming窗相乘,如公式[2]所示xw(n)=w(n)·xp(n).......................................公式[2]其中,(0≤n≤N-1)w(n)為hamming窗函數......................公式[3]其中,(0≤n≤N-1);N為hamming窗的窗長,對應于不同采樣頻率N取不同的值,對于采樣頻率分別為8kHz和16kHz的實施例,N分別是80和160。FFT頻譜變換信號經過hamming窗加窗處理后,進行標準的FFT頻譜變換,在8kHz和16kHz采樣率下時變換的窗長為256,不夠的補零,其它情況下酌情變換。二、特征參數提取模塊特征參數提取模塊主要功能是提取輸入信號的特征參數,主要是頻譜參數,所述頻譜參數包括短時特征參數及其類長時特征。所述短時特征參數包括譜波動(spectralflux),95%譜衰減(spectralrolloff),過零率(zerocrossingrate,zcr),幀內頻譜方差,低頻信號帶與全帶能量比值;所述類長時特征則是各短時特征參數的方差和移動平均,其統計的幀數在本發明的一個實施例中取10幀,即100ms的時長。下面給出這些特征參數的定義和計算公式。定義x(i)表示一幀聲音信號的第i個時域采樣值,其中0≤i<M;T表示幀數;M表示一幀信號的采樣值數目;N表示FFT頻譜變換的窗長度;U_pw(k)表示信號當前幀FFT變換后的頻譜在頻率k處的幅度值;var表示當前信號幀特征參數的方差。下面以采樣率16kHz的聲音信號為例,對短時特征參數提取作詳細說明1、計算譜波動(flux)及其方差(var_flux)譜波動(flux)的計算如公式[4]所示..................公式[4]譜波動(flux)的方差(var_flux)的計算如公式[5]所示..................公式[5]其中,當輸入音頻信號的采樣頻率為16kHz時,flux(i)表示歸一化可變譜波動參數從第i-10幀到第i幀的均值。2、計算95%譜衰減(rolloff)以及95%譜衰減的方差(rolloff_var)rolloff表示由低頻向高頻累積的能量占全帶能量95%時的頻率的位置,具體計算如公式[6].......公式[6]95%譜衰減(rolloff)的方差(rolloff_var)的計算如公式[7]所示..........公式[7]其中,rolloff(j)表示95%譜衰減參數從第i-10幀到第i幀的均值。3、計算過零率(zcr)...............................公式[8]其中,II{A}的值由A決定,當A是truth時,II{A}的值為1,當A是false時,II{A}的值為0。4、計算幀內頻譜幅度的方差(magvar)...............公式[9]其中,U_pw表示當前高頻部分的頻譜均值。5、計算低頻帶占全頻帶的能量比值(ratiol)...............公式[10]其中,R1_F1表示低頻子帶的下限R1_F2表示表示低頻子帶的上限。由上述可見,在提取特征參數時,是通過一個獨立的模塊來提取的,并不是在進行編碼算法過程中提取的,因此特征參數提取模塊不依賴于任何現有的編碼器。而且由于特征參數提取不依賴帶寬,從而使得GSAD不依賴于信號采樣率,系統的可移植性大大增強。三、第一信號類別判定子模塊第一信號類別判定子模塊的功能是將輸入數字聲音信號分成三類靜音、噪聲信號和非噪聲信號(即有用信號)。其主要通過初始化噪聲參數,噪聲判定和噪聲更新三部分完成,在初始化噪聲參數之前,根據當前環境(語音/音樂)調整初始化過程的長時要求,當前環境為語音時縮短初始化過程的長時要求,當前環境為音樂時,延長初始化過程的長時要求。第一信號類別判定子模塊的工作原理如圖3所示首先,獲取當前幀的特征參數;然后,判斷噪聲參數估計值初始化過程是否完成若沒有完成噪聲參數估計值初始化過程,則根據當前信號幀的特征參數以及噪聲參數閾值對當前信號幀進行噪聲嚴格判定將當前信號幀的特征參數與所述噪聲參數閾值比較,并當比較結果屬于噪聲的范疇時,則說明嚴格判定結果是當前信號幀為噪聲幀;否則,認為嚴格判定結果是當前幀為非噪聲幀(即有用信號)在進行噪聲判定時,可以采用當前信號幀的頻譜幅度的方差magvar這一特征參數與所述噪聲參數閾值比較,當當前信號幀的頻譜幅度的方差magvar小于所述噪聲參數閾值時,則說明嚴格判定結果是當信號幀為噪聲幀;否則,認為嚴格判定結果是當前幀為非噪聲幀(即有用信號)。如果嚴格判定結果是當前幀為非噪聲幀,則輸出非噪聲標志,并使用公式[11]計算當前幀的PosteriorSNR(Signal-to-NoiseRatio,信噪比)。計算出的PosteriorSNR用于調整靜音、噪聲、清音、濁音和音樂各特征參數的閾值。...........................公式[11]其中σn表示噪聲的方差,K為子帶數。特征參數自適應調整和更新的目的是使判決流程在不同的信噪比條件下獲得相同的判決結果。因為對同一段信號來說,在不同的信噪比(由PosteriorSNR來反映)下,其相同特征參數的值是有所區別的,也就是說信號的特征參數的值受信噪比的影響。因此,若在不同的信噪比下達到相同的判決結果,特征參數的判決門限即閾值要根據當前信號幀的信噪比自適應地更新,具體更新的方式由相應特征參數受信噪比的實際影響而定。如果嚴格判定結果是當前信號幀為噪聲幀,則繼續根據所述當前信號幀的特征參數以及靜音參數閾值進行靜音判定,即將當前信號幀的信號能量與一個靜音閾值進行比較,如果小于所述靜音閾值,則判定當前信號幀為靜音,于是輸出靜音標志;如果大于靜音閾值,則說明當前信號幀不為靜音,而是噪聲幀,于是輸出噪聲標志,并根據當前噪聲幀以及其之前的噪聲幀初始化噪聲參數估計值,同時記錄當前判為噪聲幀的信號幀的幀數;當記錄的信號幀數量到達噪聲參數估計值初始化需要的幀數量時,則標志噪聲參數估計值初始化過程完成。其中,在初始化噪聲參數估計值時涉及噪聲頻譜的均值En和方差σn,其計算公式分別如公式[12]和公式[13]所示...........................................公式[12]......................................公式[13]公式[12]和公式[13]中的U_PW是當前信號幀子帶功率的矩陣向量。若完成了初始化噪聲參數估計值過程,則計算當前信號幀的特征參數與所述噪聲參數估計值的頻譜距離;并根據所述頻譜距離進行噪聲判定,即將所計算出的頻譜距離與頻譜距離閾值進行比較,若計算出的頻譜距離小于設定的頻譜距離閾值,則繼續根據所述當前信號幀的特征參數以及靜音參數閾值進行靜音判定,即將當前信號幀的信號能量與一個靜音閾值進行比較,如果小于所述靜音閾值,則判定當前信號幀為靜音,于是輸出靜音標志;如果大于靜音閾值,則說明當前信號幀不為靜音,而是噪聲幀,于是輸出噪聲標志,并用當前信號幀的頻譜均值En和方差σn更新所述噪聲參數估計值,并輸出所述噪聲參數估計值。其更新公式分別如公式[14]和公式[15]所示..................公式[14].................公式[15]如果計算出的頻譜距離大于設定的頻譜距離閾值,則說明當前信號幀為非噪聲幀,于是使用公式[11]計算當前信號幀的PosteriorSNR,并用當前計算出的PosteriorSNR調整信號的特征參數閾值,并輸出非噪聲(有用信號)標志。四、第二信號類別判定子模塊若當前信號幀經第一信號類別判定子模塊判決后,如果其類型判為噪聲幀,則直接輸出判決結果,如果判決為非噪聲幀,則當前信號幀進入第二信號類別判定子模塊進行濁音、清音和音樂信號的判決分類。具體的判決可分兩步進行,第一步按照特征參數的特性對信號進行嚴格的判定,將非噪聲信號判為濁音、清音、音樂類,使用的判定方式主要是硬判定(閾值判定)。第二步主要針對既屬于濁音又屬于音樂,或者既不屬于濁音又不屬于音樂的不確定信號進行判決,可以使用多種輔助判決方式,比如采用概率判決的方法,即用概率模型分別計算不確定信號屬于濁音和音樂信號的概率,將概率最大的作為不確定信號的最終分類。所述概率模型可以為高斯混合模型GMM,其參數是特征參數提取模塊提取的參數。第一步的判決流程如圖4所示,首先提取第一信號類別判定子模塊輸出的非噪聲幀的特征參數,然后將所述非噪聲信號幀的特征參數與清音參數閾值進行比較若所述非噪聲信號幀的特征參數與清音參數閾值的比較結果屬于清音的范疇,則判定所述非噪聲信號幀為清音,并輸出清音信號標志;判決清音時使用的特征參數可以是過零率(zcr),若過零率(zcr)大于清音參數閾值,則將所述非噪聲信號幀判定為清音,并輸出清音信號標志。若所述非噪聲信號幀的特征參數與清音參數閾值的比較結果不屬于清音的范疇,則繼續判定所述非噪聲信號幀是否屬于濁音,若所述非噪聲信號幀的特征參數與所述濁音參數閾值的比較結果屬于濁音的范疇,則確定所述非噪聲幀屬于濁音,并設置濁音信號標志=1;否則,確定所述非噪聲幀不屬于濁音,設置濁音信號標志=0;判定濁音時使用的特征參數可以是譜波動(flux)及其方差(var_flux),若譜波動(flux)大于與之相對應的濁音參數閾值,或譜波動方差(var_flux)大于與之相對應的濁音參數閾值,則將所述非噪聲幀判定為濁音,并設置濁音信號標志=1;否則,確定所述非噪聲幀不屬于濁音,設置濁音信號標志=0。若所述非噪聲信號幀的特征參數與清音參數閾值的比較結果不屬于清音的范疇,還要判定所述非噪聲信號幀是否屬于音樂的范疇,若所述非噪聲信號幀的特征參數與所述音樂參數閾值的比較結果屬于音樂的范疇,則確定所述非噪聲幀屬于音樂,并設置音樂信號標志=1;否則,確定所述非噪聲幀不屬于音樂,并設置音樂信號標志=0。判定音樂時使用的特征參數可以是譜波動方差(var_flux)的移動平均(varmov_flux),若varmov_flux小于音樂參數閾值,則將所述非噪聲幀判定為音樂,并設置音樂信號標志=1;否則,確定所述非噪聲幀不屬于音樂,并設置音樂信號標志=0。若所述非噪聲幀既屬于濁音又屬于音樂,或者所述非噪聲幀既不屬于濁音又不屬于音樂,那么將信號判為不確定類信號,然后用第二步的輔助判決方法,比如概率判斷,對不確定信號繼續判決,將其判為濁音或音樂的一種,從而將非噪聲最終分為濁音、清音和音樂。以采用概率判決的方式對不確定信號繼續判決為例進行說明,具體如圖5所示首先利用概率模型分別計算不確定信號幀屬于濁音和音樂信號的概率,并將最大的概率值對應的聲音類別作為不確定信號幀的最終分類;然后修改所述不確定信號幀的類型標志;最后輸出所述信號幀的類型標志。在利用概率判決方法時,還可以將所計算出的最大概率與設定概率閾值pth進行比較,如果所計算出的最大概率超過所述概率閾值pth,則對所述非噪聲幀后續的信號幀進行拖尾處理;否則,不進行拖尾處理。上述實施例中,當判別當前信號幀歸屬的聲音類別時,所使用的特征參數可以是上述列舉的特征參數之一,也可以為其組合。只要利用這些特征參數與特征參數閾值結合能夠判斷出當前信號幀歸屬的聲音類別,均不脫離本發明的思想。本發明提供的第二實施例是一種聲音活動檢測方法,其主要思想是提取當前信號幀的特征參數;并根據所述特征參數以及設定的參數閾值確定所述當前信號幀歸屬的聲音類別。其具體實施過程包括如下內容首先,對當前信號幀依次進行序列分幀處理、預加重處理、加窗處理和快速傅立葉變換FFT處理,得到相應的頻域信號;然后提取得到的當前頻域信號幀的特征參數。其中,預加重處理是為了增強輸入的當前信號幀的頻譜,加窗處理是為了減小幀起始和結束處的信號的不連續性。具體實現與第一實施例中的相關描述雷同,這里不再詳細描述。然后,判斷是否完成噪聲參數估計值初始化過程若未完成噪聲參數估計值初始化過程,則根據所述特征參數以及設定的噪聲參數閾值進行噪聲嚴格判定將所述特征參數與所述設定的噪聲參數閾值比較,并當比較結果屬于噪聲的范疇時,則判定所述當前信號幀為噪聲幀,然后根據所述特征參數以及靜音參數閾值進行靜音判定將所述特征參數與所述靜音參數閾值比較,當比較結果屬于靜音的范疇時,則判定所述當前信號幀為靜音幀,并輸出相應的靜音標志;否則,判定當前信號幀為噪聲幀,并輸出噪聲幀標志,根據所述當前噪聲幀及其之前的噪聲幀計算噪聲參數估計值;并記錄當前判為噪聲幀的信號幀的幀數;當記錄的信號幀數量到達噪聲參數估計值初始化需要的幀數量時,則標志噪聲參數估計值初始化過程完成。具體實現與第一實施例中的相關描述雷同,這里不再詳細描述。當所述特征參數與所述設定的噪聲參數閾值的比較結果不屬于噪聲的范疇時,則判定所述當前信號幀為非噪聲幀,則計算所述當前信號幀的PosteriorSNR,并利用所述PosteriorSNR調整所述設定的特征參數的閾值。具體實現與第一實施例中的相關描述雷同,這里不再詳細描述。當噪聲參數估計值初始化過程完成后,計算當前信號幀的特征參數與所述噪聲參數估計值之間的頻譜距離,然后根據所述頻譜距離與設定的頻譜距離閾值,對當前信號幀進行噪聲判定若所述頻譜距離小于設定的頻譜距離閾值,則判定所述當前信號幀為噪聲幀,則繼續根據所述當前信號幀的特征參數以及靜音參數閾值進行靜音判定,即將當前信號幀的信號能量與一個靜音閾值進行比較,如果小于所述靜音閾值,則判定當前信號幀為靜音,于是輸出靜音標志;如果大于靜音閾值,則說明當前信號幀不為靜音,而是噪聲幀,于是輸出噪聲標志,并利用所述當前幀的噪聲參數更新所述噪聲參數估計值;否則,判定所述當前信號幀為非噪聲,則計算所述當前信號幀的PosteriorSNR,并利用所述PosteriorSNR調整設定的特征參數判決門限的閾值。具體實現與第一實施例中的相關描述雷同,這里不再詳細描述。經過上述過程能夠判斷出輸入的當前信號幀屬于噪聲、靜音和非噪聲三類,之后還要判定當前信號幀具體屬于哪種非噪聲類別,具體如下當當前信號幀為非噪聲時,根據清音參數閾值,以及所述當前信號幀的特征參數,判定所述當前信號幀是否為清音將當前信號幀的特征參數與清音參數閾值比較,當比較結果屬于清音的范疇時,則判定所述當前信號幀為清音,則輸出相應的清音標志;否則,根據濁音參數閾值,以及所述當前信號幀的特征參數,判定所述當前信號幀是否為濁音將所述當前信號幀的特征參數與所述濁音參數閾值比較,當比較結果屬于濁音的范疇時,則判定所述當前信號幀為濁音;否則,判定所述當前信號幀不屬于濁音;并且根據音樂參數閾值,以及所述當前信號幀的特征參數,判定所述當前信號幀是否為音樂將所述當前信號幀的特征參數與所述音樂參數閾值比較,當比較結果屬于音樂的范疇時,則判定所述當前信號幀為音樂;否則,判定所述當前信號幀不屬于音樂。具體實現與第一實施例中的相關描述雷同,這里不再詳細描述。當所述當前信號幀既屬于濁音又屬于音樂,或,當所述當前信號幀既不屬于濁音又不屬于音樂時,利用概率模型分別計算所述當前信號幀屬于濁音和音樂的概率,并選擇大的概率值對應的聲音類別作為當前信號幀的歸屬類別。具體實現與第一實施例中的相關描述雷同,這里不再詳細描述。比較所述大的概率值與概率閾值,當所述大的概率值大于所述概率閾值時,則根據當前信號幀所歸屬的聲音類別對當前信號幀后續一定數量的信號幀進行拖尾處理。具體實現與第一實施例中的相關描述雷同,這里不再詳細描述。由上述本發明提供的具體實施方案可以看出,本發明的實施例在需要進行聲音活動檢測時提取分類過程所使用的特征參數,因此不依賴于某一具體的編碼算法,獨立進行,方便了維護和更新。另外,本發明的實施例根據提取得到的特征參數以及設定的參數閾值確定所述當前信號幀歸屬的聲音類別,能將輸入的窄帶音頻或寬帶音頻數字信號分為靜音、噪聲、濁音、清音和音樂五類,其應用在語音編碼
技術領域:
中時,不僅能夠作為新開發的變速率音頻編碼算法和標準的速率選擇依據,還可以為現有沒有VAD算法的編碼標準提供一個速率選擇的依據;由于輸出的信號類別比較多,所以本發明還能夠應用于語音增強、語音識別、說話人識別等其它語音信號處理領域,具有很強的通用性。顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和范圍。這樣,倘若本發明的這些修改和變型屬于本發明權利要求及其等同技術的范圍之內,則本發明也意圖包含這些改動和變型在內。權利要求1.一種聲音活動檢測方法,其特征在于,包括在需要進行聲音活動檢測時,提取當前信號幀的特征參數;根據所述特征參數以及設定的參數閾值確定所述當前信號幀歸屬的聲音類別。2.如權利要求1所述的方法,其特征在于,在提取當前信號幀的特征參數的過程之前,包括對當前信號幀依次進行序列分幀處理和快速傅立葉變換FFT處理,得到相應的頻域信號。3.如權利要求2所述的方法,其特征在于,在提取當前信號幀的特征參數之前,還包括對當前信號幀進行序列分幀處理后得到的信號幀,進行預加重處理和/或加窗處理。4.如權利要求1所述的方法,其特征在于,所述根據所述特征參數以及設定的參數閾值確定所述當前信號幀歸屬的聲音類別的過程,具體包括根據所述特征參數以及設定的參數閾值,確定出所述當前信號幀歸屬的聲音類別為噪聲幀、靜音幀或非噪聲幀;并當所述當前信號幀為非噪聲幀時,則根據所述特征參數以及設定的參數閾值確定出所述當前信號幀歸屬的聲音類別。5.如權利要求4所述的方法,其特征在于,根據所述特征參數以及設定的參數閾值,確定出所述當前信號幀歸屬的聲音類別為噪聲幀、靜音幀或非噪聲幀的過程,具體包括當未完成噪聲參數估計值初始化過程時,根據所述特征參數以及噪聲參數閾值進行噪聲嚴格判定將所述特征參數與噪聲參數閾值比較,若比較結果屬于噪聲的范疇,則判定所述當前信號幀為噪聲幀,然后根據所述特征參數以及靜音參數閾值進行靜音判定將所述特征參數與所述靜音參數閾值比較,并當比較結果屬于靜音的范疇時,則判定所述當前信號幀為靜音幀;否則,判定當前幀為噪聲幀,根據所述當前噪聲幀及其之前的噪聲幀計算噪聲參數估計值;將所述特征參數與所述設定的噪聲參數閾值比較,并當比較結果不屬于噪聲的范疇時,則判定所述當前信號幀為非噪聲幀。6.如權利要求5所述的方法,其特征在于,還包括當判定當前幀為噪聲幀后,記錄當前判為噪聲幀的信號幀的幀數;當記錄的信號幀數量到達噪聲參數估計值初始化需要的幀數量時,則標志噪聲參數估計值初始化過程完成。7.如權利要求4所述的方法,其特征在于,所述根據所述特征參數以及設定的參數閾值,確定出所述當前信號幀歸屬的聲音類別為噪聲幀、靜音幀或非噪聲幀的過程,具體包括當噪聲參數估計值初始化過程完成后,計算當前信號幀的特征參數與所述噪聲參數估計值之間的頻譜距離,然后根據所述頻譜距離與設定的頻譜距離閾值,對當前信號幀進行噪聲判定將所述頻譜距離與設定的頻譜距離閾值比較,并當比較結果屬于噪聲的范疇時,則判定所述當前信號幀為噪聲幀,然后根據所述特征參數以及靜音參數閾值進行靜音判定將所述特征參數與所述靜音參數閾值比較,并當比較結果屬于靜音的范疇時,則判定所述當前信號幀為靜音幀;否則,判定當前幀為噪聲幀,并利用所述當前幀的信號參數更新所述噪聲參數估計值;否則,判定所述當前信號幀為非噪聲幀。8.如權利要求5或7所述的方法,其特征在于,還包括當判定當前信號幀為非噪聲時,計算所述當前信號幀的PosteriorSNR,并利用所述PosteriorSNR調整設定的特征參數的閾值。9.如權利要求4所述的方法,其特征在于,當當前信號幀為非噪聲幀時,根據所述特征參數以及設定的參數閾值確定出所述當前信號幀歸屬的聲音類別的過程,包括根據清音參數閾值,以及所述當前信號幀的特征參數,判定所述當前信號幀是否為清音將當前信號幀的特征參數與清音參數閾值比較,并當比較結果屬于清音的范疇時,則判定所述當前信號幀為清音;否則,根據濁音參數閾值,以及所述當前信號幀的特征參數,判定所述當前信號幀是否為濁音將所述當前信號幀的特征參數與所述濁音參數閾值比較,當比較結果屬于濁音的范疇時,則判定所述當前信號幀為濁音;否則,判定所述當前信號幀不屬于濁音;并且根據音樂參數閾值,以及所述當前信號幀的特征參數,判定所述當前信號幀是否為音樂將所述當前信號幀的特征參數與所述音樂參數閾值比較,并當比較結果屬于音樂的范疇時,則判定所述當前信號幀為音樂;否則,判定所述當前信號幀不屬于音樂。10.如權利要求9所述的方法,其特征在于,當所述當前信號幀既屬于濁音又屬于音樂,或,當所述當前信號幀既不屬于濁音又不屬于音樂時,所述根據所述特征參數以及設定的參數閾值確定所述當前信號幀歸屬的聲音類別的過程,還包括利用概率模型分別計算所述當前信號幀屬于濁音和音樂的概率,并選擇大的概率值對應的聲音類別作為當前信號幀的歸屬類別。11.如權利要求10所述的方法,其特征在于,當所述當前信號幀既屬于濁音又屬于音樂,或,當所述當前信號幀既不屬于濁音又不屬于音樂時,所述根據所述特征參數以及設定的參數閾值確定所述當前信號幀歸屬的聲音類別的過程,還包括比較所述大的概率值與概率閾值,當所述大的概率值大于所述概率閾值時,則根據當前信號幀所歸屬的聲音類別對當前信號幀后續一定數量的信號幀進行拖尾處理。12.一種聲音活動檢測器,其特征在于,包括特征參數提取模塊,用于在需要進行聲音活動檢測時,提取當前信號幀的特征參數;信號類別判定模塊,用于根據所述特征參數以及設定的參數閾值確定所述當前信號幀歸屬的聲音類別。13.如權利要求12所述的檢測器,其特征在于,還包括信號預處理模塊,用于對當前信號幀依次進行序列分幀處理和快速傅立葉變換FFT處理,并得到相應的頻域信號提供給所述特征參數提取模塊以及所述信號類別判定模塊。14.如權利要求13所述的檢測器,其特征在于,所述信號預處理模塊還用于對當前信號幀進行序列分幀處理后得到的信號幀,進行預加重處理和/或加窗處理。15.如權利要求12所述的檢測器,其特征在于,所述信號類別判定模塊包括第一信號類別判定子模塊,用于當未完成噪聲參數估計值初始化過程時,根據所述特征參數以及設定的噪聲參數閾值進行噪聲嚴格判定若所述特征參數與所述設定的噪聲參數閾值比較,比較結果屬于噪聲的范疇,則判定所述當前信號幀為噪聲幀,然后根據所述特征參數以及靜音參數閾值進行靜音判定,若所述特征參數與所述靜音參數閾值比較,比較結果屬于靜音的范疇,則判定所述當前信號幀為靜音幀;否則,判定當前幀為噪聲幀,根據所述當前噪聲幀及其之前的噪聲幀計算噪聲參數估計值;若所述特征參數與所述設定的噪聲參數閾值比較,比較結果不屬于噪聲的范疇,則判定所述當前信號幀為非噪聲幀。16.如權利要求15所述的檢測器,其特征在于,所述第一信號類別判定子模塊還用于記錄當前判為噪聲幀的信號幀的幀數;當記錄的信號幀數量到達噪聲參數估計值初始化需要的幀數量時,則標志噪聲參數估計值初始化過程完成。17.如權利要求15所述的檢測器,其特征在于,所述第一信號類別判定子模塊還用于當噪聲參數估計值初始化過程完成后,計算當前信號幀的特征參數與所述噪聲參數估計值之間的頻譜距離,然后根據所述頻譜距離與設定的頻譜距離閾值,對當前信號幀進行噪聲判定將所述頻譜距離與設定的頻譜距離閾值比較,當比較結果屬于噪聲的范疇時,根據所述特征參數以及靜音參數閾值進行靜音判定將所述特征參數與所述靜音參數閾值比較,并當比較結果屬于靜音的范疇時,則判定所述當前信號幀為靜音幀;否則,判定所述當前信號幀為噪聲幀,利用所述當前幀的噪聲參數更新所述噪聲參數估計值;否則,判定所述當前信號幀為非噪聲。18.如權利要求15或17所述的檢測器,其特征在于,所述第一信號類別判定子模塊還用于當判定當前信號幀為非噪聲時,計算所述當前信號幀的PosteriorSNR,并利用所述PosteriorSNR調整設定的特征參數的閾值。19.如權利要求18所述的檢測器,其特征在于,所述信號類別判定模塊還包括第二信號類別判定子模塊,用于當當前信號幀為非噪聲時,根據清音參數閾值,以及所述當前信號幀的特征參數,判定所述當前信號幀是否為清音將當前信號幀的特征參數與清音參數閾值比較,當比較結果屬于清音的范疇時,則判定所述當前信號幀為清音;否則,根據濁音參數閾值,以及所述當前信號幀的特征參數,判定所述當前信號幀是否為濁音將所述當前信號幀的特征參數與所述濁音參數閾值比較,當比較結果屬于濁音的范疇時,則判定所述當前信號幀為濁音;否則,判定所述當前信號幀不屬于濁音;并且根據音樂參數閾值,以及所述當前信號幀的特征參數,判定所述當前信號幀是否為音樂將所述當前信號幀的特征參數與所述音樂參數閾值比較,當比較結果屬于音樂的范疇時,則判定所述當前信號幀為音樂;否則判定所述當前信號幀不屬于音樂。20.如權利要求19所述的檢測器,其特征在于,所述第二信號類別判定子模塊還用于當所述當前信號幀既屬于濁音又屬于音樂,或,當所述當前信號幀既不屬于濁音又不屬于音樂時,利用概率模型分別計算所述當前信號幀屬于濁音和音樂的概率,并選擇大的概率值對應的聲音類別作為當前信號幀的歸屬類別。21.如權利要求20所述的檢測器,其特征在于,所述第二信號類別判定子模塊還用于比較所述大的概率值與概率閾值,當所述大的概率值大于所述概率閾值時,則根據當前信號幀所歸屬的聲音類別對當前信號幀后續一定數量的信號幀進行拖尾處理。全文摘要本發明公開了一種聲音活動檢測方法和聲音活動檢測器,其核心是在需要進行聲音活動檢測時,提取當前信號幀的特征參數,根據所述特征參數以及設定的參數閾值確定所述當前信號幀歸屬的聲音類別。通過本發明,在提取分類過程所使用的特征參數時,不依賴于某一具體的編碼算法,方便了維護和更新;并且能將輸入的信號分為更多的聲音類別。當其應用在語音編碼
技術領域:
中時,不僅能夠作為新開發的變速率音頻編碼算法和標準的速率選擇依據,還可以為現有的沒有VAD算法的變速率語音或音頻編碼標準提供一個速率選擇的依據;本發明還能夠應用于語音增強、語音識別、說話人識別等其它語音信號處理領域,具有很強的通用性。文檔編號G10L25/78GK101197130SQ20061016114公開日2008年6月11日申請日期2006年12月7日優先權日2006年12月7日發明者勤嚴,鄧浩江,珺王,曾學文,軍張,張立斌申請人:華為技術有限公司