一種雙麥克風語音激活檢測方法及語音采集設備的制造方法
【技術領域】
[0001] 本發(fā)明涉及通訊技術領域,具體涉及一種雙麥克風語音激活檢測方法及語音采集 設備。
【背景技術】
[0002] 隨著通訊技術的革新,通訊網絡的容量不斷增大,通訊終端的處理能力不斷加強, 人們對于語音通訊的質量要求不斷提高。這其中,除了提高語音通訊的頻率帶寬以改善保 真度外,移動通訊終端的抗噪性能也是語音通訊質量的重要關注點。在經歷了單麥克風系 統(tǒng)通過單通道語音增強方案降低噪聲,提高語音質量的階段以后,越來越多的移動通訊終 端開始配置主次麥克風結構的雙麥克風系統(tǒng),這種雙麥克風系統(tǒng)通常將一個麥克風(主麥 克風)放置在語音采集設備的下端,靠近嘴的位置,用于接收含噪語音信號,另一個麥克風 (次麥克風)放置在語音采集設備上端的背部或頂部,靠近耳朵的位置,用于接收以噪聲為 主的參考信號。
[0003] 雙通道語音增強方案利用含噪語音信號和參考信號這兩個信號來進行分析和計 算,得到干凈的語音。雙通道語音增強方法主要有波束合成和能量差濾波兩類方法,大多數 方案都會綜合兩種方法。但無論采取哪一種方法,都需要配合語音激活檢測(voice active detection,VAD)。語音激活檢測是判斷當前時刻信號是語音還是非語音,該判斷結果要提 交給后續(xù)的語音增強模塊,它對語音增強方案的性能有著決定性的影響。語音激活檢測如 果經常性的錯過語音段,會造成語音增強輸出的語音丟失;如果經常性的誤判語音段,會造 成大量噪聲殘留。除了針對語音增強的應用外,語音激活檢測還廣泛應用于語音編碼,語音 識別等領域中,例如,在語音編碼中,可以對有語音的片段進行有效的語音編碼,對無語音 的片段進行靜音編碼或舒適性噪聲編碼,從而提高編碼的效率;對于語音增強和去噪,語音 激活檢測使得語音間隙的噪聲估計和語音片段的信噪比估計稱為可能;良好的語音激活檢 測則能極大提高語音識別的準確率。
[0004] 現有語音激活檢測的實現方法,包括基于能量/信噪比閾值的實現方法和基于頻 域特征的實現方法?;谀芰?信噪比閾值的算法,有時域短時能量/信噪比判別和子帶 域短時能量/信噪比判別,這類算法通過設置能量/信噪比的單門限或雙門限進行激活判 斷?;陬l域特征的算法檢測頻譜的不平滑特征,典型的有信號熵檢測和利用Mel倒譜系 數的模式分類。上述算法都只利用了單個通道的含噪語音信號,其在噪聲環(huán)境下的魯棒性 不高,無法保證語音激活判斷的準確率。
【發(fā)明內容】
[0005] 針對現有的語音激活檢測技術存在的上述問題,現提供一種旨在提高低信噪比條 件下語音激活判斷的準確率的雙麥克風語音激活檢測方法及語音采集設備。
[0006] 具體技術方案如下:
[0007] -種雙麥克風語音激活檢測方法,其中,包括以下步驟:
[0008] 步驟1、獲取一含噪語音信號及一對應所述含噪語音信號的噪聲信號;
[0009] 步驟2、對所述含噪語音信號進行頻域變換,以獲取含噪語音信號幅度譜,以及對 所述噪聲信號進行頻域變換,以獲取噪聲信號幅度譜;
[0010] 步驟3、對所述含噪語音信號幅度譜以及所述噪聲信號幅度譜分別進行預濾波;
[0011] 步驟4、獲取語音信號的短時包絡;
[0012] 步驟5、利用所述語音信號的短時包絡對預濾波后的所述含噪語音信號幅度譜及 預濾波后的所述噪聲信號幅度譜進行整形;
[0013] 步驟6、對整形后的所述含噪語音信號幅度譜及整形后的所述噪聲信號幅度譜進 行累加比較,以獲取一能量比;
[0014] 步驟7 :據所述能量比判斷是否進行語音激活。
[0015] 優(yōu)選的,所述步驟2中:
[0016] 通過離散傅立葉變換,或者離散余弦變換,或者改進余弦變換對所述含噪語音信 號進行頻域變換,獲取含噪語音信號幅度譜;和/或
[0017] 通過離散傅立葉變換,或者離散余弦變換,或者改進余弦變換對所述噪聲信號進 行頻域變換,以獲取噪聲信號幅度譜。
[0018] 優(yōu)選的,采用離散傅立葉變換獲取所述含噪語音信號幅度譜通過下式計算:
[0020] 其中,Sal為所述含噪語音信號幅度譜,s Jt)為所述含噪語音信號,e為自然對數 的底數,j為虛數單位,j = H)a5, k為離散頻譜序號,k = 1,2, 3,…,N,下標t為離散時 間序號,w(k)為N點的窗函數;和/或
[0021] 采用離散傅立葉變換獲取所述噪聲信號幅度譜通過下式計算:
[0023] 其中,Sa2為所述噪聲信號幅度譜,s2(t)所述為噪聲信號,e為自然對數的底數, j為虛數單位,j = (_1)°·5, k為離散頻譜序號,k = 1,2, 3, . . .,N,下標t為離散時間序號, w(k)為N點的窗函數。
[0024] 優(yōu)選的,所述N的取值范圍為fs/100/2〈N〈0. 2fs,其中fs為采樣頻率;或者采樣頻 率匕=8000Hz 時 N = 512。
[0025] 優(yōu)選的,所述窗函數采用矩形窗、或者正弦窗、或者漢寧窗、或者海明窗、或者 Tukey 窗。
[0026] 優(yōu)選的,所述步驟3中:
[0027] 對所述含噪語音信號幅度譜預濾波通過下式計算:
[0028] Spal [k] t= S al [k] A [k] t,k = 1,2, 3, · · ·,N
[0029] 其中,Spal為預濾波后的含噪語音信號幅度譜,S al為含噪語音信號幅度譜,G i為預 濾波傳遞函數,Gi為長度N的向量,元素系數為0到1之間;和/或
[0030] 對所述噪聲信號幅度譜預濾波通過下式計算:
[0031] Spa2[k]t= S a2[k]tG2[k]t,k = 1,2, 3, · · ·,N
[0032] 其中,Spa2為預濾波后的噪聲信號幅度譜,S a2為噪聲信號幅度譜,G 2為預濾波傳遞 函數,G2為長度N的向量,元素系數為0到1之間。
[0033] 優(yōu)選的,采用頻域維納濾波器對所述含噪語音信號幅度譜進行預濾波,對所述含 噪語音信號幅度譜進行濾波的頻域維納濾波器通過下式計算:
[0035] 其中,Psl為含噪語音信號的自功率譜,Pnl為所述含噪語音信號中噪聲的自功率 譜;和/或
[0036] 采用頻域維納濾波器對所述噪聲信號幅度譜進行預濾波,對所述噪聲信號幅度譜 進行濾波的頻域維納濾波器通過下式計算:
[0038] 其中,Ps2為噪聲信號的自功率譜,Pn2為噪聲信號中噪聲的自功率譜。
[0039] 優(yōu)選的,采用頻域維納濾波器對所述含噪語音信號幅度譜進行預濾波,對所述含 噪語音信號幅度譜進行濾波的頻域維納濾波器通過下式計算:
[0043] 其中,SNRi為含噪語音信號的信噪比,SNRpl為含噪語音信號的后驗信噪比,P sl為 含噪語音信號的自功率譜,Pnl為所述含噪語音信號中噪聲的自功率譜,a α 2取值范圍 為 0〈 α α 2〈1 ;和 / 或,
[0044] 采用頻域維納濾波器對所述噪聲信號幅度譜進行預濾波,對所述噪聲信號幅度譜 進行濾波的頻域維納濾波器通過下式計算:
[0048] 其中,SNR2S噪聲信號的信噪比,SNRp2為噪聲信號的后驗信噪比,P s2為噪聲信號 的自功率譜,Pn2為噪聲信號中噪聲的自功率譜,α 1和α 2取值范圍為0、。α2〈1。
[0049] 優(yōu)選的,所述含噪語音信號的自功率譜Psl通過下式計算:
[0050] Psl=Sal2,
[0051] 其中,Sal為所述含噪語音信號經頻域變換后形成的所述含噪語音信號幅度譜;和 /或
[0052] 所述噪聲信號的自功率譜Ps2通過下式計算:
[0053] Ps2=Sa22,
[0054] 其中,Sa2為所述噪聲信號經頻域變換后形成的所述噪聲信號幅度譜。
[0055] 優(yōu)選的,所述含噪語音信號中噪聲的自功率譜Pnl通過下式估計:
[0057] 其中,下標t為離散時間序號,i,n2,n3為平滑因子,取值范圍為〇〈n p n2, η3〈ι;和/或
[0058] 所述噪聲信號中噪聲的自功率譜Pn2通過下式估計:
[0060] 其中,下標t為離散時間序號,η。n2,n3為平滑因子,取值范圍為〇〈n p n2, η3<ι〇
[0061] 優(yōu)選的,所述步驟4中,所述語音信號的短時包絡通過下式計算:
[0063] 其中,心為所述語音信號的短時包絡,S a為短時語音幅度譜。
[0064] 優(yōu)選的,所述短時語音幅度譜53采用所述含噪語音信號經語音增強后輸出的增強 信號的短時平均幅度譜替代;或者
[0065] 所述短時語音幅度譜Sa采用所述