基于多域聯(lián)合估計的自適應(yīng)語音檢測方法
【專利摘要】本發(fā)明公開一種基于多域聯(lián)合估計的自適應(yīng)語音檢測方法,能在復(fù)雜環(huán)境中自適應(yīng)檢測語音,準(zhǔn)確性和可靠性好,檢測復(fù)雜度低。本發(fā)明的語音檢測方法,包括:信號預(yù)處理,頻譜穩(wěn)定性判斷,平穩(wěn)噪聲語音檢測,非平穩(wěn)噪聲語音檢測,語音段信號輸出。
【專利說明】基于多域聯(lián)合估計的自適應(yīng)語音檢測方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于語音檢測【技術(shù)領(lǐng)域】,特別是一種基于多域聯(lián)合估計的自適應(yīng)語音檢測方法。
【背景技術(shù)】
[0002]現(xiàn)有通信設(shè)備多代共存,且通信頻段、調(diào)制方式、數(shù)據(jù)速率、數(shù)據(jù)幀格式各不相同,難以實現(xiàn)直接互聯(lián)互通;通信環(huán)境復(fù)雜多變,語音通信的保障難度加大。語音檢測技術(shù)是語音信號處理的前端,直接影響著語音識別、語音增強、說話人識別等后續(xù)處理,在語音通信中起著重要作用。
[0003]語音檢測技術(shù)大致分為兩類:門限比較法和模型匹配法。門限比較法根據(jù)語音和噪聲的不同特性,提取不同的特征參數(shù),設(shè)置合適的門限進行判決,主要可以分為時域和變換域兩類。時域檢測方法主要有短時能量法、短時平均幅度法(AMDF)、短時平均幅度差法、短時平均過零率、短時自相關(guān)函數(shù)等。變換域檢測方法主要有譜熵法、倒譜法、頻帶差法、小波分析法等。模型匹配法主要有貝里斯模型匹配、神經(jīng)網(wǎng)絡(luò)模型法等。
[0004]下面是幾種現(xiàn)有的語音檢測方法的簡介。
[0005]1、短時平均幅度差法(AMDF)
[0006]語音信號的濁音具有準(zhǔn)周期性,在一幀語音信號內(nèi),信號近似平穩(wěn),基音周期近似相等,若為語音信號的濁音,在整數(shù)倍周期的位置會出現(xiàn)極小值,在這些點上信號幅度差近似為O ;但清音和噪聲不具備周期性的特點,不同周期的信號幅度差值較大。
[0007]短時平均幅度差法在高信噪比下具有很好的語音檢測效果,由于只有加減運算,計算量比自相關(guān)函數(shù)法顯著降低;但在低信噪比的環(huán)境下,檢測效果較差。
[0008]2、短時自相關(guān)函數(shù)法
[0009]自相關(guān)函數(shù)值,兩個極大值之間為一個信號周期,即為基音周期。
[0010]短時自相關(guān)函數(shù)法適合噪聲環(huán)境下的語音信號檢測,語音信號在低信噪比的情況下基音周期不發(fā)生變化,檢測效果明顯好于短時能量和短時平均幅度法;但是信號豐富的諧波分量會影響基音周期的檢測結(jié)果,會出現(xiàn)倍頻或者分頻的情況。
[0011]3、譜熵法
[0012]譜熵體現(xiàn)了語音信號和噪聲在整個信號中的分布情況。語音信號的頻率大致分布在100?4000Hz,分布比較集中,熵值比較??;而背景噪聲在頻譜中的分布比較均勻,頻譜比較平坦,譜熵值比較大,根據(jù)語音信號和噪聲的不同譜熵值,設(shè)置合理的門限可以完成語音檢測的目的。
[0013]譜熵法是性能較好的頻域端點檢測算法,它對噪聲具有一定的魯棒性,尤其在具有機械噪聲的非穩(wěn)定噪聲環(huán)境下,具有較好的檢測效果;但在低信噪比的環(huán)境下,檢測效果不夠理想。
[0014]4、能量譜熵法(ESE)
[0015]在非穩(wěn)定噪聲環(huán)境下,短時能量法很難區(qū)分語音信號和背景噪聲,而譜熵法具有很好的檢測特性;譜熵法在嘈雜噪聲和音樂噪聲下檢測效果較差,而短時能量法具有很好的檢測特性。將能量法和譜熵法結(jié)合起來,實現(xiàn)兩種方法間的互補,提高了語音檢測效果。圖9是ESE的檢測流程圖。
[0016]5、倒譜距離法
[0017]X(w)是x(n)對應(yīng)分傅里葉變換,則c (η)可以看作是X(W)的對數(shù)傅里葉級數(shù)展開,即:
【權(quán)利要求】
1.一種基于多域聯(lián)合估計的自適應(yīng)語音檢測方法,其特征在于,包括如下步驟: 10)信號預(yù)處理:對輸入信號進行濾波、采樣、量化、分幀和加窗處理,得到預(yù)處理信號; 20)頻譜穩(wěn)定性判斷:對預(yù)處理信號的噪聲段進行頻譜穩(wěn)定性檢測,判斷背景噪聲是平穩(wěn)噪聲或非平穩(wěn)噪聲; 30)平穩(wěn)噪聲語音檢測:對平穩(wěn)噪聲下的信號進行語音檢測,得到檢測語音信號; 40)非平穩(wěn)噪聲語音檢測:對非平穩(wěn)噪聲下的信號進行語音檢測,得到檢測語音信號; 50)語音段信號輸出:在檢測語音信號的終止幀后加幾幀拖尾延遲保護,輸出語音段信號。
2.根據(jù)權(quán)利要求1所述的自適應(yīng)語音檢測方法,其特征在于,所述信號預(yù)處理(10)步驟包括: 11)濾波:濾除輸入語音信號中的高頻率脈沖噪聲,有效減小語音信號頻段以外信號的干擾; 12)采樣、量化:以大于處理信號最高頻率兩倍的采樣速率,對處理信號采樣、量化; 13)分幀:按一幀信號時長20ms和交疊長度IOms將語音信號分幀; 14)加窗:對每幀語音信號進行加窗,得到預(yù)處理信號。
3.根據(jù)權(quán)利要求1所述的自適應(yīng)語音檢測方法,其特征在于,所述頻譜穩(wěn)定性判斷(20)步驟包括: 21)計算預(yù)處理信號噪聲段信號的譜值:
4.根據(jù)權(quán)利要求1所述的自適應(yīng)語音檢測方法,其特征在于,所述平穩(wěn)噪聲語音檢測(30)步驟包括: 31)信噪比估算:選取待測語音段,根據(jù)下式估算信噪比SNR,
5.根據(jù)權(quán)利要求4所述的自適應(yīng)語音檢測方法,其特征在于,所述高信噪比語音檢測(33)步驟包括: 331)計算短時幅度差函數(shù):
6.根據(jù)權(quán)利要求4所述的自適應(yīng)語音檢測方法,其特征在于,所述低信噪比語音檢測(34)步驟包括: 341)濁音檢測:采用歸一化互相關(guān)函數(shù)法來判斷信號幀是否為語音,當(dāng)Rxy的值接近I時,信噪比較高、檢測段為濁音段;當(dāng)Rxy的值大于0.5時,信噪比較低、檢測段為濁音段,Rxy的值小于0.5時,檢測段為清音段或者噪聲段; 其中,Rxy為語音幀對應(yīng)的歸一化互相關(guān)函數(shù),
7.根據(jù)權(quán)利要求1所述的自適應(yīng)語音檢測方法,其特征在于,所述非平穩(wěn)噪聲語音檢測(40)步驟包括: 41)計算前K(K=1O)幀能量平均值
8.根據(jù)權(quán)利要求6所述的自適應(yīng)語音檢測方法,其特征在于,所述語音信號檢測(47)步驟包括: 471)語音信號小波分解:對初步判定為語音的信號進行小波分解;提取6個小波子帶系數(shù) Cl1 (η)、d2 (η)、d3 (η)、d4 (η)、d5 (η)、d6 (η),它們對應(yīng)的平均能量為 E1、E2、E3、E4、E5、E6,再加上均值Em和方差σ 2共8個特征量; 472)語音端點神經(jīng)網(wǎng)絡(luò)檢測:建立BP神經(jīng)網(wǎng)絡(luò),其中有8個輸入節(jié)點、20個隱層節(jié)點、I個輸出節(jié)點,模擬非平穩(wěn)噪聲環(huán)境作為訓(xùn)練樣本,對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,訓(xùn)練結(jié)束后,將提取到8個特征量作為神經(jīng)網(wǎng)絡(luò)的8個輸入節(jié)點,對輸出設(shè)置一定的門限Τ,輸出值大于T則初步判為語音段,小于T則初步判為噪聲段; 473)語音信號綜合判決:經(jīng)端點檢測的信號,如果輸出值連續(xù)10幀大于門限值Τ,則判定為語音,反之,判定為噪聲·。
【文檔編號】G10L15/08GK103854662SQ201410076588
【公開日】2014年6月11日 申請日期:2014年3月4日 優(yōu)先權(quán)日:2014年3月4日
【發(fā)明者】范建華, 王統(tǒng)祥, 呂遵明, 萬留進, 成潔 申請人:中國人民解放軍總參謀部第六十三研究所