一種基于魯棒非負(fù)矩陣分解和數(shù)據(jù)融合的無監(jiān)督語音增強(qiáng)方法
【專利摘要】本發(fā)明公開了一種基于魯棒非負(fù)矩陣分解和數(shù)據(jù)融合的無監(jiān)督語音增強(qiáng)方法,該方法對(duì)輸入的時(shí)域信號(hào)經(jīng)過加窗、分幀后,經(jīng)傅里葉變換并取模得到該語句的幅度譜;估計(jì)得到稀疏的語音成分和噪聲基矩陣W(n);估計(jì)出語音分量和噪聲分量后得到增強(qiáng)語音的估計(jì);將魯棒非負(fù)矩陣分解所得到的估計(jì),與來自譜減SS和最小均方誤差MMSE的估計(jì),經(jīng)過幾何均值濾波模塊融合,得到最終的幅度譜估計(jì);利用幅度譜估計(jì)和含噪語音的相位重構(gòu)出增強(qiáng)語音的時(shí)域信號(hào)。本發(fā)明不局限于語音內(nèi)容所屬的語言、不受限于說話人的變化、不受限于噪聲的種類,與經(jīng)典的基于平穩(wěn)性假設(shè)的譜估計(jì)算法SS和MMSE相比,本發(fā)明不再依賴于這種平穩(wěn)性假設(shè),可以較準(zhǔn)確的估計(jì)出平穩(wěn)或突變噪聲的頻譜。
【專利說明】一種基于魯棒非負(fù)矩陣分解和數(shù)據(jù)融合的無監(jiān)督語音増強(qiáng) 方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于語音信號(hào)處理領(lǐng)域,尤其涉及一種基于魯棒非負(fù)矩陣分解和數(shù)據(jù)融合 的無監(jiān)督語音增強(qiáng)方法。
【背景技術(shù)】
[0002] 語音增強(qiáng)無論對(duì)于提高語音信號(hào)的聽覺效果,還是作為前端處理提高語音識(shí)別器 的性能,都具有重要的意義。語音增強(qiáng)實(shí)施中的一個(gè)關(guān)鍵問題是噪聲估計(jì)。為了估計(jì)噪聲 的頻譜,人們提出了一些經(jīng)典的算法,如譜減(SpectrumSubtraction,SS)、最小均方誤差 (MinimumMeanSquareError,MMSE)等,并已經(jīng)廣泛應(yīng)用在語音通信中。然而,這些方法一 般基于噪聲的平穩(wěn)性假設(shè),對(duì)于非平穩(wěn)突變噪聲的頻譜估計(jì)效果很差。
[0003] 為了估計(jì)突變噪聲的頻譜,近年來基于字典學(xué)習(xí)的噪聲估計(jì)模型不斷涌現(xiàn),考慮 到功率譜或幅度譜的非負(fù)性,非負(fù)字典學(xué)習(xí)成為噪聲估計(jì)的一種熱門方法。然而,非負(fù)噪 聲字典學(xué)習(xí)一般都需要提供噪聲頻譜或語音頻譜作為先驗(yàn)知識(shí),才能取得較好的效果。如 Duan等先利用純噪聲頻譜學(xué)習(xí)出噪聲字典,再將此字典用于被該噪聲污染的語音信號(hào)的增 強(qiáng);Chen等先利用純語音頻譜學(xué)習(xí)出一個(gè)通用的語音字典,再將此字典用于被噪聲污染的 同類語音信號(hào)的增強(qiáng)。
[0004] 上述兩類方法在是否需要事先訓(xùn)練方面的特點(diǎn)為:譜減和最小均方誤差算法不需 要關(guān)于噪聲和語音的數(shù)據(jù)來實(shí)施事前訓(xùn)練一一即該類方法是無監(jiān)督的;非負(fù)字典學(xué)習(xí)方法 依賴于在噪聲或語音數(shù)據(jù)上的事前的訓(xùn)練一一即該類方法是有監(jiān)督的。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明實(shí)施例的目的在于提供一種基于魯棒非負(fù)矩陣分解和數(shù)據(jù)融合的無監(jiān)督 語音增強(qiáng)方法,旨在解決現(xiàn)有的有監(jiān)督的語音增強(qiáng)算法局限于語音內(nèi)容所屬的語言、受限 于說話人的變化受限于噪聲的種類的問題。
[0006] 本發(fā)明是這樣實(shí)現(xiàn)的,一種基于魯棒非負(fù)矩陣分解和數(shù)據(jù)融合的無監(jiān)督語音增強(qiáng) 方法是這樣實(shí)現(xiàn)的:
[0007] 步驟一、對(duì)輸入的時(shí)域信號(hào)y(η),經(jīng)過加窗、分幀后,對(duì)每幀實(shí)施短時(shí)傅里葉變換 并取模得到該語句的幅度譜Y;
[0008] 步驟二、利用魯棒非負(fù)矩陣分解模塊,估計(jì)得到稀疏的語音成分§和噪聲基矩陣 ff(n);
[0009] 步驟三、將§加權(quán),與含噪語音幅度譜Y和噪聲基矩陣W(n)-起輸入到分塊非負(fù)矩 陣分解模塊中,估計(jì)出語音分量W(S)H(S)和噪聲分量W(n)H(n),經(jīng)過維納濾波后得到增強(qiáng)語音 的估計(jì)Y;
[0010] 步驟四、將魯棒非負(fù)矩陣分解所得到的估計(jì),與來自譜減SS和最小均方誤差MMSE 的估計(jì),經(jīng)過幾何均值濾波模塊融合,得到最終的幅度譜估計(jì);
[0011] 步驟五、利用所得的幅度譜估計(jì)和含噪語音的相位,重構(gòu)出增強(qiáng)語音的時(shí)域信號(hào) V(/7)。
[0012] 進(jìn)一步,W(n)和Hω分別表示噪聲的字典矩陣和激活系數(shù)矩陣,其中(η)指代的是 噪聲,S表示含噪語音的幅度譜圖Y中去除噪聲估計(jì)W(n)H(n)后的殘留部分,W(η),Η(η)和S的 更新公式如下:
[0013] w(n)^ff(η) □((Υ%(ff(n)H(n) +S)) * (H(n))τ),
[0014] H(n) ^H(n) □((ff(n))T*(Y% (ff(n)H(n) +S))),
[0015] S-S□ (Y% (W(n)H(n)+S)),
[0016] 其中,□和%是指元素相乘和相除。
[0017] 進(jìn)一步,對(duì)S初始化的方法為:
[0018] 首先設(shè)置S= 0,然后運(yùn)行W(n)和H(n)的迭代公式若干次,從而得到W(n)和H(n)的初 始粗略估計(jì),再通過對(duì)γ和w(n)H(n)對(duì)應(yīng)元素的比值施加閾值η,
[0019] S= (Y% (ff(n)H(n)) ^n),
[0020] 來決定每個(gè)時(shí)頻點(diǎn)取ο或1,閾值η的取值大于1。
[0021] 進(jìn)一步,所述的閾值η取值為2。
[0022] 進(jìn)一步,分塊非負(fù)矩陣分解模塊以含噪語音的幅度譜Υ,干凈語音幅度譜的初步 估計(jì)δ和噪聲基矩陣w(n)為輸入,其最優(yōu)化模型為:
【權(quán)利要求】
1. 一種基于魯棒非負(fù)矩陣分解和數(shù)據(jù)融合的無監(jiān)督語音增強(qiáng)方法,其特征在于,所述 的基于魯棒非負(fù)矩陣分解和數(shù)據(jù)融合的無監(jiān)督語音增強(qiáng)方法包括: 步驟一、對(duì)輸入的時(shí)域信號(hào)y(n),經(jīng)過加窗、分幀后,對(duì)每幀實(shí)施短時(shí)傅里葉變換并取 模得到該語句的幅度譜Y; 步驟二、利用魯棒非負(fù)矩陣分解模塊,估計(jì)得到稀疏的語音成分? §和噪聲基矩陣1(11); 步驟三、將§加權(quán),與含噪語音幅度譜Y和噪聲基矩陣W(n)-起輸入到分塊非負(fù)矩陣分 解模塊中,估計(jì)出語音分量W(S)H(S)和噪聲分量W(n)H(n),經(jīng)過維納濾波后得到增強(qiáng)語音的估 計(jì)f; 步驟四、將魯棒非負(fù)矩陣分解所得到的估計(jì),與來自譜減SS和最小均方誤差麗SE的估 計(jì),經(jīng)過幾何均值濾波模塊融合,得到最終的幅度譜估計(jì); 步驟五、利用所得的幅度譜估計(jì)和含噪語音的相位,重構(gòu)出增強(qiáng)語音的時(shí)域信號(hào).〇(?)。
2. 如權(quán)利要求1所述的基于魯棒非負(fù)矩陣分解和數(shù)據(jù)融合的無監(jiān)督語音增強(qiáng)方法,其 特征在于,W(n)和H(n)分別表示噪聲的字典矩陣和激活系數(shù)矩陣,其中(n)指代的是噪聲,S 表示含噪語音的幅度譜圖Y中去除噪聲估計(jì)W(n)H(n)后的殘留部分,W(n),H(n)和S的更新公 式如下: W(n) -W(n) □ ((Y%(W(n)H(n) +S) ) * (H(n)) T), H(n)一H (n) □ ((W (n))T* (Y% (W(n)H(n)+S))), S-S□ (Y% (W(n)H(n)+S)), 其中,□和%是指元素相乘和相除。
3. 如權(quán)利要求1所述的基于魯棒非負(fù)矩陣分解和數(shù)據(jù)融合的無監(jiān)督語音增強(qiáng)方法,其 特征在于,對(duì)S初始化的方法為: 首先設(shè)置S= 0,然后運(yùn)行W(n)和H(n)的迭代公式若干次,從而得到W(n)和H(n)的初始粗 略估計(jì),再通過對(duì)Y和W(n)H(n)對(duì)應(yīng)元素的比值施加閾值n, S= (Y% (ff(n)H(n)) ^n), 來決定每個(gè)時(shí)頻點(diǎn)取〇或1,閾值n的取值大于1。
4. 如權(quán)利要求1所述的基于魯棒非負(fù)矩陣分解和數(shù)據(jù)融合的無監(jiān)督語音增強(qiáng)方法,其 特征在于,所述的閾值n取值為2。
5. 如權(quán)利要求1所述的基于魯棒非負(fù)矩陣分解和數(shù)據(jù)融合的無監(jiān)督語音增強(qiáng)方法,其 特征在于,分塊非負(fù)矩陣分解模塊以含噪語音的幅度譜Y,干凈語音幅度譜的初步估計(jì){和 噪聲基矩陣w(n)為輸入,其最優(yōu)化模型為:
其目標(biāo)函數(shù)分為兩部分的和,第一部分是含噪語音幅度譜Y與其重構(gòu)W(n)H(n)+W(s)H(s)2 間的KL散度;第二部分是以a加權(quán)后的干凈語音幅度譜的初步估計(jì)S§與其重構(gòu)W(S)H(S) 之間的KL散度,W(s),H(s)和H(n)的迭代公式如下,
6. 如權(quán)利要求1所述的基于魯棒非負(fù)矩陣分解和數(shù)據(jù)融合的無監(jiān)督語音增強(qiáng)方法,其 特征在于,所述的a=0.1。
7. 如權(quán)利要求1所述的基于魯棒非負(fù)矩陣分解和數(shù)據(jù)融合的無監(jiān)督語音增強(qiáng)方法,其 特征在于,幾何均值濾波模塊的幾何濾波采用:
【文檔編號(hào)】G10L21/0224GK104505100SQ201510005690
【公開日】2015年4月8日 申請(qǐng)日期:2015年1月6日 優(yōu)先權(quán)日:2015年1月6日
【發(fā)明者】孫蒙, 張雄偉, 李軼南 申請(qǐng)人:中國人民解放軍理工大學(xué)