專利名稱::使用語(yǔ)音信號(hào)的諧波估計(jì)噪聲的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及聲音信號(hào)處理,更具體地說(shuō),涉及一種用于估計(jì)包括在聲音信號(hào)中的噪聲的方法和設(shè)備。
背景技術(shù):
:在用于語(yǔ)音通信或需要語(yǔ)音增強(qiáng)的語(yǔ)音識(shí)別的聲音信號(hào)處理中,估計(jì)并去除包括在語(yǔ)音信號(hào)中的噪聲很重要。因此,已經(jīng)提出并使用用于估計(jì)噪聲的方案。例如,為了估計(jì)噪聲,一個(gè)方案首先在一定的時(shí)間間隔(即,時(shí)間段)估計(jì)噪聲,在所述一定的時(shí)間間隔,在輸入語(yǔ)音之前語(yǔ)音不存在,并且一旦輸入語(yǔ)音,用于減少估計(jì)的噪聲的信號(hào)被施加。在另一方案中,通過(guò)使用語(yǔ)音激活檢測(cè)(VAD)將非語(yǔ)音和語(yǔ)音區(qū)進(jìn)行區(qū)分,并隨后在非語(yǔ)音時(shí)間段估計(jì)噪聲。還存在一種基于最小統(tǒng)計(jì)量的噪聲估計(jì)方案,其中,基于在語(yǔ)音時(shí)間段中的語(yǔ)音頻i普能量大于噪聲的頻譜能量以及語(yǔ)音字的發(fā)音時(shí)間段與0.7秒至1.3秒相應(yīng)的特性,在給定時(shí)間段中表示最小能量的值被估計(jì)為是噪聲。在另一方案中通過(guò)關(guān)于語(yǔ)音是否存在的概率進(jìn)行近似確定,以在語(yǔ)音存在概率(VPP)較大的時(shí)間段期間估計(jì)噪聲,相反,在VPP較小的時(shí)間段期間不估計(jì)噪聲。然而,上述傳統(tǒng)噪聲估計(jì)方案的缺陷在于它們不能夠檢測(cè)非平穩(wěn)噪聲的改變,以反映噪聲估計(jì)的改變。例如,不能有效地估計(jì)具有較短持續(xù)時(shí)間、但是還具有與語(yǔ)音能量類似的大能量的錯(cuò)誤噪聲(諸如,在實(shí)際生活中突然產(chǎn)生的周圍的音頻聲音或包括關(guān)門時(shí)產(chǎn)生的聲音、腳步聲等的噪聲)。因此,出現(xiàn)的問(wèn)題在于錯(cuò)誤噪聲估計(jì)導(dǎo)致殘留噪聲的問(wèn)題。殘留噪聲導(dǎo)致在語(yǔ)音通信中用戶收聽不方便或語(yǔ)音識(shí)別裝置的故障,這使語(yǔ)音識(shí)別產(chǎn)品的性能下降。傳統(tǒng)噪聲估計(jì)方案具有上述問(wèn)題的原因在于當(dāng)參照在先前處理的語(yǔ)音時(shí)間段中的結(jié)果處理隨后語(yǔ)音信號(hào)的方案時(shí),在相關(guān)時(shí)間段可存在與先前噪聲不同的噪聲,當(dāng)通過(guò)近似預(yù)測(cè)噪聲存在的時(shí)間段僅在相關(guān)時(shí)間段期間估計(jì)噪聲的方案時(shí),準(zhǔn)確地估計(jì)噪聲存在的時(shí)間段存在限制。而且,由于通過(guò)使用各個(gè)信號(hào)的能量大小之間的差與信噪比(SNR)對(duì)語(yǔ)音和非語(yǔ)音進(jìn)行區(qū)分的方案,即,當(dāng)如果諸如各個(gè)信號(hào)的能量大小之間的差與信噪比(SNR)的值較大,則識(shí)別時(shí)間段為語(yǔ)音時(shí)間段的方案時(shí),以及當(dāng)如果該值較小,則將時(shí)間段看作非語(yǔ)音時(shí)間段的方案時(shí),如果具有與語(yǔ)音的能量的大小類似的大小的能量的周圍噪聲被輸入,則噪聲估計(jì)沒有被實(shí)現(xiàn),因此,噪聲頻譜沒有被更新。
發(fā)明內(nèi)容因此,本發(fā)明致力于解決上述發(fā)生在傳統(tǒng)方法中的問(wèn)題,并且本發(fā)明提供一種在語(yǔ)音信號(hào)處理中估計(jì)非平穩(wěn)噪聲并去除估計(jì)的非平穩(wěn)噪聲的方法和設(shè)備。而且,本發(fā)明提供一種用于估計(jì)具有與語(yǔ)音能量的大小類似的大小的能量的噪聲并去除估計(jì)的噪聲的方法和設(shè)備。此外,本發(fā)明提供一種有效地估計(jì)噪聲并去除估計(jì)的噪聲的方法和設(shè)備。根據(jù)本發(fā)明的一方面,提供一種通過(guò)使用語(yǔ)音信號(hào)的諧波來(lái)估計(jì)噪聲的方法,包括在輸入聲音信號(hào)的幀中估計(jì)諧波分量;使用估計(jì)的諧波分量,計(jì)算關(guān)于輸入的聲音信號(hào)的幀的語(yǔ)音存在概率(VPP);根據(jù)計(jì)算的VPP,確定如下定義的估計(jì)噪聲頻語(yǔ)所需的等式的權(quán)值;以及使用確定的權(quán)值和估計(jì)噪聲頻語(yǔ)所需的等式,估計(jì)噪聲頻譜,并更新噪聲頻i普,N(k,t)=(x(k,t)N(k,t-1)+(1-a(k,t))Y(k,t),其中,N(k,t)表示噪聲頻譜,Y(k,t)表示輸入信號(hào)的頻譜,索引k表示頻率索引,索引t表示幀索引,以及a(k,t)表示權(quán)值。根據(jù)本發(fā)明的另一方面,提供一種通過(guò)使用語(yǔ)音信號(hào)的諧波估計(jì)噪聲的設(shè)備,包括諧波估計(jì)單元,估計(jì)在輸入聲音信號(hào)的幀中的諧波分量,并輸出估計(jì)的諧波分量;語(yǔ)音估計(jì)單元,使用估計(jì)的諧波分量,計(jì)算關(guān)于輸入聲音信號(hào)的幀的語(yǔ)音存在概率(VPP),并輸出計(jì)算的VPP;權(quán)值確定單元,根據(jù)計(jì)算的VPP,確定如下定義的估計(jì)噪聲譜所需的等式的權(quán)值,并輸出確定的權(quán)值;以及噪聲頻譜更新單元,使用確定的權(quán)值和估計(jì)噪聲頻譜所需的等式,估計(jì)噪聲頻鐠,并更新噪聲頻語(yǔ),N(k,t)=a(k,t)N(k,t—1)+(1—a(k,t))Y(k,t),其中,N(k,t)表示噪聲頻譜,Y(k,t)表示輸入信號(hào)的頻譜,索引k表示頻率索引,索引t表示幀索引,以及CC(k,t)表示權(quán)值。通過(guò)下面結(jié)合附圖的詳細(xì)描述,本發(fā)明的上述和其他示例性特點(diǎn)、方面和優(yōu)點(diǎn)將會(huì)變得更加清楚,其中圖1是示出根據(jù)本發(fā)明的實(shí)施例的用于估計(jì)噪聲的設(shè)備的配置的框圖;圖2是示出根據(jù)本發(fā)明的實(shí)施例的估計(jì)噪聲的處理的流程圖;圖3A、圖3B和圖3C分別示出根據(jù)本發(fā)明的實(shí)施例的功率頻語(yǔ)、線性預(yù)測(cè)系數(shù)(LPC)頻譜和諧波頻語(yǔ)圖的示例;圖4是根據(jù)本發(fā)明實(shí)施例的估計(jì)噪聲頻譜所需的等式的權(quán)值的坐標(biāo)圖;以及圖5A至圖5D分別示出從以現(xiàn)有方案和根據(jù)本發(fā)明實(shí)施例實(shí)現(xiàn)的噪聲頻譜估計(jì)獲得的頻率示圖的示例。具體實(shí)施方式以下,參照附圖來(lái)詳細(xì)說(shuō)明本發(fā)明的示例性實(shí)施例。下一描述包括諸如特定配置組件的細(xì)節(jié),提出這些細(xì)節(jié)以支持對(duì)本發(fā)明的更加全面的理解,并且本領(lǐng)域普通技術(shù)人員將清楚,可對(duì)本發(fā)明的范圍中的細(xì)節(jié)做出形式上的指定改變和修改。此外,在本發(fā)明的以下描述中,省略合并與此的已知的功能和結(jié)構(gòu)的詳細(xì)描述,以避免使得本發(fā)明的主體不清楚。人類為了發(fā)出元音,必須產(chǎn)生聲帶的振動(dòng),并且振動(dòng)在頻域以諧波的形式出現(xiàn)。而且,諧波的分量具有以下特性即使在噪聲環(huán)境下,諧波的分量的大部分屬性都保留。在本發(fā)明中,通過(guò)使用元音和諧波的特性,根據(jù)多少諧波分量存在于聲音信號(hào),來(lái)估計(jì)合適的噪聲頻語(yǔ),并且更新噪聲頻語(yǔ)的值。此時(shí),使用等式(1)估計(jì)噪聲頻譜。<formula>formulaseeoriginaldocumentpage6</formula>在此,N(k,t)表示噪聲頻語(yǔ),Y(k,t)表示輸入信號(hào)的頻譜,k表示頻率索引,t表示幀索引。上述等式(1)與在最小值控制的遞歸平均(MCRA)噪聲估計(jì)方案中用于估計(jì)噪聲頻語(yǔ)的等式相應(yīng)。在本發(fā)明中,基于通過(guò)使用在輸入的聲音信號(hào)中檢測(cè)的諧波來(lái)估計(jì)的語(yǔ)音存在概率(VPP),調(diào)整上述等式(1)的權(quán)值a(k,t),接著估計(jì)噪聲頻鐠。下面參照?qǐng)D1描述以這種方式應(yīng)用本發(fā)明的用于估計(jì)噪聲的設(shè)備。如圖1所示,用于估計(jì)噪聲的設(shè)備(即,噪聲估計(jì)設(shè)備)包括聲音信號(hào)輸入單元10、諧波估計(jì)單元20、語(yǔ)音估計(jì)單元30、權(quán)值確定單元40和噪聲頻語(yǔ)更新單元50。通過(guò)使用具有預(yù)定長(zhǎng)度的漢明窗,聲音信號(hào)輸入單元10將輸入聲音信號(hào)劃分為幀。例如,通過(guò)使用長(zhǎng)度為32毫秒的漢明窗,聲音信號(hào)可被劃分為幀,此時(shí),漢明窗的移動(dòng)時(shí)間段可被設(shè)置為16毫秒。由聲音信號(hào)輸入單元10劃分為幀的聲音信號(hào)輸出到諧波估計(jì)單元20。諧波估計(jì)單元20從以幀為單位的輸入的聲音信號(hào)提取諧波分量,并將提取的諧波分量輸出到語(yǔ)音估計(jì)單元30。如上指示,為了發(fā)出元音,產(chǎn)生聲帶的振動(dòng),并且該振動(dòng)在頻域內(nèi)以諧波的形式出現(xiàn)。為了找到諧波,必須去除與確定人類發(fā)出的元音的類型的聲道形狀有關(guān)的分量。對(duì)元音來(lái)說(shuō),相應(yīng)于聲帶的振動(dòng)信號(hào)和聲道的形狀,元音被表示為脈沖響應(yīng)的巻積,并且在頻域以乘法的形式容易地表示脈沖響應(yīng)的巻積。從而諧波估計(jì)單元20可基于元音的特性估計(jì)在輸入聲音信號(hào)中的諧波,根據(jù)本發(fā)明的實(shí)施例,諧波估計(jì)單元20包括LPC頻譜單元21、功率頻i普單元22和諧波檢測(cè)單元23。LPC頻語(yǔ)單元21將從聲音信號(hào)輸入單元IO提供的以幀為單位的聲音信號(hào)轉(zhuǎn)換為L(zhǎng)PC頻譜,并將LPC頻譜輸出到諧波檢測(cè)單元23。功率頻譜單元22將從聲音信號(hào)輸入單元10提供的以幀為單位的聲音信號(hào)轉(zhuǎn)換為功率頻語(yǔ),并將功率頻i普輸出到諧波檢測(cè)單元23。通過(guò)使用輸入的LPC頻語(yǔ)和輸入的功率頻i普,諧波檢測(cè)單元23檢測(cè)在聲音信號(hào)的相關(guān)幀中的諧波分量,并將檢測(cè)的諧波分量輸出到語(yǔ)音估計(jì)單元30。即,諧波檢測(cè)單元23將LPC頻語(yǔ)劃分為功率頻語(yǔ),并隨后檢測(cè)諧波分量。這種頻語(yǔ)的各個(gè)示例在分別示出根據(jù)本發(fā)明的實(shí)施例的功率頻語(yǔ)、線性預(yù)測(cè)系數(shù)(LPC)頻語(yǔ)和諧波頻譜圖的圖3A至圖3C中示出。參照?qǐng)D3C的諧波頻譜圖,可理解當(dāng)以頻語(yǔ)的形式表示聲音信號(hào)時(shí),諧波以分別具有一定的長(zhǎng)度的條紋的型形狀出現(xiàn),并且即使在噪聲環(huán)境下也能保留相當(dāng)大的部分的形狀。然而,對(duì)諧波頻語(yǔ)圖的檢查揭示語(yǔ)音周圍的噪聲導(dǎo)致存在不表示諧波而在頻譜圖具有值的部分(即,除了表示語(yǔ)音的部分之外的其他部分中保留白色的部分)。為了去除白色部分,諧波檢測(cè)單元23啟用具有適當(dāng)值的掩蔽(mask)。通過(guò)該處理檢測(cè)諧波的諧波估計(jì)單元20將檢測(cè)的諧波輸出到語(yǔ)音估計(jì)單元30。語(yǔ)音估計(jì)單元30使用輸入的諧波分量并估計(jì)VPP。根據(jù)本發(fā)明的實(shí)施例,語(yǔ)音估計(jì)單元30計(jì)算局部語(yǔ)音存在概率(LVPP)和全局語(yǔ)音存在概率(GVPP),并計(jì)算VPP,隨后將VPP提供給權(quán)值確定單元40?;谳斎氲腣PP,權(quán)值確定單元40確定等式(1)中的權(quán)值a(k,t)。如在圖3C的諧波頻鐠圖,諧波分量以條紋的形狀出現(xiàn)。由于除了表示諧波的部分之外具有有效值的另一部分與不尋常的部分相應(yīng),因此,當(dāng)使用等式(l)更新噪聲頻i普時(shí),等式(1)中的權(quán)值a(k,t)必須是較小的值,與表示諧波的部分有關(guān)的權(quán)值a(k,t)接近'T,,從而語(yǔ)音頻譜不用于更新噪聲頻譜。因此,用通過(guò)表1定義的參考點(diǎn)確定根據(jù)GVPP值和LVPP值的語(yǔ)音潛力權(quán)值a(k,t)。在以下的表l中,通過(guò)將圖3C的諧波頻譜圖的結(jié)果值進(jìn)行歸一化,LVPP具有"0"和'T,之間的值。而且,逐個(gè)幀添加諧波頻語(yǔ)圖205的結(jié)果值,并隨后歸一化為GVPP具有"0"和"1"之間的值的結(jié)果。表1<table>tableseeoriginaldocumentpage8</column></row><table>在上述表1中,可通過(guò)參考值確定GVPP和LVPP的值。然后,通過(guò)使用以下定義的等式(2)計(jì)算權(quán)值a(k,t)。=1--7-^-^.......(2)1+exp(—20x(丄FP尸OM)+0.5)x(0.3—等式(2)可被表示為如圖4所示的圖形,圖4是根據(jù)本發(fā)明的實(shí)施例的估計(jì)噪聲頻譜所需的等式的權(quán)值的圖形。權(quán)值計(jì)算單元40將確定的權(quán)值輸出到噪聲頻譜更新單元50。隨后,通過(guò)使用輸入權(quán)值和等式(1),噪聲頻譜更新單元50估計(jì)噪聲頻譜,并更新直到先前幀估計(jì)的噪聲頻語(yǔ)的值。在圖2中示出上述噪聲估計(jì)設(shè)備的操作處理。如圖2所示,在步驟101,噪聲估計(jì)設(shè)備將輸入聲音信號(hào)劃分為幀,并進(jìn)行步驟103。在步驟103,噪聲估計(jì)設(shè)備估計(jì)每個(gè)幀的諧波,并進(jìn)行步驟105。在步驟105,噪聲估計(jì)設(shè)備使用估計(jì)的諧波以估計(jì)VPP,并進(jìn)行步驟107以基于估計(jì)的VPP確定等式(1)的權(quán)值。在步驟109,噪聲估計(jì)設(shè)備使用確定的權(quán)值估計(jì)噪聲頻語(yǔ),更新噪聲頻語(yǔ),并完成操作處理。通過(guò)上述處理估計(jì)的噪聲頻語(yǔ)用于從輸入聲音信號(hào)去除噪聲。如上所述,在本發(fā)明中,聲音信號(hào)的諧波分量用于計(jì)算語(yǔ)音信號(hào)將在聲音信號(hào)中存在的概率,基于計(jì)算的概率確定等式(1)的權(quán)值以估計(jì)噪聲頻譜,因此,權(quán)值具有比傳統(tǒng)系統(tǒng)中更大的范圍。即,可理解,在傳統(tǒng)最小值控制的遞歸平均(MCRA)方案中,權(quán)值a(k,t)的范圍與0.95^a(yM)"相應(yīng),而根據(jù)本發(fā)明,權(quán)值a(k,t)的范圍與0.5^a(A:,0^1相應(yīng)。因此,如圖5A至圖5D所示,將根據(jù)本發(fā)明估計(jì)的噪聲頻語(yǔ)與在傳統(tǒng)MCRA方案中獲得的噪聲頻譜進(jìn)行比較,圖5A至圖5D是示出以現(xiàn)有方案和根據(jù)本發(fā)明的實(shí)施例實(shí)現(xiàn)的基于噪聲頻譜估計(jì)所繪制的示圖的示例。參照?qǐng)D5C,當(dāng)包括在噪聲信號(hào)211中的噪聲213如圖5A所示時(shí),可理解,與按照MCRA方案估計(jì)的噪聲頻譜215(圖5C)比較,通過(guò)使用根據(jù)本發(fā)明的諧波分量估計(jì)的噪聲頻譜217(圖5D)更加類似于原始噪聲213(圖5B)。而且,如果產(chǎn)生具有其大小相當(dāng)于語(yǔ)音能量的大小的非平穩(wěn)噪聲,則SNR用作確定權(quán)值的因子的傳統(tǒng)方案在處理噪聲的過(guò)程中將噪聲當(dāng)作語(yǔ)音,而在本發(fā)明中諧波用作確定權(quán)值的因子,從而估計(jì)非平穩(wěn)噪聲并更新噪聲頻譜。將如在本發(fā)明中公開從而用于上述操作配置的示例性實(shí)施例的優(yōu)點(diǎn)和作用描述為如下。如上所述,根據(jù)本發(fā)明,聲音信號(hào)的諧波分量用于計(jì)算語(yǔ)音信號(hào)將在聲音信號(hào)中存在的概率,基于計(jì)算的概率確定噪聲頻譜估計(jì)等式的權(quán)值,以估計(jì)噪聲頻語(yǔ),因此,權(quán)值可具有比傳統(tǒng)系統(tǒng)中更大的范圍。而且,由于諧波用作確定權(quán)值的因子,因此使用非平穩(wěn)噪聲的估計(jì)更新噪聲頻錯(cuò)。盡管參照本發(fā)明的示例性實(shí)施例示出和描述了本發(fā)明,本領(lǐng)域技術(shù)人員將理解,在不脫離本發(fā)明的精神和范圍的情況下,可在形式和細(xì)節(jié)上做出各種改變。因此,本發(fā)明的精神和范圍不能由描述的本發(fā)明的實(shí)施例限定,而是由權(quán)利要求及其等同物限定。權(quán)利要求1、一種通過(guò)使用語(yǔ)音信號(hào)的諧波估計(jì)噪聲的方法,所述方法包括步驟(a)在輸入聲音信號(hào)的幀中估計(jì)諧波分量;(b)使用估計(jì)的諧波分量,計(jì)算關(guān)于輸入的聲音信號(hào)的幀的VPP;(c)根據(jù)計(jì)算的VPP確定估計(jì)噪聲頻譜所需的等式的權(quán)值N(k,t)=α(k,t)N(k,t-1)+(1-α(k,t))Y(k,t),其中,N(k,t)表示噪聲頻譜,Y(k,t)表示輸入聲音信號(hào)的頻譜,k表示頻率索引,t表示幀索引,以及α(k,t)表示權(quán)值;以及d通過(guò)使用確定的權(quán)值和等式來(lái)估計(jì)噪聲頻譜,并更新所述噪聲頻譜。2、如權(quán)利要求l所述的方法,其中,在步驟(c)中,如果VPP大于特定表示值,則權(quán)值被確定為具有近似為'T,的值,如果VPP小于特定表示值,則權(quán)值被確定為具有近似為"0"的值。3、如權(quán)利要求2所述的方法,其中,在步驟(b)中,諧波分量用于計(jì)算LVPP和GVPP,從而計(jì)算VPP。4、如權(quán)利要求3所述的方法,其中,權(quán)值由下式確定"(")_1_1+exp(—20x(丄KP尸(A:,0+0.5)x(0.3—GKPP(A,O))。5、一種使用語(yǔ)音信號(hào)的諧波估計(jì)噪聲的設(shè)備,所述設(shè)備包括諧波估計(jì)單元,在輸入聲音信號(hào)的幀中估計(jì)諧波分量,并輸出估計(jì)的諧波分量;語(yǔ)音估計(jì)單元,使用估計(jì)的諧波分量,計(jì)算關(guān)于輸入聲音信號(hào)的幀的VPP,并輸出計(jì)算的VPP;權(quán)值確定單元,根據(jù)計(jì)算的VPP,確定估計(jì)噪聲頻鐠所需的等式的權(quán)值,并輸出確定的權(quán)值N(k,t)=a(k,t)N(k,t-l)+(1—a(k,t))Y(k,t),其中,N(k,t)表示噪聲頻譜,Y(k,t)表示輸入聲音信號(hào)的頻譜,k表示頻率索引,t表示幀索引,以及a(k,t)表示權(quán)值;以及噪聲頻語(yǔ)更新單元,通過(guò)使用確定的權(quán)值和等式來(lái)估計(jì)噪聲頻語(yǔ),并更新所述噪聲頻譜。6、如權(quán)利要求5所述的設(shè)備,還包括聲音信號(hào)輸入單元,將輸入聲音信號(hào)劃分為分別具有預(yù)定長(zhǎng)度的幀,并隨后輸出所述幀。7、如權(quán)利要求6所述的設(shè)備,其中,如果VPP大于特定表示值,則權(quán)值確定單元確定權(quán)值具有近似為'T,的值,如果VPP小于特定表示值,則權(quán)值確定單元確定權(quán)值為具有近似為"0"的值。8、如權(quán)利要求7所述的設(shè)備,其中,語(yǔ)音估計(jì)單元使用諧波分量來(lái)計(jì)算LVPP和GVPP,從而計(jì)算VPP。9、如權(quán)利要求8所述的設(shè)備,其中,權(quán)值確定單元使用下式確定權(quán)值全文摘要公開了一種使用語(yǔ)音信號(hào)的諧波估計(jì)噪聲的方法和設(shè)備。所述方法包括在輸入聲音信號(hào)的幀中估計(jì)諧波分量;使用估計(jì)的諧波分量,計(jì)算關(guān)于輸入的聲音信號(hào)的幀的語(yǔ)音存在概率(VPP);根據(jù)計(jì)算的VPP確定估計(jì)噪聲頻譜所需的等式的權(quán)值;使用確定的權(quán)值和估計(jì)噪聲頻譜所需的等式,估計(jì)噪聲頻譜并更新所述噪聲頻譜。文檔編號(hào)G10L21/0208GK101271686SQ200810085858公開日2008年9月24日申請(qǐng)日期2008年3月21日優(yōu)先權(quán)日2007年3月22日發(fā)明者安盛柱,尹現(xiàn)珍,裴正勛,金炫秀,高漢錫申請(qǐng)人:三星電子株式會(huì)社;高麗大學(xué)校產(chǎn)學(xué)協(xié)力團(tuán)