本發(fā)明屬于助聽器噪聲消除算法設(shè)計領(lǐng)域,具體的說,是涉及一種基于便攜式智能終端的智能語音降噪算法,神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)算法相結(jié)合,以實現(xiàn)噪聲的高效抑制和消除功能。該算法將在助聽器芯片上實現(xiàn)并通過云端數(shù)據(jù)共享來實現(xiàn)硬件的軟升級。
背景技術(shù):
根據(jù)世界衛(wèi)生組織在2015年3月的統(tǒng)計,全世界人口的5%,也就是3.6億人,患有殘疾性聽力損失,隨著人口壽命增長和老齡化,老年性耳聾的人數(shù)不斷增加。黨和國家對老齡化人口的醫(yī)療健康十分重視,十八大報告提出“大力發(fā)展老齡服務事業(yè)和產(chǎn)業(yè)”,國務院在2015年11月發(fā)布的《關(guān)于推進醫(yī)療衛(wèi)生與養(yǎng)老服務相結(jié)合的指導意見》中要求“推動醫(yī)療衛(wèi)生服務延伸至社區(qū)、家庭,推進社區(qū)、居家養(yǎng)老,為老年人提供連續(xù)性的健康管理服務和醫(yī)療服務”。而聽力障礙嚴重影響著這些人的社會交往和個人生活質(zhì)量。對于這些聽力障礙的人群來說,通過助聽器來恢復大部分的聽覺是十分有效的一種手段。
語音是語言聲學的物理表現(xiàn),是我們?nèi)粘=涣髯畛R?、最有效、最自然的方式,也是我們思維的慣性依托。但是在現(xiàn)實生活語音通信中,不可避免的會受到周圍環(huán)境噪聲或者內(nèi)部噪聲的影響,這會對助聽器的性能以及聽力損失患者的使用體驗造成極大的影響。而在助聽器中,語音的降噪算法發(fā)揮著重要的作用,是從噪聲背景中提取有用的語音信號,抑制、降低甚至消除噪聲的干擾。語音降噪的目的主要是改善語音質(zhì)量,盡可能的消除背景噪聲,提高信噪比(signal to noise ratio,SNR),同時提高語音的自然可懂度和說話人的可辨度。
不同的噪聲環(huán)境下,對噪聲消除的算法也相應的是不同的,所以未來的助聽器降噪算法必將也是趨于智能化。即針對助聽器不同的使用環(huán)境,如噪聲(白噪聲,工廠噪聲,babble噪聲,機車噪聲等等)環(huán)境,安靜環(huán)境,或者兩者雙向的過渡環(huán)境(由噪聲環(huán)境變?yōu)榘察o環(huán)境,或者由安靜環(huán)境變?yōu)樵肼暛h(huán)境),采用不同的降噪算法或者使用相同的方法達到同樣好的降噪效果。這就需要語音降噪算法智能化,有自我學習和聯(lián)想記憶的能力,以達到在不同的使用環(huán)境下,自動識別并精確降噪的理想效果。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是為了克服現(xiàn)有技術(shù)中的不足,提供一種基于便攜式智能終端的智能語音降噪算法,本發(fā)明基于智能終端,具體分為智能終端的軟件APP開發(fā)和智能終端與數(shù)據(jù)云和助聽器三者之間的通信。語音由助聽器接受并傳輸?shù)街悄芙K端,經(jīng)終端應用處理后一部分上傳到數(shù)據(jù)云,另一部分輸出到助聽器進行進一步的處理,最后轉(zhuǎn)化為人耳能夠識別的語音信號。此外,本發(fā)明應用在智能終端(包括手機、平板電腦和智能穿戴設(shè)備等)上還能為云端數(shù)據(jù)庫提供新的數(shù)據(jù),進一步訓練得到更加準確的網(wǎng)絡(luò),然后返回至智能終端實現(xiàn)更新升級。
本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:
一種基于便攜式智能終端的智能語音降噪算法,用于助聽器、數(shù)據(jù)云端和智能終端之間的通信,助聽器從外界接收帶噪語音信號并傳輸?shù)街悄芙K端,智能終端通過智能語音降噪算法應用處理后一部分帶噪語音信號上傳到數(shù)據(jù)云端,另一部分輸出到助聽器進行進一步的處理,最后轉(zhuǎn)化為人耳能夠識別的語音信號,所述智能語音降噪算法包括以下流程步驟:
(1)通過對語音數(shù)據(jù)庫及噪聲數(shù)據(jù)庫的語音信號和噪聲數(shù)據(jù)進行特征提取,并對提取到的特征參數(shù)進行網(wǎng)絡(luò)訓練,得到成熟網(wǎng)絡(luò)作為BP神經(jīng)網(wǎng)絡(luò)的中間層;
(2)助聽器從外界接收帶噪語音信號傳輸?shù)街悄芙K端后,通過WOLA分析濾波器分析后形成有三條路徑并保存相位;
(3)第一條路徑是通過提取帶噪語音信號每一幀的特征參數(shù)作為BP神經(jīng)網(wǎng)絡(luò)的輸入信號,輸出為估計噪聲譜;第二條路徑是WOLA分析濾波器輸出的每一幀語音信號做為成熟網(wǎng)絡(luò)的輸入信號,輸出為擬合的譜減因子β;第三條路徑是提取所保存的相位;
(4)進行譜減操作,WOLA分析濾波器綜合上述三條路徑并重構(gòu)之后輸出得到增強的語音信號,即完成了智能語音降噪算法。
步驟(1)中所述語音數(shù)據(jù)庫為TIMIT語音庫,提取出的語音信號為時長為3s,采樣頻率為16kHz,單通道16位采樣的男女語音信號。
步驟(1)中所述噪聲數(shù)據(jù)庫為NoiseX92噪聲數(shù)據(jù)庫,提取的噪聲數(shù)據(jù)有白噪聲、粉色噪聲、工廠噪聲和機車噪聲。
步驟(1)中網(wǎng)絡(luò)訓練的步驟如下:
f)根據(jù)神經(jīng)網(wǎng)絡(luò)的初始輸入輸出狀態(tài),確定網(wǎng)絡(luò)的各個參數(shù):輸入個數(shù)、隱含層層數(shù),輸出個數(shù)、相鄰兩層之間的權(quán)值、隱含層和輸出層的閾值;
g)根據(jù)輸入向量x,輸入層和隱含層之間的連接權(quán)值Wij以及隱含層閾值a,按照下式得到隱含層輸出H,
式中f為隱含層激勵函數(shù),l是隱含層的節(jié)點數(shù);
輸出層的計算:根據(jù)隱層輸出H,連接權(quán)值Wjk和閾值b,按照下式計算得到神經(jīng)網(wǎng)絡(luò)的預測輸出O,
其中m是輸出層的層數(shù);
c)根據(jù)神經(jīng)網(wǎng)絡(luò)的預測輸出O和期望輸出Y,計算神經(jīng)網(wǎng)絡(luò)預測的誤差e,
ek=Y(jié)k-Ok,k=1,2,3,…,m (4-3)
d)根據(jù)神經(jīng)網(wǎng)絡(luò)預測的誤差更新網(wǎng)絡(luò)連接的權(quán)值Wij和Wjk,
式中η為學習速率;
e)達到最大迭代次數(shù)或者神經(jīng)網(wǎng)絡(luò)已經(jīng)收斂則停止網(wǎng)絡(luò)訓練。
與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)方案所帶來的有益效果是:
1.本發(fā)明是助聽器與智能終端相互協(xié)作中必不可少的一環(huán),充當了中轉(zhuǎn)站的總要角色,完成了助聽器、智能終端和數(shù)據(jù)云端中心之間的數(shù)據(jù)收集、數(shù)據(jù)處理和數(shù)據(jù)傳輸?shù)墓δ堋?/p>
2.本發(fā)明結(jié)合了當代前沿的科技,與神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)云相結(jié)合,并將助聽器的一部分功能轉(zhuǎn)移到智能終端上,節(jié)省了助聽器電池功耗,另外利用智能終端高性能的硬件電路和靈活的軟件編程,為復雜的數(shù)字信號處理提供了十分有利的擴展和升級的空間。
附圖說明
圖1是本發(fā)明算法應用的系統(tǒng)結(jié)構(gòu)示意圖。
圖2是本發(fā)明的算法結(jié)構(gòu)圖。
圖3是本發(fā)明算法的流程示意圖。
圖4-1和圖4-2分別是通過本發(fā)明算法和傳統(tǒng)算法完成的實驗結(jié)果圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明作進一步的描述:
如圖1所示為本發(fā)明算法所應用的系統(tǒng)的結(jié)構(gòu)示意圖。
本系統(tǒng)是由三個主要部分組成,即助聽器、數(shù)據(jù)云端和智能終端。助聽器的受話器從外界接收語音信號,也包括背景噪聲等干擾信號,在助聽器中進行數(shù)模轉(zhuǎn)換、WOLA分析變換之后通過無線傳輸?shù)街悄芙K端。在傳輸之前也可以進行一些語音信號的預處理,此時是不對語音進行任何的改變的,在智能終端上,根據(jù)智能語音降噪算法處理得到的判別結(jié)果和降噪?yún)?shù)進行噪聲的消除,而這兩個結(jié)果通過網(wǎng)絡(luò)傳輸?shù)皆贫?,作為神?jīng)網(wǎng)絡(luò)訓練的目標樣本。降噪后的分幀信號再通過藍牙等返回到助聽器,濾波器綜合、數(shù)模轉(zhuǎn)換后輸出為人耳可聽見的語音信號。
具體實施過程中,數(shù)字化的語音信號傳輸?shù)街悄芙K端之后進行VAD判別、譜減參數(shù)計算以及噪聲估計等一系列操作。完成之后一部分通過網(wǎng)絡(luò)上傳至云端數(shù)據(jù)庫,方便進一步的網(wǎng)絡(luò)訓練以提高準確性,另一部分通過無線通信返回到助聽器,進行WOLA綜合變換、模數(shù)轉(zhuǎn)換等。將采集到的聽力障礙患者數(shù)據(jù)上傳到云端,然后再把經(jīng)過中心服務器訓練后的網(wǎng)絡(luò)參數(shù)通過升級的方式下載到智能終端上,這樣就實現(xiàn)了軟件的更新升級,保證了應用的可靠性。
如圖2所示為本發(fā)明的算法結(jié)構(gòu)圖。從結(jié)構(gòu)上,本發(fā)明分為訓練階段和應用階段兩個部分。
訓練階段:在本階段中,我們從已有的TIMIT語音庫中挑選出若干時長為3s,采樣頻率為16kHz,單通道16位采樣的男女語音信號,從NoiseX92噪聲數(shù)據(jù)庫中挑選出白噪聲、粉色噪聲、工廠噪聲、機車噪聲等多種不同特性的噪聲,將這些語音信號隨機排列組合合成不同信噪比的帶噪語音,經(jīng)過處理后,提取出特征參數(shù)作為神經(jīng)網(wǎng)絡(luò)的訓練數(shù)據(jù),訓練結(jié)束得到的收斂網(wǎng)絡(luò)將會被應用在第二個階段。
應用階段:從外界接收到的語音信號同樣進行特征的提取,使用訓練階段得到的網(wǎng)絡(luò)可以得到估計噪聲譜及譜減參數(shù),利用噪聲的加性原理,將噪聲譜從語音譜中減去得到相對純凈的增強信號。
在本發(fā)明算法中,BP神經(jīng)網(wǎng)絡(luò)的功能是判斷和預測,所以在使用之前首先要對神經(jīng)網(wǎng)絡(luò)進行聯(lián)想記憶和預測功能的訓練。訓練步驟如下:
1.網(wǎng)絡(luò)的生成以及初始化
根據(jù)網(wǎng)絡(luò)的初始輸入輸出狀態(tài),確定網(wǎng)絡(luò)的各個參數(shù),例如輸入個數(shù),隱層層數(shù),輸出個數(shù),相鄰兩層之間的權(quán)值,隱層和輸出層的閾值,另外還有網(wǎng)絡(luò)的學習速率以及激勵函數(shù)等等。
2.隱層及輸出層的輸出計算
隱含層的計算:根據(jù)輸入向量X,輸入層和隱含層之間的連接權(quán)值Wij以及隱含層閾值a,按照下式得到隱含層輸出H。
式中f為隱含層激勵函數(shù),l是隱含層的節(jié)點數(shù)。
輸出層的計算:根據(jù)隱層輸出H,連接權(quán)值Wjk和閾值b,按照下式計算得到神經(jīng)網(wǎng)絡(luò)的輸出O。
其中m是輸出層的層數(shù)。
3.誤差計算
根據(jù)網(wǎng)絡(luò)的預測輸出O和期望輸出Y,計算網(wǎng)絡(luò)預測的誤差e。
ek=Y(jié)k-Ok,k=1,2,3,…,m (4-3)
4.權(quán)值閾值更新
根據(jù)網(wǎng)絡(luò)預測的誤差更新網(wǎng)絡(luò)連接的權(quán)值Wij和Wjk。
式中η為學習速率。
5.判斷是否結(jié)束
達到最大迭代次數(shù)或者神經(jīng)網(wǎng)絡(luò)已經(jīng)收斂則停止訓練結(jié)束仿真。
如圖3所示為本發(fā)明的算法流程示意圖:助聽器從外界接收帶噪語音信號傳輸?shù)街悄芙K端后,通過WOLA分析濾波器分析后形成有三條路徑;首先帶噪語音進入后,利用人耳對語音信號相位不敏感的特性,通過WOLA分析濾波器分析后保存相位,以便合成時使用;然后,通過提取每一幀的特征參數(shù),做為網(wǎng)絡(luò)輸入,輸出為估計的噪聲譜;WOLA分析濾波器輸出的每一幀語音信號做為網(wǎng)絡(luò)輸入,輸出為擬合的譜減因子β。最后進行譜減操作,WOLA綜合濾波器重構(gòu)之后輸出。
圖4-1和4-2分別是本發(fā)明算法與傳統(tǒng)算法的降噪后波形的比較示意圖,可以清晰地看出,傳統(tǒng)方法降噪后,由于存在過減狀態(tài),所以殘留了很多的音樂噪聲,而本發(fā)明中的算法中的音樂噪聲則小的多。
表1是基于信噪比指標的比較,數(shù)據(jù)表明,兩者在信噪比方面效果是相當?shù)?,傳統(tǒng)算法雖然看起來性能更好一點,但是沒有考慮存在的嚴重過減問題,以語音失真換取高的信噪比是得不償失的。所以本發(fā)明算法在這方面處理的更為合適。
表1
總體上,本發(fā)明結(jié)合了當代前沿的科技,與神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)云相結(jié)合,并將助聽器的一部分功能轉(zhuǎn)移到智能終端上,節(jié)省了助聽器電池功耗,另外利用智能終端高性能的硬件電路和靈活的軟件編程,為復雜的數(shù)字信號處理提供了十分有利的擴展和升級的空間。
進一步的,本實施例中所使用的特征參數(shù)是MFCC(Mel Frequency Cepstrum Coefficient),即Mel頻率倒譜系數(shù),該系數(shù)是基于人的聽覺機理,依據(jù)人的聽覺實驗結(jié)果來分析語音頻譜的,音頻分析中,MFCC參數(shù)是經(jīng)典參數(shù)之一;所用的神經(jīng)網(wǎng)絡(luò)是現(xiàn)有的發(fā)展比較成熟、應用十分廣泛的BPNN(Back Propagation Neural Network),同傳統(tǒng)的網(wǎng)絡(luò)相仿,并不是深層網(wǎng)絡(luò),有輸入中間和輸出層構(gòu)成,權(quán)值和閾值以及傳遞函數(shù)的選擇都和實際應用相關(guān)。
以上所述僅是本發(fā)明的優(yōu)選實施方式,應當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明技術(shù)原理的前提下,還可以做出若干改進和潤飾,但這些改進和潤飾也應視為本發(fā)明的保護范圍。