專利名稱:一種自動嗓音諧噪比分析方法
技術領域:
本發(fā)明屬于語音信號處理技術領域,具體地說,,本發(fā)明涉及一種自 動嗓音評估中的諧噪比分析方法。
背景技術:
諧噪比(Harmonic to Noise Ration, HNR)是對長元音進行分析評估的主 要指標。傳統(tǒng)的諧噪比計算方法是先在時域上利用周期信號的自相關性, 估計出信號基頻的周期。然后根據(jù)基頻周期的位置,將基頻周期附近相關 性強的部分作為諧波成份,而將相關性弱或不相關的部份作為噪聲來計算 諧噪比。這種方法存在著一些缺陷1.對于一些病變程度較為嚴重的嗓音 樣本或者較為沙p亞的嗓音樣本來說,基頻周期的估計很容易出現(xiàn)偏差,有
時甚至很難估計出樣本的周期,這樣就無法計算出有效的諧噪比數(shù)值;2. 這些諧波計算是在普通時頻域上進行的,這與真實的人耳感知存在著極大 的差別,因此在實際應用中,最后的計算結果與嗓音專家進行的主觀評測 打分匹配并不合理。
在人類聽覺的研究方面,聽覺場景分析(CASA)—直以來是科研工作者 所關注的方面。聽覺場景分析可以利用聲音的各種特性(時域,頻域,空間 位置等)對現(xiàn)實世界的混合聲音進行分解,使其成份歸屬于各自的物理聲 源。聽覺場景分析系統(tǒng)一般通過時頻分析模擬人耳對各頻率的不同反應, 產生一個二維時頻分布圖,將輸入信號分解為系列感官元素。然后根據(jù)這 些感官元素的分析,按照不同聲源進行分組,得到對某個聲源信號進行感 知的"聽覺流"(Auditory Stream),最后經過重新組合后以達到聲源分離的 效果。
另外在樣本的選擇上,為了提高樣本參數(shù)的穩(wěn)定性,普通系統(tǒng)一般需 要人工手動切除錄音樣本頭部和尾部不穩(wěn)定的部分,然后多次反復測試求 平均。這種方法加入了人工的干預,不僅費時費力,而且會對結果造成主 觀影響而使計算過程很難復現(xiàn)。
發(fā)明內容
本發(fā)明的目的是利用聽覺場景(CASA)分析中的聽覺流的概念,將不同 語音樣本中的諧波成份看成是不同的聽覺流成份加以分離提取從而計算 出諧噪比,從而提供一種更準確魯棒的自動嗓音諧噪比分析方法。
為實現(xiàn)上述發(fā)明目的,本發(fā)明提供的自動嗓音諧噪比分析方法包括如 下步驟(參考圖2):
1) 從錄音中切分出進行諧噪比分析的有效語音段;
2) 基于聽覺模型,對所述語音段進行濾波處理,然后計算聽覺模型 中各濾波器通道中的在時域和頻域(在本發(fā)明的一個實施例中頻域是指耳蝸 頻譜域)二維的能量相關系數(shù);
3 )設定所述相關系數(shù)的閾值,當步驟2 )得出的相關系數(shù)大于該閾值時, 則該相關系數(shù)所對應的時域和頻域坐標點為諧波成份,否則,該相關系數(shù)所 對應的時域和頻域坐標點為噪音成份,最后計算諧波成^f分與噪音成份的比值 得出諧噪比。
上述技術方案中,所述步驟2)中,所述聽覺模型包括中耳、外耳模 型和耳蝸模型。
上述技術方案中,所述耳蝸模型是由一組Ga隱atone濾波器構成。 上述技術方案中,所述步驟l)中,切分所述有效語音段的方法如下 步驟11 )利用基于能量語音活動檢測技術找出多段語音的起始點和終止 點位置;
步驟12)對每段語音分別進行分幀,對于每一幀,計算該幀能量大小與 整個能量的平均值;計算該幀的能量變化率;
步驟13)計算出能量值和能量值變化率的平均值;
步驟14)分別找出能量大小和能量變化率同時在平均值周圍一定閾值 范圍內的幀,這些幀中的第 一幀和最后一幀分別為所述有效語音段的啟示幀 和終止幀。
上述4支術方案中,所述步驟2)中,所述能量相關系數(shù)需進行歸一化處 理,所述步驟3)中,所述閾值設定為0.9915。
上述技術方案中,所述步驟3)中,還包括對多個樣本的諧噪比進行加 權平均,得到最終的諧噪比值。上述^t術方案中,還包括利用步驟3)所得的諧噪比進行病變嗓音評估。
本發(fā)明相對于現(xiàn)有的諧噪比分析方法,具有如下技術效果
1、 傳統(tǒng)方法使用基頻檢測來判斷諧波成份,因此計算結果的準確程 度依賴于基頻位置,對于一些基頻檢測不準甚至難以檢測的病變程度嚴重 或者比較沙啞的嗓音樣本,傳統(tǒng)方法無能為力。本發(fā)明使用自相關圖表征 的時域和耳蝸譜域通道之間相關性來判斷諧波成份,則不受基頻檢測位置 的影響,能夠更準確更魯棒的檢測出諧波成份。
2、 諧波成份是在耳蝸i普上進行的計算,與人耳的真實聽覺更加匹 配,與嗓音醫(yī)學專家的經驗打分更加吻合。
3、 相對于傳統(tǒng)的計算方法用手工選擇樣本中較為穩(wěn)定部分的方法, 本發(fā)明可以自動選擇出樣本穩(wěn)定部分,排除了人工干預,省時省力,而且 提高了評估結果的客觀度。
4、 相對于傳統(tǒng)的人工選擇穩(wěn)定樣本的方法,本發(fā)明采用了根據(jù)樣本 長度求加權平均的方法,排除了人為的干擾因素,提高了樣本利用率,從 而更符合實際特性。
以下,結合附圖來詳細說明本發(fā)明的實施例,其中
圖1是25通道Gammatone濾波器組響應圖2是本發(fā)明的自動嗓音諧噪比分析方法的總體框圖3是本發(fā)明一個實施例中自動嗓音諧噪比分析方法的流程圖。
具體實施例方式
本發(fā)明的總體構思如下在具體的錄音過程中,一4殳出于穩(wěn)定性的考 慮,傳統(tǒng)的方法會讓患者反復發(fā)音3-5遍,然后由嗓音專家選取其中一個 較為穩(wěn)定的作為樣本分析,而拋棄了其它的樣本。這樣不僅引入了人為因 素影響結果,同時也丟棄了其它反應嗓音特征的樣本。本發(fā)明將所有樣本 都利用起來。 一般的嗓音評測錄音都在很安靜的環(huán)境下完成,為此本發(fā)明 選擇了基于能量的語音活動檢測器(VAD)來找出語音的起始點和終止點, 然后將它們切分出來作為此人的幾個嗓音樣本備用。對于每個樣本來說,由于患者發(fā)音會從開始從小變大,穩(wěn)定一段時間 后再由大變小,最后終止發(fā)音。傳統(tǒng)方法一般會由嗓音專家選取此樣本中 間的穩(wěn)定部分進行分析,這樣增加了人為的干擾并且費時費力。我們利用 能量大小和變化率與他們的平均值作為依據(jù),來判斷出出樣本頭部和尾部 的穩(wěn)定位置,自動選擇樣本中間的穩(wěn)定部分進行分析。
對于樣本的諧波分析來說,普通做法是利用信號的自相關性算出樣本 的基頻位置,然后找出相應的諧波位置的成份作為諧噪比計算的諧波部 份,其余的部分作為噪聲部分,最后求得諧噪比。但由對諧噪比計算結果 的評判 一般是采取與嗓音醫(yī)學專家對此的打分進行匹配度分析來進行的, 而人耳的聽覺譜與普通等間隔的傅立葉變換頻譜有很大差別,所以常常造 成評估結果的偏差。因此本發(fā)明將信號在聽覺譜域進行分解,依據(jù)聽覺場
景分析(CASA)中聽覺流的概念得出信號的相關圖,在設定閾值后判斷出哪 些時頻塊屬于諧波成份哪些屬于噪聲成份,最后計算出諧噪比。
重復上述過程,得出此人若干樣本的每個諧噪比值,然后根據(jù)若干樣 本不同的長度做加權平均以求得最后的數(shù)值。
實施例1
本實施例的整體流程可參考圖3,下面分別描述本實施例涉及的各個 技術細節(jié)。
1. 切分數(shù)據(jù),自動找出每段發(fā)音的穩(wěn)定部分,包括
1) 利用基于能量語音活動檢測技術(VAD)找出多段語音的起始點和終止 點位置,對每段語音進行分別分析;
2) 分幀,對于每一幀,計算該幀能量大小與整個能量的平均值,設信號 為S,共分N幀,每幀有m個樣點,則第n幀的能量E(n)為
£O) = t0S((>7_l)xm + /))2
3) 計算所述幀的能量變化率,即差分值,設第n幀的能量變換率為"("), 則
= —1)
4) 計算出能量值和能量值變化率的平均值
",5)分別找出能量大小和能量變化率同時在平均值周圍一定閾值范圍內
的幀。找出符合要求的第一幀和最后一幀即為穩(wěn)定部分的啟示幀和終止
幀。閾值的設定經過反復試驗選為10%。
2. 利用人耳聽覺模型分解每段信號,獲得信號在耳蝸譜上的時頻分布
1) 中耳和外耳模型中耳和外耳對聲音信號在1.5 ~ 5.0kHz范圍內有
10 2(MB的提升,可以利用預加重方式來大致^^莫擬其壓力增益,設原始
信號乂O,經過預加重后的信號即為
x(^XO — 0.95少(卜Af)
式中,r為時間,Ar為采樣間隔。
2) 耳蝸模型采用了由Patterson提出的一組Gammatone濾波器組來模 扣乂耳蟲咼的凈寺斗生。在jt匕Gammatone濾》皮器纟且中,每個通道的Gammatone濾 波器由4個半正交的二階濾波器級4關構成。下圖為100-16000Hz頻率范 圍內由25個Gammatone濾波器所構成的耳蝸濾波器組的濾波器響應圖。 由圖可以看出,濾波器在對數(shù)軸上的峰值點的分布基本為等間隔分布, 這與耳蝸模型的特點相符。我們對50-16000Hz的頻帶范圍內劃分了 128 個通道的Gamraatone濾波器組,這樣能夠較好的反映此頻帶內語音的基 頻和諧波特征。
Gamma tone濾波器組中每個頻帶的濾波器沖擊響應為
g(,力=Zj。廣V^ cos(2tt//) 式中,義為中心頻率,f為時間,&=4為濾波器階數(shù)。 b為濾波器衰減因子,它決定了脈沖的衰減速度,與濾波器的帶寬有 關。耳蝸基底膜對聲音信號的不同頻率具有非線性選擇性,所以濾波器 的帶寬隨著中心頻率的升高而增大,可以根據(jù)人耳臨界頻帶的等效矩形 帶寬(ERB)確定,計算公式為
層(/) = 24.7 x log10 (y +1) w乂 feiov 1000
令6-1.019x五i^(/),設x(r)為輸入信號,對于每一個時刻每一個濾波
器通道c,設y;為中心頻率。則相應的時頻單元x(c,o為
x(c,,) = x(/)*g(/c,,)式中,x(O為輸入信號,g(X力為相應的Gamma tone濾波器,"*"代 表巻積,在本步驟中,每個通道的輸出向后延時(。-l)/(2;r6),可以補償 濾波器的延時。
3. 諧波分析
經過才莫擬耳蝸it型的Gammatone濾波器處理后的即為在時間f和 通道/的時頻能量分布,這種分布是符合人耳特性的。下面再利用這種 時頻分布計算符合耳蝸模型的諧波成分。
為了防止不同的能量相關系數(shù)標準不同,先將系數(shù)進行歸一化處理, 歸一化后的自相關系數(shù)為
式中,c為相應的濾波器通道,t為時刻,r是時延,。
厶
式中,L為所計算的最大時延,人發(fā)聲的基頻一般在50Hz以上,因 此i = 1000ffw / = 20/^ 。 &(c,f, t)為。(c, f, t)歸一4匕后的結果,CH (c,f)即為 所得出的考慮到時間和頻帶上連續(xù)性的相關系數(shù)。
由于諧波成分之間的時域和頻帶相關性會大于諧波與噪聲的相關性 或噪聲與噪聲的相關性,所以通過Q(c力的值范圍就可以判斷在f時刻c
通道的成份是否為諧波成份。為此必須先設定出一個閾值,然后比較 CH(c,0與閾值的大小關系來判斷是否為諧波成份。
4. 閾值設定
為了選定諧噪比的閾值,本實施例選取了經過嗓音醫(yī)學專家按照 GRBAS評級標準評級過的典型嗓音樣本40例,其中G0-G3各10例,每例 發(fā)的長元音數(shù)目為3個,共120個長元音樣本。手工取其中較為平穩(wěn)的 部分,每部分的長度都在3秒鐘以上。
閾值測試區(qū)間為0. 100-0. 999,計算出諧噪比與嗓音專家評級之間的 相關度。經測試,閾值在0. 9915時相關度達到了最大值,因此最終選擇 了閾<直" =0.9915。5. 諧噪比計算
在對設定一個閣值后,就可以根據(jù)這個閾值分離出諧波和噪聲成分。 設^(c力=X(C,O2為相應時頻塊的能量,&和&分別為諧波能量和噪聲能
量,則
最后得出的信噪比為
扁=10一10(,)
五w
6. 多個樣本加權平均
由于人在發(fā)持續(xù)時間較長的元音時往往穩(wěn)定性較好,因此有必要對 發(fā)音時間長的樣本采取更大的權重。因此按照切分出的每段的長度比率 計算出加權系數(shù),根據(jù)加權系數(shù)和分段數(shù)可以算出最終的諧噪比數(shù)值。 設切分出的樣本總數(shù)為M個,第n段樣本的穩(wěn)定部分長度為^ ,相應段 的i皆p桑比為/ZA^ ,貝寸
》"
"=1
iBVi '為最終計算出的諧噪比。
本發(fā)明特別適合用于病變嗓音客觀評估中。諧噪比的計算是病變嗓音 客觀評估技術的關^t之一。病變嗓音客觀評估技術是利用信號處理技術對 嗓音信號進行分析,從而對病人聲門病變程度以及病變情況進行評估判斷 的技術。 一般選擇長元音作為病變嗓音的評估樣本。諧噪比能否計算準確 直接影響到了對患者的嗓音評估準確度。在中國人民解放軍總醫(yī)院(301醫(yī) 院)病變嗓音醫(yī)學樣本247個人共計817例長元音樣本中,采用普通諧噪比 計算方法計算出的諧噪比與嗓音專家打分的匹配度為-0.62(其中包含24例 樣本無法計算),而采用本發(fā)明中所使用的計算方法對全部的樣本都可以有 效計算,匹配度為-0.79。
本發(fā)明還可以用語音質量評估、信道特征分析等領域。最后,最后所應說明的是,以上實施例僅用以說明本發(fā)明的技術方案 而非限制。盡管參照實施例對本發(fā)明進行了詳細說明,本領域的普通技術
人員應當理解,對本發(fā)明的技術方案進行修改或者等同替換,都不脫離本 發(fā)明技術方案的精神和范圍,其均應涵蓋在本發(fā)明的權利要求范圍當中。
權利要求
1. 一種自動嗓音諧噪比分析方法,包括如下步驟1)從錄音中切分出進行諧噪比分析的有效語音段;2)基于聽覺模型,對所述語音段進行濾波處理,然后計算聽覺模型中各濾波器通道中的在時域和頻域二維的能量相關系數(shù);3)設定所述相關系數(shù)的閾值,當步驟2)得出的相關系數(shù)大于該閾值時,則該相關系數(shù)所對應的時域和頻域坐標點為諧波成份,否則,該相關系數(shù)所對應的時域和頻域坐標點為噪音成份。
2. 根據(jù)權利要求1所述的自動嗓音諧噪比分析方法,其特征在于, 所述步驟2)中,所述聽覺模型包括中耳、外耳模型和耳蝸模型。
3. 根據(jù)權利要求2所述的自動嗓音諧噪比分析方法,其特征在于, 所述耳蝸才莫型是由一組Ga咖atone濾波器構成。
4. 根據(jù)權利要求1所述的自動嗓音諧噪比分析方法,其特征在于, 所述步驟l)中,切分所述有效語音段的方法如下步驟11 )利用基于能量語音活動檢測技術找出多段語音的起始點和終止 點位置;步驟12)對每賴:語音分別進行分幀,對于每一幀,計算該幀能量大小與 整個能量的平均值;計算該幀的能量變化率;步驟13)計算出能量值和能量值變化率的平均值;步驟14)分別找出能量大小和能量變化率同時在平均值周圍一定閾值 范圍內的幀,這些幀中的第一幀和最后一幀分別為所述有效語音^:的啟示幀 和終止幀。
5. 根據(jù)權利要求1所述的自動嗓音諧噪比分析方法,其特征在于, 所述步驟2)中,所述能量相關系數(shù)需進行歸一化處理,所述步驟3)中, 所述閾值設定為0.9915。
6. 根據(jù)權利要求1所述的自動嗓音諧噪比分析方法,其特征在于, 所述步驟3)中,還包括計算諧波成份與噪音成份的比值得出諧噪比,然后 對多個樣本的諧噪比進行加權平均,得到最終的諧噪比值。
7. 根據(jù)權利要求6所述的自動嗓音諧噪比分析方法,其特征在于, 所述諧噪比分析方法還包括利用步驟3)所得的諧噪比進行病變嗓音評估。
全文摘要
本發(fā)明提供一種自動嗓音諧噪比分析方法,包括1)從錄音中切分出進行諧噪比分析的有效語音段;2)基于聽覺模型,對所述語音段進行濾波處理,然后計算聽覺模型中各濾波器通道中的在時域和頻域二維的能量相關系數(shù);3)設定所述相關系數(shù)的閾值,當步驟2)得出的相關系數(shù)大于該閾值時,則該相關系數(shù)所對應的時域和頻域坐標點為諧波成份,否則,該相關系數(shù)所對應的時域和頻域坐標點為噪音成份,最后計算諧波成份與噪音成份的比值得出諧噪比。本發(fā)明使用自相關圖表征的時域和耳蝸譜域通道之間相關性來判斷諧波成份,不受基頻檢測位置的影響,能夠更準確更魯棒的檢測出諧波成份。由于使用耳蝸譜,本發(fā)明與人耳的真實聽覺更加匹配。
文檔編號G10L11/00GK101452698SQ20071017836
公開日2009年6月10日 申請日期2007年11月29日 優(yōu)先權日2007年11月29日
發(fā)明者張建平, 迪 王, 顏永紅 申請人:中國科學院聲學研究所;中國科學院物理研究所