一種基于伽馬通相關圖語音特征參數提取方法
【專利摘要】本發明涉及自動語音信號處理領域,特別是一種基于聽覺濾波器組相關圖提取語音特征的方法。該方法的特征在于通過利用聽覺濾波器相關圖對表現語音共振峰和基頻等特性的優勢對語音信號中包含更多內容、聲學特點等信息的濁音進行多通道擴展處理,這在刻畫語音的聲學特性方面具有克服了僅依賴于信號某一方面特性的特征集在環境發生改變時性能會急劇下降的問題。在現有的聽覺模型都在表示譜包絡和幅度調制的特征基礎上,增加了表示相位譜(即頻率調制)的信息。因此利用合適的聽覺濾波器的相關圖可以提高語音信號的魯棒性。
【專利說明】一種基于伽馬通相關圖語音特征參數提取方法
【技術領域】
[0001]本發明涉及自動語音處理領域,具體而言,是一種基于相關圖語音特征參數提取方法及應用。
【背景技術】
[0002]語音是人類最自然、最靈活、最頻繁的信息交流方式。語音中蘊含多層信息,如何自動提取這些信息便成為當前語音信號處理領域的主要研究內容。作為該領域的一個重要分支,自動從語音片段中提取表征內容、身份等信息的識別技術,在汽車導航、計算機控制、玩具等諸多領域有廣泛的應用。
[0003]語音信號處理從本質上講就是要盡可能的模擬人耳的聽覺過程。而在人耳的聽覺系統中,耳蝸對聲音的感知一直是研究的熱點之一。耳蝸通常被描述維一組帶通濾波器,且濾波器組的每個頻帶具有尖銳的頻率選擇性,通過采用這樣的濾波器組模擬耳蝸基底膜分頻作用。研究發現,人耳聽覺系統對頻率調制信號非常敏感,比如警車聲、救護車聲就特別容易引起人耳的注意,因此,現有的聽覺模型都在表示譜包絡和幅度調制的特征基礎上,增加了表示相位譜(即頻率調制)的信息。基于伽瑪函數的濾波器參數簡單,階數低,可以采用簡單的時域函數實現。借用相關圖的概念引入聽覺濾波器相關圖(CochlearCorrelogram)。所謂聽覺濾波器相關圖就是考慮到語音信號通過聽覺濾波器后表現為多通道信號的疊加,為了動態描述各個通道濾波器在頻域和時域的相互關系而引入的概念。聽覺濾波器相關圖特征提取方法就是通過對濾波器組的各個通道相關圖所表現出來的特性對語音信號的內容等信息進行描述。
[0004]一般的語音產生模型包括三個部分:激勵源,聲道模型和輻射模型。在傳統語音信號處理方法中,基音頻率在一幀范圍內被視為常數,從而濁音的激勵信號可以用一個周期脈沖發生器來產生。實際上,對于語音信號,特別是有調語言的語音信號,基音頻率在一幀之內也是連續變化的。考慮到語音的諧波結構與基音值的變化,濁音可以建模為一個調幅調頻信號。
[0005]目前,語音信號處理的應用主要集中在語音識別和語音合成等方面,主要利用對所提取的特征進行統計分析的方法。例如語音識別和語音合成技術(基于HMM的參數合成方法)中的訓練和測試兩個階段的建模和分類過程。在訓練階段的三個步驟為:前端處理,特征提取和建立模型;測試階段的四個步驟:前端處理,特征提取,模型匹配和分數判決。通常而言,
(O前端處理:包括語音增強、活動語音檢測和語音切分等信號處理技術;
(2)特征提取:通常選擇線性預測倒譜系數(LinearPredictive CepstralCoefficients, LPCC)、梅爾頻率倒譜系數(Mel-Frequency Cepstral Coefficient, MFCC)或感知線性預測(Perceptual Linear Prediction, PLP);
(3)建模方法(建立模型和模型匹配):主流技術是隱含馬爾科夫模型(HiddenMarkovModel, HMM);(4)分數判決:根據閾值,對分數進行比較,對HMM的輸出分數進行處理,給出識別結
果O
[0006]在上述過程中,特征提取作為訓練和測試中基礎環節,對語音信號處理的效果影響顯而易見。根據人耳對不同頻率的聲波有不同的聽覺靈敏度的特點所發展起來的MFCC為現今語音識別廣泛采用的一種特征參數,它反映了人耳聽覺系統的某些頻率特性,但是,MFCC以及多數在語音識別中采用的特征參數由于僅反映了譜特性、缺乏時間信息,而導致對語音中迅速變化的成分(如爆破音)無法處理。另外,在語音感知中起重要作用的共振峰間的過渡,在MFCC參數中也只是間接地有所反映。由于聲調或協同發音等的影響,基音和諧波都是隨時間變化的,因此在計算譜包絡時,若將這些變化因素體現到能量分布計算中,有望得到更具區分性的特征以改善語音識別率。目前大部分語音識別系統中所采用的聲學特征,無論MFCC或是PLP,都僅僅體現了信號的幅度調制即包絡特性。一般來講,在實際的傳輸環境中,僅依賴于信號某一方面特性的特征集在環境發生改變時,性能會急劇下降,而若是將體現信號不同方面特性的特征結合起來,則可在環境變化時表現出較好的魯棒性。
【發明內容】
[0007]本發明的目的在于:考慮到語音信號通過聽覺濾波器后表現為多通道信號的疊加,為了動態描述各個通道濾波器在頻域和時域的相互關系而引入聽覺濾波器相關圖(Cochlear Correlogram)的概念。本發明利用聽覺濾波器組在時域將單通道語音分解成多個不同頻段的時域信號,這相當于用單通道信號構建出不同頻率成分的多通道信號。這樣獲得的時域信號,分別包含了基音和各個共振峰等信息。再利用聽覺濾波器相關圖將語音中基頻和共振峰的信 息提取出來。
[0008]發明的具體步驟如下:
(1.1)前端處理
包括語音增強,用于抑制背景噪聲,提升語音部分的可懂度,以便后端能夠更好的區分語音信號和非語音信號。采用的方法是頻域的維納濾波;活動語音檢測,用于區分語音信號和非語音信號,去除非語音信號,以便后端對語音信號的識別。采用的方法有G723.1、G723.9等。語音聲韻母切分,并對檢測到的語音信號分幀處理,以便后續的特征提取;
(1.2)清音特征提取
在語音信號中,由于發音方式的不同,可以分為清音和濁音。清音的本質是噪聲發生器,在頻域上沒有明顯的特征表現,因此對語音的清音部分仍然采用傳統的MFCC特征提取方法:提取12維MFCC基本特征和能量構成13維特征。該13維特征是靜態特征,為了反映語音的動態特性,利用靜態特征構造差分特征。將I階、2階差分特征附到靜態特征后,構成用于建模的39維MFCC特征;
(1.3)濁音特征提取:
伽馬通(Ga_atone)濾波器是一個標準的耳蝸聽覺濾波器,該濾波器的時域脈沖響應可以表示為
h(t) = kta~l tsp(-2mBl) cos ?- φ)
其中k表示濾波器輸出增益,B表示濾波器的帶寬,η是濾波器的階數并決定了邊緣處的斜度,f。是濾波器的中心頻率,Φ是相位,簡化模型中一般取Φ= O ;采用的Ga_atone濾波器為4階線性濾波器為例,它基于沖激響應不變法的全極點設計,輸出為復值的解析信號。將若干個該類型的濾波器在等價矩形帶寬(EquivalentRectangular Bandwidth, ERB)尺度上均勻放置形成本文采用的聽覺濾波器組。ERB與臨界帶寬緊密相關,但是不是基于傳統掩蔽實驗得出,因此不易被信號和掩蔽信號之間的互調所影響,而且它比MFCC所采用的尺度表現更平滑。
[0009]ERB的選擇決定了脈沖響應的衰減速度,與濾波器帶寬有關,而每個濾波器帶寬都與人耳聽覺臨界頻帶(Critical Band, CB)有關,ERB尺度由某個頻率下的ERB數目確定,從聽覺心理學得到ERB與以赫茲為單位的線性頻率關系為
【權利要求】
1.一種基于聽覺濾波器相關圖的語音特征參數提取的方法,其特征在于,將聽覺濾波器組相關圖應用于語音特征提取中,從而降低語音數據中體現基頻特性的韻母對色噪聲的敏感性,提升系統的識別性能。
2.根據權利要求1所述的,基于聽覺濾波器組相關圖語音特征參數提取方法,其特征在于所述方法適用各種語音的濁音(或韻母)。
3.根據權利要求1所述的,基于聽覺濾波器組相關圖特征參數提取方法與語種無關。
4.根據權利要求1所述的,基于聽覺濾波器組相關圖特征參數提取方法適用于需要提取語音特征的各種應用,包括但不限于語音識別、語音合成以及聲紋識別等應用。
5.基于聽覺濾波器組相關圖特征參數提取方法,其特征在于,該方法分為5個模塊:清濁音切分模塊、聽覺濾波器組濾波器組模塊、聽覺濾波器組濾波器相關圖譜模塊、特征提取模塊。
【文檔編號】G10L25/84GK103985390SQ201410215133
【公開日】2014年8月13日 申請日期:2014年5月20日 優先權日:2014年5月20日
【發明者】馬多佳, 劉孟美, 楊楊 申請人:北京安慧音通科技有限責任公司