一種基于共振峰曲線的語音信號動態特征提取方法
【專利摘要】本發明提出一種基于共振峰曲線的語音信號動態特征提取方法,屬于漢語音信號動態特征提取技術領域。步驟為:采集語音信號;對語音信號進行預處理;提取語音信號共振峰頻率特征;按照從第一幀到最后一幀的幀序,將預處理后的每幀語音信號的第一共振峰頻率特征值進行組合獲得第一共振峰曲線,依此類推,獲得第二共振峰曲線、第三共振峰曲線及第四共振峰曲線;對獲得的每條共振峰曲線進行快速傅里葉變換獲得線性頻譜;根據線性頻譜獲得能量譜;根據能量譜獲得對數能量;對對數能量進行離散余弦變換。與現有方法相比,本發明提取的是語音信號動態特征,它具有時間相關性,揭示了語音信號前后以及相鄰之間存在的密切關聯,提高了語音識別的性能。
【專利說明】
一種基于共振峰曲線的語音信號動態特征提取方法
技術領域
[0001] 本發明屬于漢語音信號動態特征提取技術領域,具體涉及一種基于共振峰曲線的 語音信號動態特征提取方法。
【背景技術】
[0002] 我國語音識別研究工作起步于50年代,但直到70年代才開始迅速發展。中國科學 院、清華大學、北京大學等多家研究單位在從事漢語語音識別系統的開發,目前對大詞匯量 連續語音識別系統的研究已經接近國外最高水平;在我國的"八五"計劃和"863"計劃中,漢 語語音識別的研究得到了大力支持,國家863《智能計算機主題》專家組專門為語音識別研 究立項,同時由于中國在國際上地位與日倶增,以及在經濟和市場方面所處的重要地位,漢 語語音識別也越來越被國外研究機構和公司重視,IBM、Microsoft、APPLE、Motorola、 Intel、L&H等公司都在國內設立研究機構,相繼投入到漢語語音識別系統的開發中,強有力 地推動了漢語語音識別研究的發展;
[0003] 盡管如此,距離真正的人機自由交流的境界還很遙遠;現在已有的商用系統都存 在著一些問題,比如對于噪聲環境下的語音識別率和穩健性等都不盡如人意;
[0004] 語音識別最基礎最重要的開發環節是語音信號特征參數的提取;早在上世紀40年 代,R.K.Potter等人提出了 "Visible Speech"的概念,指出語譜圖對語音信號有很強的描 述能力,并且試著用語譜信息進行語音識別,這就形成了最早的語音特征。到了50年代,人 們發現要對語音信號進行識別就必須從語音波形中提取能夠反映語音特性的某些參數,這 樣不僅可以減小模板數目、運算量及存儲量,而且可以濾除語音信號中無用的冗余信息,于 是就出現了幅度、短時幀平均能量、短時幀過零率、短時自相關系數等。隨著識別技術的發 展,人們發現時域中的特征參數其穩定性和區分能力都不是很好,于是開始利用頻域參數 作為語音信號的特征,比如基音周期、共振峰頻率、線性預測系數(LPC)、線譜對(LSP)、倒譜 系數等,目前使用最為廣泛的特征參數是基于人耳聽覺模型的美爾倒譜系數(MFCC);但是 這些參數一旦應用于噪聲環境時,其性能會急劇下降;
[0005] 而且上面所提出的特征參數都反映語音的靜態特征,語音信號的動態特性是指從 連續幾幀語音中提取的特征參數,比如可以通過靜態特征的差分參數和加速度參數來獲 取,但差分參數和加速度參數并不能將動態信息挖掘得很充分,所以它們尚不能很好地反 映語音信號的動態特性。
【發明內容】
[0006] 針對現有技術的不足,本發明提出一種基于共振峰曲線的語音信號動態特征提取 方法,以達到擴大應用領域、提高語音識別的性能、實現快速有效地掌握信號的動態特征和 實現在強噪聲環境下應用語音識別技術的目的。
[0007] -種基于共振峰曲線的語音信號動態特征提取方法,包括以下步驟:
[0008] 步驟1、采集語音信號;
[0009]步驟2、對語音信號進行預處理,包括預加重、分幀加窗和端點檢測;
[00?0] 步驟3、采用基于Hibert-Huang變換的方法,對預處理后語音信號的共振峰頻率特 征進行估算,獲得每幀語音信號的第一共振峰特征值、第二共振峰特征值、第三共振峰特征 值和第四共振峰特征值;
[0011] 步驟4、構成共振峰曲線,具體為:
[0012] 按照從第一幀到最后一幀的幀序,將預處理后的每幀語音信號的第一共振峰特征 值進行組合獲得第一共振峰曲線;
[0013] 按照從第一幀到最后一幀的幀序,將預處理后的每幀語音信號的第二共振峰特征 值進行組合獲得第二共振峰曲線;
[0014] 按照從第一幀到最后一幀的幀序,將預處理后的每幀語音信號的第三共振峰特征 值進行組合獲得第三共振峰曲線;
[0015] 按照從第一幀到最后一幀的幀序,將預處理后的每幀語音信號的第四共振峰特征 值進行組合獲得第四共振峰曲線;
[0016] 步驟5、對獲得的第一共振峰曲線、第二共振峰曲線、第三共振峰曲線和第四共振 峰曲線進行快速傅里葉變換,獲得每條共振峰曲線的線性頻譜;
[0017] 步驟6、根據線性頻譜獲得每條共振峰曲線的能量譜;
[0018] 步驟7、根據能量譜獲得每條共振峰曲線的對數能量;
[0019] 步驟8、對上述對數能量進行離散余弦變換獲得倒頻譜域,即獲得語音信號動態特 征參數。
[0020] 步驟2所述的對語音信號進行預處理,包括預加重、分幀加窗和端點檢測,其中,
[0021] 所述的預加重:通過一階數字預加重濾波器實現,預加重濾波器的系數取值范圍 為0.93~0.97;
[0022] 所述的分幀加窗:以幀長256點進行分幀,并對分幀后的語音信號加漢明窗;
[0023] 所述的端點檢測:采用短時能零積法進行檢測。
[0024] 步驟5所述的對獲得的第一共振峰曲線、第二共振峰曲線、第三共振峰曲線和第四 共振峰曲線進行快速傅里葉變換,獲得每條共振峰曲線的線性頻譜;
[0025] 具體公式如下:
[0027]其中,Xjk)表示第i個共振峰曲線進行快速傅里葉變換后得到的線性頻譜;i = l, 2,3,4Α = 0,1,2,···,Ν-1,Ν為語音信號的幀數;Xl(n)表示第i個共振峰曲線;j是虛數單位, e為常數。
[0028]步驟8所述的對上述對數能量進行離散余弦變換獲得倒頻譜域,即獲得語音信號 動態特征參數;
[0029] 具體公示如下:
[0031 ] 其中,Ci (t)表示第i個共振峰曲線的動態特征參數;i = l,2,3,4;t = l,2,~,T,T 表示設定的倒譜系數個數,取值范圍為12~16;U(k)表示第i個共振峰曲線的對數能量;k = 0,1,2,···,Ν-1,Ν為語音信號的幀數。
[0032] 本發明優點:
[0033] 1、本發明獲得的語音信號動態特征參數主要應用于計算機的聽寫機,以及與電話 網或者互聯網相結合的語音信息查詢服務系統,另外還可應用在小型化、便攜式的語音產 品中,如無線手機上的撥號、汽車設備的語音控制、智能玩具、家電遙控等方面;
[0034] 2、本發明提取的是語音信號動態特征,它具有時間相關性,揭示了語音信號前后 以及相鄰之間存在的密切關聯,相比于傳統的MFCC方法,大大提高了語音識別的性能; [0035] 3、本發明采用基于Hibert-Huang變換的方法來估算預處理后的語音信號共振峰 頻率特征,其中用經驗模態分解法(EMD)將信號分解成一組含有不同尺度的固有模態函數 QMF)分量,經分解得到的每一個頂F分量都代表了一個頻率成分,這些頻率成分可以有效 突出信號的局部特性和細節變化,這將有助于快速有效地掌握信號的動態特征;
[0036] 4、本發明構成的共振峰曲線具有時間相關性,揭示了語音信號前后以及相鄰之間 存在著的密切關聯;這一特性,使得在強噪聲環境下應用語音識別技術成為了可能。
【附圖說明】
[0037] 圖1為本發明一種實施例的基于共振峰曲線的語音信號動態特征提取方法流程 圖;
[0038] 圖2為本發明一種實施例的白噪聲情況下參數識別性能曲線比較圖;
[0039] 圖3為本發明一種實施例的粉噪聲情況下參數識別性能曲線比較圖;
[0040] 圖4為本發明一種實施例的街道噪聲情況下參數識別性能曲線比較圖;
[0041] 圖5為本發明一種實施例的坦克噪聲情況下參數識別性能曲線比較圖。
【具體實施方式】
[0042] 下面結合附圖對本發明一種實施例做進一步說明。
[0043] -種基于共振峰曲線的語音信號動態特征提取方法,方法流程圖如圖1所示,包括 以下步驟:
[0044] 步驟1、采集語音信號;
[0045]本發明實施例中,利用麥克風輸入語音數據,并由計算機、單片機或DSP芯片等處 理單元以11.025KHZ的采樣頻率、16bit的量化精度進行采樣量化,獲得相應的語音信號;本 發明實施例中采用計算機作為處理單元;
[0046] 步驟2、對語音信號進行預處理,包括預加重、分幀加窗和端點檢測;
[0047] 本發明實施例中,所述的預加重:通過一階數字預加重濾波器實現,預加重濾波器 的系數取值范圍為0.93~0.97,本發明實施例中,取值為0.9375;所述的分幀加窗:以幀長 256點進行分幀,并對分幀后的語音信號加漢明窗;所述的端點檢測:采用短時能零積法進 行檢測;
[0048] 步驟3、采用基于Hibert-Huang變換的方法,對預處理后語音信號的共振峰頻率特 征進行估算,獲得每幀語音信號的第一共振峰特征值F1、第二共振峰特征值F2、第三共振峰 特征值F3和第四共振峰特征值F4;
[0049]本發明實施例中,由快速傅里葉變換(FFT)初步估計出的語音信號的各階共振峰 頻率確定相應帶通濾波器的參數,并用該參數對語音信號作濾波處理,對濾波后的信號進 行經驗模態分解(EMD)得到一族固有模態函數aMF),按能量最大原則確定出含有共振峰頻 率的IMF,計算出該IMF的瞬時頻率和Hi lbert譜即得到語音信號的共振峰頻率參數;
[0050] 步驟4、構成共振峰曲線,具體為:
[0051] 本發明實施例中,按照從第一幀到最后一幀的幀序,將預處理后的每幀語音信號 的第一共振峰頻率特征值F1進行組合獲得第一共振峰曲線^(1〇,11 = 0,1,2,一小-1小為語 音信號的幀數;按照從第一幀到最后一幀的幀序,將預處理后的每幀語音信號的第二共振 峰頻率特征值F2進行組合獲得第二共振峰曲線 X2(n);按照從第一幀到最后一幀的幀序,將 預處理后的每幀語音信號的第三共振峰頻率特征值F3進行組合獲得第三共振峰曲線 X3 (η);按照從第一幀到最后一幀的幀序,將預處理后的每幀語音信號的第四共振峰頻率特征 值F4進行組合獲得第四共振峰曲線χ 4(η);
[0052] 步驟5、對獲得的第一共振峰曲線、第二共振峰曲線、第三共振峰曲線和第四共振 峰曲線進行快速傅里葉變換,獲得每條共振峰曲線的線性頻譜;
[0053]本發明實施例中,具體公式如下:
[0055] 其中,Xdk)表示第i個共振峰曲線進行快速傅里葉變換后得到的線性頻譜;i = l, 2,3,4Α = 0,1,2,···,Ν-1,Ν為語音信號的幀數;Xl(n)表示第i個共振峰曲線;j是虛數單位, e為常數,近似值為2.7;
[0056] 步驟6、根據線性頻譜獲得每條共振峰曲線的能量譜;
[0057] 本發明實施例中,取上述線性頻譜Xi(k)模的平方來獲得相應的能量譜Si(k),公式 如下:
[0058] Si(k)= |Xi(k) |2 (3)
[0059] 其中,SKk)表示第i個共振峰曲線的能量譜;
[0060] 步驟7、根據能量譜獲得每條共振峰曲線的對數能量;
[0061]本發明實施例中,為了使結果對噪聲有更好的魯棒性,將上述獲得的能量譜31(1〇 取對數,即可獲得對數能量U(k),公式如下:
[0062] Li(k) =Log(Si(k)) (4)
[0063] 其中,U(k)是第i個共振峰曲線的對數能量;
[0064]步驟8、對上述對數能量進行離散余弦變換獲得倒頻譜域,即獲得語音信號動態特 征參數。
[0065] 具體公示如下:
[0067] 其中,Ci (t)表示第i個共振峰曲線的動態特征參數;i = l,2,3,4;t = l,2,~,T,T 表示設定的倒譜系數個數,取值范圍為12~16,本發明實施例取T = 12;
[0068] 本發明實施例中,采用50個典型的漢語詞匯來進行實驗;由于考慮識別系統容易 受環境噪聲、信道變化和說話人變化等因素的影響,因此,本發明實施例的訓練集采用安靜 環境下的語音數據,而測試集采用含有噪聲的數據;
[0069] 為了驗證該特征參數對不同說話人變化的魯棒性,訓練集數據由前后兩次錄成, 共50人,每人每詞發音一遍,共獲得5000個數據,測試集數據也是分兩次錄成,共30人,每人 每詞發音一遍,共3000個數據;為了驗證該特征參數對不同信道變化的魯棒性,每次使用不 同的麥克風來錄音;為了驗證該特征參數對不同環境噪聲變化的魯棒性,本發明實施例在 測試集的每個語音中手工加入了四種噪聲,包括:白噪聲、粉噪聲、街道噪聲、坦克噪聲,構 成信噪比為15dB,1 OdB,5dB,OdB,-5dB的含噪語音信號。
[0070] 本發明實施例中采用基于遺傳算法改進的小波神經網絡來作為分類器,網絡輸入 層有48個神經元,輸出層有50個神經元,隱含層結點個數通過遺傳算法確定;
[0071 ]本發明實施例中,圖2、圖3、圖4和圖5為采用與本發明實施例相同條件的MFCC方法 和本發明實施例方法分別在白噪聲、粉噪聲、街道噪聲和坦克噪聲干擾下的系統識別性能 曲線;從圖中可以看出,在信噪比較低的時候,本發明實施例方法與MFCC方法相比識別率提 1? 了很多。
【主權項】
1. 一種基于共振峰曲線的語音信號動態特征提取方法,其特征在于,包括以下步驟: 步驟1、采集語音信號; 步驟2、對語音信號進行預處理,包括預加重、分幀加窗和端點檢測; 步驟3、采用基于Hibert-Huang變換的方法,對預處理后語音信號的共振峰頻率特征進 行估算,獲得每幀語音信號的第一共振峰特征值、第二共振峰特征值、第三共振峰特征值和 第四共振峰特征值; 步驟4、構成共振峰曲線,具體為: 按照從第一幀到最后一幀的幀序,將預處理后的每幀語音信號的第一共振峰特征值進 行組合獲得第一共振峰曲線; 按照從第一幀到最后一幀的幀序,將預處理后的每幀語音信號的第二共振峰特征值進 行組合獲得第二共振峰曲線; 按照從第一幀到最后一幀的幀序,將預處理后的每幀語音信號的第三共振峰特征值進 行組合獲得第三共振峰曲線; 按照從第一幀到最后一幀的幀序,將預處理后的每幀語音信號的第四共振峰特征值進 行組合獲得第四共振峰曲線; 步驟5、對獲得的第一共振峰曲線、第二共振峰曲線、第三共振峰曲線和第四共振峰曲 線進行快速傅里葉變換,獲得每條共振峰曲線的線性頻譜; 步驟6、根據線性頻譜獲得每條共振峰曲線的能量譜; 步驟7、根據能量譜獲得每條共振峰曲線的對數能量; 步驟8、對上述對數能量進行離散余弦變換獲得倒頻譜域,即獲得語音信號動態特征參 數。2. 根據權利要求1所述的基于共振峰曲線的語音信號動態特征提取方法,其特征在于, 步驟2所述的對語音信號進行預處理,包括預加重、分幀加窗和端點檢測,其中, 所述的預加重:通過一階數字預加重濾波器實現,預加重濾波器的系數取值范圍為 0.93 ~0.97; 所述的分幀加窗:以幀長256點進行分幀,并對分幀后的語音信號加漢明窗; 所述的端點檢測:采用短時能零積法進行檢測。3. 根據權利要求1所述的基于共振峰曲線的語音信號動態特征提取方法,其特征在于, 步驟5所述的對獲得的第一共振峰曲線、第二共振峰曲線、第三共振峰曲線和第四共振峰曲 線進行快速傅里葉變換,獲得每條共振峰曲線的線性頻譜; 具體公式如下:? 1) 其中,Xdk)表示第i個共振峰曲線進行快速傅里葉變換后得到的線性頻譜;i = l,2,3, 4;k = 0,l,2,…,N-1,N為語音信號的幀數;Xi(n)表示第i個共振峰曲線,η = 0,1,2,···,Ν-1; j是虛數單位,e為常數。4. 根據權利要求1所述的基于共振峰曲線的語音信號動態特征提取方法,其特征在于, 步驟8所述的對上述對數能量進行離散余弦變換獲得倒頻譜域,即獲得語音信號動態特征 參數; 具體公元.α) 其中,Ci (t)表示第i個共振峰曲線的動態特征參數;1 = 1,2,3,44 = 1,2,一,1',1'表示設 定的倒譜系數個數,取值范圍為12~16; Li (k)表示第i個共振峰曲線的對數能量;k = O,1, 2,…,N-I,N為語音信號的幀數。
【文檔編號】G10L25/24GK106024010SQ201610340935
【公開日】2016年10月12日
【申請日】2016年5月19日
【發明人】韓志艷, 王健, 王東, 周建壯, 郭繼寧, 劉繼行, 曹麗
【申請人】渤海大學