專利名稱:基于組合特征的漢語聲韻母可視化方法
技術領域:
本發明涉及一種漢語音聲母和韻母的可視化方法,特別涉及ー種基于組合特征的漢語聲韻母可視化方法。
背景技術:
語音是語言的聲學表現,是人類交流信息最自然、最有效、最方便的手段,也是人類思維的ー種依托。而對聾啞人來說,語言交流變成一件很難實現的事情,一部分聾啞人不能說話是因為他們的聽覺器官遭到破壞,不能將語音信息采集到大腦。研究表明,人類聽覺系統和視覺系統是兩個性質不同的并具有互補性的信息系統,視覺系統是ー個高度并行的信息接收和處理系統,人類眼球中視網膜上的數百萬個錐狀細胞通過纖維狀神經組織與大腦相連,形成ー個高度并行的信道,視覺信道接受信息的速率是很高的,據測量和估算,看電視時的信息接收速率大致可達到
2x IO4み/S,這比聽覺系統聽語音時的信息接收速度高出上千倍,因此人們相信人類
所獲得的信息有70%是通過視覺獲得的說法。所以對于聾啞人人來說,這無疑就是ー個很大的助手,聽覺的缺陷由視覺來補償,語音不僅能聽見,還可以通過多種其他形式使聾啞人“看,,見。1947年R. K. Potter和G. A. Kopp等人就提出了一種可視化方法一語譜圖,隨后有不同的語音研究專家開始研究改進這種語音可視化方法,比如在1976年L. C. Stewart等人提出了有色譜圖和1984年G. M. Kuhn等人提出了對聾人進行訓練的實時的語譜圖系統,以及1986年P. E. Stern、1998年F. Plante和2008年R. Steinberg等人也提出了許多語譜圖的改進方法,但是顯示的語譜圖的專業性很強,而且很難辨別記憶。尤其是對于同一個語音不同的人來說,甚至是同一個語音同一個人來說都有可能造成語譜圖的變化,對于不同環境下錄制的語音信號其魯棒性能更為不好。此外,還有ー些學者對人的發音器官的運動變化以及面部表情的變化來實現語音可視化,有效地剖析了人的發音過程,但就其語音可懂度而言,還難以達到理想效果,除極少數專家以外,人們很難直接通過觀察發音器官的運動和面部表情的變化而準確地感知語
曰
發明內容
本發明所要解決的技術問題是提供一種簡單便于記憶且高魯棒性的基于組合特征的語音可視化方法,通過該方法可幫助聾啞人進行語言訓練,建立、完善聽覺認知、形成正確的言語反射,重建聽覺言語鏈,可以最大可能的恢復自身的語音功能。本發明的技術解決方案是
一種基于組合特征的漢語聲韻母可視化方法,包括以下步驟
I、語音信號預處理通過麥克風輸入語音信號,由處理單元采樣量化后獲得相應語音數據,然后進行預加重、分幀加窗和端點檢測;
2、特征提取
(2. I)計算出預處理后的語音信號的幀數作為其音長特征;
(2. 2)采用頻域峰值幅度大小和平均幅度大小的ー種對比關系表示諧振強度特征,對于分巾貞后的語音信號,姆巾貞語音信號的諧振強度為
權利要求
1. 一種基于組合特征的漢語聲韻母可視化方法,其特征是 1.1、語音信號預處理 通過麥克風輸入語音信號,由處理單元采樣量化后獲得相應語音數據,然后進行預加重、分幀加窗和端點檢測; I. 2、特征提取 (a)計算出預處理后的語音信號的幀數作為其音長特征; (b)采用頻域峰值幅度大小和平均幅度大小的一種對比關系表示諧振強度特征,對于分幀后的語音信號,每幀語音信號的諧振強度為
2.根據權利要求I所述的基于組合特征的漢語聲韻母可視化方法,其特征是所述圖像合成時,先獲得寬度信息和長度信息確定圖像大小,然后在圖像位置添加主顏色信息,最后用圖案信息置換相應位置的主顏色信息,獲得相應的語音圖像。
3.根據權利要求I所述的基于組合特征的漢語聲韻母可視化方法,其特征是所述語音信號預處理時,采樣量化由處理單元以11.025kHz的采樣頻率、16bit的量化精度進行;預加重是通過一階數字預加重濾波器實現,其預加重濾波器的系數取值為O. 93-0. 97 ;分幀加窗是以幀長256點的標準進行,并對分幀后的數據加漢明窗處理,端點檢測是利用短時能零積法進行。
4.根據權利要求I或2所述的基于組合特征的漢語聲韻母可視化方法,其特征是所述圖像寬度信息=音長特征乂 k, k的取值以使顯示的圖像最利于觀察者觀察識別為原則。
5.根據權利要求I或2所述的基于組合特征的漢語聲韻母可視化方法,其特征是所述圖像長度信息=各幀諧振強度特征平均值X r,r的取值以使顯示的圖像最利于觀察者觀察識別為原則。
6.根據權利要求I所述的基于組合特征的漢語聲韻母可視化方法,其特征是所述聲母圖像的圖案為白色質地,所述韻母圖像的圖案為黑色質地。
7.根據權利要求I所述的基于組合特征的漢語聲韻母可視化方法,其特征是所述采用頻域峰值幅度大小和平均幅度大小的對比關系表示諧振強度特征時,以256個點為一幀。
全文摘要
一種基于組合特征的漢語聲韻母可視化方法,步驟為語音信號預處理;計算出預處理后語音信號的幀數作為其音長特征,采用頻域峰值幅度大小和平均幅度大小的對比關系表示諧振強度特征,得到每幀信號的共振峰特征值,計算出魯棒特征參數WPTC1~WPTC20和PMUSIC-MFCC1~PMUSIC-MFCC12;采用音長特征和諧振強度特征分別對圖像寬度信息和圖像長度信息進行編碼;采用共振峰特征對主顏色信息進行編碼;所述32個特征參數作為神經網絡的輸入,神經網絡的輸出即為相應的圖案信息,依次對應著23個聲母和24個韻母;把寬度、長度、主顏色與圖案信息融合在一幅圖像中在顯示屏上顯示。優點是可幫助聾啞人進行語言訓練,建立、完善聽覺認知,形成正確的言語反射,恢復自身的語音功能。
文檔編號G10L21/06GK102820037SQ201210252989
公開日2012年12月12日 申請日期2012年7月21日 優先權日2012年7月21日
發明者韓志艷, 倫淑嫻, 王健, 于忠黨, 郭艷東, 尹作友, 郭兆正, 王巍, 韓建群, 蘇憲利 申請人:渤海大學