專利名稱:基于漢語發(fā)音特點的hmm語音識別技術的制作方法
技術領域:
本發(fā)明基于漢語發(fā)音特點的HMM語音識別技術屬于語音信號處理和識別技術領域。
目前利用計算機漢語語音識別技術,在語音識別實用化、產(chǎn)品化方面做的比較好是四達公司的STAR-863語音識別系統(tǒng),它屬于特定人孤立字全字表語音識別系統(tǒng),采用DTW(動態(tài)時間變形法),特別適合于特定人的語音識別系統(tǒng),而且識別精確度比較高,但由DTW方法所限,其模型的延續(xù)性特征的積累能力不強,因此很難推廣應用到非特定人的語音系統(tǒng)。
本發(fā)明的目的解決語音特征的提取問題,即解決由于漢語語音的不平衡性和多變性使得語音信號處理困難的問題,使語音識別系統(tǒng)既可應于特定人語音識別系統(tǒng),又可應用于非特定人語音識別系統(tǒng),既能識別孤立字音,又能識別詞組和連續(xù)語音,并避免前述技術之不足,以達到語音識別系統(tǒng)廣泛應用的目的。
本發(fā)明基于漢語發(fā)音特點的HMM語音識別技術的基本技特征把HMM模型加以改進并按漢語發(fā)音特征進行模型訓練來完成漢語語音特征的提取和識別。HMM模型是由一個狀態(tài)概率π,狀態(tài)轉移A和狀態(tài)相關聯(lián)的概率分布陣B組成的三元組(π,A,B)。設狀態(tài)數(shù)N,則π=(π1,π2,…,πN),A={aij}NXN,B={b1,b2…bN}經(jīng)典HMM中(π,A)是一個齊次Markov過程,其中aii是一個與時間無關的常數(shù),從而狀態(tài)i的駐留長度τ是指數(shù)分布
這與語音的物理事實不符。事實上語音識別之所以成為可能就在于語音基本單位(如音素)對應的特征具有聚類性。在物理上HMM的狀態(tài)必與某個語音單位相對應。本發(fā)明從狀態(tài)駐留長度的概率分布函數(shù)出發(fā),導出了一個基長段長分布的非齊次HMM模型,稱為DDBHMM(Duration Distribution Based Markov Model)。
語音Markov模型的駐留長度相對穩(wěn)定,而且不同字對應狀態(tài)具有不同的駐留長度這一點,說明狀態(tài)駐留長度信息對語音識別是非常重要。狀態(tài)駐留長度的概率分布Pi(i=1,…,N)和狀態(tài)轉移概率aij(i,j=1,2,…,N)是一一對應的。因此,更合理的確定Markov模型的狀態(tài)駐留長度分布函數(shù){Pi(τ)}從而導出轉移陣{aij}NXN。已知{Pi(τ)}則aii(k)=Pi(τ≥K/τ≥K-1)= (Pi[(τ≥K∩(τ≥K-1)])/(Pi(τ≥K-1))= (Pi(τ≥K))/(Pi(τ≥K-1))設每狀態(tài)相互獨立aij(k)=Pi(τ≥k/τ≥k-1)P(i+1)(τ=0)…Pj-1(τ=0)Pj(τ≥1)=[1-aii(k)]P(i+1)(τ=0)…Pj-1(τ=0)Pj(τ≥1)
aij(k)表示K時刻由i轉j的概率,aii(k)表示K時刻駐留原始狀態(tài)i的概率,一般aii與駐留時間有關,從而aij必與K有關。
任何字或詞的模型都是一組參數(shù)M={π,A,B},為對識別器進行訓練,必須為每一個字詞建立一個模型庫。對每一個字詞確定狀態(tài)轉移陣A,狀態(tài)概率π及特征參數(shù)B,識別時系統(tǒng)給出一個觀測序列0,那個字詞模型產(chǎn)生這一觀測序列的概率最大,就把未知字詞判為這個字或詞,識別結果定義為 其中語音的觀測序列0=(01,…,0T),Kj(j)=1,2,…,N對應于最優(yōu)分割的狀態(tài)駐留長度。
模型訓練的訓練方法采用迭代法先對A.B和π都假設一初始值,然后用待識別語音的觀測序列以一定的方法對這些估值提純;對提純的值要接著進一步提純,這個過程一直進行下去,直到?jīng)]有改進余地為止,得到庫存模型。
選取訓練方法訓練集中的部分能充分表達漢語發(fā)音特點的字或詞,通過Viterbi算法做狀態(tài)分割 以此為初始值序列,對其它的字進行分割。提純過程同樣也采用Viterbi算法,在分割狀態(tài)時,根據(jù)每個字或詞的發(fā)音特點,使用相應的初始矢量序列的組合作為初始值,對該字或詞進行分割,分割后的結果再按該字或詞的發(fā)音特點,將各狀態(tài)分解到相應的初始值序列,并與初始值序列中相應的矢量進行聚類,產(chǎn)生新的初始值。將這種算法應用于所有可能的庫存模型。
上述發(fā)明的模型和算法已在用于特定人的語音識別系統(tǒng)-知音文書處理系統(tǒng)上實現(xiàn)。
本發(fā)明的優(yōu)點與DTM相比,本發(fā)明真實地反映了作為語音編碼的語音信號的隨機性和狀態(tài)的隱含性,因而更能反映語音信號的產(chǎn)生過程及其內(nèi)在規(guī)律。具有如下優(yōu)點1.它作為一種概率參數(shù)模型,在識別時無須進行距離計算,用Viterbi識別算法速度很快,易于在現(xiàn)有技術條件下,以低廉的價格實現(xiàn)。
2.改進的模型具有比較大的適應性,當訓練足夠廣,足夠大時,易于實現(xiàn)與特定人無關的識別系統(tǒng)。
3.易于由孤立字系統(tǒng)向連續(xù)語音識別過渡。
4.DDBHMM是根據(jù)語音基本單位對應的特征具有聚類性這一物理事實導出的非齊次HMM,識別效果較優(yōu),且穩(wěn)定性好。
權利要求
1.本發(fā)明基于漢語發(fā)音特點的HMM語音識別技術,其基本特征在于用基于段長的DDBHMM模型進行模型訓練來完成漢語語音特征的提取和識別。
2.根據(jù)權利要求1所述,基于漢語發(fā)音特點的HMM語音識別技術的特征在于因為狀態(tài)駐留長度的概率分布Pi(i=1,…,N)和狀態(tài)轉移概率aij(i,j=1,2,…,N)是一一對應的,因此更合理的確定Markov模型的狀態(tài)駐留長度分布函數(shù){Pi(τ)}從而導出轉移陣{aij}NXNO已知{Pi(τ)}則aii(k)=Pi(τ≥K/τ≥K-1)= (Pi[(τ≥K∩(τ≥K-1)])/(Pi(τ≥K-1))= (Pi(τ≥K))/(Pi(τ≥K-1))設每狀態(tài)相互獨立aij(k)=Pi(τ≥k/τ≥k-1)P(i+1)(τ=0)…Pj-1(τ=0)Pj(τ≥1)=[1-aii(k)]P(i+1)(τ=0)…Pj-1(τ=0)Pj(τ≥1)aij(k)表示K時刻由i轉j的概率,aii(k)表示K時刻駐留原始狀態(tài)i的概率,一般aii與駐留時間有關,從而aij必與K有關。
3.根據(jù)權利要求1所述,基于漢語發(fā)音特點的HMM語音識別技術的特征在任何字或詞的模型都是一組參數(shù)M={π,A,B},為對識別器進行訓練,必須為每一個字詞建立一個模型庫。
4.根據(jù)權利要求1或3所述,基于漢語發(fā)音特點的HMM語音識別技術的特征在于對每一個字詞確定狀態(tài)轉移陣A,狀態(tài)概率π及特征參數(shù)B。識別時系統(tǒng)給出一個觀測序列0,那個字詞模型產(chǎn)生這一觀測序列的概率最大,就把未知字詞判為這個字或詞,識別結果定義為 其中語音的觀測序列0=(01…,0T),Kj(j=1,2,…,N)對應于最優(yōu)分割的狀態(tài)駐留長度。
5.根據(jù)權利要求1或3所述,基于漢語發(fā)音特點的HMM語音識別技術的特征在于模型訓練的訓練方法采用迭代法,即先對A.B和π都假設一初始值,然后用待識別語音的觀測序列以一定的方法對這些估值提純;對提純的值要接著進一步提純,這個過程一直進行下去,直到?jīng)]有改進余地為止,得到庫存模型。
6.根據(jù)權利要求1或4所述,基于漢語發(fā)音特點的HMM語音識別技術的特征在于選取訓練方法訓練集中的部分能充分表達漢語發(fā)音特點的字或詞,通過Viterbi算法做狀態(tài)分割 以此為初始值序列,對其它的字進行分割。
7.根據(jù)權利要求1或4所述,基于漢語發(fā)音特點的HMM語音識別技術的特征在于提純過程也采用Viterbi算法,在分割狀態(tài)時,根據(jù)每個字或詞的發(fā)音特點,使用相應的初始矢量序列的組合作為初始值,對該字或詞進行分割,分割后的結果再按該字或詞的發(fā)音特點,將各狀態(tài)分解到相應的初始值序列,并與初始值序列中相應的矢量進行聚類,產(chǎn)生新的初始值,這種算法應用于所有可能的庫存模型。
全文摘要
本發(fā)明基于漢語發(fā)音特點的HMM語音識別技術,屬于語音信號處理和識別技術領域。本發(fā)明將基于段長的隱含馬爾可夫模型方法具體應用于計算機漢語語音識別,從而使計算機既能對特定人或非特定人漢語語音特點進行識別,又可識別孤立漢字、詞組以及連續(xù)語音,而且在計算機語音識別系統(tǒng)中進行足夠的語音訓練后,達到語音識別的高識別率,高穩(wěn)定性。
文檔編號G06F3/16GK1112269SQ94105340
公開日1995年11月22日 申請日期1994年5月20日 優(yōu)先權日1994年5月20日
發(fā)明者肖熙, 王作英, 戰(zhàn)普明, 姜進 申請人:北京超凡電子科技有限公司