專利名稱:采用連續(xù)密度隱藏式馬爾克夫模型的語音識別方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)語音識別,更具體地說,本發(fā)明涉及采用連續(xù)隱藏式馬爾克夫模型的計(jì)算機(jī)語音識別系統(tǒng)。
語音識別領(lǐng)域正面臨一種需要提供一種具有最小識別誤差率的、與講話者無關(guān)的連續(xù)語音識別系統(tǒng)的挑戰(zhàn)。實(shí)現(xiàn)這個目標(biāo)的關(guān)鍵在于語音識別系統(tǒng)所采用的識別算法。識別算法基本上就是語音信號,一種連續(xù)時間信號,向表示先前從培訓(xùn)數(shù)據(jù)中得到的語音的音素和音韻描述的一組參考模式的對應(yīng)變換。為了實(shí)現(xiàn)這種對應(yīng)變換,對于語音信號的數(shù)字形式采用信號處理技術(shù),諸如快速富里葉變換(FFT)、線性預(yù)測編碼(LPC)、或?yàn)V波器組(Fitter banks)進(jìn)行處理,以獲取這些語音信號的適合代表參數(shù)。一種共用的代表是在每個時間間隔包含表示包含在語音信號中的頻帶和/或能帶的FFT或LPC系數(shù)的特征向量。一序列這種特征向量被對應(yīng)變換到用于識別包含在語音信號中的語言單位、單詞和/或句子的一組參考模式。
通常,語音信號不會與存儲的參考模式精確匹配。實(shí)現(xiàn)精確匹配的困難是由于語音信號特征的極大的變化性使之不能利用存儲的參考模式完全地和準(zhǔn)確地獲取。概率模型和統(tǒng)計(jì)技術(shù)比那些試圖實(shí)現(xiàn)精確匹配的技術(shù)更加成功地應(yīng)用于預(yù)測預(yù)期的信息。這類技術(shù)中有一種稱為隱藏式馬爾克夫模型(HMM)。這些技術(shù)更適合于語音識別,因?yàn)樗鼈兪谴_定最有可能與語音信號匹配的參考模式,而不是尋找一種精確的匹配。
一個隱藏式馬爾克夫模型由一序列與變換相連的狀態(tài)構(gòu)成。一個隱藏式馬爾克夫模型可以表示語音的一個特定的音素單位,諸如一個音素或字詞。與每個狀態(tài)相關(guān)的是一個指示該狀態(tài)與一個特征向量匹配的似然性的輸出概率。對于每種變換,存在指示遵循變換的似然性的一個相關(guān)的變換概率。這種變換和輸出概率是從先前的講話語音模式,稱之為“培訓(xùn)數(shù)據(jù)”,統(tǒng)計(jì)估算出來的。識別問題就是一個尋找具有與表示輸入語音信號的特征向量匹配的最高概率的狀態(tài)序列的問題。首先,這個搜索過程包括枚舉每一種已經(jīng)模型化的可能的狀態(tài)序列和確定該狀態(tài)序列與輸入語音信號匹配的概率。對應(yīng)于具有最高概率的狀態(tài)序列的語調(diào)被選擇為識別的語調(diào)。
大部分基于隱藏式馬爾克夫模型的語音識別系統(tǒng)是以向量量化的離散的隱藏式馬爾克夫模型為基礎(chǔ)的。離散的隱藏式馬爾克夫模型具有有限組的輸出符號,變換和輸出概率是建立在離散的概率分布函數(shù)(pdfs)基礎(chǔ)上的。向量量化用于借助于被稱為代碼字的一種離散的代表參數(shù)表征連續(xù)語音信號。特征向量與使用失真量值的一個代碼字匹配。該特征向量用具有最小失真量值的代碼字的索引代替。識別問題轉(zhuǎn)換降低為計(jì)算一個所關(guān)注的語音信號的離散的輸出概率,就象一種查表運(yùn)算,這只需要最少的計(jì)算量。
但是,語音信號是連續(xù)信號。盡管有可能利用代碼字量化連續(xù)信號,但是這種量化可能會產(chǎn)生嚴(yán)重的音質(zhì)降低,結(jié)果導(dǎo)致識別準(zhǔn)確性很差。利用連續(xù)密度隱藏式馬爾克夫模型的識別系統(tǒng)不會產(chǎn)生由于量化失真造成的不準(zhǔn)確的問題。連續(xù)密度隱藏式馬爾克夫模型能夠直接利用估算連續(xù)密度概率分布函數(shù)對連續(xù)語音信號模型化,從而達(dá)到較高的識別準(zhǔn)確率。但是,連續(xù)密度隱藏式馬爾克夫模型需要大量的培訓(xùn)數(shù)據(jù)和需要較長時間的識別運(yùn)算,這妨礙了它們在大部分商業(yè)語音識別系統(tǒng)中的應(yīng)用。所以,存在于連續(xù)語音識別系統(tǒng)中的主要問題是采用連續(xù)密度隱藏式馬爾克夫模型以實(shí)現(xiàn)較高的識別準(zhǔn)確率。
本發(fā)明涉及一種語音識別系統(tǒng),這種系統(tǒng)改進(jìn)了用對應(yīng)于一種語言表達(dá)式的連續(xù)密度隱藏式馬爾克夫模型對語音信號的模型化。在優(yōu)選實(shí)施例中,識別系統(tǒng)利用一個與前后音無關(guān)的和幾個與前后音有關(guān)的隱藏式馬爾克夫模型以不同的前后相關(guān)模式表示一種語音的音素單位。這些隱藏式馬爾克夫模型中每一個的輸出和變換概率利用培訓(xùn)數(shù)據(jù)估算。與對應(yīng)于相同的模型化的音素的相同狀態(tài)相關(guān)的輸出概率被群聚形成各句音(senone)。對于每個表示預(yù)測未發(fā)生的數(shù)據(jù)的輸出概率的穩(wěn)定性的與前后音相關(guān)的各句音還產(chǎn)生一個加權(quán)因子。在該優(yōu)選實(shí)施例中,通過在培訓(xùn)數(shù)據(jù)的所有數(shù)據(jù)點(diǎn)的刪除內(nèi)插估算加權(quán)因子。除了上述方式,還可以從數(shù)據(jù)點(diǎn)的代表參數(shù)或者從數(shù)據(jù)點(diǎn)的代表參數(shù)所產(chǎn)生的隨機(jī)生成數(shù)據(jù)點(diǎn)估算加權(quán)因子。
識別裝置接收一個輸入的語音并產(chǎn)生最有可能與輸入的語音的特征向量匹配的候選字序列。該字序列可以由對應(yīng)于隱藏式馬爾克夫模型的狀態(tài)序列的各種句音排列構(gòu)成。該識別裝置利用一個聲音和語言概率評分確定哪一個句音/狀態(tài)排列與特征向量最匹配。聲概率評分表示句音排列對應(yīng)于特征向量的似然性,語言概率評分表示語音與出現(xiàn)在語言中的句音排列相對應(yīng)的似然性。聲概率評分基于輸出和變換概率分析。輸出概率分析通過將每個輸出概率作為加權(quán)因子的函數(shù)加權(quán)而利用與前后音相關(guān)的和與前后音無關(guān)的句音的輸出概率。具有最穩(wěn)定估算的輸出概率將支配分析過程,從而改進(jìn)輸出概率分析。輸出概率分析的改進(jìn)改善了聲評分,進(jìn)而改善了整個識別的準(zhǔn)確率。
本發(fā)明的上述和其它的特征以及優(yōu)點(diǎn)通過以下對如附圖所示的、本發(fā)明的優(yōu)選實(shí)施例的更加詳細(xì)的描述將變得十分清楚,在不同的附圖中相同的參照標(biāo)號表示相同的單元。附圖不是按比例繪制的,重點(diǎn)在于解釋本發(fā)明的原理。
圖1為應(yīng)用于優(yōu)選實(shí)施例的一個語音識別系統(tǒng)的方框圖。
圖2為用于圖1所示的系統(tǒng)的培訓(xùn)方法的流程圖。
圖3為計(jì)算用于圖1所示系統(tǒng)中所用的加權(quán)因子的方法的流程圖。
圖4為計(jì)算用于圖3所示系統(tǒng)中所用的λ的新值的優(yōu)選實(shí)施例的流程圖。
圖5為計(jì)算用于圖3所示系統(tǒng)中所用的λ的新值的第一變型實(shí)施例的流程圖。
圖6為計(jì)算用于圖3所示系統(tǒng)中所用的λ的新值的第二變型實(shí)施例的流程圖。
圖7A和圖7B表示隱藏式馬爾克夫模型的一個實(shí)例和與一個音素相關(guān)的句音結(jié)構(gòu)。
圖8為用于圖1所示系統(tǒng)的語音識別方法的流程圖。
通過本發(fā)明的優(yōu)選實(shí)施例認(rèn)識到通過對表示同一音素單位的不同輸出概率針對每一輸出概率能夠預(yù)測未形成的數(shù)據(jù)的程度進(jìn)行加權(quán)處理能夠在采用連續(xù)密度隱藏式馬爾克夫模型的語音識別系統(tǒng)中得到提高的識別準(zhǔn)確率。權(quán)利要求中提出保護(hù)的發(fā)明中的語音識別系統(tǒng)接收以連續(xù)信號形式構(gòu)成的輸入語音,并產(chǎn)生相應(yīng)于該語音的最可能的語言表達(dá)式。該優(yōu)選實(shí)施例通過使構(gòu)成語音信號的代表參數(shù)的一組特征向量與識別可能的語言表達(dá)式的一序列隱藏式馬爾克夫模型相匹配而識別一個語言表達(dá)式。一個隱藏式馬爾克夫模型可以表示一個音素,一序列隱藏式馬爾克夫模型可以表示由許多音素構(gòu)成的單詞或句子。
由于連續(xù)密度概率分布函數(shù),例如高斯概率分布函數(shù)的混合形式,在模型化一個語音信號時更加準(zhǔn)確,所以可以利用它們表示一個狀態(tài)的輸出概率。這個輸出概率函數(shù)由培訓(xùn)數(shù)據(jù)統(tǒng)計(jì)估算。通常為了準(zhǔn)確地估算輸出概率函數(shù)培訓(xùn)數(shù)據(jù)的數(shù)量不足。為了解決這個問題,對于預(yù)定組的音素構(gòu)成了與前后音無關(guān)和與前后音有關(guān)的模型。然后用與前后音有關(guān)模型的輸出概率對前后音無關(guān)模型的輸出概率進(jìn)行內(nèi)插。這是通過一個加權(quán)或插值因子完成的,所說的加權(quán)或插值因子估算與前后音有關(guān)的隱藏式馬爾克夫模型的輸出概率函數(shù)能夠預(yù)測先前在培訓(xùn)數(shù)據(jù)中不存在的數(shù)據(jù)的程度。因此,與前后音有關(guān)狀態(tài)的新調(diào)整的輸出概率函數(shù)是兩種模型的輸出概率函數(shù)根據(jù)估算的穩(wěn)定性進(jìn)行加權(quán)得到的組合函數(shù)。所以,在該優(yōu)選實(shí)施例中,刪除的插值用于平滑概率空間,而不是參數(shù)空間。
圖1表示一個語音識別系統(tǒng)10,該系統(tǒng)可以用于實(shí)施根據(jù)本發(fā)明的優(yōu)選實(shí)施例的識別和培訓(xùn)方法。語音識別系統(tǒng)10包括一個輸入裝置12,例如一個麥克風(fēng),但是并不限于麥克風(fēng),它接收一個輸入語音,并產(chǎn)生相應(yīng)的模擬電信號?;蛘?,可以用存儲在一個存儲器中的語音作為輸入語音。與該語音相應(yīng)的模擬電信號被傳輸?shù)侥?shù)(A/D)轉(zhuǎn)換器14,該轉(zhuǎn)換器將模擬信號轉(zhuǎn)換成一序列數(shù)字采樣信號。然后這些數(shù)字采樣信號傳輸?shù)教卣鞒槿∑?6,該抽取器抽取數(shù)字化的輸入語音信號的代表參數(shù)。這個代表參數(shù)獲取輸入語音的聲特性??扇〉氖牵卣鞒槿∑?6進(jìn)行頻譜分析以產(chǎn)生一序列特征向量,每個特征向量包含表示輸入語音信號的頻譜的系數(shù)。進(jìn)行頻譜分析的方法是信號處理領(lǐng)域中所熟知的,可以包括快速傅里葉變換(FFT)、線性預(yù)測編碼(LPC)、和倒譜系數(shù),所有這些方法特征抽取器16都可以使用。特征抽取器16可以是能夠進(jìn)行頻譜分析的任何常規(guī)處理器。頻譜分析可以以10毫秒的間隔進(jìn)行以將輸入語音信號分割成表示25毫秒語音的特征向量。但是,本發(fā)明并不限于使用表示25毫秒語音的特征向量。還可以使用表示不同時間長度語音的特征向量。對整個輸入語音信號重復(fù)這個過程,結(jié)果得到一序列特征向量,然后將這些特征向量傳送到一個數(shù)據(jù)處理器38中。數(shù)據(jù)處理器38可以是任何常規(guī)的計(jì)算機(jī),例如桌面?zhèn)€人電腦。數(shù)據(jù)處理器包含一個按規(guī)定路線發(fā)送這些特征向量的一個轉(zhuǎn)換模塊18。轉(zhuǎn)換模塊18可以用硬件或軟件實(shí)現(xiàn)。但是,語音識別系統(tǒng)并不局限于在數(shù)據(jù)處理器上運(yùn)行。其它類型的可執(zhí)行媒體也可以使用,諸如,但是并不限于,一個計(jì)算機(jī)可讀的存儲媒體,它可以是一個存儲器、光盤,或軟盤。
在最初的培訓(xùn)階段,轉(zhuǎn)換模塊18轉(zhuǎn)換到將特征向量導(dǎo)向培訓(xùn)裝置20的位置。培訓(xùn)裝置20利用這些特征向量估算表示存在于培訓(xùn)數(shù)據(jù)中的音素的隱藏式馬爾克夫模型的參數(shù),并計(jì)算識別裝置34所用的一組加權(quán)因子。下面參照附圖2-6更詳細(xì)地描述培訓(xùn)裝置20所使用的方法。簡單地說,培訓(xùn)裝置20通過從這些培訓(xùn)數(shù)據(jù)估算基于與前后音無關(guān)和與前后音有關(guān)音素的隱藏式馬爾克夫模型的參數(shù)而產(chǎn)生這些模型。每一與前后音有關(guān)狀態(tài)的輸出分布群聚形成句音,存儲在句音表存儲器30中。一般來說,句音表存儲器30保存與前后音有關(guān)和與前后音無關(guān)隱藏式馬爾克夫模型的句音。對于每個隱藏式馬爾克夫模型的句音標(biāo)識符儲存在隱藏式馬爾克夫模型存儲器28中。此外,計(jì)算對于每個與前后音有關(guān)句音的加權(quán)因子,并將其存儲在用于識別裝置34的λ表存儲器26中。λ表存儲器26存儲用與前后音有關(guān)的隱藏式馬爾克夫模型標(biāo)引的λ值。培訓(xùn)裝置20還利用了一個文本副本,其中包括培訓(xùn)數(shù)據(jù)的譯文22和包含每個單詞的語音描述的字典24以確保每個單詞都被正確地模擬。在下面的討論中將更加詳細(xì)地描述培訓(xùn)裝置20的操作。字典24包含每個單詞的以音素形式體現(xiàn)的發(fā)音。例如,字典中“add”的詞條可能是“/AEDD”。
在最初的培訓(xùn)階段之后,轉(zhuǎn)換模塊18進(jìn)行轉(zhuǎn)換將特征向量導(dǎo)向識別裝置34。識別裝置34將這一組特征向量識別為由構(gòu)成單詞,這些單詞又構(gòu)成句子,的音素組成的語言表達(dá)式?,F(xiàn)在參照附圖8詳細(xì)描述在該識別裝置34中使用的方法。識別裝置34使用存儲在隱藏式馬爾克夫模型存儲器28中的與前后音無關(guān)的和與前后音有關(guān)的隱藏式馬爾克夫模型、存儲在句音表存儲器30中的與前后音無關(guān)的和與前后音有關(guān)的句音、存儲在λ表存儲器26中的加權(quán)因子、和存儲在語言模型存儲器32中的語言模型以及字典24。語言模型存儲器22可以載明語法規(guī)則。在該優(yōu)選實(shí)施例中,從識別裝置34中產(chǎn)生的語言表達(dá)式顯示在一個輸出裝置36上,例如一個常規(guī)的打印機(jī)、計(jì)算機(jī)監(jiān)視器、或類似裝置。但是,本發(fā)明并不局限于將語言表達(dá)式顯示在一個輸出裝置上。例如,可以將語言表達(dá)式輸入另一個程序或處理器以進(jìn)行進(jìn)一步的處理或者可以存儲起來。
附圖2-6是表示在系統(tǒng)的培訓(xùn)階段中所執(zhí)行的步驟的流程圖,在這些步驟中估算隱藏式馬爾克夫模型的參數(shù)和句音,并計(jì)算加權(quán)因子。簡言之,培訓(xùn)方法開始時接收以單詞、句子、短語、或類似形式構(gòu)成的輸入語音,并將它們轉(zhuǎn)換為代表參數(shù),例如已經(jīng)知道的以特征向量的形式。形成隱藏式馬爾克夫模型和句音的結(jié)構(gòu),并且利用這些培訓(xùn)數(shù)據(jù)計(jì)算這些數(shù)據(jù)結(jié)構(gòu)的參數(shù)的估算值。然后利用刪除內(nèi)插技術(shù)確定加權(quán)因子。
參見附圖2,培訓(xùn)方法開始時接收一序列的語音(步驟42),并如前面參照圖1所述將其轉(zhuǎn)換成一序列的特征向量(步驟44)。完整的一組特征向量被稱為“培訓(xùn)數(shù)據(jù)”。在優(yōu)選實(shí)施例中,利用LPC倒譜分析以使語音信號模型化,并得到一個特征向量,該特征向量包含下列39個表示信號中包含的頻率和能譜的倒譜和能量系數(shù)(1)12個LPC美-頻倒譜系數(shù),xk(t),1<=K<=12;(2)12個LPCΔ美-頻倒譜系數(shù)Δxk(t),1<=K<=12;(3)12個LPCΔΔ美-頻倒譜系數(shù)ΔΔxk(t),1<=K<=12;以及(4)能量、Δ能量、和ΔΔ能量系數(shù)。使用LPC倒譜分析模擬語音信號在語音識別領(lǐng)域是眾所周知的。
在步驟46,生成句音和隱藏式馬爾克夫模型數(shù)據(jù)結(jié)構(gòu)。句音是語音識別領(lǐng)域中熟知的數(shù)據(jù)結(jié)構(gòu),有關(guān)句音以及用于構(gòu)成句音的方法的詳細(xì)介紹可以在M.Huang等人所寫“用句音預(yù)測未產(chǎn)生的三音素”(trophone)(Proc.ICASSP‘93 Vol.II,pp.311-314,1993)一文中找到。在優(yōu)選實(shí)施例中,一個隱藏式馬爾克夫模型可以用于對一個音素的語音單位模型化。隱藏式馬爾克夫模型也可以被稱為聲模型。選擇這個語音單位是為了適應(yīng)大詞匯識別。對單個的單詞模型化需要較長的培訓(xùn)時間和附加的存儲空間以存儲相關(guān)的參數(shù)。這對于小詞匯系統(tǒng)是可行的,但是對于使用大詞匯的系統(tǒng)是不實(shí)用的。然而,本發(fā)明不限于以音素為基礎(chǔ)的隱藏式馬爾克夫模型。其它語音單位,例如單詞、雙音素、和音節(jié)都可以用作隱藏式馬爾克夫模型的基礎(chǔ)。
可以使用兩種類型的隱藏式馬爾克夫模型。與前后音有關(guān)的隱藏式馬爾克夫模型可以用于模擬一個音素及其左右音素。這種類型的模型化獲取到通常在單詞模型化中存在的前后音的相關(guān)性。與前后音無關(guān)的隱藏式馬爾克夫模型可以用于任何出現(xiàn)在培訓(xùn)數(shù)據(jù)中處于前后音的音素模型化,所以使得它與任何特定的前后音無關(guān)。選擇包含一組音素及其相關(guān)的左右音素的預(yù)定模式,用與前后音有關(guān)的隱藏式馬爾克夫模型進(jìn)行模型化。所選擇的這些模式表示最常出現(xiàn)的音素和最常出現(xiàn)的這些音素的前后音素。培訓(xùn)數(shù)據(jù)可以提供有關(guān)這些模型的參數(shù)的估算值。與前后音無關(guān)的模型可以基于所選擇的音素,并由任何出現(xiàn)在培訓(xùn)數(shù)據(jù)中的音素上下文進(jìn)行模擬。同樣,培訓(xùn)數(shù)據(jù)將提供對于這些與前后音無關(guān)模型參數(shù)的估算結(jié)果。
使用與前后音無關(guān)的和與前后音有關(guān)的模型都有益于提高識別準(zhǔn)確度。每種模型的穩(wěn)定性與用于估算其參數(shù)的培訓(xùn)數(shù)據(jù)的數(shù)量有關(guān),所說參數(shù)還能夠使其預(yù)測培訓(xùn)數(shù)據(jù)中沒有的數(shù)據(jù)。兩種模型相互結(jié)合,由于得益于兩種模型的培訓(xùn)數(shù)據(jù),可以提供更加穩(wěn)定的估算結(jié)果。例如,與前后音有關(guān)的模型在共同發(fā)音效應(yīng)模型化時是有益的,但是由于有限的培訓(xùn)數(shù)據(jù)可能培訓(xùn)得不夠(盡管一個講話者可能努力將各個單詞發(fā)音成一組連接的音素,但是講話者的發(fā)音器官不能同時動作以產(chǎn)生相互不發(fā)生影響的音素。結(jié)果,一個音素被在一個單詞中位于它前面的音素和位于它后面的音素強(qiáng)烈地影響著。這種效應(yīng)就是“共同發(fā)音效應(yīng)”)。相反,與前后音無關(guān)的模型是經(jīng)過很好培訓(xùn)的,從而產(chǎn)生更加穩(wěn)定的估算結(jié)果,對此不再詳述。識別裝置可以結(jié)合使用兩種模型,并以適當(dāng)?shù)姆绞郊訖?quán),以產(chǎn)生更加準(zhǔn)確的聲概率評分。
進(jìn)一步考慮講話者之間的差別,例如男性和女性聲域中共振頻率(即聲域諧振頻率)的差別,隱藏式馬爾克夫模型可以利用這些輸出概率分布函數(shù)(在本申請中稱之為“輸出概率分布函數(shù)”)的單峰分布的混合??扇〉氖牵梢允褂酶咚垢怕拭芏群瘮?shù)的混合。但是,本發(fā)明并不局限于這種特定限制。其它眾所周知的連續(xù)密度函數(shù)的混合,例如拉普拉斯和K0型密度函數(shù)也可以使用。
此外,為了獲取在不同的與前后音有關(guān)的音素狀態(tài)之間的相似性和增加可用于每個句音的培訓(xùn)數(shù)據(jù)的數(shù)量,對于相同的與前后音無關(guān)的音素,不同的與前后音有關(guān)的音素隱藏式馬爾克夫模型模型的相同狀態(tài)的輸出分布群聚在一起構(gòu)成句音。
附圖7A表示了用于音素/aa/114的一個與前后音無關(guān)的隱藏式馬爾克夫模型結(jié)構(gòu)的實(shí)例。該與前后音無關(guān)的隱藏式馬爾克夫模型包括三種狀態(tài),標(biāo)記為狀態(tài)1(111)、狀態(tài)2(112)和狀態(tài)3(113)。附圖7A中表示的隱藏式馬爾克夫模型對伴隨有任何出現(xiàn)在培訓(xùn)數(shù)據(jù)中的左右音素的音素/aa/模型化,所說的左右音素在附圖7A中用符號(*,*)標(biāo)記。括號中的第一個位置表示在指定音素之前的音素, 第二個位置表示在指定音素之后的音素。句音在對于與相同音素相應(yīng)的每種類型的模型(例如與前后音有關(guān)相對與前后音無關(guān)的)相同的狀態(tài)(例如狀態(tài)1)范圍中分類。在這個實(shí)例中,與前后音無關(guān)的隱藏式馬爾克夫模型分別包括與狀態(tài)1、2和3對應(yīng)的句音10、55和125。
附圖7B表示一個與音素/aa/相應(yīng)的與前后音有關(guān)的隱藏式馬爾克夫模型的實(shí)例。在附圖7B中有5個與前后音有關(guān)的模型,這些模型以5種不同的音素前后關(guān)系(115-119)模擬音素/aa/。例如,與前后音有關(guān)的模型/aa/(/dh/,/b/)115在左邊或前面的音素為/dh/,右邊的音素為/b/的前后范圍內(nèi)對音素/aa/模型化。句音在不同隱藏式馬爾克夫模型的相同狀態(tài)范圍內(nèi)分類。在狀態(tài)1中,有兩個與前后音有關(guān)的句音,標(biāo)記為句音14和25??傊?,對于音素/aa/,在狀態(tài)1有兩個與前后音有關(guān)的句音14和35和一個與前后音無關(guān)的句音10,在狀態(tài)2有兩個與前后音有關(guān)的句音25和85和一個與前后音無關(guān)的句音55;在狀態(tài)3有一個與前后音有關(guān)的句音99和一個與前后音無關(guān)的句音125。
因此,用于優(yōu)選實(shí)施例中的基于音素的連續(xù)密度隱藏式馬爾克夫模型可以表征為下列數(shù)學(xué)定義(1)N,模型中狀態(tài)的數(shù)目;可取的是,使用三個狀態(tài)。但是,本發(fā)明并不局限于三個狀態(tài),而是可以使用多達(dá)5個狀態(tài)。
(2)M,在輸出概率分布函數(shù)中混合的數(shù)目。
(3)A={aij},狀態(tài)轉(zhuǎn)變概率分布,從狀態(tài)i轉(zhuǎn)變到狀態(tài)j。
(4)B={bi(X)},輸出概率分布;當(dāng)處于狀態(tài)i時輸出特征向量x的概率,其中bi(x)=Σk=1MckN(x,μk,Vk)-----(1)]]>其中N(x,μk,Vk)表示利用平均向量μk和協(xié)方差矩陣Vk定義的多維高斯密度函數(shù);混合部分的數(shù)目通常為1到50;ck是第k個混合部分在狀態(tài)i中的加權(quán)因子。
與每狀態(tài)i相關(guān)的輸出概率分布用句音,sdi表示,可以表示為P(x1,sdi)。
(5)π={π1},初始狀態(tài)分布。
為了方便,用壓縮符號∝=(A,B,π)表示模型的一組完整的參數(shù),其也被稱為一個隱藏式馬爾克夫模型的參數(shù)空間。
在附圖2的步驟48中,估算有關(guān)句音、與前后音有關(guān)的隱藏式馬爾克夫模型和與前后音無關(guān)的隱藏式馬爾克夫模型參數(shù)。一個隱藏式馬爾克夫模型的培訓(xùn)階段包括利用培訓(xùn)數(shù)據(jù)、語音22的音素、和單詞24的音素拼讀字典估算這些參數(shù)。輸出和轉(zhuǎn)變概率可以利用眾所周知的Baum-Welch或向前-向后算法估算。由于Baum-Welch算法使得培訓(xùn)數(shù)據(jù)可以更好地得到利用,所以較為可取。有關(guān)內(nèi)容在Huang等人撰寫的“用于語音識別的隱藏式馬爾克夫模型”(愛丁堡大學(xué)出版社,1990)一書中予以了介紹。但是,本發(fā)明并不局限于這種特殊的培訓(xùn)算法,其它算法也可以使用。通常利用培訓(xùn)數(shù)據(jù)的大約5次迭代就可以得到較好的參數(shù)估算結(jié)果。
在附圖2的步驟50中,產(chǎn)生每一與前后音有關(guān)的句音的加權(quán)或內(nèi)插因子,并用數(shù)學(xué)符號,λ表示。加權(quán)因子將用于將與前后音有關(guān)的隱藏式馬爾克夫模型的輸出概率內(nèi)插入到與前后音無關(guān)的隱藏式馬爾克夫模型的輸出概率中。這些加權(quán)因子表示與前后音有關(guān)的輸出概率分布函數(shù)在預(yù)測未產(chǎn)生數(shù)據(jù)方面的適合程度。輸出概率分布函數(shù)利用培訓(xùn)數(shù)據(jù)估算,并且接近地預(yù)測與培訓(xùn)數(shù)據(jù)類似的數(shù)據(jù)。但是,利用表示每一個可能的輸入語音的培訓(xùn)數(shù)據(jù)不可能估算輸出概率分布函數(shù),或者利用足夠的培訓(xùn)數(shù)據(jù)正確地預(yù)測所有未產(chǎn)生的數(shù)據(jù)。加權(quán)因子的作用是指示對于預(yù)測未產(chǎn)生數(shù)據(jù)輸出pdf的適合程度,這是用于估算與前后音有關(guān)的與前后音無關(guān)的模型的培訓(xùn)數(shù)據(jù)的函數(shù)。當(dāng)用于與前后音有關(guān)的模型的培訓(xùn)數(shù)據(jù)的數(shù)量變大時,λ將趨近于1.0,輸出概率分布函數(shù)將急劇地加權(quán)。利用少量的用于與前后音有關(guān)的模型的培訓(xùn)數(shù)據(jù),λ將趨近于0.0,輸出概率分布函數(shù)將加權(quán)較少。用于每一與前后音有關(guān)的句音的λ最佳值通過刪除內(nèi)插技術(shù)確定。
簡而言之,刪除內(nèi)插技術(shù)將培訓(xùn)數(shù)據(jù)劃分為不同的兩組。一組用于估算模型的參數(shù),另一組用于確定加權(quán)因子,加權(quán)因子表示輸出概率分布函數(shù)能夠預(yù)測未產(chǎn)生數(shù)據(jù)的適合程度。這種方法是反復(fù)進(jìn)行的,在每次迭代過程中循環(huán)不同的各組,并產(chǎn)生一個新的模型和加權(quán)因子。在所有迭代結(jié)束時,計(jì)算加權(quán)因子的平均值,并用于識別階段。
附圖3-6表示用于計(jì)算加權(quán)因子的步驟。參見附圖3,培訓(xùn)數(shù)據(jù)在步驟60被分成K塊??扇〉氖?,有兩塊數(shù)據(jù)。但是,本發(fā)明不局限于這些數(shù)目的數(shù)據(jù)塊,根據(jù)培訓(xùn)數(shù)據(jù)存儲的限制和培訓(xùn)時間可以使用其它數(shù)目的數(shù)據(jù)塊。
對于每個與前后音有關(guān)的句音計(jì)算加權(quán)因子(步驟62),這種計(jì)算是通過首先利用句音表求出senSI(步驟63)實(shí)現(xiàn)的,該senSI是該與senSD(即與前后音有關(guān)的句音)對應(yīng)的與前后音無關(guān)的句音。計(jì)算公式是通過一種迭代方法在步驟64推導(dǎo)出的,當(dāng)新的λ值,標(biāo)記為λ新之間的差值滿足一定的閾值時,該計(jì)算公式收斂。可取的是,當(dāng)|λ-λ新|<.0001時,該方法收斂或結(jié)束。該方法在步驟66從選擇一個初始的λ值開始。開始時,為了進(jìn)行一個句音的第一次迭代,使用者預(yù)先選擇了一個初始值??扇〉氖?,這個初始值可以是一個估算的假設(shè)值,例如0.8。對于所有其它迭代,初始值可以是以前計(jì)算出的新值,λ=λ新。在步驟68中,該方法迭代K次。在步驟70的每次迭代中,選擇一塊數(shù)據(jù)作為刪除的數(shù)據(jù)塊,所選擇的刪除數(shù)據(jù)塊是以前沒有選擇的。
然后該方法利用除去刪除的數(shù)據(jù)塊以外的所有數(shù)據(jù)塊的培訓(xùn)數(shù)據(jù)估算每個與前后音有關(guān)的(標(biāo)記為b1)句音和與前后音無關(guān)的(標(biāo)記為b2)句音的輸出概率(步驟72)。這些參數(shù)是利用如上所述在培訓(xùn)階段估算隱藏式馬爾克夫模型參數(shù)的相同技術(shù)(即Baum-Welch算法)進(jìn)行估算的。
接著在步驟74,計(jì)算新值λ新。計(jì)算假定要求“強(qiáng)制排列”。在培訓(xùn)過程中,如果使用了Viterbi算法,可以用一個特定的句音識別培訓(xùn)數(shù)據(jù)中的每個特征向量。這種利用句音的對應(yīng)變換或向量就是所知的“強(qiáng)制排列”。λ新根據(jù)以下的數(shù)學(xué)公式計(jì)算λnew=1NΣi=1N(λ*b1(xi))(λ*b1(xi)+(1-λ)*b2(xi))---(2)]]>其中N=在相應(yīng)于句音senSD的刪除數(shù)據(jù)塊中利用強(qiáng)制排列的數(shù)據(jù)點(diǎn)或特征向量的數(shù)目xi=特征向量i,1≤i≤Nb1(xi)=由上述方程(1)定義的與前后音有關(guān)的輸出概率分布函數(shù)b2(xi)=由上述方程(1)定義的與前后音無關(guān)的輸出概率分布函數(shù)λ*b1(xi)+(1-λ)*b2(xi)簡稱總概率。
為K次迭代的每一次迭代確定一個λ新值。在步驟76中, 當(dāng)完成所有K次迭代時,計(jì)算一個平均值,該平均值可以用下列數(shù)學(xué)表達(dá)式表示λnew=Σj=1KNjλnewjΣJ=1KNj----(3)]]>其中j=刪除數(shù)據(jù)塊的標(biāo)號K=數(shù)據(jù)塊的數(shù)量λj新=利用刪除數(shù)據(jù)塊j估算的λ值Nj=在刪除數(shù)據(jù)塊j中利用強(qiáng)制排列對應(yīng)于senSD的數(shù)據(jù)點(diǎn)的數(shù)量。
如果λ新值不滿足預(yù)定的閾值,則重新執(zhí)行步驟66到步驟76。當(dāng)該方法對于一個特定的與前后音有關(guān)的句音收斂時,將λ新的當(dāng)前值存儲到與該特定的與前后音有關(guān)的句音相關(guān)的λ表26中。
附圖4表示根據(jù)上述的方程(2)和(3)計(jì)算加權(quán)因子的新值λ新的步驟的流程圖。將對應(yīng)于刪除數(shù)據(jù)塊中的每個數(shù)據(jù)點(diǎn)的總概率的與前后音有關(guān)的輸出概率分布函數(shù)的有影響部分求和可以計(jì)算出所說新值。因此,在步驟79,利用在步驟48中生成的模型和強(qiáng)制排列找出在對應(yīng)于senSD的刪除數(shù)據(jù)塊中的所有點(diǎn)。在步驟80,對于用senSD排列的刪除數(shù)據(jù)塊中的每一個數(shù)據(jù)點(diǎn)xi重復(fù)該方法。在步驟82根據(jù)下列數(shù)學(xué)公式確定數(shù)據(jù)點(diǎn)xi的與前后音有關(guān)的輸出概率分布函數(shù)相對于總概率的有影響部分(λ*b1(xi))(λ*b1(xi)+(1-λ)*b2(xi))----(4)]]>在步驟84將這樣計(jì)算得出的所有數(shù)據(jù)點(diǎn)的有影響部分之和相加。當(dāng)?shù)?jì)算完成,即在刪除數(shù)據(jù)塊中用senSD排列的所有數(shù)據(jù)點(diǎn)都經(jīng)過處理時,在步驟86根據(jù)上述的方程(2)計(jì)算有影響部分的平均值,λ新。
上述加權(quán)因子的計(jì)算利用了刪除數(shù)據(jù)塊中的數(shù)據(jù)點(diǎn)。這種方法以增加培訓(xùn)時間以及培訓(xùn)裝置執(zhí)行計(jì)算程序所需的存儲量為代價得到了更加準(zhǔn)確的計(jì)算結(jié)果。在某些情況下,生成相應(yīng)的刪除數(shù)據(jù)塊中數(shù)據(jù)點(diǎn)的代表參數(shù),并用適合的參數(shù)代替可能更加有利。另一種方法是利用從數(shù)據(jù)點(diǎn)的代表參數(shù)到senSD重構(gòu)的數(shù)據(jù)點(diǎn)。這些方法只能提供粗略近似的數(shù)據(jù)點(diǎn),但是卻具有計(jì)算效率高的優(yōu)點(diǎn)。
附圖5和附圖6表示這些計(jì)算加權(quán)因子的選擇實(shí)施例。附圖5表示第一選擇實(shí)施例。參見附圖5,如圖所示在步驟90中生成刪除數(shù)據(jù)塊中的數(shù)據(jù)點(diǎn)的代表參數(shù)。在這種情況下,該代表參數(shù)是高斯函數(shù)的混合表示。這種表示可以利用如上所述的Baum-Welch算法求得。所產(chǎn)生的參數(shù)包括相應(yīng)于每一個混合部分j的平均值μi,和加權(quán)因子cj。λ新值λ新的計(jì)算可以根據(jù)下列數(shù)學(xué)公式相對于刪除數(shù)據(jù)塊μj進(jìn)行λnew=Σj=1Mcj*(λ*b1(μj))(λ*b1(μj)+(1-λ)*b2(μj))---(5)]]>其中M=正?;旌戏至康臄?shù)量;Cj=第j個正?;旌戏至康募訖?quán);
μj=第j個正?;旌戏至康钠骄担徊襟E92-98按照下列方式進(jìn)行計(jì)算。步驟92對于每個混合分量進(jìn)行迭代計(jì)算,并確定與前后音有關(guān)的輸出概率相對于具有相應(yīng)的平均值和加權(quán)參數(shù)的混合的總概率的有影響部分。對于混合部分,它在數(shù)學(xué)上的表示為cj*(λ*b1(μj))(λ*b1(μj)+(1-λ)*b2(μj))----(6)]]>在步驟96,對于所有的混合分量求出這些有影響部分的和。在步驟98,將在步驟96中求得的最后的和作為當(dāng)前的senSD和刪除數(shù)據(jù)塊的λ新值存儲起來。
參見附圖3,當(dāng)K次迭代完成時,過程進(jìn)入步驟76,根據(jù)上述的方程(3)計(jì)算λ新的平均值。該過程如上所述繼續(xù)進(jìn)行,參見圖3,直到該方法收斂和當(dāng)前的平均值λ新存儲在對應(yīng)于特定的與前后音有關(guān)的句音的λ表26中。
在計(jì)算加權(quán)因子的第二個選擇實(shí)施例中,使用了選擇數(shù)目的數(shù)據(jù)點(diǎn),它們是從句音的代表參數(shù)中隨機(jī)產(chǎn)生的。附圖6表示了所說的第二個選擇實(shí)施例,它可以根據(jù)上述提出的方程(2)對一個刪除數(shù)據(jù)塊進(jìn)行數(shù)學(xué)描述,除了{(lán)xi}=所產(chǎn)生的數(shù)據(jù)點(diǎn)和N=所產(chǎn)生的數(shù)據(jù)點(diǎn)的數(shù)量。
如圖3所示,這個選擇實(shí)施例與優(yōu)選實(shí)施例不同之處在于λ新新值的確定方式(步驟74)。流程順序保持如圖3所示。參見圖6,在步驟100,為刪除數(shù)據(jù)塊中的數(shù)據(jù)點(diǎn)產(chǎn)生一個代表參數(shù)。這個代表參數(shù)可以由高斯混合函數(shù)構(gòu)成。這個代表參數(shù)可以使用Baum-Welch算法根據(jù)刪除數(shù)據(jù)塊中的培訓(xùn)數(shù)據(jù)推導(dǎo)出來。根據(jù)這個代表參數(shù),如圖所示在步驟102,利用一個具有平均值和加權(quán)參數(shù)的隨機(jī)數(shù)發(fā)生器重構(gòu)預(yù)定數(shù)量的數(shù)據(jù)點(diǎn)。重構(gòu)數(shù)據(jù)點(diǎn)的數(shù)量折衷考慮了計(jì)算λ新所需的精確度和計(jì)算需求兩個方面。較大數(shù)量的數(shù)據(jù)點(diǎn)提高了λ新的精確度,但是增大了計(jì)算需求。每個混合部分的適合的重構(gòu)數(shù)據(jù)數(shù)量是100。
在步驟104,對于在步驟104中成組數(shù)據(jù)點(diǎn)中的每個數(shù)據(jù)點(diǎn)執(zhí)行步驟106和108。在步驟106,確定數(shù)據(jù)點(diǎn)相對于數(shù)據(jù)點(diǎn)的總概率與前后音有關(guān)的輸出概率的有影響部分。這可以用數(shù)學(xué)公式表示為(λ*b1(xi))(λ*b1(xi)+(1-λ)*b2(xi))---(9)]]>在步驟108,對于集合中所有數(shù)據(jù)點(diǎn)求出這些有影響部分的和。當(dāng)對所有數(shù)據(jù)點(diǎn)完成迭代運(yùn)算時,將所有有影響部分的平均值返回作為λ新值,(步驟110)。參見附圖3,當(dāng)完成K次迭代時,過程進(jìn)入步驟76根據(jù)上述方程(3)計(jì)算λ新的平均值。該計(jì)算程序如上參照圖3所述繼續(xù)進(jìn)行,直到該計(jì)算過程收斂和當(dāng)前的平均值λ新存儲在特定的與前后音有關(guān)的句音的λ表26中。
當(dāng)培訓(xùn)數(shù)據(jù)已經(jīng)產(chǎn)生,并存儲在適合的存儲位置時,識別系統(tǒng)就準(zhǔn)備工作。語音識別系統(tǒng)的基本任務(wù)是檢測在輸入的語音信號中包含的語音信息。這個任務(wù)是一個多級解碼問題,因?yàn)樗枰挂恍蛄刑卣飨蛄颗c一序列音素匹配,使一序列音素與一序列單詞匹配,和使一序列單詞與一個句子匹配。這是通過構(gòu)成所有已經(jīng)模型化的可能的語言表達(dá)式和計(jì)算該表達(dá)式與一序列特征向量匹配的概率來實(shí)現(xiàn)的。由于一個語言表達(dá)式包含一序列音素,所以所說的確定可能包括計(jì)算一種似然性即構(gòu)成表達(dá)式的音素與特征向量匹配和該表達(dá)式可能出現(xiàn)(即語法正確)的似然性。構(gòu)成表達(dá)式的音素與特征向量匹配的概率可以簡稱為聲評分,該表達(dá)式出現(xiàn)的概率可以簡稱為語言評分。語言評分考慮了語言的句法和語義,例如語法,并且指出與這一組音素相應(yīng)的這一組單詞是否構(gòu)成一個語法正確的語言表達(dá)式。
在優(yōu)選實(shí)施例中,音素用隱藏式馬爾克夫模型表示,其中相同狀態(tài)的輸出概率分布函數(shù)群聚在一起構(gòu)成句音。使一個特征向量與一個音素匹配的方法必然使得一個特征向量與表示該音素的一個隱藏式馬爾克夫模型的狀態(tài)相關(guān)的句音匹配。因此,語言表達(dá)式可以由對應(yīng)于一組隱藏式馬爾克夫模型的狀態(tài)的句音構(gòu)成。
在本發(fā)明的優(yōu)選實(shí)施例中,識別系統(tǒng)的任務(wù)可以是找出使概率P(W/X)達(dá)到最大的單詞序列W。概率P(W/X)表示語言表達(dá)式W出現(xiàn)給定的輸入語音信號X的概率。W可以是一個單詞串,表示為W=W1,W2,…,Wi,…,Wn,其中Wi表示各個單詞,每個單詞用一組音素表示,Wi=p1,p2,…,pq,X是用一組特征向量表示的輸入語音信號,表示為X=x1,x2,…,xn。這個最大化問題可以利用眾所周知的Bayes公式的改進(jìn)公式求解,其數(shù)學(xué)表示為P(W/X)=(P(X/W)P(W)/P(X) (10)P(X/W)是輸入語音信號X與單詞串W匹配的概率,簡稱為聲評分。P(W)為單詞串W出現(xiàn)的概率,簡稱為語言評分。由于P(X)與W無關(guān),使P(W/X)最大化等價于使分子,即對于所有單詞串W的,P(X/W)P(W)最大。
識別工作考慮各種單詞組以努力確定最佳匹配。對于每個單詞組,識別工作計(jì)算聲評分和語音評分。語音評分指示在語音中該單詞組的似然性如何,在上述方程(10)中由P(W)項(xiàng)表示。聲評分指示一序列聲特征向量與單詞組W的聲模型匹配的程度如何。在上述公式中聲評分由P(X/W)項(xiàng)表示。
在計(jì)算一個給定單詞組的聲評分過程中,識別工作考慮各種句音排列。一種句音排列就是從這一組聲特征向量到句音的一個對應(yīng)變換,其為每個聲特征向量指定唯一的一個句音。只有能夠得出所考慮的單詞組的句音排列才會被識別工作所考慮。計(jì)算在每一種句音排列的約束下單詞串的聲評分。單詞串的聲評分是在所有可能的句音排列中最好的聲評分。
數(shù)學(xué)上,它可以表示為P(X/W)=Max[P(X/(W,Aj))]從i=1到q其中Ai…Aq對于單詞串W的所有可能的句音排列在給定的句音排列A的約束下對于單詞串W的聲評分的計(jì)算還可以表示為P(X/(W,A))=(Πj=1nP(xi/Sdj))*P(A)----(11)]]>其中句音排列A指定或標(biāo)記第i個聲特征向量xi對應(yīng)于與前后音有關(guān)的句音sdi。P(A)表示句音組sdi…sdn的狀態(tài)轉(zhuǎn)變概率。P(xi/sdi)表示特征向量xi與與前后音有關(guān)的句音sdi匹配的概率。
聲評分的實(shí)質(zhì)是計(jì)算輸出概率p(x|sd)。這表示特征向量,x,與與前后音有關(guān)的隱藏式馬爾克夫模型狀態(tài)相應(yīng)的句音,sd,匹配的似然性。但是,估算不準(zhǔn)確的輸出概率分布函數(shù)會造成聲評分計(jì)算的不準(zhǔn)確性。這通常是由于培訓(xùn)數(shù)據(jù)不足引起的。隨著使用更多的培訓(xùn)數(shù)據(jù)估算輸出概率分布函數(shù)增加了分布的穩(wěn)定性。
解決這個問題的一種方法是利用多個在若干清晰度水平上模擬相同音素的隱藏式馬爾克夫模型。然后可以利用在各種清晰度水平上的輸出概率分布函數(shù)和將它們結(jié)合在一起構(gòu)成特定狀態(tài)的輸出概率分布函數(shù)。這種結(jié)合是在培訓(xùn)過程中預(yù)測未產(chǎn)生數(shù)據(jù)的能力基礎(chǔ)上進(jìn)行的。更加適合于預(yù)測未產(chǎn)生數(shù)據(jù)的穩(wěn)定的輸出概率分布函數(shù)在組合的輸出概率分布函數(shù)中將得到更多的加權(quán),而估算不準(zhǔn)確的輸出概率分布函數(shù)只得到較少的加權(quán)。在優(yōu)選實(shí)施例中,利用多個與前后音有關(guān)的隱藏式馬爾克夫模型和一個與前后音無關(guān)的隱藏式馬爾克夫模型模擬一個音素。對于相應(yīng)于以前在培訓(xùn)階段計(jì)算的與前后音有關(guān)狀態(tài)的每個句音,用一個加權(quán)因子λ指示每個句音被指定的加權(quán)。λ越大(趨近于1.0),與前后音有關(guān)的句音越占優(yōu)勢,而與前后音無關(guān)的句音的加權(quán)越少。當(dāng)λ較小時(趨近于0.0),與前后音無關(guān)的句音占主導(dǎo)地位。因此,輸出概率p(x|sd)的計(jì)算可以用下列的數(shù)學(xué)公式表示p(x|sd)=λ*p(x|sdd)+(l-λ)*p(x|sdi)(12)其中λ是句音sd的在0到1之間的加權(quán)因子;x是特征向量;sdd是與與前后音有關(guān)的隱藏式馬爾克夫模型的一個狀態(tài)相關(guān)的句音;sdi是與與前后音無關(guān)的隱藏式馬爾克夫模型的相應(yīng)狀態(tài)相關(guān)的句音;p(x|sdd)是特征向量x與句音sdd匹配的概率;p(x|sdi)是特征向量x與句音sdi匹配的概率。
因此,輸出概率,p(x|sd),是作為與前后音有關(guān)的和與前后音無關(guān)的句音的輸出概率的函數(shù)線性插入的。加權(quán)因子或內(nèi)插因子λ指示每個句音內(nèi)插的程度。
附圖8表示語音識別方法的工作。參見附圖8,該方法從接收一個輸入語音開始(步驟122),并將輸入語音轉(zhuǎn)變成特征向量(步驟124),有關(guān)特征向量前面已經(jīng)參照附圖1作了詳細(xì)描述。在步驟126,該方法對于每個能表示輸入語音的單詞序列執(zhí)行步驟128-136。該單詞序列可以由各種不同的句音排列構(gòu)成,其中每個音素排列相應(yīng)于一序列隱藏式馬爾克夫模型狀態(tài)。在步驟128-134,確定可以表示單詞序列的每一種可能的句音排列的組合識別評分。組合識別評分可以根據(jù)改進(jìn)的Bayes公式,即如上所述的方程(10)確定。組合識別評分包括一個聲評分和一個語言評分。聲評分在步驟130確定,語言評分在步驟132確定,在步驟134計(jì)算組合評分。然后在步驟136選擇具有最高組合識別評分的句音排列表示單詞序列。在步驟138,該方法將輸入語音識別為具有最高組合識別評分的單詞序列。
在步驟130,可以如上所述根據(jù)方程(11)確定該聲評分,其中輸出概率按照如上所述的方程(12)計(jì)算。
在步驟132,該方法在表示存儲在語音模型存儲器32中的代表語言表達(dá)式的語言模型基礎(chǔ)上計(jì)算語言評分。語言模型利用語言的結(jié)構(gòu)和語義知識預(yù)測在以前發(fā)音的單詞中一個單詞出現(xiàn)的似然性。語言模型可以是一種雙詞式模型,其中語言評分基于一個單詞被一個特定的第二個單詞跟隨的概率。另一方面,語言模型也可以基于N-詞式而不是雙固定模型,或者各自基于子字語言概率。此外,可以使用其它詞法知識,例如句法和語法規(guī)則創(chuàng)造語言模型。創(chuàng)造和使用語言模型的方法在本領(lǐng)域中是眾所周知的,在上面參照的Huang等人撰寫的書中有詳細(xì)的描述。
上面詳述的本發(fā)明通過利用對應(yīng)于在不同的前后語音關(guān)系中相同的發(fā)音過程的多個連續(xù)密度輸出概率提高了語音識別系統(tǒng)的識別能力。由于它改進(jìn)了模型在模型沒有被訓(xùn)練過的預(yù)測語音過程的性能,因而提高了特征向量與隱藏式馬爾克夫模型的對應(yīng)變換。在這種水平上的改進(jìn)是極其有利的,因?yàn)樵谶@種水平上的對應(yīng)變換是識別方法進(jìn)一步建立的基礎(chǔ)。
但是,應(yīng)當(dāng)指出本發(fā)明不限于語音識別系統(tǒng)。任何需要使語音與語言表達(dá)式匹配的應(yīng)用都可以利用該提出權(quán)利要求的發(fā)明。語音可以是任何形式的聲數(shù)據(jù),例如,但并不限于,聲音、語聲波形、和類似者。這樣一種應(yīng)用的實(shí)例是語音合成系統(tǒng),這種系統(tǒng)利用概率化模型從代表一個語言表達(dá)式的字符串產(chǎn)生一個語音波形。
盡管上面已經(jīng)詳細(xì)地描述了本發(fā)明的優(yōu)選實(shí)施例,但是需要強(qiáng)調(diào)指出,這樣做是為了解釋本發(fā)明,從而能夠使本領(lǐng)域技術(shù)人員將本發(fā)明用于各種需要改進(jìn)上述裝置的不同應(yīng)用中,因此,本說明書中的具體描述除了說明與本發(fā)明相關(guān)的現(xiàn)有技術(shù)所需內(nèi)容以外,并不是對本發(fā)明范圍的必要限制。
權(quán)利要求
1.一種在計(jì)算機(jī)系統(tǒng)中使輸入語音與語言表達(dá)式匹配的方法,該方法包括以下步驟對于語音的許多音素單位中的每一個,提供一組較為細(xì)致的聲模型和一個不大細(xì)致的聲模型表示該音素單位,每個聲模型具有一組狀態(tài),其后是一組變換,每種狀態(tài)表示在某一時間點(diǎn)出現(xiàn)在該音素單位中的語音的一部分,并具有一個輸出概率,表示輸入語音的一部分在某一時間點(diǎn)出現(xiàn)在該音素單位中的似然性;對于所選擇的較為細(xì)致的聲模型序列中的每一個,確定輸入語音與這一序列匹配的接近程度,所說的匹配還包括以下步驟對于所選擇的一序列較為細(xì)致的聲模型的每種狀態(tài),確定一個累計(jì)的輸出概率,作為該狀態(tài)和代表相同音素單位的不大細(xì)致的聲模型的相同狀態(tài)的輸出概率的組合;以及確定與輸入語音匹配最好的一個序列,這一序列代表語言表達(dá)式。
2.如權(quán)利要求1所述的一種方法,其特征在于每個聲模型都是一個連續(xù)密度的隱藏式馬爾克夫模型。
3.如權(quán)利要求1所述的一種方法,其特征在于確定輸出概率的步驟還包括將不大細(xì)致模型和較為細(xì)致模型的輸出概率加權(quán)的步驟,它們在組合時具有不同的加權(quán)因子。
4.如權(quán)利要求1所述的一種方法,其特征在于提供一組較為細(xì)致的聲模型的步驟還包括利用一定數(shù)量的語音培訓(xùn)數(shù)據(jù)培訓(xùn)每個聲模型的步驟;和確定輸出概率的步驟還包括將不大細(xì)致模型和較為細(xì)致模型的輸出概率相對于用于培訓(xùn)每個聲模型的培訓(xùn)數(shù)據(jù)的數(shù)量加權(quán)的步驟。
5.一種在計(jì)算機(jī)系統(tǒng)中確定一個輸入語音與一個語言表達(dá)式匹配的似然性的方法,所說輸入語音包括一組指示所說語音在給定時間間隔中聲特性的特征向量,所說語言表達(dá)式包括一組指示所說聲特性在所說語言表達(dá)式中一個位置出現(xiàn)的輸出概率的句音,該方法包括以下步驟產(chǎn)生一組與前后音有關(guān)的句音;產(chǎn)生與表示所說語言表達(dá)式的相同位置的一組與前后音有關(guān)的句音相關(guān)的一個與前后音無關(guān)的句音;產(chǎn)生可能與所說輸入語音匹配的語言表達(dá)式;對于所說輸入語音的每一個特征向量,確定所說特征向量與在所說語言表達(dá)式中的與前后音有關(guān)的句音匹配的輸出概率,所說語言表達(dá)式與所說特征向量出現(xiàn)在同一時間間隔內(nèi),所說輸出概率的確定利用了與前后音有關(guān)的句音相關(guān)的與前后音無關(guān)的句音;和利用所說輸出概率確定所說輸入語音與所說語言表達(dá)式匹配的似然性。
6.如權(quán)利要求5所述的一種方法,其特征在于所說輸出概率包括一個連續(xù)密度概率函數(shù)。
7.如權(quán)利要求5所述的一種方法,其特征在于產(chǎn)生一組與前后音有關(guān)的句音的步驟還包括利用表示語音的一定數(shù)量的培訓(xùn)數(shù)據(jù)培訓(xùn)所說與前后音有關(guān)的句音的步驟;產(chǎn)生與前后音無關(guān)的句音的步驟還包括利用所說的一定數(shù)量的培訓(xùn)數(shù)據(jù)培訓(xùn)所說與前后音無關(guān)的句音的步驟;和確定輸出概率的步驟還包括根據(jù)用于培訓(xùn)所說句音的培訓(xùn)數(shù)據(jù)的數(shù)量組合與前后音無關(guān)的和與前后音有關(guān)的句音的步驟。
8.如權(quán)利要求5所述的一種方法,其特征在于產(chǎn)生一組與前后音有關(guān)的句音的步驟還包括以下步驟利用代表語音的一定數(shù)量的培訓(xùn)數(shù)據(jù)培訓(xùn)所說與前后音有關(guān)的句音的步驟;對于每一個與前后音有關(guān)的句音產(chǎn)生一個表示用于估算所說句音的培訓(xùn)數(shù)據(jù)的數(shù)量的加權(quán)因子;和確定輸出概率的步驟還包括根據(jù)所說加權(quán)因子組合所說的與前后音有關(guān)的句音和與前后音無關(guān)的句音的步驟。
9.如權(quán)利要求8所述的一種方法,其特征在于產(chǎn)生一個加權(quán)因子的步驟還包括根據(jù)培訓(xùn)數(shù)據(jù)的數(shù)量利用一種刪除插入技術(shù)產(chǎn)生所說加權(quán)因子的步驟。
10.如權(quán)利要求8所述的一種方法,其特征在于產(chǎn)生一個加權(quán)因子的步驟還包括以下步驟產(chǎn)生所說培訓(xùn)數(shù)據(jù)的代表參數(shù);和對培訓(xùn)數(shù)據(jù)的數(shù)量的代表參數(shù)應(yīng)用一種刪除插入技術(shù)產(chǎn)生所說的加權(quán)因子。
11.如權(quán)利要求8所述的一種方法,其特征在于產(chǎn)生一個加權(quán)因子的步驟還包括以下步驟產(chǎn)生所說培訓(xùn)數(shù)據(jù)的一個代表參數(shù);根據(jù)培訓(xùn)數(shù)據(jù)的代表參數(shù)產(chǎn)生一組數(shù)據(jù)點(diǎn),所說的數(shù)據(jù)點(diǎn)表示所說的培訓(xùn)數(shù)據(jù);和通過向所說數(shù)據(jù)點(diǎn)應(yīng)用刪除內(nèi)插技術(shù)產(chǎn)生所說的加權(quán)因子。
12.一種在計(jì)算機(jī)可讀存儲介質(zhì)中識別輸入語音的方法,所說方法包括以下步驟培訓(xùn)一組與前后音有關(guān)的連續(xù)密度隱藏式馬爾克夫模型,以表示語音的一組音素單位,所說培訓(xùn)利用在一個給定時間間隔內(nèi)表示所說語音的聲特性的一定數(shù)量的語音培訓(xùn)數(shù)據(jù),每個模型具有與變換相關(guān)的狀態(tài),每個狀態(tài)表示音素單位的一部分并具有一個輸出概率,所說輸出概率指示一個語音的聲特性出現(xiàn)在所說的音素單位的一部分中的概率;對于表示語音的同一音素單位的一組與前后音有關(guān)的連續(xù)密度隱藏式馬爾克夫模型產(chǎn)生一個與前后音無關(guān)的連續(xù)密度隱藏式馬爾克夫模型;產(chǎn)生一組成序列的與前后音有關(guān)的模型,每個序列表示一個語言表達(dá)式;對于每個序列的與前后音有關(guān)的模型,確定所說輸入語音的聲特性與在所說序列的與前后音有關(guān)模型中的狀態(tài)匹配的聲概率,所說聲概率包括在該序列中的每個與前后音有關(guān)的模型的每個狀態(tài)的輸出概率和對應(yīng)于同一音素單位的與前后音無關(guān)的模型的輸出概率;和利用所說聲概率識別與所說輸入語音最接近匹配的語言表達(dá)式。
13.如權(quán)利要求12所述的一種方法,還包括對于所說與前后音有關(guān)模型的每一個狀態(tài)產(chǎn)生一個加權(quán)因子的步驟,所說加權(quán)因子指示與每一個狀態(tài)相關(guān)的用于培訓(xùn)所說輸出概率的培訓(xùn)數(shù)據(jù)的數(shù)量;和確定聲概率的步驟還包括根據(jù)所說加權(quán)因子將與前后音有關(guān)模型的狀態(tài)和與前后音無關(guān)模型的狀態(tài)的輸出概率加權(quán)的步驟。
14.如權(quán)利要求13所述的一種方法,其特征在于產(chǎn)生一個加權(quán)因子的步驟還包括通過對一定數(shù)量的培訓(xùn)數(shù)據(jù)應(yīng)用刪除內(nèi)插技術(shù)推導(dǎo)出加權(quán)因子的步驟。
15.如權(quán)利要求13所述的一種方法,其特征在于產(chǎn)生一個加權(quán)因子的步驟還包括以下步驟產(chǎn)生所說培訓(xùn)數(shù)據(jù)的代表參數(shù);和通過對所說培訓(xùn)數(shù)據(jù)的代表參數(shù)應(yīng)用刪除內(nèi)插技術(shù)推導(dǎo)出所說加權(quán)因子。
16.如權(quán)利要求13所述的一種方法,其特征在于產(chǎn)生一個加權(quán)因子的步驟還包括以下步驟產(chǎn)生所說培訓(xùn)數(shù)據(jù)的代表參數(shù);根據(jù)所說培訓(xùn)數(shù)據(jù)的代表參數(shù)產(chǎn)生一組數(shù)據(jù)點(diǎn);和通過對所說培訓(xùn)數(shù)據(jù)的代表參數(shù)應(yīng)用刪除內(nèi)插技術(shù)推導(dǎo)出加權(quán)因子。
17.一種用于使輸入語音與語言表達(dá)式匹配的計(jì)算機(jī)系統(tǒng),它包括一個存儲裝置,用于存儲一組表示語音的各個音素單位的與前后音有關(guān)的和與前后音無關(guān)的聲模型,表示各個音素單位的這一組與前后音有關(guān)的聲模型具有至少一個相關(guān)的表示語音的音素單位的與前后音無關(guān)的聲模型,每個聲模型包括具有變換的若干狀態(tài),每個狀態(tài)表示所說音素單位在某一時間點(diǎn)的一部分,并且具有一個輸出概率,指示所說輸入語音的一部分在某一時間點(diǎn)出現(xiàn)在該音素單位中的似然性;一個模型序列生成器,其產(chǎn)生選定序列的與前后音有關(guān)的聲模型,表示可能與所說輸入語音匹配的一組語言表達(dá)式;一個處理器,用于確定所說序列模型中的每一個與輸入語音匹配的程度,所說處理器通過利用所說序列的每個狀態(tài)的累計(jì)輸出概率使所說輸入語音的一部分與在所說序列中的一個狀態(tài)匹配,所說的累計(jì)輸出概率包括與前后音有關(guān)的聲模型的每個狀態(tài)的輸出概率與相關(guān)的與前后音無關(guān)的聲模型的相同狀態(tài)的輸出概率的組合;和一個比較器,用于確定與輸入語音最佳匹配的序列,所說序列表示語言表達(dá)式。
18.如權(quán)利要求17所述的一種系統(tǒng),其特征在于每個聲模型是一個連續(xù)密度隱藏式馬爾克夫模型。
19.如權(quán)利要求17所述的一種系統(tǒng),其特征在于它還包括一個培訓(xùn)裝置,以接收一定數(shù)量的語音培訓(xùn)數(shù)據(jù)和利用所說數(shù)量的培訓(xùn)數(shù)據(jù)對各個聲模型的每一個狀態(tài)估算輸出概率;和處理器還包括一個組合器件,以確定每一個狀態(tài)的累計(jì)輸出概率,所說組合器件相對于用于估算各個輸出概率的培訓(xùn)數(shù)據(jù)的數(shù)量將所說序列的每一個狀態(tài)的輸出概率與相關(guān)的與前后音無關(guān)的聲模型的相同狀態(tài)的輸出概率組合。
20.如權(quán)利要求17所述的一種系統(tǒng),其特征在于它還包括一個培訓(xùn)裝置,以接收一定數(shù)量的語音培訓(xùn)數(shù)據(jù),用于利用所說數(shù)量的培訓(xùn)數(shù)據(jù)估算各個聲模型的每一個狀態(tài)的輸出概率,所說培訓(xùn)裝置對于各個與前后音有關(guān)的聲模型的每一個狀態(tài)產(chǎn)生一個加權(quán)因子,指示輸出概率能夠預(yù)測在培訓(xùn)數(shù)據(jù)中不存在的語音的程度;和所說處理器還包括一個組合器件,以確定一個狀態(tài)的累計(jì)輸出概率,所說組合器件相對于每一個狀態(tài)的加權(quán)因子將所說序列的每一個狀態(tài)的輸出概率與相關(guān)的與前后音無關(guān)的聲模型的相同狀態(tài)的輸出概率組合。
21.如權(quán)利要求20所述的一種系統(tǒng),其特征在于通過向所說數(shù)量的培訓(xùn)數(shù)據(jù)應(yīng)用刪除內(nèi)插技術(shù)推導(dǎo)出所說加權(quán)因子。
22.如權(quán)利要求20所述的一種系統(tǒng),其特征在于所說培訓(xùn)數(shù)據(jù)還包括一個參數(shù)生成器,以產(chǎn)生所說培訓(xùn)數(shù)據(jù)的代表參數(shù);和通過向所說培訓(xùn)數(shù)據(jù)的代表參數(shù)應(yīng)用刪除內(nèi)插技術(shù)推導(dǎo)出所說加權(quán)因子。
23.如權(quán)利要求20所述的一種系統(tǒng),其特征在于所說培訓(xùn)裝置還包括一個參數(shù)生成器,以產(chǎn)生所說培訓(xùn)數(shù)據(jù)的代表參數(shù);一個數(shù)據(jù)生成器,以根據(jù)所說代表參數(shù)產(chǎn)生一組數(shù)據(jù)點(diǎn);和通過向所說的這一組數(shù)據(jù)點(diǎn)應(yīng)用刪除內(nèi)插技術(shù)推導(dǎo)出所說加權(quán)因子。
全文摘要
本發(fā)明提供了用于改進(jìn)語音識別系統(tǒng)的識別準(zhǔn)確度的一種方法和系統(tǒng),其利用連續(xù)密度隱藏式馬爾克夫模型表示在所說的語言中存在的語音的音素單位。反映語音與一個模型化的語言表達(dá)式匹配的似然性的一個聲評分依賴于與隱藏式馬爾克夫模型的狀態(tài)相關(guān)的輸出概率。對于每個音素單位產(chǎn)生與前后音有關(guān)的和與前后音無關(guān)的連續(xù)密度隱藏式馬爾克夫模型。通過根據(jù)一個加權(quán)因子將與前后音有關(guān)狀態(tài)的輸出概率和與前后音無關(guān)狀態(tài)的輸出概率加權(quán)確定與一個狀態(tài)相關(guān)的輸出概率。
文檔編號G10L15/18GK1171592SQ9711491
公開日1998年1月28日 申請日期1997年4月30日 優(yōu)先權(quán)日1996年5月1日
發(fā)明者黃學(xué)東, 米林德·V·馬哈簡 申請人:微軟公司