一種連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)的方法和裝置的制作方法

文檔序號(hào)：2832144閱讀：383來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)的方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音識(shí)別領(lǐng)域，特別是一種連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)的方法和裝置。

背景技術(shù)：
連續(xù)語音識(shí)別的結(jié)果評(píng)價(jià)，通常采用動(dòng)態(tài)規(guī)劃的方法得到最佳匹配結(jié)果，隱馬爾可夫工具包(Hidden Markov ToolKit，HTK)中的HResults工具是完成這一任務(wù)的典型代表。
在進(jìn)行匹配時(shí)，匹配的單元可以是詞，也可以是字、音素等，而且只能完成同一層次的匹配，即詞詞匹配或字字匹配等。在漢語連續(xù)語音識(shí)別中，通常采用字即音節(jié)作為匹配的基元，而基于音素的匹配通常是在只需要評(píng)價(jià)聲學(xué)模型性能的時(shí)候使用?；谠~的匹配由于會(huì)產(chǎn)生一些錯(cuò)誤匹配，而很少使用。
在基于詞的結(jié)果匹配中，產(chǎn)生錯(cuò)誤匹配的原因主要有兩個(gè)，一個(gè)是分詞的標(biāo)準(zhǔn)不統(tǒng)一，漢語與西文不同，詞之間沒有明顯的分界，需要進(jìn)行分詞，但是因?yàn)闈h語構(gòu)詞比較靈活，造成分詞結(jié)果的不同，從而產(chǎn)生一些錯(cuò)誤匹配。另外一個(gè)是語音識(shí)別系統(tǒng)的原因，語音識(shí)別輸出得到的詞經(jīng)常和參考詞不一致，即使采用了相同的分詞方法(算法、參數(shù)、參考詞典等等均相同)，比如[中國][對(duì)][...]，識(shí)別為[中國隊(duì)][...]，這些造成很多的虛假錯(cuò)誤，使得識(shí)別結(jié)果的評(píng)價(jià)不可信。
由于語音識(shí)別中通常采用基于詞的語言模型，網(wǎng)絡(luò)搜索也是分為詞內(nèi)和詞間搜索進(jìn)行的，因此很多時(shí)候，還是需要得到基于詞的語音識(shí)別結(jié)果分析。如做語音識(shí)別的可信度研究時(shí)，相對(duì)于音節(jié)來說，詞的可信度特征更容易獲得，因此很多可信度研究都是在基于詞來進(jìn)行的，但是由于基于詞的語音識(shí)別結(jié)果評(píng)價(jià)不夠準(zhǔn)確，嚴(yán)重影響了可信度評(píng)價(jià)的性能。
發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中，發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題現(xiàn)有技術(shù)對(duì)基于詞的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)不準(zhǔn)確，產(chǎn)生很多虛假錯(cuò)誤，特別是虛假的刪除、替代、插入錯(cuò)誤。

發(fā)明內(nèi)容
有鑒于此，本發(fā)明一個(gè)或多個(gè)實(shí)施例的目的在于提供一種基于字詞混合的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)方法和裝置，以實(shí)現(xiàn)更為準(zhǔn)確的基于詞的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)，減少虛假錯(cuò)誤的出現(xiàn)。
為解決上述問題，本發(fā)明實(shí)施例提供了一種基于字詞混合的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)方法，包括根據(jù)輸入的語音識(shí)別結(jié)果序列(T序列)和參考序列(R序列)，將R序列擴(kuò)展為字詞混合模式，以T為橫軸，以R為縱軸，生成字詞混合的R-T匹配平面；根據(jù)DP算法在R-T平面中進(jìn)行匹配，局部匹配路徑采用基于字詞混合匹配的多匹配路徑，每條路徑采用適當(dāng)?shù)穆窂降梅?；保存每次匹配的最佳路徑得?最小得分)，并保存取得最佳得分時(shí)的路徑信息；匹配完成后，進(jìn)行路徑回溯，獲取最佳匹配路徑，得到最佳匹配結(jié)果和語音識(shí)別結(jié)果評(píng)價(jià)信息，并輸出。
本發(fā)明還公開了一種基于字詞混合的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)裝置，包括輸入單元，輸入語音識(shí)別結(jié)果序列(T序列)和參考序列(R序列)，保存并作為后續(xù)處理單元的數(shù)據(jù)來源，其中，輸入的序列均為詞序列； R-T平面定義單元，根據(jù)輸入，將R序列擴(kuò)展為字詞混合模式，以T為橫軸，以R為縱軸，生成字詞混合的R-T匹配平面；多路徑匹配單元，根據(jù)DP算法在R-T平面中進(jìn)行匹配，局部匹配路徑采用基于字詞混合的多匹配路徑，每條路徑采用適當(dāng)?shù)穆窂降梅?；保存每次匹配的最佳路徑得分，并保存取得最佳路徑得分時(shí)的路徑信息；路徑回溯單元，進(jìn)行路徑回溯，獲取最佳匹配路徑，保存最佳匹配結(jié)果，統(tǒng)計(jì)識(shí)別性能相關(guān)信息；匹配結(jié)果輸出單元，輸出匹配結(jié)果和識(shí)別性能信息。
與現(xiàn)有技術(shù)相比，本發(fā)明實(shí)施例具有以下優(yōu)點(diǎn)本發(fā)明實(shí)施例通過定義基于字詞混合的R-T匹配平面，設(shè)計(jì)基于字詞混合的多匹配路徑，使得本發(fā)明可以進(jìn)行基于字詞混合的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)，并通過設(shè)計(jì)適當(dāng)?shù)穆窂降梅?，保證不同匹配路徑的優(yōu)先級(jí)，提高匹配結(jié)果的正確性，有效降低連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)中虛假錯(cuò)誤的產(chǎn)生。

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
圖1所示，是本發(fā)明實(shí)施例的裝置框圖；圖1-1所示，是本發(fā)明實(shí)施例的子裝置-多路徑匹配單元的框圖圖2所示，是本發(fā)明實(shí)施例的R-T匹配平面示意圖；圖3所示，是本發(fā)明實(shí)施例的多匹配路徑示意圖；圖4所示，是本發(fā)明實(shí)施例的路徑得分示意圖；圖5所示，是本發(fā)明實(shí)施例的方法流程圖。

具體實(shí)施例方式 下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。
如圖1所示，是本發(fā)明實(shí)施例的裝置框圖，包括輸入單元101，輸入語音識(shí)別結(jié)果序列(T序列)和參考序列(R序列)，保存并作為后續(xù)處理單元的數(shù)據(jù)來源，輸入的序列均為詞序列，詞之間采用分隔符號(hào)(如空格、回車換行符、制表符等)隔開，以特殊字符(如“.”)作為結(jié)束標(biāo)志； R-T平面構(gòu)建單元102，根據(jù)輸入，將R序列擴(kuò)展為字詞混合模式，以T為橫軸，以R為縱軸，生成字詞混合的R-T匹配平面；多路徑匹配單元103，根據(jù)DP算法在R-T平面中進(jìn)行匹配，局部匹配路徑采用基于字詞混合的多匹配路徑，每條路徑采用適當(dāng)?shù)穆窂降梅?；?jì)算每次匹配的最佳路徑得分(最小得分)，并保存取得最佳路徑得分時(shí)的路徑信息；多路徑匹配單元的詳細(xì)框圖如圖1-1所示，包括局部最佳路徑得分計(jì)算模塊1031，用于計(jì)算局部最佳路徑得分，采用多種匹配路徑，每條路徑采用適當(dāng)?shù)穆窂降梅郑? 最佳路徑信息保存模塊1032，用于保存局部最佳匹配路徑信息；匹配控制模塊1033，用于控制基于DP算法的匹配過程的實(shí)現(xiàn)；路徑回溯單元104，進(jìn)行路徑回溯，獲取最佳匹配路徑，保存最佳匹配結(jié)果，統(tǒng)計(jì)識(shí)別性能相關(guān)信息；匹配結(jié)果輸出單元105，將最佳匹配結(jié)果和識(shí)別性能信息輸出；輸出形式可以直接打印輸出到紙張上，也可以直接輸出到顯示裝置上。
需要說明的是，上述功能模塊的劃分是相對(duì)的，主要用于幫助所屬領(lǐng)域的技術(shù)人員從整體上理解本發(fā)明的原理，本發(fā)明實(shí)施例還可以以其他的功能模塊及其組合來實(shí)現(xiàn)本發(fā)明的原理，達(dá)到相同的技術(shù)效果，這都沒有超出本發(fā)明的保護(hù)范圍。
下面，結(jié)合圖2-圖4，說明本發(fā)明實(shí)施例所提供的基于字詞混合的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)方法如圖2所示，是本發(fā)明實(shí)施例中R-T匹配平面構(gòu)建示意圖 R-T平面的構(gòu)建不僅要能夠滿足字詞匹配的同時(shí)進(jìn)行，而且還要能保證語音識(shí)別結(jié)果序列T中詞的完整性，為此本發(fā)明采用下面的方法構(gòu)建R-T匹配平面以識(shí)別結(jié)果序列T為橫軸，T中的每一個(gè)節(jié)點(diǎn)ti都是一個(gè)詞，將參考序列R擴(kuò)展為字詞混合模式，以R作為縱軸。字詞混合模式擴(kuò)展的方法是，將R中的每個(gè)詞擴(kuò)展為字，每個(gè)字分別作為一個(gè)節(jié)點(diǎn)，同時(shí)為了保留詞信息，將節(jié)點(diǎn)rj擴(kuò)展為字詞混合模式，如公式1所示 rj＝{Syllj，Vk，nwrj，Location} (1) 其中Syllj表示R序列中的第j個(gè)字(音節(jié))，Vk表示Syllj所在的詞，nwrj表示Vk的字(音節(jié))長度，location表示Syllj在Vk中的位置，具體定義如下表1 Location取值圖2給出一個(gè)R-T匹配平面的構(gòu)造實(shí)例，其中識(shí)別結(jié)果序列T有M個(gè)詞，參考序列R包含N個(gè)詞、N’個(gè)字。
如圖3所示，是本發(fā)明實(shí)施例中的多匹配路徑示意圖為了進(jìn)行字詞混合匹配，需要設(shè)置合理的匹配路徑，本發(fā)明對(duì)現(xiàn)有技術(shù)的匹配路徑進(jìn)行了修改，設(shè)計(jì)了多匹配路徑。如圖3所示，圖3中i表示T序列中的第i個(gè)節(jié)點(diǎn)ti，j表示R序列中的第j個(gè)節(jié)點(diǎn)rj，(i，j)表示R-T平面中的一個(gè)坐標(biāo)點(diǎn)(ti，rj)的簡(jiǎn)寫，nwti表示節(jié)點(diǎn)ti的字長(即音節(jié)個(gè)數(shù))，其中i＝0...M，j＝0...N’。圖中共有a-f六條匹配路徑，下面分別說明每條路徑的含義。
路徑a路徑方向?yàn)?i-1，j)→(i，j)，匹配結(jié)果為插入錯(cuò)誤(I)；路徑b路徑方向?yàn)?i-1，j-1)→(i，j)，表示進(jìn)行字詞匹配，匹配結(jié)果為替代(S)或正確(C)，當(dāng)nwti＝1時(shí)，同現(xiàn)有技術(shù)；路徑c路徑方向?yàn)?i-1，j-nwti)→(i，j)，表示以ti為標(biāo)準(zhǔn)的匹配，即參考序列中的nwti個(gè)字組成的詞(設(shè)為與ti進(jìn)行匹配，匹配結(jié)果為S或C，當(dāng)nwti＞1時(shí)存在，當(dāng)nwti＝1時(shí)，與路徑b相同；路徑d路徑方向?yàn)?i-1，j-nwrj)→(i，j)，表示以rj所在的詞Vk為標(biāo)準(zhǔn)的匹配，即Vk與ti進(jìn)行匹配，匹配結(jié)果為替代(S)或正確(C)；路徑d僅當(dāng)rj-＞Location＝3時(shí)存在，當(dāng)rj-＞Location＝4(即nwrj＝1)時(shí)，路徑d與路徑b相同，換句話說，路徑d只當(dāng)rj位于詞尾的時(shí)候才有效；路徑e路徑方向?yàn)?i，j-1)→(i，j)，匹配結(jié)果為字刪除錯(cuò)誤(D)，即刪除一個(gè)字或一個(gè)單字詞；路徑f路徑方向?yàn)?i，j-nwrj)→(i，j)，匹配結(jié)果為詞刪除錯(cuò)誤(D)，路徑存在條件同路徑d，即僅當(dāng)rj-＞Location＝3時(shí)存在，當(dāng)rj-＞Location＝4(即nwrj＝1)時(shí)同路徑c；路徑b、e主要完成字詞匹配，其它路徑主要完成詞詞匹配。
此外，為了防止非法匹配路徑的出現(xiàn)，本發(fā)明還對(duì)匹配路徑進(jìn)行了限制，即不允許刪除錯(cuò)誤和插入錯(cuò)誤相鄰出現(xiàn)，即當(dāng)前節(jié)點(diǎn)最佳匹配為刪除路徑(e或f)時(shí)，則其最佳路徑的起點(diǎn)的最佳路徑不能為插入路徑(a)，反之亦然。
如圖4所示，是本發(fā)明實(shí)施例中的基本路徑匹配得分示意圖路徑得分函數(shù)直接影響各條路徑的優(yōu)先度，從而影響匹配的結(jié)果，本發(fā)明以詞匹配優(yōu)先為出發(fā)點(diǎn)，設(shè)計(jì)合理的路徑得分函數(shù)。設(shè)C(x)表示路徑x的得分函數(shù)，本著詞匹配優(yōu)先的原則，對(duì)于相同性質(zhì)的路徑，本發(fā)明令詞詞匹配和字詞匹配的路徑得分相等，即C(c)＝C(f)，C(b)＝C(d)＝C(e)，稱為基本路徑得分。同時(shí)對(duì)于路徑b、d、e同時(shí)存在(即包括多個(gè)詞詞匹配路徑)的情況下，詞長相同的匹配情況應(yīng)該優(yōu)先，為此引入詞長差異因子。
綜上所述，最終的路徑匹配得分函數(shù)分為兩部分，基本路徑得分和匹配詞長差異得分。基本路徑得分如圖4所示，插入、刪除路徑得分為α1，即C(a)＝C(e)＝C(f)＝α1，對(duì)角線方向路徑(路徑b，c，d)得分為0(匹配)或α2(不匹配)，其中α1＜α2＜2α1，本發(fā)明實(shí)例中，具體取值為α1＝8，α2＝10，匹配詞長差異得分僅限于對(duì)角線方向匹配路徑，路徑差異加權(quán)因子設(shè)為β，β取值應(yīng)滿足2α1＞α2+β，本發(fā)明實(shí)例中取β＝5，詳細(xì)描述如公式2所示 C(a)＝C(e)＝C(f)＝α1 C(b)＝α2+|nwti-1|×β C(c)＝α2(2) C(d)＝α2+|nwti-nwrj|×β 公式2中，對(duì)于路徑b、c、d只給出了不匹配時(shí)的得分，當(dāng)完全匹配時(shí)，路徑b、c、d的路徑得分均為0。當(dāng)某些路徑(路徑c、d、f)不存在時(shí)，其對(duì)應(yīng)的路徑得分可以設(shè)置為某個(gè)比較大的得分δ，其取值應(yīng)滿足δ＞＞α2(如δ＝100等)，也可以令該路徑不參與匹配，本發(fā)明實(shí)例中采用后面的方法，即當(dāng)某個(gè)路徑不存在時(shí)，不參與匹配。
此外，為了防止某些非法匹配路徑的存在，對(duì)連續(xù)出現(xiàn)的刪除路徑(e或f)或連續(xù)出現(xiàn)的插入路徑(a)進(jìn)行懲罰。以刪除路徑為例，對(duì)于連續(xù)出現(xiàn)的刪除路徑，從第二個(gè)刪除路徑開始每個(gè)路徑得分增加懲罰因子θ，即新路徑得分為原始路徑得分+θ，θ其取值應(yīng)滿足θ＜α1，本發(fā)明實(shí)例中取θ＝β＝5。
需要指出的是，基本路徑得分、詞長差異因子以及懲罰因子的具體取值可以有很多種方案，本發(fā)明實(shí)施例中只是給出了其中的一種實(shí)現(xiàn)，只要滿足這些參數(shù)之間的相互約束，其它的數(shù)值也可以完成最佳匹配，例如所有取值乘以10等。
如圖5所示，在上述實(shí)施例的基礎(chǔ)上，本發(fā)明實(shí)施例提供了一種基于字詞混合的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)方法，其工作流程包括 501，輸入待匹配的詞序列，包括語音識(shí)別輸出序列(假設(shè)包含M個(gè)詞)和參考序列(假設(shè)包含N個(gè)詞，N’個(gè)字)，保存并作為后續(xù)處理單元的數(shù)據(jù)來源； 502，構(gòu)造R-T匹配平面，將參考序列R擴(kuò)展為字詞混合模式，以R為縱軸，以T為橫軸，生成字詞混合的R-T匹配平面，并進(jìn)行相應(yīng)的初始化工作(初始化按照現(xiàn)有技術(shù)方式進(jìn)行即可)； 503，計(jì)算局部最佳匹配得分g(i，j)，其中i＝0...M，j＝0...N’。；其中g(shù)(i，j)表示局部最佳匹配得分函數(shù)，即表示從(0，0)點(diǎn)匹配到(i，j)點(diǎn)的最小得分，采用如公式3所示的迭代公式進(jìn)行計(jì)算。
公式3中x表示任一路徑，x(i，j)表示以(i，j)為終點(diǎn)的路徑x的起點(diǎn)，其具體取值可參考圖3，例如當(dāng)x＝a時(shí)，x(i，j)＝a(i，j)＝(i-1，j)，當(dāng)x＝f時(shí)，x(i，j)＝f(i，j)＝(i，j-nwrj)。
504，保存最佳匹配路徑信息
其中，

表示g(i，j)取最小值時(shí)所對(duì)應(yīng)局部路徑的起始坐標(biāo)點(diǎn)，即表示局部最佳匹配路徑是源于哪一個(gè)坐標(biāo)點(diǎn)，其公式表達(dá)如公式4所示。

若路徑a得分最小，則

依此類推。
505，匹配控制，503和504只完成某一坐標(biāo)點(diǎn)(i，j)的匹配工作，完整序列的匹配采用迭代方式，通過匹配控制模塊控制完成；其中，匹配控制模塊的工作過程包括兩個(gè)循環(huán)，第一層循環(huán)為i從1到M，第二層循環(huán)為j從1到N’，在每次循環(huán)中完成503和504的工作，即對(duì)應(yīng)某個(gè)特定的i，完成j從1到N’的匹配計(jì)算(即503，504)，再令i＝i+1，進(jìn)行j的循環(huán)，直至i＞M完成匹配； 506，匹配路徑回溯，獲取最佳匹配路徑；其中，在回溯過程中，記錄最佳匹配結(jié)果的詳細(xì)信息(即保存當(dāng)前最佳匹配的路徑以及參與匹配的詞信息)，統(tǒng)計(jì)正確(C)、替代(S)、插入(I)和刪除(D)的出現(xiàn)次數(shù)，回溯完成后，計(jì)算識(shí)別性能信息； 507，匹配結(jié)果輸出，將詳細(xì)匹配結(jié)果和識(shí)別性能信息輸出。
通過以上的實(shí)施方式的描述，所屬領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn)，當(dāng)然也可以通過硬件，但很多情況下前者是更佳的實(shí)施方式?；谶@樣的理解，本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來，該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中，包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī)，服務(wù)器，或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。
以上所述的本發(fā)明實(shí)施方式，并不構(gòu)成對(duì)本發(fā)明保護(hù)范圍的限定。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1、一種基于字詞混合的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)方法，其特征在于，包括
根據(jù)輸入的語音識(shí)別結(jié)果序列和參考序列，生成字詞混合的R-T匹配平面；
根據(jù)DP算法在R-T平面中進(jìn)行匹配，局部匹配路徑采用基于字詞混合匹配的多匹配路徑，并采用多種路徑得分函數(shù)；
進(jìn)行路徑回溯，獲取最佳匹配結(jié)果，統(tǒng)計(jì)語音識(shí)別性能相關(guān)信息；
2、如權(quán)利要求1所述的方法，其特征在于，根據(jù)輸入的語音識(shí)別結(jié)果序列和參考序列，生成字詞混合的R-T匹配平面，包括詞序列擴(kuò)展為字詞混合序列，R-T匹配平面定義方式。
詞序列擴(kuò)展為字詞混合序列的方法是(本發(fā)明以參考序列R為例說明，本擴(kuò)展方法同樣也可用于語音識(shí)別結(jié)果序列T)將序列R中的每個(gè)詞擴(kuò)展為字，同時(shí)為了保留詞信息，將擴(kuò)展后的字rj擴(kuò)展為字詞混合模式，即rj＝{Syllj，Vk，nwrj，Location}，其中，Syllj表示R序列中的第j個(gè)字(音節(jié))，Vk表示Syllj所在的詞，nwrj表示Vk的字(音節(jié))長度，Location表示Syllj在Vk中的位置，具體定義如下表所示
R-T匹配平面定義方式，本發(fā)明實(shí)施例對(duì)縱軸(參考序列R)采用字詞混合模式，對(duì)橫軸(語音識(shí)別結(jié)果序列T)采用基于詞的模式，但不局限于此，對(duì)于橫軸(語音識(shí)別結(jié)果序列T)也可采用字詞混合模式。
3、如權(quán)利要求1所述的方法，其特征在于，根據(jù)DP算法在R-T平面中進(jìn)行匹配，局部匹配路徑采用基于字詞混合匹配的多匹配路徑，包括
基于字詞混合匹配的多匹配路徑，包括六條局部匹配路徑，分別為路徑a、b、c、d、e、f；為方便描述，令i表示T序列中的第i個(gè)節(jié)點(diǎn)ti，j表示R序列中的第j個(gè)節(jié)點(diǎn)rj，(i，j)表示R-T平面中的一個(gè)坐標(biāo)點(diǎn)(ti，rj)的簡(jiǎn)寫，nwti表示節(jié)點(diǎn)ti的字長(即音節(jié)個(gè)數(shù))，其中i＝0...M，j＝0...N’，則有
路徑a路徑方向?yàn)?i-1，j)→(i，j)，匹配結(jié)果為插入錯(cuò)誤(I)；
路徑b路徑方向?yàn)?i-1，j-1)→(i，j)，表示進(jìn)行字詞匹配，匹配結(jié)果為替代(S)或正確(C)，當(dāng)nwti＝1時(shí)，同現(xiàn)有技術(shù)；
路徑c路徑方向?yàn)?i-1，j-nwti)→(i，j)，表示以ti為標(biāo)準(zhǔn)的匹配，即參考序列中的nwti個(gè)字組成的詞(設(shè)為與ti進(jìn)行匹配，匹配結(jié)果為S或C，當(dāng)nwti＞1時(shí)存在，當(dāng)nwti＝1時(shí)，與路徑b相同；
路徑d路徑方向?yàn)?i-1，j-nwrj)→(i，j)，表示以rj所在的詞Vk為標(biāo)準(zhǔn)的匹配，即Vk與ti進(jìn)行匹配，匹配結(jié)果為替代(S)或正確(C)；路徑d僅當(dāng)rj-＞Location＝3時(shí)存在，當(dāng)rj-＞Location＝4(即nwrj＝1)時(shí)，路徑d與路徑b相同，換句話說，路徑d只當(dāng)rj位于詞尾的時(shí)候才有效；
路徑e路徑方向?yàn)?i，j-1)→(i，j)，匹配結(jié)果為字刪除錯(cuò)誤(D)，即刪除一個(gè)字或一個(gè)單字詞；
路徑f路徑方向?yàn)?i，j-nwrj)→(i，j)，匹配結(jié)果為詞刪除錯(cuò)誤(D)，路徑存在條件同路徑d，即僅當(dāng)rj-＞Location＝3時(shí)存在，當(dāng)rj-＞Location＝4(即nwrj＝1)時(shí)同路徑c；
路徑b、e主要完成字詞匹配，其它路徑主要完成詞詞匹配。
此外，為了防止非法匹配路徑的出現(xiàn)，本發(fā)明還對(duì)匹配路徑進(jìn)行了限制，即不允許刪除錯(cuò)誤和插入錯(cuò)誤相鄰出現(xiàn)，即當(dāng)前節(jié)點(diǎn)最佳匹配為刪除路徑(e或f)，則其最佳路徑的起點(diǎn)的最佳路徑不能為插入路徑(a)，反之亦然。
4、如權(quán)利要求1所述的方法，其特征在于，根據(jù)DP算法在R-T平面中進(jìn)行匹配，采用多種路徑得分函數(shù)，包括
路徑匹配得分函數(shù)分為兩部分，基本路徑得分和匹配詞長差異得分?；韭窂降梅侄x為插入、刪除路徑得分為α1，即C(a)＝C(e)＝C(f)＝α1，對(duì)角線方向路徑(路徑b，c，d)得分為0(匹配)或α2(不匹配)，其中α1＜α2＜2α1，本發(fā)明實(shí)例中，具體取值為α1＝8，α2＝10；匹配詞長差異得分僅限于對(duì)角線方向匹配路徑，路徑差異加權(quán)因子設(shè)為取β，β取值應(yīng)滿足2α1＞α2+β，本發(fā)明實(shí)例中取β＝5，詳細(xì)描述如下所示
C(a)＝C(e)＝C(f)＝α1
C(b)＝α2+|nwti-1|×β
C(c)＝α2
C(d)＝α2+|nwti-nwrj|×β
上式中，對(duì)于路徑b、c、d只給出了不匹配時(shí)的得分，當(dāng)正確匹配時(shí)，路徑b、c、d的路徑得分均為0。當(dāng)某些路徑(路徑c、d、f)不存在時(shí)，其對(duì)應(yīng)的路徑得分可以設(shè)置為某個(gè)比較大的得分δ，其取值應(yīng)滿足δ＞＞α2(如δ＝100等)，也可以令該路徑不參與匹配，本發(fā)明實(shí)例中采用后面的方法，即當(dāng)某個(gè)路徑不存在時(shí)，不參與匹配。
此外，為了防止某些非法匹配路徑的存在，對(duì)連續(xù)出現(xiàn)的刪除路徑(e或f)或連續(xù)出現(xiàn)的插入路徑(a)進(jìn)行懲罰。以刪除路徑為例，對(duì)于連續(xù)出現(xiàn)的刪除路徑，從第二個(gè)刪除路徑開始每個(gè)路徑得分增加懲罰因子θ，即新路徑得分為原始路徑得分+θ，θ取值應(yīng)滿足θ＜α1，本發(fā)明實(shí)例中取θ＝β＝5。
5、一種基于字詞混合的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)裝置，其特征在于，包括
輸入單元，輸入語音識(shí)別結(jié)果序列(T序列)和參考序列(R序列)，保存并作為后續(xù)處理單元的數(shù)據(jù)來源，輸入的序列均為詞序列；
R-T平面構(gòu)建單元，根據(jù)輸入，將R序列擴(kuò)展為字詞混合模式，以T為橫軸，以R為縱軸，生成字詞混合的R-T匹配平面；
多路徑匹配單元，根據(jù)DP算法在R-T平面中進(jìn)行匹配，局部匹配路徑采用基于字詞混合的多匹配路徑，每條路徑采用適當(dāng)?shù)穆窂降梅?；保存每詞匹配的最佳得分(即最小得分)，并保存取得最佳得分時(shí)的路徑信息；
路徑回溯單元，進(jìn)行路徑回溯，獲取最佳匹配路徑，保存最佳匹配結(jié)果，統(tǒng)計(jì)識(shí)別性能相關(guān)信息；
匹配結(jié)果輸出單元，將最佳匹配結(jié)果和識(shí)別性能信息輸出。
6、如權(quán)利要求5所述的裝置，其特征在于，所述R-T平面構(gòu)建單元，包括詞序列擴(kuò)展模塊，R-T匹配平面定義模塊。
詞序列擴(kuò)展模塊，用于將詞序列擴(kuò)展為字詞混合序列。下面以參考序列R為例說明實(shí)現(xiàn)過程，將序列R中的每個(gè)詞擴(kuò)展為字，同時(shí)為了保留詞信息，將擴(kuò)展后的字rj擴(kuò)展為字詞混合模式，即rj＝{Syllj，Vk，nwrj，Location}，其中Syllj表示R序列中的第j個(gè)字(音節(jié))，Vk表示Syllj所在的詞，nwrj表示Vk的字(音節(jié))長度，Location表示Syllj在Vk中的位置，具體定義如下表所示
R-T匹配平面定義模塊，本發(fā)明實(shí)施例對(duì)縱軸(參考序列R)采用字詞混合模式，對(duì)橫軸(語音識(shí)別結(jié)果序列T)采用基于詞的模式，但不局限于此，對(duì)于橫軸(語音識(shí)別結(jié)果序列T)也可采用字詞混合模式。
7、如權(quán)利要求5所述的裝置，其特征在于，所述多路徑匹配單元包括
局部最佳路徑得分計(jì)算模塊，用于計(jì)算局部最佳路徑得分，局部匹配路徑采用多種匹配路徑，匹配時(shí)采用多種路徑得分函數(shù)，具體計(jì)算公式如下
其中，x表示路徑a到路徑f中的任一路徑，x(i，j)表示以(i，j)為終點(diǎn)的路徑x的起點(diǎn)；
最佳路徑信息保存模塊，用于保存局部最佳路徑信息，具體計(jì)算公式如下
匹配控制模塊，用于控制基于DP算法的匹配過程實(shí)現(xiàn)。
全文摘要
本發(fā)明實(shí)施例公開了一種基于字詞混合的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)方法，包括根據(jù)輸入的語音識(shí)別結(jié)果序列和參考序列，生成字詞混合的R-T匹配平面；根據(jù)DP算法在R-T平面中進(jìn)行匹配，局部匹配路徑采用基于字詞混合的多匹配路徑，并采用多種路徑得分函數(shù)；進(jìn)行路徑回溯，獲取最佳匹配結(jié)果，統(tǒng)計(jì)語音識(shí)別性能相關(guān)信息。還公開了一種基于字詞混合的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)裝置，利用本發(fā)明實(shí)施例，能夠有效降低識(shí)別結(jié)果評(píng)價(jià)中的虛假錯(cuò)誤，有效提高基于詞的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)精度。
文檔編號(hào)G10L15/00GK101609671SQ20091008886
公開日2009年12月23日申請(qǐng)日期2009年7月21日優(yōu)先權(quán)日2009年7月21日
發(fā)明者剛劉, 偉陳, 軍郭, 國玉晶申請(qǐng)人:北京郵電大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉剛;陳偉;郭軍;國玉晶
技術(shù)所有人：北京郵電大學(xué)
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

連續(xù)語音識(shí)別相關(guān)技術(shù)

htk連續(xù)語音識(shí)別相關(guān)技術(shù)

大詞匯量連續(xù)語音識(shí)別相關(guān)技術(shù)

語音識(shí)別測(cè)試方法相關(guān)技術(shù)

語音識(shí)別方法相關(guān)技術(shù)

語音識(shí)別的方法相關(guān)技術(shù)

連續(xù)重整裝置相關(guān)技術(shù)