專利名稱:一種連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識(shí)別領(lǐng)域,特別是一種連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)的方法和裝置。
背景技術(shù):
連續(xù)語音識(shí)別的結(jié)果評(píng)價(jià),通常采用動(dòng)態(tài)規(guī)劃的方法得到最佳匹配結(jié)果,隱馬爾可夫工具包(Hidden Markov ToolKit,HTK)中的HResults工具是完成這一任務(wù)的典型代表。
在進(jìn)行匹配時(shí),匹配的單元可以是詞,也可以是字、音素等,而且只能完成同一層次的匹配,即詞詞匹配或字字匹配等。在漢語連續(xù)語音識(shí)別中,通常采用字即音節(jié)作為匹配的基元,而基于音素的匹配通常是在只需要評(píng)價(jià)聲學(xué)模型性能的時(shí)候使用?;谠~的匹配由于會(huì)產(chǎn)生一些錯(cuò)誤匹配,而很少使用。
在基于詞的結(jié)果匹配中,產(chǎn)生錯(cuò)誤匹配的原因主要有兩個(gè),一個(gè)是分詞的標(biāo)準(zhǔn)不統(tǒng)一,漢語與西文不同,詞之間沒有明顯的分界,需要進(jìn)行分詞,但是因?yàn)闈h語構(gòu)詞比較靈活,造成分詞結(jié)果的不同,從而產(chǎn)生一些錯(cuò)誤匹配。另外一個(gè)是語音識(shí)別系統(tǒng)的原因,語音識(shí)別輸出得到的詞經(jīng)常和參考詞不一致,即使采用了相同的分詞方法(算法、參數(shù)、參考詞典等等均相同),比如[中國][對(duì)][...],識(shí)別為[中國隊(duì)][...],這些造成很多的虛假錯(cuò)誤,使得識(shí)別結(jié)果的評(píng)價(jià)不可信。
由于語音識(shí)別中通常采用基于詞的語言模型,網(wǎng)絡(luò)搜索也是分為詞內(nèi)和詞間搜索進(jìn)行的,因此很多時(shí)候,還是需要得到基于詞的語音識(shí)別結(jié)果分析。如做語音識(shí)別的可信度研究時(shí),相對(duì)于音節(jié)來說,詞的可信度特征更容易獲得,因此很多可信度研究都是在基于詞來進(jìn)行的,但是由于基于詞的語音識(shí)別結(jié)果評(píng)價(jià)不夠準(zhǔn)確,嚴(yán)重影響了可信度評(píng)價(jià)的性能。
發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題 現(xiàn)有技術(shù)對(duì)基于詞的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)不準(zhǔn)確,產(chǎn)生很多虛假錯(cuò)誤,特別是虛假的刪除、替代、插入錯(cuò)誤。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明一個(gè)或多個(gè)實(shí)施例的目的在于提供一種基于字詞混合的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)方法和裝置,以實(shí)現(xiàn)更為準(zhǔn)確的基于詞的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià),減少虛假錯(cuò)誤的出現(xiàn)。
為解決上述問題,本發(fā)明實(shí)施例提供了一種基于字詞混合的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)方法,包括 根據(jù)輸入的語音識(shí)別結(jié)果序列(T序列)和參考序列(R序列),將R序列擴(kuò)展為字詞混合模式,以T為橫軸,以R為縱軸,生成字詞混合的R-T匹配平面; 根據(jù)DP算法在R-T平面中進(jìn)行匹配,局部匹配路徑采用基于字詞混合匹配的多匹配路徑,每條路徑采用適當(dāng)?shù)穆窂降梅?;保存每次匹配的最佳路徑得?最小得分),并保存取得最佳得分時(shí)的路徑信息; 匹配完成后,進(jìn)行路徑回溯,獲取最佳匹配路徑,得到最佳匹配結(jié)果和語音識(shí)別結(jié)果評(píng)價(jià)信息,并輸出。
本發(fā)明還公開了一種基于字詞混合的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)裝置,包括 輸入單元,輸入語音識(shí)別結(jié)果序列(T序列)和參考序列(R序列),保存并作為后續(xù)處理單元的數(shù)據(jù)來源,其中,輸入的序列均為詞序列; R-T平面定義單元,根據(jù)輸入,將R序列擴(kuò)展為字詞混合模式,以T為橫軸,以R為縱軸,生成字詞混合的R-T匹配平面; 多路徑匹配單元,根據(jù)DP算法在R-T平面中進(jìn)行匹配,局部匹配路徑采用基于字詞混合的多匹配路徑,每條路徑采用適當(dāng)?shù)穆窂降梅?;保存每次匹配的最佳路徑得分,并保存取得最佳路徑得分時(shí)的路徑信息; 路徑回溯單元,進(jìn)行路徑回溯,獲取最佳匹配路徑,保存最佳匹配結(jié)果,統(tǒng)計(jì)識(shí)別性能相關(guān)信息; 匹配結(jié)果輸出單元,輸出匹配結(jié)果和識(shí)別性能信息。
與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例具有以下優(yōu)點(diǎn)本發(fā)明實(shí)施例通過定義基于字詞混合的R-T匹配平面,設(shè)計(jì)基于字詞混合的多匹配路徑,使得本發(fā)明可以進(jìn)行基于字詞混合的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià),并通過設(shè)計(jì)適當(dāng)?shù)穆窂降梅?,保證不同匹配路徑的優(yōu)先級(jí),提高匹配結(jié)果的正確性,有效降低連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)中虛假錯(cuò)誤的產(chǎn)生。
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1所示,是本發(fā)明實(shí)施例的裝置框圖; 圖1-1所示,是本發(fā)明實(shí)施例的子裝置-多路徑匹配單元的框圖 圖2所示,是本發(fā)明實(shí)施例的R-T匹配平面示意圖; 圖3所示,是本發(fā)明實(shí)施例的多匹配路徑示意圖; 圖4所示,是本發(fā)明實(shí)施例的路徑得分示意圖; 圖5所示,是本發(fā)明實(shí)施例的方法流程圖。
具體實(shí)施例方式 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
如圖1所示,是本發(fā)明實(shí)施例的裝置框圖,包括 輸入單元101,輸入語音識(shí)別結(jié)果序列(T序列)和參考序列(R序列),保存并作為后續(xù)處理單元的數(shù)據(jù)來源,輸入的序列均為詞序列,詞之間采用分隔符號(hào)(如空格、回車換行符、制表符等)隔開,以特殊字符(如“.”)作為結(jié)束標(biāo)志; R-T平面構(gòu)建單元102,根據(jù)輸入,將R序列擴(kuò)展為字詞混合模式,以T為橫軸,以R為縱軸,生成字詞混合的R-T匹配平面; 多路徑匹配單元103,根據(jù)DP算法在R-T平面中進(jìn)行匹配,局部匹配路徑采用基于字詞混合的多匹配路徑,每條路徑采用適當(dāng)?shù)穆窂降梅?;?jì)算每次匹配的最佳路徑得分(最小得分),并保存取得最佳路徑得分時(shí)的路徑信息;多路徑匹配單元的詳細(xì)框圖如圖1-1所示,包括 局部最佳路徑得分計(jì)算模塊1031,用于計(jì)算局部最佳路徑得分,采用多種匹配路徑,每條路徑采用適當(dāng)?shù)穆窂降梅郑? 最佳路徑信息保存模塊1032,用于保存局部最佳匹配路徑信息; 匹配控制模塊1033,用于控制基于DP算法的匹配過程的實(shí)現(xiàn); 路徑回溯單元104,進(jìn)行路徑回溯,獲取最佳匹配路徑,保存最佳匹配結(jié)果,統(tǒng)計(jì)識(shí)別性能相關(guān)信息; 匹配結(jié)果輸出單元105,將最佳匹配結(jié)果和識(shí)別性能信息輸出;輸出形式可以直接打印輸出到紙張上,也可以直接輸出到顯示裝置上。
需要說明的是,上述功能模塊的劃分是相對(duì)的,主要用于幫助所屬領(lǐng)域的技術(shù)人員從整體上理解本發(fā)明的原理,本發(fā)明實(shí)施例還可以以其他的功能模塊及其組合來實(shí)現(xiàn)本發(fā)明的原理,達(dá)到相同的技術(shù)效果,這都沒有超出本發(fā)明的保護(hù)范圍。
下面,結(jié)合圖2-圖4,說明本發(fā)明實(shí)施例所提供的基于字詞混合的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)方法 如圖2所示,是本發(fā)明實(shí)施例中R-T匹配平面構(gòu)建示意圖 R-T平面的構(gòu)建不僅要能夠滿足字詞匹配的同時(shí)進(jìn)行,而且還要能保證語音識(shí)別結(jié)果序列T中詞的完整性,為此本發(fā)明采用下面的方法構(gòu)建R-T匹配平面以識(shí)別結(jié)果序列T為橫軸,T中的每一個(gè)節(jié)點(diǎn)ti都是一個(gè)詞,將參考序列R擴(kuò)展為字詞混合模式,以R作為縱軸。字詞混合模式擴(kuò)展的方法是,將R中的每個(gè)詞擴(kuò)展為字,每個(gè)字分別作為一個(gè)節(jié)點(diǎn),同時(shí)為了保留詞信息,將節(jié)點(diǎn)rj擴(kuò)展為字詞混合模式,如公式1所示 rj={Syllj,Vk,nwrj,Location} (1) 其中Syllj表示R序列中的第j個(gè)字(音節(jié)),Vk表示Syllj所在的詞,nwrj表示Vk的字(音節(jié))長度,location表示Syllj在Vk中的位置,具體定義如下 表1 Location取值 圖2給出一個(gè)R-T匹配平面的構(gòu)造實(shí)例,其中識(shí)別結(jié)果序列T有M個(gè)詞,參考序列R包含N個(gè)詞、N’個(gè)字。
如圖3所示,是本發(fā)明實(shí)施例中的多匹配路徑示意圖 為了進(jìn)行字詞混合匹配,需要設(shè)置合理的匹配路徑,本發(fā)明對(duì)現(xiàn)有技術(shù)的匹配路徑進(jìn)行了修改,設(shè)計(jì)了多匹配路徑。如圖3所示,圖3中i表示T序列中的第i個(gè)節(jié)點(diǎn)ti,j表示R序列中的第j個(gè)節(jié)點(diǎn)rj,(i,j)表示R-T平面中的一個(gè)坐標(biāo)點(diǎn)(ti,rj)的簡(jiǎn)寫,nwti表示節(jié)點(diǎn)ti的字長(即音節(jié)個(gè)數(shù)),其中i=0...M,j=0...N’。圖中共有a-f六條匹配路徑,下面分別說明每條路徑的含義。
路徑a路徑方向?yàn)?i-1,j)→(i,j),匹配結(jié)果為插入錯(cuò)誤(I); 路徑b路徑方向?yàn)?i-1,j-1)→(i,j),表示進(jìn)行字詞匹配,匹配結(jié)果為替代(S)或正確(C),當(dāng)nwti=1時(shí),同現(xiàn)有技術(shù); 路徑c路徑方向?yàn)?i-1,j-nwti)→(i,j),表示以ti為標(biāo)準(zhǔn)的匹配,即參考序列中的nwti個(gè)字組成的詞(設(shè)為與ti進(jìn)行匹配,匹配結(jié)果為S或C,當(dāng)nwti>1時(shí)存在,當(dāng)nwti=1時(shí),與路徑b相同; 路徑d路徑方向?yàn)?i-1,j-nwrj)→(i,j),表示以rj所在的詞Vk為標(biāo)準(zhǔn)的匹配,即Vk與ti進(jìn)行匹配,匹配結(jié)果為替代(S)或正確(C);路徑d僅當(dāng)rj->Location=3時(shí)存在,當(dāng)rj->Location=4(即nwrj=1)時(shí),路徑d與路徑b相同,換句話說,路徑d只當(dāng)rj位于詞尾的時(shí)候才有效; 路徑e路徑方向?yàn)?i,j-1)→(i,j),匹配結(jié)果為字刪除錯(cuò)誤(D),即刪除一個(gè)字或一個(gè)單字詞; 路徑f路徑方向?yàn)?i,j-nwrj)→(i,j),匹配結(jié)果為詞刪除錯(cuò)誤(D),路徑存在條件同路徑d,即僅當(dāng)rj->Location=3時(shí)存在,當(dāng)rj->Location=4(即nwrj=1)時(shí)同路徑c; 路徑b、e主要完成字詞匹配,其它路徑主要完成詞詞匹配。
此外,為了防止非法匹配路徑的出現(xiàn),本發(fā)明還對(duì)匹配路徑進(jìn)行了限制,即不允許刪除錯(cuò)誤和插入錯(cuò)誤相鄰出現(xiàn),即當(dāng)前節(jié)點(diǎn)最佳匹配為刪除路徑(e或f)時(shí),則其最佳路徑的起點(diǎn)的最佳路徑不能為插入路徑(a),反之亦然。
如圖4所示,是本發(fā)明實(shí)施例中的基本路徑匹配得分示意圖 路徑得分函數(shù)直接影響各條路徑的優(yōu)先度,從而影響匹配的結(jié)果,本發(fā)明以詞匹配優(yōu)先為出發(fā)點(diǎn),設(shè)計(jì)合理的路徑得分函數(shù)。設(shè)C(x)表示路徑x的得分函數(shù),本著詞匹配優(yōu)先的原則,對(duì)于相同性質(zhì)的路徑,本發(fā)明令詞詞匹配和字詞匹配的路徑得分相等,即C(c)=C(f),C(b)=C(d)=C(e),稱為基本路徑得分。同時(shí)對(duì)于路徑b、d、e同時(shí)存在(即包括多個(gè)詞詞匹配路徑)的情況下,詞長相同的匹配情況應(yīng)該優(yōu)先,為此引入詞長差異因子。
綜上所述,最終的路徑匹配得分函數(shù)分為兩部分,基本路徑得分和匹配詞長差異得分。基本路徑得分如圖4所示,插入、刪除路徑得分為α1,即C(a)=C(e)=C(f)=α1,對(duì)角線方向路徑(路徑b,c,d)得分為0(匹配)或α2(不匹配),其中α1<α2<2α1,本發(fā)明實(shí)例中,具體取值為α1=8,α2=10,匹配詞長差異得分僅限于對(duì)角線方向匹配路徑,路徑差異加權(quán)因子設(shè)為β,β取值應(yīng)滿足2α1>α2+β,本發(fā)明實(shí)例中取β=5,詳細(xì)描述如公式2所示 C(a)=C(e)=C(f)=α1 C(b)=α2+|nwti-1|×β C(c)=α2(2) C(d)=α2+|nwti-nwrj|×β 公式2中,對(duì)于路徑b、c、d只給出了不匹配時(shí)的得分,當(dāng)完全匹配時(shí),路徑b、c、d的路徑得分均為0。當(dāng)某些路徑(路徑c、d、f)不存在時(shí),其對(duì)應(yīng)的路徑得分可以設(shè)置為某個(gè)比較大的得分δ,其取值應(yīng)滿足δ>>α2(如δ=100等),也可以令該路徑不參與匹配,本發(fā)明實(shí)例中采用后面的方法,即當(dāng)某個(gè)路徑不存在時(shí),不參與匹配。
此外,為了防止某些非法匹配路徑的存在,對(duì)連續(xù)出現(xiàn)的刪除路徑(e或f)或連續(xù)出現(xiàn)的插入路徑(a)進(jìn)行懲罰。以刪除路徑為例,對(duì)于連續(xù)出現(xiàn)的刪除路徑,從第二個(gè)刪除路徑開始每個(gè)路徑得分增加懲罰因子θ,即新路徑得分為原始路徑得分+θ,θ其取值應(yīng)滿足θ<α1,本發(fā)明實(shí)例中取θ=β=5。
需要指出的是,基本路徑得分、詞長差異因子以及懲罰因子的具體取值可以有很多種方案,本發(fā)明實(shí)施例中只是給出了其中的一種實(shí)現(xiàn),只要滿足這些參數(shù)之間的相互約束,其它的數(shù)值也可以完成最佳匹配,例如所有取值乘以10等。
如圖5所示,在上述實(shí)施例的基礎(chǔ)上,本發(fā)明實(shí)施例提供了一種基于字詞混合的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)方法,其工作流程包括 501,輸入待匹配的詞序列,包括語音識(shí)別輸出序列(假設(shè)包含M個(gè)詞)和參考序列(假設(shè)包含N個(gè)詞,N’個(gè)字),保存并作為后續(xù)處理單元的數(shù)據(jù)來源; 502,構(gòu)造R-T匹配平面,將參考序列R擴(kuò)展為字詞混合模式,以R為縱軸,以T為橫軸,生成字詞混合的R-T匹配平面,并進(jìn)行相應(yīng)的初始化工作(初始化按照現(xiàn)有技術(shù)方式進(jìn)行即可); 503,計(jì)算局部最佳匹配得分g(i,j),其中i=0...M,j=0...N’。; 其中g(shù)(i,j)表示局部最佳匹配得分函數(shù),即表示從(0,0)點(diǎn)匹配到(i,j)點(diǎn)的最小得分,采用如公式3所示的迭代公式進(jìn)行計(jì)算。
公式3中x表示任一路徑,x(i,j)表示以(i,j)為終點(diǎn)的路徑x的起點(diǎn),其具體取值可參考圖3,例如當(dāng)x=a時(shí),x(i,j)=a(i,j)=(i-1,j),當(dāng)x=f時(shí),x(i,j)=f(i,j)=(i,j-nwrj)。
504,保存最佳匹配路徑信息
其中,
表示g(i,j)取最小值時(shí)所對(duì)應(yīng)局部路徑的起始坐標(biāo)點(diǎn),即表示局部最佳匹配路徑是源于哪一個(gè)坐標(biāo)點(diǎn),其公式表達(dá)如公式4所示。
若路徑a得分最小,則
依此類推。
505,匹配控制,503和504只完成某一坐標(biāo)點(diǎn)(i,j)的匹配工作,完整序列的匹配采用迭代方式,通過匹配控制模塊控制完成; 其中,匹配控制模塊的工作過程包括兩個(gè)循環(huán),第一層循環(huán)為i從1到M,第二層循環(huán)為j從1到N’,在每次循環(huán)中完成503和504的工作,即對(duì)應(yīng)某個(gè)特定的i,完成j從1到N’的匹配計(jì)算(即503,504),再令i=i+1,進(jìn)行j的循環(huán),直至i>M完成匹配; 506,匹配路徑回溯,獲取最佳匹配路徑; 其中,在回溯過程中,記錄最佳匹配結(jié)果的詳細(xì)信息(即保存當(dāng)前最佳匹配的路徑以及參與匹配的詞信息),統(tǒng)計(jì)正確(C)、替代(S)、插入(I)和刪除(D)的出現(xiàn)次數(shù),回溯完成后,計(jì)算識(shí)別性能信息; 507,匹配結(jié)果輸出,將詳細(xì)匹配結(jié)果和識(shí)別性能信息輸出。
通過以上的實(shí)施方式的描述,所屬領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。
以上所述的本發(fā)明實(shí)施方式,并不構(gòu)成對(duì)本發(fā)明保護(hù)范圍的限定。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1、一種基于字詞混合的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)方法,其特征在于,包括
根據(jù)輸入的語音識(shí)別結(jié)果序列和參考序列,生成字詞混合的R-T匹配平面;
根據(jù)DP算法在R-T平面中進(jìn)行匹配,局部匹配路徑采用基于字詞混合匹配的多匹配路徑,并采用多種路徑得分函數(shù);
進(jìn)行路徑回溯,獲取最佳匹配結(jié)果,統(tǒng)計(jì)語音識(shí)別性能相關(guān)信息;
2、如權(quán)利要求1所述的方法,其特征在于,根據(jù)輸入的語音識(shí)別結(jié)果序列和參考序列,生成字詞混合的R-T匹配平面,包括詞序列擴(kuò)展為字詞混合序列,R-T匹配平面定義方式。
詞序列擴(kuò)展為字詞混合序列的方法是(本發(fā)明以參考序列R為例說明,本擴(kuò)展方法同樣也可用于語音識(shí)別結(jié)果序列T)將序列R中的每個(gè)詞擴(kuò)展為字,同時(shí)為了保留詞信息,將擴(kuò)展后的字rj擴(kuò)展為字詞混合模式,即rj={Syllj,Vk,nwrj,Location},其中,Syllj表示R序列中的第j個(gè)字(音節(jié)),Vk表示Syllj所在的詞,nwrj表示Vk的字(音節(jié))長度,Location表示Syllj在Vk中的位置,具體定義如下表所示
R-T匹配平面定義方式,本發(fā)明實(shí)施例對(duì)縱軸(參考序列R)采用字詞混合模式,對(duì)橫軸(語音識(shí)別結(jié)果序列T)采用基于詞的模式,但不局限于此,對(duì)于橫軸(語音識(shí)別結(jié)果序列T)也可采用字詞混合模式。
3、如權(quán)利要求1所述的方法,其特征在于,根據(jù)DP算法在R-T平面中進(jìn)行匹配,局部匹配路徑采用基于字詞混合匹配的多匹配路徑,包括
基于字詞混合匹配的多匹配路徑,包括六條局部匹配路徑,分別為路徑a、b、c、d、e、f;為方便描述,令i表示T序列中的第i個(gè)節(jié)點(diǎn)ti,j表示R序列中的第j個(gè)節(jié)點(diǎn)rj,(i,j)表示R-T平面中的一個(gè)坐標(biāo)點(diǎn)(ti,rj)的簡(jiǎn)寫,nwti表示節(jié)點(diǎn)ti的字長(即音節(jié)個(gè)數(shù)),其中i=0...M,j=0...N’,則有
路徑a路徑方向?yàn)?i-1,j)→(i,j),匹配結(jié)果為插入錯(cuò)誤(I);
路徑b路徑方向?yàn)?i-1,j-1)→(i,j),表示進(jìn)行字詞匹配,匹配結(jié)果為替代(S)或正確(C),當(dāng)nwti=1時(shí),同現(xiàn)有技術(shù);
路徑c路徑方向?yàn)?i-1,j-nwti)→(i,j),表示以ti為標(biāo)準(zhǔn)的匹配,即參考序列中的nwti個(gè)字組成的詞(設(shè)為與ti進(jìn)行匹配,匹配結(jié)果為S或C,當(dāng)nwti>1時(shí)存在,當(dāng)nwti=1時(shí),與路徑b相同;
路徑d路徑方向?yàn)?i-1,j-nwrj)→(i,j),表示以rj所在的詞Vk為標(biāo)準(zhǔn)的匹配,即Vk與ti進(jìn)行匹配,匹配結(jié)果為替代(S)或正確(C);路徑d僅當(dāng)rj->Location=3時(shí)存在,當(dāng)rj->Location=4(即nwrj=1)時(shí),路徑d與路徑b相同,換句話說,路徑d只當(dāng)rj位于詞尾的時(shí)候才有效;
路徑e路徑方向?yàn)?i,j-1)→(i,j),匹配結(jié)果為字刪除錯(cuò)誤(D),即刪除一個(gè)字或一個(gè)單字詞;
路徑f路徑方向?yàn)?i,j-nwrj)→(i,j),匹配結(jié)果為詞刪除錯(cuò)誤(D),路徑存在條件同路徑d,即僅當(dāng)rj->Location=3時(shí)存在,當(dāng)rj->Location=4(即nwrj=1)時(shí)同路徑c;
路徑b、e主要完成字詞匹配,其它路徑主要完成詞詞匹配。
此外,為了防止非法匹配路徑的出現(xiàn),本發(fā)明還對(duì)匹配路徑進(jìn)行了限制,即不允許刪除錯(cuò)誤和插入錯(cuò)誤相鄰出現(xiàn),即當(dāng)前節(jié)點(diǎn)最佳匹配為刪除路徑(e或f),則其最佳路徑的起點(diǎn)的最佳路徑不能為插入路徑(a),反之亦然。
4、如權(quán)利要求1所述的方法,其特征在于,根據(jù)DP算法在R-T平面中進(jìn)行匹配,采用多種路徑得分函數(shù),包括
路徑匹配得分函數(shù)分為兩部分,基本路徑得分和匹配詞長差異得分?;韭窂降梅侄x為插入、刪除路徑得分為α1,即C(a)=C(e)=C(f)=α1,對(duì)角線方向路徑(路徑b,c,d)得分為0(匹配)或α2(不匹配),其中α1<α2<2α1,本發(fā)明實(shí)例中,具體取值為α1=8,α2=10;匹配詞長差異得分僅限于對(duì)角線方向匹配路徑,路徑差異加權(quán)因子設(shè)為取β,β取值應(yīng)滿足2α1>α2+β,本發(fā)明實(shí)例中取β=5,詳細(xì)描述如下所示
C(a)=C(e)=C(f)=α1
C(b)=α2+|nwti-1|×β
C(c)=α2
C(d)=α2+|nwti-nwrj|×β
上式中,對(duì)于路徑b、c、d只給出了不匹配時(shí)的得分,當(dāng)正確匹配時(shí),路徑b、c、d的路徑得分均為0。當(dāng)某些路徑(路徑c、d、f)不存在時(shí),其對(duì)應(yīng)的路徑得分可以設(shè)置為某個(gè)比較大的得分δ,其取值應(yīng)滿足δ>>α2(如δ=100等),也可以令該路徑不參與匹配,本發(fā)明實(shí)例中采用后面的方法,即當(dāng)某個(gè)路徑不存在時(shí),不參與匹配。
此外,為了防止某些非法匹配路徑的存在,對(duì)連續(xù)出現(xiàn)的刪除路徑(e或f)或連續(xù)出現(xiàn)的插入路徑(a)進(jìn)行懲罰。以刪除路徑為例,對(duì)于連續(xù)出現(xiàn)的刪除路徑,從第二個(gè)刪除路徑開始每個(gè)路徑得分增加懲罰因子θ,即新路徑得分為原始路徑得分+θ,θ取值應(yīng)滿足θ<α1,本發(fā)明實(shí)例中取θ=β=5。
5、一種基于字詞混合的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)裝置,其特征在于,包括
輸入單元,輸入語音識(shí)別結(jié)果序列(T序列)和參考序列(R序列),保存并作為后續(xù)處理單元的數(shù)據(jù)來源,輸入的序列均為詞序列;
R-T平面構(gòu)建單元,根據(jù)輸入,將R序列擴(kuò)展為字詞混合模式,以T為橫軸,以R為縱軸,生成字詞混合的R-T匹配平面;
多路徑匹配單元,根據(jù)DP算法在R-T平面中進(jìn)行匹配,局部匹配路徑采用基于字詞混合的多匹配路徑,每條路徑采用適當(dāng)?shù)穆窂降梅?;保存每詞匹配的最佳得分(即最小得分),并保存取得最佳得分時(shí)的路徑信息;
路徑回溯單元,進(jìn)行路徑回溯,獲取最佳匹配路徑,保存最佳匹配結(jié)果,統(tǒng)計(jì)識(shí)別性能相關(guān)信息;
匹配結(jié)果輸出單元,將最佳匹配結(jié)果和識(shí)別性能信息輸出。
6、如權(quán)利要求5所述的裝置,其特征在于,所述R-T平面構(gòu)建單元,包括詞序列擴(kuò)展模塊,R-T匹配平面定義模塊。
詞序列擴(kuò)展模塊,用于將詞序列擴(kuò)展為字詞混合序列。下面以參考序列R為例說明實(shí)現(xiàn)過程,將序列R中的每個(gè)詞擴(kuò)展為字,同時(shí)為了保留詞信息,將擴(kuò)展后的字rj擴(kuò)展為字詞混合模式,即rj={Syllj,Vk,nwrj,Location},其中Syllj表示R序列中的第j個(gè)字(音節(jié)),Vk表示Syllj所在的詞,nwrj表示Vk的字(音節(jié))長度,Location表示Syllj在Vk中的位置,具體定義如下表所示
R-T匹配平面定義模塊,本發(fā)明實(shí)施例對(duì)縱軸(參考序列R)采用字詞混合模式,對(duì)橫軸(語音識(shí)別結(jié)果序列T)采用基于詞的模式,但不局限于此,對(duì)于橫軸(語音識(shí)別結(jié)果序列T)也可采用字詞混合模式。
7、如權(quán)利要求5所述的裝置,其特征在于,所述多路徑匹配單元包括
局部最佳路徑得分計(jì)算模塊,用于計(jì)算局部最佳路徑得分,局部匹配路徑采用多種匹配路徑,匹配時(shí)采用多種路徑得分函數(shù),具體計(jì)算公式如下
其中,x表示路徑a到路徑f中的任一路徑,x(i,j)表示以(i,j)為終點(diǎn)的路徑x的起點(diǎn);
最佳路徑信息保存模塊,用于保存局部最佳路徑信息,具體計(jì)算公式如下
匹配控制模塊,用于控制基于DP算法的匹配過程實(shí)現(xiàn)。
全文摘要
本發(fā)明實(shí)施例公開了一種基于字詞混合的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)方法,包括根據(jù)輸入的語音識(shí)別結(jié)果序列和參考序列,生成字詞混合的R-T匹配平面;根據(jù)DP算法在R-T平面中進(jìn)行匹配,局部匹配路徑采用基于字詞混合的多匹配路徑,并采用多種路徑得分函數(shù);進(jìn)行路徑回溯,獲取最佳匹配結(jié)果,統(tǒng)計(jì)語音識(shí)別性能相關(guān)信息。還公開了一種基于字詞混合的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)裝置,利用本發(fā)明實(shí)施例,能夠有效降低識(shí)別結(jié)果評(píng)價(jià)中的虛假錯(cuò)誤,有效提高基于詞的連續(xù)語音識(shí)別結(jié)果評(píng)價(jià)精度。
文檔編號(hào)G10L15/00GK101609671SQ20091008886
公開日2009年12月23日 申請(qǐng)日期2009年7月21日 優(yōu)先權(quán)日2009年7月21日
發(fā)明者剛 劉, 偉 陳, 軍 郭, 國玉晶 申請(qǐng)人:北京郵電大學(xué)