漢語語音識(shí)別中重復(fù)出現(xiàn)詞識(shí)別錯(cuò)誤的自動(dòng)修正方法

文檔序號(hào)：6561637閱讀：1121來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：漢語語音識(shí)別中重復(fù)出現(xiàn)詞識(shí)別錯(cuò)誤的自動(dòng)修正方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域，特別是涉及一種漢語語音識(shí)別中重復(fù)出現(xiàn)詞識(shí)別錯(cuò)誤的自動(dòng)修正方法。
背景技術(shù)：
語音識(shí)別技術(shù)是一種利用計(jì)算機(jī)和數(shù)字信號(hào)處理技術(shù)準(zhǔn)確地識(shí)別出人類語音內(nèi)容的技術(shù)。目前面向特殊應(yīng)用的中小詞匯量語音識(shí)別技術(shù)已得到實(shí)際應(yīng)用，然而，由于受到背景噪音、方言口音、口語化的自然語音以及語義理解等因素的限制，大詞匯量說話人無關(guān)的連續(xù)語音識(shí)別技術(shù)還處在探索階段。由于語音識(shí)別無法達(dá)到100%的識(shí)別準(zhǔn)確率，因此，對(duì)識(shí)別結(jié)果中的識(shí)別錯(cuò)誤進(jìn)行修正是不可缺少的。識(shí)別錯(cuò)誤修正是指在一句話識(shí)別后由說話人對(duì)識(shí)別結(jié)果中的錯(cuò)誤進(jìn)行修正。早期的識(shí)別錯(cuò)誤修正方法主要有重新發(fā)音修正方法(re-speaking)，單詞拼寫修正方法 (spelling)，鍵盤輸入修正方法，和手寫輸入修正方法。近期的識(shí)別錯(cuò)誤修正方法有候選選擇修正方法，識(shí)別系統(tǒng)對(duì)每個(gè)詞給出多個(gè)候選，用戶在語音輸入的同時(shí)或完成之后通過選擇候選修正識(shí)別錯(cuò)誤。無論是早期的修正方法還是后來的候選選擇修正方法，對(duì)于不同語句中的同一個(gè)詞識(shí)別錯(cuò)誤都需要重新修正，即對(duì)于同一個(gè)詞，其每次的識(shí)別錯(cuò)誤都需要有用戶參與的修正；修正效率較低。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是利用之前已修正的識(shí)別結(jié)果，自動(dòng)修正當(dāng)前識(shí)別語句中重復(fù)出現(xiàn)詞的識(shí)別錯(cuò)誤，從而提高識(shí)別錯(cuò)誤的修正效率，加快識(shí)別錯(cuò)誤修正速度。本發(fā)明提供一種漢語語音識(shí)別中重復(fù)出現(xiàn)詞識(shí)別錯(cuò)誤的自動(dòng)修正方法，其特征在于，包括(1)對(duì)每句話經(jīng)識(shí)別后得到的字混淆網(wǎng)絡(luò)與詞組庫中的詞組及中間識(shí)別結(jié)果進(jìn)行相似性匹配，以查找重復(fù)出現(xiàn)詞組；( 根據(jù)查找得到的詞組信息，重新計(jì)算相似概率值和字識(shí)別概率值；(3)根據(jù)新的概率值，對(duì)字混淆網(wǎng)絡(luò)按照概率值大小排序；和⑷使用排序結(jié)果替換字混淆網(wǎng)絡(luò)的最優(yōu)識(shí)別結(jié)果以及中間識(shí)別結(jié)果。其中，字混淆網(wǎng)絡(luò)是所有可能識(shí)別結(jié)果的集合，字混淆網(wǎng)絡(luò)包括最優(yōu)識(shí)別結(jié)果即原有最優(yōu)識(shí)別結(jié)果和最優(yōu)識(shí)別結(jié)果中的每個(gè)字對(duì)應(yīng)的中間識(shí)別結(jié)果；詞組庫包括詞組及其對(duì)應(yīng)的中間識(shí)別結(jié)果；相似性匹配即計(jì)算詞組庫中的詞組對(duì)應(yīng)的中間識(shí)別結(jié)果與字混淆網(wǎng)絡(luò)中的中間識(shí)別結(jié)果的相似程度，用相似概率值表示該相似程度，相似概率值大于零的詞組為當(dāng)前識(shí)別語句中可能再次出現(xiàn)的詞；所述詞組信息包括詞組本身、詞組的相似概率值以及詞組在最優(yōu)識(shí)別結(jié)果中的對(duì)應(yīng)位置；語句中的重復(fù)出現(xiàn)詞是指語句中的某個(gè)詞在以前的語句中出現(xiàn)過，其在當(dāng)前語句的再次出現(xiàn)叫做重復(fù)出現(xiàn)詞，對(duì)其識(shí)別錯(cuò)誤稱為重復(fù)出現(xiàn)詞識(shí)別錯(cuò)誤；除了重復(fù)出現(xiàn)詞識(shí)別錯(cuò)誤外，還有首次出現(xiàn)的詞被識(shí)別錯(cuò)誤的情況，這種識(shí)別錯(cuò)誤叫做非重復(fù)出現(xiàn)詞識(shí)別錯(cuò)誤?？蛇x的，步驟(1)中所述進(jìn)行相似性匹配包括計(jì)算詞組及對(duì)應(yīng)中間識(shí)別結(jié)果與當(dāng)前字混淆網(wǎng)絡(luò)的相似概率值；和保留相似概率值大于零的詞組；其中，所述計(jì)算方式為
權(quán)利要求
1.一種漢語語音識(shí)別中重復(fù)出現(xiàn)詞識(shí)別錯(cuò)誤的自動(dòng)修正方法，其特征在于，包括(1)對(duì)每句話經(jīng)識(shí)別后得到的字混淆網(wǎng)絡(luò)與詞組庫中的詞組及中間識(shí)別結(jié)果進(jìn)行相似性匹配，以查找重復(fù)出現(xiàn)詞組；其中，字混淆網(wǎng)絡(luò)是所有可能識(shí)別結(jié)果的集合，字混淆網(wǎng)絡(luò)包括最優(yōu)識(shí)別結(jié)果即原有最優(yōu)識(shí)別結(jié)果和最優(yōu)識(shí)別結(jié)果中的每個(gè)字對(duì)應(yīng)的中間識(shí)別結(jié)果；詞組庫包括詞組及其對(duì)應(yīng)的中間識(shí)別結(jié)果；(2)根據(jù)查找得到的詞組信息，重新計(jì)算相似概率值和字識(shí)別概率值；(3)根據(jù)新的概率值，對(duì)字混淆網(wǎng)絡(luò)按照概率值大小排序；和(4)使用排序結(jié)果替換字混淆網(wǎng)絡(luò)的最優(yōu)識(shí)別結(jié)果以及中間識(shí)別結(jié)果。
2.根據(jù)權(quán)利要求1所述的自動(dòng)修正方法，其特征在于，步驟(1)中所述進(jìn)行相似性匹配包括計(jì)算詞組及對(duì)應(yīng)中間識(shí)別結(jié)果與當(dāng)前字混淆網(wǎng)絡(luò)的相似概率值；和保留相似概率值大于零的詞組；其中，所述計(jì)算方式為
3.根據(jù)權(quán)利要求1所述的自動(dòng)修正方法，其特征在于，詞組中的每個(gè)字對(duì)應(yīng)當(dāng)前字混淆網(wǎng)絡(luò)中的一列識(shí)別結(jié)果；步驟O)中所述重新計(jì)算相似概率值包括重新計(jì)算查找到詞組中每個(gè)字的相似概率值；其中，重新計(jì)算查找到詞組中每個(gè)字的相似概率值方式為
4.根據(jù)權(quán)利要求3所述的自動(dòng)修正方法，其特征在于，步驟(2)中所述重新計(jì)算字識(shí)別概率值包括重新計(jì)算每個(gè)對(duì)應(yīng)列中的字識(shí)別概率值；其中，重新計(jì)算每個(gè)對(duì)應(yīng)列中的字識(shí)別概率值的方式為
5.根據(jù)權(quán)利要求1所述的自動(dòng)修正方法，其特征在于，還包括(5)通過在混淆網(wǎng)絡(luò)中選擇正確的字、或者通過鍵盤輸入、或者通過手寫輸入來修正非重復(fù)出現(xiàn)詞識(shí)別錯(cuò)誤，以得到不再包含任何識(shí)別錯(cuò)誤的已修正識(shí)別結(jié)果。
6.根據(jù)權(quán)利要求5所述的自動(dòng)修正方法，其特征在于，還包括(6)挖掘已修正識(shí)別結(jié)果中所有的詞組；和(7)存儲(chǔ)或更新得到的詞組到詞組庫。
7.根據(jù)權(quán)利要求6所述的自動(dòng)修正方法，其特征在于，步驟(6)中所述挖掘已修正識(shí)別結(jié)果中所有的詞組包括計(jì)算已修正識(shí)別結(jié)果中每個(gè)字與相鄰若干字組成詞的概率值；選擇組合概率最大的詞組作為挖掘到的詞組；其中，所述計(jì)算的方式為num(Scl) num(SC2) num{SCk)PKc1,…,ck、= Yj Σ …Σ PK八,···, ,O'ι=1 h=1k=1P (C1, c2,…，ck)表示已修正識(shí)別結(jié)果中第1個(gè)字與第2個(gè)到第k個(gè)字組成詞的概率值，num(SCt)表示已修正識(shí)別結(jié)果中第k個(gè)字對(duì)應(yīng)中間識(shí)別結(jié)果列中字的個(gè)數(shù)，％表示已修正識(shí)別結(jié)果中第k個(gè)字所對(duì)應(yīng)中間識(shí)別結(jié)果列中的第ik個(gè)字，PK，c2’h，…，Ck h )表示字混淆網(wǎng)絡(luò)中字％與、到％的組合概率值。
8.根據(jù)權(quán)利要求1所述的自動(dòng)修正方法，其特征在于，所述詞組庫為詞組文件或詞組數(shù)據(jù)庫。
全文摘要
本發(fā)明提供一種漢語語音識(shí)別中重復(fù)出現(xiàn)詞識(shí)別錯(cuò)誤的自動(dòng)修正方法，包括(1)對(duì)每句話經(jīng)識(shí)別后得到的字混淆網(wǎng)絡(luò)與詞組庫中的詞組及中間識(shí)別結(jié)果進(jìn)行相似性匹配，以查找重復(fù)出現(xiàn)詞組；其中，字混淆網(wǎng)絡(luò)是所有可能識(shí)別結(jié)果的集合，字混淆網(wǎng)絡(luò)包括最優(yōu)識(shí)別結(jié)果即原有最優(yōu)識(shí)別結(jié)果和最優(yōu)識(shí)別結(jié)果中的每個(gè)字對(duì)應(yīng)的中間識(shí)別結(jié)果；詞組庫包括詞組及其對(duì)應(yīng)的中間識(shí)別結(jié)果；(2)根據(jù)查找得到的詞組信息，重新計(jì)算相似概率值和字識(shí)別概率值；(3)根據(jù)新的概率值，對(duì)字混淆網(wǎng)絡(luò)按照概率值大小排序；和(4)使用排序結(jié)果替換字混淆網(wǎng)絡(luò)的最優(yōu)識(shí)別結(jié)果以及中間識(shí)別結(jié)果。優(yōu)點(diǎn)在于利用之前已修正的識(shí)別結(jié)果中的經(jīng)驗(yàn)知識(shí)，自動(dòng)修正當(dāng)前識(shí)別語句中重復(fù)出現(xiàn)詞的識(shí)別錯(cuò)誤，從而提高識(shí)別錯(cuò)誤的修正效率，加快識(shí)別錯(cuò)誤修正速度。
文檔編號(hào)G06F17/30GK102324233SQ20111022084
公開日2012年1月18日申請(qǐng)日期2011年8月3日優(yōu)先權(quán)日2011年8月3日
發(fā)明者李新輝, 林守勛, 王向東, 錢躍良申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李新輝;王向東;錢躍良;林守勛
技術(shù)所有人：中國(guó)科學(xué)院計(jì)算技術(shù)研究所
我是此專利的發(fā)明人

上一篇：自適應(yīng)模板大小的Gabor指紋圖像增強(qiáng)方法
上一篇：基于集成學(xué)習(xí)的混合融合人臉識(shí)別方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

漢語語音識(shí)別相關(guān)技術(shù)

百度語音識(shí)別錯(cuò)誤3301相關(guān)技術(shù)

語音識(shí)別錯(cuò)誤率相關(guān)技術(shù)

語音識(shí)別錯(cuò)誤相關(guān)技術(shù)

語音識(shí)別相關(guān)技術(shù)

百度語音識(shí)別相關(guān)技術(shù)