一種語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別方法

文檔序號(hào)：2833631閱讀：414來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種語(yǔ)音指令識(shí)別方法，尤其是一種對(duì)語(yǔ)音指令范圍可變的連續(xù)語(yǔ)音識(shí)別方法。
背景技術(shù)：
與機(jī)器進(jìn)行交流，讓其明白你在說(shuō)什么，是人們長(zhǎng)期以來(lái)夢(mèng)寐以求的事情。語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。語(yǔ)音識(shí)別技術(shù)作為解決人機(jī)交互的重要途徑，在近年來(lái)得到了越來(lái)越多的應(yīng)用。如基于計(jì)算機(jī)平臺(tái)的、大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)，主要應(yīng)用于與電話網(wǎng)或互聯(lián)網(wǎng)相結(jié)合的語(yǔ)音信息查詢服務(wù)系統(tǒng)；在小型化、便攜式語(yǔ)音產(chǎn)品中的應(yīng)用，如智能玩具、家電遙控等方面。語(yǔ)音指令的識(shí)別應(yīng)用場(chǎng)景有兩種，一種是對(duì)固定不變的指令內(nèi)容進(jìn)行識(shí)別；另一種情況是要識(shí)別的指令內(nèi)容是隨著時(shí)間而變化的，對(duì)于下一刻可能要識(shí)別的內(nèi)容是未知的，且識(shí)別過(guò)程中用戶的語(yǔ)音是連續(xù)輸入的。這里語(yǔ)音指令可以是簡(jiǎn)單的命令詞，也可以是語(yǔ)句，即圍繞著某個(gè)命令詞或應(yīng)用場(chǎng)景的很多種說(shuō)法。場(chǎng)景二的例子如酷豆游戲，屏幕上實(shí)時(shí)動(dòng)態(tài)地顯示用戶可讀入的命令詞，即當(dāng)前可識(shí)別的命令詞，對(duì)于識(shí)別系統(tǒng)和用戶來(lái)說(shuō)，下一時(shí)刻可用于識(shí)別的命令詞是完全未知的，且在命令詞變化的整個(gè)過(guò)程中，用戶的語(yǔ)音是連續(xù)輸入的，此時(shí)，識(shí)別系統(tǒng)也應(yīng)實(shí)時(shí)準(zhǔn)確的識(shí)別出用戶的語(yǔ)音。而傳統(tǒng)的語(yǔ)音指令識(shí)別方法往往滿足不了需求。傳統(tǒng)的語(yǔ)音指令識(shí)別方法主要處理的是指令集固定的情況。在評(píng)測(cè)開(kāi)始前，依據(jù)指令集的內(nèi)容構(gòu)建固定不變的解碼網(wǎng)絡(luò)，因此，該種識(shí)別技術(shù)靈活性較差，對(duì)于指令集需隨時(shí)變換的情況束手無(wú)策。其具體流程如圖I所示第一步依據(jù)需求設(shè)定指令集；第二步依據(jù)指令集內(nèi)容構(gòu)建解碼網(wǎng)絡(luò)；第三步接受用戶輸入的語(yǔ)音；第四步判斷接收到的語(yǔ)音是否為有效語(yǔ)音，并給出反饋是否為有效反饋，若是轉(zhuǎn)入步五，否則轉(zhuǎn)入步三；第五步系統(tǒng)依據(jù)命令做出相應(yīng)的操作；第六步是否仍有語(yǔ)音輸入，若是轉(zhuǎn)入步3，否則結(jié)束?，F(xiàn)有的語(yǔ)音指令識(shí)別方法主要存在以下幾個(gè)缺點(diǎn)(I)僅可處理語(yǔ)音指令集固定且已知的情況，在指令集需實(shí)時(shí)變換，且一下時(shí)刻要識(shí)別的內(nèi)容完全未知時(shí)，現(xiàn)有方法則無(wú)計(jì)可施；(2)現(xiàn)有語(yǔ)音指令識(shí)別方法的解碼網(wǎng)絡(luò)多依據(jù)所有的命令詞構(gòu)建一個(gè)復(fù)雜的且固定不變的解碼網(wǎng)絡(luò)，該種方法在面臨語(yǔ)音指令數(shù)目較多情況時(shí)，解碼網(wǎng)絡(luò)將會(huì)非常龐大，因此需要的內(nèi)存開(kāi)銷以及時(shí)間開(kāi)銷都較大；且此種方法相似語(yǔ)音指令同時(shí)存在的概率較大，當(dāng)解碼網(wǎng)絡(luò)中相似語(yǔ)音指令較多時(shí)，系統(tǒng)的識(shí)別效果就會(huì)較差。

發(fā)明內(nèi)容
本發(fā)明技術(shù)解決問(wèn)題克服現(xiàn)有技術(shù)的不足，提供一種語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別方法，該方法允許用戶連續(xù)輸入語(yǔ)音，且允許系統(tǒng)在識(shí)別過(guò)程中依據(jù)系統(tǒng)運(yùn)行狀態(tài)動(dòng)態(tài)地增加和刪除語(yǔ)音指令，實(shí)時(shí)調(diào)整解碼網(wǎng)絡(luò)并參與解碼，在提高識(shí)別效率的同時(shí)，也大大的改善了識(shí)別的準(zhǔn)確性。
本發(fā)明技術(shù)解決方案一種語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別方法，實(shí)現(xiàn)步驟下(I)輸入初始語(yǔ)音指令集文本，并進(jìn)行文本處理；所述語(yǔ)音指令集文本可根據(jù)應(yīng)用需要分為一組或多組，不同組指令集可具有不同的生命周期；(2)根據(jù)步驟(I)中輸出的文本，為每組語(yǔ)音指令集分別搭建解碼網(wǎng)絡(luò)，并將解碼網(wǎng)絡(luò)、聲學(xué)模型傳給各自的解碼器；所述聲學(xué)模型是語(yǔ)音識(shí)別的基礎(chǔ)數(shù)學(xué)模型，模型單元是音素、音節(jié)或字；(3)實(shí)時(shí)接收語(yǔ)音數(shù)據(jù)片段，并提取聲學(xué)特征序列傳給每個(gè)解碼器并進(jìn)行解碼。所述聲學(xué)特征是描述短時(shí)語(yǔ)音本質(zhì)特征的一組值。(4)在解碼的過(guò)程中允許外部應(yīng)用系統(tǒng)根據(jù)運(yùn)行邏輯的需要?jiǎng)討B(tài)地增、刪語(yǔ)音指令集，并根據(jù)語(yǔ)音指令集的動(dòng)態(tài)變化實(shí)時(shí)更新解碼網(wǎng)絡(luò)。所述根據(jù)語(yǔ)音指令集的動(dòng)態(tài)變化實(shí)時(shí)更新解碼網(wǎng)絡(luò)的過(guò)程具體如下(41)接受外部應(yīng)用系統(tǒng)語(yǔ)音指令集調(diào)整請(qǐng)求；(42)若需要增加新的語(yǔ)音指令集，則對(duì)新語(yǔ)音指令集進(jìn)行文本處理，依據(jù)文本構(gòu)建相應(yīng)的解碼網(wǎng)絡(luò)，并開(kāi)始進(jìn)行解碼；若需要?jiǎng)h除某些語(yǔ)音指令集，則停止該語(yǔ)音指令集對(duì)應(yīng)解碼器的所有運(yùn)算，并刪除對(duì)應(yīng)的解碼網(wǎng)絡(luò)；(5)當(dāng)某個(gè)解碼器率先解碼至網(wǎng)絡(luò)的結(jié)束位置時(shí)，獲取所有解碼器的最優(yōu)結(jié)果，并進(jìn)行排序，取概率最大的結(jié)果作為最優(yōu)結(jié)果，并判斷此時(shí)結(jié)果是否可信，若可信則終止所有解碼器的運(yùn)算，轉(zhuǎn)入第(6)步，否則轉(zhuǎn)入第(3)步繼續(xù)解碼；(6)外部應(yīng)用系統(tǒng)依據(jù)第(5)步的判斷結(jié)果做出相應(yīng)的操作。所述步驟(2)中解碼網(wǎng)絡(luò)為命令詞解碼網(wǎng)絡(luò)或Ivcsr解碼網(wǎng)絡(luò)。所述步驟(3)中聲學(xué)特征為梅爾倒譜系數(shù)MFCC、倒譜系數(shù)CEP、線性預(yù)測(cè)系數(shù)LPC或感知線性預(yù)測(cè)系數(shù)PLP。所述步驟(5)中判斷可信結(jié)果的過(guò)程如下(51)當(dāng)某個(gè)解碼器率先解碼至網(wǎng)絡(luò)的結(jié)束位置時(shí)，獲取所有解碼器的最優(yōu)結(jié)果；(52)根據(jù)概率對(duì)所有解碼結(jié)果進(jìn)行排序；(53)取排序后概率最大的結(jié)果作為最優(yōu)結(jié)果；(54)計(jì)算該結(jié)果的置信度得分，并與閾值進(jìn)行比較；(55)若大于閾值時(shí)，則認(rèn)為該結(jié)果可信，反之，認(rèn)為不可信。在步驟(5)中所述的對(duì)解碼結(jié)果進(jìn)行可信度判斷時(shí)，為了保證判斷的準(zhǔn)確性，可以參照vad (Voice Activation Detection)的檢測(cè)結(jié)果，即確認(rèn)解碼結(jié)束位置是否處于vad結(jié)果中的靜音段，若是則認(rèn)為本次識(shí)別結(jié)果是可信的，否則認(rèn)為不可信。本發(fā)明與現(xiàn)有技術(shù)相比的優(yōu)點(diǎn)在于(I)本發(fā)明允許用戶連續(xù)輸入語(yǔ)音，且允許外部應(yīng)用系統(tǒng)根據(jù)運(yùn)行邏輯的需要?jiǎng)討B(tài)地增刪語(yǔ)音指令集，實(shí)時(shí)調(diào)整解碼網(wǎng)絡(luò)并參與解碼，有效的解決了語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別問(wèn)題。(2)本發(fā)明為每個(gè)語(yǔ)音指令集構(gòu)建一個(gè)解碼網(wǎng)絡(luò)，網(wǎng)絡(luò)結(jié)構(gòu)較簡(jiǎn)單，在對(duì)大批量語(yǔ)音指令集進(jìn)行識(shí)別時(shí)，與傳統(tǒng)識(shí)別方法相比，此種方法識(shí)別率更高、運(yùn)算量更低且占用內(nèi)存更小。

圖I為現(xiàn)有技術(shù)的實(shí)現(xiàn)流程圖2為本發(fā)明實(shí)現(xiàn)流程圖3為本發(fā)明動(dòng)態(tài)調(diào)整語(yǔ)音指令集過(guò)程圖4為本發(fā)明的解碼過(guò)程流程圖5為指令集以每個(gè)單詞為一組的解碼網(wǎng)絡(luò)示例圖
圖6為本發(fā)明聲學(xué)特征提取流程圖。
具體實(shí)施例方式如圖2所示，本發(fā)明具體實(shí)現(xiàn)如下( I)輸入初始語(yǔ)音指令集文本，并進(jìn)行文本處理。輸入的語(yǔ)音指令集是外部應(yīng)用系統(tǒng)預(yù)定的可識(shí)別的語(yǔ)音指令，也是構(gòu)建解碼網(wǎng)絡(luò)的依據(jù)之一。此步驟主要完成三個(gè)任務(wù)首先，依據(jù)規(guī)則對(duì)語(yǔ)音指令集進(jìn)行分組，可劃分為一組或多組，不同組指令集可具有不同的生命周期，相同組內(nèi)語(yǔ)音指令具有相同的生命周期。此處的規(guī)則可根據(jù)實(shí)際應(yīng)用的需求設(shè)定，例如根據(jù)指令集的個(gè)數(shù)，類型等進(jìn)行分組。如圖5所示，每個(gè)單詞劃分為一組。其次，對(duì)分組后的指令集文本編碼格式進(jìn)行統(tǒng)一轉(zhuǎn)換，比如統(tǒng)一轉(zhuǎn)換成UTF8格式，這樣做的好處在于解析文本的代碼僅需要實(shí)現(xiàn)一套；最后，按照聲學(xué)模型中對(duì)應(yīng)模型單元的顆粒度(如字、音節(jié)、音素)進(jìn)行解析(一般采用音素作為建模單元效果更佳)，生成解析結(jié)果樹(shù)狀結(jié)構(gòu)，該結(jié)構(gòu)包含句子、詞語(yǔ)、字、音節(jié)、音素五個(gè)層次的完整信息，其中前3個(gè)層次可以按照文本前端分詞算法進(jìn)行解析，后2個(gè)層次可以根據(jù)發(fā)音詞典進(jìn)行解析。(2)為每組語(yǔ)音指令集分別搭建解碼網(wǎng)絡(luò)。依據(jù)步驟(I)中的分組結(jié)果，對(duì)每組語(yǔ)音指令集分別構(gòu)建解碼網(wǎng)絡(luò)，如圖5所示。具體操作流程如下a)獲取文本處理步驟中得到的模型單元序列；b)針對(duì)每組單元序列，根據(jù)回讀，漏讀等允許的朗讀規(guī)則計(jì)算網(wǎng)絡(luò)中的弧數(shù)，并為弧分配內(nèi)存；c)根據(jù)朗讀規(guī)則，構(gòu)建弧把節(jié)點(diǎn)連接起來(lái)；d)輸出每組語(yǔ)音指令集對(duì)應(yīng)的解碼網(wǎng)絡(luò)。(3)實(shí)時(shí)接收語(yǔ)音數(shù)據(jù)片段，并提取聲學(xué)特征序列傳給每個(gè)解碼器并行解碼。聲學(xué)特征的類型較多，下面以MFCC特征為例說(shuō)明，MFCC特征的提取流程如圖6所示，具體步驟如下a) A/D變換，將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)；b)預(yù)加重通過(guò)一個(gè)一階有限激勵(lì)響應(yīng)高通濾波器，使信號(hào)的頻譜變得平坦，不易受到有限字長(zhǎng)效應(yīng)的影響；c)分幀根據(jù)語(yǔ)音的短時(shí)平穩(wěn)特性，語(yǔ)音可以以幀為單位進(jìn)行處理，一般可以取25毫秒(ms)作為一巾貞；
d)加窗采用哈明窗對(duì)一幀語(yǔ)音加窗，以減小吉布斯效應(yīng)的影響；e)快速傅立葉變換(Fast Fourier Transformation, FFT):將時(shí)域信號(hào)變換成為信號(hào)的功率譜；f)三角窗濾波用一組Mel頻標(biāo)上線性分布的三角窗濾波器(共24個(gè)三角窗濾波器)，對(duì)信號(hào)的功率譜濾波，每一個(gè)三角窗濾波器覆蓋的范圍都近似于人耳的一個(gè)臨界帶寬，以此來(lái)模擬人耳的掩蔽效應(yīng)；g)求對(duì)數(shù)三角窗濾波器組的輸出求取對(duì)數(shù)，可以得到近似于同態(tài)變換的結(jié)果；h)離散余弦變換(Discrete Cosine Transformation, DCT):去除各維信號(hào)之間的相關(guān)性，將信號(hào)映射到低維空間；i)譜加權(quán)由于倒譜的低階參數(shù)易受說(shuō)話人特性、信道特性等的影響，而高階參數(shù)的分辨能力比較低，所以需要進(jìn)行譜加權(quán)，抑制其低階和高階參數(shù)；j)倒譜均值減(Cepstrum Mean Subtraction, CMS):CMS可以有效地減小語(yǔ)音輸入信道對(duì)特征參數(shù)的影響；k)差分參數(shù)大量實(shí)驗(yàn)表明,在語(yǔ)音特征中加入表征語(yǔ)音動(dòng)態(tài)特性的差分參數(shù),能夠提高系統(tǒng)的識(shí)別性能。也用到了 MFCC參數(shù)的一階差分參數(shù)和二階差分參數(shù)。(4)在解碼的過(guò)程中接受外部應(yīng)用系統(tǒng)語(yǔ)音指令集調(diào)整請(qǐng)求，并實(shí)時(shí)作出響應(yīng)。在解碼的過(guò)程中允許外部應(yīng)用系統(tǒng)根據(jù)運(yùn)行邏輯的需要?jiǎng)討B(tài)地增刪語(yǔ)音指令集，并根據(jù)語(yǔ)音指令集的動(dòng)態(tài)變化實(shí)時(shí)更新解碼網(wǎng)絡(luò)。整體流程如圖3所示，圖4描述的為在解碼過(guò)程中增加語(yǔ)音指令集的過(guò)程。增加語(yǔ)音指令集的過(guò)程如下
a)接受外部應(yīng)用系統(tǒng)增加語(yǔ)音指令集的調(diào)整請(qǐng)求；
b)對(duì)新語(yǔ)音指令集進(jìn)行文本處理；
C)依據(jù)文本處理的結(jié)果構(gòu)建相應(yīng)的解碼網(wǎng)絡(luò)；
d)開(kāi)始解碼。
刪除語(yǔ)音指令集的過(guò)程如下
a)接受外部應(yīng)用系統(tǒng)刪除語(yǔ)音指令集的調(diào)整請(qǐng)求；
b)停止該語(yǔ)音指令集對(duì)應(yīng)解碼器的所有運(yùn)算；
C)刪除對(duì)應(yīng)的解碼網(wǎng)絡(luò)。
(5)解碼并獲取識(shí)別結(jié)果
語(yǔ)音解碼是本發(fā)明中重要的一步(以Viterbi解碼為例)，本發(fā)明中語(yǔ)音解碼的實(shí)施過(guò)程分以下幾步
a )每個(gè)解碼器對(duì)輸入的每幀聲學(xué)特征，計(jì)算解碼網(wǎng)絡(luò)中當(dāng)前每條可行路徑對(duì)應(yīng)節(jié)
點(diǎn)的輸出概率和節(jié)點(diǎn)內(nèi)部狀態(tài)轉(zhuǎn)移概率，并更新當(dāng)前路徑的累計(jì)概率。此處的輸出概率可根據(jù)節(jié)點(diǎn)音素對(duì)應(yīng)的隱馬爾科夫模型和聲學(xué)特征計(jì)算，節(jié)點(diǎn)內(nèi)部狀態(tài)轉(zhuǎn)移概率直接從模型中讀取。b)步驟a)中當(dāng)解碼到節(jié)點(diǎn)內(nèi)部最后一個(gè)狀態(tài)時(shí)，可對(duì)當(dāng)前解碼路徑進(jìn)行擴(kuò)展，擴(kuò)展的依據(jù)就是解碼網(wǎng)絡(luò)，當(dāng)此節(jié)點(diǎn)連接到多個(gè)節(jié)點(diǎn)時(shí)，需要擴(kuò)展多條路徑繼續(xù)進(jìn)行解碼，若解碼網(wǎng)絡(luò)的弧上存在路徑懲罰，則需要將懲罰累加到路徑的累計(jì)概率中；獲取最終識(shí)別結(jié)果的過(guò)程如下所示
a)當(dāng)某個(gè)解碼器率先拋出解碼結(jié)果時(shí)，獲取所有解碼器的最優(yōu)結(jié)果；b)根據(jù)概率對(duì)所有解碼結(jié)果進(jìn)行排序；c)取排序后概率最大的結(jié)果作為最優(yōu)結(jié)果；d)計(jì)算該結(jié)果的置信度得分，并與閾值進(jìn)行比較；e)若大于閾值時(shí)，則認(rèn)為該結(jié)果可信，反之，認(rèn)為不可信，繼續(xù)解碼。(6)外部應(yīng)用系統(tǒng)依據(jù)第(5)步的判斷結(jié)果做出相應(yīng)的操作。例如，在練習(xí)讀單詞的游戲軟件中，當(dāng)識(shí)別出某個(gè)單詞時(shí)，可從顯示界面中刪除對(duì)應(yīng)的單詞。本發(fā)明說(shuō)明書(shū)未詳細(xì)闡述部分屬于本領(lǐng)域公知技術(shù)。
權(quán)利要求
1.一種語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別方法，其特征在于實(shí)現(xiàn)步驟如下(1)輸入初始語(yǔ)音指令集文本，并進(jìn)行文本處理；所述語(yǔ)音指令集文本可根據(jù)應(yīng)用需要分為一組或多組，不同組指令集可具有不同的生命周期；(2)根據(jù)步驟(I)中輸出的文本，為每組語(yǔ)音指令集分別搭建解碼網(wǎng)絡(luò)，并將解碼網(wǎng)絡(luò)、聲學(xué)模型傳給各自的解碼器；所述聲學(xué)模型是語(yǔ)音識(shí)別的基礎(chǔ)數(shù)學(xué)模型，模型單元是音素、音節(jié)或字；(3)實(shí)時(shí)接收語(yǔ)音數(shù)據(jù)片段，并提取聲學(xué)特征序列傳給每個(gè)解碼器并進(jìn)行解碼。所述聲學(xué)特征是描述短時(shí)語(yǔ)音本質(zhì)特征的一組值；(4)在解碼的過(guò)程中允許外部應(yīng)用系統(tǒng)根據(jù)運(yùn)行邏輯的需要?jiǎng)討B(tài)地增、刪語(yǔ)音指令集，并根據(jù)語(yǔ)音指令集的動(dòng)態(tài)變化實(shí)時(shí)更新解碼網(wǎng)絡(luò)。所述根據(jù)語(yǔ)音指令集的動(dòng)態(tài)變化實(shí)時(shí)更新解碼網(wǎng)絡(luò)的過(guò)程具體如下(41)接受外部應(yīng)用系統(tǒng)語(yǔ)音指令集調(diào)整請(qǐng)求；(42)若需要增加新的語(yǔ)音指令集，則對(duì)新語(yǔ)音指令集進(jìn)行文本處理，依據(jù)文本構(gòu)建相應(yīng)的解碼網(wǎng)絡(luò)，并開(kāi)始進(jìn)行解碼；若需要?jiǎng)h除某些語(yǔ)音指令集，則停止該語(yǔ)音指令集對(duì)應(yīng)解碼器的所有運(yùn)算，并刪除對(duì)應(yīng)的解碼網(wǎng)絡(luò)；(5)當(dāng)某個(gè)解碼器率先解碼至網(wǎng)絡(luò)的結(jié)束位置時(shí)，獲取所有解碼器的最優(yōu)結(jié)果，并進(jìn)行排序，取概率最大的結(jié)果作為最優(yōu)結(jié)果，并判斷此時(shí)結(jié)果是否可信，若可信則終止所有解碼器的運(yùn)算，轉(zhuǎn)入第(6)步，否則轉(zhuǎn)入第(3)步繼續(xù)解碼；(6)外部應(yīng)用系統(tǒng)依據(jù)第(5)步的判斷結(jié)果做出相應(yīng)的操作。
2.根據(jù)權(quán)利要求I所述的一種語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別方法，其特征在于步驟(2)中所述的解碼網(wǎng)絡(luò)是命令詞解碼網(wǎng)絡(luò)或Ivcsr解碼網(wǎng)絡(luò)。
3.根據(jù)權(quán)利要求I所述的一種語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別方法，其特征在于所述步驟(3)中聲學(xué)特征為梅爾倒譜系數(shù)MFCC、倒譜系數(shù)CEP、線性預(yù)測(cè)系數(shù)LPC或感知線性預(yù)測(cè)系數(shù)PLP。
4.根據(jù)權(quán)利要求I所述的一種語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別方法，其特征在于所述步驟(5)中判斷可信結(jié)果的過(guò)程如下(51)當(dāng)某個(gè)解碼器率先解碼至網(wǎng)絡(luò)的結(jié)束位置時(shí)，獲取所有解碼器的最優(yōu)結(jié)果；(52)根據(jù)概率對(duì)所有解碼結(jié)果進(jìn)行排序；(53)取排序后概率最大的結(jié)果作為最優(yōu)結(jié)果；(54)計(jì)算該結(jié)果的置信度得分，并與閾值進(jìn)行比較；(55)若大于閾值時(shí)，則認(rèn)為該結(jié)果可信，反之，認(rèn)為不可信。
5.根據(jù)權(quán)利要求I所述的一種語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別方法，其特征在于在步驟(5)中所述的對(duì)解碼結(jié)果進(jìn)行可信度判斷時(shí)，為了保證判斷的準(zhǔn)確性，可以參照vad (Voice Activation Detection)的檢測(cè)結(jié)果，即確認(rèn)解碼結(jié)束位置是否處于vad結(jié)果中的靜音段，若是則認(rèn)為本次識(shí)別結(jié)果是可信的，否則認(rèn)為不可信。
全文摘要
一種語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別方法，(1)輸入語(yǔ)音指令集，并按規(guī)則將語(yǔ)音指令集分組，分別構(gòu)建解碼網(wǎng)絡(luò)；(2)輸入語(yǔ)音，提取聲學(xué)特征，基于解碼網(wǎng)絡(luò)進(jìn)行解碼，在解碼的同時(shí)允許根據(jù)當(dāng)前的運(yùn)行情況動(dòng)態(tài)地增刪解碼網(wǎng)絡(luò)；(3)判斷接收到的語(yǔ)音是否為有效語(yǔ)音，并給出反饋是否為有效反饋；(4)依據(jù)命令做出相應(yīng)的操作；(5)是否仍有語(yǔ)音輸入，若是轉(zhuǎn)入(2)，否則結(jié)束。本發(fā)明允許用戶連續(xù)輸入語(yǔ)音，且允許系統(tǒng)在識(shí)別過(guò)程中依據(jù)系統(tǒng)運(yùn)行狀態(tài)動(dòng)態(tài)地增加和刪除語(yǔ)音指令，實(shí)時(shí)調(diào)整解碼網(wǎng)絡(luò)并參與解碼，在提高識(shí)別效率的同時(shí)，也大大的改善了識(shí)別的準(zhǔn)確性。
文檔編號(hào)G10L15/26GK102945673SQ20121048317
公開(kāi)日2013年2月27日申請(qǐng)日期2012年11月24日優(yōu)先權(quán)日2012年11月24日
發(fā)明者趙乾, 朱群, 吳玲, 潘頌聲, 何春江, 王兵申請(qǐng)人:安徽科大訊飛信息科技股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙乾;朱群;吳玲;潘頌聲;何春江;王兵
技術(shù)所有人：安徽科大訊飛信息科技股份有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

連續(xù)語(yǔ)音識(shí)別相關(guān)技術(shù)

htk連續(xù)語(yǔ)音識(shí)別相關(guān)技術(shù)

大詞匯量連續(xù)語(yǔ)音識(shí)別相關(guān)技術(shù)

語(yǔ)音識(shí)別相關(guān)技術(shù)

百度語(yǔ)音識(shí)別相關(guān)技術(shù)

語(yǔ)音識(shí)別成文字相關(guān)技術(shù)

語(yǔ)音識(shí)別軟件相關(guān)技術(shù)

語(yǔ)音識(shí)別技術(shù)相關(guān)技術(shù)