專利名稱:一種語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語(yǔ)音指令識(shí)別方法,尤其是一種對(duì)語(yǔ)音指令范圍可變的連續(xù)語(yǔ)音識(shí)別方法。
背景技術(shù):
與機(jī)器進(jìn)行交流,讓其明白你在說(shuō)什么,是人們長(zhǎng)期以來(lái)夢(mèng)寐以求的事情。語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。語(yǔ)音識(shí)別技術(shù)作為解決人機(jī)交互的重要途徑,在近年來(lái)得到了越來(lái)越多的應(yīng)用。如基于計(jì)算機(jī)平臺(tái)的、大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng),主要應(yīng)用于與電話網(wǎng)或互聯(lián)網(wǎng)相結(jié)合的語(yǔ)音信息查詢服務(wù)系統(tǒng);在小型化、便攜式語(yǔ)音產(chǎn)品中的應(yīng)用,如智能玩具、家電遙控等方面。語(yǔ)音指令的識(shí)別應(yīng)用場(chǎng)景有兩種,一種是對(duì)固定不變的指令內(nèi)容進(jìn)行識(shí)別;另一種情況是要識(shí)別的指令內(nèi)容是隨著時(shí)間而變化的,對(duì)于下一刻可能要識(shí)別的內(nèi)容是未知的,且識(shí)別過(guò)程中用戶的語(yǔ)音是連續(xù)輸入的。這里語(yǔ)音指令可以是簡(jiǎn)單的命令詞,也可以是語(yǔ)句,即圍繞著某個(gè)命令詞或應(yīng)用場(chǎng)景的很多種說(shuō)法。場(chǎng)景二的例子如酷豆游戲,屏幕上實(shí)時(shí)動(dòng)態(tài)地顯示用戶可讀入的命令詞,即當(dāng)前可識(shí)別的命令詞,對(duì)于識(shí)別系統(tǒng)和用戶來(lái)說(shuō),下一時(shí)刻可用于識(shí)別的命令詞是完全未知的,且在命令詞變化的整個(gè)過(guò)程中,用戶的語(yǔ)音是連續(xù)輸入的,此時(shí),識(shí)別系統(tǒng)也應(yīng)實(shí)時(shí)準(zhǔn)確的識(shí)別出用戶的語(yǔ)音。而傳統(tǒng)的語(yǔ)音指令識(shí)別方法往往滿足不了需求。傳統(tǒng)的語(yǔ)音指令識(shí)別方法主要處理的是指令集固定的情況。在評(píng)測(cè)開(kāi)始前,依據(jù)指令集的內(nèi)容構(gòu)建固定不變的解碼網(wǎng)絡(luò),因此,該種識(shí)別技術(shù)靈活性較差,對(duì)于指令集需隨時(shí)變換的情況束手無(wú)策。其具體流程如圖I所示第一步依據(jù)需求設(shè)定指令集;第二步依據(jù)指令集內(nèi)容構(gòu)建解碼網(wǎng)絡(luò);第三步接受用戶輸入的語(yǔ)音;第四步判斷接收到的語(yǔ)音是否為有效語(yǔ)音,并給出反饋是否為有效反饋,若是轉(zhuǎn)入步五,否則轉(zhuǎn)入步三;第五步系統(tǒng)依據(jù)命令做出相應(yīng)的操作;第六步是否仍有語(yǔ)音輸入,若是轉(zhuǎn)入步3,否則結(jié)束?,F(xiàn)有的語(yǔ)音指令識(shí)別方法主要存在以下幾個(gè)缺點(diǎn)(I)僅可處理語(yǔ)音指令集固定且已知的情況,在指令集需實(shí)時(shí)變換,且一下時(shí)刻要識(shí)別的內(nèi)容完全未知時(shí),現(xiàn)有方法則無(wú)計(jì)可施;(2)現(xiàn)有語(yǔ)音指令識(shí)別方法的解碼網(wǎng)絡(luò)多依據(jù)所有的命令詞構(gòu)建一個(gè)復(fù)雜的且固定不變的解碼網(wǎng)絡(luò),該種方法在面臨語(yǔ)音指令數(shù)目較多情況時(shí),解碼網(wǎng)絡(luò)將會(huì)非常龐大,因此需要的內(nèi)存開(kāi)銷以及時(shí)間開(kāi)銷都較大;且此種方法相似語(yǔ)音指令同時(shí)存在的概率較大,當(dāng)解碼網(wǎng)絡(luò)中相似語(yǔ)音指令較多時(shí),系統(tǒng)的識(shí)別效果就會(huì)較差。
發(fā)明內(nèi)容
本發(fā)明技術(shù)解決問(wèn)題克服現(xiàn)有技術(shù)的不足,提供一種語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別方法,該方法允許用戶連續(xù)輸入語(yǔ)音,且允許系統(tǒng)在識(shí)別過(guò)程中依據(jù)系統(tǒng)運(yùn)行狀態(tài)動(dòng)態(tài)地增加和刪除語(yǔ)音指令,實(shí)時(shí)調(diào)整解碼網(wǎng)絡(luò)并參與解碼,在提高識(shí)別效率的同時(shí),也大大的改善了識(shí)別的準(zhǔn)確性。
本發(fā)明技術(shù)解決方案一種語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別方法,實(shí)現(xiàn)步驟下(I)輸入初始語(yǔ)音指令集文本,并進(jìn)行文本處理;所述語(yǔ)音指令集文本可根據(jù)應(yīng)用需要分為一組或多組,不同組指令集可具有不同的生命周期;(2)根據(jù)步驟(I)中輸出的文本,為每組語(yǔ)音指令集分別搭建解碼網(wǎng)絡(luò),并將解碼網(wǎng)絡(luò)、聲學(xué)模型傳給各自的解碼器;所述聲學(xué)模型是語(yǔ)音識(shí)別的基礎(chǔ)數(shù)學(xué)模型,模型單元是音素、音節(jié)或字;(3)實(shí)時(shí)接收語(yǔ)音數(shù)據(jù)片段,并提取聲學(xué)特征序列傳給每個(gè)解碼器并進(jìn)行解碼。所述聲學(xué)特征是描述短時(shí)語(yǔ)音本質(zhì)特征的一組值。(4)在解碼的過(guò)程中允許外部應(yīng)用系統(tǒng)根據(jù)運(yùn)行邏輯的需要?jiǎng)討B(tài)地增、刪語(yǔ)音指令集,并根據(jù)語(yǔ)音指令集的動(dòng)態(tài)變化實(shí)時(shí)更新解碼網(wǎng)絡(luò)。所述根據(jù)語(yǔ)音指令集的動(dòng)態(tài)變化實(shí)時(shí)更新解碼網(wǎng)絡(luò)的過(guò)程具體如下(41)接受外部應(yīng)用系統(tǒng)語(yǔ)音指令集調(diào)整請(qǐng)求;(42)若需要增加新的語(yǔ)音指令集,則對(duì)新語(yǔ)音指令集進(jìn)行文本處理,依據(jù)文本構(gòu)建相應(yīng)的解碼網(wǎng)絡(luò),并開(kāi)始進(jìn)行解碼;若需要?jiǎng)h除某些語(yǔ)音指令集,則停止該語(yǔ)音指令集對(duì)應(yīng)解碼器的所有運(yùn)算,并刪除對(duì)應(yīng)的解碼網(wǎng)絡(luò);(5)當(dāng)某個(gè)解碼器率先解碼至網(wǎng)絡(luò)的結(jié)束位置時(shí),獲取所有解碼器的最優(yōu)結(jié)果,并進(jìn)行排序,取概率最大的結(jié)果作為最優(yōu)結(jié)果,并判斷此時(shí)結(jié)果是否可信,若可信則終止所有解碼器的運(yùn)算,轉(zhuǎn)入第(6)步,否則轉(zhuǎn)入第(3)步繼續(xù)解碼;(6)外部應(yīng)用系統(tǒng)依據(jù)第(5)步的判斷結(jié)果做出相應(yīng)的操作。所述步驟(2)中解碼網(wǎng)絡(luò)為命令詞解碼網(wǎng)絡(luò)或Ivcsr解碼網(wǎng)絡(luò)。所述步驟(3)中聲學(xué)特征為梅爾倒譜系數(shù)MFCC、倒譜系數(shù)CEP、線性預(yù)測(cè)系數(shù)LPC或感知線性預(yù)測(cè)系數(shù)PLP。所述步驟(5)中判斷可信結(jié)果的過(guò)程如下(51)當(dāng)某個(gè)解碼器率先解碼至網(wǎng)絡(luò)的結(jié)束位置時(shí),獲取所有解碼器的最優(yōu)結(jié)果;(52)根據(jù)概率對(duì)所有解碼結(jié)果進(jìn)行排序;(53)取排序后概率最大的結(jié)果作為最優(yōu)結(jié)果;(54)計(jì)算該結(jié)果的置信度得分,并與閾值進(jìn)行比較;(55)若大于閾值時(shí),則認(rèn)為該結(jié)果可信,反之,認(rèn)為不可信。在步驟(5)中所述的對(duì)解碼結(jié)果進(jìn)行可信度判斷時(shí),為了保證判斷的準(zhǔn)確性,可以參照vad (Voice Activation Detection)的檢測(cè)結(jié)果,即確認(rèn)解碼結(jié)束位置是否處于vad結(jié)果中的靜音段,若是則認(rèn)為本次識(shí)別結(jié)果是可信的,否則認(rèn)為不可信。本發(fā)明與現(xiàn)有技術(shù)相比的優(yōu)點(diǎn)在于(I)本發(fā)明允許用戶連續(xù)輸入語(yǔ)音,且允許外部應(yīng)用系統(tǒng)根據(jù)運(yùn)行邏輯的需要?jiǎng)討B(tài)地增刪語(yǔ)音指令集,實(shí)時(shí)調(diào)整解碼網(wǎng)絡(luò)并參與解碼,有效的解決了語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別問(wèn)題。(2)本發(fā)明為每個(gè)語(yǔ)音指令集構(gòu)建一個(gè)解碼網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)較簡(jiǎn)單,在對(duì)大批量語(yǔ)音指令集進(jìn)行識(shí)別時(shí),與傳統(tǒng)識(shí)別方法相比,此種方法識(shí)別率更高、運(yùn)算量更低且占用內(nèi)存更小。
圖I為現(xiàn)有技術(shù)的實(shí)現(xiàn)流程圖2為本發(fā)明實(shí)現(xiàn)流程圖3為本發(fā)明動(dòng)態(tài)調(diào)整語(yǔ)音指令集過(guò)程圖4為本發(fā)明的解碼過(guò)程流程圖5為指令集以每個(gè)單詞為一組的解碼網(wǎng)絡(luò)示例圖
圖6為本發(fā)明聲學(xué)特征提取流程圖。
具體實(shí)施例方式如圖2所示,本發(fā)明具體實(shí)現(xiàn)如下( I)輸入初始語(yǔ)音指令集文本,并進(jìn)行文本處理。輸入的語(yǔ)音指令集是外部應(yīng)用系統(tǒng)預(yù)定的可識(shí)別的語(yǔ)音指令,也是構(gòu)建解碼網(wǎng)絡(luò)的依據(jù)之一。此步驟主要完成三個(gè)任務(wù)首先,依據(jù)規(guī)則對(duì)語(yǔ)音指令集進(jìn)行分組,可劃分為一組或多組,不同組指令集可具有不同的生命周期,相同組內(nèi)語(yǔ)音指令具有相同的生命周期。此處的規(guī)則可根據(jù)實(shí)際應(yīng)用的需求設(shè)定,例如根據(jù)指令集的個(gè)數(shù),類型等進(jìn)行分組。如圖5所示,每個(gè)單詞劃分為一組。其次,對(duì)分組后的指令集文本編碼格式進(jìn)行統(tǒng)一轉(zhuǎn)換,比如統(tǒng)一轉(zhuǎn)換成UTF8格式,這樣做的好處在于解析文本的代碼僅需要實(shí)現(xiàn)一套;最后,按照聲學(xué)模型中對(duì)應(yīng)模型單元的顆粒度(如字、音節(jié)、音素)進(jìn)行解析(一般采用音素作為建模單元效果更佳),生成解析結(jié)果樹(shù)狀結(jié)構(gòu),該結(jié)構(gòu)包含句子、詞語(yǔ)、字、音節(jié)、音素五個(gè)層次的完整信息,其中前3個(gè)層次可以按照文本前端分詞算法進(jìn)行解析,后2個(gè)層次可以根據(jù)發(fā)音詞典進(jìn)行解析。(2)為每組語(yǔ)音指令集分別搭建解碼網(wǎng)絡(luò)。依據(jù)步驟(I)中的分組結(jié)果,對(duì)每組語(yǔ)音指令集分別構(gòu)建解碼網(wǎng)絡(luò),如圖5所示。具體操作流程如下a)獲取文本處理步驟中得到的模型單元序列;b)針對(duì)每組單元序列,根據(jù)回讀,漏讀等允許的朗讀規(guī)則計(jì)算網(wǎng)絡(luò)中的弧數(shù),并為弧分配內(nèi)存;c)根據(jù)朗讀規(guī)則,構(gòu)建弧把節(jié)點(diǎn)連接起來(lái);d)輸出每組語(yǔ)音指令集對(duì)應(yīng)的解碼網(wǎng)絡(luò)。(3)實(shí)時(shí)接收語(yǔ)音數(shù)據(jù)片段,并提取聲學(xué)特征序列傳給每個(gè)解碼器并行解碼。聲學(xué)特征的類型較多,下面以MFCC特征為例說(shuō)明,MFCC特征的提取流程如圖6所示,具體步驟如下a) A/D變換,將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào);b)預(yù)加重通過(guò)一個(gè)一階有限激勵(lì)響應(yīng)高通濾波器,使信號(hào)的頻譜變得平坦,不易受到有限字長(zhǎng)效應(yīng)的影響;c)分幀根據(jù)語(yǔ)音的短時(shí)平穩(wěn)特性,語(yǔ)音可以以幀為單位進(jìn)行處理,一般可以取25毫秒(ms)作為一巾貞;
d)加窗采用哈明窗對(duì)一幀語(yǔ)音加窗,以減小吉布斯效應(yīng)的影響;e)快速傅立葉變換(Fast Fourier Transformation, FFT):將時(shí)域信號(hào)變換成為信號(hào)的功率譜;f)三角窗濾波用一組Mel頻標(biāo)上線性分布的三角窗濾波器(共24個(gè)三角窗濾波器),對(duì)信號(hào)的功率譜濾波,每一個(gè)三角窗濾波器覆蓋的范圍都近似于人耳的一個(gè)臨界帶寬,以此來(lái)模擬人耳的掩蔽效應(yīng);g)求對(duì)數(shù)三角窗濾波器組的輸出求取對(duì)數(shù),可以得到近似于同態(tài)變換的結(jié)果;h)離散余弦變換(Discrete Cosine Transformation, DCT):去除各維信號(hào)之間的相關(guān)性,將信號(hào)映射到低維空間;i)譜加權(quán)由于倒譜的低階參數(shù)易受說(shuō)話人特性、信道特性等的影響,而高階參數(shù)的分辨能力比較低,所以需要進(jìn)行譜加權(quán),抑制其低階和高階參數(shù);j)倒譜均值減(Cepstrum Mean Subtraction, CMS):CMS可以有效地減小語(yǔ)音輸入信道對(duì)特征參數(shù)的影響;k)差分參數(shù)大量實(shí)驗(yàn)表明,在語(yǔ)音特征中加入表征語(yǔ)音動(dòng)態(tài)特性的差分參數(shù),能夠提高系統(tǒng)的識(shí)別性能。也用到了 MFCC參數(shù)的一階差分參數(shù)和二階差分參數(shù)。(4)在解碼的過(guò)程中接受外部應(yīng)用系統(tǒng)語(yǔ)音指令集調(diào)整請(qǐng)求,并實(shí)時(shí)作出響應(yīng)。在解碼的過(guò)程中允許外部應(yīng)用系統(tǒng)根據(jù)運(yùn)行邏輯的需要?jiǎng)討B(tài)地增刪語(yǔ)音指令集,并根據(jù)語(yǔ)音指令集的動(dòng)態(tài)變化實(shí)時(shí)更新解碼網(wǎng)絡(luò)。整體流程如圖3所示,圖4描述的為在解碼過(guò)程中增加語(yǔ)音指令集的過(guò)程。增加語(yǔ)音指令集的過(guò)程如下
a)接受外部應(yīng)用系統(tǒng)增加語(yǔ)音指令集的調(diào)整請(qǐng)求;
b)對(duì)新語(yǔ)音指令集進(jìn)行文本處理;
C)依據(jù)文本處理的結(jié)果構(gòu)建相應(yīng)的解碼網(wǎng)絡(luò);
d)開(kāi)始解碼。
刪除語(yǔ)音指令集的過(guò)程如下
a)接受外部應(yīng)用系統(tǒng)刪除語(yǔ)音指令集的調(diào)整請(qǐng)求;
b)停止該語(yǔ)音指令集對(duì)應(yīng)解碼器的所有運(yùn)算;
C)刪除對(duì)應(yīng)的解碼網(wǎng)絡(luò)。
(5)解碼并獲取識(shí)別結(jié)果
語(yǔ)音解碼是本發(fā)明中重要的一步(以Viterbi解碼為例),本發(fā)明中語(yǔ)音解碼的實(shí)施過(guò)程分以下幾步
a )每個(gè)解碼器對(duì)輸入的每幀聲學(xué)特征,計(jì)算解碼網(wǎng)絡(luò)中當(dāng)前每條可行路徑對(duì)應(yīng)節(jié)
點(diǎn)的輸出概率和節(jié)點(diǎn)內(nèi)部狀態(tài)轉(zhuǎn)移概率,并更新當(dāng)前路徑的累計(jì)概率。此處的輸出概率可根據(jù)節(jié)點(diǎn)音素對(duì)應(yīng)的隱馬爾科夫模型和聲學(xué)特征計(jì)算,節(jié)點(diǎn)內(nèi)部狀態(tài)轉(zhuǎn)移概率直接從模型中讀取。b)步驟a)中當(dāng)解碼到節(jié)點(diǎn)內(nèi)部最后一個(gè)狀態(tài)時(shí),可對(duì)當(dāng)前解碼路徑進(jìn)行擴(kuò)展,擴(kuò)展的依據(jù)就是解碼網(wǎng)絡(luò),當(dāng)此節(jié)點(diǎn)連接到多個(gè)節(jié)點(diǎn)時(shí),需要擴(kuò)展多條路徑繼續(xù)進(jìn)行解碼,若解碼網(wǎng)絡(luò)的弧上存在路徑懲罰,則需要將懲罰累加到路徑的累計(jì)概率中;獲取最終識(shí)別結(jié)果的過(guò)程如下所示
a)當(dāng)某個(gè)解碼器率先拋出解碼結(jié)果時(shí),獲取所有解碼器的最優(yōu)結(jié)果;b)根據(jù)概率對(duì)所有解碼結(jié)果進(jìn)行排序;c)取排序后概率最大的結(jié)果作為最優(yōu)結(jié)果;d)計(jì)算該結(jié)果的置信度得分,并與閾值進(jìn)行比較;e)若大于閾值時(shí),則認(rèn)為該結(jié)果可信,反之,認(rèn)為不可信,繼續(xù)解碼。(6)外部應(yīng)用系統(tǒng)依據(jù)第(5)步的判斷結(jié)果做出相應(yīng)的操作。例如,在練習(xí)讀單詞的游戲軟件中,當(dāng)識(shí)別出某個(gè)單詞時(shí),可從顯示界面中刪除對(duì)應(yīng)的單詞。本發(fā)明說(shuō)明書(shū)未詳細(xì)闡述部分屬于本領(lǐng)域公知技術(shù)。
權(quán)利要求
1.一種語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別方法,其特征在于實(shí)現(xiàn)步驟如下(1)輸入初始語(yǔ)音指令集文本,并進(jìn)行文本處理;所述語(yǔ)音指令集文本可根據(jù)應(yīng)用需要分為一組或多組,不同組指令集可具有不同的生命周期;(2)根據(jù)步驟(I)中輸出的文本,為每組語(yǔ)音指令集分別搭建解碼網(wǎng)絡(luò),并將解碼網(wǎng)絡(luò)、聲學(xué)模型傳給各自的解碼器;所述聲學(xué)模型是語(yǔ)音識(shí)別的基礎(chǔ)數(shù)學(xué)模型,模型單元是音素、音節(jié)或字;(3)實(shí)時(shí)接收語(yǔ)音數(shù)據(jù)片段,并提取聲學(xué)特征序列傳給每個(gè)解碼器并進(jìn)行解碼。所述聲學(xué)特征是描述短時(shí)語(yǔ)音本質(zhì)特征的一組值;(4)在解碼的過(guò)程中允許外部應(yīng)用系統(tǒng)根據(jù)運(yùn)行邏輯的需要?jiǎng)討B(tài)地增、刪語(yǔ)音指令集,并根據(jù)語(yǔ)音指令集的動(dòng)態(tài)變化實(shí)時(shí)更新解碼網(wǎng)絡(luò)。所述根據(jù)語(yǔ)音指令集的動(dòng)態(tài)變化實(shí)時(shí)更新解碼網(wǎng)絡(luò)的過(guò)程具體如下(41)接受外部應(yīng)用系統(tǒng)語(yǔ)音指令集調(diào)整請(qǐng)求;(42)若需要增加新的語(yǔ)音指令集,則對(duì)新語(yǔ)音指令集進(jìn)行文本處理,依據(jù)文本構(gòu)建相應(yīng)的解碼網(wǎng)絡(luò),并開(kāi)始進(jìn)行解碼;若需要?jiǎng)h除某些語(yǔ)音指令集,則停止該語(yǔ)音指令集對(duì)應(yīng)解碼器的所有運(yùn)算,并刪除對(duì)應(yīng)的解碼網(wǎng)絡(luò);(5)當(dāng)某個(gè)解碼器率先解碼至網(wǎng)絡(luò)的結(jié)束位置時(shí),獲取所有解碼器的最優(yōu)結(jié)果,并進(jìn)行排序,取概率最大的結(jié)果作為最優(yōu)結(jié)果,并判斷此時(shí)結(jié)果是否可信,若可信則終止所有解碼器的運(yùn)算,轉(zhuǎn)入第(6)步,否則轉(zhuǎn)入第(3)步繼續(xù)解碼;(6)外部應(yīng)用系統(tǒng)依據(jù)第(5)步的判斷結(jié)果做出相應(yīng)的操作。
2.根據(jù)權(quán)利要求I所述的一種語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別方法,其特征在于步驟(2)中所述的解碼網(wǎng)絡(luò)是命令詞解碼網(wǎng)絡(luò)或Ivcsr解碼網(wǎng)絡(luò)。
3.根據(jù)權(quán)利要求I所述的一種語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別方法,其特征在于所述步驟(3)中聲學(xué)特征為梅爾倒譜系數(shù)MFCC、倒譜系數(shù)CEP、線性預(yù)測(cè)系數(shù)LPC或感知線性預(yù)測(cè)系數(shù)PLP。
4.根據(jù)權(quán)利要求I所述的一種語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別方法,其特征在于所述步驟(5)中判斷可信結(jié)果的過(guò)程如下(51)當(dāng)某個(gè)解碼器率先解碼至網(wǎng)絡(luò)的結(jié)束位置時(shí),獲取所有解碼器的最優(yōu)結(jié)果;(52)根據(jù)概率對(duì)所有解碼結(jié)果進(jìn)行排序;(53)取排序后概率最大的結(jié)果作為最優(yōu)結(jié)果;(54)計(jì)算該結(jié)果的置信度得分,并與閾值進(jìn)行比較;(55)若大于閾值時(shí),則認(rèn)為該結(jié)果可信,反之,認(rèn)為不可信。
5.根據(jù)權(quán)利要求I所述的一種語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別方法,其特征在于在步驟(5)中所述的對(duì)解碼結(jié)果進(jìn)行可信度判斷時(shí),為了保證判斷的準(zhǔn)確性,可以參照vad (Voice Activation Detection)的檢測(cè)結(jié)果,即確認(rèn)解碼結(jié)束位置是否處于vad結(jié)果中的靜音段,若是則認(rèn)為本次識(shí)別結(jié)果是可信的,否則認(rèn)為不可信。
全文摘要
一種語(yǔ)音指令范圍動(dòng)態(tài)變化的連續(xù)語(yǔ)音識(shí)別方法,(1)輸入語(yǔ)音指令集,并按規(guī)則將語(yǔ)音指令集分組,分別構(gòu)建解碼網(wǎng)絡(luò);(2)輸入語(yǔ)音,提取聲學(xué)特征,基于解碼網(wǎng)絡(luò)進(jìn)行解碼,在解碼的同時(shí)允許根據(jù)當(dāng)前的運(yùn)行情況動(dòng)態(tài)地增刪解碼網(wǎng)絡(luò);(3)判斷接收到的語(yǔ)音是否為有效語(yǔ)音,并給出反饋是否為有效反饋;(4)依據(jù)命令做出相應(yīng)的操作;(5)是否仍有語(yǔ)音輸入,若是轉(zhuǎn)入(2),否則結(jié)束。本發(fā)明允許用戶連續(xù)輸入語(yǔ)音,且允許系統(tǒng)在識(shí)別過(guò)程中依據(jù)系統(tǒng)運(yùn)行狀態(tài)動(dòng)態(tài)地增加和刪除語(yǔ)音指令,實(shí)時(shí)調(diào)整解碼網(wǎng)絡(luò)并參與解碼,在提高識(shí)別效率的同時(shí),也大大的改善了識(shí)別的準(zhǔn)確性。
文檔編號(hào)G10L15/26GK102945673SQ20121048317
公開(kāi)日2013年2月27日 申請(qǐng)日期2012年11月24日 優(yōu)先權(quán)日2012年11月24日
發(fā)明者趙乾, 朱群, 吳玲, 潘頌聲, 何春江, 王兵 申請(qǐng)人:安徽科大訊飛信息科技股份有限公司