一種語音識別方法及其設備的制造方法
【專利摘要】本發明實施例公開一種語音識別方法及其設備,其中方法包括如下步驟:獲取基于交互應用所輸入的目標音頻數據;提取所述目標音頻數據中的目標Filter bank特征;將所述目標音頻數據中的目標Filter bank特征作為訓練后的DNN模型的輸入數據,獲取所述訓練后的DNN模型輸出的所述目標音頻數據的目標音素狀態上的后驗概率特征;創建與所述目標音頻數據相關聯的音素解碼網絡,并采用訓練后的HMM的音素轉換概率和所述目標音頻數據的目標音素狀態上的后驗概率特征在所述解碼網絡中獲取所述目標音頻數據對應的目標詞序列數據。采用本發明,可以滿足各種實際應用環境以及發音習慣的語音識別,提升語音識別的準確性。
【專利說明】
一種語音識別方法及其設備
技術領域
[0001 ]本發明涉及計算機技術領域,尤其涉及一種語音識別方法及其設備。
【背景技術】
[0002] 隨著計算機技術不斷的開發和完善,針對聲音識別的應用場景也逐漸增多,例如: 通過用戶輸入的音頻提取終端中的聯系人信息、通過用戶輸入的音頻生成對應的聊天內 容、通過用戶輸入的音頻進行用戶驗證等,聲音識別技術方便了用戶在操作手機、電腦等終 端時的操作,提升了用戶體驗。
[0003] 現有的聲音識別技術是基于高斯混合模型(Gaussian Mixture Model,GMM)以及 隱馬爾科夫模型(Hidden Markov Model,HMM)進行聲學模型的建立,在實際應用過程中,需 要提取目標音頻中的梅爾頻率倒譜系數(Mel Frequency Cepstrum Coefficient,MFCC)特 征,將MFCC特征輸入至聲學模型中,最終輸出對目標音頻的語音識別結果。由于GMM-HMM的 聲學建模是一種區分性的建模方式,用于解決發音音素狀態的區分性問題,因此其需要具 備特征維度之間的獨立性的MFCC特征作為聲學模型的輸入數據,無法滿足各種實際應用環 境以及發音習慣的語音識別,降低了語音識別的準確性。
【發明內容】
[0004] 本發明實施例提供一種語音識別方法及其設備,可以滿足各種實際應用環境以及 發音習慣的語音識別,提升語音識別的準確性。
[0005] 本發明實施例第一方面提供了一種語音識別方法,可包括:
[0006] 獲取基于交互應用所輸入的目標音頻數據;
[0007] 提取所述目標音頻數據中的目標Filter bank(濾波器組)特征;
[0008] 將所述目標音頻數據中的目標Filter bank特征作為訓練后的深層神經網絡 (Deep Neura 1 Networks,DNN)模型的輸入數據,獲取所述訓練后的DNN模型輸出的所述目 標音頻數據的目標音素狀態上的后驗概率特征;
[0009] 創建與所述目標音頻數據相關聯的音素解碼網絡,并采用訓練后的HMM的音素轉 換概率和所述目標音頻數據的目標音素狀態上的后驗概率特征在所述解碼網絡中獲取所 述目標音頻數據對應的目標詞序列數據。
[0010] 本發明實施例第二方面提供了一種語音識別設備,可包括:
[0011] 音頻數據獲取單元,用于獲取基于交互應用所輸入的目標音頻數據;
[0012] 特征提取單元,用于提取所述目標音頻數據中的目標Filter bank特征;
[0013] 特征獲取單元,用于將所述目標音頻數據中的目標FiIter bank特征作為訓練后 的DNN模型的輸入數據,獲取所述訓練后的DNN模型輸出的所述目標音頻數據的目標音素狀 態上的后驗概率特征;
[0014] 詞序列數據獲取單元,用于創建與所述目標音頻數據相關聯的音素解碼網絡,并 采用訓練后的HMM的音素轉換概率和所述目標音頻數據的目標音素狀態上的后驗概率特征 在所述解碼網絡中獲取所述目標音頻數據對應的目標詞序列數據。
[0015] 在本發明實施例中,在獲取到基于交互應用輸入的目標音頻數據時,通過獲取目 標音頻數據中的目標Filter bank特征,并基于訓練后的DNN模型以及訓練后的HMM,對目標 音頻數據進行語音識別得到目標詞序列數據。通過DNN模型和HMM所建立的聲學模型實現語 音識別的功能,并結合Fi 1 ter bank特征作為聲學模型的輸入數據,無需去除特征維度間的 相關性,可以滿足各種實際應用環境以及發音習慣的語音識別,提升了語音識別的準確性。
【附圖說明】
[0016] 為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以 根據這些附圖獲得其他的附圖。
[0017] 圖1是本發明實施例提供的一種語音識別方法的流程示意圖;
[0018] 圖2是本發明實施例提供的另一種語音識別方法的流程示意圖;
[0019] 圖3是本發明實施例提供的一種語音識別設備的結構示意圖;
[0020] 圖4是本發明實施例提供的另一種語音識別設備的結構示意圖;
[0021 ]圖5是本發明實施例提供的特征提取單元的結構示意圖;
[0022] 圖6是本發明實施例提供的特征獲取單元的結構示意圖;
[0023] 圖7是本發明實施例提供的又一種語音識別設備的結構示意圖。
【具體實施方式】
[0024]下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于 本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他 實施例,都屬于本發明保護的范圍。
[0025] 本發明實施例提供的語音識別方法可以應用于對終端用戶輸入的目標音頻數據 (例如:包含數字的音頻、包含文字的音頻等)進行識別并生成相應詞序列(例如:數字串、詞 句等)的場景,例如:語音識別設備獲取基于交互應用所輸入的目標音頻數據,所述語音識 別設備提取所述目標音頻數據中的目標Fi Iter bank特征,所述語音識別設備將所述目標 音頻數據中的目標Filter bank特征作為訓練后的DNN模型的輸入數據,獲取所述訓練后的 DNN模型輸出的所述目標音頻數據的目標音素狀態上的后驗概率特征,所述語音識別設備 創建與所述目標音頻數據相關聯的音素解碼網絡,并采用訓練后的HMM的音素轉換概率和 所述目標音頻數據的目標音素狀態上的后驗概率特征在所述解碼網絡中獲取所述目標音 頻數據對應的目標詞序列數據的場景等。通過DNN模型和HMM所建立的聲學模型實現語音識 別的功能,并結合Filter bank特征作為聲學模型的輸入數據,無需去除特征維度間的相關 性,可以滿足各種實際應用環境以及發音習慣的語音識別,提升了語音識別的準確性。
[0026] 本發明實施例涉及的應用資源加載設備可以為包括平板電腦、智能手機、掌上電 腦、車載終端、PC(個人計算機)以及移動互聯網設備(MID)等具備語音識別功能的終端設 備,也可以為交互應用對應的具備語音識別功能的服務器設備;所述交互應用可以為需要 結合用戶輸入的音頻進行相應的交互功能實現的終端應用,例如:交易應用、即時通信應用 等,可以通過本發明實施例提供的語音識別方法進行驗證碼輸入、密碼輸入、通信內容輸入 等。
[0027] 下面將結合附圖1和附圖2,對本發明實施例提供的一種語音識別方法進行詳細介 紹。
[0028] 請參見圖1,為本發明實施例提供了一種語音識別方法的流程示意圖。如圖1所示, 本發明實施例的所述方法可以包括以下步驟S101 -步驟S104。
[0029] S101,獲取基于交互應用所輸入的目標音頻數據;
[0030]具體的,語音識別設備獲取用戶基于交互應用所輸入的目標音頻數據,所述目標 音頻數據具體可以為用戶基于當前需要進行語音輸入的所述交互應用的應用界面所輸入 的語音,并且為當前需要進行語音識別的音頻數據。
[0031] S102,提取所述目標音頻數據中的目標Filter bank特征;
[0032] 具體的,所述語音識別設備可以在所述目標音頻數據中提取目標Filter bank特 征,需要說明的是,所述語音識別設備需要將所述目標音頻數據拆分成多幀音頻數據,并分 別對每幀音頻數據的Filter bank特征進行提取以輸入至下述訓練后的DNN模型中,即分幀 輸入進行音素狀態的后驗概率特征的計算。因此所述語音識別設備可以對所述目標音頻數 據進行數據分幀,獲取所述目標音頻數據中的至少一幀音頻數據,所述語音識別設備獲取 所述至少一幀音頻數據中每幀第一音頻數據對應的第一目標Filter bank特征,所述目標 Filter bank特征表示為屬于所述目標音頻數據的Filter bank特征,所述第一音頻數據為 所述目標音頻數據中當前實際需要進行后驗概率特征計算的語音數據,所述第一目標 Filter bank特征表示為屬于所述第一目標音頻數據的Filter bank特征。
[0033] S103,將所述目標音頻數據中的目標Filter bank特征作為訓練后的DNN模型的輸 入數據,獲取所述訓練后的DNN模型輸出的所述目標音頻數據的目標音素狀態上的后驗概 率特征;
[0034]具體的,所述語音識別設備可以將所述目標音頻數據中的目標Filter bank特征 作為訓練后的DNN模型的輸入數據,獲取所述訓練后的DNN模型輸出的所述目標音頻數據的 目標音素狀態上的后驗概率特征,優選的,音素狀態即為音標,所述目標音素狀態為所述目 標音頻數據中存在的音素狀態,所述DNN模型在訓練過程中可以得到輸出層節點間的矩陣 權重值和矩陣偏置值,所述輸出層節點可以為至少一個節點,輸出層節點的數量與音素狀 態的數量相關(例如:相等),一個輸出層節點即表示一個音素狀態的特征向量。
[0035] S104,創建與所述目標音頻數據相關聯的音素解碼網絡,并采用訓練后的HMM的音 素轉換概率和所述目標音頻數據的目標音素狀態上的后驗概率特征在所述解碼網絡中獲 取所述目標音頻數據對應的目標詞序列數據;
[0036] 具體的,所述語音識別設備可以創建與所述目標音頻數據相關聯的音素解碼網 絡,優選的,所述音素解碼網絡可以為以帶權有限狀態轉換器(Weighted Finite-State TransducehWFST)為框架,音素狀態序列為輸入,詞序列數據為輸出的詞圖解碼網絡,可以 理解的是,所述音素解碼網絡也可以在對DNN模型和HMM進行訓練時預先進行創建。
[0037] 所述語音識別設備采用訓練后的HMM的音素轉換概率和所述目標音頻數據的目標 音素狀態上的后驗概率特征在所述解碼網絡中獲取所述目標音頻數據對應的目標詞序列 數據,所述訓練后的HMM的音素轉換概率包括每個音素狀態跳轉至自身的音素轉換概率以 及所述每個音素狀態跳轉至自身的下一個音素狀態的音素轉換概率,可以理解的是,所述 語音識別設備可以根據訓練后的HMM的音素轉換概率以及所有的所述第一目標Filter bank特征的目標音素狀態上的后驗概率特征,在所述音素解碼網絡中設置每條網絡路徑的 概率值,并根據所述每條網絡路徑的概率值篩選出最優路徑,并將所述最優路徑指示的識 別結果作為所述目標音頻數據對應的目標詞序列數據。
[0038] 在本發明實施例中,在獲取到基于交互應用輸入的目標音頻數據時,通過獲取目 標音頻數據中的目標Filter bank特征,并基于訓練后的DNN模型以及訓練后的HMM,對目標 音頻數據進行語音識別得到目標詞序列數據。通過DNN模型和HMM所建立的聲學模型實現語 音識別的功能,并結合Fi 1 ter bank特征作為聲學模型的輸入數據,無需去除特征維度間的 相關性,可以滿足各種實際應用環境以及發音習慣的語音識別,提升了語音識別的準確性。
[0039] 請參見圖2,為本發明實施例提供了另一種語音識別方法的流程示意圖。如圖2所 示,本發明實施例的所述方法可以包括以下步驟S201 -步驟S211。
[0040] S201,采用訓練音頻語料對GMM和HMM進行訓練,獲取訓練后的GMM輸出的至少一個 音素狀態中每個音素狀態的似然概率特征,并獲取訓練后的HMM的音素轉換概率;
[0041 ]具體的,在對DNN模型進行訓練之前,需要先訓練出一個GMM和HMM的聲學模型,所 述語音識別設備可以采用訓練音頻語料對GMM和HMM進行訓練,獲取訓練后的GMM輸出的至 少一個音素狀態中每個音素狀態的似然概率特征,并獲取訓練后的HMM的音素轉換概率,所 述訓練音頻語料可以盡量包含不同噪聲環境、不同語速、不同字詞間停頓等場景下的音頻 數據。
[0042]需要說明的是,所述語音識別設備可以對訓練音頻語料進行數據預處理,所述數 據預處理可以包括:對訓練音頻語料進行數據分幀、數據預加重、數據加窗操作等以得到時 域上的至少一幀音頻數據;進行快速傅里葉變換,將所述至少一幀音頻數據轉換到頻域,得 到所述至少一幀音頻數據在頻域上對應的至少一個功率譜數據;將頻域上的至少一個功率 譜數據通過具有三角濾波特性的梅爾頻率濾波器,得到至少一個梅爾功率頻譜數據;對至 少一個梅爾功率頻譜數據取對數能量,得到至少一個梅爾對數能量譜數據,此時所得到的 至少一個梅爾對數能量譜數據(即Filter bank特征),采用DCT去除至少一個梅爾對數能量 譜數據的數據相關性以得到MFCC特征,所述語音識別設備將所述MFCC特征作為GMM的輸入 數據,以對GMM和HMM進行訓練,并獲取訓練后的GMM輸出的至少一個音素狀態中每個音素狀 態的似然概率特征,以及訓練后的HMM的音素轉換概率。可以理解的是,針對訓練音頻語料 中的同一幀音頻數據的Fi lterbank特征與MFCC特征存在--對應的關系。
[0043] S202,采用強制對齊操作將所述每個音素狀態的似然概率特征轉換為所述每個音 素狀態的后驗概率特征;
[0044]具體的,所述語音識別設備可以采用強制對齊操作將所述每個音素狀態的似然概 率特征轉換為所述每個音素狀態的后驗概率特征,可以理解的是,由于似然概率特征是屬 于發散性的概率特征,因此針對所述訓練音頻語料中的一幀音頻數據,其在每個音素狀態 上的似然概率特征的特征值總和不為1,而針對所述訓練音頻語料中的一幀音頻數據,其在 每個音素狀態上的后驗概率特征的特征值總和為1,因此需要選取似然概率特征的特征值 最大的音素狀態,將該音素狀態上的后驗概率特征的特征值設置為1,而對于該幀音頻數據 的其它音素狀態上的后驗概率特征的特征值則設置為0,以此類推,轉換所述訓練音頻語料 中每幀音頻數據在音素狀態上的似然概率特征,獲得所述訓練音頻語料中每幀音頻數據在 音素狀態上的后驗概率特征。
[0045] S203,根據在所述訓練音頻語料中所提取的訓練Filter bank特征以及所述每個 音素狀態的后驗概率特征,計算DNN模型中輸出層節點間的矩陣權重值和矩陣偏置值; [0046] S204,將所述矩陣權重值和所述矩陣偏置值添加至所述DNN模型中,生成訓練后的 DNN模型;
[0047]具體的,所述語音識別設備可以根據在所述訓練音頻語料中所提取的訓練 Filter bank特征以及所述每個音素狀態的后驗概率特征,計算DNN模型中輸出層節點間的 矩陣權重值和矩陣偏置值,優選的,所述語音識別設備可以基于上述方法提取所述訓練音 頻語料中每幀音頻數據對應的訓練Filter bank特征,并將所述訓練Filter bank特征與對 應的后驗概率特征作為訓練樣本對,則所述訓練音頻語料可以存在多個訓練樣本對,基于 所述多個訓練樣本對,并采用最大似然準則的后向傳遞算法計算DNN模型中輸出層節點間 的矩陣權重值和矩陣偏置值。所述語音識別設備將所述矩陣權重值和所述矩陣偏置值添加 至所述DNN模型中,生成訓練后的DNN模型。
[0048] S205,在訓練詞序列語料中獲取訓練詞序列數據的出現概率,并根據所述訓練詞 序列數據的出現概率生成N-Gram語言模型;
[0049] 具體的,所述語音識別設備在訓練DNN模型和HMM的聲學模型的同時,還可以對語 言模型進行訓練,所述語音識別設備可以在訓練詞序列語料中獲取訓練詞序列數據的出現 概率,并根據所述訓練詞序列數據的出現概率生成N-Gram語言模型,N-Gram語言模型是基 于一種假設,第K個詞的出現置于前面的K-1個詞相關,而與其它任何詞都不相關,一個字詞 串的概率為各個詞的出現概率的乘積。
[0050] S206,獲取基于交互應用所輸入的目標音頻數據;
[0051] 具體的,所述語音識別設備獲取用戶基于交互應用所輸入的目標音頻數據,所述 目標音頻數據具體可以為用戶基于當前需要進行語音輸入的所述交互應用的應用界面所 輸入的語音,并且為當前需要進行語音識別的音頻數據。
[0052] S207,對所述目標音頻數據進行數據分幀,獲取所述目標音頻數據中的至少一幀 音頻數據;
[0053] S208,獲取所述至少一幀音頻數據中每幀第一音頻數據對應的第一目標Filter bank特征;
[0054] 具體的,所述語音識別設備需要將所述目標音頻數據拆分成多幀音頻數據,并分 別對每幀音頻數據的Filter bank特征進行提取以輸入至下述訓練后的DNN模型中,即分幀 輸入進行音素狀態的后驗概率特征的計算。因此所述語音識別設備可以對所述目標音頻數 據進行數據分幀,獲取所述目標音頻數據中的至少一幀音頻數據,所述語音識別設備獲取 所述至少一幀音頻數據中每幀第一音頻數據對應的第一目標Filter bank特征,所述目標 Filter bank特征表示為屬于所述目標音頻數據的Filter bank特征,所述第一音頻數據 為所述目標音頻數據中當前實際需要進行后驗概率特征計算的語音數據,所述第一目標 Filter bank特征表示為屬于所述第一目標音頻數據的Filter bank特征。
[0055] 進一步的,所述語音識別設備可以對所述目標音頻數據進行數據預處理,所述數 據預處理可以包括:數據分幀、數據預加重、數據加窗操作等以得到時域上的至少一幀音頻 數據;進行快速傅里葉變換,將所述至少一幀音頻數據轉換到頻域,得到所述至少一幀音頻 數據在頻域上對應的至少一個功率譜數據;將頻域上的至少一個功率譜數據通過具有三角 濾波特性的梅爾頻率濾波器,得到至少一個梅爾功率頻譜數據;對至少一個梅爾功率頻譜 數據取對數能量,得到至少一個梅爾對數能量譜數據,此時所得到的至少一個梅爾對數能 量譜數據的集合即為所述目標Filter bank特征,可以理解的是,Filter bank特征在不同 特征維度之間存在數據相關性,而MFCC特征則是采用離散余弦變換(DiscreteCosine Transform,DCT)去除FiIter bank特征的數據相關性所得到的特征。
[0056] 優選的,所述語音識別設備還會進一步對所述目標Filter bank特征進行特征后 處理,所述特征后處理可以包括特征擴展和特征規整,特征擴展可以為求取所述目標 Filter bank特征的一階差分和二階差分特征,得到所述每幀第一音頻數據對應的預設維 數特征的目標Filter bank特征,特征規整可以為采用倒譜均值減(Cepstrum Mean Subtraction,CMS)技術對所述每幀第一音頻數據對應的預設維數特征的目標Filter bank 特征進行規整,得到所述每幀第一音頻數據對應的第一目標Filter bank特征,優選的,所 述預設維數可以為72維。
[0057] S209,按照所述至少一幀音頻數據的時間排序,獲取所述每幀第一音頻數據的前 后預設幀數的第二音頻數據;
[0058] S210,將所述第一目標Filter bank特征以及所述第二音頻數據對應的第二目標 Filter bank特征作為訓練后的DNN模型的輸入數據,獲取所述訓練后的DNN模型輸出的所 述第一目標Filter bank特征的目標音素狀態上的后驗概率特征;
[0059] 具體的,所述語音識別設備可以按照所述至少一幀音頻數據的時間排序,獲取所 述每幀第一音頻數據的前后預設幀數的第二音頻數據,所述語音識別設備將所述第一目標 Filter bank特征以及所述第二音頻數據對應的第二目標Filter bank特征作為訓練后的 DNN模型的輸入數據,獲取所述訓練后的DNN模型輸出的所述第一目標Filter bank特征的 目標音素狀態上的后驗概率特征,可以理解的是,所述第二音頻數據為與所述第一音頻數 據具備維度關聯性的數據。
[0060] 假設所述目標音頻數據中存在N幀音頻數據,第i幀第一音頻數據對應的第一目標 Fi Iter bank特征為Fi,i = 1,2,3···Ν,前后預設幀數為前后8幀,則輸入數據可以包括Fi以及 第i幀第一音頻數據前后8幀的第二目標Filter bank特征,基于上述優選的預設維數,則所 述輸入數據在所述訓練后的DNN模型中對應的輸入層節點的數量為(8+1+8)*72 = 1224個節 點,所述訓練后的DNN模型的輸出層節點的節點數量等于所有音素狀態的個數P,輸入層與 輸出層之間存在預設數量的隱藏層,隱藏層個數優選為3層,每個隱藏層均存在1024個節 點,所述訓練后的DNN模型中第M-1層輸出層節點與第Μ層輸出層節點間的矩陣權重值和矩 陣偏置值可以分別表示為%和bM,Μ=1,2,3…Ρ,則第i幀第一音頻數據在第Μ層輸出層節點 對應的音素狀態的特征向量滿足.14 = 其中f(x)為激活函數,優選為 Relu函數,則所述訓練后的DNN模型輸出的h的第Μ個音素狀態上的后驗概率特征.0|^為:
[0061]
[0062] S211,創建與所述目標音頻數據相關聯的音素解碼網絡,并采用訓練后的HMM的音 素轉換概率和所述目標音頻數據的目標音素狀態上的后驗概率特征在所述解碼網絡中獲 取所述目標音頻數據對應的目標詞序列數據;
[0063] 具體的,所述語音識別設備可以創建與所述目標音頻數據相關聯的音素解碼網 絡,優選的,所述音素解碼網絡可以為以WFST為框架,音素狀態序列為輸入,詞序列數據為 輸出的詞圖解碼網絡,可以理解的是,所述音素解碼網絡也可以在對DNN模型和HMM進行訓 練時預先進行創建。
[0064]所述語音識別設備采用訓練后的HMM的音素轉換概率和所述目標音頻數據的目標 音素狀態上的后驗概率特征在所述解碼網絡中獲取所述目標音頻數據對應的目標詞序列 數據,所述訓練后的HMM的音素轉換概率包括每個音素狀態跳轉至自身的音素轉換概率以 及所述每個音素狀態跳轉至自身的下一個音素狀態的音素轉換概率,可以理解的是,所述 語音識別設備可以根據訓練后的HMM的音素轉換概率以及所有的所述第一目標Filter bank特征的目標音素狀態上的后驗概率特征,在所述音素解碼網絡中設置每條網絡路徑的 概率值,并根據所述每條網絡路徑的概率值篩選出最優路徑,并將所述最優路徑指示的識 別結果作為所述目標音頻數據對應的目標詞序列數據。
[0065] 進一步的,所述語音識別設備可以采用訓練后的HMM的音素轉換概率、所述第一目 標Filter bank特征的目標音素狀態上的后驗概率特征以及所述N-Gram語言模型,在所述 解碼網絡中獲取所述目標音頻數據對應的目標詞序列數據,由于N-Gram語言模型可以自行 推斷下一個詞出現的概率,因此可以結合出現概率對每條網絡路徑的概率值進行加權,增 加網絡路徑的可能性,通過結合N-Gram語言模型獲取目標音頻數據對應的目標詞序列數 據,可以進一步提升語音識別的準確性。
[0066] 在本發明實施例中,在獲取到基于交互應用輸入的目標音頻數據時,通過獲取目 標音頻數據中的目標Filter bank特征,并基于訓練后的DNN模型以及訓練后的HMM,對目標 音頻數據進行語音識別得到目標詞序列數據。通過DNN模型和HMM所建立的聲學模型實現語 音識別的功能,并結合Fi 1 ter bank特征作為聲學模型的輸入數據,無需去除特征維度間的 相關性,可以滿足各種實際應用環境以及發音習慣的語音識別,提升了語音識別的準確性; 通過融合了Fi 1 ter bank特征提取的方法以及DNN-HMM聲學模型的訓練方法,實現了完整的 訓練到識別的過程;通過結合N-Gram語言模型獲取目標音頻數據對應的目標詞序列數據, 由于N-Gram語言模型可以自行推斷下一個詞出現的概率,因此可以結合出現概率對每條網 絡路徑的概率值進行加權,增加網絡路徑的可能性,進一步提升了語音識別的準確性。
[0067] 下面將結合附圖3-附圖6,對本發明實施例提供的語音識別設備進行詳細介紹。需 要說明的是,附圖3-附圖6所示的語音識別設備,用于執行本發明圖1和圖2所示實施例的方 法,為了便于說明,僅示出了與本發明實施例相關的部分,具體技術細節未揭示的,請參照 本發明圖1和圖2所示的實施例。
[0068] 請參見圖3,為本發明實施例提供了一種語音識別設備的結構示意圖。如圖3所示, 本發明實施例的所述語音識別設備1可以包括:音頻數據獲取單元11、特征提取單元12、特 征獲取單元13和詞序列數據獲取單元14。
[0069]音頻數據獲取單元11,用于獲取基于交互應用所輸入的目標音頻數據;
[0070]具體實現中,所述音頻數據獲取單元11獲取用戶基于交互應用所輸入的目標音頻 數據,所述目標音頻數據具體可以為用戶基于當前需要進行語音輸入的所述交互應用的 應用界面所輸入的語音,并且為當前需要進行語音識別的音頻數據。
[0071] 特征提取單元12,用于提取所述目標音頻數據中的目標Filter bank特征;
[0072] 具體實現中,所述特征提取單元12可以在所述目標音頻數據中提取目標Filter bank特征,需要說明的是,所述特征提取單元12需要將所述目標音頻數據拆分成多幀音頻 數據,并分別對每幀音頻數據的Filter bank特征進行提取以輸入至下述訓練后的DNN模型 中,即分幀輸入進行音素狀態的后驗概率特征的計算。因此所述特征提取單元12可以對所 述目標音頻數據進行數據分幀,獲取所述目標音頻數據中的至少一幀音頻數據,所述特征 提取單元12獲取所述至少一幀音頻數據中每幀第一音頻數據對應的第一目標Filter bank 特征,所述目標Filter bank特征表示為屬于所述目標音頻數據的Filter bank特征,所述 第一音頻數據為所述目標音頻數據中當前實際需要進行后驗概率特征計算的語音數據,所 述第一目標Filter bank特征表示為屬于所述第一目標音頻數據的Filter bank特征。
[0073] 特征獲取單元13,用于將所述目標音頻數據中的目標Filter bank特征作為訓練 后的DNN模型的輸入數據,獲取所述訓練后的DNN模型輸出的所述目標音頻數據的目標音素 狀態上的后驗概率特征;
[0074] 具體實現中,所述特征獲取單元13可以將所述目標音頻數據中的目標Filter bank特征作為訓練后的DNN模型的輸入數據,獲取所述訓練后的DNN模型輸出的所述目標音 頻數據的目標音素狀態上的后驗概率特征,優選的,音素狀態即為音標,所述目標音素狀態 為所述目標音頻數據中存在的音素狀態,所述DNN模型在訓練過程中可以得到輸出層節點 間的矩陣權重值和矩陣偏置值,所述輸出層節點可以為至少一個節點,輸出層節點的數量 與音素狀態的數量相關(例如:相等),一個輸出層節點即表示一個音素狀態的特征向量。
[0075] 詞序列數據獲取單元14,用于創建與所述目標音頻數據相關聯的音素解碼網絡, 并采用訓練后的HMM的音素轉換概率和所述目標音頻數據的目標音素狀態上的后驗概率特 征在所述解碼網絡中獲取所述目標音頻數據對應的目標詞序列數據;
[0076] 具體實現中,所述詞序列數據獲取單元14可以創建與所述目標音頻數據相關聯的 音素解碼網絡,優選的,所述音素解碼網絡可以為以WFST為框架,音素狀態序列為輸入,詞 序列數據為輸出的詞圖解碼網絡,可以理解的是,所述音素解碼網絡也可以在對DNN模型 和HMM進行訓練時預先進行創建。
[0077] 所述詞序列數據獲取單元14采用訓練后的HMM的音素轉換概率和所述目標音頻數 據的目標音素狀態上的后驗概率特征在所述解碼網絡中獲取所述目標音頻數據對應的目 標詞序列數據,所述訓練后的HMM的音素轉換概率包括每個音素狀態跳轉至自身的音素轉 換概率以及所述每個音素狀態跳轉至自身的下一個音素狀態的音素轉換概率,可以理解的 是,所述詞序列數據獲取單元14可以根據訓練后的HMM的音素轉換概率以及所有的所述第 一目標Filter bank特征的目標音素狀態上的后驗概率特征,在所述音素解碼網絡中設置 每條網絡路徑的概率值,并根據所述每條網絡路徑的概率值篩選出最優路徑,并將所述最 優路徑指示的識別結果作為所述目標音頻數據對應的目標詞序列數據。
[0078] 在本發明實施例中,在獲取到基于交互應用輸入的目標音頻數據時,通過獲取目 標音頻數據中的目標Filter bank特征,并基于訓練后的DNN模型以及訓練后的HMM,對目標 音頻數據進行語音識別得到目標詞序列數據。通過DNN模型和HMM所建立的聲學模型實現語 音識別的功能,并結合Fi 1 ter bank特征作為聲學模型的輸入數據,無需去除特征維度間的 相關性,可以滿足各種實際應用環境以及發音習慣的語音識別,提升了語音識別的準確性。
[0079] 請參見圖4,為本發明實施例提供了另一種語音識別設備的結構示意圖。如圖4所 示,本發明實施例的所述語音識別設備1可以包括:音頻數據獲取單元11、特征提取單元12、 特征獲取單元13、詞序列數據獲取單元14、聲學模型訓練單元15、特征轉換單元16、參數計 算單元17、聲學模型生成單元18和語言模型生成單元19。
[0080] 聲學模型訓練單元15,用于采用訓練音頻語料對GMM和HMM進行訓練,獲取訓練后 的GMM輸出的至少一個音素狀態中每個音素狀態的似然概率特征,并獲取訓練后的HMM的音 素轉換概率;
[0081 ]具體實現中,在對DNN模型進行訓練之前,需要先訓練出一個GMM和HMM的聲學模 型,所述聲學模型訓練單元15可以采用訓練音頻語料對GMM和HMM進行訓練,獲取訓練后的 GMM輸出的至少一個音素狀態中每個音素狀態的似然概率特征,并獲取訓練后的HMM的音素 轉換概率,所述訓練音頻語料可以盡量包含不同噪聲環境、不同語速、不同字詞間停頓等場 景下的音頻數據。
[0082] 需要說明的是,所述聲學模型訓練單元15可以對訓練音頻語料進行數據預處理, 所述數據預處理可以包括:對訓練音頻語料進行數據分幀、數據預加重、數據加窗操作等以 得到時域上的至少一幀音頻數據;進行快速傅里葉變換,將所述至少一幀音頻數據轉換到 頻域,得到所述至少一幀音頻數據在頻域上對應的至少一個功率譜數據;將頻域上的至少 一個功率譜數據通過具有三角濾波特性的梅爾頻率濾波器,得到至少一個梅爾功率頻譜數 據;對至少一個梅爾功率頻譜數據取對數能量,得到至少一個梅爾對數能量譜數據,此時所 得到的至少一個梅爾對數能量譜數據(即Filter bank特征),采用DCT去除至少一個梅爾對 數能量譜數據的數據相關性以得到MFCC特征,所述聲學模型訓練單元15將所述MFCC特征作 為GMM的輸入數據,以對GMM和HMM進行訓練,并獲取訓練后的GMM輸出的至少一個音素狀態 中每個音素狀態的似然概率特征,以及訓練后的HMM的音素轉換概率。可以理解的是,針對 訓練音頻語料中的同一幀音頻數據的Fi Iter bank特征與MFCC特征存在一一對應的關系。
[0083] 特征轉換單元16,用于采用強制對齊操作將所述每個音素狀態的似然概率特征轉 換為所述每個音素狀態的后驗概率特征;
[0084] 具體實現中,所述特征轉換單元16可以采用強制對齊操作將所述每個音素狀態的 似然概率特征轉換為所述每個音素狀態的后驗概率特征,可以理解的是,由于似然概率特 征是屬于發散性的概率特征,因此針對所述訓練音頻語料中的一幀音頻數據,其在每個音 素狀態上的似然概率特征的特征值總和不為1,而針對所述訓練音頻語料中的一幀音頻數 據,其在每個音素狀態上的后驗概率特征的特征值總和為1,因此需要選取似然概率特征的 特征值最大的音素狀態,將該音素狀態上的后驗概率特征的特征值設置為1,而對于該幀音 頻數據的其它音素狀態上的后驗概率特征的特征值則設置為〇,以此類推,轉換所述訓練音 頻語料中每幀音頻數據在音素狀態上的似然概率特征,獲得所述訓練音頻語料中每幀音頻 數據在音素狀態上的后驗概率特征。
[0085]參數計算單元17,用于根據在所述訓練音頻語料中所提取的訓練Filter bank特 征以及所述每個音素狀態的后驗概率特征,計算DNN模型中輸出層節點間的矩陣權重值和 矩陣偏置值;
[0086] 聲學模型生成單元18,用于將所述矩陣權重值和所述矩陣偏置值添加至所述DNN 模型中,生成訓練后的DNN模型;
[0087] 具體實現中,所述參數計算單元17可以根據在所述訓練音頻語料中所提取的訓練 Filter bank特征以及所述每個音素狀態的后驗概率特征,計算DNN模型中輸出層節點間的 矩陣權重值和矩陣偏置值,優選的,所述參數計算單元17可以基于上述方法提取所述訓練 音頻語料中每幀音頻數據對應的訓練Filter bank特征,并將所述訓練Filter bank特征與 對應的后驗概率特征作為訓練樣本對,則所述訓練音頻語料可以存在多個訓練樣本對,基 于所述多個訓練樣本對,并采用最大似然準則的后向傳遞算法計算DNN模型中輸出層節點 間的矩陣權重值和矩陣偏置值。所述聲學模型生成單元18將所述矩陣權重值和所述矩陣偏 置值添加至所述DNN模型中,生成訓練后的DNN模型。
[0088] 語言模型生成單元19,用于在訓練詞序列語料中獲取訓練詞序列數據的出現概 率,并根據所述訓練詞序列數據的出現概率生成N-Gram語言模型;
[0089]具體實現中,在訓練DNN模型和HMM的聲學模型的同時,所述語言模型生成單元19 可以對語言模型進行訓練,所述語言模型生成單元19可以在訓練詞序列語料中獲取訓練詞 序列數據的出現概率,并根據所述訓練詞序列數據的出現概率生成N-Gram語言模型,N-Gram語言模型是基于一種假設,第K個詞的出現置于前面的K-1個詞相關,而與其它任何詞 都不相關,一個字詞串的概率為各個詞的出現概率的乘積。
[0090] 音頻數據獲取單元11,用于獲取基于交互應用所輸入的目標音頻數據;
[0091] 具體實現中,所述音頻數據獲取單元11獲取用戶基于交互應用所輸入的目標音頻 數據,所述目標音頻數據具體可以為用戶基于當前需要進行語音輸入的所述交互應用的應 用界面所輸入的語音,并且為當前需要進行語音識別的音頻數據。
[0092]特征提取單元12,用于提取所述目標音頻數據中的目標Filter bank特征;
[0093] 具體實現中,所述特征提取單元12可以在所述目標音頻數據中提取目標Filter bank特征,需要說明的是,所述特征提取單元12需要將所述目標音頻數據拆分成多幀音頻 數據,并分別對每幀音頻數據的Filter bank特征進行提取以輸入至下述訓練后的DNN模型 中,即分幀輸入進行音素狀態的后驗概率特征的計算。因此所述特征提取單元12可以對所 述目標音頻數據進行數據分幀,獲取所述目標音頻數據中的至少一幀音頻數據,所述特征 提取單元12獲取所述至少一幀音頻數據中每幀第一音頻數據對應的第一目標Filter bank特征,所述目標Filterbank特征表示為屬于所述目標音頻數據的FiIter bank特征,所 述第一音頻數據為所述目標音頻數據中當前實際需要進行后驗概率特征計算的語音數據, 所述第一目標Filter bank特征表示為屬于所述第一目標音頻數據的Filter bank特征。
[0094] 具體的,請一并參見圖5,為本發明實施例提供了特征提取單元的結構示意圖。如 圖5所示,所述特征提取單元12可以包括:
[0095] 第一數據獲取子單元121,用于對所述目標音頻數據進行數據分幀,獲取所述目標 音頻數據中的至少一幀音頻數據;
[0096] 第一特征獲取子單元122,用于獲取所述至少一幀音頻數據中每幀第一音頻數據 對應的第一目標Filter bank特征;
[0097] 具體實現中,所述第一數據獲取子單元121需要將所述目標音頻數據拆分成多幀 音頻數據,并分別對每幀音頻數據的Filter bank特征進行提取以輸入至下述訓練后的DNN 模型中,即分幀輸入進行音素狀態的后驗概率特征的計算。因此所述第一數據獲取子單元 121可以對所述目標音頻數據進行數據分幀,獲取所述目標音頻數據中的至少一幀音頻數 據,所述第一特征獲取子單元122獲取所述至少一幀音頻數據中每幀第一音頻數據對應的 第一目標Filter bank特征,所述目標Filter bank特征表示為屬于所述目標音頻數據的 Filter bank特征,所述第一音頻數據為所述目標音頻數據中當前實際需要進行后驗概率 特征計算的語音數據,所述第一目標FiIter bank特征表示為屬于所述第一目標音頻數據 的Filter bank特征。
[0098]進一步的,所述第一數據獲取子單元121可以對所述目標音頻數據進行數據預處 理,所述數據預處理可以包括:數據分幀、數據預加重、數據加窗操作等以得到時域上的至 少一幀音頻數據;進行快速傅里葉變換,將所述至少一幀音頻數據轉換到頻域,得到所述至 少一幀音頻數據在頻域上對應的至少一個功率譜數據;將頻域上的至少一個功率譜數據通 過具有三角濾波特性的梅爾頻率濾波器,得到至少一個梅爾功率頻譜數據;對至少一個梅 爾功率頻譜數據取對數能量,得到至少一個梅爾對數能量譜數據,此時所得到的至少一個 梅爾對數能量譜數據的集合即為所述目標Fi 1 ter bank特征,可以理解的是,Fi 1 ter bank 特征在不同特征維度之間存在數據相關性,而MFCC特征則是采用DCT去除Filter bank特征 的數據相關性所得到的特征。
[00"] 優選的,所述第一特征獲取子單元122還會進一步對所述目標Filter bank特征進 行特征后處理,所述特征后處理可以包括特征擴展和特征規整,特征擴展可以為求取所述 目標Filter bank特征的一階差分和二階差分特征,得到所述每幀第一音頻數據對應的預 設維數特征的目標Fi 1 ter bank特征,特征規整可以為采用CMS技術對所述每幀第一音頻數 據對應的預設維數特征的目標Filter bank特征進行規整,得到所述每幀第一音頻數據對 應的第一目標Filter bank特征,優選的,所述預設維數可以為72維。
[0100] 特征獲取單元13,用于將所述目標音頻數據中的目標Filter bank特征作為訓練 后的DNN模型的輸入數據,獲取所述訓練后的DNN模型輸出的所述目標音頻數據的目標音素 狀態上的后驗概率特征;
[0101] 具體實現中,所述特征獲取單元13可以將所述目標音頻數據中的目標Filter bank特征作為訓練后的DNN模型的輸入數據,獲取所述訓練后的DNN模型輸出的所述目標音 頻數據的目標音素狀態上的后驗概率特征,優選的,音素狀態即為音標,所述目標音素狀態 為所述目標音頻數據中存在的音素狀態,所述DNN模型在訓練過程中可以得到輸出層節點 間的矩陣權重值和矩陣偏置值,所述輸出層節點可以為至少一個節點,輸出層節點的數量 與音素狀態的數量相關(例如:相等),一個輸出層節點即表示一個音素狀態的特征向量。
[0102] 具體的,請一并參見圖6,為本發明實施例提供了特征獲取單元的結構示意圖。如 圖6所示,所述特征獲取單元13可以包括:
[0103] 第二數據獲取子單元131,用于按照所述至少一幀音頻數據的時間排序,獲取所述 每幀第一音頻數據的前后預設幀數的第二音頻數據;
[0104] 第二特征獲取子單元132,用于將所述第一目標Filter bank特征以及所述第二音 頻數據對應的第二目標Filter bank特征作為訓練后的DNN模型的輸入數據,獲取所述訓練 后的DNN模型輸出的所述第一目標Filter bank特征的目標音素狀態上的后驗概率特征;
[0105] 具體實現中,所述第二數據獲取子單元131可以按照所述至少一幀音頻數據的時 間排序,獲取所述每幀第一音頻數據的前后預設幀數的第二音頻數據,所述第二特征獲取 子單元132將所述第一目標Fi Iter bank特征以及所述第二音頻數據對應的第二目標 Filter bank特征作為訓練后的DNN模型的輸入數據,獲取所述訓練后的DNN模型輸出的所 述第一目標Filter bank特征的目標音素狀態上的后驗概率特征,可以理解的是,所述第 二音頻數據為與所述第一音頻數據具備維度關聯性的數據。
[0106] 假設所述目標音頻數據中存在N幀音頻數據,第i幀第一音頻數據對應的第一目標 FiIter bank特征為Fi,i = 1,2,3···Ν,前后預設幀數為前后8幀,則輸入數據可以包括Fi以及 第i幀第一音頻數據前后8幀的第二目標Filter bank特征,基于上述優選的預設維數,則所 述輸入數據在所述訓練后的DNN模型中對應的輸入層節點的數量為(8+1+8)*72 = 1224個節 點,所述訓練后的DNN模型的輸出層節點的節點數量等于所有音素狀態的個數P,輸入層與 輸出層之間存在預設數量的隱藏層,隱藏層個數優選為3層,每個隱藏層均存在1024個節 點,所述訓練后的DNN模型中第M-1層輸出層節點與第Μ層輸出層節點間的矩陣權重值和矩 陣偏置值可以分別表示為%和bM,Μ=1,2,3…Ρ,則第i幀第一音頻數據在第Μ層輸出層節點 對應的音素狀態的特征向量hk滿足]^ = bM),其中f(x)為激活函數,優選為 Relu函數,則所述訓練后的DNN模型輸出的h的第Μ個音素狀態上的后驗概率特征:0^為:
[0107]
[0108] 詞序列數據獲取單元14,用于創建與所述目標音頻數據相關聯的音素解碼網絡, 并采用訓練后的ΗΜΜ的音素轉換概率和所述目標音頻數據的目標音素狀態上的后驗概率特 征在所述解碼網絡中獲取所述目標音頻數據對應的目標詞序列數據;
[0109] 具體實現中,所述詞序列數據獲取單元14可以創建與所述目標音頻數據相關聯的 音素解碼網絡,優選的,所述音素解碼網絡可以為以WFST為框架,音素狀態序列為輸入,詞 序列數據為輸出的詞圖解碼網絡,可以理解的是,所述音素解碼網絡也可以在對DNN模型和 ΗΜΜ進行訓練時預先進行創建。
[0110] 所述詞序列數據獲取單元14采用訓練后的ΗΜΜ的音素轉換概率和所述目標音頻數 據的目標音素狀態上的后驗概率特征在所述解碼網絡中獲取所述目標音頻數據對應的目 標詞序列數據,所述訓練后的ΗΜΜ的音素轉換概率包括每個音素狀態跳轉至自身的音素轉 換概率以及所述每個音素狀態跳轉至自身的下一個音素狀態的音素轉換概率,可以理解的 是,所述詞序列數據獲取單元14可以根據訓練后的ΗΜΜ的音素轉換概率以及所有的所述第 一目標Filter bank特征的目標音素狀態上的后驗概率特征,在所述音素解碼網絡中設置 每條網絡路徑的概率值,并根據所述每條網絡路徑的概率值篩選出最優路徑,并將所述最 優路徑指示的識別結果作為所述目標音頻數據對應的目標詞序列數據。
[0111] 進一步的,所述詞序列數據獲取單元14可以采用訓練后的HMM的音素轉換概率、所 述第一目標Filter bank特征的目標音素狀態上的后驗概率特征以及所述N-Gram語言模 型,在所述解碼網絡中獲取所述目標音頻數據對應的目標詞序列數據,由于N-Gram語言模 型可以自行推斷下一個詞出現的概率,因此可以結合出現概率對每條網絡路徑的概率值進 行加權,增加網絡路徑的可能性,通過結合N-Gram語言模型獲取目標音頻數據對應的目標 詞序列數據,可以進一步提升語音識別的準確性。
[0112] 在本發明實施例中,在獲取到基于交互應用輸入的目標音頻數據時,通過獲取目 標音頻數據中的目標Filter bank特征,并基于訓練后的DNN模型以及訓練后的HMM,對目標 音頻數據進行語音識別得到目標詞序列數據。通過DNN模型和HMM所建立的聲學模型實現語 音識別的功能,并結合Fi 1 ter bank特征作為聲學模型的輸入數據,無需去除特征維度間的 相關性,可以滿足各種實際應用環境以及發音習慣的語音識別,提升了語音識別的準確性; 通過融合了Fi 1 ter bank特征提取的方法以及DNN-HMM聲學模型的訓練方法,實現了完整的 訓練到識別的過程;通過結合N-Gram語言模型獲取目標音頻數據對應的目標詞序列數據, 由于N-Gram語言模型可以自行推斷下一個詞出現的概率,因此可以結合出現概率對每條網 絡路徑的概率值進行加權,增加網絡路徑的可能性,進一步提升了語音識別的準確性。
[0113] 請參見圖7,為本發明實施例提供了又一種語音識別設備的結構示意圖。如圖7所 示,所述語音識別設備1000可以包括:至少一個處理器1001,例如CPU,至少一個網絡接口 1004,用戶接口 1003,存儲器1005,至少一個通信總線1002。其中,通信總線1002用于實現這 些組件之間的連接通信。其中,用戶接口 1003可以包括顯示屏(Display)、鍵盤(Keyboard), 可選用戶接口 1003還可以包括標準的有線接口、無線接口。網絡接口 1004可選的可以包括 標準的有線接口、無線接口(如WI-FI接口)。存儲器1005可以是高速RAM存儲器,也可以是非 不穩定的存儲器(non-volatile memory),例如至少一個磁盤存儲器。存儲器1005可選的 還可以是至少一個位于遠離前述處理器1001的存儲裝置。如圖7所示,作為一種計算機存儲 介質的存儲器1005中可以包括操作系統、網絡通信模塊、用戶接口模塊以及語音識別應用 程序。
[0114] 在圖7所示的語音識別設備1000中,用戶接口 1003主要用于為用戶提供輸入的接 口,獲取用戶輸入的數據;而處理器1001可以用于調用存儲器1005中存儲的語音識別應用 程序,并具體執行以下操作:
[0115] 獲取基于交互應用所輸入的目標音頻數據;
[0116]提取所述目標音頻數據中的目標Filter bank特征;
[0117] 將所述目標音頻數據中的目標Filter bank特征作為訓練后的DNN模型的輸入數 據,獲取所述訓練后的DNN模型輸出的所述目標音頻數據的目標音素狀態上的后驗概率特 征;
[0118] 創建與所述目標音頻數據相關聯的音素解碼網絡,并采用訓練后的HMM的音素轉 換概率和所述目標音頻數據的目標音素狀態上的后驗概率特征在所述解碼網絡中獲取所 述目標音頻數據對應的目標詞序列數據。
[0119] 在一個實施例中,所述處理器1001在執行獲取基于交互應用所輸入的目標音頻數 據之前,還執行以下操作:
[0120] 采用訓練音頻語料對GMM和HMM進行訓練,獲取訓練后的GMM輸出的至少一個音素 狀態中每個音素狀態的似然概率特征,并獲取訓練后的HMM的音素轉換概率;
[0121] 采用強制對齊操作將所述每個音素狀態的似然概率特征轉換為所述每個音素狀 態的后驗概率特征;
[0122] 根據在所述訓練音頻語料中所提取的訓練Filter bank特征以及所述每個音素狀 態的后驗概率特征,計算DNN模型中輸出層節點間的矩陣權重值和矩陣偏置值;
[0123] 將所述矩陣權重值和所述矩陣偏置值添加至所述DNN模型中,生成訓練后的DNN模 型。
[0124] 在一個實施例中,所述處理器1001在執行獲取基于交互應用所輸入的目標音頻數 據之前,還執行以下操作:
[0125] 在訓練詞序列語料中獲取訓練詞序列數據的出現概率,并根據所述訓練詞序列數 據的出現概率生成N-Gram語言模型。
[0126] 在一個實施例中,所述處理器1001在執行提取所述目標音頻數據中的目標Filter bank特征時,具體執行以下操作:
[0127] 對所述目標音頻數據進行數據分幀,獲取所述目標音頻數據中的至少一幀音頻數 據;
[0128] 獲取所述至少一幀音頻數據中每幀第一音頻數據對應的第一目標Filter bank特 征。
[0129] 在一個實施例中,所述處理器1001在執行將所述目標音頻數據中的目標Filter bank特征作為訓練后的DNN模型的輸入數據,獲取所述訓練后的DNN模型輸出的所述目標音 頻數據的目標音素狀態上的后驗概率特征時,具體執行以下操作:
[0130] 按照所述至少一幀音頻數據的時間排序,獲取所述每幀第一音頻數據的前后預設 幀數的第二音頻數據;
[0131]將所述第一目標Filter bank特征以及所述第二音頻數據對應的第二目標Filter bank特征作為訓練后的DNN模型的輸入數據,獲取所述訓練后的DNN模型輸出的所述第一目 標Filter bank特征的目標音素狀態上的后驗概率特征;
[0132] 其中,所述第一音頻數據為當前需要進行后驗概率特征計算的數據,所述第二音 頻數據為與所述第一音頻數據具備維度關聯性的數據。
[0133] 在一個實施例中,所述處理器1001在執行創建與所述目標音頻數據相關聯的音素 解碼網絡,并采用訓練后的HMM的音素轉換概率和所述目標音頻數據的目標音素狀態上的 后驗概率特征在所述解碼網絡中獲取所述目標音頻數據對應的目標詞序列數據時,具體執 行以下操作:
[0134] 創建與所述目標音頻數據相關聯的音素解碼網絡,并采用訓練后的HMM的音素轉 換概率、所述第一目標Filter bank特征的目標音素狀態上的后驗概率特征以及所述N-Gram語言模型,在所述解碼網絡中獲取所述目標音頻數據對應的目標詞序列數據。
[0135] 在本發明實施例中,在獲取到基于交互應用輸入的目標音頻數據時,通過獲取目 標音頻數據中的目標Filter bank特征,并基于訓練后的DNN模型以及訓練后的HMM,對目標 音頻數據進行語音識別得到目標詞序列數據。通過DNN模型和HMM所建立的聲學模型實現語 音識別的功能,并結合Fi 1 ter bank特征作為聲學模型的輸入數據,無需去除特征維度間的 相關性,可以滿足各種實際應用環境以及發音習慣的語音識別,提升了語音識別的準確 性;通過融合了 Fi 1 terbank特征提取的方法以及DNN-HMM聲學模型的訓練方法,實現了完整 的訓練到識別的過程;通過結合N-Gram語言模型獲取目標音頻數據對應的目標詞序列數 據,由于N-Gram語言模型可以自行推斷下一個詞出現的概率,因此可以結合出現概率對每 條網絡路徑的概率值進行加權,增加網絡路徑的可能性,進一步提升了語音識別的準確性。
[0136] 本領域普通技術人員可以理解實現上述實施例方法中的全部或部分流程,是可以 通過計算機程序來指令相關的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質 中,該程序在執行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質可為磁 碟、光盤、只讀存儲記憶體(Read-Only Memory,ROM)或隨機存儲記憶體(Random Access Memory,RAM)等。
[0137]以上所揭露的僅為本發明較佳實施例而已,當然不能以此來限定本發明之權利范 圍,因此依本發明權利要求所作的等同變化,仍屬本發明所涵蓋的范圍。
【主權項】
1. 一種語音識別方法,其特征在于,包括: 獲取基于交互應用所輸入的目標音頻數據; 提取所述目標音頻數據中的目標濾波器組Filter bank特征; 將所述目標音頻數據中的目標Filter bank特征作為訓練后的深層神經網絡DNN模型 的輸入數據,獲取所述訓練后的DNN模型輸出的所述目標音頻數據的目標音素狀態上的后 驗概率特征; 創建與所述目標音頻數據相關聯的音素解碼網絡,并采用訓練后的隱馬爾科夫模型 HMM的音素轉換概率和所述目標音頻數據的目標音素狀態上的后驗概率特征在所述解碼網 絡中獲取所述目標音頻數據對應的目標詞序列數據。2. 根據權利要求1所述的方法,其特征在于,所述獲取基于交互應用所輸入的目標音頻 數據之前,還包括: 采用訓練音頻語料對高斯混合模型GMM和HMM進行訓練,獲取訓練后的GMM輸出的至少 一個音素狀態中每個音素狀態的似然概率特征,并獲取訓練后的HMM的音素轉換概率; 采用強制對齊操作將所述每個音素狀態的似然概率特征轉換為所述每個音素狀態的 后驗概率特征; 根據在所述訓練音頻語料中所提取的訓練Filter bank特征以及所述每個音素狀態的 后驗概率特征,計算DNN模型中輸出層節點間的矩陣權重值和矩陣偏置值; 將所述矩陣權重值和所述矩陣偏置值添加至所述DNN模型中,生成訓練后的DNN模型。3. 根據權利要求2所述的方法,其特征在于,所述獲取基于交互應用所輸入的目標音頻 數據之前,還包括: 在訓練詞序列語料中獲取訓練詞序列數據的出現概率,并根據所述訓練詞序列數據的 出現概率生成N-Gram語言模型。4. 根據權利要求3所述的方法,其特征在于,所述提取所述目標音頻數據中的目標 Filter bank特征,包括: 對所述目標音頻數據進行數據分幀,獲取所述目標音頻數據中的至少一幀音頻數據; 獲取所述至少一幀音頻數據中每幀第一音頻數據對應的第一目標Filter bank特征。5. 根據權利要求4所述的方法,其特征在于,所述將所述目標音頻數據中的目標FiIter bank特征作為訓練后的DNN模型的輸入數據,獲取所述訓練后的DNN模型輸出的所述目標音 頻數據的目標音素狀態上的后驗概率特征,包括: 按照所述至少一幀音頻數據的時間排序,獲取所述每幀第一音頻數據的前后預設幀數 的第二音頻數據; 將所述第一目標Filter bank特征以及所述第二音頻數據對應的第二目標Filter bank特征作為訓練后的DNN模型的輸入數據,獲取所述訓練后的DNN模型輸出的所述第一目 標Filter bank特征的目標音素狀態上的后驗概率特征; 其中,所述第一音頻數據為當前需要進行后驗概率特征計算的數據,所述第二音頻數 據為與所述第一音頻數據具備維度關聯性的數據。6. 根據權利要求5所述的方法,其特征在于,所述創建與所述目標音頻數據相關聯的音 素解碼網絡,并采用訓練后的HMM的音素轉換概率和所述目標音頻數據的目標音素狀態上 的后驗概率特征在所述解碼網絡中獲取所述目標音頻數據對應的目標詞序列數據,包括: 創建與所述目標音頻數據相關聯的音素解碼網絡,并采用訓練后的HMM的音素轉換概 率、所述第一目標Filter bank特征的目標音素狀態上的后驗概率特征以及所述N-Gram語 言模型,在所述解碼網絡中獲取所述目標音頻數據對應的目標詞序列數據。7. -種語音識別設備,其特征在于,包括: 音頻數據獲取單元,用于獲取基于交互應用所輸入的目標音頻數據; 特征提取單元,用于提取所述目標音頻數據中的目標FiIter bank特征; 特征獲取單元,用于將所述目標音頻數據中的目標FiIter bank特征作為訓練后的DNN 模型的輸入數據,獲取所述訓練后的DNN模型輸出的所述目標音頻數據的目標音素狀態上 的后驗概率特征; 詞序列數據獲取單元,用于創建與所述目標音頻數據相關聯的音素解碼網絡,并采用 訓練后的HMM的音素轉換概率和所述目標音頻數據的目標音素狀態上的后驗概率特征在所 述解碼網絡中獲取所述目標音頻數據對應的目標詞序列數據。8. 根據權利要求7所述的設備,其特征在于,還包括: 聲學模型訓練單元,用于采用訓練音頻語料對GMM和HMM進行訓練,獲取訓練后的GMM輸 出的至少一個音素狀態中每個音素狀態的似然概率特征,并獲取訓練后的HMM的音素轉換 概率; 特征轉換單元,用于采用強制對齊操作將所述每個音素狀態的似然概率特征轉換為所 述每個音素狀態的后驗概率特征; 參數計算單元,用于根據在所述訓練音頻語料中所提取的訓練Filter bank特征以及 所述每個音素狀態的后驗概率特征,計算DNN模型中輸出層節點間的矩陣權重值和矩陣偏 置值; 聲學模型生成單元,用于將所述矩陣權重值和所述矩陣偏置值添加至所述DNN模型中, 生成訓練后的DNN模型。9. 根據權利要求8所述的設備,其特征在于,還包括: 語言模型生成單元,用于在訓練詞序列語料中獲取訓練詞序列數據的出現概率,并根 據所述訓練詞序列數據的出現概率生成N-Gram語言模型。10. 根據權利要求9所述的設備,其特征在于,所述特征提取單元包括: 第一數據獲取子單元,用于對所述目標音頻數據進行數據分幀,獲取所述目標音頻數 據中的至少一幀音頻數據; 第一特征獲取子單元,用于獲取所述至少一幀音頻數據中每幀第一音頻數據對應的第 一目標Filter bank特征。11. 根據權利要求10所述的設備,其特征在于,所述特征獲取單元包括: 第二數據獲取子單元,用于按照所述至少一幀音頻數據的時間排序,獲取所述每幀第 一音頻數據的前后預設幀數的第二音頻數據; 第二特征獲取子單元,用于將所述第一目標Filter bank特征以及所述第二音頻數據 對應的第二目標Filter bank特征作為訓練后的DNN模型的輸入數據,獲取所述訓練后的 DNN模型輸出的所述第一目標Filter bank特征的目標音素狀態上的后驗概率特征; 其中,所述第一音頻數據為當前需要進行后驗概率特征計算的數據,所述第二音頻數 據為與所述第一音頻數據具備維度關聯性的數據。12.根據權利要求11所述的設備,其特征在于,所述詞序列數據獲取單元具體用于創建 與所述目標音頻數據相關聯的音素解碼網絡,并采用訓練后的HMM的音素轉換概率、所述第 一目標Filter bank特征的目標音素狀態上的后驗概率特征以及所述N-Gram語言模型,在 所述解碼網絡中獲取所述目標音頻數據對應的目標詞序列數據。
【文檔編號】G10L15/14GK105976812SQ201610272292
【公開日】2016年9月28日
【申請日】2016年4月28日
【發明人】錢柄樺, 吳富章, 李為, 李科, 吳永堅, 黃飛躍
【申請人】騰訊科技(深圳)有限公司