一種語音識別方法和裝置的制造方法
【技術領域】
[0001] 本發明實施例涉及語音識別技術領域,尤其涉及一種語音識別方法和裝置。
【背景技術】
[0002] 語音識別技術已逐漸普及到我們熟知的各個領域中,語音識別服務支持的場景也 伴隨著用戶需求的增加而逐步增多,比如普通話語音識別、英文語音識別、粵語語音識別和 四川話語音識別等。
[0003] 基于統計的聲學模型在選定的實際產品方向中的建模能力非常強,比如普通話語 音識別方向、英文語音識別方向和各個方言語音識別方向等。每個產品方向的聲學模型可 以通過累積語音數據,來進一步提高聲學模型的建模能力。但是,實際的語音識別服務場景 可能無法有效區分用戶的語音內容,從而無法有效的把用戶的語音識別請求定位到對應的 聲學模型上進行語音識別,比如對于普通話的語音識別服務,可能會有說粵語的用戶對其 進行語音識別請求,或者還可能會有帶粵語口音的用戶對其進行語音識別請求等。這時普 通話的語音識別服務可能無法有效區分上述用戶的語音內容,導致語音識別準確率的急劇 下降或者識別結果完全不對,給用戶的語音識別服務體驗帶來挫敗感。
[0004] 現有技術中的語音識別服務在處理用戶的語音識別請求時,一般都使用單個聲學 模型,且通常會有如下三種處理方式:
[0005] 1、專注于特定產品方向的語音識別請求,通過識別結果引導或者在客戶端提示用 戶使用產品方向的語音來獲得更好的用戶體驗。該方式專注于特定產品方向的語音識別請 求,一旦用戶的語音識別請求和聲學模型不匹配,那么用戶體驗無法保證。例如普通話的語 音識別服務只能提供用戶的普通話語音識別請求,而無法滿足四川話語音識別請求。
[0006] 2、部分或者全面覆蓋用戶可能使用的產品方向的語音,該方法通過增加聲學模型 訓練在多個產品方向的語音數據,提高聲學模型的產品覆蓋能力。該方式會降低聲學層面 建模單元的區分度,進而導致各個產品方向識別率的普遍降低。
[0007] 3、為不同產品方向的用戶語音識別請求分別提供獨立的語音識別服務,將用戶的 語音識別請求盡可能定位到對應聲學模型的語音識別服務中。該方式從產品的角度無法保 證將用戶的語音識別請求都準確定位到各自對應聲學模型的語音識別服務上,而且用戶說 話方式的多樣性也給語音識別服務對應的聲學模型帶來更多需要解決的問題,例如普通話 的語音識別服務在響應用戶帶粵語口音的普通話語音識別請求時,識別率會顯著下降。
【發明內容】
[0008] 本發明提供一種語音識別方法和裝置,以實現改善用戶的語音識別請求的識別性 能,提高語音識別準確率,提升用戶體驗。
[0009] 第一方面,本發明實施例提供了一種語音識別方法,包括:
[0010] 對輸入語音進行聲學特征提取,并根據所述提取的聲學特征分別計算多個不同類 型的聲學模型中各聲學建模單元的似然值;
[0011] 將所述多個不同類型的聲學模型中各聲學建模單元的似然值進行融合處理;
[0012] 根據融合處理結果獲取所述輸入語音的識別結果。
[0013] 第二方面,本發明實施例還提供了一種語音識別裝置,包括:
[0014] 似然值計算模塊,用于對輸入語音進行聲學特征提取,并根據所述提取的聲學特 征分別計算多個不同類型的聲學模型中各聲學建模單元的似然值;
[0015] 融合處理模塊,用于將所述多個不同類型的聲學模型中各聲學建模單元的似然值 進行融合處理;
[0016] 識別模塊,用于根據融合處理結果獲取所述輸入語音的識別結果。
[0017] 本發明通過對輸入語音進行聲學特征提取,并根據所述提取的聲學特征分別計算 多個不同類型的聲學模型中各聲學建模單元的似然值,然后將所述多個不同類型的聲學模 型中各聲學建模單元的似然值進行融合處理,并根據融合處理結果獲取所述輸入語音的識 別結果,相比于現有技術,本發明采用多聲學模型的融合處理方案,充分利用多個不同類型 的聲學模型在各自方向上的建模能力,顯著改善了用戶語音識別請求與聲學模型不匹配的 問題,增強了語音識別的魯棒性,識別準確度高,提升了用戶體驗。
【附圖說明】
[0018] 圖1為本發明實施例一提供的一種語音識別方法的流程圖;
[0019] 圖2為本發明實施例一提供的一種聲學模型融合不意圖;
[0020] 圖3為本發明實施例二提供的一種語音識別方法的流程示意圖;
[0021] 圖4為本發明實施例三提供的一種語音識別方法的流程示意圖;
[0022] 圖5為本發明實施例三提供的一種聲學建模單元的似然值融合示意圖;
[0023] 圖6為本發明實施例四提供的一種語音識別裝置的結構示意圖。
【具體實施方式】
[0024] 下面結合附圖和實施例對本發明作進一步的詳細說明。可以理解的是,此處所描 述的具體實施例僅僅用于解釋本發明,而非對本發明的限定。另外還需要說明的是,為了便 于描述,附圖中僅示出了與本發明相關的部分而非全部結構。
[0025] 實施例一
[0026] 圖1為本發明實施例一提供的一種語音識別方法的流程圖,該方法主要通過計算 機設備中的語音識別裝置來執行,所述計算機設備包括但不限于以下中的至少一個:用戶 設備和網絡設備。用戶設備包括但不限于計算機、智能手機和平板電腦等。網絡設備包括 但不限于單個網絡服務器、多個網絡服務器組成的服務器組或由大量計算機或網絡服務器 構成的云。具體的所述語音識別裝置可以通過語音解碼器的方式實現。如圖1所示,所述 語音合成方法具體包括如下操作:
[0027] S110、對輸入語音進行聲學特征提取,并根據所述提取的聲學特征分別計算多個 不同類型的聲學模型中各聲學建模單元的似然值;
[0028] 在該步驟之前,還可以先對輸入語音進行前端處理,所述前端處理包括消除噪聲、 端點檢測和語音增強等,使處理后的語音更能反映語音的本質特征。在對輸入語音進行前 端處理后,再進行聲學特征提取。聲學特征提取是將輸入語音進行語音信息參數化,轉換成 機器可以識別處理的語音特征矢量。所述聲學特征例如包括時域、頻域和倒譜域特征等。時 域特征主要反應短時平均能量、基調周期、共振峰等,頻域特征主要反應傅里葉頻譜特征, 倒譜域特征主要基于線性預測編碼倒譜的LPCC特征等。提取聲學特征后,根據所述提取的 聲學特征分別計算多個不同類型的聲學模型中各聲學模型建模單元的似然值,其中,所述 聲學建模單元是,具體的,HMM(Hidden Markov Model)聲學模型中三因子模型所屬的每個 狀態,或者,DNN(De印Neural Networks)聲學模型中的每個輸出狀態。其中,所述聲學建 模單元的似然值是,所述提取的聲學特征在聲學建模單元上計算得到的狀態輸出概率。
[0029] S120、將所述多個不同類型的聲學模型中各聲學建模單元的似然值進行融合處 理;
[0030] 操作SllO針對每個聲學模型均可以得到對應的一套聲學建模單元的似然值。操 作S120將操作SllO獲得的各聲學模型中聲學建模單元的似然值進行融合處理,即融合為 一套聲學建模單元的似然值。圖2為本發明實施例一提供的一種聲學模型融合示意圖,圖 2示例性的,選擇2個聲學模型,通過兩套聲學模型計算得到兩套似然值得分;