用于語音識別系統的增益處理方法及裝置的制造方法
【技術領域】
[0001] 本申請涉及語音識別處理技術領域,尤其涉及一種用于語音識別系統的增益處理 方法及裝置。
【背景技術】
[0002] 隨著語音識別技術的發展,語音識別系統的應用領域越來越廣。現有的語音識別 系統通常利用海量的音頻數據來訓練一個通用的模型用于語音識別。
[0003] 然而,在實際使用語音識別系統時,待識別的音頻數據的統計特性和訓練數據不 可避免的會出現不匹配,這種不匹配尤其體現在音頻信號的幅度上。另外,語音識別系統通 常要求麥克風接收到的音頻幅值高于一定的門限,一旦音頻幅值低于該門限,則識別系統 的性能大大降低。
【發明內容】
[0004] 本申請旨在至少在一定程度上解決相關技術中的技術問題之一。
[0005] 為此,本申請的第一個目的在于提出一種用于語音識別系統的增益處理方法,該 方法實現了對音頻數據進行自動的增益調整,使得麥克風接收到的音頻信號的幅值大于語 音識別系統的門限值,而且與語音識別系統中的訓練數據相匹配,提高了語音識別系統的 穩健性。
[0006] 本申請的第二個目的在于提出一種用于語音識別系統的增益處理裝置。
[0007] 為達上述目的,本申請第一方面實施例提出了一種用于語音識別系統的增益處理 方法,包括:從輸入的預設幀長的第一音頻數據中,根據預設的分割長度獲取每個音頻段的 峰值;根據每個音頻段的峰值以及預設的音頻期望幅值,獲取每個音頻段的分塊增益,其 中,所述音頻期望幅值與語音識別系統中的訓練數據匹配;從所有分塊增益中從小到大選 擇預設的Μ個分塊增益值進行中值濾波處理,獲取所述第一音頻數據的期望增益;應用所 述期望增益對所述第一音頻數據進行幅度調整。
[0008] 本申請實施例的用于語音識別系統的增益處理方法,首先從輸入的預設幀長的第 一音頻數據中,根據預設的分割長度獲取每個音頻段的峰值;然后根據每個音頻段的峰值 以及預設的音頻期望幅值,獲取每個音頻段的分塊增益,其中,所述音頻期望幅值與語音識 別系統中的訓練數據匹配;從所有分塊增益中從小到大選擇預設的Μ個分塊增益值進行中 值濾波處理,獲取所述第一音頻數據的期望增益;最后應用所述期望增益對所述第一音頻 數據進行幅度調整。由此,實現了對音頻數據進行自動的增益調整,使得麥克風接收到的音 頻信號的幅值大于語音識別系統的門限值,而且與語音識別系統中的訓練數據相匹配,提 高了語音識別系統的穩健性。
[0009] 為達上述目的,本申請第二方面實施例提出了一種用于語音識別系統的增益處理 裝置,包括:第一獲取模塊,用于從輸入的預設幀長的第一音頻數據中,根據預設的分割長 度獲取每個音頻段的峰值;第二獲取模塊,用于根據每個音頻段的峰值以及預設的音頻期 望幅值,獲取每個音頻段的分塊增益,其中,所述音頻期望幅值與語音識別系統中的訓練數 據匹配;第一處理模塊,用于從所有分塊增益中從小到大選擇預設的Μ個分塊增益值進行 中值濾波處理,獲取所述第一音頻數據的期望增益;調整模塊,用于應用所述期望增益對所 述第一音頻數據進行幅度調整。
[0010] 本申請實施例的用于語音識別系統的增益處理裝置,通過第一獲取模塊從輸入的 預設幀長的第一音頻數據中,根據預設的分割長度獲取每個音頻段的峰值;通過第二獲取 模塊根據每個音頻段的峰值以及預設的音頻期望幅值,獲取每個音頻段的分塊增益,其中, 所述音頻期望幅值與語音識別系統中的訓練數據匹配;通過第一處理模塊從所有分塊增益 中從小到大選擇預設的Μ個分塊增益值進行中值濾波處理,獲取所述第一音頻數據的期望 增益;通過調整模塊應用所述期望增益對所述第一音頻數據進行幅度調整。由此,實現了對 音頻數據進行自動的增益調整,使得麥克風接收到的音頻信號的幅值大于語音識別系統的 門限值,而且與語音識別系統中的訓練數據相匹配,提高了語音識別系統的穩健性。
【附圖說明】
[0011] 本發明上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變 得明顯和容易理解,其中:
[0012] 圖1是本申請一個實施例的用于語音識別系統的增益處理方法的流程圖;
[0013] 圖2是本申請另一個實施例的用于語音識別系統的增益處理方法的流程圖;
[0014] 圖3是本申請另一個實施例的用于語音識別系統的增益處理方法的流程圖;
[0015] 圖4是本申請另一個實施例的用于語音識別系統的增益處理方法的流程圖;
[0016] 圖5是本申請一個實施例的用于語音識別系統的增益處理裝置的結構示意圖;
[0017] 圖6是本申請另一個實施例的用于語音識別系統的增益處理裝置的結構示意圖;
[0018] 圖7是本申請另一個實施例的用于語音識別系統的增益處理裝置的結構示意圖;
[0019] 圖8是本申請另一個實施例的用于語音識別系統的增益處理裝置的結構示意圖。
【具體實施方式】
[0020] 下面詳細描述本申請的實施例,所述實施例的示例在附圖中示出,其中自始至終 相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附 圖描述的實施例是示例性的,旨在用于解釋本申請,而不能理解為對本申請的限制。
[0021] 下面參考附圖描述本申請實施例的用于語音識別系統的增益處理方法及裝置。
[0022] 圖1是本申請一個實施例的用于語音識別系統的增益處理方法的流程圖。
[0023] 如圖1所示,該用于語音識別系統的增益處理方法包括:
[0024] 步驟101,從輸入的預設幀長的第一音頻數據中,根據預設的分割長度獲取每個音 頻段的峰值。
[0025] 具體來說,本發明實施例提供的用于語音識別系統的增益處理方法應用于語音識 別系統中,對輸入的音頻數據的幅度進行增益調整。
[0026] 首先,根據預設幀長從語音識別系統輸入的音頻數據中確定當前待處理的音頻數 據幀,即第一音頻數據,(為了避免與本實施例中其他的音頻數據混淆,預設幀長的當前待 處理的音頻數據幀為第一音頻數據),其中,預設幀長可以根據應用需要和識別性能要求進 行靈活設置,例如從50ms到250ms的音頻范圍內選取80ms這個值作為預設幀長,則從當前 輸入的音頻數據中選取80ms的音頻數據作為第一音頻數據進行處理。
[0027] 然后從第一音頻數據中,根據預設的分割長度獲取每個音頻段的峰值。其中,預設 的分割長度可以根據應用需要和識別性能要求進行靈活設置,例如將分割長度設置為l〇ms 時,對80ms的第一音頻數據進行分割處理即獲取8個音頻段,進而獲取與8個音頻段分別 對應的峰值。
[0028] 步驟102,根據每個音頻段的峰值以及預設的音頻期望幅值,獲取每個音頻段的分 塊增益,其中,所述音頻期望幅值與語音識別系統中的訓練數據匹配。
[0029] 預先根據語音識別系統中的訓練數據設置音頻期望幅值,從而使進行增益調整后 的第一音頻數據的音頻信號的幅值大于語音識別系統的門限值,而且與語音識別系統中的 訓練數據相匹配。
[0030] 根據獲取的每個音頻段的峰值以及預設的音頻期望幅值,獲取每個音頻段的分塊 增益,需要注意的是,獲取每個音頻段的分塊增益的算法很多,可以根據應用需要進行選 擇,例如,預設的音頻期望幅值與每個音頻段的峰值的比值作為每個音頻段的分塊增益。
[0031] 步驟103,從所有分塊增益中從小到大選擇預設的Μ個分塊增益值進行中值濾波 處理,獲取所述第一音頻數據的期望增益。
[0032] 具體地,從所有分塊增益中從小到大選擇預設的Μ個分塊增益值進行中值濾波處 理,其中,Μ可以根據應用需要進行設置,比如為3,或者5,將Μ個分塊增益的中間值作為所 述第一音頻數據的期望增益。
[0033] 步驟104,應用所述期望增益對所述第一音頻數據進行幅度調整。
[0034] 應用獲取的期望增益與該第一音頻數據進行相乘,對第一音頻數據的幅度進行調 整,并采用語音識別系統對調整后的第一音頻數據進行識別處理。
[0035] 為了更加清楚的描述本實施例提供的用于語音識別系統的增益處理方法,以第一 音頻數據的預設幀長為80ms ;預設的分割長度為10ms ;預設的音頻期望幅值為25000為例 具體說明如下:
[0036] 對80ms的第一音頻數據按照每10ms分割計算其增益,
[0038] 上式中PeakLeveli表示第i個10ms數據的峰值。
[0039] 為了防止沖擊噪音對增益控制的影響,從8個增益中取出3個最小值,并對3個最 小值進行中值濾波,得到相對于預設的音頻期望幅值,當前80ms的期望增益g_。
[0040] 本實施例的用于語音識別系統的增益處理方法,首先從輸入的預設幀長的第一音 頻數據中,根據預設的分割長度獲取每個音頻段的峰值;然后根據每個音頻段的峰值以及 預設的音頻期望幅值,獲取每個音頻段的分塊增益,其中,所述音頻期望幅值與語音識別系 統中的訓練數據匹配;從所有分塊增益中從小到大選擇預設的Μ個分塊增益值進行中值濾 波處理,獲取所述第一音頻數據的期望增益;最后應用所述期望增益對所述第一音頻數據 進行幅度調整。由此,實現了對音頻數據進行自動的增益調整,使得麥克風接收到的音頻信 號的幅值大于語音識別系統的門限值,而且與語音識別系統中的訓練數據相匹配,提高了 語音識別系統的穩健性。
[0041] 基于上述實施例,為了進一步的避免不同音頻段之間增益存在跳變,保證音頻在 段與段之間的連續性,進一步地提高識別性能,通過圖2所示實施例對第一音頻