語音/音樂識別方法及裝置的制作方法

文檔序號：2823844閱讀：216來源：國知局

專利名稱：語音/音樂識別方法及裝置的制作方法
技術領域：
本發明涉及通信技術領域，尤其涉及一種語音/音樂識別方法及裝置。
背景技術：
在數字音頻編碼技術發展過程中，由于語音和音樂各自具有不同的編碼特點，因而在對語音和音樂進行編碼時，通常需要采用適合其自身特點的編碼技術。比如用于語音的編碼技術有GSM和CELPC等，用于音樂的編碼技術有MP3，AAC等。近些年，現有技術提出一種語音音樂聯合編碼技術，利用該技術在同時對語音和音樂進行編碼時，首先需要對輸入的音頻信號進行識別，即識別出當前音頻信號為語音內容還是音樂內容，然后對語音內容和音樂內容分別使用不同的編碼方式。因而，能否正確地對語音和音樂進行識別將直接影響到音頻編碼的效果。現有技術提供一種語音/音樂識別技術，利用語音和音樂在某些特征參數上的區別對音頻信號進行識別。具體實現過程如下預先將輸入的音頻信號劃分為40ms長的幀，幀與幀之間有20ms的重疊。通過特征參數提取器對輸入的當前幀進行特征參數的提取。該特征參數包括若干短時特征參數和長時特征參數。其中，短時特征參數如過零率等，可以從單一幀片段中提取；長時特征參數如4Hz調制能量，則必須在多個連續的幀片段中才能提取。接著，特征參數提取器將提取出的特征參數集輸出給特征參數選擇器。由于過多的特征參數有時會降低分類的準確度，因而特征參數選擇器會對輸入的特征參數進行處理，例如會去掉一些特征參數。之后，經過特征參數選擇器處理后的特征參數集將輸出到分類器。該分類器可以采用不同的分類算法來識別出當前幀的編碼模式，比如采用高斯分類器、k鄰近算法、神經網絡等分類算法。這些算法最初可以通過使用一些樣本訓練，學習根據特征參數集進行分類的規則。之后依據訓練得到的分類規則對輸入的特征參數集進行分類，從而識別出當前幀的編碼模式為語音還是音樂。為了防止上述分類器對個別幀的誤識別，編碼器不直接根據分類器識別出的結果進行編碼，而是由編碼模式選擇器作進一步的判斷。判斷過程如下首先，判斷當前幀是否為靜音片段，如果是靜音片段就直接采用上一幀的編碼模式；否則，進一步作如下判斷如果上述分類器得出的當前幀的編碼模式和上一幀的編碼模式不同，則將過去若干幀的編碼模式信息進行平均，如果得出的平均值超過預設門限值，則切換編碼模式，即采用分類器得出的當前幀的編碼模式，否則繼續使用上一幀的編碼模式。然而，發明人發現如果輸入的音頻信號為含有打擊樂器聲的音樂，在采用現有的語音/音樂識別技術對輸入的音頻信號進行識別時，通常會將該含有打擊樂器聲的音樂誤判為語音，采用現有的語音/音樂識別技術對含有打擊樂器聲的音樂的識別準確率較低。

發明內容
本發明的實施例提供一種語音/音樂識別方法及裝置，提高對音樂的識別準確率。本發明實施例提供一種語音/音樂識別方法，包括在上一幀音頻信號的編碼模式為音樂模式時，判斷當前幀之前的指定個數幀的幀能量的變化率和所述當前幀的幀能量是否滿足打擊樂條件；在當前幀之前的指定個數幀的幀能量的變化率和所述當前幀的幀能量滿足打擊樂條件時，確定當前幀的編碼模式為音樂模式。本發明實施例還提供一種語音/音樂識別裝置，包括判斷單元，用于在上一幀音頻信號的編碼模式為音樂模式時，判斷當前幀之前的指定個數幀的幀能量的變化率和所述當前幀的幀能量是否滿足打擊樂條件；第一確定單元，用于在當前幀之前的指定個數幀的幀能量的變化率和所述當前幀的幀能量滿足打擊樂條件時，確定當前幀的編碼模式為音樂模式。由上述技術方案所描述的本發明實施例，在上一幀音頻信號的編碼模式為音樂模式時，對當前幀音頻信號進行是否包含打擊樂的檢測，如果在當前幀之前的指定個數幀的幀能量的變化率和所述當前幀的幀能量滿足打擊樂條件時，說明此時當前幀為含有打擊與的音樂，那么確定當前幀的編碼模式為音樂模式。無論所述當前幀音頻信號的分類結果如何，均采用音樂模式對當前幀進行編碼，從而減少了對含有打擊樂的音樂信號的誤判，與現有技術容易將含有打擊樂的音樂信號誤判為語音相比，本發明實施例可以提高對含有打擊樂的音樂識別的準確率。

為了更清楚地說明本發明實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發明的一些實施例，對于本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些附圖獲得其他的附圖。圖1為本發明實施例提供的一種語音/音樂識別方法的流程圖；圖2為本發明實施例提供的另一種語音/音樂識別方法的流程圖；圖3為本發明實施例提供的一種根據所述當前幀之前的指定個數幀的分類結果確定所述當前幀的編碼模式的方法的流程圖；圖4為本發明實施例提供的一段含有打擊音樂的音頻信號的波形示意圖；圖5為本發明實施例對當前幀進行分類時采用的決策樹模型示意圖；圖6為本發明實施例提供一種語音/音樂識別裝置的結構圖；圖7為本發明實施例提供另一種語音/音樂識別裝置的結構圖；圖8為本發明實施例提供又一種語音/音樂識別裝置的結構圖。
具體實施例方式下面將結合本發明實施例中的附圖，對本發明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發明一部分實施例，而不是全部的實施例。基于本發明中的實施例，本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例，都屬于本發明保護的范圍。
如圖1所示的本發明實施例提供一種語音/音樂識別方法，該方法包括如下步驟101、在上一幀音頻信號的編碼模式為音樂模式時，判斷當前幀之前的指定個數幀的幀能量的變化率和所述當前幀的幀能量是否滿足打擊樂條件；102、在當前幀之前的指定個數幀的幀能量的變化率和所述當前幀的幀能量滿足打擊樂條件時，確定當前幀的編碼模式為音樂模式。本發明實施例提供的語音/音樂識別方法，在上一幀音頻信號的編碼模式為音樂模式時，對當前幀音頻信號進行是否包含打擊樂的檢測，如果在當前幀之前的指定個數幀的幀能量的變化率和所述當前幀的幀能量滿足打擊樂條件時，確定當前幀的編碼模式為音樂模式。如果當前幀音頻信號為音樂信號，則無論所述當前幀音頻信號的分類結果如何，均采用音樂模式對當前幀進行編碼，從而減少了對含有打擊樂的音樂信號的誤判，與現有技術容易將含有打擊樂的音樂信號誤判為語音相比，本發明實施例可以提高對含有打擊樂的音樂識別的準確率。進一步地，為了更清楚、完整地描述本發明實施例提供的一種語音/音樂識別方法，下面詳細介紹對一段音頻信號的完整識別過程，如圖2所示，具體包括如下步驟當一段音頻信號輸入時，該音頻信號會被劃分為若干音頻信號幀，本發明實施例提供的語音/音樂識別方法需要對每一幀進行語音/音樂識別。201、從當前幀提取出指定參數，并利用所述指定參數計算出所述當前幀的特征參數集。對于每一幀音頻信號均需要進行特征參數集的提取。具體地，所述提取出的指定參數包括幀能量、譜傾斜、頻率中心、譜通量、子帶譜通量和子帶能量比。這些指定參數需要根據相應的公式計算得出，具體如下幀能量的計算公式為= 。其中，Vi是當前幀內第i個采樣點的幅值，1為
/=1
一幀的長度。一般，語音中濁音的音量大於清音的音量，而清音的音量又大于噪音的音量。提取幀能量主要用于判斷靜音和音頻能量波動。
權利要求
1.一種語音/音樂識別方法，其特征在于，包括在上一幀音頻信號的編碼模式為音樂模式時，判斷當前幀之前的指定個數幀的幀能量的變化率和所述當前幀的幀能量是否滿足打擊樂條件；在當前幀之前的指定個數幀的幀能量的變化率和所述當前幀的幀能量滿足打擊樂條件時，確定當前幀的編碼模式為音樂模式。
2.根據權利要求1所述的語音/音樂識別方法，其特征在于，還包括從當前幀提取出指定參數，并利用所述指定參數計算出所述當前幀的特征參數集；根據所述特征參數集獲取所述當前幀的分類結果，所述分類結果為語音或者音樂。
3.根據權利要求2所述的語音/音樂識別方法，其特征在于，所述指定參數包括幀能量、譜傾斜、頻率中心、譜通量、子帶譜通量和子帶能量比；所述當前幀的特征參數集包括譜傾斜的變化率、頻率中心的變化率、譜通量的變化率、子帶譜通量的變化率、譜通量的變化率的動態平均值、子帶譜通量的變化率的動態平均值和子帶能量比的動態平均值。
4.根據權利要求2所述的語音/音樂識別方法，其特征在于，還包括在當前幀之前的指定個數幀的幀能量的變化率和所述當前幀的幀能量不滿足打擊樂條件時，根據所述當前幀之前的指定個數幀的分類結果確定所述當前幀的編碼模式。
5.根據權利要求4所述的語音/音樂識別方法，其特征在于，所述在當前幀之前的指定個數幀的幀能量的變化率和所述當前幀的幀能量滿足打擊樂條件時具體為在當前幀之前的指定個數幀的幀能量的變化率大于第一預設門限值，并且所述當前幀的幀能量大于所述指定個數幀的幀能量的平均值的預設倍數時；所述在當前幀之前的指定個數幀的幀能量的變化率和所述當前幀的幀能量不滿足打擊樂條件時具體為在所述當前幀之前的指定個數幀的幀能量的變化率不大于第一預設門限值時，或者在所述當前幀的幀能量不大于所述指定個數幀的幀能量的平均值的預設倍數時。
6.根據權利要求4所述的語音/音樂識別方法，其特征在于，所述根據所述當前幀之前的指定個數幀的分類結果確定所述當前幀的編碼模式包括分別計算所述當前幀之前的指定個數幀的分類結果對應數值的平均值和特定變換次數；在所述平均值小于預設音樂門限值時，設置所述當前幀的臨時標記為音樂；在所述平均值大于預設語音門限值時，設置所述當前幀的臨時標記為語音；如果所述當前幀的臨時標記所表示的編碼模式與所述當前幀的上一幀的編碼模式相同時，確定所述當前幀的編碼模式采用上一幀的編碼模式；如果所述當前幀的臨時標記所表示的編碼模式與所述當前幀的上一幀的編碼模式不相同時，則判斷所述特定變換次數是否大于第二預設門限值；在所述特定變換次數大于第二預設門限值時，確定所述當前幀的編碼模式采用上一幀的編碼模式，在所述特定變換次數不大于第二預設門限值時，確定所述當前幀的編碼模式采用所述當前幀的臨時標記所表示的編碼模式。
7.根據權利要求6所述的語音/音樂識別方法，其特征在于，分別計算所述當前幀之前的指定個數幀的分類結果的平均值和特定變換次數包括根據叉=ξX'計算所述當前幀之前的指定個數幀的分類結果的平均值，其中，所述Xi m表示第i幀的分類結果的數值，m表示指定個數；m根據/=Zk-I1I計算所述當前幀之前的指定個數幀的分類結果的特定變換次數， /=2其中所述&表示第i幀的分類結果的數值，m表示指定個數。
8.一種語音/音樂識別裝置，其特征在于，包括判斷單元，用于在上一幀音頻信號的編碼模式為音樂模式時，判斷當前幀之前的指定個數幀的幀能量的變化率和所述當前幀的幀能量是否滿足打擊樂條件；第一確定單元，用于在當前幀之前的指定個數幀的幀能量的變化率和所述當前幀的幀能量滿足打擊樂條件時，確定當前幀的編碼模式為音樂模式。
9.根據權利要求8所述的語音/音樂識別裝置，其特征在于，還包括提取單元，用于從當前幀提取出指定參數，并利用所述指定參數計算出所述當前幀的特征參數集；分類單元，用于根據所述特征參數集獲取所述當前幀的分類結果，所述分類結果為語首或者首樂。
10.根據權利要求8所述的語音/音樂識別裝置，其特征在于，還包括第二確定單元，用于在當前幀之前的指定個數幀的幀能量的變化率和所述當前幀的幀能量不滿足打擊樂條件時，根據所述當前幀之前的指定個數幀的分類結果確定所述當前幀的編碼模式。
11.根據權利要求8或10所述的語音/音樂識別裝置，其特征在于，所述第一確定單元具體用于在當前幀之前的指定個數幀的幀能量的變化率大于第一預設門限值，并且所述當前幀的幀能量大于所述指定個數幀的幀能量的平均值的預設倍數時，確定當前幀的編碼模式為音樂模式；所述第二確定單元具體用于在所述當前幀之前的指定個數幀的幀能量的變化率不大于第一預設門限值時，或者在所述當前幀的幀能量不大于所述指定個數幀的幀能量的平均值的預設倍數時，根據所述當前幀之前的指定個數幀的分類結果確定所述當前幀的編碼模式。
12.根據權利要求10所述的語音/音樂識別裝置，其特征在于，所述第二確定單元包括計算模塊，用于分別計算所述當前幀之前的指定個數幀的分類結果對應數值的平均值和特定變換次數；設置模塊，用于在所述平均值小于預設音樂門限值時，設置所述當前幀的臨時標記為H爾；所述設置模塊還用于在所述平均值大于預設語音門限值時，設置所述當前幀的臨時標記為語音；第一確定模塊，用于如果所述當前幀的臨時標記所表示的編碼模式與所述當前幀的上一幀的編碼模式相同時，確定所述當前幀的編碼模式采用上一幀的編碼模式；判斷模塊，用于如果所述當前幀的臨時標記所表示的編碼模式與所述當前幀的上一幀的編碼模式不相同時，則判斷所述特定變換次數是否大于第二預設門限值；第二確定模塊，用于在所述特定變換次數大于第二預設門限值時，確定所述當前幀的編碼模式采用上一幀的編碼模式，在所述特定變換次數不大于第二預設門限值時，確定所述當前幀的編碼模式采用所述當前幀的臨時標記所表示的編碼模式。
13.根據權利要求12所述的語音/音樂識別裝置，其特征在于，所述第二確定單元中的m計算模塊具體用于根據γ 計算所述當前幀之前的指定個數幀的分類結果的平均值，m其中，所述Xi表示第i幀的分類結果的數值，m表示指定個數；m所述第二確定單元中的計算模塊具體還用于根據/^ΣΙ^-^^Ι計算所述當前幀之前/=2的指定個數幀的分類結果的特定變換次數，其中所述Xi表示第i幀的分類結果的數值，m表示指定個數。
全文摘要
本發明實施例公開一種語音/音樂識別方法及裝置，涉及音頻技術領域，可以提高對音樂的識別準確率。包括在上一幀音頻信號的編碼模式為音樂模式時，判斷當前幀之前的指定個數幀的幀能量的變化率和所述當前幀的幀能量是否滿足打擊樂條件；在當前幀之前的指定個數幀的幀能量的變化率和所述當前幀的幀能量滿足打擊樂條件時，確定當前幀的編碼模式為音樂模式。本發明實施例主要應用于對音頻進行語音/音樂識別的過程中，可以提高對音樂的識別準確率。
文檔編號G10L19/00GK102446504SQ201010299618
公開日2012年5月9日申請日期2010年10月8日優先權日2010年10月8日
發明者劉佩林, 劉紫赟, 應忍冬, 蔣三新申請人:華為技術有限公司

完整全部詳細技術資料下載