專利名稱:音頻信號的分類方法及裝置的制作方法
技術領域:
本發明涉及通信技術領域語音頻技術,尤其涉及一種音頻信號的分類方法及裝置。
背景技術:
語音編碼器擅長于在中低碼率下對語音類型的音頻信號進行編碼,而對音樂類型的音頻信號編碼效果則欠佳;音頻編碼器適用于在高碼率下對語音類型和音樂類型的音頻信號進行編碼,但在中低碼率下對語音類型的音頻信號編碼效果不夠理想。在現有技術當中,在中低編碼速率下,目前還沒有一種編碼器能夠完全適用于mixed contents ofspeech and music。針對該問題,MPEG音頻組提出一個新的適用于中低編碼速率的編碼器 USAC (unified speech and audiocoding),USAC 編碼器的處理流程為1)首先利用信號分類模塊(Signal Classifier)判別信號屬于 speech-likecontent,或是屬于 music-like content ;2)根據信號類型的不同,在frame-per-frame基礎上選擇不同的編碼方法對于speech-like content,選擇基于ACELP/TCX的語音編碼器;對于music-like content,選擇基于心理聲學模型的音頻編碼器。由此可以充分利用現有的語音編碼器及音頻編碼器的優點,利用單一編碼器就能為mixed contents of speech and music提供較好的編石馬質量。其中,USAC編碼器對于信號分類模塊的要求主要有1)識別正確率較高,以便在后續編碼過程中能夠充分發揮語音編碼器及音頻編碼器的作用;2)實時分類,不為編碼器引入額外延時;3)低復雜度,不為編碼器引入過多的計算復雜度。現有技術中一種實時識別語音信號與音樂信號的方法包括1)利用窗函數將輸入信號劃分為一系列的overlapped frame ;2)利用FFT變換計算每幀的頻譜系數;3)基于頻譜系數,對于每個segment,計算五個方面的特征參數harmony、noise、 tail、drag out 及 rhythm ;4)基于上述特征參數,把音頻信號分為六類SPEECH_TYPE、MUSIC_TYPE、NOISE_ TYPE、SH0R_SEGM、UNDETER_TYPE 及 SH0R_UNDETER_TYPE。在實現上述判別音頻信號的類型的過程中,發明人發現現有技術中至少存在如下問題該技術提取了較多的特征參數,對于信號的分類較為全面,但也會導致分類算法復雜度較高,難以滿足實時編碼低復雜度的需求;該技術將音頻信號分為六類,不能完全滿足 USAC編碼器的需求
發明內容
本發明的實施例提供一種音頻信號的分類方法及裝置,在滿足編碼低復雜度情況下提高音頻信號分類的準確性。根據本發明的一實施例,提供一種音頻信號的分類方法,包括獲得待分類音頻信號的音調特征;根據該音調特征值判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結果;對當前幀進行初始邊界分析,獲得當前幀邊界信息;利用分界信息對待編碼幀的初始分類結果進行平滑處理,輸出待編碼幀的分類結^ ο根據本發明的另一實施例,提供一種音頻信號的分類裝置,包括特征獲得單元,用于獲得待分類音頻信號的音調特征;初步分類單元,用于根據該音調特征值判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結果;邊界信息獲得單元,用于對當前幀進行初始邊界分析,獲得當前幀邊界信息;平滑單元,用于利用分界信息對待編碼幀的初始分類結果進行平滑處理,輸出待編碼幀的分類結果。本發明實施例根據音調特征對音頻信號進行初始分類,算法復雜度低,選取的音頻特征能較好的反應語音信號與音樂信號的區別,分類準確性較高;同時利用邊界信息對初始分類結果進行平滑處理,在同一邊界區域內進行平滑處理,降低誤判率,進一步提高分類準確度和適用范圍。
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。圖1為本發明提供的音頻信號的分類方法一個實施例的流程示意圖;圖2為本發明提供的音頻信號的分類方法另一個實施例的流程示意圖;圖3為頻譜傾斜度均方差示意圖;圖4為音調個數均值示意圖;圖5為音調分量在低頻的分布比率示意圖;圖6為頻譜傾斜度波動情況示意圖;圖7為本發明提供的初始分類的一個實施例的流程示意圖;圖8為本發明提供的初始分類的另一個實施例的流程示意圖;圖9為本發明提供的初始分類的另一個實施例的流程示意圖;圖10為本發明提供的初始分類的另一個實施例的流程示意圖;圖11為本發明提供的初始分類的另一個實施例的流程示意圖;圖12為本發明提供的平滑處理的一個實施例的流程示意圖;圖13為本發明提供的音頻信號的分類裝置一個實施例的結構示意圖14為本發明提供的初步分類單元的一個實施例的結構示意圖;圖15為本發明提供的平滑單元的一個實施例的結構示意圖。
具體實施例方式下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。參照圖1所示,一種音頻信號的分類方法的一個實施例,該方法包括如下步驟SlOl 獲得待分類音頻信號的音調特征。一般情況下,對當前幀音頻信號及前若干幀音頻信號作為待分類音頻信號,進行分類。對每一幀音頻信號,獲得該音頻信號的音調特征并進行分類。在一個實施例中音調特征包括音調個數均值、音調分量在低頻的分布比率。在另一個實施例中音調特征包括 音調分量在不同頻帶的分布比值。S102:根據該音調特征值判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結果。初步分類可以有多種方法,在一個實施例中,采用如下方法進行分類音調個數均值大于第一門限值的音頻信號,初步判定結果為音樂信號;音調分量在低頻的分布小于第二門限值的音頻信號,初步判定結果為音樂信號;其他信號為語音信號。其中,第一門限值和第二門限值一般根據經驗值設定,例如第一門限值為15,第二門限值為0. 935。在另一種實施例中,在采用上述方法進行分類后,還可以采用較為嚴格的門限值將分類結果中的語音信號或音樂信號標示為確定類型。例如音調個數均值大于第一確定門限值的音頻信號,為音樂信號,標示為確定類型;音調個數均值小于第二確定門限值的音頻信號,為語音信號,標示為確定類型;音調分量在低頻的分布小于第三確定門限值的音頻信號,為音樂信號,標示為確定類型。其中,第一確定門限值大于第一門限值,第二確定門限值小于第一門限值,第三確定門限值小于第二門限值。一般根據經驗值設定,例如第一確定門限值為17,第二確定門限值為3,第三確定門限值為0.91。S103 根據提取到的特征對當前幀進行初始邊界分析,獲得當前幀邊界信息。邊界信息表示音頻信號類型變化的邊界。邊界信息包括三類BORDER_SPEECH_MUSIC(語音音樂邊界),由語音信號切換為音樂信號的邊界;BORDER_MUSIC_SPEECH(音樂語音邊界),由音樂信號切換為語音信號的邊界;N0_B0RDER(非邊界),非信號切換處。獲取邊界信息的一個實施例如下利用長短時特征的相對變化情況進行初始邊界分析如果長時音調個數均值保持音樂特征,而短時音調個數均值出現語音特征,則邊界分析結果為 BORDER_MUSIC_SPEECH ;進一步的,可以根據初始分類結果修正邊界信息如果當前幀的初始分類結果為MUSIC_DEFINITE,并且當前幀之前的若干幀均為語音信號,則邊界分析結果為BORDER_SPEECH_MUSIC ;如果當前幀的初始分類結果為SPEECH_DEFINITE,并且當前幀之前的若干幀均為音樂信號,則邊界分析結果為BORDER_MUSIC_SPEECH。S104 利用待編碼幀的分界信息對待編碼幀的初始分類結果進行平滑處理,輸出待編碼幀的分類結果。在音頻編碼中,當前幀不會立即被編碼,需要經過若干幀編碼延時后才會被編碼。 例如,編碼延時為5幀,當前幀為第η幀,那么待編碼幀就是第(η-5)幀。平滑處理不能越過邊界,用于避免誤判擴散。一個實施例中,利用前若干幀的初始分類結果和邊界信息對待編碼幀的初始分類結果進行平滑處理。將待編碼幀及位于同一邊界區域內的前若干幀信息組成待平滑區域進行平滑處理分別統計該區域內初始分類結果為語音的幀個數和初始分類結果為音樂的幀個數。如果音樂幀個數大于語音幀個數,則將分類結果修正為音樂信號;如果音樂幀個數小于語音幀個數,則將分類結果修正為語音信號。分為三種情況說明1.如果待編碼幀離邊界幀較遠,則可以在待編碼幀和邊界幀之間選取固定數量的信號幀組成待平滑區域。例如,待編碼幀與邊界幀之間大于100幀,那么就可以取待編碼幀及前90幀組成一個待平滑區域,如下圖標注有底紋的區域
邊界待編碼幀2.如果待編碼幀離邊界較近,則可以將待編碼幀和邊界幀之間所有信號幀組成待平滑區域。例如,待編碼幀與邊界幀之間小于100幀,只有30幀,那么就取這30幀組成待
平滑區域,如下圖標注有底紋的區域
ΨΦ—-
邊界待編碼幀3.如果待編碼幀就是邊界幀,則不進行平滑處理,直接將初始分類結果作為最終分類結果。進一步的,當初始分類結果包含確定標識時,首先判斷該音頻信號初始分類結果是否包含確定標識,如果包含確定標識則不進行平滑處理;如果不包含確定標識,則進行平
滑處理。在另一個實施例中,利用前若干幀的初始分類結果和邊界信息對待編碼幀的初始分類結果進行平滑處理,輸出初次平滑結果;利用位于待編碼幀和當前幀之間若干幀的邊界信息和能量信息對待編碼幀的初始分類結果進行平滑處理,輸出分類結果如果過去若干幀(屬于經驗數據,可以靈活設置)內存在靜音幀,且待編碼幀與當前幀之間出現邊界的情況下,需要對初次平滑結果進行修正如果該邊界信息為B0RDER_ MUSIC_SPEECH,則將待編碼幀的分類結果修正為語音;否則,將待編碼幀的分類結果修正為
曰爾O
本發明實施例中,根據音調特征對音頻信號進行初始分類,算法復雜度低,選取的音頻特征能較好的反應語音信號與音樂信號的區別,分類準確性較高;同時利用邊界信息對初始分類結果進行平滑處理,在同一邊界區域內進行平滑處理,降低誤判率,提高分類準確度和適用范圍。進一步的,在初始分類過程中,分別設置較為嚴格的門限和較為寬松的門限,對較為嚴格門限值判斷出來的初始分類結果,不進行平滑處理,進一步提高分類準確度。參照圖2所示,一種音頻信號的分類方法的另一個實施例,該方法包括如下步驟S201 將當前幀及前若干幀數據作為待分析數據,提取音調特征及頻譜傾斜度特征;一般情況下,對當前幀音頻信號及前若干幀音頻信號作為待分類音頻信號,進行分類。對每一幀音頻信號,獲得該音頻信號的音調特征。在一個實施例中音調特征包括音調個數均值、音調分量在低頻的分布比率。在另一個實施例中音調特征包括音調個數均值、音調分量在不同頻帶的分布比值。頻譜傾斜度特征可以包括頻譜傾斜度均方差。S202:根據音調特征值和頻譜傾斜度特征對當前幀進行初始分類,輸出初始分類結果;初步分類可以有多種方法,在一個實施例中,采用如下方法進行分類頻譜傾斜度均方差小于第三門限的,為音樂信號;音調個數均值大于第一門限值的,為音樂信號;音調分量在低頻的分布小于第二門限值的,為音樂信號;音頻信號的頻譜均方差在預設的時間內取值小于第四門限值的,為音樂信號,其中第四門限值大于第三門限值;其他信號為語音信號。其中,第一門限值、第二門限值和第三門限值一般根據經驗值設定,例如第一門限值為15,第二門限值為0. 935,第三門限值為0. 0002。在另一種實施例中,在采用上述方法進行分類后,還可以采用較為嚴格的門限值將分類結果中的語音信號或音樂信號標示為確定類型。例如音調個數均值大于第一確定門限值的,為音樂信號,標示為確定類型;音調個數均值小于第二確定門限值的,為語音信號,標示為確定類型;音調分量在低頻的分布小于第三確定門限值的,為音樂信號,標示為確定類型;頻譜傾斜度均方差小于第四確定門限值的,為音樂信號,標示為確定類型;頻譜傾斜度均方差大于第五確定門限值的,為語音信號,標示為確定類型。其中,第一確定門限值大于第一門限值,第三確定門限值小于第二門限值,第四確定門限值小于第三門限值,,第五確定門限值大于第三門限值。一般根據經驗值設定各門限值,例如第一確定門限值為17,第二確定門限值為3,第三確定門限值為0. 91 ;第四確定門限值為0. 00004 ;第五確定門限值為0. 01。S203 根據提取到的特征對當前幀進行初始邊界分析,獲得當前幀邊界信息。邊界信息表示音頻信號類型變化的邊界。邊界信息包括三類BORDER_SPEECH_MUSIC(語音音樂邊界),由語音信號切換為音樂信號的邊界;BORDER_MUSIC_SPEECH(音樂語音邊界),由音樂信號切換為語音信號的邊界;N0_B0RDER(非邊界),非信號切換處。獲取邊界信息的一個實施例如下利用長短時特征的相對變化情況進行初始邊界分析如果長時頻譜傾斜度均方差保持語音特征,而短時頻譜傾斜度均方差出現音樂特征,則邊界分析結果為BORDER_SPEECH_MUSIC ;在相對較長的時間內保持音樂特征后,如果長/短時頻譜傾斜度均方差均出現語音特征,則邊界分析結果為BORDER_MUSIC_SPEECH ;如果長時音調個數均值保持音樂特征,而短時音調個數均值出現語音特征,則邊界分析結果為 BORDER_MUSIC_SPEECH。進一步的,可以根據初始分類結果修正邊界信息如果當前幀的初始分類結果為MUSIC_DEFINITE,并且當前幀之前的若干幀均為語音信號,則邊界分析結果為BORDER_SPEECH_MUSIC ;如果當前幀的初始分類結果為SPEECH_DEFINITE,并且當前幀之前的若干幀均為音樂信號,則邊界分析結果為BORDER_MUSIC_SPEECH。S204:利用過去的初始分類結果及邊界信息對待編碼幀的初始分類結果進行平滑處理;在音頻編碼中,當前幀不會立即被編碼,需要經過若干幀編碼延時后才會被編碼。 例如,編碼延時為5幀,當前幀為第η幀,那么待編碼幀就是第(η-5)幀。平滑處理不能越過邊界,用于避免誤判擴散。將待編碼幀及位于同一邊界區域內的前若干幀信息組成待平滑區域進行平滑處理分別統計該待平滑區域內初始分類結果為語音的幀個數和初始分類結果為音樂的幀個數。如果音樂幀個數大于語音幀個數,則將分類結果修正為音樂信號;如果音樂幀個數小于語音幀個數,則將分類結果修正為語音信號。進一步的,當初始分類結果包含確定標識時,首先判斷該音頻信號初始分類結果是否包含確定標識,如果包含確定標識則不進行平滑處理,直接將待編碼幀的初步分類結果作為待編碼幀的分類結果輸出;如果不包含確定標識,則進行平滑處理。S205:相對于待編碼幀而言,位于待編碼幀與當前幀之間的若干幀初始分類結果均可被視為未來的信息。利用未來的初始分類結果及能量信息對待編碼幀平滑結果進行進一步修正,得到待編碼幀的分類結果。如果過去若干幀內存在靜音幀,且待編碼幀與當前幀之間出現邊界的情況下,需要對初次平滑結果進行修正,如果該邊界信息為BORDER_MUSIC_SPEECH,則將待編碼幀的分類結果修正為語音信號;否則,將待編碼幀的分類結果修正為音樂信號。本發明實施例中,根據音調特征和頻譜傾斜度均方差對音頻信號進行初始分類, 能較好的反應語音信號與音樂信號的區別,相比于音調特征值分類方法進一步提高分類準確性;同時利用邊界信息對初始分類結果進行平滑處理,在同一邊界區域內進行平滑處理, 降低誤判率,提高分類準確度和適用范圍。進一步的,在初始分類過程中,分別設置較為嚴格的門限和較為寬松的門限,對較為嚴格門限值判斷出來的初始分類結果,不進行平滑處理,進一步提高分類準確度。進一步的,在平滑處理過程中利用位于待編碼幀和當前幀之間若干幀的邊界信息和能量信息對待編碼幀的初始分類結果進行平滑處理,可以在一定程度上減少實際分類結果與理想分類結果之間的延時。在一個實施例中,需要提取的音調特征包括長時音調個數均值,短時音調個數均值;音調分量在低頻的分布比率。為了計算音調特征,首先需要利用1024點FFT運算得到功率密度譜,再利用功率密度譜檢測出當前幀的音調分量。長時音調個數均值,表示最近N1幀的音調分量個數的均值,其中N1是計算音調長時特征所需的長時區間的幀長,該特征用于表征長時區間內的音調分量是否豐富。如果長時區間內的音調分量較為豐富,則長時音調個數均值較大;反之較小。采用如下公式計算獲得長時音調個數均值
權利要求
1.一種音頻信號的分類方法,其特征在于,包括 獲得待分類音頻信號的音調特征;根據該音調特征值判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結果;對當前幀進行初始邊界分析,獲得當前幀邊界信息;利用分界信息對待編碼幀的初始分類結果進行平滑處理,輸出待編碼幀的分類結果。
2.根據權利要求1所述的方法,其特征在于,根據該音調特征值判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結果包括音調個數均值大于第一門限值的音頻信號,初步判定結果為音樂信號; 音調分量在低頻的分布小于第二門限值的音頻信號,初步判定結果為音樂信號; 其他信號為語音信號。
3.根據權利要求2所述的方法,其特征在于,根據該音調特征值判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結果還包括音調個數均值大于第一確定門限值的音頻信號,為音樂信號,標示為確定類型; 音調個數均值小于第二確定門限值的音頻信號,為語音信號,標示為確定類型; 音調分量在低頻的分布小于第三確定門限值的音頻信號,為音樂信號,標示為確定類型;其中第一確定門限值大于第一門限值,第二確定門限值小于第一門限值,第三確定門限值小于第二門限值。
4.根據權利要求2所述的方法,其特征在于,對當前幀進行初始邊界分析獲得當前幀邊界信息包括如果長時音調個數均值保持音樂特征,而短時音調個數均值出現語音特征,則邊界分析結果為音樂語音邊界;否則為非邊界。
5.根據權利要求1所述的方法,其特征在于,還包括獲得待分類音頻信號的頻譜傾斜度特征;根據該音調特征值判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結果包括根據該音調特征值和頻譜傾斜度特征判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結果。
6.根據權利要求5所述的方法,其特征在于,根據該音調特征值和頻譜傾斜度特征判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結果包括頻譜傾斜度均方差小于第三門限的,為音樂信號; 音調分量在低頻的分布小于第二門限值的,為音樂信號;音頻信號的頻譜均方差在預設的時間內取值小于第四門限值的,為音樂信號,其中第四門限值大于第三門限值; 其他信號為語音信號。
7.根據權利要求6所述的方法,其特征在于,根據該音調特征值和頻譜傾斜度特征判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結果還包括音調個數均值大于第一確定門限值的,為音樂信號,標示為確定類型; 音調個數均值小于第二確定門限值的,為語音信號,標示為確定類型;音調分量在低頻的分布小于第三確定門限值的,為音樂信號,標示為確定類型; 頻譜傾斜度均方差小于第四確定門限值的,為音樂信號,標示為確定類型; 頻譜傾斜度均方差大于第五確定門限值的,為語音信號,標示為確定類型;其中第一確定門限值大于第一門限值,第三確定門限值小于第二門限值,第四確定門限值小于第三門限值,第五確定門限值大于第三門限值。
8.根據權利要求5所述的方法,其特征在于,根據該音調特征值和頻譜傾斜度特征判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結果包括音頻信號的音調分量分布于頻帶0的比率大于第六確定門限值且分布于頻帶2的比率小于第七確定門限值,則初始分類結果為語音信號,并標示為確定類型;頻譜傾斜度均方差小于第四確定門限值的,為音樂信號,標示為確定類型; 頻譜傾斜度均方差大于第五確定門限值的,為語音信號,標示為確定類型; 音頻信號的頻譜傾斜度均方差小于第三門限值,則初始分類結果為音樂信號; 音頻信號的音調分量分布于頻帶0的比率大于第五門限值且分布于頻帶2的比率小于第六門限值,則初始分類結果為語音信號;其他信號為語音信號;其中,第四確定門限值小于第三門限值,第五確定門限值大于第三門限值,第六確定門限值大于第五門限值,第七確定門限值大于第六門限值。
9.根據權利要求5所述的方法,其特征在于,對當前幀進行初始邊界分析獲得當前幀邊界信息包括如果長時音調個數均值保持音樂特征,而短時音調個數均值出現語音特征,則邊界分析結果為音樂語音邊界;如果長時頻譜傾斜度均方差保持語音特征,而短時頻譜傾斜度均方差出現音樂特征, 則邊界分析結果為語音音樂邊界;在相對較長的時間內保持音樂特征后,如果長/短時頻譜傾斜度均方差均出現語音特征,則邊界分析結果為音樂語音邊界; 否則為非邊界。
10.根據權利要求3或7或8所述的方法,其特征在于,對當前幀進行初始邊界分析獲得當前幀邊界信息還包括利用初始分類結果確定邊界信息,具體為如果當前幀的初始分類結果為音樂信號并標示確定類型,并且當前幀之前的若干幀均為語音信號,則邊界分析結果為語音音樂邊界;如果當前幀的初始分類結果為語音信號并表示確定類型,并且當前幀之前的若干幀均為音樂信號,則邊界分析結果為音樂語音邊界。
11.根據權利要求1所述的方法,其特征在于,利用分界信息對初始分類結果進行平滑處理包括將待編碼幀及位于同一邊界區域內的前若干幀信息組成待平滑區域,進行平滑處理。
12.根據權利要求1所述的方法,其特征在于,利用分界信息對初始分類結果進行平滑處理包括將待編碼幀及位于同一邊界區域內的前若干幀信息組成待平滑區域,進行平滑處理; 如果過去若干幀內不存在靜音幀且或者位于待編碼幀與當前幀之間的若干幀內未出現邊界,則將前述步驟中的平滑結果作為分類結果輸出;如果過去若干幀內存在靜音幀且位于待編碼幀與當前幀之間的若干幀內出現邊界,則獲得邊界信息;如果該邊界信息為音樂語音邊界,則將待編碼幀的分類結果修正為語音信號;否則,將待編碼幀的分類結果修正為音樂信號。
13.根據權利要求3或8或9所述的方法,其特征在于,利用分界信息對初始分類結果進行平滑處理還包括判斷待編碼幀是否標示確定類型,如果未標示確定類型則進行平滑處理。
14.一種音頻信號的分類裝置,其特征在于,包括特征獲得單元,用于獲得待分類音頻信號的音調特征;初步分類單元,用于根據該音調特征值判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結果;邊界信息獲得單元,用于對當前幀進行初始邊界分析,獲得當前幀邊界信息;平滑單元,用于利用分界信息對待編碼幀的初始分類結果進行平滑處理,輸出待編碼幀的分類結果。
15.根據權利要求14所述的裝置,其特征在于,所述特征獲得單元還用于獲得待分類音頻信號的頻譜傾斜度特征;所述初步分類單元,用于根據該音調特征值和頻譜傾斜度特征判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結果。
16.根據權利要求14或15所述的裝置,其特征在于,所述初步分類單元包括第一分類單元,用于根據第一類門限值判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結果;第二分類單元,用于根據第二類門限值判定所述待分類音頻信號的類型,輸出標示確定類型的音樂信號或標示確定類型的語音信號的初步判定結果,其中,第二類門限值比第一類門限值嚴格。
17.根據權利要求14所述的裝置,其特征在于,所述平滑單元,包括第一平滑處理單元,用于將待編碼幀及位于同一邊界區域內的前若干幀信息組成待平滑區域,進行平滑處理,將平滑處理結果作為待編碼幀的分類結果輸出。
18.根據權利要求17所述的裝置,其特征在于,所述平滑單元還包括第二平滑處理單元,用于接收第一平滑處理單元的輸出,如果過去若干幀內存在靜音幀且位于待編碼幀與當前幀之間的若干幀內出現邊界,則獲得該邊界信息;如果該邊界信息為音樂語音邊界,則將待編碼幀的分類結果修正為語音;如果該邊界信息為語音音樂邊界否則,將待編碼幀的分類結果修正為音樂。
19.根據權利要求17所述的裝置,其特征在于,所述平滑單元還包括判斷單元,用于判斷待編碼幀是否標示確定類型,如果未標示確定類型則通知第一平滑處理單元進行平滑處理。
全文摘要
本發明實施例公開了一種音頻信號的分類方法和裝置。該分類方法包括獲得待分類音頻信號的音調特征;根據該音調特征值判定所述待分類音頻信號的類型,輸出音樂信號或語音信號的初步判定結果;對當前幀進行初始邊界分析,獲得當前幀邊界信息;利用分界信息對待編碼幀的初始分類結果進行平滑處理,輸出待編碼幀的分類結果。該分類方法算法復雜度低,分類準確性較高,適用性較廣。
文檔編號G10L15/08GK102237085SQ20101016032
公開日2011年11月9日 申請日期2010年4月26日 優先權日2010年4月26日
發明者張清, 杜正中, 許麗凈 申請人:華為技術有限公司