基于高斯混合模型的感知域音頻編碼方法及系統的制作方法
【專利摘要】本發明公開了一種基于高斯混合模型的感知域音頻編碼方法和系統,包括步驟:步驟1,采用聽覺濾波器對輸入音頻信號進行濾波,獲得子帶信號;步驟2,提取子帶信號的希爾伯特包絡,對希爾伯特包絡進行平滑濾波,獲得子帶信號譜包絡;步驟3,采用心理聲學模型獲得子帶信號譜包絡的絕對掩蔽閾值,根據絕對掩蔽閾值對子帶信號譜包絡進聽覺行閾值判別;步驟4,采用多路復用掩蔽模型替換子帶信號譜包絡;步驟5,采用采用高斯-牛頓算法對子帶信號譜包絡進行高斯混合模型參數擬合;步驟6,量化和編碼擬合后的高斯混合模型參數。本發明可應用于高質量的中低碼率語音編碼,能大大降低編碼碼率。
【專利說明】基于高斯混合模型的感知域音頻編碼方法及系統
【技術領域】
[0001]本發明涉及感知域音頻編碼領域,尤其涉及一種基于高斯混合模型的感知域音頻編碼方法及系統。
【背景技術】
[0002]隨著計算機技術、網絡技術和通信技術的飛速發展,人類社會已經進入了數字化時代。一些重要信號,如語音、音樂、影視的數字化版本,數據量巨大,傳輸和存儲成本較高。而且,隨著新技術和新應用的不斷出現,還有可能出現數碼率更高的信源。這些數據的傳輸和存儲便是一個很大的難題,而編碼技術正是針對這一問題而提出的解決辦法。在這些應用中,音頻編碼技術作為其中的關鍵技術之一起到了極大的推動作用。人類聽覺系統存在局限性,不能感知所接收到的聲音中的所有信號成分。傳統的感知域音頻編碼方法將音頻信號變換到感知域后,會產生大量的冗余脈沖信號,編碼效率不高。
【發明內容】
[0003]本發明的目的是提供一種基于高斯混合模型的感知域音頻編碼方法及系統,使得編碼后的音頻信號碼率更低。
[0004]為達到上述目的,本發明提出了一種基于高斯混合模型的感知域音頻編碼方法,包括步驟:
[0005]步驟1,采用聽覺濾波器對輸入音頻信號進行濾波,獲得子帶信號;
[0006]步驟2,提取子帶信號的希爾伯特包絡,對希爾伯特包絡進行平滑濾波,獲得子帶信號譜包絡;
[0007]步驟3,采用心理聲學模型獲得子帶信號譜包絡的絕對掩蔽閾值,根據絕對掩蔽閾值對子帶信號譜包絡進行聽覺閾值判別,去除小于絕對掩蔽閾值的子帶信號譜包絡,保留不小于掩蔽閾值的子帶信號譜包絡,以便有效減少子帶信號脈沖數量;
[0008]步驟4,采用多路復用掩蔽模型替換步驟3所得子帶信號譜包絡,使用多路復用掩蔽模型的目的主要有兩個:一方面為了進一步減少子帶信號脈沖數量從而有利于編碼的實施,另一方面為了更好重構音頻信號;
[0009]步驟5,采用高斯混合模型參數分別表示各子帶信號譜包絡,基于步驟4所得子帶信號譜包絡構建高斯混合模型,并采用高斯-牛頓算法擬合高斯混合模型參數;
[0010]步驟6,對步驟5所得高斯混合模型參數進行量化和編碼。
[0011 ] 步驟4進一步包括子步驟:
[0012]4.1針對當前原始子帶信號樣本,找出子帶信號譜包絡的最大值,計算最大值所在的子帶信號譜包絡產生的掩蔽效應圖形,所述的當前原始子帶信號樣本初始值為步驟3所得子帶信號譜包絡;
[0013]4.2將當前原始子帶信號樣本與掩蔽效應圖形中對應的樣本點值進行比較,并根據比較結果獲得替換后的子帶信號譜包絡:[0014]若當前原始子帶信號樣本點值大于掩蔽效應圖形中相應樣本點值,則保留該當前原始子帶信號樣本點;若當前原始子帶信號樣本點值不大于掩蔽效應圖形中相應樣本點值,則將該當前原始子帶信號樣本點值替換為掩蔽效應圖形中相應樣本點值;所述的樣本點值指樣本點處譜包絡的幅度值;
[0015]4.3以替換后的子帶信號譜包絡為當前原始子帶信號樣本,然后執行步驟4.1~
4.2,直至當前原始子帶信號樣本中所有樣本點值均被掩蔽效應圖形中相應樣本點值替換過、或均進行過至少兩次樣本點值比較,即完成子帶信號譜包絡替換。
[0016]步驟5進一步包括子步驟:
[0017]5.1定義擬合算式
【權利要求】
1.基于高斯混合模型的感知域音頻編碼方法,其特征在于,包括步驟: 步驟I,采用聽覺濾波器對輸入音頻信號進行濾波,獲得子帶信號; 步驟2,提取子帶信號的希爾伯特包絡,對希爾伯特包絡進行平滑濾波,獲得子帶信號譜包絡; 步驟3,采用心理聲學模型獲得子帶信號譜包絡的絕對掩蔽閾值,根據絕對掩蔽閾值對子帶信號譜包絡進行聽覺閾值判別,去除小于絕對掩蔽閾值的子帶信號譜包絡,保留不小于掩蔽閾值的子帶信號譜包絡; 步驟4,采用多路復用掩蔽模型替換步驟3所得子帶信號譜包絡; 步驟5,采用高斯混合模型參數分別表示各子帶信號譜包絡,基于步驟4所得子帶信號譜包絡構建高斯混合模型,并采用高斯-牛頓算法擬合高斯混合模型參數; 步驟6,對步驟5所得高斯混合模型參數進行量化和編碼。
2.如權利要求1所述的基于高斯混合模型的感知域音頻編碼方法,其特征在于: 步驟4進一步包括子步驟: 4.1針對當前原始子帶信號樣本,找出子帶信號譜包絡的最大值,計算最大值所在的子帶信號譜包絡產生的掩蔽效應圖形; 4.2將當前原始子帶信號樣本與掩蔽效應圖形中對應的樣本點值進行比較,并根據比較結果獲得替換后的子帶信號譜包絡: 若當前原始子帶信號樣本點值大于掩蔽效應圖形中相應樣本點值,則保留該原始子帶信號樣本點;若當前原始子帶信號樣本點值不大于掩蔽效應圖形中相應樣本點值,則將該當前原始子帶信號樣本點值替換為掩蔽效應圖形中相應樣本點值;所述的樣本點值指樣本點處譜包絡的幅度值; 4.3以替換后的子帶信號譜包絡為當前原始子帶信號樣本,然后執行步驟4.1~4.2,直至當前原始子帶信號樣本中所有樣本點值均被掩蔽效應圖形中相應樣本點值替換過、或均進行過至少兩次樣本點值比較,即完成子帶信號譜包絡替換。
3.如權利要求1所述的基于高斯混合模型的感知域音頻編碼方法,其特征在于: 步驟5進一步包括子步驟: ` 5.1定義擬合算式
4.如權利要求1所述的基于高斯混合模型的感知域音頻編碼方法,其特征在于: 步驟6中,采用均勻量化方式對高斯混合模型參數中的均值和方差進行量化,采用非均勻量化方式對高斯混合模型參數中的權值進行量化。
5.基于高斯混合模型的感知域音頻編碼系統,其特征在于,包括: 聽覺濾波器組模塊,用來采用聽覺濾波器對輸入音頻信號進行濾波,獲得子帶信號;包絡平滑模塊,用來提取子帶信號的希爾伯特包絡,對希爾伯特包絡進行平滑濾波,獲得子帶信號譜包絡; 聽覺閾值判別模塊,用來采用心理聲學模型獲得子帶信號譜包絡的絕對掩蔽閾值,根據絕對掩蔽閾值對子帶信號譜包絡進行聽覺閾值判別,刪除小于絕對掩蔽閾值的子帶信號譜包絡,保留不小于絕對掩蔽閾值的子帶信號譜包絡; 掩蔽模型替換模塊,用來采用多路復用掩蔽模型替換子帶信號譜包絡; 高斯混合模型擬合模塊,用來采用高斯混合模型參數分別表示各子帶信號譜包絡,基于子帶信號譜包絡構建高斯混合模型,并采用高斯-牛頓算法擬合高斯混合模型參數;量化編碼模塊,用來對高斯混合模型參數進行量化和編碼。
6.如權利要求5所述的基于高斯混合模型的感知域音頻編碼系統,其特征在于: 所述的聽覺濾波器組模塊為ga_atone濾波器組模塊。
7.如權利要求5所述的基于高斯混合模型的感知域音頻編碼系統,其特征在于: 所述的量化編碼模塊進一步包括均勻量化模塊、非均勻量化模塊和差分編碼模塊,均勻量化模塊用來對高斯混合模型參數中的均值和方差進行量化,非均勻量化模塊用來對高斯混合模型參數中的權值進行量化。
【文檔編號】G10L19/04GK103761969SQ201410057260
【公開日】2014年4月30日 申請日期:2014年2月20日 優先權日:2014年2月20日
【發明者】高戈, 陳怡 , 呂亞平, 張康, 楊玉紅 申請人:武漢大學