專利名稱:用于知覺音頻編碼的信號處理方法及其柔性濾波器的制作方法
技術領域:
本發明涉及信號處理中數據壓縮及信號處理用濾波器,更詳細地說,它用于音頻信號的解相關,從而提供一個消解冗余度的方法和裝置,除此之外,基于心理聲學模型,本發明還可用于分離具有不同重要性的信號分量。
背景技術:
通常,知覺音頻編碼器的第一步操作是把輸入音頻信號從時間域映射到頻率域,其基本的思路為把信號過濾成各頻率帶上的成分;一旦輸入信號在頻域上得以表達,心理聲學模型就可以用來去除枝節信息;進一步,把各頻帶上的成份分組。最后,通過合理地分配比特數以表達各組頻率參數。由于音頻信號展現出強烈的準周期性,這一過程可大大降低數據量、提升編碼效率。
最近的幾年里,一系列可用于信號成份分離和冗余度提取的時一頻域映射算法被開發出來。這些性能各異的方法包括(1)Discrete Fourier transform(DFT),(2) iscrete cosine transform(DCT),(3) uadrature mirror filters(QMF),(4) Pseudo QMF(PQMF),(5) Modified DCT(MDCT),(6) Wavelet上述各種變換具有不同的優缺點,不同的系統均是根據需要選用適當的變換作為其濾波器組的基本構成。
MPEG-1,2 Layers I和II采用了PQMF作為濾波器組。該濾波器組的優點為結構相對簡單、時間分辨率很好。其缺點為鄰近子帶之間存在明顯的頻率重疊;單一頻率信號的變化可影響與其相鄰的二個子帶。2000Hz以下的頻帶寬度遠大于心理聲學帶寬值,從而無法實現比特數的最優分配。實時運算量偏大。
MPEG-1,2 Layer III采用了PQMF和MDCT的級聯作為其濾波器組。雖然MDCT的引入可提升頻率分辨率從而改進編碼效率,PQMF在鄰近子帶之間的頻率重疊仍然會導致信號的混迭,頻域量化噪聲在時間域上的擴散比較嚴重。
MPEG-2,4 AAC采用了MDCT作為濾波器組(穩態信號1024-點MDCT,暫態信號128-點MDCT),該濾波器組使用了二種重疊窗形狀SINE和KBD。其優點為頻率分辨率很好;其缺點為時間分辨率偏低。
MPEG-4 Twin VQ的濾波器組與MPEG-2,4 AAC相似,除此之外,它采用了線性濾波器以白化頻譜系數并在量化級之前執行歸一化操作。
AC-3的濾波器組對穩態信號使用256-點MDCT,對暫態信號使用128-點MDCT,其塊長選擇機制比較簡單,選擇效果為次最優。
ATRAC的濾波器組由前回波增益控制、PQF和MDCT級聯而成。它還采用了窗轉換機制以根據輸入信號的特性調整時頻分辨率。
DTS的濾波器組由512-tap 32子帶PQMF構成。為了進一步提取冗余度,一個線性濾波器可被級聯在PQMF之后。
上述所有的系統只采用一種變換配置去壓縮表達一個輸入信號幀。當一個信號幀包含不同暫態特性的成份時,單一的變換配置不足以滿足不同信號子幀對優化壓縮的基本需求。
發明內容
為了提高音頻編碼的品質,必需消除信號中的不必要信息以及聽眾覺察不到的成份。濾波器組的使用提供了一種去除冗余信息和枝節數據的最佳途徑。根據其功能,本發明目的包括(1)優化分離具有不同知覺特性的信號成分。
(2)最小化前回波噪聲和由邊界之不連續性所導致的聽覺塊毛刺。
(3)在保持音頻信號品質的前提下,最小化數據量。
(4)實現精密抽樣(critically sampled)和完全重構或準完全重構(perfectreconstruction,or nearly perfect reconstruction.)
(5)最小化時間延遲和運算量。
為了實現上述目標,一些參數和機制必須被合理地制定。這些參數和機制包括(a)重疊窗的形狀極其優選機制(b)重疊窗的長度極其優選機制在實際運作中,單一的濾波器組不能夠滿足或基本滿足所有的信號成份對上述目標的要求。本發明通過柔性組合多種濾波器及參數以優化表達一個輸入信號幀所包含的各種成份。
本發明所提出柔性濾波器組合包括五種變換配置,這五種變換配置為1024-點MDCT、512-點MDCT、256-點MDCT、128-點64-子帶PQMF以及128-點16-子帶WAVELET。顯然,這五種變換配置的頻率分辨率、時間分辨率、塊長、時延以及鄰近子帶之間頻率重疊的程度都不相同。對一輸入信號幀,所發明的柔性濾波器組合從上述五種變換及參數之中選擇出最恰當的一個或幾個;通過分解信號幀,允許不同的信號子幀選用不同的變換及參數從而優化編碼效率。
有關的選擇判據包括(1)評估當前輸入信號幀的暫態性程度;(2)根據暫態性程度,排除不恰當的變換配置;(3)評估當前輸入信號幀在頻域上能量分布的均勻程度;(4)根據頻域上能量分布的均勻程度,從候選的變換之中排除那些會導致過度頻率重疊噪聲的變換配置;原則上,頻域能量均勻分布的信號對頻率重疊的敏感性較低;(5)據前一信號幀或子幀的編碼失真狀態,排除那些不具備恰當時延的變換及參數,以合理地控制編碼噪聲的擴散。
本發明的信號處理方法為首先評估當前輸入信號幀的暫態程度,對暫態性較大的信號,排除頻率分辨率較高的變換配置;接著,評估當前輸入信號幀在頻域上能量分布的均勻程度,對能量分布較不均勻的信號,排除子帶頻率重迭較嚴重的變換;然后,評估前一信號幀的編碼失真狀態。如果前一信號幀的編碼失真較大,排除時延較大的變換,最后,根據輸入幀是否存在突躍信號成份,排除具有不恰當塊長的變換。
根據上述初步篩選出來的變換之最大塊長,把當前輸入信號幀分解成等長子幀;對各子幀,判斷是否可采用同樣塊長的候選變換,若不可以,進一步將其分解成2個等長的子幀,對進一步分解后的子幀,判斷候選變換之中具有同樣塊長者是否為最恰當的配置;若不是,再進一步將當前子幀分解成2個等長度子幀;重復這種“判斷—分解”的操作,直到合適的變換配置被選擇或者子幀長度達到128;每個128樣本的子幀必須在64-子帶PQMF和16-子帶WAVELET之間作出較合理的抉擇。
上述輸入信號幀暫態性的程度分析方法為Z=(Σj=1N|sj-1NΣj=1Nsj|2+λ)/Σj=1N|sj|2+λ]]>sj為當前幀第j個信號樣本;N為幀長,λ為大于零小于一的實數;λ的引入是為了突顯變化的重要性。上述輸入信號幀在頻域上能量分布的均勻性度量判據F=(Σj=1N|xj2-1NΣj=1Nxj2|α)/Σj=1Nxj2·α]]>xj為輸入信號幀經過FFT變換后得到的第j個系數;N為幀長;α為大于一的實數。α的引入是為了強化能量變化的敏感性。
本發明通過提高濾波器組配置的自由度,取得了很高編碼效率。所需要的運算量沒有增加。由于各種信號成份可采用不同的變換配置,本發明柔性濾波器組合所需要的存儲量有一定程度的增加。
圖1本發明的流程框圖;圖2本發明的實現平臺的示意圖。
具體實現方式本發明的實現平臺如圖2所示。一個輸入音頻信號被以44.1kHz采樣。采樣信號被劃分成幀。每幀由1024個樣本組成(約23.22ms)。本發明柔性濾波器配置具有1024-點MDCT、512-點MDCT、256-點MDCT、128-點64-子帶PQMF以及128-點16-子帶WAVELET。該柔性濾波器組合允許對一個輸入信號幀采用多種變換配置;通過分解輸入信號幀,不同子幀可選用不同的變換及參數。在幾種指定的變換和參數之中確定最適合輸入信號幀的配置;采用“判斷—等分”的二級優選結構于變換配置的選擇,根據當前輸入信號幀(1024個樣本)之特性,首先判斷1024-點MDCT是否最為合適;如果1024-點MDCT不合適,把輸入信號幀分解成2個等長的子幀;接著,判斷512-點MDCT是否適用于各個512樣本子幀;對不適合于512-點MDCT的子幀,進一步將其分解成2個256樣本的子幀;然后,判斷256-點MDCT是否適用于各個256樣本子幀;對不適合于256-點MDCT的子幀,再進一步將其分解成2個128樣本子幀;每個128樣本子幀必須在64-子帶PQMF和16-子帶WAVELET之間作出抉擇。心理聲學模型根據所選定的配置,利用人類聽覺系統的掩蔽現象從輸入信號幀中去除感覺不到的內容,同時,信號幀被緩存。然后,柔性濾波器組執行時間一頻率之間的映射,隨后,頻譜的量化噪聲被暫態成形,最后,預處理過的數據被量化和編碼(量化和編碼的方法與所選用的變換配置相對應),索引值和枝節信息被打包進比特流。其中柔性濾波器信號變換處理方法的實現細節如以下步驟所描述步驟1.將輸入音頻數據分解成幀(1024個樣本);步驟2.評估當前輸入信號幀的暫態性度量Z=(Σj=11024[|sj-11024Σj=11024sj|]2+0.618)/Σj=11024|sj|2+0.618]]>步驟3.根據Z和Ti(I=1,2,3,4,5)之間的相對大小,排除具有不恰當時頻分辨率的變換,這里,Ti(I=1,2,3,4,5)為與五種可能的變換配置相對應的閥值。步驟4.評估當前輸入信號幀在頻域(FFT域)上能量分布的均勻程度。對能量分布較不均勻的信號,排除頻率重迭較嚴重的變換,原則上,16-子帶WAVELET和64-子帶PQMF的頻率重迭比256-點MDCT、512-點MDCT和1024-點MDCT嚴重的多。步驟5.評估前一信號幀的編碼失真狀態。如果前一信號幀后段的編碼失真較大,排除時延較大的變換,原則上,16-子帶WAVELET和64-子帶PQMF的時延比256-點MDCT、512-點MDCT和1024-點MDCT大的多。步驟6.根據輸入幀是否有突躍信號成份,排除具有不恰當塊長的變換。原則上,對嚴重突躍信號不使用256-點MDCT、512-點MDCT和1024點-MDCT。步驟7.根據初步篩選后所剩下的候選變換塊長之最大值,把當前輸入信號幀分解成等長度子幀。對各個子幀,判斷是否可采用同樣塊長的變換。若不可以,進一步將其分解成2個等長的子幀。對進一步分解后的子幀,判斷候選變換之中具有同樣塊長者是否為最恰當的配置。若不是,再進一步將當前子幀分解成2個等長度子幀。重復這種“選擇或分解”的操作,直到合適的變換配置被選擇或者子幀長度達到128,每個128樣本的子幀必須在64-子帶PQMF和16-子帶WAVELET之間作出較合理的抉擇。步驟8.結束。
權利要求
1.一種用于知覺音頻編碼的信號處理方法的柔性濾波器,其特征在于變換配置包括1024-點MDCT、512-點MDCT、256-點MDCT、128-點64-子帶PQMF以及128-點16-子帶WAVELET。
2.一種用于知覺音頻編碼的信號處理方法,其特征在于采用“判斷一等分”的二級優選結構于變換配置的選擇,根據當前輸入信號幀(1024個樣本)之特性,首先判斷1024-點MDCT是否最為合適;如果1024-點MDCT不合適,把輸入信號幀分解成2個等長的子幀;接著,判斷512-點MDCT是否適用于各個512樣本子幀;對不適合于512-點MDCT的子幀,進一步將其分解成2個256樣本的子幀;然后,判斷256-點MDCT是否適用于各個256樣本子幀;對不適合于256-點MDCT的子幀,再進一步將其分解成2個128樣本子幀;每個128樣本子幀必須在64-子帶PQMF和16-子帶WAVELET之間作出抉擇。
3.根據權利要求1所述的用于知覺音頻編碼的信號處理方法,其特征在于a)評估當前輸入信號幀的暫態性程度;b)根據暫態性程度,排除不恰當的變換配置;c)評估當前輸入信號幀在頻域上能量分布的均勻程度;d)根據頻域上能量分布的均勻程度,從候選的變換之中排除那些會導致過度頻率重疊噪聲的變換配置;原則上,頻域能量均勻分布的信號對頻率重疊的敏感性較低;e)根據前一信號幀或子幀的編碼失真狀態,排除那些不具備恰當時延的變換及參數,以合理地控制編碼噪聲的擴散。
4.根據權利要求3所述的用于知覺音頻編碼的信號處理方法,其特征在于輸入信號幀暫態性的程度分析方法為Z=(Σj=1N|sj-1NΣj=1Nsj|2+λ)/Σj=1N|sj|2+λ]]>sj為當前幀第j個信號樣本;N為幀長,λ為大于零小于一的實數;λ的引入是為了突顯變化的重要性。
5.根據權利要求3所述的用于知覺音頻編碼的信號處理方法,其特征在于輸入信號幀在頻域上能量分布的均勻性度量判據F=(Σj=1N|xj2-1NΣj=1Nxj2|α)/Σj=1Nxj2·α]]>xj為輸入信號幀經過FFT變換后得到的第j個系數;N為幀長;α為大于一的實數。α的引入是為了強化能量變化的敏感性。
全文摘要
本發明涉及信號處理中數據壓縮及信號處理用濾波器,更詳細地說,它用于音頻信號的解相關,從而提供一個消解冗余度的方法和裝置,除此之外,基于心理聲學模型,本發明還可用于分離具有不同重要性的信號分量。本發明其特征在于變換配置包括:1024-點MDCT、512-點MDCT、256-點MDCT、128-點64-子帶PQMF以及128-點16-子帶WAVELET。本發明通過提高濾波器組配置的自由度,取得了很高編碼效率。所需要的運算量沒有增加。由于各種信號成份可采用不同的變換配置,本發明柔性濾波器組合所需要的存儲量有一定程度的增加。
文檔編號G10L19/02GK1357877SQ01134558
公開日2002年7月10日 申請日期2001年11月2日 優先權日2001年11月2日
發明者陳常謙 申請人:北京阜國數字技術有限公司