使用對齊的前瞻部分將音頻信號編碼及解碼的裝置與方法
【專利說明】使用對齊的前瞻部分將音頻信號編碼及解碼的裝置與方法
[0001]本申請是國際申請日2012年2月14日、國際申請號PCT/EP2012/052450的國際申請于2013年10月12日進入國家階段的申請號為201280018282.7發明名稱為“用于使用對齊的前瞻部分將音頻信號編碼及解碼的裝置與方法”的專利申請的分案申請,其全部內容結合于此作為參考。
技術領域
[0002]本發明涉及音頻編碼,且特別地,涉及依賴于切換音頻編碼器及相應控制音頻解碼器,尤其適用于低延遲應用的音頻編碼。
【背景技術】
[0003]依賴于切換編解碼器的若干音頻編碼概念是已知的。一個眾所周知的音頻編碼概念是所謂的延伸型調適性多位率寬帶(AMR-WB+)編解碼器,如3GPP TS 26.290B10.0.0 (2011-03)中所述。AMR-WB+音頻編解碼器包括所有AMR-WB語音編解碼器模式1至9及AMR-WB VAD以及DTX。AMR-WB+通過增加TCX、帶寬擴展及立體聲來擴展AMR-WB編解碼器。
[0004]AMR-WB+音頻編解碼器以內部采樣頻率?5處理等同于2048個樣本的輸入幀。內部采樣頻率被局限于12800到38400Hz的范圍。2048個樣本幀被分成兩個臨界采樣的等頻帶。這產生對應于低頻(LF)及高頻(HF)帶的兩個1024樣本的超級幀。每一超級幀被劃分成四個256-樣本幀。通過使用重新采樣輸入信號的可變采樣轉換方案而獲得內部采樣率處的采樣。
[0005]LF及HF信號隨后使用兩種不同的方法而被編碼:LF使用“核心”編碼器/解碼器基于切換ACELP及變換編碼激勵(TCX)而被編碼及解碼。在ACELP模式中,標準的AMR-WB編解碼器被使用。HF信號是使用帶寬擴展(BWE)方法以相對較少位(16位/幀)而被編碼的。從編碼器傳送至解碼器的參數是模式選擇位、LF參數及HF參數。用于每一 1024樣本超級幀的參數被分解成相同大小的四個數據包。當輸入信號為立體聲時,左右信道被組合成一單個信號以供ACELP/TXC編碼,而立體聲編碼接收這兩個輸入信道。在解碼器端,LF及HF帶被單獨解碼,在此之后,它們在合成濾波器組中被合成。若輸出僅限于單聲道,則立體聲參數被忽略且解碼器以單聲道模式運作。當編碼LF信號時,AMR-WB+編解碼器對ACELP及TCX模式應用LP分析。LP系數被線性地內插于每一 64-樣本子幀。LP分析窗口是長度為384樣本的半余弦。為了編碼核心單聲道信號,ACELP或TCX編碼被用于每一幀。編碼模式是基于閉合回路合成分析法而選擇的。僅256-樣本幀被考慮用于ACELP幀,而256、512或1024樣本幀可能是TCX模式的。AMR-WB+中的LPC分析所使用的窗口被示出于圖5B中。具有20ms前瞻的對稱LPC分析窗口被使用。前瞻意指,如圖5B中所示,以500示出的當前幀的LPC分析窗口不僅在圖5B中以502示出的0到20ms之間所指示的當前幀內延伸,而且延伸到20到40ms之間的未來幀中。這意味著,通過使用此LPC分析窗口,另外的20ms延遲,即整個未來幀,是必需的。因此,在圖5B中以504指示的前瞻部分促成與AMR-WB+編碼器相關聯的系統延遲。換言之,未來幀必須完全可用以便使當前幀502的LPC分析系數可被算出。
[0006]圖5A示出了另一編碼器,所謂的AMR-WB編碼器,且具體地,是用于計算當前幀的分析系數的LPC分析窗口。當前幀再一次在0到20ms之間延伸且未來幀在20到40ms之間延伸。對照于圖5B,506所指示的AMR-WB的LPC分析窗口具有僅5ms的前瞻部分508,即20ms到25ms之間的時間距離。因此,LPC分析所引入的延遲相對于圖5A大幅減小。然而,另一方面,已發現用于確定LPC系數的較大的前瞻部分,即LPC分析窗口的較大的前瞻部分導致較好的LPC系數,且因此,殘余信號中有較小的能量,且因此,較低的位率,這是因為LPC預測更好地符合原始信號。
[0007]雖然圖5A及圖5B涉及僅具有用于確定一個幀的LPC系數的單一分析窗口的編碼器,圖5C示出了用于G.718語音編碼器的情況。G718 (06-2008)規范涉及傳輸系統及媒體數字系統和網絡,且特別是,描述數字終端設備,且特別地,用于該設備的語音及音頻信號的編碼。特別地,該標準涉及建議書ITU-T G718所定義的從8-32kb/s起的語音及音頻的強健的窄帶及寬帶嵌入式可變位率編碼。輸入信號是使用20ms的幀來處理的。編解碼器延遲視輸入及輸出的采樣率而定。對于寬帶輸入及寬帶輸出,該編碼的總算法延遲是42.875msο其由一個20_ms幀、輸入及輸出重新采樣濾波器的1.875ms延遲,供編碼器前瞻使用的10ms、后濾波延遲的1ms及解碼器處的10ms組成,以允許較高層轉換編碼的重迭相加操作。對于窄帶輸入和窄帶輸出,較高層并未被使用,但10ms解碼器延遲被用于改善在存在幀去除的情況及對于音樂信號的編碼性能。若輸出被限于層2,則編解碼器延遲可減少10msο編碼器的說明如下。下部的兩層被應用于在12.8kHz采樣的預先加強信號,且上面的三層在16kHz采樣的輸入信號域中運作。核心層是基于碼激勵線性預測(CELP)技術的,其中,語音信號通過穿過表示頻譜包絡的線性預測(LP)合成濾波器的激勵信號而被模型化。LP濾波器使用切換預測方法及多階向量量化在導抗頻譜頻率(ISF)域中被量化。開回路音高分析通過音高追蹤算法來執行,以確保平滑的音高輪廓。兩個共存的音高演進輪廓被比較且產生較平滑輪廓的軌道被選擇,以使音高估計更強健。幀層級預處理包括高通濾波,每秒12800個樣本的采樣轉換,預先加強,頻譜分析,窄帶輸入的檢測,語音活動檢測,噪聲估計,噪聲降低,線性預測分析,LP至ISF轉換以及內插,加權語音信號的計算,開回路音高分析,背景噪聲更新,對于編碼模式選擇及幀去除隱藏的信號分類。使用選擇的編碼類型的層1編碼包括清音編碼模式、濁音編碼模式、變換編碼模式、通用編碼模式以及不連續傳輸和舒適噪聲生成(DTX/CNG)。
[0008]使用自相關法的長期預測或線性預測(LP)分析決定CELP模型的合成濾波器的系數。然而,在CELP中,長期預測通常是“適應性碼簿”,且因此不同于線性預測。因此,線性預測可更多被視為短期預測。窗口化語音的自相關使用列文遜-杜賓(Levinson-Durbin)算法被轉換成LP系數。接著,LPC系數被轉換成導抗譜對(ISP),且因此為了量化及內插目的而轉換成導抗頻譜頻率(ISF)。內插的量化及非量化系數被轉換回LP域以構建對于每一子幀的合成及加權濾波器。若編碼主動信號幀,則使用在圖5C中以510及512所指示的兩個LPC分析窗口,兩組LP系數在每一幀中被估計。窗口 512被稱作“中幀LPC窗口 ”,且窗口 510被稱作“結束幀LPC窗口”。10ms的前瞻部分514被用于幀末端自相關計算。幀結構被示出于圖5C中。幀被劃分為四個子幀,每一子幀具有對應于采樣率12.8kHz的64個樣本的5ms長度。用于幀末端分析及用于中幀分析的窗口分別以第四子幀及第二子幀為中心,如圖5C中所示。長度為320個樣本的漢明窗口用于窗口化。該系數在G.718,6.4.1節中被定義。自相關計算被記載于6.4.2節中。列文遜-杜賓算法被記載于第6.4.3節中,LP至ISP轉換被記載于6.4.4節中,且ISP至LP轉換被記載于6.4.5節中。
[0009]語音編碼參數,諸如適應性碼簿延遲及增益,代數碼簿索引及增益通過最小化感知加權域中的輸入信號與合成信號之間的誤差而被搜尋。感知加權是通過經由由LP濾波器系數所導出的感知加權濾波器來對信號濾波而執行。感知加權信號也用在開回路音高分析中。
[0010]G.718編碼器是僅具有單一語音編碼模式的純語音編碼器。因此,G.718編碼器并非切換編碼器,且因此,該編碼器的缺點在于其僅在核心層內提供單一的語音編碼模式。因此,當這一編碼器被應用于語音信號以外的其他信號,即應用于CELP編碼后的模型并不適當的一般音頻信號時,質量問題將出現。
[0011]另外的切換編解碼器是所謂的USAC編解碼器,即定義于日期為2010年9月24日的IS0/IEC⑶23003-3中的統一語音及音頻編解碼器。該切換編解碼器所用的LPC分析窗口在圖?中以516來指示。再一次假定當前幀在0到20ms之間延伸,且因此,此編解碼器的前瞻部分618似乎為20ms,即明顯高于G.718的前瞻部分。因此,雖然USAC編碼器由于其切換性質而提供良好的音頻質量,但因為圖f5D中的LPC分析窗口前瞻部分518,延遲是相當大的。USAC的一般結構如下。首先,有一共同預/后處理,其由處理立體聲或多信道處理的MPEG環繞(MPEGS)功能單元及處理輸入信號中的較高音頻頻率的參數表示的增強SBR(eSBR)單元所組成。接著,有兩個分支,一個分支由修改的進階音頻編碼(AAC)工具路徑組成且另一分支由以線性預測編碼(LP或LPC域)為基礎的路徑組成,以線性預測編碼(LP或LPC域)為基礎的路徑轉而具有LPC殘余的頻域表示或時域表示的特征。用于AAC及LPC的所有傳輸頻譜在量化及算術編碼之后被表示在MDCT域中。時域表示使用ACELP激勵編碼方案。ACELP工具通過組合長期預測器(適應性碼字)與脈沖型序列(創新碼字)來提供一種有效地表示時域激勵信號的方式。重建的激勵通過LP合成濾波器來發送以形成時域信號。ACELP工具的輸入包括適應性及創新碼簿索引,適應性及創新碼增益值,其他控制數據及去量化和內插LPC濾波器系數。ACELP工具的輸出是時域重建音頻信號。
[0012]MDCT基TCX解碼工具被使用來將加權LP殘余表示從MDCT域變回時域信號并輸出包括加權LP合成濾波的加權時域信號。MDCT可被配置成支持256、512或1024個頻譜系數。向TCX工具的輸入包括(去量化)MDCT譜,以及去量化和內插LPC濾波器系數。TCX工具的輸出是時域重建音頻信號。
[0013]圖6示出了 USAC中的一種情況,其中,用于當前幀的LPC分析窗口 516及用于過去或最后幀的LPC分析窗口 520被繪出,且除此之外,其中,TCX窗口 522被示出。TCX窗口522以在0到20ms之間延伸的當前幀的中心為中心,且延伸10ms到過去幀中以及延伸10ms到在20到40ms之間延伸的未來幀中。因此,LPC分析窗口 516要求LPC前瞻部分在20到40ms之間,即20ms,而TCX分析窗口另外具有在20到30ms之間延伸進入到未來幀中的前瞻部分。這意味著USAC分析窗口 516所引入的延遲為20ms,而由TCX窗口引入到編碼器中的延遲為10ms。因此,清楚的是,兩種窗口的前瞻部分并未彼此對齊。因此,即使TCX窗口522僅引入10ms的延遲,由于LPC分析窗口 516,編碼器的整個延遲仍為20ms。因此,即使TCX窗口有相當小的前瞻部分,這并未減少編碼器的總算法延遲,這是因為總延遲由最高貢獻決定,即等于20ms,因為LPC分析窗口 516有20ms延伸到未來幀中,即不僅涵蓋當前幀而且還涵蓋未來幀。
【發明內容】
[0014]本發明的目的在于提供一種用于音頻編碼或解碼的改善的編碼概念,一方面,這提供良好的音頻質量,且另一方面,這使得延遲縮短。
[0015]該目的是通過一種用于編碼音頻信號的裝置,編碼音頻信號的方法,音頻解碼器,音頻解碼方法或計算機程序來實現。
[0016]—種用于編碼具有音頻樣本流(100)的音頻信號的裝置,包括:
[0017]窗口器(102),用于對所述音頻樣本流應用預測編碼分析窗口(200)以獲得用于預測分析的窗口化數據,以及用于對所述音頻樣本流應用轉換編碼分析窗口(204)以獲得用于轉換分析的窗口化數據,
[0018]其中,所述轉換編碼分析窗口與音頻樣本的當前幀內的音頻樣本以及與作為轉換編碼前瞻部分(206)的音頻樣本的未來幀的預定部分的音頻樣本相關聯,