專利名稱:用于對采樣音頻信號的幀進行編碼和解碼的音頻編碼器和解碼器的制作方法
技術領域:
本發明涉及來源編碼,特別涉及音頻來源編碼,其中,音頻信號由具有不同的編碼 算法的兩個不同的音頻編碼器來處理。
背景技術:
在低比特率音頻及語音編碼技術的上下文中,傳統上采用若干不同的編碼技術, 來達成這種信號的低比特率編碼,這種信號在給定比特率下具有最佳可能主觀質量。一般 音樂/聲音信號的編碼器目的在于,根據掩蔽閾值曲線,形成量化誤差的頻譜形狀(及時間 形狀),來優化主觀質量,該掩蔽閾值曲線是利用感知模型(“感知音頻編碼”)根據輸入信 號來估計的。另一方面,當極低比特率下的語音編碼基于人類語音的產生模型,即,采用線 性預測編碼(LPC)來對人類聲道的共振效應進行建模連同殘差激勵信號的高效編碼時,已 經顯示效率非常高。由于這兩種不同方法,一般音頻編碼器,例如MPEG-I層3 (MPEG =運動圖像專家 組)或MPEG-2/4高級音頻編碼(AAC)由于缺乏對語音來源模型的開發,因而通常無法如同 專用的基于LPC的語音編碼器一樣,對于極低數據速率下的語音信號也發揮良好效果。相 反地,基于LPC的語音編碼器當應用于一般音樂信號時,無法實現動聽結果,原因在于其不 能根據掩蔽閾值值曲線而靈活地形成編碼失真的頻譜包絡。后文將描述一種構想,其將基 于LPC的編碼及感知音頻編碼的優點組合到單個框架中,因此描述可有效用于一般音頻信 號及語音信號二者的統一音頻編碼。傳統上,感知音頻編碼器使用基于的濾波器組的方法,來高效地編碼音頻信號,并 且根據掩蔽曲線的估值而形成量化失真。第16a圖示出了單聲感知編碼系統的基本方塊圖。分析濾波器組1600用來將時 域采樣映射成子采樣頻譜分量。依據頻譜分量的數目,系統也稱作為子帶編碼器(少數子 帶,例如32個)或變換編碼器(大量頻率線,例如512條)。感知(“心理聲學”)模型1602 用來估計實際時間相關掩蔽閾值值。頻譜(“子帶”或“頻域”)分量經過量化及編碼1604, 使得量化噪聲隱藏于實際傳輸的信號下,而解碼后不可被感知。這可以通過隨時間和頻率 改變頻譜值的量化粒度來實現。除了輔助信息之外,將已量化且已經熵編碼頻譜系數或子帶值輸入比特流格式化 器1606,比特流格式化器1606提供適合于傳輸或儲存的已編碼音頻信號。方塊1606的輸 出比特流可以經由因特網傳輸,或可以儲存于任何機器可讀取數據載體上。在解碼器側上,解碼器輸入接口 1610接收已編碼的比特流。方塊1610將已熵編 碼且已量化的頻譜/子帶值與輔助信息分離。將已編碼頻譜值輸入到置于1610與1620之 間的熵解碼器中,例如霍夫曼解碼器,這種熵解碼器的輸出信號是已量化的頻譜值。將這些 已量化的頻譜值輸入到再量化器中,再量化器如第16圖中1620所指示,執行“逆”量化。將 方塊1620的輸出輸入到合成濾波器組1622中,合成濾波器組1622執行合成濾波,包括頻率/時間變換且典型地執行時域混疊消除操作,例如交疊和加法,和/或合成側加窗操作來 最終獲得輸出音頻信號。傳統上,有效語音編碼基于線性預測編碼(LPC),對人類聲帶的共振效果進行建 模,并且基于殘差激勵信號的有效編碼。LPC參數及激勵參數二者從編碼器傳輸至解碼器。 第17a圖和第17b圖示出了本原理。第17a圖指示基于線性預測編碼的編碼/解碼系統的編碼器側。將語音輸入輸入 到LPC分析器1701中,LPC分析器1701在其輸出處提供LPC濾波器系數。基于這些LPC濾 波器系數,調整LPC濾波器1703。LPC濾波器輸出頻譜白化的音頻信號,也稱作為“預測誤 差信號”。將該頻譜白化音頻信號輸入到殘差/激勵編碼器1705,殘差/激勵編碼器1705 產生激勵參數。因此,語音輸入信號一方面被編碼成激勵參數,而另一方面被編碼成LPC系 數。在第17b圖所示解碼器側上,激勵參數輸入激勵解碼器1707,激勵解碼器1707產 生激勵信號,將該激勵信號輸入到LPC合成濾波器中。使用所傳輸的LPC濾波器系數來調 整LPC合成濾波器。如此,LPC合成濾波器1709產生重構或合成的語音輸出信號。隨著時間的經過,關于殘差(激勵)信號的有效且感知上動聽的呈現提出了多種 方法,諸如多脈沖激勵(MPE)、規則脈沖激勵(RPE)、以及代碼激勵線性預測(CELP)。線性預測編碼試圖基于觀察特定數目的過去值作為過去觀察的線性組合,來產生 序列目前采樣值的估計。為了減少輸入信號的冗余,編碼器LPC濾波器將其頻譜包絡中的 輸入信號“白化”,即,信號的頻譜包絡的反相模型。相反地,解碼器LPC合成濾波器是信號 的頻譜包絡的模型。特別,已知眾所周知的自動回歸(AR)線性預測分析利用全極點近似值 來對信號的頻譜包絡進行建模。典型地,窄帶語音編碼器(即,具有8kHz采樣率的語音編碼器)采用具有8至12 階之間的LPC濾波器。由于LPC濾波器的本質,均勻頻率分辨率在全頻率范圍上有效。著 并不與感知頻率標度相對應。為了組合傳統基于LPC/CELP編碼(用于語音信號的質量為最佳)與傳統基于濾 波器組的感知音頻編碼辦法(用于音樂信號的質量為最佳)的強度,已經提出了這些架 構之間的組合編碼。在AMR-WB+(AMR-WB =自適應多速率寬帶)編碼器中,B. Bessette, R.Lefebvre, R.Salami,"UNIVERSAL SPEECH/AUDIO CODING USING HYBRID ACELP/TCX TECHNIQUES, ”,Proc. IEEE ICASSP 2005,301-304 頁 2005 年,兩種交錯編碼核對 LPC 殘差 信號進行操作。一種基于ACELP(ACELP =代數代碼激勵線性預測),因此對于語音信號的編 碼非常有效。另一種編碼核是基于TCX(TCX =變換編碼激勵),即,基于濾波器組的編碼方 法類似傳統音頻編碼技術,以便實現音樂信號的良好質量。依據輸入信號的特性,短時間段 選擇兩種編碼模式之一來傳輸LPC殘差信號。這樣,將80毫秒持續時間的幀拆分成40毫 秒或20毫秒的子幀,其中在兩種編碼模式之間作判定。AMR-WB+ (AMR-ffB+ =擴充自適應性多速率寬帶編碼解碼器),例如參考3GPP (3GPP =第三代伙伴計劃)技術說明書號碼26.四0,版本6. 3. 0,2005年6月可以在兩種實質上不 同的模式ACELP與TCX之間切換。在ACELP模式中,時域信號由代數代碼激勵來編碼。在 TCX模式中,使用快速傅立葉變換(FFT =快速傅立葉變換),并且基于向量量化編碼,來編 碼LPC加權信號(由該信號在解碼器處導出激勵信號)的頻譜值。
通過嘗試和解碼兩個選項且比較獲得的信噪比(SNR =信噪比),可以判定使用哪 一個模式。此種情況也稱作為閉環判定,原因在于有閉合控回路,分別評估編碼性能和/或 效率,及然后通過丟棄另一個而選擇有較佳SNR的一個。眾者周知對音頻和語音編碼應用,沒有加窗的塊變換是不可行的。因此對TCX模 式,利用具有1/8交疊的低交疊窗對進行加窗。該交疊區是必要的,以便淡出先前塊或幀, 同時淡入下一個塊或幀,例如用來抑制連續音頻幀中因不相關量化噪聲所造成的偽像。這 樣,與非臨界采樣可比的開銷保持合理地低量,且閉環判定所需解碼重構當前幀的至少7/8 的采樣。在TCX模式中,AMR-WB+導入1/8的開銷,即,要編碼的頻譜值數目比輸入采樣數 目高1/8。這產生增加數據開銷的缺點。此外,由于連續幀的1/8陡峭交疊區,對應帶通濾 波器的頻率響應是有缺陷的。為了對連續幀的代碼開銷和交疊作更進一步說明,第18圖示出了窗參數的定義。 第18圖所示窗在左手側有上升沿部分,表示為“L”,也稱作為左交疊區;中心區表示為“1”, 也稱作為1區或旁路部分;以及下降沿部分,表示為“R”,也稱作為右交疊區。此外,第18圖 示出了指示幀內理想重構區“PR”的箭頭。第18圖示出了指示變換核的長度的箭頭,表示 為 “T”。第19圖示出了 AMR-WB+窗序列的視圖,在底部示出了根據第18圖的窗參數表。第 19圖頂部所示窗序列為ACELP、TCX20 (用于20毫秒持續時間的幀)、TCX20、TCX40 (用于40 毫秒持續時間的幀)、TCX80 (用于80毫秒持續時間的幀)、TCX20、TCX20、ACELP、ACELP。根據該窗序列,可以看到變化的交疊區,該交疊區與正好交疊了中心部分M的 1/8。在第19圖底部的表也示出了變換長度“T”始終比新理想重構的采樣“PR”區大1/8。 此外,應注意,不僅對ACELP至TCX變化為如此,對TCXx至TCXx (此處“X”指示任意長度的 TCX幀)變換亦如此。如此,在每個塊中,導入1/8開銷,S卩,永遠不會達到臨界采樣。當從TCX切換至ACELP時,在交疊區中從FFT-TCX幀丟棄窗采樣,例如在第19圖 頂部以1900標記的區所示。當從ACELP切換至TCX時,同樣如第19圖頂部以虛線1910指 示的加窗零輸入響應(Z^=零輸入響應)在編碼器處被移除以用于加窗,而在解碼器處被 加入以用于恢復。當從TCX切換至TCX幀時,加窗采樣用于交叉衰減。由于可以以不同方 式對TCX幀進行量化,連續幀之間量化誤差或量化噪聲可以不同和/或無關。當從一個幀 切換至下一幀而無交叉衰減時,可能出現顯著偽像,需要交叉衰減來實現特定質量。從第19圖底部的表可以看到,交叉衰減區隨著幀長度的增加而增加。第20圖提 供另一個表,示意AMR-WB+中可能的轉變的不同窗。當從TCX轉變至ACELP時,可以拋棄交 疊采樣。當從ACELP轉變至TCX時,來自ACELP的零輸入響應在編碼器處被移除,并在解碼 器處增加以用于恢復。AMR-WB+的顯著缺點為始終導入1/8開銷。
發明內容
本發明的目的是提供一種音頻編碼的更有效的構想。該目的可以通過根據權利要求1所述的音頻編碼器、根據權利要求14所述的用于音頻編碼的方法、根據權利要求16所述的音頻解碼器、以及根據權利要求25所述的用于音 頻解碼的方法來實現。本發明的實施例基于以下發現如果例如使用時間混疊導入變換用于TCX編碼, 則可以執行更有效的編碼。時間混疊導入變換允許實現臨界采樣,而同時仍能夠在相鄰幀 之間交叉衰減。例如,在一個實施例中,修改的離散余弦變換(MDCT =修改的離散余弦變 換)用于將交疊時域幀變換至頻域。由于該特定變換對于2N個時域采樣產生N個頻域采 樣,則即使時域幀較低50%,仍可以維持臨界采樣。在解碼器或時間混疊導入逆變換處,交 疊和加法級適合于組合時間混疊交疊采樣與逆變換的時域采樣,因而可以進行時域混疊消 除(TDAC=時域混疊消除)。實施例可以使用在利用低交疊窗的切換頻域和時域編碼(例如AMR-WB+)的上下 文中。實施例可以使用MDCT替代非臨界采樣的濾波器組。這樣,基于例如MDCT的臨界采 樣特性可以有利地降低因非臨界采樣導致的開銷。此外,可能有較長的交疊,而不會導入額 外開銷。實施例可以提供優點,基于較長的交疊,可更平滑地進行交叉衰減,換言之可以在 解碼器處提高聲音質量。在一個詳細實施例中,在AMR-WB+TCX模式中FFT可以由MDCT來代替,同時保持 AMR-WB+的功能,尤其是,基于閉環或開環判定的ACELP模式與TCX模式之間的切換。實施例 針對ACELP幀后的第一個TCX幀可以使用非臨界采樣方式的MDCT,隨后針對所有后續TCX 幀可以使用臨界采樣方式的MDCT。實施例可以使用類似未經修改AMR-WB+、具有低交疊窗 的MDCT,保持閉環判定的特征,但具有較長的交疊。這可以提供與未經修改的TCX窗相比更 佳的頻率響應的優勢。
將使用
本發明的實施例的細節,在附圖中 第1圖示出了音頻編碼器的實施例; 第圖示出了用于時域混疊導入變換的實施例的方程; 第3a圖示出了音頻編碼器的另一個實施例; 第北圖示出了音頻編碼器的另一個實施例; 第3c圖示出了音頻編碼器的又一個實施例; 第3d圖示出了音頻編碼器的又一個實施例; 第如圖示出了用于濁音語音的時域語音信號的采樣; 第4b圖示意了濁音語音信號采樣的頻譜; 第fe圖示意了清音語音的采樣的時域信號; 第恥圖示出了清音語音信號的采樣的頻譜; 第6圖示出了合成分析CELP的實施例;
第7圖示意了提供短期預測信息和預測誤差信號的編碼器側ACELP級; 第8a圖示出了音頻編碼器的實施例; 第8b圖示出了音頻編碼器的另一個實施例; 第8c圖示出了音頻編碼器的另一個實施例; 第9圖示出了窗函數的實施例;
第10圖示出了窗函數的另一個實施例;第11圖示出了現有技術窗函數和實施例的窗函數的圖示和延遲圖;第12圖示意了窗參數;第13a圖示出了窗函數序列和對應的窗參數表;第13b圖示出了基于MDCT的實施例可能轉變;第14a圖示出了實施例中可能轉變的表;第14b圖示意了根據一個實施例的從ACELP轉變至TCX80的轉變窗;第14c圖示出了根據一個實施例的從TCXx幀至TCX20幀至TCXx幀的轉變窗的實 施例;第14d圖示意了根據一個實施例的從ACELP至TCX20的轉變窗的實施例;第14e圖示出了根據一個實施例的從ACELP至TCX40的轉變窗的實施例;第14f圖示意了根據一個實施例由TCXx幀轉變至TCX80幀至TCXx幀的轉變窗的 實施例;第15圖示意了根據一個實施例的ACELP至TCX80的轉變;第16圖示意了傳統編碼器和解碼器示例;第17a,b圖示意了 LPC編碼和解碼;第18圖示意了現有技術交叉衰減窗;第19圖示意了現有技術的AMR-WB+窗序列;第20圖示意了 AMR-WB+中用于在ACELP和TCX之間傳輸的窗。
具體實施例方式在下文中,將詳細描述本發明的實施例。應注意,下列實施例不應限制本發明的范 圍,反而應視為多個不同實施例之中可能的實現或實現方式。第1圖示出了適合于編碼采樣音頻信號幀來獲得編碼幀的音頻編碼器10,其中, 幀包含多個時域音頻采樣。音頻編碼器10包含預測編碼分析級12用于測定與合成濾波 器的系數有關的信息;以及基于音頻采樣幀的預測域幀,例如該預測域幀可以基于激勵幀, 該預測域幀可以包含LPC域信號的采樣或加權采樣,由此可以獲得合成濾波器的激勵信 號。換言之,在實施例中,預測域幀可以基于激勵幀,激勵幀包含合成濾波器的激勵信號的 采樣。在實施例中,預測域幀可以與激勵幀的濾波版本相對應。例如感知濾波可應用于激 勵幀,來獲得預測域幀。在其它實施例中,高通濾波或低通濾波可以應用于激勵幀,來獲得 預測域幀。又一實施例中,預測域幀可以直接與激勵幀相對應。音頻編碼器10進一步包含時間混疊導入變換器14,時間混疊導入變換器14用于 將交疊預測域幀變換至頻域而獲得預測域幀頻譜,其中,該時間混疊導入變換器14適合于 以臨界采樣方式變換交疊預測域幀。音頻編碼器10進一步包含冗余減少編碼器16,冗余減 少編碼器16用于編碼該預測域幀頻譜,來獲得基于系數的已編碼幀以及已編碼預測域幀 頻譜。冗余減少編碼器16可以適用于使用霍夫曼編碼或熵編碼,以便編碼預測域幀頻 譜和/或與系數有關的信息。在實施例中,時間混疊導入變換器14可以適于變換交疊預測域幀,使得預測域幀頻譜采樣的平均數目等于預測域幀中采樣的平均數目,從而實現臨界采樣變換。此外,時間 混疊導入變換器14可以適于根據修改的離散余弦變換(MDCT =修改的離散余弦變換),來 變換交疊預測域幀。在下文中,通過第圖所示意的方程進一步詳細說明MDCT。修改的離散余弦 變換(MDCT)為基于IV型離散余弦變換(DCT-IV =離散余弦變換型IV)的傅立葉相關變 換,具有額外重迭性質,即,被設計成在大型數據集合的連續塊上執行,其中,后續塊是交疊 的,使得例如一個塊的后半部分與下一個塊的前半部分一致。除了 DCT的能量精簡質量之 外,此種交疊使得MDCT對于信號壓縮應用特別具有吸引力,原因在于有助于避免因塊邊界 所造成的偽像。因此,例如,在MP3 (MP3 = MPEG2/4層3)、AC-3 (AC-3 =杜比音頻編碼解碼 器3)、Ogg Vorbis,以及AAC(AAC =高級音頻編碼)中采用DMCT以用于音頻壓縮。MDCT由Princen、Johnson和Bradley于1洲7年提出,遵循更早期(I986年)由 Princen及Bradley開發MDCT的時域混疊消除(TDAC)基本原理的工作,容后進一步詳述。 也存在有基于離散正弦變換的類似變換,亦即MDST,及其它不常用的基于不同類型DCT或 DCT/DST(DST =離散正弦變換)組合的MDCT,這也可用于時間混疊導入變換器14的實施 例。在MP3中,MDCT不能直接應用于音頻信號,而是應用于32頻帶多相正交濾波器 (PQF=多相正交濾波器)組的輸出。該MDCT的輸出由混疊減少公式進行后處理,來減少 PQF濾波器組的典型混疊。濾波器組與MDCT的這種組合稱作為混合濾波器組或子帶MDCT。 另一方面,AAC通常使用純粹MDCT ;只有(很少使用的)MPEG-4 AAC-SSR變型(Sony公司) 在MDCT之前使用四頻帶PQF組。ATRAC (ATRAC =自適應變換音頻編碼)在MDCT之前使用 堆疊的正交鏡像濾波器(QMF)。至于重迭變換,MDCT與其它傅立葉相關變換相比有點不尋常,原因在于其輸出是 輸入的一半(而非相等)。具體地,MDCT為線性函數F :R2N->RN,此處R表示實數集合。2N 個實數&,...,X2n^1根據第加圖的公式變換成N個實數&,...,Xm 0在該變換之前的歸一化系數(此處為1),為任意慣用的系數,在相應處理之間不 同。只有后文MDCT與IMDCT的歸一化乘積是受限制的。逆MDCT稱作為IMDCT。由于有不同數目的輸入和輸出,最初可能認為MDCT應該是 不可逆的。然而,通過增加隨后交疊塊的交疊的IMDCT,使得消除誤差,獲取原始數據,可實 現理想的可逆性;本技術稱作為時域混疊消除(TDAC)。IMDCT根據第沘圖的公式將N個實數)(。,...,Xn^1變換成2N個實數yQ,. . .,y2N_lt) 類似DCT-IV的正交變換,逆變換與正相變換具有相同形式。在有一般窗歸一化的加窗MDCT的情況下(參見后文),在IMDCT之前的歸一化系 數可以乘以2,亦,即變成2/N。雖然MDCT公式的直接應用要求0 (N2)次運算,但可如同于快速傅立葉變換(FFT), 通過遞歸地將計算分解為簡單計算,而只以0 (N log N)復雜度來計算。也可以經過與其它 變換(典型為DFT (FFT)或DCT)組合O(N)前處理步驟及后處理步驟來計算MDCT。同樣,如 下所述,針對DCT-IV的任何算法即刻提供運算一致尺寸的MDCT的IMDCT的方法。在典型信號壓縮應用中,使用窗函數Wn (n = 0,... 2N-1)來進一步提高變換特性, 該窗函數在前述MDCT公式和IMDCT公式中乘以^和yn,以便讓該函數在那些點處平滑變成零,以避免η = 0和η = 2Ν邊界處的不連續。換言之,在MDCT之前且在IMDCT之后,對 數據加窗。原則上,χ和1能夠具有不同的窗函數,窗函數也可以從一個塊到下一個塊而變 化,特別對組合不同尺寸的數據塊的情況尤為如此,但為簡化起見,首先考慮相等尺寸的塊 的相同窗函數的情況。變換保持可逆,即,針對對稱窗Wn = w2N+n,可進行TDAC,只要w滿足根據第2c圖 的 Princen-Bradley 條件。常見多種不同窗函數,在用于MP3和MPEG-2 AAC的第2d圖以及在用于Vorbis的 第2e圖中給出了示例。AC-3使用導出的Kaiser-Bessel (KBD =導出的Kaiser-Bessel) 窗,MPEG-4 AAC也可以使用KBD窗。注意應用于MDCT的窗與用于其它類型信號分析的窗不同,原因在于其必須滿足 Princen-Bradley條件。該差異的理由之一在于,針對MDCT (分析濾波器)和IMDCT (合成 濾波器)兩次應用MDCT窗。觀察定義可以看出,對于偶數N,MDCT實質上等于DCT-IV,其中,輸入信號位移 N/2, 一次變換兩個數據N塊。通過該更小心檢驗此種相等情況,容易導出類似TDAC的重要 特性。為了定義與DCT-IV的精確關系,必須實現DCT-IV與交錯偶/奇邊界條件相對應, 其左邊界為偶數(約為η = -1/2),其右邊界為奇數(約為η = Ν-1/2),以此類推(替代關 于DFT的周期性邊界)。這遵照第2f圖示出了的恒等式。因此,如果其輸入為長度N的數 組X,可設想將該數組擴充至(X、iK、-XjK、...)等,其中,如表示與χ順序相反。考慮有2N個輸入和N個輸出的MDCT,其中,可以將輸入劃分成四個塊(a、b、c、d), 每個塊大小為Ν/2。如果這些塊位移Ν/2(根據MDCT定義中的+Ν/2項),則(b、c、d)擴充 超過N個DCT-IV輸入的末端,因此根據上述邊界條件(b、c、d)被必須“折疊”。因此,2N個輸入(a、b、c、d)的 MDCT 恰等于 N 個輸入的 DCT-IV (-cK_d、a_bK),其 中R表示如前述的逆。這樣,任何計算DCT-IV的算法則一般可應用于MDCT。類似地,如前述的IMDCT公式恰為DCT-IV的1/2 (本身的逆),其中輸出位移N/2 且擴充(經由邊界條件)至長度2N。逆DCT-IV簡單回到前文說明的輸入(-cK-d、a-bE)。 當經由邊界條件位移和擴充時,獲得第2g圖所示結果。因此,IMDCT輸出的一半為冗余。現在了解TDAC如何操作。假設運算后續50 %交疊的2N塊(c、d、e、f)的MDCT。 則類似前文IMDCT將獲得(-CfcUd-c^e+f^eZf)/^。當這與一半交疊的先前IMDCT結果 相加時,相反的各項互相抵消,獲得簡單(c、d),恢復原始數據。現在已經明白“時域混疊消除” 一詞的起源。使用擴充超過邏輯DCT-IV邊界的 輸入數據,以與引起超過尼奎斯特(Nyquist)頻率的頻率混疊至較低頻的相同方式混疊數 據,但該混疊發生于時域而非發生于頻域。因此組合c-dK等,在相加時對于要消除的組合 具有精確的正號。對于奇數N(實際上很少使用),N/2并非整數,因此MDCT不是簡單的DCT-IV位移 置換。此種情況下,半個采樣的額外位移表示MDCT/IMDCT變成等于DCT-II1/11,而分析系 類似前文。以上,已經對普通MDCT證實TDAC特性,示出了在它們一半交疊部分中加上后續塊 的IMDCT可以恢復原始數據。這種加窗MDCT的逆特性的導出只略微較復雜。
由前文回想,當對(a, b,c,d)和(c,d,e,f)進行MDCT、IMDCT,且對它們一半交疊 部分進行相加,獲得(c+dK,cE+d)/2+(c-dE, d-cE)/2 = (c,d),即原始數據。現在假設將MDCT輸入和IMDCT輸出乘以長度2N的窗函數。如前文說明,假設對稱 窗函數,因此具有形式(W,z, zK,wK),此處《和2為長度-N/2向量,R表示如前述的逆。則 Princen-Bradley條件可寫成W2 + 4 = (1,1,),乘法和加法逐元素進行,或相等地w%+Z2= (1,1,...)對w和ζ取反。因此,替代對(a、b、c、d)進行MDCT,對(wa、zb、zKc、wEd)進行MDCT,全部乘法逐 元素進行。當對上述進行IMDCT且再次與窗函數相乘(逐元素)時,后N半部分結果如第 2h圖所示。注意不再進行與1/2的乘法,原因在于在加窗情況下,IMDCT歸一化相差2倍。類 似地,(c,d,e, f)的加窗MDCT和IMDCT在前N半部分獲得根據第2i圖所示結果。當這兩 半部分加在一起時,獲得第2j圖的結果,恢復原始數據。第3a圖示出了音頻編碼器10的另一個實施例。在第3a圖所示實施例中,時間混 疊導入變換器14包含加窗濾波器17,對交疊預測域幀應用窗函數;以及變換器18,用于 將加窗交疊預測域幀轉換成預測域頻譜。根據前述的多個窗函數可設想的,其中部分函數 如后進一步詳細說明。第: 圖示出了音頻編碼器10的另一個實施例。在第: 圖所示實施例中,時間混 疊導入變換器14包含處理器19 用于檢測事件,且若檢測到事件時提供窗序列信息,并且 加窗濾波器17適于根據窗序列信息應用窗函數。例如,可以依據從采樣音頻信號幀分析得 的特定信號特性發生事件。例如可以根據信號、音調、瞬變等自相關特性,應用不同的窗長 度或不同的窗邊緣等。換言之,因采樣音頻信號幀的不同性質,可能發生不同事件,處理器 19可依據該音頻信號幀的特性而提供不同的窗序列。后文將說明窗序列的序列及參數的進 一步細節。第3c圖示出了音頻編碼器10的另一個實施例。在第3d圖所示實施例中,預測域 幀不僅提供給時間混疊導入變換器14同時也提供給碼簿編碼器13,碼簿編碼器13適于基 于預定碼簿來編碼預測域幀,從而獲得碼簿編碼幀。此外,第3c圖所示實施例包含判定 器,用于基于編碼效率獨立判定使用碼簿編碼幀還是編碼幀來獲得最終編碼幀。第3c圖所 示實施例也稱作閉合情況。在這種情況下,判定器15能夠從兩個分支獲得編碼幀,一個分 支基于變換,而另一個分支基于碼簿。為了確定編碼效率度量,判定器可以解碼來自二個分 支的編碼幀,然后經由評估來自不同分支的誤差統計,而確定編碼效率度量。換言之,判定器15適于進行與編碼過程相反的操作,即針對兩個分支進行全解 碼。已經對幀進行完全解碼之后,判定器15適于比較已解碼采樣與原始采樣,如第3c圖以 虛線箭頭指示。在第3c圖所示實施例中,還向判定器15提供預測域幀,利用該預測域幀使 得能夠對來自冗余減少編碼器16的編碼幀進行解碼,也可以對來自碼簿編碼器13的碼簿 編碼幀進行解碼,且將結果與先前已編碼的預測域幀相比較。在一個實施例中,經由比較差 異,可以確定例如信噪比或統計誤差或最小誤差等編碼效率度量。在一些實施例中,也與相應碼率有關,即編碼幀所需的比特數目。然后判定器15適于基于該編碼效率度量,選擇來 自冗余減少編碼器16的編碼幀或碼簿編碼幀作為最終編碼幀。第3d圖示出了音頻編碼器10的另一個實施例。在第3d圖所示實施例中,存在耦 合至判定器15的開關20,開關20用于基于編碼效率度量在時間混疊導入變換器14與碼 簿編碼器13之間切換預測域幀。判定器15適于基于采樣音頻信號的幀來確定編碼效率度 量,以便確定開關20的位置,即,使用具有時間混疊導入變換器14和冗余減少編碼器16的 基于變換的編碼分支,或使用具有碼簿編碼器13的基于碼簿的編碼分支。如前文說明,編 碼效率度量可以基于采樣音頻信號幀的特性來確定,即,音頻特性的本身,例如該幀是更像 音調還是更像噪聲。第3d圖所示實施例的配置也稱作為開環組態配置,原因在于判定器15可以基于 輸入幀進行判定,而無須得知相應編碼分支的結果。在又一實施例中,判定器可以基于預測 域幀進行判定,如第3d圖以虛線箭頭指示。換言之,在一個實施例中,判定器15可能并非 基于采樣音頻信號幀進行判定,反而基于預測域幀進行判定。后文將舉例說明判定器15的判斷過程。總體上,經由應用信號處理操作,可以在 音頻信號的脈沖狀部分與穩態信號的穩態部分之間區別,其中測量脈沖狀特性,也測量穩 態狀特性。這種測量例如可經由分析音頻信號的波形進行。為了達成此項目的,可進行任 何基于變換的處理或LPC處理或任何其它處理。一種直觀方式是確定該部分是否為脈沖 狀,例如觀察時域波形,且確定此時域波形在規則間隔還是在或不規則間隔具有波峰,規則 間隔的波峰甚至更適合于語音狀編碼器,即碼簿編碼器。注意,甚至在語音內部可區別濁音 部分和清音部分。碼簿編碼器13對于濁音信號部分或濁音幀更有效,其中,包含時間混疊 導入變換器14和冗余減少編碼器16的基于變換的分支更適合于清音幀。通常基于變換的 編碼也更適合于穩態信號,而非語音信號。示例性地,分別參考第如和4b圖、第fe和第恥圖。舉例說明討論脈沖狀信號節 段或信號部分及穩態信號節段或信號部分。總體上,判定器15適于基于不同標準判定例如 穩態、瞬變、頻譜白度等。后文將示出示例標準作為實施例的一部分。具體地,說明于第如 圖的時域和第4b圖的頻域中示出了濁音語音,并且討論作為脈沖狀信號部分的示例,而結 合第fe和恥圖討論作為穩態信號部分的示例的清音語音節段。語音通常可分類為濁音、清音或混合。在第如、仙、如和恥圖中示出了采樣的濁音 節段和清音節段的時域和頻域圖。濁音語音在時域中為準周期性,而在頻域為諧波結構的; 而清音語音為類似于隨機的且寬帶。此外,濁音節段的能量通常高于清音節段的能量。濁 音語音的短期頻譜以其精細和共振峰結構表征。精細諧波結構是語音的準周期性的結果, 且可歸因于聲帶的振動。共振峰結構也稱作為頻譜包絡,是由于聲音來源與聲道交互作用 的結果。聲道包含咽及口腔。“適合”池音語音的短期頻譜的頻譜包絡的形狀與聲道和由于 聲門脈沖導致頻譜傾斜(6分貝/八音度)的傳輸特性相關聯。頻譜包絡由一組稱作為共振峰得波峰表征。共振峰為聲道的共振模式。一般聲道 有3至5個低于5kHz的共振峰。通常出現低于3kHz的前三個共振峰的振幅和位置就語音 的合成和感知而言相當重要。較高共振峰對寬帶和清音語音的呈現相當重要。語音的特性 與物理語音產生系統相關,說明如下。以振動聲帶產生的準周期性聲門空氣脈沖激勵聲道, 產生濁音語音。周期性脈沖的頻率稱作為基本頻率或音高。強制空氣通過聲道的狹窄部分產生清音語音。鼻音是由于鼻道與聲道的聲學耦合的結果,而爆破音由突然間減少堆積于 聲道閉合處后方的空氣壓而產生。因此,音頻信號的穩態部分可為如第fe圖所示時域的穩態部分或于頻率的穩態 部分,由于時域的穩態部分并未示出了持久重復脈沖,故系與第如圖所示脈沖狀部分不 同。如后詳述,穩態部分與脈沖狀部分之間的差異也使用LPC方法進行,該方法對聲道和聲 道的激勵建模。當考慮信號的頻域時,脈沖狀信號示出了各個單獨共振峰的主要表現,即第 4b圖的主要峰,而穩態頻譜具有如第恥圖所示的寬頻譜;或在諧波信號的情況下,具有相 當連續的本底噪聲,本底噪聲具有主峰,表示例如音樂信號中可能出現的特殊音調,但不具 有如第4b圖中的脈沖狀信號的彼此間規則距離。此外,脈沖狀部分及穩態部分可能以定時方式發生,即表示時間上音頻信號的一 部分為穩態,而時間上音頻信號的另一部分為脈沖狀。備選或此外,信號的特性在不同頻帶 可能不同。如此,音頻信號是穩態還是脈沖狀的確定也可以頻率選擇進行,使得特定頻帶或 若干個頻帶被視為穩態,而其它頻帶被視為脈沖狀。此種情況下,音頻信號的特定時間部分 包括脈沖狀部分或穩態部分。回頭參考第3d圖所示實施例,判定器15可以分析音頻幀、預測域幀或激勵信號, 以便確定其是脈沖狀(即,更適合于碼簿編碼器13),還是穩態(即更適于基于變換的編碼 分支)。隨后將就第6圖討論合成分析的CELP編碼器。CELP編碼器的細節也參考“Speech Coding :A tutorial review,,,Andreas Spaniers, IEEE 會議,84 卷,第 10 期,1994 年 10 月,1541-1582頁。第6圖所示CELP編碼器包括長期預測組件60和短期預測組件62。此 外,使用以64指示的碼簿。在66處實現感知加權濾波器W(Z),在68處提供誤差最小化控 制器。s(n)為輸入音頻信號。在被感知加權后,將加權的信號輸入到減法器69中,減法器 69計算加權合成信號(方塊66的輸出)與實際加權預測誤差信號Sw(η)間的誤差。通常短期預測A(Z)由LPC分析級計算,容后詳述。依據該信息,長期預測包 括長期預測增益b和延遲T (也稱作為音高增益和音高延遲)。CELP算法則使用例如高斯 序列的碼簿編碼激勵或預測域幀。ACELP算法則,其中“A”表示具有特定代數設計的碼簿的 “代數”。碼簿含有或多或少個向量,其中每個向量具有根據采樣數目的長度。增益因子g 縮放激勵向量,而激勵采樣由長期合成濾波器和短期合成濾波器來濾波。選擇“最優“向量, 使得最小化感知加權均方誤差。CELP的搜索過程根據第6圖示例說明的合成分析方案變得 顯而易見。須注意,第6圖只示例說明分析合成CELP的示例,該實施例不限于第6圖所示 結構。在CELP中,長期預測器經常實施為含有前激勵信號的自適應碼簿。長期預測延遲 和增益由自適應碼簿索引和增益表示,也通過最小化均方加權誤差來選擇。在此種情況下, 激勵信號由兩個增益縮放的向量相加所組成,一個向量來自自適應碼簿而另一個向量來自 固定碼簿。AMR-WB+的感知加權濾波器基于LPC濾波器,因此感知加權信號為LPC域信號形 式。在AMR-WB+中使用的變換域編碼器中,變換應用于已加權信號。在解碼器處,通過由反 合成和加權濾波器所組成的濾波器對已解碼加權信號進行濾波,獲得激勵信號。重構的TCX目標x(n)可以通過零態逆加權合成濾波器來濾波A(Z)Cl-OZ-1)//ikz/λ))來找出可應用于合成濾波器的激勵信號。注意在濾波中使用每子幀或每幀的插值 LP濾波器。一旦確定激勵,可以通過合成濾波器1/人濾波激勵信號,以及然后例如通過濾波 器1/(1-0. 68Z-1)濾波去加重而重構該信號。注意激勵也可用來更新ACELP自適應碼簿,允 許在后續幀中從TCX切換至ACELP。還應注意,TCX合成的長度可以由TCX幀長度給出(不 含交疊)對1、2或3的mod[]分別為256、512或IOM采樣。隨后將根據第7圖的實施例,在相應實施例中使用判定器15中的LPC分析及LPC 合成,討論預測編碼分析級12的實施例功能。第7圖示例說明LPC分析塊12的實施例的進一步細節。將音頻信號輸入到濾波 器確定塊,該濾波器確定塊確定濾波器信息A(Z),即與合成濾波器的系數有關的信息。對信 息進行量化,且輸出作為解碼器所需的短期預測信息。在減法器786中,輸入信號的當前采 樣,減去當前采樣的預測值,使得對于該采樣,在線784處產生預測誤差信號。注意預測誤 差信號也稱作為激勵信號或激勵幀(通常在編碼之后)。在第8a圖中示出了用于解碼編碼幀來獲得采樣音頻信號幀的音頻解碼器80的實 施例,其中幀包含多個時域采樣。音頻解碼器80包含冗余獲取解碼器82,冗余獲取解碼器 82用于解碼已編碼幀來獲得與合成濾波器的系數有關的信息和預測域幀頻譜,或預測頻譜 域幀。音頻解碼器80進一步包含時間混疊導入逆變換器84,用于將預測頻譜域幀變換至時 域而獲得交疊預測域幀,其中,時間混疊導入逆變換器84適于根據連續的預測域幀頻譜確 定交疊預測域幀。此外,音頻解碼器80包含交疊/加法組合器86,用于組合交疊預測域幀 而用于以臨界采樣方式獲得預測域幀。該預測域幀由基于LPC的加權信號組成。交疊/加 法組合器86也包括轉換器,用于將預測域幀轉換為激勵幀。音頻解碼器80進一步包含預 測合成級88,用以基于系數和激勵幀來確定合成幀。交疊/加法組合器86適于組合交疊預測域幀,使得預測域幀的采樣的平均數目等 于該預測域幀頻譜的采樣的平均數。在實施例中,反相時間混疊導入逆變換器84適于根據 前述細節,根據IMDCT,將預測域幀頻譜變換至時域。在方塊86中,通常在“交疊/加法組合器”之后,在實施例中可選地存在“激勵恢 復”,第8a_c圖以括號中所示。在實施例中,交疊/加法可以在LPC加權域中進行,然后可 以通過逆加權合成濾波器進行濾波,將加權信號轉換成激勵信號。此外,在實施例中,預測合成級88適于基于線性預測,即LPC來確定幀。在第8b圖 中示出了音頻解碼器80的另一個實施例。第8b圖所示的音頻解碼器80示出了類似于第 8a圖所示音頻解碼器80的組件,然而,在實施例中,第8b圖所示時間混疊導入逆變換器84 進一步包含轉換器84a,用于將預測域幀頻譜轉換成轉換交疊預測域幀;加窗濾波器84b, 用于對轉換交疊預測域幀應用加窗函數而獲得交疊預測域幀。第8c圖示出了具有類似于第8b圖所示的組件的音頻解碼器80的另一個實施例。 在第8c圖所示實施例中,時間混疊導入逆變換器84進一步包含處理器84c,用于檢測事 件,以及如果檢測到事件為加窗濾波器84b提供窗序列信息,并且加窗濾波器84b適于根據窗序列信息應用加窗函數。該事件可為由編碼幀或任何輔助信息所導出的或所提供的指
7J\ ο在音頻編碼器10和音頻解碼器80的實施例中,相應加窗濾波器17和84適于根 據窗序列信息應用加窗函數。第9圖示出了一般矩形窗,其中該窗序列信息包含第一零 部分,其中該窗掩蔽采樣;第二旁路部分,其中幀(即預測域幀或交疊預測域幀)的采樣可 未經修改地通過;以及第三零部分,其中再次掩蔽幀結束處的采樣。換言之,可應用加窗函 數,該加窗函數在第一零部分中抑制幀的多個采樣,在第二旁路部分通過采樣,然后在第三 零部分中抑制幀結束處的采樣。在上下文中,遏止也表示在窗的旁路部分的起點和/或結 束處附加零序列。第二旁路部分可使得加窗函數簡單具有1值,即采樣未經修改而通過,即 加窗函數通過該幀的采樣切換。第10圖示出了加窗序列或加窗函數的另一個實施例,其中該加窗序列進一步包 含第一零部分與第二旁路部分之間的上升沿,及第二旁路部分與第三零部分之間的下降 沿。上升沿部分也視為淡入部分,而下降沿部分可視為淡出部分。在實施例中,第二旁路部 分包含絲毫也不修改LPC域幀的采樣的序列。換言之,基于MDCT的TCX可從算術解碼器請求多個量化頻譜系數,lg,其系由最后 模式的mod□及last_lpd_mode值確定。這二值也定義將應用于逆MDCT的窗長度和形狀。 窗可由三個部分組成,L個采樣的左側交疊部分、M個采樣的中間部分、以及R個采樣的右側 交疊部分。為了獲得長2*lg的MDCT窗,可在左側天界ZL個零及在右側添加觀個零。下表示出了針對若干實施例的根據last_lpd_m0de和mod[]的頻譜系數的數目
權利要求
1.一種適于編碼采樣音頻信號的幀來獲得編碼幀的音頻編碼器(10),其中,幀包括多 個時域音頻采樣,所述音頻編碼器包括預測編碼分析級(12),用于基于音頻采樣的幀確定與合成濾波器的系數有關的信息以 及預測域幀;時間混疊導入變換器(14),用于將交疊預測域幀變換到頻域,來獲得預測域幀頻譜,其 中,所述時間混疊導入變換器(14)適于以臨界采樣方式變換交疊預測域幀;以及冗余減少編碼器(16),用于編碼預測域幀頻譜來基于系數和編碼預測域幀頻譜獲得編 碼幀。
2.如權利要求1所述的音頻編碼器(10),其中,預測域幀基于包括用于合成濾波器的 激勵信號的采樣的激勵幀。
3.如權利要求1或2之一所述的音頻編碼器(10),其中,時間混疊導入變換器(14)適 于變換交疊預測域幀,使得預測域幀頻譜的采樣的平均數等于預測域幀的采樣的平均數。
4.如權利要求1至3中任一項所述的音頻編碼器(10),其中,時間混疊導入變換器 (14)適于根據修改的離散余弦變換(MDCT)來變換交疊預測域幀。
5.如權利要求1至4中任一項所述的音頻編碼器(10),其中,時間混疊導入變換器 (14)包括加窗濾波器(17),用于對交疊預測域幀應用加窗函數;以及轉換器(18),用于將 加窗的交疊預測域幀轉換成預測域幀頻譜。
6.如權利要求5所述的音頻編碼器(10),其中,時間混疊導入變換器(14)包括處理 器(19),用于檢測事件;以及如果檢測到所述事件,則提供窗序列信息,并且所述加窗濾波 器(17)適于根據所述窗序列信息應用所述加窗函數。
7.如權利要求6所述的音頻編碼器(10),其中,所述窗序列信息包括第一零部分、第二 旁路部分以及第三零部分。
8.如權利要求7所述的音頻編碼器(10),其中,所述窗序列信息包括在第一零部分與 第二旁路部分之間的上升沿部分,以及在第二旁路部分與第三零部分之間的下降沿部分。
9.如權利要求8所述的音頻編碼器(10),其中,第二旁路部分包括1的序列,不修改 預測域幀頻譜的采樣。
10.如權利要求1至9中任一項所述的音頻編碼器(10),其中,預測編碼分析級(12) 適于基于線性預測編碼(LPC)來確定與系數有關的信息。
11.如權利要求1至10中任一項所述的音頻編碼器(10),還包括碼簿編碼器(13), 用于基于預定的碼簿來編碼預測域幀,從而獲得碼簿編碼預測域幀。
12.如權利要求11所述的音頻編碼器(10),還包括判定器(15),用于基于編碼效率 度量判定使用碼簿編碼預測域幀還是編碼預測域幀,來獲得最終編碼幀。
13.如權利要求12所述的音頻編碼器(10),還包括耦接至判定器(15)的開關(20), 用于基于編碼效率度量,在時間混疊導入變換器(14)與碼簿編碼器(13)之間切換預測域 幀。
14.一種用于編碼采樣音頻信號的幀來獲得編碼幀的方法,其中,幀包括多個時域音頻 采樣,所述方法包括以下步驟基于音頻采樣的幀確定與合成濾波器的系數有關的信息;基于音頻采樣的幀確定預測域幀;以導入時間混疊的臨界采樣方式,將交疊預測域幀變換到頻域來獲得預測域幀頻譜;以及編碼預測域幀頻譜,來基于所述系數和編碼預測域幀頻譜獲得編碼幀。
15.一種計算機程序,具有當在計算機或處理器上運行時用于執行如權利要求14所述 的方法的程序代碼。
16.一種用于對編碼幀進行解碼來獲得采樣音頻信號的幀的音頻解碼器(80),其中, 幀包括多個時域音頻采樣,所述音頻解碼器包括冗余獲取解碼器(82),用于對編碼幀進行解碼來獲得與合成濾波器的系數有關的信息 以及預測域幀頻譜;時間混疊導入逆變換器(84),用于將預測域幀頻譜變換到時域來獲得交疊預測域幀, 其中,所述時間混疊導入逆變換器(84)適于根據連續的預測域幀頻譜確定交疊預測域幀; 交疊/加法組合器(86),用來以臨界采樣方式組合交疊預測域幀,來獲得預測域幀;以及預測合成級(88),用于基于所述系數和預測域幀確定音頻采樣的幀。
17.如權利要求16所述的音頻解碼器(80),其中,交疊/加法組合器(86)適于組合交 疊預測域幀,使得預測域幀的采樣的平均數等于預測域幀頻譜的采樣的平均數。
18.如權利要求16或17中任一項所述的音頻解碼器(80),其中,時間混疊導入變換器 (84)適于根據修改的離散余弦逆變換(IMDCT)將預測域幀頻譜變換到時域。
19.如權利要求16至18中任一項所述的音頻解碼器(80),其中,預測合成級(88)適 于基于線性預測編碼(LPC)來確定音頻采樣的幀。
20.如權利要求16至19中任一項所述的音頻解碼器(80),其中,時間混疊導入逆變換 器(84)還包括轉換器(8 ),用于將預測域幀頻譜變換成變換的交疊預測域幀;以及加窗 濾波器(84b),用于對轉換的交疊預測域幀應用加窗函數,以獲得交疊預測域幀。
21.如權利要求20所述的音頻解碼器(80),其中,時間混疊導入逆變換器(84)包括 處理器(8 ),用于檢測事件;以及如果檢測到所述事件,則向加窗濾波器(84b)提供窗序 列信息,并且所述加窗濾波器(84b)適于根據窗序列信息應用加窗函數。
22.如權利要求20或21中任一項所述的音頻解碼器(80),其中,所述窗序列信息包括 第一零部分、第二旁路部分以及第三零部分。
23.如權利要求22所述的音頻解碼器(80),其中,所述窗序列信息包括在第一零部 分與第二旁路部分之間的上升沿部分,以及在第二旁路部分與第三零部分之間的下降沿部 分。
24.如權利要求23所述的音頻解碼器(80),其中,該第二旁路部分包括1的序列,用 于修改預測域幀的采樣。
25.一種用于對編碼幀進行解碼來獲得采樣音頻信號的幀的方法,其中,幀包括多個時 域音頻采樣,所述方法包括以下步驟對編碼幀進行解碼來獲得與合成濾波器的系數有關的信息以及預測域幀頻譜; 將預測域幀頻譜變換到時域,來根據連續的預測域幀頻譜獲得交疊預測域幀; 以臨界采樣方式組合交疊預測域幀來獲得預測域幀;以及 基于所述系數以及預測域幀來確定幀。
26. 一種計算機程序產品,用于當所述計算機程序運行在計算機或處理器上時執行如 權利要求25所述的方法。
全文摘要
一種適于編碼采樣音頻信號的幀來獲得編碼幀的音頻編碼器,其中,框包括多個時域音頻采樣。音頻編碼器(10)包括預測編碼分析級(12),用于基于音頻采樣的幀來確定與分析濾波器的系數有關的信息以及預測域幀。音頻編碼器(10)還包括時間混疊導入變換器(14),用于將交疊預測域幀變換到頻域來獲得預測域幀頻譜,其中時間混疊導入變換器(14)適于以臨界采樣方式變換交疊預測域幀。此外,音頻編碼器(10)包括冗余減少編碼器(16),用于基于所述系數和編碼預測域幀頻譜,來編碼預測域幀頻譜,從而獲得編碼幀。
文檔編號G06F17/14GK102089758SQ200980127089
公開日2011年6月8日 申請日期2009年6月4日 優先權日2008年7月11日
發明者伯恩哈德·格瑞, 布魯諾·貝塞特, 拉爾夫·蓋格爾, 杰拉爾德·舒勒, 紀堯姆·福克斯, 菲利普·古爾奈, 馬克斯·諾伊恩多夫, 馬庫斯·馬特拉斯 申請人:弗勞恩霍夫應用研究促進協會, 沃伊斯亞吉公司