頻域中基于cpl進行編碼的低頻增強的制作方法
【專利說明】頻域中基于CPL進行編碼的低頻增強
[0001] 眾所周知,非語音信號例如音樂聲音在處理上會比人類聲帶聲音更復雜,從而占 用更寬的頻帶。現有技術中最新的音頻編碼系統諸如AMR-WB+[3]和xHE-AAC[4]為音樂及 其它一般非語音信號提供了變換編碼工具。此工具通常被稱為變換碼激勵(TCX,transform coded excitation)并且是基于在頻域內被量化且被熵編碼的線性預測編碼(LPC,linear predictive coding)殘差的稱為激發的傳輸原理。然而,由于在LPC級中使用的有限階的 預測器,在譯碼信號中,尤其在人類聽覺極其靈敏的低頻處的譯碼信號中,會出現偽影。為 此,在[1-3]中介紹低頻增強及還原(de-emphasis)方案。
[0002] 所述現有技術的適應性低頻增強(ALFE,adaptive low-frequency emphasis)方 案將低頻譜線在編碼器中進行量化之前對其進行放大。具體而言,低頻線被分組為頻帶,計 算每一頻帶的能量,并且找到局部能量最大的頻帶。基于能量最大的值和位置,使最大能量 頻帶以下的頻帶被增大,以使得這些頻帶在后續量化中更精確地被量化。
[0003] 低頻還原--被執行以使ALFE在對應的譯碼器中逆變(invert)--在概念上極 其類似。如在編碼器中所進行的,建立低頻頻帶并且確定具有最大能量的頻帶。與在編碼 器中不同的是,現在使能量高峰以下的頻帶衰減。此過程大致恢復初始頻譜的線能量。
[0004] 值得注意的是,在現有技術中,在編碼器中頻帶能量計算是在量化之前執行,即, 在輸入頻譜上執行,然而在譯碼器中該頻帶能量計算是在經逆變量化的線上執行,即,在譯 碼頻譜上執行。盡管量化運算可被設計成使得頻譜能量保持為平均值,但是對于單個頻譜 線無法保證保持精確的能量。因此,無法使ALFE理想地逆變。此外,在現有技術ALFE的優 選實現方式中,在編碼器和譯碼器中都需要平方根運算。期望避免這種相對復雜的運算。
[0005] 本發明的目標在于提供用于音頻信號處理的改進理念。更具體地,本發明的目標 在于提供用于適應性低頻增強和還原的改進理念。本發明的目標通過根據權利要求1的音 頻編碼器、根據權利要求11的音頻譯碼器,通過根據權利要求21的系統,通過根據權利要 求22和23的方法且通過根據權利要求24的計算機程序來達到。
[0006] 在一個方面中,本發明提供了一種音頻編碼器,其用于對非語音音頻信號進行編 碼以便依據該非語音音頻信號產生比特流,該音頻編碼器包含:
[0007] 線性預測編碼濾波器和時間-頻率轉換器的組合,該線性預測編碼濾波器具有多 個線性預測編碼系數,其中該組合被配置成基于該音頻信號的幀并且基于該線性預測編碼 系數將該音頻信號的幀進行濾波并且轉換進頻域,以便輸出頻譜;
[0008] 低頻增強器,其被配置成基于該頻譜來計算經處理的頻譜,其中該經處理的頻譜 中的表示比參考頻譜線更低的頻率的頻譜線被增強;以及
[0009] 控制裝置,其被配置成根據該線性預測編碼濾波器的線性預測編碼系數來控制由 該低頻增強器進行的對該經處理的頻譜的計算。
[0010] 線性預測編碼濾波器(LPC濾波器)是使用線性預測模型的信息的在音頻信號處 理和語音處理中使用的用于表示壓縮形式的聲音的成幀數字信號的頻譜包絡的工具。
[0011] 時間-頻率轉換器是用于尤其將成幀的數字信號從時域轉換進頻域以便估計信 號的頻譜的工具。時間-頻率轉換器可使用改進型離散余弦變換(MDCT,modified discrete cosine transform),該改進型離散余弦變換是基于第四型離散余弦變換(DCT-IV)的重疊 變換,具有重疊的附加性質:該改進型離散余弦變換被設計成對較大數據集的連續幀執行 變換,其中后續幀重疊使得一個幀的后半部分與下一個幀的前半部分重合。除DCT的能量 聚集品質之外,此重疊還使得MDCT對于信號壓縮應用尤其具有吸引力,這是因為該重疊有 助于避免源于幀邊界的偽影。
[0012] 低頻增強器被配置成基于頻譜來計算經處理的頻譜,其中經處理的頻譜中的表示 比參考頻譜線更低的頻率的頻譜線被增強,使得僅經處理的頻譜中所包含的低頻被增強。 該參考頻譜線可基于經驗實驗來預定義。
[0013] 控制裝置被配置成根據該線性預測編碼濾波器的線性預測編碼系數來控制由該 低頻增強器進行的對經處理的頻譜的計算。因此,根據本發明的編碼器不需要為了低頻增 強目的而分析音頻信號的頻譜。此外,因為相同的線性預測編碼系數可在編碼器中并且在 后續譯碼器中使用,所以適應性低頻增強是完全可逆的,而與頻譜量化無關,只要線性預測 編碼系數在由編碼器或由任何其它裝置產生的比特流中傳輸至譯碼器即可。一般而言,線 性預測編碼系數無論如何必須在比特流中傳輸,以達到通過相應譯碼器從比特流重建音頻 輸出信號的目的。因此,比特流的比特率將不會通過如本文所述的低頻增強而增加。
[0014] 本文所述的適應性低頻增強系統可以在能夠基于每一幀在時域編碼與MDCT域編 碼之間切換的xHE-AAC[4]的低延遲變體、LD-USAC(EVS)的TCX核心編碼器中實現。
[0015] 根據本發明的優選實施例,該音頻信號的幀輸入至該線性預測編碼濾波器,其中 經濾波的幀由該線性預測編碼濾波器輸出,并且其中該時間-頻率轉換器被配置成基于該 經濾波的幀來估計該頻譜。因此,線性預測編碼濾波器可在時域中操作,以音頻信號作為其 輸入。
[0016] 根據本發明的優選實施例,該音頻信號的幀輸入至該時間-頻率轉換器,其中經 轉換的幀由該時間-頻率轉換器輸出,且其中該線性預測編碼濾波器被配置成基于該經轉 換的幀來估計該頻譜。可選地,但與發明的編碼器的具有低頻增強器的第一實施例等效地, 編碼器可基于借助于頻域噪聲整型(FDNS,frequency-domain noise shaping)產生的幀 的頻譜來計算經處理的頻譜,如例如在[5]中所公開的。更具體地,此處修改工具次序:時 間-頻率轉換器諸如上面所提及的時間-頻率轉換器可被配置成基于音頻信號的幀來估計 經轉換的幀,并且線性預測編碼濾波器被配置成基于經轉換的幀來估計音頻頻譜,該經轉 換的幀由時間-頻率轉換器輸出。因此,線性預測編碼濾波器可在頻域(而非時域)中操 作,以經轉換的幀作為其輸入,其中經由乘以線性預測編碼系數的頻譜表示來應用線性預 測編碼濾波器。
[0017] 對于本領域的技術人員明顯的是,可以實現這兩種方法--在時域中的線性濾波 之后進行時間-頻率轉換與在時間-頻率轉換之后進行在頻域中的經由頻譜加權的線性濾 波,使得該兩種方法是等效的。
[0018] 根據本發明的優選實施例,該音頻編碼器包含:量化裝置,其被配置成基于該經處 理的頻譜產生量化頻譜;以及比特流產生器,其被配置成將該量化頻譜和線性預測編碼系 數嵌入該比特流中。量化在數字信號處理中是將一大組輸入值映射至(可計數的)較小組 例如將值舍位至某個精度單位的處理。執行量化的裝置或算法函數被稱為量化裝置。比特 流產生器可以是能夠將來自不同源的數字數據嵌入整體的比特流中的任何裝置。通過這些 特征,可容易地產生使用適應性低頻增強產生的比特流,其中通過后續譯碼器僅使用比特 流中所包含的信息,適應性低頻增強是完全可逆的。
[0019] 在本發明的優選實施例中,該控制裝置包括:頻譜分析儀,其被配置成估計線性預 測編碼系數的頻譜表示;最小-最大分析儀,其被配置成估計在另一參考頻譜線以下的該 頻譜表示的最小值和該頻譜表示的最大值;以及增強因子計算器,其被配置成基于該最小 值并且基于該最大值來計算頻譜線增強因子,該頻譜線增強因子用于計算該經處理的頻譜 中的表示比該參考頻譜線更低的頻率的頻譜線,其中經處理的頻譜的頻譜線是通過將頻譜 線增強因子施加于該經濾波的幀的頻譜的頻譜線來增強。頻譜分析儀可以是如上所述的時 間-頻率轉換器。頻譜表示是線性預測編碼濾波器的轉移函數,并且可以是但不必一定是 與如以上所述用于FDNS的頻譜表示相同的頻譜表示。頻譜表示可根據線性預測編碼系數 的奇數離散傅立葉變換(ODFT,odd discrete Fourier transform)來計算。在xHE-AAC和 LD-USAC中,轉移函數可通過覆蓋整個頻譜表示的32個或64個MDCT域增益來近似。
[0020] 在本發明的優選實施例中,增強因子計算器系進行配置的方式為在從該參考頻譜 線至表示頻譜的最低頻率的頻譜線的方向上頻譜線增強因子增大。這意味著表示最低頻 率的頻譜線被放大得最多,而與參考頻譜線相鄰的頻譜線被放大得最少。參考頻譜線和表 示比參考頻譜線更高的頻率的頻譜線根本不增強。這樣降低了計算復雜性而未聽聞任何缺 點。
[0021] 在本發明的優選實施例中,該增強因子計算器包括第一級,該第一級被配置成根 據第一公式γ = (a ^minAiax) e來計算基礎增強因子,其中,α為第一預設值,α>1,β 為第二預設值,〇〈β <l,min為該頻譜表示的最小值,max為該頻譜表示的最大值,且γ為 該基礎增強因子,并且其中該增強因子計算器包括第二級,該第二級被配置成根據第二公 式E1= γ 1來計算頻譜線增強因子,其中i'為要增強的頻譜線的數目,i為相應頻譜線 的索引,該索引隨著該頻譜線的頻率而增大,從i = 〇至i' -1,γ為該基礎增強因子且ε i 為索引為i的該頻譜線增強因子。基礎增強因子以容易的方式通過第一公式根據最小值與 最大值的比率來計算。基礎增強因子用作所有頻譜線增強因子的計算的基礎,其中第二公 式確保在從參考頻譜線至表示頻譜的最低頻率的頻譜線的方向上頻譜線增強因子增大。與 現有技術解決方案相比,所提出的解決方案不需要對每一頻譜帶進行平方根或類似的復雜 運算。僅需要2個除法算子和2個冪算子,其中一個算子在編碼器側,一個算子在譯碼器側。
[0022] 在本發明的優選實施例中,該第一預設值小于42且大于22,具體地小于38且大于 26,更具體地小于34且大于30。上述區間是基于經驗實驗。當第一預設值設定為32時可 達到最佳結果。
[0023] 在本發明的優選實施例中,該第二預設值是根據公式β = 1ΛΘ ·Γ)來確定,其 中i'為正被增強的頻譜線的數目,Θ為介于3與5之間的因子,具體地,介于3, 4與4, 6之 間的因子,更具體地,介于3, 8與4, 2之間的因子。這些區間也是基于經驗實驗。已發現, 當第二預設值設定為4時可達到最佳結果。
[0024] 在本發明的優選實施例中,該參考頻譜線表示介于600Hz與1000Hz之間的頻率, 具體地,介于700Hz與900Hz之間的頻率,更具體地,介于750Hz與850Hz之間的頻率。這 些憑經驗找到的區間確保充分的低頻增強和系統的低計算復雜性。這些區間尤其確保在密 集占用的頻譜中以足夠的精確度對較低頻率線進行編碼。在優選實施例中,參考頻譜線表 示800Hz,其中32個頻譜線被增強。
[0025] 在本發明的優選實施例中,該另一參考頻譜線表示與該參考頻譜線相同的頻率或 比該參考頻譜線更高的頻率。這些特征確保了在相關頻率范圍中進行對最小值和最大值的 估計。
[0026] 在本發明的優選實施例中,該控制裝置進行配置的方式為僅在該最大值小于該最 小值乘以該第一預設值α時經處理的頻譜中的表示比該參考頻率更低的頻率的頻譜線被 增強。這些特征確保了低頻增強僅在需要時執行,使得可使編碼器的工作負載最小化并且 在頻譜量化期間不會將比特浪費在感覺上不重要的區域上。
[0027] 在一個方面中,本發明提供了一種音頻譯碼器,其用于基于非語音音頻信號來對 比特流進行譯碼,以便依據該比特流產生經譯碼的非語音音頻輸出信號,尤其用于對根據 本發明的音頻編碼器所產生的比特流進行譯碼,該比特流包含量化頻譜和多個線性預測編 碼系數,該音頻譯碼器包括:
[0028] 比特流接收器,其被配置成從該比特流提取該量化頻譜和線性預測編碼系數;
[0029] 解量化裝置,其被配置成基于該量化頻譜產生解量化頻譜;
[0030] 低頻還原器,其被配置成基于該解量化頻譜來計算經逆處理的頻譜,