用于碼激勵線性預測類編碼器的無邊信息的噪聲填充的制作方法
【技術領域】
[0001] 本發明的實施方式涉及:用以基于包含線性預測系數(LPC)的已編碼音頻信息來 提供已解碼音頻信息的音頻解碼器;用以基于包含線性預測系數(LPC)的已編碼音頻信息 來提供已解碼音頻信息的方法;用以執行此方法的計算機程序,其中該計算機程序在計算 機上運行;以及音頻信號或儲存有此音頻信號的儲存介質,該音頻信號已經用此方法進行 了處理。
【背景技術】
[0002] 當比特率降低至小于每個樣本約0. 5至1比特時,基于碼激勵線性預測(CELP)編 碼原理的低比特率數字語音(speech)編碼器通常會遭受信號稀疏偽影,從而引起略為不 自然的金屬聲。尤其當輸入語音中具有背景中的環境噪聲時,低速率(low-rate)偽影明顯 可聽見:背景噪聲在主動語音區段(active speech sections)期間將會衰減。本發明描 述用于諸如AMR-WB [1]及G. 718 [4, 7]的(A) CELP編碼器的噪聲插入方案,該方案與在諸如 xHE-AAC[5, 6]的基于變換的編碼器中所使用的噪聲填充技術類似,將隨機噪聲產生器的輸 出添加至已解碼語音信號來重新建構背景噪聲。
[0003] 國際公開案WO 2012/110476 Al展示出一種基于線性預測且使用頻譜域噪聲整形 的編碼概念。對音頻輸入信號的頻譜分解(分解成包含連串頻譜的頻譜圖)被用于以下兩 者:線性預測系數計算,以及用于基于線性預測系數的頻域整形的輸入。根據引用的文獻, 音頻編碼器包含線性預測分析器,其用以分析輸入音頻信號以便由此導出線性預測系數。 音頻編碼器的頻域整形器被配置為基于由線性預測分析器提供的線性預測系數頻譜整形 頻譜圖的一連串頻譜的當前頻譜。將已量化且已頻譜整形的頻譜連同在頻譜整形時使用的 線性預測系數一起插入至數據流中,使得在解碼側可執行去除整形(de-shaping)及去除 量化(de-quantization)。也可存在時間噪聲整形模塊以執行時間噪聲整形。
[0004] 鑒于現有技術,仍然需要改良的音頻解碼器、改良的方法、用以執行此方法的改良 的計算機程序、以及改良的音頻信號或儲存有此音頻信號的儲存介質,該音頻信號已經用 此方法加以處理。更具體而言,需要找到改良在已編碼位流中傳遞的音頻信息的聲音質量 的解決方案。
【發明內容】
[0005] 在本發明的權利要求中和的實施方式的詳細描述中的參考符號僅僅為了改善可 讀性而添加,絕不意味著是限制性的。
[0006] 本發明的目標是通過一種用以基于包含線性預測系數(LPC)的已編碼音頻信 息來提供已解碼音頻信息的音頻解碼器來實現,該音頻解碼器包含:傾斜調整器(tilt adjuster),其被配置為使用當前幀的線性預測系數來調整噪聲的傾斜以獲得傾斜信息;以 及噪聲插入器,其被配置為取決于由傾斜計算器獲得的該傾斜信息來將該噪聲添加至該當 前幀。另外,本發明的目標通過一種用以基于包含線性預測系數(LPC)的已編碼音頻信息 來提供已解碼音頻信息的方法來實現,該方法包含:使用當前幀的線性預測系數來調整噪 聲的傾斜以獲得傾斜信息;以及取決于所獲得的傾斜信息來將該噪聲添加至該當前幀。
[0007] 作為第二種創造性解決方案,本發明建議一種用以基于包含線性預測系數(LPC) 的已編碼音頻信息來提供已解碼音頻信息的音頻解碼器,該音頻解碼器包含:噪聲水平估 計器,其被配置為使用至少一個先前幀的線性預測系數來估計當前幀的噪聲水平,以便獲 得噪聲水平信息;以及噪聲插入器,其被配置為取決于由該噪聲水平估計器提供的該噪聲 水平信息來將噪聲添加至該當前幀。此外,本發明的目標是通過一種用以基于包含線性預 測系數(LPC)的已編碼音頻信息來提供已解碼音頻信息的方法來解決,該方法包含:使用 至少一個先前幀的線性預測系數來估計當前幀的噪聲水平,以便獲得噪聲水平信息;以及 取決于由該噪聲水平估計提供的噪聲水平信息來將噪聲添加至該當前幀。另外,本發明的 目標通過以下兩者來解決:一種用以執行此方法的計算機程序,其中該計算機程序在計算 機上運行;以及一種音頻信號或儲存有此音頻信號的儲存介質,該音頻信號已經用此方法 加以處理。
[0008] 所建議的解決方案避免了必須在CELP位流(bitstream,比特流)中提供邊信息以 便在噪聲填充過程期間調整在解碼器側所提供的噪聲。這意味著,可減小將要用位流輸送 的數據的量,而可僅僅基于當前或先前已解碼的幀的線性預測系數來增加所插入噪聲的質 量。換言之,可省略關于噪聲的邊信息,該邊信息將會增加將要用位流傳遞的數據的量。本 發明允許提供低比特率數字編碼器及方法,其與現有技術的解決方案相比而言可占用關于 位流的更少的帶寬并且提供質量提高的背景噪聲。
[0009] 較佳的是,音頻解碼器包含用以判定當前幀的幀類型的幀類型判定器,該幀類型 判定器被配置為在檢測到當前幀的幀類型為語音類型時,啟動傾斜調整器來調整噪聲的傾 斜。在一些實施方式中,幀類型判定器被配置為在幀經ACELP或CELP編碼時,將該幀辨識 為語音類型幀。根據當前幀的傾斜來對噪聲加以整形可提供更自然的背景噪聲且可減少與 編碼于位流中的所要信號的背景噪聲有關的音頻壓縮的不良效應。因為這些不良的壓縮效 應及偽影相對于語音信息的背景噪聲常常變得顯著,所以可能有利的是:通過在將噪聲添 加至當前幀之前調整噪聲的傾斜來增強將要添加至此類語音類型幀的噪聲的質量。因此, 噪聲插入器可被配置為僅在當前幀為語音幀的情況下將噪聲添加至當前幀,因為如果僅語 音幀通過噪聲填充來進行處理,可減少解碼器側的工作負載。
[0010] 在本發明的一較佳實施方式中,傾斜調整器被配置為使用對當前幀的線性預測系 數的一階分析(first-order analysis)的結果來獲得傾斜信息。通過使用對線性預測系 數此一階分析,在位流中省略用以表征噪聲的邊信息成為可能。此外,對將要添加的噪聲的 調整可基于當前幀的線性預測系數,該等線性預測系數必須用位流以任何方式加以傳遞來 允許對當前幀的音頻信息的解碼。這意味著在調整噪聲的傾斜的過程中當前幀的線性預測 系數被有利地再使用。另外,一階分析相當簡單,使得音頻解碼器的計算復雜性不會顯著增 加。
[0011] 在本發明的一些實施方式中,傾斜調整器被配置為使用對當前幀的線性預測系 數的增益g的計算作為該一階分析來獲得傾斜信息。更佳地,通過公式g = Σ [ak · ak+1]/ Σ [ak ^ak]給出增益g,其中ak為當前幀的LPC系數。在一些實施方式中,在該計算中使用 兩個或更多LPC系數a k。較佳地,使用總共16個LPC系數,因此k = 0···. 15。在本發明的 實施方式中,位流可利用多于或少于16個LPC系數編碼。因為當前幀的線性預測系數容易 存在于位流中,所以可在不利用邊信息的情況下獲得傾斜信息,從而減小將要在位流中傳 遞的數據的量。可僅僅通過使用對已編碼音頻信息加以解碼所必需的線性預測系數來調整 將要添加的噪聲。
[0012] 較佳地,傾斜調整器可被配置為使用用于當前幀的直接形式濾波器 X(n)-g*x(n-l)的傳遞函數的計算來獲得傾斜信息。此種類型的計算相當容易且不需要解 碼器側的高計算能力。如上文所展示,可易于根據當前幀的LPC系數計算出增益g。這允許 在僅僅使用對已編碼音頻信息解碼所必需的位流數據的情況下改善低比特率數字編碼器 的噪聲質量。
[0013] 在本發明的一較佳實施方式中,噪聲插入器被配置為在將噪聲添加至當前幀之 前,將當前幀的傾斜信息應用于噪聲以便調整噪聲的傾斜。若噪聲插入器經相應地配置,則 可提供簡化的音頻解碼器。通過首先應用傾斜信息,隨后將已調整的噪聲添加至當前幀,可 提供音頻解碼器的簡單且有效的方法。
[0014] 在本發明的一實施方式中,音頻解碼器另外包含:噪聲水平估計器,其被配置為使 用至少一個先前幀的線性預測系數來估計當前幀的噪聲水平以獲得噪聲水平信息;以及噪 聲插入器,其被配置為取決于由該噪聲水平估計器提供的該噪聲水平信息來將噪聲添加至 該當前幀。由此,因為可根據可能存在于當前幀中的噪聲水平來調整將要添加至當前幀的 噪聲,所以可增強背景噪聲的質量且因此增強整個音頻傳輸的質量。例如,若因為根據先前 幀估計了高噪聲水平,所以預計在當前幀中為高噪聲水平,則噪聲插入器可被配置為在將 噪聲添加至當前幀之前增加將要添加至當前幀的噪聲的水平。因此,將要添加的噪聲可被 調整成與當前幀中的預計噪聲水平相比而言既不會太安靜也不會太大聲。此外,此調整并 非基于位流中的專用邊信息,而是僅僅使用在位流中傳遞的必要數據的信息,在此情況下 為至少一個先前幀的線性預測系數,該線性預測系數亦提供關于先前幀中的噪聲水平的信 息。因此,較佳的是,使用g導出的傾斜對將要添加至當前幀的噪聲加以整形且考慮到噪聲 水平估計來縮放(scale)該噪聲。更佳的是,在當前幀為語音類型時,調整將要添加至當前 幀的噪聲的傾斜及噪聲水平。在一些實施方式中,在當前幀為例如TCX類型或DTX類型的 一般音頻類型時,也調整將要添加至當前幀的傾斜和/或噪聲水平。
[0015] 較佳地,音頻解碼器包含用以判定當前幀的幀類型的幀類型判定器,該幀類型判 定器被配置為識別當前幀的幀類型為語音還是一般音頻,因此可取決于當前幀的幀類型