用于碼激勵線性預測類編碼器的無邊信息的噪聲填充的制作方法

文檔序號：9510213閱讀：379來源：國知局

用于碼激勵線性預測類編碼器的無邊信息的噪聲填充的制作方法
【技術領域】
[0001] 本發明的實施方式涉及：用以基于包含線性預測系數（LPC)的已編碼音頻信息來提供已解碼音頻信息的音頻解碼器；用以基于包含線性預測系數（LPC)的已編碼音頻信息來提供已解碼音頻信息的方法；用以執行此方法的計算機程序，其中該計算機程序在計算機上運行；以及音頻信號或儲存有此音頻信號的儲存介質，該音頻信號已經用此方法進行了處理。
【背景技術】
[0002] 當比特率降低至小于每個樣本約0. 5至1比特時，基于碼激勵線性預測（CELP)編碼原理的低比特率數字語音（speech)編碼器通常會遭受信號稀疏偽影，從而引起略為不自然的金屬聲。尤其當輸入語音中具有背景中的環境噪聲時，低速率（low-rate)偽影明顯可聽見：背景噪聲在主動語音區段（active speech sections)期間將會衰減。本發明描述用于諸如AMR-WB [1]及G. 718 [4, 7]的（A) CELP編碼器的噪聲插入方案，該方案與在諸如 xHE-AAC[5, 6]的基于變換的編碼器中所使用的噪聲填充技術類似，將隨機噪聲產生器的輸出添加至已解碼語音信號來重新建構背景噪聲。
[0003] 國際公開案WO 2012/110476 Al展示出一種基于線性預測且使用頻譜域噪聲整形的編碼概念。對音頻輸入信號的頻譜分解（分解成包含連串頻譜的頻譜圖）被用于以下兩者：線性預測系數計算，以及用于基于線性預測系數的頻域整形的輸入。根據引用的文獻，音頻編碼器包含線性預測分析器，其用以分析輸入音頻信號以便由此導出線性預測系數。音頻編碼器的頻域整形器被配置為基于由線性預測分析器提供的線性預測系數頻譜整形頻譜圖的一連串頻譜的當前頻譜。將已量化且已頻譜整形的頻譜連同在頻譜整形時使用的線性預測系數一起插入至數據流中，使得在解碼側可執行去除整形（de-shaping)及去除量化（de-quantization)。也可存在時間噪聲整形模塊以執行時間噪聲整形。
[0004] 鑒于現有技術，仍然需要改良的音頻解碼器、改良的方法、用以執行此方法的改良的計算機程序、以及改良的音頻信號或儲存有此音頻信號的儲存介質，該音頻信號已經用此方法加以處理。更具體而言，需要找到改良在已編碼位流中傳遞的音頻信息的聲音質量的解決方案。

【發明內容】

[0005] 在本發明的權利要求中和的實施方式的詳細描述中的參考符號僅僅為了改善可讀性而添加，絕不意味著是限制性的。
[0006] 本發明的目標是通過一種用以基于包含線性預測系數（LPC)的已編碼音頻信息來提供已解碼音頻信息的音頻解碼器來實現，該音頻解碼器包含：傾斜調整器（tilt adjuster)，其被配置為使用當前幀的線性預測系數來調整噪聲的傾斜以獲得傾斜信息；以及噪聲插入器，其被配置為取決于由傾斜計算器獲得的該傾斜信息來將該噪聲添加至該當前幀。另外，本發明的目標通過一種用以基于包含線性預測系數（LPC)的已編碼音頻信息來提供已解碼音頻信息的方法來實現，該方法包含：使用當前幀的線性預測系數來調整噪聲的傾斜以獲得傾斜信息；以及取決于所獲得的傾斜信息來將該噪聲添加至該當前幀。
[0007] 作為第二種創造性解決方案，本發明建議一種用以基于包含線性預測系數（LPC) 的已編碼音頻信息來提供已解碼音頻信息的音頻解碼器，該音頻解碼器包含：噪聲水平估計器，其被配置為使用至少一個先前幀的線性預測系數來估計當前幀的噪聲水平，以便獲得噪聲水平信息；以及噪聲插入器，其被配置為取決于由該噪聲水平估計器提供的該噪聲水平信息來將噪聲添加至該當前幀。此外，本發明的目標是通過一種用以基于包含線性預測系數（LPC)的已編碼音頻信息來提供已解碼音頻信息的方法來解決，該方法包含：使用至少一個先前幀的線性預測系數來估計當前幀的噪聲水平，以便獲得噪聲水平信息；以及取決于由該噪聲水平估計提供的噪聲水平信息來將噪聲添加至該當前幀。另外，本發明的目標通過以下兩者來解決：一種用以執行此方法的計算機程序，其中該計算機程序在計算機上運行；以及一種音頻信號或儲存有此音頻信號的儲存介質，該音頻信號已經用此方法加以處理。
[0008] 所建議的解決方案避免了必須在CELP位流（bitstream，比特流）中提供邊信息以便在噪聲填充過程期間調整在解碼器側所提供的噪聲。這意味著，可減小將要用位流輸送的數據的量，而可僅僅基于當前或先前已解碼的幀的線性預測系數來增加所插入噪聲的質量。換言之，可省略關于噪聲的邊信息，該邊信息將會增加將要用位流傳遞的數據的量。本發明允許提供低比特率數字編碼器及方法，其與現有技術的解決方案相比而言可占用關于位流的更少的帶寬并且提供質量提高的背景噪聲。
[0009] 較佳的是，音頻解碼器包含用以判定當前幀的幀類型的幀類型判定器，該幀類型判定器被配置為在檢測到當前幀的幀類型為語音類型時，啟動傾斜調整器來調整噪聲的傾斜。在一些實施方式中，幀類型判定器被配置為在幀經ACELP或CELP編碼時，將該幀辨識為語音類型幀。根據當前幀的傾斜來對噪聲加以整形可提供更自然的背景噪聲且可減少與編碼于位流中的所要信號的背景噪聲有關的音頻壓縮的不良效應。因為這些不良的壓縮效應及偽影相對于語音信息的背景噪聲常常變得顯著，所以可能有利的是：通過在將噪聲添加至當前幀之前調整噪聲的傾斜來增強將要添加至此類語音類型幀的噪聲的質量。因此，噪聲插入器可被配置為僅在當前幀為語音幀的情況下將噪聲添加至當前幀，因為如果僅語音幀通過噪聲填充來進行處理，可減少解碼器側的工作負載。
[0010] 在本發明的一較佳實施方式中，傾斜調整器被配置為使用對當前幀的線性預測系數的一階分析（first-order analysis)的結果來獲得傾斜信息。通過使用對線性預測系數此一階分析，在位流中省略用以表征噪聲的邊信息成為可能。此外，對將要添加的噪聲的調整可基于當前幀的線性預測系數，該等線性預測系數必須用位流以任何方式加以傳遞來允許對當前幀的音頻信息的解碼。這意味著在調整噪聲的傾斜的過程中當前幀的線性預測系數被有利地再使用。另外，一階分析相當簡單，使得音頻解碼器的計算復雜性不會顯著增加。
[0011] 在本發明的一些實施方式中，傾斜調整器被配置為使用對當前幀的線性預測系數的增益g的計算作為該一階分析來獲得傾斜信息。更佳地，通過公式g = Σ [ak · ak+1]/ Σ [ak ^ak]給出增益g，其中ak為當前幀的LPC系數。在一些實施方式中，在該計算中使用兩個或更多LPC系數a k。較佳地，使用總共16個LPC系數，因此k = 0···. 15。在本發明的實施方式中，位流可利用多于或少于16個LPC系數編碼。因為當前幀的線性預測系數容易存在于位流中，所以可在不利用邊信息的情況下獲得傾斜信息，從而減小將要在位流中傳遞的數據的量。可僅僅通過使用對已編碼音頻信息加以解碼所必需的線性預測系數來調整將要添加的噪聲。
[0012] 較佳地，傾斜調整器可被配置為使用用于當前幀的直接形式濾波器 X(n)-g*x(n-l)的傳遞函數的計算來獲得傾斜信息。此種類型的計算相當容易且不需要解碼器側的高計算能力。如上文所展示，可易于根據當前幀的LPC系數計算出增益g。這允許在僅僅使用對已編碼音頻信息解碼所必需的位流數據的情況下改善低比特率數字編碼器的噪聲質量。
[0013] 在本發明的一較佳實施方式中，噪聲插入器被配置為在將噪聲添加至當前幀之前，將當前幀的傾斜信息應用于噪聲以便調整噪聲的傾斜。若噪聲插入器經相應地配置，則可提供簡化的音頻解碼器。通過首先應用傾斜信息，隨后將已調整的噪聲添加至當前幀，可提供音頻解碼器的簡單且有效的方法。
[0014] 在本發明的一實施方式中，音頻解碼器另外包含：噪聲水平估計器，其被配置為使用至少一個先前幀的線性預測系數來估計當前幀的噪聲水平以獲得噪聲水平信息；以及噪聲插入器，其被配置為取決于由該噪聲水平估計器提供的該噪聲水平信息來將噪聲添加至該當前幀。由此，因為可根據可能存在于當前幀中的噪聲水平來調整將要添加至當前幀的噪聲，所以可增強背景噪聲的質量且因此增強整個音頻傳輸的質量。例如，若因為根據先前幀估計了高噪聲水平，所以預計在當前幀中為高噪聲水平，則噪聲插入器可被配置為在將噪聲添加至當前幀之前增加將要添加至當前幀的噪聲的水平。因此，將要添加的噪聲可被調整成與當前幀中的預計噪聲水平相比而言既不會太安靜也不會太大聲。此外，此調整并非基于位流中的專用邊信息，而是僅僅使用在位流中傳遞的必要數據的信息，在此情況下為至少一個先前幀的線性預測系數，該線性預測系數亦提供關于先前幀中的噪聲水平的信息。因此，較佳的是，使用g導出的傾斜對將要添加至當前幀的噪聲加以整形且考慮到噪聲水平估計來縮放（scale)該噪聲。更佳的是，在當前幀為語音類型時，調整將要添加至當前幀的噪聲的傾斜及噪聲水平。在一些實施方式中，在當前幀為例如TCX類型或DTX類型的一般音頻類型時，也調整將要添加至當前幀的傾斜和/或噪聲水平。
[0015] 較佳地，音頻解碼器包含用以判定當前幀的幀類型的幀類型判定器，該幀類型判定器被配置為識別當前幀的幀類型為語音還是一般音頻，因此可取決于當前幀的幀類型

完整全部詳細技術資料下載

當前第1頁1 2 3 4 5

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：紀堯姆·福奇斯;克里斯蒂安·赫爾姆里希;曼努埃爾·揚德爾;本杰明·蘇伯特;橫谷嘉一;
技術所有人：弗勞恩霍夫應用研究促進協會;
我是此專利的發明人

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！