根據室內脈沖響應處理音頻信號的方法、信號處理單元、音頻編碼器、音頻解碼器及立體 ...的制作方法
【技術領域】
[0001] 本發明涉及音頻編碼/解碼領域,特別是涉及空間音頻編碼和空間音頻對象編碼, 例如,3D音頻編解碼系統領域。本發明的實施例涉及根據室內脈沖響應處理音頻信號的方 法,以及在這種室內脈沖響應中確定從早期反射音至后期混響音的過渡的方法。
【背景技術】
[0002] 空間音頻編碼在技術領域被熟知且被標準化,例如,在MPEG環繞標準中。空間音頻 編碼從多個原始輸入開始,例如,五個或七個輸入聲道,其通過再現設置中的布置來識別, 例如,左聲道、中間聲道、右聲道、左環繞聲道、右環繞聲道和低頻增強聲道。空間音頻編碼 器可以從原始聲道獲得一個或多個降混聲道,另外可以獲得關于空間線索的參數數據,例 如,聲道相干值中的聲道間位準差異、聲道間相位差異、聲道間時間差異等。一個或多個降 混聲道和指示空間線索的參數邊信息一起傳輸至空間音頻解碼器,空間音頻解碼器用于解 碼降混聲道和相關聯的參數數據,以最后獲得與原始輸入聲道的近似版本的輸出聲道。聲 道在輸出設置中的布置可以是固定的,例如,5.1格式或7.1格式等。
[0003] 空間音頻對象編碼工具也在技術領域被熟知且被標準化,例如,在MPEG SA0C標準 (SA0C = spatial audio object coding,空間音頻對象編碼)中。相比于空間音頻編碼從原 始聲道開始,空間音頻對象編碼從非自動專用為特定渲染再現設置的音頻對象開始。相反 地,音頻對象在再現場景中的布置是可變化的并且可以由用戶設定,例如,通過輸入特定渲 染信息到空間音頻對象編碼的解碼器。可選地或附加地,渲染信息可作為附加邊信息或元 數據(metadata)傳輸;渲染信息可以包括特定音頻對象所布置在再現設置中的位置的信息 (例如,時間方面)。為了獲得特定的數據壓縮,使用SA0C編碼器來編碼一定數量的音頻對 象,SA0C編碼器根據特定的降混信息來降混對象以從輸入對象計算出一個或多個運輸聲 道。此外,SA0C編碼器計算代表對象間線索的參數邊信息,例如,對象位準差異(0LD)、對象 相干數值等。當在SAC(SAC = Spatial Audio Coding)中,對象間參數數據針對各個時間平 鋪(time tiles)/頻率平鋪(frequency tiles)來計算。針對音頻信號的特定幀(例如1024 或2048個取樣值),考慮多個頻帶(例如24、32或64個頻帶)使得參數數據能提供給每個幀和 每個頻帶。例如,當音頻片具有20個幀且當每個幀細分成32個頻帶時,時間/頻率平鋪的數 量為640。
[0004] 在3D音頻系統中,可能期望提供音頻信號的空間印象,仿佛音頻信號在特定空間 中被聆聽。在這樣的情況下,例如在測量基礎上提供特定空間的室內脈沖響應,用于進行將 音頻信號表現給聽眾的處理。可能期望處理直達聲音以及與后期混響音分開表現的早期反 射音。需要確定早期反射音的結束處以及后期混響音的開始處。
【發明內容】
[0005] 本發明的目的是提供用于根據室內脈沖響應處理音頻信號的改良方法。
[0006] 該目的通過權利要求1所述的方法、權利要求16所述的信號處理單元、權利要求18 所述的音頻編碼器、權利要求20所述的音頻解碼器以及權利要求24所述的立體聲渲染器來 達成。
[0007] 本發明根據發明人發現在傳統方法中確定出從早期反射音到后期混響音的過渡 有過早的問題,因為在第一反射發生或撞擊之前用來判斷過渡的發生的相關性已經到達閾 值。基于這些發現以及已知過渡時間必須大于第一反射的到達時間,因為第一反射清楚明 顯且能確定不是后期散播混響音,發明人發現有必要避開固定閾值的使用;相反地,根據本 發明的方法,閾值的定義取決于早期反射音中的其中一個的撞擊時間上的相關性。確保第 一反射總會在過渡時間之前。
[0008] (1)本發明提供一種用于根據室內脈沖響應處理音頻信號的方法,該方法包括:
[0009] 將音頻信號進行分別地與室內脈沖響應的早期部分和后期混響音一起處理;以及
[0010] 將與室內脈沖響應的早期部分一起處理的音頻信號和混響信號結合,
[0011]其中在室內脈沖響應中從早期部分至后期混響音的過渡通過到達閾值的相關性 測量來確定,閾值根據從室內脈沖響應的早期部分中的早期反射音中選擇的一個的相關性 測量來設定。
[0012] 本發明方法的優點在于允許基于魯棒過渡點進行音頻信號的改良處理。本發明方 法無關房間,無關是否使用雙聲道方法以及入射角。相比于現有技術方法,本發明方法的進 一步優點在于其并非強烈地依賴于雙聲道脈沖響應的方位角以及直達聲音與第一撞擊反 射的振幅之間的關系。
[0013] (2)根據實施例,相關性測量描述關于室內脈沖響應的、在包括初期狀態的聲能中 的衰變的相似點以及在初期狀態之后的任何時間開始的在預定義頻率范圍的聲能中的衰 變的相似點。
[0014] (3)根據實施例,確定過渡包括基于室內脈沖響應確定聲能的分布,以及確定多個 相關性測量,多個相關性測量用于為確定的分布的多個部分指示在確定的分布的各個部分 中的聲能和在初期狀態的聲能之間的相關性。
[0015] (4)根據實施例,確定分布包括確定聲能的時間-頻率分布,其中分布的部分包括 預定義長度的時間塊,初期狀態通過時間-頻率分布的多個時間塊中的第一個來定義。
[0016] 該優點在于允許在不同時間分析頻率分布,從而提供頻率分布的特性在時間上的 表不。
[0017] (5)根據實施例,確定分布包括從室內脈沖響應計算能量衰變救援(energy decay relief,EDR),其中EDR如下所示計算:
[0019] 其中
[0020] E(t,ω)=能量衰變救援,
[0021] h(T)=室內脈沖響應,
[0022] ω =2Jif〇
[0023] (6)根據實施例,室內脈沖響應具有預定義的有效長度,其中確定時間-頻率分布 包括使用具有對應于室內脈沖響應的有效長度的長度的窗來計算室內脈沖響應的FFT光 譜。
[0024] 該優點在于FFT/DFT能夠良好定義且存在有效算法來計算頻譜值。如果窗中的數 值是已知的,則FFT/DFT可以在不復雜方式下計算。
[0025] (7)根據實施例,在初期狀態的聲能通過采取室內脈沖響應的全部有效長度、計算 FFT光譜、采取絕對值的平方來確定,時間塊的聲能通過將窗移動與時間塊相關聯的時間、 將窗取樣補零至有效長度、計算FFT以及采取絕對值的平方來確定。
[0026] 該優點在于不需要附加濾波器組或其他相似裝置用于EDR的窄頻帶計算;僅需要 進行窗的移動。
[0027] (8)根據實施例,相關性測量為用來描述在包含初期狀態的聲能中的衰變的相似 點和在初期狀態之后任何時間開始的聲能中的衰變的相似點的相關性測量。相關性測量可 以如下所示計算:
[0029] 其中
[0030] P(t)=相關性測量,
[0031] Ε(1,ω )=在頻率f的全部頻率范圍的能量衰變救援,
[0032] E(l,o>)=初期全部范圍的能量衰變救援的所有頻率的平均值,
[0033] E(t,ω )=從時間t開始在頻率f處的能量衰變救援,
[0034] Η(?,ω)=在時間t幵始的全部范圍的能量衰變救援的所有頻率的平均氌,
[0035] ω =2對。
[0036] 該優點在于上述公式參考熟知的Pearson的相關性系數(Pearson的積差相關)。相 關性系數可以直接從H)R計算而得。
[0037] (9)根據實施例,閾值根據常數值和早期反射音中選擇的一個的相關性測量來確 定。閾值可以如下所示定義:
[0038] p ⑴=c.p(tF)
[0039] 其中
[0040 ] P (tF )=早期反射音中選擇的一個的相關性測量,
[0041] tF =在直達聲音撞擊之后的早期反射音中選擇的一個的時間索引,
[0043]該優點在于閾值并非恒定的,而取決于所選的早期反射音,以確保相關性不會太 早落在閾值以下。
[0044] (10)根據實施例,確定早期反射音中選擇的一個的時間,例如,通過運行的峰度運 算符、通過閾值檢測或通過攻擊檢測來確定。
[0045] 該優點在于反射的撞擊時間可以直接且自動地從脈沖響應的時域樣本中計算。
[0046] (11)根據實施例,早期反射音中選擇的一個是直達聲音之后的第一個反射音。
[0047] (12)本發明提供一種信號處理單元,包括用于接收音頻信號的輸入端、被配置或 被程序化用于依本發明方法根據室內脈沖響應處理接收的音頻信號的處理器、以及用于結 合接收的音頻信號的處理的早期部分和混響信號成輸出音頻信號的輸出端。信號處理單元 可以包括用于根據室內脈沖響應的早期部分處理接收的音頻信號的早期部分處理器、以及 用于根據室內脈沖響應的后期混響音處理接收的音頻信號的后期混響音處理器。
[0048] (13)本發明提供用于編碼音頻信號的音頻編碼器,其中音頻編碼器被配置或被程 序化用于依本發明方法根據室內脈沖響應處理待編碼音頻信號。音頻編碼器可以包括本發 明的信號處理單元。
[0049] (14)本發明提供用于解碼編碼音頻信號的音頻解碼器,其中音頻解碼器被配置或 被程序化用于依本發明方法根據室內脈沖響應處理解碼音頻信號。音頻解碼器可以包括本 發明的信號處理單元。音頻解碼器可以包括渲染器,其相似于立體聲渲染器,被配置或被程 序化用于接收解碼音頻信號,并在室內脈沖響應的基礎上渲染輸出信號。
[0050 ] (15)本發明提供立體聲渲染器,包括本發明的信號處理單元。
【附圖說明】
[0051]本發明的實施例將參考附圖進行描述,其中 [0052]圖1顯示3D音頻系統的3D音頻編碼器的概要圖;
[0053]圖2顯示3D音頻系統的3D音頻解碼器的概要圖;
[0054]圖3顯示用于實施格式轉換器的示例,該格式轉換器可以實施在圖2的3D音頻解碼 器中;
[0055]圖4顯示立體聲渲染器的實施例,該立體聲渲染器可以實施在圖2的3D音頻解碼器 中;
[0056] 圖5顯示室內脈沖響應h(t)的示例;
[0057]圖6(A)顯示根據本發明實施例的用于分別地與室內脈沖響應的早期部分和后期 混響音一起處理音頻信號的信號處理單元(例如在圖4的立體聲渲染器中)的方塊圖;
[0058]圖6(B)顯示根據本發明進一步實施例的用于分別地與室內脈沖響應的早期部分 和后期混響音一起處理音頻信號的另一信號處理單元(例如在圖4的立體聲渲染器中)的方 塊圖;
[0059] 圖7顯示根據本發明實施例的用于確定在室內脈沖響應中早期反射音和后期混響 音之間的過渡時間的方法的流程圖;
[0060] 圖8顯示達成的用于根據基于FFT的方法所確定的脈沖響應的能量衰變救援 (EDR);
[0061 ]圖9顯示根據本發明實施例的過渡時間的確定;
[0062]圖10顯示使用現有方法所確定的測量的雙聲道室內脈沖響應的左聲道和右聲道 的過渡時間;
[0063]圖11顯示使用本發明方法所確定的測量的雙聲道室內脈沖響應的左聲道和右聲 道的過渡時間;
[0064]圖12大略地顯示根據本發明實施例的立體聲渲染器中的音頻信號的雙聲道處理; [0065]圖13大略