高效率對象元數據編碼的裝置及方法
【技術領域】
[0001] 本發明涉及音頻編碼/解碼,特別地涉及空間音頻編碼以及空間音頻對象編碼,更 特別地涉及高效率對象元數據編碼。
【背景技術】
[0002] 空間音頻編碼工具是此技術領域中所熟知的,例如,在環繞MPEG標準中已有標準 化規范。空間音頻編碼從原始輸入聲道開始,例如在再現裝備中根據其位置而識別的五個 或七個聲道,即左聲道、中間聲道、右聲道、左環繞聲道、右環繞聲道以及低頻增強聲道。空 間音頻編碼器通常從原始聲道得到至少一個降混合聲道,以及另外得到關于空間線索的參 數數據,例如聲道相干數值的聲道間水平差異、聲道間相位差異、聲道間時間差異等等。至 少一個降混合聲道與指示空間線索的參數化輔助信息(parametric side information,或 稱為參數邊信息、參數側信息或參數側邊信息)一起傳送到空間音頻解碼器,空間音頻解碼 器解碼降混聲道以及相關聯的參數數據,最后獲得為原始輸入聲道的近似版本的輸出聲 道。聲道在輸出裝備中的放置通常為固定,例如,5.1聲道格式或7.1聲道格式等等。
[0003] 此種基于聲道的音頻格式廣泛使用于儲存或者傳送多聲道音頻內容,而每一個聲 道關于在給定位置的特定揚聲器。這些種類格式的忠實再現,需要揚聲器設備,其中揚聲器 放置在與音頻信號生產期間使用的揚聲器相同的位置。增加揚聲器數量可改進真實三維虛 擬現實場景,但是滿足此要求是越來越困難的,尤其是在家庭環境中,像是客廳。
[0004] 可用于對象為基礎的方法來克服對特殊揚聲器設備的需求,在以對象為基礎的方 法中揚聲器信號特別針對播放方案來渲染。
[0005] 例如,空間音頻對象編碼工具是此技術領域中所熟知的且在MPEG SAOC(SA0C = spatial audio object coding空間音頻對象編碼)標準中已成標準。相比于空間音頻編碼 從原始聲道開始,空間音頻對象編碼從非自動專為特定渲染再現裝備的音頻對象開始。代 替地,音頻對象在再現場景中的位置可變化,且可由使用者通過將特定的渲染信息輸入至 空間音頻對象編碼解碼器來確定。可選地或另外,渲染信息,即在再現裝備中特定音頻對象 待放置的位置信息,以額外的輔助信息或元數據來傳送。為了獲得特定的數據壓縮,由SA0C 編碼器來編碼多個音頻對象,SA0C編碼器根據特定的降混合信息來降混合對象以從輸入對 象計算至少一個傳輸聲道。此外,SA0C編碼器計算參數化輔助信息,其代表對象間線索,例 如對象水平差異(0LD)、對象相干數值等等。當在空間音頻編碼(SAC)中,對象間參數數據針 對單獨時間平鋪/頻率平鋪來計算,即,針對音頻信號的特定幀(例如,1024或2048個樣本), 考慮多個頻帶(例如24、32或64個頻帶等等),使得對于每一幀以及每一頻帶皆存在參數數 據。作為舉例,當音頻片具有20個幀且當每一幀細分成32個頻帶,則時間/頻率平鋪的數量 為640。
[0006] 在以對象為基礎的方法中,以分離式音頻對象來描述音場。此需要對象元數據,其 描述在3D空間中每一個聲源的時變位置。
[0007] 在現有技術中,第一元數據編碼編碼概念為空間聲音描述交換格式(SpatDIF),而 音頻場景描述格式目前尚在開發中[1 ]。音頻場景描述格式為以對象為基礎的聲音場景交 換格式,其并沒有提供任何壓縮對象軌跡的方法。SpatDIF將以文字為基礎的開放性聲音控 制(OSC)格式使用于對象元數據的結構[2]。然而,簡單以文字為基礎的表現并非為對象軌 跡的壓縮傳輸的選項。
[0008] 在現有技術中,另一個元數據概念為音頻場景描述格式(ASDF)[3],其是具有相同 的缺點的以文字為基礎的解決方案。此數據通過同步多介質集成語言(SMIL)的延伸所建 構,該同步多介質集成語言(SMIL)為可延伸標記式語言(XML)[4,5]的子集合。
[0009] 在現有技術中的另一個元數據概念為場景的音頻二進制格式(AudioBIFS),為 MPEG-4標準的一部分的二進制格式[6,7]。其高度關于基于XML的虛擬現實建模語言 (VRML),其已開發應用于音頻虛擬3D場景以及交互式虛擬現實[8]。復雜的AudioBIFS標準 使用場景圖以指定對象移動的路徑。AudioBIFS主要的缺點在于并非設計用于實時操作,其 中會使有限的系統延遲并且需要隨機讀取數據流。此外,對象位置的編碼不運用受限的聽 者的定位能力。在音頻虛擬場景中的聽者有固定位置時,則對象數據可量化成較低的位數
[9] 。因此,應用于AudioBIFS的對象元數據的編碼對于數據壓縮是無效的。
[0010] 如果能提供改善的高效率的對象元數據編碼概念,將會獲得高度的贊賞。
【發明內容】
[0011] 本發明的目的用于提供改善的高效率的對象元數據編碼的概念。本發明的目的通 過權利要求1的裝置、權利要求8的裝置、權利要求14的系統、權利要求15的方法、權利要求 16的方法以及權利要求17的計算機程序來達成。
[0012] 本發明提供一種用于產生至少一個音頻聲道的裝置。該裝置包含元數據解壓縮 器,用于接收至少一個壓縮元數據信號。每一個壓縮元數據信號包含多個第一元數據樣本。 每一個壓縮元數據信號中的第一元數據樣本指示與至少一個音頻對象信號中的音頻對象 信號相關聯的信息。元數據解碼器用于產生至少一個重建元數據信號,使得每一個重建元 數據信號包含至少一個壓縮元數據信號中的其中一個的多個第一元數據樣本以及進一步 包含多個第二元數據樣本。元數據解碼器用于根據重建元數據信號的至少兩個第一元數據 樣本,產生每一個重建元數據信號的每一個第二元數據樣本。此外,該裝置包含音頻聲道發 生器,音頻聲道發生器用于根據至少一個音頻對象信號以及至少一個重建元數據信號而產 生至少一個音頻聲道。
[0013] 此外,本發明提供一種用于產生編碼音頻信息的裝置,該編碼音頻信息包含至少 一個編碼音頻信號以及至少一個壓縮元數據信號。此裝置包含:元數據編碼器,用于接收至 少一個原始元數據信號。每一個原始元數據信號包含多個元數據樣本。每一個原始元數據 信號中的元數據樣本指示與至少一個音頻對象信號中的音頻對象信號相關聯的信息。元數 據編碼器用于產生至少一個壓縮元數據信號,使得每一壓縮元數據信號包含一個原始元數 據信號的至少兩個元數據樣本的第一組,以及使得壓縮元數據信號不包含所述一個原始元 數據信號的另外至少兩個元數據樣本的第二組的任何元數據樣本。此外,該裝置包含音頻 編碼器,該音頻編碼器用于編碼至少一個音頻對象信號以獲得至少一個編碼音頻信號。 [0014]此外,提供了一種系統。該系統包含用于產生編碼音頻信息的裝置,該編碼音頻信 息包含至少一個編碼音頻信號以及至少一個壓縮元數據信號,如上所述。此外,該系統包含 用于接收至少一個編碼音頻信號以及至少一個壓縮元數據信號的裝置,該裝置用于根據至 少一個編碼音頻信號以及至少一個壓縮元數據信號產生至少一個音頻聲道,如上所述。
[0015] 根據實施例,提供用于對象元數據的數據壓縮概念,其達成用于具有限的數據速 率的傳輸聲道為有效的壓縮機制。此外,對于純方位變化的良好壓縮率得以實現,例如照相 機旋轉。此外,該提供的概念支持不連續的軌跡,例如位置的跳躍。此外,也能實現低解碼復 雜度。此外,可實現有限的重新初始化時間下的隨機存取。
[0016] 此外,本發明提供一種用于產生至少一個音頻聲道的方法。該方法包含:
[0017] -接收至少一個壓縮元數據信號,其中每一個壓縮元數據信號包含多個第一元數 據樣本,其中每一個壓縮元數據信號中的第一元數據樣本指示與至少一個音頻對象信號中 的音頻對象信號相關聯的信息;
[0018] -產生至少一個重建元數據信號,使得每一個重建元數據信號包含至少一個壓縮 元數據信號中的其中一個的第一元數據樣本,以及進一步包含多個第二元數據樣本,其中 產生至少一個重建元數據信號的步驟包含根據重建元數據信號的至少兩個第一元數據樣 本產生每一個重建元數據信號的每一個第二元數據樣本的步驟;
[0019] -根據至少一個音頻對象信號以及至少一個重建元數據信號產生至少一個音頻聲 道。
[0020] 此外,提供了一種用于產生編碼音頻信息的方法,編碼音頻信息包含至少一個編 碼音頻信號以及至少一個壓縮元數據信號。此方法包含:
[0021] -接收至少一個原始元數據信號,其中每一原始元數據信號包含多個元數據樣本, 其中每一原始元數據信號的元數據樣本指示與至少一個音頻對象信號中的音頻對象信號 相關聯的息;
[0022] -產生至少一個壓縮元數據信號,使得每一壓縮元數據信號包含一個原始元數據 信號的至少兩個元數據樣本的第一組,以及使得壓縮元數據信號不包含所述一個原始元數 據信號的另外至少兩個元數據樣本的第二組的任何元數據樣本;
[0023] -編碼至少一個音頻對象信號以獲得至少一個編碼音頻信號。
[0024] 此外,本發明提供一種計算機程序,當此計算機程序于計算機或者信號處理器上 執行時,計算機程序用于實現上述的方法。
【附圖說明】
[0025] 下面參考附圖討論本發明的實施例,其中:
[0026] 圖1示出根據實施例的用于產生至少一個音頻聲道的裝置;
[0027] 圖2示出根據實施例的用于產生編碼音頻信息的裝置,編碼音頻信息包含至少一 個編碼音頻信號以及至少一個壓縮元數據信號;
[0028]圖3示出根據實施例的系統;
[0029] 圖4示出在從原點開始的三維空間中通過方位角、仰角以及半徑表示的音頻對象 的位置;
[0030] 圖5示出音頻聲道發生器采用的音頻對象以及揚聲器裝備的位置;
[0031] 圖6示出根據實施例的元數據編碼;
[0032]圖7示出根據實施例的元數據解碼;
[0033] 圖8示出根據另一實施例的元數據編碼;
[0034] 圖9示出根據另一實施例的元數據解碼;
[0035] 圖10示出根據另一實施例的元數據編碼;
[0036] 圖11示出根據另一實施例的元數據解碼;
[0037]圖12示出3D音頻編碼器的第一實施例;
[0038]圖13示出3D音頻解碼器的第一實施例;
[0039]圖14示出3D音頻編碼器的第二實施例;
[0040]圖15示出3D音頻解碼器的第二實施例;
[00411圖16示出3D音頻編碼器的第三實施例;
[0042]圖17示出3D音頻解碼器的第三實施例。
【具體實施方式】
[0043]圖2示出根據實施例的用于產生編碼音頻信息的裝置250,編碼音頻信息包含至少 一個編碼音頻信號以及至少一個壓縮元數據信號。
[0044]裝置250包含元數據編碼器210,用于接收至少一個原始元數據信號。每一個原始 元數據信號包含多個元數據樣本。至少一個原始元數據信號中的每一個的元數據樣本指示 與至少一個音頻對象信號中的音頻對象信號相關聯的信息。元數據編碼器210用于產生至 少一個壓縮元數據信號,使得每一壓縮元數據信號能包含一個原始元數據信號的至少兩個 元數據樣本的第一組,以及使得壓縮元數據信號不包含該一個原始元數據信號的另外至少 兩個元數據樣本的第二組的任何元數據樣本。
[0045] 此外,裝置250包含音頻編碼器220,用于編碼至少一個音頻對象信號以獲得至少 一個編碼音頻信號。例如,音頻聲道發生器可包含SA0C編碼器,該SA0C編碼器根據現有技術 編碼至少一個音頻對象信號,以獲得至少一個SA0C傳輸聲道并作為至少一個編碼音頻信 號。各種其他用于編碼至少一個音頻對象聲道的編碼技術可替換或額外地用于編碼所述至 少一個音頻對象聲道。
[0046] 圖1示出根據實施例的用于產生至少一個音頻聲道的裝置100。
[0047] 裝置100包含元數據解碼器110,用于接收至少一個壓縮元數據信號。每一個壓縮 元數據信號包含多個第一元數據樣本。每一個壓縮元數據信號的第一元數據樣本指示與至 少一個音頻對象信號中的音頻對象信號相關聯的信息。元數據解碼器110用于產生至少一 個重建元數據信號,使得每一個重建元數據信號包含至少一個壓縮元數據信號中的其中一 個的第一元數據樣本以及進一步包含多個第二元數據樣本。此外,元數據解碼器110用于根 據重建元數據信號的至少兩個第一元數據樣本,產生每一個重建元數據信號的每一個第二 元數據樣本。
[0048]此外,裝置100包含音頻聲道發生器120,該音頻聲道發生器120用于根據至少一個 音頻對象信號以及至少一個重建元數據信號而產生至少一個音頻聲道。
[0049]當參閱元數據樣本時,應當注意的是,元數據樣本的特征在于其元數據樣本值以 及與其相關的時間點。例如,此類時間點可與音頻序列或其相似物的起始相關。例如,指數η 或k可辨識在元數據信號內的元數據樣本的位置,并因此指示出(相關的)時間點(其與起始 時間相關)。應當注意的是,當兩個元數據樣本與不同時間點相關時,該兩個元數據樣本不 同于其他的元數據樣本,即使當它們的元數據樣本值相同時,有時也會出現這樣的情況。
[0050] 上述的實施例基于以下發現:與音頻對象信號相關聯的(包含于元數據信號的)元 數據信息常變化緩慢。
[0051] 例如,元數據信號可指示音頻對象的位置信息(例如用于定義音頻對象的位置的 方位角、仰角或半徑)。可以假設音頻對象的位置在大部分的時間不會改變或僅緩慢地改 變。
[0052] 或者,元數據信號可例如指示音頻對象的音量(例如增益),并且也可以假設音頻 對象的音量在大部分的時間緩慢地改變。
[0053] 基于這個原因,在每個時間點并不需要傳遞(完整的)元數據信息。相反地,(完整 的)元數據信息僅在特定時間點傳遞,例如周期性地,例如在每N個時間點,例如在時間點0、 N、2N、3N等。在解碼器側上,對于中間的時間點(例如時間點1、2...N-1),元數據可接著基于 至少兩個時間點的元數據樣本進行近似。在解碼器側上,例如,時間點1、2···Ν-1的元數據樣 本可根據時間點〇以及Ν的元數據樣本進行近似,例如采用線性內插法。如前所述,此類方法 基于以下發現:音頻對象的元數據信息通常緩慢地改變。
[0054] 例如,在實施例中,三個元數據信號指定在3D空間中的音頻對象的