用于反向兼容多重分辨率空間音頻對象編碼的編碼器、譯碼器及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及音頻信號編碼、音頻信號譯碼及音頻信號處理,且具體地,涉及用于反 向兼容多重分辨率空間音頻對象編碼(SAOC)的編碼器、譯碼器及方法。
【背景技術(shù)】
[0002] 在現(xiàn)代數(shù)字音頻系統(tǒng)中,主要傾向是允許在接收器側(cè)上對所傳輸內(nèi)容的音頻對象 的相關(guān)修改。這些修改包括音頻信號的所選擇部分的增益修改及/或在經(jīng)由空間分布的揚 聲器的多通道播放狀況下專用音頻對象的空間復(fù)位。此情形可通過將音頻內(nèi)容的不同部分 單獨地遞送至不同揚聲器來達成。
[0003] 換言之,在音頻處理、音頻傳輸及音頻存儲的技術(shù)中,存在增加的需要以允許關(guān)于 面向?qū)ο笫揭纛l內(nèi)容播放的用戶互動且還存在需求以利用多通道播放的擴展可能性以單 獨地呈現(xiàn)音頻內(nèi)容或其部分以便改善聽取印象。通過此情形,多信道音頻內(nèi)容的使用帶來 對使用者的顯著改良。舉例而言,可獲得三維聽取印象,其帶來娛樂應(yīng)用中改善的使用者滿 意度。然而,多信道音頻內(nèi)容還在專業(yè)環(huán)境中(例如,在電話會議應(yīng)用)中有用,這是因為 發(fā)話人可懂得可通過使用多信道音頻播放來改進。另一可能應(yīng)用系將音樂片段提供給收聽 者以單獨地調(diào)整不同部分(也稱為「音頻對象」)或曲目(諸如,人聲部分或不同樂器)的 播放層級及/或空間位置。使用者出于個人口味、為了易于轉(zhuǎn)譯來自音樂片段的一個或多 個部分、教育用途、伴唱機、排演等原因而可執(zhí)行此調(diào)整。
[0004] 例如以脈碼調(diào)變(PCM)數(shù)據(jù)或甚至經(jīng)壓縮音頻格式的形式的所有數(shù)字多信道或 多對象音頻內(nèi)容的直接離散傳輸需要極高比特率。然而,也需要以比特率有效的方式來傳 輸并儲存音頻數(shù)據(jù)。因此,希望接受音頻質(zhì)量與比特率要求之間的合理取舍以便避免由多 信道/多對象應(yīng)用引起的額外資源負載。
[0005] 最近,在音頻編碼的領(lǐng)域中,多信道/多對象音頻信號的比特率有效傳輸/儲存的 參數(shù)技術(shù)已通過例如動畫專家組(MPEG)等引入。一個實例系作為信道導(dǎo)向式方法[MPS、 BCC]的MPEG環(huán)繞立體聲(MPS),或作為面向?qū)ο笫椒椒╗JSC、SA0C、SA0C1、SA0C2]的MPEG 空間音頻對象編碼(SA0C)。另一面向?qū)ο笫椒椒ǚQ為「消息源分離」[ISS1、ISS2、ISS3、 ISS4、ISS5、ISS6]。這些技術(shù)旨在在信道/對象及描述所傳輸/所儲存音頻場景及/或音 頻場景中音頻源對象的額外旁側(cè)信息的下降混合基礎(chǔ)上重建所要輸出音頻場景或所要音 頻源對象。
[0006] 這些系統(tǒng)中信道/對象相關(guān)旁側(cè)信息的估計及應(yīng)用以時間頻率選擇性方式來進 行。因此,這些系統(tǒng)使用時間頻率變換,諸如離散傅立葉變換(DFT)、短時間傅立葉變換 (STFT)或類似于正交鏡相濾波器(QMF)組的濾波器組等。這些系統(tǒng)的基本原理使用MPEG SAOC的實例描繪于圖4中。
[0007] 在STFT的狀況下,時間維度通過時間區(qū)塊數(shù)字來表示,且頻譜維度通過頻譜系數(shù) (「區(qū)間」)編號來捕獲。在QMF的狀況下,時間維度通過時隙編號來表示,且頻譜維度通過 子頻帶編號來捕獲。若QMF的頻譜分辨率通過第二濾波器級的后續(xù)應(yīng)用來改良,則整個濾 波器組被稱為混合式QMF且精細分辨率子頻帶被稱為混合式子頻帶。
[0008] 如上文已提及,在SAOC中,通用處理以時間頻率選擇性方式進行,且可在每一頻 帶內(nèi)描述如下:
[0009] -N個輸入音頻對象信號Sl··· sN使用由元素 d u…dN,P組成的下降混合矩陣下降混 合至P個信道Xf Xp作為編碼器處理的部分。此外,編碼器提取旁側(cè)信息,旁側(cè)信息描述輸 入音頻對象的特性(旁側(cè)信息估計器(SIE)模塊)。對于MPEG SA0C,對象功率關(guān)于彼此的 關(guān)系是此旁側(cè)信息的最基本形式。
[0010]-傳輸/存儲下降混合信號及旁側(cè)信息。為此目的,下降混合音頻信號可例如使用 諸如MPEG-1/2層II或III (又名mp3)、MPEG-2/4進階音頻編碼(AAC)等熟知感知音頻編 碼器來壓縮。
[0011]-在接收端,譯碼器概念上試圖使用所傳輸?shù)呐詡?cè)信息自(經(jīng)譯碼)下降混合信 號來復(fù)原原始對象信號(「對象分離」)。這些經(jīng)近似對象信號... §N接著使用由圖4 中的系數(shù)!"u··· rN,M描述的呈現(xiàn)矩陣(rendering matrix)經(jīng)混合成通過M個音頻輸出信道 夕1 ...夕M表示的目標(biāo)場景。所要目標(biāo)場景在極端狀況下可以是來自混合物的僅一個源信 號的呈現(xiàn)(源分離情境),但也可以是由所傳輸?shù)膶ο蠼M成的其他任意聲學(xué)場景。舉例而 言,輸出可系單信道、2信道立體或5. 1多信道目標(biāo)場景。
[0012] 基于時間頻率的系統(tǒng)可利用具有靜態(tài)時間及頻率分辨率的時間頻率(t/f)變換。 選定某固定的t/f分辨率柵格通常涉及時間分辨率與頻率分辨率之間的取舍。
[0013] 可關(guān)于音頻信號混合物中的典型對象信號的實例來論證固定的t/f分辨率的效 應(yīng)。舉例而言,音調(diào)聲音的頻譜展現(xiàn)具有基本頻率及若干泛音的諧波相關(guān)的結(jié)構(gòu)。這些信 號的能量集中于某頻率區(qū)處。對于這些信號,所利用t/f表示的高頻率分辨率對于分離窄 頻音調(diào)頻譜區(qū)與信號混合物是有益的。相反,類似于鼓聲的瞬變信號常常具有獨特時間結(jié) 構(gòu):實質(zhì)能量僅存在歷時短時間周期,且分布于廣范圍的頻率上。對于這些信號,所利用的 t/f表不的高時間分辨率對于分離瞬變信號部分與信號混合物是有利的。
[0014] 從標(biāo)準SAOC表示獲得的頻率分辨率限于參數(shù)頻帶的數(shù)目,從而在標(biāo)準SAOC中具 有最大值28。參數(shù)頻帶獲得自由64頻帶QMF分析組成的混合式QMF組,其中最低頻帶上的 額外混合式濾波級將這些頻帶進一步劃分成至多4個復(fù)合子頻帶。所獲得的頻帶經(jīng)分組成 參數(shù)頻帶,從而仿真人類聽覺系統(tǒng)的關(guān)鍵頻帶分辨率。分組允許將所需要的旁側(cè)信息數(shù)據(jù) 速率減小至在實際應(yīng)用中可經(jīng)有效地進行處置的大小。
[0015] 當(dāng)前音頻對象編碼方案給予SAOC處理的僅時間頻率選擇性的有限可變性。舉例 而言,MPEG SA0C[SA0C] [SA0C1] [SA0C2]限于可通過使用所謂混合式鏡面濾波器組(混合 式QMF)及其后續(xù)至參數(shù)頻帶的分組獲得的時間頻率分辨率。因此,標(biāo)準SAOC中的對象復(fù) 原常常遭受混合式QMF的粗糙頻率分辨率,從而導(dǎo)致來自其他音頻對象的可聽經(jīng)調(diào)變串?dāng)_ (例如,語音的雙重講話人為效應(yīng)或音樂中的聽覺粗糙人為效應(yīng))。
[0016] 給定合理的低數(shù)據(jù)速率,現(xiàn)有系統(tǒng)產(chǎn)生合理的分離質(zhì)量。主要問題是音調(diào)聲音的 完全分離的不足頻率分辨率。此情形經(jīng)展現(xiàn)為其他對象的包圍一對象的音調(diào)分量的「光 暈」。此情形感知地觀測為粗糙度或類似于聲碼器的人為效應(yīng)。此光暈的有害效應(yīng)可通過增 加參數(shù)頻率分辨率來減小。注意到,等于或高于512個頻帶(以44. IkHz采樣率)的分辨 率足夠產(chǎn)生測試信號中感知上顯著改良的分離。此高參數(shù)分辨率情況下的問題是需要的旁 側(cè)信息的量大幅度地增加至不切實際的量。此外,與現(xiàn)有標(biāo)準SAOC系統(tǒng)的兼容性將丟失。
[0017] 因此高度重視的是,是否可提供教示如何克服目前技術(shù)的上述約束的概念。
【發(fā)明內(nèi)容】
[0018] 本發(fā)明的目標(biāo)是提供用于音頻對象編碼的這些改良的概念。本發(fā)明的目標(biāo)通過以 下各者來解決:如權(quán)利要求1所述的譯碼器、如權(quán)利要求9所述的編碼器、如權(quán)利要求14所 述經(jīng)編碼音頻信號、如權(quán)利要求15所述的系統(tǒng)、如權(quán)利要求16所述的用于解碼的方法、如 權(quán)利要求17所述的用于編碼的方法,及如權(quán)利要求18所述的計算機程序。
[0019] 與目前技術(shù)SAOC相反,本發(fā)明的實施例提供一種頻譜參數(shù)化,使得
[0020]