地顯示根據(jù)本發(fā)明實(shí)施例的圖12的立體聲渲染器的頻域混響器中的處 理。
【具體實(shí)施方式】
[0066]以下描述用于根據(jù)室內(nèi)脈沖響應(yīng)處理音頻信號(hào)本發(fā)明方法的實(shí)施例,以及用于在 室內(nèi)脈沖響應(yīng)中確定從早期反射音至后期混響音的過渡的本發(fā)明方法的實(shí)施例。下面的描 述將從可以實(shí)現(xiàn)本發(fā)明方法的3D音頻編解碼系統(tǒng)的系統(tǒng)概要開始。
[0067]圖1和圖2顯示根據(jù)實(shí)施例的3D音頻系統(tǒng)的算法框圖。更具體地,圖1顯示3D編碼器 100的概要。音頻編碼器100在可選擇地提供的預(yù)渲染器/混合器電路102處接收輸入信號(hào), 更具體地,多個(gè)輸入聲道提供給音頻編碼器100多個(gè)聲道信號(hào)104、多個(gè)對(duì)象信號(hào)106以及相 對(duì)應(yīng)的對(duì)象元數(shù)據(jù)108。通過預(yù)渲染器/混合器102(參見信號(hào)110)所處理的對(duì)象信號(hào)106可 提供至SA0C編碼器112 JAOC編碼器112產(chǎn)生被提供至USAC(USAC = Unified Speech and Audio Coding,統(tǒng)一語(yǔ)音和音頻編碼)編碼器116的SA0C運(yùn)輸聲道114。此外,信號(hào)SAOC-SI (SA0C-SI = SA0C side information,SA0C邊信息)118也提供至USAC編碼器 116 JSAC編碼 器116進(jìn)一步不僅接收直接來(lái)自預(yù)渲染器/混合器的對(duì)象信號(hào)120,還接收聲道信號(hào)以及預(yù) 植染的對(duì)象信號(hào)122。對(duì)象元數(shù)據(jù)信息108施加至0AM(0AM = object metadata,對(duì)象元數(shù)據(jù)) 編碼器124,該0ΑΜ編碼器124提供壓縮的對(duì)象元數(shù)據(jù)信息126至USAC編碼器?;谏鲜鲚斎?信號(hào),USAC編碼器116產(chǎn)生壓縮的輸出信號(hào)mp4,其標(biāo)示為128。
[0068]圖2顯示3D音頻系統(tǒng)的3D音頻解碼器200的概要。音頻解碼器200接收?qǐng)D1的音頻編 碼器100所產(chǎn)生的編碼信號(hào)128(mp4),更具體地,在USAC解碼器202處接收。USAC解碼器202 將所接收的信號(hào)128解碼成聲道信號(hào)204、預(yù)渲染的對(duì)象信號(hào)206、對(duì)象信號(hào)208以及SA0C運(yùn) 輸聲道信號(hào)210。進(jìn)一步,USAC解碼器202輸出壓縮的對(duì)象元數(shù)據(jù)信息212以及信號(hào)SA0C-SI 214。對(duì)象信號(hào)208提供至用于輸出渲染的對(duì)象信號(hào)218的對(duì)象渲染器216 AA0C運(yùn)輸聲道信 號(hào)210應(yīng)用至用于輸出渲染的對(duì)象信號(hào)222的SA0C解碼器220。壓縮的對(duì)象元數(shù)據(jù)信息212應(yīng) 用至0ΑΜ解碼器224,0AM解碼器224用于輸出各個(gè)控制信號(hào)至對(duì)象渲染器216以及SA0C解碼 器220,用于產(chǎn)生渲染的對(duì)象信號(hào)218以及渲染的對(duì)象信號(hào)222。解碼器進(jìn)一步包括混合器 226,如圖2所示,混合器226接收輸入信號(hào)204、206、218以及222,并輸出聲道信號(hào)228。聲道 信號(hào)可以直接輸出至揚(yáng)聲器,例如32聲道的揚(yáng)聲器,其標(biāo)示為230。信號(hào)228可以提供至格式 轉(zhuǎn)換電路232,格式轉(zhuǎn)換電路232作為控制輸入端接收再現(xiàn)布局信號(hào),再現(xiàn)布局信號(hào)指示聲 道信號(hào)228的轉(zhuǎn)換方式。圖2繪示的實(shí)施例中,假設(shè)轉(zhuǎn)換以這樣的方式完成,信號(hào)可以提供至 5.1揚(yáng)聲器系統(tǒng),其標(biāo)示為234。而且,聲道信號(hào)228可以提供至立體聲渲染器236以產(chǎn)生兩個(gè) 輸出信號(hào),例如用于頭戴式耳機(jī),其標(biāo)示為238。
[0069]在本發(fā)明的實(shí)施例中,在圖1和圖2所繪示的編碼/解碼系統(tǒng)基于MPEG-D USAC編解 碼,來(lái)編碼聲道和對(duì)象信號(hào)(參見信號(hào)104以及106)。為了增加編碼大量對(duì)象的效率,可使用 MPEG SA0C技術(shù)。三種類型的渲染器可執(zhí)行渲染對(duì)象至聲道、渲染聲道至頭戴式耳機(jī)或渲染 聲道至不同揚(yáng)聲器設(shè)置的任務(wù)(參見圖2,標(biāo)號(hào)230、234以及238)。當(dāng)對(duì)象信號(hào)明確地傳輸或 使用SA0C作參數(shù)編碼,相對(duì)應(yīng)的對(duì)象元數(shù)據(jù)信息108被壓縮(參見信號(hào)126)以及被多路復(fù)用 至3D音頻比特流128。
[0070] 以下將進(jìn)一步詳細(xì)地描述圖1以及圖2所示的整體3D音頻系統(tǒng)的算法方塊。
[0071] 預(yù)渲染器/混合器102可選擇地提供,以在編碼之前將聲道加對(duì)象輸入場(chǎng)景轉(zhuǎn)換成 聲道場(chǎng)景。功能上,其相同于下面段落將描述的對(duì)象渲染器/混合器。需要對(duì)象的預(yù)渲染,以 確保在編碼器輸入端的確定性的信號(hào)熵,基本上無(wú)關(guān)于同步主動(dòng)對(duì)象信號(hào)的數(shù)量。根據(jù)對(duì) 象的預(yù)渲染,不需要傳輸對(duì)象元數(shù)據(jù)。離散對(duì)象信號(hào)渲染至編碼器使用的聲道布局。從相關(guān) 聯(lián)的對(duì)象元數(shù)據(jù)(OAM)針對(duì)每個(gè)聲道獲得對(duì)象的權(quán)重。
[0072] USAC編碼器116用于揚(yáng)聲器聲道信號(hào)、離散對(duì)象信號(hào)、對(duì)象降混信號(hào)以及預(yù)渲染信 號(hào)的核心編解碼。其基于MPEG-D USAC技術(shù)。其根據(jù)輸入聲道以及對(duì)象分配的幾何以及語(yǔ)義 信息,通過創(chuàng)建聲道以及對(duì)象映像信息來(lái)處理上述信號(hào)的編碼。該映像信息描述輸入聲道 以及對(duì)象如何映像至USAC聲道組件,如聲道對(duì)組件(CPEs)、單聲道組件(SCEs)、低頻效果 (LFEs)和四聲道組件(QCEs),而CPEs、SCEs以及LFEs以及相對(duì)應(yīng)的信息傳輸?shù)浇獯a器。編碼 器的比率控制考慮所有附加酬載(payloads)如SA0C數(shù)據(jù)114與118、或?qū)ο笤獢?shù)據(jù)126。對(duì)象 的編碼可能用不同的方式,取決于對(duì)渲染器的比率/失真需求以及交互性需求。根據(jù)實(shí)施 例,后續(xù)的對(duì)象編碼變體可能為:
[0073] ·預(yù)渲染對(duì)象:在編碼之前,對(duì)象信號(hào)預(yù)渲染并混合至22.2聲道信號(hào)。后續(xù)的編碼 鏈可參見22.2聲道信號(hào)。
[0074] ·離散對(duì)象波形:對(duì)象作為單聲道波形應(yīng)用至編碼器。編碼器使用單聲道組件 (SCEs)傳輸除了聲道信號(hào)的對(duì)象。解碼的對(duì)象在接收器側(cè)渲染并混合。壓縮的對(duì)象元數(shù)據(jù) 信息傳輸?shù)浇邮掌?渲染器。
[0075] ·參數(shù)對(duì)象波形:對(duì)象屬性以及其彼此關(guān)系通過SA0C參數(shù)的方式來(lái)描述。對(duì)象信 號(hào)的降混與USAC-起編碼。參數(shù)信息并排傳輸。降混聲道的數(shù)量的選擇取決于對(duì)象的數(shù)量 以及整體數(shù)據(jù)率。壓縮的對(duì)象元數(shù)據(jù)信息傳輸?shù)絊A0C渲染器。
[0076] 用于對(duì)象信號(hào)的SA0C編碼器112以及SA0C解碼器220可以基于MPEG SA0C技術(shù)。系 統(tǒng)能夠根據(jù)較小量的傳輸聲道以及附加的參數(shù)數(shù)據(jù),例如〇LDs、IOCs( Inter Object Coherence,對(duì)象間相干性),DMGs(downmix gain,降混增益)來(lái)重建、修改以及植染大量的 音頻對(duì)象。比起需要單獨(dú)地傳送所有對(duì)象,附加的參數(shù)數(shù)據(jù)展示顯著較低數(shù)據(jù)率,使得編碼 非常有效率。SA0C編碼器112以對(duì)象/聲道信號(hào)作為單聲道波形,并輸出參數(shù)信息(其被打包 成3D音頻比特流128)以及SA0C運(yùn)輸聲道(其使用單聲道組件編碼并傳輸hSAOC解碼器220 從解碼的SA0C運(yùn)輸聲道210以及參數(shù)信息214,重建對(duì)象/聲道信號(hào),并基于再現(xiàn)布局、解壓 縮的對(duì)象元數(shù)據(jù)信息,可選擇性基于用戶互動(dòng)信息,產(chǎn)生輸出音頻場(chǎng)景。
[0077] 提供對(duì)象元數(shù)據(jù)編解碼(參見0ΑΜ編碼器124以及0ΑΜ解碼器224),使得對(duì)于每個(gè)對(duì) 象,指定3D空間中對(duì)象的幾何位置以及容量相關(guān)聯(lián)的元數(shù)據(jù)能通過對(duì)象屬性在時(shí)間以及空 間上的量化而有效地編碼。壓縮的對(duì)象元數(shù)據(jù)cOAM 126傳輸?shù)浇邮掌?00作為邊信息。
[0078] 對(duì)象渲染器216根據(jù)給定的再現(xiàn)格式,利用壓縮的對(duì)象元數(shù)據(jù)以產(chǎn)生對(duì)象波形。每 個(gè)對(duì)象根據(jù)其元數(shù)據(jù)而渲染至特定的輸出聲道。部分結(jié)果的總和導(dǎo)致該方塊的輸出。如果 基于聲道的內(nèi)容以及離散/參數(shù)對(duì)象被解碼,則在輸出結(jié)果波形228之前或在提供到與立體 聲植染器236或揚(yáng)聲器植染器232相似的后處理器模塊之前,基于聲道的波形以及植染對(duì)象 波形通過混合器226混合。
[0079] 立體聲渲染器模塊236產(chǎn)生多聲道音頻素材的雙聲道降混,使得每個(gè)輸入聲道以 虛擬聲音源來(lái)表現(xiàn)。該處理在QMF(Quadrature Mirror Fi 1 terbank,正交鏡像濾波器組)域 中以幀方式進(jìn)行,而立體聲(binaural izat ion)是基于測(cè)量的雙聲道室內(nèi)脈沖響應(yīng)。
[0080] 揚(yáng)聲器渲染器232在傳輸?shù)穆暤琅渲?28以及所需的再現(xiàn)格式之間轉(zhuǎn)換。其也可被 稱為"格式轉(zhuǎn)換器"。格式轉(zhuǎn)換器執(zhí)行至較低數(shù)量的輸出聲道的轉(zhuǎn)換,即,其執(zhí)行降混。
[0081 ]圖3顯示用于實(shí)施格式轉(zhuǎn)換器232的示例。格式轉(zhuǎn)換器232,也被稱為揚(yáng)聲器渲染 器,在傳輸?shù)穆暤琅渲靡约八璧脑佻F(xiàn)格式之間轉(zhuǎn)換。格式轉(zhuǎn)換器232執(zhí)行至較低數(shù)量的輸 出聲道的轉(zhuǎn)換,即其執(zhí)行降混(DMX)處理240。降混器240,其優(yōu)選地運(yùn)作在QMF域,接收混合 器輸出信號(hào)228并輸出揚(yáng)聲器信號(hào)234。配置器242,也被稱為控制器,可提供作為控制輸入 端接收信號(hào)246和信號(hào)248,信號(hào)246代表混合器輸出布局,即,確定由混合器輸出信號(hào)228所 呈現(xiàn)數(shù)據(jù)的布局,信號(hào)248代表期望的再現(xiàn)布局。根據(jù)該信息,控制器242,優(yōu)選地自動(dòng),產(chǎn)生 用于輸入與輸出格式的給定結(jié)合的優(yōu)化的降混矩陣,以及應(yīng)用這些矩陣至降混合器240。格 式轉(zhuǎn)換器232允許標(biāo)準(zhǔn)揚(yáng)聲器配置以及具有非標(biāo)準(zhǔn)揚(yáng)聲器的位置的任意配置。
[0082]圖4顯示圖2的立體聲渲染器236的實(shí)施例。立體聲渲染器模塊可提供多聲道音頻 素材的雙聲道降混。立體聲可基于測(cè)量的雙聲道室內(nèi)脈沖響應(yīng)。室內(nèi)脈沖響應(yīng)可被認(rèn)為是 真實(shí)房間的聲學(xué)特征的"指紋"。測(cè)量以及儲(chǔ)存室內(nèi)脈沖響應(yīng),而任意的聲學(xué)信號(hào)可有此"指 紋",從而允許聽眾處的與室內(nèi)脈沖響應(yīng)相關(guān)聯(lián)的空間的聲學(xué)特征的仿真。立體聲渲染器 236被程序化或被配置用于使用頭部相關(guān)傳輸功能或雙聲道室內(nèi)脈沖響應(yīng)(BRIR)將輸出聲 道渲染成兩個(gè)雙聲道。例如,針對(duì)移動(dòng)裝置,附設(shè)于移動(dòng)裝置上的頭戴式耳機(jī)或揚(yáng)聲器需要 雙聲道渲染。在該種移動(dòng)裝置中,由于多種約束,其必須限制解碼器以及渲染的復(fù)雜度。除 了省略處理方案中的解相關(guān),其較佳的首先使用降混器250執(zhí)行降混至中間降混信號(hào)252, 即,降混至較少數(shù)量的輸出聲道,其導(dǎo)致較少數(shù)量輸入聲道用于實(shí)際的雙聲道轉(zhuǎn)換器254。 例如,22.2聲道素材可通過降混器250降混至5 . 1中間降混,或者,可選地,在"快捷 (吐〇巧(^)"模式下可通過圖2中的540(:解碼器220直接計(jì)算中間降混。如果22.2輸入聲道 將被直接植染,則相比于施加44HRTF(Head Related Transfer Functions,頭部相關(guān)傳輸) 或BRIR功能,雙聲道渲染僅須施加10HRTF功能或用于在不同位置渲染五個(gè)獨(dú)立聲道的BRIR 功能。對(duì)于雙聲道渲染所必須的卷積操作需要許多大量的處理功率,因此,減少處理功率而 仍然可獲得可接受的音頻質(zhì)量對(duì)移動(dòng)裝置特別地有用。立體聲渲染器236產(chǎn)生多聲道音頻 素材228的雙聲道降混238,使得每個(gè)輸入聲道(排除LFE聲道)通過虛擬音源來(lái)表現(xiàn)。該處理 可在QMF域中以幀方式產(chǎn)生。立體聲基于測(cè)量的雙聲道室內(nèi)脈沖響應(yīng),而當(dāng)后期混響音可分 別地處理時(shí),在QMF域的上側(cè)(on-top)使用快速卷積經(jīng)由偽FFT領(lǐng)域中的卷積方法將直達(dá)聲 音以及早期反射音可留印在音頻素材中。
[0083]圖5顯示室內(nèi)脈沖響應(yīng)h(t)300的示例。室內(nèi)脈沖響應(yīng)包括三部分:直達(dá)聲音301、 早期反射音302以及后期混響音304。如此,當(dāng)播放脈沖時(shí),室內(nèi)脈沖響應(yīng)描述密閉混響聲學(xué) 空間的反射行為。早期反射音302是具有增加密度的離散反射,不會(huì)再區(qū)別各個(gè)反射的脈沖 響應(yīng)的部分則被稱為后期混響音304。直達(dá)聲音301在室內(nèi)脈沖響應(yīng)中容易識(shí)別,以及可以 與早期反射音相分離,然而,從早期反射音302到后期混響音304的過渡不太明顯。
[0084]本發(fā)明方法的后續(xù)實(shí)施例將更詳細(xì)地描述。根據(jù)本發(fā)明的實(shí)施例,音頻信號(hào)分別 地與室內(nèi)脈沖響應(yīng)的早期部分和后期混響音一起處理。將與室內(nèi)脈沖響應(yīng)的早期部分一起 處理的音頻信號(hào)和室內(nèi)脈沖響應(yīng)的混響信號(hào)相結(jié)合,并輸出作為輸出音頻信號(hào)。為了獨(dú)立 處理,室內(nèi)脈沖響應(yīng)中從早期部