專利名稱:多通道參數(shù)轉(zhuǎn)換的裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種多通道參數(shù)的轉(zhuǎn)換,具體涉及根據(jù)基于對(duì)象參數(shù)
的空間音頻場(chǎng)景的表示來(lái)產(chǎn)生相干性參數(shù)和電平(level)參數(shù),所述相干性參數(shù)和電平參數(shù)指示兩個(gè)音頻信號(hào)之間的空間特性。
背景技術(shù):
存在對(duì)多通道音頻信號(hào)進(jìn)行參數(shù)編碼的多種方法,例如"參數(shù)立體聲(Parametric Stereo) (PS)"、"針對(duì)自然呈現(xiàn)的雙耳提示編碼(Binaural Cue Coding) (BCC),,以及"MPEG環(huán)繞",這些方法的目的
在于利用下混合信號(hào)(其可以是單聲道的或者包括多個(gè)通道)以及
以感知空間聲級(jí)(sound stage)為特性的參數(shù)側(cè)信息(空間提示),來(lái)表示多通道音頻信號(hào)。
可以將這些技術(shù)稱作是基于通道的(channel-based), g卩,這些技術(shù)試圖傳輸已經(jīng)存在的、或以比特率高效的方式產(chǎn)生的多通道信號(hào);即,在傳輸信號(hào)之前將空間音頻場(chǎng)景(scene)混合至預(yù)定數(shù)目的通道,以匹配預(yù)定的揚(yáng)聲器設(shè)置(set-up),并且這些技術(shù)的目的在于壓縮與獨(dú)立揚(yáng)聲器相關(guān)聯(lián)的音頻通道。
參數(shù)編碼技術(shù)依賴于下混合信號(hào),所述下混合信號(hào)承載有音頻內(nèi)容以及描述原始空間音頻場(chǎng)景的空間特性并在接收側(cè)用于重建多通道信號(hào)或空間音頻場(chǎng)景的參數(shù)。
緊密相關(guān)的技術(shù)組,例如"針對(duì)彈性呈現(xiàn)的BCC"用于對(duì)于獨(dú)立的音頻對(duì)象而非對(duì)相同多通道信號(hào)的通道進(jìn)行編碼,以便將這些獨(dú)立的音頻對(duì)象交互地呈現(xiàn)到任意的空間位置,并且獨(dú)立地放大或者抑制單個(gè)對(duì)象而不需要事先對(duì)所述對(duì)象的編碼器有任何的了解。相較于常見的參數(shù)多通道音頻編碼技術(shù)(這些技術(shù)會(huì)從編碼器向解碼器傳送給定的通道信號(hào)集合),這樣的對(duì)象編碼技術(shù)允許將已解碼的對(duì)象呈現(xiàn)到任
9何再現(xiàn)裝置(setup), B口,在該解碼側(cè)的用戶根據(jù)他的偏好自由選擇 再現(xiàn)裝置(例如,立體聲、5.1環(huán)繞)。
按照對(duì)象編碼構(gòu)思,可以定義對(duì)音頻對(duì)象在空間中的位置加以標(biāo) 識(shí)的參數(shù),以允許在該接收側(cè)進(jìn)行彈性呈現(xiàn)。在接收側(cè)呈現(xiàn)的優(yōu)點(diǎn)在 于,甚至可以使用非理想的揚(yáng)聲器設(shè)置或者任意的揚(yáng)聲器來(lái)再現(xiàn)具有 高品質(zhì)的空間音頻場(chǎng)景。此外,例如,必須傳輸諸如與獨(dú)立對(duì)象相關(guān) 聯(lián)的音頻通道的下混合之類的音頻信號(hào),這是在接收側(cè)再現(xiàn)的基礎(chǔ)。
上述兩種方法皆依賴于接收側(cè)的多通道揚(yáng)聲器設(shè)置,以允許高品
質(zhì)再現(xiàn)原始空間音頻場(chǎng)景的空間印象(spatial impression)。
如前述的,已經(jīng)存在多種對(duì)多通道音頻信號(hào)進(jìn)行參數(shù)編碼的現(xiàn)有 最新技術(shù),這些現(xiàn)有最新技術(shù)可以再現(xiàn)空間聲像(sound image),所 述空間聲像(依賴于可用的數(shù)據(jù)速率)或多或少系與原始音頻內(nèi)容類
^然而,在給定某一預(yù)編碼音頻材料(即,由給定個(gè)數(shù)的再現(xiàn)通道 信號(hào)描述的空間聲音)的情況下,這樣的編解碼器并不提供根據(jù)收聽 者的喜好對(duì)單個(gè)音頻對(duì)象進(jìn)行后驗(yàn)和交互式呈現(xiàn)的任何手段。另一方 面,也存在專為后者而設(shè)計(jì)的空間音頻對(duì)象編碼技術(shù),但是由于在這 樣的系統(tǒng)中所使用的參數(shù)表示系與針對(duì)多通道音頻信號(hào)的參數(shù)表示不 同,因此如果希望可以同時(shí)受益于兩種技術(shù),則需要單獨(dú)的解碼器。 這種情況所造成的缺點(diǎn)是,雖然兩種系統(tǒng)的后端(back end)皆可以 完成相同的任務(wù),從而在給定的揚(yáng)聲器裝置上呈現(xiàn)空間音頻場(chǎng)景,但 是它們必須以冗余的方式實(shí)現(xiàn),目卩,要提供兩種功能必須用到兩個(gè)獨(dú) 立的解碼器。
現(xiàn)有技術(shù)的對(duì)象編碼技術(shù)的另一個(gè)限制是缺乏一種以后向相容
(backwards compatible)的方式來(lái)儲(chǔ)存和/或傳輸預(yù)呈現(xiàn)的空間音頻對(duì) 象場(chǎng)景的手段。當(dāng)涉及將迅速呈現(xiàn)的音頻場(chǎng)景相同地再現(xiàn)時(shí),結(jié)果證
明以下特征是缺點(diǎn)使能對(duì)空間音頻對(duì)象編碼范例所提供的單個(gè)音頻
對(duì)象進(jìn)行交互式定位。
總結(jié)上述,面臨的不幸情況是雖然可以提出實(shí)現(xiàn)上述方法之一 的多通回放放環(huán)境,但是可能需要另一回放環(huán)境來(lái)另外實(shí)現(xiàn)第二種方法。值得注意的是,根據(jù)較長(zhǎng)遠(yuǎn)的歷史,基于通道的編碼方案是更為
普遍的,例如,儲(chǔ)存于DVD等上的著名的5.1或7.1/7.2多通道信號(hào)。
艮口,即使存在多通道解碼器以及關(guān)聯(lián)的回放裝備(放大器級(jí)以及 揚(yáng)聲器),當(dāng)用戶想要回放基于對(duì)象的已編碼音頻數(shù)據(jù)時(shí),用戶仍需要 另外的完整設(shè)置,g卩,至少音頻解碼器。通常,所述多通道音頻解碼 器直接與所述放大器級(jí)相關(guān)聯(lián),并且用戶無(wú)法直接使用用于驅(qū)動(dòng)揚(yáng)聲 器的放大器級(jí)。即,例如,在大多數(shù)一般可用的多通道音頻或多媒體 接收機(jī)中的情況。根據(jù)現(xiàn)有的消費(fèi)性電子產(chǎn)品,期望可以收聽以上述 兩種方法編碼的音頻內(nèi)容的用戶將甚至需要完整的另一組放大器,這 當(dāng)然是一種不令人滿意的情況。
發(fā)明內(nèi)容
因此,希望提供一種可以降低系統(tǒng)復(fù)雜度的方法,該方法可以對(duì) 參數(shù)多通道音頻流以及參數(shù)編碼的空間音頻對(duì)象流進(jìn)行解碼。
本發(fā)明的實(shí)施例是一種用以產(chǎn)生電平參數(shù)的多通道參數(shù)轉(zhuǎn)換器, 所述電平參數(shù)指示多通道空間音頻信號(hào)表示的第一音頻信號(hào)與第二音
頻信號(hào)之間的能量關(guān)系,多通道參數(shù)轉(zhuǎn)換器包括對(duì)象參數(shù)提供器, 用于針對(duì)與下混合通道相關(guān)聯(lián)的多個(gè)音頻對(duì)象,根據(jù)與音頻對(duì)象相關(guān) 聯(lián)的對(duì)象音頻信號(hào),提供對(duì)象參數(shù),所述對(duì)象參數(shù)包括針對(duì)每一個(gè)音
頻對(duì)象的能量參數(shù),所述能量參數(shù)指示對(duì)象音頻信號(hào)的能量信息;以
及參數(shù)產(chǎn)生器,用于通過將能量參數(shù)以及與呈現(xiàn)配置有關(guān)的對(duì)象呈現(xiàn) 參數(shù)相組合來(lái)得到電平參數(shù)。
根據(jù)本發(fā)明的另一實(shí)施例,所述參數(shù)轉(zhuǎn)換器產(chǎn)生相干性參數(shù)和電 平參數(shù),所述相干性參數(shù)和電平參數(shù)指示與多通道揚(yáng)聲器配置相關(guān)聯(lián) 的多通道音頻信號(hào)的第一音頻信號(hào)與第二音頻信號(hào)之間的相關(guān)性或相 干性以及能量關(guān)系。針對(duì)與下混合通道相關(guān)聯(lián)的至少一個(gè)音頻對(duì)象, 根據(jù)已提供的對(duì)象參數(shù)來(lái)產(chǎn)生相關(guān)性參數(shù)和電平參數(shù),所述下混合通 道本身是使用與該音頻對(duì)象相關(guān)聯(lián)的對(duì)象音頻信號(hào)來(lái)產(chǎn)生的,其中所 述對(duì)象參數(shù)包括指示對(duì)象音頻信號(hào)的能量的能量參數(shù)。為得到相干性 和電平參數(shù),使用參數(shù)產(chǎn)生器,該參數(shù)產(chǎn)生器將能量參數(shù)以及另外的對(duì)象呈現(xiàn)參數(shù)相結(jié)合,所述呈現(xiàn)參數(shù)受回放配置的影響。根據(jù)某些具 體實(shí)施例,對(duì)象呈現(xiàn)參數(shù)包括揚(yáng)聲器參數(shù),所述揚(yáng)聲器參數(shù)指示相對(duì) 于收聽地點(diǎn)的回放揚(yáng)聲器位置。根據(jù)一些實(shí)施例,對(duì)象呈現(xiàn)參數(shù)包括 對(duì)象位置參數(shù),對(duì)象位置參數(shù)指示相對(duì)于收聽地點(diǎn)的對(duì)象位置。為此, 參數(shù)產(chǎn)生器利用從兩種空間音頻編碼范例所得到的協(xié)同效應(yīng)。
根據(jù)本發(fā)明的另一實(shí)施例,多通道參數(shù)轉(zhuǎn)換器用于得到符合
MPEG環(huán)繞的相干性參數(shù)和電平參數(shù)(ICC與CLD),所述相干性參數(shù) 和電平參數(shù)(ICC與CLD)還可以用以操縱MPEG環(huán)繞解碼器。應(yīng)注意 的是,通道間相干性/互相關(guān)性(ICC)表示兩個(gè)輸入通道之間的相干 性或互相關(guān)性。在不包含時(shí)間差時(shí),相干性和相關(guān)性是相同的。換言 之,當(dāng)不使用通道間時(shí)間差或通道間相位差時(shí),這兩個(gè)術(shù)語(yǔ)代表相同 的特征。
這樣,多通道參數(shù)轉(zhuǎn)換器與標(biāo)準(zhǔn)的MPEG環(huán)繞轉(zhuǎn)換器一起可以用 于再現(xiàn)基于對(duì)象的已編碼音頻信號(hào)。這具有的優(yōu)點(diǎn)是,僅需一種另外 的參數(shù)轉(zhuǎn)換器,所述另外的轉(zhuǎn)換器接收空間音頻對(duì)象編碼(spatial audio object coded, SAOC)音頻信號(hào),并且轉(zhuǎn)換對(duì)象參數(shù),使得標(biāo)準(zhǔn) MPEG環(huán)繞解碼器可以使用這些對(duì)象參數(shù)來(lái)經(jīng)由現(xiàn)有回放裝備再現(xiàn)多 通道音頻信號(hào)。因此,在沒有重大修改的情況下,也可以使用一般回 放設(shè)備來(lái)再現(xiàn)空間音頻對(duì)象編碼內(nèi)容。
根據(jù)本發(fā)明的另一實(shí)施例,將所產(chǎn)生的相干性參數(shù)和電平參數(shù)與 相關(guān)聯(lián)的下混合通道復(fù)用成為符合MPEG環(huán)繞的比特流。然后可以將 該比特流饋送至標(biāo)準(zhǔn)MPEG環(huán)繞解碼器,而不需對(duì)現(xiàn)有的回放環(huán)境做 任何其他修改。
根據(jù)本發(fā)明的另一具體實(shí)施例,將所產(chǎn)生的相干性和電平參數(shù)直 接傳輸至略微修改過的MPEG環(huán)繞解碼器,使得可以保持多通道參數(shù) 轉(zhuǎn)換器的計(jì)算復(fù)雜度很低。
根據(jù)本發(fā)明的另一實(shí)施例,所產(chǎn)生的多通道參數(shù)(相干性參數(shù)和 電平參數(shù))在產(chǎn)生之后被儲(chǔ)存起來(lái),使得多通道參數(shù)轉(zhuǎn)換器還可以用 作對(duì)場(chǎng)景呈現(xiàn)過程之中得到的空間信息加以存儲(chǔ)的裝置。例如,也可 以在產(chǎn)生信號(hào)時(shí)在音樂空間(music studio)中執(zhí)行這樣的場(chǎng)景呈現(xiàn),使得可以使用以下段落中更詳細(xì)描述的多通道參數(shù)轉(zhuǎn)換器在不需要任 何其他努力的情況下產(chǎn)生多通道相容信號(hào)。因此,可使用舊式的
(legacy)裝備來(lái)再現(xiàn)預(yù)呈現(xiàn)的場(chǎng)景。
在更詳細(xì)描述本發(fā)明的多個(gè)具體實(shí)施例之前,將給出多通道音頻 編碼和對(duì)象音頻編碼技術(shù)、以及空間音頻對(duì)象編碼技術(shù)的簡(jiǎn)要回顧。 為此,也將參考附圖。
圖la示出了現(xiàn)有技術(shù)的多通道音頻編碼方案;
圖lb示出現(xiàn)有技術(shù)的對(duì)象編碼方案;
圖2示出了空間音頻對(duì)象編碼方案;
圖3示出了多通道參數(shù)轉(zhuǎn)換器的實(shí)施例;
圖4示出了用于回放空間音頻內(nèi)容的多通道揚(yáng)聲器配置的示例;
以及
圖5示出了空間音頻內(nèi)容的可能多通道參數(shù)表示的示例;
圖6a和6b示出了空間音頻對(duì)象編碼內(nèi)容的應(yīng)用情況;
圖7示出了多通道參數(shù)轉(zhuǎn)換器的實(shí)施例;以及
圖8示出了產(chǎn)生相干性參數(shù)以及相關(guān)性參數(shù)的方法的示例。
具體實(shí)施例方式
圖la示出了多通道音頻編碼和解碼方案的示意圖,而圖lb顯示傳 統(tǒng)音頻對(duì)象編碼方案的示意圖。多通道編碼方案使用多個(gè)已提供的通 道,g卩,已經(jīng)混合成符合預(yù)定數(shù)目揚(yáng)聲器的音頻通道。多通道編碼器4 (SAC)產(chǎn)生下混合信號(hào)6,下混合信號(hào)6是使用音頻通道2a至2d產(chǎn)生 的音頻信號(hào)。例如,該下混合信號(hào)6可以是單聲道音頻通道或兩個(gè)音頻 通道,g卩,立體聲信號(hào)。為了部分補(bǔ)償在下混合過程中的信息損耗, 多通道編碼器4提取多通道參數(shù),所述多通道參數(shù)描述音頻通道2a至2d 的信號(hào)的空間相互關(guān)系。將該信息作為所謂的側(cè)信息8與下混合信號(hào)6 一起傳輸至多通道解碼器10。多通道解碼器10利用側(cè)信息8的多通道參 數(shù)創(chuàng)建通道12a至12d,以盡可能精確地重建通道2a至2d。例如,這可以通過傳輸電平參數(shù)和相關(guān)性參數(shù)來(lái)達(dá)成,其中,所述電平參數(shù)和相
關(guān)性參數(shù)描述原始通道2a和2d的獨(dú)立通道對(duì)之間的能量關(guān)系,并提供 通道2a至2d的通道對(duì)之間的相關(guān)性量度。
在解碼時(shí),該信息可以用于將包括在下混合信號(hào)中的音頻通道重 新分配至已重建的音頻通道12a至12d。值得注意的是,將普通多通道 方案實(shí)現(xiàn)為再現(xiàn)已重建的通道12a至12d,所述已重建的通道12a至12d 的數(shù)目與輸入至多通道音頻編碼器4中的原始音頻通道2a至2d的數(shù)目 相同。然而,也可以實(shí)現(xiàn)其它的解碼方案,再現(xiàn)比原始音頻通道2a至 2d的數(shù)目更多或更少的通道。
這樣,可以將圖la中示意性概述的多通道音頻技術(shù)(例如,最近 標(biāo)準(zhǔn)化的MPEG空間音頻編碼方案,g卩,MPEG環(huán)繞)理解為現(xiàn)有音
頻分配基礎(chǔ)設(shè)施向多通道音頻/環(huán)繞的比特率高效且兼容的擴(kuò)展。
圖lb詳細(xì)說明了基于對(duì)象的音頻編碼的現(xiàn)有方法。例如,聲音對(duì) 象的編碼以及"基于內(nèi)容的可交互性"的能力是MPEG-4構(gòu)思的一部分。 在圖lb中示意性概述的傳統(tǒng)音頻對(duì)象編碼技術(shù)依據(jù)不同的方法,因?yàn)?該傳統(tǒng)音頻對(duì)象編碼技術(shù)并未視圖傳輸多個(gè)已有的音頻通道,而是傳 輸在空間中分配有多個(gè)音頻對(duì)象22a至22d的整個(gè)音頻場(chǎng)景。為此,使 用傳統(tǒng)音頻對(duì)象編碼器20將多個(gè)音頻對(duì)象22a至22d編碼進(jìn)基本流24a 至24d,每一個(gè)音頻對(duì)象具有關(guān)聯(lián)的基本流。例如,可以由單聲道音頻 通道以及關(guān)聯(lián)的能量參數(shù)來(lái)表示音頻對(duì)象22a至22d (音頻源),所述能 量參數(shù)指示音頻對(duì)象相對(duì)于場(chǎng)景中剩余音頻對(duì)象的相對(duì)電平。當(dāng)然, 在更復(fù)雜的實(shí)現(xiàn)中,音頻對(duì)象不限于由單聲道音頻通道來(lái)表示。取而 代之的是,例如,可以對(duì)立體聲音頻對(duì)象或多通道音頻對(duì)象進(jìn)行編碼。 傳統(tǒng)音頻對(duì)象解碼器28的目的在于再現(xiàn)音頻對(duì)象22a至22d,以得 到已重建的音頻對(duì)象28a至28d。傳統(tǒng)音頻對(duì)象解碼器中的場(chǎng)景構(gòu)成器 (composer) 30允許對(duì)已重建的音頻對(duì)象28a至28d (源)進(jìn)行離散定 位以及調(diào)整各種揚(yáng)聲器設(shè)置。場(chǎng)景完全由場(chǎng)景描述34以及關(guān)聯(lián)的音頻 對(duì)象來(lái)定義。 一些傳統(tǒng)的場(chǎng)景構(gòu)成器30以標(biāo)準(zhǔn)化的語(yǔ)言例如BIFS (針 對(duì)場(chǎng)景描述的二進(jìn)制格式)來(lái)預(yù)期場(chǎng)景描述。在該解碼器側(cè),可與存 在任意的揚(yáng)聲器設(shè)置,解碼器將通道32a至32e提供給獨(dú)立的揚(yáng)聲器,由于關(guān)于音頻場(chǎng)景的全部信息都在解碼器側(cè)可用,所以這些獨(dú)立的揚(yáng) 聲器最適合音頻場(chǎng)景的重建。例如,雙耳呈現(xiàn)是可行的,這導(dǎo)致兩個(gè) 通道的產(chǎn)生,以在經(jīng)由耳機(jī)收聽時(shí)提供空間印象。
與場(chǎng)景構(gòu)成器30的可選用戶交互使能在再現(xiàn)側(cè)重新定位/重新掃
視(repanning)獨(dú)立的音頻對(duì)象。此外,可以對(duì)特別選擇的音頻對(duì)象 的位置或電平進(jìn)行修改,以便例如當(dāng)在會(huì)議中環(huán)境噪音對(duì)象或與不同 講話者有關(guān)的其它音頻對(duì)象受到抑制(即,電平降低)時(shí)提高講話者 的可理解性(intelligibility)。
換言之,傳統(tǒng)的音頻對(duì)象編碼器將多個(gè)音頻對(duì)象編碼進(jìn)基本流, 每一個(gè)流與單個(gè)音頻對(duì)象相關(guān)聯(lián)。在場(chǎng)景描述(BIFS)的控制下并可 選地根據(jù)用戶交互,傳統(tǒng)的解碼器將這些流解碼并且構(gòu)成音頻場(chǎng)景。 就實(shí)際應(yīng)用的角度而言,該方法有以下缺點(diǎn)由于對(duì)每一個(gè)獨(dú)立的音 頻(聲音)對(duì)象進(jìn)行單獨(dú)編碼,所以傳輸整個(gè)場(chǎng)景所需要的比特率明 顯比用于單聲道/立體聲傳輸已壓縮音頻的比特率高。顯然,所需要的 比特率近似地與所傳輸?shù)囊纛l對(duì)象的數(shù)目成比例地增長(zhǎng),即,與音頻 場(chǎng)景的復(fù)雜度成比例地增長(zhǎng)。
因此,由于對(duì)每一個(gè)聲音對(duì)象的單獨(dú)解碼,使得解碼過程的計(jì)算 復(fù)雜度明顯超過一般單聲道/立體聲音頻解碼器的解碼過程的計(jì)算復(fù) 雜度。解碼所需要的計(jì)算復(fù)雜度也近似地與所傳輸?shù)膶?duì)象的數(shù)目成比 例地增長(zhǎng)(假設(shè)低復(fù)雜度的構(gòu)成過程)。當(dāng)使用高級(jí)構(gòu)成能力時(shí),艮P, 使用不同計(jì)算節(jié)點(diǎn)時(shí),與相應(yīng)音頻節(jié)點(diǎn)的同步有關(guān)的復(fù)雜度以及與運(yùn) 行結(jié)構(gòu)化音頻引擎(structured audio engine)時(shí)的總體復(fù)雜度有關(guān)的復(fù)
雜度將導(dǎo)致這些缺點(diǎn)的進(jìn)一步增加。
此外,由于整體系統(tǒng)包括若干音頻解碼器部件以及基于BIFS的構(gòu)
成單元,所以所需結(jié)構(gòu)的復(fù)雜度妨礙了在現(xiàn)實(shí)應(yīng)用中的實(shí)現(xiàn)。高級(jí)構(gòu) 成能力還需要實(shí)現(xiàn)具有上述復(fù)雜性之結(jié)構(gòu)化音頻引擎。
圖2示出了本發(fā)明的空間音頻對(duì)象編碼構(gòu)思的實(shí)施例,允許進(jìn)行 高效率音頻對(duì)象編碼,避免了前述一般實(shí)現(xiàn)的缺點(diǎn)。
如根據(jù)以下圖3的討論將看出的,可以通過修改己有的MPEG環(huán)繞 結(jié)構(gòu)來(lái)實(shí)現(xiàn)該構(gòu)思。然而,MPEG環(huán)繞架構(gòu)的使用并非強(qiáng)制性的,因?yàn)檫€可以使用其他一般的多通道編碼/解碼架構(gòu)來(lái)實(shí)現(xiàn)本發(fā)明的構(gòu)思。 使用現(xiàn)有的多通道音頻編碼結(jié)構(gòu),例如MPEG環(huán)繞,本發(fā)明的構(gòu) 思發(fā)展成現(xiàn)有音頻分配基礎(chǔ)設(shè)施比特率高效且兼容的擴(kuò)展,從而可以
使用基于對(duì)象的表示。為了與音頻對(duì)象編碼(AOC)和空間音頻編碼 (多通道音頻編碼)的現(xiàn)有方法相區(qū)別,在下文中將使用術(shù)語(yǔ)"空間音 頻對(duì)象編碼"或其縮寫SAOC來(lái)表示本發(fā)明的實(shí)施例。
圖2所示的空間音頻對(duì)象編碼方案使用獨(dú)立的輸入音頻對(duì)象50a 至50d??臻g音頻對(duì)象編碼器52得到一個(gè)或更多個(gè)下混合信號(hào)54(例如, 單聲道或者立體聲信號(hào))以及側(cè)信息55,該側(cè)信息55具有原始音頻場(chǎng) 景的特性的信息。
SAOC解碼器56接收下混合信號(hào)54以及側(cè)信息55。根據(jù)該下混合 信號(hào)54以及該側(cè)信息55,空間音頻對(duì)象解碼器56重建一組音頻對(duì)象58a 至58d。將已重建的音頻對(duì)象58a至58d輸入至混合器/呈現(xiàn)級(jí)60,混合 器/呈現(xiàn)級(jí)60將獨(dú)立的音頻對(duì)象58a至58d的音頻內(nèi)容混合,以產(chǎn)生期望 數(shù)目的輸出通道62a至62b,通道62a至62b—般而言與要用于回放的多 通道揚(yáng)聲器設(shè)置相對(duì)應(yīng)。
可選地,混合器/呈現(xiàn)器60的參數(shù)可以根據(jù)用戶交互或控制64而受
影響,以允許交互式音頻構(gòu)成,從而維持音頻對(duì)象編碼的高靈活性。
與其他多通道重建情況相比,圖2所示的空間音頻對(duì)象編碼構(gòu)思 具有多個(gè)重大的優(yōu)點(diǎn)。
因?yàn)槭褂孟禄旌闲盘?hào)以及伴隨的對(duì)象參數(shù),所以傳輸是非常比特 率高效的。即,將基于對(duì)象的側(cè)信息與下混合信號(hào)一起傳輸,所述下 混合信號(hào)由與獨(dú)立的音頻對(duì)象相關(guān)聯(lián)的音頻信號(hào)構(gòu)成。因此,與對(duì)每 一個(gè)獨(dú)立音頻對(duì)象的信號(hào)進(jìn)行單獨(dú)編碼和傳輸?shù)姆椒ㄏ啾龋忍芈市?求顯著降低。此外,該構(gòu)思與已有的傳輸結(jié)構(gòu)后向相容。舊式的設(shè)備
僅需簡(jiǎn)單地呈現(xiàn)(組成)下混合信號(hào)。
可以將已重建的音頻對(duì)象58a至58d直接傳送至混合器/呈現(xiàn)器60 (場(chǎng)景構(gòu)成器)。 一般而言,已重建的音頻對(duì)象58a至58d可以連接至任 何外部混合設(shè)備(混合器/呈現(xiàn)器60),使得可以很容易地將本發(fā)明的 構(gòu)思實(shí)現(xiàn)到已有的回放環(huán)境中。原則上獨(dú)立的音頻對(duì)象58a…d可以用作單獨(dú)呈現(xiàn)(solo presentation), g卩,被再現(xiàn)為單個(gè)音頻流,盡管它們 通常并不旨在充當(dāng)高品質(zhì)的單獨(dú)再現(xiàn)。
與單獨(dú)的SAOC解碼以及后續(xù)的混合相比,組合的SAOC解碼器和 混合器/呈現(xiàn)器是非常吸引人的,這是因?yàn)樗鼋M合的SAOC解碼器和 混合器/呈現(xiàn)器導(dǎo)致了非常低的實(shí)現(xiàn)復(fù)雜度。與直接的方法相比,作為 中間表示可以避免對(duì)象58a至58d的完全解碼/重建。必要的計(jì)算主要與 預(yù)期的輸出呈現(xiàn)通道62a至62b的數(shù)目有關(guān)。如從圖2中可以明顯看出, 與SAOC解碼器相關(guān)聯(lián)的混合器/呈現(xiàn)器60原則上可以是適于將單個(gè)音 頻對(duì)象組合成場(chǎng)景(即,適于產(chǎn)生與多通道揚(yáng)聲器設(shè)置的獨(dú)立揚(yáng)聲器 相關(guān)聯(lián)的輸出音頻通道62a和62b)的任何算法。例如,這可以包括混 合器,所述混合器執(zhí)行幅度掃視(panning)(或者幅度和延遲掃視)、 基于向量的幅度掃視(vector based amplitude panning, VBAP方案)、 以及雙耳呈現(xiàn),目卩,意欲僅利用兩個(gè)揚(yáng)聲器或耳機(jī)來(lái)提供空間收聽體 驗(yàn)的呈現(xiàn)。例如,MPEG環(huán)繞使用這樣的雙耳呈現(xiàn)方式。
一般而言,可以將傳輸與相應(yīng)音頻對(duì)象信息55相關(guān)聯(lián)的下混合信 號(hào)54與任意的多通道音頻編碼技術(shù)相結(jié)合,舉例而言,例如參數(shù)立體 聲、雙耳提示編碼或MPEG環(huán)繞。
圖3示出了本發(fā)明的實(shí)施例,其中將對(duì)象參數(shù)與下混合信號(hào)一起 傳輸。在SAOC解碼器結(jié)構(gòu)120中,MPEG環(huán)繞解碼器可以與多通道參 數(shù)轉(zhuǎn)換器一起使用,所述多通道參數(shù)轉(zhuǎn)換器使用接收到的對(duì)象參數(shù)來(lái) 產(chǎn)生MPEG參數(shù)。這種組合得到了具有非常低復(fù)雜度的空間音頻對(duì)象 解碼器120。換言之,該具體示例提供一種方法,用以將與每一個(gè)音頻 對(duì)象相關(guān)聯(lián)的(空間音頻)對(duì)象參數(shù)和掃視信息轉(zhuǎn)換成符合于標(biāo)準(zhǔn)的 MPEG環(huán)繞比特流,從而從再現(xiàn)多通道音頻內(nèi)容向交互式呈現(xiàn)空間音 頻對(duì)象編碼場(chǎng)景,擴(kuò)展傳統(tǒng)MPEG環(huán)繞解碼器的應(yīng)用。這是在不需要 對(duì)MPEG環(huán)繞解碼器本身進(jìn)行修改的情況下實(shí)現(xiàn)的。
圖3所示的實(shí)施例通過將多通道參數(shù)轉(zhuǎn)換器與MPEG環(huán)繞解碼器 一起使用,避免了傳統(tǒng)技術(shù)的缺點(diǎn)。MPEG環(huán)繞解碼器是一種普遍可 用的技術(shù),而多通道參數(shù)轉(zhuǎn)換器提供了從SAOC至MPEG環(huán)繞的代碼轉(zhuǎn) 換(transcode)能力。這將在以下段落中詳細(xì)說明,將另外參考圖4和5,說明組合的技術(shù)的特定方面。
在圖3中,SAOC解碼器120具有MPEG環(huán)繞解碼器100, MPEG環(huán)
繞解碼器100接收具有音頻內(nèi)容的下混合信號(hào)102。可以通過以逐采樣 的方式將每一個(gè)音頻對(duì)象的音頻對(duì)象信號(hào)組合(例如相加),利用編碼 器側(cè)的下混合器來(lái)產(chǎn)生下混合信號(hào)。可選地,組合操作也可以發(fā)生在 譜域或?yàn)V波器組域中。下混合通道可以與參數(shù)比特流122分離,或可以 與參數(shù)比特流在相同的比特流中。
MPEG環(huán)繞解碼器100還接收MPEG環(huán)繞比特流的空間提示104, 如相干性參數(shù)ICC和電平參數(shù)CLD,這兩個(gè)參數(shù)皆表示在MPEG環(huán)繞編 碼/解碼方案中兩個(gè)音頻信號(hào)之間的信號(hào)特性,圖5示出了所述MPEGG 環(huán)繞編碼/解碼方案,并且將在下文中更詳細(xì)地解釋所述MPEGG環(huán)繞 編碼/解碼方案。
多通道參數(shù)轉(zhuǎn)換器106接收與音頻對(duì)象相關(guān)的SAOC參數(shù)(對(duì)象參 數(shù))122,所述SAOC參數(shù)122指示包括在該下混合信號(hào)102中的關(guān)聯(lián)的 音頻對(duì)象的特性。此外,轉(zhuǎn)換器106經(jīng)由對(duì)象呈現(xiàn)參數(shù)輸入來(lái)接收對(duì)象 呈現(xiàn)參數(shù)。這些參數(shù)可以是呈現(xiàn)矩陣的參數(shù),或可以是有助于將音頻 對(duì)象映射至呈現(xiàn)情況的參數(shù)。根據(jù)示范性地由用戶調(diào)整并且輸入至塊 12的對(duì)象位置,將由塊112來(lái)計(jì)算呈現(xiàn)矩陣。然后將塊112的輸出輸入 至塊106,具體輸入至用于計(jì)算空間音頻參數(shù)的參數(shù)產(chǎn)生器108。當(dāng)揚(yáng) 聲器配置改變時(shí),該呈現(xiàn)矩陣或一般而言至少一些對(duì)象呈現(xiàn)參數(shù)也改 變。因此,呈現(xiàn)參數(shù)依賴于呈現(xiàn)配置,所述呈現(xiàn)配置包括揚(yáng)聲器配置/ 回放配置、或者所傳輸?shù)牡幕蛴脩羲x擇的對(duì)象位置,這兩者皆可以 輸入至塊112中。
參數(shù)產(chǎn)生器108根據(jù)對(duì)象參數(shù)得到MPEG環(huán)繞空間提示104,其中 所述對(duì)象參數(shù)是由對(duì)象參數(shù)提供器(SAOC剖析器(parser)) IIO提供 的。參數(shù)產(chǎn)生器108另外使用由加權(quán)因子產(chǎn)生器112提供的呈現(xiàn)參數(shù)。
所述呈現(xiàn)參數(shù)當(dāng)中的一些或者全部是加權(quán)參數(shù),所述加權(quán)參數(shù)描述包 括在下混合信號(hào)102中的音頻對(duì)象對(duì)于空間音頻對(duì)象解碼器120所創(chuàng)建
的通道的貢獻(xiàn)。例如,可以以矩陣的形式來(lái)組織加權(quán)參數(shù),因?yàn)檫@些 加權(quán)參數(shù)將用于將N個(gè)音頻對(duì)象映射至M個(gè)通道,這M個(gè)通道與用于回放的多通道揚(yáng)聲器設(shè)置的獨(dú)立揚(yáng)聲器相關(guān)聯(lián)。對(duì)于多通道參數(shù)轉(zhuǎn)換器
(SAOC 2 MPS代碼轉(zhuǎn)換器)而言,有兩種類型的輸入數(shù)據(jù)。第一輸 入是SAOC比特流122,所述SAOC比特流122具有與獨(dú)立的音頻對(duì)象相 關(guān)聯(lián)的對(duì)象參數(shù),所述對(duì)象參數(shù)指示與所傳輸?shù)亩鄬?duì)象音頻場(chǎng)景相關(guān) 聯(lián)的音頻對(duì)象的空間特性(例如,能量信息)。第二輸入是呈現(xiàn)參數(shù)(加 權(quán)參數(shù))124,所述呈現(xiàn)參數(shù)(加權(quán)參數(shù))124用于將N個(gè)對(duì)象映射至 M個(gè)通道。
如前述的,SAOC比特流122包括有關(guān)于以下音頻對(duì)象的參數(shù)信 息己經(jīng)將所述音頻對(duì)象混合在一起以創(chuàng)建輸入至MPEG環(huán)繞解碼器 100的該下混合信號(hào)102。針對(duì)與下混合通道102相關(guān)聯(lián)的至少一個(gè)音頻 對(duì)象提供SAOC比特流122的對(duì)象參數(shù),使用與該音頻對(duì)象相關(guān)聯(lián)的至 少一個(gè)對(duì)象音頻信號(hào)產(chǎn)生該下混合通道102。例如,合適的參數(shù)是能量 參數(shù),能量參數(shù)指示對(duì)象音頻信號(hào)的能量,即,對(duì)象音頻信號(hào)貢獻(xiàn)于 下混合102的強(qiáng)度。如果使用立體聲下混合,則可以提供方向參數(shù),所 述方向參數(shù)指示音頻對(duì)象在立體聲下混合內(nèi)的位置。然而,顯然其他 對(duì)象參數(shù)也是合適的,從而可以用于實(shí)現(xiàn)。
所傳輸?shù)南禄旌喜⒉恍枰欢ㄊ菃温暤佬盘?hào)。例如,所傳輸?shù)南?混合也可以是立體聲信號(hào)。在該情況中,可以傳輸兩個(gè)能量參數(shù)作為 對(duì)象參數(shù),每一個(gè)參數(shù)指示每一個(gè)對(duì)象對(duì)立體聲信號(hào)的兩個(gè)通道之一 的貢獻(xiàn)。即,例如,如果使用20個(gè)音頻對(duì)象產(chǎn)生立體聲下混合信號(hào), 則將傳輸40個(gè)能量參數(shù)作為對(duì)象參數(shù)。
將SAOC比特流122饋送至SAOC剖析塊,艮卩,饋送至對(duì)象參數(shù)提 供器IIO,所述對(duì)象參數(shù)提供器110取回(regain)該參數(shù)信息,除了所 處理的實(shí)際數(shù)目的音頻對(duì)象之外,所述參數(shù)信息還主要包括對(duì)象電平 包絡(luò)(object level envelope) (OLE)參數(shù),所述對(duì)象電平包絡(luò)參數(shù)描 述出現(xiàn)的每一個(gè)音頻對(duì)象的時(shí)變譜包絡(luò)(spectral envelope)。
典型地,SAOC參數(shù)強(qiáng)烈地時(shí)間相關(guān)(time dependent),因?yàn)檫@些 SAOC參數(shù)運(yùn)送關(guān)于以下情況的信息例如,當(dāng)特定的對(duì)象發(fā)出 (emanate)或其它對(duì)象離開該場(chǎng)景時(shí),多通道音頻場(chǎng)景如何隨著時(shí)間 變化。反之,呈現(xiàn)矩陣124的加權(quán)參數(shù)并不經(jīng)常具有強(qiáng)時(shí)間或頻率相依性。當(dāng)然,如果對(duì)象進(jìn)入或者離開該場(chǎng)景,則所需要的參數(shù)的數(shù)目會(huì) 突然改變,以匹配場(chǎng)景的音頻對(duì)象的數(shù)目。此外,在采用交互式用戶 控制應(yīng)用中,矩陣元素可以是時(shí)變的,因?yàn)榫仃囋匾蕾囉谟脩舻膶?shí) 際輸入。
在本發(fā)明的另外的實(shí)施例中,導(dǎo)引所述加權(quán)參數(shù)或者所述對(duì)象呈 現(xiàn)參數(shù)或者時(shí)變對(duì)象呈現(xiàn)參數(shù)(加權(quán)參數(shù))的變化量之參數(shù)本身,可
以以SAOC比特流來(lái)傳送引導(dǎo)加權(quán)參數(shù)、或?qū)ο蟪尸F(xiàn)參數(shù)、或時(shí)變對(duì) 象呈現(xiàn)參數(shù)(加權(quán)參數(shù))自身發(fā)生變化的參數(shù),以引起呈現(xiàn)矩陣124 的變化。如果期望頻率相關(guān)(frequency dependent)的呈現(xiàn)特性(例如, 當(dāng)期望特定對(duì)象的頻率選擇性增益時(shí)),則加權(quán)因子或呈現(xiàn)矩陣元素可 以是頻率相關(guān)的。
在圖3的實(shí)施例中,根據(jù)有關(guān)于回放配置的信息(即,場(chǎng)景描述), 利用加權(quán)因子產(chǎn)生器112 (呈現(xiàn)矩陣產(chǎn)生塊)來(lái)產(chǎn)生(計(jì)算)呈現(xiàn)矩陣。 一方面,這可以是回放配置信息,例如揚(yáng)聲器參數(shù),所述揚(yáng)聲器參數(shù) 指示用于回放的多通道揚(yáng)聲器配置的多個(gè)揚(yáng)聲器當(dāng)中獨(dú)立揚(yáng)聲器的位 置或者空間定位。還根據(jù)對(duì)象呈現(xiàn)參數(shù)來(lái)計(jì)算呈現(xiàn)矩陣,例如,根據(jù) 指示音頻對(duì)象的位置以及指示音頻對(duì)象信號(hào)的放大或者衰減的信息, 來(lái)計(jì)算呈現(xiàn)矩陣。另一方面,如果期望逼真(realistic)再現(xiàn)多通道音 頻場(chǎng)景,則可以在該SAOC比特流之內(nèi)提供對(duì)象呈現(xiàn)參數(shù)??蛇x地, 還可以經(jīng)由用戶接口交互地地提供對(duì)象呈現(xiàn)參數(shù)(例如位置參數(shù)以及 放大信息(掃視參數(shù)))。自然,也可以與對(duì)象一起傳輸期望的呈現(xiàn)矩 陣,即,期望的加權(quán)參數(shù),以便以音頻場(chǎng)景的自然發(fā)聲(sounding) 再現(xiàn)開始,作為在解碼器側(cè)進(jìn)行交互式呈現(xiàn)的起始點(diǎn)。
參數(shù)產(chǎn)生器(場(chǎng)景呈現(xiàn)引擎)108接收加權(quán)因子以及對(duì)象參數(shù)(例 如該能量參數(shù)OLE),以計(jì)算N個(gè)音頻對(duì)象至M個(gè)輸出通道的一種映 射,其中M可以大于、小于或者等于N,并且此外還可以隨著時(shí)間而 變化。當(dāng)使用標(biāo)準(zhǔn)MPEG環(huán)繞解碼器100時(shí),可以通過符合標(biāo)準(zhǔn)的環(huán)繞 比特流將得到的空間提示(例如,相干性和電平參數(shù))傳輸至該MPEG 解碼器100,其中所述符合標(biāo)準(zhǔn)的環(huán)繞比特流匹配與SAOC比特流一起 傳輸?shù)南禄旌闲盘?hào)。如前述的,使用多通道參數(shù)轉(zhuǎn)換器106,使得允許使用標(biāo)準(zhǔn)MPEG 環(huán)繞解碼器來(lái)處理下混合信號(hào)以及由參數(shù)轉(zhuǎn)換器106提供的轉(zhuǎn)換后的 參數(shù),從而經(jīng)由給定的所述揚(yáng)聲器來(lái)回放音頻場(chǎng)景的重建。這是以音 頻對(duì)象編碼方法的高靈活性實(shí)現(xiàn)的,即,通過允許在回放側(cè)進(jìn)行嚴(yán)謹(jǐn) 的用戶交互來(lái)實(shí)現(xiàn)的。
作為多通道揚(yáng)聲器設(shè)置的回放的備選方案,可以使用MPEG環(huán)繞 解碼器的雙耳解碼模式以經(jīng)由耳機(jī)回放該信號(hào)。
然而,如果對(duì)MPEG環(huán)繞解碼器100的微小修改是可接受的,例如, 在軟件實(shí)現(xiàn)之內(nèi),則還可以在參數(shù)域中直接執(zhí)行將空間提示向MPEG 環(huán)繞解碼器的傳輸。即,可以省略將參數(shù)復(fù)用成MPEG環(huán)繞兼容的比 特流的計(jì)算工作量(computational effort)。除了計(jì)算復(fù)雜度降低之外, 另一個(gè)優(yōu)點(diǎn)是避免了由于符合MPEG的參數(shù)量化而造成的品質(zhì)下降, 因?yàn)樵谶@種情況下不再需要這種對(duì)所產(chǎn)生的空間提示的量化。如同己 經(jīng)在先前所提過的,該優(yōu)點(diǎn)需要更靈活的MPEG環(huán)繞解碼器實(shí)現(xiàn),從 而提供直接參數(shù)饋送而非純粹比特流饋送的可能性。
在本發(fā)明的另一實(shí)施例中,通過對(duì)所產(chǎn)生的空間提示以及下混合 信號(hào)進(jìn)行復(fù)用來(lái)創(chuàng)建MPEG環(huán)繞兼容的比特流,從而提供經(jīng)由舊式裝 備來(lái)進(jìn)行回放的可能性。多通道參數(shù)轉(zhuǎn)換器106因此也可以用于在編碼 器側(cè)將音頻對(duì)象編碼數(shù)據(jù)轉(zhuǎn)換成多通道編碼數(shù)據(jù)。根據(jù)圖3的多通道參 數(shù)轉(zhuǎn)換器,將在下文中對(duì)于特定的對(duì)象音頻以及多通道實(shí)現(xiàn)來(lái)描述本 發(fā)明的其它實(shí)施例。在圖4和5中說迷宮了這些實(shí)現(xiàn)的重要方面。
圖4示出了實(shí)現(xiàn)幅度掃視的方法,根據(jù)一個(gè)具體實(shí)現(xiàn),使用方向 (位置)參數(shù)作為對(duì)象呈現(xiàn)參數(shù)以及使用能量參數(shù)作為對(duì)象參數(shù)。所 述對(duì)象呈現(xiàn)參數(shù)指示音頻對(duì)象的位置。在接下來(lái)的所述段落中,角度 (Xil50將用作對(duì)象呈現(xiàn)(位置)參數(shù),其描述了音頻對(duì)象152相對(duì)于收 聽地點(diǎn)154的原始方向。在接下來(lái)的示例中,將假設(shè)簡(jiǎn)化的二維情況, 使得可以使用一單個(gè)參數(shù)(即,角度)將與音頻對(duì)象相關(guān)聯(lián)的音頻信 號(hào)的來(lái)源方向明確地參數(shù)化。然而,不言可喻,可以在不需要實(shí)行大 幅度改變的情況下實(shí)現(xiàn)一般的三維情況。即,例如在三維空間中,可 以使用向量來(lái)指示音頻對(duì)象在空間音頻場(chǎng)景內(nèi)的位置。因?yàn)閷⒃谙挛闹惺褂肕PEG環(huán)繞解碼器來(lái)實(shí)現(xiàn)本發(fā)明的構(gòu)思,因此圖4還示出了5通 道MPEG多通道揚(yáng)聲器配置的揚(yáng)聲器位置。如果將中央揚(yáng)聲器156a(C) 的位置定義在0。,則右前揚(yáng)聲器156b位于30。、右環(huán)繞揚(yáng)聲器156c位于 110°、左環(huán)繞揚(yáng)聲器156d位于-110。、以及左前揚(yáng)聲器156e位于-30。。
以下示例將進(jìn)一步依賴于如在MPEG環(huán)繞標(biāo)準(zhǔn)中所指定的多通道 音頻信號(hào)的5.1通道表示,所述MPEG環(huán)繞標(biāo)準(zhǔn)定義了兩種可能的參數(shù) 化,可以將這兩種可能的參數(shù)化形象化為圖5中所描繪的所述樹狀結(jié) 構(gòu)。
在單聲道下混合160的傳輸?shù)那闆r中,MPEG環(huán)繞解碼器使用樹狀 結(jié)構(gòu)的參數(shù)化。對(duì)于第一參數(shù)化,樹由所謂的OTT元素(element)(盒) 162a至162e構(gòu)成,對(duì)于第二參數(shù)化,樹由164a至164e構(gòu)成。
每一個(gè)OTT元素將單聲道輸入上混合成兩個(gè)輸出音頻信號(hào)。為執(zhí) 行該上混合,每一個(gè)OTT元素使用ICC參數(shù)和CLD參數(shù),所述ICC參數(shù) 描述輸出信號(hào)之間期望的互相關(guān)性,所述CLD參數(shù)描述每一個(gè)OTT元 素的兩個(gè)輸出信號(hào)之間的相對(duì)電平差。
雖然結(jié)構(gòu)上系相似,但圖5中的兩個(gè)參數(shù)化從單聲道下混合160分 配通道內(nèi)容的方式是不同的。例如,在左側(cè)的樹狀結(jié)構(gòu)中,第一OTT 元素162a產(chǎn)生第一輸出通道166a和第二輸出通道166b。根據(jù)圖5中的形 象化(visualization),第一輸出通道166a包括與左前、右前、中央的 通道以及低頻增強(qiáng)通道有關(guān)的信息。第二輸出信號(hào)166b僅包括關(guān)于環(huán) 繞通道(左環(huán)繞和右環(huán)繞通道)的信息。與第二實(shí)現(xiàn)方式相比時(shí),第 一OTT元素的輸出在所包括的音頻通道方面顯著不同。
然而,可以根據(jù)這兩種實(shí)現(xiàn)中的任一種來(lái)實(shí)現(xiàn)多通道參數(shù)轉(zhuǎn)換 器。 一旦理解了本發(fā)明的構(gòu)思,本發(fā)明的構(gòu)思就也可以應(yīng)用于除了下 文中將敘述的多通道配置以外的其它多通道配置。為了簡(jiǎn)潔起見,不 失一般性,在本發(fā)明接下來(lái)的實(shí)施例將重點(diǎn)放在圖5中左邊的參數(shù)化。 還應(yīng)注意,圖5僅充當(dāng)MPEG音頻構(gòu)思的適當(dāng)形象化,并且,雖然圖5 的形象化可能誘使人們認(rèn)為以循序的方式進(jìn)行計(jì)算,但通常不以循序 的方式進(jìn)行計(jì)算。 一般而言,可以并行地執(zhí)行計(jì)算,即,可以在一單 個(gè)計(jì)算步驟中得到輸出通道。在接下來(lái)的所述段落簡(jiǎn)短討論的實(shí)施例中,SAOC比特流包括下
混合信號(hào)中每一個(gè)音頻對(duì)象的(相對(duì))電平(分別對(duì)于每一個(gè)時(shí)間-
頻率片(tile),如同在使用例如濾波器組或時(shí)間至頻率轉(zhuǎn)換的頻域架 構(gòu)中的一般慣例一樣)。
此外,本發(fā)明并不限于對(duì)象的特定的電平表示,下面的敘述僅闡 明了一種方法,該方法根據(jù)可以從SAOC對(duì)象參數(shù)化得到對(duì)象功率量 度來(lái)計(jì)算針對(duì)MPEG環(huán)繞比特流的空間提示。
如從圖3中明顯看出來(lái)的,呈現(xiàn)矩陣W具有多個(gè)加權(quán)參數(shù),其中, 所述呈現(xiàn)矩陣W是由加權(quán)參數(shù)產(chǎn)生的,參數(shù)產(chǎn)生器108使用所述呈現(xiàn)矩 陣W將對(duì)象Oj映射至所需數(shù)目(例如揚(yáng)聲器的數(shù)目)的輸出通道s,所 述加權(quán)參數(shù)依賴于具體對(duì)象索引i以及通道索引s。因此,加權(quán)參數(shù)K^ 系表示對(duì)象/ (B匕N)至揚(yáng)聲器s (1&《M)的混合增益。S卩,W將對(duì) 象。=[。,...。,f映射至揚(yáng)聲器,產(chǎn)生針對(duì)每一個(gè)揚(yáng)聲器(此處假設(shè) 5.1設(shè)置)的輸出信號(hào)7 = [~ & ~£ &坧r,因此
"『0
參數(shù)產(chǎn)生器(呈現(xiàn)引擎108)使用該呈現(xiàn)矩陣W來(lái)根據(jù)SAOC數(shù)據(jù) 一估計(jì)所有CLD以及ICC參數(shù)。相對(duì)于圖5的形象化,顯然必須針對(duì)每 一個(gè)OTT元素獨(dú)立地執(zhí)行該過程。將主要關(guān)于第一OTT元素162a進(jìn)行 詳細(xì)的討論,因?yàn)樵诮酉聛?lái)的段落中的教義可以適用于其余的OTT元
素而不用另外的發(fā)明技巧。
可以觀察到,利用OTT元素162b、 162c和162d對(duì)OTT元素162a的 第一輸出信號(hào)166a進(jìn)行進(jìn)一步處理,最后得到輸出通道LF、 RF、 C以 及LFE。利用OTT元素162e對(duì)第二輸出通道166b進(jìn)行進(jìn)一步處理,得 到輸出通道LS與RS。將圖5的OTT元素替換成單個(gè)呈現(xiàn)矩陣W是可以 通過使用下列矩陣W來(lái)執(zhí)行的
<formula>formula see original document page 23</formula>- '+ .l + w<,'l +… w + w + wcw + w,,
'
矩陣W的列數(shù)N不是固定的,因?yàn)镹是音頻對(duì)象的數(shù)目,所述音
頻對(duì)象的數(shù)目可能是變化的。
得到針對(duì)OTT元素162a的空間提示(CLD與ICC)的一種可能性 是通過對(duì)W中的相應(yīng)元素求和,得到每一個(gè)對(duì)象對(duì)OTT元素O的兩個(gè) 輸出的相應(yīng)貢獻(xiàn)。該求和給出了OTT元素O的子呈現(xiàn)矩陣Wo:
現(xiàn)在問題被簡(jiǎn)化成了估計(jì)子呈現(xiàn)矩陣Wo(以及以類似的方式定義 的、分別與OTT元素l、 2、 3和4有關(guān)的子呈現(xiàn)矩陣W,、 W2、 \¥3和\¥4) 的電平差和相關(guān)性。
假設(shè)完全不相干的(即,互相獨(dú)立的)對(duì)象信號(hào),OTT元素O的 第一輸出的估計(jì)功率 ^是由以下方程給出的
的:
類似地,OTT元素0的第二輸出的估計(jì)功率P。,2是由以下方程給出 互功率(cross power) ^是由以下方程給出的
那么OTT元素O的CLD參數(shù)是由以下方程給出的 C叫=101og1()年
以及ICC參數(shù)是由以下方程給出的
/CC0 =
當(dāng)考慮圖5的左邊部分時(shí),如上所示確定了其 0,1和?0,2的兩個(gè)信號(hào) 皆為虛擬信號(hào),因?yàn)檫@些信號(hào)表示揚(yáng)聲器信號(hào)的組合且并不構(gòu)成實(shí)際 發(fā)生的音頻信號(hào)。在這一點(diǎn)上強(qiáng)調(diào)的是,在圖5的樹狀結(jié)構(gòu)并不用以產(chǎn)生信號(hào)。這意味著在MPEG環(huán)繞解碼器中,不存在在一轉(zhuǎn)二盒
(one-to-two boxes)之間的任何信號(hào)。取而代之的是,存在大的上混
合矩陣,該上混合矩陣使用下混合以及不同的參數(shù)來(lái)或多或少直接產(chǎn)
生揚(yáng)聲器信號(hào)。
以下將對(duì)圖5中左側(cè)配置的通道的分組和標(biāo)識(shí)加以描述。 對(duì)于盒162a,第一虛擬信號(hào)是表示揚(yáng)聲器信號(hào)lf、 rf、 c、 lfe的組
合的信號(hào)。第二虛擬信號(hào)是表示ls與rs的組合的虛擬信號(hào)。
對(duì)于盒162b,第一音頻信號(hào)是虛擬信號(hào),表示包括左前通道和右
前通道在內(nèi)的組,第二音頻信號(hào)是虛擬信號(hào),表示包括中央通道和lfe
通道在內(nèi)的組。
對(duì)于盒162e,第一音頻信號(hào)是左環(huán)繞通道的揚(yáng)聲器信號(hào),第二音 頻信號(hào)是右環(huán)繞通道的揚(yáng)聲器信號(hào)。
對(duì)于盒162c,第一音頻信號(hào)是左前通道的揚(yáng)聲器信號(hào),第二音頻 信號(hào)是右前通道的揚(yáng)聲器信號(hào)。
對(duì)于盒162d,第一音頻信號(hào)是中央通道的揚(yáng)聲器信號(hào),第二音頻 信號(hào)是低頻增強(qiáng)通道的揚(yáng)聲器信號(hào)。
在這些盒中,如同稍后將概略描述的,通過將與由第一音頻信號(hào) 或第二音頻信號(hào)表示的通道相關(guān)聯(lián)的對(duì)象呈現(xiàn)參數(shù)相組合,得到第一 音頻信號(hào)或第二音頻信號(hào)的加權(quán)參數(shù)。
以下將對(duì)圖5右側(cè)配置中的通道的分組和標(biāo)識(shí)加以描述。
對(duì)于盒164a,第一音頻信號(hào)是虛擬信號(hào),表示包括左前通道、左 環(huán)繞通道、右前通道以及右環(huán)繞通道在內(nèi)的組,第二音頻信號(hào)為虛擬 信號(hào),表示包括中央通道和低頻增強(qiáng)通道在內(nèi)的組。
對(duì)于盒164b,第一音頻信號(hào)是虛擬信號(hào),表示包括左前通道和左 環(huán)繞通道在內(nèi)的組,第二音頻信號(hào)為虛擬信號(hào),表示包括右前通道和 右環(huán)繞通道在內(nèi)的組。
對(duì)于盒164e,第一音頻信號(hào)是中央通道的揚(yáng)聲器信號(hào),第二音頻 信號(hào)是低頻增強(qiáng)通道的揚(yáng)聲器信號(hào)。
對(duì)于盒164c,第一音頻信號(hào)是左前通道的揚(yáng)聲器信號(hào),第二音頻 信號(hào)是左環(huán)繞通道的揚(yáng)聲器信號(hào)。對(duì)于盒164d,第一音頻信號(hào)是右前通道的揚(yáng)聲器信號(hào),第二音頻 信號(hào)是右環(huán)繞通道的揚(yáng)聲器信號(hào)。
在這些盒中,如同稍后將概略描述的,通過將與由第一音頻信號(hào) 或第二音頻信號(hào)表示的通道相關(guān)聯(lián)的對(duì)象呈現(xiàn)參數(shù)相組合,得到第一 音頻信號(hào)或第二音頻信號(hào)的加權(quán)參數(shù)。
上述虛擬信號(hào)是虛擬的,因?yàn)樗鼈儾⒉灰霈F(xiàn)在實(shí)施例中。這些 虛擬信號(hào)用于說明功率值的產(chǎn)生或能量的分配,所述能量是由例如針
對(duì)所有盒的CLD通過使用不同的子呈現(xiàn)矩陣Wi而確定的。同樣,首先 描述圖5的左側(cè)。
在前文中,已經(jīng)示出了針對(duì)盒162a的子呈現(xiàn)矩陣Wo。
對(duì)于盒162b,將子呈現(xiàn)矩陣定義為
<formula>formula see original document page 26</formula>
對(duì)于盒162e,將子呈現(xiàn)矩陣定義為<formula>formula see original document page 26</formula>
對(duì)于盒162C,將子呈現(xiàn)矩陣定義為:
<formula>formula see original document page 26</formula>
對(duì)于盒162d,將子呈現(xiàn)矩陣定義為
<formula>formula see original document page 26</formula>
對(duì)于圖5的右側(cè)配置,情況如下-對(duì)于盒164a,將子呈現(xiàn)矩陣定義為:<formula>formula see original document page 27</formula>
對(duì)于盒164b,將子呈現(xiàn)矩陣定義為:
<formula>formula see original document page 27</formula>
對(duì)于盒164e,將子呈現(xiàn)矩陣定義為:
<formula>formula see original document page 27</formula>
對(duì)于盒164c,將子呈現(xiàn)矩陣定義為:
<formula>formula see original document page 27</formula>
對(duì)于盒164d,將子呈現(xiàn)矩陣定義為:
<formula>formula see original document page 27</formula>
根據(jù)實(shí)現(xiàn),可以將相應(yīng)的CLD和ICC參數(shù)量化以及格式化,以符 合MPEG環(huán)繞比特流,可以將所述MPEG環(huán)繞比特流饋送至MPEG環(huán)繞 解碼器100中。可選地,可以在參數(shù)級(jí)別(parameter level)上將參數(shù) 值傳送至MPEG環(huán)繞解碼器,g卩,并不量化和格式化成比特流。為了 不僅實(shí)現(xiàn)對(duì)象的重新掃視(即,適當(dāng)?shù)胤峙溥@些信號(hào)能量,這是可以 利用圖5的MPEG-2結(jié)構(gòu)使用上述方法來(lái)實(shí)現(xiàn)的)還實(shí)現(xiàn)衰減或者放 大,可以產(chǎn)生所謂的任意下混合增益(arbitrary down-mix gain),以修 改下混合信號(hào)能量。任意下混合增益(ADG)允許在利用所述OTT元 素之一對(duì)下混合信號(hào)進(jìn)行處理之前對(duì)所述下混合信號(hào)本身進(jìn)行譜修 改。即,就其本身而言,任意下混合增益是頻率相關(guān)的。對(duì)于高效的 實(shí)現(xiàn),采用與CLD參數(shù)相同的頻率解析度和相同的量化器步(quantizerstep)來(lái)表示任意下混合增益ADG。施行ADGs的一般性目的是對(duì)所傳 輸?shù)南禄旌线M(jìn)行修改,使得下混合輸入信號(hào)中的能量分配類似于所呈 現(xiàn)的系統(tǒng)輸出的下混合的能量。使用呈現(xiàn)矩陣W的加權(quán)參數(shù)Wk,i以及 所傳輸?shù)膶?duì)象功率^,可以使用下列的方程計(jì)算適當(dāng)?shù)腁DG:
爿DG [, = 101og
10
并且假設(shè)輸入下混合信號(hào)的功率等于對(duì)象功率之和0=對(duì)象索引
k-通道索引)。
如同在先前所討論的,使用加權(quán)參數(shù)來(lái)CLD和ICC參數(shù)的計(jì)算,
'士
所述加權(quán)參數(shù)指示與多通道揚(yáng)聲器配置的揚(yáng)聲器相關(guān)聯(lián)的對(duì)象音頻f 號(hào)的能量的一部分。這些加權(quán)因子一般而言將依賴于場(chǎng)景數(shù)據(jù)以及回 放配置數(shù)據(jù),即,依賴于音頻對(duì)象與多通道揚(yáng)聲器設(shè)置的揚(yáng)聲器的相
對(duì)位置。在接下來(lái)的所述段落中將提供一種可能性根據(jù)圖4所引入的 對(duì)象音頻參數(shù)化,將方位角和增益量度用作與每一個(gè)音頻對(duì)象相關(guān)聯(lián) 的對(duì)象參數(shù),從而得到加權(quán)參數(shù)。
如同己經(jīng)在之前概略敘述的,對(duì)于每一個(gè)時(shí)間/頻率片存在獨(dú)立的 呈現(xiàn)矩陣;然而,為了清楚起見,在下文中僅考慮單個(gè)時(shí)間/頻率片。 呈現(xiàn)矩陣W具有M行(每一行對(duì)應(yīng)一個(gè)輸出通道)N列(每一列對(duì)應(yīng) 一個(gè)音頻對(duì)象),其中,第s行且第i列的矩陣元素表示混合權(quán)重,特定 的音頻對(duì)象以該混合權(quán)重貢獻(xiàn)于相應(yīng)的輸出通道
『=
根據(jù)以下場(chǎng)景描述和揚(yáng)聲器配置參數(shù)來(lái)計(jì)算矩陣元素:
場(chǎng)景描述(這些參數(shù)可以隨著時(shí)間改變)
* 音頻對(duì)象的數(shù)目
* 每一個(gè)音頻對(duì)象的方位角OCi (1S《N)* 每一個(gè)對(duì)象的增益值gi (ld《N) 揚(yáng)聲器配置(通常這些參數(shù)是非時(shí)變的)
* 輸出通道的數(shù)目(=揚(yáng)聲器)
* 每一個(gè)揚(yáng)聲器的方位角0s(l^S《M)
* es幼wVs其中l(wèi)《S《M-l 通過對(duì)每一個(gè)音頻對(duì)象i進(jìn)行下述的方案,根據(jù)這些參數(shù)得到混合
矩陣的元素
* 找出索引s, (i"sm),其中es《o^es'+, (eM+1:=e1+2;[)
* 在揚(yáng)聲器s'與s'+l之間(若s^M,則在揚(yáng)聲器M與1 之間),施行幅度掃視(例如,正切定理(tangent law))。在接 下來(lái)的敘述中,變量v是掃視權(quán)重,即,例如在圖4中所描繪的, 當(dāng)在兩個(gè)通道之間分配信號(hào)時(shí)將施加于該信號(hào)上的縮放因子
關(guān)于上述方程,值得注意的是,在該二維情況中,將在多通道揚(yáng) 聲器配置的兩個(gè)揚(yáng)聲器之間分配與空間音頻場(chǎng)景的音頻對(duì)象相關(guān)聯(lián)的 對(duì)象音頻信號(hào),這兩個(gè)揚(yáng)聲器系最接近所述音頻對(duì)象。然而,針對(duì)上 述實(shí)現(xiàn)而選擇的對(duì)象參數(shù)并非是可以用于實(shí)現(xiàn)本發(fā)明其他實(shí)施例的僅 有的對(duì)象參數(shù)。例如,在三維的情況中,指示揚(yáng)聲器或音頻對(duì)象的位 置的對(duì)象參數(shù)可以是三維向量。 一般而言,當(dāng)應(yīng)該明確地定義位置時(shí), 二維的情況需要兩個(gè)參數(shù),三維的情況需要三個(gè)參數(shù)。然而,即使在 該二維的情況中,也可以使用不同的參數(shù)化,例如在直角座標(biāo)系內(nèi)傳 輸兩個(gè)座標(biāo)??梢詰?yīng)注意的是,在1到2的范圍之內(nèi)的可選掃視規(guī)則參 數(shù)p是被設(shè)置為反映再現(xiàn)系統(tǒng)/空間(room)的空間聲音特性、并且 根據(jù)本發(fā)明的一些具體實(shí)施例另外可應(yīng)用的任意掃視規(guī)則參數(shù)。最后,
在根據(jù)上述方程得到了掃視權(quán)重^i以及K2,i之后,可以根據(jù)以下公式
得到加權(quán)參數(shù)Ww。矩陣元素最終由以下方程給定w、、,=
0 其他
在上文中所介紹的可選地與每一個(gè)音頻對(duì)象相關(guān)聯(lián)的增益因子gi 可以用于強(qiáng)調(diào)或抑制獨(dú)立的對(duì)象。例如,這是可以在該接收側(cè)執(zhí)行的, 即,在解碼器側(cè)執(zhí)行,以提高獨(dú)立選擇的音頻對(duì)象的可理解性。
圖4的音頻對(duì)象152的以下示例將再一次地用以闡明前述的方程 的應(yīng)用。該示例使用前述符合ITU-RBS.775-l的3/2-通道設(shè)置。目的是 得到音頻對(duì)象i的期望掃視方向,所述期望掃視方向的特征是具有方向 角a「60。,具有等于l (即,OdB)的任意掃視增益g,。對(duì)于該示例, 回放空間應(yīng)呈現(xiàn)由掃視規(guī)則參數(shù)p-2參數(shù)化的某回響。根據(jù)圖4,顯然 最接近的揚(yáng)聲器是右前揚(yáng)聲器156b以及右環(huán)繞揚(yáng)聲器156c。因此,可
以通過求解下列方程而得到掃視權(quán)重
tan 10。
A, — v2, . rl-r
'v,2. + v,2. =1
tan 40° v,., +v2,, v
在經(jīng)過一些數(shù)學(xué)計(jì)算之后,將得到解 = 0.8374; 、,, = 0.5466
因此,根據(jù)上列的所述指示,得到與位于方向Oli的特定音頻對(duì)象 相關(guān)聯(lián)的加權(quán)參數(shù)(矩陣元素)是
wl = w2 = w3 = 0; w4 = 0.8374; w5 = 0.5466
在上述段落中詳細(xì)說明的本發(fā)明實(shí)施例僅使用可以由單聲道信 號(hào)表示的音頻對(duì)象,即,點(diǎn)狀源(point-like source)。然而,靈活的構(gòu) 思并不局限于采用單聲道音頻源的應(yīng)用。反之,被視為空間上"擴(kuò)散 (diffuse)"的一個(gè)或更多個(gè)對(duì)象也可以很好地符合本發(fā)明的構(gòu)思。當(dāng) 要表示非點(diǎn)狀源或音頻對(duì)象時(shí),必須以適當(dāng)?shù)姆绞降玫蕉嗤ǖ绤?shù)。 對(duì)一個(gè)或更多個(gè)音頻對(duì)象之間的擴(kuò)散(diffuseness)的量加以量化的 適當(dāng)量度是關(guān)于對(duì)象的互相關(guān)參數(shù)ICC。
在目前為止所討論的SAOC系統(tǒng)中,認(rèn)為所有的音頻對(duì)象均為點(diǎn) 源,即,沒有任何空間廣度(extent)的、逐對(duì)不相關(guān)的單聲道源(mono source)。然而,也有應(yīng)用情況希望允許包括不止一個(gè)音頻通道在內(nèi)的音頻對(duì)象呈現(xiàn)出一定程度的逐對(duì)(解)相關(guān)。其中最簡(jiǎn)單而且也可能 是最重要的情況是立體聲對(duì)象(即,由屬于一起的兩個(gè)或多或少系相 關(guān)的通道所構(gòu)成的對(duì)象)來(lái)表示的。作為示例,這樣的對(duì)象可以表示
由交響樂團(tuán)所產(chǎn)生的空間圖像(spatial image)。
如上所述,為了平滑地將立體聲對(duì)象整合到基于單聲道音頻對(duì)象 的系統(tǒng)中,將立體聲對(duì)象的兩個(gè)通道都當(dāng)作獨(dú)立的對(duì)象來(lái)處理。由另 外的互相關(guān)參數(shù)來(lái)反映兩個(gè)部分的對(duì)象之間的相互關(guān)系,其中所述另 外的互相關(guān)性參數(shù)是根據(jù)與用于得到子頻帶功率值^的時(shí)間/頻率格
柵(grid)相同的時(shí)間/頻率格柵而計(jì)算出來(lái)的。換言之由每時(shí)間/
頻率片三元參數(shù)集合(a set of parameter triplet) {CT'2, CT,/<1:(:"}來(lái)定 義立體聲對(duì)象,其中/CC^表示在一個(gè)對(duì)象的兩種實(shí)現(xiàn)之間的逐對(duì)相關(guān) 性。這兩種實(shí)現(xiàn)是由具有逐對(duì)相關(guān)性/CG,的獨(dú)立對(duì)象i和j表示。
為了正確地呈現(xiàn)立體聲對(duì)象,SAOC解碼器必須提供用于建立在 參與立體聲對(duì)象呈現(xiàn)的這些回放通道之間的正確相關(guān)性的手段,使所
述立體聲對(duì)象對(duì)于相應(yīng)通道的貢獻(xiàn)表現(xiàn)出如相應(yīng)的/0^,參數(shù)所要求 的相關(guān)性。可以處理多個(gè)立體聲對(duì)象的SAOC至MPEG環(huán)繞代碼轉(zhuǎn)換器 必須得到參與再現(xiàn)相關(guān)回放信號(hào)的OTT盒的ICC參數(shù),使得在MPEG環(huán) 繞解碼器的輸出通道之間的解相關(guān)的量滿足這種條件。
為達(dá)成此目的,與本文獻(xiàn)的先前章節(jié)所給出的示例相比,功率A),, 和A),2以及互功率&的計(jì)算必須改變。假設(shè)一起建立立體聲對(duì)象的兩個(gè) 音頻對(duì)象的所述索引是/,和/2,公式以下列方式改變
<formula>formula see original document page 31</formula>可以很容易觀察到,如果冗(^,2=0 V /^/2
這些方程與在上一節(jié)所給的方程相同。
或否則/CC =1<formula>formula see original document page 31</formula>可以使用立體聲對(duì)象具有明顯的優(yōu)點(diǎn)當(dāng)可以適當(dāng)?shù)靥幚沓它c(diǎn) 狀源以外的音頻源時(shí),可以明顯地提高空間音頻場(chǎng)景的再現(xiàn)品質(zhì)。此 外,當(dāng)可以使用廣泛適用于很多音頻對(duì)象的、預(yù)先混合的音頻信號(hào)時(shí), 可以更高效地執(zhí)行空間音頻場(chǎng)景的產(chǎn)生。
以下考慮還將示出,本發(fā)明的構(gòu)思允許對(duì)具有"固有(inherent)" 擴(kuò)散的點(diǎn)狀源進(jìn)行整合。并非如前述示例中一樣以對(duì)象來(lái)表示點(diǎn)狀源, 而是還可以將一個(gè)或更多個(gè)對(duì)象視為在空間上"擴(kuò)散"。擴(kuò)散的量可以 利用關(guān)于對(duì)象的互相關(guān)性參數(shù)/CCy來(lái)表征。對(duì)于/CG,廣l,對(duì)象/表示 點(diǎn)狀源,而對(duì)于/CC,廣0,對(duì)象最大地?cái)U(kuò)散??梢酝ㄟ^填入正確的/CC,, 值在以上給定的方程中將對(duì)象相關(guān)的擴(kuò)散加以整合。
當(dāng)使用立體聲對(duì)象時(shí),必須對(duì)矩陣M的加權(quán)因子的獲得加以調(diào) 整。然而,可以不用本發(fā)明的技術(shù)來(lái)執(zhí)行調(diào)整,例如關(guān)于操縱立體聲 對(duì)象,將兩個(gè)方位角位置(azimuth position)(表示該立體聲對(duì)象的左 側(cè)以及右側(cè)"邊緣"的方位角值)變換成為呈現(xiàn)矩陣元素。
如同已經(jīng)提到的,無(wú)論所使用的音頻對(duì)象類型是什么,通常針對(duì) 不同的時(shí)間/頻率片獨(dú)立地定義呈現(xiàn)矩陣元素,并且呈現(xiàn)矩陣元素通常 彼此不相同。例如,隨時(shí)間的變化可以反映用戶交互,通過所述用戶 交互針對(duì)每個(gè)獨(dú)立對(duì)象的掃視角度和增益值可以隨時(shí)間任意地改變。 隨頻率的變化允許不同的特征影響音頻場(chǎng)景的空間感知性,例如,均 衡(equalization )。
使用多通道參數(shù)轉(zhuǎn)換器實(shí)現(xiàn)本發(fā)明的構(gòu)思允許全新的、在以前不 可行的應(yīng)用。由于一般情況下SAOC的功能性的特點(diǎn)是音頻對(duì)象的高 效編碼和交互式呈現(xiàn),因此需要交互式音頻的許多應(yīng)用可以受益于本 發(fā)明構(gòu)思,S卩,本發(fā)明的多通道參數(shù)轉(zhuǎn)換器、或本發(fā)明的多通道參數(shù) 轉(zhuǎn)換方法的實(shí)現(xiàn)。
例如,全新的交互式電話會(huì)議情況變得可行。目前的電信基礎(chǔ)設(shè) 施(電話、電話會(huì)議等)是單聲道的。目卩,傳統(tǒng)的對(duì)象音頻編碼無(wú)法 實(shí)行,因?yàn)檫@需要針對(duì)要傳輸?shù)拿恳粋€(gè)音頻對(duì)象傳輸一個(gè)基本流。然 而,通過引入具有單個(gè)下混合通道的SAOC可以擴(kuò)展這些傳統(tǒng)傳輸通 道的功能性。配備有SAOC擴(kuò)展(主要具有多通道參數(shù)轉(zhuǎn)換器或本發(fā)器)的電信終端可以獲取(pickup)若干聲源
(對(duì)象)并將它們混合成單個(gè)的單聲道下混合信號(hào),其中,使用現(xiàn)有 的編碼器(例如,語(yǔ)音編碼器)以兼容的方式傳輸所述單個(gè)的單聲道
下混合信號(hào)??梢圆捎秒[式的(hidden)、后向兼容的方式來(lái)運(yùn)送側(cè)信 息(空間音頻對(duì)象參數(shù)或?qū)ο髤?shù))。這樣的先進(jìn)終端產(chǎn)生包括若干音 頻對(duì)象的輸出對(duì)象流,而舊式的終端將再現(xiàn)下混合信號(hào)。反之,舊式 的終端所產(chǎn)生的輸出(即,僅有下混合信號(hào))將被SAOC代碼轉(zhuǎn)換器 視為一單個(gè)音頻對(duì)象。
圖6a說明了原理。在第一電話會(huì)議地點(diǎn)200可以存在A個(gè)對(duì)象(講 話者),而在第二電話會(huì)議地點(diǎn)202可以存在B個(gè)對(duì)象(講話者)。根據(jù) SAOC,可以將對(duì)象參數(shù)與關(guān)聯(lián)的下混合信號(hào)204—起從第一電話會(huì)議 地點(diǎn)200傳輸,而可以將下混合信號(hào)206從第二會(huì)議地點(diǎn)202傳輸至第一 會(huì)議地點(diǎn)200,關(guān)聯(lián)有針對(duì)第二會(huì)議地點(diǎn)202處B個(gè)對(duì)象當(dāng)中每一個(gè)對(duì) 象的音頻對(duì)象參數(shù)。這具有極大的優(yōu)點(diǎn)可以僅使用一單個(gè)下混合信 號(hào)來(lái)傳輸多個(gè)講話者的輸出,此外,由于結(jié)合下混合信號(hào)來(lái)傳輸與獨(dú) 立的講話者相關(guān)聯(lián)的另外的音頻對(duì)象參數(shù),因而可以在接收地點(diǎn)強(qiáng)調(diào) 另外的講話者。
例如,這允許用戶通過應(yīng)用關(guān)于對(duì)象的增益值g,來(lái)強(qiáng)調(diào)感興趣的 特定講話者,從而使得幾乎聽不見其余的講話者。當(dāng)使用傳統(tǒng)的多通 道音頻技術(shù)時(shí)這是不可能的,因?yàn)檫@些技術(shù)將嘗試盡可能自然地再現(xiàn) 原始空間音頻場(chǎng)景,而不可能允許用戶交互以強(qiáng)調(diào)所選擇的音頻對(duì)象。
圖6b說明了更復(fù)雜的情況,其中在三個(gè)電話會(huì)議地點(diǎn)200、 202以 及208當(dāng)中進(jìn)行電話會(huì)議。由于每一個(gè)地點(diǎn)僅可以接收和發(fā)送一個(gè)音頻 對(duì)象,所以基礎(chǔ)設(shè)施使用所謂的多點(diǎn)控制單元(multi-point control unit) MCU 210。每一個(gè)地點(diǎn)200、 202和208連接至MCU 210。從每一個(gè)地 點(diǎn)至MCU 210,單個(gè)上行流(upstream)包括來(lái)自于該地點(diǎn)的信號(hào)。 每一個(gè)地點(diǎn)的下行流(upstream)是所有其它地點(diǎn)的信號(hào)的混合,可 能不包括該地點(diǎn)本身的信號(hào)(所謂的"N-1信號(hào)")。
根據(jù)先前所討論的構(gòu)思以及本發(fā)明的參數(shù)代碼轉(zhuǎn)換器,SAOC比 特流格式支持以計(jì)算上高效的方式(即,不需要在先完全重構(gòu)發(fā)送地點(diǎn)的空間音頻場(chǎng)景的方式)將兩個(gè)或者更多個(gè)對(duì)象流(即,具有下混 合通道以及關(guān)聯(lián)的音頻對(duì)象參數(shù)的兩個(gè)流)組合成單個(gè)流的能力。根 據(jù)本發(fā)明,支持這樣的組合,而不用將對(duì)象解碼/重新編碼。在使用低
延遲MPEG通訊編碼器(例如低延遲AAC)時(shí),這樣的空間音頻對(duì)象 編碼情況尤其吸引人。
本發(fā)明構(gòu)思的另一感興趣的領(lǐng)域是針對(duì)游戲(gaming)或類似應(yīng) 用的交互式音頻。由于其低計(jì)算復(fù)雜度并且獨(dú)立于特定的呈現(xiàn)設(shè)置, SAOC理想地適于表示交互式音頻的聲音,例如游戲應(yīng)用。此外,還 可以根據(jù)輸出終端的能力來(lái)呈現(xiàn)音頻。作為一個(gè)實(shí)例,用戶/玩家可以 直接影響當(dāng)前音頻場(chǎng)景的呈現(xiàn)/混合。通過調(diào)整呈現(xiàn)參數(shù)來(lái)反映虛擬場(chǎng) 景中的四處移動(dòng)(moving around)。使用靈活的SAOC序列/比特流集 合,使得可以再現(xiàn)由用戶交互控制的非線性游戲故事(gamestory)。
根據(jù)本發(fā)明的另一實(shí)施例,本發(fā)明的SAOC編碼應(yīng)用于多人游戲 中,其中用戶與相同虛擬世界/場(chǎng)景中的其它玩家進(jìn)行交互。對(duì)于每一 個(gè)用戶,視頻和音頻場(chǎng)景依賴于該用戶在該虛擬世界中的位置和方位, 并且據(jù)此在該用戶的本地終端上呈現(xiàn)所述視頻和音頻場(chǎng)景。在使用共 同的游戲服務(wù)器的不同的玩家之間交換一般游戲參數(shù)和特定用戶數(shù)據(jù) (位置、獨(dú)立的音頻、聊天等)。利用舊式的技術(shù),必須對(duì)游戲場(chǎng)景中 在每一個(gè)客戶游戲設(shè)備上默認(rèn)不可用的每個(gè)獨(dú)立音頻源(具體地,用 戶聊天、特殊音效)進(jìn)行編碼并作為獨(dú)立的音頻流發(fā)送至游戲場(chǎng)景的 每一個(gè)玩家。使用SAOC,可以在游戲服務(wù)器上容易地構(gòu)成/組合針對(duì) 每一個(gè)玩家的有關(guān)音頻流,將其作為單個(gè)音頻流傳輸至該玩家(包括 所有有關(guān)的對(duì)象),并呈現(xiàn)在每一個(gè)音頻對(duì)象(=其他游戲玩家的音頻) 的正確空間位置上。
根據(jù)本發(fā)明的另 一 實(shí)施例,SAOC用于回放對(duì)象聲跡 (soundtrack),其中,利用根據(jù)收聽者的喜好來(lái)調(diào)整儀器(instrument) 的相對(duì)電平、空間位置以及可聽度(audibility)的可能性,使用與多 通道混合臺(tái)(mixing desk)相類似的方式來(lái)進(jìn)行控制。這樣,用戶可 以
*抑制/衰減用于共同播放(play along)的特定儀器(卡拉OK類型的應(yīng)用)
* 修改原始混合,以反映用戶的偏好(例如,對(duì)于舞會(huì) 而言較大的鼓聲和較小的弦樂,或?qū)τ诜潘傻囊魳范暂^小的 鼓聲和較大的歌唱聲)
* 根據(jù)用戶的偏好,在不同的歌唱聲軌(vocal track)
之間進(jìn)行選擇(女性主唱經(jīng)由男性主唱) 如同已將在上述的實(shí)例中所顯示的,本發(fā)明構(gòu)思的應(yīng)用開啟了多 種多樣新的、原本并不適用的應(yīng)用領(lǐng)域。當(dāng)使用圖7的本發(fā)明多通道參 數(shù)轉(zhuǎn)換器時(shí),或當(dāng)實(shí)現(xiàn)如圖8所示產(chǎn)生相干性參數(shù)(指示在第一音頻信 號(hào)與第二音頻信號(hào)之間的相關(guān)性)和電平參數(shù)時(shí)的方法時(shí),這些應(yīng)用 變成可能。
第7圖示出了本發(fā)明的另一實(shí)施例。多通道參數(shù)轉(zhuǎn)換器300包括對(duì) 象參數(shù)提供器302,所述對(duì)象參數(shù)提供器302用以提供與下混合通道相 關(guān)聯(lián)的至少一個(gè)音頻對(duì)象的對(duì)象參數(shù),所述下混合通道的是使用與該 音頻對(duì)象相關(guān)聯(lián)的對(duì)象音頻信號(hào)產(chǎn)生的。多通道參數(shù)轉(zhuǎn)換器300還包括 參數(shù)產(chǎn)生器304,所述參數(shù)產(chǎn)生器304用以得到相干性參數(shù)和電平參數(shù), 所述相干性參數(shù)指示與多通道揚(yáng)聲器配置相關(guān)聯(lián)的多通道音頻信號(hào)表 示的第一音頻信號(hào)與第二音頻信號(hào)之間的相關(guān)性,所述電平參數(shù)指示 音頻信號(hào)之間的能量關(guān)系。使用對(duì)象參數(shù)和另外的揚(yáng)聲器參數(shù)來(lái)產(chǎn)生 多通道參數(shù),所述揚(yáng)聲器參數(shù)指示要用于回放的多通道揚(yáng)聲器配置的 揚(yáng)聲器位置。
圖8示出了本發(fā)明的方法的實(shí)現(xiàn)示例,本發(fā)明的方法用以產(chǎn)生相 干性參數(shù),所述相干性參數(shù)指示與多通道揚(yáng)聲器配置相關(guān)聯(lián)的多通道 音頻信號(hào)表示的第一音頻信號(hào)與第二音頻信號(hào)之間的相關(guān)性;以及用 以產(chǎn)生電平參數(shù),所述電平參數(shù)指示音頻信號(hào)之間的能量關(guān)系。在提 供步驟310中,提供與下混合通道相關(guān)聯(lián)的至少一個(gè)音頻對(duì)象的對(duì)象參 數(shù),所述下混合通道是使用與該音頻對(duì)象相關(guān)聯(lián)的對(duì)象音頻信號(hào)產(chǎn)生 的,所述對(duì)象參數(shù)系包括指示音頻對(duì)象的位置的方向參數(shù),以及指 示對(duì)象音頻信號(hào)的能量的能量參數(shù)。
在轉(zhuǎn)換步驟312中,將方向參數(shù)和該能量參數(shù)與另外的揚(yáng)聲器參數(shù)相組合,得到相干性參數(shù)和電平參數(shù),所述揚(yáng)聲器參數(shù)指示要用于 回放的多通道揚(yáng)聲器配置的揚(yáng)聲器的位置。
其他實(shí)施例包括對(duì)象參數(shù)轉(zhuǎn)換器,所述對(duì)象參數(shù)轉(zhuǎn)換器用以產(chǎn)生 相干性參數(shù),所述相干性參數(shù)指示與多通道揚(yáng)聲器配置相關(guān)聯(lián)的多通
道音頻信號(hào)表示的兩個(gè)音頻信號(hào)之間的相關(guān)性;以及用以產(chǎn)生電平參
數(shù),所述電平參數(shù)根據(jù)空間音頻對(duì)象編碼比特流指示兩個(gè)音頻信號(hào)之
間的能量關(guān)系。該設(shè)備包括比特流分解器,用以從空間音頻對(duì)象編 碼比特流中提取下混合通道以及與關(guān)聯(lián)的對(duì)象參數(shù);以及如述的多通
道參數(shù)轉(zhuǎn)換器。
可選地或此外,對(duì)象參數(shù)代碼轉(zhuǎn)換器包括多通道比特流產(chǎn)生器, 用以將下混合通道、相干性參數(shù)以及電平參數(shù)相組合,以得到多通道 信號(hào)的多通道表示;或輸出接口,用于直接輸出電平參數(shù)和相干性參
數(shù),而不進(jìn)行任何量化和/或熵編碼。
另一對(duì)象與該參數(shù)代碼轉(zhuǎn)換器具有輸出接口,還可以用于與相
干性參數(shù)和電平參數(shù)相結(jié)合輸出下混合通道;或者具有儲(chǔ)存接口,連
接至輸出接口,用以將電平參數(shù)和相干性參數(shù)存儲(chǔ)在儲(chǔ)存介質(zhì)上。 此外,該對(duì)象參數(shù)代碼轉(zhuǎn)換器具有如前述的多通道參數(shù)轉(zhuǎn)換器,
用于針對(duì)表示多通道揚(yáng)聲器配置的不同揚(yáng)聲器的不同音頻信號(hào)對(duì)得到
多個(gè)相干性參數(shù)和電平參數(shù)對(duì)。
根據(jù)本發(fā)明方法的特定實(shí)現(xiàn)需求,可以在硬件或軟件中實(shí)現(xiàn)本發(fā)
明的方法??梢允褂脭?shù)字儲(chǔ)存介質(zhì)來(lái)執(zhí)行該實(shí)現(xiàn),所述數(shù)字儲(chǔ)存介質(zhì)
具體是指其上存儲(chǔ)有電可讀控制信號(hào)的光盤、DVD或者CD,這些電 可讀控制信號(hào)與可編程計(jì)算機(jī)系統(tǒng)協(xié)作以便執(zhí)行本發(fā)明的方法。通常, 本發(fā)明從而是具有存儲(chǔ)在機(jī)器可讀載體(carrier)上的程序代碼的計(jì) 算機(jī)程序產(chǎn)品;所述程序代碼用于當(dāng)計(jì)算機(jī)程序產(chǎn)品在計(jì)算機(jī)上運(yùn)行 時(shí)執(zhí)行本發(fā)明方法。換言之,本發(fā)明方法因此是具有程序代碼的計(jì)算 機(jī)程序,所述程序代碼用于當(dāng)計(jì)算機(jī)程序在計(jì)算機(jī)上運(yùn)行時(shí)執(zhí)行本發(fā) 明方法當(dāng)中的至少一種方法。
雖然前面參考本發(fā)明的具體實(shí)施例具體示出和描述了本發(fā)明,然 而本領(lǐng)域技術(shù)人員將理解,在不脫離本發(fā)明的精神和范圍的前提下,可以進(jìn)行形式和細(xì)節(jié)上的各種其他改變。應(yīng)理解,在不脫離此處公開 的并由以下權(quán)利要求所包含的更寬構(gòu)思的前提下,可以進(jìn)行各種改變 以適應(yīng)不同的實(shí)施例。
權(quán)利要求
1、一種用于產(chǎn)生電平參數(shù)的多通道參數(shù)轉(zhuǎn)換器,所述電平參數(shù)指示多通道空間音頻信號(hào)表示的第一音頻信號(hào)與第二音頻信號(hào)之間的能量關(guān)系,該多通道參數(shù)轉(zhuǎn)換器包括對(duì)象參數(shù)提供器,用于針對(duì)與下混通道相關(guān)聯(lián)的多個(gè)音頻對(duì)象,根據(jù)與所述音頻對(duì)象相關(guān)聯(lián)的對(duì)象音頻信號(hào),提供對(duì)象參數(shù),所述對(duì)象參數(shù)包括針對(duì)每一個(gè)音頻對(duì)象的能量參數(shù),所述能量參數(shù)指示對(duì)象音頻信號(hào)的能量信息;以及參數(shù)產(chǎn)生器,用于通過將能量參數(shù)以及與呈現(xiàn)配置有關(guān)的對(duì)象呈現(xiàn)參數(shù)相組合來(lái)得到電平參數(shù)。
2. 根據(jù)權(quán)利要求1所述的多通道參數(shù)轉(zhuǎn)換器,適于另外產(chǎn)生相干性 參數(shù),所述相干性參數(shù)指示多通道音頻信號(hào)表示的第一音頻信號(hào)與第 二音頻信號(hào)之間的相關(guān)性,其中所述參數(shù)產(chǎn)生器適于根據(jù)對(duì)象呈現(xiàn)參 數(shù)以及能量參數(shù)來(lái)得到相干性參數(shù)。
3. 根據(jù)權(quán)利要求1所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述對(duì)象呈現(xiàn) 參數(shù)系依賴于指示音頻對(duì)象位置的對(duì)象位置參數(shù)。
4. 根據(jù)權(quán)利要求1所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述呈現(xiàn)配置 包括多通道揚(yáng)聲器配置,所述對(duì)象呈現(xiàn)參數(shù)依賴于指示多通道揚(yáng)聲器 配置的揚(yáng)聲器位置的揚(yáng)聲器參數(shù)。
5. 根據(jù)權(quán)利要求1所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述對(duì)象參數(shù) 提供器用于提供另外包括方向參數(shù)的對(duì)象參數(shù),所述方向參數(shù)指示相 對(duì)于收聽地點(diǎn)的對(duì)象位置;以及所述參數(shù)產(chǎn)生器用于根據(jù)揚(yáng)聲器參數(shù)以及根據(jù)方向參數(shù)來(lái)使用 對(duì)象呈現(xiàn)參數(shù),所述揚(yáng)聲器參數(shù)指示相對(duì)于收聽地點(diǎn)的揚(yáng)聲器位置。
6. 根據(jù)權(quán)利要求1所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述對(duì)象參數(shù) 提供器用于接收用戶輸入對(duì)象參數(shù),所述用戶輸入對(duì)象參數(shù)另外包括 對(duì)揚(yáng)聲器配置內(nèi)相對(duì)于收聽地點(diǎn)的用戶所選對(duì)象位置加以指示的方向 參數(shù);以及所述參數(shù)產(chǎn)生器用于根據(jù)揚(yáng)聲器參數(shù)以及根據(jù)方向參數(shù)來(lái)使用對(duì)象呈現(xiàn)參數(shù),所述揚(yáng)聲器參數(shù)指示相對(duì)于收聽地點(diǎn)的揚(yáng)聲器位置。
7. 根據(jù)權(quán)利要求4所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述對(duì)象參數(shù)提供器和所述參數(shù)產(chǎn)生器用于使用指示參考平面內(nèi)角度的方向參數(shù), 所述參考平面包括收聽地點(diǎn),還包括具有由揚(yáng)聲器參數(shù)所指示的位置 的揚(yáng)聲器。
8. 根據(jù)權(quán)利要求1所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn)生 器適于使用第一加權(quán)參數(shù)和第二加權(quán)參數(shù)作為對(duì)象呈現(xiàn)參數(shù),所述第 一加權(quán)參數(shù)和第二加權(quán)參數(shù)指示要分配給多通道揚(yáng)聲器配置的第一揚(yáng) 聲器和第二揚(yáng)聲器的對(duì)象音頻信號(hào)的能量的一部分,所述第一加權(quán)參 數(shù)和第二加權(quán)參數(shù)依賴于對(duì)多通道揚(yáng)聲器配置的揚(yáng)聲器位置加以指示 的揚(yáng)聲器參數(shù),使得當(dāng)揚(yáng)聲器參數(shù)指示第一揚(yáng)聲器和第二揚(yáng)聲器在相 對(duì)于音頻對(duì)象位置具有最小距離的揚(yáng)聲器當(dāng)中時(shí),所述加權(quán)參數(shù)不等 于零。
9. 根據(jù)權(quán)利要求8所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn)生 器適于使用加權(quán)參數(shù),當(dāng)揚(yáng)聲器參數(shù)指示第一揚(yáng)聲器與音頻對(duì)象的位 置之間的距離小于第二揚(yáng)聲器與音頻對(duì)象的位置時(shí),所述加權(quán)參數(shù)指 示針對(duì)第一揚(yáng)聲器的音頻信號(hào)的能量的一部分更大。
10. 根據(jù)權(quán)利要求8所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn)生器包括加權(quán)因子產(chǎn)生器,用于根據(jù)針對(duì)第一揚(yáng)聲器和第二揚(yáng)聲器的揚(yáng)聲 器參數(shù)0,和02,以及根據(jù)音頻對(duì)象的方向參數(shù)a,來(lái)提供第一加權(quán)參 數(shù)w,和第二加權(quán)參數(shù)W2,其中揚(yáng)聲器參數(shù)0,和02以及方向參數(shù)a指示相對(duì)于收聽地點(diǎn)的揚(yáng)聲器和音頻對(duì)象的位置的方向。
11. 根據(jù)權(quán)利要求10所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述加權(quán)因 子產(chǎn)生器用于提供加權(quán)參數(shù)W,和W2,使得滿足以下方程<formula>formula see original document page 3</formula>其中/ 是可選的掃視規(guī)則參數(shù),將^設(shè)置為反映再現(xiàn)系統(tǒng)/空間的空間聲音特性,并將/ 定義為1^^2。
12. 根據(jù)權(quán)利要求10所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述加權(quán)因 子產(chǎn)生器用于通過應(yīng)用與音頻對(duì)象相關(guān)聯(lián)的共同乘法增益值來(lái)對(duì)加權(quán) 參數(shù)進(jìn)行另外的縮放。
13. 根據(jù)權(quán)利要求1所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn)生器用于根據(jù)與第一音頻信號(hào)相關(guān)聯(lián)的第一功率估計(jì)pk,p以及根據(jù)與第二音頻信號(hào)相關(guān)聯(lián)的第二功率估計(jì)Pk,2,得到電平參數(shù)或相干性參數(shù),所述第一音頻信號(hào)供揚(yáng)聲器使用或者是表示一組揚(yáng)聲器信號(hào)的虛 擬信號(hào),所述第二音頻信號(hào)供不同的揚(yáng)聲器使用或者是表示不同組揚(yáng) 聲器信號(hào)的虛擬信號(hào),其中,第一音頻信號(hào)的第一功率估計(jì)pk,,依賴于 與第一音頻信號(hào)相關(guān)聯(lián)的能量參數(shù)和加權(quán)參數(shù),與第二音頻信號(hào)相關(guān)聯(lián)的第二功率估計(jì)Pk,2依賴于與第二音頻信號(hào)相關(guān)聯(lián)的能量參數(shù)和加 權(quán)參數(shù),k是指示由不同的第一信號(hào)和第二信號(hào)組成的多對(duì)當(dāng)中的一對(duì)的整數(shù),所述加權(quán)參數(shù)依賴于對(duì)象呈現(xiàn)參數(shù)。
14. 根據(jù)權(quán)利要求13所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn) 生器用于針對(duì)由不同的第一音頻信號(hào)和第二音頻信號(hào)組成的k個(gè)對(duì)計(jì) 算電平參數(shù)或相干性參數(shù),其中與第一音頻信號(hào)和第二音頻信號(hào)相關(guān) 聯(lián)的第一功率估計(jì)和第二功率估計(jì)Pkj和Pk,2基于以下方程,依賴于能 量參數(shù)^、與第一音頻信號(hào)相關(guān)聯(lián)的加權(quán)參數(shù)w,,,以及與第二音頻信號(hào) 相關(guān)聯(lián)的加權(quán)參數(shù)w^:其中i是指示多個(gè)音頻對(duì)象中的音頻對(duì)象的索引,k是指示由不同的第一信號(hào)和第二信號(hào)組成的多對(duì)中的一對(duì)的整數(shù)。
15.根據(jù)權(quán)利要求14所述的多通道參數(shù)轉(zhuǎn)換器,其中,k等于O,第一音頻信號(hào)是虛擬信號(hào),表示包括左前通道、右前通道、中央通道以及低頻增強(qiáng)通道在內(nèi)的組,第二音頻信號(hào)虛擬信號(hào),表示包括左環(huán)繞通道和右環(huán)繞通道在內(nèi)的組,或k等于l,第一音頻信號(hào)是虛擬信號(hào),表示包括左前通道和右前通 道在內(nèi)的組,第二音頻信號(hào)是虛擬信號(hào),表示包括中央通道和低頻增 強(qiáng)通道在內(nèi)的組,或k等于2,第一音頻信號(hào)是左環(huán)繞通道的揚(yáng)聲器信號(hào),第二音頻信 號(hào)是右環(huán)繞通道的揚(yáng)聲器信號(hào),或k等于3,第一音頻信號(hào)是左前通道的揚(yáng)聲器信號(hào),第二音頻信號(hào) 是右前通道的揚(yáng)聲器信號(hào),或k等于4,第一音頻信號(hào)是中央通道的揚(yáng)聲器信號(hào),第二音頻信號(hào)是低頻增強(qiáng)通道的揚(yáng)聲器信號(hào),以及通過將與第一音頻信號(hào)或第二音頻信號(hào)所表示的通道相關(guān)聯(lián)的 對(duì)象呈現(xiàn)參數(shù)相組合,得到第一音頻信號(hào)或第二音頻信號(hào)的加權(quán)參數(shù)。
16. 根據(jù)權(quán)利要求14所述的多通道參數(shù)轉(zhuǎn)換器,其中,k等于0,第一音頻信號(hào)是虛擬信號(hào),表示包括左前通道、左環(huán)繞 通道、右前通道以及右環(huán)繞通道在內(nèi)的組,第二通道是虛擬信號(hào),表 示包括中央通道和低頻增強(qiáng)通道在內(nèi)的組,或k等于l,第一音頻信號(hào)是虛擬信號(hào),表示包括左前通道和左環(huán)繞 通道在內(nèi)的組,第二通道是虛擬信號(hào),表示包括右前通道和右環(huán)繞通 道在內(nèi)的組,或者k等于2,第一音頻信號(hào)是中央通道的揚(yáng)聲器信號(hào),第二音頻信號(hào) 是低頻增強(qiáng)通道的揚(yáng)聲器信號(hào),或k等于3,第一音頻信號(hào)是左前通道的揚(yáng)聲器信號(hào),第二音頻信號(hào) 是左環(huán)繞通道的揚(yáng)聲器信號(hào),或k等于4,第一音頻信號(hào)是右前通道的揚(yáng)聲器信號(hào),第二音頻信號(hào) 是右環(huán)繞通道的揚(yáng)聲器信號(hào),以及通過將與第一音頻信號(hào)或第二音頻信號(hào)所表示的通道相關(guān)聯(lián)的 對(duì)象呈現(xiàn)參數(shù)相組合,得到第一音頻信號(hào)或第二音頻信號(hào)的加權(quán)參數(shù)。
17. 根據(jù)權(quán)利要求13所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn) 生器適于根據(jù)以下方程得到電平參數(shù)CLDk:<formula>formula see original document page 6</formula>
18. 根據(jù)權(quán)利要求13所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn) 生器適于根據(jù)與第一音頻信號(hào)和第二音頻信號(hào)相關(guān)聯(lián)的互功率估計(jì)Rk 得到相干性參數(shù),所述互功率估計(jì)Rk依賴于能量參數(shù)《、與第一音頻信號(hào)相關(guān)聯(lián)的加權(quán)參數(shù)W,以及與第二音頻信號(hào)相關(guān)聯(lián)的加權(quán)參數(shù)W2,其中i是指示多個(gè)音頻對(duì)象中的音頻對(duì)象的索引。
19. 根據(jù)權(quán)利要求18所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn)生器適于根據(jù)以下方程使用或得到互功率估計(jì)Rk:
20. 根據(jù)權(quán)利要求18所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn) 生器用于根據(jù)以下方程得到相干性參數(shù)ICC:凡
21. 根據(jù)權(quán)利要求1所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)提 供器用于針對(duì)每一個(gè)音頻對(duì)象以及針對(duì)每一個(gè)或多個(gè)頻帶,提供能量 參數(shù),以及所述參數(shù)產(chǎn)生器用于計(jì)算針對(duì)每一個(gè)頻帶的電平參數(shù)或相干性 參數(shù)。
22. 根據(jù)權(quán)利要求1所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn) 生器用于針對(duì)對(duì)象音頻信號(hào)的不同時(shí)間部分使用不同的對(duì)象呈現(xiàn)參 數(shù)。
23. 根據(jù)權(quán)利要求8所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述加權(quán)因 子產(chǎn)生器用于基于以下方程,根據(jù)對(duì)象方向參數(shù)a,和揚(yáng)聲器參數(shù)0r,針對(duì)每一個(gè)音頻對(duì)象i得到第r個(gè)揚(yáng)聲器的加權(quán)因子w,i: 對(duì)于索引s',其中l(wèi)《s、M,<formula>formula see original document page 7</formula> ;所述參數(shù)產(chǎn)生器用于通過另外使用第二能:o,其它
24. 根據(jù)權(quán)利要求8所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述對(duì)象參數(shù)提供器適于提供立體聲對(duì)象的參數(shù),所述立體聲對(duì)象具有第一立體聲子對(duì)象和第二立體聲子對(duì)象,所述能量參數(shù)具有針對(duì)立體聲音頻對(duì)象的第一子對(duì)象的第一能量參數(shù)、針對(duì)立體聲音頻對(duì)象的第二子對(duì)象的第二能量參數(shù)、以及立體聲相關(guān)性參數(shù),所述立體聲相關(guān)性參數(shù)指示立體聲對(duì)象的子對(duì)象之間的相關(guān)性;以及:參數(shù)和立體聲相關(guān)性參數(shù)來(lái)得到相干性參數(shù)或電平參數(shù)。
25. 根據(jù)權(quán)利要求24所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn)生器用于使用第一能量參數(shù)^、第二能量參數(shù)^以及立體聲相關(guān)性參數(shù)ICCi,j,根據(jù)與第一音頻信號(hào)相關(guān)聯(lián)的功率估計(jì)P。.1、與第二音頻信號(hào)相關(guān)聯(lián)的功率估計(jì)P"以及互功率相關(guān)性K。,得到電平參數(shù)和相干性參數(shù),使得功率估計(jì)以及互相關(guān)性估計(jì)的特征在于以下方程-<formula>formula see original document page 7</formula>
26.—種產(chǎn)生電平參數(shù)的方法,所述電平參數(shù)指示多通道空間音頻信號(hào)表示的第一音頻信號(hào)與第二音頻信號(hào)之間的能量關(guān)系,該方法包括針對(duì)與下混通道相關(guān)聯(lián)的多個(gè)音頻對(duì)象,根據(jù)與所述音頻對(duì)象相關(guān)聯(lián)的對(duì)象音頻信號(hào),提供對(duì)象參數(shù),所述對(duì)象參數(shù)包括針對(duì)每一個(gè)音頻對(duì)象的能量參數(shù),所述能量參數(shù)指示對(duì)象音頻信號(hào)的能量信息;以及通過將能量參數(shù)以及與呈現(xiàn)配置有關(guān)的對(duì)象呈現(xiàn)參數(shù)相組合,得到電平參數(shù)。
27.—種具有程序代碼的計(jì)算機(jī)程序,所述程序代碼用于在計(jì)算機(jī)上運(yùn)行所述計(jì)算機(jī)程序時(shí)執(zhí)行一種產(chǎn)生電平參數(shù)的方法,所述電平參數(shù)指示多通道空間音頻信號(hào)表示的第一音頻信號(hào)與第二音頻信號(hào)之間的能量關(guān)系,所述方法包括針對(duì)與下混通道相關(guān)聯(lián)的多個(gè)音頻對(duì)象,根據(jù)與所述音頻對(duì)象相關(guān)聯(lián)的對(duì)象音頻信號(hào),提供對(duì)象參數(shù),所述對(duì)象參數(shù)包括針對(duì)每一個(gè)音頻對(duì)象的能量參數(shù),所述能量參數(shù)指示對(duì)象音頻信號(hào)的能量信息;以及通過將能量參數(shù)以及與呈現(xiàn)配置有關(guān)的對(duì)象呈現(xiàn)參數(shù)相組合,得到電平參數(shù)。
全文摘要
一種產(chǎn)生電平參數(shù)的參數(shù)轉(zhuǎn)換器,所述電平參數(shù)指示與多通道揚(yáng)聲器配置相關(guān)聯(lián)的多通道音頻信號(hào)的第一音頻通道與第二音頻通道之間的能量關(guān)系。根據(jù)與下混合通道相關(guān)聯(lián)的音頻對(duì)象的對(duì)象參數(shù)產(chǎn)生電平參數(shù),所述下混合通道是使用與音頻對(duì)象相關(guān)聯(lián)的對(duì)象音頻信號(hào)來(lái)產(chǎn)生的。對(duì)象參數(shù)包括指示對(duì)象音頻信號(hào)的能量的能量參數(shù)。為得到相干性參數(shù)和電平參數(shù),使用參數(shù)產(chǎn)生器,所述參數(shù)產(chǎn)生器將能量參數(shù)以及依賴于期望呈現(xiàn)配置的對(duì)象呈現(xiàn)參數(shù)相組合。
文檔編號(hào)G10L19/14GK101529504SQ200780038472
公開日2009年9月9日 申請(qǐng)日期2007年10月5日 優(yōu)先權(quán)日2006年10月16日
發(fā)明者于爾根·赫勒, 克里斯托弗·薛林, 卡斯滕·林茨邁爾, 安德烈亞斯·赫爾蒂, 拉爾夫·施佩爾施奈德, 拉斯·維爾默斯, 海斯·朋哈根, 約納斯·恩德加德, 約翰內(nèi)斯·希爾珀特, 維爾納·烏姆恩, 耶羅恩·布里巴特 申請(qǐng)人:弗勞恩霍夫應(yīng)用研究促進(jìn)協(xié)會(huì);杜比瑞典公司;皇家飛利浦電子股份有限公司