利用子帶對象概率估計的音頻對象提取的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明總體上涉及音頻內(nèi)容處理,更具體地,涉及用于利用子帶對象概率估計的 音頻對象提取的方法和系統(tǒng)。
【背景技術(shù)】
[0002] 傳統(tǒng)上,音頻內(nèi)容以基于聲道(channelbased)的格式被創(chuàng)建和存儲。在此使用 的術(shù)語"音頻聲道"或"聲道"是只通常具有預(yù)定義物理位置的音頻內(nèi)容。例如,立體聲、環(huán) 繞5. 1、環(huán)繞7. 1等都是用于音頻內(nèi)容的基于聲道的格式。近來,隨著多媒體工業(yè)的發(fā)展, 三維(3D)音頻內(nèi)容在影院和家庭中都變得越來越流行。為了創(chuàng)建更具沉浸感的聲場以及 準(zhǔn)確地控制離散的音頻元素而無需受制于特定的回放揚聲器配置,很多傳統(tǒng)的播放系統(tǒng)需 要被擴展為支持一種新型音頻格式,這種格式包括音頻聲道和音頻對象(audioobject)二 者。
[0003] 在此使用的術(shù)語"音頻對象"是指在聲場中存在特定持續(xù)時間的個體音頻元素。 一個音頻對象可以是動態(tài)的也可以是靜態(tài)的。例如,音頻對象可以是在聲場中充當(dāng)聲源的 人、動物或者任何其他物體??蛇x地,音頻對象還可以具有關(guān)聯(lián)的元數(shù)據(jù),例如用于描述對 象的位置、速度、大小等方面的信息。音頻對象的使用使得音頻內(nèi)容具有很高的沉浸感的聽 覺體驗,并且允許混音師等操作者方便地控制和調(diào)整音頻對象。在傳輸期間,音頻對象和聲 道可以被分開發(fā)送,繼而由重現(xiàn)系統(tǒng)動態(tài)使用,以基于回放揚聲器的配置來自適應(yīng)地重建 創(chuàng)作意圖(artisticintention)。作為示例,在稱為"自適應(yīng)音頻內(nèi)容"(adaptiveaudio content)的格式中,可以存在一個或多個音頻對象以及一個或多個"靜態(tài)環(huán)境聲"(audio bed)。在此使用的術(shù)語"靜態(tài)環(huán)境聲"或簡稱"環(huán)境聲"是指將在預(yù)定義的固定位置被回放 的聲音的音頻聲道。
[0004] -般而言,基于對象的音頻內(nèi)容以明顯不同于基于聲道的傳統(tǒng)音頻內(nèi)容的方式被 生成。盡管基于對象的新型格式允許在音頻對象的輔助下創(chuàng)建更具沉浸感的聽覺體驗,但 是在影音產(chǎn)業(yè)中(例如在聲音的創(chuàng)建、分發(fā)和使用的產(chǎn)業(yè)鏈中)占據(jù)主導(dǎo)地位的仍然是基 于聲道的音頻格式,特別是最后混音的音頻格式。因此,對于傳統(tǒng)基于聲道的音頻內(nèi)容,為 了能夠為終端用戶提供音頻對象所提供的類似沉浸體驗,需要從傳統(tǒng)的基于聲道的內(nèi)容中 提取首頻對象。
【發(fā)明內(nèi)容】
[0005] 為了解決上述問題,本發(fā)明提出一種用于從音頻內(nèi)容中提取音頻對象的方法和系 統(tǒng)。
[0006] 在一個方面,本發(fā)明的實施例提供一種用于從音頻內(nèi)容中提取音頻對象的方法。 該方法包括為所述音頻內(nèi)容的幀中的子帶音頻信號確定子帶對象概率,所述子帶對象概率 指示所述子帶音頻信號包含音頻對象的概率。該方法進一步包括基于確定的子帶對象概 率,將所述子帶音頻信號分割為音頻對象部分和殘余音頻部分。這方面的實施例還包括相 應(yīng)的計算機程序產(chǎn)品。
[0007] 在另一方面,本發(fā)明的實施例提供一種用于從音頻內(nèi)容中提取音頻對象的系統(tǒng)。 該系統(tǒng)包括概率確定單元,被配置成為所述音頻內(nèi)容的幀中的子帶音頻信號確定子帶對象 概率,所述子帶對象概率指示所述子帶音頻信號包含音頻對象的概率。該系統(tǒng)進一步包括 音頻分割單元,被配置成基于確定的子帶對象概率,將所述子帶音頻信號分割為音頻對象 部分和殘余首頻部分。
[0008] 通過下文描述將會理解,根據(jù)本發(fā)明的實施例,子帶音頻信號可以被軟劃分成音 頻對象部分和殘余音頻部分。通過這種方式,由所劃分的音頻對象部分和殘余音頻部分重 新生成的音頻內(nèi)容中的不穩(wěn)定性能夠被更好地抑制。本發(fā)明的實施例所帶來的其他益處將 通過下文描述而清楚。
【附圖說明】
[0009] 通過參考附圖閱讀下文的詳細描述,本發(fā)明實施例的上述以及其他目的、特征和 優(yōu)點將變得易于理解。在附圖中,以示例而非限制性的方式示出了本發(fā)明的若干實施例,其 中:
[0010] 圖1示出了根據(jù)本發(fā)明的一個示例實施例的用于從音頻內(nèi)容中音頻對象提取的 方法的流程圖;
[0011] 圖2示出了根據(jù)本發(fā)明的一個示例實施例的用于音頻對象提取的框圖;
[0012] 圖3示出了根據(jù)本發(fā)明的一個示例實施例的用于子帶對象概率確定的框圖;
[0013] 圖4示意性示出了根據(jù)本發(fā)明的一個示例實施例的子帶的空間位置;
[0014] 圖5示出了根據(jù)本發(fā)明的另一個示例實施例的用于音頻對象提取的方法的流程 圖;
[0015] 圖6示出了根據(jù)本發(fā)明的另一個示例實施例的用于音頻對象提取的框圖;
[0016] 圖7示出了根據(jù)本發(fā)明的一個示例實施例的用于自適應(yīng)音頻內(nèi)容生成的系統(tǒng)的 框圖;
[0017] 圖8示出了根據(jù)本發(fā)明的一個示例實施例的用于音頻對象提取的系統(tǒng)的架構(gòu);以 及
[0018] 圖9示出了適于實現(xiàn)本發(fā)明的示例實施例的計算機系統(tǒng)的框圖。
[0019] 在各個附圖中,相同或?qū)?yīng)的標(biāo)號表7K相同或?qū)?yīng)的部分。
【具體實施方式】
[0020] 下面將參考附圖中示出的若干示例實施例來描述本發(fā)明的原理。應(yīng)當(dāng)理解,描述 這些實施例僅僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進而實現(xiàn)本發(fā)明,而并非以任何 方式限制本發(fā)明的范圍。
[0021] 如上所述,期望從音頻內(nèi)容中提取音頻對象。已開發(fā)的基于聲道分組的方法通常 對多聲道的預(yù)混內(nèi)容和分支良好工作,預(yù)混內(nèi)容和分支通常在一個聲道中僅包含一個音頻 對象。在此使用的術(shù)語"預(yù)混內(nèi)容"是指一種基于聲道的內(nèi)容,它尚未與其他預(yù)混內(nèi)容混 合以形成分支。術(shù)語"分支"是指基于聲道的音頻內(nèi)容,其尚未與其他分支混音以形成最 終的混音。這類內(nèi)容的示例包括對話分支、聲效分支、音樂分支,等等。對于這些類型的 音頻內(nèi)容而言,很少發(fā)生音頻對象在聲道內(nèi)重疊的情況。基于聲道分組的方法適于用在 重創(chuàng)作(reauthoring)或內(nèi)容生成的使用情況,其中預(yù)混內(nèi)容和分支是可用的,并且混音 師能夠進一步操縱音頻對象,諸如編輯、刪除或合并音頻對象,或者修改它們的位置、音軌 (trajectory)或其他元數(shù)據(jù)。然而,上述方法不是專門被設(shè)計用于這樣的情況(并且對此 可能無法良好工作),在該情況中更多復(fù)雜的多聲道最終混音(final-mix)被考慮,并且通 過對象提取,從2D被自動上混音(up-mix)到3D,以創(chuàng)造3D音頻體驗。此外,在多聲道最終 混音中,多個源通常被混合在一個聲道中。因此,被自動提取的對象可以包含多于一個的真 實音頻對象,其可能進一步使得它的位置確定不正確。如果應(yīng)用源分離算法來分離被混合 的源,例如,從音頻內(nèi)容中提取單獨的音頻對象,所提取的音頻對象可能具有聽得見的人為 噪音(artifact),造成不穩(wěn)定的問題。
[0022] 為了解決上述以及其他潛在的問題,本發(fā)明的實施例提供了一種用于以軟方式來 提取音頻對象的方法和系統(tǒng)。分析音頻的每個幀的每個子帶(即,每個頻時分片),并且 將其軟分配成音頻對象部分和靜態(tài)環(huán)境音(殘余音頻)部分。相較于硬判決的方案,其中 一個頻時分片在當(dāng)前幀中被提取為音頻對象而在下一幀中被提取為殘余音頻,或則反之亦 然,造成在該轉(zhuǎn)換點處聽得見的切換人為噪音,本發(fā)明的軟判決方案能夠最小化切換人為 噪音。
[0023] 首先參考圖1,其示出了根據(jù)本發(fā)明的一個示例實施例的用于從音頻內(nèi)容中提取 音頻對象的方法1〇〇的流程圖。輸入音頻內(nèi)容可以具有基于多個聲道的格式或者基于單個 聲道的格式。例如,輸入音頻內(nèi)容可以遵循立體聲、環(huán)繞5. 1、環(huán)繞7. 1等格式。在某些實施 例中,音頻內(nèi)容可以被表不為頻域信號。備選地,音頻內(nèi)容可以作為時域信號而被輸入。例 如,在時域音頻信號被輸入的某些實施例中,可能需要執(zhí)行某些預(yù)先處理以獲得對應(yīng)的頻 率信號。
[0024] 在步驟S101,為音頻內(nèi)容的幀中的子帶音頻信號確定子帶對象概率。子帶對象概 率指示子帶音頻信號包含音頻對象的概率。
[0025] -個幀是音頻內(nèi)容的處理單元,并且一個幀的持續(xù)時間可以是變化的并且可以取 決于音頻處理系統(tǒng)的配置。在一些實施例中,使用諸如共軛正交鏡像濾波器組(CQMF)、快速 傅里葉變換(FFT)等時頻轉(zhuǎn)換,來將音頻內(nèi)容的幀被轉(zhuǎn)換成多個濾波頻帶信號。對于一個 幀,它的全頻率范圍可以被劃分成多個頻率子帶,每個頻率子帶占有預(yù)定義的頻率范圍。例 如,對于具有從0Hz到24kHz的頻率范圍的幀,一個子帶可以占有400Hz的頻率。在本發(fā)明 的實施例中,多個子帶可以具有相同長度或不同長度的頻率范圍。本發(fā)明的實施例在此方 面不受限制。
[0026] 將全頻帶劃分成多個頻率子帶是基于這樣的觀察的,當(dāng)不同音頻對象在聲道內(nèi)重 疊時,由于所熟知的大多數(shù)音頻信號的稀疏特性,這些不同音頻對象不可能在所有子帶中 重疊,并且因此每次假設(shè)每個子帶包含一個主要源是更合理的。因此,能夠?qū)ψ訋б纛l信號 執(zhí)行以下音頻對象提取處理。
[0027] 對于傳統(tǒng)格式的音頻內(nèi)容,諸如最終混音的多聲道音頻,將每個子帶音頻信號直 接提取為音頻對象可能會引入一些聽得到的人為噪音,特別是在一些"不好"的情況中,例 如,當(dāng)子帶僅包含一個主要源的稀疏性假設(shè)不被滿足的情況;或者當(dāng)從創(chuàng)作的角度來看一 些子帶不適于被提取為音頻對象的情況;或者一些子帶在被提取為對象之后難以被渲染器 (render)渲染到特定位置的情況。在一些情況下,稀疏性假設(shè)可能不被滿足,因為多個源 (來自不同空間位置的環(huán)境音和/或?qū)ο螅┛赡茉诓煌訋е幸圆煌壤换旌显谝黄稹?一個示例情況是兩個不同的對象,一個在左聲道而另一個在右聲道,被混合在一個子帶中。 在這種情況下,如果子帶被提取為音頻對象,兩個不同的對象將被處理為一個對象并且被 渲染到中央聲道,這將引入聽得見的人為噪音。
[0028] 因此,為了從輸入音頻內(nèi)容中提取子帶對象而不引入聽得見的人為噪音,在本發(fā) 明的實施例中提出了子帶對象概率來指示子帶是否適合于被提取為音頻對象。更具體地, 子帶對象概率是為了避免在以上討論的"不好"的情況下取在子帶中提音頻對象。因此,在 該步驟中分析每個子帶音頻信號并且確定子帶對象概率?;诖_定的子帶對象概率,子帶 音頻信號將以軟方式被分配為音頻對象部分和殘余音頻部分。
[0029] 對于每種"不好"情況的對象提取,可能有一個或多個因素/線索與之相關(guān)聯(lián)。例 如,當(dāng)兩個不同對象存在于一個子帶中時,該子帶的聲道相關(guān)性將變低。因此,在本發(fā)明的 一些實施例中,在子帶對象概率確定時,若干因素,例如子帶的空間位置、聲道相關(guān)性、平移 規(guī)則和/或子帶的頻率范圍,可以被單獨地或結(jié)合地考慮,這在以下將被更詳細地描述。
[0030] 在S102,基于確定的子帶對象概率,將子帶音頻信號分割為音頻對象部分和殘余 音頻部分。在該步驟中,子帶音頻信號可以不被確切地確定為音頻對象或靜態(tài)環(huán)境音,而是 可以基于子帶對象概率以軟方式被分割為音頻對象部分和殘余音頻/靜態(tài)環(huán)境音部分。在 本發(fā)明的實施例中,一個音頻對象部分可以不確切地包含一個所謂的音頻對象,諸如人聲、 動物聲或雷聲,而是包含可以被視為音頻對象的子帶音頻信號的一部分。在一些實施例中, 在自適應(yīng)音頻內(nèi)容處理中,音頻對象部分然后可以被渲染以估計空間位置,而殘余音頻對 象然后可以被渲染成環(huán)境音聲道。
[0031] 軟的音頻對象提取的優(yōu)勢之一在于避免了音頻對象渲染和由硬判決引起的基于 聲道的渲染之間的切換人為噪聲(artifact)以及音頻不穩(wěn)定性。例如,利用硬判決方案, 如果一個子帶在當(dāng)前幀被提取為音頻對象,而在下一幀被提取為靜態(tài)環(huán)境音,或者反之,那 么在該變換點處切換人為噪聲可能是可聽見的。然而,利用本發(fā)明的軟判決方案,子帶的一 部分被提取為對象,而子帶的另一部分被保留在靜態(tài)環(huán)境音中,切換人為噪聲可以被最小 化。
[0032] 在圖1所示的處理中,一個子帶音頻信號被軟分割為音頻對象部分和殘余音頻部 分。輸入音頻內(nèi)容的一個幀在頻域中