多聲道聲音信號編碼方法、解碼方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及音頻處理技術領域,尤其涉及多聲道聲音信號編碼方法、解碼方法及 裝置。
【背景技術】
[0002] 隨著科技的發(fā)展,出現(xiàn)了多種對聲音信號的編碼技術,上述聲音通常指的是語音、 音樂、自然聲音和人工合成聲音等人耳可感知的信號在內的數(shù)字聲音。目前,很多聲音編碼 技術已經成為工業(yè)標準被大量應用,融入人們的日常生活中,常用的聲音編碼技術有杜比 實驗室的AC-3、數(shù)字影院系統(tǒng)公司的DTS、移動圖像專家組(MPEG)組織的MP3和AAC、微軟 公司的WMA,以及索尼公司的ATRAC。
[0003] 為了重現(xiàn)立體聲的聲音效果,現(xiàn)在多采用多個聲道將多聲道聲音信號播放給用 戶,多聲道聲音信號的編碼方法也從以AC-3和MP3為代表的和差立體聲(M/SStereo) 和強度立體聲(IntensityStereo)等波形編碼技術,演進到以MP3Pro、ITUEAAC+、 MPEGSurround、DolbyDD+為代表的參數(shù)立體聲(ParametricStereo)和參數(shù)環(huán)繞聲 (ParametricSurround)技術。PS(包括ParametricStereo和ParametricSurround)從 雙耳心理聲學的角度出發(fā),充分利用雙耳時間/相位差(ITD/IH))、雙耳強度差(IID)、雙耳 相關性(1C)等心理聲學空間特性,實現(xiàn)多聲道聲音信號的參數(shù)編碼。
[0004] PS技術在編碼端一般將多聲道聲音信號下混合(downmix),生成1個和聲道信號, 對和聲道信號采用波形編碼(或者波形和參數(shù)混合編碼,如EAAC+),并將各聲道對應和聲 道信號的ITD/IPD、IID和1C參數(shù)進行參數(shù)編碼。在解碼端,根據(jù)這些參數(shù),從和聲道信號 中恢復多聲道信號。也可以在編碼時,將多聲道信號分組,并在不同的聲道組采用如上的PS 編解碼方法。也可以采用級聯(lián)的方式,將多聲道進行多級的PS編碼。
[0005] 實踐證明,單純的波形編碼(和聲道)和PS編碼技術,雖然可以在較低的碼率下 實現(xiàn)較高的編碼質量;但在較高的碼率下,PS技術卻不能進一步提升信號質量,不適合高 保真的應用場合。其原因在于,PS技術在編碼端只編碼和聲道信號,而丟掉了殘差聲道信 號,導致解碼時不能完全恢復原始信號。為此,MPEGSurround采用殘差信息編碼的方法, 來彌補PS技術的不足。
[0006] 但是,無論是傳統(tǒng)的PS技術還是MPEGSurround技術,都過分依賴了雙耳的心 理聲學特性,而忽略了多聲道聲音信號本身的統(tǒng)計特性。例如,傳統(tǒng)的PS技術和MPEG Surround技術都沒有利用聲道對之間的統(tǒng)計冗余信息。而且,MPEGSurround采用殘差信 息編碼時,和聲道信號和殘差聲道信號間仍然存在統(tǒng)計冗余,從而無法兼顧編碼效率和編 碼信號的質量。
【發(fā)明內容】
[0007] 本發(fā)明提供了一種多聲道聲音信號編碼方法、解碼方法及裝置,目的是為了解決 現(xiàn)有技術的多聲道聲音信號編碼方法中,存在統(tǒng)計冗余,無法兼顧編碼效率和編碼信號的 質量的問題。
[0008] 為實現(xiàn)上述目的,第一方面,本發(fā)明提供了一種多聲道聲音信號編碼方法,該方法 包括:A)采用修正離散余弦變換MDCT或修正離散正弦變換MDST,將第一多聲道聲音信號映 射為第一頻域信號;B)將所述第一頻域信號劃分為不同時頻子帶;C)在所述不同時頻子帶 中的每個時頻子帶內,計算所述第一多聲道聲音信號的第一統(tǒng)計特性;D)根據(jù)所述第一統(tǒng) 計特性,估計主成分分析PCA映射模型;E)采用所述PCA映射模型,將所述第一多聲道聲音 信號映射為第二多聲道聲音信號;F)根據(jù)時間、頻率和聲道的不同,對所述第二多聲道聲 音信號中的至少一組和所述PCA映射模型進行感知編碼,并復用成編碼多聲道碼流。
[0009] 第二方面,本發(fā)明提供了一種多聲道聲音信號編碼裝置,該裝置包括:時頻映射單 元,用于采用MDCT或MDST,將第一多聲道聲音信號映射為第一頻域信號;將所述第一頻域 信號劃分為不同時頻子帶;自適應子空間映射單元,用于在所述時頻映射單元劃分的不同 時頻子帶中的每個時頻子帶內,計算所述第一多聲道聲音信號的第一統(tǒng)計特性;根據(jù)所述 第一統(tǒng)計特性,估計PCA映射模型;采用所述PCA映射模型,將所述第一多聲道聲音信號映 射為第二多聲道聲音信號;感知編碼單元,用于根據(jù)時間、頻率和聲道的不同,對所述自適 應子空間映射單元映射的第二多聲道聲音信號中的至少一組和所述PCA映射模型進行感 知編碼,并復用成編碼多聲道碼流。
[0010] 第三方面,本發(fā)明提供了一種多聲道聲音信號解碼方法,該方法包括:A)對編碼 多聲道碼流進行解碼,獲得第二多聲道聲音信號中的至少一組和PCA映射模型;B)采用所 述PCA映射模型,將所述第二多聲道聲音信號映射回第一多聲道聲音信號;C)采用逆的 MDCT或逆的MDST,將所述第一多聲道聲音信號從頻域映射為時域。
[0011] 第四方面,本發(fā)明提供了一種多聲道聲音信號解碼裝置,該裝置包括:感知解碼單 元,用于對編碼多聲道碼流進行解碼,獲得第二多聲道聲音信號中的至少一組和PCA映射 模型;子空間逆映射單元,用于采用所述感知解碼單元獲得的PCA映射模型,將所述感知解 碼單元獲得的第二多聲道聲音信號映射回第一多聲道聲音信號;頻時映射單元,用于采用 逆的MDCT或逆的MDST,將所述子空間逆映射單元得到的第一多聲道聲音信號從頻域映射 為時域。
[0012] 本發(fā)明實施例的多聲道聲音信號編碼方法中,先采用MDCT或MDST,將第一多聲 道聲音信號映射為第一頻域信號,然后將第一頻域信號劃分為不同時頻子帶,再在每個時 頻子帶內,計算第一多聲道聲音信號的第一統(tǒng)計特性,根據(jù)第一統(tǒng)計特性,估計PCA映射模 型,以及采用該PCA映射模型,將第一多聲道聲音信號映射為第二多聲道聲音信號,根據(jù)時 間、頻率和聲道的不同,對第二多聲道聲音信號中的至少一組和PCA映射模型進行感知編 碼,并復用成編碼多聲道碼流。由上可見,本發(fā)明實施例中,具體采用了MDCT或MDST來進行 時頻映射,并且根據(jù)統(tǒng)計特性估計映射模型時,具體選取了PCA映射模型,由于MDCT或MDST 具有很好的音頻壓縮特性,并且,PCA模型中的映射矩陣矢量間是正交的,可以將多聲道信 號成分集中在盡可能少的聲道上,有利于在較低的碼率下降低編碼信號的維度,因此可以 最大限度的降低聲道間的統(tǒng)計冗余,實現(xiàn)更高的編碼效率的同時,保證編碼信號的質量。
【附圖說明】
[0013] 圖1為本發(fā)明一個實施例中的多聲道聲音信號編碼方法流程圖;
[0014] 圖2為本發(fā)明另一個實施例中的多聲道聲音信號編碼方法流程圖;
[0015] 圖3為本發(fā)明另一個實施例中的多聲道聲音信號編碼方法流程圖;
[0016] 圖4為本發(fā)明另一個實施例中的多聲道聲音信號編碼方法流程圖;
[0017] 圖5為本發(fā)明另一個實施例中的多聲道聲音信號編碼方法流程圖;
[0018] 圖6為本發(fā)明一個實施例中的多聲道聲音信號解碼方法流程圖;
[0019] 圖7為本發(fā)明一個實施例中的多聲道聲音信號編碼裝置結構示意圖;
[0020] 圖8為本發(fā)明一個實施例中的多聲道聲音信號解碼裝置結構示意圖。
【具體實施方式】
[0021] 下面通過附圖和實施例,對本發(fā)明的技術方案做進一步的詳細描述。
[0022] 本發(fā)明實施例中的多聲道聲音信號編碼方法,不同于現(xiàn)有技術中的其他方法, 充分利用了多聲道聲音信號的統(tǒng)計特性和心理聲學特性,在獲得極高的編碼效率的同 時,保證編碼信號的質量,在進行自適應子空間映射時,采用了主成分分析(Principal ComponentAnalysis,PCA)的方法,可以更好的估計和利用聲道間信號的統(tǒng)計特性,并最大 限度的降低聲道間的統(tǒng)計冗余,實現(xiàn)更高的編碼效率。特別地,本發(fā)明實施例針對采用MDCT 或MDST的多聲道聲音編解碼器,在MDCT/MDST域采用PCA映射方法,消除多聲道信號的統(tǒng) 計冗余,將多聲道信號集中在盡可能少的聲道上。
[0023] 圖1為本發(fā)明一個實施例中的多聲道聲音信號編碼方法流程圖,該方法包括:
[0024] 步驟 101,米用修正離散余弦變換(MDCT,ModifiedDiscreteCosineTransform) 或修正離散正弦變換(MDST,ModifiedDiscreteSineTransform),將第一多聲道聲音信號 映射為第一頻域信號。
[0025] 其中,第一多聲道聲音信號的最初表現(xiàn)形式為時域信號u(m,t),通過上述映射處 理,可以得到多聲道頻域信號x(m,k),其中,m為聲道序號,t為幀(或子幀)序號,k為頻 率序號。
[0026] 步驟102,將第一頻域信號劃分為不同時頻子帶。
[0027]本發(fā)明實施例中,若步驟101獲得的第一頻域信號為x(m,k),可以將x(m,k)劃分 為不同的時頻子帶Xl (t,k),其中,m為聲道序號,i是時頻子帶的序號,t為幀(或子幀)序 號,k為頻率序號。
[0028] 其中,在步驟101之前,待編碼的多聲道聲音信號可以先被分成待編碼的幀,再進 行MDCT/MDST變換。如果采用較大的幀長,可能會將一幀數(shù)據(jù)再分解為多個子幀,然后再進 行MDCT/MDST變換。通過MDCT/MDST變換獲得頻域信號后,可以按頻率順序組成多個頻率子 帶;也可以將多個MDCT/MDST獲得的頻域信號,組成二維時間-頻率平面,在此平面進行時 頻區(qū)域劃分,以便獲得待編碼的時頻子帶。進一步,將該時頻區(qū)域在各聲道時頻平面投影, 可以獲得待編碼的時頻子帶Xl(t,k),i是該時頻子帶的序號,t為幀(或子幀)序號。假 設每個時頻子帶是矩形區(qū)域,則時頻子帶Xl (t,k)內的信號范圍為:hi彡t<t1;hi彡k <h,hi和h為該子帶的起始和終止幀(或子幀)序號,hi和h為該子帶的起始和終 止頻率或子帶序號。若時頻子帶總個數(shù)為N,則i<N。方便起見,某時頻子帶的區(qū)域可用 (t,k)表示。需要注意的是,每個時頻子帶均包含各聲道在該時頻區(qū)域投影的信號,當需要 特指某聲道在該時頻區(qū)域的投影時,可用Xl(t,k,m)表示。
[0029] 步驟103,