多聲道聲音信號(hào)編碼方法、解碼方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及音頻處理技術(shù)領(lǐng)域,尤其涉及多聲道聲音信號(hào)編碼方法、解碼方法及 裝置。
【背景技術(shù)】
[0002] 隨著科技的發(fā)展,出現(xiàn)了多種對(duì)聲音信號(hào)的編碼技術(shù),上述聲音通常指的是語(yǔ)音、 音樂(lè)、自然聲音和人工合成聲音等人耳可感知的信號(hào)在內(nèi)的數(shù)字聲音。目前,很多聲音編碼 技術(shù)已經(jīng)成為工業(yè)標(biāo)準(zhǔn)被大量應(yīng)用,融入人們的日常生活中,常用的聲音編碼技術(shù)有杜比 實(shí)驗(yàn)室的AC-3、數(shù)字影院系統(tǒng)公司的DTS、移動(dòng)圖象專家組(MPEG)組織的MP3和AAC、微軟 公司的WMA,以及索尼公司的ATRAC。
[0003] 為了重現(xiàn)立體聲的聲音效果,現(xiàn)在多采用多個(gè)聲道將多聲道聲音信號(hào)播放給用 戶,多聲道聲音信號(hào)的編碼方法也從以AC-3和MP3為代表的和差立體聲(M/SStereo) 和強(qiáng)度立體聲(IntensityStereo)等波形編碼技術(shù),演進(jìn)到以MP3Pro、ITUEAAC+、 MPEGSurround、DolbyDD+為代表的參數(shù)立體聲(ParametricStereo)和參數(shù)環(huán)繞聲 (ParametricSurround)技術(shù)。PS(包括ParametricStereo和ParametricSurround)從 雙耳心理聲學(xué)的角度出發(fā),充分利用雙耳時(shí)間/相位差(ITD/IH))、雙耳強(qiáng)度差(IID)、雙耳 相關(guān)性(1C)等心理聲學(xué)空間特性,實(shí)現(xiàn)多聲道聲音信號(hào)的參數(shù)編碼。
[0004]PS技術(shù)在編碼端一般將多聲道聲音信號(hào)下混合(downmix),生成1個(gè)和聲道信號(hào), 和聲道信號(hào)采用波形編碼(或者波形和參數(shù)混合編碼,如EAAC+),并將各聲道對(duì)應(yīng)和聲道 信號(hào)的ITD/IPD、IID和1C參數(shù)進(jìn)行參數(shù)編碼。在解碼端,根據(jù)這些參數(shù),從和聲道信號(hào)中 恢復(fù)多聲道信號(hào)。也可以在編碼時(shí),將多聲道信號(hào)分組,并在不同的聲道組采用如上的PS 編解碼方法。也可以采用級(jí)聯(lián)的方式,將多聲道進(jìn)行多級(jí)的PS編碼。
[0005] 實(shí)踐證明,單純的波形編碼(和聲道)和PS編碼技術(shù),雖然可以在較低的碼率下 實(shí)現(xiàn)較高的編碼質(zhì)量;但在較高的碼率下,PS技術(shù)卻不能進(jìn)一步提升信號(hào)質(zhì)量,不適合高 保真的應(yīng)用場(chǎng)合。其原因在于,PS技術(shù)在編碼端只編碼和聲道信號(hào),而丟掉了殘差聲道信 號(hào),導(dǎo)致解碼時(shí)不能完全恢復(fù)原始信號(hào)。為此,MPEGSurround采用殘差信息編碼的方法, 來(lái)彌補(bǔ)PS技術(shù)的不足。
[0006] 但是,無(wú)論是傳統(tǒng)的PS技術(shù)還是MPEGSurround技術(shù),都過(guò)分依賴了雙耳的心 理聲學(xué)特性,而忽略了多聲道聲音信號(hào)本身的統(tǒng)計(jì)特性。例如,傳統(tǒng)的PS技術(shù)和MPEG Surround技術(shù)都沒(méi)有利用聲道對(duì)之間的統(tǒng)計(jì)冗余信息。而且,MPEGSurround采用殘差信 息編碼時(shí),和聲道信號(hào)和殘差聲道信號(hào)間仍然存在統(tǒng)計(jì)冗余,從而無(wú)法兼顧編碼效率和編 碼信號(hào)的質(zhì)量。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明提供了一種多聲道聲音信號(hào)編碼方法、解碼方法及裝置,目的是為了解決 現(xiàn)有技術(shù)的多聲道聲音信號(hào)編碼方法中,存在統(tǒng)計(jì)冗余,無(wú)法兼顧編碼效率和編碼信號(hào)的 質(zhì)量的問(wèn)題。
[0008] 為實(shí)現(xiàn)上述目的,第一方面,本發(fā)明提供了一種多聲道聲音信號(hào)編碼方法,該方法 包括:A)采用時(shí)頻變換,將第一多聲道聲音信號(hào)映射為第一頻域信號(hào),或者采用子帶濾波, 將第一多聲道聲音信號(hào)映射為第一子帶信號(hào);B)將所述第一頻域信號(hào)或所述第一子帶信 號(hào)劃分為不同時(shí)頻子帶;C)在所述不同時(shí)頻子帶中的每個(gè)時(shí)頻子帶內(nèi),計(jì)算所述第一多聲 道聲音信號(hào)的第一統(tǒng)計(jì)特性;D)根據(jù)所述第一統(tǒng)計(jì)特性,估計(jì)優(yōu)化子空間映射模型;E)采 用所述優(yōu)化子空間映射模型,將所述第一多聲道聲音信號(hào)映射為第二多聲道聲音信號(hào);F) 根據(jù)時(shí)間、頻率和聲道的不同,對(duì)所述第二多聲道聲音信號(hào)中的至少一組和所述優(yōu)化子空 間映射模型進(jìn)行感知編碼,并復(fù)用成編碼多聲道碼流。
[0009] 第二方面,本發(fā)明提供了一種多聲道聲音信號(hào)編碼裝置,該裝置包括:時(shí)頻映射單 元,用于采用時(shí)頻變換,將第一多聲道聲音信號(hào)映射為第一頻域信號(hào),或者采用子帶濾波, 將第一多聲道聲音信號(hào)映射為第一子帶信號(hào);將所述第一頻域信號(hào)或所述第一子帶信號(hào)劃 分為不同時(shí)頻子帶;自適應(yīng)子空間映射單元,用于在所述時(shí)頻映射單元?jiǎng)澐值牟煌瑫r(shí)頻子 帶中的每個(gè)時(shí)頻子帶內(nèi),計(jì)算所述第一多聲道聲音信號(hào)的第一統(tǒng)計(jì)特性;根據(jù)所述第一統(tǒng) 計(jì)特性,估計(jì)優(yōu)化子空間映射模型;采用所述優(yōu)化子空間映射模型,將所述第一多聲道聲音 信號(hào)映射為第二多聲道聲音信號(hào);感知編碼單元,用于根據(jù)時(shí)間、頻率和聲道的不同,對(duì)所 述自適應(yīng)子空間映射單元映射的第二多聲道聲音信號(hào)中的至少一組和所述優(yōu)化子空間映 射模型進(jìn)行感知編碼,并復(fù)用成編碼多聲道碼流。
[0010] 第三方面,本發(fā)明提供了一種多聲道聲音信號(hào)解碼方法,該方法包括:A)對(duì)編碼 多聲道碼流進(jìn)行解碼,獲得第二多聲道聲音信號(hào)中的至少一組和優(yōu)化子空間映射模型;B) 采用所述優(yōu)化子空間映射模型,將所述第二多聲道聲音信號(hào)映射回第一多聲道聲音信號(hào); C)采用逆的時(shí)頻變換,將所述第一多聲道聲音信號(hào)從頻域映射為時(shí)域,或者采用逆的子帶 濾波,將所述第一多聲道聲音信號(hào)從子帶域映射為時(shí)域。
[0011] 第四方面,本發(fā)明提供了一種多聲道聲音信號(hào)解碼裝置,該裝置包括:感知解碼單 元,用于對(duì)編碼多聲道碼流進(jìn)行解碼,獲得第二多聲道聲音信號(hào)中的至少一組和優(yōu)化子空 間映射模型;子空間逆映射單元,用于采用所述感知解碼單元獲得的優(yōu)化子空間映射模型, 將所述感知解碼單元獲得的第二多聲道聲音信號(hào)映射回第一多聲道聲音信號(hào);頻時(shí)映射單 元,用于采用逆的時(shí)頻變換,將所述子空間逆映射單元得到的第一多聲道聲音信號(hào)從頻域 映射為時(shí)域,或者采用逆的子帶濾波,將所述第一多聲道聲音信號(hào)從子帶域映射為時(shí)域。
[0012] 本發(fā)明實(shí)施例的多聲道聲音信號(hào)編碼方法中,采用了自適應(yīng)子空間映射,先通過(guò) 計(jì)算多聲道聲音信號(hào)的統(tǒng)計(jì)特性,從而估計(jì)優(yōu)化子空間映射模型,然后采用上述優(yōu)化子空 間映射模型,對(duì)多聲道聲音信號(hào)進(jìn)行映射,再進(jìn)行感知編碼。由上可見(jiàn),本發(fā)明實(shí)施例在編 碼中自適應(yīng)選擇映射模型,可以更好的估計(jì)和利用聲道間信號(hào)的統(tǒng)計(jì)特性,并最大限度的 降低聲道間的統(tǒng)計(jì)冗余,實(shí)現(xiàn)更高的編碼效率的同時(shí),保證編碼信號(hào)的質(zhì)量。
【附圖說(shuō)明】
[0013] 圖1為本發(fā)明一個(gè)實(shí)施例中的多聲道聲音信號(hào)編碼方法流程圖;
[0014] 圖2為本發(fā)明另一個(gè)實(shí)施例中的多聲道聲音信號(hào)編碼方法流程圖;
[0015] 圖3為本發(fā)明另一個(gè)實(shí)施例中的多聲道聲音信號(hào)編碼方法流程圖;
[0016] 圖4為本發(fā)明一個(gè)實(shí)施例中的子空間映射關(guān)系意圖;
[0017] 圖5為本發(fā)明一個(gè)實(shí)施例中的PCA模型與ICA模型特點(diǎn)對(duì)比示意圖;
[0018] 圖6為本發(fā)明一個(gè)實(shí)施例中的時(shí)頻子帶劃分示意圖;
[0019] 圖7為本發(fā)明一個(gè)實(shí)施例中的多聲道聲音信號(hào)解碼方法流程圖;
[0020] 圖8為本發(fā)明一個(gè)實(shí)施例中的多聲道聲音信號(hào)編碼裝置結(jié)構(gòu)示意圖;
[0021] 圖9為本發(fā)明一個(gè)實(shí)施例中的多聲道聲音信號(hào)解碼裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0022] 下面通過(guò)附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
[0023] 本發(fā)明實(shí)施例中的多聲道聲音信號(hào)編碼方法,不同于現(xiàn)有技術(shù)中的其他方法,充 分利用了多聲道聲音信號(hào)的統(tǒng)計(jì)特性和心理聲學(xué)特性,在獲得極高的編碼效率的同時(shí),保 證編碼信號(hào)的質(zhì)量,通過(guò)采用自適應(yīng)子空間映射的方法,最大程度的消除多聲道信號(hào)間的 統(tǒng)計(jì)冗余,創(chuàng)造性的使用多種子空間映射模型,并在編碼中自適應(yīng)選擇映射模型,可以更好 的估計(jì)和利用聲道間信號(hào)的統(tǒng)計(jì)特性,并最大限度的降低聲道間的統(tǒng)計(jì)冗余,實(shí)現(xiàn)更高的 編碼效率。
[0024] 圖1為本發(fā)明一個(gè)實(shí)施例中的多聲道聲音信號(hào)編碼方法流程圖,該方法包括:
[0025] 步驟101,采用時(shí)頻變換,將第一多聲道聲音信號(hào)映射為第一頻域信號(hào),或者采用 子帶濾波,將第一多聲道聲音信號(hào)映射為第一子帶信號(hào)。
[0026] 其中,第一多聲道聲音信號(hào)的最初表現(xiàn)形式為時(shí)域信號(hào)u(m,t),通過(guò)上述映射處 理,可以得到多聲道頻域信號(hào)或子帶信號(hào)x(m,k)。其中,m為聲道序號(hào),t為幀(或子幀) 序號(hào),k為頻率或子帶序號(hào)。
[0027]本發(fā)明實(shí)施例中,時(shí)頻變換可以采用普遍使用的修正余弦變換(MDCT)、余弦變換 (DCT)、傅里葉變換(FFT)等時(shí)頻變換技術(shù);子帶濾波可以采用較普遍使用的正交鏡像濾波 器組(QMF\PQMF\CQMF)、余弦調(diào)制濾波器組(CMF/MLT)技術(shù);時(shí)頻變換也可以采用小波變換 (wavelet)等多分辨率分析技術(shù);本發(fā)明實(shí)施例的時(shí)頻映射可以采用以上三種映射方法中 的一種(如403、4六〇或組合形式(如1^3、86111^匕?八〇。
[0028] 步驟102,將第一頻域信號(hào)或第一子帶信號(hào)劃分為不同時(shí)頻子帶。
[0029] 其中,在步驟101之前,編碼的聲音信號(hào)可以先被分成待編碼的幀,再進(jìn)行時(shí)頻變 換或子帶濾波。如果采用較大的幀長(zhǎng),可能會(huì)將一幀數(shù)據(jù)再分解為多個(gè)子幀,再進(jìn)行時(shí)頻變 換或子帶濾波。獲得頻域或子帶信號(hào)后,可以按頻率順序組成多個(gè)頻率子帶;也可以將多個(gè) 時(shí)頻變換或子帶濾波獲得的頻域信號(hào),組成二維時(shí)間-頻率平面,在此平面進(jìn)行時(shí)頻區(qū)域 劃分;進(jìn)一步,將該時(shí)頻區(qū)域在各聲道時(shí)頻平面投影,可以獲得待編碼的時(shí)頻子帶Xl (t,k), i是該時(shí)頻子帶的序號(hào),t為幀(或子幀)序號(hào)。假設(shè)每個(gè)時(shí)頻子帶是矩形區(qū)域,則時(shí)頻子 帶Xi(t,k)內(nèi)的信號(hào)范圍為:hi彡t<h,kii彡k<ki,hi和h為該子帶的起始和終止 幀(或子幀)序號(hào),hi和h為該子帶的起始和終止頻率或子帶序號(hào)。若時(shí)頻子帶總個(gè)數(shù) 為N,則i<N。方便起見(jiàn),某時(shí)頻子帶的區(qū)域可用(t,k)表示。需要注意的是,每