多聲道聲音信號(hào)編碼方法、解碼方法及裝置的制造方法

文檔序號(hào)：9580341閱讀：547來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

多聲道聲音信號(hào)編碼方法、解碼方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及音頻處理技術(shù)領(lǐng)域，尤其涉及多聲道聲音信號(hào)編碼方法、解碼方法及裝置。
【背景技術(shù)】
[0002] 隨著科技的發(fā)展，出現(xiàn)了多種對(duì)聲音信號(hào)的編碼技術(shù)，上述聲音通常指的是語(yǔ)音、音樂(lè)、自然聲音和人工合成聲音等人耳可感知的信號(hào)在內(nèi)的數(shù)字聲音。目前，很多聲音編碼技術(shù)已經(jīng)成為工業(yè)標(biāo)準(zhǔn)被大量應(yīng)用，融入人們的日常生活中，常用的聲音編碼技術(shù)有杜比實(shí)驗(yàn)室的AC-3、數(shù)字影院系統(tǒng)公司的DTS、移動(dòng)圖象專家組（MPEG)組織的MP3和AAC、微軟公司的WMA，以及索尼公司的ATRAC。
[0003] 為了重現(xiàn)立體聲的聲音效果，現(xiàn)在多采用多個(gè)聲道將多聲道聲音信號(hào)播放給用戶，多聲道聲音信號(hào)的編碼方法也從以AC-3和MP3為代表的和差立體聲（M/SStereo) 和強(qiáng)度立體聲（IntensityStereo)等波形編碼技術(shù)，演進(jìn)到以MP3Pro、ITUEAAC+、 MPEGSurround、DolbyDD+為代表的參數(shù)立體聲（ParametricStereo)和參數(shù)環(huán)繞聲 (ParametricSurround)技術(shù)。PS(包括ParametricStereo和ParametricSurround)從雙耳心理聲學(xué)的角度出發(fā)，充分利用雙耳時(shí)間/相位差（ITD/IH))、雙耳強(qiáng)度差（IID)、雙耳相關(guān)性（1C)等心理聲學(xué)空間特性，實(shí)現(xiàn)多聲道聲音信號(hào)的參數(shù)編碼。
[0004]PS技術(shù)在編碼端一般將多聲道聲音信號(hào)下混合（downmix)，生成1個(gè)和聲道信號(hào)，和聲道信號(hào)采用波形編碼（或者波形和參數(shù)混合編碼，如EAAC+)，并將各聲道對(duì)應(yīng)和聲道信號(hào)的ITD/IPD、IID和1C參數(shù)進(jìn)行參數(shù)編碼。在解碼端，根據(jù)這些參數(shù)，從和聲道信號(hào)中恢復(fù)多聲道信號(hào)。也可以在編碼時(shí)，將多聲道信號(hào)分組，并在不同的聲道組采用如上的PS 編解碼方法。也可以采用級(jí)聯(lián)的方式，將多聲道進(jìn)行多級(jí)的PS編碼。
[0005] 實(shí)踐證明，單純的波形編碼（和聲道）和PS編碼技術(shù)，雖然可以在較低的碼率下實(shí)現(xiàn)較高的編碼質(zhì)量；但在較高的碼率下，PS技術(shù)卻不能進(jìn)一步提升信號(hào)質(zhì)量，不適合高保真的應(yīng)用場(chǎng)合。其原因在于，PS技術(shù)在編碼端只編碼和聲道信號(hào)，而丟掉了殘差聲道信號(hào)，導(dǎo)致解碼時(shí)不能完全恢復(fù)原始信號(hào)。為此，MPEGSurround采用殘差信息編碼的方法，來(lái)彌補(bǔ)PS技術(shù)的不足。
[0006] 但是，無(wú)論是傳統(tǒng)的PS技術(shù)還是MPEGSurround技術(shù)，都過(guò)分依賴了雙耳的心理聲學(xué)特性，而忽略了多聲道聲音信號(hào)本身的統(tǒng)計(jì)特性。例如，傳統(tǒng)的PS技術(shù)和MPEG Surround技術(shù)都沒(méi)有利用聲道對(duì)之間的統(tǒng)計(jì)冗余信息。而且，MPEGSurround采用殘差信息編碼時(shí)，和聲道信號(hào)和殘差聲道信號(hào)間仍然存在統(tǒng)計(jì)冗余，從而無(wú)法兼顧編碼效率和編碼信號(hào)的質(zhì)量。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明提供了一種多聲道聲音信號(hào)編碼方法、解碼方法及裝置，目的是為了解決現(xiàn)有技術(shù)的多聲道聲音信號(hào)編碼方法中，存在統(tǒng)計(jì)冗余，無(wú)法兼顧編碼效率和編碼信號(hào)的質(zhì)量的問(wèn)題。
[0008] 為實(shí)現(xiàn)上述目的，第一方面，本發(fā)明提供了一種多聲道聲音信號(hào)編碼方法，該方法包括:A)采用時(shí)頻變換，將第一多聲道聲音信號(hào)映射為第一頻域信號(hào)，或者采用子帶濾波，將第一多聲道聲音信號(hào)映射為第一子帶信號(hào)；B)將所述第一頻域信號(hào)或所述第一子帶信號(hào)劃分為不同時(shí)頻子帶；C)在所述不同時(shí)頻子帶中的每個(gè)時(shí)頻子帶內(nèi)，計(jì)算所述第一多聲道聲音信號(hào)的第一統(tǒng)計(jì)特性；D)根據(jù)所述第一統(tǒng)計(jì)特性，估計(jì)優(yōu)化子空間映射模型；E)采用所述優(yōu)化子空間映射模型，將所述第一多聲道聲音信號(hào)映射為第二多聲道聲音信號(hào)；F) 根據(jù)時(shí)間、頻率和聲道的不同，對(duì)所述第二多聲道聲音信號(hào)中的至少一組和所述優(yōu)化子空間映射模型進(jìn)行感知編碼，并復(fù)用成編碼多聲道碼流。
[0009] 第二方面，本發(fā)明提供了一種多聲道聲音信號(hào)編碼裝置，該裝置包括：時(shí)頻映射單元，用于采用時(shí)頻變換，將第一多聲道聲音信號(hào)映射為第一頻域信號(hào)，或者采用子帶濾波，將第一多聲道聲音信號(hào)映射為第一子帶信號(hào)；將所述第一頻域信號(hào)或所述第一子帶信號(hào)劃分為不同時(shí)頻子帶；自適應(yīng)子空間映射單元，用于在所述時(shí)頻映射單元?jiǎng)澐值牟煌瑫r(shí)頻子帶中的每個(gè)時(shí)頻子帶內(nèi)，計(jì)算所述第一多聲道聲音信號(hào)的第一統(tǒng)計(jì)特性；根據(jù)所述第一統(tǒng) 計(jì)特性，估計(jì)優(yōu)化子空間映射模型；采用所述優(yōu)化子空間映射模型，將所述第一多聲道聲音信號(hào)映射為第二多聲道聲音信號(hào)；感知編碼單元，用于根據(jù)時(shí)間、頻率和聲道的不同，對(duì)所述自適應(yīng)子空間映射單元映射的第二多聲道聲音信號(hào)中的至少一組和所述優(yōu)化子空間映射模型進(jìn)行感知編碼，并復(fù)用成編碼多聲道碼流。
[0010] 第三方面，本發(fā)明提供了一種多聲道聲音信號(hào)解碼方法，該方法包括:A)對(duì)編碼多聲道碼流進(jìn)行解碼，獲得第二多聲道聲音信號(hào)中的至少一組和優(yōu)化子空間映射模型；B) 采用所述優(yōu)化子空間映射模型，將所述第二多聲道聲音信號(hào)映射回第一多聲道聲音信號(hào)； C)采用逆的時(shí)頻變換，將所述第一多聲道聲音信號(hào)從頻域映射為時(shí)域，或者采用逆的子帶濾波，將所述第一多聲道聲音信號(hào)從子帶域映射為時(shí)域。
[0011] 第四方面，本發(fā)明提供了一種多聲道聲音信號(hào)解碼裝置，該裝置包括：感知解碼單元，用于對(duì)編碼多聲道碼流進(jìn)行解碼，獲得第二多聲道聲音信號(hào)中的至少一組和優(yōu)化子空間映射模型；子空間逆映射單元，用于采用所述感知解碼單元獲得的優(yōu)化子空間映射模型，將所述感知解碼單元獲得的第二多聲道聲音信號(hào)映射回第一多聲道聲音信號(hào)；頻時(shí)映射單元，用于采用逆的時(shí)頻變換，將所述子空間逆映射單元得到的第一多聲道聲音信號(hào)從頻域映射為時(shí)域，或者采用逆的子帶濾波，將所述第一多聲道聲音信號(hào)從子帶域映射為時(shí)域。
[0012] 本發(fā)明實(shí)施例的多聲道聲音信號(hào)編碼方法中，采用了自適應(yīng)子空間映射，先通過(guò) 計(jì)算多聲道聲音信號(hào)的統(tǒng)計(jì)特性，從而估計(jì)優(yōu)化子空間映射模型，然后采用上述優(yōu)化子空間映射模型，對(duì)多聲道聲音信號(hào)進(jìn)行映射，再進(jìn)行感知編碼。由上可見(jiàn)，本發(fā)明實(shí)施例在編碼中自適應(yīng)選擇映射模型，可以更好的估計(jì)和利用聲道間信號(hào)的統(tǒng)計(jì)特性，并最大限度的降低聲道間的統(tǒng)計(jì)冗余，實(shí)現(xiàn)更高的編碼效率的同時(shí)，保證編碼信號(hào)的質(zhì)量。
【附圖說(shuō)明】
[0013] 圖1為本發(fā)明一個(gè)實(shí)施例中的多聲道聲音信號(hào)編碼方法流程圖；
[0014] 圖2為本發(fā)明另一個(gè)實(shí)施例中的多聲道聲音信號(hào)編碼方法流程圖；
[0015] 圖3為本發(fā)明另一個(gè)實(shí)施例中的多聲道聲音信號(hào)編碼方法流程圖；
[0016] 圖4為本發(fā)明一個(gè)實(shí)施例中的子空間映射關(guān)系意圖；
[0017] 圖5為本發(fā)明一個(gè)實(shí)施例中的PCA模型與ICA模型特點(diǎn)對(duì)比示意圖；
[0018] 圖6為本發(fā)明一個(gè)實(shí)施例中的時(shí)頻子帶劃分示意圖；
[0019] 圖7為本發(fā)明一個(gè)實(shí)施例中的多聲道聲音信號(hào)解碼方法流程圖；
[0020] 圖8為本發(fā)明一個(gè)實(shí)施例中的多聲道聲音信號(hào)編碼裝置結(jié)構(gòu)示意圖；
[0021] 圖9為本發(fā)明一個(gè)實(shí)施例中的多聲道聲音信號(hào)解碼裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0022] 下面通過(guò)附圖和實(shí)施例，對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
[0023] 本發(fā)明實(shí)施例中的多聲道聲音信號(hào)編碼方法，不同于現(xiàn)有技術(shù)中的其他方法，充分利用了多聲道聲音信號(hào)的統(tǒng)計(jì)特性和心理聲學(xué)特性，在獲得極高的編碼效率的同時(shí)，保證編碼信號(hào)的質(zhì)量，通過(guò)采用自適應(yīng)子空間映射的方法，最大程度的消除多聲道信號(hào)間的統(tǒng)計(jì)冗余，創(chuàng)造性的使用多種子空間映射模型，并在編碼中自適應(yīng)選擇映射模型，可以更好的估計(jì)和利用聲道間信號(hào)的統(tǒng)計(jì)特性，并最大限度的降低聲道間的統(tǒng)計(jì)冗余，實(shí)現(xiàn)更高的編碼效率。
[0024] 圖1為本發(fā)明一個(gè)實(shí)施例中的多聲道聲音信號(hào)編碼方法流程圖，該方法包括：
[0025] 步驟101，采用時(shí)頻變換，將第一多聲道聲音信號(hào)映射為第一頻域信號(hào)，或者采用子帶濾波，將第一多聲道聲音信號(hào)映射為第一子帶信號(hào)。
[0026] 其中，第一多聲道聲音信號(hào)的最初表現(xiàn)形式為時(shí)域信號(hào)u(m,t)，通過(guò)上述映射處理，可以得到多聲道頻域信號(hào)或子帶信號(hào)x(m，k)。其中，m為聲道序號(hào)，t為幀（或子幀）序號(hào)，k為頻率或子帶序號(hào)。
[0027]本發(fā)明實(shí)施例中，時(shí)頻變換可以采用普遍使用的修正余弦變換（MDCT)、余弦變換 (DCT)、傅里葉變換（FFT)等時(shí)頻變換技術(shù)；子帶濾波可以采用較普遍使用的正交鏡像濾波器組（QMF\PQMF\CQMF)、余弦調(diào)制濾波器組（CMF/MLT)技術(shù)；時(shí)頻變換也可以采用小波變換 (wavelet)等多分辨率分析技術(shù)；本發(fā)明實(shí)施例的時(shí)頻映射可以采用以上三種映射方法中的一種（如403、4六〇或組合形式（如1^3、86111^匕？八〇。
[0028] 步驟102,將第一頻域信號(hào)或第一子帶信號(hào)劃分為不同時(shí)頻子帶。
[0029] 其中，在步驟101之前，編碼的聲音信號(hào)可以先被分成待編碼的幀，再進(jìn)行時(shí)頻變換或子帶濾波。如果采用較大的幀長(zhǎng)，可能會(huì)將一幀數(shù)據(jù)再分解為多個(gè)子幀，再進(jìn)行時(shí)頻變換或子帶濾波。獲得頻域或子帶信號(hào)后，可以按頻率順序組成多個(gè)頻率子帶；也可以將多個(gè) 時(shí)頻變換或子帶濾波獲得的頻域信號(hào)，組成二維時(shí)間-頻率平面，在此平面進(jìn)行時(shí)頻區(qū)域劃分；進(jìn)一步，將該時(shí)頻區(qū)域在各聲道時(shí)頻平面投影，可以獲得待編碼的時(shí)頻子帶Xl (t，k)， i是該時(shí)頻子帶的序號(hào)，t為幀（或子幀）序號(hào)。假設(shè)每個(gè)時(shí)頻子帶是矩形區(qū)域，則時(shí)頻子帶Xi(t,k)內(nèi)的信號(hào)范圍為：hi彡t<h，kii彡k<ki,hi和h為該子帶的起始和終止幀（或子幀）序號(hào)，hi和h為該子帶的起始和終止頻率或子帶序號(hào)。若時(shí)頻子帶總個(gè)數(shù) 為N，則i<N。方便起見(jiàn)，某時(shí)頻子帶的區(qū)域可用（t，k)表示。需要注意的是，每

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4 5