本發明涉及用于對具有給定數量的系數序列的輸入的HOA信號的幀進行編碼的方法、用于對HOA信號進行解碼的方法、用于對具有給定數量的系數序列的輸入的HOA信號的幀進行編碼的裝置以及用于對HOA信號進行解碼的裝置。
背景技術:
除了比如波場合成(WFS)或基于聲道的方法(諸如被稱為“22.2”的方法)的其它技術之外,高階高保真立體聲(HOA)提供表示三維聲音的一種可能性。與基于聲道的方法相反,HOA表示提供獨立于特定揚聲器設置的優點。該靈活性是以在特定揚聲器設置上回放HOA表示所需的解碼處理為代價的。與其中所需的揚聲器的數量通常非常大的WFS方法相比,HOA也可以被渲染到由僅僅幾個揚聲器組成的設置。HOA的進一步的優點是,相同的表示也可以沒有任何修改地用于雙耳渲染到耳機。
HOA基于所謂的復平面諧波幅度的空間密度通過截斷的球諧函數(SH)展開的表示。每個展開系數是角頻率的函數,其可以等同地由時域函數表示。因此,不失一般性,整個HOA聲場表示實際上可以被理解為由O個時域函數組成,其中,O表示展開系數的數量。這些時域函數在下面將被等同地稱為HOA系數序列或HOA通道。
HOA表示的空間分辨率隨著展開的最大階數N增長而改進。不幸的是,展開系數的數量O隨著階數N二次方地增長,并且特別地,O=(N+1)2。例如,典型的使用階數N=4的HOA表示需要O=25個HOA(展開)系數。根據以上考慮,給定期望的單聲道采樣速率fS和每一個采樣的比特數Nb,用于傳送HOA表示的總比特速率由O·fS·Nb確定。因此,利用每一個采樣Nb=16個比特、以fS=48kHz的采樣速率傳送例如階數N=4的HOA表示,導致19.2M Bits/s的比特速率,該比特速率對于許多實際應用(諸如流傳輸)是非常高的。因此,HOA表示的壓縮是高度期望的。
[4,5,6]中提出了用于壓縮HOA聲場表示的各種方法。這些方法的共同之處在于,它們執行聲場分析,并且將給定的HOA表示分解為方向和殘留環境分量。最終的壓縮的表示一方面包括若干個量化信號,這些量化信號是從所謂的方向和基于矢量的信號以及環境HOA分量的相關系數序列的感知編碼得到的。另一方面,它包括與量化信號相關的附加的邊信息(side information),該附加的邊信息對于從HOA表示的壓縮版本重構HOA表示是必要的。
用于方法[4、5、6]的量化信號的合理的最小數量是八個。因此,假設對于每單個感知編碼器數據速率為32kbit/s,則這些方法中的一種方法的數據速率通常不低于256kbit/s。對于某些應用,像例如對移動設備的音頻流傳輸,該總數據速率可能太高。因此,存在對于應對明顯較低的數據速率(例如,128kbit/s)的HOA壓縮方法的需要。
技術實現要素:
公開了用于聲場的高階高保真立體聲(HOA)表示的低比特速率壓縮的新的方法和裝置。
用于聲場的HOA表示的低比特速率壓縮方法的一個主要方面是,將HOA表示分解為多個頻率子帶,并且通過截斷的HOA表示和基于若干個預測的方向子帶信號的表示的組合來近似每個頻率子帶(即,子帶)內的系數。
截斷的HOA表示包括數量小的選擇的系數序列,其中,選擇被允許隨時間變化。例如,對于每一個幀進行新的選擇。用于表示截斷的HOA表示的選擇的系數序列被感知編碼,并且是最終的壓縮的HOA表示的一部分。在一個實施例中,在感知編碼之前對選擇的系數序列進行去相關,以便提高編碼效率并且降低在渲染時的噪聲暴露的影響。部分去相關通過將空間變換應用于預定數量的選擇的HOA系數序列來實現。為了解壓縮,通過再相關來使去相關反向。這樣的部分去相關的很大優點是,在解壓縮時不需要額外的邊信息來恢復去相關。
近似的HOA表示的其它分量通過若干個具有對應方向的方向子帶信號表示。這些方向子帶信號通過參數化表示進行編碼,所述參數化表示包括來自截斷的HOA表示的系數序列的預測。在實施例中,每個方向子帶信號由截斷的HOA表示的系數序列的縮放的和來預測(或表示),其中,縮放一般是復值。為了能夠重新合成方向子帶信號的HOA表示以供解壓縮,壓縮的表示包含復值預測縮放因子的量化版本以及方向的量化版本。
在一個實施例中,用于對具有給定數量的系數序列(其中,每個系數序列具有索引)的輸入的HOA信號的幀進行編碼(從而進行壓縮)的方法包括以下步驟:
確定將被包括在截斷的HOA表示中的有效的系數序列的索引的集合IC,ACT(k),
計算具有數量減少的非零系數序列(即,與輸入的HOA信號相比,較少的非零系數序列,因此較多的零系數序列)的截斷的HOA表示CT(k),
從輸入的HOA信號估計候選方向的第一集合MDIR(k),
將輸入的HOA信號劃分為多個頻率子帶,其中,獲得這些頻率子帶的系數序列
對于每個頻率子帶,估計方向的第二集合MDIR(k,f1),...,MDIR(k,fF),其中,方向的第二集合的每個元素是具有第一索引和第二索引的索引元組,第二索引是當前頻率子帶的有效方向的索引,而第一索引是有效方向的軌跡索引,其中,每個有效方向也包括在輸入的HOA信號的候選方向的第一集合MDIR(k)中(即,方向的第二集合中的有效子帶方向是全帶方向的第一集合的子集),
對于每個頻率子帶,根據相應頻率子帶的方向的第二集合MDIR(k,f1),...,MDIR(k,fF)從頻率子帶的系數序列計算方向子帶信號
對于每個頻率子帶,使用相應頻率子帶的有效的系數序列的索引的集合IC,ACT(k)從頻率子帶的系數序列計算適于預測方向子帶信號的預測矩陣A(k,f1),...,A(k,fF),以及
對候選方向的第一集合MDIR(k)、方向的第二集合MDIR(k,f1),...,MDIR(k,fF)、預測矩陣A(k,f1),...,A(k,fF)以及截斷的HOA表示CT(k)進行編碼。
方向的第二集合與頻率子帶相關。候選方向的第一集合與全頻帶相關。有利地,在對每個頻率子帶估計方向的第二集合的步驟中,僅需要在全帶HOA信號的方向MDIR(k)之中搜索頻率子帶的方向MDIR(k,f1),...,MDIR(k,fF),因為子帶方向的第二集合是全帶方向的第一集合的子集。在一個實施例中,每個元組內的第一索引和第二索引的相繼次序被交換,即,第一索引是當前頻率子帶的有效方向的索引,而第二索引是有效方向的軌跡索引。
完整HOA信號包括多個系數序列或系數通道。其中這些系數序列中的一個或多個被設置為零的HOA信號在本文中被稱為截斷的HOA表示。計算或產生截斷的HOA表示一般包括選擇將被設置為零或者將不被設置為零的系數序列。該選擇可以根據各種標準(例如,通過選擇包括最大能量的那些系數序列或者感知最相關的那些系數序列作為將不被設置為零的系數序列、或者任意地選擇系數序列等等)來進行。將HOA信號劃分為頻率子帶可以由包括例如正交鏡像濾波器(QMF)的分析濾波器組執行。
在一個實施例中,對截斷的HOA表示CT(k)進行編碼包括截斷的HOA通道序列的部分去相關、用于將(相關的或去相關的)截斷的HOA通道序列y1(k),...,yI(k)分配給傳輸通道的通道分配、對每個傳輸通道執行增益控制(其中,產生用于每個傳輸通道的增益控制邊信息ei(k-1),βi(k-1))、在感知編碼器中對增益控制的截斷的HOA通道序列z1(k),...,zI(k)進行編碼、在邊信息源編碼器中對增益控制邊信息ei(k-1),βi(k-1)、候選方向的第一集合MDIR(k)、方向的第二集合MDIR(k,f1),...,MDIR(k,fF)以及預測矩陣A(k,f1),...,A(k,fF)進行編碼、以及對感知編碼器和邊信息源編碼器的輸出進行復用以獲得編碼的HOA信號幀
在一個實施例中,計算機可讀介質具有存儲在其上的可執行指令,以使計算機執行所述用于對輸入的HOA信號的幀進行編碼或壓縮的方法。
在一個實施例中,用于對具有給定數量的系數序列(其中,每個系數序列具有索引)的輸入的HOA信號的幀進行逐幀編碼(從而進行壓縮)的裝置包括處理器和用于軟件程序的存儲器,所述軟件程序當在處理器上執行時執行上述用于對輸入的HOA信號的幀進行編碼或壓縮的方法的步驟。
此外,在一個實施例中,用于對壓縮的HOA表示進行解碼(從而進行解壓縮)的方法包括:
從壓縮的HOA表示提取多個截斷的HOA系數序列指示(或包含)所述截斷的HOA系數序列的序列索引的分配矢量vAMB,ASSIGN(k)、子帶相關的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)、多個預測矩陣A(k+1,f1),...,A(k+1,fF)、以及增益控制邊信息e1(k),β1(k),...,eI(k),βI(k),
從所述多個截斷的HOA系數序列增益控制邊信息e1(k),β1(k),...,eI(k),βI(k)以及分配矢量vAMB,ASSIGN(k)重構截斷的HOA表示
在分析濾波器組中將重構的截斷的HOA表示分解為多個即F個頻率子帶的頻率子帶表示
在方向子帶合成塊中對于每個頻率子帶表示,從重構的截斷的HOA表示的相應的頻率子帶表示子帶相關的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)以及預測矩陣A(k+1,f1),...,A(k+1,fF)合成預測的方向HOA表示
在子帶組成塊中對于所述F個頻率子帶中的每一個,組成具有系數序列n=1,...,O的解碼的子帶HOA表示所述系數序列n=1,...,O從截斷的HOA表示的系數序列獲得,如果系數序列具有被包括在分配矢量vAMB,ASSIGN(k)中(即,分配矢量vAMB,ASSIGN(k)的元素)的索引n的話,否則從由方向子帶合成塊中的一個提供的預測的方向HOA分量的系數序列獲得,以及
在合成濾波器組中合成解碼的子帶HOA表示以獲得解碼的HOA表示
在一個實施例中,提取包括對壓縮的HOA表示進行解復用以獲得感知編碼的部分和編碼的邊信息部分。在一個實施例中,感知編碼的部分包括感知編碼的截斷的HOA系數序列并且提取包括在感知解碼器中對感知編碼的截斷的HOA系數序列進行解碼以獲得截斷的HOA系數序列在一個實施例中,提取包括在邊信息源解碼器中對編碼的邊信息部分進行解碼以獲得子帶相關的方向的集合MDIR(k+1,f1),...,MDIR(k+1,fF)、預測矩陣A(k+1,f1),...,A(k+1,fF)、增益控制邊信息e1(k),β1(k),...,eI(k),βI(k)以及分配矢量vAMB,ASSIGN(k)。
在一個實施例中,計算機可讀介質具有存儲在其上的可執行指令,以使計算機執行所述用于主導方向信號的方向的解碼的方法。
在一個實施例中,用于對壓縮的HOA表示進行逐幀解碼(從而進行解壓縮)的裝置包括處理器和用于軟件程序的存儲器,所述軟件程序當在處理器上執行時執行上述用于對輸入的HOA信號的幀進行解碼或解壓縮的方法的步驟。
在一個實施例中,用于對HOA信號進行解碼的裝置包括:第一模塊,其被配置為接收將被解碼的HOA信號表示的最大數量D個方向的索引;第二模塊,其被配置為重構將被解碼的HOA信號表示的最大數量D個方向中的方向;第三模塊,其被配置為接收每一個子帶的有效方向信號的索引;第四模塊,其被配置為從將被解碼的HOA信號表示的重構的D個方向重構每一個子帶的有效方向;以及第五模塊,其被配置為預測子帶的方向信號,其中,子帶的當前幀中的方向信號的預測包括確定該子帶的前一個幀的方向信號,并且其中,如果方向信號的索引在前一個幀中為零、而在當前幀中為非零,則創建新的方向信號,如果方向信號的索引在前一個幀中為非零、而在當前幀中為零,則取消前一方向信號,并且如果方向信號的索引從第一方向變為第二方向,則將方向信號的方向從第一方向移動到第二方向。
子帶一般是從復值濾波器組獲得的。分配矢量的一個目的是指示傳送/接收的、并因此包含在截斷的HOA表示中的系數序列的序列索引,以便使得能夠將這些系數序列分配給最終的HOA信號。換句話說,分配矢量對于截斷的HOA表示的每個系數序列指示它對應于最終的HOA信號中的哪個系數序列。例如,如果截斷的HOA表示包含四個系數序列并且最終的HOA信號具有九個系數序列,則分配矢量可以是[1,2,5,7](原則上),從而指示截斷的HOA表示的第一、第二、第三和第四系數序列實際上是最終的HOA信號中的第一、第二、第五和第七系數序列。
從以下的描述和所附的權利要求的考慮(在結合附圖進行時),本發明的進一步的目的、特征和優點將變得清楚。
附圖說明
參照附圖描述本發明的示例性實施例,附圖示出了:
圖1空間HOA編碼器的架構,
圖2方向估計塊的架構,
圖3感知邊信息源編碼器,
圖4感知邊信息源解碼器,
圖5空間HOA解碼器的架構,
圖6球坐標系,
圖7方向估計處理塊,
圖8截斷的HOA表示的方向、軌跡索引集合和系數,
圖9 MPEG中使用的傳統音頻編碼器,
圖10 MPEG中可用的改進的音頻編碼器,
圖11 MPEG中使用的傳統音頻解碼器,
圖12 MPEG中可用的改進的音頻解碼器,
圖13編碼方法的流程圖,以及
圖14解碼方法的流程圖。
具體實施方式
所提出的用于聲場的HOA表示的低比特速率壓縮方法的一個主要構思是,通過以下兩個部分的組合來逐幀和逐頻率子帶(即,在每個HOA幀的單個的頻率子帶內)地近似原始HOA表示:截斷的HOA表示以及基于若干個預測的方向子帶信號的表示。下面進一步提供HOA基礎的概述。
近似的HOA表示的第一部分是由數量小的選擇的系數序列組成的截斷的HOA版本,其中,選擇被允許隨時間(例如,在幀與幀之間)變化。用于表示截斷的HOA版本的選擇的系數序列然后被感知編碼,并且是最終的壓縮的HOA表示的一部分。為了提高編碼效率并且降低在渲染時噪聲暴露的影響,有利的是在感知編碼之前對選擇的系數序列進行去相關。部分去相關通過向預定義數量的選擇的HOA系數序列應用空間變換來實現,這意味著渲染到給定數量的虛擬揚聲器信號。該部分去相關的很大優點是,在解壓縮時不需要額外的邊信息來恢復去相關。
近似的HOA表示的第二部分通過若干個具有對應方向的方向子帶信號表示。然而,這些方向子帶信號不被傳統編碼。相反,它們借助于來自第一部分(即,截斷的HOA表示)的系數序列的預測被編碼為參數化表示。特別地,每個方向子帶信號由截斷的HOA表示的系數序列的縮放的和來預測,其中,縮放一般是復值。兩個部分共同形成HOA信號的壓縮表示,從而實現低比特速率。為了能夠重新合成方向子帶信號的HOA表示以供解壓縮,壓縮表示包含復值預測縮放因子的量化版本以及方向的量化版本。特別地,在該上下文中的重要方面是方向和復值預測縮放因子的計算以及如何高效地對它們進行編碼。
低比特速率HOA壓縮
對于所提出的低比特速率HOA壓縮,低比特速率HOA壓縮器可以細分為空間HOA編碼部分以及感知和源編碼部分。圖1中示出了空間HOA編碼部分的示例性架構,并且圖3中描繪了感知和源編碼部分的示例性架構。空間HOA編碼器10提供第一壓縮的HOA表示,該第一壓縮的HOA表示包括I個信號,連同描述如何創建其HOA表示的邊信息。在感知和邊信息源編碼器30中,這I個信號在感知編碼器31中被感知編碼,并且邊信息在邊信息源編碼器32中經受源編碼。邊信息源編碼器32提供編碼的邊信息然后,由感知編碼器31和邊信息源編碼器32提供的兩個編碼表示在復用器33中被復用以獲得低比特速率壓縮的HOA數據流
空間HOA編碼
圖1所示的空間HOA編碼器執行逐幀處理。幀被定義為O個時間連續的HOA系數序列的部分。例如,將被編碼的輸入的HOA表示的第k幀C(k)相對于時間連續的HOA系數序列的矢量c(t)(參看等式(46))被定義為:
其中,k表示幀索引,L表示幀長(以采樣為單位),O=(N+1)2表示HOA系數序列的數量,并且TS指示采樣周期。
截斷的HOA表示的計算
如圖1所示,計算截斷的HOA表示中的第一步包括從原始HOA幀C(k)計算11截斷的版本CT(k)。該上下文中的截斷意味著從輸入的HOA表示的O個系數序列中選擇I個特定的系數序列,并且將所有其它的系數序列設置為零。用于選擇系數序列的各種解決方案從[4,5,6]獲知,例如,相對于人類感知具有最大功率或最高相關性的那些。選擇的系數序列表示截斷的HOA版本。產生包含選擇的系數序列的索引的數據集合然后,如下面進一步描述的,截斷的HOA版本CT(k)將被部分去相關12,并且部分去相關的截斷的HOA版本CI(k)將經受通道分配13,其中,被選的系數序列被分配給可用的I個傳輸通道。如下面進一步描述的,這些系數序列然后被感知編碼30,并且最后是壓縮表示的一部分。為了獲得平滑信號以供通道分配之后的感知編碼,確定在第k幀中被選擇、但在第(k+1)幀中不被選擇的系數序列。在一個幀中被選擇、而在下一個幀中將不被選擇的那些系數序列漸減。它們的索引包含在數據集合中,該數據集合是的子集。類似地,在第k幀中被選擇、但在第(k-1)幀中未被選擇的系數序列漸增。它們的索引包含在集合中,該集合也是的子集。對于漸變,可以使用窗函數wOA(l),l=1,...,2L(諸如下面在等式(39)中介紹的函數)。
總起來說,如果截斷的版本CT(k)的HOA幀k通過以下等式由O個單個的系數序列幀的L個采樣組成:
則可以通過以下等式對于系數序列索引n=1,...,O和采樣索引l=1,...,L表達截斷:
對于用于選擇系數序列的標準,存在幾個可能性。例如,一個有利的解決方案是選擇表示信號功率中的大部分的那些系數序列。另一個有利的解決方案是選擇相對于人類感知最相關的那些系數序列。在后一種情況下,可以例如通過以下來確定相關性,即,將被不同截斷的表示渲染到虛擬揚聲器信號,確定這些信號和與原始HOA表示對應的虛擬揚聲器信號之間的誤差,以及最后考慮聲音掩蔽效應來解釋該誤差的相關性。
在一個實施例中,用于在集合中選擇索引的合理的策略是總是選擇頭OMIN個索引1,...,OMIN,其中,OMIN=(NMIN+1)2≤I,并且NMIN表示截斷的HOA表示的給定的最小的全階。然后,根據以上提及的標準中的一個標準從集合{OMIN+1,...,OMAX}選擇剩余的I-OMIN個索引,其中,OMAX=(NMAX+1)2≤O,其中NMAX表示考慮要選擇的HOA系數序列的最大階數。注意,OMAX是每一個采樣的可轉移系數的最大數量,該數量小于或等于系數的總數O。根據該策略,截斷處理塊11還提供所謂的分配矢量其元素vA,i(k),i=1,...,I-OMIN根據以下等式設置:
vA,i(k)=n (4)
其中,n(n≥OMIN+1))表示C(k)的另外選擇的HOA系數序列(這些HOA系數序列以后將分配給第i傳輸信號yi(k))的HOA系數序列索引。yi(k)的定義在下面的等式(10)中給出。因此,CT(k)的頭OMIN個行默認包括HOA系數序列1,...,OMIN,并且在CT(k)的后面的O-OMIN(或者OMAX-OMIN,如果O=OMAX的話)個行之中,存在I-OMIN個行,這I-OMIN個行包括其索引存儲在分配矢量vA(k)中的逐幀變化的HOA系數序列。最后,CT(k)的剩余的行包括零。因此,如下面將描述的,可用的I個傳輸信號的頭OMIN個(或者最后OMIN個,如等式(10)中那樣)默認分配給HOA系數序列1,...,OMIN,并且剩余的I-OMIN個傳輸信號分配給其索引存儲在分配矢量vA(k)中的逐幀變化的HOA系數序列。
部分去相關
在第二步中,執行選擇的HOA系數序列的部分去相關12,以便提高隨后的感知編碼的效率,并且在渲染時避免在對選擇的HOA系數序列進行矩陣化之后將發生的編碼噪聲暴露。示例性部分去相關12通過將空間變換應用于頭OMIN個選擇的HOA系數序列(這意味著渲染到OMIN個虛擬揚聲器信號)來實現。相應的虛擬揚聲器位置借助于圖6所示的球坐標系來表達,在該球坐標系中,每個位置假定位于單位球上,即,具有1的半徑。因此,位置可以等同地通過方向Ωj=(θj,φj來表達,其中,1≤j≤OMIN,θj和φj分別表示傾角和方位角(進一步參見下面球坐標系的定義)。這些方向應盡可能均勻地分布在單位球上(參見例如[2],特定方向的計算)。注意,因為HOA一般依賴于NMIN來定義方向,所以在本文中寫Ωj的地方,實際上意指
在下面,所有虛擬揚聲器信號的幀通過以下等式表示:
其中,wj(k)表示第j虛擬揚聲器信號的第k幀。此外,ΨMIN表示相對于虛擬方向Ωj的模式矩陣,其中,1≤j≤OMIN。模式矩陣通過以下等式定義:
其中,
指示相對于虛擬方向Ωi的模式矢量。其每個元素表示下面定義的實值球諧函數(參見等式(48))。通過使用該記法,可以通過以下矩陣乘法來公式化渲染處理:
作為部分去相關12的輸出的中間表示CI(k)的信號因此通過以下等式給出:
通道分配
在已計算中間表示CI(k)的幀之后,將其單個的信號cI,n(k)(其中)分配13給可用的I個通道,以提供用于感知編碼的傳輸信號yi(k),i=1,...,I。分配13的一個目的是避免在選擇在連續的幀之間改變的情況下可能發生的將被感知編碼的信號不連續。分配可以通過以下等式表達:
增益控制
每個傳輸信號yi(k)最后被增益控制單元14處理,在增益控制單元14中,信號增益被平滑地修改以實現適合于感知編碼器的值范圍。增益修改需要一種前瞻性,以便避免連續的塊之間的嚴重的增益變化,并因此引入一個幀的延遲。對于每個傳輸信號幀yi(k),增益控制單元14接收或產生延遲幀yi(k-1),i=1,...,I。增益控制之后的修改信號幀由zi(k-1),i=1,...,I表示。此外,為了能夠在空間解碼器中恢復所進行的任何修改,提供增益控制邊信息。增益控制邊信息包括指數ei(k-1)和異常標志βi(k-1),i=1,...,I。增益控制的更詳細的描述例如在[9]第C.5.2.5節或者[3]中可獲得。因此,截斷的HOA版本19包括增益控制的信號幀zi(k-1)以及增益控制邊信息ei(k-1),βi(k-1),i=1,...,I。
分析濾波器組
如以上提及的,近似的HOA表示由兩個部分(即,截斷的HOA版本19以及由具有對應方向的方向子帶信號表示的分量,這些方向子帶信號是從截斷的HOA表示的系數序列預測的)組成。因此,為了計算第二部分的參數化表示,原始HOA表示cn(k),n=1,...,O的單個的系數序列的每個幀首先被分解為單個的子帶信號的幀。這是在一個或多個分析濾波器組15中進行的。對于每個子帶fj,j=1,...,F,可以將單個的HOA系數序列的子帶信號的幀收集到以下子帶HOA表示中:
分析濾波器組15將子帶HOA表示提供給方向估計處理塊16和一個或多個計算塊17以用于方向子帶信號計算。
原則上,在分析濾波器組15中可以使用任何類型的濾波器(即,任何復值濾波器組,例如QMF、FFT)。不要求分析和對應的合成濾波器組的連續應用提供延遲的同一性,這將是被稱為完美重構性質的要求。注意,與HOA系數序列cn(k)相反,它們的子帶表示一般是復值的。此外,與原始時域信號相比,子帶信號一般是適時抽取的。因此,幀中的采樣數量通常明顯小于時域信號幀cn(k)中的采樣數量,時域信號幀cn(k)中的采樣數量為L。
在一個實施例中,兩個或更多個子帶信號被組合到子帶信號組中,以便使處理更好地適應人類聽覺系統的性質。每個組的帶寬可以例如通過其子帶信號的數量來適應眾所周知的Bark尺度。也就是說,尤其是在較高頻率中,兩個或更多個組可以組合為一個組。注意,在這種情況下,每個子帶組由HOA系數序列的集合組成,其中,提取的參數的數量與單個子帶是相同的。在一個實施例中,分組是在一個或多個子帶信號分組單元(未明確示出)中執行的,這些子帶信號分組單元可以合并在分析濾波器組塊15中。
方向估計
方向估計處理塊16對輸入的HOA表示進行分析,并且對于每個頻率子帶fj,j=1,...,F,計算向聲場添加重大貢獻的子帶普通平面波函數的方向的集合在該上下文中,術語“重大貢獻”可以例如是指隨著從其它方向射入的子帶普通平面波的信號功率變高的信號功率。它還可以是指在人類感知方面的高相關性。注意,在使用子帶分組的情況下,不是單個子帶,而是子帶組可以用于的計算。
在解壓縮期間,由于連續的幀之間估計的方向和預測系數的變化,可能出現預測的方向子帶信號中的偽像。為了避免這樣的偽像,對連結的長幀執行編碼期間的方向子帶信號的方向估計和預測。連結的長幀由當前幀及其前驅組成。為了解壓縮,然后使用對這些長幀估計的量來執行與預測的方向子帶信號的重疊相加處理。
用于方向估計的直接方法將是單獨對待每個子帶。對于方向搜索,在一個實施例中,可以應用例如[7]中提出的技術。該方法對于每一單個子帶提供方向估計的平滑時間軌跡,并且能夠捕捉突然的方向變化或起始。然而,這種已知方法存在兩個缺點。首先,每個子帶中的獨立的方向估計可能導致如下不期望的影響,即,在存在全帶普通平面波(例如,來自某個方向的瞬間的擊鼓聲)時,單個的子方向中的估計誤差可能導致來自不同方向的子帶普通平面波,這些子帶普通平面波加起來不等于期望的來自一個方向的全帶版本。特別地,來自某些方向的瞬態信號是模糊的。
第二,考慮獲得低比特速率壓縮的意圖,從邊信息得到的總比特速率必須被記住。在下面,將示出用于這樣的樸素方法的比特速率相當高的示例。示例性地,子帶的數量F假定為10個,并且每個子帶的方向的數量(該數量對應于每個集合中的元素的數量)假定為4個。此外,如[9]中所提出的,假定對于每個子帶對Q=900個潛在的方向候選的網格執行搜索。對于單個方向的簡單編碼,這需要個比特。假定幀速率為每秒大約50幀,則僅對于方向的編碼表示所得到的總數據速率為:
即使假定幀速率為每秒25幀,所得到的數據速率10kbit/s仍然相當高。
作為改進,在一個實施例中,在方向估計塊20中使用以下方向估計的方法。圖2中示出了總體構思。
在第一步中,全帶方向估計塊21使用以下連結的長幀對由Q個測試方向ΩTEST,q,q=1,...,Q組成的方向網格執行初步的全帶方向估計或搜索:
其中,C(k)和C(k-1)是全帶原始HOA表示的當前幀和前面的輸入幀。該方向搜索提供D(k)≤D個方向候選ΩCAND,d(k),d=1,...,D(k),這些方向候選包含在集合中,即,
每幀的方向候選的最大數量的典型值為D=16個。方向估計可以例如通過[7]中提出的方法來實現:構思是將從輸入的HOA表示的方向功率分布獲得的信息與用于方向的貝葉斯(Bayesian)推理的簡單的源移動模型組合。
在第二步中,由子帶方向估計塊22每一子帶(或子帶組)地對每一單個子帶執行方向搜索。然而,對于子帶的這個方向搜索不需要考慮由Q個測試方向組成的初始的全方向網格,而是僅考慮候選集合該候選集合對于每個子帶僅包括D(k)個方向。由DSB(k,fj)表示的第fj子帶(j=1,...,F)的方向的數量不大于DSB,該DSB通常明顯小于D,例如,DSB=4。像全帶方向搜索一樣,子帶相關的方向搜索也是對子帶信號的由前一個幀和當前幀組成的以下長連結幀執行的:
原則上,與用于全帶相關的方向搜索的貝葉斯推理方法相同的貝葉斯推理方法可以應用于子帶相關的方向搜索。
特定聲源的方向可以(但不需要)隨時間變化。特定聲源的方向的時間序列在本文中被稱為“軌跡”。每個子帶相關的方向或軌跡分別得到無歧義的索引,這防止不同的軌跡混合,并且提供連續的方向子帶信號。這對于下面描述的方向子帶信號的預測是重要的。特別地,它允許利用下面進一步定義的連續的預測系數矩陣A(k,fj)之間的時間依賴性。因此,對于第fj子帶的方向估計提供元組的集合每個元組由一方面標識單個(有效)的方向軌跡的索引和另一方面相應的估計方向ΩSB,d(k,fj)組成,即,
根據定義,對于每個j=1,...,F,集合是的子集,因為如上所述,子帶方向搜索僅在當前幀的方向候選ΩCAND,d(k),d=1,...,D(k)之中執行。這允許相對于方向的邊信息的更高效的編碼,因為每個索引定義D(k)中的一個方向,而不是Q個候選方向,其中D(k)≤Q。索引d用于跟蹤后一個幀中的方向以用于創建軌跡。如圖2所示,并且如上所述,一個實施例中的方向估計處理塊16包括具有全帶方向估計塊21的方向估計塊20以及對于每個子帶或子帶組的子帶方向估計塊22。如圖7所示,它可以進一步包括長幀產生塊23,該長幀產生塊23將以上提及的長幀提供給方向估計塊20。長幀產生塊23使用例如一個或多個存儲器從兩個連續的輸入幀產生長幀,這兩個連續的輸入幀每個具有L個采樣的長度。長幀在本文中通過“-”指示,并且通過具有兩個索引k-1和k來指示。在其它實施例中,長幀產生塊23也可以是圖1所示的編碼器中的單獨的塊,或者合并在其它塊中。
方向子帶信號的計算
返回到圖1,由分析濾波器組15提供的子帶HOA表示幀還輸入到一個或多個方向子帶信號計算塊17。在方向子帶信號計算塊17中,所有DSB個潛在的方向子帶信號的長幀以矩陣xk-1;k;fj布置為:
此外,無效的方向子帶信號的幀,即,其索引d不包含在集合內的那些長信號幀被設置為零。
剩余的長信號幀即,具有索引的那些,被收集在矩陣內。計算其中所包含的有效方向子帶信號的一種可能性是最小化它們的HOA表示和原始的輸入的子帶HOA表示之間的誤差。解決方案通過以下等式給出:
其中,(·)+表示Moore-Penrose偽逆,并且表示相對于集合中的方向估計的模式矩陣。注意,在子帶組的情況下,方向子帶信號的集合是通過一個矩陣(ΨSB(k,fj))+乘以該組的所有HOA表示計算的。注意,長幀可以由與上述長幀產生塊類似的一個或多個更多的長幀產生塊產生。類似地,長幀可以在長幀分解塊中分解為正常長度的幀。在一個實施例中,用于計算方向子帶的塊17在它們的輸出處向方向子帶預測塊18提供長幀
方向子帶信號的預測
如以上提及的,近似的HOA表示部分由有效方向子帶信號表示,然而,這些有效方向子帶信號不被傳統編碼。相反,在目前描述的實施例中,使用參數化表示,以便使用于傳送編碼表示的總數據速率保持低。在參數化表示中,每個有效方向子帶信號(即,具有索引)由截斷的子帶HOA表示和的系數序列的加權和來預測,其中,并且其中,權重一般是復值。
因此,假定表示的預測版本,則預測通過矩陣乘法被表達為:
其中,是具有用于子帶fj的所有加權因子(或者等同地,預測系數)的矩陣。預測矩陣A(k,fj)的計算是在一個或多個方向子帶預測塊18中執行的。在一個實施例中,如圖1所示,使用每一個子帶一個方向子帶預測塊18。在另一個實施例中,對于多個或所有子帶使用單個方向子帶預測塊18。在子帶組的情況下,對每個組計算一個矩陣A(k,fj);然而,它被單個地乘以該組的每個HOA表示從而每一個組地創建矩陣的集合注意,每一個構造,A(k,fj)的除了具有索引的那些行之外的所有行都為零。這意味著僅有效方向子帶信號被預測。此外,A(k,fj)的除了具有索引的那些列之外的所有列也都為零。這意味著,對于預測,僅考慮被傳送并且在HOA解壓縮期間可用于預測的那些HOA系數序列。
對于預測矩陣A(k,fj)的計算必須考慮以下方面。
第一,原始截斷的子帶HOA表示一般在HOA解壓縮時是不可用的。相反,它的感知解碼版本將是可用的并且被用于方向子帶信號的預測。
在低比特速率下,典型的音頻編解碼器(比如AAC或USAC)使用頻譜帶復制(SBR),其中,頻譜的較低頻和中頻被傳統編碼,而較高頻內容(開始于例如5kHz)則使用額外的關于高頻包絡的邊信息從較低頻和中頻復制。
由于該原因,感知解碼之后的截斷的HOA分量的重構的子帶系數序列的幅值類似于原始HOA分量的子帶系數序列的幅值。然而,對于相位,情況并非如此。因此,對于高頻子帶,對使用復值預測系數的預測利用任何相位關系沒有意義。相反,更合理的是僅使用實值預測系數。特別地,定義索引jSBR以使得第fj子帶包括用于SBR的起始頻率,如下設置預測系數的類型是有利的:
換句話說,在一個實施例中,用于較低子帶的預測系數是復值,而用于較高子帶的預測系數是實值。
第二,在一個實施例中,使矩陣A(k,fj)的計算策略適應它們的類型。特別地,對于不受SBR影響的低頻子帶fj,1≤j<jSBR,可以通過最小化和它的預測版本之間的誤差的歐幾里得范數來確定A(k,fj)的非零元素。感知編碼器31定義并提供jSBR(未示出)。以這種方式,所涉及的信號的相位關系被明確地用于預測。對于子帶組,該組的所有方向信號上的預測誤差的歐幾里得范數(即,最小平方預測誤差)應當最小化。對于受SBR影響的高頻子帶fj,jSBR≤j≤F,以上提及的標準是不合理的,因為截斷的HOA分量的重構的子帶系數序列的相位不能被假定為甚至是基本類似于原始子帶系數序列的相位。
在這種情況下,一個解決方案是忽視相位,并且相反,僅集中于信號功率來進行預測。用于確定預測系數的合理標準是最小化以下誤差:
其中,運算|·|2假定逐個元素地應用于矩陣。換句話說,預測系數被選為使得截斷的HOA分量的所有加權的子帶或子帶組系數序列的功率的和最佳近似方向子帶信號的功率。在這種情況下,非負矩陣因子分解(NMF)技術(參見例如[8])可以用于求解這個優化問題并且獲得預測矩陣A(k,fj),j=1,...,F.的預測系數。這些矩陣然后被提供給感知和源編碼級30。
感知和源編碼
在上述空間HOA編碼之后,對對于第(k-1)幀所得到的增益適應的傳輸信號zi(k-1),i=1,...,I進行編碼以獲得它們的編碼表示這由圖3所示的感知和源編碼級30處的感知編碼器31執行。此外,使分配矢量vA(k-1)、增益控制參數ei(k-1)和βi(k-1),i=1,...,I、預測系數矩陣以及集合中所包含的信息經受源編碼來移除冗余,以用于高效的存儲或傳送。這在邊信息源編碼器32中執行。所得到的編碼表示在復用器33中與編碼的傳輸信號表示一起被復用以提供最終的編碼幀
因為原則上,增益控制參數和分配的源編碼可以類似于[9]執行,所以本說明書僅集中于方向和預測參數的編碼,下面詳細地描述方向和預測參數的編碼。
方向的編碼
對于單個的子帶方向的編碼,可以利用根據以上描述的不相關性減少來約束將被選擇的單個的子帶方向。如已經提及的,這些單個的子帶方向不是從所有可能的測試方向ΩTEST,q,q=1,...,Q中選擇的,而是從對全帶HOA表示的每個幀確定的少量的候選中選擇的。示例性地,在以下算法1中概述用于對子帶方向進行源編碼的可能的方式。
在算法1的第一步中,確定作為子帶方向實際確實發生的所有的全帶方向候選的集合即,
由NoOfGlobalDirs(k)表示的該集合的元素的數量是方向的編碼表示的第一部分。因為根據定義是的子集,所以NoOfGlobalDirs(k)可以利用個比特編碼。為了闡明進一步的描述,集合中的方向由ΩFB,d(k),d=1,...,NoOfGlobalDirs(k)表示,即,
在第二步中,借助于可能的測試方向ΩTEST,q(這里稱為網格)的索引q=1,...,Q對集合中的方向進行編碼。對于每個方向ΩFB,d(k),d=1,...,NoOfGlobalDirs(k),相應的網格索引被編碼在具有個比特的大小的數組元素GlobalDirGridIndices(k)[d]中。表示所有編碼的全帶方向的總數組GlobalDirGridIndices(k)由NoOfGlobalDirs(k)個元素組成。
在第三步中,對于每個子帶或子帶組fj,j=1,...,F,第d方向子帶信號(d=1,...,DSB)是否有效(即,是否)的信息被編碼在數組元素bSubBandDirIsActive(k,fj)[d]中。總數組bSubBandDirIsActive(k,fj由DSB個元素組成。如果則借助于相應的全帶方向ΩFB,i(k)的索引i將相應的子帶方向ΩSB,d(k,fj編碼到數組RelDirIndices(k,fj)中,該數組RelDirIndices(k,fj)由DSB(k,fj)個元素組成。
為了示出這種方向編碼方法的效率,計算根據以上示例的方向的編碼表示的最大數據速率:假定F=10個子帶,每一個子帶DSB(k,fj)=DSB=4個方向,Q=900個潛在的測試方向,并且幀速率為每秒25幀。在傳統編碼方法的情況下,所需的數據速率為10kbit/s。在根據一個實施例的改進的編碼方法的情況下,如果全帶方向的數量假定為NoOfGlobalDirs(k)=D=8,則每幀需要個比特來對GlobalDirGridIndices(k)進行編碼,需要DSB·F=40個比特來對bSubBandDirIsActive(k,fj)進行編碼,并且需要DSB·F個比特來對RelDirIndices(k,fj)進行編碼。這導致240bits/frame·25frames/s=6kbit/s的數據速率,該數據速率明顯小于10kbit/s。即使對于更大數量NoOfGlobalDirs(k)D=16個全帶方向,僅7kbit/s的數據速率也是足夠的。
預測系數矩陣的編碼
對于預測系數矩陣的編碼,可以利用由于方向軌跡、因此方向子帶信號的平滑而導致連續幀的預測系數之間存在高度相關的事實。此外,對于每個預測系數矩陣A(k,fj),每一幀存在相對多的DSB(k,fj)·MC,ACT(k-1)個潛在的非零元素,其中,MC,ACT(k-1)表示集合中的元素的數量。如果不使用子帶組,則每幀總共存在F個矩陣要編碼。如果使用子帶組,則對應地每幀存在少于F個矩陣要編碼。
在一個實施例中,為了使用于每個預測系數的比特數保持低,每個復值預測系數由其幅值及其角度表示,并且然后對于矩陣A(k,fj)的每個特定元素獨立地且在連續幀之間差分編碼角度和幅值。如果幅值假定在區間[0,1]內,則幅值差位于區間[-1,1]內。復數的角度差可以假定位于區間[-π,π]內。對于幅值和角度差這二者的量化,相應的區間可以細分為例如相等大小的2NQ個子區間。直接的編碼于是對于每個幅值和角度差需要NQ個比特。此外,已實驗性地發現,由于以上提及的連續幀的預測系數之間的相關,單個的差的發生概率高度不均勻地分布。特別地,幅值中以及角度中的小的差比較大的差顯著更頻繁地發生。因此,基于將被編碼的單個的值的先驗概率的編碼方法,像例如哈夫曼編碼,可以用于顯著減少每一個預測系數的平均比特數。換句話說,已發現,通常有利的是對預測矩陣A(k,fj)中的值的幅值和相位、而不是它們的實部和虛部差分編碼。然而,可能出現實部和虛部的使用是可接受的情況。
在一個實施例中,以某些間隔(應用特定的,例如,每秒一次)發送特殊的訪問幀,這些訪問幀包括沒有差分編碼的矩陣系數。這允許解碼器從這些特殊的訪問幀重新開始差分解碼,因此使得能夠實現解碼的隨機輸入。
下面,描述如以上構造的低比特速率壓縮的HOA表示的解壓縮。解壓縮也是逐幀工作的。
原則上,根據實施例的低比特速率HOA解碼器包括上述低比特速率HOA編碼器組件的對應部分,這些對應部分以相反的次序布置。特別地,低比特速率HOA解碼器可以細分為如圖4所描繪的感知和源解碼部分以及如圖6所示的空間HOA解碼部分。
感知和源解碼
圖4示出了一個實施例中的感知和邊信息源解碼器40。在感知和邊信息源解碼器40中,低比特速率壓縮的HOA比特流首先被解復用41,這導致I個信號的感知編碼表示以及描述如何創建其HOA表示的編碼的邊信息接著,執行這I個信號的感知解碼以及邊信息的解碼。
感知解碼器42將I個信號解碼為感知解碼信號
邊信息源解碼器43將編碼的邊信息解碼為元組集合用于每個子帶或子帶組fj(j=1,...,F)的預測系數矩陣A(k+1,fj)、增益校正指數ei(k)和增益校正異常標志βi(k)、以及分配矢量vAMB,ASSIGN(k)。
算法2示例性地概述了如何從編碼的邊信息創建元組集合下面詳細地描述子帶方向的解碼。
首先,從編碼的邊信息提取全帶方向的數量NoOfGlobalDirs(k)。如上所述,這些也被用作子帶方向。它利用個比特編碼。
在第二步中,提取由NoOfGlobalDirs(k)個元素組成的數組GlobalDirGridIndices(k),每個元素通過個比特編碼。該數組包含表示全帶方向ΩFB,d(k),d=1,...,NoOfGlobalDirs(k)的網格索引,以使得
ΩFB,d(k)=ΩTEST,GlobalDirGridIndices(k)[d] (23)
然后,對于每個子帶或子帶組fj,j=1,...,F,提取由DSB個元素組成的數組bSubBandDirIsActive(k,fj),其中,第d元素bSubBandDirIsActive(k,fj)[d]指示第d子帶是否有效。此外,計算有效子帶方向DSB(k,fj)的總數。
最后,對于每個子帶或子帶組fj,j=1,...,F,計算元組的集合它由標識單個(有效)的子帶方向軌跡的索引以及相應的估計方向ΩSB,d(k,fj)組成。
接著,從編碼幀重構用于每個子帶或子帶組fj,j=1,...,F的預測系數矩陣A(k+1,fj)。在一個實施例中,重構包括每個子帶或子帶組fj的以下步驟:
首先,通過熵解碼來獲得每個矩陣系數的角度和幅值差。然后,熵解碼的角度和幅值差根據用于它們的編碼的比特數NQ重新縮放到它們的實際值范圍。最后,通過將重構的角度和幅值差與最近的系數矩陣A(k,fj)(即,前一個幀的系數矩陣)的系數相加來構建當前的預測系數矩陣A(k+1,fj)。
因此,對于當前矩陣A(k+1,fj)的解碼,必須知道前一個矩陣A(k,fj)。在一個實施例中,為了使得能夠隨機訪問,以某些間隔接收包括沒有差分編碼的矩陣系數的特殊的訪問幀以從這些幀重新開始差分解碼。
感知和邊信息源解碼器40將感知解碼信號元組集合預測系數矩陣A(k+1,fj)、增益校正指數ei(k)、增益校正異常標志βi(k)以及分配矢量vAMB,ASSIGN(k)輸出到隨后的空間HOA解碼器50。
空間HOA解碼
圖5示出了一個實施例中的示例性空間HOA解碼器50。空間HOA解碼器50從I個信號以及由邊信息解碼器43提供的上述邊信息創建重構的HOA表示。下面詳細地描述空間HOA解碼器50內的單個的處理單元。
逆增益控制
在空間HOA解碼器50中,感知解碼信號連同相關聯的增益校正指數ei(k)和增益校正異常標志βi(k)首先被輸入到一個或多個逆增益控制處理塊51。逆增益控制處理塊提供增益校正的信號幀在一個實施例中,I個信號中的每一個被饋送到如圖5中的單獨的逆增益控制處理塊51,以使得第i逆增益控制處理塊提供增益校正的信號幀逆增益控制的更詳細的描述從例如[9]第11.4.2.1獲知。
截斷的HOA重構
在截斷的HOA重構塊52中,I個增益校正的信號幀根據由分配矢量vAMB,ASSIGN(k)提供的信息重新分布(即,重新分配)到HOA系數序列矩陣,以使得截斷的HOA表示被重構。分配矢量vAMB,ASSIGN(k)包括I個分量,該I個分量對于每個傳送通道指示它包含原始HOA分量的哪個系數序列。此外,分配矢量的元素形成用于第k幀的所有接收的系數序列的索引(是指原始HOA分量)的集合
截斷的HOA表示的重構包括以下步驟:
第一,取決于分配矢量中的信息,解碼的中間表示
的單個的分量被設置為零或者被增益校正的信號幀的對應分量替換,即,
這意味著,如上所述,分配矢量的第i元素(在等式(26)中為n)指示第i系數替換解碼的中間表示矩陣的第n行中的
第二,通過將逆空間變換應用于內的頭OMIN個信號來執行它們的再相關,提供以下幀:
在該幀中,模式矩陣ΨMIN如等式(6)中那樣定義。該模式矩陣取決于分別對每個OMIN或NMIN預定義的給定方向,因此在編碼器和解碼器處都可以被獨立地構造。此外,OMIN(或NMIN)是根據慣例預先定義的。
最后,根據以下等式從再相關的信號以及中間表示的信號組成重構的截斷的HOA表示
分析濾波器組
為了進一步計算由預測的方向子帶信號表示的第二HOA分量,首先在一個或多個分析濾波器組53中將解壓縮的截斷的HOA表示的單個的系數序列n的每個幀分解為單個的子帶信號的幀對于每個子帶fj,j=1,...,F,可以將單個的HOA系數序列的子帶信號的幀收集到如下的子帶HOA表示中:
在HOA空間解碼級處應用的一個或多個分析濾波器組53與在HOA空間編碼級處的那些一個或多個分析濾波器組15是相同的,并且對于子帶組,應用來自HOA空間編碼級的分組。因此,在一個實施例中,分組信息被包括在編碼信號中。下面提供關于分組信息的更多細節。
在一個實施例中,對于HOA壓縮級處的截斷的HOA表示的計算(參見以上,等式(4)附近)考慮最大階數NMAX,并且使HOA壓縮器和解壓縮器的分析濾波器組15、53的應用僅限于具有索引n=1,...,OMAX的那些HOA系數序列具有索引n=OMAX+1,...,O的子帶信號幀然后可以被設置為零。
方向子帶HOA表示的合成
對于每個子帶或子帶組,在一個或多個方向子帶合成塊54中合成方向子帶或子帶組HOA表示在一個實施例中,為了避免由于連續幀之間的方向和預測系數的變化而導致的偽像,方向子帶HOA表示的計算基于重疊相加的概念。因此,在一個實施例中,與第fj子帶(j=1,...,F)相關的有效方向子帶信號的HOA表示被計算為漸減的分量和漸增的分量的和:
在第一步中,為了計算這兩個單個的分量,通過以下等式來計算與用于幀k1∈{k,k+1}的預測系數矩陣A(k1,fj)以及用于第k幀的截斷的子帶HOA表示相關的所有方向子帶信號的瞬時幀:
對于子帶組,將每個組的HOA表示乘以固定矩陣A(k1,fj)來創建該組的子帶信號
在第二步中,相對于方向ΩSB,d(k,fj)的方向子帶信號的瞬時子帶HOA表示被獲得為:
其中,表示相對于方向ΩSB,d(k,fj)的模式矢量(如等式(7)中的模式矢量)。對于子帶組,對該組的所有信號執行等式(32),其中,矩陣ψ(ΩSB,d(k,fj))對于每個組是固定的。
假定矩陣和將通過以下等式由它們的采樣組成:
則有效方向子帶信號的HOA表示的漸減分量和漸增分量的采樣值最后通過以下等式確定:
其中,矢量
表示重疊相加窗函數。窗函數的示例由周期性Hann窗給出,該周期性Hann窗的元素通過以下等式定義:
子帶HOA組成
對于每個子帶或子帶組fj,j=1,...,F,解碼的子帶HOA表示的系數序列被設置為截斷的HOA表示的系數序列,如果它以前被傳送的話,否則被設置為由方向子帶合成塊54中的一個提供的方向HOA分量的系數序列,即,
該子帶組成由一個或多個子帶組成塊55執行。在實施例中,單獨的子帶組成塊55被用于每個子帶或子帶組,因此用于所述一個或多個方向子帶合成塊54中的每一個。在一個實施例中,方向子帶合成塊54及其對應的子帶組成塊55集成到單個塊中。
合成濾波器組
在最后一步中,從所有解碼的子帶HOA表示合成解碼的HOA表示。解壓縮的HOA表示的單個的時域系數序列由一個或多個合成濾波器組56從對應的子帶系數序列合成,所述一個或多個合成濾波器組56最后輸出解壓縮的HOA表示
注意,由于連續應用分析和合成濾波器組53、56,合成的時域系數序列通常具有延遲。
圖8示例性地示出了對于單個頻率子帶f1,有效方向候選的集合、它們的被選軌跡以及對應的元組集合。在幀k中,四個方向在頻率子帶f1中有效。這些方向屬于相應的軌跡T1、T2、T3和T5。在前面的幀k-2和k-1中,不同的方向有效,即,分別為T1、T2、T6和T1-T4。幀k中的有效方向的集合MDIR(k)涉及全帶,并且包括幾個有效方向候選,例如,MDIR(k)={Ω3,Ω8,Ω52,Ω101,Ω229,Ω446,Ω581}。每個方向可以以任何方式表達,例如,由兩個角度表達或者表達為預定義表格的索引。從有效的全帶方向的集合,在子帶中實際有效的那些方向以及它們對應的軌跡針對每個頻率子帶單獨地被收集在元組集合MDIR(k,fj),j=1,...,F中。例如,在幀k的第一頻率子帶中,有效方向為Ω3、Ω52、Ω229和Ω581,并且它們的相關聯的軌跡分別為T3、T1、T2和T5。在第二頻率子帶f2中,有效方向示例性地僅為Ω52和Ω229,并且它們的相關聯的軌跡分別為T1和T2。
下面是與示例性集合IC,ACT(k)={1,2,4,6}中的系數序列對應的示例性截斷的HOA表示CT(k)的系數矩陣的一部分:
根據IC,ACT(k),僅行1、2、4和6的系數不被設置為零(然而,它們可以為零,這取決于信號)。矩陣CT(k)的每一列是指一個采樣,并且該矩陣的每一行是系數序列。壓縮包括并非所有的系數序列被編碼和傳送,而是僅一些選擇的系數序列(即,其索引分別包括在IC,ACT(k)和分配矢量vA(k)中的那些系數序列)被編碼和傳送。在解碼器處,系數被解壓縮,并且被定位到重構的截斷的HOA表示的正確的矩陣行中。關于行的信息從分配矢量vAMB,ASSIGN(k)獲得,該分量矢量vAMB,ASSIGN(k)另外還提供用于每個傳送的系數序列的傳輸通道。剩余的系數序列利用零填充,并且以后根據接收的邊信息(例如,子帶或子帶組相關的預測矩陣和方向)從接收的(通常是非零的)系數預測。
子帶分組
在一個實施例中,所使用的子帶具有適應人類聽覺的心理聲學性質的不同帶寬。可替代地,組合來自分析濾波器組53的若干子帶以便形成具有擁有不同帶寬的子帶的適合的濾波器組。來自分析濾波器組53的一組相鄰子帶使用相同的參數進行處理。如果使用多組組合的子帶,則在編碼器側應用的對應的子帶配置對于解碼器側必須是已知的。在實施例中,配置信息被傳送,并且被解碼器使用以設置其合成濾波器組。在實施例中,配置信息包括用于多個預定義的已知配置(例如,在列表中)之中的一個配置的標識符。
在另一個實施例中,使用以下靈活的解決方案,該解決方案減少定義子帶配置所需的比特數。為了對子帶配置進行高效編碼,第一個、倒數第二個和最后一個子帶組的數據被與其它子帶組不同地對待。此外,在編碼中使用子帶組帶寬差值。原則上,子帶分組信息編碼方法適合于對針對音頻信號的一個或多個幀奏效的子帶組的子帶配置數據進行編碼,其中,每個子帶組是一個或多個相鄰的原始子帶的組合,并且原始子帶的數量是預先定義的。在一個實施例中,后一個子帶組的帶寬大于或等于當前子帶組的帶寬。該方法包括利用表示NSB-1的固定比特數對NSB個子帶組進行編碼,并且如果NSB>1,則對于第一子帶組g1,利用表示BSB[1]-1的一元碼對帶寬值BSB[1]進行編碼。如果NSB=3,則對于第二子帶組g2,編碼具有固定比特數的帶寬差值ΔBSB[2]=BSB[2]-BSB[1]。如果NSB>3,則對于子帶組利用一元碼對對應數量的帶寬差值ΔBSB[q]=BSB[q]-BSB[g-1]進行編碼,并且對于最后一個子帶組編碼具有固定比特數的帶寬差值ΔBSB[NSB-1]=BSB[NSB-1]-BSB[NSB-2]。子帶組的帶寬值被表達為若干相鄰的原始子帶。對于最后一個子帶組gSB,沒有對應的值需要包括在編碼的子帶配置數據中。
圖9示出了傳統的MPEG-H 3D音頻編碼器的HOA編碼路徑的一般化框圖。提取兩種類型的主要聲音信號:方向聲音提取塊DSE中的方向信號以及VVec聲音提取塊VSE中的基于矢量的信號VVec。屬于基于矢量的信號VVec的矢量(V-vector)表示聲場對于對應的基于矢量的信號的空間分布。此外,環境分量也被在用于殘留/環境CRA的計算器中被編碼,由此來自方向聲音提取塊DSE和VVec聲音提取塊VSE的輸出數據中的任何一個或兩個可以被使用,或者均不被使用。環境信號經受空間分辨率降低塊SRR、部分去相關PD以及增益控制GCA。框內的塊由聲音場景分析SSA控制。在被饋送到通用語音和音頻編碼器USAC3D中之前,主要聲音信號還被相應的增益控制塊GCD、GCV處理。最后,USAC3D編碼器ENCC&HEPC將HOA空間邊信息包裝到HOA擴展有效載荷中。
圖10示出了根據一個實施例的MPEG中可用的改進的音頻編碼器。所公開的技術以用于低帶寬的比特流是已知的MPEG-H 3D音頻格式的真正超集的方式對目前的MPEG-H 3D音頻系統進行修正。與圖9相比,在聲音場景分析SSA中,添加了包括兩個新的塊的路徑。這些是應用于環境信號的QMF分析濾波器組QAC以及用于計算方向子帶信號的參數的方向子帶計算塊DSCC。這些參數允許基于發送的環境信號來合成方向信號。另外,計算允許再現丟失的環境信號的參數。用于合成處理的邊信息參數被移交給USAC3D編碼器ENC&HEP,該USAC3D編碼器ENC&HEP將它們包裝到壓縮的輸出信號HOAC,O的HOA擴展有效載荷中。有利地,壓縮比利用圖9的布置實現的傳統壓縮更高效。
圖11示出了傳統的MPEG-H 3D音頻解碼器的一般化框圖。首先,從壓縮的輸入比特流HOAC,I提取HOA邊信息,并且USAC3D和HOA擴展有效載荷解碼器DECC&HEPC再現傳送通道波形信號。這些被饋送到對應的逆增益控制塊IGCD、IGCV、IGCA中。這里,編碼器中應用的規范化反向。對應的傳送信號與邊信息一起用來分別在HOA方向聲音合成塊DSS和/或VVec聲音合成塊VSS中合成主要聲音信號(方向和/或基于矢量的)。在第三路徑中,環境分量由逆部分去相關IPD和HOA環境合成HAS塊再現。后面的HOA組成塊HCC組合主要聲音分量和環境來構建解碼的HOA信號。這被饋送到HOA渲染器HR以生成輸出信號HOA’D,O,即,最終的擴音器饋送。
圖12示出了根據一個實施例的MPEG中可用的改進的音頻解碼器。如編碼器中那樣,添加了路徑。它包括用于計算子帶信號的解碼器側QMF分析塊QAD以及用于合成參數化編碼的方向子帶信號的方向子帶信號合成塊DSCD。計算的子帶信號與對應的傳送的邊信息一起用來合成方向信號的HOA表示。隨后,合成的信號分量使用QMF合成濾波器組OS被變換到時域中。它的輸出信號另外被饋送到增強HOA組成塊HC中。后面的用于提供解碼的HOA輸出信號HOAD,O的HOA渲染塊HR保持不變。
下面,對高階高保真立體聲的一些基本特征進行解釋。
高階高保真立體聲(HOA)是基于感興趣的緊湊區域內的聲場的描述,該區域假定是沒有聲源的。在該情況下,在感興趣區域內的位置x、時間t處的聲壓p(t,x)的時空行為在物理上完全由齊次波方程式確定。下面,我們假定如圖6所示的球坐標系。在該坐標系中,x軸指向前面的位置,y軸指向左邊,z軸指向頂部。空間x=(r,θ,φ)T中的位置由半徑r>0(即,到坐標原點的距離)、從極軸z(!)測量的傾角θ∈[0,π]、以及在x-y平面中從x軸逆時針測量的方位角φ∈[0,2π[表示。此外,(·)T表示轉置。
于是,可以證明[11],由所表示的相對于時間的聲壓的傅里葉變換,即,
(其中,ω表示角頻率,并且i指示虛數單位)可以根據以下等式展開為球諧級數:
在等式(42)中,cs表示聲音的速度,并且k表示角波數,其通過與角頻率ω相關。此外,jn(·)表示第一類的球貝塞爾函數,并且表示以上定義的階數n和次數m的實值球諧函數。展開系數僅取決于角波數k。注意,已隱含地假定聲壓是空間帶限的。因此,級數相對于階數索引n在上限N處被截斷,該上限N被稱為HOA表示的階數。
如果聲場由從角度元組(θ,φ)指定的所有可能的方向到達且無限數量的不同角頻率ω的平面諧波的疊加來表示,則可以證明[10],相應的平面波復數幅度函數C(ω,θ,φ)可以由以下球諧函數展開來表達:
其中,展開系數通過以下等式與展開系數相關:
假定單個的系數是角頻率ω的函數,則逆傅里葉變換(由表示)的應用對于每個階數n和次數m提供以下時域函數:
這些時域函數在這里被稱為連續時間HOA系數序列,這些HOA系數序列可以通過以下等式收集在單個矢量c(t)中:
HOA系數序列在矢量c(t)內的位置索引由n(n+1)+1+m給出。
矢量c(t)中的元素的總數由O=(N+1)2給出。
最終的高保真立體聲格式如下使用采樣頻率fS提供c(t)的采樣版本:
其中,TS=1/fS表示采樣周期。c(lTS)的元素在這里被稱為離散時間HOA系數序列,其可以證明為總是實值。該性質顯然對于連續時間版本也成立。
實值球諧函數的定義
實值球諧函數(采用SN3D規范化[1,第3.1章])由以下等式給出:
其中,
相關聯的勒讓德(Legendre)函數Pn,m(x)利用勒讓德多項式Pn(x)定義為:
并且不同于[11]中那樣,沒有Condon-Shortley相位項(-1)m。
在一個實施例中,用于HOA信號表示(從復值濾波器組獲得)的子帶或子帶組內的主導方向信號的方向的逐幀確定和高效編碼的方法包括:
對于每個當前幀k:確定HOA信號中的全帶方向候選的集合MDIR(k)、集合MDIR(k)中的元素的數量NoOfGlobalDirs以及對該數量的元素進行編碼所需的數量D(k)=log2(NoOfGlobalDirs),其中,每個全帶方向候選具有與預定義的Q個可能的方向的全集相關的全局索引q(q∈[1,...,Q]),
對于當前幀k的每個子帶或子帶組j,確定集合MDIR(k)中的全帶方向候選中的哪些方向作為有效子帶方向發生,確定子帶或子帶組中的任何一個中的作為有效子帶方向發生的使用的全帶方向候選(全部包含在HOA信號中的全帶方向候選的集合MDIR(k)中)的集合MFB(k)、以及使用的全帶方向候選的集合MFB(k)中的元素的數量NoOfGlobalDirs(k),并且
對于當前幀k的每個子帶或子帶組j:確定集合MDIR(k)中的全帶方向候選之中的多達d(d∈[1,...,D])個方向中的哪些方向是有效子帶方向,對于每個有效子帶方向確定軌跡和軌跡索引,并將軌跡索引分配給每個有效子帶方向,并且
利用D(k)個比特通過相對索引對當前子帶或子帶組j中的每個有效子帶方向進行編碼。
在一個實施例中,計算機可讀介質具有存儲在其上的可執行指令,以使計算機執行該用于主導方向信號的方向的逐幀確定和高效編碼的方法。
此外,在一個實施例中,用于HOA信號表示的子帶內的主導方向信號的方向的解碼的方法包括以下步驟:接收將被解碼的HOA信號表示的最大數量D個方向的索引,重構將被解碼的HOA信號表示的最大數量D個方向中的方向,接收每一個子帶的有效方向信號的索引,從將被解碼的HOA信號表示的重構的D個方向以及每一個子帶的有效方向信號的索引重構每一個子帶的有效方向,預測子帶的方向信號,其中,子帶的當前幀中的方向信號的預測包括確定該子帶的前一個幀的方向信號,并且其中,如果方向信號的索引在前一個幀中為零、而在當前幀中為非零,則創建新的方向信號,如果方向信號的索引在前一個幀中為非零、而在當前幀中為零,則取消前一方向信號,并且如果方向信號的索引從第一方向變為第二方向,則將該方向信號的方向從第一方向移動到第二方向。
在一個實施例中,如圖1和圖3所示,并且如以上所討論的,用于對具有給定數量的系數序列(其中,每個系數序列具有索引)的輸入的HOA信號的幀進行編碼的裝置包括至少一個硬件處理器和非暫時性的有形計算機可讀存儲介質,該計算機可讀存儲介質有形地包含至少一個軟件組件,該軟件組件當在所述至少一個硬件處理器上執行行時使硬件處理器:
計算11具有數量減少的非零系數序列的截斷的HOA表示CT(k),
確定11截斷的HOA表示中所包括的有效的系數序列的索引的集合IC,ACT(k),
從輸入的HOA信號估計16候選方向的第一集合MDIR(k);
將輸入的HOA信號劃分15為多個頻率子帶f1,...,fF,其中,獲得頻率子帶的系數序列
對于每個頻率子帶估計16方向的第二集合MDIR(k,f1),...,MDIR(k,fF),其中,方向的第二集合的每個元素是具有第一索引和第二索引的索引元組,第二索引是當前頻率子帶的有效方向的索引,而第一索引是有效方向的軌跡索引,其中,每個有效方向也包括在輸入的HOA信號的候選方向的第一集合MDIR(k)中,
對于每個頻率子帶,根據相應頻率子帶的方向的第二集合MDIR(k,f1),...,MDIR(k,fF)從頻率子帶的系數序列計算17方向子帶信號Xk-1,k,f1,...,Xk-1,k,fF,
對于每個頻率子帶,使用相應頻率子帶的有效的系數序列的索引的集合IC,ACT(k)從頻率子帶的系數序列計算18適于預測方向子帶信號的預測矩陣A(k,f1),...,A(k,fF),并且
對候選方向的第一集合MDIR(k)、方向的第二集合MDIR(k,f1),...,MDIR(k,fF)、預測矩陣A(k,f1),...,A(k,fF)以及截斷的HOA表示CT(k)進行編碼。
在一個實施例中,如圖4和圖5所示,并且如以上所討論的,用于對壓縮的HOA表示進行解碼的裝置包括至少一個硬件處理器和非暫時性的有形計算機可讀存儲介質,該計算機可讀存儲介質有形地包含至少一個軟件組件,該軟件組件當在所述至少一個硬件處理器上執行時使硬件處理器:從壓縮的HOA表示提取41、42、43多個截斷的HOA系數序列指示或包含所述截斷的HOA系數序列的序列索引的分配矢量vAMB,ASSIGN(k)、子帶相關的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)、多個預測矩陣A(k+1,f1),...,A(k+1,fF)、以及增益控制邊信息e1(k),β1(k),...,eI(k),βI(k);
從所述多個截斷的HOA系數序列增益控制邊信息e1(k),β1(k),...,eI(k),βI(k)以及分配矢量vAMB,ASSIGN(k)重構51、52截斷的HOA表示
在一個或多個分析濾波器組53中將重構的截斷的HOA表示分解為多個即F個頻率子帶的頻率子帶表示
在方向子帶合成塊54中對于每個頻率子帶表示,從重構的截斷的HOA表示的相應的頻率子帶表示子帶相關的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)以及預測矩陣A(k+1,f1),...,A(k+1,fF)合成54預測的方向HOA表示
在子帶組成塊55中對于所述F個頻率子帶中的每一個,組成55具有系數序列的解碼的子帶HOA表示所述系數序列從截斷的HOA表示的系數序列獲得,如果系數序列具有包括在分配矢量vAMB,ASSIGN(k)中的索引n的話,否則從由方向子帶合成塊54中的一個提供的預測的方向HOA分量的系數序列獲得;以及在一個或多個合成濾波器組56中合成56解碼的子帶HOA表示以獲得解碼的HOA表示
在一個實施例中,用于對具有給定數量的系數序列(其中,每個系數序列具有索引)的輸入的HOA信號的幀進行編碼的裝置10包括:計算和確定模塊11,其被配置為計算具有數量減少的非零系數序列的截斷的HOA表示CT(k),并且被進一步配置為確定包括在截斷的HOA表示中的有效系數序列的索引的集合IC,ACT(k);
分析濾波器組模塊15,其被配置為將輸入的HOA信號劃分為多個頻率子帶f1,...,fF,,其中,獲得所述頻率子帶的系數序列
方向估計模塊16,其被配置為從輸入的HOA信號估計候選方向的第一集合MDIR(k),并且被進一步配置為對于每個頻率子帶,估計方向的第二集合MDIR(k,f1),...,MDIR(k,fF),其中,方向的第二集合的每個元素是具有第一索引和第二索引的索引元組,第二索引是當前頻率子帶的有效方向的索引,而第一索引是有效方向的軌跡索引,其中,每個有效方向也包括在輸入的HOA信號的候選方向的第一集合MDIR(k)中;至少一個方向子帶計算模塊17,其被配置為對于每個頻率子帶,根據相應頻率子帶的方向的第二集合MDIR(k,f1),...,MDIR(k,fF)從頻率子帶的系數序列計算方向子帶信號至少一個方向子帶預測模塊18,其被配置為對于每個頻率子帶,使用相應頻率子帶的有效系數序列的索引集合IC,ACT(k)從頻率子帶的系數序列計算適于預測方向子帶信號的預測矩陣A(k,f1),...,A(k,fF);以及編碼模塊30,其被配置為對候選方向的第一集合MDIR(k)、方向的第二集合MDIR(k,f1),...,MDIR(k,fF)、預測矩陣A(k,f1),...,A(k,fF)以及截斷的HOA表示CT(k)進行編碼。
在一個實施例中,所述裝置進一步包括:部分去相關器12,其被配置為對截斷的HOA通道序列進行部分去相關;通道分配模塊13,其被配置為將截斷的HOA通道序列y1(k),...,yI(k)分配給傳輸通道;以及至少一個增益控制單元14,其被配置為對傳輸通道執行增益控制,其中,產生用于每個傳輸通道的增益控制邊信息ei(k-1),βi(k-1)。
在一個實施例中,編碼模塊30包括:感知編碼器31,其被配置為對增益控制的截斷的HOA通道序列z1(k),...,zI(k)進行編碼;邊信息源編碼器32,其被配置為對增益控制邊信息ei(k-1),βi(k-1)、候選方向的第一集合MDIR(k)、方向的第二集合MDIR(k,f1),...,MDIR(k,fF)以及預測矩陣A(k,f1),...,A(k,fF)進行編碼;以及復用器33,其被配置為對感知編碼器31和邊信息源編碼器32的輸出進行復用以獲得編碼的HOA信號幀
在一個實施例中,用于對HOA信號進行解碼的裝置50包括:
提取模塊40,其被配置為從壓縮的HOA表示提取多個截斷的HOA系數序列指示或包含所述截斷的HOA系數序列的序列索引的分配矢量vAMB,ASSIGN(k)、子帶相關的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)、多個預測矩陣A(k+1,f1),...,A(k+1,fF)、以及增益控制邊信息e1(k),β1(k),...,eI(k),βI(k);重構模塊51、52,其被配置為從所述多個截斷的HOA系數序列增益控制邊信息e1(k),β1(k),...,eI(k),βI(k)以及分配矢量vAMB,ASSIGN(k)重構截斷的HOA表示分析濾波器組模塊53,其被配置為將重構的截斷的HOA表示分解為多個即F個頻率子帶的頻率子帶表示至少一個方向子帶合成模塊54,其被配置為對于每個頻率子帶表示,從重構的截斷的HOA表示的相應的頻率子帶表示子帶相關的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)以及預測矩陣A(k+1,f1),...,A(k+1,fF)合成預測的方向HOA表示
至少一個子帶組成模塊55,其被配置為對于所述F個頻率子帶中的每一個,組成具有系數序列的解碼的子帶HOA表示如果系數序列具有包括在分配矢量vAMB,ASSIGN(k)中的索引n,則所述系數序列從截斷的HOA表示的系數序列獲得,否則從由方向子帶合成塊54中的一個提供的預測的方向HOA分量的系數序列獲得;以及
合成濾波器組模塊56,其被配置為合成解碼的子帶HOA表示以獲得解碼的HOA表示
在一個實施例中,提取模塊40至少包括:解復用器41,其用于獲得編碼的邊信息部分和感知編碼的部分,該感知編碼的部分包括編碼的截斷的HOA系數序列感知解碼器42,其被配置為對編碼的截斷的HOA系數序列進行感知解碼s42以獲得截斷的HOA系數序列以及邊信息源解碼器43,其被配置為對編碼的邊信息進行解碼(s43)以獲得子帶相關的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)、預測矩陣A(k+1,f1),...,A(k+1,fF)、增益控制邊信息e1(k),β1(k),...,eI(k),βI(k)以及分配矢量vAMB,ASSIGN(k)。
圖13示出了一個實施例中的低比特速率編碼方法的流程圖。用于具有給定數量的系數序列(其中,每個系數序列具有索引)的輸入的HOA信號的幀的低比特速率編碼的方法包括:
計算s110具有數量減少的非零系數序列的截斷的HOA表示CT(k);確定s111截斷的HOA表示中包括的有效系數序列的索引的集合IC,ACT(k);從輸入的HOA信號估計s16候選方向的第一集合MDIR(k);將輸入的HOA信號劃分s15為多個頻率子帶f1,...,fF,其中,獲得所述頻率子帶的系數序列對于每個頻率子帶,估計s161方向的第二集合MDIR(k,f1),...,MDIR(k,fF),其中,方向的第二集合的每個元素是具有第一索引和第二索引的索引元組,第二索引是當前頻率子帶的有效方向的索引,而第一索引是有效方向的軌跡索引,其中,每個有效方向也包括在輸入的HOA信號的候選方向的第一集合MDIR(k)中;
對于每個頻率子帶,根據相應頻率子帶的方向的第二集合MDIR(k,f1),...,MDIR(k,fF)從頻率子帶的系數序列計算s17方向子帶信號Xk-1,k,f1,...,Xk-1,k,fF;
對于每個頻率子帶,使用相應頻率子帶的有效系數序列的索引的集合IC,ACT(k)從頻率子帶的系數序列計算s18適于預測方向子帶信號的預測矩陣A(k,f1),...,A(k,fF);以及對候選方向的第一集合MDIR(k)、方向的第二集合MDIR(k,f1),...,MDIR(k,fF)、預測矩陣A(k,f1),...,A(k,fF)以及截斷的HOA表示CT(k)進行編碼s19。
在一個實施例中,所述對截斷的HOA表示CT(k)進行編碼包括截斷的HOA通道序列的部分去相關s12、用于將截斷的HOA通道序列y1(k),...,yI(k)分配給傳輸通道的通道分配s13、對每個傳輸通道執行增益控制s14(其中,產生用于每個傳輸通道的增益控制邊信息ei(k-1),βi(k-1))、在感知編碼器31中對增益控制的截斷的HOA通道序列z1(k),...,zI(k)進行編碼s31、在邊信息源編碼器32中對增益控制邊信息ei(k-1),βi(k-1)、候選方向的第一集合MDIR(k)、方向的第二集合MDIR(k,f1),...,MDIR(k,fF)以及預測矩陣A(k,f1),...,A(k,fF)進行編碼s32、以及對感知編碼器31和邊信息源編碼器32的輸出進行復用以獲得編碼的HOA信號幀
在一個實施例中,用于對具有給定數量的系數序列(其中,每個系數序列具有索引)的輸入的HOA信號的幀進行編碼的裝置包括處理器和存儲指令的存儲器,這些指令當被處理器執行時使處理器執行權利要求8的步驟。
圖14示出了一個實施例中的解碼方法的流程圖。用于對低比特速率壓縮的HOA表示進行解碼的方法包括:從壓縮的HOA表示提取s41、s42、s43多個截斷的HOA系數序列指示或包含所述截斷的HOA系數序列的序列索引的分配矢量vAMB,ASSIGN(k)、子帶相關的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)、多個預測矩陣A(k+1,f1),...,A(k+1,fF)、以及增益控制邊信息e1(k),β1(k),...,eI(k),βI(k);從所述多個截斷的HOA系數序列增益控制邊信息e1(k),β1(k),...,eI(k),βI(k)以及分配矢量vAMB,ASSIGN(k)重構s51、s52截斷的HOA表示在分析濾波器組53中將重構的截斷的HOA表示分解s53為多個即F個頻率子帶的頻率子帶表示在方向子帶合成塊54中對于每個頻率子帶表示,從重構的截斷的HOA表示的相應的頻率子帶表示子帶相關的方向信息MDIR(k+1,f1),...,MDIR(k+1,fF)以及預測矩陣A(k+1,f1),...,A(k+1,fF)合成s54預測的方向HOA表示在子帶組成塊55中對于所述F個頻率子帶中的每一個,組成s55具有系數序列的解碼的子帶HOA表示如果系數序列具有包括在分配矢量vAMB,ASSIGN(k)中的索引n,則所述系數序列從截斷的HOA表示的系數序列獲得,否則從由方向子帶合成塊54中的一個提供的預測的方向HOA分量的系數序列獲得;以及在合成濾波器組56中合成s56解碼的子帶HOA表示以獲得解碼的HOA表示
在實施例中,提取包括以下操作中的一個或多個:對壓縮的HOA表示進行解復用s41以獲得感知編碼的部分和編碼的邊信息部分、對解碼的截斷的HOA系數序列進行感知解碼s42、以及在邊信息源解碼器43中對編碼的邊信息進行解碼s43。在實施例中,從所述多個截斷的HOA系數序列重構截斷的HOA表示包括以下操作中的一個或多個:執行逆增益控制s51、以及重構s52截斷的HOA表示
在一個實施例中,計算機可讀介質具有存儲在其上的可執行指令,以使計算機執行所述用于主導方向信號的方向的解碼的方法。
在一個實施例中,用于對壓縮的HOA信號進行解碼的裝置包括處理器和存儲指令的存儲器,這些指令當被處理器執行時使處理器執行權利要求1的步驟。
明確的意圖是以實現相同結果的基本上相同的方式執行基本上相同的功能的那些元件的所有組合在本發明的范圍內,并且在說明書和(在適當情況下)權利要求以及附圖中公開的每個特征可以獨立地或者以任何適當的組合提供。在適當的情況下,特征可以以硬件、軟件或這二者的組合來實現。在適用的情況下,連接可以實現為無線連接或有線的、但不一定是直接的或專用的連接。在一個實施例中,以上提及的模塊或單元(諸如提取模塊、增益控制單元、子帶信號分組單元、處理單元及其它)中的每一個至少部分通過使用至少一個硅組件來以硬件實現。
參考文獻
[1] Daniel.Représentation de champs acoustiques,application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia.PhD thesis,UniversitéParis 6,2001年.
[2] Fliege和Ulrike Maier.A two-stage approach for computing cubature formulae for the sphere.Technical report,Fachbereich Mathematik, Dortmund,1999年.節點號在http://www.mathematik.uni-dortmund.de/lsx/research/projects/fliege/nodes/nodes.html上找到.
[3]Sven Kordon和Alexander Krueger.Adaptive value range control for HOA signals.專利申請(Technicolor內部參考:PD130016),2013年7月.
[4]Alexander Krueger和Sven Kordon.Intelligent signal extraction and packing for compression of HOA sound field representations.專利申請EP 13305558.2(Technicolor內部參考:PD130015),2013年4月29日提交.
[5]A.Krueger、S.Kordon和J.Boehm.HOA compression by decomposition into directional and ambient components.公開的專利申請EP2743922(Technicolor內部參考:PD120055),2012年12月.
[6]Alexander Krüger、Sven Kordon、Johannes Boehm和Jan-Mark Batke.Method and apparatus for compressing and decompressing a higher order ambisonics signal representation.公開的專利申請EP2665208(Technicolor內部參考:PD120015),2012年5月.
[7]Alexander Krüger.Method and apparatus for robust sound source direction tracking based on Higher Order Ambisonics.公開的專利申請EP2738962(Technicolor內部參考:PD120049),2012年12月.
[8]Daniel D.Lee和H.Sebastian Seung.Learning the parts of objects by nonnegative matrix factorization.Nature,401:788–791,1999年.
[9]ISO/IEC JTC 1/SC 29N.Text of ISO/IEC 23008-3/CD,MPEG-H 3d audio,2014年4月.
[10]Boaz Rafaely.Plane-wave decomposition of the sound field on a sphere by spherical convolution.J.Acoust.Soc.Am.,4(116):2149–2157,2004年10月.
[11]Earl G.Williams.Fourier Acoustics,volume 93of Applied Mathematical Sciences.Academic Press,1999年.