專利名稱:用于低比特率音頻編碼應用的高效可標度參數立體聲編碼的制作方法
技術領域:
本發明涉及低比特率音頻源編碼系統。介紹了輸入信號的立體聲特性的不同參數表示,解釋了它們在解碼器一側上的應用,從頻譜包絡的偽立體聲到完全的立體聲編碼,后者尤其適合于基于HFR(高頻重建)的編解碼器。
背景技術:
音頻源編碼技術可以分成兩類自然音頻編碼和語音編碼。在中到高的比特率上,通常將自然音頻編碼用于語音和音樂信號,并能進行立體聲傳輸和再現。在僅能獲得低比特率的應用中,例如目標為具有慢速電話調制解調器連接的用戶的互聯網流式音頻,或者在新興的數字調幅廣播系統中,不可避免地需要進行音頻節目資料的單聲道編碼。然而,依然希望有立體聲印象,尤其當使用耳機收聽時,在這種情況下,純單聲道信號給人的感覺像是從“頭內”產生的,這可能是一種很不舒服的感覺。
解決這個問題的一種方法是在解碼器一側上利用所接收的純單聲道信號合成出一個立體聲信號。近年來,已經推薦了幾種不同的“偽立體聲”生成器。例如在美國專利US5,883,962中,描述了通過向未處理的信號添加一個延遲/相移形式的信號來增強單聲道信號,從而建立一種立體聲幻覺。在這種方法中,以電平相等但是符號相反,對于兩個輸出中的每個輸出將處理后信號添加給原始信號,保證了如果兩個聲道隨后在信號路徑中疊加則消除增強信號。在PCTWO98/57436中,描述了一種類似的系統,盡管沒有上述增強信號的單聲道的兼容性。現有技術方法的共同點在于將它們作為純粹的后處理來使用。換句話說,解碼器不能獲知立體聲寬度的信息,更不用說在立體聲錄音室內的位置。因此,偽立體聲信號可能有也可能沒有原信號的立體聲特性的類似之處。現有技術系統不適用的一種具體的情況是當原信號是一個純單聲道信號時,這通常是在語音錄音的情況下。在解碼器上將這個單聲道信號盲目地轉換成一個合成立體聲信號,在語音情況下這通常將導致令人不舒服的人為加工感覺,并可能降低清晰度和語音可理解性。
目的在于在低比特率上的真實立體聲傳輸的其它現有技術系統通常使用一種求和和差值編碼方案。因此,將原始的左(L)和右(R)信號轉換成一個求和信號S=(L+R)/2和一個差值信號D=(L-R)/2,隨后編碼和傳輸。接收機解碼S和D信號,在此基礎上通過操作L=S+D和R=S-D重新建立原始的L/R信號。這種方法的優點在于隨時可以使用L和R之間的冗余,因此與S相比,需要編碼的D內的信息更少,需要更少的比特。顯然,極端情況是純單聲道信號,即L和R相等。傳統的L/R編解碼器兩次編碼這個單聲道信號,而一個S/D編解碼器檢測這個冗余,D信號(理想上)不需要任何比特。另一種極端情況用與“異相”信號對應的R=-L的情況來表示。現在,S信號為零,而D信號計算為L。同樣,S/D方案與標準的L/R編碼相比具有明顯的優點。然而,考慮例如在信號通路中R=0的情況,這在早期的立體聲錄音中是很常見的。S和D都等于L/2,S/D方案并不提供任何優點。相反,L/R編碼方法將這種情況處理得很好R信號并不需要任何比特。因此,現有技術的編解碼器根據在給定瞬間哪種方法最有益而在這兩種編碼方案之間自適應地切換。上面的例子僅是理論性的(除了雙單聲道的情況之外,雙單聲道的情況在純語音的節目中很普遍)。因此,實際的立體聲節目資料包含大量的立體聲信息,即使執行上述切換,所獲得的比特率對于許多應用來說通常依然太高。此外,如從上面的重新合成關系可以看出的,為了進一步降低比特率而非常粗糙地量化D信號也是不可行的,因為量化誤差將轉換成在L和R信號中不可忽略的電平誤差。
發明概述本發明在編碼和傳輸之前使用信號立體聲特性的檢測。在最簡單的形式中,檢測器測量在輸入的立體聲信號中出現的立體聲感覺的量值。然后,將這個量值作為立體聲寬度參數和原始信號的編碼單聲道之和一起傳輸。接收機使用受所述參數控制的偽立體聲生成器解碼這個單聲道信號,并應用適當的立體聲寬度量值。作為一種特殊的情況,作為一個零立體聲寬度來傳輸一個單聲道輸入信號,并相應地在解碼器中不使用立體聲合成。根據本發明,例如,可以根據原始左右聲道的差值信號或互相關來確定立體聲寬度的有用測量值。可以將如此計算出的量值映射成少量的狀態,實時地或者根據需要地在合適的固定速率上傳輸這些狀態。本發明還教導了如何濾波合成的立體聲分量,從而降低不能掩蔽通常與低比特率編碼信號有關的編碼人工噪聲的風險。
可選擇地,在編碼器內檢測立體聲域內的整體立體聲平衡或定位。這個信息可選地與上述寬度參數一起作為一個平衡參數與編碼的單聲道信號一起有效地傳輸。因而,通過相應地改變兩個輸出聲道的增益,可以在解碼器上重建相對于錄音室兩側的位置偏移。根據本發明,可以根據左右信號功率的商來獲得這個立體聲平衡參數。與整體立體聲編碼相比,這兩種參數的傳輸需要很少的比特,因此總的比特率需求很低。在本發明的一種更好的提供更準確的參數立體聲描述的設計中,使用若干平衡和立體聲寬度參數,分別代表各個頻帶。
推廣到每頻帶操作的平衡參數和計算為左右信號功率之和的電平參數的相應每頻帶操作一起實現了立體聲信號功率譜密度的一種新的任意詳細的表示。除了S/D系統也利用的立體聲冗余的優點之外,這種表示的一種具體的優點是與同樣的電平信號相比,可以用更低的精確度來量化平衡信號,因為當轉換回立體聲頻譜包絡時量化誤差將導致“空間上的誤差”,即在立體聲全景中可感知的位置,而不是在電平上的誤差。類似于傳統的切換L/R和S/D系統,有利于電平L/電平R信號,可以自適應地關閉電平/平衡方案,當整體信號向任一聲道嚴重偏置時這更加有效。無論何時需要一種功率譜包絡的有效編碼方法,都可以使用上述的頻譜包絡編碼方案,并可以作為一種工具結合在新的立體聲源編解碼器內。一個特別感興趣的應用是在受原始信號高頻帶包絡的相關信息引導的HFR系統內。在這樣一個系統中,使用任意一個編解碼器來編碼和解碼低頻帶,在解碼器上使用解碼的低頻帶信號和所發送的高頻帶包絡信息重新生成高頻帶(PCTWO 98/57436)。此外,通過將包絡編碼鎖定到電平/平衡操作,提供了建立一個可標度(scalable)的基于HFR的立體聲編解碼器的可能性。在此,將電平值饋送給主比特流,根據實現方式,該主比特流通常解碼成一個單聲道信號。將平衡值饋送給次比特流,該次比特流是除了主比特流之外靠近發射機的接收機可以獲得的,例如一個IBOC(帶內信道上)數字調幅廣播系統。當組合這兩個比特流時,解碼器生成一個立體聲輸出信號。除了電平值之外,主比特流還可以包含立體聲參數,例如寬度參數。因此,單獨解碼這個比特流已經生成了一個立體聲輸出,當兩個比特流都可用時改善了這個立體聲輸出。
現在,參考附圖,通過并非限制本發明范圍或精神的說明性例子來描述本發明,在附圖中圖1圖示一個音源編碼系統,其中包括一個由參數立體聲編碼器模塊增強的編碼器和一個由參數立體聲解碼器模塊增強的解碼器;圖2a是一個參數立體聲解碼器模塊的模塊示意圖;圖2b是一個帶有控制參數輸入的偽立體聲生成器的模塊示意圖;圖2c是一個帶有控制參數輸入的平衡調整器的模塊示意圖;圖3是使用與多頻段平衡調整相組合的多頻段偽立體聲生成的參數立體聲解碼器模塊的模塊示意圖;圖4a是一個可標度的基于HFR的立體聲編解碼器的編碼器一側的模塊示意圖,它使用頻譜包絡的電平/平衡編碼;圖4b是相應的解碼器一側的模塊示意圖。
優選實施例的描述下面所述的實施例僅僅是為了說明本發明的原理。應當理解對于本領域的技術人員來說,對在此所描述的結構和細節進行各種修改和變化將是顯而易見的。因此,將僅通過權利要求書的保護范圍來限制,而不是由在此對實施例的描述和解釋所提出的具體細節來限制。為了清楚起見,下面所有的例子均假設為雙聲道系統,但是對于本領域的技術人員來說,本發明顯然也可以應用于多聲道系統,例如5.1聲道系統。
圖1圖示一個可通過根據本發明的參數立體聲編碼增強的任意聲源編碼系統,其中包括編碼器107和解碼器115,編碼器和解碼器以單聲道模式工作。假設L和R代表饋送給AD(模數)轉換器101的左右模擬輸入信號。AD轉換器的輸出轉換成單聲道信號105,然后編碼(107)該單聲道信號。此外,將立體聲信號發送給參數立體聲編碼器103,由其計算下面將要描述的一個或多個立體聲參數。通過多路復用器109組合這些參數與編碼的單聲道信號,形成一個比特流111。存儲或發送該比特流,然后在解碼器一側使用去復用器113進行提取。該單聲道信號被解碼115,并由參數立體聲解碼器119使用立體聲參數117作為控制信號轉換成一個立體聲信號。最后,將該立體聲信號發送給DA(數模)轉換器121,由其饋送模擬輸出L’和R’。根據圖1的拓撲結構為一組參數立體聲編碼方法所共有,隨后將從較簡單的形式開始詳細地描述這些參數立體聲編碼方法。
根據本發明的一種立體聲特性參數化的方法是在編碼器一側上確定原始信號的立體聲寬度。立體聲寬度的第一種近似是差值信號D=L-R,因為一般來說L和R之間的高度類似性將計算出較小的D值,反之亦然。特殊的情況是雙單聲道,其中L=R,因此D=0。因而,即使這種簡單的算法也能夠檢測出通常與新聞廣播有關的單聲道輸入信號的類型,在新聞廣播的情況下并不希望偽立體聲。然而,在不同電平上饋送給L和R的單聲道信號并不產生為零的D信號,即使感覺到的寬度為零。因此,實際上可能需要更精致的檢測器,例如使用互相關的方法。應當確信與總信號電平一起標準化以某種方式描述左右差值或相關性的數值,從而實現與電平無關的檢測器。上述檢測器的一種問題是在語音到音樂/音樂到語音轉換的過程中單聲道語音與諸如立體聲噪聲或背景音樂等非常微弱的立體聲信號混合時的情況。在語音暫停時,則檢測器將指示一個寬立體聲信號。通過標準化立體聲寬度值與一個包含先前的總能量電平信息的信號,例如一個總能量的峰值衰落信號,來解決這個問題。此外,為了防止高頻噪聲或信道不同的高頻失真觸發立體聲寬度檢測器,應當通過一個低通濾波器預先濾波檢測器信號,該濾波器通常具有一個稍高于話音第二共振峰的截止頻率,也可以選擇使用一個高通濾波器以避免不平衡的信號偏移或交流聲。不考慮檢測器的類型,將所計算的立體聲寬度映射成有限的一組值,覆蓋從單聲道到寬立體聲的整個范圍。
圖2a圖示在圖1中介紹的參數立體聲解碼器的內部結構的一個例子。隨后將描述受參數B控制的標有“平衡”的模塊211,現在應當將其視為旁路。標有“寬度”的模塊205接收一個單聲道輸入信號,合成地重新建立立體聲寬度的印象,其中寬度量值受參數W的控制。隨后將描述可選的參數S和D。根據本發明,通過結合使用一個包括低通濾波器(LP)203和高通濾波器(HP)201的分頻濾波器,從而保持低頻范圍“固定”和不受影響,通常能夠實現主觀上更好的音頻質量。在此,僅將高通濾波器的輸出發送給寬度模塊。通過207和209將寬度模塊的立體聲輸出添加給低通濾波器的單聲道輸出,形成立體聲輸出信號。
可以將現有技術的任意一種偽立體聲生成器用于寬度模塊,例如在背景技術部分中所提到的,或者是Schroeder類型的早期反射模擬單元(多抽頭延遲)或混響器。圖2b圖示饋送一個單聲道信號M的偽立體聲生成器的一個例子。由215的增益確定立體聲寬度的量值,此增益是立體聲寬度參數W的函數。增益越高,則立體聲印象越寬,零增益對應于純單聲道再現。215的輸出被延遲(D),221,并使用相反的符號與兩個直接信號的例子相加223和225。為了當改變立體聲寬度時不明顯地改變總的再現電平,可以結合使用直接信號的補償衰減213。例如,如果延遲信號的增益是G,則可以將直接信號的增益選擇為sqrt(1-G2)。根據本發明,可以在延遲信號路徑中插入一個高頻滾降濾波器217,這有助于避免偽立體聲導致的編碼人工噪聲無掩蔽。可選擇地,可以在比特流中發送分頻濾波器、滾降濾波器和延遲的參數,提供模擬原始信號的立體聲特性的更高的可能性,如在圖2a和圖2b中圖示的信號X、S和D。如果使用混響單元來生成立體聲信號,有時在一個聲音結束之后可能會產生不希望有的混響衰落。然而,僅僅通過改變混響信號的增益就能夠輕易地衰減或完全消除這些不希望的混響尾部。可以將為發現聲音結尾而設計的檢測器用于此目的。如果混響單元在一些特殊的信號例如瞬變信號上產生人工噪聲時,用于這些信號的檢測器也可以用于衰減人工噪聲。
下面描述根據本發明的檢測立體聲特性的另一種方法。再次假設L和R代表左右輸入信號。然后用PL~L2和PR~R2代表相應的信號功率。現在,可以將立體聲平衡的測量值計算為兩個信號功率的商,或者更具體地說計算為B=(PL+e)/(PR+e),其中e是任意的非常小的數值,它避免被零除。可以通過關系BdB=10l0g10(B)用dB表示平衡參數B。例如,三種情況PL=10PR,PL=PR和PL=0.1PR分別對應于+10dB、0dB和-10dB的平衡值。很顯然,這些值映射成位置“左”、“中心”和“右”。實驗已經表明平衡參數的范圍例如可以限制為+/-40dB,因為這些極限數值已經可以被視為聲音完全從兩個揚聲器或耳機驅動器之一發出。這種限制降低了在傳輸中要覆蓋的信號空間,因而降低了比特率。此外,可以使用漸進的量化方案,由此在零附近使用較小的量化步長,而在上限上使用較大的量化步長,這進一步降低了比特率。通常在延長路徑的時間上平衡是恒定的。因此,可以采用的顯著地降低所需要的平均比特的數量的最后一個步驟是在傳輸一個初始化平衡量值之后,僅傳輸相鄰平衡量值之間的差值,從而使用熵編碼。非常普遍地,這個差值為零,因而可以用可能的最短的碼字來表示以傳輸。顯然地,在可能存在比特誤差的應用中,必需在合適的時間間隔上重新設置這個Δ編碼,從而消除不受控制的誤差傳播。
通過將單聲道信號饋送給兩個輸出,并使用控制信號B相應地調整增益,如圖2c中模塊227和229所圖示的,平衡參數的最基本的解碼器使用方法簡單地將單聲道信號向兩個再現聲道之一上偏移。這類似于調整混合臺上的“全景”調節器,合成地在兩個立體聲揚聲器之間“移動”單聲道信號。
除了上述的寬度參數之外,還可以發送平衡參數,提供以受控方式在錄音室內定位和傳播聲音圖像的可能性,并提供當模仿原始的立體聲壓縮時的靈活性。組合上述的偽立體聲生成和參數控制平衡的一個問題是在遠離中心位置的平衡位置上偽立體聲生成器的不希望有的信號影響。這通過在立體聲寬度值上應用一個有利于單聲道的函數來解決,所述函數導致在最靠邊的位置上的平衡位置上立體聲寬度值的較大衰減,并在靠近中央位置的平衡位置上的較小或無衰減。
上述方法用于很低的比特率應用。在能夠獲得較高的比特率的應用中,可以使用上述寬度和平衡方法的更精致的形式。可以在多個頻帶上執行立體聲寬度檢測,導致各個立體聲寬度值分別用于每個頻帶。類似地,平衡計算可以通過多頻帶的方式進行,這相當于將不同的濾波器曲線應用于饋送一個單聲道信號的兩個聲道。圖3圖示一個參數立體聲解碼器的例子,它使用根據圖2b,用模塊307、317和327代表的一組N個偽立體聲生成器,并組合如圖2c所示用模塊309、319和329代表的多頻帶平衡調整。通過將單聲道輸入信號M饋送給一組帶通濾波器(BP)305、315和325來獲得各個通頻帶。平衡調整器輸出的帶通立體聲輸出被相加,311、321、313和323,形成立體聲輸出信號L和R。現在,用陣列W(k)和B(k)來替代原先的標量寬度和平衡參數。在圖3中,每個偽立體聲生成器和平衡調整器具有特有的立體聲參數。然而,為了降低將要發送或存儲的數據總量,可以在編碼器上分組地平均若干頻帶的參數,數量減少的這些參數可以在解碼器上映射到相應的寬度和平衡模塊組。顯然地,可以將不同的分組方案和長度用于陣列W(k)和B(k)。S(k)代表在寬度模塊內延遲信號路徑的增益,和D(k)代表延遲參數。同樣地,在比特流中S(k)和D(k)是可選的。
參數平衡編碼方法可特別適用于較低的頻帶,假設由于頻率分辨率較低,或者由于在同一時間上但是在不同的平衡位置上在一個頻帶內出現過多的聲音事件,導致稍微不穩定的性能。這些平衡錯誤的特征通常為在非常短的時間周期內一個不正常的平衡值,通常是根據更新速率計算出的一個或多個連續的數值。為了避免擾亂平衡錯誤,可以在平衡數據上應用一個穩定化處理。這個處理可以在當前的時間位置之前和之后使用多個平衡值來計算這些數據的中值。該中值隨后可以用作當前平衡值的限制值,即當前平衡值應當不允許低于該中值。然后,將當前值限制在最后一個數值和中值之間的范圍內。可選擇地,可允許當前的平衡值以某一過量因子超過該限制值。此外,過量因子以及用于計算中值的平衡值數量應當被視為頻率相關特性的,因此各自用于每個頻帶。
在較低的平衡信息的更新比例上,時間分辨率缺乏可能導致立體聲圖像和實際的聲音事件的運動之間同步上的錯誤。為了改善同步方面的性能,可以使用以識別聲音事件為基礎的內插方案。在此,內插是指在時間連續的兩個平衡值之間的內插。通過在接收機一側上研究單聲道信號,能夠獲得不同聲音事件的開始和結束的相關信息。一種方法是檢測在特定頻帶內信號能量的突然地增加或降低。內插應當在能量包絡在時間上引導之后,以確保最好應當在包含小信號能量的時間片段內執行平衡位置上的改變。因為人耳對聲音的開始部分比對聲音的結束部分更為敏感,例如通過對能量應用峰值保持,然后使平衡值作為峰值保持能量的函數而增加,其中較小的能量值提供較大的增加,反之亦然,內插方案的優點在于發現一個聲音的開始部分。對于包含在時間上不均勻分布能量的時間片段來說,即對于一些固定信號來說,這種內插方法相當于兩個平衡值之間的線性內插。如果平衡值是左右能量的商,因為左右對稱的原因,優選對數平衡值。在對數域內使用整個內插算法的另一個優點是人耳使電平與對數標度相關的趨勢。
而且,對于立體聲寬度增益值的較低的更新比例,也可以應用內插。一種簡單的方法是在時間上連續的兩個立體聲寬度值之間線性地內插。通過在包含多個立體聲寬度參數的一個較長的時間片段上平滑立體聲寬度增益值,能夠實現立體聲寬度更穩定的特性。通過利用通過不同的上升和釋放時間常數的平滑,實現了一種尤其適合于包含混合或交織的語音和音樂的節目資料的系統。因此在立體聲中對音樂開始部分的立即響應,使用一個短的上升時間常數來獲得一個短的上升時間,并使用一個長的釋放時間來獲得一個長的下降時間,實現這種平滑濾波器的一種合理設計。為了快速地從寬立體聲模式切換成單聲道模式,這可能是突然的語音開始部分所希望的,存在通過通知這個事件來旁路或重置該平滑濾波器的可能性。此外,上升時間常數、釋放時間常數和其它的平滑濾波器特性也可以由編碼器來通知。
對于包含心理聲學編解碼器的掩蔽失真的信號來說,引入基于編碼單聲道信號的立體聲信息的一個共同的問題是失真的未掩蔽效應。這種通常稱作“立體聲未掩蔽”的現象是并不符合掩蔽標準的非居中聲音的結果。通過在解碼器一側上引入用于這種情況的檢測器可以解決或部分地解決立體聲未掩蔽的問題。可以使用測量信號與掩蔽之比的公知技術來檢測潛在的立體聲未掩蔽。一旦檢測到,可以明確地通知,或者可以僅簡單地降低立體聲參數。
在編碼器一側上,如本發明所教導的,一種選擇是將一個希耳伯特變換器用于輸入信號,即引入在兩個聲道之間的90度相移。當隨后通過相加兩個信號形成單聲道信號時,實現了中央擺動單聲道信號和“真實的”立體聲信號之間更佳的平衡,因為希耳伯特變化為中央信息引入了3dB的衰減。實際上,這改善了諸如當前流行音樂的單聲道編碼,例如通常使用單聲道音源來錄音引導聲音和低音電吉他。
多頻帶平衡參數方法并不限制于圖1所描述的應用類型。只要目標是有效地編碼一個立體聲信號的功率譜包絡,就可以有效地使用該方法。因此,可以在立體聲編解碼器中將其用作工具,其中除了立體聲頻譜包絡之外,還編碼一個相應的立體聲殘余信號。假設總能量P,用P=PL+PR來定義,其中PL和PR是如上所述的信號功率。注意到這種定義并不考慮從左至右的相位關系。(例如,相等的左和右信號但是符號相反,并不產生一個零的總能量)。類似于B,可以用dB將P表示為PdB=10log10(P/Pref),其中Pref是一個任意的參考功率,Δ的值被熵編碼。與平衡的情況相反,不將漸進的量化用于P。為了表示一個立體聲信號的頻譜包絡,為一組頻帶計算P和B,一般地但并不必需地,使用與人耳的臨界頻帶有關的帶寬。例如,通過在一個常數帶寬濾波器組內對聲道分組可以形成這些頻帶,由此將PL和PR計算為對應于相應頻帶和時間上相應周期的子頻帶平方的時間和頻率的平均值。這些組P0、P1、P2、……、PN-1和B0、B1、B2、……、BN-1,其中下標代表N個頻帶表示中的頻帶,被Δ和哈夫曼編碼,發送或存儲,并最終解碼成在編碼器中計算的量化值。最后一個步驟是將P和B轉換回PL和PR。如根據P和B的定義很容易看出的,反向的關系為(當忽略B定義中的e)PL=BP/(B+1),和PR=P/(B+1)。
上述包絡編碼方法的一種特別有用的應用是為基于HFR的編解碼器編碼高頻帶的頻譜包絡。在這種情況下,不發送高頻帶的殘余信號。而是根據低頻帶獲得這個殘余信號。因而,殘余和包絡表示之間不存在嚴格的關系,包絡量化更重要。為了研究量化的效果,假設Pq和Bq分別代表P和B的量化值。則將Pq和Bq插入在上述關系中,總和為PLq+PRq=BqPq/(Bq+1)+Pq/(Bq+1)=Pq(Bq+1)/(Bq+1)=Pq。
在這里感興趣的特征是消除了Bq,總功率上的誤差僅僅由P的量化誤差來確定。這意味著即使B被嚴重量化,所感覺到的電平也是正確的,假設在P的量化中使用了足夠高的精確度。換句話說,B中的失真映射成了空間上的失真,而不是電平上的失真。只要聲源隨著時間在空間內是穩定的,則立體聲感覺上的這個失真也是穩定的,并很難注意到。如已經描述的,立體聲平衡的量化在上限附近也可以比較粗糙,因為當到中心線的角度很大時,由于人類聽覺的特性,用dB表示的給定誤差對應于在所觀察角度上的較小的誤差。
當量化與頻率相關的數據例如多頻帶立體聲寬度增益值或多頻帶平衡值時,能夠有利地選擇量化方法的分辨率和范圍,以匹配聽覺標度特性。如果這種標度取決于頻率,可以為不同的頻帶選擇不同的量化方法或者所謂的量化種類。因此,在一些情況下,即使數值相同,代表不同頻帶的編碼參數值也應當用不同的方式來解釋,即解碼成不同的數值。
類似于切換L/R到S/D的編碼方案,可以自適應地用PL和PR信號來替代P和B信號,從而更好地應付極端信號。如PCT/SE00/00158所教導的,根據在特定時刻上在比特數量方面哪個方向最有效,可以將包絡抽樣的Δ編碼從時間上的Δ切換成頻率上的Δ。平衡參數也可以采用這種方案例如考慮一個隨著時間進入立體聲域的音源。顯然地,這對應于平衡值隨著時間的連續改變,這取決于音源的速度與參數更新速率之比,可能對應于較大的時間上的Δ值,當使用熵編碼時對應于較大的碼字。然而,假設音源在頻率上具有均勻的聲音輻射,平衡參數在頻率上的Δ值在時間上的每個點上為零,則再次對應于一個較小的碼字。因而,在這種情況下,當使用頻率Δ編碼方向時實現了較低的比特率。另一個例子是在房間內固定但是具有非均勻輻射的音源。現在,頻率上的Δ值較大,而時間上的Δ值是優選的。
P/B編碼方案提供了建立一個可標度的基于HFR的編解碼器的可能性,參見圖4。可標度的編解碼器的特點在于將比特流分割成兩個或更多的部分,其中可以選擇高階部分的接收和解碼。該例子假設兩個比特流部分,在下文中稱作主部分419和次部分417,但是擴展成更多的部分顯然也是可以的。圖4a所示編碼器一側包括任意立體聲低頻帶編碼器403,它在輸入信號IN上操作(在該圖中未圖示詳細的AD和相應的DA轉換步驟);參數立體聲編碼器,它消除高頻帶頻譜包絡,和可選的附加立體聲參數401,它也在立體聲輸入信號上操作;和兩個復用器(MUX)415和413,分別用于主和次比特流。在這個應用中,將高頻帶包絡編碼鎖定到P/B操作,通過415將P信號407發送給主比特流,而通過413將B信號405發送給次比特流。
對于低頻帶編解碼器來說,存在不同的可能性它可能始終工作在S/D模式中,并將S和D信號分別發送給主和次比特流。在這種情況下,主比特流的解碼產生一個完整頻帶的單聲道信號。當然,可以通過根據本發明的參數立體聲方法來增強這個單聲道信號,在這種情況下立體聲參數也必須位于主比特流內。另一種可能性是將一個立體聲編碼低頻帶信號饋送給主比特流,可選擇地與高頻帶和平衡參數一起。現在,主比特流的解碼產生低頻帶的真實的立體聲,高頻帶的非常逼真的偽立體聲,因為低頻帶的立體聲特性被反映在高頻的重新構建上。描述另外一種方式即使可用的高頻帶包絡表示或頻譜粗略的結構是在單聲道內,合成后的高頻帶殘余或頻譜精細結構也不是在單聲道內。在這種實施方式中,次比特流可能包含更低頻帶的信息,當將其與主比特流組合時,產生更高質量的低頻帶再現。圖4的拓撲結構表示兩種情況,因為分別連接到415和417的主和次低頻帶編碼器輸出信號411和409可能包含上述任一種信號類型。
發送或存儲比特流,僅將419或同時將419和417饋送給解碼器,圖4b。由423將主比特流去復用成低頻帶核心解碼器主信號429和P信號431。類似地,由421將次比特流去復用成低頻帶核心解碼器次信號427和B信號425。將這個(些)低頻帶信號發送給低頻帶解碼器433,它生成一個輸出435,在僅解碼主比特流的情況下,該輸入也可以是上述任意類型的(單聲道或立體聲)。將信號435饋送給HFR單元437,其中生成一個合成高頻帶,并根據P來調整,所述P也連接到HFR單元。在HFR單元內組合解碼后的低頻帶與高頻帶,在最終饋送給系統輸出之前,可選地通過偽立體聲生成器(也位于HFR單元內)來增強低頻帶和/或高頻帶,形成輸出信號OUT。當存在次比特流417時,HFR單元也獲得B信號作為一個輸入信號425,435是立體聲的,因此該系統生成一個完全立體聲的輸出信號,并旁路偽立體聲生成器,如果有的話。
權利要求
1.一種輸入信號的立體聲特性的編碼方法,其特征在于在編碼器上,計算一個代表所述輸入信號的立體聲寬度的寬度參數;和在解碼器上,生成一個立體聲輸出信號,使用所述寬度參數控制所述輸出信號的立體聲寬度。
2.根據權利要求1的方法,其特征在于在所述編碼器上,根據所述輸入信號形成一個單聲道信號;和在所述解碼器上,所述生成是指在所述單聲道信號上操作的偽立體聲方法。
3.根據權利要求2的方法,其特征在于所述偽立體聲方法是指將所述單聲道信號分成兩個信號,并在所述寬度參數控制的電平上將所述單聲道信號的延遲形式添加給所述兩個信號。
4.根據權利要求3的方法,其特征在于在添加給所述兩個信號之前,將所述延遲形式高通濾波,并在較高的頻率上漸進地衰減。
5.根據權利要求1的方法,其特征在于所述寬度參數是一個矢量,所述矢量的各單元對應于各個頻帶。
6.根據權利要求1至5的方法,其特征在于如果所述輸入信號是雙單聲道類型的,則所述輸出信號也是雙單聲道類型的。
7.一種編碼輸入信號的立體聲特性的方法,特征在于在編碼器上,計算代表所述輸入信號的立體聲平衡的平衡參數;和在解碼器上,生成一個立體聲輸出信號,使用所述平衡參數控制所述輸出信號的立體聲平衡。
8.根據權利要求7的方法,其特征在于在所述編碼器上,根據所述輸入信號形成一個單聲道信號;和在所述解碼器上,所述生成是指將所述單聲道信號分成兩個信號,和所述控制是指所述兩個信號的電平調整。
9.根據權利要求7的方法,其特征在于計算所述輸入信號的每個聲道的功率,并根據所述功率之間的商計算所述平衡參數。
10.根據權利要求9的方法,其特征在于所述功率和所述平衡參數是其中每個單元對應于一個特定頻帶的矢量。
11.根據權利要求7的方法,其特征在于在所述解碼器上,在所述平衡參數的時間上連續的兩個值之間內插,以便所述單聲道信號的相應功率的瞬時值控制所述瞬時內插應當采用的陡度。
12.根據權利要求11的方法,其特征在于在表示為對數值的平衡值上執行所述內插方法。
13.根據權利要求7的方法,其特征在于所述平衡參數的數值限制在前一平衡值和由一個中值濾波或其它濾波處理從其它平衡值提取出的一個平衡值之間的范圍內,其中所述范圍可以通過用某一因數移動所述范圍的邊界來進一步地擴展。
14.根據權利要求13的方法,其特征在于提取用于平衡值的限制邊界的所述方法對于一個多頻段系統來說是取決于頻率的。
15.根據權利要求10的方法,其特征在于將一個附加的電平參數計算為所述功率的矢量之和,并發送給所述解碼器,從而向所述解碼器提供所述輸入信號的頻譜包絡的表示。
16.根據權利要求15的方法,其特征在于所述電平參數和所述平衡參數自適應地用所述功率來替換。
17.根據權利要求16的方法,其特征在于所述頻譜包絡用于控制一個解碼器內的HFR處理。
18.根據權利要求15的方法,其特征在于將所述電平參數饋送給一個可標度的基于HFR的立體聲編解碼器的主比特流,并將所述平衡參數饋送給所述編解碼器的次比特流。
19.根據權利要求2和18的方法,其特征在于將所述單聲道信號和所述寬度參數饋送給所述主比特流。
20.根據權利要求5和16的方法,其特征在于通過一個函數來處理所述的寬度參數,所述函數為與更遠離中心位置的平衡位置相對應的平衡值給出較小的數值。
21.根據權利要求7至18中任一權利要求的方法,其特征在于所述平衡參數的量化在中心位置附近使用較小的量化步長,在較偏外的位置上使用較大的步長。
22.根據權利要求5和21的方法,其特征在于使用一個量化方法來量化所述寬度參數和所述平衡參數,所述量化方法對于一個多頻帶系統來說在分辨率和范圍方面是取決于頻率的。
23.根據權利要求10至18中任一權利要求的方法,其特征在于在時間或者在頻率上自適應地A編碼所述平衡參數。
24.根據權利要求2或8的方法,其特征在于在形成所述單聲道信號之前,所述輸入信號通過一個希耳伯特變換器。
25.一種用于參數立體聲編碼的設備,其特征在于在編碼器上,用于計算代表一個輸入信號的立體聲寬度的寬度參數的裝置,和用于根據所述輸入信號形成一個單聲道信號的裝置;在解碼器上,用于根據所述單聲道信號生成一個立體聲輸出信號并使用所述寬度參數來控制所述輸出信號的立體聲寬度的裝置。
全文摘要
本發明提供了對現有技術的音頻編解碼器的改進,所述音頻編解碼器通過對所接收到的單聲道信號的后處理生成一個立體聲幻覺。通過在編碼器一側上提取立體聲圖像描述參數,將其發送和隨后用于在解碼器一側上控制立體聲生成器,實現了這些改進。此外,通過使用一種新形式的參數立體聲編碼,本發明彌補了簡單的偽立體聲方法和當前的真實立體聲編碼方法之間的差距。引入了一個立體聲平衡參數,使得能夠實現更先進的立體聲模式,此外,構建了頻譜包絡立體聲編碼的新方法的基礎,尤其是在使用引導HFR(高頻重建)的系統中使用。作為一種特殊的情況,描述了這種立體聲編碼方案在可標度的基于HFR的編解碼器內的應用。
文檔編號G10L19/008GK1524400SQ02813646
公開日2004年8月25日 申請日期2002年7月10日 優先權日2001年7月10日
發明者弗雷德里克·海恩, 弗雷德里克 海恩, 克里斯托弗·克約爾林, 托弗 克約爾林, 古斯塔夫 里爾耶爾德, 拉爾斯·古斯塔夫·里爾耶爾德, 羅丹, 喬納斯·羅丹, 英哥德加德, 喬納斯·英哥德加德 申請人:編碼技術股份公司