專利名稱:對時間離散音頻信號進(jìn)行編碼的裝置和方法以及對已編碼的音頻數(shù)據(jù)進(jìn)行解碼的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻編碼/解碼,尤其是涉及可擴(kuò)展(scalable)的編碼/解碼算法,這種算法包含了一個心理聲學(xué)的第一擴(kuò)展層和一個包括用于無損解碼的輔助音頻數(shù)據(jù)的第二擴(kuò)展層。
背景技術(shù):
現(xiàn)代音頻編碼方法,如MPEG Layer3(MP3)或者M(jìn)PEG ACC,使用如所謂的修正離散余弦變換(MDCT)的變換來獲得對音頻信號的數(shù)據(jù)塊式的頻率表示。這樣的音頻編碼器通常獲得時間離散的音頻采樣的一個數(shù)據(jù)流。音頻采樣的數(shù)據(jù)流被窗口化(windowed)用以獲取例如1024或者2048個窗口化的音頻采樣的窗口數(shù)據(jù)塊。為了進(jìn)行窗口化使用了多種窗口函數(shù),例如正弦窗口等。
隨后,窗口化的時間離散音頻采樣通過濾波器組被轉(zhuǎn)換為頻譜表示。原則上,傅立葉變換,或者用于特殊原因的多種傅立葉變換,如FFT,或者前面闡述的MDCT,都可以用于此。然后,在濾波器組輸出端處的音頻頻譜值的數(shù)據(jù)塊可以根據(jù)要求做進(jìn)一步處理。在上面引用的音頻編碼器中,隨后是音頻頻譜的量化,其中典型選擇量化級,以使被量化引入的量化噪聲在心理聲學(xué)掩蓋閾值之下,也就是說被“掩蓋”住了。量化是一種有損編碼。為了獲得進(jìn)一步的數(shù)據(jù)量縮減,量化的頻譜值被熵編碼,例如通過哈夫曼編碼。通過添加輔助信息,如比例因子(scale factors)等,一個能夠被存儲或者傳送的比特流通過比特流多路復(fù)用器從熵編碼量化的頻譜值中形成。
在音頻解碼器中,比特流被一個比特流分離多路復(fù)用器分割為編碼量化的頻譜值和輔助信息。熵編碼的量化頻譜值首先被熵解碼,以獲得量化頻譜值。經(jīng)過量化的頻譜值然后被反向量化,以獲得包含量化噪聲的解碼頻譜值,然而,這種量化噪聲是在生理聲學(xué)掩蓋閾值之下的,因而是聽不到的。然后這些頻譜值通過合成濾波器組被轉(zhuǎn)換為時間表示方式,以獲得時間離散的解碼音頻采樣。在合成濾波器組中,必須使用一種與變換算法相反的變換算法。而且,在頻率-時間轉(zhuǎn)換或者反變換后,窗口必須被取消。
為了獲得良好的頻率選擇性,現(xiàn)代音頻編碼器典型地利使用塊重疊。這種情況在圖4a中示出。首先,通過裝置402取出例如2048個時間離散的音頻采樣,并窗口化。實現(xiàn)這種窗口的裝置402具有2N個采樣的窗口長度,并在輸出端提供了一個2N個窗口化采樣的數(shù)據(jù)塊。為了獲得窗口重疊,通過裝置404(僅僅是為了表述得更加清楚,該裝置在圖4a中與裝置402被分開描述),形成了第二個2N個窗口化采樣的數(shù)據(jù)塊。然而,被送入裝置404的2048個采樣不是緊接著第一個窗口的時間離散音頻采樣,而是包含了通過裝置402窗口化了的采樣的后半部分,此外僅包含了1024個“新”采樣。在圖4a中通過裝置406示意性地說明了這個重疊,引起了50%的重疊度。然后,對通過裝置402的2N個窗口化采樣輸出和通過裝置404的2N個窗口化采樣輸出,分別用裝置408和410實現(xiàn)MDCT算法。裝置408根據(jù)已知的MDCT算法為第一個窗口提供了N個頻譜值,而裝置410也提供了N個頻譜值,不過是用于第二個窗口,其中第一個和第二個窗口之間有50%的重疊。
在解碼器中,第一個窗口的N個頻譜值,如圖4b所示,被送入裝置412來實現(xiàn)修正離散余弦反變換。同樣的操作被作用于第二個窗口的N個頻譜值。它們被送入裝置414,也實現(xiàn)了修正離散余弦反變換。裝置412和裝置414都分別為第一個窗口和第二個窗口提供了2N個采樣。
在裝置416中,在圖4b中以TDAC(時域混迭取消)來表示,考慮到兩個窗口是重疊的。特別地,第一個窗口的后半部分的一個采樣y1(也就是帶有系數(shù)N+k)與第二個窗口的前半部分的采樣y2(也就是帶有系數(shù)k)相加,這樣在輸出端,也就是解碼器處生成N個已解碼的時域采樣。
需要注意的是,通過也稱為相加函數(shù)的裝置416的功能,在圖4a所示的編碼器中實現(xiàn)的窗口化在一定程度上被自動考慮,所以在圖4b所示的解碼器中不必有明顯的“反向窗口化”發(fā)生。
當(dāng)通過裝置402或者404實現(xiàn)的窗口函數(shù)被指定為w(k),其中系數(shù)k代表時間系數(shù),必須滿足的條件是平方后的窗口權(quán)重w(k)與平方后的窗口權(quán)重w(N+k)的和等于1,其中k的范圍從0到N-1。當(dāng)使用正弦窗口時,該窗口的權(quán)重遵循正弦函數(shù)的前半波,這個條件始終滿足,因為任意角的正弦平方與余弦平方的和均為1。
在圖4a中描述的按照MDCT函數(shù)的窗口方法的缺點是,通過將時間離散的采樣相乘來窗口化,當(dāng)考慮它為一個正弦窗口的時候,它由一個浮點數(shù)來達(dá)到,因為一個在0到180度之間的角的正弦不會產(chǎn)生整數(shù),除非這個角等于90度。即便當(dāng)整數(shù)時間離散采樣被窗口化時,在窗口化后也會產(chǎn)生浮點數(shù)。
因此,即使當(dāng)不使用心理聲學(xué)編碼時,也就是當(dāng)需要獲得無損編碼時,為了進(jìn)行適當(dāng)?shù)囊子谔幚淼撵鼐幋a,在裝置408或裝置410的輸出端處的量化也是必要的。
當(dāng)已知的變換,如在圖4a基礎(chǔ)上描述的那樣,被應(yīng)用于無損音頻編碼,需要使用非常好的量化,以可以忽略由于浮點數(shù)取整而引起的結(jié)果誤差,或者誤差信號需要例如在時域中被額外地編碼。
現(xiàn)有技術(shù)中的概念,也就是在其中量化被非常好地調(diào)整以使得由于浮點數(shù)取整而引起的結(jié)果錯誤可以被忽略,例如在德國專利DE 19742 201 C1中公開的那樣。這里,一個音頻信號被轉(zhuǎn)換為它的頻譜表示并被量化,以獲得量化的頻譜值。量化的頻譜值然后被反向量化,變換到時域,并且被與原始的音頻信號相比較。如果誤差,也就是原始音頻信號與量化/反向量化后的音頻信號之間的誤差,在一個誤差閾值以上,在反饋中量化器會被調(diào)整得更加精確,然后再次進(jìn)行比較。當(dāng)?shù)陀谡`差閾值時,停止迭代??赡苋匀淮嬖诘臍埩粜盘柋灰粋€時域編碼器編碼并被寫入一個比特流,這個比特流除了時域編碼的殘留信號外還包括根據(jù)在迭代取消時候存在的量化器調(diào)整進(jìn)行量化后的編碼頻譜值。需要注意的是,量化器不一定必須通過心理聲學(xué)模型控制,以使編碼的頻譜值通常比由于采用心理聲學(xué)模型而得到的頻譜值量化得更為精確。
在出版物“A Design of Lossy and Lossless Scalable AudioCoding”(T.Moriya et al.,Proc.ICASSP,2000)中描述了一個可擴(kuò)展的編碼器,這個編碼器包括如一個MPEG編碼器作為第一個有損數(shù)據(jù)壓縮模塊,此模塊具有一個數(shù)據(jù)塊形式的數(shù)字信號形式作為輸入信號,并生成壓縮的比特流。在另一個現(xiàn)有的本地解碼器中編碼再次被取消,并生成了一個編碼/解碼信號。這個信號通過從初始輸入信號中減去編碼/解碼信號而與初始的輸入信號相比較。誤差信號然后被送到第二個模塊,在那里使用了一個無損位轉(zhuǎn)換器。這個轉(zhuǎn)換有兩步。第一步包括一個從二進(jìn)制補(bǔ)碼格式到符號數(shù)值格式的轉(zhuǎn)換。第二步包括在一個處理塊中從一個垂直數(shù)值序列到一個水平比特序列的轉(zhuǎn)換。無損數(shù)據(jù)轉(zhuǎn)換被執(zhí)行以使零的數(shù)量最大化或者使一個序列中連續(xù)零的數(shù)量最大化,以便獲得盡可能好的作為數(shù)字結(jié)果表示的時間誤差信號。這一原理基于在出版物“Multi-Layer Bit Sliced Bit Rate Scalable AudioCoder”(103rdAES Convention,Preprint No.4520,1997)中闡明的比特片算法編碼(BSAC)方案。
上述概念的缺點是用于無損擴(kuò)展層的數(shù)據(jù),也就是用于獲得無損音頻信號解碼的輔助數(shù)據(jù)必須在時域中獲得。這意味著獲得為了獲得時域的編碼/解碼信號需要包含頻率/時間變換的完全解碼,所以通過在原始音頻輸入信號與編碼/解碼音頻信號之間的采樣差異的形成來計算誤差信號,編碼/解碼音頻信號由于是心理聲學(xué)編碼因而是有損的。這個概念的缺點尤其在于在編碼器生成音頻數(shù)據(jù)流時,兩種完全的時間/頻率變換裝置,如濾波器組或者如MDCT算法,都被要求用于前向的轉(zhuǎn)換,另一方面,僅僅為了產(chǎn)生誤差信號,需要一個完整的反向濾波器組或者一個完全的合成算法。因而,編碼器除了它固有的編碼器功能,還必須具有完全的解碼器功能。如果編碼器是由軟件實現(xiàn)的,則為此對存儲性能和處理器性能都有所要求,從而導(dǎo)致編碼器的實現(xiàn)增加了開銷。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種花費較少的概念,利用這個概念,可以產(chǎn)生以一種以幾乎無損的方式解碼的音頻數(shù)據(jù)流。
這個目標(biāo)通過權(quán)利要求1中對時間離散的音頻信號進(jìn)行編碼的裝置,權(quán)利要求21中對時間離散的音頻信號進(jìn)行編碼的方法,權(quán)利要求22中對已編碼的音頻數(shù)據(jù)進(jìn)行解碼的裝置,權(quán)利要求31中對已編碼的音頻數(shù)據(jù)進(jìn)行解碼的方法,或者權(quán)利要求32或33中的計算機(jī)程序來實現(xiàn)。
本發(fā)明基于這樣的發(fā)現(xiàn),可以對音頻信號進(jìn)行無損解碼的輔助音頻信號可以通過如通常那樣提供一個量化頻譜值的數(shù)據(jù)塊,然后對其進(jìn)行反向量化來獲得反向量化的頻譜值來實現(xiàn),反向量化的頻譜值由于使用了心理聲學(xué)模型量化因而是有損的。這些反向量化的頻譜值然后被取整,以獲得經(jīng)過取整的反向量化的頻譜值的取整塊。作為形成差值的參考,按照本發(fā)明,使用了一種整數(shù)變換算法,此算法從一個整數(shù)時間離散采樣塊生成了只包含整數(shù)頻譜值的頻譜值整數(shù)塊。按照本發(fā)明,現(xiàn)在在取整塊和在整數(shù)塊中的頻譜值的結(jié)合是以頻譜值的方式實現(xiàn)的,也就是說在頻域內(nèi)實現(xiàn),所以在編碼器本身不需要合成算法,也就是反向濾波器組或者反向MDCT算法等。由于整數(shù)變換算法和取整量化值,包含不同頻譜值的結(jié)合塊僅僅包含可以以某些已知方式熵編碼的整數(shù)值。需要注意的是,任意的熵編碼器都可以用于結(jié)合塊的熵編碼,如哈夫曼編碼器和算法編碼器等。
對量化塊的量化頻譜值編碼也可以使用任意的編碼器,如已知的現(xiàn)代音頻編碼器常用的工具。
值得注意的是,本發(fā)明的編碼/解碼概念與現(xiàn)代編碼裝置是兼容的,如窗口切換、TNS、或者多信道音頻信號的中心/邊緣編碼。
在本發(fā)明的一個優(yōu)選實施例中,用MDCT來提供一個使用心理聲學(xué)模型量化的頻譜值量化塊。此外,最好使用一個所謂IntMDCT作為整數(shù)變換算法。
在本發(fā)明的替代實施例中,可以不使用通常的MDCT,而IntMDCT可以作為MDCT的近似,即通過整數(shù)變換算法獲得的整數(shù)頻譜被用于心理聲學(xué)量化器來獲得量化的IntMDCT頻譜值,此頻譜值然后再次被反向量化并取整,以與原始的整數(shù)頻譜值相比較。在這種情況下,只需要單一變換,也就是IntMDCT從整數(shù)時間離散采樣產(chǎn)生整數(shù)頻譜值。
典型地,處理器處理整數(shù),或者每個浮點數(shù)被表示為整數(shù)。如果一個整數(shù)算法用于一個處理器,它可以無需對反向量化的頻譜值取整,因為由于處理器取整值的算法,也就是在LSB精確度范圍之內(nèi),即最低有效位,總是存在的。在這樣的情況下,實現(xiàn)了完全的無損處理,也就是在被使用的處理器精度范圍之內(nèi)的處理。然而可選地,也可以取整到一個大致的精度,以使合成塊中的差分信號被取整到一個由取整函數(shù)所確定的精確度。為了生成一個在數(shù)據(jù)壓縮意義上幾乎無損的編碼器,在原本的處理系統(tǒng)取整外引入了取整,這樣增強(qiáng)了靈活性,從而影響了編碼無損的程度。
根據(jù)本發(fā)明的解碼器本身在心理聲學(xué)編碼音頻數(shù)據(jù)和輔助音頻數(shù)據(jù)兩方面特別突出,輔助音頻數(shù)據(jù)從音頻數(shù)據(jù)中抽取出,進(jìn)行可能的熵解碼,然后又做如下處理。首先解碼器中量化塊被反向量化,并且使用與編碼器中一樣的取整算法進(jìn)行取整,這樣隨后可以被加到熵解碼輔助音頻數(shù)據(jù)上。在解碼器中,然后心理聲學(xué)壓縮的音頻信號的頻譜表示和音頻信號的無損表示同時存在,其中心理聲學(xué)壓縮的音頻信號頻譜表示被變換到時域,以獲得一個無損的編碼/解碼音頻信號,而所述無損表示通過使用與為獲得無損,或者如上所述的那樣,基本無損的編碼/解碼音頻信號而使用的整數(shù)轉(zhuǎn)換算法相反的整數(shù)轉(zhuǎn)換算法變換到時域。
本發(fā)明的上述及其他目標(biāo)和特性將在下面與附圖相結(jié)合的描述中更加清楚圖1是用于處理時間離散的音頻采樣,以獲得從中可確定整數(shù)頻譜值的整數(shù)值的優(yōu)選的裝置的電路框圖;圖2是一個在Givens旋轉(zhuǎn)以及兩個DCT-IV操作中的MDCT和反向MDCT的分解的示意圖;圖3是在旋轉(zhuǎn)和DCT-TV操作中有50%重疊的MDCT分解的圖例代表;圖4a是一個具有MDCT和50%重疊的已知編碼器的示意電路框圖;圖4b是用于對圖4a中生成的值進(jìn)行解碼的已知解碼器的電路框圖;圖5是一個優(yōu)選的根據(jù)本發(fā)明的編碼器的原理電路框圖;圖6是一個可作為替代的優(yōu)選的具有創(chuàng)造性的解碼器的原理電路框圖;圖7是一個具有創(chuàng)造性的優(yōu)選解碼器的原理電路框圖;圖8a是具有一個第一擴(kuò)展層和一個第二擴(kuò)展層的比特流示意圖;圖8b是具有一個第一擴(kuò)展層和多個其它擴(kuò)展層的比特流示意圖;圖9是二進(jìn)制編碼差分頻譜值的示意圖,用于表示與差分頻譜值的精確度(位)有關(guān)和/或與差分頻譜值的頻率(采樣率)有關(guān)的可能擴(kuò)展比率。
具體實施例方式
在圖5到7的基礎(chǔ)上,下面將論及具有創(chuàng)造性的編碼器電路(圖5和圖6)或者一個具有創(chuàng)造性的優(yōu)選的解碼器電路(圖7)。圖5所示的本發(fā)明的編碼器包括一個輸入端50,時間離散的音頻信號被送入這個輸入端,還包括一個輸出端52,它輸出已編碼的音頻數(shù)據(jù)。輸入端50處的時間離散的音頻信號被饋入裝置52以提供一個量化塊,這個塊在輸出端提供了時間離散的音頻信號的量化塊,這個量化塊包含使用生理聲學(xué)模型54的時間離散頻譜音頻信號50的量化頻譜值。本發(fā)明的編碼器還包含使用一個整數(shù)變換算法56生成一個整數(shù)塊的裝置,其中這個整數(shù)算法對從整數(shù)時間離散采樣生成整數(shù)頻譜值是有效的。
具有創(chuàng)造性的編碼器還包括用于從裝置52對量化塊輸出進(jìn)行反向量化的裝置58,并且,當(dāng)需要和處理器精度不同的精度時,還包括一個取整函數(shù)。如同所述的一樣,如果已經(jīng)達(dá)到處理器系統(tǒng)的精度,則取整函數(shù)已經(jīng)固有地包含在量化塊的反向量化中,因為一個具有整數(shù)算法的處理器是無論如何不能夠提供非整數(shù)值的。于是裝置58提供了一種所謂的取整塊,它包括固有地或者顯式地被取整為整數(shù)的反向量化頻譜值。取整塊和整數(shù)塊都被饋送到用于使用差異形成提供具有差分頻譜值的差分的結(jié)合裝置,在這里術(shù)語“差分塊”意味著差分頻譜值是包含整數(shù)塊與取整塊之間的差的數(shù)值。
從裝置52輸出的量化塊以及從輸出差異形成裝置58的差分塊都被送入處理裝置60,來實現(xiàn)如通常的量化塊處理,并例如引起對差分塊的熵編碼。處理裝置60在輸出端52輸出經(jīng)過編碼的音頻數(shù)據(jù),這些數(shù)據(jù)包括量化塊的信息,還包括差分塊的信息。
在第一個優(yōu)選實施例中,如圖6所示,時間離散的音頻信號通過MDCT方法被轉(zhuǎn)換為頻譜表示,然后被量化。裝置52用于提供量化塊,具有MDCT裝置52a和一個量化器52b。
另外,最好用IntMDCT56作為整數(shù)轉(zhuǎn)換算法來生成整數(shù)塊。
在圖6中,圖5所示的處理裝置60也作為比特流編碼裝置60a和熵編碼器60b來描述,比特流編碼裝置60a是用于對裝置52b輸出的量化塊進(jìn)行比特流編碼,熵編碼器60b是用于對差分塊進(jìn)行熵編碼。比特流編碼器60a輸出生理聲學(xué)編碼的音頻數(shù)據(jù),而熵編碼器60b輸出熵編碼的差分塊。模塊60a和60b的兩種輸出數(shù)據(jù)塊可以通過一種合適的方式結(jié)合為比特流,此比特流以生理聲學(xué)編碼的音頻數(shù)據(jù)作為第一擴(kuò)展層,而把用于無損解碼的輔助音頻數(shù)據(jù)作為第二擴(kuò)展層。這個經(jīng)過擴(kuò)展的比特流然后與圖5所示的在編碼器的輸出端52處的已編碼的音頻數(shù)據(jù)相一致。
在一個替代的優(yōu)選實施例中,可以不使用圖6中的MDCT塊52a,因為它已在圖5中通過虛線箭頭62暗示了。在這種情況下,整數(shù)變換裝置56提供的整數(shù)頻譜被送到圖6中形成差值的裝置58和量化器52b。由整數(shù)變換算法產(chǎn)生的頻譜值在這里通過一種方式被用做通常的MDCT頻譜的近似。這個實施例的好處在于,僅僅IntMDCT算法存在于編碼器中,而不是IntMDCT和MDCT算法都需要存在。
再次參考圖6,需要注意的是,實框和實線代表遵循某一MPEG標(biāo)準(zhǔn)的一個普通音頻編碼器,而虛框和虛線則代表這樣一個普通MPEG編碼器的擴(kuò)展。因此,可以看到不需要對普通MPEG編碼器進(jìn)行根本改變,而是通過增加整數(shù)變換器的方法來捕獲無損編碼的輔助音頻數(shù)據(jù),并不需要改變編碼器/解碼器的基本結(jié)構(gòu)。
圖7示出了一個用于對圖5中輸出端52處的已編碼的音頻數(shù)據(jù)輸出進(jìn)行解碼的具有創(chuàng)造性的解碼器的原理電路框圖。它首先一方面分解為心理聲學(xué)編碼音頻數(shù)據(jù),另一方面分解為輔助音頻數(shù)據(jù)。心理聲學(xué)編碼音頻數(shù)據(jù)被送入一個普通的比特流解碼器70,而輔助音頻數(shù)據(jù),當(dāng)在被編碼器熵編碼后,被編碼器72熵編碼。在圖7中比特流解碼器70的輸出端處存在量化頻譜值,這些頻譜值原理上可以被送到與圖6的裝置中的反向量化器結(jié)構(gòu)相同的反向量化器74。如果需要達(dá)到一個與處理器精度不同的精度,在解碼器中還提供了一個取整裝置76,取整裝置76與圖6的裝置58一樣,實現(xiàn)了將一個實數(shù)映射為一個整數(shù)的同樣的算法或者同樣的取整函數(shù)。在一個解碼端結(jié)合器78中,經(jīng)過取整的反向量化頻譜值最好通過相加以頻譜值的方式與熵編碼輔助音頻數(shù)據(jù)相結(jié)合,使得在解碼器中,一方面反向量化頻譜值出現(xiàn)在裝置74的輸出端處,另一方面整數(shù)頻譜值出現(xiàn)在結(jié)合器78的輸出端處。
然后,為了執(zhí)行經(jīng)過修正的離散余弦反變換,可以通過裝置80把裝置74的輸出端處的頻譜值變換到時域,以得到一個有損的心理聲學(xué)編碼和再解碼的音頻信號。為了執(zhí)行反向的整數(shù)MDCT(IntMDCT),可以通過裝置82把合成器78的輸出信號也變換到其時間形式,以產(chǎn)生一個無損的編碼/解碼音頻信號,或者在采用一個更加粗略的取整的時候,能夠產(chǎn)生一個幾乎無損的編碼和再解碼的音頻信號。
下面來看圖6中的熵編碼器60b一種特別優(yōu)選的實施方式。在通常的現(xiàn)代MPEG編碼器中,多個碼表是根據(jù)量化頻譜值的平均統(tǒng)計量來選擇。最好在合成器58的輸出端處的差分塊使用相同的碼表或者碼書來進(jìn)行熵編碼。由于差分塊的大小,即殘留IntMDCT頻譜,取決于量化的精度,因此熵編碼器60b的碼表選擇可以在沒有輔助邊緣信息的情況下執(zhí)行。
在一個MPEG-2 AAC解碼器中,頻譜系數(shù),也就是量化頻譜值,被分組為在量化塊中的比例因子頻帶,其中頻譜值以來自與比例因子頻帶相關(guān)的相應(yīng)的比例因子的增益因子來加權(quán)。由于在這個已知的編碼器概念中,一個非均勻的量化器被用于量化加權(quán)的頻譜值,殘留值的大小,也就是結(jié)合器58的輸出端處的頻譜值,不僅取決于比例因子,還取決于量化值自身。但是由于比例因子和量化頻譜值都包含在由圖6的裝置60a生成的比特流中,也就是在心理聲學(xué)編碼音頻數(shù)據(jù)中,最好根據(jù)差分頻譜值的大小來實現(xiàn)解碼器中的碼書選擇,以及在比特流中傳輸?shù)谋壤蜃雍土炕档幕A(chǔ)之上,確定出解碼器中所使用的碼表。由于在合成器58的輸出端不需要傳輸輔助信息以對差分頻譜值進(jìn)行熵編碼,熵編碼僅僅導(dǎo)致數(shù)據(jù)率壓縮,而不需要在數(shù)據(jù)流中擴(kuò)展任何信號化比特作為熵編碼器60b的輔助信息。
在一個遵循標(biāo)準(zhǔn)MPEG-2 AAC的音頻編碼器中,用窗口切換來避免瞬態(tài)音頻信號域中的前向回波。這種技術(shù)基于在每半個MDCT窗口中分別選擇窗口形狀的可能性,能夠在連續(xù)塊中改變塊的大小。同樣的,IntMDCT形式的整數(shù)變換算法(這種算法參照圖1到3來解釋)也在窗口化和在時域MDCT分解的混迭部分使用了不同的窗口形狀來執(zhí)行。因而,為整數(shù)變換算法和生成量化塊的變換算法最好使用相同的窗口判別。
在一個遵循MPEG-2 AAC的編碼器中,也存在多種其它的編碼工具,這里只介紹TNS(時域噪聲整形)和中間/邊緣(CS)立體聲編碼。在TNS編碼中,就在像CS編碼中那樣,在量化前對頻譜值進(jìn)行修正。接著,IntMDCT值,也就是整數(shù)塊,之間的差,以及量化MDCT值增加了。根據(jù)本發(fā)明,形成整數(shù)變換算法來接納TNS編碼和中間/邊緣編碼的整數(shù)頻譜值。TNS技術(shù)基于對MDCT值在頻率上的自適應(yīng)前向預(yù)測。通過一個信號自適應(yīng)方式的普通TNS模塊計算出的相同的預(yù)測濾波器最好也被用于預(yù)測整數(shù)頻譜值,而如果其中產(chǎn)生了非整數(shù)值,則會使用向下取整,再次產(chǎn)生整數(shù)值。此取整最好發(fā)生在每個預(yù)測步驟之后。在解碼器中,初始頻譜可以通過使用反向濾波器和同樣的取整函數(shù)再次重建。同樣,CS編碼也可基于提升法通過使用具有角度π/4的取整Givens旋轉(zhuǎn)用于IntMDCT頻譜值。因此,在解碼器中的初始IntMDCT值是可以重建的。
需要注意的是,在以IntMDCT作為整數(shù)變換算法的優(yōu)選實施例中,本發(fā)明的概念可以應(yīng)用于一切基于MDCT的聽覺適應(yīng)性音頻編碼器。只是作為一個例子,這些編碼器是根據(jù)MPEG-4 AAC可擴(kuò)展性、MPEG-4 AAC低時延、MPEG-4 BSAC、MPEG-4 Twin VQ、DolbyAC-3等的編碼器。
尤其需要注意的是,這個具有創(chuàng)造性的概念是反向兼容的。聽覺適應(yīng)性編碼或解碼器沒有被改變,而僅僅是被擴(kuò)展了。無損分量的輔助信息可以在以反向兼容方式的聽覺適應(yīng)性方式編碼的比特流中傳輸,如在“輔助數(shù)據(jù)”域中的MPEG-2 AAC。前面的聽覺適應(yīng)性解碼器的附加部分在圖7中以虛線表示,它可以與量化MDCT頻譜和從聽覺適應(yīng)性解碼器以無損方式獲得的IntMDCT頻譜一起來估計并重建輔助數(shù)據(jù)。
在無損或者幾乎無損編碼的補(bǔ)充下,心理聲學(xué)編碼的創(chuàng)造性的概念尤其適合產(chǎn)生、傳輸和解碼可擴(kuò)展數(shù)據(jù)流。已知可擴(kuò)展數(shù)據(jù)流包含許多不同的擴(kuò)展層。其中,至少最低的擴(kuò)展層可以被發(fā)送并與較高擴(kuò)展層無關(guān)地進(jìn)行解碼。在數(shù)據(jù)的可擴(kuò)展處理中,其它擴(kuò)展層或者增強(qiáng)層被疊加到第一個擴(kuò)展層或者基層上。一個完整的編碼器可以產(chǎn)生可擴(kuò)展的數(shù)據(jù)流,這個數(shù)據(jù)流具有第一可擴(kuò)展層,原理上還有任意數(shù)目的其它可擴(kuò)展層。可擴(kuò)展性概念的一個優(yōu)點是,假如有一個寬帶傳輸信道可用,由編碼器產(chǎn)生的可擴(kuò)展數(shù)據(jù)流能夠完全發(fā)送。也就是說,包括所有的可擴(kuò)展層都可通過寬帶傳輸信道來傳輸。但是,如果只有一個窄帶的傳輸信道,經(jīng)過編碼的信號仍然可以通過傳輸信道發(fā)送,但是只能以第一擴(kuò)展層或者某個數(shù)目的其它擴(kuò)展層的形式來發(fā)送。其中其它擴(kuò)展層的數(shù)目小于由編碼器產(chǎn)生的所有擴(kuò)展層數(shù)。當(dāng)然,與信道連接并且適應(yīng)信道的編碼器可能已經(jīng)產(chǎn)生基擴(kuò)展層或第一擴(kuò)展層以及多個與信道相關(guān)的其它可擴(kuò)展層。
在解碼器一端,可擴(kuò)展概念也有一個優(yōu)點,那就是反向兼容。這意味著只能處理第一擴(kuò)展層的解碼器忽略了數(shù)據(jù)流中的第二個以及其它擴(kuò)展層,并且可以產(chǎn)生一個有用的輸出信號。但是,如果解碼器是一個典型的更加現(xiàn)代的解碼器,能夠處理擴(kuò)展數(shù)據(jù)流中的多個擴(kuò)展層,那么這個編碼器能夠作為基解碼器來處理相同的數(shù)據(jù)流。
在本發(fā)明中,基本的可擴(kuò)展性是量化的模塊,即比特流編碼器60a的輸出,被寫入到圖8的第一個擴(kuò)展層81中,當(dāng)考慮圖6的情況下,它包含心理聲學(xué)編碼的數(shù)據(jù),例如幀。通過合成裝置58產(chǎn)生的最好經(jīng)過熵編碼的差分頻譜值被寫入第二個擴(kuò)展層中,這種簡單的可擴(kuò)展性在圖8a中用82來表示。因此對幀來說,包含輔助音頻數(shù)據(jù)。
如果從編碼器到解碼器的傳輸信道是寬帶傳輸信道,擴(kuò)展層81和82都可以發(fā)送到解碼器。但如果這個傳輸信道是一個窄帶傳輸信道,只有第一個擴(kuò)展層是“符合”的,第二個擴(kuò)展層可以在數(shù)據(jù)發(fā)送之前直接從數(shù)據(jù)流中移除,因此解碼器只處理第一個擴(kuò)展層。
在解碼器一端,一個只能處理心理聲學(xué)編碼數(shù)據(jù)的“基解碼器”可以在通過寬帶信道收到第二個擴(kuò)展層時直接忽略第二個擴(kuò)展層。但如果這個解碼器是一個含有心理聲學(xué)解碼算法和整數(shù)解碼算法的完全的解碼器,那么它可以用第一個和第二個擴(kuò)展層來解碼,以產(chǎn)生無損編碼和解碼后的輸出信號。
圖8a中簡要示出了本發(fā)明的一個優(yōu)選實施例,用于幀的心理聲學(xué)編碼數(shù)據(jù)也被放在第一個擴(kuò)展層中。圖8a中的第二個擴(kuò)展層被更精細(xì)地量化,使得從圖8中的這個第二擴(kuò)展層中出現(xiàn)多個擴(kuò)展層,例如(更小的)第二擴(kuò)展層、第三擴(kuò)展層、第四擴(kuò)展層等等。
從加法器58輸出的差分頻譜值尤其適合進(jìn)一步的量化,如基于圖9所示。圖9簡要示出了二進(jìn)制編碼的頻譜值。圖9中的每行90代表一個二進(jìn)制編碼的差分頻譜值。在圖9中差分頻譜值根據(jù)頻率來分類,在圖上用箭頭91來表示。一個差分頻譜值92比差分頻譜值90有更高的頻率。圖9中的表格中的第一列代表一個差分頻譜值中的最高有效位;第二個數(shù)字代表有效位為MSB-1的比特;第三個數(shù)字代表有效位為MSB-2的比特。倒數(shù)第二列代表有效位為LSB+2的比特;倒數(shù)第一列代表有效位為LSB+1的比特;最后一列代表有效位數(shù)為LSB的比特,也就是一個差分頻譜值的最低有效位。
在本發(fā)明的一個優(yōu)選實施例中,差分頻譜值的例如16個最高有效位在第二個擴(kuò)展層中出現(xiàn),以實現(xiàn)精確量化,這樣如果希望的話,可以通過熵編碼器60b進(jìn)行熵編碼。采用第二個擴(kuò)展層的解碼器在輸出端以16比特的精度獲得差分頻譜值,這樣第二擴(kuò)展層和第一擴(kuò)展層一起提供了一個CD音質(zhì)的無損解碼音頻信號。已知存在16比特的CD音質(zhì)音頻采樣。
另一方面,如果將演播室音質(zhì)的音頻信號提供給編碼器,即,每個采樣包含24比特的音頻信號,則編碼器可進(jìn)一步產(chǎn)生包含差分頻譜值的最后8比特的第三擴(kuò)展層,并根據(jù)需要進(jìn)行熵編碼(圖6的裝置60)。
一個完全的解碼器獲得第一擴(kuò)展層、第二擴(kuò)展層(差分頻譜值16個最高有效位)和第三擴(kuò)展層(差分頻譜值8個次高有效位)的數(shù)據(jù)流,這個解碼器可以提供一個無損的、演播室音質(zhì)的編碼/解碼音頻信號,也就是說,采用全部三個擴(kuò)展層在解碼器的輸出端提供24比特的采樣字寬。
需要注意的是,演播室領(lǐng)域中音頻信號比一般消費類領(lǐng)域音頻信號有更長的采樣字長。在消費類領(lǐng)域,音頻CD中信號字寬是16比特,而在演播室領(lǐng)域中是24或20比特。
基于在IntMDCT領(lǐng)域縮放的概念,如前所述,所有三種精度(16比特,20比特或24比特)或者最小用1比特來量化的任意精度均可以被量化編碼。
這里,用24比特精度表示的音頻信號在借助于反向IntMDCT在整數(shù)頻域中表示,并且和聽力適應(yīng)的基于MDCT的音頻編碼輸出信號量化結(jié)合。
用于無損表示的整數(shù)差分值現(xiàn)在不是在一個擴(kuò)展層中完全編碼,而是首先以一種比較低的精度來編碼。僅在一個其它擴(kuò)展層中發(fā)送為精確的表達(dá)所需的殘留值。然而一種替代方案是,一個差分頻譜值可以被完整的表示,即在其它擴(kuò)展層中例如用24比特來表示,這樣對于解碼這個其它的可擴(kuò)展層,則不再需要下面的擴(kuò)展層。然而,這種情況會導(dǎo)致更高的比特流大小,但是當(dāng)傳輸信道的帶寬不存在問題時,在解碼器端就會簡化,因為在解碼器中可擴(kuò)展層不再需要結(jié)合起來,對解碼始終采用一個擴(kuò)展層就足夠了。
例如如果低8位LSB,如圖9所示,在開始時不再發(fā)送,就能實現(xiàn)在24比特和16比特之間的可擴(kuò)展性。
為了將用較低精度所傳輸?shù)闹捣醋儞Q到時域,被傳輸?shù)闹底詈帽粩U(kuò)展回初始區(qū)域,例如24比特,例如用28乘以所傳輸?shù)闹?。一個反向的IntMDCT被應(yīng)用到對應(yīng)的擴(kuò)展回的值。
在根據(jù)本發(fā)明的頻域中的精度量化中,還最好利用LSB中的冗余。例如如果一個音頻信號在上部頻域有很小的能量,這在IntMDCT頻譜中用很小的值來表示,例如這些值大大小于可以例如用8比特表示的值(-128,......,127),在IntMDCT頻譜的LSB值的可壓縮性中也體現(xiàn)了這種情況。而且,需要注意的是在很小的差分頻譜值中,從MSB到MSB-1的多個比特典型地均等于零;在有效位為MSB-n-1的比特之前,二進(jìn)制編碼的差分頻譜值中的第一個1并不存在。這種情況下,當(dāng)在第二個可擴(kuò)展層中的差分頻譜值只包含零的時候,熵編碼尤其適合進(jìn)一步的數(shù)據(jù)壓縮。
按照本發(fā)明的另一個實施例,對于圖8a的第二擴(kuò)展層82最好使用采樣率擴(kuò)展性。采樣率擴(kuò)展性通過最大為包含在第二擴(kuò)展層中的第一截止頻率的差分頻譜值來實現(xiàn),如圖9右邊所示,而在其它擴(kuò)展層中,包含頻率位于第一截止頻率和最大頻率之間的差分頻譜值。當(dāng)然,可以實現(xiàn)進(jìn)一步的擴(kuò)展,以在整個頻域形成多個擴(kuò)展層。
在本發(fā)明的一個優(yōu)選實施例中,圖9中的第二個擴(kuò)展層包括頻率最大為24kHz的差分頻譜值,對應(yīng)于48kHz的采樣率。第三擴(kuò)展層包括從24kHz到48kHz的差分頻譜值,對應(yīng)于96kHz的采樣率。
需要進(jìn)一步注意的是,在第二擴(kuò)展層和第三擴(kuò)展層中,不是一個差分頻譜值中的所有位都需要編碼。在合成擴(kuò)展性的其它形式中,第二擴(kuò)展層可包含最大為某一截止頻率的差分頻譜值的從MSB到MSB-X的位。第三擴(kuò)展層然后可以包含從第一截止頻率到最高頻率的差分頻譜值的從MSB到MSB-X的位。第四擴(kuò)展層可包含最大為截止頻率的差分頻譜值的剩余位。最后一個擴(kuò)展層包含較高頻率的差分頻譜值的剩余位。這個概念將會使圖9中的表格被分為四個象限,每個象限代表一個擴(kuò)展層。
在頻率的可擴(kuò)展性中,在本發(fā)明的一個優(yōu)選實施例中,描述了一個位于48kHz和96kHz采樣率之間的可擴(kuò)展性。96kHz的采樣信號首先只在無損擴(kuò)展層的IntMDCT區(qū)域中編碼一半,并被傳輸。如果上半部分不被另外傳輸,在解碼器中它被假定為零。在反向IntMDCT中(與編碼器同樣長度),產(chǎn)生了一個96kHz的信號,這個信號在上面的頻域不包含能量,因而可能在沒有質(zhì)量損失的情況下以48kHZ被二次采樣。
考慮到可擴(kuò)展層的大小,圖9具有固定邊界的象限中差分頻譜值最好在上面量化,因為在一個擴(kuò)展層中,實際上只需要包含例如16位或者8位或者最大為截止頻率或高于截止頻率的頻譜值。
一種作為替換的比例在某種程度上“軟化”了圖9的象限邊界。在頻率可擴(kuò)展性的例子中,這意味著不因為在截止頻率前的差分頻譜值沒有改變并且在截止頻率后為零,就應(yīng)用所謂的“磚墻低通”。相反的,差分頻譜值也可通過已經(jīng)有些阻礙低于截止頻率的頻譜值的任意低通來濾波,但是,在截止頻率以上,差分頻譜值還仍然有能量,雖然能量在降低。在由此生成的擴(kuò)展層中,還包含在截止頻率以上的頻譜值。然而,由于這些頻譜值相對較小,它們可以被有效地進(jìn)行熵編碼。在這種情況下最高擴(kuò)展層具有在完全差分頻譜值和包含在第二擴(kuò)展層的頻譜值之間的差。
精確量化在某種程度上也可以同樣被軟化。第一擴(kuò)展層也包含例如多于16位的頻譜值,其中在下一個擴(kuò)展層中仍然具有這個差別。通常來講,第二擴(kuò)展層具有精度更低的差分頻譜值,而在下一個擴(kuò)展層中,其余的,也就是完全頻譜值和第二可擴(kuò)展層中包含的頻譜值之間的差被傳輸。通過這種方法,實現(xiàn)了可變精度縮減。
具有創(chuàng)造性的編碼或解碼方法更適于存儲在具有電子可讀性控制信號的電子存儲媒體中,如軟盤,其中控制信號可以與一個可編程的計算機(jī)系統(tǒng)配合,從而執(zhí)行編碼和/或解碼方法。換句話說,當(dāng)程序產(chǎn)品在計算機(jī)上執(zhí)行時,存在一個具有存儲在機(jī)器可讀載體的計算機(jī)代碼的計算機(jī)程序產(chǎn)品,以實現(xiàn)編碼和/或解碼方法。當(dāng)程序在計算機(jī)中執(zhí)行時,本發(fā)明的方法可以通過具有執(zhí)行本發(fā)明的方法的計算機(jī)代碼的計算機(jī)程序來實現(xiàn)。
下面,作為一個整數(shù)變換算法的例子,需要介紹在“Audio CodingBased on Interger Transforms”(111thAES convention,NewYork,2001)中描述的IntMDCT變換算法。由于IntMDCT有MDCT算法的吸引人的特性,如音頻信號的良好頻譜表示、嚴(yán)格的取樣和塊重疊,IntMDCT尤其受到青睞。一種通過IntMDCT對MDCT的良好的近似可以僅僅使用在圖5的編碼器中的一個變換算法,如圖5的箭頭62所示。在圖1到4的基礎(chǔ)之上解釋了這種特別形式的整數(shù)變換算法的重要屬性。
圖1示出了為處理表示音頻信號的時間離散的采樣的具有創(chuàng)造性的優(yōu)選的裝置,以獲得使IntMDCT整數(shù)變換算法有效的整數(shù)值。時間離散的采樣被窗口化并且可選地被圖1所示的裝置轉(zhuǎn)換成頻譜表示。被送入裝置的輸入端10的時間離散的采樣被一個長度為2N時間離散采樣的窗口w窗口化,以在輸出端12獲取整數(shù)窗口化采樣,這些采樣適合于通過變換裝置、尤其是用于執(zhí)行整數(shù)DCT的裝置14轉(zhuǎn)化為頻譜表示。整數(shù)DCT用于從N個輸入值產(chǎn)生N個輸出值,這與圖4a的MDCT函數(shù)408相反,函數(shù)408根據(jù)MDCT等式從2N個窗口化值只產(chǎn)生N個頻譜值。
為了窗口化時間離散采樣,首先在裝置16中選擇兩個時間離散的采樣,它們一起代表一個時間離散采樣的矢量。裝置16選擇的一個時間離散采樣位于窗口的第一象限。另一個時間離散采樣位于窗口的第二象限,在圖3的基礎(chǔ)上它被解釋得更加詳細(xì)。對于裝置16生成的矢量,應(yīng)用一個2×2維的矩陣旋轉(zhuǎn),其中這個操作不是立即執(zhí)行的,而是通過多個所謂的“提升矩陣”來執(zhí)行。
一個提升矩陣具有只包含一個與窗口w有關(guān)的元素和不等于0或者1的屬性。
在“Factoring Wavelet Transforms Into Lifting Steps”(IngridDaubechies和Wim Sweldens,preprint,Bell Laboratories,LucentTechnologies,1996)中描述了由小波變換到提升步驟的因式分解。總體來講,一個提升方案是具有同樣低通或者高通濾波器的完美重建濾波器對之間的簡單關(guān)系。每對互補(bǔ)濾波器都可以被因式分解為提升步驟。這對于Givens旋轉(zhuǎn)尤其適用??紤]多相矩陣是Givens旋轉(zhuǎn)的情形。然后,應(yīng)用下面的公式 等號右邊的三個提升矩陣每個都有1作為主對角線元素。此外,在每個提升矩陣中,不在主對角線上的元素等于0,不在主對角線上的元素與旋轉(zhuǎn)角α有關(guān)。
現(xiàn)在向量與第三個提升矩陣相乘,也就是乘以上式中最右邊的提升矩陣,得到第一個結(jié)果向量,在圖1中用裝置18來描述這個過程。如圖1中通過裝置20所示,用一個任意的取整函數(shù)對第一個結(jié)果向量取整,這個取整函數(shù)將一組實數(shù)映射為一組整數(shù)。在裝置20的輸出端處得到了取整后的第一個結(jié)果向量。這個取整后的第一個結(jié)果向量被送到裝置22,與中間的一項相乘,也就是乘以右邊第二項,得到第二個結(jié)果向量,然后再用裝置24取整得到取整后的第二個結(jié)果向量。取整后的第二個結(jié)果向量送至裝置26與上述等式最左邊的提升矩陣相乘,也就是第一項,來得到第三個結(jié)果向量,最后依然用裝置28取整,最后在輸出端12處得到整數(shù)窗口化采樣,如果希望得到其頻譜表示,則需要通過裝置14對其進(jìn)行處理,從而在頻譜輸出端30處得到整數(shù)頻譜值。
裝置14最好作為整數(shù)DCT來實現(xiàn)。
根據(jù)長度為N的類型4(DCT-IV),離散余弦變換用下式給出Xt(m)=2NΣk=0N-1x(k)cos(π4N(2k+1)(2m+1))---(2)]]>DCT-IV的系數(shù)形成一個標(biāo)準(zhǔn)正交的N×N矩陣,如出版物“Multirate System And Filter Banks”(P.P.Vaidyanathan,PrenticeHall,Englewood Cliffs,1993)中所述,每一個正交N×N矩陣可以分解成N(N-1)/2個Givens旋轉(zhuǎn)。需要注意的是,也可以進(jìn)一步分解。
對于不同DCT算法的分類,可以參考H.S.Malvar的“SignalProcessing With Lapped Transforms”一書,1992年Artech House出版社出版。一般來說,DCT算法根據(jù)它們的基函數(shù)類型來區(qū)分。而在這里優(yōu)選的DCT-IV中包含非對稱的基函數(shù),也就是說,一個1/4余弦波,一個3/4余弦波,一個5/4余弦波,一個7/4余弦波等等,這種離散余弦變換,例如類型II(DCT-II),具有軸對稱和點對稱的基函數(shù)。零級基函數(shù)是一個直流分量,第一級基函數(shù)是半個余弦波,第二級基函數(shù)是整個余弦波,等等。由于在DCT-II中特別考慮直流分量,它應(yīng)用在視頻編碼中而不是用在音頻編碼中,因為與視頻編碼不同的是,音頻編碼中的直流分量是不相關(guān)的。
下面來解釋Givens旋轉(zhuǎn)的旋轉(zhuǎn)角α如何與窗口函數(shù)有關(guān)。
窗口長度為2N的一個MDCT可以減至長度為N的IV型離散余弦變換。這可以通過在時域內(nèi)執(zhí)行TDAC操作,然后應(yīng)用DCT-IV來實現(xiàn)。由于50%重疊,用于塊t的左半部窗口和先前的塊,也就是塊t-1的右半部重疊。兩個連續(xù)塊t和t-1的重疊部分在時域中,即在轉(zhuǎn)換之前,也就是在圖1的輸入10和輸出12之間,進(jìn)行預(yù)處理,如下 字母上面標(biāo)有波浪線的數(shù)值是圖1的輸出端12處的值,上式中沒有標(biāo)有波浪線的x值代表輸入端10處的值或者裝置16后面的用于選擇的值。系數(shù)k的取值范圍從0到(N/2)-1,w代表窗口函數(shù)。
從窗口函數(shù)w的TDAC條件可知有下面關(guān)系w(N2+k)2+w(N2-1-k)2=1---(4)]]>對于某些角度αk,k=0、1、......、(N/2)-1,這個在時域內(nèi)的預(yù)處理可以寫成Givens旋轉(zhuǎn),這在前面已經(jīng)解釋了。
Givens旋轉(zhuǎn)的角度α與窗口函數(shù)w的關(guān)系如下α=arctan[w(N/2-1-k)/w(N/2+k)](5)需要注意的是,只要符合TDAC條件,任意的窗口函數(shù)w都可以應(yīng)用。
下面,以圖2為基礎(chǔ),描述了一個級聯(lián)的編碼器和解碼器。通過一個窗口一起“窗口化”的時間離散采樣x(0)到x(2N-1)首先被圖1中的裝置16來選擇,使得采樣x(0)和x(N-1),即來自窗口的第一個四分之一部分的采樣和來自窗口的第二個四分之一部分的采樣被選擇,以在裝置16的輸出端處形成矢量。交叉的箭頭表示對裝置18,20或22,24或26,28提升相乘和相繼取整,以在DCT-IV塊的輸入端得到整數(shù)窗口化的采樣。
如上所描述,當(dāng)?shù)谝粋€矢量被處理的時候,第二個矢量也從采樣x(N/2-1)和x(N/2)中選中,也就是說,又一個來自窗口的第一個四分之一部分的采樣和來自窗口的第二個四分之一部分的采樣,再一次通過圖1中所描述的算法處理。所有其他的來自于窗口第一個四分之一部分和第二個四分之一部分的采樣對均被類似處理。第一個窗口的第三和第四個四分之一部分被同樣地處理。如圖2所示,在輸出端12處具有N個“窗口化”的整數(shù)采樣,它被送至DCT-IV變換。特別的,第二和第三個四分之一部分的“窗口化”整數(shù)采樣被送至DCT。窗口的第一個四分之一部分的“窗口化”整數(shù)采樣與前一個窗口的第四個四分之一部分的“窗口化”整數(shù)采樣一起被送入前面的DCT-IV中進(jìn)行處理。類似的,圖2中第四個四分之一部分的“窗口化”整數(shù)采樣與后一個窗口的第一個四分之一部分的“窗口化”整數(shù)采樣一起被送至DCT-IV變換。圖2中所示的中央整數(shù)DCT-IV變換32提供了N個整數(shù)的頻譜值y(0)到y(tǒng)(N-1)。由于窗口化過程和變換過程提供了整數(shù)的輸出值,因此不需要反向量化就可以將這些整數(shù)頻譜值直接進(jìn)行熵編碼。
在圖2的右半邊描述了一個解碼器。這個解碼器包含反向變換和“反向窗口化”,它以與編碼器相反的方式工作。已知對于DCT-IV的反向變換來說,需要使用到如圖2所示的反向DCT-IV。如圖2所示,為了再一次在裝置34的輸出端或者前一次和下一次變換中從整數(shù)“窗口化”采樣中產(chǎn)生時間離散音頻采樣x(0)到x(2N-1),用前一次和后一次的變換的值對解碼器DCT-IV34的輸出值進(jìn)行反向處理。
輸出端的操作通過一個反向Givens旋轉(zhuǎn)來完成,即塊26,28或者22,24或者18,20是在一個相反的方向通過?;诘仁?的第二個提升矩陣可以描述得更加詳細(xì)。當(dāng)(在編碼器中)第二個結(jié)果矢量通過將取整后的第一個結(jié)果矢量與第二個提升矩陣相乘(裝置22)而形成的時候,有以下的結(jié)果 等式6右邊的值x,y是整數(shù)。然而這不適用于值xsinα。這里,需要介紹一下取整函數(shù)r,它以如下的等式表示 這個操作執(zhí)行了裝置24的功能。
解碼器中的反向映射可以定義如下 由于在取整操作之前的減號,很明顯提升步驟的整數(shù)近似可以被反向,而不會引入錯誤。對這三個提升步驟中任何一個的近似的應(yīng)用都導(dǎo)致了Givens旋轉(zhuǎn)的整數(shù)近似。(編碼器中的)取整旋轉(zhuǎn)可以(在解碼器中)被反向,而不會引入錯誤,即反向取整順提升步驟以相反的順序通過,也就是說,圖1的算法在解碼的時候是自下向上執(zhí)行的。
如果取整函數(shù)r是點對稱的,反向取整的旋轉(zhuǎn)與角-α的取整旋轉(zhuǎn)是相同的,如下 用于解碼器的提升矩陣,即用于反向Givens旋轉(zhuǎn),在這種情況下可由等式(1)直接得到,僅需簡單地將“sinα”項替換為“-sinα”。
在下面,在圖3的基礎(chǔ)之上,再次提到具有重疊窗口40到60的普通MDCT的分解。窗口40到60分別重疊50%。每個窗口,首先窗口的第一和第二個四分之一部分內(nèi)、或者在窗口的第三和第四個四分之一部分內(nèi)的Givens旋轉(zhuǎn)被執(zhí)行,如箭頭48所示。然后,被旋轉(zhuǎn)的值,也就是窗口化的整數(shù)采樣,被送入一個N到N的DCT,使得一個窗口的第二和第三個四分之一部分或者下一個窗口的第四和第一個四分之一部分一起通過DCT-IV算法轉(zhuǎn)換為頻譜表示。
所以,通常的Givens旋轉(zhuǎn)被分解為提升矩陣,這些矩陣被順序執(zhí)行,其中在每次提升矩陣相乘之后引入一個取整的步驟,使得浮點數(shù)在它們產(chǎn)生后就立即被取整,這樣在每次結(jié)果矢量與提升矩陣相乘之前,結(jié)果矢量只有整數(shù)。
輸出值總是整數(shù),最好也使用整數(shù)輸入值。這不代表對本發(fā)明的局限,因為每個作為示例的PCM采樣,由于它們存儲在一張CD上,是整數(shù)值,其取值范圍是根據(jù)位的寬度變化的,也就是說,根據(jù)時間離散數(shù)字輸入值是十六位還是二十一位來變化。然而,如所闡述的一樣,通過以相反的順序執(zhí)行反向旋轉(zhuǎn),整個過程是可以反向進(jìn)行的。因此,存在一個具有完美重建的MDCT整數(shù)近似值,即無損轉(zhuǎn)換。
所示轉(zhuǎn)換提供了整數(shù)輸出值而不是浮點值。它提供了一個完美的重建,所以當(dāng)先執(zhí)行一個前向轉(zhuǎn)換、然后執(zhí)行一個后向轉(zhuǎn)換的時候,沒有引入錯誤。這個轉(zhuǎn)換,按照本發(fā)明的一個優(yōu)選實施例,是對修正離散余弦變換的替換。然而,其他轉(zhuǎn)換方法也可以通過整數(shù)的方式執(zhí)行,只要分解為旋轉(zhuǎn)和將旋轉(zhuǎn)分解為提升步驟是可能的。
整數(shù)MDCT有MDCT的大部分優(yōu)良特性。它有一個重疊的結(jié)構(gòu),由此可得到比在無重疊塊轉(zhuǎn)換中更好的頻率選擇性。由于TDAC函數(shù),轉(zhuǎn)換前的窗口化已經(jīng)考慮了這個函數(shù),維持了嚴(yán)格的采樣,使得代表一個音頻信號的所有頻譜值等于輸入采樣的總數(shù)。
與一個普通的提供浮點采樣的MDCT相比,在描述的優(yōu)選的整數(shù)變換中,僅在具有很小的信號強(qiáng)度的頻譜區(qū)域中,與普通MDCT相比,噪聲增強(qiáng)了,而這個噪聲增強(qiáng)的并沒有使它自己成為一個重要的信號強(qiáng)度。為此,整數(shù)處理有助于有效的硬件實現(xiàn),因為只使用了乘法步驟,而乘法可以很容易地分解為移位和加法步驟,這兩種操作在硬件中都是很容易快速實現(xiàn)的。當(dāng)然,軟件實現(xiàn)也是可行的。
整數(shù)變換提供了音頻信號的一個良好的頻譜表示,并且仍然保留在整數(shù)區(qū)域。當(dāng)它被應(yīng)用于一個音頻信號的語音部分時,會導(dǎo)致良好的能量聚集。通過這種方法,一個有效的無損編碼方案可以通過用如圖1所示簡單的級聯(lián)窗口化/轉(zhuǎn)換來實現(xiàn)。尤其,使用逸出值的堆棧編碼是很受歡迎的,如在MPEG AAC中使用的一樣。最好通過使用二的特定次方來縮減所有的值直到它們滿足一個所希望的碼表,然后對忽略的最低有效位進(jìn)行編碼。與使用更大的碼表的替代方法相比,考慮到存儲碼表所需要的存儲消耗,這個方法更好。也可以通過只簡單地省略某些最低有效位獲得一種幾乎無損的編碼器。
尤其對于語音信號,整數(shù)頻譜值的熵編碼使高編碼增益成為可能。對于信號的瞬態(tài)部分,編碼增益很低,即由于瞬態(tài)信號的平坦頻譜,也就是說,由于一小部分等于或幾乎等于0的頻譜值。如在J.Herre,J.D.Johnston的“Enhancing the Performance of Perceptual AudioCoders by Using Temporal Noise Shaping(TNS)”101stAESConvention,Los Angeles,1996,preprint 4384中所描述,然而這種平坦性可能通過用頻域內(nèi)的線性預(yù)測而被利用。有一個替代方案是用開環(huán)預(yù)測,還有一個替代方案是用閉環(huán)預(yù)測。第一種方案,即開環(huán)預(yù)測器,被稱為TNS。預(yù)測后的量化導(dǎo)致結(jié)果量化噪聲適應(yīng)于音頻信號的時域結(jié)構(gòu),因此阻止了在心理聲學(xué)音頻編碼器中的前向回波。對于無損音頻編碼,第二種方案更適合,也就是閉環(huán)預(yù)測器,因為閉環(huán)預(yù)測允許輸入信號的精確重建。當(dāng)這一技術(shù)被應(yīng)用于所生成的頻譜時,在預(yù)測濾波器的每級后必須執(zhí)行一個取整步驟,以使之保留在整數(shù)區(qū)域內(nèi)。通過使用反向濾波器和同樣的取整函數(shù),初始的頻譜可以精確地產(chǎn)生。
為了利用數(shù)據(jù)縮減中的兩條信道之間的冗余,當(dāng)使用一個α/4角度的取整旋轉(zhuǎn)時候,在無損方式中也可以使用中間-邊緣編碼。與計算立體聲信號左右聲道之間的總數(shù)和差的方法相比較,這個取整旋轉(zhuǎn)的好處是能夠維持能量。使用所謂的結(jié)合立體聲編碼的技術(shù)可以為每個波段被打開或者關(guān)閉,如同在標(biāo)準(zhǔn)MPEG AAC中也是這樣實現(xiàn)的。為了能夠更加靈活地減小兩個信道之間的冗余,還可考慮其它旋轉(zhuǎn)角度。
權(quán)利要求
1.用于對時間離散的音頻信號進(jìn)行編碼以得到編碼后的音頻數(shù)據(jù)的裝置,包括用于使用心理聲學(xué)模型(54)來提供被量化的時間離散的音頻信號的量化塊的裝置(52);用于反向量化這個量化塊,并對反向量化的頻譜值取整,以獲得被取整的反向量化的頻譜值的取整塊的裝置(58);用于利用整數(shù)變換算法生成整數(shù)頻譜值的整數(shù)塊的裝置(56),所述整數(shù)變換算法用于從整數(shù)時間離散采樣模塊來生成頻譜值的整數(shù)塊;用于根據(jù)取整塊和整數(shù)塊之間頻譜值的差形成差分塊的結(jié)合裝置(58),以獲得具有差分頻譜值的差分塊;以及用于處理量化塊和差分塊的裝置(60),以產(chǎn)生包含量化塊的信息和差分塊的信息的編碼的音頻數(shù)據(jù)。
2.如權(quán)利要求1所述的裝置,其中用于提供的裝置(52)通過一個MDCT,從時間音頻信號值的時間塊產(chǎn)生一個MDCT頻譜值的MDCT模塊,并且用心理聲學(xué)模型來量化這個MDCT模塊,以產(chǎn)生包含量化的MDCT頻譜值的量化塊。
3.如權(quán)利要求2所述的裝置,其中用于產(chǎn)生整數(shù)塊的裝置(56)在時間塊上執(zhí)行一個IntMDCT,以產(chǎn)生包含IntMDCT頻譜值的整數(shù)塊。
4.如前面任一權(quán)利要求所述的裝置,其中用于提供的裝置(52)用浮點轉(zhuǎn)換算法計算量化塊。
5.如權(quán)利要求1至3中的任一項所述的裝置,其中用于提供的裝置(52)用通過用于生成的裝置(56)產(chǎn)生的整數(shù)塊來計算量化塊。
6.如前面任一權(quán)利要求所述的裝置,其中用于處理的裝置(60)對量化塊進(jìn)行熵編碼(60a),以獲得熵編碼的量化塊;對取整塊進(jìn)行熵編碼(60b),以獲得熵編碼的取整塊;并且將熵編碼的量化塊轉(zhuǎn)換為表示編碼音頻數(shù)據(jù)的擴(kuò)展數(shù)據(jù)流的第一擴(kuò)展層,并將熵編碼取整塊轉(zhuǎn)換為擴(kuò)展數(shù)據(jù)流的第二擴(kuò)展層。
7.如權(quán)利要求6所述的裝置,其中用于處理的裝置(60)還根據(jù)量化的頻譜值,使用多個碼表中的一個,對量化塊進(jìn)行熵編碼,并且其中用于處理的裝置(60)還根據(jù)量化中可用的量化器的屬性,選擇多個碼表中的一個,以產(chǎn)生用于對差分塊進(jìn)行熵編碼的量化塊。
8.如前面任一權(quán)利要求所述的裝置,其中用于提供的裝置(52)根據(jù)音頻信號的屬性,選擇多個窗口中的一個,以對音頻信號值的時間塊進(jìn)行窗口化;并且其中用于生成的裝置(56)為整數(shù)轉(zhuǎn)換算法進(jìn)行相同的窗口選擇。
9.如權(quán)利要求1至8的任一項所述的裝置,其中用于生成的裝置使用了一個整數(shù)轉(zhuǎn)換算法,包括用長度對應(yīng)于2N個時間離散的采樣的窗口(w)對時間離散的采樣進(jìn)行窗口化,以提供窗口化的時間離散采樣,通過能夠從N個輸入值產(chǎn)生N個輸出值的變換,將時間離散的采樣變換為頻譜表示,其中窗口化過程包含下面的子步驟從窗口的四分之一部分選擇(16)一個時間離散的采樣,并且從該窗口的另外四分之一部分選擇一個時間離散的采樣,以得到時間離散采樣的矢量;應(yīng)用一個旋轉(zhuǎn)方陣,其維數(shù)與矢量到矢量的維數(shù)相匹配,其中旋轉(zhuǎn)矩陣可以用多個提升矩陣來表示,其中一個提升矩陣根據(jù)窗口(w)只包含一個元素,并且不等于1或者0,其中應(yīng)用子步驟包含下面的子步驟用提升矩陣與矢量相乘(18),得到第一個結(jié)果矢量;用把實數(shù)映射為整數(shù)的取整函數(shù)(r)來取整第一個結(jié)果矢量的分量,得到取整的第一個結(jié)果矢量;并且隨后執(zhí)行與另外一個提升矩陣相乘(22)并取整(24)的步驟,直到所有的提升矩陣都被處理完畢,得到一個旋轉(zhuǎn)矢量,它包含來自窗口的四分之一部分的整數(shù)窗口化采樣和來自該窗口的另外四分之一部分的整數(shù)窗口化采樣,并且執(zhí)行對于窗口的剩余的四分之一部分的所有時間離散采樣進(jìn)行窗口化的步驟,得到2N個濾波后的整數(shù)值;并且對于通過窗口的第二和第三個四分之一部分的濾波后的整數(shù)采樣值,通過整數(shù)DCT,把N個窗口化的整數(shù)采樣變換(14)為頻譜表示,得到N個整數(shù)頻譜值。
10.如前面任一權(quán)利要求所述的裝置,其中提供量化塊的裝置(52)在量化步驟(52b)之前,用一個預(yù)測濾波器實現(xiàn)對于頻率上頻譜值的預(yù)測,以得到表示在量化之后的量化塊的預(yù)測殘留頻譜值;其中還提供了一個預(yù)測裝置,它對整數(shù)塊的整數(shù)頻譜值在頻率上進(jìn)行預(yù)測,其中還提供了取整裝置,以對由于表示取整塊的整數(shù)頻譜值得到的預(yù)測殘留頻譜值進(jìn)行取整。
11.如前面任一權(quán)利要求所述的裝置,其中時間離散音頻信號包括至少兩個信道其中用于提供的裝置(52)用時間離散音頻信號的頻譜值來執(zhí)行中心/邊緣編碼,以在中心/邊緣頻譜值的量化之后得到量化塊,并且其中用于生成整數(shù)塊的裝置(56)也執(zhí)行對應(yīng)于用于提供的裝置(52)的中心/邊緣編碼的中心/邊緣編碼。
12.如前面任一權(quán)利要求所述的裝置,其中用于處理的裝置(60)產(chǎn)生一個MPEG-2 ACC數(shù)據(jù)流,其中在一個區(qū)域中引入了用于整數(shù)變換算法的輔助數(shù)據(jù)輔助信息。
13.如前面任一權(quán)利要求所述的裝置,其中用于處理的裝置(60)輸出經(jīng)過編碼的音頻數(shù)據(jù),作為帶有多個擴(kuò)展層的數(shù)據(jù)流。
14.如權(quán)利要求13所述的裝置,其中用于處理的裝置(60)在第一擴(kuò)展層(81)中插入了關(guān)于量化塊的信息,并且在第二擴(kuò)展層(82)中插入了關(guān)于差分塊的信息。
15.如權(quán)利要求13所述的裝置,其中用于處理的裝置(60)在第一擴(kuò)展層中插入了關(guān)于量化塊的信息,并且至少在第二和第三擴(kuò)展層中插入了關(guān)于差分塊的信息。
16.如權(quán)利要求15所述的裝置,其中在第二擴(kuò)展層中包含帶有被減小的精度的差分頻譜值,在高一級或者更高級可擴(kuò)展層中包含差分頻譜值的殘留部分。
17.如權(quán)利要求15或16所述的裝置,其中關(guān)于差分塊的信息包含二進(jìn)制編碼差分頻譜值;其中用于差分頻譜值的第二擴(kuò)展層中包含從差分頻譜值的最高有效位(MSB)到次高有效位(MSB-x)的多個比特;并且其中在第三擴(kuò)展層包含從次高有效位(MSB-x-1)到最低有效位(LSB)的多個比特。
18.如權(quán)利要求17所述的裝置,其中時間離散音頻信號用寬度為24比特的采樣形式來表示,并且其中用于處理的裝置(60)在第二擴(kuò)展層中插入差分頻譜值的更高有效位的16個比特,在第三擴(kuò)展層中插入差分頻譜值的剩余的8個比特,這樣解碼器用第二擴(kuò)展層達(dá)到了CD音質(zhì),其中如果采用第三擴(kuò)展層,解碼器就能達(dá)到演播室的音質(zhì)。
19.如權(quán)利要求15所述的裝置,其中用于處理的裝置(60)在第二擴(kuò)展層中插入了至少部分差分頻譜值,表示低通濾波信號,在另外一個擴(kuò)展層中插入了第二擴(kuò)展層中的差分頻譜值與初始差分頻譜值之間的差值。
20.如權(quán)利要求15或者19所述的裝置,其中用于處理的裝置(60)在第二擴(kuò)展層中插入了至少部分最高為某個截止頻率的差分頻譜值,并且在第三擴(kuò)展層中插入了至少部分從某個截止頻率到更高頻率的差分頻譜值。
21.對時間離散的音頻信號進(jìn)行編碼以得到編碼音頻數(shù)據(jù)的方法,包括使用心理聲學(xué)模型(54)提供(52)一個量化的時間離散音頻信號的頻譜值的量化塊;反向量化(58)量化塊,并且取整這個反向量化的頻譜值,以得到取整反向量化頻譜值的取整塊;使用一個整數(shù)變換算法來產(chǎn)生(56)一個整數(shù)頻譜值的整數(shù)塊,這個整數(shù)變換算法從整數(shù)時間離散采樣塊中產(chǎn)生頻譜值的整數(shù)塊;根據(jù)在取整塊和整數(shù)塊之間的頻譜差分值,形成(58)一個差分塊,以得到帶有差分頻譜值的差分塊;并且處理(60)量化塊和差分塊,以產(chǎn)生包含關(guān)于量化塊的信息和關(guān)于差分塊的信息的編碼音頻數(shù)據(jù)。
22.用于對已編碼的音頻數(shù)據(jù)進(jìn)行解碼的裝置,該已編碼的音頻數(shù)據(jù)從一個時間離散音頻信號產(chǎn)生,通過使用心理聲學(xué)模型(54)提供(52)一個量化的時間離散音頻信號的頻譜值的量化塊,通過反向量化(58)量化塊并取整反向量化的頻譜值,來獲得取整后的反向量化頻譜值的取整塊,通過使用從整數(shù)時間離散采樣的數(shù)據(jù)塊來產(chǎn)生頻譜值的整數(shù)塊的整數(shù)變換算法,來產(chǎn)生(56)整數(shù)頻譜值的整數(shù)塊,通過根據(jù)在取整塊和整數(shù)塊之間的頻譜值的差來形成(58)一個差分塊,以得到差分頻譜值的差分塊,包括用于處理編碼音頻數(shù)據(jù)的裝置(70),得到一個量化塊和差分塊;用于反向量化和取整這個量化塊的裝置(74),以得到一個整數(shù)的反向量化的量化塊;用于以頻譜值方式結(jié)合整數(shù)量化塊和差分塊的裝置(78),得到一個結(jié)合模塊;使用這個結(jié)合模塊以及與整數(shù)變換算法相反的整數(shù)變換算法,來產(chǎn)生一個時間離散音頻信號的時間表示的裝置(82)。
23.如權(quán)利要求22中所述的解碼裝置,其中編碼音頻數(shù)據(jù)是可擴(kuò)展的,并且包含多個擴(kuò)展層;其中用于處理這個編碼音頻數(shù)據(jù)的裝置(70)從編碼音頻數(shù)據(jù)中確定出量化塊,作為第一擴(kuò)展層,并從編碼音頻數(shù)據(jù)中確定出差分塊,作為第二擴(kuò)展層。
24.如權(quán)利要求22所述的裝置,其中關(guān)于差分塊的信息包含二進(jìn)制的編碼差分頻譜值,其中編碼音頻數(shù)據(jù)是可擴(kuò)展的,并且包含多個擴(kuò)展層,其中用于處理這個編碼音頻數(shù)據(jù)的裝置(70)從編碼音頻數(shù)據(jù)中確定出量化塊,作為第一擴(kuò)展層,并且用降低了的精度提取出差分頻譜值的表示,作為第二擴(kuò)展層。
25.如權(quán)利要求24所述的裝置,其中用于處理這個編碼音頻數(shù)據(jù)的裝置(70)提取出從最高有效位到次高有效位的多個比特作為第二擴(kuò)展層,其中次高有效位比一個差分頻譜值中的最低有效位更高,并且用于生成離散音頻信號的時間表示的裝置(82)在使用整數(shù)變換算法之前,以綜合方式產(chǎn)生差分頻譜值的缺失比特。
26.如權(quán)利要求25所述的裝置,其中裝置(82)為綜合產(chǎn)生而執(zhí)行第二擴(kuò)展層的擴(kuò)展,其中在擴(kuò)展中使用一個比例因子,它等于2n,其中n是不包含在第二擴(kuò)展層中的次高有效位的數(shù)目,或者為綜合產(chǎn)生而使用抖動算法。
27.如權(quán)利要求22所述的裝置,其中編碼音頻數(shù)據(jù)是可擴(kuò)展的,并且包含多個擴(kuò)展層,并且用于處理這個編碼音頻數(shù)據(jù)的裝置(70)從編碼音頻數(shù)據(jù)中確定出量化塊,作為第一擴(kuò)展層,并且確定低通濾波的差分頻譜值,作為第二個擴(kuò)展層。
28.如權(quán)利要求22或27所述的裝置,其中編碼音頻數(shù)據(jù)是可擴(kuò)展的,并且包含多個擴(kuò)展層,其中用于處理這個編碼音頻數(shù)據(jù)的裝置(70)從編碼音頻數(shù)據(jù)中確定出量化塊,作為第一擴(kuò)展層;確定最高為第一個截止頻率的差分頻譜值,作為第二擴(kuò)展層,其中第一個截止頻率比可以在編碼器中產(chǎn)生的差分頻譜值的最大頻率要小。
29.如權(quán)利要求28所述的裝置,其中用于生成時間表示的裝置(82)把全長的整數(shù)變換算法的輸入值設(shè)為預(yù)定值,這些值在第二擴(kuò)展層的截止頻率之上;并且在通過由對應(yīng)于差分頻譜值的最大頻率和截至頻率的比率選擇的因子,便用反向整數(shù)變換算法之后,降低取樣時間離散音頻信號的時間表示,其中差分頻譜值最大頻率可由編碼器產(chǎn)生。
30.如權(quán)利要求29所述的裝置,其中所有在截止頻率之上的輸入值的預(yù)定值均為零。
31.對已編碼的音頻數(shù)據(jù)進(jìn)行解碼的方法,其中已編碼的音頻數(shù)據(jù)通過提供、反向量化、生成、形成和處理,從時間離散的音頻信號中產(chǎn)生,該方法包含處理(70)編碼音頻數(shù)據(jù),以得到一個量化塊和一個差分塊;反向量化(74)量化塊并取整,以得到一個整數(shù)反向量化的量化塊;以頻譜值的方式結(jié)合(78)該整數(shù)量化塊和差分塊,得到一個結(jié)合模塊;以及使用該結(jié)合模塊,并使用與整數(shù)變換算法相反的整數(shù)變換算法,來產(chǎn)生(82)時間離散音頻信號的時間表示。
32.當(dāng)程序在計算機(jī)上執(zhí)行時,用于執(zhí)行權(quán)利要求21的編碼方法的具有程序代碼的計算機(jī)程序。
33.當(dāng)程序在計算機(jī)上執(zhí)行時,用于執(zhí)行權(quán)利要求31的編碼方法的具有程序代碼的計算機(jī)程序。
全文摘要
時間離散音頻信號被處理(52),以提供一個帶有量化頻譜值的量化塊。此外,使用整數(shù)變換算法(56),從時間離散音頻信號產(chǎn)生一種整數(shù)頻譜表示。使用心理聲學(xué)模型(54)產(chǎn)生的量化塊被反向量化并取整(58),以隨后在整數(shù)頻譜值和反向量化取整頻譜值之間形成差值。在解碼之后,這個量化塊單獨提供一種有損的心理聲學(xué)編碼/解碼音頻信號;而在解碼中,這個量化塊和結(jié)合模塊一起提供一個無損或者幾乎無損的編碼和再次解碼音頻信號。通過在頻域內(nèi)產(chǎn)生差分信號,形成了一個簡單的編碼器/解碼器結(jié)構(gòu)。
文檔編號G10L19/00GK1625768SQ02828974
公開日2005年6月8日 申請日期2002年12月2日 優(yōu)先權(quán)日2002年4月18日
發(fā)明者拉爾夫·蓋格, 托馬斯·思博爾, 卡爾海因茲·勃蘭登堡, 朱爾根·赫爾, 朱爾根·科洛爾, 喬吉姆·德格拉 申請人:弗蘭霍菲爾運(yùn)輸應(yīng)用研究公司