專利名稱:數字信息信號的編碼和解碼方法及設備的制作方法
技術領域:
本發明涉及降低比特率的信號編碼和解碼的方法和設備,特別是對數字音頻信號。
降低數字音頻信號比特率的編碼器和解碼器(如MPEG1/2/4-Audio,Dolby Digital Ac-3,mp3,ATRAC,Windows MediaAudio WMA或Real Audio)典型的是用信號的短時頻域表示來操作。為了把信號轉換到頻域,信號元素數組合在一起的典型數目,如,128,256,512,1024和1152,表示為幀或塊。然后轉換到頻域。編碼任意長度信號時,典型的音頻編碼器在音頻信號尾部舍棄一部分或填充一些零采樣值(填充比特)。結果,任何編碼和解碼的音頻信號是上面提到的最初時間元素的整數倍,即,編碼和解碼過程要求的幀或塊的整數倍。因此,編碼和解碼的音頻信號很少有原始音頻信號一樣的長度。在編輯音頻信號或與精確時間連接時,長度的差異是很麻煩的。
根據本發明,當廣播或從存儲介質錄音或重放時,關于原始信號的精確長度的信息隨編碼的音頻信息一起發送。在編碼過程中可用該長度值信息,并將其插入到編碼的音頻比特流中。插入是使用MPE6音頻標準ISO/IEC 11172-3中定義的輔助數據場進行的。發送的長度信息可有不同的形式-節目或錄音錄像軌跡或編碼單位的音頻采樣的絕對數;-節目或錄音錄像軌跡或編碼單位的音頻幀數,和上一幀的采樣數;-在節目或錄音錄像軌跡或編碼單位的頭和/或尾切掉的采樣數;此外,傳輸表示總的編碼器和/或解碼器延遲的信息值。
解碼器能取出這些信息項并在節目或錄音錄像軌跡或解碼單位輸出的起始和/或結尾切掉樣本來調整解碼信號長度和起點。
本發明可以解碼要求與音頻或信息信號的原始長度精確匹配的音頻或其它信息信號,因此能精確舍棄或填充音頻或信息信號。
原理上,本發明的編碼方法用于特定的節目或錄音錄像軌跡有任意個原始采樣值,因此,具有任意長度的數字信息信號—如音頻信號—,其中,編碼操作基于有關采樣值的值塊,每一值塊包含多個值,輸出的編碼的數字信息信號作為代碼,當對應解碼時,該代碼表示具有相應長度或值塊長度的解碼的數字信息信號,其中,表示原始采樣值任意長度數的數據至少補充一幀編碼數字信息信號輸出代碼的補充幀,例如,編碼數字信息信號的最后一幀或倒數第二幀,或在編碼數字信息信號中重復排列。
原理上,本發明的解碼方法用于特定的節目或錄音錄像軌跡具有任意個原始采樣值,因此,具有任意長度的編碼數字信息信號,如音頻信號,其中,解碼操作基于有關采樣值的值塊,每一值塊包含多個值,其中,輸入的解碼數字信息信號作為代碼,在解碼后該代碼代表具有相應于長度或值塊長度的多倍單位長度的解碼數字信息信號,其中,表示原始采樣值任意長度數目代的數據和編碼數字信息信號輸入碼的補充幀,或在編碼數字信息信號中重復排列,用于對原始任意長度限制基于解碼數字信息信號的總長度的塊單位。
原理上,本發明對特定的節目或錄音錄像軌跡具有任意個原始采樣值,因此,具有任意長度的如音頻信號的數字信息信號的編碼設備,每一值塊包含多個值,包括
編碼數字信息信號的裝置,其中,編碼操作是基于有關采樣值的值塊,該裝置輸出編碼數字信息信號作為代碼,當相應于解碼時,該代碼代表具有相應于長度或值塊長度的多倍單位的總長度的解碼數字信息信號;提供代表原始采樣值任意長度數值的數據的裝置;至少補充一幀編碼數字信息信號輸出代碼的裝置,數據表示原始采樣值任意長度數值,例如編碼數字信息信號的最后一幀或倒數第二幀;裝置,在表示原始采樣值任意長度數值的編碼數字信息信號數據重復排列。
原理上,本發明對特定的節目或錄音錄像軌跡具有任意個原始采樣值并因此具有任意長度的編碼的如音頻信號的數字信息信號進行解碼的設備,設備包括解碼編碼數字信息信號的裝置,基于有關采樣值的值塊,每一值塊包含多個值,其中,輸入的編碼數字信息信號作為代碼,該代碼在解碼后代表具有相應于長度或值塊長度的多倍單位長度的解碼數字信息信號;從編碼的數字信息信號代碼的幀中提取代表原始采樣值任意長度數的數據的裝置,如從編碼數字信息信號的最后一幀或倒數第二幀;裝置,為了對任意原始長度限制基于解碼數字信息信號總長度的塊單位,提供用從任意長度的數據導出的信息解碼的裝置。
如果信號在頻域中表示和處理,能更有效的獲得數據縮減效應,用短時頻率變換(如,短時快速富氏FFT)或稱為子帶濾波的多頻帶濾波進入頻域。這兩種操作的結果是音頻信號表示為短時的時間序列譜。在解碼器中為了重進入時域分別執行相應的反變換和反子帶濾波。
由于計算的簡化,通常對具有全部或部分相當于如上所說的2的整數冪長度的輸出采樣塊進行變換,如,128,256,512,1024或1152。在時域中大多數數據縮減編碼器和解碼器的運作有塊重疊。使用塊重疊時,總長度可能值是塊長一部分的整數倍,如,塊長1.5的整數倍。
在子帶編碼器中,實現分成如32個頻帶,同樣形成采樣值塊。如,MPEG Audio Layer3(mp3)編碼器使用1152采樣值的塊長,相應于48kHz采樣率的24ms時間間隔。
根據標準規則,合成的編碼信號以相應的幀排列,其中幀包含完全信號-依賴的二進制信號。通常這些幀包含具有重要控制信息的部分(如,具有副信息的數據包的頭信息),和具有較少重要性的完全信號-適應的頻率系數信息,稱為‘主信息’。因為要傳送的信息的量依音頻信號特征而變化,實際上不能完全放到幀的有限容量中,幀也能包含代表不標準有用信息的部分。這些部分稱為瞬時‘輔助數據’并可自由的用于不同的用途。
編碼器的一個任務是控制編碼,使編碼數據的數量正好符合幀,即不超過給定的最大數據速率又能充分使用它。這主要是由調整編碼質量來獲得的,如量化的優劣度。控制編碼器對輔助數據保持所要求的總數據率大小。
在解碼時(存儲或變換后)在幀/塊發生相應的反過程。
使用上述的編碼/解碼原理時,引起兩個特別是嚴重限制解碼聲音信號對編輯的使用的問題a)由于基于塊的短時變換處理,或把信號分裂成頻帶的濾波器的使用,引入了解碼音頻信號的延遲。如音頻信號在瞬時t0由單個采樣值s0組成,在編碼和解碼后,出現在解碼器輸出的信號同樣由單個采樣值s0組成,然而這個采樣值不再位于瞬時t0而位移了幾百個采樣時鐘周期。一方面,此編碼延遲依賴于邊帶濾波器的類型或所用傳輸長度,另一方面,依賴于解碼器電路結構或軟件。如,在調節適應過程如修正量化步長前解碼器需要特定的預處理時間。b)除了編碼器和/或解碼器延遲外,基于塊的處理導致為所用塊長整數倍的解碼音頻信號的的總長度值與原始總長度不相當。
如果在連續運行傳輸的線路中使用上述的編碼過程,如廣播或廣播演播室之間的微波連接,基本延遲和塊結構不出現嚴重問題。然而,如果音頻信號以編碼形式以一定的數據長度(作為‘文件’)存儲在數據載體上,在切割和編輯音頻信號時,兩個問題是特別的不利。與用PCM音頻信號獲得的近似20μs的短切/編輯時間單位相反,僅時間單位長500或1000倍。因此典型的切和編輯過程僅以有限的形式進行。
為了解決這些問題,假設知道下列編碼器和解碼器的共同結構依賴基本延遲;編碼器輸出的音頻節目或錄音錄像軌跡的總長度,如在代表音頻信號的PCM文件中的采樣數目。
根據本發明的方案,把基本延遲值和總長度值發給解碼器。此信號的發送可由任何裝置進行,如以分離的文件或通道,然而較好的是與編碼數據一起用同樣的數據流或數據文件,如作為‘輔助數據’或附加的頭文件。
解碼器設計為,在解碼一定數量(相當與上述的基本延遲量)樣本的起點用通常的方法計算但不輸出這些樣本。
此外解碼器設計為,在節目或錄音錄像軌跡的末尾用通常的方法開始計算音頻信號,因此相應于傳輸信號的總長度,輸出的音頻信號在它的總長度上是有限的。
附加信息的傳輸發生在輔助數據區域內,即基本延遲量和總長度。如果需要,應控制編碼器使它為附加信息保留足夠的數據容量。
關于基本延遲的信息在第一幀或幀的第一批之一中傳輸。作為可以在起始時被去除的樣本的數量來傳輸是可取的。重復的發送這些信息也是有好處的。
關于總長度值的信息可用不同的方式來發送,在數據流或文件中不同的位置,如作為將從起始計算的末尾去除的樣本的數量,或作為在最后數據幀內的有關樣本的數量,或作為總長度的絕對樣本的數量。這些信息在第一幀或幀的第一批之一或在后面的幀中發送,如最后或最后第二幀。重復發送這些信息也是有好處的。
基本延遲量和/或總長度由數據模式識別先行或啟動,并由誤差保護數據保護,如CRC檢測。
在
圖1中,音頻信號描述為有N個樣本長度,N是整數。
在圖2中,從解碼器輸出的音頻信號有長度為(ENCDECD+N+STI)樣本,其中ENCDECD是基本編碼器加解碼器的延遲,STI是填充信息(如零幅度樣本的數目),N+STI等于(m*塊長),m是整數,即塊或音頻編碼器和解碼器處理所依據的幀長的倍數。從基本編碼器和解碼器處理延遲量和總長度導出解碼音頻信號的最后開始和結束時間瞬間,其在數據流或錄音錄像軌跡的末尾中填充的樣本或比特(相當與STI)和相當與在數據流或攝影的起始中的處理延遲ENCDECD都被去除。
圖3的左邊部分顯示發明的編碼器,在相應的編碼器開窗平臺EW中,接收在時域中開窗的、或子帶濾波器的原始音頻信號,此后在編碼平臺EWC中用數據縮減來編碼。從平臺EWC或在比特流格式程序BSF,總長度信號提供給長度信號編碼器LIC,它的輸出信號在比特流格式程序BSF與平臺ENC的頻域輸出信號結合。此外在比特流格式程序BSF中基本編碼器延遲量加到比特流中。
圖3的右邊部分顯示發明的解碼器,接收包括總長度信息值或附加的基本編碼延遲量的編碼音頻信號。如果基本編碼延遲是固定的和已知的,可以輸入它在解碼器中作評估。比特流解格式程序BSD抽取并對長度信息評估器LIE提供接收的總長度信息,長度信息評估器LIE對解碼器開窗平臺DW和/或對解碼器平臺DEC饋給所要求的總長度信息、可選擇的與基本編碼延遲信息一起或附加基本解碼延遲信息。從其它源提供基本編碼延遲信息或基本解碼延遲信息給DW和/或DEC。平臺DEC對從平臺BSD接收的音頻信號代碼實現主要的解碼操作。其后對平臺DEC的時域輸出信號開窗相應于平臺EW上編碼器窗口。在子帶編碼/解碼情況中,綜合濾波器DW把音頻信號從頻域轉換回到時域。記錄單位或廣播或有線發送通道在平臺BSF和BSD之間通過。
代之數字音頻信號,可以處理任何其它信息信號,如數字視頻信號。
權利要求
1.一種編碼(EW,ENC,BSF)數字信息信號的方法,例如,音頻信號,具有任意個原始采樣值并因此具有任意長度(N)的特定的節目或錄音錄像軌跡,其中,編碼操作(EW,BSF)是基于有關采樣值的值塊,每一值塊包含多個值,其中,輸出編碼的數字信息信號(EDIS)作為代碼,當對應解碼時,該代碼代表具有相應于長度或值塊長度的整倍數的總長度(N,STI)的解碼數字信息信號,其特征在于代表原始采樣值任意長度數(N)的數據(LIC)是至少補充一幀編碼數字信息信號輸出代碼,如編碼數字信息信號的最后一幀或倒數第二幀,或在編碼數字信息信號中重復排列。
2.根據權利要求1所述的方法,其特征在于代表由編碼操作引起基本延遲(ENCDECD)的附加數據是編碼數字信息信號輸出代碼的補充幀,如在編碼數字信息信號的第一幀或第二幀。
3.根據權利要求1或2所述的方法,其特征在于代表原始采樣值任意長度數的數據和代表由編碼操作引起基本延遲的數據排列于幀的輔助部分,特別在以誤差形保護的式,如CRC保護。
4.一種解碼(BSD,DEC,DW)編碼的數字信息信號(EDIS)的方法,如音頻信號,具有任意個采樣值并因此而具有任意原始長度(N)的特定的節目或錄音錄像軌跡,其中,解碼操作(DEC,DW)基于有關采樣值的值塊,每一值塊包含多個值,其中,輸入編碼的數字信息信號(EDIS)作為代碼,解碼后該代碼代表具有相應與長度或值塊長度的整倍數的的解碼數字信息信號(DDIS),其特征在于代表原始采樣值任意長度數(N)的數據(LIE)和編碼數字信息信號輸出代碼的補充幀,如編碼數字信息信號的第一幀或第二幀、或在編碼數字信息信號中重復排列,用于對任意原始長度(N)限制基于解碼數字信息信號的總長度(N,STI)的塊值。
5.根據權利要求4所述的方法,其特征在于代表基本編碼器延遲(ENCDECD)的附加數據用于從解碼數字信息信號的起始除去相應輸出采樣值的數目,此數據為編碼數字信息信號輸出代碼的補充幀的數據,如,在編碼數字信息信號的第一幀或第二幀。
6.根據權利要求4或5所述的方法,其特征在于代表原始采樣值任意長度個數的數據和代表由編碼操作引起的基本延遲數據從幀的輔助部分取出,特別在以誤差保護形式,如CRC保護。
7.根據權利要求5所述的方法,其特征在于基本解碼器延遲值與代表基本編碼器延遲的數據一起用來從解碼數字信息信號的起始去除輸出采樣值相應的數目。
8.一種編碼數字信息信號(ODIS)的設備,如音頻信號,具有任意個原始采樣值并因此具有(N)的特定的節目或錄音錄像軌跡,每一值塊包含多個值,設備包括裝置(EW,ENC),用于編碼數字信息信號,其中,編碼操作基于有關采樣值的值塊,其中,所述裝置輸出編碼的數字信息信號(EDIS)作為代碼,當對應解碼時,所述代碼代表具有相應于長度或值塊長度的多倍單位總長度(N,STI)的解碼數字信息信號(DDIS),其特征在于裝置(LIC),用于提供表示原始采樣值任意長度數目(N)的數據;裝置(BSF),用代表原始采樣值任意長度數目的數據至少補充一幀編碼數字信息信號輸出代碼,如編碼數字信息信號的最后一幀或倒數第二幀,或裝置(BSF),在編碼的數字信息信號中重復排列代表原始采樣值任意長度數目的數據。
9.一種解碼編碼的數字信息信號的設備,如音頻信號,具有任意個原始采樣值并因此具有任意原始長度(N)的特定的節目或錄音錄像軌跡,設備包括裝置,用于解碼基于有關采樣值的值塊編碼數字信息信號,每一值塊包含多個值,其中,輸入編碼的數字信息信號(EDIS)作為代碼,解碼后該代碼代表具有相應于長度或值塊長度的多倍單位長度的解碼數字信息信號(DDIS),其特征在于裝置(BSD),用于從編碼的數字信息信號代碼幀,如從編碼數字信息信號的最后一幀或倒數第二幀,提取代表原始采樣值任意長度數目(N)的數據;裝置(LIE),為了對任意原始長度(N)限制基于解碼的數字信息信號總長度(N、STI)的塊單位,提供裝置(DW、DEC),用于解碼從任意長度的數據導出的信息。
10.根據權利要求9所述的設備,其特征在于代表原始采樣值任意長度數目的數據和代表由編碼操作引起基本延遲的數據從幀的輔助部分取出,特別以誤差保護的形式,如CRC保護。
11.一種含有或記錄數字信息信號數據序列(如音頻信號)的存儲介質,特別是光盤或硬盤,數據是根據權利要求1的方法編碼的,其中存儲介質的數據輸入到根據權利要求9的設備時,數字信息信號數據根據權利要求4的方法執行。
全文摘要
原始數字音頻信號表示為PCM采樣,其中值之間的距離相應于采樣頻率。數字信號只具有時間元素整數倍的長度。特別編碼的數字音頻信號基于塊處理,導致總長度只是塊單位的整數倍。根據本發明,關于原始信號的精確長度隨編碼音頻信息一起傳送。此外,傳送代表總的編碼器和/或解碼器延遲的信息值。解碼器取出這些信息項并從解碼的節目或錄音錄像軌跡中切掉樣本來調節解碼信號的總長度。
文檔編號G10L19/16GK1442956SQ0310643
公開日2003年9月17日 申請日期2003年2月25日 優先權日2002年3月1日
發明者恩斯特·F·施羅德, 約翰內斯·伯姆 申請人:湯姆森許可貿易公司