專利名稱:用于對數字視頻數據的隔行序列進行可縮放編碼和解碼的方法
技術領域:
本發明涉及一種用于視頻壓縮的方法。更具體地說,本發明涉及一種用于在對數字視頻數據的隔行(interlaced)序列進行編碼和解碼時實現可縮放性(scalability)的方法。
背景技術:
當今的大多數視頻編碼算法使用運動補償預測編碼,以減少傳輸帶寬。在這些混合方案中,使用運動補償減小了時間冗余度,并且通過運動補償殘余變換編碼減小了空間冗余度。雖然大多數標準定義(SD)視頻素材(包括用于測試目的的可用MPEG視頻素材)是隔行的,但是最近對于可縮放視頻編碼的研究已經僅僅集中在逐行(progressive)視頻的評價上。這一方面的努力受到例如“Description of Exploration experiments in Scalable VideoCoding”,ISO/IEC JEC1/SC29/WG11,MPEG2002/N5414,Awaji,December 2002中提到的MPEG-4的鼓勵。已知的算法(例如,WO9003082中公開的用于HDTV的算法)不足以用于傳輸空間及時間可縮放的隔行視頻,這是因為需要更大范圍的可縮放性。新的顯示器類型(例如,小型移動顯示器)利用低空間及時間分辨率的逐行視頻序列即可,而其他顯示器(例如,HDTV接收機)需要具有高空間分辨率及標準時間分辨率的隔行序列。
發明內容
本發明的目的是隔行視頻的子帶或小波編碼的改進。由于在隔行視頻中,空間和時間維緊密聯系在一起,所以本發明性方法使用空間-時間信噪比(SNR)環境中的額外探索。
本發明要解決的問題是提供一種在對隔行視頻進行編碼及解碼時提供完全的空間及時間可縮放性的方法。在權利要求1中公開了用于編碼的這種方法,并且在權利要求6中公開了用于解碼的這種方法。在權利要求10中公開了利用用于編碼的方法的一種裝置。在權利要求11中公開了利用用于解碼的方法的一種裝置。其可以將所接收到的信號轉換為不同級別時間分辨率(逐行或隔行)以及不同級別空間分辨率的視頻序列。
根據本發明,以支持空間、時間和質量可縮放性、關于SNR的質量的方式來處理隔行數字視頻數據,即,通過足夠的拆分操作和空間-時間濾波,導致了生成可縮放的空間和/或時間次級分辨率序列。
這是通過將隔行源視頻素材劃分或分解為兩層(即基礎層(BL)和增強層(EL))獲得的。BL包含逐行模式的輸入視頻源的完全可縮放描述,其中可縮放性是指空間分辨率、時間分辨率和質量。EL與BL組合時允許低成本、可縮放地重構原始隔行視頻素材,這包括獲得原始的空間分辨率、時間分辨率和SNR質量。
這種分解可以通過在隔行視頻序列中每隔一個場關聯到同一層來實現,例如,一層處理偶數場而另一層處理奇數場。有利的是,通過使用來自BL的運動估計(ME)向量用于EL處理的部分,可以節省計算量。隔行視頻序列被分解為屬于BL和EL兩層的五個分量。根據本發明的接收機可以將這些分量組合為具有關于空間-時間分辨率和SNR的各種質量級別的視頻序列。
在獨立權利要求、下面的描述和附圖中公開了本發明的有利實施例。
本發明的示例性實施例是參考附圖描述的,其中圖1示出了根據本發明的用于可縮放編碼的視頻編碼器的結構;以及圖2示出了根據本發明的可縮放視頻解碼器的結構。
具體實施例方式
圖1示出了根據本發明的視頻編碼器的結構。輸入信號I是時間分辨率為2αHz(即,每秒2α場或每秒α幀)且空間分辨率為2M×2N(即,一幀具有2N行,每行有2M個像素,或者一場具有N行,每行具有2M個像素)的隔行視頻序列。拆分模塊SP分發該序列,使得各個場以交替方式傳遞到第一或第二支路。第一支路生成BL信息和EL信息,但是在這里其被稱作BL支路。另一支路只生成EL信息,并且其在這里被稱作EL支路。每個支路接收時間分辨率為每秒α幀且空間分辨率為2M×N像素的視頻序列。例如,BL序列F1包含偶數場,而EL序列包含奇數場。一般地,拆分模塊SP執行任意拆分變換,從單個源描述產生兩個描述。也可以利用各種濾波器來進行更復雜的處理,例如低通/高通濾波。
BL支路對F1序列沿x軸(即,在線內)執行空間濾波SF1,并且從F1的較低頻率部分生成空間分辨率為M×N像素的視頻序列L,并且從F1的高頻部分生成空間分辨率增強信號H。在示例中,可以由低通濾波器LProw和高通濾波器HProw來執行濾波,這兩者都執行例如因子為2的水平子采樣。其他因子也可能有用。低分辨率序列L被輸入到空間-時間濾波器STF,并被輸入到運動估計(ME)模塊ME1。空間-時間濾波器STF執行運動補償時間變換,這也被稱作3D小波變化或者2D+t小波變換。其可以被實現為例如長度為2的Haar變換濾波器,或者是長度為9和7或長度為5和3的Daubechies濾波器。ME模塊ME1生成運動向量MV1,其用作三個目的第一,它們被用來最優化空間-時間濾波過程;第二,它們被傳輸到接收機,例如用于反向濾波過程;第三,它們將被用在編碼器的EL支路中。
空間-時間濾波器STF的輸出信號P被發送出去,并且接收機可以將其與運動向量MV1結合起來,以再現例如M×N像素、αHz的逐行模式視頻序列。有利的是,當使用上述實施方式時,也可以設計空間-時間濾波器,使得該逐行序列在x和y方向上關于時間分辨率和空間分辨率都可縮放。該濾波器取決于目標幀速率或格式,可以包含數個濾波級別,從而,例如可以獲得M’×N’的空間分辨率和/或θαHz的時間分辨率,其中M’和N’的范圍在
和
中,并且θ∈Q01,Q01是范圍在
中的有理數。這一濾波過程可以得到不同的空間-時間頻率,它們的裝配(例如,數據流內的組織)使得基礎層完全可縮放。該模塊STF的輸出P是分辨率為M’×N’的逐行序列,這是原始的2M×2N格式的次級分辨率,并且其代表本發明系統生成的最低的空間和時間分辨率級別。
空間分辨率增強信號H(包含沿x軸的高頻場)屬于增強層EL,并且可以被高級接收機用來重構在x方向具有更高空間分辨率(直至原始分辨率)的幀。
EL支路對F2序列執行運動補償時間濾波(MCTF)。其使用運動向量(MV),以便當對象在一副畫面中相對于另一幅畫面移動其位置時,最小化要被傳輸的數據量。可以使用兩組不同的MV從原始隔行序列生成的MV,或者是通過比較具有相同奇偶性(或者是奇數,或者是偶數)的場而生成的MV。有利的是,對于后一種情形,可以使用BL支路的ME1模塊中生成的MV1向量,這是因為例如兩個連續的偶數場之間的運動極有可能非常類似于兩個相應的奇數場之間的運動,或者反之亦然。運動仍然有可能在四個場的序列內變換,所以使用第二運動估計模塊ME2中從隔行序列I生成的較好的運動向量MV2可能是有利的。因此,在EL支路中集成了判決模塊,以便為MCTF決定使用哪一組MV。發送這些判決信息可能是有利的。
運動補償時間濾波(MCTF)使得可以生成濾波后的F2場FF2,即,比原始的F2場具有更低成本的F2場。這些濾波后的場FF2具有與輸入F2場相同的空間和時間分辨率。通過使用所述的運動向量,獲得了成本降低,這是因為減少了發送的數據量。運動估計和運動補償可以獨立于奇偶性來跨場執行,以便捕獲場內和場間的相關性。可以使用各種預測模型(后向、前向以及雙向)以及多參考場算法。為了減少MV編碼成本和估計復雜度,可以取決于目標需求,來先驗或后驗地使用來自基礎層的運動信息。
對于傳輸,將得到的流復用到一個位流中是有利的。所述的編碼方法將隔行的原始視頻序列分解到兩層(BL和EL)中,這允許得到的位流在編碼器側以及在解碼器側支持多種空間和時間分辨率級別。所述的EL還可以被視作多層,因為其包含數個級別的分辨率。
作為一個具體的示例,輸入視頻序列I是標準定義(SD)視頻,其中α=30或2αHz是60Hz,F1例如代表偶數場而F2例如代表奇數場,LProw執行2∶1子采樣,L是30Hz的公共圖形格式(CIF)序列,并且STF是1級空間-時間濾波器,從而P是15Hz的CIF序列。
在解碼器側,取決于目標應用,必須考慮幾種情形逐行或隔行模式中的無損或有損解碼。圖2示出了示例性的高級解碼器,其可以生成各種質量級別,可以根據技術或用戶需要來選擇這些級別。解碼器模式可以由質量選擇器QS來選擇。例如,這可以由發射機或內容供應商、或者接收機的技術能力、或者用戶喜好來控制。不同模式的示例是無損或有損、不同的場速率、不同的空間分辨率等。解碼過程取決于所選擇的解碼質量。
從解碼器的觀點來看,最簡單的模式是逐行無損模式。在這種情形中,只有基礎層信號BL(包括逐行序列P和運動向量MV1)需要被完全解碼。通過使用空間-時間合成STS來執行解碼。以這種方式,所重構的視頻序列V1具有完全的空間-時間分辨率,即,M×N像素的空間分辨率和αHz的時間分辨率。
另一模式是逐行有損模式。這意味著所重構的視頻序列V2的空間-時間分辨率是逐行無損模式V1中所獲得的分辨率的次級分辨率。使用空間-時間合成STS來解碼使得可以重構任意M’×N’、θ’αHz的逐行序列,其中M’和N’的范圍在
和
中,θ’的范圍在
中。同樣,只有基礎層需要被解碼。
當需要重構完全的原始隔行視頻素材時,即,不損失信息,這時需要隔行無損模式。這意味著整個基礎層BL和增強層EL都必須被完全解碼。如針對編碼器所述,EL信號包括涉及F1場的x方向中較高頻率的額外數據H、從輸入的隔行序列生成的運動向量MV2、以及涉及F2場的信息FF2。為了正確地解碼,必須反向執行所有的編碼器操作。反向濾波通常被稱為合成。當向額外數據H和所重構的BL信號V1分別應用各自的反向濾波(這種情形中是空間合成SS)時,其產生視頻序列V3,這對應于編碼器側的分辨率為2M×N、αHz的原始F1序列。另外,通過使用反向運動補償時間濾波器IMCTF,可以從其他EL信號FF2和MV2來合成來自編碼器側的具有相同分辨率的原始F2序列。然后,反向拆分操作ISP將F1場與F2場合并,以重構完全的隔行視頻序列V4,該序列具有2M×2N、2αHz(或每秒α個隔行幀)的完全時間分辨率。
作為另一種可能性,可以使用隔行有損模式。這意味著所重構的空間-時間分辨率時完全分辨率的次級分辨率。如上面針對逐行有損模式所述,解碼使得可以重構任意M’×N’、θαHz的隔行序列。這種有損情形意味著基礎層或增強層或者這兩層沒有被徹底解碼。這可以由空間-時間合成STS來執行,從而可以使用V2而不是V1來進行進一步的處理。這也可以由空間合成SS或反向運動補償時間濾波IMCTF來執行。
在本發明的另一實施例中,可以簡化編碼器處的空間-時間濾波器STF,從而直接發送F1序列。這種情形中,還可以取消接收機處的空間-時間合成STS。
有利的是,該發明性方法提供了生成可縮放視頻(包括隔行視頻)的可能性,使同樣的位流可用于高分辨率的隔行模式TV以及低分辨率的逐行模式移動設備。因為位流被完全嵌入,所以可以在發射機側以及在接收機側提取所有想要的空間或時間次級分辨率。
本發明方法可以被用于所有的視頻應用,優選地可用于所有的MPEG系統。
權利要求
1.一種用于對數字視頻數據的隔行序列進行編碼的方法,其中生成了多層的編碼信號基礎層以及一個或多個增強層,其中至少所述基礎層適于視頻數據的基本重構,并且所述增強層適于增強視頻數據的所述基礎層重構,所述方法特征在于如下步驟所述隔行序列(I)被分解為兩個子序列(F1、F2);以不同的方式處理所述兩個子序列(F1、F2);所述第一子序列(F1)被分解(SF1)為低頻流(L)和高頻流(H);所述低頻流(L)由第一數字濾波器(STF)處理;所述第一濾波器(STF)的輸出被用來生成基礎層信號(P);所述低頻流(L)還被用于第一運動估計(ME1),所得到的運動向量(MV1)與所述基礎層信號(P)一起適于在解碼器處重構逐行模式的視頻序列;所述第二子序列由第二數字濾波器(MCTF)處理。
2.根據權利要求1所述的方法,其中所述第一數字濾波器(STF)適于修改時間維或空間維或這兩維上的分辨率。
3.根據權利要求1或2之一所述的方法,其中對所述隔行視頻序列(I)執行第二運動估計(ME2)。
4.根據權利要求1~3之一所述的方法,其中所述第二數字濾波器(MCTF)還使用所述隔行視頻信號(I)或者所述第一運動估計(ME1)的結果。
5.根據權利要求1~4之一所述的方法,其中至少發送了下列子序列中的某些所述第一子序列(L)的所述低頻流(P)、所述第一子序列(L)的所述運動向量(MV1)、所述第一子序列的所述高頻流(H)、所述隔行序列(I)的運動向量(MV2)、濾波后的第二子序列(FF2)。
6.一種用于解碼位流的方法,所述位流由多個子流組成,其中所述子流與基礎層(BL)或增強層(EL)相關聯,所述方法包括如下步驟選擇或確定(QS)解碼質量;從所述位流中提取那些與所述基礎層(BL)相關聯的子流(P、MV1);和對所述子流(P、MV1)執行反向數字濾波(STS),產生逐行模式視頻序列(V1)。
7.根據權利要求6所述的方法,還包括如下步驟對所述逐行模式視頻序列(V1)和與所述增強層(EL)相關聯的子流(H)中的一個或多個子流執行反向數字濾波(SS),所述濾波(SS)生成增強的逐行模式視頻序列(V3)。
8.根據權利要求6或7之一所述的方法,還包括如下步驟對所述增強的逐行模式視頻序列(V3)和與所述增強層(EL)相關聯的子流(MV2、FF2)中的一個或多個子流執行反向數字濾波(IMCTF、ISP),所述濾波(IMCTF、ISP)生成具有增強或完全空間-時間分辨率的隔行視頻序列(V4)。
9.根據權利要求6~8之一所述的方法,其中對與所述基礎層(BL)相關聯的子流執行的所述反向數字濾波(STS)產生空間上或時間上或者在這兩維上都縮放了的逐行模式視頻序列(V2)的表示。
10.一種用于視頻編碼的裝置,其使用權利要求1~5中任何一項所述的方法。
11.一種用于解碼的裝置,其使用權利要求6~9中任何一項所述的方法。
全文摘要
一種用于對數字視頻數據的隔行序列進行編碼的方法將隔行視頻序列(I)分解為第一場(F1)和第二場(F2),執行數字濾波(SF1)以獲得第一場(F1)的低頻分量信號(L)和高頻分量信號(H),并且使用空間-時間濾波(STF)和運動估計(ME1)來生成基礎層信號(P、MV1),所述基層信號適于在接收機中重構逐行模式視頻序列(V1、V2)。有利的是,編碼器處的空間-時間濾波器(STF)和接收機處的反向過程(STS)可以執行空間及時間維上的縮放。第二場(F2)用來生成增強信號(FF2、MV2),這使接收機能夠再現具有完全、或縮放的空間和/或時間分辨率的隔行視頻序列。
文檔編號H04N7/46GK1778116SQ200480004335
公開日2006年5月24日 申請日期2004年2月20日 優先權日2003年3月3日
發明者格溫埃利·馬康, 紀堯姆·布瓦松, 愛德華·弗朗索瓦, 熱羅姆·維耶龍, 菲利普·羅伯特, 克里斯蒂娜·吉耶莫 申請人:湯姆森許可貿易公司