專利名稱::視頻編碼方法
技術領域:
:本發明涉及視頻編碼技術。
背景技術:
:因為Internet和無線/移動網絡上的以低比特率和可測量的視頻編碼為核心的多媒體應用以令人難以置信的速度發展,對低比特率視頻編碼的需求急劇增大。近來,出現了大量的關于低比特率視頻編碼的方法,包括基于運動估算,小波變換,和加權的自適應表示的各種方案。最新的H.264/AVC技術支持當前幀的內部預測和多幀(上一幀和后面的幀)位于宏塊(MB)和各種小塊間的預測。它配合一個內循環的解塊過濾器來有效地減小通常由基于塊運動估值產生的方塊效應(blockingartifacts)。通過上述的優勢,H.264可以實現平均40—60X高于之前的各種低比特率編碼方案如H.263,H.263+,H.263++和11.26L在比特率上的改善。盡管經過加強和改進,基于MB的視頻編碼仍然具有局限性。事實上,現有的基于運動估計的視頻編碼,盡管使用了最新的加強技術,仍然無法實現最小運動補償下很低的比特率(QCIF10Hz格式下5—6Kbps范圍)。這主要是因為基于塊運動估計的視頻編碼,不能去發掘所有潛在的相似度(冗余),尤其是存在于視頻序列中的頻譜的冗余(相似度)。運動估計只能探測綜合選擇出來的參考幀(I幀或P幀)和其他固定長寬的幀(MB和/或它的各種子塊(16X16,16X8,8X8,8X4,4X4))之間的相似度,這種相似度只能在固定長寬幀間和幀內用某種單位度量。因此基于這種方法的方案不能探測和獲得位于根據不同長寬分級的塊中的幀內相似度。它也不能基于補償和其他變換來獲得位平面內的頻譜相似度,盡管這些變換在尋找頻譜冗余上常常是很有用的。
發明內容本發明所要解決的技術問題是,提供一種能更優地探測出圖像中冗余的視頻編碼方法。本發明為解決上述技術問題所采用的技術方案是,視頻編碼方法,其特征在于,包括以下步驟1)對視頻序列進行小波變換后,得到第l高頻次能帶系數、第2高頻次能帶系數、第3高頻次能帶系數、基帶系數;2)對3個高頻次能帶及基帶的系數進行量化;3)將量化后的系數進行位平面建模;4)得到位平面圖像;5)對位平面圖像進行編碼。對視頻序列中的多個幀同時進行量化,通過量化后的由二進制表示后的小波變換數,由所有具有相同權值的0/l所組成的位平面構成,每一個位平面包含有多幀之間的位信息。對量化后的多幀數據進行通過二進制的位平面表示,有利于在編碼時更優地探測出幀間冗余、幀內冗余,特別是位平面間(頻譜)冗余。本發明進一步采用廣義高斯分布(GGD)對小波變換后的系數進行非一致的量子化,以便在位平面模型中獲取更多的頻譜冗余。為了進一步提高編碼效率,本發明步驟3)中所述位平面建模過程中,僅保留重要位的位平面。所述重要位是指對構圖像的質量影響較大的幾個位平面,一般是位于系數高位的幾個位平面。通常情況下,低位的系數分布是非常隨機,這些位平面可以從位平面建模中拋掉而不影響最終重構圖像的質量。更進一步的,為了最優的檢測出位平面間的頻譜相似度與一個視頻序列內部任一對圖像塊之間的相似度(非關聯幀之間的相似度),步驟5)中所述編碼為廣義有限自動機編碼,所述廣義有限自動機編碼具體包括步驟將位平面圖像逐級分為不同大小的塊,最小塊為葉節點;保存上一級塊到下一級塊所需的變換;對葉節點和所有變換進行編碼。所述變換包括沿水平方向翻轉,沿豎直方向翻轉,沿對角線翻轉,取反,沿水平方向翻轉后取反,沿豎直方向翻轉后取反,沿對角線翻轉后取反,沿運動矢量方向移動。本發明的有益效果是,采用位平面模型使得幀間、幀內、位平面間、的冗余的檢測成為可能,能檢測出傳統的基于移動估計視頻編碼方法不能檢測到的冗余;采用廣義高斯分布(GGD)對小波變換后的系數進行非一致的量子化,僅保留重要位的位平面,進一步提高了編碼效率;采用廣義有限自動機編碼,能最優地探測視頻序列中的冗余,在滿足信噪比要求的情況下實現超低比特率,突破現有的視頻編碼技術在編碼比特率上的局限。圖l為實施例流程圖2為位平面模型;圖3為GFA變換示意圖4為象限索引示意圖5為GFA建模示意圖6為采樣頻率為8HZ時,H.263、H.264、實施例所述方法的視頻比特率和信噪比示意圖圖7為采樣頻率為30HZ時,H.263、H.264、實施例所述方法的視頻比特率和信噪比示意圖。具體實施例方式位平面是指變換系數均由二進制表示后,所有具有相同權值的0/l所組成的平面。本發明就是基于位平面的視頻編碼方法。不同于基于運動估計的視頻編碼方法(如H.263,H.263+,H.263++,H.26L以及H.264),意在給出一種更能發掘圖像潛在的相似度(冗余)的編碼方法,從而使得在滿足信噪比要求的情況下,將更低比特率的實現成為可能。實施例僅提出一種較優的基于位平面的視頻編碼方法的實施方式,如圖l所示1)對視頻序列(GoPsequence)進行小波變換后,得到第l高頻次能帶系數、第2高頻次能帶系數、第3高頻次能帶系數、基帶系數;2)對3個高頻次能帶及基帶的系數進行采用廣義高斯分布(GGD)量化器進行量化;3)將量化后的系數進行位平面建模,平面建模過程中,僅保留重要位的位平面;4)從保留的位平面得到位平面圖像;5)對位平面圖像進行基于廣義相似度的廣義有限自動機(GFA)編碼先將位平面圖像逐級分為不同大小的塊,最小塊為葉節點;保存上一級塊到下一級塊所需的變換;再對所有葉節點和變換進行編碼。廣義高斯分布(GGD)是以Gaussian(高斯)分布、Laplacian(拉普拉斯)分布為特例,以S函數和均勻分布為極限形式的對稱分布。它在圖像處理中用于描述DCT變換和小波變換的系數。圖像通過YUV信號表示,其中Y為亮度信號,U、V為色差信號。一個GoP序列的Y、U、V部分是由小波變換為3個高頻次能帶(這2個高頻次能帶分別為第1高頻次能帶L1、第2高頻次能帶L2、第3高頻次能帶L3)和一個基帶B的系數得到的。通過試驗發現,3個高頻次能帶的Y系數主要分別分布在范圍(-50,50),(-50,50)和(-100,100)上。因此,通常情況下,這些高頻次能帶的系數可以由一個8級量化器(28)很好地保持下來。而對于基帶,系數分布得更廣,因此需要一個更高級別的量化器。因此,本實施例采用一個級別ll的量化器對基帶系數進行位平面建模(整數范圍(0,2048))。U、V部分在高頻次能帶只有很少的能量(幾乎沒有非零系數,多數位于高頻次能帶的U、V系數為零或趨近于零),可以被忽略。U、V系數主要存在于基帶中,因此對于U和V部分,位平面建模會因其描述色差信號在結構上更簡單而將其簡化,僅根據基帶用8個位平面進行建模。通過試驗發現,量化后系數的最次要的幾位的分布是非常隨機的,這些位平面可以從位平面建模中拋掉而不影響最終重構圖像的質量。相對的,實施例提出"重要位"的概念,意在從小波變換得到所有系數形成的位平面中,區別出上述"從位平面建模中拋掉而不影響最終重構圖像的質量"的位。通常情況下,"重要位"為小波變換后得到的系數所對應的高位。至于,具體劃分N個高位,N的取值則視對圖像重構產生影響的大小而定。在試驗中發現,量化后的高頻次能帶系數最低4位的分布是隨機的,這些位平面可以被丟棄,同時不影響最終的重建質量。因此在高頻次能帶L1、L2、L3的8個位平面中的4個重要位在建模時被保留下來(b4-b7為保留下的位平面);由于基帶系數對于重構的重要性,ll個位平面中8個重要位的在建模時被保留了下來。考慮到U和V部分的大多數能量是從基帶B獲得的,那些系數需要更好地保留下來以保證一個實際可行的根據U和V部分的重構,這樣促使我們保留位平面模型中的4個重要位平面。從實現的角度,對U和V部分采用每4個重要位的建模方式在整個位平面模型中極好地配合了和鄰接的基帶B中Y系數的8個位平面(由于是4:1取樣,U和V部分在大小上只是Y部分的四分之一),如圖2所示。小波域中視頻序列的位平面建模促進了廣義相似性的優化探測。為了最佳地描述位平面模型中位平面間的頻譜相似度,定義基于變換的廣義相似度,該相似度推廣了傳統的不規則相似度定義以得到變換后的塊間的相似度。那么采用基于廣義相似性的GFA編碼則完全利用了位平面建模的視頻序列的二進制相似性,來形成壓縮編碼的一個更緊致的表示。"廣義相似性"表示,在檢測冗余時,塊A與塊B相比,如其中塊A經過有規律的變換(GFA變換)后與塊B可視為相似,那么則認為塊A與塊B具有廣義相似性,在編碼時,具有廣義相似性的塊僅需記錄其一,其它與其具有廣義相似性的塊都可通過其GFA變換得到。同理,塊A劃分的若干子塊,子塊若經過有規律的GFA變換后與塊A可視為相似,那么則認為塊A與其子塊具有廣義相似性,在編碼時,僅記錄數據量小的子塊(葉節點)與GFA變換,解碼時就能得到完整的塊A。如,F表,定義了GFA變換的各種形式及其索引<table>tableseeoriginaldocumentpage7</column></row><table>Identity:表示沒有變化;Flop:表示沿水平方向翻轉;Flip:表示沿豎直方向翻轉;Flip-flop:表示沿對角線翻轉;C-identity:表示標準塊取反;C-flop:表示沿水平方向翻轉后取反;C-flip:表示沿豎直方向翻轉后取反;C-flip-fl叩表示沿對角線翻轉后取反;New:表示從原始圖像中取出不變;Motion:表示沿運動矢量移動(運動估計)的變換;Leaf:表示至葉節點的變換。兩個尺寸為rXs的位平面圖像I和G間的廣義相似度定義為這里V是指按位運算AND操作符,T(G)為位平面圖像G經按上述規律定義的GFA變換后形成的圖像。當圖像I與經GFA變換后的圖像T(G)相比,若相似度小于預設值,則認為不相似;若相似度大于預設值,則認為兩圖像廣義相似。例如,兩個圖像按位互補,它們的廣義不規則相似度將為O。為了更清楚地描述GFA編碼,以如圖5所示為例。設圖5中最上方的塊為原始位平面圖像(狀態0),圖5中的一條邊(箭頭)代表一個GFA變換,原始位平面圖像(狀態0)被逐級分為不同大小的塊(狀態l、2、3、4為狀態0的子級,狀態5、6為孫子級),最小塊為葉節點(狀態7)。GFA變換可以由三個變量U,i,tl表示,這里i和j表示象限的索引,t表示變換;或者由4個變量ki,q,st,tl表示,這里si,q和st分別表示初始狀態,象限索引,終態狀態;或者7個變量ki,q,st,9(x,y,tM表示,這里(x,y,t)表示運動矢量和它的變換,9是運動估計的索引,象限的索引如圖4所示。原始的位平面圖像根據象限以及不同的變換索引進而變換為位于某個誤差模式(這里,對于極好的匹配,誤差模型是0)下的新的或者已有的子塊。一個3個數的組U,i,th這里i〈j,描述了一個通過變換索引t從象限j到i的自變換,暗示了象限j形成的塊可以由象限i形成的塊導出。例如,圖5中狀態2象限3轉變到象限0,其變換表示為(3,0,0)。一個4個數的組描述從當前狀態(輸入狀態)到其一個子狀態的轉變,例如(0,0,1,8)表示狀態0下的象限0從原始圖像中取出不變,轉變至狀態l。遞推地,級別i中的各個狀態到它們的子狀態或平級狀態的變換以同樣的形式得到。變換(4,3,2,9(-22,-9,0))描述了狀態4下的象限3轉變到由運動失量(-22,-9)確定的狀態2下的塊。變換(2,023,5,821)描述了狀態1下的象限0,2,3分別由變換索引8,2,l轉變到狀態5。當一個狀態變成一個葉節點時,由于葉節點太小而無法包含任何塊間冗余,將不再有進一步的從源于該狀態的變換。最終,當所有狀態轉變到葉節點,GFA表示過程終止,原始位平面圖像已經由各GFA變換和葉節點充分描述。從GFA重構輸入圖像的過程是GFA編碼表示過程的逆過程。首先,通過遍歷所有葉節點的變換來重構上一級狀態。如果某些象限被通過運動變換轉變到它們的平級狀態,它們仍需要重構。例如圖5中的狀態4中,通過變換(4,02,5,2)可知,只有象限0和2可以由狀態5重構,通過變換(4,1,3,9(0,0,1))與(4,3,2,9(0,0,1))而象限1和3需要分別通過運動估計從同級狀態3和狀態2重構。這樣,即可通過下一級的狀態繼續遍歷所有變換。這個變換的遍歷處理將逐個級別遞歸進行,直到我們完成處理GFA中的所有變換。當處理全部完成后,輸入圖像將被完全重構。所以,在GFA編碼過程中僅需保存葉節點與所有變換。為了進一步說明本實施例所述方案達到的效果,我們進行了H263+和H264/AVCAHM2.0方案與本實施例所述方案之間的性能比較測試。測試在Matlab研究程序中采用本實施例所述編碼技術對QCIF格式的視頻序列文件carphone—gcif.yuv(來自http:〃www.mpeg.org)進行壓縮,解壓后,應用tmnplay程序播放解壓后的QCIF文件,將測試到的比特率和信噪比信息與H263+禾口H264/AVCAHM2.0的測試結果進行比較。其中H263+禾口H264/AVCAHM2.0的測試結果中的所有參數來自http:〃w豐.mpeg.org。如圖6所示,在采樣頻率為8Hz的情況下。可以看到,本實施例所述方案在8-20Kbps的碼率范圍內,本實施例所述方案明顯超越H.263+、H.264/AVCAHM2.0分別是3和1-1.5dB。本實施例所述方案還能在比特率5-8Kbps(QCIF8Hz)下達到28-29dB的信噪比,這是H.263+及H.264無法達到的。同樣的,如圖8所示,在采樣頻率為30Hz的情況下(需編碼的數據量更大),在10-16Kbps的碼率范圍內,本實施例所述方案與H.264/AVCAHM2.O具有基本相同的信噪比,明顯高于H.263+;在10-16Kbps的碼范圍內,本實施例所述方案明顯超越H.263+、H.264/AVCAHM2.0,本實施例所述方案還在比特率4-8Kbps(QCIF30Hz)下達到28-30dB的信噪比,這是H.263+及H.264無法達到的。通過觀察還可以發現,在H.263+在低于12Kbps后,H.264/AVCAHM2.O在低于IOKbps后,其信噪比陡降,而本實施例所述方案在碼率很低的情況下,其信噪比的曲線仍成收斂狀態,能保持較好的圖像質量。本發明提出的一種基于位平面建模和視頻編碼方案,使得在GoP序列中檢索出存在于幀內(移動)、帶間(頻率)和位平面間(頻譜)的相似性能成為可能。采用GFA編碼,使得這些相似性被最優地檢測出來。使得本發明在失真率性能方面顯著超越了H.26X方案。它可以分別達到10HzQCIF下5-6Kbps和30HzQCIF下15-20Kbps的超低碼率,這是最新的H.264也無法做到的。大量的多媒體通訊應用在比特率方面將有更多作為。很顯然,一個GoP序列包含的幀數越多,頻譜的相似性也就越多,就能達到更好的比特率。另一方面,大范圍的視頻序列會增加編碼的復雜性,也會導致更長的序列傳輸延時。基于位平面建模和GFA呈現的視頻編碼方案在高質量視頻編碼方面顯示出優秀的潛力,更高級別的量化器的采用,讓我們能夠獲得更好的迅噪比。更高級別的量化和更好的位平面建模,能檢索出更多的頻譜相似性,顯然也能獲得更高的壓縮率。權利要求權利要求1視頻編碼方法,其特征在于,包括以下步驟1)對視頻序列進行小波變換后,得到第1高頻次能帶系數、第2高頻次能帶系數、第3高頻次能帶系數、基帶系數;2)對所述3個高頻次能帶系數及基帶系數進行量化;3)將量化后的系數進行位平面建模;4)得到位平面圖像;5)對位平面圖像進行編碼。全文摘要本發明涉及視頻編碼技術,提供一種能更優地探測出圖像中冗余的視頻編碼方法。本發明中一個視頻序列被表示為一個總的通過位平面建模產生的二元圖像,進一步的,該圖像通過使用廣義高斯量化器,在適應了視頻序列系數統計后對次能帶間的視頻序列的系數進行壓縮編碼。跨幀(運動),跨帶(頻率)和跨位平面(頻譜)的相似性在位平面模型中被最優地探測,進而形成一個視頻序列緊湊的數據標識。根據信噪比衡量標準,此方案在比特率上顯著地勝過了H.26X系列編碼方案。本發明特別適用于Internet和無線/移動網絡上,以低比特率和可測量的視頻編碼為核心的多媒體應用。文檔編號H04N7/32GK101394567SQ20081030540公開日2009年3月25日申請日期2008年11月6日優先權日2008年11月6日發明者歌鮑申請人:成都視微特數碼科技有限公司