專利名稱:基于匹配尋求算法的視頻編碼方法
技術領域:
本發明涉及視頻編碼器領域,更具體地,涉及一種基于適配所謂的匹配尋求方法(MP)的、和能在信號噪聲比(SNR)可縮放的視頻編碼器中實施的編碼方法。
背景技術:
在多媒體領域中,新的交互應用(諸如互聯網視頻流、視頻數據庫瀏覽或多質量視頻業務)正在廣泛開展。這導致在網絡(互聯網、移動網和國內數字網)上視頻業務的擴展,這在各種傳輸條件(帶寬、誤碼率)以及各種消費者要求和終端譯碼能力(CPU、顯示器尺寸、應用)方面提出新的問題。因此,需要新的靈活的和內在地增強的視頻壓縮系統,該系統可以處理這些新的約束條件,特別是在以非常低的比特率的情況下。可縮放性的想法是解決這些問題的預期的功能。例如,只有一部分嵌入的比特流可被發送到特定的用戶以避免網絡擁塞,或整個比特流可以按照所瞄準的質量水平而被部分地譯碼。當前的標準,諸如MPEG-4,正朝向提供這種功能的視頻編碼方案而努力。
MPEG-4依賴于傳統的基于塊的預測混合方案,其中運動補償后的預測錯誤編碼是借助于離散余弦變換(DCT)而實現的。然而,DCT看來易于受到低比特率的、非常討厭的視覺人工產物的危害(特別是塊邊緣的人工產物),這是因為編碼系數的數目變得非常低,以及量化度很粗糙。較好地適合于低比特率的和在MPEG-4中測試的一種較好的DCT的替換方案,是基于所謂的匹配尋求(MP)算法,例如,在S.Mallat和Z.Zhang的“Matching pursuits with time-frequencydictionaries(帶有時間-頻率字典的匹配尋求)”,IEEETransactions on Signal Processing,vol.41,No.12,December1993,pp.3397-3415中所描述的。
正如在所述的文章中描述的,MP是時間-頻率變換,它通過使用被稱為atom(微小單元)的二維(2D)函數的過完整的字典,以迭代的方式擴展運動剩余信號。這個算法迭代地計算微小單元,使得要被編碼的信號的均方誤差最小。多級算法按照以下的步驟進行
計算在矩形搜索窗上的最高能量圖象塊;在這個塊周圍,計算使得在基函數與在當前迭代時的剩余圖象之間的內積最大的投影;高的內積數值表示對應的微小單元適合于信號結構;這個加權的微小單元然后從當前的錯誤圖象中被減去,從而產生用于下一級的、新的剩余圖象。
該方法的復雜性在于,算法在每次迭代時在字典中的所有的微小單元中間選擇最好的微小單元。表1顯示傳統上在經典的基于塊的匹配尋求實施方案中使用的、微小單元字典(參量Si,Fi和Pi分別表示微小單元的尺度、頻率和相位)。
字典的冗余度允許在選擇信號分解上更大的自由度。在低的比特率編碼的情形下,這是更感興趣的,因為MP只利用需要的函數來精確地代表信號,因此導致更好的壓縮效率。而且,MP是迭代的,所以,剩余能量在每次迭代時降低。程序過程被迭代,直至這個剩余能量降低到低于給定的門限值或可供使用的比特量用完為止。該表示法在最重要系數首先被提取的意義上是自適應的。所以,MP按降低的重要性的次序編碼剩余誤差,這對于質量(SNR)可縮放度是有吸引力的。對應于信號結構中更細的細節的、附加系數可以在算法的下一個步驟期間被產生。
字典通常由二維(2D)的、可分開的Gabor函數組成,該函數由用于控制已被調制的高斯函數的尺度以及一個調制函數的頻率與相位的參量來代表。字典的選擇是重要的,因為它與分解的收斂速度密切相關,并因此與算法的效率密切相關。Gabor函數針對可限制視覺人工產物的、處在它們邊緣的平滑的衰減來進行選擇。而且,微小單元可被放置在整個錯誤圖象的任意象素位置處,以便于匹配信號結構。微小單元重疊是能夠實現的,這提高擴展平滑度。
雖然這個MP方法比起DCT的優越性通過一些研究是顯而易見的,但DCT仍舊是在MPEG-4中唯一使用的紋理結構編碼方法(其理由是,DCT是非常成熟的方法,對于它具有許多軟件和硬件最佳方案)。而且,MP是一種迭代算法,它不存在并行技術,以及在編碼一側是復雜的。然而,MP似乎能很好地適合于在任意形狀物體內的紋理結構描述,以及它提供在嵌入的比特流中的信息的逐步表示,因此允許可縮放性。
由于當前的視頻標準原先沒有被設計來提供可縮放性(它們已被加以更新,以便包括這個新的功能,而同時保留它們的現有的結構),這個可縮放性通常是通過能傳遞兩個或多個分開的比特流的一個層結構而達到的。這個方法具有缺乏靈活性和增強層的編碼效率低的缺點。而且,基本類型的可縮放性(空間、時間、SNR)不能同時達到。因此,ITU和MPEG委員會專家在非常低的比特率的領域中正在尋找允許更大的互動性的完全可縮放的編碼方案。一種許可的方法涉及基于三角形的網格的表示法的使用(即,把圖象區域再劃分成基本補片,最流行是三角形,因為這種配置是非常靈活的),以便用于基于對象的壓縮和合成。這種操作的目的是按照所瞄準的情景描述的精度用有限數目的單元來規定均勻的區域,因而這種操作甚至可以是分級結構的。分級結構然后被初始化到任意粗的網格,它接著按照特定的準則逐步被細化,因此,允許描述的精度逐級地提高。
然后提出了利用通過網格而提供的主要優點對于有效的對象輪廓編碼的空間自適應能力、對于對象跟蹤的形變能力、在沒有通常對于其它表示法遇到的視覺人工產物的情況下即使是在低比特速率下的緊湊和增強的運動估計。三角形網格對于諸如紋理結構動畫制作和形變、視頻對象的基于內容的恢復、增大的現實性、美化等等的功能是有吸引力的。而且,它們對分層結構網格的擴展是對可縮放性的可能的響應。然而,只有幾個已知的著作涉及到網格內紋理結構編碼的課題,這些現有的論文都是基于適配于原先只是為矩形分解而設計的DCT的。
發明概要所以,本發明的目的是提出一種視頻編碼方法,它使用MP算法并使該算法與三角形網格內的紋理結構錯誤編碼相適配,以便從MP特性得到好處,即,按重要性遞減的次序順序地進行信息發送,以及甚至在低比特率時也能提供平滑的信號表示。
為此,本發明涉及基于適配所謂的匹配尋求方法(MP),其中在所述MP方法的每次迭代時,在三角形網格內的所述錯誤紋理結構編碼處理過程被限制于按照預定的準則選擇的特定的三角形,以及根據這個準則,在考慮到錯誤信號的快速能量減小的情況下,在這個三角形內用于微小單元的最佳策略包含任意選擇所選擇的三角形的幾何重心來作為微小單元的中心,有關微小單元位置的任何附加信息都不被發送到譯碼器。
所提出的解決方案給所瞄準的視頻編碼方案配備以一種很適合于基于網格的編碼的預測錯誤編碼工具。根據MP算法,這個方法在特別被設計來匹配三角形支持時,可從網格特性得到好處。在給定任何選擇的三角形后,問題是找到用于在所述三角形內的微小單元定位的最佳策略,導致快速地減小錯誤信號能量,以及精確而平滑的信號分解。這個幾何定位方法與那種必須對每個微小單元位置編碼的基于塊的方法相比較,可以導致獲得比特預算增益(budget gain)。
在另一個實施例中,本發明涉及基于適配所謂的匹配尋求方法(MP)的編碼方法,其中在所述MP方法的每次迭代時,在三角形網格內的所述錯誤紋理結構處理過程被限制于按照預定的準則選擇的特定的三角形,以及根據這個準則,在考慮到錯誤信號的快速能量減小的情況下,在這個三角形內用于微小單元的最佳策略包含將錯誤能量信息重復使用于微小單元中心定位,于是在具有最高能量的、所選擇的三角形內位移幀差值(DFD)能量重心被任意地選擇為微小單元的中心,并且,三角形內的這個位置是被發送到譯碼器的附加信息。
如果幾何選擇(對應于第一實施例)確保微小單元處在三角形的中間,無論如何,這導致在定位自由度方面釋放MP的特性。通過將錯誤能量信息重復使用于微小單元定位,可得到更類似于基于塊的方法的微小單元編碼效率。
這個實施方案還可以通過添加這樣一種可能性即沿著最重要的能量的方向去定向一個微小單元軸從而被改進。這樣就能得到更好的微小單元定位,使微小單元軸對準必須被逼近的錯誤信號。
附圖簡述現在參照附圖更詳細地說明本發明的具體例子,其中
圖1顯示在尋找用于在所選擇的三角形內的微小單元定位的最佳策略時的幾何微小單元定位方法;圖2顯示這個幾何方法的第一變例,它允許通過使用對于微小單元中心定位的錯誤能量信息,從而重新引入一些定位自由度(與圖1所示的方法相比較);圖3顯示在幾何與能量定位方法之間的比較;圖4顯示慣性微小單元定位,它是能量微小單元定位方法的變例,它借助于對準沿著DFD能量的主方向的一個微小單元軸,從而允許達到微小單元軸對準它們必須逼近的錯誤信號。
發明詳細描述當使用原先施加到圖象塊的MF算法時,為了適配它以及滿足只允許在三角形網格支持上的紋理結構增強的嚴格的約束條件,在微小單元定位和微小單元重疊方面,不可能允許與基于塊的方法的相同的自由度。在MP程序的每個迭次迭代時,錯誤紋理結構編碼不得不被限制于特定的三角形,例如,按照能量準則所選擇的三角形。所以,微小單元編碼必須以另一種方式執行,以避免位于三角形邊緣的微小單元,否則這會引起視覺人工產物。在給定已選擇的三角形后,問題是找到用于在這個三角形內的微小單元的最佳策略,也就是導致錯誤信號的快速能量減小和精確的與平滑的信號分解的策略。現在參照圖1到3描述這樣的微小單元定位方法,在每種情形下,在三角形尺度中執行預測錯誤編碼(以虛線顯示包圍每個三角形的邊界的方塊)。對于被使用來編碼運動剩余圖象的函數,沒有引入特別的的修正來使用網格結構它們仍舊是實二維(2D)Gabor函數。
最簡單的方法包含任意選擇要被編碼的已選擇的三角形的幾何重心來作為編碼的微小單元中心,即作為2D微小單元的中心,如圖1所示,其中微小單元軸與圖象柵格(X,Y)一致。這種選擇確保微小單元處在三角形的中間。因為這個信息是在譯碼器一側可從網格恢復的,所以沒有關于微小單元位置的附加信息必須被發送到譯碼器。這在與那種必須對每個微小單元位置編碼的、基于塊的方法相比較時,將會導致比特預算增益。微小單元定位自由度的減小通過以下事實可被部分地補償對于這個定位策略,微小單元位置不需要被編碼和被發送(因為它們在譯碼一側可以以它們在編碼器一側被執行的相同的方式被恢復),因此導致對于紋理結構增強的所述增加的比特預算。
然而,如果幾何選擇確保微小單元處在三角形的“中間”,則它導致相對于定位自由度釋放MP的性質,這減小微小單元編碼效率。為了更類似于基于塊的方法(其中微小單元被放置在錯誤很高的圖象區域),錯誤能量信息可被復用于微小單元中心定位。為此,在選擇的三角形(具有最高的能量的三角形)內的位移幀差值(DFD)能量重心被任意地選擇作為2D微小單元的中心(圖2)。在三角形內的這個位置必須在譯碼器中被發送,因為所述的譯碼器沒有關于DFD的信息。由于MP程序過程是迭代的,所以常常發生特定的三角形幾次被選擇用于紋理結構編碼。這種能量定位在它的接連的處理過程期間重新引入在特定的三角形內的一定的自由度。而且,這種方法更好地適應于網格精選處理,該處理可按照能量準則逐次地剖分三角形。由于剖分的三角形是在具有最高的剩余能量的三角形中間被選擇的,它們多半被用于增強紋理結構的MP算法所選擇。借助于這種方法被重新構建的圖象可呈現更好地定位的紋理結構,它比起第一種方法具有較少的視覺人工產物,以及用于相同數目的微小單元的這個方法可被使用來編碼預測錯誤。
為了說明在幾何定位與能量定位之間的差別,可以考慮特定的一維(1D)的例子,如圖3所示,圖的右面顯示微小單元的幾何定位以及左面顯示它的能量定位(G和E在每種情形下分別表示幾何重心和能量重心的位置)。能量定位產生更有效的編碼,因為它接連地把微小單元放置在最佳點。事實上,在給定特定的編碼方案后,無論如何,就會存在著在較佳定位的好處與編碼這個位置的代價這兩者之間的折衷,因為能量定位方法預先假設微小單元位置已被傳輸到譯碼器一側。而且,在三角形越來越小時,在幾何重心與能量重心之間的差別越來越不太重要。
也可提出另一個變例。在以前的方法(圖3)中,微小單元軸常常平行于圖象柵格,以及這無論如何是微小單元中心位置所在地方。如圖4所示,慣性定位可以把沿著DFD能量的主方向(也就是沿其能量是最重要的方向(用角度α表示))去定向一個微小單元軸的可能性添加到能量定位上。實際上,被DFD能量加權的三角形慣性矩在每個三角形內被加以計算以便得出能量主方向,這由它與圖象柵格x軸之間的夾角來給出。第二軸(y軸)然后簡單地垂直于這個第一方向。
在慣性微小單元定位方法的情形下,DFD能量主方向角的計算是如現在指出的方法完成的。慣性矩陣被給出為 ,其中a=1NΣK=1Nxk2-xG′2]]>b=1NΣK=1NyK2-yG2]]>和c=1NΣK=1Nxkyk-xGyG]]>xk和yk分別是所研究的數據的x坐標和y坐標,以及 和 是數據重心。在本例中,可以具有x=x(i,j)*DFD2(i,j),y=y(i,j)*DFD2(i,j),和 其中(i,j)是選擇的三角形內的點。主方向角度α由 給出。
更好的微小單元定位由這個方法通過把微小單元軸對準它們必須近似的錯誤信號而得到。無論如何,微小單元軸沒有對準圖象柵格,以及分離的微小單元表不再被使用。在MP處理過程期間動態計算的實際微小單元數值應該被引入。而且,由慣性定位帶來的改進也具有附加的花費需要編碼和發送規定微小單元軸的角度。因此,必須在以下兩種情形中間實現速率失真折衷,這兩種情況是一,微小單元軸對準DFD能量主方向,以及可供微小單元編碼之用的一部分比特預算被消耗掉,而不發送這個方向的角度;二,微小單元軸對準圖象柵格以及相同部分的比特預算實際上被使用來為每個三角形發送更多的微小單元,因此,導致產生網格內紋理結構的改進的重新構建。所以,必須平衡較好的微小單元位置的好處與對它的參量(中心位置,軸的角度)進行編碼的代價。
微小單元字典的選擇構成在MP方法的效率和收斂速度方面的關鍵因素,所以,它對于按照三角形特性使函數組最佳化是有用的。如上所述,這種包含只允許在三角形尺度上的增強紋理結構的很強的限制將會減小微小單元重疊的性質。為了補償這一點,要特別注意選擇基本函數。增加函數的冗余度和過完整的基礎性質,無論如何不是一個可接受的解決方案,因為它增加了算法負擔。
因為方法的主要修改與這種支持的特定的幾何性質相聯系,因而選擇了首先按照三角形尺寸來使幾個字典最佳化。視頻序列的訓練基礎借助于這樣一種基于網格的編碼系統來處理,在該系統中,網格或多或少是密集的。最粗的網格被應用在QCIF(四分之一公共的中間格式)圖象上,以及包含被排列成梅花形的32個三角形。這些三角形相對于一個分開的準則通過以下的各層面而被進一步改進。對于每個網格配置,微小單元參量在訓練期間最經常被選擇的那些參量中間進行選擇。除了最經常的參量以外,可以把代表平滑微小單元的三元組慎重地添加到保留的字典中。這樣做的理由是字典必須盡可能地完整,而同時應合理地保持為較小,以便適合于不同的配置,這些配置也可能是在訓練期間未出現的配置。這樣做以后,可以得到幾個字典,每個字典對于特定的種類的三角形被最佳化。表2顯示對于三步驟分割程序過程而最佳化的、最終的微小單元字典的例子字典1
字典2
字典3
由按照QCIF格式的一個序列的1525個圖象組成的訓練圖象基礎是被產物“自然”(跟隨在草地上行走的動物的自然序列),“新聞”(典型的標題和肩部序列)、“橄欖球”(帶有各種運動、飽和的色彩和攝像機搖攝的非常需要的運動的序列)、和“戲劇”(相當靜止的序列)的不同種類的幾個序列的級聯。訓練函數字典中的每個由一百個以上的參量三元組組成,具有12個其范圍從1.0到23.0的奇數換算值、5個從0.0到4.0的頻率值、以及三個相位值(0,π/4和π/2)。三個字典是與分級結構編碼方案的三個層任意相關的。
對于這樣描述的編碼方法,可以提出修改方案或改進,而不背離本發明的范圍。例如,基于三角形網格的視頻編碼方案可以通過分層結構表示法而被改進。分層結構解決尋找最佳補片尺寸的問題和提出用于提供逐層改進的說明的工具。因此,向分層結構網格擴展是對于可縮放性的一個回答。分層結構可以被初始化為任意粗略的網格,它按照特定的準則(例如,能量)被接連地改進。在本例中使用的分層結構包含在每種分辨率下把網格柵格與圖象組合,以達到最粗的網格被耦合到最低分辨率的圖象的效果。這里,術語分辨率是指對源圖象執行的低通濾波,不作任何下采樣,以及不是十中取一。因此,圖象和網格聯系包含能提供隨著層而增加的信息精度的單元。
對于應用到三角形的MP方法,基函數的選擇是不容易的,因為它影響編碼速度和效率。所以提出三個字典,以便給每個層提供適配的函數組。關鍵因素顯然是用于確定函數支持的換算參量。一個解決方案是任意地把每個分層結構層與一個對于這個層已最佳化的特定的字典相聯系。然而,考慮在兩個層之間的、只更新全部三角形中的一部分的網格細化處理過程,如果第一層網格包含“大的”三角形,則不能假設下一個層網格只由“中等的”或“小的”三角形組成。為了防止發生這個問題,把字典的動態預選擇步驟附加到基于三角形的MP方法。這個字典選擇既不增加算法負擔,也不減慢它的收斂速度。其理由是,這種選擇是在每次迭代時在計算最佳微小單元之前在線地進行的。
無論是哪個選擇的字典,MP處理過程以后在這個唯一的字典內搜索最佳微小單元。以及對于每個所選擇的三角形搜索最佳微小單元。因此,它并不是考慮所有的N字典,這等價于一個有N倍那樣大的字典。所以,這種字典的預選擇提供了具有幾個潛在的字典優點,然而,實際計算量就好像只是一個字典那樣。這個方法是更感興趣的,因為它不需要附加第四個微小單元參量。會影響字典選擇的微小單元尺寸實際上可從在網格中早已存在的信息中得出,以及該信息不需要被發送。它是在譯碼器一側以與在編碼器一側獲得的相同的方式可恢復的。無論如何,字典仍舊是要被發送的,或至少需要被譯碼器得知。
因此在以前的說明中,匹配尋求算法直接被應用到基于網格的支持,而無需使用經典的基于塊的圖象劃分法。所建議的三種微小單元劃分方法涉及把基本匹配尋求程序過程與三角形支持進行適配。而且,動態字典預選擇的引入允許具有潛在的更大量的最佳化的字典,而同時在MP階段期間保持相同數量的有效計算,以及對于每個編碼的微小單元都這樣做。所選擇的字典的索引不需要被發送到譯碼器,并因此規定固有的補充的微小單元參量。所描述的基于三角形網格的使用的方法可以在信號噪聲比(SNR)可縮放的視頻編碼器中被實施,這屬于本發明的范圍。
權利要求
1.在信號噪聲比(SNR)可縮放的視頻編碼器中,基于使所謂的匹配尋求方法(MP)適配于三角形網格內的錯誤紋理結構編碼處理過程的編碼方法,在所述MP方法的每次迭代時,所述錯誤紋理結構編碼處理過程被限制于按照預定的準則選擇的特定的三角形,以及根據這個準則,在考慮到錯誤信號的快速能量減小的情況下,在這個三角形內用于微小單元的最佳策略包含把所選定的三角形的幾何重心任意選擇作為微小單元的中心,有關微小單元位置的任何附加信息都不被發送到譯碼器。
2.在信號噪聲比(SNR)可縮放的視頻編碼器中,基于使所謂的匹配尋求方法(MP)適配于三角形網格內的錯誤紋理結構編碼處理過程的編碼方法,在所述MP方法的每次迭代時,所述錯誤紋理結構編碼處理過程被限制于按照預定的準則選擇的特定的三角形,以及根據這個準則,在考慮到錯誤信號的快速能量減小的情況下,在這個三角形內用于微小單元的最佳策略把錯誤能量信息重復地使用于微小單元中心定位,在具有最高能量的所選擇的三角形內的位移幀的差值(DFD)能量重心然后被任意地選擇作為微小單元的中心,并且在三角形內的這個位置是被發送到譯碼器的附加信息。
3.按照權利要求2的編碼方法,其中用于微小單元定位的最佳策略是慣性微小單元定位方法,它把一個取向步驟附加到能量定位方法,該取向步驟被提供用來沿著DFD能量的主方向、也就是沿能量是最重要的方向定向一個微小單元軸,第二軸垂直于這個第一方向,以及所述慣性定位方法的實施涉及到把用于規定微小單元軸的角度作為附加信息來進行編碼和發送。
4.按照權利要求1到3的任一項的編碼方法,所述方法通過使用分層結構網格而被改進,該分層結構以任意的粗的網格被初始化,該網絡按照所述預定的準則被順序地細化。
5.按照權利要求4的編碼方法,其中所述分層結構包含在每個分辨率下把網格柵格與圖象組合起來,以達到最粗的網格與最低分辨率的圖象相聯系的效果,從而使得圖象和網格的聯系包含能提供隨著層而增加的信息精度的單元。
6.按照權利要求5的編碼方法,其中所述預定的準則是能量準則。
7.用于實施按照權利要求1到6中的任一項的基于三角形網格的編碼方法的一種信號噪聲比(SNR)可縮放的視頻編碼器。
全文摘要
本發明涉及視頻編碼器領域,更具體地,涉及基于使匹配尋求方法適配于三角形網格內的錯誤紋理結構編碼處理過程的編碼方法。所述處理過程在該方法的每次迭代時被限制于按照預定的準則選擇的特定的三角形。用于在這個三角形內的微小單元定位的最佳策略,包含任意選擇所選定的三角形的幾何重心作為微小單元的中心,或包含重復使用錯誤能量信息來進行微小單元中心定位,在具有最高能量的選定的三角形內位移幀差值(DFD)能量重心,在第二種情形下被任意地選擇作為微小單元的中心。
文檔編號H03M7/42GK1349717SQ00806828
公開日2002年5月15日 申請日期2000年12月20日 優先權日1999年12月28日
發明者V·博特雷奧, M·貝內蒂爾雷, B·佩斯奎特-珀佩斯庫 申請人:皇家菲利浦電子有限公司