用于編碼交錯數字視頻數據的方法

文檔序號：6655266閱讀：282來源：國知局

專利名稱：用于編碼交錯數字視頻數據的方法
技術領域：
本發明涉及一種用于視頻壓縮的方法。更具體地，涉及一種使用運動補償預測編碼，來編碼交錯視頻數據的方法。
背景技術：
為減小傳輸帶寬，多種視頻編碼算法使用運動補償預測編碼。這稱為運動補償時間濾波(MCTF)。在這種混合方案中，使用運動補償來減少時間冗余，并使用運動補償殘差變換編碼來減少空間冗余。運動補償包括使用運動估計(ME)來產生運動矢量(MV)，當物體在相對于另一幀圖像的一幀圖像中移動自身的位置時，使用運動估計來最小化要傳輸的數據量。然后編碼運動矢量并向解碼器傳輸，那么，運動矢量可以在參考圖像中定位該物體，并根據運動矢量來移動物體。運動估計使用前向、后向或雙向參考。
例如微型移動顯示器的新的顯示器類型只需要低空間和時間分辨率的無交錯視頻序列，而例如HDTV接收器的其它類型則要求具有高空間分辨率和標準時間分辨率的交錯序列。雖然大多數標準清晰度(SD)視頻內容是交錯的，但是最近對可伸縮視頻編碼的研究集中在無交錯視頻的估計上。在歐洲專利申請EP03290507中描述了一種用于傳輸在空間和時間上可伸縮的交錯視頻的方法，該視頻具有較寬范圍的可伸縮性。該方法基于將視頻幀序列分離成基層(BL)和增強層(EL)。

發明內容
視頻編碼通常以最小化傳輸數據速率為目的。對于產生在空間和時間上可伸縮的交錯視頻所用的多層方法，例如，所述的雙層方法，根據實際的視頻序列，可能還存在進一步減少冗余的可能性。本發明的目的是開發這些可能性，從而改善交錯視頻，特別是可伸縮交錯視頻的編碼效率。
權利要求1中公開了適合于解決這個問題的方法。權利要求3中公開了使用該方法的編碼器。
根據本發明，使用針對選擇和編碼EL運動矢量的靈活方案，可以進一步減少編碼所需的比特量，即所謂的編碼代價。這產生自適應方法，使得可以相對于實際視頻序列來優化數據速率。
用于編碼交錯視頻數據的本發明方法包括以下步驟將視頻幀分離成BL和EL；對BL幀執行運動估計，參考BL幀并產生第一運動矢量；對EL執行運動估計，參考BL幀、EL幀或其組合，并產生不同的第二運動矢量集；計算針對不同的第二運動矢量集的編碼代價，編碼代價與編碼所需的比特數相對應或相等；估計針對每一個不同的第二運動矢量集的失真值，失真值基于增強層幀與根據當前第二運動矢量集和當前參考來預測的幀之間的差別；選擇提供低編碼代價和低失真之間的最佳折中的參考和第二運動矢量集；以及與已編碼的視頻數據流一起傳輸標識符，標識符指示所使用的編碼類型。例如，如果針對特定EL幀，最優編碼是基于參考單個BL幀的前向預測，則可以傳輸分配給該組合的標識符，從而解碼器能夠通過將運動矢量應用于標識符指示的參考幀，來重建EL幀。
例如，可以通過向編碼代價值和失真值分配權重因子，將兩個加權的值相加并選擇具有最小和的組合，來找到低編碼代價與低失真之間的最佳折中。在普通情況下，權重因子可以是1，或根據經驗選擇。
此外，本發明方法可以附加地包括以下步驟針對每一個不同的第二運動矢量集的運動矢量，選擇屬于第一運動矢量的參考運動矢量，并計算伸縮因子和差矢量，其中伸縮因子和差矢量用于編碼代價的計算和后續步驟，以及/或者后續解碼。
根據本發明的編碼器采用運動補償預測編碼，并包括以下裝置用于將視頻幀分離成基層幀和增強層幀的裝置；用于對基層幀執行運動估計，參考基層幀，并產生第一運動矢量的裝置；用于對增強層幀執行運動估計的裝置，其中針對單個增強層幀，根據不同參考來產生不同的第二運動矢量集，不同參考是一個或多個基層幀，或是一個或多個增強層幀，或是其組合；用于計算針對每一個不同的第二運動矢量集的編碼代價的裝置，編碼代價與編碼增強層幀所需的比特數相對應或相等；用于估計針對每一個不同的第二運動矢量集的失真值的裝置，失真值基于增強層幀與根據當前第二運動矢量集和當前參考來預測的幀之間的差別；用于存儲對應不同的運動估計類型的估計的編碼代價和失真值的裝置，其中每一個所存儲的編碼代價值和失真值與對應的第二運動矢量集的標識符相關聯；用于比較不同的第二運動矢量集的編碼代價、選擇提供最少編碼代價的運動矢量、并確定關聯的運動估計的裝置；以及用于與已編碼的視頻數據流一起傳輸標識符的裝置，標識符指示所使用的編碼類型。
用于產生交錯視頻數據的解碼器包括用于接收標識符的裝置，標識符與運動矢量或運動場相關聯，并指示針對預測幀的區域或整個預測幀的參考幀；以及用于根據所述標識符和所述運動矢量，來解碼預測幀或預測幀內區域的裝置。
本發明的解碼器的一個實施例還包括用于計算伸縮因子，以及不同的第二運動矢量集的每一個與第一運動矢量之間的差矢量的裝置，其中差矢量用于編碼代價的計算和后續步驟，以及/或者后續解碼。
在本發明的一個實施例中，用第一運動矢量來初始化對增強層的運動估計。
在本發明的一個實施例中，對增強層的運動估計包括以下可能方法中的至少兩種后向預測，前向預測和雙向預測。
在本發明的一個實施例中，對增強層幀的運動估計參考單個幀，而在另一實施例中，對增強層幀的運動估計參考多個幀。
從屬權利要求、以下描述和圖中公開了其它有利的本發明實施例。

參考附圖描述本發明的范例實施例，其在以下圖中示出圖1后向、前向和雙向預測；圖2多參考預測；圖3來自BL配位(collocated)MV的EL MV的內插；圖4來自BL配位MV的EL MV的外插；以及圖5用于可伸縮交錯視頻的編碼器結構。
具體實施例方式
圖1示出本發明第一類可組合的不同運動預測模式的原理。運動預測基于通常屬于相同幀組的交錯幀的數量。幀劃分為奇幀和偶幀。在本示例中，奇幀屬于EL，偶幀屬于BL。
當前EL幀no是奇幀，包含多個像素塊PB1，…，PB3。運動估計要針對盡可能多的像素塊在相鄰幀之一中定位參考，其中相鄰幀可以具有與當前幀相同的奇偶性sp，或相反的奇偶性op。因此，在每個方向上有兩個相鄰幀，一個在相同層，一個在另一層。在圖1中，對于當前奇幀no，相鄰幀是BL的前一偶幀ne-1，EL的前一奇幀no-1，BL的后一偶幀ne和EL的后一奇幀no+1。
本發明的方法包括針對當前幀的塊，計算不同類運動矢量；估計對應的編碼代價和失真值；以及針對編碼，選擇具有最佳編碼代價/失真折中的運動矢量。對于圖1的第一像素塊PB1，示出了后向運動估計的兩種可能方式，即，根據相同奇偶性sp的前一幀或根據相反奇偶性op的前一幀。另一像素塊PB2采用前向運動估計，有兩種可能方式使用相同奇偶性sp的后一幀或根據相反奇偶性op的后一幀作為參考。另一像素塊PB3采用雙向運動矢量，有四種可選方式，是相同或相反奇偶性的先前或后續幀的任何組合op-op，sp-op，op-sp和sp-sp。根據本發明，計算所述組合的編碼代價，估計對應的失真值，并為編碼選擇具有最佳編碼代價/失真折中的組合。
因此，所提出的算法使用層內/層間相關，即，在相同或相反奇偶性的場之間。在一個實施例中，可以使用多個參考場來有效地預測EL。圖2示出根據本發明，第二類可組合的不同運動預測模式的原理。運動預測基于限定的先前或后續幀數量，其中可以一次使用多個幀。這種方法稱作多參考。例如，當前奇幀no的第四區域PB4可以參考前三幀，即一個奇幀no-1和兩個偶幀ne-2，ne-1中的一個或多個。當前奇幀no的另一區域PB5可以參考后三幀，即一個奇幀no+1和兩個偶幀ne，ne+1中的一個或多個。當前奇幀no的另一區域PB6可以參考六個相鄰幀，即前述的前三幀和后三幀中的一個或多個。
通常，可以將兩個截然不同的概念用于運動矢量的編碼，稱作“先驗”和“后驗”。“先驗”表示利用先前的基層信息將運動矢量重新伸縮為原來的值，關于這個原來的值的研究是在環繞場之間進行的。另外，該編碼步驟受益于，只需要與所選的MV或預測器連接來傳輸每一個運動矢量的殘差部分。“后驗”表示執行EL運動估計階段，而不考慮基層運動信息。但是可以將后一信息用于編碼EL矢量。
在“后驗”概念中，可以采用多種運動矢量預測模式后向、前向或雙向。在相同層場或在相反層場中選擇最佳預測矢量。如圖1所示，該選擇可以限于直接毗鄰的場。該操作模式也可以是“多參考”，即，如圖2所示，矢量選擇并不限于毗鄰的相鄰場。除了圖1和圖2所示的方法，重新使用來自BL的運動矢量信息使得只對BL與EL場之間的每一個運動矢量的殘差部分進行編碼更加容易。這種解決方法的優點減少了MV編碼代價。
在“先驗”概念中，假設BL運動矢量是可用的。在這種情況下，可以使用BL運動矢量來有效地初始化EL運動估計過程。這在圖3中示出。在本示例中，假設奇幀no-2、no-1、no和no+1用于基層。參考運動矢量V屬于BL估計。V允許提出所有場中的用于EL的多個潛在預測器，而不管它們的奇偶性。特定預測器i由Vi＝βiV給出，βi∈Q，Q是有理數集，即，Vi和V是共線的。這種伸縮方法與“雙基”方法非常相似。通過將后一方法與“直接模式”結合，可以根據V推斷雙向矢量，通過將更新的矢量相加，使用雙向矢量來構造運動矢量。有利的是，編碼因子βi和更新的矢量比使用MV的另一表征更加有效。
本發明方法的優點在于，能夠在交錯視頻內容的處理中，使用潛在長的濾波器，這在本領域中是前所未有的。對多個幀進行濾波允許運動矢量的重新使用中的更高效率。例如，當物體在多個幀上進行線性運動時，可以將相同的參考矢量V用于這些所有的幀。如圖3所示，如果運動不是精確地線性，則可以將參考MV用于更加有效的編碼。當重新使用來自BL的運動矢量信息V時，可以只對BL和EL場的每一個運動矢量的殘差部分進行編碼。這一優點減少了MV編碼代價。在圖3中，如在幀的特定區域從BL的配位MV內插預測器，計算BL的兩幀no-2，no+1之間的參考運動矢量V。對于特定區域內的不同子區域，通過使用共線值βV，并加上更新矢量來執行預測器的初始化，以便調整預測。因此，最終MV可以由各個β和更新矢量的組合來限定。例如，對于子區域PB9，可以通過將初始預測器IV和更新矢量UV相加，來構造最終運動矢量MV3。算法性能依賴于BL運動信息的質量BL運動信息越好，算法越有效。
圖4示出如何從BL配位MV外插預測器。在這種情況下，在連續的BL場no-1和no之間計算BL參考矢量V2。可以使用BL參考矢量V2，將來自EL的MV描述成BL MV的函數。更新矢量用來調整預測。
在本發明的一個實施例中，為最小化所需處理功率，也可以考慮計算復雜度。
圖5示出根據本發明，針對可伸縮交錯視頻的編碼器的結構。輸入信號I是交錯視頻序列，具有2αHz的時間分辨率，即每一秒2α場或每一秒α幀，以及2M×2N的空間分辨率，即，一幀具有2N行，每一行有2M個像素，或一場具有N行，每一行有2M個像素。分裂塊SP分散序列，從而將場交替地遞送到第一或第二分支F1，F2。第一分支F1產生BL信息和EL信息，但是這里將其稱作BL分支。另一分支只產生EL信息，這里將其稱作EL分支。每一個分支接收具有每一秒α幀的時間分辨率和2M×2N像素的空間分辨率的視頻序列。例如，BL序列F1包含偶場，EL序列包含奇場。分裂塊SP執行分裂變換。它還可以使用多種濾波器來進行更加復雜的處理，例如，低/高(low/high)濾波。
BL分支對F1序列執行沿x軸，即，行內的空間濾波SF1，從F1的低頻部分產生具有M×N像素的空間分辨率的視頻序列L，從F1的高頻部分產生空間分辨率增強信號H。在簡單示例中，可以使用低通濾波器LPR和高通濾波器HPR執行該濾波，例如，兩者都執行因子為2或其它因子的水平子采樣。將低分辨率序列L輸入空間時間濾波器STF和運動估計(ME)塊ME1。空間時間濾波器STF執行運動補償時間變換，例如，2D+t小波變換。例如，可以將其實現為長度為2的Haar變換濾波器，或長度為9和7或5和3的Daubechies濾波器。ME塊ME1產生運動矢量MV1，MV1用于以下三個目的第一，使用它們來優化空間時間濾波過程；第二，例如，將它們傳輸給接收器，來用于逆濾波過程；以及第三，將它們用在編碼器的EL分支中。
傳輸空間時間濾波器STF的輸出信號P，接收器可以將其與運動矢量MV1相組合，來再現例如M×N像素、αHz無交錯模式的視頻序列。采用所述實現，還可以設計空間時間濾波器，使該無交錯序列在x和y方向上，在時間分辨率和空間分辨率上是可伸縮的。濾波器可以根據目標幀的速率或格式包含多個濾波等級，從而可以達到M’×N’的空間分辨率和/或θαHz的時間分辨率，M’和N’在范圍
和
內變化，并且θ∈Q01，Q01是在范圍
內變化的有理數。該濾波可以傳遞不同的空間時間頻率，它們的擬合，例如，數據流內的組織，使得基層是可完全伸縮的。塊STF的輸出P是具有M’×N’的分辨率的無交錯序列，M’×N’分辨率是原始2M×2N格式的子分辨率，代表本發明系統所產生的最低空間和時間分辨率等級。
包含沿x軸的高頻場的空間分辨率增強信號H屬于增強層EL，先進的接收器可以將其用來重建具有x方向上的更高空間頻率的幀，直到原始分辨率。
EL分支對F2序列執行MCTF。EL分支還使用MV來在物體相對于另一幀圖像的一幀圖像中移動其位置時，最小化要傳輸的數據量，但如上所述，不同于BL，EL分支可以使用不同的MV集，即，通過比較相同或相反奇偶性的場來產生的MV。有利的是，因為很可能，例如，兩個連續偶場之間的運動與兩個對應的奇場之間的運動非常相似，反之亦然，所以可以使用BL分支的ME1塊中產生的MV1。運動還可能在四個場的序列內變換，從而可以有利地使用在第二運動估計塊ME2中，從交錯序列I產生的更好的運動矢量MV2。因此，在EL分支中集成決策塊CTL，來決定將哪一個MV集用于MCTF。決策塊CTL評估針對EL的不同的MV編碼選項，計算各個編碼代價，估計產生的失真，對這些值加權并相加，并在存儲元件MEM中存儲針對每一個所評估的選項的結果。當決策塊CTL已評估了所有允許的選項時，它選擇產生最低值的選項，并使得能夠輸出各個數據。因此，決策塊CTL可以通過控制總線CB來控制ME塊ME1、ME2，MCTF塊MCTF和空間時間濾波器塊STF的輸出。此外，它可以傳輸針對所選選項的標識符ID。
運動補償時間濾波塊MCTF可以產生已濾波的F2場FF2，即，具有比原始F2場的代價更低的代價的F2場。這些已濾波的場FF2具有與輸入F2場相同的空間和時間分辨率。因為減少了傳輸的數據量，所以通過使用所述的MV，實現了編碼代價的減小。為獲得場內和場間相關，可以越過場執行ME，而不管奇偶性。可以使用后向、前向或雙向等任何預測模式，以及多參考場算法。為減小MV編碼代價和估計復雜度，可以根據目標要求，‘先驗’或‘后驗’地使用來自基層的運動信息。
對于傳輸，通常將產生的流復用為一個比特流。所述編碼方法將原始交錯視頻序列分解為兩層，BL和EL，從而在編碼器側和解碼器側，允許產生的比特流來支持多種空間和時間分辨率等級。因為所述EL包含多個分辨率等級，所以還可以將其看作多個層。
因為EL數據不能用于BL，所以使用來自其它層的幀的選項對EL是可用的，而對BL是不可用的。
解碼器在接收之后，可以將信號轉換成不同時間分辨率等級，無交錯或交錯，和多種空間分辨率等級上的視頻序列。解碼器可以使用標識符ID來針對每一個EL幀或EL幀內的區域，選擇正確的預測源和MV。
BL包含無交錯模式中的輸入視頻源的可完全伸縮描述，其中可伸縮性指的是空間分辨率、時間分辨率和質量。當與BL組合時，EL允許低代價、可伸縮地重建原始交錯視頻材料，包括實現原始空間分辨率、時間分辨率和SNR質量。
普遍將視頻編碼中的失真理解為相比于源圖像，對已編碼圖像質量的測量。可以使用客觀標準估計失真，例如方差和、絕對差和等。在已經有效地計算了已編碼和已解碼的圖像之前，可以在中間圖像上估計失真。
本發明方法可以應用于采用不同質量層上的運動矢量的所有視頻編碼方案。
權利要求
1.一種使用運動補償預測編碼來編碼交錯視頻數據的方法，其中將視頻幀分離成基層幀和增強幀，所述方法包括步驟-對基層幀執行運動估計，其中，參考基層幀，產生第一運動矢量；-對增強層幀執行運動估計，其中，針對單個增強層幀，產生基于不同參考的不同的第二運動矢量集，所述不同參考是一個或多個基層幀、一個或多個增強層幀或其組合；-計算針對每一個不同的第二運動矢量集的編碼代價，編碼代價與編碼增強層幀所需的比特數相對應或相等；-估計針對每一個不同的第二運動矢量集的失真值，失真值基于增強層幀與根據當前第二運動矢量集和當前參考來預測的幀之間的差別；-選擇提供低編碼代價和低失真之間的最佳折中的參考和第二運動矢量集；以及-傳輸針對所選參考的標識符。
2.根據權利要求1所述的方法，還包括步驟針對每一個不同的第二運動矢量集的運動矢量(MV3)，選擇屬于第一運動矢量的參考運動矢量(V)，并計算伸縮因子和差矢量(UV)，其中伸縮因子和差矢量用于編碼代價的計算和后續步驟。
3.一種用于交錯視頻數據的編碼器，所述編碼器采用運動補償預測編碼，并包括-裝置(SP，SF1)，用于將視頻幀分離成基層幀和增強層幀；-裝置(ME1)，用于對基層幀執行運動估計、只參考基層幀和產生第一運動矢量(MV1)；-裝置(MCTF，ME2)，用于對增強層幀執行運動估計，其中，針對單個增強層幀，產生基于不同參考的不同的第二運動矢量集，不同參考是一個或多個基層幀、一個或多個增強層幀或其組合；-用于計算針對不同的第二運動矢量集的每一個的編碼代價的裝置(CTL)，編碼代價與編碼增強層幀所需的比特數相對應或相等；-裝置(CTL)，用于估計針對每一個不同的第二運動矢量集的失真值，失真值基于增強層幀與根據當前第二運動矢量集和當前參考來預測的幀之間的差別；-裝置(CTL，MEM)，用于存儲對應不同的運動估計類型所估計的編碼代價和失真值，其中，每一個所存儲的編碼代價值和失真值與對應的第二運動矢量集的標識符相關聯；-裝置(CTL)，用于比較針對不同的第二運動矢量集的編碼代價，選擇提供最小編碼代價的運動矢量，并確定關聯的運動估計；以及-裝置，用于與已編碼的視頻數據流一起傳輸標識符(ID)，標識符指示所使用的編碼類型。
4.根據權利要求3所述的編碼器，還包括裝置(CTL)，用于計算伸縮因子，以及每一個不同的第二運動矢量集與第一運動矢量之間的差矢量，其中差矢量用于編碼代價的計算和后續步驟。
5.根據前述權利要求之一所述的方法或編碼器，其中用第一運動矢量來初始化對增強層的運動估計。
6.根據前述權利要求之一所述的方法，其中對增強層的運動估計包括以下方法中的至少兩種后向預測，前向預測和雙向預測。
7.根據前述權利要求之一所述的方法，其中對增強層的一幀的運動估計參考單個幀或多個幀。
8.一種用于產生交錯視頻數據的解碼器，包括-裝置，用于接收標識符，標識符與運動矢量或運動場相關聯，并指示針對預測幀的區域或整個預測幀的參考幀；-裝置，用于根據所述標識符和所述運動矢量，來解碼預測幀或預測幀內的區域。
全文摘要
可以在兩個層，基層和增強層中對交錯視頻進行編碼。提出了一種用于優化針對增強層的運動矢量編碼的方法。該方法包括確定多種不同的方式來編碼運動矢量，估計針對每一種方式的編碼代價，并選擇具有最低編碼代價的方式。可以組合多種編碼增強層運動矢量的方式。重新使用來自基層的運動矢量，產生伸縮因子和更新矢量；或者計算新的運動矢量。可以使用前向、后向或雙向預測。可以將一幀或多幀作為參考。參考幀可以來自增強層、基層或兩個層。編碼全部運動矢量，或者只編碼運動矢量與對應的BL運動矢量之差。
文檔編號G06T9/00GK1926577SQ200580006796
公開日2007年3月7日申請日期2005年2月28日優先權日2004年3月12日
發明者格溫艾利·馬康, 熱羅姆·維耶龍, 紀堯姆·布瓦松申請人:湯姆森許可貿易公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：格溫艾利·馬康、熱羅姆·維耶龍、紀堯姆·布瓦松
技術所有人：湯姆森許可貿易公司
我是此專利的發明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！