專利名稱:面向交互式應用的多視點視頻編碼方法
技術領域:
本發明涉及到多視點視頻信號的編碼壓縮方法,尤其是涉及基于運動信息跳過編 碼的面向交互式應用的視頻信號壓縮方法。
背景技術:
多視點視頻是當前多媒體領域的研究熱點。作為FTV (自由視點電視)、3DTV (三維 電視)等三維音視頻應用中的核心技術,多視點視頻技術旨在解決3D交互式視頻的壓縮、 交互、存儲和傳輸等問題。多視點視頻信號是由相機陣列對實際場景進行拍攝得到的一組 視頻信號,它能提供拍攝場景不同角度的視頻圖像信息,利用其中的一個或多個視頻信息 可以合成任意視點的信息,使用戶在觀看時可以任意改變視點或者視角,以實現對同一場 景進行的多方位體驗。因此,多視點視頻將廣泛應用于面向帶寬與高密度存儲介質的交互 式多媒體應用領域,如數字娛樂、遠程監控、遠程教育等。多視點視頻系統可以進行多視點視頻信號的采集、編碼壓縮、傳輸、接收、解碼、顯 示等,而其中多視點視頻信號的編碼壓縮是整個系統的核心部分。一方面,多視點視頻信號 存在著數據量巨大,不利于網絡傳輸和存儲,如何高效地壓縮多視點視頻數據是其應用面 臨的一個重要挑戰。另一方面,多視點視頻是一種具有立體感和交互操作功能的視頻序列, 在保證視頻高壓縮率同時,也要關注其交互式性能,使系統具有靈活的隨機訪問、部分解碼 和繪制等性能。利用多視點視頻信號的時間相關性、視點間相關性,采用運動補償預測、視差補償 預測是進行多視點視頻信號編碼壓縮的基本思路。目前大量的研究集中于尋找一種能最大 限度地去除多視點視頻序列時間上和視點間冗余的編碼方案,如圖2所示的基于空間_時 間分層B幀的多視點視頻編碼方案。但是對于大多數多視點視頻序列而言,雖然存在時間 相關性和視點間相關性,但時間相關性卻占了主導地位,所以對于基于空間_時間的分層B 幀預測結構,在關鍵幀圖像利用視點間預測關系的情況下,再對非關鍵幀進行視點間預測 對壓縮效率改善不明顯,并且反過來會大大增加編碼復雜度以及在解碼端由于視點間的密 切耦合會大大降低了視點的隨機訪問性能。另外,多視點視頻序列除了具有相似的視頻內容外,還具有相似的運動特性,即其 運動信息同樣具有高度的空間相關性,特別對運動劇烈的區域,其運動信息的空間相關性 要大于時間相關性。運動信息跳過模式利用了這個原理,即通過全局視差矢量找到相鄰視 點中當前宏塊的對應宏塊,并導出對應宏塊的運動信息作為當前宏塊的運動信息。運動信 息跳過模式對傳統的運動補償預測進行優化。當運動信息跳過模式為當前編碼宏塊的最佳 編碼模式時,只需要用一個模式標志位表明,而不需要對殘差進行編碼,從而能減少需要傳 輸的比特數,提高壓縮效率。然而通過全局視差有時不能得到當前編碼宏塊的最佳運動匹 Kfn 息。針對以上問題,本發明采用一種面向交互式應用的多視點視頻編碼方法,在保證 高壓縮效率的條件下獲得了低復雜度利低時延隨機訪問性能。
發明內容
技術問題本發明所要解決的技術是提供一種面向交互式應用的多視點視頻編碼方法,在保證高壓縮率的同時,改善多視點視頻的交互式性能。技術方案本發明面向交互式應用的多視點視頻編碼方法,包括以下步驟步驟1 多視點視頻序列分為基本視點和增強視點,每個視點序列都分為關鍵幀 和非關鍵幀,選擇中間視點為基本視點,并確定各視頻序列關鍵幀的視點間參考關系,步驟2 基本視點不參考其它視點,關鍵幀采用幀內預測編碼方法;非關鍵幀選擇 本視點內的時間方向幀為參考幀,進行運動補償預測編碼,步驟3 增強視點的關鍵幀參考其它視點的關鍵幀,采用幀內預測編碼方法或視 差補償預測法進行編碼,同時計算出與參考視點的關鍵幀之間的全局視差,步驟4:對增強視點的非關鍵幀,利用前后相鄰兩個關鍵幀圖像的全局視差進行 插值計算得到每個非關鍵幀圖像與參考視點同一時刻非關鍵幀之間的全局視差,步驟5 增強視點的非關鍵幀不進行視差補償預測,只進行運動補償預測,在傳統 的H. 264的宏塊編碼模式的基礎上,根據運動信息的視點間高度相關性原理,采用自適應 運動矢量精細化的運動信息跳過編碼對圖像進行編碼,步驟6 增強視點非關鍵幀編碼后設置每個宏塊的運動信息跳過模式標志位,并 寫入碼流發送到解碼端。步驟7 在解碼端進行圖像重建,首先根據判斷當前幀圖像類型,對參考視點進行 部分解碼,然后再解碼當前幀圖像。對多視點視頻序列分為基本視點和增強視點,基本視點不參考其它視點,增強視 點可參考其它視點,包括基本視點或其它增強視點。所述步驟4中對增強視點的非關鍵幀,利用前后相鄰兩個關鍵幀圖像的全局視差 進行插值計算得到每個非關鍵幀圖像與參考視點同一時刻非關鍵幀之間的全局視差前后 相鄰兩個關鍵幀圖像,即為當前圖像組的第一幀以及下一個圖像組的第一幀,全局視差的 插值計算是以當前非關鍵幀在圖像組中的序列號為依據的。所述步驟5中增強視點的非關鍵幀根據運動信息的視點間高度相關性原理,采用 自適應運動矢量精細化的運動信息跳過模式對圖像進行編碼首先通過全局視差找到當前 編碼宏塊在參考視點中的對應宏塊,并導出對應宏塊的運動信息,包括宏塊分割模式、運動 矢量等,作為當前宏塊的候選編碼模式和運動矢量;然后對當前宏塊和對應宏塊進行圖像 區域判斷,決定是否擴大搜索范圍,即是否要把參考視點中對應宏塊的8個相鄰宏塊的編 碼模式和運動矢量,作為當前宏塊的候選編碼模式和運動矢量;最后利用所有候選編碼模 式和運動矢量,在本視點內進行運動補償預測。自適應運動矢量精細化的運動信息跳過模式對當前宏塊和對應宏塊進行圖像區 域判斷,決定是否擴大搜索范圍如果當前宏塊通過傳統運動補償預測后得到的最佳編碼 模式以及參考視點的對應宏塊的編碼模式都屬于背景靜態模式,則不擴大搜索范圍,即將 對應宏塊的運動信息作為當前編碼宏塊的運動信息;否則則擴大搜索范圍。在解碼端進行圖像重建,首先根據判斷幀圖像類型,對參考視點進行部分解碼,然 后再解碼當前圖像要解碼關鍵幀圖像,要先對其參考視點的關鍵幀進行完全解碼;要解碼非關鍵幀圖像,只需先對其參考視點的對應幀進行解析得到參考幀的運動信息,不需要 對參考視點的對應幀進行完全解碼。有益效果本發明針對多視點視頻的交互式應用,提出了一種面對交互式應用的 多視點視頻編碼方法,修改了幀圖像視點間的預測關系,并采用一種自適應運動矢量精細 化的運動信息跳過模式,優化非關鍵幀圖像的運動補償預測的性能。與現有技術相比,本發明的優點在于在保證高壓縮效率的前提下,優化多視點視 頻隨機訪問性能,支持快速的視點切換,從而提高多視點視頻的交互式性能。
圖1為多視點視頻系統示意圖;圖2為空間_時間分層B幀多視點視頻預測結構示意圖;圖3為本發明的面向交互視應用的多視點視頻預測結構示意圖;圖4為運動信息跳過模式預測編碼示意圖;圖5為H. 264/AVC標準中可變宏塊分割圖;圖6為運動信息跳過模式的自適應運動矢量精細化算法的流程圖;圖7為自適應運動矢量精細化算法示意圖;圖8為增強視點的解碼流程圖;圖9為測試用例Ballroom在不同多視點視頻編碼方法下的率失真曲線;圖10為測試用例Racel在不同多視點視頻編碼方法下的率失真曲線。方法一為基于空間_時間分層B幀的多視點視頻編碼方案,方法二為圖3中對非關鍵幀不進行視點間預測的多視點視頻編碼方案。方法三為圖3中對非關鍵幀應用原始運動信息跳過模式。方法四為圖3中對非關鍵幀應用基于自適應運動矢量精細化的運動信息跳過模 式。
具體實施例方式以下結合附圖實施例對本發明作進一步詳細描述,這里以8X8多視點圖像組結 構為例(如圖3所示,每個圖像組共有8個視點、8個時刻,共64幀)。參照圖1,多視點視頻編碼中,由具有N個攝像機的多視點采集系統從不同角度拍 攝同一場景得到的一組視頻,即N路原始視點;N路原始視點視頻經過多視點視頻編解碼系 統后得到N路恢復視點。多視點視頻編解碼系統中,發送端通過多視點視頻編碼器,在保 證信息質量和傳輸安全的情況下,編碼壓縮數據,傳輸到接收端后,由多視點視頻解碼器解 碼。參照圖3,給出了本發明的一種面向交互式應用的圖像組G0P長度為8的多視點視 頻預測結構示意圖。首先選擇中間視點為基本視點;其次,確定關鍵幀圖像視點間的參考關 系為P-P-B-I-B-P-B-P,則此多視點視頻序列的編碼順序為S4-S2-S3-S1-S6-S5-S8-S7 ;而 對非關鍵幀只進行運動補償預測法,在本視點內的參考關系采用分層B幀預測結構單視點 內的預測關系,在視點間根據對應的關鍵幀圖像的視點間參考關系,利用視點間參考圖像 的運動信息依賴性原理,運用運動信息跳過模式編碼視點圖像(如圖3中虛線所示),模式
6標志位為m0ti0n_Skip_flag。編碼后獲得的當前圖像的運動信息都存儲在運動信息緩存區 中作為后續圖像編碼的信息參考。 參照圖4,給出了運動信息跳過模式的預測編碼示意圖。運動信息跳過模式主要分 成兩個步驟 (1)通過⑶V找到相鄰視點的對應宏塊。(2)從這個對應宏塊中拷貝其運動信息為當前宏塊的運動信息,包括宏塊分割模 式、運動矢量以及圖像參考索引號。非關鍵幀處的全局視差則是對前后相鄰的兩個關鍵幀的全局視差加權平均得到 的,如式(1)所示。 其中,⑶Vatead和⑶Vbdlind為當前非關鍵幀前后相鄰兩個關鍵幀的全局視差矢量, POCcur, POCahead和POCbdlind分別表示當前非關鍵幀、前關鍵幀和后關鍵幀在時間軸上的圖像 序列號。圖5為H. 264/AVC標準中可變宏塊分割技術。一般來說,大尺寸的宏塊編碼模式 通常用于背景靜態區域,如P_Skip、B_skip、Direct、Inter 16X16編碼模式。而小尺寸的 宏塊編碼模式通常用于前景運動區域,如Inter 16X8、Inter 8X16、Inter 8X8等編碼 模式。則我們Direct以及Inter 16 X 16編碼模式為背景靜態模式,其 他編碼模式則為前景運動模式。圖6為運動信息跳過模式的自適應運動矢量精細化算法的流程圖,該算法的主要 步驟為1)對非關鍵幀圖像進行傳統的運動補償預測,其中當前宏塊的運動矢量預測值 MVp為其相鄰宏塊的運動矢量的中值,通過率失真最優化技術得到最佳的編碼宏塊模式 MODEcur opt 和運動矢量 MV。m—。pt。通過全局視差得到的參考視點的對應宏塊,提取該對應宏塊的運動信息,即宏塊 編碼模式MODEm以及運動矢量MV。。。從參考視點中得到當前宏塊的候選編碼模式和運動矢 量。若MODEcm。pt和MODE。。相同且都屬于背景靜態模式,則可判斷通過全局視差所導出的運 動信息是準確的,則對應宏塊導出的編碼模式MODE。。和MVm直接作為當前宏塊的候選編碼 模式和運動矢量;否則認為通過全局視差所得到的運動信息是不精確的,此時則擴大搜索 窗口,提取對應宏塊的MODE。。和MV。。,同時將該對應宏塊的8個相鄰宏塊的編碼模式和MV 提取出來,作為當前宏塊的候選編碼模式和運動矢量。對于一些編碼模式,每個宏塊被分割 成多個子塊,則每個子塊擁有各自的運動矢量,假如所得到的對應宏塊的宏塊分割模式為 16X8模式,則當前宏塊也被分割成兩個16 X 8,并分別提取各自對應的運動矢量,其他模 式也是依此類推。2)對得到的每個候選編碼模式以及其對應的運動矢量,分別在時間參考幀中進行 運動估計找到一個匹配塊,最后根據率失真最優化技術確定運動信息跳過模式的最佳編碼 模式 M0DEms—。pt 和 MVms—。pt。 通過以上方法得到運動信息跳過模式的最佳編碼模式MODEms。pt和MVms。pt后,再根據率失真最優化技術,與傳統的運動補償預測所得的MODEcot。pt和MVcot。pt進行比較得到當前宏塊所用的最終的最優編碼模式和運動矢量。圖7為自適應運動矢量精細化算法示意圖。Is,τ中為視點S在T時刻的非關鍵幀, IS,T在其參考視點Sm中同一時刻的參考幀。Is, τ中當前編碼宏塊(Xi,yi),通過
全局視差矢量⑶V(xG,yG)找到Isref, τ中的對應宏塊(Xi+XG,yi+yG)后,經過自適應運動矢量 精細化算法得到當前編碼宏塊的最佳運動信息匹配宏塊為宏塊(Xi+Xe+AXi,yi+yG+Ayi), 則視差偏移量為ADi(Axi,Δ yi),若當前編碼宏塊的最佳運動信息匹配塊為其對應宏塊 (Χ +Χ(;,Υ +Υ(;),則視差偏移量ADi設為0。把每個宏塊的視差偏移量傳輸到解碼端,用于圖 像的重建。圖8為增強視點的解碼流程圖。解碼當前圖像,首先要判斷幀圖像類型,當當前 幀為關鍵幀時,要對其參考幀進行解碼;當當前幀為非關鍵幀時,不需要對其參考幀進行解 碼,只需要對其進行解析,通過全局視差矢量GDV以及視差偏移量AD找到對應宏塊,并從 存放運動信息緩存區中得到對應宏塊的運動信息。解碼后得到的當前圖像的運動信息存儲 在運動信息緩存區中作為后續圖像解碼的信息參考。以下就本實施例進行多視點視頻編碼的性能進行說明1)面向交互式應用的多視點視頻編碼方法的率失真性能圖9和圖10分別為測試用例Ballroom和Racel在不同多視點視頻編碼方法下的 率失真曲線,其橫坐標和縱坐標分別表示8個視頻序列的平均比特率和平均信噪比。其中 JMVM為基于空間-時間分層B幀的多視點編碼方案(如圖2所示),JMVM_AP為圖3中只 對關鍵幀進行視點間預測的編碼方案,JMVM_MS為圖3中對非關鍵幀應用原始的運動信息 跳過模式,JMVM_AFMS則是應用了采用自適應運動矢量精細化的運動信息跳過模式。JMVM_ AP中所有視點都不對非關鍵幀圖像進行視點間預測,JMVM中只有對B視點中的非關鍵幀圖 像進行視點間預測,而JMVM_MS和JMVM_AFMA中的運動信息跳過模式應用于所有增強視點 的非關鍵幀圖像。由圖9可知,由于Ballroom視頻序列運動較平緩、時域相關性大,視點間的參考關 系對非關鍵幀圖像的編碼性能影響不大,所以這4種編碼方案的壓縮性能相差不大。而對 于Racel視頻序列,由于鏡頭移動、運動劇烈且存在時間全局運動,導致時間預測的有效性 差。因此,視點間的參考關系以及它的準確性對壓縮性能是至關重要的。從圖10可知,不 采用非關鍵幀視點間參考關系的JMVM_AP的壓縮性能最差,而本發明所提的JMVM_AFMS能 得到當前編碼宏塊更為匹配的運動矢量,與JMVM_MS相比編碼性能改善明顯,在相同的比 特率條件下其平均PSNR最大增加了 0. 2dB,與JMVM相比最大增加了 0. 35dB。因此,本發明 所提算法對于Ballroom等運動緩慢的視頻序列,其壓縮性能接近基于空間_時間分層B幀 的多視點編碼方案,而對于racel等運動劇烈的視頻序列其壓縮性能優于基于空間-時間 分層B幀的多視點視頻編碼方案。2)面向交互式應用的多視點視頻編碼方法的隨機訪問性能為了評價多視點視頻的隨機訪問性能,我們使用Fav和Fmax來分別表示隨機訪問一 幀所需要解碼的平均和最大幀數。假設現要訪問(i,j)處的幀,其隨機訪問代價Fav和Fmax 可分別用式(2)和式(3)定義。 其中,η為一個GOP包含的幀數,m為總的視點數。Xi,」表示訪問該幀之前所必須 要解碼的幀數,Pu為用戶選擇觀看該幀的概率,通常Pu = l/(nXm)。由于運動信息跳過模式不影響隨機訪問性能,所以本發明所提的編碼方案JMVM_ AFMS與JMVM_AP具有相同的隨機訪問性能。表1給出了本發明所提編碼方案和基于空 間_時間分層B幀的多視點編碼方案在隨機訪問性能方面的比較。從表1可知本發明所提 的編碼方法的隨機訪問性能明顯優于JMVM,平均提高了 36. 6% /44. 4%。表1隨機訪問性能比較 綜上所述,與現有技術相比,本發明的優點在于在保證高壓縮效率的前提下,優化 多視點視頻隨機訪問性能,支持快速的視點切換,從而提高多視點視頻的交互式性能。
權利要求
一種面向交互式應用的多視點視頻編碼方法,其特征在于該方法包括以下步驟步驟1多視點視頻序列分為基本視點和增強視點,每個視點序列都分為關鍵幀和非關鍵幀,選擇中間視點為基本視點,并確定各視頻序列關鍵幀的視點間參考關系,步驟2基本視點不參考其它視點,關鍵幀采用幀內預測編碼方法;非關鍵幀選擇本視點內的時間方向幀為參考幀,進行運動補償預測編碼,步驟3增強視點的關鍵幀參考其它視點的關鍵幀,采用幀內預測編碼方法或視差補償預測法進行編碼,同時計算出與參考視點的關鍵幀之間的全局視差,步驟4對增強視點的非關鍵幀,利用前后相鄰兩個關鍵幀圖像的全局視差進行插值計算得到每個非關鍵幀圖像與參考視點同一時刻非關鍵幀之間的全局視差,步驟5增強視點的非關鍵幀不進行視差補償預測,只進行運動補償預測,在傳統的H.264的宏塊編碼模式的基礎上,根據運動信息的視點間高度依賴性原理,采用自適應運動矢量精細化的運動信息跳過模式對圖像進行編碼,步驟6增強視點非關鍵幀編碼后設置每個宏塊的運動信息跳過模式標志位,并寫入碼流發送到解碼端,步驟7在解碼端進行圖像重建,首先根據判斷當前幀圖像類型,對參考視點進行部分解碼,然后再解碼當前幀圖像。
2.如權利要求1所述的一種面向交互式應用的多視點視頻編碼方法,其特征在于對多 視點視頻序列分為基本視點和增強視點,基本視點不參考其它視點,增強視點可參考其它 視點,包括基本視點或其它增強視點。
3.如權利要求1所述的一種面向交互式應用的多視點視頻編碼方法,其特征在于,所 述步驟4中對增強視點的非關鍵幀,利用前后相鄰兩個關鍵幀圖像的全局視差進行插值計 算得到每個非關鍵幀圖像與參考視點同一時刻非關鍵幀之間的全局視差前后相鄰兩個關 鍵幀圖像,即為當前圖像組的第一幀以及下一個圖像組的第一幀,全局視差的插值計算是 以當前非關鍵幀在圖像組中的序列號為依據的。
4.如權利要求1所述的一種面向交互式應用的多視點視頻編碼方法,其特征在于,所 述步驟5中增強視點的非關鍵幀根據運動信息的視點間高度依賴性原理,采用自適應運動 矢量精細化的運動信息跳過模式對圖像進行編碼首先通過全局視差找到當前編碼宏塊在 參考視點中的對應宏塊,并導出對應宏塊的運動信息,包括宏塊分割模式、運動矢量,作為 當前宏塊的候選編碼模式和運動矢量;然后對當前宏塊和對應宏塊進行圖像區域判斷,決 定是否擴大搜索范圍,即是否要把參考視點中對應宏塊的8個相鄰宏塊的編碼模式和運動 矢量,作為當前宏塊的候選編碼模式和運動矢量;最后利用所有候選編碼模式和運動矢量, 在本視點內進行運動補償預測。
5.如權利要求4所述的面向交互式應用的多視點視頻編碼方法,其特征在于自適應運 動矢量精細化的運動信息跳過模式對當前宏塊和對應宏塊進行圖像區域判斷,決定是否擴 大搜索范圍如果當前宏塊通過傳統運動補償預測后得到的最佳編碼模式以及參考視點的 對應宏塊的編碼模式都屬于背景靜態模式,則不擴大搜索范圍,即將對應宏塊的運動信息 作為當前編碼宏塊的運動信息;否則則擴大搜索范圍。
6.如權利要求1所述的一種面向交互式應用的多視點視頻編碼方法,其特征在于在解 碼端進行圖像重建的方法是,首先根據判斷幀圖像類型,對參考視點進行部分解碼,然后再解碼當前圖像要解碼關鍵幀圖像,要先對其參考視點的關鍵幀進行完全解碼;要解碼非 關鍵幀圖像,只需先對其參考視點的對應幀進行解析得到運動信息,不需要 對參考視點的 對應幀進行完全解碼。
全文摘要
本發明涉及多視點視頻編碼技術領域,公開了一種面向交互式應用的多視點視頻編碼方法。為提高多視點視頻的交互式性能,本發明首先修改了關鍵幀圖像視點間的預測關系,并將視差補償預測只應用于關鍵幀圖像,而對非關鍵幀圖像只進行運動補償預測。其次,多視點視頻除了視頻內容具有高度相關性外,視點間參考圖像的運動信息同樣具有高度依賴性。根據這個原理,本發明又提出一種運動信息跳過模式的自適應運動矢量精細化算法,用于優化非關鍵幀圖像的運動補償預測的性能。本發明在保證高壓縮效率的前提下,優化多視點視頻隨機訪問性能,支持快速的視點切換,從而提高多視點視頻的交互式性能。
文檔編號H04N7/26GK101867813SQ20101015591
公開日2010年10月20日 申請日期2010年4月23日 優先權日2010年4月23日
發明者劉峰, 鄭海棠 申請人:南京郵電大學