用于視頻信息的可縮放譯碼的裝置和方法
【技術領域】
[0001 ]本發明設及視頻譯碼及壓縮領域,確切地說,設及可縮放視頻譯碼(SVC)、多視圖 視頻譯碼(MVC)或3D視頻譯碼(3DV)。
【背景技術】
[0002] 數字視頻能力可并入到多種多樣的裝置中,包括數字電視、數字直播系統、無線廣 播系統、個人數字助理(PDA)、膝上型或桌上型計算機、數碼相機、數字記錄裝置、數字媒體 播放器、視頻游戲裝置、視頻游戲控制臺、蜂窩式或衛星無線電電話、視頻電話會議裝置和 類似者。數字視頻裝置實施視頻壓縮技術,例如,在由MPEG-2、MPEG-4、ITU-T H. 263、ITU-T H.264/MPEG-4第10部分高級視頻譯碼(AVC)定義的標準、目前正在開發的高效率視頻譯碼 化EVC)標準及此類標準的擴展中所描述的視頻壓縮技術。視頻裝置可通過實施此些視頻譯 碼技術而更有效地發射、接收、編碼、解碼和/或存儲數字視頻信息。
[0003] 視頻壓縮技術執行空間(圖片內)預測及/或時間(圖片間)預測來減少或去除視頻 序列中固有的冗余。對于基于塊的視頻譯碼,視頻切片(例如,視頻帖、視頻帖的一部分等) 可分割成視頻塊,視頻塊也可被稱作樹塊、譯碼單元(CU)及/或譯碼節點。使用關于同一圖 片中的相鄰塊中的參考樣本的空間預測編碼圖片的經帖內譯碼(I)切片中的視頻塊。圖片 的經帖間編碼(P或B)切片中的視頻塊可使用相對于同一圖片中的相鄰塊中的參考樣本的 空間預測或相對于其它參考圖片中的參考樣本的時間預測。圖片可被稱作帖,且參考圖片 可被稱作參考帖。
[0004] 空間或時間預測導致待譯碼塊的預測性塊。殘余數據表示待譯碼原始塊與預測性 塊的間的像素差。經帖間譯碼塊是根據指向形成預測塊的參考樣本塊的運動向量和指示經 譯碼塊與預測塊之間的差的殘余數據編碼的。根據帖內譯碼模式和殘余數據來編碼經帖內 譯碼塊。為了進一步壓縮,可將殘余數據從像素域變換到變換域,從而產生殘余變換系數, 可接著量化所述殘余變換系數。可掃描最初布置成二維陣列的經量化變換系數,W便產生 變換系數的一維向量,且可應用賭編碼W實現更多壓縮。
【發明內容】
[0005] 可縮放視頻譯碼(SVC)是指其中使用基礎層(BL)(有時被稱作參考層(RU)及一或 多個可縮放增強層化L)的視頻譯碼。在SVC中,基礎層可攜載具有基礎質量水平的視頻數 據。所述一或多個增強層可攜載額外的視頻數據W支持(舉例來說)較高的空間、時間及/或 信噪比(SNR)水平。可相對于先前編碼的層來定義增強層。舉例來說,底層可充當化,而頂層 可充當化。中間層可充當化或化,或兩者。舉例來說,中間層(例如,既不是最低層也不是最 高層的層)可為中間層下方的層的化,例如基礎層或任何介入的增強層,且同時充當中間層 上方的一或多個增強層的化。類似地,在皿VC標準的多視圖或3D擴展中,可存在多個視圖, 且可利用一個視圖的信息對另一視圖的信息(例如,運動估計、運動向量預測和/或其它冗 余)進行譯碼(例如,編碼或解碼)。
[0006] 在SVC中,圖片次序計數(POC)可用W指示圖片將輸出或顯示的次序。此外,在一些 實施方案中,每當位流中出現某些類型的圖片時,POC的值可復位(例如,設定成零,設定成 位流中用信號表示的某個值,或從包含在位流中的信息導出)。舉例來說,當位流中出現某 些隨機存取點圖片時,POC可復位。當特定圖片的POC復位時,按解碼次序在特定圖片之前的 任何圖片的POC也可W復位W例如維持那些圖片將輸出或顯示的相對次序。
[0007] 此POC復位可當不需要跨越不同層對準IRAP圖片時產生不合需要的結果。舉例來 說,當一個圖片("picA")是IRAP圖片且同一存取單元中的另一圖片("picB")不是IRAP圖片 時,同一層中在picA之前的圖片("picC")的POC值可不同于同一層中在picB之前且與picC 在同一存取單元中的圖片TpicD")的POC值,因為PicC的POC值由于PicA是IRAP圖片而復 位,而PicD的POC值未復位。運致使在同一存取單元中且因此應具有相同POC值的PicC和 Pi CD具有不同POC值。
[0008] 因此,需要用于當隨機存取圖片未跨越多個層對準時導出POC值的改進的譯碼方 法。
[0009] 本發明的系統、方法和裝置各自具有若干創新方面,其中沒有單個方面單獨負責 本文所掲示的合乎需要的屬性。
[0010] 在一個方面中,一種經配置W對視頻信息進行譯碼(例如,編碼或解碼)的設備包 含存儲器單元及與所述存儲器單元通信的處理器。所述存儲器單元經配置W存儲與具有第 一圖片的第一視頻層相關聯的視頻信息。所述處理器經配置W處理與所述第一圖片相關聯 的圖片次序計數(POC)導出信息,且基于與所述第一圖片相關聯的所述POC導出信息確定所 述第一視頻層中按解碼次序在所述第一圖片之前的至少一個其它圖片的POC值。
[0011] 在另一方面中,一種對視頻信息進行譯碼的方法包括處理與第一視頻層中的第一 圖片相關聯的圖片次序計數(POC)導出信息,且基于與所述第一圖片相關聯的所述POC導出 信息確定所述第一視頻層中按解碼次序在所述第一圖片之前的至少一個其它圖片的POC 值。
[0012] 在另一方面中,一種非暫時性計算機可讀媒體包括當執行時致使設備執行過程的 代碼。所述過程包含:存儲與具有第一圖片的第一視頻層相關聯的視頻信息;處理與所述第 一圖片相關聯的圖片次序計數(POC)導出信息;W及基于與所述第一圖片相關聯的所述POC 導出信息確定所述第一視頻層中按解碼次序在所述第一圖片之前的至少一個其它圖片的 roc值。
[0013] 在另一方面中,一種經配置W對視頻信息進行譯碼的視頻譯碼裝置包括:用于存 儲與具有第一圖片的第一視頻層相關聯的視頻信息的裝置;用于處理與所述第一圖片相關 聯的圖片次序計數(POC)導出信息的裝置;W及用于基于與所述第一圖片相關聯的所述POC 導出信息確定所述第一視頻層中按解碼次序在所述第一圖片之前的至少一個其它圖片的 POC值的裝置。
【附圖說明】
[0014] 圖IA是說明可利用根據本發明中描述的方面的技術的實例視頻編碼和解碼系統 的框圖。
[0015] 圖IB是說明可執行根據本發明中描述的方面的技術的另一實例視頻編碼和解碼 系統的框圖。
[0016] 圖2A是說明可實施根據本發明中描述的方面的技術的視頻編碼器的實例的框圖。
[0017] 圖2B是說明可實施根據本發明中描述的方面的技術的視頻編碼器的實例的框圖。
[0018] 圖3A是說明可實施本發明中描述的方面的技術的視頻解碼器的實例的框圖。
[0019] 圖3B是說明可實施根據本發明中描述的方面的技術的視頻解碼器的實例的框圖。
[0020] 圖4是說明根據本發明的一個實施例的不同層中的圖片的實例配置的框圖。
[0021] 圖5是說明根據本發明的一個實施例的不同層中的圖片的POC值的表。
[0022] 圖6是說明根據本發明的一個實施例的不同層中的圖片的實例配置的框圖。
[0023] 圖7是說明根據本發明的一個實施例的不同層中的圖片的POC值的表。
[0024] 圖8是說明根據本發明的一個實施例的譯碼視頻信息的方法的流程圖。
[0025] 圖9是說明根據本發明的一個實施例的譯碼視頻信息的方法的流程圖。
[0026] 圖10是說明根據本發明的一個實施例的譯碼視頻信息的方法的流程圖。
[0027] 圖11是說明根據本發明的一個實施例的譯碼視頻信息的方法的流程圖。
[0028] 圖12是說明根據本發明的一個實施例的譯碼視頻信息的方法的流程圖。
【具體實施方式】
[0029] 本文中描述的某些實施例設及在高級視頻編解碼器的情況下的針對例如肥VC(高 效率視頻譯碼)等可縮放視頻譯碼的層間預測。更確切地說,本發明設及用于改善皿VC的可 縮放視頻譯碼(SVC)擴展中的層間預測的性能的系統及方法。
[0030] 在W下描述中,描述與某些實施例有關的H.264/AVC技術;還論述肥VC標準和相關 技術。雖然本文中在肥VC和/或H. 264標準的上下文中描述某些實施例,但所屬領域的技術 人員可了解,本文中掲示的系統和方法可適用于任何合適的視頻譯碼標準。舉例來說,本文 中所掲示的實施例可適用于W下標準中的一或多者:ITU-T H.261、IS0/IEC MPEG-I視覺、 mj-T H.262或IS0/IEC MPEG-2視覺、ITU-T H.263、IS0/IEC MPEG-4視覺和mJ-T H.264 (也稱作IS0/IEC MPEG-4AVC),包含其可縮放視頻譯碼(SVC)和多視圖視頻譯碼(MVC)擴展。
[0031] 在許多方面,皿VC通常遵循先前視頻譯碼標準的框架。皿VC中的預測單元不同于 在某些先前視頻譯碼標準中的預測單元(例如,宏塊)。事實上,在皿VC中不存在如在某些先 前視頻譯碼標準中所理解的宏塊的概念。宏塊由基于四叉樹方案的階層式結構替換,階層 式結構可提供高靈活性W及其它可能益處。舉例來說,在皿VC方案內,定義S個類型的塊, 例如譯碼單元(CU)、預測單元(PU)和變換單元(TU)XU可指區分裂的基本單元。可認為CU類 似于宏塊的概念,但HEVC不約束CU的最大大小,且可允許遞歸分裂成四個相等大小的CUW 改善內容適應性。PU可認為是帖間/帖內預測的基本單元,且單個PU可含有多個任意形狀分 區W有效地譯碼不規則圖像圖案。TU可認為是變換的基本單元。可獨立于PU界定TU;然而, TU的大小可受限于所述TU屬于的CU的大小。此塊結構分離為S個不同概念可允許根據單元 的相應作用來優化每一單元,運可得到改善的譯碼效率。
[0032] 僅出于說明的目的,用僅包含兩個層(例如,比如基礎層等較低層,和比如增強層 等較高層)的實例來描述本文中掲示的某些實施例。應理解,運些實例可適用于包含多個基 礎層及/或增強層的配置。此外,為了易于解釋,參照某些實施例,W下掲示內容包含術語 "帖"或"塊"。然而,運些術語不打算具有限制性。例如,下文描述的技術可供任何合適的視 頻單元(例如,塊(例如,〇]、?1]、1'1]、宏塊等)、切片、帖等)使用。
[00扣]視頻譯碼標準
[0034] 例如視頻圖像、TV圖像、靜態圖像或由錄像機或計算機產生的圖像等數字圖像可 由布置成水平和垂直線的像素或樣本構成。單個圖像中的像素的數目通常有數萬個。每一 像素通常含有明度及色度信息。在無壓縮的情況下,將從圖像編碼器傳達到圖像解碼器的 信息的絕對量將使實時圖象傳輸不可能。為了減少待發射的信息的量,已開發出例如肝EG、 MPEG及H. 263標準等數個不同壓縮方法。
[0035] 視頻譯碼標準包含ITU-T H. 261、IS0/IEC MPEG-I視覺、ITU-T H. 262或IS0/IEC MPEG-2視覺、ITU-T H.263JS0/IEC MPEG-4視覺和ITU-T H.264(也被稱為IS0/IEC MPEG-4AVC),包含其可縮放視頻譯碼(SVC)和多視圖視頻譯碼(MVC)擴展。
[0036] 此外,存在一種新的視頻譯碼標準,即高效視頻譯碼化EVC),其正由口 U-T視頻譯 碼專家組(VCEG)和IS0/IEC運動圖片專家組(MPEG)的視頻譯碼聯合合作小組(JCT-VC)進行 開發。對肥VC草案10的完全引用為布羅斯(Bross)等人的文件JCTVC-L1003/'高效率視頻譯 碼化EVC)文本說明書草案ICKHigh Efficiency Video Coding(肥VC)Text Specification Draft l〇r,mJ-T SG16WP3與ISO/IEC JTC1/SC29/WG11的關于視頻譯碼的聯合合作小組 (JCT-VC),第12次會議:瑞±日內瓦,2013年1月14日到2013年1月23日。對皿VC的多視圖擴 展(即,MV-HEVC)及對肥VC的可擴展擴展(名為甜VC)也正分別由JCT-3V( 3D視頻譯碼擴展開 發口 U-T/IS0/IEC聯合合作小組)及JCT-VC開發。
[0037] 下文參考附圖更充分地描述新穎系統、設備及方法的各個方面。然而,本發明可W 許多不同形式來體現,且不應將其解釋為限于貫穿本發明所呈現的任何特定結構或功能。 相反,提供運些方面W使得本發明將為透徹且完整的,并且將向所屬領域的技術人員充分 傳達本發明的范圍。基于本文中的教示,所屬領域的技術人員應了解,本發明的范圍既定涵 蓋無論是獨立于本發明的任何其它方面而實施還是與之組合而實施的本文中所掲示的新 穎系統、設備及方法的任何方面。舉例來說,可W使用本文中所闡述的任何數目個方面來實 施設備或實踐方法。另外,本發明的范圍既定涵蓋使用除本文中所闡述的本發明的各種方 面之外的或不同于本文中所闡述的本發明的各種方面的其它結構、功能性或結構與功能性 來實踐的此設備或方法。應理解,可通過權利要求的一或多個要素來體現本文中所掲示的 任何方面。
[0038] 盡管本文描述了特定方面,但運些方面的許多變化及排列落在本發明的范圍內。 盡管提到了優選方面的一些益處及優點,但本發明的范圍不希望限于特定益處、用途或目 標。而是,本發明的方面既定廣泛地適用于不同無線技術、系統配置、網絡及發射協議,其中 的一些是借助于實例而在圖中W及在優選方面的W下描述中說明。【具體實施方式】和圖式僅 說明本發明,而不是限制由所附權利要求書和其等效物界定的本發明的范圍。
【附圖說明】 [0039] 若干實例。由附圖中的參考標號指示的元件對應于在W下描述中由相同 參考標號指示的元件。在本發明中,名稱W序數詞(例如,"第一"、"第二"、"第立"等)開始的 元件未必暗示所述元件具有特定次序。而是,此些序數詞僅用于指代相同或類似類型的不 同元件。
[0040] 視頻譯碼系統
[0041] 圖IA是說明可利用根據本發明中所描述的方面的技術的實例視頻譯碼系統10的 框圖。如本文中所描述地使用,術語"視頻譯碼器"一般指代視頻編碼器和視頻解碼器兩者。 在本發明中,術語"視頻譯碼"或"譯碼"可一般地指代視頻編碼和視頻解碼。除了視頻編碼 器和視頻解碼器外,本申請案中描述的方面可擴展到其它相關裝置,例如,轉碼器(例如,可 解碼位流且重新編碼另一位流的裝置)及中間框(例如,可修改、變換及/或另外操縱位流的 裝置)。
[0042] 如圖IA中所示,視頻譯碼系統10包含源模塊12,其產生在稍后時間由目的地模塊 14解碼的經編碼視頻數據。在圖IA的實例中,源模塊12和目的地模塊14在單獨的裝置上,具 體來說,源模塊12是源裝置的部分,且目的地模塊14是目的地裝置的部分。然而,注意,源模 塊12與目的地模塊14可在同一裝置上或為同一裝置的部分,如在圖IB的實施中所展示。
[0043] 再次參考圖1A,源模塊12和目的地模塊14可包括廣泛范圍的裝置中的任一者,包 含桌上型計算機、筆記本(例如,膝上型)計算機、平板計算機、機頂盒、例如所謂的"智能"電 話的電話手持機、所謂的"智能"平板、電視機、相機、顯示裝置、數字媒體播放器、視頻游戲 控制臺、視頻流式傳輸裝置或類似物。在一些情況下,源模塊12和目的地模塊14可經裝備W 用于無線通信。
[0044] 目的地模塊14可經由鏈路16接收待解碼的經編碼視頻數據。鏈路16可包括能夠將 經編碼視頻數據從源模塊12移動到目的地模塊14的任何類型媒體或裝置。在圖IA的實例 中,鏈路16可包括使得源模塊12能夠實時將經編碼視頻數據直接發射到目的地模塊14的通 信媒體。經編碼視頻數據可根據例如無線通信協議等通信標準加 W調制,且發射到目的地 模塊14。通信媒體可包括任何無線或有線通信媒體,例如射頻(RF)頻譜或一或多個物理傳 輸線。通信媒體可形成分組網絡(例如,局域網、廣域網或全球網絡,例如因特網)的部分。通 信媒體可包含路由器、交換器、基站或任何其它可W用于促進從源模塊12到目的地模塊14 的通信的設備。
[0045] 替代地,經編碼數據可從輸出接口 22輸出到任選的存儲裝置31。類似地,可通過輸 入接口 28從存儲裝置31存取經編碼數據。存儲裝置31可包含多種分布式或本地存取數據存 儲媒體中的任一者,例如硬盤驅動器、快閃存儲器、易失性或非易失性存儲器,或用于存儲 經編碼視頻數據的任何其它合適的數字存儲媒體。在另一實例中,存儲裝置31可對應于文 件服務器或可保持由源模塊12產生的經編碼視頻的另一中間存儲裝置。目的地模塊14可經 由流式傳輸或下載從存儲裝置31存取所存儲的視頻數據。文件服務器可為能夠存儲經編碼 視頻數據且將經編碼視頻數據傳輸到目的地模塊14的任何類型的服務器。實例文件服務器 包含網絡服務器(例如,用于網站)、FTP服務器、網絡附接存儲(NAS)裝置或本地磁盤驅動 器。目的地模塊14可W通過任何標準數據連接(包含因特網連接)來存取經編碼的視頻數 據。此可包含無線信道(例如,Wi-Fi連接)、有線連接(例如,D化、電纜調制解調器等),或適 合于存取存儲在文件服務器上的經編碼視頻數據的兩者的組合。經編碼視頻數據從存儲裝 置31的發射可為流式傳輸發射、下載發射或兩者的組合。
[0046] 本發明的技術不限于無線應用或設置。所述技術可應用于支持多種多媒體應用中 的任一者的視頻譯碼,例如空中電視廣播、有線電視發射、衛星電視發射、例如經由因特網 的流式傳輸視頻發射(例如,HTTP動態自適應流式傳輸(DASH)等)、用于存儲于數據存儲媒 體上的數字視頻的編碼、存儲在數據存儲媒體上的數字視頻的解碼,或其它應用。在一些實 例中,視頻譯碼系統10可經配置W支持單向或雙向視頻傳輸W支持例如視頻流式傳輸、視 頻回放、視頻廣播及/或視頻電話等應用。
[0047] 在圖IA的實例中,源模塊12包含視頻源18、視頻編碼器20和輸出接口 22。在一些情 況下,輸出接口 22可包含調制器/解調器(調制解調器)及/或發射器。在源模塊12中,視頻源 18可包含來源,例如視頻俘獲裝置,例如攝像機,包含先前俘獲的視頻的視頻存檔,用于從 視頻內容提供者接收視頻的視頻饋入接口和/或用于產生計算機圖形數據作為源視頻的計 算機圖形系統,或此類來源的組合。作為一個實例,如果視頻源18是攝像機,那么源模塊12 和目的地模塊14可形成所謂的相機電話或視頻電話,如圖IB的實例中所說明。然而,本發明 中所描述的技術一般來說可適用于視頻譯碼,且可應用于無線和/或有線應用。
[0048] 可由視頻編碼器20對所俘獲、預俘獲或計算機產生的視頻進行編碼。經編碼視頻 數據可經由源模塊12的輸出接口 22直接發射到目的地模塊14。經編碼視頻數據還可(或替 代地)存儲到存儲裝置31上用于稍后由目的地模塊14或其它裝置存取W用于解碼和/或重 放。圖IA和IB中說明的視頻編碼器20可包括圖2A中說明的視頻編碼器20、圖2B中說明的視 頻編碼器23或本文中描述的任一其它視頻編碼器。
[0049] 在圖IA的實例中,目的地模塊14包含輸入接口28、視頻解碼器30和顯示裝置32。在 一些情況下,輸入接口 28可包含接收器及/或調制解調器。目的地模塊14的輸入接口 28可經 由鏈路16接收經編碼視頻數據。經由鏈路16傳送或在存儲裝置31上提供的經編碼視頻數據 可包含由視頻編碼器20所產生的多種語法元素 W供由例如視頻解碼器30的視頻解碼器用 于解碼視頻數據。此類語法元素可與在通信媒體上發射、存儲于存儲媒體上或存儲文件服 務器的經編碼視頻數據包含在一起。圖IA和圖IB中說明的視頻解碼器30可包括圖3A中說明 的視頻解碼器30、圖3B中說明的視頻解碼器33或本文中描述的任一其它視頻解碼器。
[0050] 顯示裝置32可與目的地模塊14集成或在目的地模塊14外部。在一些實例中,目的 地模塊14可包含集成顯示裝置,并且還經配置W與外部顯示裝置介接。在其它實例中,目的 地模塊14可為顯示裝置。一般來說,顯示裝置32將經解碼視頻數據顯示給用戶,且可包括多 種顯示裝置中的任一者,例如液晶顯示器化CD)、等離子顯示器、有機發光二極管(OLED)顯 示器或另一類型的顯示裝置。
[0051] 在相關方面,圖IB展示實例視頻編碼和解碼系統10',其中源模塊12和目的地模塊 14在裝置或用戶裝置11上或為其部分。裝置11可為電話手持機,例如"智能"電話或類似者。 裝置11可包含與源模塊12和目的地模塊14操作通信的任選的控制器/處理器模塊13。圖IB 的系統1〇/可進一步包含視頻編碼器20與輸出接口22之間的視頻處理單元21。在一些實施 方案中,視頻處理單元21是單獨的單元,如圖IB中所說明;然而,在其它實施方案中,視頻處 理單元21可實施為視頻編碼器20和/或處理器/控制器模塊13的一部分。系統1〇/還可包含 任選的跟蹤器29,其可跟蹤視頻序列中的所關注對象。待跟蹤的對象或興趣可通過結合本 發明的一或多個方面描述的技術來分段。在相關方面中,跟蹤可由顯示裝置32單獨或與跟 蹤器29結合而執行。圖IB的系統1〇/及其組件另外類似于圖IA的系統10及其組件。
[0052] 視頻編碼器20和視頻解碼器30可根據視頻壓縮標準(例如目前正在開發的高效率 視頻譯碼化EVC)標準)來操作,且可符合皿VC測試模型化M)。或者,視頻編碼器20和視頻解 碼器30可根據其它專有或業界標準來操作,所述標準例如是ITU-T H. 264標準,也被稱為 MPEG-4第10部分高級視頻譯碼(AVC),或此類標準的擴展。但是,本發明的技術不限于任何 特定譯碼標準。視頻壓縮標準的其它實例包含MPEG-2和口U-T H.263。
[0053] 盡管圖IA和IB的實例中未展示,但在一些方面中,視頻編碼器20和視頻解碼器30 可各自與音頻編碼器和解碼器集成,且可包含適當的多路復用器-多路分用器單元或其它 硬件和軟件W處置共同數據流或單獨數據流中的音