對多層vdr譯碼中的感知量化的視頻內容進行編碼的制作方法
【專利說明】
[0001] 相關申請的交叉引用
[0002] 本申請要求2013年3月26日提交的美國臨時專利申請No. 61/805,388和2013 年8月2日提交的No. 61/861,555的優先權,每篇申請的全部內容通過引用并入此。
技術領域
[0003] 本發明總體上涉及圖像處理,并且尤其涉及對感知量化的視頻進行編碼、解碼和 表不。
【背景技術】
[0004] 多個層可以被用于將視頻數據從上游設備(諸如多層視頻編碼器)遞送到下游設 備。例如,虛擬動態范圍(VDR)視頻數據被承載在所述多個層的基本層和增強層(EL)的組 合中以供用于VDR顯示器的觀看體驗。
[0005] BL圖像數據可被用從VDR圖像推導的低或部分動態范圍圖像數據進行編碼。在低 或部分動態范圍圖像數據中,從VDR圖像映射的出界碼字可以被裁剪到目標表示范圍。VDR 圖像中所表示的文本變化和圖像細節在低或部分動態范圍圖像數據中可能丟失。
[0006] 在本部分中描述的方法是可從事的方法,但未必是以前已經構想或從事的方法。 因此,除非另外指出,否則,不應僅憑借包含于本部分中而認為在本部分中描述的方法中的 任一種為現有技術。類似地,除非另外指出,否則,關于一種或更多種方法識別的問題不應 基于本部分而認為在任何現有技術中已被識別。
【附圖說明】
[0007] 本發明在附圖的圖中以舉例的方式、而非限制的方式被例示說明,在附圖中,相似 的標號指代類似的元件,其中:
[0008] 圖1A例示說明根據本發明的實施例的多層視頻編碼器;
[0009] 圖1B例示說明根據本發明的實施例的多層視頻解碼器;
[0010] 圖1C和圖1D例示說明根據本發明的實施例實現的解碼器中的組成器單元的定點 實現;
[0011] 圖2A和圖2B例示說明根據本發明的實施例的搜索最佳映射參數值的示例算法;
[0012] 圖3A和圖3B例示說明根據本發明的實施例的示例處理流程;以及
[0013]圖4例示說明在其上可以實現本文中所描述的計算機或計算設備的示例硬件平 臺。
【具體實施方式】
[0014]本文中描述了與使用多層編解碼器對包括感知量化的基本層圖像數據的可變動 態范圍圖像進行編碼、解碼和表示相關的示例實施例。在以下描述中,出于解釋的目的,闡 述了大量具體的細節以便提供本發明的透徹理解。然而,很明顯本發明可在不具有這些具 體細節的情況下被實現。在其它實例中,眾所周知的結構和設備未被詳盡地描述,以避免不 必要地掩蓋、遮蓋或混淆本公開。
[0015] 在本文中根據以下大綱來描述示例實施例:
[0016] 1?總體概述
[0017] 2.對視頻內容進彳丁編碼和解碼
[0018] 3.基于圖像內容分配可用碼字
[0019] 4.多層視頻編碼
[0020] 5.多層視頻解碼
[0021] 6.BL圖像數據中的視覺細節的保留
[0022] 7.冪函數中的指數值的示例確定
[0023] 8.包括分段線性量化的線性量化中的參數值的示例確定
[0024]9.示例處理流程
[0025] 10?示例機構--硬件概述
[0026]11.等同、擴展、替代和其它
[0027] 1?總體概述
[0028] 此概述給出了本發明的實施例的一些方面的基本描述。應指出,此概述不是該實 施例的各方面的廣泛或詳盡總結。此外,應指出,此概述不預期被理解為標識該實施例的任 何尤其重要的方面或元素,也不會特別限制示例性實施例的任何范圍,也不會在整體上限 制本發明。此概述僅僅以扼要和簡化的格式表示涉及示例性實施例的一些概念,并且應被 理解為僅僅是以下示例性實施例的更詳細描述的概念性前序。
[0029] 在一些實施例中,多層編解碼器可以被用于針對多種多樣的顯示器(例如,VDR 顯示器等)產生或處理包括壓縮圖像(例如,視頻圖像)的媒體信號。為了在多種多樣的 寬動態范圍顯示器和窄動態范圍顯示器上提供優良的視覺質量,可以用實現本文中所描述 的感知量化(P?技術的多層編解碼器來對將被發布到下游設備的視頻內容進行量化和編 碼。被下游設備渲染的這樣的視頻內容表現出與通過其它技術表現的那些視覺特性極大不 同的視覺特性。
[0030] 如本文中所使用的,術語"多層編解碼器"可以指在音頻視覺信號(例如,位流、廣 播信號、媒體文件等)中實現多層結構的多層編碼器或解碼器。所述多個層包括基本層和 一個或多個增強層。基本層和增強層包括從相同的(例如,感知編碼的、等等)源圖像推導 的圖像數據。基本層中的圖像數據包含具有低動態范圍或部分動態范圍的壓縮圖像數據, 該壓縮圖像數據可能不能針對在相對較窄的動態范圍(諸如標準動態范圍或SDR)的顯示 器上的渲染進行優化。所述多個層中的圖像數據聯合包含寬動態范圍的壓縮圖像,這些壓 縮圖像可以被解碼并且在相對較寬的動態范圍(諸如視覺動態范圍或VDR)的顯示器上被 觀看。本文中所使用的術語"VDR"或"視覺動態范圍"可以指比標準動態范圍寬的動態范 圍,并且可以包括但不限于直到人類視覺在一瞬間可以感知到的瞬間可感知動態范圍和色 域的寬動態范圍。
[0031] 本文中所描述的多層編解碼器可以在多個層中用兩個或更多個低位深(例如,8 位等)編解碼器(例如,伽瑪域編解碼器等)來實現,以便在整體上支持所述多個層中的高 位深(例如,12+位等)圖像,并且支持基本層中的低位深(例如,8位等)圖像。例如,一 個或多個伽瑪域編碼器可以被部署在BL信號處理路徑中和/或本文中所描述的多層編碼 器的一個或多個EL信號處理路徑中。在一些實施例中,至少一個伽瑪域解碼器可以被部署 在下游設備(其是僅基本層的解碼器)的BL信號處理路徑中。
[0032] 本文中所描述的PQ技術可以被用于使得伽瑪域編解碼器能夠保留原始的感知編 碼的視頻內容的視覺細節。不是需要在視頻編碼器側的PQ至伽瑪格式轉換器以及在解碼 器側的伽瑪至PQ格式轉換器,本文中所描述的技術使得多層編碼器、多層解碼器、基本層 解碼器等中的伽瑪域編解碼器能夠在沒有這些格式轉換器的情況下直接保留感知編碼的 視頻內容的視覺細節。在寬動態范圍和窄動態范圍中都保留這些視覺細節的感知量化的視 頻信號可以在不利用PQ至伽瑪格式轉換的情況下由多層編碼器直接提供給下游設備。類 似地,下游設備接收的感知量化的視頻信號可以在不利用伽瑪至PQ格式轉換的情況下直 接被下游設備解碼和/或被用保留的視覺細節渲染。因此,根據本文中所描述的技術,計算 復雜度、譯碼效率和感知質量都可以得到顯著改善。
[0033] 實現本文中所描述的技術的編解碼器可以被進一步配置為包括充分利用基本層 (BL)圖像數據和原始輸入圖像數據之間的統計冗余的層間預測能力。EL圖像數據可以(可 能僅可以)承載殘余(或差分)圖像數據,而不是在不利用不同層的圖像數據中的相關性 和統計冗余性的情況下承載大量寬動態范圍圖像數據。
[0034] 在一些示例實施例中,其它應用(包括但不限于與感知編碼操作無關的那些應用 等)所需的數據也可以與基本層和增強層圖像數據包括在一起被從上游設備遞送到下游 設備。在一些示例實施例中,如本文中所描述的,附加特征和/或正交特征可以被基本層和 增強層支持。
[0035] 在一些示例實施例中,如本文中所描述的機構形成媒體處理系統的一部分,所述 媒體處理系統包括但不限于以下中的任何一個:手持設備、游戲機、電視、膝上型計算機、上 網本計算機、平板計算機、蜂窩無線電電話、電子書閱讀器、銷售點終端、臺式計算機、計算 機工作站、計算機亭、或各種其它種類的終端和媒體處理單元。
[0036] 對于文中所描述的優選實施例以及總體原理和特征的各種修改將對于本領域那 些技術人員顯而易見。因此,本公開并不局限于所示的實施例,而是要被給予與文中描述的 原理和特征一致的最寬的范圍。
[0037] 2.對視頻內容進行編碼和解碼
[0038] 如果兩個亮度水平彼此的差別不足,則人類視覺可能不能感知到這兩個亮度水平 之間的差別。反而,人類視覺只有在亮度水平的差別不小于最小可覺差(JND)時才感知到 差別。由于人類視覺的感知非線性,各JND的量不是均勻地在亮度水平范圍上設定大小和 比例,而是隨著不同的單獨的亮度水平發生變化。
[0039] 本文中所描述的技術(例如,算法等)可以被多層編碼器用于將源視頻內容編碼 為多層視頻信號,該多層視頻信號保留BL圖像數據中的以及BL和EL圖像數據的組合中的 源視頻內容的視覺細節。在一些實施例中,源視頻內容最初基于感知編碼技術(例如,由 Dolbylaboratories,Inc.,SanFrancisco,California開發的VDR編碼技術等),用(例 如,由VDR規范定義的、等等的)源編碼格式的源碼字進行編碼。在一些實施例中,源編碼 格式的源碼字表示以如下這樣的方式分布的亮度水平,即亮度水平被最佳地間隔或量化以 與人類視覺的感知非線性匹配。
[0040] 本文中所描述的多層編碼器所產生的多層視頻信號可以被直接地或間接地發送 到或者被多種多樣的下游設備接收,所述下游設備包括但不限于以下中的任何一個:具有 多層解碼器的顯示系統、具有基本層解碼器的顯示系統等。
[0041] 支持相對較寬動態范圍顯示操作的下游設備(例如,多層解碼器等)可以基于接 收的多層視頻信號來推導和/或渲染源視頻內容的寬動態范圍版本。解碼的源視頻內容的 寬動態范圍版本表示逼近源視頻內容中的源碼字所表示的亮度水平的目標亮度水平(例 如,設備特定亮度水平等)。
[0042] 支持相對較窄動態范圍顯示操作的下游設備(例如,BL解碼器等)可以基于接收 的多層視頻信號的BL圖像數據來推導和/或渲染解碼的具有源視頻內容的視覺細節的窄 動態范圍版本。解碼的源視頻內容的窄動態范圍版本表示從源視頻內容中的源碼字所表示 的亮度水平映射的、但是在下游設備所支持的相對較窄的動態范圍內的目標亮度水平(例 如,設備特定亮度水平等)。
[0043]雖然源視頻內容的解碼的窄動態范圍版本和解碼的寬動態范圍版本都表示從源 視頻內容中的源碼字所表示的亮度水平映射的目標亮度水平(例如,設備特定亮度水平 等),但是與源視頻內容中的源碼字所表示的亮度水平相比,源視頻內容的解碼的窄動態范 圍版本可能比源視頻內容的解碼的寬動態范圍版本包括更多的誤差(例如,由于相對較低 的位深、低或高亮度水平處的裁剪等而導致的量化誤差)。
[0044] 3.基于圖像內容分配可用碼字
[0045] 不使用本文中所描述的技術的視頻編解碼器以不保留最初感知編碼的源視頻內 容的視覺細節的方式分配特定位深(例如,8位等)的碼字。例如,包括不使用本文中所描述 的技術的伽瑪域編解碼器的媒體設備可能會對設備特定動態范圍中的高亮度子范圍(例 如,明亮的部分、高光等)過多地分配碼字,而對設備特定動態范圍中的低亮度子范圍(例 如,黑暗的部分、黑暗區域等)不足地分配碼字。結果,感知編碼的源視頻內容的視覺細節 在這些其它的技術下不必要地丟失。
[0046] 與不使用本文中所描述的技術的視頻編解碼器相比,根據這些技術的多層編解碼 器中的視頻編解碼器以保留感知編碼的源視頻內容的視覺細節的方式分配特定位深(例 如,8位等)的可用碼字。結果,與不使用這些技術的其它視頻編解碼器相比,源視頻內容中 的感知細節在本文中所描述的多層編解碼器中被更好地保留。
[0047]根據本文中所描述的技術,多層編解碼器基于源視頻內容中的(例如,場景中的、 等等的)圖像幀所承載的圖像內容來選擇/確定特定的參數值(例如,冪函數中的指數值、 線性量化中的斜率、分段線性量化中的樞軸(Pivot)等)。如果圖像內容包括更多的高光部 分或更多的亮度水平,則參數值可以被選為/被確定為使更多的在高亮度子范圍中被表示 的亮度水平可供用于編碼或解碼操作。如果圖像內容包括更少的高光部分或更少的亮度水 平,則參數值可以被選為/被確定為使更少的在高亮度子范圍中被表示的亮度水平可供用 于編碼或解碼操作。類似地,如果圖像內容包括更多的黑暗部分或更多的亮度水平,則參數 可以被選為/被確定為使更多的在低亮度子范圍中被表示的亮度水平可供用于編碼或解 碼操作。如果圖像內容包括更少的黑暗部分或更少的亮度部分,則參數值可以被選為/被 確定為使更少的在低亮度子范圍中被表示的亮度水平可供用于編碼或解碼操作。
[0048]4.多層視頻編碼
[0049] 如前面所指出的,包括基本層和一個或多個增強層的多層視頻信號(例如,譯碼 的位流等)可以被上游設備(例如,圖1的多層編碼器102)用于將編碼的視頻內容遞送到 下游設備(其之一可以例如是圖1B的多層解碼器152等)。在一些實施例中,通過多個層 遞送的視頻內容包括相對較低位深的BL圖像數據(例如,圖1A、圖1B的106等)和作為 BL圖像數據