專利名稱:基于全局運動的深度估計的制作方法
技術(shù)領(lǐng)域:
本發(fā)明大體上涉及三維(3D)視頻的產(chǎn)生。更具體來說,本發(fā)明涉及產(chǎn)生現(xiàn)有二維(2D)視頻呈現(xiàn)的深度圖,所述深度圖可用以產(chǎn)生用于顯示三維(3D)視頻呈現(xiàn)的替代視圖。
背景技術(shù):
近年來,已開發(fā)諸多技術(shù)(例如,電視機、dvd播放器、機頂盒、藍光播放器、計算機和類似物)以允許在視頻顯示裝置中的3D視頻呈現(xiàn)。然而,大多數(shù)現(xiàn)有視頻內(nèi)容(例如,所存儲、下載和/或流式視頻內(nèi)容)僅經(jīng)配置來以2D顯示。因而,可能需要將2D視頻呈現(xiàn)的現(xiàn)有數(shù)字表示轉(zhuǎn)換為3D呈現(xiàn)。為此,可能需要分析2D視頻呈現(xiàn)以確定視頻對象相對于彼此的深度。視頻對象深度的表示可稱作深度圖。對象深度的確定可用以產(chǎn)生以3D顯現(xiàn)給用戶的視頻呈現(xiàn)。
發(fā)明內(nèi)容
全局運動可描述為在視頻捕捉期間的相機運動。全局運動移動的一些實例包含相機左右水平移動、上下傾斜和/或例如放大和縮小等各種其它效果。本發(fā)明描述用于估計視頻呈現(xiàn)的2D視圖的圖像對象的深度的技術(shù),其包含估計2D視圖的全局運動,例如估計捕捉2D視圖的一個或一個以上立體相機的運動。本發(fā)明還描述用于基于圖像的像素子集來估計全局運動的技術(shù)。本發(fā)明進一步描述用于基于經(jīng)全局運動補償?shù)膸町悂泶_定圖像的深度圖的技術(shù)。在一些實例中,估計全局運動可提供轉(zhuǎn)換視頻呈現(xiàn)的2D視圖的改進,使得視頻呈現(xiàn)可被感知為具有深度,例如3D視頻呈現(xiàn)。舉例來說,基于全局運動估計深度可提供視頻呈現(xiàn)的替代視圖的產(chǎn)生。替代視圖可與原始2D視圖結(jié)合顯示以用于顯示視頻呈現(xiàn),使得視頻呈現(xiàn)將實質(zhì)上3D顯現(xiàn)給查看者。根據(jù)一個實例,本文中描述一種方法。所述方法包含經(jīng)由用于視頻呈現(xiàn)的二維(2D)視圖的計算裝置的圖像處理模塊確定所述2D視圖的至少一個幀的光流,其中所述光流是由所述2D視圖的觀察者與所述2D視圖的對象之間的相對運動造成的對象亮度模式在視覺平面中的明顯運動的表示。所述方法進一步包含通過所述圖像處理模塊且基于所述所確定光流來估計所述至少一個幀的全局運動。所述方法進一步包含通過所述圖像處理模塊基于所述所估計全局運動來調(diào)整所述光流,以產(chǎn)生所述至少一個幀的經(jīng)全局運動調(diào)整的光流。所述方法進一步包含通過所述圖像處理模塊基于所述經(jīng)全局運動調(diào)整的光流產(chǎn)生所述視頻呈現(xiàn)的所述2D視圖的深度圖。根據(jù)另一實例,本文中描述一種設(shè)備。所述設(shè)備包含光流確定模塊,其針對視頻呈現(xiàn)的二維(2D)視圖確定所述2D視頻呈現(xiàn)的至少一個幀的光流,其中所述光流是由所述2D視圖的觀察者與所述2D視圖的對象之間的相對運動造成的對象亮度模式在視覺平面中的明顯運動的表示。所述設(shè)備進一步包含全局運動估計模塊,其基于所述所確定光流估計所述至少一個幀的全局運動。所述設(shè)備進一步包含全局運動調(diào)整模塊,其基于所述所估計全局運動調(diào)整所述光流,來產(chǎn)生所述至少一個幀的經(jīng)全局運動調(diào)整的光流。所述設(shè)備進一步包含基于所述經(jīng)全局運動調(diào)整的光流產(chǎn)生所述視頻呈現(xiàn)的所述2D視圖的深度圖的掩模/深度圖產(chǎn)生模塊。根據(jù)另一實例,本文中描述一種計算機可讀存儲媒體。所述計算機可讀存儲媒體存儲指令,所述指令在執(zhí)行時使得一個或一個以上處理器:針對視頻呈現(xiàn)的二維(2D)視圖確定所述2D視頻呈現(xiàn)的至少一個幀的光流。所述光流是由所述2D視圖的觀察者與所述2D視圖的對象之間的相對運動造成的對象亮度模式在視覺平面中的明顯運動的表示。所述指令進一步使得所述計算裝置基于所述光流估計所述至少一個幀的全局運動。所述指令進一步使得所述計算裝置基于所述所估計全局運動來調(diào)整所述光流,以產(chǎn)生所述至少一個幀的經(jīng)全局運動調(diào)整的光流。所述指令進一步使得所述計算裝置基于所述經(jīng)全局運動調(diào)整的光流產(chǎn)生所述視頻呈現(xiàn)的所述2D視圖的深度圖。根據(jù)另一實例,本文中描述一種裝置。所述裝置包含用于針對視頻呈現(xiàn)的二維(2D)視圖確定所述2D視頻呈現(xiàn)的至少一個幀的光流的裝置。所述光流是由所述2D視圖的觀察者與所述2D視圖的對象之間的相對運動造成的對象亮度模式在視覺平面中的明顯運動的表示。所述裝置進一步包含用于基于所述光流估計所述至少一個幀的全局運動的裝置。所述裝置進一步包含用于基于所述所估計全局運動來調(diào)整所述光流以產(chǎn)生所述至少一個幀的經(jīng)全局運動調(diào)整的光流的裝置。所述裝置進一步包含用于基于所述經(jīng)全局運動調(diào)整的光流產(chǎn)生所述視頻呈現(xiàn)的所述2D視圖的深度圖的裝置。根據(jù)另一實例,本發(fā)明描述一種確定視頻呈現(xiàn)的二維視圖的深度圖的方法。所述方法包含經(jīng)由用于視頻呈現(xiàn)的二維(2D)視圖的計算裝置的圖像處理模塊來確定視頻呈現(xiàn)的幀的多個特征點。所述方法進一步包含基于所述多個特征點確定所述幀的全局運動。所述方法進一步包含確 定基于所述所確定全局運動產(chǎn)生所述幀的深度圖。根據(jù)另一實例,一種裝置經(jīng)配置以確定視頻呈現(xiàn)的二維(2D)視圖的深度圖。所述裝置包含圖像處理模塊,其經(jīng)配置以確定視頻呈現(xiàn)的幀的多個特征點,基于所述多個特征點確定所述幀的全局運動,及基于所述所確定全局運動產(chǎn)生所述幀的深度圖。根據(jù)另一實例,一種裝置經(jīng)配置以確定視頻呈現(xiàn)的二維(2D)視圖的深度圖。所述裝置包含用于確定視頻呈現(xiàn)的幀的多個特征點的裝置。所述裝置進一步包含用于基于所述多個特征點確定所述幀的全局運動的裝置。所述裝置進一步包含用于基于所述所確定全局運動產(chǎn)生所述幀的深度圖的裝置。根據(jù)另一實例,本文中描述一種計算機可讀存儲媒體。所述計算機可讀存儲媒體包含指令,所述指令在執(zhí)行時使得一個或一個以上處理器:確定視頻呈現(xiàn)的幀的多個特征點,基于所述多個特征點確定所述幀的全局運動,及基于所述所確定全局運動產(chǎn)生所述幀的深度圖。一個或一個以上實例的細節(jié)陳述于附圖及以下描述中。本發(fā)明的其它特征、目標及優(yōu)勢將從描述及附圖和從權(quán)利要求書中顯而易見。
圖1是說明與本發(fā)明技術(shù)一致的用于將2D視頻呈現(xiàn)轉(zhuǎn)換為3D視頻呈現(xiàn)的方法的一個實例的流程圖。圖2是說明與本發(fā)明技術(shù)一致的經(jīng)配置以估計2D視頻呈現(xiàn)的深度的計算裝置的一個實例的框圖。圖2A是說明與本發(fā)明技術(shù)一致的圖像處理模塊的一個實例的框圖。圖3是說明與本發(fā)明技術(shù)一致的產(chǎn)生用于2D視頻呈現(xiàn)的深度圖的方法的一個實例的流程圖。圖4是說明與本發(fā)明技術(shù)一致的用于確定針對視頻呈現(xiàn)的至少一個幀是否發(fā)生場景改變的方法的一個實例的流程圖。圖5是說明與本發(fā)明技術(shù)一致的確定針對視頻呈現(xiàn)的至少一個幀是否存在全局運動的方法的一個實例的流程圖。圖6是說明與本發(fā)明技術(shù)一致的識別用于估計全局運動的特征點的方法的一個實例的流程圖。圖7是說明與本發(fā)明技術(shù)一致的將圖像像素/對象分類為前景/背景的方法的一個實例的流程圖。圖8是說明與本發(fā)明技術(shù)一致的精煉視頻呈現(xiàn)的初始掩模的方法的一個實例的流程圖。圖9是說明與本發(fā)明技術(shù)一致的用于確定視頻呈現(xiàn)的2D視圖的至少一個前景像素的方法的一個實例的流程·圖。圖10是說明與本發(fā)明技術(shù)一致的識別用于估計全局運動的特征點的方法的一個實例的流程圖。圖11是說明與本發(fā)明技術(shù)一致的具有中央?yún)^(qū)和外圍區(qū)的幀的概念圖。圖12是說明與本發(fā)明技術(shù)一致的用于確定2D圖像的深度圖的方法的一個實例的流程圖。圖13是說明與本發(fā)明技術(shù)一致的用于確定2D圖像的深度圖的方法的一個實例的流程圖。
具體實施例方式本發(fā)明描述用于估計視頻呈現(xiàn)的2D視圖的圖像對象的深度的技術(shù),其包含估計2D視圖的全局運動,例如估計捕捉到2D視圖的一個或一個以上單像相機的運動。在一些實例中,估計全局運動可提供轉(zhuǎn)換視頻呈現(xiàn)的2D視圖的改進,使得視頻呈現(xiàn)可被感知為具有深度,例如3D視頻呈現(xiàn)。舉例來說,本發(fā)明的技術(shù)提供確定至少一個視頻幀、圖像深度的至少一個初始指示(例如,至少一個像素的光流),以及基于所述初始指示而估計所述幀的全局運動。全局運動的估計可用以補償像素運動的初始指示,由此改進確定至少一個視頻幀的對象的深度(例如,前景或背景)的準確度。因此,可針對至少一個幀產(chǎn)生深度圖。深度圖可用以產(chǎn)生視頻呈現(xiàn)的至少一個替代視圖,所述至少一個替代視圖可結(jié)合至少一個其它視圖(例如,2D視圖)使用以顯示3D (例如,立體)視頻呈現(xiàn)。
圖1是說明與本發(fā)明技術(shù)一致的用于估計所捕捉圖像的深度的一個實例方法的流程圖。如圖1所示,方法包含獲取視頻呈現(xiàn)的2D(例如,單像)視圖(101)。2D視圖可包含用一個或一個以上單像(單個)相機捕捉的圖像。2D視圖可代替為使用一個或一個以上立體(一個以上)相機捕捉到的多個視圖中的單個視圖。方法進一步包含產(chǎn)生2D視圖的一個或一個以上對象和/或像素的深度的初始指示(102)。可基于本文描述的技術(shù)中的任一者來產(chǎn)生深度的初始指示,包含(例如)如上文所描述的模糊性、運動、基于塊的匹配、分段或光流技術(shù)。所述方法進一步包含基于深度的初始指示來確定2D視圖的至少一個幀的全局運動(103)。所述方法進一步包含基于所確定的全局運動來調(diào)整2D視圖的對象和/或像素的初始指示(104)。舉例來說,在使用光流來確定圖像深度的初始指示的情況下,方法包含基于所確定的全局運動來修改2D視圖的至少一個像素的至少一個光流向量,從而產(chǎn)生所述至少一個像素的經(jīng)全局運動調(diào)整的光流向量。方法進一步包含基于所調(diào)整的深度圖來產(chǎn)生2D視圖的至少一個替代視圖(105)。方法可進一步包含使用2D視圖的所產(chǎn)生的替代視圖來呈現(xiàn)3D視圖。舉例來說,視頻呈現(xiàn)的2D視圖可顯示為3D視頻呈現(xiàn)的左視圖,而替代視圖可顯示為3D視頻呈現(xiàn)的右視圖。右視圖與左視圖之間的差異可導致3D視頻呈現(xiàn)的一個或一個以上圖像由查看者感知為具有深度。圖2為說明可用以實踐本發(fā)明技術(shù)的計算裝置201的實例布置的框圖。計算裝置201可為經(jīng)配置以處理一個或一個以上2D視頻視圖以產(chǎn)生所述一個或一個以上2D視頻視圖的3D表示的任何裝置??捎靡詫嵺`本發(fā)明技術(shù)的計算裝置201的非限制性實例包含:桌上型計算機、膝上型計算機、平板計算裝置、智能電話、筆記型計算機、電視機、視頻游戲控制臺、便攜式視頻游戲單元、或經(jīng)配置以處理視頻數(shù)據(jù)的任何其它計算裝置。如圖2的實例中所示,計算裝置201包含一個或一個以上處理器210。所述一個或一個以上處理器210是計算裝置201的組件,其經(jīng)配置以執(zhí)行指令以使計算裝置執(zhí)行若干功能,例如本發(fā)明的深度估計技術(shù)。舉例來說,處理器210可經(jīng)配置以執(zhí)行存儲組件212所存儲的指令。存儲組件212 可包含一個或一個以上短期或長期存儲器存儲組件,例如計算機硬盤、快閃存儲器或隨機存取存儲器(RAM)組件。在一個實例中,處理器210可包括計算裝置201的一個或一個以上中央處理單元(CPU)。在其它實例中,處理器210可代替或另外包含一個或一個以上圖形處理單元(GPU)、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)、特定邏輯或硬件、或其它類似處理組件。如圖2中所示,處理器210包含圖像處理模塊214。根據(jù)所描繪實例,圖像處理模塊214包含由存儲組件212存儲以及可由一個或一個以上處理器210執(zhí)行的指令以執(zhí)行本文所述的技術(shù)。在執(zhí)行存儲在存儲組件212中的指令后,處理器210則可被視為經(jīng)配置以執(zhí)行本發(fā)明技術(shù)的特定機器。舉例來說,由處理器210執(zhí)行指令可使處理器210在顧及視頻呈現(xiàn)的2D視圖的全局運動的同時估計視頻呈現(xiàn)的2D視圖的深度。圖像處理模塊214可包含經(jīng)配置以執(zhí)行本文所述的各種技術(shù)的專用硬件或固件。根據(jù)這些實例,與圖像處理模塊214相關(guān)聯(lián)的硬件或固件可被視為如圖2所示的處理器210的一部分。舉例來說,圖像處理模塊214可包括經(jīng)配置以執(zhí)行本發(fā)明技術(shù)的一個或多個專門化硬件組件。舉例來說,圖像處理模塊214可包含以下各項的任何組合:圖形處理組件、專門化硬件(例如,ASIC)、可編程硬件(固件、FPGA)、或經(jīng)配置以與本發(fā)明技術(shù)一致操作的任何其它專門化和/或可編程硬件。
根據(jù)一個實例,圖像處理模塊214可經(jīng)由存儲組件212所存儲的視頻圖像的數(shù)字表示而獲取2D視頻視圖。在另一實例中,圖像處理模塊214可經(jīng)由通信模塊216而獲取來自一個或一個以上其它計算裝置的2D視頻視圖。通信模塊216可包含一個或一個以上組件以實現(xiàn)與其它計算裝置的通信。舉例來說,通信模塊216可促進經(jīng)由有線或無線網(wǎng)絡(luò)(例如,因特網(wǎng))的通信。因此,圖像處理模塊214可經(jīng)由通信模塊216而獲取存儲在另一計算裝置上的2D視頻。根據(jù)另一實例,圖像處理模塊214可從圖像捕捉裝置(圖2中未展示)直接獲取2D視頻視圖。舉例來說,計算裝置201可包含經(jīng)配置以捕捉圖像的一個或一個以上相機裝置或與所述一個或一個以上相機裝置通信地耦合。所述一個或一個以上相機裝置可將所捕捉圖像實時或近似實時傳達到圖像處理模塊214。根據(jù)這些實例,圖像處理模塊214可將本文描述的技術(shù)實時或近似實時應(yīng)用到所捕捉圖像的幀。舉例來說,因為圖像由一個或一個以上相機裝置捕捉,所以圖像處理模塊214可處理所接收2D圖像幀用于3D顯示。根據(jù)本發(fā)明的技術(shù),圖像處理模塊214可獲取2D視頻視圖,且確定所述2D視頻視圖的至少一個對象/像素的深度的初始指示。圖像處理模塊214可進一步確定2D視頻視圖的全局運動。圖像處理模塊214可進一步基于所確定的全局運動來調(diào)整2D視頻視圖的至少一個對象/像素的深度的初始指示。圖像處理模塊214接著可使用經(jīng)調(diào)整的深度指示來產(chǎn)生2D視頻視圖的至少一個替代視圖。替代視圖可經(jīng)配置以結(jié)合所獲取2D視圖或另一視圖使用以顯示3D視頻。根據(jù)一個實例,圖像處理模塊214可將所產(chǎn)生替代視圖傳達到存儲組件212用于存儲。根據(jù)另一實例,計算裝置201可經(jīng)由通信模塊216將所產(chǎn)生替代視圖傳達到另一計算裝置用于存儲。根據(jù)另一實例,計算裝置201可作為服務(wù)器裝置而操作以將所產(chǎn)生替代視圖流式傳輸(例如,經(jīng)由HTTP或類似流式傳輸協(xié)議)到另一計算裝置用于呈現(xiàn)給用戶。舉例來說,計算裝置201可將所產(chǎn)生替代視圖流式傳輸?shù)浇?jīng)配置以將3D立體圖像顯示給用戶的計算裝置。在一些實例中,如 圖2中所示,經(jīng)配置以如本文所述而估計深度的計算裝置201可進一步包含顯示控制模塊218,其經(jīng)配置以與一個或一個以上顯示器219通信以將一個或一個以上圖像顯示給查看者。類似于如圖2所示的圖像處理模塊214,顯示控制模塊218可包括可由處理器210執(zhí)行以控制一個或一個以上顯示器219的軟件指令。在圖2中未描繪的其它實例中,顯示控制模塊218可代替或另外包含經(jīng)配置以控制一個或一個以上顯示器219的專門化硬件。所述一個或一個以上顯示器219可為計算裝置201 (例如,膝上型計算機、筆記型計算機、智能電話、便攜式視頻游戲裝置、平板計算機或類似物)的一部分,或可通信地耦合到計算裝置201 (例如,桌上型計算機監(jiān)視器、電視顯示器、視頻游戲控制臺或類似物)。一個或一個以上顯示器219可經(jīng)配置而在以下意義上顯示立體圖像:一個或一個以上顯示器219可傳達預(yù)期分別由查看者的右眼和左眼感知的第一圖像和第二圖像。在一些此類實例中,用戶可佩戴專門化眼鏡,使得第一圖像獨立地由查看者的右眼查看,且第二圖像獨立地由查看者的右眼查看。顯示控制模塊218可經(jīng)配置以與顯示器219通信,以使相應(yīng)的右圖像和左圖像得以顯示。舉例來說,顯示控制模塊218可經(jīng)配置以傳達控制顯示器219的一個或一個以上顯示元件(例如,液晶、發(fā)光二極管、等離子顯示元件)的信號,以使顯示元件發(fā)射光(例如,不同顏色、頻率或強度的光)從而使相應(yīng)右圖像和左圖像得以顯示給查看者。圖2A是說明與本發(fā)明技術(shù)一致的圖像處理模塊214的一個實例(圖像處理模塊214A)的框圖。根據(jù)圖2的實例,圖像處理模塊214A包含各種子模塊,例如:場景改變檢測模塊230、光流確定模塊232、全局運動確定模塊234、全局運動估計模塊236、全局運動調(diào)整模塊238以及掩模/深度圖產(chǎn)生模塊240。類似于圖2中描繪的圖像處理模塊214,各種子模塊230、232、234、236、238和240可包括可在硬件上執(zhí)行的軟件的任何組合,所述硬件例如處理器和/或經(jīng)配置以執(zhí)行本文所述的技術(shù)中的任一者的任何其它專用硬件。場景改變檢測模塊230可經(jīng)配置以分析視頻呈現(xiàn)的一個或一個以上幀,以確定所述一個或一個以上幀是否表示場景改變或多個幀之間的實質(zhì)上差異。下文關(guān)于圖3中的步驟302描述可由場景改變檢測模塊230使用的技術(shù)的實例。光流確定模塊232可經(jīng)配置以確定對象深度的初始指示,例如視頻幀的至少一個像素的光流。舉例來說,光流確定模塊232可分析視頻呈現(xiàn)的一個或一個以上幀以確定所述一個或一個以上幀的至少一個像素的光流,例如,如下文關(guān)于圖5進一步詳細描述。全局運動確定模塊234可經(jīng)配置以分析視頻呈現(xiàn)的一個或一個以上幀,以確定所述一個或一個以上幀是否包含全局運動。全局運動可經(jīng)描述為視頻捕捉期間的相機運動。全局運動的實例包含相機左右平移、上下傾斜、放大和縮小以及類似移動。根據(jù)一個實例,全局運動確定模塊234可經(jīng)配置以從光流確定模塊232接收對象深度的初始指示(例如,至少一個光流向量)。根據(jù)此實例,全局運動確定模塊234可分析對象深度的所接收初始指示以確定全局運動是否存在于所述一個或一個以上幀中。因此,如果全局運動確定模塊234確定針對所述一個或一個以上幀不存在全局運動,那么圖像處理模塊214A可跳過全局運動估計和/或調(diào)整技術(shù)。在一個實例中,全局運動確定模塊234可確定視頻呈現(xiàn)的一個或一個以上幀是否包含全局運動,如下文關(guān)于下文圖3的步驟305所描述。
全局運動估計模塊236可經(jīng)配置以估計視頻呈現(xiàn)的至少一個幀的全局運動(例如,如果由全局運動確定模塊234確定存在全局運動)。舉例來說,全局運動估計模塊236可從光流確定模塊232接收視頻幀的至少一個像素的光流向量的指示。全局運動估計模塊236可分析一個或一個以上接收的光流向量以確定全局運動的至少一個指示,例如如下文關(guān)于圖3中描繪的步驟306描述的參數(shù)模型的全局運動參數(shù)。全局運動調(diào)整模塊238可經(jīng)配置以修改對象深度的初始指示以顧及全局運動。舉例來說,全局運動調(diào)整模塊238可從光流確定模塊232接收一個或一個以上光流向量。全局運動調(diào)整模塊238可進一步從全局運動估計模塊236接收一個或一個以上全局運動參數(shù)。根據(jù)一個實例,全局運動調(diào)整模塊238可將接收的全局運動參數(shù)應(yīng)用到所述一個或一個以上光學向量,以產(chǎn)生視頻呈現(xiàn)的至少一個幀的經(jīng)全局運動調(diào)整的光流。下文關(guān)于圖3的步驟307描述可由全局運動調(diào)整模塊238使用以產(chǎn)生經(jīng)全局運動調(diào)整的光流的技術(shù)的一個實例。掩模/深度圖產(chǎn)生模塊240可經(jīng)配置以從全局運動調(diào)整模塊238接收至少一個像素的經(jīng)全局運動調(diào)整的光流,且基于所述經(jīng)全局運動調(diào)整的光流來確定至少一個幀的深度圖。舉例來說,掩模/深度圖產(chǎn)生模塊240可將圖像像素分類為背景和/或前景(例如,如下文關(guān)于圖3中的步驟308所描述),基于所述分類而產(chǎn)生初始前景/背景掩模(例如,如關(guān)于圖3中的步驟309所描述),精煉初始掩模(例如,如關(guān)于圖3中的步驟310所描述),和/或?qū)Τ跏佳谀_M行后處理(例如,如關(guān)于圖3中的步驟311所描述)。根據(jù)本文描述的各種實例,掩模/深度估計模塊240可進一步產(chǎn)生視頻呈現(xiàn)的至少一個幀的深度圖(例如,如下文關(guān)于圖3中的步驟312所描述)。下文將各種技術(shù)描述為大體由圖像處理模塊214執(zhí)行。所屬領(lǐng)域的技術(shù)人員將了解,本文描述的各種技術(shù)還可或代替地由圖像處理模塊214的特定子模塊執(zhí)行,例如上文關(guān)于圖2A描述的圖像處理模塊214A的子模塊230、232、234、236、238和240??苫趫D像模糊性、對象移動和/或光流(例如,歸因于對象亮度的運動的顏色改變)來確定2D視頻呈現(xiàn)的深度。然而,這些技術(shù)可能會遭受某些缺點。舉例來說,此類技術(shù)可基于可能對于所有視頻呈現(xiàn)或一視頻呈現(xiàn)的若干部分不成立的一個或一個以上假設(shè)。隨著立體顯示技術(shù)的開發(fā),立體或三維(3D)視頻已日益流行。由于這些技術(shù),已顯著增加針對3D內(nèi)容的需求,例如電影、電視節(jié)目、視頻游戲和其它內(nèi)容。許多3D顯示技 術(shù)利用雙目視覺,例如,其中提供稍有不同的圖像由查看者的左眼和右眼不同地感知。由于此感知差異,所以針對用戶產(chǎn)生深度感知。然而,大多數(shù)現(xiàn)有視頻內(nèi)容僅經(jīng)配置用于以2D方式查看。舉例來說,大多數(shù)現(xiàn)有視頻內(nèi)容僅包含初級視圖,且不包含可允許3D視頻值染的任何次級視圖。此外,許多現(xiàn)有攝像機僅能夠捕捉單像視頻(例如,僅包含單個相機或從同一視角捕捉圖像的多個相機),且因此未經(jīng)配置來以3D方式直接捕捉圖像。將2D視頻呈現(xiàn)轉(zhuǎn)換為3D視頻轉(zhuǎn)換可包含從已知原始2D視圖產(chǎn)生一個或一個以上替代視圖。此類轉(zhuǎn)換技術(shù)的一個方面可包含所捕捉視頻的對象的相對深度的估計,使得可重放視頻而使查看者感知到深度。在一些實例中,可在產(chǎn)生一個或一個以上替代視圖之前估計圖像對象的深度。深度估計可包含從一個或一個以上單像(例如,2D)視圖估計對象與相機平面之間的絕對或相對距離(稱作深度)。在一些實例中,深度信息由灰度級圖像深度圖表示。舉例來說,可取決于圖像像素的絕對或相對深度而對其指派一值。在一個特定實例中,深度值“O”指示對象與相機之間的最大距離,而深度值“255”指示最小距離??墒褂?D圖像的估計深度圖來確定用于呈現(xiàn)3D視頻的深度。舉例來說,可使用估計的深度圖而使用基于深度圖像的渲染(DIBR)技術(shù)來產(chǎn)生視頻的一個或一個以上替代視圖的角度。舉例來說,估計的深度圖可用以確定3D視頻呈現(xiàn)的相應(yīng)右圖像與左圖像之間的差異,所述差異使得3D圖像在經(jīng)查看時具有深度。2D視頻的許多方面可用以估計2D圖像的對象深度。舉例來說,取決于2D視頻的來源,可使用視角幾何形狀或時間或2D空間提示,例如對象運動和顏色。在視頻已包含兩個或兩個以上預(yù)捕捉的視圖(例如,使用多個相機立體地捕捉)的情況下,可基于捕捉到視圖的一個或一個以上相機的內(nèi)在和/或外在參數(shù)而通過核面幾何(epipolar geometry)獲得深度圖。此類技術(shù)可通過識別若干立體視圖中同一對象的對應(yīng)性來估計視差信息(與對象深度成反比)。此類技術(shù)還可包含局部匹配與全局優(yōu)化方法,例如圖割和置信傳播。大體上,可將視頻幀看作一個或一個以上前景對象與背景和/或背景對象的組合物。從相機焦點的視點來看,可假設(shè)散焦區(qū)域(例如,背景圖像)的色彩強度與聚焦區(qū)域(例如,前景圖像)相比更模糊。根據(jù)一個實例,可基于圖像像素的模糊性等級來確定所捕捉圖像的深度。
圖像像素的相對模糊性可基于以梯度為基礎(chǔ)的測量或頻域分析。舉例來說,可針對一些視頻或視頻幀假設(shè):具有較大梯度值的圖像較不模糊,而具有較小梯度值的圖像較模糊。然而,對于其它視頻或幀,這些假設(shè)可能不準確。舉例來說,相機視角可聚焦在遠處圖像對象上而非相機附近的對象。另外,上述圖像模糊分析可能不適合于前景的無紋理區(qū),這是因為前景同質(zhì)區(qū)域不含有太多的高頻分量。因此,根據(jù)模糊性估計圖像深度可能不準確,這是因為模糊性的較低等級可能并不總是指示較小深度(例如,距相機的距離)。用于深度估計的其它技術(shù)可涉及分析單像2D視頻中的運動。這些技術(shù)可依賴于以下假設(shè):較近的對象(相對于相機視角)預(yù)期顯現(xiàn)得較大,且與遠處對象相比具有較多運動。運動估計可包含估計鄰近視頻幀之間的對象移動。運動估計可包含確定一個或一個以上運動向量??蓪⑦\動向量描述為指示視頻呈現(xiàn)的連續(xù)幀之間的對象水平和/或垂直平移位移的向量。舉例來說,對于包含靜態(tài)背景的某些視頻場景設(shè)置,可通過從靜態(tài)背景減去對象的運動來獲得運動。由于對靜態(tài)背景的需要,所以運動估計可能對于一些視頻和/或一視頻的若干幀來說是不需要的。用于估計運動的另一技術(shù)是確定鄰近幀之間的差異,而非比較幀與靜態(tài)背景。根據(jù)此技術(shù),可基于連續(xù)幀的像素的色彩強度的以像素和/或窗為基礎(chǔ)的減法來識別運動。根據(jù)將運動用作深度識別的技術(shù),可使用運動量值來指派一個或一個以上幀像素的深度值。舉例來說,具有較大運動量值的像素可經(jīng)指派較大深度值。然而,類似于用于估計深度的模糊性的使用,使用運動作為深度指示還可基于對于至少一些視頻不成立的假設(shè)。舉例來說,實質(zhì)上距相機 相同距離的若干對象可獨立地移動,但具有不同速度。根據(jù)這些實例,運動可能并不總是圖像深度的適當指示符,這是因為較快移動的對象可能與較慢對象距離相同。在其中圖像在短時間間隔內(nèi)保持靜態(tài)無運動的另一實例中,可不使用運動來估計深度??捎糜谶\動估計的另一技術(shù)是基于塊的匹配??稍谝曨l壓縮中使用基于塊的匹配。根據(jù)這些技術(shù),視頻的一個或一個以上幀劃分為若干塊。當前幀的每一塊可與相同大小但在參考幀中位移的塊進行比較??蓪⑴c最小匹配成本(例如,匹配誤差的絕對值的總和)相關(guān)聯(lián)的所確定位移識別為所述塊中所有像素的估計的運動值。用于估計深度的另一技術(shù)是圖像分段。大體上,具有相同或類似顏色的像素屬于同一對象,而明顯的強度改變指示對象邊界。可假設(shè)深度場是逐片平滑的,且深度不連續(xù)性由圖像強度的不連續(xù)性來反映。根據(jù)這些技術(shù),將視頻幀分段為若干區(qū)或區(qū)段。這些區(qū)段接著被指派不同的深度值。盡管與基于像素的估計相比較來說圖像區(qū)段的深度估計可實現(xiàn)較一致的深度圖,但計算復(fù)雜性可能增加。另外,含有類紋理區(qū)域的一些場景可能難以分段。圖像分段在以下情況下也可能是不適當?shù)?其中區(qū)段遭受色彩變化,例如相同對象的明度改變。而且,在一些情況下,可針對一個對象確定若干不同區(qū)段,和/或可將一個對象的像素分類到具有另一對象的像素的同一區(qū)段中。因此,在一些情況下,當用于深度估計時,分段結(jié)果可能不夠準確。代替根據(jù)色彩強度值將圖像分割為若干同質(zhì)區(qū),還可將其直接用于深度估計中。舉例來說,可將一些色彩信息(例如,色度Cr分量)用作自然視頻場景的深度初始化。根據(jù)某些色彩空間中的那些分量進行的深度估計的一個優(yōu)點在于其簡單性。對于屬于同一對象的像素來說,色度分量可以是平滑的。與基于分段的深度估計相比,直接從那些色彩分量產(chǎn)生的深度圖可更好地保留對象形狀,且因此提供更好的空間一致性。盡管估計的深度值對于真實的深度遠不夠準確,但根據(jù)此類技術(shù)所產(chǎn)生的合成立體象對可提供某種程度的3D效應(yīng)。光流技術(shù)可識別由觀察者(例如相機)與正被觀察的對象之間的相對運動引起的視覺平面中對象亮度模式的明顯運動。舉例來說,視頻幀的光流可被視為運動場,其中每一點被指派描述其移動的速度向量。光流技術(shù)可包含經(jīng)由亮度恒定等式而使對象速度與基于像素梯度的強度改變相關(guān)。全局或局部優(yōu)化技術(shù)可用以計算一個或一個以上幀像素的光流運動向量。與上文描述的模糊性、運動和其它技術(shù)不同,根據(jù)色彩強度(例如,光流)測量的視頻幀平滑性可用以產(chǎn)生在空間和時間兩者上相對一致的深度圖。準確地估計深度圖可能對于減少3D視頻呈現(xiàn)中的假象是重要的,所述假象例如所產(chǎn)生替代虛擬視圖中的閃爍和局部變形。圖3是說明至少部分基于視頻呈現(xiàn)的全局運動來估計視頻呈現(xiàn)的2D (例如,單像)視圖的圖像深度的方法的一個實例的流程圖。本文描述的各種實例(包含圖3的方法)經(jīng)論述為由圖2中描繪的計算裝置201或計算裝置201的組件(例如,圖像處理模塊214)來執(zhí)行。在其它實例中,本文描述的技術(shù)可由任何計算裝置或模塊執(zhí)行,不管是否在本文中特定描述。如圖3中描繪,圖像處理模塊214可獲取視頻呈現(xiàn)的2D視圖(301)。2D視圖包含按視頻呈現(xiàn)的呈現(xiàn)順序(例如,經(jīng)由一個或一個以上顯示器呈現(xiàn)給用戶)的至少兩個連續(xù)幀。圖3中所描繪的技術(shù)經(jīng)描述為應(yīng)用于所捕捉視頻呈現(xiàn)的當前(fN)與下一(fN+l)幀。在一些實例中,圖3中所描繪的技術(shù)可多次應(yīng)用于視頻呈現(xiàn)的多個幀。圖像處理模塊214 (例如,圖2A中所描繪的場景改變檢測子模塊230)可進一步確定幀fN與fN+1之間是否存在場景 改變(302)。舉例來說,圖像處理模塊214可確定場景改變,其中幀&表示與視頻呈現(xiàn)的幀fN+1實質(zhì)上不同的場景??赡苄枰_定是否已發(fā)生場景改變,這是因為在幀^與&+1表示不同的所捕捉場景時,基于光流和/或所確定的全局運動的深度估計可能并不有意義。此外,檢測場景改變可改進視頻幀分析的時間(例如,在時間上)一致性。舉例來說,當在兩個時間鄰近的幀之間發(fā)生場景改變時,當前幀的深度圖可能在時間上不與先前的幀相關(guān)。因此,可能需要避免例如求若干連續(xù)幀的深度的平均值的操作。因此,如果在視頻呈現(xiàn)的幀fN與fN+1之間確定場景改變,那么圖像處理模塊214可跳過針對幀fN的深度估計。代替估計幀fN的深度,圖像處理模塊214可使用先前針對視頻呈現(xiàn)的一個或一個以上先前幀(例如,幀f^)所確定的深度估計來用于當前幀fN(303)。圖4是說明視頻呈現(xiàn)的一個或一個以上幀是否包含場景改變(例如,圖3中描繪的步驟302)的技術(shù)的一個實例的流程圖。根據(jù)圖4中描繪的方法,圖像處理模塊214(例如,圖2A中描繪的場景改變檢測子模塊230)可基于強度直方圖來檢測場景改變是否發(fā)生。根據(jù)此方法,可針對當前幀^來確定像素色彩的相對強度的直方圖(401)。還可針對下一幀fN+1來確定像素色彩的相對強度的直方圖(402)。根據(jù)一個實例,巾貞fN的強度直方圖可由直方圖值Hn = {hN, J來表不,且巾貞fN+1的強度直方圖可由直方圖值HN+1 = {hN+1,J來表示。根據(jù)這些實例,第m區(qū)間的直方圖值可為
具有屬于第m區(qū)間的強度值的像素數(shù)目。在一個實例中,m的值可為m = 0、1.....M-1。 根據(jù)這些等式,M可表示相應(yīng)直方圖的區(qū)間數(shù)目。根據(jù)一個此類實例,對于像素色彩強度范圍介于0-255的8位色彩表示,M的值可為256。在其它實例中,為降低直方圖值Hn> Hn+i的維度,可針對M使用較小的值。圖像處理模塊214可進一步確定在步驟301和302確定的相應(yīng)直方圖之間的相關(guān)系數(shù)λ (403)。根據(jù)一個實例,相關(guān)系數(shù)λ可基于以下等式來確定。
權(quán)利要求
1.一種確定視頻呈現(xiàn)的二維視圖的深度圖的方法,其包括: 經(jīng)由用于視頻呈現(xiàn)的二維2D視圖的計算裝置的圖像處理模塊來確定視頻呈現(xiàn)的幀的多個特征點; 基于所述多個特征點確定所述幀的全局運動;及 基于所述所確定全局運動產(chǎn)生所述幀的深度圖。
2.根據(jù)權(quán)利要求1所述的方法,其進一步包括: 確定所述幀的經(jīng)全局運動補償?shù)膸町?;? 使用所述經(jīng)全局運動補償?shù)膸町惍a(chǎn)生所述幀的所述深度圖。
3.根據(jù)權(quán)利要求2所述的方法,其中產(chǎn)生所述深度圖包括基于所述經(jīng)全局運動補償?shù)膸町悓⑺鰩闹辽僖粋€像素分類為前景像素或背景像素。
4.根據(jù)權(quán)利要求3所述的方法,其中將所述幀的至少一個像素分類為前景像素或背景像素包括將所述至少一個像素的所述經(jīng)全局運動補償?shù)膸町惖膹姸扰c預(yù)定閾值進行比較。
5.根據(jù)權(quán)利要求1所述的方法,其中確定所述多個特征點包括確定所述幀的一個或一個以上塊或像素是否在所述幀的中心區(qū)中。
6.根據(jù)權(quán)利要求5所述的方法,其進一步包括: 在所述幀的所述一個或一個以上塊或像素在所述幀的所述中心區(qū)中的情況下,使用來自至少一個先前幀的像素信息來產(chǎn)生所述幀的所述中心區(qū)中的所述一個或一個以上塊或像素的所述深度圖。
7.根據(jù)權(quán)利要求1所述的方法,其中確定所述多個特征點包括: 識別所述幀的一個或一個以上角區(qū)的像素。
8.根據(jù)權(quán)利要求7所述的方法,其中所述識別所述一個或一個以上角區(qū)的所述像素包括使用哈瑞斯角檢測來識別所述一個或一個以上角區(qū)的所述像素。
9.根據(jù)權(quán)利要求1所述的方法,其中確定所述多個特征點包括: 確定像素是否包含局部運動。
10.根據(jù)權(quán)利要求1所述的方法,其中確定所述多個特征點包括: 確定像素是否位于所述幀的同質(zhì)區(qū)中。
11.一種經(jīng)配置以確定視頻呈現(xiàn)的二維2D視圖的深度圖的裝置,其包括: 圖像處理模塊,其經(jīng)配置以: 確定視頻呈現(xiàn)的幀的多個特征點; 基于所述多個特征點確定所述幀的全局運動;及 基于所述所確定全局運動產(chǎn)生所述幀的深度圖。
12.根據(jù)權(quán)利要求11所述的裝置,其中所述圖像處理模塊經(jīng)進一步配置以: 確定所述幀的經(jīng)全局運動補償?shù)膸町悾患? 使用所述經(jīng)全局運動補償?shù)膸町惍a(chǎn)生所述幀的所述深度圖。
13.根據(jù)權(quán)利要求12所述的裝置,其中所述圖像處理模塊經(jīng)進一步配置以:基于以下操作產(chǎn)生所述深度圖:基于所述經(jīng)全局運動補償?shù)膸町悓⑺鰩闹辽僖粋€像素分類為前景或背景像素。
14.根據(jù)權(quán)利要求13所述的裝置,其中所述圖像處理模塊經(jīng)進一步配置以:基于將所述幀的所述至少一個像素的所述經(jīng)全局運動補償?shù)膸町惖膹姸扰c預(yù)定閾值進行比較,將所述至少一個像素分類為前景或背景像素。
15.根據(jù)權(quán)利要求11所述的裝置,其中所述圖像處理模塊經(jīng)進一步配置以:基于所述幀的一個或一個以上塊或像素是否在所述幀的中心區(qū)中來確定所述多個特征點。
16.根據(jù)權(quán)利要求15所述的裝置,其中所述圖像處理模塊經(jīng)進一步配置以: 在所述幀的所述一個或一個以上塊或像素在所述幀的所述中心區(qū)中的情況下,使用來自至少一個先前幀的像素信息來產(chǎn)生所述幀的所述中心區(qū)中的所述一個或一個以上塊或像素的所述深度圖。
17.根據(jù)權(quán)利要求11所述的裝置,其中所述圖像處理模塊經(jīng)進一步配置以: 基于識別所述幀的一個或一個以上角區(qū)的像素來確定所述多個特征點。
18.根據(jù)權(quán)利要求17所述的裝置,其中所述圖像處理模塊經(jīng)進一步配置以: 使用哈瑞斯角檢測來識別所述幀的一個或一個以上角區(qū)的所述像素,來識別所述一個或一個以上角區(qū)的所述像素。
19.根據(jù)權(quán)利要求11所述的裝置,其中所述圖像處理模塊經(jīng)進一步配置以: 基于像素是否包含局部運動來確定所述多個特征點。
20.根據(jù)權(quán)利要求1所述的裝置,其中所述圖像處理模塊經(jīng)進一步配置以: 基于像素是否位于所述幀的同質(zhì)區(qū)中來確定所述多個特征點。
21.一種經(jīng)配置以確定視頻呈現(xiàn)的二維2D視圖的深度圖的裝置,其包括: 用于確定視頻呈現(xiàn)的幀的多個特征點的裝置; 用于基于所述多個特征點確定所述幀的全局運動的裝置;及 用于基于所述所確定全局運動產(chǎn)生所述幀的深度圖的裝置。
22.根據(jù)權(quán)利要求21所述的裝置,其進一步包括: 用于確定所述幀的經(jīng)全局運動補償?shù)膸町惖难b置;及 用于使用所述經(jīng)全局運動補償?shù)膸町惍a(chǎn)生所述幀的所述深度圖的裝置。
23.根據(jù)權(quán)利要求22所述的裝置,其中所述用于產(chǎn)生所述深度圖的裝置進一步包括: 用于基于所述經(jīng)全局運動補償?shù)膸町悓⑺鰩闹辽僖粋€像素分類為前景像素或背景像素的裝置。
24.根據(jù)權(quán)利要求23所述的裝置,其中所述用于將所述幀的所述至少一個像素分類為前景像素或背景像素的裝置包括: 用于將所述至少一個像素的所述經(jīng)全局運動補償?shù)膸町惖膹姸扰c預(yù)定閾值進行比較的裝置。
25.根據(jù)權(quán)利要求21所述的裝置,其中所述用于確定所述多個特征點的裝置包括: 用于確定所述幀的一個或一個以上塊或像素是否在所述幀的中心區(qū)中的裝置。
26.根據(jù)權(quán)利要求25所述的裝置,其中所述用于確定所述多個特征點的裝置進一步包括: 用于在所述幀的所述一個或一個以上塊或像素在所述幀的所述中心區(qū)中的情況下使用來自至少一個先前幀的像素信息來產(chǎn)生所述幀的所述中心區(qū)中的所述一個或一個以上塊或像素的所述深度圖的裝置。
27.根據(jù)權(quán)利要求21所述的裝置,其中所述用于確定所述多個特征點的裝置包括:用于識別所述幀的一個或一個以上角區(qū)的像素的裝置。
28.根據(jù)權(quán)利要求27所述的裝置,其中所述用于確定所述多個特征點的裝置包括: 用于使用哈瑞斯角檢測來識別所述角區(qū)的所述像素的裝置。
29.根據(jù)權(quán)利要求21所述的裝置,其中所述用于確定所述多個特征點的裝置包括: 用于確定像素是否包含局部運動的裝置。
30.根據(jù)權(quán)利要求21所述的裝置,其中所述用于確定所述多個特征點的裝置包括: 用于確定像素是否位于所述幀的同質(zhì)區(qū)中的裝置。
31.一種包括指令的計算機可讀存儲媒體,所述指令在執(zhí)行時使得一個或一個以上處理器: 確定視頻呈現(xiàn)的幀的多個特征點; 基于所述多個特征點確定所述幀的全局運動;及 基于所述所確定全局運動產(chǎn)生所述幀的深度圖。
32.根據(jù)權(quán)利要求31所述的計算機可讀存儲媒體,其中所述指令進一步使得所述處理器: 確定所述幀的經(jīng)全局運動補償?shù)膸町?;? 使用所述經(jīng)全局運動補償?shù)膸町惍a(chǎn)生所述幀的所述深度圖。
33.根據(jù)權(quán)利要求32所述的計`算機可讀存儲媒體,其中所述指令進一步使得所述處理器: 基于以下操作產(chǎn)生所述深度圖:基于所述經(jīng)全局運動補償?shù)膸町悓⑺鰩闹辽僖粋€像素分類為前景像素或背景像素。
34.根據(jù)權(quán)利要求33所述的計算機可讀存儲媒體,其中所述指令進一步使得所述處理器: 基于將所述幀的至少一個像素的所述經(jīng)全局運動補償?shù)膸町惖膹姸扰c預(yù)定閾值進行比較,將所述至少一個像素分類為前景像素或背景像素。
35.根據(jù)權(quán)利要求31所述的計算機可讀存儲媒體,其中所述指令進一步使得所述處理器: 基于所述幀的一個或一個以上塊或像素是否在所述幀的中心區(qū)中來確定所述多個特征點。
36.根據(jù)權(quán)利要求35所述的計算機可讀存儲媒體,其中所述指令進一步使得所述處理器: 在所述幀的所述一個或一個以上塊或像素在所述幀的所述中心區(qū)中的情況下,使用來自至少一個先前幀的像素信息來產(chǎn)生所述幀的所述中心區(qū)中的所述一個或一個以上塊或像素的所述深度圖。
37.根據(jù)權(quán)利要求31所述的計算機可讀存儲媒體,其中所述指令進一步使得所述處理器: 基于識別所述幀的一個或一個以上角區(qū)的像素來確定所述多個特征點。
38.根據(jù)權(quán)利要求37所述的計算機可讀存儲媒體,其中所述指令進一步使得所述處理器: 識別所述一個或一個以上角區(qū)的所述像素包括使用哈瑞斯角檢測來識別所述一個或一個以上角區(qū)的所述像素。
39.根據(jù)權(quán)利要求31所述的計算機可讀存儲媒體,其中所述指令進一步使得所述處理器: 基于像素是否包含局部運動來確定所述多個特征點。
40.根據(jù)權(quán)利要求31所述的計算機可讀存儲媒體,其中所述指令進一步使得所述處理器: 基于像素是否位于所述 幀的同質(zhì)區(qū)中來確定所述多個特征點。
全文摘要
本發(fā)明描述用于估計視頻呈現(xiàn)的二維2D視圖的圖像對象的深度的技術(shù)。舉例來說,可確定2D視圖的多個特征點。所述多個特征點可用來估計所述2D視圖的全局運動,例如觀察者(例如,相機)的運動。舉例來說,可使用所述多個特征點來產(chǎn)生全局運動幀差異。所述全局運動幀差異可用來產(chǎn)生所述2D視圖的深度圖,其可用以產(chǎn)生所述視頻呈現(xiàn)的替代視圖,所述替代視圖可用以顯示三維3D視頻呈現(xiàn)。
文檔編號G06T7/00GK103250184SQ201180058928
公開日2013年8月14日 申請日期2011年11月22日 優(yōu)先權(quán)日2010年11月23日
發(fā)明者張 榮, 陳盈, 馬爾塔·卡切維奇 申請人:高通股份有限公司