專利名稱:對于多目同步攝像機拍攝的動態場景視頻的時空一致性深度恢復的方法
技術領域:
本發明涉及立體匹配和深度恢復方法,尤其涉及一種對于多目同步攝像機拍攝的動態場景視頻的時空一致性深度恢復的方法。
背景技術:
視頻的稠密深度恢復技術是計算機中層視覺領域的基礎技術之一,其在3D建模、3D影像、增強現實和運動捕獲等眾多領域中有及其重要的應用。這些應用通常要求深度恢復結果具有很高精度和時空一致性。 視頻的稠密深度恢復技術的難點在于對于場景中的靜態和動態物體,所恢復的深度值具有很高的精度和時空一致性。雖然目前對于靜態場景的深度恢復技術已能夠恢復具有較高精度的深度信息,但是自然界處處充滿了運動的物體,對于視頻場景中包含的動態物體來說,現有的深度恢復方法都很難達到較高的精度及時空域上的一致性。這些方法通常要求較多個固定放置的同步攝像機對場景進行捕獲,在每個時刻對同步的多目視頻幀利用多視圖幾何的方法進行立體匹配,從而恢復每個時刻的深度信息。而這種拍攝方法更多是被應用于實驗室內動態場景的拍攝工作,實際拍攝過程中這種拍攝模式會有很多限制。另外現有的方法在時序上優化深度的過程中,通常利用光流尋找到不同時刻視頻幀上對應像素點,然后將對應點的深度值或3D點位置進行線性或曲線擬合,從而估計出當前幀像素點的深度信息。這種時域上3D光順化的方法只能使得時序上對應像素點的深度更為一致,并不能優化出真正準確的深度值;同時由于光流估計不魯棒性的普遍存在,使得動態點的深度優化問題變得更為復雜難解。現有的視頻深度恢復方法主要分為兩大類1.對于單目靜態場景視頻的時域一致性深度恢復此類方法較為典型的是Zhang于09年提出的方法G. Zhang, J. Jia, T. _Τ·Wong, and H. Bao. Consistent depth maps recovery from a video sequence.1EEETransactions on Pattern Analysis and Machine Intelligence,31(6):974-988,2009.。此方法首先利用傳統多視圖幾何的方法初始化每幀圖像的深度,然后在時域上利用bundleoptimization技術統計多個時刻的幾何和顏色一致性來優化當前巾貞的深度。此方法對于靜態場景能夠恢復出高精度的深度圖;對于包含動態物體的場景,此方法不能恢復動態物體的深度值。2.對于多目動態場景視頻的深度恢復此類方法較為典型的是Zitnick的方法CL. Zitnick,S. B. Kang, M.Uyttendaelej S. Winder, and R. Szelisk1. High-quality video view interpolationusing a layered representation. ACM Transactions on Graphics,23:600—608,August2004.、Larsen 的方法E. S. Larsen, P. Mordohaij M. Pollefeysj and H. Fuchs. Temporallyconsistent reconstruction from multiple video streams using enhanced beliefpropagation.1n ICCV, pages 1-8, 2007.以及 Lei 的方法C. Lei, X. D. Chen, andY. H. Yang. A new mult1-view spacetime-consistent depth recovery framework forfree viewpoint video rendering.1n I CCV, pages 1570-1577,2009.。這些方法都利用同一時刻的多目同步視頻幀恢復深度圖,要求利用較多數目的固定放置的同步攝像機拍攝動態場景,不適合用于戶外實際拍攝。Larsen和Lei的方法分別利用時空域上能量優化和時域3D光順化的方法來優化深度值,使得這些方法不夠魯棒,不能處理光流估計產生嚴重錯誤的情況。對于多目同步攝像機拍攝的動態場景視頻的時空一致性深度恢復的方法的步驟 I)使用了 Tola 提出的 DAISY 特征描述符E. Tola, V. Lepet it, and P. Fua. Daisy: Anefficient dense descriptor applied to wide-baseline stereo.1EEE Transactions onPattern Analysis and Machine Intelligence, 32(5):815-830,2010.對于多目同步攝像機拍攝的動態場景視頻的時空一致性深度恢復的方法的步 驟 I)和步驟 2)使用了 Comaniciu 提出的 Mean-shift 技術D. Comaniciu, P. Meer, andS. Member. Mean shift:A robust approach toward feature space analysis.1EEETransactions on Pattern Analysis and Machine Intelligence, 24:603-619, 2002.對于多目同步攝像機拍攝的動態場景視頻的時空一致性深度恢復的方法的步驟 2)使用了 Rother 提出的 Grabcut 技術C. Rother, V. Kolmogorov, andA. Blake.,,grabcut,, interactive foreground extraction using iterated graph cuts.ACM Transactions on Graphics, 23:309-314, August 2004.對于多目同步攝像機拍攝的動態場景視頻的時空一致性深度恢復的方法的步驟I)、步驟2)和步驟3)使用了 Felzenszwalb提出的能量方程優化技術:P. F. Felzenszwalband D.P.Huttenlocher. Efficient belief propagation for early vision.1nternational Journal of Computer Vision, 70(1):41-54, 2006.
發明內容
本發明的目的在于針對現有技術的不足,提供一種對于多目同步攝像機拍攝的動態場景視頻的時空一致性深度恢復的方法。對于多目同步攝像機拍攝的動態場景視頻的時空一致性深度恢復的方法的步驟如下I)利用多視圖幾何方法結合DAISY特征向量,對于同一時刻的多目視頻幀進行立體匹配,得到多目視頻每一時刻的初始化深度圖;2)利用步驟I)得到的初始化深度圖對于多目視頻的每一幀圖像計算動態概率圖,并利用動態概率圖對每幀圖像進行動態像素點和靜態像素點的劃分;3)對于步驟2)所劃分的動態像素點和靜態像素點,利用不同的優化方法進行時空一致性的深度優化,對于靜態像素點,利用bundle optimization方法結合多個相鄰時刻的顏色和幾何一致性約束進行優化;對于動態像素點,統計多個相鄰時刻的多目攝像機之間對應像素點的顏色和幾何一致性約束信息,由此對每一時刻動態深度值進行時空一致性優化。所述的步驟I)為
(I)利用多視圖幾何方法結合DAISY特征描述符,對于同一時刻的多目視頻幀進行立體匹配,通過如下能量優化方程式求解每一時刻圖像幀的初始化深度圖yw(/^;/(/)) = ^((/^;/(/))+ /;.(/.);)其中/( ) = {/; I = 1,·.·,Μ}表示在t時刻的M個多目同步視頻幀,/I表示第m個視頻的t時刻的圖像幀,化表示第m個視頻的t時刻的深度圖4( ;/(/))是數據項,表示尸中像素點與根據化計算的/>)中其余圖像幀投影點之間的DAISY特征相似度,其計算公式如下Ed(DfmJiO) = Σ—-ΓΤ- -
TjM-1其中以心私乂^尤卜丨功乂卜鞏心^是用來估計對應像素 的DAISY特征相似度的懲罰函數,!> ,)表示像素點<,的DAISY特征描述符,是<利用Di(XL)投影至4中的投影位置是平滑項,表示相鄰像素X、y之間的深度平滑程度,其計算公式如下= Σ HiiniI^(X)-Zr(V)M;!
X yeiV(x)其中平滑權重λ為O. 008,深度差的截斷值η為3 ;(2)利用多目視頻幀的初始化深度在3D空間中的一致性來判斷每幀圖像中的每個像素點在同一時刻其余攝像機中是否可見,從而得到同一時刻多個攝像機兩兩之間的可視性圖;可視性圖的計算公式如下
fnn97l yt (V、j1 \ O'J - KWH= {
I0 IUxJ-4( )1>么其中d , )表示<在4中是否可見,I表示可見,O表示不可見;δ (1是深度差異的閾值,是通過利用投影至4上計算得到的;利用所得到的可視性圖,對每個像素V計算總體可視性G(<,)如果f在t時刻所有其余視頻幀中均不可見,則
m m
Coc)為0,否則6 ,)為I;(3 )結合所求得的可視性圖重新初始化每幀圖像的深度圖,DAISY特征相似度僅在可見的像素格點進行比較估計;并且,當6 ,) = 0的像素點的初始化深度值出現錯誤的情況下,利用Mean-shift技術對每幀圖像進行分割,對于每個分割區域,利用 ) = I的像素點的深度來擬合參數為[a,b,c]的平面,利用擬合的平面重新定義004) = 0的像素點的數據項E此 D:n) = Σ^^--TT;其中σ d用來控制數據項對于深度值與擬合平面的距離差的敏感度,X和y是像素點<的坐標值;利用重新定義的數據項進行能量優化,從而糾正被遮擋像素點的錯誤深度值;所述的步驟2)為
(1)對于每幀圖像中的像素點,利用初始化深度死(<)將其投影至其余時刻幀,t匕 較像素點在當前時刻幀與其余時刻幀上的對應位置的幾何與顏色的一致性,統計深度值和 顏色值具有一致性的其余時刻幀數目所占的比例值,作為像素點屬于動態物體的概率值, 從而得到每幀圖像的動態概率圖,其計算公式如下
權利要求
1.一種對于多目同步攝像機拍攝的動態場景視頻的時空一致性深度恢復的方法,其特征在于它的步驟如下 1)利用多視圖幾何方法結合DAISY特征向量,對于同一時刻的多目視頻幀進行立體匹配,得到多目視頻每一時刻的初始化深度圖; 2)利用步驟I)得到的初始化深度圖對于多目視頻的每一幀圖像計算動態概率圖,并利用動態概率圖對每幀圖像進行動態像素點和靜態像素點的劃分; 3)對于步驟2)所劃分的動態像素點和靜態像素點,利用不同的優化方法進行時空一致性的深度優化,對于靜態像素點,利用bundle optimization方法結合多個相鄰時刻的顏色和幾何一致性約束進行優化;對于動態像素點,統計多個相鄰時刻的多目攝像機之間對應像素點的顏色和幾何一致性約束信息,由此對每一時刻動態深度值進行時空一致性優化。
2.根據權利要求1中所述的一種對于多目同步攝像機拍攝的動態場景視頻的時空一致性深度恢復的方法,其特征在于所述的步驟I)為 (1)利用多視圖幾何方法結合DAISY特征描述符,對于同一時刻的多目視頻幀進行立體匹配,通過如下能量優化方程式求解每一時刻圖像幀的初始化深度圖
3.根據權利要求1中所述的一種對于多目同步攝像機拍攝的動態場景視頻的時空一致性深度恢復的方法,其特征在于所述的步驟2)為 (1)對于每幀圖像中的像素點,利用初始化深度化(<)將其投影至其余時刻幀,比較像素點在當前時刻幀與其余時刻幀上的對應位置的幾何與顏色的一致性,統計深度值和顏色值具有一致性的其余時刻幀數目所占的比例值,作為像素點屬于動態物體的概率值,從而得到每幀圖像的動態概率圖,其計算公式如下
4.根據權利要求1中所述的一種對于多目同步攝像機拍攝的動態場景視頻的時空一致性深度恢復的方法,其特征在于所述的步驟3)為 (1)對于靜態像素點,利用bundleoptimization方法統計當前時刻巾貞像素點和多目視頻多個相鄰時刻幀上對應像素點之間的顏色和幾何一致性約束信息,由此對當前時刻靜態深度值進行優化; (2)對于動態像素點<,假設其候選深度為d,首先根據d將其投影至同一時刻t的視頻m,,得到對應像素點比較 <和xl,的顏色與幾何一致性,其計算公式如下
全文摘要
本發明公開了一種對于多目同步攝像機拍攝的動態場景視頻的時空一致性深度恢復的方法。它利用多視圖幾何方法結合DAISY特征向量,對于同一時刻的多目視頻幀進行立體匹配,得到多目視頻每一時刻的初始化深度圖;對于多目視頻的每一幀圖像計算動態概率圖,利用動態概率圖對每幀圖像進行動態像素點和靜態像素點的劃分,利用不同的優化方法進行時空一致性的深度優化,對于靜態點,利用bundle optimization方法結合多個相鄰時刻的顏色和幾何一致性約束進行優化;對于動態點,統計多個相鄰時刻的多目攝像機之間對應像素點的顏色和幾何一致性約束信息,對每一時刻動態深度值進行時空一致性優化。本發明在3D立體影像、3D動畫、增強現實和運動捕獲等領域將會有很高的應用價值。
文檔編號H04N13/02GK103002309SQ20121036097
公開日2013年3月27日 申請日期2012年9月25日 優先權日2012年9月25日
發明者章國鋒, 鮑虎軍, 姜翰青 申請人:浙江大學