一種基于Kinect相機的多視點深度視頻復原方法
【專利摘要】本發(fā)明公開了一種基于Kinect相機的多視點深度視頻復原方法,屬于圖像處理和計算機視覺領域。搭建多視點Kinect相機成像系統(tǒng)進行多視點深度視頻采集,建立深度計算重建模型,并構建高性能求解算法以獲得高質量多視點深度視頻。系統(tǒng)容易構建,用Kinect相機即可完成多視點深度視頻的復原;程序簡單,易于實現(xiàn);利用采集到的彩色紋理圖像、多視點圖像、和視頻幀間信息建立多視點深度視頻計算重建模型,使得恢復結果更加精確;利用求導的方式推導出定點迭代濾波算法,避免了采用最小二乘求解大規(guī)模矩陣求逆的問題,算法運行速度快,迭代次數(shù)少。
【專利說明】
一種基于K i nect相機的多視點深度視頻復原方法
技術領域
[0001] 本發(fā)明屬于圖像處理和計算機視覺領域,涉及采用多視點空域-時域信息對 Kinect深度相機的深度圖建模,并推導定點迭代濾波優(yōu)化算法。具體涉及一種基于Kinect 相機的多視點深度視頻復原方法。
【背景技術】
[0002] 現(xiàn)階段,利用二維(2D)圖像來表達場景已經不能滿足人們的視覺要求,而具有"真 實感"和"沉浸感"的三維電視技術(3DTV)已經成為新的發(fā)展方向。3DTV技術大多以多路不 同視點的視頻為輸入,需要多視點視頻的采集、處理、壓縮、傳輸?shù)纫幌盗屑夹g作為支撐。為 獲得舒適的視覺效果,不僅要求每一路視點的視頻具有較高的空時分辨率,同時也要求視 點的分布比較稠密。多攝像機系統(tǒng)采集與表示方式所需傳輸和存儲的龐大數(shù)據(jù)量成3DTV系 統(tǒng)推向應用的主要瓶頸。針對上述問題,目前國內外均采用雙路視頻加深度信息的表示方 式,即除普通彩色視頻之外還配以相應視點的深度圖序列,從而可以由少數(shù)幾個視點的視 頻通過虛擬視點繪制方法合成稠密的多視點視頻。這種表示方式避免了多視點視頻固有的 龐大數(shù)據(jù)量的問題。所以,深度圖的獲取方式,以及得到的深度的完整性和準確性成為了 3DTV技術的關鍵。目前,微軟研發(fā)的第二代Kinect深度相機是市面上深度精度最高的設備。 但是,它的深度成像質量還難以滿足應用需求= Kinect深度相機的深度分辨率低于主流工 業(yè)相機的空間分辨率,且在深度跳躍區(qū)域(例如物體的邊緣與輪廓)產生很多空洞。這些深 度成像的缺陷給實際應用帶來了很大的障礙。
[0003] 現(xiàn)有方法通常采用聯(lián)合紋理深度濾波的方式來提高深度質量。該方法利用彩色紋 理圖和深度圖的結構相關性進行空間濾波權重預測,并利用光流估計和圖像塊相似度匹配 尋找時域幀間像素的匹配并計算出時域濾波權重,最后在低分辨率的深度視頻上進行三維 (空域+時域)濾波。此方法可以在保證深度恢復質量同時,消除了深度視頻在時域的閃爍問 題(Min,D·,Lu,J·,Do,M.:Depth video enhancement based on joint global mode filtering. IEEE TIP 21(3) ,2012,1176-1190);但是,局部的濾波方式沒有利用圖像的全 局信息,使得系數(shù)預測變得困難,而且采用簡單的光流和塊匹配方法不能保證視頻中運動 區(qū)域的物體在深度邊緣處維持鋒利。一些研究人員利用自回歸模型對深度圖進行全局建 模,采用非局部相關性進行系數(shù)預測,并利用最小二乘求解得到深度單幀圖像復原結果 (J. Yang,X.Ye,K.Li ,C.Hou,and Y.Wang,"Color-guided depthrecovery from rgb-d data using an adaptive autoregressive model /' IEEETIP,vol.23,no .8,pp.3443-3458,2014);但是,算法速度慢,對于多視點深度視頻的復原并沒有給出相應的解決方案。
【發(fā)明內容】
[0004] 本發(fā)明旨在克服現(xiàn)有技術的不足,提供了一種基于Kinect相機的多視點深度視頻 復原方法,即搭建多視點Kinect相機成像系統(tǒng)進行多視點深度視頻采集,建立深度計算重 建模型,并構建高性能求解算法以獲得高質量多視點深度視頻。
[0005]本發(fā)明的具體技術方案為,一種基于Kinect相機的多視點深度視頻復原方法,包 括下列步驟:
[0000] 1)標定每個Kinect相機的內部參數(shù)和外部參數(shù);內部參數(shù)包括焦距、光心;外部參 數(shù)包括旋轉、平移;將多視點的低分辨率深度視頻扭轉到同一相機的彩色視角下,得到多視 點的初始低質量深度視頻;
[0007] 2)構建數(shù)據(jù)項:以概率方式融合多視點的初始低質量深度視頻的深度信息構建數(shù) 據(jù)項;
[0008] 3)構建平滑項:應用步驟1)中當前相機的高分辨率彩色視頻,得到相鄰幀間像素 的時域對應關系,并計算幀內像素間的空域相似度,以概率方式融合初始低質量深度視頻 的時域和空域信息構建平滑項;
[0009] 4)聯(lián)合數(shù)據(jù)項和平滑項建立能量方程,應用定點迭代濾波算法進行求解,得到高 質量多視點深度視頻。
[0010] 數(shù)據(jù)項的建立,具體包括以下步驟:
[0011] 2-1)對于第i個Kinect相機K1采集并扭轉視角得到的初始低質量深度圖0 1,計算 每個像素 P對應的融合權重Ixj3,公式如下:
[0012]
[0013]式中,exp( ·)為指數(shù)函數(shù),d為相鄰相機彩色攝像頭光心間的距離,〇為指數(shù)函數(shù) 的調控參數(shù),取值范圍為4.0~6.0; 為像素 ρ的深度值;
[0014] 2-2)結合2-1)中得到的融合權重Iii,以概率方式融合采集的初始低質量深度圖 ^建立數(shù)據(jù)項,公式如下:
[0015]
[0016]式中,Edata( ·)為數(shù)據(jù)項的能量函數(shù),D為待求的當前深度幀,Dp為當前深度幀D在P 點的像素值。
[0017] 平滑項的建立,具體包括以下步驟:
[0018] 3-1)利用彩色圖像I,對其中的每一點像素 p,采用LK光流算法粗略尋找相鄰幀中 的對應像素 ft,LK為Lucas-Kanade的字頭縮寫。
[0019] 3-2)采用AKNN結構在像素 ft周圍鄰域內尋找最優(yōu)的匹配像素點pt,鄰域大小為ω
X ω ;ΑΚΝΝ為Approximate K-Nearest Neighbors的字頭縮寫。匹配相似 的計 算方式如下公式所示:
[0020]
[0021 ]其中,Pp為以像素 p為中心的圖像塊,Ppt為以像素 Pt為中心的圖像塊,q和qt分別為 P和Pt鄰域N(p)和N(Pt)中的像素,圖像塊大小和鄰域大小均為ω : X ω :; Iq和Itk為像素 q和 qt對應的彩色值。
[0022] 3-3)利用求得的匹配相似度 t算時域相似權重top,pt,公式如下:
[0023]
[0024] 其中,N為歸一化因子,σρ為指數(shù)函數(shù)的調控參數(shù)。
[0025] 3-4)利用當前幀的彩色圖,采用非均值局部濾波的方式計算幀內像素間的相似度 權重ω Ρ? Ch
[0026] 3-5)結合3-3)和3-4)中得到的時域、空域權重ωρ,ρ#Ρiup t qt '以概率方式融合視 頻相鄰的深度幀信息構建平滑項,公式如下:
[0027]
[0028] 其中,Ε_4( ·)為平滑項的能量函數(shù),t為當前幀的相鄰幀,D^t為第t幀在像素 qt 上的深度值;N(pt)為像素 Pt的鄰域,大小為ω 2 X ω 2。
[0029] 能量方程創(chuàng)建和定點迭代濾波算法的推導,具體包括以下步驟:
[0030] 4-1)引入平衡因子λ將數(shù)據(jù)項和平滑項結合為如下能量方程:
[0031]
[0032]其中min為求取能量方程的最小值。
[0033] 4-2)對4-1)中的能量方程進行求導并置零來求得最優(yōu)的深度值,方程如下:
[0034]
[0035] 其中,rt為像素 Pt鄰域內的像素。fx^rt,Pt為像素 rt和Pt間的空域權重、為像素 rt和qt間的空域權重、Dtrt為第t幀在像素 rt上的深度值。
[0036] 4-3)利用4-2)中求導的結果構建定點迭代濾波算法對當前的低質量深度幀進行 濾波提高質量,并得到最終的高質量深度幀。算法流程如下:
[00371
[0038]其中,為迭代前的深度圖初始化結果,為第k+Ι次迭代求得的結果,k+ 1為迭代的次數(shù)。算法在第k次的迭代結果的基礎上濾波得到第k+Ι次結果。
[0039] 本發(fā)明的有益效果是:
[0040] 本發(fā)明構建了多路視頻加深度信息為表示方式的3DTV原型系統(tǒng);在此基礎上,建 立多視點深度視頻計算重建模型,并應用定點迭代濾波算法求解模型,具有以下特點:
[0041] 1、系統(tǒng)容易構建,用Kinect相機即可完成多視點深度視頻的復原;
[0042] 2、程序簡單,易于實現(xiàn);
[0043] 3、利用采集到的彩色紋理圖像、多視點圖像、和視頻幀間信息建立多視點深度視 頻計算重建模型,使得恢復結果更加精確;
[0044] 4、利用求導的方式推導出定點迭代濾波算法,避免了采用最小二乘求解大規(guī)模矩 陣求逆的問題,算法運行速度快,迭代次數(shù)少。
[0045] 本發(fā)明充分的利用了彩色紋理、多視點和時域信息,使得深度視頻恢復效果更精 確;所提的方法具有很好的可擴展性,通過簡單的加入更多地深度相機或采用更好幀率的 相機來獲得空域-時域分辨率更高的多視點深度視頻。
[0046]【附圖說明】(附圖為灰度圖)
[0047]圖1是實際搭設的系統(tǒng)和采集的數(shù)據(jù)。圖1中(a)雙視點Kinect系統(tǒng)(b)左右視點采 集的數(shù)據(jù),包括低分辨率深度視頻,高分辨率彩色視頻和扭轉視角后的初始低質量深度圖。 [0048]圖2是實際實施流程圖。
[0049] 圖3是算法的收斂速度示意圖。圖3中(a)相鄰兩次迭代間平均絕對誤差隨著迭代 次數(shù)增加的變化(b)初始深度幀(c)第二次迭代結果(d)第六次迭代結果。
[0050] 圖4是深度視頻的修復結果對比。圖4中(a)不同的彩色幀(b)本發(fā)明方法的結果 (c)其他方法結果。
【具體實施方式】
[0051] 本發(fā)明提出了一種基于Kinect相機的多視點深度視頻復原方法,結合附圖及實施 例詳細說明如下:
[0052]本發(fā)明以水平擺放的雙視點Kinect相機為成像系統(tǒng)進行多視點深度視頻采集,其 中K1S左視點(主視點)相機,心為右視點相機;每個Kinect中的彩色相機分辨率為1920 X 1080,深度相機分辨率為512 X 414,視頻幀率均為30幀/每秒,如圖1所示。在此基礎上,建立 深度計算重建模型,并設計高性能求解算法以獲得高質量多視點深度視頻。所述方法包括 下列步驟;
[0053] 1)系統(tǒng)標定及數(shù)據(jù)采集;
[0054] 1-1)用OpenCV標定工具箱對相機進行標定,得到每個Kinect相機的包括焦距、光 心的內部參數(shù)和包括旋轉、平移的外部參數(shù);
[0055] 1-2)將Kinect相機分別連在兩臺電腦上,并用一個路由器控制進行數(shù)據(jù)同步采 集。對于每一個相機,采集到的數(shù)據(jù)包括低分辨率的深度視頻和不同視角的高分辨率彩色 視頻。
[0056] 1-3)根據(jù)得到相機的內部、外部參數(shù),將獲取的左、右視點的低分辨率深度視頻扭 轉到主視點心彩色相機的視角,得到高分辨率網格下的深度散點構成的初始低質量深度視 頻;對于K 1相機的低質量深度幀,利用已知的K1視點高分辨率彩色圖、相鄰幀深度信息、另一 視點扭轉后的深度信息對當前幀進行建模和優(yōu)化;整個方法的實施流程如圖2所示。
[0057] 2)構建深度計算重建模型中的數(shù)據(jù)項:以概率方式融合主視點的初始低質量深度 視頻和另一視點扭轉后的初始低質量深度視頻構建數(shù)據(jù)項;
[0058] 2-1)對于第i個Kinect相機K1采集并扭轉視角得到的初始深度圖岱,計算每個像 素 P對應的融合權重^4,公式如下:,
[0059]
[0060]其中,exp( ·)為指數(shù)函數(shù),d為倆相機彩色攝像頭光心間的距離,〇為指數(shù)函數(shù)的 調控參數(shù),取值范圍為4.0~6.0,以中間值為佳;Dj3為像素 ρ的深度值。當Dj3 = 0時,1^相 應的為零;當@矣0時,的取值和d成指數(shù)關系反比增長。
[0061 ] 2-2)結合2-1)中得到的融合權重Iii,以概率方式融合采集的初始深度圖沒,建立 數(shù)據(jù)項,公式如下:
[0062]
[0063]其中,Edata( ·)為數(shù)據(jù)項的能量函數(shù),D為待求的當前深度幀,Dp為當前深度幀D在P 點的像素值。
[0064] 3)構建深度計算重建模型中的平滑項:應用K1相機的高分辨率彩色視頻,得到相 鄰幀間像素的時域對應關系,并計算幀內像素間的空域相似度,以概率方式融合初始低質 量深度視頻的時域和空域信息構建平滑項;
[0065] 3-1)利用彩色圖像I,對其中的每一點像素 p,采用LK光流算法(B.D. Lucas, T.Kanade et al.,"An iterative image registration techniquewith an application to stereo vision." in IJCAI,vol .81,1981,pp.674_679.)粗略尋找相鄰幀中的對應像素 Pt-LK為Lucas-Kanade的字頭縮寫D
[0066] 3-2)米用AKNN結構(C · Liu and W · T · Freeman,"A high-qual i ty Video denoising algorithmbased on reliable motion estimation,',in Proc.ECCV. Springer,2010, pp. 706-719)在像素拓周圍鄰域內尋找最優(yōu)的匹配像素點pt, 鄰域大小為11 X 11,AKNN為Approximate K-Nearest Neighbors的字頭縮寫D匹配相似度 Pp J的計算方式如下公式所示:
[0067]
[0068] 其中,Pp為以像素 p為中心的圖像塊,Ppt為以像素 Pt為中心的圖像塊,q和qt分別為 P和Pt鄰域N(p)和n(pt)中的像素,圖像塊大小和鄰域大小均為為5 X 5。Iq和Iqt為像素 q和qt 對應的彩色值。
[0069] 3-3)利用求得的匹配相似度S(Pp, Pptj計算時域相似權重<%Pt,公式如下:
[0070]
[0071] 其中,N為歸一化因子,等于鄰域權重之和。〇[)為指數(shù)函數(shù)的調控參數(shù),取值為3.5。
[0072] 3-4)利用當前幀的彩色圖,采用非均值局部濾波的方式計算空域幀內像素間的相 似度權重 toPtAt。
[0073] 3-5)結合3-3)和3-4)中得到的時域、空域權重wp,pt和^^%\ qt '以概率方式融合視 頻相鄰的深度幀信息構建平滑項,公式如下:
[0074]
[0075] 其中,Ε_4( ·)為平滑項的能量函數(shù),t為當前幀的相鄰幀,Dgt為第t幀在像素 qt 上的深度值,N(pt)為像素 Pt的鄰域,大小為9 X 9。
[0076] 4)聯(lián)合上述兩項建立最終的能量方程,應用定點迭代濾波算法進行求解。
[0077] 4_n印λ平衡田早λ抱撒抿I苗和平猾項結合為如下能量方程:
[0078]
[0079] 其中min為求取能量方程的最小值。平衡因子λ取值為0.1。
[0080] 4-2)對4-1)中的能量方程進行求導并置零,方程如下:
[0081]
[0082] 利用求導來求得最優(yōu)的深度值結果:
[0083]
[0084] 其中,rt為像素 Pt鄰域內的像素。為像素 rt和Pt間的空域權重、為像素 rt和qt間的空域權重、D|t為第t幀在像素 rt上的深度值。
[0085] 4-3)利用4-2)中求導的結果構建定點迭代濾波算法對當前的低質量深度幀進行 濾波提高質量,并得到最終的高質量深度幀。算法流程如下:
[0086]
[0087]其中,Df為迭代前的深度圖初始化結果,為第k+Ι次迭代求得的結果,k+1 為迭代的次數(shù)。算法在第k次的迭代結果的基礎上濾波得到第k+1次結果。算法重復以上過 程直至收斂得到最終結果。算法的收斂性和收斂結果如圖3所示:算法在第六次迭代的時候 已經收斂,深度恢復結果也為最佳,故實驗中設置迭代次數(shù)k = 6。
[0088] 對深度視頻中的每幀依次重復上述2)-4)步驟,直到恢復完畢整個深度視頻。
[0089] 本實施例對兩組數(shù)據(jù)的最終恢復結果及與其他方法的比較如圖4所示,其中(a)圖 為兩組數(shù)據(jù)中挑選出來的不同彩色幀,(b)圖為采用本發(fā)明方法得到的插值幀結果;(C)圖 為采用基于加權模式濾波方法(Min,D. ,Lu,J.,Do,M. :Depth video enhancement based on joint global mode filtering. IEEE TIP 21(3) ,2012,1176-1190)得到的恢復幀結 果。
【主權項】
1. 一種基于Kinect相機的多視點深度視頻復原方法,其特征在于,包括下列步驟: 1) 標定每個Kinect相機的內部參數(shù)和外部參數(shù);將多視點的低分辨率深度視頻扭轉到 同一相機的彩色視角下,得到多視點的初始低質量深度視頻; 2) 構建數(shù)據(jù)項:以概率方式融合多視點的初始低質量深度視頻的深度信息構建數(shù)據(jù) 項; 3) 構建平滑項:應用步驟1)中當前相機的高分辨率彩色視頻,得到相鄰幀間像素的時 域對應關系,并計算幀內像素間的空域相似度,以概率方式融合初始低質量深度視頻的時 域和空域信息構建平滑項; 4) 聯(lián)合數(shù)據(jù)項和平滑項建立能量方程,應用定點迭代濾波算法進行求解,得到高質量 多視點深度視頻。2. 根據(jù)權利要求1所述的一種基于Kinect相機的多視點深度視頻復原方法,其特征在 于,步驟2)中數(shù)據(jù)項的建立,具體包括以下步驟: 2-1)對于第i個Kinect相機I采集并扭轉視角得到的初始低質量深度圖β'計算每個像 素 P對應的融合權重:?,公式如下:式中,exp( ·)為指數(shù)函數(shù),d為相鄰相機彩色攝像頭光心間的距離,σ為指數(shù)函數(shù)的調 控參數(shù),取值范圍為4.0~6.0; 為像素 ρ的深度值; 2- 2)結合2-1)中得到的融合權重V,以概率方式融合采集的初始低質量深度圖扠,建立 數(shù)據(jù)項,公式如下:式中,Edata( ·)為數(shù)據(jù)項的能量函數(shù),D為待求的當前深度幀,DP為當前深度幀D在p點的 像素值。3. 根據(jù)權利要求2所述的一種基于Kinect相機的多視點深度視頻復原方法,其特征在 于,步驟3)中平滑項的建立,具體包括以下步驟: 3- 1)利用彩色圖像I,對其中的每一點像素 p,采用Lucas-Kanade光流算法粗略尋找相 鄰幀中的對應像素 ft;: 3-2)采用Approximate K-Nearest Neighbors結構在像素兩周圍鄰域內尋找最優(yōu)的匹 配像素點Pt,鄰域大小為ω X ω ;匹配相似度S(Pp,Ppj的計算方式如下公式所示:式中,Pp為以像素 P為中心的圖像塊,ΡΡιΛ以像素 Pt為中心的圖像塊,q和qt分別為p和Pt 鄰域N(p)和N(pt)中的像素,圖像塊大小和鄰域大小均為ω : X ω :; Iq和Iqt為像素 q和qt對應 的彩色值; 3-3)利用求得的匹配相似度S(Pp, Ppt;)計算時域相似度權重C〇P,Pt,公式如下:式中,N為歸一化因子,等于鄰域權重之和;〇P為指數(shù)函數(shù)的調控參數(shù); 3-4)利用當前幀的彩色圖,采用非均值局部濾波的方式計算空域相似度權重Wpt,qt; 3- 5)結合3-3)和3-4)中得到的時域相似度權重%,pt、空域相似度權重ωρΛ,以概率 方式融合視頻相鄰的深度幀信息構建平滑項,公式如下:式中,Es_th( ·)為平滑項的能量函數(shù),t為當前幀的相鄰幀,D&為第t幀在像素 qt上的 深度值,N(pt)為像素 pt的鄰域,大小為ω2Χ ω2。4.根據(jù)權利要求3所述的一種基于Kinect相機的多視點深度視頻復原方法,其特征在 于,步驟4)具體包括以下步驟: 4- 1)引入平衡因子λ將數(shù)據(jù)項和平滑項結合為如下能量方程:式中,min為求取能量方程的最小值; 4-2)對4-1)中的能量方程進行求導并置零,方程如下:利用求導來求得最優(yōu)的深度值結果:式中,rt為像素 pt鄰域內的像素為像素 rt和pt間的空域權重、為像素 rt和 qt間的空域權重、Di-t為第t幀在像素 rt上的深度值。 4-3)利用4-2)中求導的結果構建定點迭代濾波算法對當前的低質量深度幀進行濾波, 得到高質量深度幀,算法流程如下:其中,為迭代前的深度圖初始化結果,Df+1)為第k+Ι次迭代求得的結果,k+Ι為迭 代的次數(shù);算法在第k次的迭代結果的基礎上濾波得到第k+1次結果。
【文檔編號】G06T7/00GK106056622SQ201610680651
【公開日】2016年10月26日
【申請日】2016年8月17日
【發(fā)明人】葉昕辰, 李豪杰, 樊鑫, 羅鐘鉉
【申請人】大連理工大學