一種rgbd圖像中物體形狀的補全方法
【專利摘要】本發明公布了一種RGBD圖像中物體形狀的補全方法,該方法采用單幅RGBD圖像中預分割出的物體作為輸入,借助數據庫中的同類別三維模型計算估計出初步的完整形狀,然后通過基于體塊匹配的優化算法計算得到最優的完整形狀;本發明簡化了三維數據采集的復雜流程,用戶不再需要手持RGBD相機圍繞物體進行多次掃描,而只需像拍攝照片一樣按一個按鈕即可;本發明的方法在后臺可以將用戶拍攝的單幅RGBD圖像的數據進行自動補全,補全后的物體形狀不僅從全局外觀上符合用戶預期,而且局部細節也和RGBD圖像中可見部分的細節保持一致。
【專利說明】
一種RGBD圖像中物體形狀的補全方法
技術領域
[0001] 本發明涉及三維幾何建模領域,尤其涉及一種基于單幅RGBD圖像的幾何形狀補全 的方法。
【背景技術】
[0002] 三維形狀補全技術在不完整數據恢復領域得到廣泛的應用。早期工作如包括平滑 和網格重構技術(S.Bischoff,et al. "Automatic restoration of polygonmodels," ACMTrans .Graph?,24(4): 1332-1352 ?),分散數據擬合技術(S. Shalom,A. Shamir,H.Zhang, and D?Cohen-〇r,"Cone carving for surface reconstruction,"ACM Trans.Graph.,29 (5).)用于處理平滑表面的缺失小洞,但是對于復雜的缺失區域較難得到較好的結果。基于 內容的補全技術通過探索自相似性來使用自身的紋理或重復元素來補全物體的缺失區域 (A. Sharf ,M. Alexa ,and D ? Cohen-〇r , "Context-based surface completion ACM Trans.Graph.,23(3):878-887.)(G.Harary,A.Tal,and E.Grinspun,uContext-based coherent surface completion,"ACM Trans.Graph.,33(1) :5:1-5:12.),但是此類方法主 要用于補全三維模型的小洞,不能直接用于單幅RGBD圖像,因為單幅RGBD圖像中幾乎一半 的幾何信息不可見。基于模板的方法將完整的模板模型變形,對齊到輸入數據,然后利用匹 配的模板區域來補洞(V.Kraevoy and A.Sheffer, "Template-Based Mesh Completion," in Proceedings of SGP,2005.)(M.Pauly,N.J.Mitra,J.Giesen,M.Gross,and L.J.Guibas,"Example-Based 3D Scan Completion,"in Proceedings of SGP,2005.)〇這 類方法可以補全大洞,但是當模板局部細節和輸入不一樣時,此類方法無法恢復出一致的 形狀細節。最新的從單幅深度圖中恢復完整形狀的方法是基于機器學習的方法,如使用深 度神經網絡來自動預測物體類別和全局形狀( Z ? Wu,S ? Song,A ? Kh〇sla,F ? Yu,L ? Zhang, X.Tang,and J.Xiao,"3d shapenets:A deep representation for volumetric shapes," in Proceedings of CVPR,2015,1912-1920.)(J.Rock,T.Gupta,J.Thorsen,J.Gwak, D.Shin,and D?Hoiem,"Completing 3d object shape from one depth image /'in Proceedings CVPR,2015,1810-1817.)。此類方法可以處理大量一般物體,但是幾何細節經 常丟失。
【發明內容】
[0003] 本發明的目的在于針對現有技術的不足,提供了一種RGBD圖像中物體形狀的補全 方法。本發明利用數據驅動的方法獲得目標形狀的大致估計后,通過迭代優化得到物體完 整形狀。本發明可簡化三維數據采集流程,具有很高的實用價值。
[0004] 本發明的目的是通過以下技術方案來實現的:一種單幅RGBD圖像的物體形狀補全 方法,包括如下步驟:
[0005] (1)數據驅動的初始解計算:將數據庫中的同類別三維模型和輸入的深度數據進 行匹配,將最優匹配的模型和深度數據轉化為體素表達作為初始解。
[0006] (2)基于體塊匹配的優化算法:為待優化目標區域的體素組成的體塊尋找相似的 源區域的體塊,然后進行受約束的非線性優化。尋找和優化步驟交替進行,直到收斂。
[0007] (3)基于體塊融合的去噪:對優化后的每一個體塊搜索數據庫模型中相似的多個 體塊,并將它們融合到對應的體塊中去,去除優化后形狀表面的高頻噪聲。
[0008] 進一步地,所述步驟(1)主要包括以下子步驟:
[0009] (1.1)剛體變換數據庫模型,使得變換后模型到輸入深度數據之間的距離最小。 [0010] (1.2)在得到步驟1.1的最佳剛體匹配后,進一步非剛體變形模型,改善匹配;在非 剛體變形中引入對稱性能量項,盡可能在變形過程中維持對稱性。
[0011] (1.3)如果數據庫模型被預分割為各個部分,在得到步驟1.2的非剛體匹配之后, 進一步對各個部分在局部范圍內進行步驟1.1的剛體匹配和步驟1.2的非剛體匹配,以改善 各組成部分的匹配。
[0012] (1.4)挑選最優匹配。如果模型沒有被預分割,直接挑選步驟1.2后的變形后匹配 最好的模型作為最優匹配的模型。如果模型被預分割,則挑選各個模型中匹配最好的部件, 拼接在一起,組成最優匹配模型。
[0013] (1.5)將深度數據和最佳匹配模型分別轉化為基于三維柵格的有向距離場表達, 柵格的每個體素記錄了它到真實表面的有向距離,并只記錄和真實表面很近的體素的值。 保持深度數據對應的體素的值不變,將匹配模型對應的體素融合到深度數據對應的三維柵 格中。
[0014] 進一步地,所述步驟(2)主要包括以下子步驟:
[0015] (2.1)體塊匹配,為目標區域尋找一個最優的填充,使得目標區域的每個體素組成 的小塊都能在源區域內找到相似的小塊。
[0016] (2.2)帶約束的非線性優化,使得目標體素的值盡可能滿足步驟2.1的匹配關系, 同時也必須滿足可見性約束,置信度約束和對稱性約束。
[0017] (2.3)迭代求解,按從粗到細的順序在每一個尺度下不斷迭代步驟2.1和2.2,直到 物體的形狀收斂,不再更新。
[0018] 本發明的有益效果是:本發明通過受約束優化不準確的初始解,并結合去噪算法, 可以從RGBD圖像中得到高質量的完整物體形狀。形狀的局部細節和可見區域保持一致,同 時形狀的整體幾何和拓撲也符合用戶預期。本發明簡化了三維數據采集的復雜流程,用戶 不再需要手持RGBD相機圍繞物體進行多次掃描,而只需像拍攝照片一樣按一個按鈕即可; 本發明的方法在后臺可以將用戶拍攝的單幅RGBD圖像的數據進行自動補全,補全后的物體 形狀不僅從全局外觀上符合用戶預期,而且局部細節也和RGBD圖像中可見部分的細節保持 一致。
【附圖說明】
[0019]圖1是本發明的算法流程圖;左列:輸入的RGBD圖像沖間:基于數據驅動的初始 解;右列:基于體塊匹配的滿足約束的優化結果;
[0020] 圖2是初始解的求解過程圖;從左到右為:輸入深度數據,剛體變換后的匹配模型, 非剛體變換后的匹配模型,轉化為體素表達的初始解;
[0021] 圖3是本發明在真實數據上的形狀補全結果圖;從左到右為:輸入的RGBD圖像,物 體的深度數據,最佳匹配的數據庫模型,優化后的最終物體形狀。
【具體實施方式】
[0022]本發明的核心技術是使用基于三維體塊匹配的形狀優化算法,優化根據數據庫模 型匹配得到的初始形狀估計,以此得到整體幾何符合用戶預期且局部細節和可見區域一致 的RGBD圖像物體的完整形狀。本發明包括以下步驟:
[0023] 1.數據驅動的初始解計算:給定RGBD圖像中的物體類別,將數據庫中的同類別三 維模型和物體深度數據進行匹配來估計不可見區域的大致形狀。
[0024] 1.1?剛體匹配
[0025] 首先將模型的向上方向(存儲在數據庫中)和輸入深度數據的向上方向(檢測支持 平面的法向)對齊,支持平面的檢測使用的是基于RANSAC的方法(R. Schnabe 1,R. Wah 1,and R.Klein,"Efficient ransac for pointcloud shape detection,',CGF,vol?26,no?2, pp. 214-226,2007.);然后將模型縮放并平移到輸入數據的包圍盒中。最后,遍歷搜索模型 圍繞向上方向的最佳角度,使得模型到輸入深度數據之間的距離最小。
[0026] 1.2?非剛體匹配
[0027] 得到步驟1 ? 1的最佳剛體匹配后,進一步使用Embedded deformation算法 (R.ff.Sumner,J.Schmid,and M?Pauly,"Embedded deformation for shape manipulationACM Trans .Graph?,vo 1 ? 26,no ? 3 ,pp ? 80-85 ,Aug? 2007 ?)來進行非剛體匹 配,以改善當前匹配。非剛體匹配是迭代進行,每一步迭代中,首先為模型中嵌入的控制點 尋找深度數據中的最近的對應點,然后求解Embedded deformation方程,變形后重新計算 對應點。
[0028]為了盡可能地維持對稱信息,本發明在變形的能量方程中加入對稱項,保證變形 后的對稱點盡可能保持對稱:
[0030]其中,(ti,Si)是一對對稱點,(g(t)i,g(Si))是它們變形后的位置,Ri是ti到Si的對 稱變換,N是對稱點對的個數。
[0031] 1.3?局部改善
[0032]如果數據庫模型被預分割為各個部分,在得到步驟1.2的非剛體匹配之后,進一步 對各個部分在局部范圍內進行步驟1.1的剛體匹配和步驟1.2的非剛體匹配,以改善各組成 部分的匹配。
[0033] 1.4?最優匹配
[0034]如果模型沒有被預分割,直接挑選步驟1.2后的變形后匹配最好的模型作為最優 匹配的模型。最優匹配是指模型到輸入深度數據之間的距離最小。如果模型被預分割,則挑 選各個模型中匹配最好的部件,拼接在一起,組成最優匹配模型。
[0035] 1.5?轉化為體素表達
[0036]假設相機處于世界坐標系原點,將深度數據反投為世界坐標系的三維點云,再將 點云嵌入到三維柵格中轉化為有向距離場表達(S.Osher and R.Fedkiw, Level Set Methods and Dynamic Implicit Surfaces,ser.Applied Mathematical Sciences.Springer,2003.),每個體素記錄了它到真實表面的有向距離。本發明只記錄和 真實表面很近的體素的值。對于最佳匹配的三維模型,同樣將它轉換成三維柵格的有向距 離場表達(Y ? Oh take, A.Belyaev,M.Alexa,G. Turk,and H.-P .Seidel, "Mul ti level partition of unity implicits,"in Proceedings of SIGGRAPH.New York,NY,USA:ACM, 2003,pp.463-470.),同樣也只記錄和真實表面很近的體素的值。最后,保持深度數據對應 的體素的值不變,將匹配模型對應的體素融合到深度數據對應的三維柵格中。
[0037] 2.基于體塊匹配的優化算法:在步驟1得到的以體素表達的初始解的基礎上,為待 優化目標區域的體素組成的體塊尋找相似的源區域的體塊,然后進行受約束的非線性優 化。尋找和優化步驟迭代交替進行,直到收斂。
[0038] 2.1 ?體塊匹配
[0039] 為目標區域尋找一個最優的填充,使得目標區域的每個體素組成的小塊都能在源 區域內找到相似的小塊。目標區域T包括輸入數據的可見區域T k和不可見區域Tu,它們對應 的源區域分別是步驟1.4的最佳匹配模型的所有區域Sd和輸入數據的可見區域S k。體塊匹配 的過程如下:
[0040] (1)匹配初始化,對于每個目標體素 q,它對應的體塊是Q = N(q),在源區域隨機采 樣一個源體素 p得到源體塊N(p)并施加一個隨機變換f得到對應的匹配源體塊P = f (N(p))。
[0041] (2)匹配擴散,利用相鄰的體塊來改善當前匹配:
[0042] ^ argmin D(Q,Ph) 忍e|P,Pf-+ W)
[0043] 其中,Q是當前目標體塊,P是Q匹配的源體塊,Px-+是Q的左鄰居匹配的源體塊的右 鄰居,Py-+是Q的上鄰居匹配的源體塊的下鄰居,P z-+是Q的前鄰居匹配的源體塊的下鄰居;Pb 是這四個源體塊中的任一個,與Q進行匹配;P*是這四個中匹配得最好的源體塊,作為Q的新 的匹配源體塊。
[0044] (3)隨機搜索,通過比較一組隨機生成的體塊來進一步尋找更好的匹配源體塊:
[0045] 產-噸 min /:)(0,巧)。 Pbe\P}u{P,i
[0046] 其中,Q是當前目標體塊,P = f(N(p))是Q匹配的源體塊,p是源體塊對應的體素 A: = fi(N(p+w ? 0.51 ? ri))是隨機生成的源體塊,w是三維柵格的大小,fi是隨機采樣的變換: 圍繞各個軸的旋轉和反射的組合
,n= [-1,1 ] X [-1,1 ] X [-1,1 ],i = 〇,1,2,...直到搜索半徑w ? 0.51小于一個體素大小。Pb是P和隨機生成的源體塊中的任一 個,與Q進行匹配;P*是其中匹配得最好的源體塊,作為Q的新的匹配源體塊。
[0047] (4)交替迭代步驟(2)和(3),本方法固定使用四次:在奇數次迭代進行順序掃描, 在偶數次迭代進行逆序掃描。
[0048] 2.2.帶約束的非線性優化
[0049]經過步驟2.1的體塊匹配,所有的目標體素都有一系列和它最匹配的來源體素。為 了得到當前目標體素的最優值,優化下述帶約束的能量方程,使得目標體素的值盡可能滿 足步驟2.1的匹配關系,同時也必須滿足可見性約束,置信度約束和對稱性約束:
[0050] argmin 心(r,'S') + 々£v(7V,'K 乂 ACas.t.M.cUrpO,:
[0051] 這里T是目標區域,S是源區域,f是目標區域的初始值,AC = AS = 1是對應的權重系 數。h(T,S)度量體塊的匹配誤差,士(7'1)是表面置信度項,es(T)是對稱性項,M ? d(T)>0 是可見性約束,具體定義如下:
[0052] 心(廠,5") = S tji、n ')似尸), q[l
[0053] 其中,T是目標區域,S是源區域,Q = N(q)是圍繞目標體素 q的目標體塊,P = f(N (P))是在圍繞源體素 P的并施加了隨機變換f的源體塊。D(Q,P)給出了 P和Q的差異度量:D (Q,P)=| |d(Q)_d(P)| |2,其中(10((1)) = {(1((1°),(1((11),...,(1((111)},(1((11)是存儲在體素(1 1 中的有向距離值,n是體塊的體素個數。
[0054] Sc(TJ)=Y\wv{d{q)-d{q))\ ,
[0055] 其中,T是目標區域,f是目標區域的初始值,d(q)是存儲在體素 q中的有向距離 值,目標體素的初始有向距離值,wq是衡量J(的可靠性的權重。對于不可見體素,權重 為0。對于可見體素,權重的定義為
。其中Q是q的有向距離值,〇2 是所有可見體素的值的方差,1是使用主成分分析方法估計的噪音水平(S. Pyatykh, J.Hesser,and L?Zheng,"Image noise level estimation by principal component analysis,"IEEE Trans.Image Processing,vol?22,no?2,pp?687-699,Feb?2013?),〇i是 根據預采集的RGBD圖像估計出的平均噪聲水平。
[0056] (T) = Z ~ d> q-^T
[0057] 其中,T是目標區域,d(q)是存儲在體素 q中的有向距離值,q*是q的對稱體素 ,d (q*)存儲在體素 q*中的有向距離值。
[0058] M ? d(T)>0,
[0059] 其中,T是目標區域,M是對角陣,矩陣大小是目標區域的體素數。Mn = l表示對應的 體素可見,Mn = 0表示不可見。d(T)是列向量,包含了目標區域所有體素的值。
[0060] 經過步驟2.1的體塊搜索匹配后,優化能量方程中的P變為已知量,所有的目標體 素都有一系列和它最匹配的來源體素。優化能量方程退化為帶不等式約束的最小二乘問 題。首先將此問題松弛為無約束的優化問題,該問題的最優解在偏微分為〇時得到。在得到 無約束優化的最優解之后,通過檢查目標區域的可見體素是否滿足可見性約束,將最優解 再反投到可行域中。如果可見目標體素的值小于等于0,則給它賦一個很小的正值。
[0061 ] 2.3?迭代求解
[0062]按從粗到細的順序在每一個尺度下不斷迭代步驟2.1和2.2,直到物體的形狀收 斂,不再更新。
[0063] 3.基于體塊融合的去噪算法
[0064]通過步驟1和2,可以得到整體形狀符合預期,且細節和可見區域保持一致的完整 幾何。但是,原始數據的高頻噪聲仍然存在。為了進一步提升最終形狀的質量,提出了基于 體塊融合的去噪算法。對于優化后的形狀的每一個體塊,在干凈無噪聲的三維模型數據庫 中搜索10個最相似的體塊,并將它們融合到對應的體塊中。因為這些相似體塊干凈無噪聲, 所以高頻噪聲會隨著這些體塊的融入而逐漸消失。相似體塊的搜索使用的是步驟2.1中的 體塊匹配搜索算法。
[0065] 實施實例
[0066] 發明人在一臺配備Intel 15-4430中央處理器,Nvidia GeForce GTX760顯卡以及 16GB內存的臺式計算機上實現了本發明的實施實例。
[0067]發明人使用Microsoft Kinect采集了多個類別物體的RGBD圖像(如椅子、桌子、雕 像、自行車、容器和玩具等),以及使用美國UIUC發布公共數據集來測試發明的實驗結果。結 果表明,在我們目前的硬件配置上,本發明可以在較短的時間內將單幅RGBD圖像中的物體 缺失的大量幾何信息給補全。盡管通過數據驅動的方法得到的初始解在幾何和拓撲上和輸 入數據有很大不同,本發明的基于體塊匹配的優化算法通過結合表面置信度約束,可見性 約束和對稱約束,可以很好地恢復出最終的完整幾何信息。在最終補全的幾何信息中,RGBD 圖像的噪聲得到了抑制,整體形狀和拓撲結構符合用戶的預期,而且恢復出局部幾何細節 和輸入數據保持一致。
【主權項】
1. 一種RGK)圖像中物體形狀的補全方法,其特征在于,包括以下步驟: (1) 數據驅動的初始解計算:將數據庫中的同類別三維模型和輸入的深度數據進行匹 配,將最優匹配的模型和深度數據轉化為體素表達作為初始解。 (2) 基于體塊匹配的優化算法:為待優化目標區域的體素組成的體塊尋找相似的源區 域的體塊,然后進行受約束的非線性優化。尋找和優化步驟交替進行,直到收斂。 (3) 基于體塊融合的去噪:對優化后的每一個體塊搜索數據庫模型中相似的多個體塊, 并將它們融合到對應的體塊中去,去除優化后形狀表面的高頻噪聲。2. 根據權利要求1所述的RGBD圖像中物體形狀的補全方法,其特征在于,所述步驟(1) 主要包括以下子步驟: (1.1) 剛體變換數據庫模型,使得變換后模型到輸入深度數據之間的距離最小。 (1.2) 在得到步驟1.1的最佳剛體匹配后,進一步非剛體變形模型,改善匹配;在非剛體 變形中引入對稱性能量項,盡可能在變形過程中維持對稱性。 (1.3) 如果數據庫模型被預分割為各個部分,在得到步驟1.2的非剛體匹配之后,進一 步對各個部分在局部范圍內進行步驟1.1的剛體匹配和步驟1.2的非剛體匹配,以改善各組 成部分的匹配。 (1.4) 挑選最優匹配。如果模型沒有被預分割,直接挑選步驟1.2后的變形后匹配最好 的模型作為最優匹配的模型。如果模型被預分割,則挑選各個模型中匹配最好的部件,拼接 在一起,組成最優匹配模型。 (1.5) 將深度數據和最佳匹配模型分別轉化為基于三維柵格的有向距離場表達,柵格 的每個體素記錄了它到真實表面的有向距離,并只記錄和真實表面很近的體素的值。保持 深度數據對應的體素的值不變,將匹配模型對應的體素融合到深度數據對應的三維柵格 中。3. 根據權利要求1所述的RGBD圖像中物體形狀的補全方法,其特征在于,所述步驟(2) 主要包括以下子步驟: (2.1) 體塊匹配,為目標區域尋找一個最優的填充,使得目標區域的每個體素組成的小 塊都能在源區域內找到相似的小塊。 (2.2) 帶約束的非線性優化,使得目標體素的值盡可能滿足步驟2.1的匹配關系,同時 也必須滿足可見性約束,置信度約束和對稱性約束。 (2.3) 迭代求解,按從粗到細的順序在每一個尺度下不斷迭代步驟2.1和2.2,直到物體 的形狀收斂,不再更新。
【文檔編號】G06T17/10GK105913492SQ201610210981
【公開日】2016年8月31日
【申請日】2016年4月6日
【發明人】周昆, 邵天甲
【申請人】浙江大學, 聯想(北京)有限公司