本發明涉及三維重建,更具體地說,涉及一種語義感知的多視圖地形三維重建方法、介質及設備。
背景技術:
1、多視圖三維重建方法,根據輸出數據形式可以分為基于點云的方法、基于體素的方法、基于mesh的方法和基于深度圖的方法。基于點云、體素和mesh的多視圖三維重建方法雖然簡單直觀,但由于這三類輸出數據形式與輸入多視圖之間存在模態差異,神經網絡模型優化相對困難。
2、而基于深度圖的方法將三維場景重建問題轉換到多視圖對應的深度圖的預測問題,利用神經網絡模型直接進行優化,這種方法使重建過程更為直接高效。此外,深度圖作為多視圖與三維場景的中間表示,能夠靈活的應用于不同的下游任務中。因此,基于深度圖的方法是目前多視圖三維重建的主流技術方案。
3、早期傳統多視圖三維重建方法依賴手工設計的特征和相似度度量方法,對多視圖進行特征提取和特征匹配找到不同視圖間對應的特征點,然后利用雙目幾何關系計算深度圖。但是傳統多視圖三維重建方法計算復雜量大,并且十分依賴手工參數,導致算法在遮擋區域和弱紋理區域等場景下泛化能力較差。為了解決這一問題,早期工作mvsnet利用神經網絡模型來完成多視圖三維重建任務,具有較強的泛化能力。其提出的一種端到端的、低內存消耗的多視圖三維重建方法,奠定了基于深度學習的多視圖三維重建方法的基礎。之后,casmvsnet提出三階段的網絡結構,構建不同尺度特征金字塔和代價體金字塔預測不同尺度的深度圖,從而實現由粗到細(coarse-to-fine)的深度預測,在降低多視圖三維重建方法的計算量的同時極大地提高重建質量;后續的大多數工作延續這種由粗到細的重建范式。
4、之前的方法盡管取得極大進展,但是已有的方法存在如下兩點不足:
5、1)忽略多視圖的語義信息,缺少對多視圖之間的語義信息的探索和挖掘;尤其在地形三維重建任務中,多視圖之間遮擋現象十分常見,這限制了現有多視圖三維重建方法的性能;
6、2)簡單地利用語義分割模型獲取多視圖的顯式分割結果并在此基礎上進行特殊處理;該方式受限于語義分割模型的準確性和泛化能力,語義分割模型并不能對任意三維場景的多視圖三維重建提供準確的分割結果,從而影響算法效果。
技術實現思路
1、為克服現有技術中的缺點與不足,本發明的目的在于提供一種語義感知的多視圖地形三維重建方法、介質及設備;該方法利用自監督預訓練的遙感模型和注意力模塊挖掘多視圖之間語義相關性,輔助神經網絡模型估計地形多視圖的深度圖,從而實現更精確的地形三維重建。
2、為了達到上述目的,本發明通過下述技術方案予以實現:一種語義感知的多視圖地形三維重建方法,基于多視圖地形三維重建模型;多視圖地形三維重建模型包括語義信息交互模塊、多尺度特征提取模塊和深度預測模塊;
3、語義感知的多視圖地形三維重建方法,包括如下步驟:
4、s1、輸入由參考視圖和源視圖組成的多視圖圖像,以及多視圖圖像對應的相機參數;
5、s2、利用語義信息交互模塊對多視圖圖像提取三級多視圖特征,然后通過三層語義信息注意力層得到參考視圖和源視圖之間的語義相關信息,從而得到語義信息交互特征;
6、s3、結合多視圖圖像與語義交互特征,借助多尺度特征提取模塊,進行多尺度特征提取,分別獲得d種不同尺度的多視圖特征;其中,d≥3且d為整數;
7、s4、采用深度預測模塊對多視圖特征進行d個階段深度預測:每個階段對應一種尺度的多視圖特征,且前一階段的多視圖特征尺度<后一階段的多視圖特征尺度;各個階段的分步驟分別包括可微分單應變換、自適應聚合和深度預測;下一階段深度預測均以階段對應尺度的多視圖特征,結合上一階段深度預測,以進行深度預測細化和迭代;深度預測模塊以最后一個階段得到的深度預測圖作為輸出;
8、s5、將深度預測模塊輸出的深度預測圖與對應的相機參數相結合,將參考視角對應的參考視圖像素點反投影到三維空間,在反投射過程中利用多視角之間的一致性約束過濾像素點,從而生成最終的三維點云,完成三維重建。
9、優選地,所述步驟s2中,語義信息交互模塊包括自監督遙感模型和三層語義信息注意力層;所述自監督遙感模型是指由若干層transformer塊組成的視覺transformer模型;
10、所述語義信息交互特征的獲取方法是:
11、多視圖圖像輸入到自監督遙感模型,提取自監督遙感模型中間不同的兩層、以及最后一層transformer塊輸出的特征作為三級多視圖特征;將第一級多視圖特征中的參考視圖特征輸入自注意力層進行全局語義信息更新;將更新后的參考視圖特征作為交叉注意力層的q,源視圖特征作為k和y,捕捉參考視圖和源視圖之間的語義相關性得到更新后的源視圖特征,完成第一輪的語義信息更新與交互;
12、之后拼接更新后的參考視圖特征和源視圖特征,與下一級的多視圖特征相加后進行下一輪的語義信息更新與交互;重復執行,直至完成三輪語義信息更新與交互;將第三輪語義信息更新與交互得到的參考視圖特征和源視圖特征拼接,作為最終的語義信息交互特征。
13、優選地,所述步驟s3中,多尺度特征提取模塊包括一系列卷積層和插值上采樣層;
14、多尺度特征提取模塊對多視圖圖像進行多層卷積操作,并在最底層卷積后加入語義信息交互模塊得到的語義信息交互特征;從所述多層卷積中抽取中間不同d-1層卷積的輸出,以及最底層卷積加入語義信息交互特征后的輸出,通過卷積和插值上采樣層,得到d種不同尺度的多視圖特征。
15、優選地,在所述步驟s4中,可微分單應變換是指:基于當前階段對應尺度的多視圖特征進行可微分單應變換,得到參考視角下的多視圖變換特征其中v0是參考視角下的參考視圖特征,是參考視角下的源視圖特征;自適應聚合是指:對多視圖變換特征進行自適應聚合,得到代價體c;深度預測是指:利用3d?u-net對代價體c進行正則化,計算參考視角對應的參考視圖每個像素點的絕對深度預測值,形成深度預測圖。
16、優選地,所述可微分單應變換,基于當前階段對應尺度的多視圖特征以參考視圖特征f0為參考視角,建立一系列深度假設平面,并將所有源視圖特征通過相機參數變換到參考視角下得到源視圖變換特征此外參考視圖特征f0直接作為參考視圖變換特征v0;
17、第一個階段的一系列深度假設平面是指:通過在多視圖特征的深度范圍進行均勻采樣得到的一系列深度假設平面;第二個以后階段的一系列深度假設平面是指:以前一階段得到深度預測圖作為初始深度、前一階段初始深度范圍的一半作為深度范圍來設置一系列深度假設平面;后一階段深度假設平面數量<前一階段深度假設平面數量。
18、優選地,所述自適應聚合,對于可微分單應變換后得到的多視圖變換特征首先將每個源視圖變換特征與參考視圖變換特征v0計算相似度的帶匹配代價,然后通過一個子網絡學習出對應的權重ωi并對匹配代價進行加權,將所有的匹配代價進行加權求和,得到最終的代價體c:
19、
20、優選地,所述深度預測,利用3d?u-net對代價體c進行正則化;預測參考視圖特征f0每個像素點在每個深度假設平面的概率,以概率加權的方式計算得到參考視圖每個像素點的絕對深度預測值pred_depth,形成深度預測圖;
21、每個像素點的絕對深度預測值pred_depth為:
22、pred_depth=d0×p0+d1×p1+…+dq-1*pq-1
23、其中,d0、d1、…、dq-1分別代表q個深度假設平面;p0、p1、…、pq-1分別代表q個深度假設平面對應的概率。
24、優選地,所述多視圖地形三維重建模型是指經過訓練的多視圖地形三維重建模型;深度預測模塊訓練中,凍結語義信息交互模塊的自監督遙感模型,分別計算深度預測模塊各個階段的損失,總損失為所有階段損失的加權和;然后進行梯度反向傳播和模型參數更新,重復訓練若干輪。
25、一種可讀存儲介質,其中所述存儲介質存儲有計算機程序,所述計算機程序當被處理器執行時使所述處理器執行所述的語義感知的多視圖地形三維重建方法。
26、一種計算機設備,包括處理器以及用于存儲處理器可執行程序的存儲器,所述處理器執行存儲器存儲的程序時,實現所述的語義感知的多視圖地形三維重建方法。
27、與現有技術相比,本發明具有如下優點與有益效果:
28、本發明著重探索和挖掘多視圖之間的語義關系,借助自監督預訓練的遙感模型的泛化能力和語義涌現能力提取魯棒的、多層次的多視圖語義特征,設計注意力模塊逐層融合和交互參考視圖和源視圖之間的語義相關信息,加強模型對多視圖之間的語義感知能力,輔助模型估計地形多視圖的深度預測圖,增強多視圖三維重建模型的性能,從而實現更精確的地形三維重建。