本發明屬于計算機視覺技術領域,更具體地,涉及一種基于rgb-d視頻的機器人目標識別與定位方法及系統。
背景技術:
近年來,隨著機器人技術的快速發展,面向機器人任務的機器視覺技術也得到了研究者的廣泛關注。其中,目標的識別與精確定位是機器人視覺問題的重要一環,是執行后續任務的前提條件。
現有的目標識別方法一般包括提取待識別目標信息作為識別依據和與待識別場景的匹配兩個步驟。傳統的待識別目標的表達一般包括幾何形狀、目標外觀、提取局部特征等方法,這類方法往往存在通用性差、穩定性不足、目標抽象化能力差等不足。以上目標表達的缺陷也給后續的匹配過程帶來了難以克服的困難。
獲取待識別目標的表達后,目標匹配是指將獲得該目標表達與待識別場景特征進行比較,以識別目標。總體上講,現有的方法包括基于區域匹配和特征匹配的兩類方法。基于區域的匹配是指提取圖像局部子區域的信息進行比對,其計算量與待匹配的子區域個數成正比;基于特征的方法對圖像中的典型特征進行匹配,其匹配準確率與特征表達有效性密切相關。以上兩類方法對候選區域的獲取以及特征表達提出了較高的要求,但由于二維平面圖像信息和設計特征的局限性,在面向機器人的復雜環境識別任務中往往效果較差。
目標定位廣泛存在于工業生產生活中,如戶外運動中的gps、軍事雷達監控、艦艇聲納設備等等,此類設備定位準確、作業距離范圍很廣,但價格高昂。基于視覺的定位系統是近年來新的研究熱點。根據視覺傳感器的不同,大致可分為基于單目視覺傳感器、雙目及深度傳感器、全景視覺傳感器的定位方法。單目視覺傳感器價格低、結構簡單、易于標定,但定位精度往往較差;全景視覺傳感器可獲得完整的場景信息,定位精度較高,但計算量大、實時性較差、設備復雜昂貴;基于雙目視覺的深度估計或深度信息采集設備對場景距離感知能力較強,且系統較為簡單,實時性易于實現,近年來受到的關注也越來越多。但這一領域的研究仍處于起步階段,目前仍缺乏高效的、可實時處理rgb-depth視頻的目標定位方法。
由于對于深度信息感知能力具有較高的需求,因此現有的機器人系統大多采集rgb-depth視頻作為視覺信息來源,深度信息為場景的立體感知、復雜目標的層次性劃分、定位提供了豐富的信息。然而,由于機器人工作場景的復雜性、計算復雜度較高、運算量較大,目前尚未有系統、快速便捷的rgb-depth視頻目標識別與精確定位方法。因此,研究基于rgb-depth視頻的室內機器人目標識別與精確定位算法不僅有很強的研究價值,而且具有非常廣闊的應用前景。
技術實現要素:
針對現有技術的以上缺陷或改進需求,本發明提供了一種基于rgb-d視頻的機器人目標識別與定位方法及系統,通過處理機器人第一視角獲取的rgb-depth視頻,實現實時的、準確的目標識別,以及目標在機器人工作環境中的精準定位,從而輔助目標抓取等復雜機器人任務。由此解決目前缺乏高效的、可實時處理rgb-depth視頻的目標定位方法的技術問題。
為實現上述目的,按照本發明的一個方面,提供了一種基于rgb-d視頻的機器人目標識別與定位方法,包括:
(1)獲取待識別定位目標所在場景的rgb-d視頻幀序列;
(2)提取所述rgb-d視頻幀序列中的關鍵視頻幀,并對所述關鍵視頻幀提取目標候選區域,根據各關鍵視頻幀對應的深度信息對所述目標候選區域進行過濾篩選;
(3)基于深度網絡對過濾篩選后的目標候選區域進行識別,通過長時序時空關聯約束及多幀識別一致性估計,對目標識別結果進行置信度排序;
(4)對過濾篩選后的目標候選區域進行局部快速分割,根據目標識別結果的置信度及各關鍵視頻幀的時序間隔關系,從所述關鍵視頻幀中選取主要關鍵視頻幀,并對分割區域進行前后相鄰幀擴展及協同優化;
(5)在場景中確定關鍵特征點作為定位參照點,進而估計相機視角及相機運動估計值,通過對主要關鍵視頻幀識別分割結果進行目標特征一致性約束和目標位置一致性約束,估計待識別定位目標的協同置信度并進行空間精確定位。
優選地,所述步驟(2)具體包括:
(2.1)以間隔采樣或關鍵幀選取方法,確定用于識別待識別定位目標的關鍵視頻幀;
(2.2)采用基于似物性先驗的置信度排序方法獲取所述關鍵視頻幀中的目標候選區域組成目標候選區域集合,利用各關鍵視頻幀對應的深度信息,獲取各目標候選區域的內部及其鄰域內的層次屬性,對所述目標候選區域集合進行優化篩選、再排序。
優選地,所述步驟(3)具體包括:
(3.1)將經過步驟(2)篩選后的目標候選區域送入已訓練好的目標識別深度網絡,獲取各篩選后的目標候選區域對應的關鍵視頻幀的目標識別預測結果及各目標識別預測結果的第一置信度;
(3.2)根據長時序的時空關聯約束,對關鍵視頻幀的目標識別預測結果進行特征一致性評價,評價各目標識別預測結果的第二置信度,將由所述第一置信度與所述第二置信度得到的累積置信度進行排序,進一步過濾掉累積置信度低于預設置信度閾值的目標候選區域。
優選地,所述步驟(4)具體包括:
(4.1)對于步驟(3.2)獲得的目標候選區域及其擴展鄰域,進行快速的目標分割操作,獲得目標的初始分割,確定目標邊界;
(4.2)以短時時空一致性為約束,基于步驟(3.2)中的累積置信度排序結果,從所述關鍵視頻幀中篩選出主要關鍵視頻幀;
(4.3)以長時時空一致性為約束,基于步驟(4.1)的初始分割,對待識別定位目標進行外觀建模,對主要關鍵視頻幀及其相鄰幀進行三維圖形構建,并設計最大后驗概率-馬爾科夫隨機場能量函數,通過圖割算法對初始分割進行優化,對單幀的目標分割結果在該幀前后相鄰幀中進行分割擴展及優化。
優選地,所述步驟(5)具體包括:
(5.1)對于步驟(4.2)獲得的主要關鍵視頻幀,根據各主要關鍵視頻幀之間的相鄰及視野重合關系,提取多組同名點點對作為定位參照點;
(5.2)依據視野重合的主要關鍵視頻幀估計相機視角變化,進而通過幾何關系,利用定位參照點點對的深度信息估計相機的運動信息;
(5.3)根據主要關鍵視頻幀中待識別定位目標的測量深度信息、相機視角以及相機的運動信息,評價主要關鍵視頻幀中待識別定位目標的空間位置一致性;
(5.4)根據步驟(4.3)的結果,評價待識別定位目標二維分割區域的特征一致性;
(5.5)通過綜合評價待識別定位目標二維分割區域的特征一致性以及空間位置一致性,確定待識別定位目標的空間位置。
按照本發明的另一方面,提供了一種基于rgb-d視頻的機器人目標識別與定位系統,包括:
獲取模塊,用于獲取待識別定位目標所在場景的rgb-d視頻幀序列;
過濾篩選模塊,用于提取所述rgb-d視頻幀序列中的關鍵視頻幀,并對所述關鍵視頻幀提取目標候選區域,根據各關鍵視頻幀對應的深度信息對所述目標候選區域進行過濾篩選;
置信度排序模塊,用于基于深度網絡對過濾篩選后的目標候選區域進行識別,通過長時序時空關聯約束及多幀識別一致性估計,對目標識別結果進行置信度排序;
優化模塊,用于對過濾篩選后的目標候選區域進行局部快速分割,根據目標識別結果的置信度及各關鍵視頻幀的時序間隔關系,從所述關鍵視頻幀中選取主要關鍵視頻幀,并對分割區域進行前后相鄰幀擴展及協同優化;
定位模塊,用于在場景中確定關鍵特征點作為定位參照點,進而估計相機視角及相機運動估計值,通過對主要關鍵視頻幀識別分割結果進行目標特征一致性約束和目標位置一致性約束,估計待識別定位目標的協同置信度并進行空間精確定位。
總體而言,通過本發明所構思的以上技術方案與現有技術相比,主要有以下的技術優點:本發明中利用場景深度信息,增強了識別與定位算法的空間層次感知能力,通過采用基于關鍵幀的長短時時空一致性約束,在提高視頻處理效率的同時,保證了長時序目標識別與定位任務中目標的同一性與關聯性。在定位過程中,通過在平面空間中精確分割目標以及在深度信息空間評價同一目標的位置一致性,實現了在多信息模態中的協同目標定位。計算量小,實時性好,識別與定位精度高,可被應用于基于在線視覺信息解析理解技術的機器人任務。
附圖說明
圖1為本發明實施例方法的總體流程示意圖;
圖2為本發明實施例中目標識別的流程示意圖;
圖3為本發明實施例中目標精準定位的流程示意圖。
具體實施方式
為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。此外,下面所描述的本發明各個實施方式中所涉及到的技術特征只要彼此之間未構成沖突就可以相互組合。
本發明公開的方法涉及關鍵幀篩選、基于深度網絡的目標識別、分割、標記幀間傳遞、基于一致性約束的位置估計及協同優化等技術,可直接用于以rgb-d視頻是視覺信息輸入的機器人系統中,輔助機器人完成目標識別及目標精準定位任務。
如圖1所示為本發明實施例方法的總體流程示意圖。從圖1可以看出,本方法包含目標識別與目標精確定位兩大步驟,目標識別是目標精準定位的前提條件。其具體實施方式如下:
(1)獲取待識別定位目標所在場景的rgb-d視頻幀序列;
優選地,在本發明的一個實施方式中,可以通過kinect等深度視覺傳感器采集待識別定位目標所在場景的rgb-d視頻序列;還可以通過雙目成像設備采集rgb像對,并通過計算視差估計場景深度信息作為depth通道信息,從而合成rgb-d視頻作為輸入。
(2)提取rgb-d視頻幀序列中的關鍵視頻幀,并對關鍵視頻幀提取目標候選區域,根據各關鍵視頻幀對應的深度信息對目標候選區域進行過濾篩選;
(3)基于深度網絡對過濾篩選后的目標候選區域進行識別,通過長時序時空關聯約束及多幀識別一致性估計,對目標識別結果進行置信度排序;
(4)對過濾篩選后的目標候選區域進行局部快速分割,根據目標識別結果的置信度及各關鍵視頻幀的時序間隔關系,從關鍵視頻幀中選取主要關鍵視頻幀,并對分割區域進行前后相鄰幀擴展及協同優化;
(5)在場景中確定關鍵特征點作為定位參照點,進而估計相機視角及相機運動估計值,通過對主要關鍵視頻幀識別分割結果進行目標特征一致性約束和目標位置一致性約束,估計待識別定位目標的協同置信度并進行空間精確定位。
優選地,在本發明的一個實施例中,上述步驟(1)具體包括:
(1.1)用kinect采集待識別定位目標所在場景的rgb-d視頻序列,并用鄰域采樣平滑方式填充深度圖像空洞,根據kinect參數對其進行修正并轉換為實際深度信息,與rgb數據作為輸入;
(1.2)當使用雙目設備采集像對時,依次通過相機標定、立體匹配(像對特征提取、同一物理結構對應點提取、計算視差)步驟,最后通過投影模型估計深度作為視頻中depth通道的輸入。
優選地,在本發明的一個實施例中,上述步驟(2)具體包括:
(2.1)以間隔采樣或關鍵幀選取方法,確定用于識別待識別定位目標的關鍵視頻幀;
其中,步驟(2.1)具體包括:利用快速尺度不變特征變換(scale-invariantfeaturetransform,sift)點匹配方法獲取相鄰幀的場景重疊率,從而估計當前拍攝的場景變化率,對于拍攝場景切換較快的視頻幀,提高采樣頻率,對于拍攝場景切換較慢的視頻幀,降低采樣頻率。此外,當實際應用需求對算法效率要求較高時,可直接采用間隔采樣方法替代本步驟。
(2.2)采用基于似物性先驗的置信度排序方法獲取所述關鍵視頻幀中的目標候選區域組成目標候選區域集合,利用各關鍵視頻幀對應的深度信息,獲取各目標候選區域的內部及其鄰域內的層次屬性,對所述目標候選區域集合進行優化篩選、再排序。
其中,基于似物性先驗的置信度排序方法可以是bing算法或edgebox算法。如圖2所示,再利用對應幀的深度信息,獲取目標候選區域內部及其鄰域內的層次屬性,根據高置信度的候選框內部應深度信息平滑、框內外邊界處深度信息梯度較大的原則,對目標候選區域集合進行優化篩選、再排序。
優選地,在本發明的一個實施例中,上述步驟(3)具體包括:
(3.1)如圖2所示,將經過步驟(2)篩選后的目標候選區域送入已訓練好的目標識別深度網絡,獲取各篩選后的目標候選區域對應的關鍵視頻幀的目標識別預測結果及各目標識別預測結果的第一置信度;
其中,已訓練好的目標識別深度網絡可以是例如spp-net、r-cnn、fast-r-cnn等深度識別網絡,也可以由其他深度識別網絡替代。
(3.2)根據長時序的時空關聯約束,對關鍵視頻幀的目標識別預測結果進行特征一致性評價,評價各目標識別預測結果的第二置信度,將由第一置信度與第二置信度得到的累積置信度進行排序,進一步過濾掉累積置信度低于預設置信度閾值的目標候選區域。
可選地,在本發明的一個實施例中,可以通過對算法施加識別指令,獲取對待識別定位目標的檢測識別結果,并通過過濾低置信度識別結果提升算法效率。
可選地,在本發明的一個實施例中,上述步驟(4)具體包括:
(4.1)如圖3所示,對于步驟(3.2)獲得的目標候選區域及其擴展鄰域,進行快速的目標分割操作,獲得目標的初始分割,確定目標邊界;
其中,作為一種可選的實施方式,可以使用基于rgb-d信息的grabcut分割算法進行快速的目標分割操作,獲得目標的初始分割,從而在當前視頻幀中獲得目標的二維定位結果。
(4.2)為了進一步提高視頻目標定位的效率,如圖3所示,以短時時空一致性為約束,基于步驟(3.2)中的累積置信度排序結果,以單幀識別置信度高、相鄰幀時空一致性強為準則,從關鍵視頻幀中篩選出主要關鍵視頻幀;
(4.3)以長時時空一致性為約束,基于步驟(4.1)的初始分割,對待識別定位目標進行外觀建模,對主要關鍵視頻幀及其相鄰幀進行三維圖形構建,并設計最大后驗概率-馬爾科夫隨機場能量函數,通過圖割算法對初始分割進行優化,對單幀的目標分割結果在該幀前后相鄰幀中進行分割擴展,從而實現基于長-短時時空一致性的二維目標分割定位優化。
可選地,在本發明的一個實施例中,上述步驟(5)具體包括:
(5.1)如圖3所示,對于步驟(4.2)獲得的主要關鍵視頻幀,根據各主要關鍵視頻幀之間的相鄰及視野重合關系,提取多組同名點點對作為定位參照點;
(5.2)依據視野重合的主要關鍵視頻幀估計相機視角變化,進而通過幾何關系,利用定位參照點點對的深度信息估計相機的運動信息;
其中,相機的運動信息包括相機移動距離及移動軌跡。
(5.3)如圖3所示,根據主要關鍵視頻幀中待識別定位目標的測量深度信息、相機視角以及相機的運動信息,評價主要關鍵視頻幀中待識別定位目標的空間位置一致性;
(5.4)根據步驟(4.3)的結果,評價待識別定位目標二維分割區域的特征一致性,一般采用基于區域的深度網絡提取區域深度特征用于特征距離度量及特征一致性評價;
(5.5)通過綜合評價待識別定位目標二維分割區域的特征一致性以及空間位置一致性,確定待識別定位目標的空間位置。
在本發明的一個實施例中,公開了一種基于rgb-d視頻的機器人目標識別與定位系統,該系統包括:
獲取模塊,用于獲取待識別定位目標所在場景的rgb-d視頻幀序列;
過濾篩選模塊,用于提取所述rgb-d視頻幀序列中的關鍵視頻幀,并對所述關鍵視頻幀提取目標候選區域,根據各關鍵視頻幀對應的深度信息對所述目標候選區域進行過濾篩選;
置信度排序模塊,用于基于深度網絡對過濾篩選后的目標候選區域進行識別,通過長時序時空關聯約束及多幀識別一致性估計,對目標識別結果進行置信度排序;
優化模塊,用于對過濾篩選后的目標候選區域進行局部快速分割,根據目標識別結果的置信度及各關鍵視頻幀的時序間隔關系,從所述關鍵視頻幀中選取主要關鍵視頻幀,并對分割區域進行前后相鄰幀擴展及協同優化;
定位模塊,用于在場景中確定關鍵特征點作為定位參照點,進而估計相機視角及相機運動估計值,通過對主要關鍵視頻幀識別分割結果進行目標特征一致性約束和目標位置一致性約束,估計待識別定位目標的協同置信度并進行空間精確定位。
其中,各模塊的具體實施方式可以參照方法實施例的描述,本發明實施例將不做復述。
本領域的技術人員容易理解,以上所述僅為本發明的較佳實施例而已,并不用以限制本發明,凡在本發明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含在本發明的保護范圍之內。