動態(tài)擴展地圖數(shù)據(jù)以進行物體檢測和追蹤的制作方法
【專利說明】動態(tài)擴展地圖數(shù)據(jù)以進行物體檢測和追蹤
[0001 ] 相關申請案的交叉引用
[0002]本申請案主張2013年10月4日申請的美國臨時申請案第61/887,196號的權益。美國臨時申請案第61/887,196號以引用的方式并入本文中。
技術領域
[0003]本發(fā)明大體上涉及基于計算機視覺的物體辨識應用程序,并且具體來說但非排他地,涉及增強現(xiàn)實系統(tǒng)中的物體檢測和追蹤。
【背景技術】
[0004]在移動電話或其它移動平臺上實現(xiàn)增強現(xiàn)實(AR)的一個難題是實時地檢測和追蹤物體的問題。用于AR應用程序的物體檢測具有非??量痰囊?其必須提供完整的六個自由度,產(chǎn)生相對于給定坐標系的絕對測量值,非常穩(wěn)固并且實時地運行。所關注的是使用基于計算機視覺(CV)的途徑來計算相機姿勢的方法,其依賴于首先檢測并且隨后在相機視圖內追蹤物體。一方面,檢測操作包含檢測數(shù)字圖像內包含的一組特征。特征可以指數(shù)字圖像中的一個區(qū)域,這個區(qū)域的屬性(例如亮度或顏色)與所述區(qū)域周圍的區(qū)相比是不同的。一方面,特征是數(shù)字圖像中的一個區(qū)域,在這個區(qū)域中一些屬性是不變的,或者在規(guī)定的值范圍內變化。
[0005]接著將檢測到的特征與特征數(shù)據(jù)庫中包含的已知特征比較,以便確定圖像中是否存在現(xiàn)實世界物體。因此,基于視覺的AR系統(tǒng)的操作中的一個重要要素是特征數(shù)據(jù)庫的組成。在一些系統(tǒng)中,在運行時間之前構建特征數(shù)據(jù)庫,構建的方式是通過從多種已知視點取得已知目標物體的多個樣本圖像。接著從這些樣本圖像中提取特征并將其添加到特征數(shù)據(jù)庫。
[0006]近年來,增強現(xiàn)實系統(tǒng)已經(jīng)轉向基于模型的追蹤算法或同時定位與地圖繪制(SLAM)算法,其基于相機俘獲的顏色或灰度圖像數(shù)據(jù)。SLAM算法從相機俘獲的傳入圖像序列重構三維(3D)點,所述三維點用于實時地構建場景的3D地圖(S卩,SLAM地圖)。從重構的地圖中,有可能定位當前圖像幀中的相機的6DoF(自由度)姿勢。
[0007]在一些系統(tǒng)中,在運行時間之前并且在離目標物體很近的距離中產(chǎn)生所述物體的SLAM地圖。在運行時間中,使用在運行時間之前產(chǎn)生的物體的SLAM地圖從傳入視頻幀估計相機相對于物體的6DoF姿勢。當使用僅僅從目標物體構建的SLAM地圖時,隨著相機和物體之間的距離增加,對目標物體的追蹤變得相對不穩(wěn)定。這是因為存在成像物體的大的比例變化,而圖像中的這些比例變化會導致在追蹤物體表面上的點的過程中發(fā)生故障,因為在此比例和光照條件下提取的特征描述符非常不同于其先前產(chǎn)生的SLAM地圖中存儲的那些特征描述符。
[0008]目標物體的追蹤還可能因為先前SLAM地圖構建之后出現(xiàn)的目標物體中的物理變化而變得不穩(wěn)定。目標物體中的物理變化可能會導致運行時間期間3D點的描述符變化,并且使得更難檢測和/或追蹤目標物體。
【發(fā)明內容】
[0009]因此,本文中論述的實施例用于通過使用聯(lián)機和脫機兩種地圖數(shù)據(jù)來追蹤目標物體而擴展聯(lián)機地圖數(shù)據(jù)。一方面,追蹤目標物體包含基于例如物體追蹤是否成功來啟用聯(lián)機地圖數(shù)據(jù)和脫機地圖數(shù)據(jù)中的僅一者進行追蹤。另一方面,追蹤目標物體包含融合聯(lián)機地圖數(shù)據(jù)與脫機地圖數(shù)據(jù)以產(chǎn)生融合的聯(lián)機模型。
[0010]舉例來說,在一個實施例中,一種在物體辨識系統(tǒng)中追蹤目標物體的計算機實施的方法包含用相機采集多個圖像,并且同時追蹤目標物體和從多個圖像動態(tài)地構建聯(lián)機地圖數(shù)據(jù)。目標物體的追蹤是基于聯(lián)機地圖數(shù)據(jù)和脫機地圖數(shù)據(jù)。
[0011]另一方面,一種計算機可讀媒體包含存儲在其上的用于在物體辨識系統(tǒng)中追蹤目標物體的程序代碼。程序代碼包含用于以下操作的指令:用相機采集多個圖像,并且同時追蹤目標物體和從多個圖像動態(tài)地構建聯(lián)機地圖數(shù)據(jù)。目標物體的追蹤是基于聯(lián)機地圖數(shù)據(jù)和脫機地圖數(shù)據(jù)。
[0012]在又一方面中,一種設備包含存儲器,其適于存儲用于在物體辨識系統(tǒng)中追蹤目標物體的程序代碼。所述設備還包含處理單元,其適于存取和執(zhí)行程序代碼中包含的指令。當處理單元執(zhí)行指令時,處理單元引導所述設備用相機采集多個圖像,并且同時追蹤目標物體和從多個圖像動態(tài)地構建聯(lián)機地圖數(shù)據(jù)。所述指令進一步引導所述設備基于聯(lián)機地圖數(shù)據(jù)和脫機地圖數(shù)據(jù)追蹤目標物體。
【附圖說明】
[0013]參見以下圖式描述本發(fā)明的非限制性和非窮盡性的實施例,其中除非另有指定,否則各圖中相同的參考標號指代相同的部件。
[0014]圖1A和IB說明包含不同距離處的目標物體的場景的圖像。
[0015]圖1C是說明基于聯(lián)機和脫機地圖數(shù)據(jù)追蹤目標物體的過程的流程圖。
[0016]圖2是說明構建聯(lián)機地圖數(shù)據(jù)的過程的流程圖。
[0017]圖3是說明追蹤和檢測場景中的目標物體的過程的流程圖。
[0018]圖4是說明在聯(lián)機地圖數(shù)據(jù)和脫機地圖數(shù)據(jù)之間進行選擇的過程的流程圖。
[0019]圖5是說明融合聯(lián)機和脫機地圖數(shù)據(jù)的圖。
[0020]圖6是說明融合聯(lián)機地圖數(shù)據(jù)與脫機地圖數(shù)據(jù)的過程的流程圖。
[0021 ]圖7是用于動態(tài)擴展地圖數(shù)據(jù)的處理單元的功能框圖。
[0022]圖8是能夠執(zhí)行本文中論述的過程的移動平臺的功能框圖。
[0023]圖9是物體辨識系統(tǒng)的功能框圖。
【具體實施方式】
[0024]貫穿本說明書對“一個實施例”、“一實施例”、“一個實例”或“一實例”的參考意味著結合所述實施例或實例描述的特定特征、結構或特性包含在本發(fā)明的至少一個實施例中。因此,貫穿本說明書在不同位置中出現(xiàn)短語“在一個實施例中”或“在一實施例中”未必都是指同一個實施例。此外,在一個或多個實施例中,特定特征、結構或特性可以任何合適方式組合。在此描述的任何實例或實施例不應解釋為比其它實例或實施例優(yōu)選或有利。
[0025]—方面,追蹤目標物體包含擴展目標物體的脫機地圖數(shù)據(jù)以包含周圍環(huán)境的地圖數(shù)據(jù)(例如聯(lián)機地圖數(shù)據(jù))。這樣允許檢測和追蹤變得穩(wěn)固,尤其是在場景比例變化的情況下。聯(lián)機地圖擴展構建了放置著物體的當前環(huán)境的地圖,使得檢測和追蹤變得對背景變化穩(wěn)固。舉例來說,檢測較小物體在雜亂場景中是很難的,但是聯(lián)機地圖擴展策略可以通過將雜亂信號作為SLAM地圖的一部分處置來處理這種情形。
[0026]自適應地選擇聯(lián)機/脫機SLAM地圖數(shù)據(jù)可以改進實施這些程序的裝置的性能。舉例來說,當相機遠離物體時,物體的SLAM地圖數(shù)據(jù)不太有用,且反之亦然。通過自適應地打開/關閉脫機和聯(lián)機SLAM地圖,可以節(jié)省檢測和追蹤所必需的計算成本。在一個實例中,這樣可以使移動平臺上的電池壽命更長。
[0027]另一方面,追蹤目標物體包含在物體檢測之后構建聯(lián)機模型,并且融合預先存在的脫機模型與新創(chuàng)建的聯(lián)機模型。舉例來說,可以(即,在運行時間)提取現(xiàn)有目標物體的外觀以便更新脫機模型。此外,模型信息可能在運行時間的條件下最新可用,模型信息接著被添加到聯(lián)機地圖數(shù)據(jù)。所提議的方法提供了對目標的形狀和外觀的變化的改進的穩(wěn)固性,所述變化例如可能發(fā)生在不同光照條件下。
[0028]在一個實施例中,SLAM地圖數(shù)據(jù)包含地圖特征和關鍵幀圖像,其中每一特征包含關鍵點位置和所述位置的至少一個相應描述符。地圖特征可以包含從目標物體的表面提取的特征(例如2D/3D點、邊緣、斑點等)。關鍵幀圖像可以包含目標物體的一些圖像,從這些圖像提取地圖特征。舉例來說,通過能看到所述點的關鍵幀之間的三角測量可以重構3D點。從觀察到地圖點的關鍵幀提取地圖特征的描述符(例如圖像片描述符和線描述符)。
[0029]在一個實例中,目標物體的SLAM地圖是脫機產(chǎn)生的,因而在本文中被稱作“脫機地圖數(shù)據(jù)”,其關鍵幀是在距物體較近的距離處產(chǎn)生的。脫機地圖數(shù)據(jù)被認為足夠“良好”而能執(zhí)行對目標的檢測和追蹤。當用戶開始與目標物體的交互時,其脫機地圖數(shù)據(jù)被加載到增強現(xiàn)實應用程序,并且從相機圖像檢測和追蹤目標物體。在應用程序中將脫機地圖數(shù)據(jù)標記為“脫機”。
[0030]一旦從相機視頻幀檢測到目標物體,就實時地追蹤目標物體并且獲得相機的6DoF姿勢。圖1A說明場景102的采集到的圖像100A,其包含在近距離的具有特征106的目標物體104(例如玩具車)。因此,目標物體104占據(jù)了相機圖像100A的大部分,并且追蹤通常將很奏效。然而,隨著相機從圖1B如中所描繪的目標物體104移開,圖像100B中的目標104的比例很快變小。隨著相機圖像中的物體比例變小,追蹤更有可能失敗,并且具有更多抖動。此外,自從創(chuàng)建脫機地圖數(shù)據(jù)以來,光照條件可能已經(jīng)改變,或者目標物體104可能具有稍微改變的形狀