及經設計以執行本文所描述的功能的其它電子單元,或其組合。
[0028]可在處理器150內及/或在處理器150外部實施存儲器160。如本文所使用,術語“存儲器”是指任何類型的長期、短期、易失性、非易失性或其它存儲器,且不應限于任何特定類型的存儲器或任何特定數目個存儲器或上面存儲有存儲器的任何特定類型的物理媒體。在一些實施例中,存儲器160可保持代碼以促進進行圖像處理、文本檢測及跟蹤及由處理器150執行的其它任務。舉例來說,存儲器160可保持數據、所俘獲的靜態圖像、視頻幀、程序結果,以及由MU 130及其它傳感器提供的數據。一般來說,存儲器160可表示任何數據存儲機構。存儲器160可包含(例如)主存儲器及/或輔助存儲器。主存儲器可包含(例如)隨機存取存儲器、只讀存儲器等。雖然在圖1中說明為與處理器150分離,但應理解,主存儲器的全部或部分可提供于處理器150內或另外與處理器150處于相同位置及/或耦合到處理器150。
[0029]輔助存儲器可包含(例如)與主存儲器相同或類似類型的存儲器及/或一或多個數據存儲裝置或系統,例如閃存/USB存儲器驅動器、存儲卡驅動器、磁盤驅動器、光學光盤驅動器、磁帶驅動器、固態存儲器驅動器等。在某些實施方案中,輔助存儲器可操作地接受非暫時性計算機可讀媒體或另外可配置以在耦合到MS 100的裝卸式媒體驅動器(未圖示)中耦合到非暫時性計算機可讀媒體。在一些實施例中,非暫時性計算機可讀媒體可形成存儲器160及/或處理器150的部分。
[0030]MS 100還可包含用以處理通過攝像機110俘獲的圖像的軟件。在一些實施例中,處理器150可能能夠執行軟件以處理通過攝像機110俘獲的一或多個圖像以檢測及解譯所俘獲圖像中的特征。舉例來說,處理器150可能能夠對圖像執行光學字符辨識(OCR)以辨識圖像中的文本。
[0031]在一些實施例中,處理器150可使用自然特征跟蹤技術來配準圖像及確定攝像機姿態。在計算機視覺中,檢測是指在所俘獲圖像幀中定位目標對象及計算相對于對象的攝像機姿態的過程。跟蹤是指在一序列時間圖像幀內的相對于對象的攝像機姿態估計。在特征跟蹤中,可檢測特征一次,且接著在后續圖像中使用關于攝像機姿態的先驗信息或假設直接跟蹤特征。在跟蹤中,相連幀之間的目標對象位置的差通常較小。攝像機的姿態是指攝像機相對于參考框架的位置及定向。配準、圖像配準或圖像對準是指將不同數據集變換及/或集成到單個坐標系中的過程。因此,例如,可使用圖像配準或對準來確定使兩個圖像的坐標系對準的幾何變換,同時使圖像對之間的逐個像素差最小化。在圖像配準中,對準可涉及具有任意或相對較大基線的兩個圖像。
[0032]通常,在基于特征的跟蹤方法中,可使用特征來表示對象。在許多常規的基于特征的跟蹤方法中,跟蹤是基于接著用于定位及跟蹤的人工外部標記。然而,當掃描自然界中的對象(例如,路標、對象上的標簽或各種媒體上的文本)時,使用外來標記的常規方法為不切實際的。因此,本文揭示的實施例可使用固有特征來執行跟蹤,固有特征例如基于文本的特征、文本出現在的媒體上的特征、紋理及所俘獲圖像幀中的其它相異方面。不使用外來標記的情況下的跟蹤還被稱作“無標記”跟蹤。本文揭示的實施例促進進行無標記跟蹤。
[0033]基于特征的對象跟蹤可包含特征提取及特征對應。特征提取是指檢測圖像中的特征,而特征對應是匹配或確定兩個圖像中的特征之間的對應的過程。因此,在不同成像條件(例如,尺度、照明、定向等)下很可能在多個視圖內突出的突出特征的使用促進進行特征對應確定。
[0034]因此,在基于特征的跟蹤方法中,可在圖像幀中識別一或多個對象且可跨越多個圖像幀跟蹤所述對象以確定攝像機相對于一或多個參考框架的姿態。所跟蹤對象可構成目標或跟蹤目標。在一些實施例中,可使用從圖像中的對象中提取或與圖像中的對象相關聯的特征點來跟蹤目標。舉例來說,圖像幀可包含多個對象且興趣點可能與圖像幀、對象群組及/或圖像幀中的個別對象相關聯。術語“自然”用以指通常出現在所俘獲圖像幀中而無任何人工或外部場景標記的特征點。
[0035]在一些實施例中,可實時或近實時地來執行所揭示方法。在一些實施例中,可使用初始當前圖像幀來啟動文本辨識過程。如本文所使用,在圖像幀的情況下,術語“當前”是指通過攝像機110俘獲且可用于供用戶同時觀看的圖像幀。術語“初始”、“先前”及“后續”是指圖像幀相對于彼此或相對于第三圖像幀的時間位置。在一些實施例中,可存儲其中的文本已(例如)通過OCR過程得到識別及辨識的初始當前圖像幀且將其用作圖像目標產生過程的基礎。其中的文本已得到識別及辨識的圖像幀被稱為參考幀。
[0036]在一些實施例中,可接著使用圖像目標產生過程來基于參考幀建置跟蹤模型。在一些實施例中,可使用同時定位與映射(SLAM)技術(例如,視覺SLAM(VSLAM))來使用參考幀及包含文本的一或多個后續圖像幀中的各種自然特征跟蹤文本。在一些實施例中,可使用當前圖像與參考幀之間的特征對應來跟蹤文本。在一些實施例中,可使用SLAM變化形式來跟蹤,例如并行跟蹤與映射(PTAM)。
[0037]在VSLAM中,跨越多個視頻幀跟蹤圖像分塊的顯著自然特征以確定特征的位置及攝像機的運動兩者。基于SLAM的技術準許進行6自由度出-DOF)攝像機姿態的跟蹤,包括攝像機I1的三維(3D)位置(例如,X、y、Z坐標)及定向(例如,角定向滾轉、俯仰及偏航),同時確定周圍環境的3-D結構。
[0038]在一些實施例中,可使用尺度不變特征變換(SIFT)技術來識別圖像幀中的例如拐角點、邊緣等特征。基于SIFT的描述符及其變化形式(包含多種計算上高效修改的SIFT描述符)促進進行在面對相對較大視角改變時的穩健跟蹤及圖像之間的特征對應。在一些實施例中,可識別圖像幀中的關鍵點且可建置對應于個別關鍵點的局部描述符并使用所述局部描述符跟蹤圖像特征。“分塊”或“圖像分塊”為特征點周圍的像素區,其可用于進行跟足示O
[0039]上文概述的技術僅為實例,且,在一些實施例中,可使用各種其它技術來進行特征檢測。舉例來說,基于來自加速段測試的特征(“FAST”)或其變化形式、加速穩健特征(“SURF”)或其變化形式、混合點及/或邊緣檢測技術等的技術可用于進行特征檢測,具有如所屬領域的技術人員將顯而易見的適當修改。
[0040]另外,在一些實施例中,可使用圖像對準技術來計算參考圖像幀與一或多個后續圖像幀之間的相對運動。圖像對準過程關于估計對象運動的運動參數計算參考圖像幀與當前后續圖像幀之間的對準度量。舉例來說,可使用高效二階最小化(ESM)來通過迭代地使參考幀與當前后續幀之間的差最小化計算當前后續幀相對于參考幀的相對運動及/或對準。
[0041]跟蹤模型及/或圖像對準過程可分別產生所辨識的文本的位置及當前及/或后續圖像幀相對于參考幀的姿態。
[0042]在一些實施例中,可接著使用從跟蹤模型獲得的所辨識的文本的位置及/或從圖像對準過程獲得的當前后續圖像幀相對于參考幀的姿態來啟動并初始化分塊跟蹤器。術語“圖像分塊”一般是指對應于圖像中的特征點周圍的區的圖像的一部分。分塊跟蹤算法可在參考圖像分塊與從當前圖像中提取的當前圖像分塊之間匹配特征點以計算攝像機相對于文本的姿態。
[0043]在許多擴增實境(AR)應用程序中,例如,可將例如文本或圖形元素等一或多個虛擬對象疊加在實況攝像機視圖上且顯示在顯示器145上。在一些實施例中,可使用顯示器145來顯示通過攝像機110俘獲的實況圖像、AR圖像、圖形用戶接口(⑶I)、程序輸出等。顯示器145還被稱作屏幕。當顯現虛擬對象時,虛擬對象的準確配準可確保虛擬文本及/或圖形對象在顯示器145上的實況視頻圖像中的正確放置。因此,在一些實施例中,可跟蹤通過攝像機110掃描的文本以使得可通過遵循文本辨識的一或多個應用程序來辨識及處理文本塊。
[0044]術語“文本塊”用以指一序列字符,例如(但不限于)字詞、一序列字詞及/或一或多行文本。術語“字符”一般用以指字母、數字及各種其它符號,而不管語言。在一些實施例中,可基于文本檢測及跟蹤的結果將一或多個虛擬對象覆疊在文本塊上。舉例來說,在AR當場文本轉譯應用程序中,可通過OCR過程跟蹤及辨識媒體上的字符,將字符轉譯成另一種語言,且可對原始文本覆疊表示經轉譯的文本的字符,由此促進經轉譯的文本的實況攝像機視圖。當執行AR應用程序時,例如,處理器150可將虛擬對象放置到實況攝像機視圖中且可在所俘獲圖像中旋轉及/或移置虛擬對象以對應于攝像機的姿態。
[0045]在一些實施例中,可使用圖像中的一或多個自然特征及/或基于文本的特征來確定MS 100及/或攝像機110相對于圖像的姿態。在一些實施例中,可在幀中檢測圖像中的特定特征點(例如,具有高對比度差的點、邊緣及/或拐角點)且使用所述特定特征點來跨越幀跟蹤攝像機I1的姿態。在一些實施例中,處理器150可存儲關于特征點的像素相關信息。舉例來說,可將與特征點像素相關聯的明度梯度值及/或明度梯度值的函數存儲在存儲器160中。在一些實施例中,跟蹤可部分地基于自然特征,例如出現在所辨識的文本的圖像中的拐角點。
[0046]在一些實施例中,可部分地基于來自MU 130的輸入確定或校正攝像機110相對于圖像的姿態。在一些實施例中,可結合IMU輸入及/或其它文本跟蹤方案使用攝像機110的已知內在參數及特性(例如,透鏡的焦距、攝像機焦點距離等)及/或來自其它傳感器的輸入,以輔助進行及/或優化攝像機姿態確定。
[0047]在一些實施例中,文本跟蹤可促進具有當前正進行掃描的元素的先前經掃描的文本塊的幾何位置之間的相關性。文本跟蹤可用以確定經掃描的文本塊之間的幾何關系,由此準許根據經掃描的圖像/幀序列重新構造經掃描的文本的結構。
[0048]圖2展示攝像機110相對于媒體及坐標系上的字詞的位置,所述位置可用以跟蹤及/或維持文本塊的位置。舉例來說,攝像機110可從攝像機位置230-1俘獲包含文本塊-1210-1的初始圖像幀。攝像機位置230-1處的攝像機110的視場為虛線250內的區。
[0049]在一些實施例中,可通過使用OCR識別文本塊210-1中的一或多個字符或字詞且確定文本塊210-1相對于參考框架275的初始姿態260來處理在攝像機位置230-1處俘獲的圖像幀。在一些實施例中,攝像機位置230-1處的參考框架275可包括一組正交軸線,其中所述軸線中的一或多者可與MS 100的本體及/或攝像機110的平面對準。舉例來說,在一個實施例中,可存儲在攝像機位置230-1處俘獲的圖像幀且將所述圖像幀用作參考圖像幀。
[0050]在一些實施例中,還可使用可表示“頁坐標系”的參考框架285來維持文本塊210的姿態。舉例來說,在用戶正面平行于文本塊210所存在的媒體握持攝像機的情形中,相異限界框可與每一文本塊210相關聯。在一些實施例中,可將所辨識的文本塊210-1的左下部點及/或與文本塊210-1相關聯的限界框設置為頁坐標系的原點,且將文本塊210-1的基線及/或相關聯限界框的基線設置為X軸。可將I軸定義為在攝像機平面中正交于X軸。在一些