基于移動裝置的文本檢測及跟蹤的制作方法
【專利說明】基于移動裝置的文本檢測及跟蹤
[0001]相關申請案的交叉參考
[0002]本申請案主張2013年9月9日申請的題為“基于移動裝置的文本跟蹤及檢測(Mobile Device Based Text Tracking and Detect1n) ” 的第 14/021, 337 號美國申請案的權益及優先權,所述美國申請案又主張2013年I月4日申請的題為“基于移動裝置的文本跟蹤及檢測(Mobile Device Based Text Tracking and Detect1n),,的第 61/749,248號美國臨時申請案的權益及優先權,所述兩個申請案以其全文引用的方式并入本文中。
技術領域
[0003]本文揭示的標的物涉及文本檢測及跟蹤。
【背景技術】
[0004]例如智能電話等移動裝置越來越多地并有一或多個光學傳感器,例如攝像機連同各種其它類型的傳感器。移動裝置上的攝像機常常能夠拍攝靜態圖像與視頻圖像兩者。然而,針對涉及文本的掃描的應用使用移動裝置受到限制,這是因為具有許多挑戰。某些挑戰的實例包含由于用戶手移動造成的運動模糊、由于攝像機相對于經掃描文本的定向的變化造成的透視圖的失真,及移動裝置光學子系統限制。舉例來說,通過移動裝置攝像機拍攝的視頻圖像相對于掃描儀來說可能具有低分辨率,且,另外,可能遭受運動模糊及透視圖失真。促進進行迅速無縫文本檢測及跟蹤可通過實現可能能夠利用文本檢測及跟蹤應用程序的輸出的寬廣范圍的應用而增強移動裝置的效用。
[0005]因此,需要用以促進進行文本掃描、檢測及/或辨識及/或跟蹤的設備、系統及方法。
【發明內容】
[0006]在一個方面中,一種在移動站(MS)上的方法可包括:通過對通過所述MS上的攝像機俘獲的圖像幀執行光學字符辨識(OCR)以定位及辨識第一文本塊而獲得第一參考幀;從一組后續圖像幀中選擇后續圖像幀,所述選擇是基于與所述選定后續圖像幀相關聯的參數;通過對所述選定后續圖像幀執行OCR以辨識第二文本塊而獲得第二參考幀;及至少部分基于所述第一文本塊在所述第二參考幀中的位置及與所述第二參考幀相關聯的攝像機姿態,確定所述第一文本塊與所述第二文本塊之間的幾何關系。
[0007]在另一方面中,一種MS可包括:攝像機,其經配置以俘獲第一圖像幀及一組后續圖像幀;及處理器,其耦合到所述攝像機。所述處理器可包括:字詞辨識模塊,其經配置以:通過對所述第一圖像幀執行光學字符辨識(OCR)以定位及辨識第一文本塊而獲得第一參考幀;從所述組后續圖像幀中選擇后續圖像幀,所述選擇是基于與所述選定后續圖像幀相關聯的參數;及通過對所述選定后續圖像幀執行OCR以辨識第二文本塊而獲得第二參考幀。所述處理器可進一步包括文本匯編程序模塊,其經配置以至少部分基于所述第一文本塊在所述第二參考幀中的位置及與所述第二參考幀相關聯的攝像機姿態,確定所述第一文本塊與所述第二文本塊之間的幾何關系。
[0008]在另一方面中,一種設備可包括:用于俘獲一序列圖像幀的成像裝置;用于通過對所述序列圖像幀中的圖像幀執行光學字符辨識(OCR)以定位及辨識第一文本塊而獲得第一參考幀的裝置;用于從所述序列圖像幀中選擇后續圖像幀的裝置,所述選擇是基于與所述選定后續圖像幀相關聯的參數;用于通過對所述選定后續圖像幀執行OCR以辨識第二文本塊而獲得第二參考幀的裝置;以及用于至少部分基于所述第一文本塊在所述第二參考幀中的位置及與所述第二參考幀相關聯的所述成像裝置的姿態,確定所述第一文本塊與所述第二文本塊之間的幾何關系的裝置。
[0009]在另一方面中,一種非暫時性計算機可讀媒體可包括指令,所述指令在由處理器執行時可執行在移動站(MS)上的方法,所述方法可包括:通過對通過所述MS上的攝像機俘獲的圖像幀執行光學字符辨識(OCR)以定位及辨識第一文本塊而獲得第一參考幀;從一組后續圖像幀中選擇后續圖像幀,所述選擇是基于與所述選定后續圖像幀相關聯的參數;通過對所述選定后續圖像幀執行OCR以辨識第二文本塊而獲得第二參考幀;以及至少部分基于所述第一文本塊在所述第二參考幀中的位置及與所述第二參考幀相關聯的攝像機姿態,確定所述第一文本塊與所述第二文本塊之間的幾何關系。
[0010]所揭示實施例還涉及由處理器使用非暫時性計算機可讀媒體或計算機可讀存儲器創建、存儲、存取、讀取或修改的軟件、固件及程序指令。
[0011]下文關于以下各圖進一步解釋這些及其它實施例。應理解,對于所屬領域的技術人員來說,其它方面將從以下詳細描述變得容易顯而易見,其中借助于說明展示及描述各個方面。圖式及詳細描述應被視為本質上為說明性的而不是限制性的。
【附圖說明】
[0012]圖1展示能夠執行文本跟蹤及檢測的實例MS的框圖。
[0013]圖2展示攝像機相對于表面及坐標系上的字詞的位置,所述位置可用以跟蹤及/或維持文本塊的位置。
[0014]圖3展示與所揭示實施例一致的進行文本檢測及跟蹤的實例方法的流程圖。
[0015]圖4展示與所揭示實施例一致的用于進行文本跟蹤的系統的實例架構。
[0016]圖5展示與所揭示實施例一致的可在移動站上執行的實例方法的流程圖。
【具體實施方式】
[0017]將參看圖式僅通過實例方式來描述本文揭示的實施例。下文結合附圖闡述的詳細描述希望作為對本發明的各個方面的描述,而不希望表示可在其中實踐本發明的僅有方面。提供本發明中所描述的每一方面僅作為本發明的實例或說明,且不應必然地被解釋為比其它方面優選或有利。詳細描述包含用于提供對本發明的透徹理解的目的的特定細節。然而,所屬領域的技術人員將顯而易見,可在沒有這些特定細節的情況下實踐本發明。在一些情況下,以框圖的形式展示眾所周知的結構及裝置以便避免混淆本發明的概念。首字母縮寫詞及其它描述性術語可僅出于便利及清晰性的目的而使用,且不希望限制本發明的范圍。
[0018]移動裝置攝像機常常遭受限制其適用性的缺點。舉例來說,低攝像機分辨率及其它光學子系統限制可限制移動裝置攝像機在常規掃描及光學字符辨識(OCR)相關應用中的效用。在掃描過程期間由于用戶手顫動造成的運動模糊及由于攝像機傾斜變化造成的透視圖失真對在常規文本掃描及OCR應用中使用移動裝置攝像機提出額外障礙。另外,為了確保掃描期間的較大的相對文本大小及準確的文本俘獲,常常將攝像機握持為接近于文本,由此限制了可在單個圖像或幀中俘獲的字母或字詞的數目。另外,因為常規OCR可招致顯著計算開銷,所以對于通過引入不可接受的延遲進行的許多應用來說,逐個幀地使用OCR可為效率低下的及不切實際的。
[0019]本文揭示的包含設備、系統及方法的實施例促進進行高效連續文本掃描、跟蹤及辨識。如本文所使用,術語“移動站(MS)”用以廣泛地指包含以下各者的移動裝置:蜂窩式電話、游戲裝置、成像裝置、移動電話或其它無線通信裝置、個人通信系統(PCS)裝置、個人導航裝置(PND)、個人信息管理器(PM)、個人數字助理(PDA)、膝上型計算機等等。
[0020]另外,“移動站”可省略通信元件及/或功能性。術語“移動站”還希望為可能并未經配置以連接到網絡或另外與另一裝置無線地或通過有線連接通信的裝置。舉例來說,本文描述的實施例可在獨立裝置中實施,例如游戲裝置、手持型攝像機或可能并未經配置以連接到網絡或另外與另一裝置無線地或通過有線連接通信的另一裝置。
[0021]在一些實施例中,移動站可呈能夠接收無線通信及/或導航信號及與其它裝置通信的移動裝置的形式,包含短程無線、紅外線及/或有線連接。并且,“移動站”希望包含能夠(例如)經由因特網、W1-Fi或另一網絡與服務器通信的所有裝置,包含無線通信裝置、計算機、膝上型計算機等。
[0022]圖1展示實例MS 100的框圖。如圖1中所展示,MS 100可包含攝像機110、慣性測量單元(MU) 130、顯示器145、處理器150、存儲器160及/或收發器170,前述各者通過連接件120操作地耦合。連接件120可包括總線、線路、光纖、鏈路等,或其某一組合。
[0023]收發器170可(例如)包含經啟用以通過一或多種類型的無線通信網絡發射一或多個信號的發射器,及接收通過所述一或多種類型的無線通信網絡發射的一或多個信號的接收器。收發器170可準許基于多種技術與無線網絡通信,所述多種技術例如(但不限于):W1-Fi網絡或無線局域網(WLAN),其可基于IEEE 802.11系列標準、藍牙、近場通信(NFC),無線廣域網(WffAN),例如LTE、WiMAX等。在一些實施例中,MS 100還可包含用于通過有線網絡通信的一或多個端口。在一些實施例中,可省略收發器170及/或MS 100上的一或多個其它端口。
[0024]攝像機110可將所俘獲圖像發送到處理器150。在一些實施例中,攝像機110可包含正面拍攝及/或后置自拍攝像機及/或還可并有CMOS/光學傳感器。在一個實施例中,正面拍攝攝像機在裝置的正常用戶操作期間可面向用戶,而后置自拍攝像機在裝置的正常操作期間可背向用戶。在一些實施例中,攝像機110可能能夠俘獲靜態圖像與視頻圖像兩者。攝像機110可將視頻圖像及/或一序列靜態圖像發送到處理器150。在一個實施例中,通過攝像機110俘獲的圖像可呈原始的未經壓縮格式且可在經處理及/或儲存于存儲器160中之前進行壓縮。在一些實施例中,可由處理器150使用無損或有損壓縮技術來執行圖像壓縮。
[0025]在一些實施例中,處理器150還可接收來自MU 130的輸入。在一些實施例中,MU130可包括三軸加速度計、三軸陀螺儀及/或磁力計。IMU 130可將速度、定向及/或其它位置相關信息提供給處理器150。在一些實施例中,MU 130可與通過攝像機110俘獲每一圖像幀同步地輸出所測量的信息。
[0026]圖1中并未展示MS 100中所包括的所有模塊。還可以各種方式按與本發明一致的方式修改實例MS 100,例如,通過添加、組合或省略所展示的功能塊中的一或多者。舉例來說,在一些配置中,MS 100可能并不包含MU 130。另外,在某些實例實施方案中,MS 100可包含多種其它傳感器(未圖不),例如環境光傳感器、麥克風、聲傳感器、超聲波傳感器等。在一些實施例中,MS 100可包含可準許實況觀看通過攝像機110俘獲的圖像幀的顯示器。在一些實施例中,MS 100的部分可呈一或多個芯片組及/或其類似者的形式。
[0027]可使用硬件、固件及軟件的組合來實施處理器150。處理器150可表示可經配置以執行涉及文本檢測及跟蹤、光學字符辨識(OCR)及/或計算機視覺及圖像處理的計算程序或過程的至少一部分的一或多個電路。處理器150可從存儲器160中檢索指令及/或數據。處理器150可使用以下各者來實施:一或多個圖形處理單元(GPU)、專用集成電路(ASIC)、數字信號處理器(DSP)、數字信號處理裝置(DSH))、可編程邏輯裝置(PLD)、現場可編程門陣列(FPGA)、控制器、微控制器、微處理器、嵌人式處理器核心,