用于最大穩定極值區域處理的興趣區域的參數選擇及粗略定位的制作方法【專利摘要】基于現實世界的圖像中的像素強度來計算屬性,且所述屬性用以識別用于處理所述圖像的至少一個輸入以識別至少第一最大穩定極值區域MSER。所述至少一個輸入為(A)用于MSER處理的參數或(B)待經受MSER處理的所述圖像的一部分中的一者。所述屬性可為像素強度的方差,或根據像素強度的直方圖來計算。所述屬性可與查找表一起使用以識別用于MSER處理的參數。所述屬性可為所述圖像的經子取樣版本的第二MSER的筆劃寬度。所述屬性可用于檢查所述圖像的一部分是否滿足預定測試,且如果是,那么在經受MSER處理的區域中包含所述部分。【專利說明】用于最大穩定極值區域處理的興趣區域的參數選擇及粗略定位[0001]優先權串請的交叉引用[0002]本申請案主張來自2012年7月19日申請的且題為“用于最大穩定極值區域處理的興趣區域的參數選擇及粗略定位(ParameterSelect1nandCoarseLocalizat1nofInterestReg1nsforMSERProcessing)”的第61/673,700號美國臨時申請案的優先權,所述臨時申請案已轉讓給本案受讓人,且以全文引用的方式并入本文中。[0003]本申請案主張來自2012年7月23日申請的且題為“通過跳躍比較區域中的像素來識別圖像中的最大穩定極值區域(MSER)(IdentifyingAMaximallyStableExtremalReg1n(MSER)InAnImageBySkippingComparisonOfPixelsInTheReg1n),,的第61/674,846號美國臨時申請案的優先權,所述臨時申請案已轉讓給本案受讓人,且以全文引用的方式并入本文中。[0004]本申請案主張來自2013年3月12日申請的且題為“用于最大穩定極值區域處理的興趣區域的參數選擇及粗略定位(ParameterSelect1nandCoarseLocalizat1nofInterestReg1nsforMSERProcessing)”的第13/796,729號美國申請案的優先權,所述申請案已轉讓給本案受讓人,且以全文引用的方式并入本文中。[0005]以引用的方式并入的美國申請案的交叉引用[0006]本申請案涉及2013年3月12日申請的題為“通過跳躍比較區域中的像素來識別圖像中的最大穩定極值區域(MSER)(IdentifyingAMaximallyStableExtremalReg1n(MSER)InAnImageBySkippingComparisonOfPixelsInTheReg1n),,的第13/797,433號美國申請案,所述申請案已轉讓給本案受讓人,且以全文引用的方式并入本文中。【
技術領域:
】[0007]本專利申請案涉及處理來自手持式裝置的相機的圖像以識別其中的符號的設備及方法。【
背景技術:
】[0008]例如蜂窩電話108(圖1A)的手持式裝置包含用于由人110用其手來使用以捕捉現實世界場景100的圖像(例如圖像107)的數碼相機,所述圖像經展示顯示在圖1中的蜂窩電話108的屏幕106上。圖像107還稱為手持式相機所捕捉圖像,或自然圖像或現實世界圖像,從而使其與由光學掃描器根據印刷在紙上的文檔而形成的圖像(例如,由光復印機的平面掃描器所掃描)進行區分。[0009]手持式相機所捕捉圖像107(圖1A)中的文字的辨識可基于具有在一或多個性質(例如強度及/或色彩)方面與周圍像素顯著不同的邊界的區域(也稱為“二進制大對象”)。一些現有技術方法首先識別圖像中局部最小值或最大值(也稱為“極值”)的特性(例如強度)的像素(根據圖1B中的動作112),接著識別在所述特性的值的預定范圍內的定位在所識別極值像素周圍的像素,以便識別現有技術中已知為最大穩定極值區域或MSER的區域(根據圖1B中的動作113)。[0010]MSER為特性值單調變換的幾何連續的區域(且一者可通過穿越相鄰者而從一個像素到達任一其它像素),且不變以仿射變換(保持直線及所述直線上的多點之間的距離比率的變換)。MSER的邊界可在現有技術中用作連接分量(參見圖1B中的動作114),以識別候選者用于辨識為文字。連接分量可經受一或多個幾何測試,以識別此類區域中的矩形部分103(圖1A),所述區域接著被切片或分段為許多塊,其中每一塊為待辨識為文字的字符的候選者。可使用光學字符辨識(OCR)方法來辨識此類候選塊。[0011]一個此類方法描述于(例如)陳(Chen)等人的題為“具有邊緣增強最大穩定極值區域的自然圖像中的穩固文字檢測(RobustTextDetect1nInNaturalImagesWithEdge-EnhancedMaximallyStableExtremalReg1ns)論文中,所述論文被認為公開于2011年9月的IEEE圖像處理國際會議(ICIP)中,所述論文以全文引用的方式并入本文中作為先前技術。MSER被認為由馬特斯(Matas)等人首次描述于(例如)題為“來自最大穩定極值區域的穩固寬基線立體聲(RobustWideBaselineStereofromMaximallyStableExtremalReg1ns)”的論文中(機器視覺會議會刊,2002年,第384-393頁),所述論文以全文引用的方式并入本文中。已知馬特斯等人描述的方法由于用來識別圖像中的MSER的時間而為計算昂貴的。用以識別圖像中的MSER的時間可通過使用尼斯特爾(Nister)等人描述的方法而得以減少,所述方法名為“線性時間最大穩定機制區域(LinearTimeMaximallyStableExtremalReg1ns)”(ECCV、2008年、第II部分、LNCS5303、第183-196頁),由施普林格出版社柏林海德堡出版,且同樣以全文引用的方式并入本文中。[0012]本發明人注意到,由陳等人或由馬特斯等人或由尼斯特爾等人描述的類型的現有技術方法識別圖像107(圖1A)中的數百個MSER及有時識別數千個MSER,所述MSER包含自然特征的細節,例如樹的葉子或植物的葉子、灌木及矮樹叢。舉例來說,可通過使用上文關于自然圖像107描述的類型的方法而從一個版本的圖像(也稱為MSER+圖像)產生大量MSERo而且,可在反轉圖像107中的像素的強度值以獲得大量額外MSER之后通過使用剛剛描述的方法而類似地產生另一圖像(也稱為MSER-圖像)。[0013]現有技術的OCR方法來源于文檔處理的領域,其中所述文檔圖像含有彼此平行定向的一連串文字行(例如,一頁上20行文字)。此類OCR方法從每一塊中的二進制值提取向量(稱作“特征向量”),且接著將此向量與提前產生的參考向量的庫比較(基于待辨識字母表的字母的訓練圖像)。接著,由庫中的最緊密匹配所述塊的向量的參考向量來表示字母表的字母經識別為經辨識以斷定0CR(“文檔”0CR)。[0014]本發明人認為用以檢測用于OCR中的連接分量的上述類型的MSER處理需要現今的手持式裝置(例如智能手機)中正常不可用的存儲器及處理功率。因此,似乎存在加速下文描述的類型的MSER處理的方法及設備的需要。【
發明內容】[0015]在若干實施例中,現實世界中的場景的圖像中的像素的強度用以依據每一強度等級的像素的數目來計算強度的直方圖的屬性。因此,直方圖屬性可用于從所述圖像自動選擇一或多個區域(在稱為粗略定位的過程中),在所述區域上將執行處理以識別待經受OCR的最大穩定極值區域(MSER)。此類屬性的實例為直方圖中的雙峰性(更確切地說,存在彼此不同的兩個峰值),其檢測產生用于MSER處理的區域的選擇。[0016]另一此類直方圖屬性可用于自動選擇用于MSER處理的一或多個參數,例如參數Δ及最大變化。此類直方圖屬性的第一實例(“支持”)為直方圖的像素的對應計數超過閾值的組格的數目。在一些實施例中,剛剛描述的支持屬性(1)與MSER參數△成反比變化,及(2)與MSER參數最大變化成正比變化。第二實例屬性為像素強度的直方圖中的方差,其同樣⑴與MSER參數Λ成反比變化及⑵與MSER參數最大變化成正比變化。第三實例屬性為像素強度的直方圖中的平均值以上的面積,其與:(1)MSER參數△成正比變化及(2)與MSER參數最大變化成反比變化。[0017]一些實施例使用如上所述的直方圖屬性兩者,具體來說通過使用一或多個屬性以選擇用于MSER處理的區域,并且還使用一或多個屬性以選擇MSER參數△及最大變化。然而,其它實施例僅單個使用此類直方圖屬性,如接著所描述。某些實施例使用上述類型的屬性以選擇用于MSER處理的區域,及使用任何方法來選擇參數△及最大變化。在其他實施例中,通過任何方法來選擇用于MSER處理的區域,接著使用上述類型的屬性以選擇MSER參數Δ及最大變化。[0018]因此,應理解所描述實施例的若干其它方面將根據本文描述而變得為所屬領域的技術人員顯而易見,其中以說明方式展示及描述各種方面。圖式和實施方式被視為本質上是說明性的而非限制性的。【專利附圖】【附圖說明】[0019]圖1A說明用戶使用現有技術的裝備有相機的移動裝置來捕捉現實世界中的告示牌的圖像。[0020]圖1B用高級流程圖來說明由現有技術的計算機使用來自動作111(如圖1A中所說明)中操作的相機的圖像來進行的動作112-114。[0021]圖2A-2D用流程圖說明由特定描述的實施例中的移動裝置401中的一或多個處理器404執行的操作。[0022]圖3A及3B說明在圖2A的動作211A的一些實施例中在剪切閾值下區域302之前及之后的圖像的一部分的兩個直方圖。[0023]圖4用另一圖像的一部分的直方圖來說明在圖2B的動作211B的一些實施例中計算的平均值以上的面積402。[0024]在替代實施例中,圖5A及5B說明圖像的剪切以識別根據圖2C的動作212的圖像部分。[0025]圖5C及?說明在一些實施例使用的筆劃寬度的計算。[0026]圖6用高級框圖說明所描述實施例中的一些中的手持式裝置的各種組件。[0027]圖7用流程圖說明由一些所描述實施例中的移動裝置401中的一或多個處理器404執行的操作。【具體實施方式】[0028]在所描述實施例的若干方面中,在由執行(例如)來自移動裝置401的相機405的第一指令的一或多個處理器404(圖6)執行的動作201(圖2)中接收現實世界(例如參見圖1)的場景的圖像(也稱為“手持式相機所捕捉圖像”)。接著,在動作211A中,一或多個處理器404通過使用所接收圖像來基于像素強度計算屬性而執行第二指令,例如圖像或其中一部分中的像素強度的直方圖的雙峰性(例如,在圖像再分為許多塊的情況下,根據動作202)。接著,根據動作212A,一或多個處理器404執行第三指令來識別MSER處理的輸入,例如使用直方圖屬性來確定所述圖像部分(或塊)是否滿足待選擇用于MSER處理的圖像部分(或塊)的測試。具體來說,在一些實施例中,當直方圖中峰值的數目為至少兩個時,所述圖像部分(或塊)經標記為在一或多個存儲器214中選定。[0029]接著,在動作215中,一或多個處理器404執行第四指令以(例如)使用已在動作212A中選擇的至少一個部分(或塊)來執行MSER處理。通過第四指令的執行而進行的MSER處理可使用存儲器329中的查找表以獲得除了通過第三指令的執行而識別的輸入以外的一或多個輸入參數。第四指令中使用的查找表可供應用于參數△及最大變化的值的一或多個特定組合,參數Δ及最大變化為MSER方法的輸入(也稱為MSER輸入參數)。此類查找表可提前填充,具有用于△及最大變化的特定值,例如通過實驗確定以產生適于辨識自然圖像(例如圖像501)中的文字的輪廓,例如用于△的值8及用于最大變化的值0.07。取決于所述實施例,所述查找表可使用例如基于像素強度計算的(本文所述的類型的)任何屬性作為索引來查找。[0030]在一些實施例中,通過執行第四指令而執行的動作215中的MSER處理包含比較圖像501中的一對像素的強度差與預定限值,接著執行第五指令以響應于發現所述限值被超過而將所述對像素中的像素的一對坐標添加到存儲器329(圖6)中的列表中。具體來說,在第五指令的某些實施例中,在位置集合(其可經實施為列表)中識別像素,繼而在包含圖像501中的強度的局部極值(例如局部最大值或局部最小值)的區域%中識別像素。[0031]此類區域%可通過在動作215(圖2A)中執行第五指令而經識別為相對于范圍1-Δ到i+△(取決于實施例,包含上述強度i)中的一或多個強度而最大穩定,每一強度i經用作閾值(其中Δ為MSER方法的參數輸入)以用于與包含在區域%中的多個像素的強度進行比較以識別相應區域Q“及Q?+Δ。在一些實施例中,區域Qi中的許多像素相對于范圍1-Δ到i+Δ內的強度i的改變而保持在預定(例如用戶指定)范圍內,其中局部最小值在強度i下發生的比率[Qg-Qi+J/Qi中。因此,在某些實施例中,剛剛描述的位置集合指示(或識別)構成MSER(即最大穩定極值區域)的區域Qi。[0032]可在動作215中通過使用馬特斯等人在題為“來自最大穩定極值區域的穩固寬基線立體聲(RobustWideBaselineStereofromMaximallyStableExtremalReg1ns)”的論文中描述的類型的方法來進行識別,所述論文在上文以引用的方式并入。或者,可使用其它方法來在動作215中執行連接分量分析及區域的識別,例如在發布在Kangweon-Kyungki數學雜志(14(2006)、第1期、第47-55頁)中的HyunkyungShin及JoongSangShin的題為“弗洛伊德沃肖爾標記技術的應用:二進值圖像中連接像素分量的識別(Applicat1nofFloyd-ffarshallLabellingTechnique:1dentificat1nofConnectedPixelComponentsInBinaryImage)”的論文中描述的類型的方法,所述論文以引用的全文方式并入本文中,或者例如描述于Jung-MePark、CarlG.Looney及Hu1-ChuanChen的題為“使用分治技術的快速連接分量標記算法(FastConnectedComponentLabelingAlgorithmUsingADivideandConquerTechnique)”的論文中的方法,所述論文被認為發布在矩陣(Matrix)(2000)、第4卷、第1期、出版商:愛思維爾有限公司(ElsevierLtd),第4-7頁,所述論文也以引用的全文方式并入本文中。[0033]因此,取決于實施例,在動作215中通過所描述實施例中的移動裝置401識別圖像501的區域的特定方式可為不同的。如上所述,在若干實施例中,通過動作215將通過使用上述類型的MSER方法識別的圖像501的每一區域按像素列表的形式表示在存儲器329中,其中每一像素兩個坐標,即(圖像的)二維空間中的X坐標及1坐標。通過動作215將像素列表存儲在一或多個存儲器中,作為為最大穩定極值區域(MSER)的區域%的表示。[0034]在一些實施例中,通過一或多個MSER處理器352(圖6)執行動作215。可用此項技術中已知的任何方式來實施MSER處理器352。舉例來說,此類MSER處理器可使用若干閾值中的每一者來識別對應連接分量,接著計算每一閾值i下的連接分量的面積A(i),及分析此函數A(i)的穩定性,識別所述函數A(i)在閾值i的多個值上未顯著改變的值所在的閾值(且因此其連接分量)。[0035]在動作217中,一或多個處理器檢查整個圖像的多個部分是否已被處理(經評估用于MSER處理),且如果否,那么返回到動作212A(上述)。如果整個圖像已被處理,那么通過一或多個處理器404執行動作218以分析MSER來(例如)通過與符號的庫進行比較而識別圖像中的一或多個符號。舉例來說,在若干所描述實施例中使用此類MSER的二進制化版本作為輸入到光學字符辨識(OCR)的連接分量。接著,無論在動作218中發現哪一或多個符號最接近匹配均在一或多個存儲器中標記為在圖像中識別,接著返回到動作201。具體來說,在一些實施例中,通過OCR識別被發現最接近OCR的輸入的預定數目(例如3)個符號作為彼此的替代,而OCR的其它實施例識別被發現最接近OCR輸入的單個符號。[0036]在一些實施例中,在動作212B(圖2B)中使用在動作211B中計算的直方圖屬性以查找查找表1023(圖6),所述查找表提供用于MSER處理中的一或多個輸入參數213,例如Λ及最大變化中的任一者或兩者。其后,一或多個圖像部分在動作215中使用輸入參數213而經受MSER處理。取決于實施例,上述動作211Β及212Β(圖2Β)可在MSER輸入產生器351(圖6)中執行,所述MSER輸入產生器可用任何硬件與軟件的組合(包含多個指令)來實施。[0037]圖3Β中展示在動作211Β(上述)中計算的直方圖屬性的一個說明,如像素強度的直方圖301中的閾值302(圖3Α)處的支持309(其可為數目Ν,例如Ν=256)。直方圖301沿著y軸展示每一可能亮度等級下的圖像像素的數目的一連串計數,所述計數通過亮度等級來分類,例如沿著X軸從0到255。直方圖301中的峰值303指示在特定亮度等級下(在其處出現峰值303)存在大量像素。因此,在某些實施例中,所述屬性是基于直方圖中具有在閾值以上的像素的對應計數的多個組格。在一些實施例中,在硬件(例如在執行前端處理的集成電路(1C)芯片中)中計算直方圖301,以產生若干統計,例如像素強度的平均值及直方圖的面積。在某些實施例中,所述屬性為在直方圖的組格中的像素計數的平均值以上的直方圖的面積。[0038]以預定方式來識別閾值302,例如設定成固定百分比(或分數),例如直方圖301的N個組格中的最大計數或峰值303的10%。舉例來說,如果最大計數或峰值303為80,那么閾值302具有值8且因此將支持309確定為直方圖301的組格(來自N個組格中)的數目S,所述組格具有超過(閾值302的)值8的像素的對應計數。處理器404的一些實施例通過使用閾值302而執行第七指令來裁剪直方圖以便確定支持309。[0039]如前述段落中描述的呈組格的數目S形式的支持309為可在動作212B(上述)中與查找表1023(圖6)—起通過執行第六指令而使用以獲得用于△及最大變化的值的屬性,所述值構成輸入到MSER處理的呈輸入參數213形式的輸入(A)(也稱為MSER輸入參數)。因此,一些實施例使用兩個MSER輸入參數,及查找表1023(圖6)在查找支持作為輸入時供應兩個值(在此類實施例中其可為唯一輸入,但其它實施例可使用額外屬性作為查找表1023的額外輸入)。MSER處理的其它實施例可在執行第六指令時使用僅一個MSER輸入參數,例如在查找表1023針對此單個MSER輸入參數僅得到一個值的情況下僅使用Δ。[0040]上述一些實施例執行圖2A的方法,而其它實施例執行圖2B的方法,而再其它實施例執行圖2C的方法。請注意取決于實施例,這些方法中的一或多者可彼此組合。因此,在圖2D中說明這些方法,其中動作212說明動作212A、212B及212C中的任一者的性能。因此,動作212執行一些實施例的第六指令以使用直方圖屬性來識別待用于處理圖像的至少一個輸入,識別至少一個MSER,其中所述至少一個輸入為(A)用于所述處理中的參數或(B)待經受所述處理的圖像的一部分中的一者、或(A)與(B)兩者。然而,某些實施例執行圖2A及2B的方法的組合,具體地說通過執行動作212A及動作212B中的每一者,如圖7中所說明(下文描述)。[0041]圖3B中的支持309為三個分量309A、309B及309C的總和,所述分量繼而形成直方圖311的三個面積311A、311B及311C的支持(繼而通過對直方圖301進行閾值處理而獲得)。在一些實施例中,面積311C的高度310C(圖3B)除以面積311C的支持(或寬度)309C以獲得一比率(其為逆縱橫比),所述比率與預定閾值一起用以辨識峰值的存在。舉例來說,當剛剛描述的直方圖的面積的高度寬度比率大于預定倍數(例如2)時一或多個處理器404確定峰值存在于直方圖中。[0042]可在一些實施例的預定測試中使用支持309,以確定是否應選擇對應圖像部分(從其提取直方圖301)用于MSER處理,根據在圖2A中的動作212A。舉例來說,此類實施例可檢查動作211B(圖2B)所確定的支持309是否大于固定閾值,例如S>30,且如果成立,那么將(在一或多個存儲器214中)所述圖像部分標記為經選擇用于MSER處理。剛剛描述的圖像部分接著在動作215(上述)中經受MSER處理,例如在通過處理器404執行第八指令時單獨本身或與可包含在矩形區域中的一或多個其它此類部分組合地進行。[0043]在圖4的直方圖301中展示在動作211中計算且用于動作212B(圖2B)中的此類屬性的另一說明,如平均值以上的面積。具體來說,首先計算在直方圖301的N個組格中的每一者中的計數的數目的平均值402(圖4),且接著確定平均值402以上的面積403。圖4中用陰影展示面積403。取決于實施例,剛剛描述的平均值以上的面積可經歸一化,(例如)通過使其除以直方圖301的總面積以獲得用于動作212B中的屬性,從而執行查找表1023的查找以獲得用于△及最大變化的值。[0044]在動作211B(圖2B)的一些實施例中計算的另一此類屬性為像素強度的方差。具體來說,首先計算所有像素的強度的平均值,且接著將所述平均值從每一像素的強度減去,及將所述差進行平方且與其它像素的對應結果求和,及在動作212B中將總和的平方根用作屬性。[0045]上文參看圖2A描述的類型的若干實施例在動作212A中執行粗略定位以選擇待經受如圖5A中的實例展示的MSER處理的一或多個圖像部分。具體來說,使用網格502對圖像501進行分段,且針對通過使用網格而產生的每一片段來計算直方圖(如上文所描述)。接著,每一片段的強度直方圖用以確定上述屬性中的一或多者,所述屬性接著與一或多個預定測試(例如與閾值進行比較)一起使用以確定是否選擇所述分段用于MSER處理。在圖5A中所示的實例中,已識別右上拐角中的八個分段(例如在圖5A中一起標記為分段503)通過此類測試。因此,此類實施例從圖像501裁剪出配合在可保持所有八個分段的最小矩形內的一部分504,且正是此圖像部分接著經受MSER處理。MSER處理的結果經最終分析以辨識符號(根據在圖2A中的動作218),從而產生字母505(圖5A)。[0046]某些實施例在動作212中執行粗略定位以產生呈待經受如圖5B中所示的MSER處理的一或多個圖像部分的形式的輸入(B)。具體來說,在動作211C(圖2C)中使圖像501經子取樣(或降低取樣)以獲得尺寸比圖像501小的經子取樣圖像512。在一些實施例中,以鑒于本描述將容易顯而易見的任何方式,處理器404用軟件配置以對圖像子取樣以獲得經子取樣版本。舉例來說,如果子取樣因數為2,那么經子取樣圖像512為圖像501的大小的1/4。接著,經子取樣圖像512在動作212C(圖2C)中本身經受MSER處理以識別其中的MSER區域(也稱為“經子取樣MSER區域”)。接著,在動作212C中,每一經子取樣MSER區域經受一或多個預定測試。舉例來說,可計算每一經子取樣MSER區域的筆劃寬度(如圖5C中所示),且使其與閾值(最小筆劃寬度,在所述最小筆劃寬度以上將所述區域處理為OCR的候選者)進行比較。以此方式,在動作212C(圖2C)中識別通過所述測試的一或多個經子取樣MSER區域513(例如待以普通方式選擇用于MSER處理)。此后接著從圖像501裁剪最小矩形(也稱為“限界框”)所界定的矩形部分514(其配合通過測試的經子取樣MSER區域513),且接著將圖像501的此矩形部分514在一或多個存儲器214(圖2C)中標記為MSER處理的輸入。[0047]圖5C說明筆劃寬度的確定(例如用于測試中以選擇用于MSER處理的分段),所述確定通過以下操作:通過選擇經子取樣MSER區域520內的固定數目個點(例如3個點),及計算經子取樣MSER區域520在預定數目個方向(例如4個方向)中的每一者中的尺寸,接著選擇所計算的最小尺寸(例如在4個方向中)作為筆劃寬度。在一些實施例中由圖的方法來說明筆劃寬度的特定方式。具體來說,在一些說明性實施例中,處理器404執行動作531-534(圖以如下計算筆劃寬度。在動作531中,移動裝置401選擇經子取樣MSER區域520(圖5A)內部的N個點,例如點521。接著,在動作532中,移動裝置401計算在所述N個點中的每一者的筆劃的寬度。舉例來說,在點521,處理器404計算四個射線521A、521B、521C及521D的長度,且接著使用射線521B(其由于最短而經選擇)的長度作為在點521的筆劃的寬度。接著,在動作533中,移動裝置401計算用于所述經子取樣MSER區域520的N個此類筆劃寬度的平均值。最終,在動作534中,移動裝置401計算N個筆劃寬度的標準偏差及/或方差(與平均值相比)。接著移動裝置401檢查方差是否小于預定閾值,且如果是,那么選擇所述區域且在一或多個存儲器214(圖2C)中標記為MSER處理的輸入,如上所述。[0048]執行圖2中展示的方法的一些實施例的移動裝置401為移動裝置(例如智能電話),其包含上述類型的相機405(圖6)以產生現實世界場景的圖像,所述圖像接著經處理以識別其中的任何預定符號。移動裝置401可進一步包含提供關于移動裝置401的移動的信息的傳感器406,例如加速計、陀螺儀、指南針、或其類似者。移動裝置401可使用加速計及指南針及/或其它傳感器來以普通方式來感測傾斜及/或轉向,以輔助處理器404確定在移動裝置401中捕捉的圖像中的預定符號的定向及位置。代替或除了傳感器406以外,移動裝置401可使用來自相機405的圖像來輔助處理器404確定移動裝置401相對于成像的預定符號的定向及位置。而且,移動裝置401可另外包含以普通方式使用的圖形引擎1004及圖像處理器1005。移動裝置401可任選地包含MSER輸入產生器351及MSER處理器352(例如由執行存儲器329中的軟件的一或多個處理器404實施),以識別作為OCR軟件1014(在由處理器404執行時)的輸入而接收的塊中的預定符號的存在。[0049]除了存儲器329以外,移動裝置401可包含一或多個其它類型的存儲器,例如快閃存儲器(或SD卡)1008及/或硬盤及/或光盤(也稱為“輔助存儲器”),以存儲用于載入到存儲器329(也稱為“主存儲器”)中的及/或用于由處理器404使用的數據及/或軟件。移動裝置401可進一步包含在收發器1010及/或任何其它通信接口1009中的無線發射器及接收器。應理解移動裝置401可為任何便攜式電子裝置,例如蜂窩式或其它無線通信裝置、個人通信系統(PCS)裝置、個人導航裝置(PND)、個人信息管理器(PM)、個人數字助理(PDA)、膝上型計算機、相機、智能電話、平板計算機(例如購自蘋果公司的iPad)或能夠產生擴增實境(AR)環境的其它合適的移動平臺。[0050]上述類型的移動裝置401可包含其它位置確定方法,例如使用“計算機視覺”技術的對象辨識。移動裝置401還可包含用于響應于移動裝置401上的用戶輸入(例如通過使用收發器1010中的發射器)而遠程控制現實世界物品(其可為玩具)的裝置,所述發射器可為經啟用以經由一或多個類型的無線通信網絡(例如因特網、WiF1、蜂窩式無線網絡或其它網路)來發射一或多個信號的IR或RF發射器或無線發射器。移動裝置401可進一步在用戶接口中包含麥克風及揚聲器(未標記)。當然,移動裝置401可包含與本發明無關的其它元件,例如可用以存儲供處理器404使用的固件的只讀存儲器1007。[0051]而且,取決于實施例,移動裝置401可使用移動裝置401中的本地檢測器來執行無參考跟蹤及/或基于參考的跟蹤,以檢測圖像中的預定符號,在執行OCR軟件1014的實施方案中識別(例如)圖像中的文字的字符。用于由OCR軟件1014使用的塊的上述識別可執行在軟件(由一或多個處理器或處理器核心執行)中或在硬件中或在固件中,或在其任何組合中。[0052]在移動裝置401的一些實施例中,上述MSER輸入產生器351及MSER處理器352包含在OCR軟件1014中,所述OCR軟件由執行移動裝置401的存儲器329中的軟件320的處理器404實施,但在其它實施例中MSER輸入產生器351及MSER處理器352中的任何一或多者實施在移動裝置401中的硬件電路及/或固件及/或軟件的任何組合中。因此,取決于實施例,OCR軟件的本文所述類型的各種功能可實施在軟件(由一或多個處理器或處理器核心執行)中或在專用硬件電路中或在固件中,或在其任何組合中。[0053]雖然一或多個處理器404的一些實施例在執行任一動作212A(圖2A)或動作212B(圖2B)之后執行MSER處理,但其它實施例執行動作212A及212B兩者,如圖7中所說明。具體來說,在上述動作201(參見圖2A或2B)之后,在動作711(圖7)中用處理器404將輸入圖像劃分成多個矩形部分(所述矩形部分可或可不彼此重疊),接著在動作712中選擇所述矩形部分中的一者。隨后,在動作713中,類似于上述動作212A,用處理器404計算選擇矩形部分中的像素強度的直方圖的屬性。接著,使用閾值的查找表1022(圖6)(也稱為“第一表”),由處理器404使用此屬性(也稱為“第一屬性”)以確定(在動作714中)是否將對選定矩形部分執行MSER方法,且若干否,那么控制返回到動作712。如上所述,處理器404可計算直方圖的面積的高度寬度比率,及檢查所述比率是否大于例如2,且如果是,那么執行MSER方法。[0054]如果動作714中的決策為將執行MSER方法,那么由處理器404執行動作715。在動作715中,由處理器404計算選定矩形部分中的像素強度的直方圖的另一屬性。接著,在類似于上述動作212B的動作中,閾值的另一查找表1023(也稱為“第二表”)與此屬性(也稱為“第二屬性”)一起由處理器404使用以識別(在動作715中)輸入到MSER方法的一或多個參數(例如△及最大變化)。其后,在動作716中,例如如上文參考動作215所描述來執行MSER方法。隨后,在動作717中,一或多個處理器404檢查所有矩形部分是否已被處理,且如果否,那么返回到動作712以選擇另一矩形部分用于處理。當所有矩形部分已被處理時,一或多個處理器404從動作717進行到動作718以分析MSER區域,從而識別圖像中的一或多個符號,其后將圖像中所識別的符號存儲在一或多個存儲器中。[0055]因此,取決于實施例,MSER輸入產生器351及MSER處理器352中的任何一或多者可(但未必需要)包含一或多個微處理器、嵌入式處理器、控制器、專用集成電路(ASIC)、數字信號處理器(DSP)及其類似物。術語處理器意圖描述由系統而非特定硬件所實施的功能。此外,如本文中所使用,術語“存儲器”指代任何類型的計算機存儲媒體,其包含與移動平臺相關聯的長期、短期或其他存儲器,且并不限于任何特定類型的存儲器或特定數目個存儲器,或特定類型的其上存儲有存儲器的媒體。[0056]因此,可取決于應用通過各種裝置來實施本文中所描述的方法。舉例來說,這些方法可實施在固件1013(圖6)或軟件320、或硬件1012或其任何組合中。對于硬件實施方案,處理單元可實施于一或多個專用集成電路(ASIC)、數字信號處理器(DSP)、數字信號處理裝置(DSH))、可編程邏輯裝置(PLD)、現場可編程門陣列(FPGA)、處理器、控制器、微控制器、微處理器、電子裝置、經設計以執行本文所描述的功能的其它電子單元,或其組合內。對于固件及/或軟件實施方案,可用執行本文中所描述的功能的模塊(例如,程序、功能等等)來實施方法。[0057]有形地體現軟件指令(也稱為“計算機指令”)的任何非暫時性機器可讀媒體可用于實施本文所述的方法。舉例來說,軟件320(圖6)可包含存儲在存儲器329中且由處理器404執行的程序代碼,以實施(例如)MSER輸入產生器351或MSER處理器352或兩者或每一者的部分。取決于實施例,存儲器329可實施在處理器404內或外部。如果實施在固件及/或軟件中,那么MSER輸入產生器351及/或MSER處理器352的邏輯可作為一或多個指令或代碼存儲在非暫時性計算機可讀存儲媒體上。實例包含用數據結構(例如查找表1022及/或查找表1023)編碼的一或多個非暫時性計算機可讀存儲媒體以及用經配置以實施MSER輸入產生器351及/或MSER處理器352的邏輯計算機程序編碼的一或多個非暫時性計算機可讀存儲媒體。[0058]非暫時性計算機可讀媒體包含物理計算機存儲媒體。非暫時存儲媒體可為可由計算機存取的任何可用的非暫時性媒體。借助于實例而非限制,此類非暫時性計算機可讀媒體可包括RAM、ROM、快閃存儲器、EEPROM、CD-ROM或其它光盤存儲裝置、磁盤存儲裝置或其它磁性存儲裝置,或可用以存儲呈指令或數據結構形式的程序代碼且可由計算機訪問的任何其它非暫時性媒體;如本文中所使用的磁盤及光盤包含壓縮光盤(CD)、激光光盤、光學光盤、數字多功能光盤(DVD)、軟盤及藍光光盤,其中磁盤通常以磁性方式再現數據,而光盤用激光以光學方式再現數據。以上各項的組合也應包含在非暫時計算機可讀媒體的范圍內。[0059]盡管出于指導性目的而結合特定實施例來說明特定實例,但所描述實施例不限于此。因此,雖然一些實施例的圖2A-2C及6中展示的物品401為移動裝置,但在其它實施例中項目401通過使用不同的外觀尺寸來實施,例如在特定其它實施例中,物品401為移動平臺(例如平板計算機,例如購自蘋果公司的iPad),而在其它實施例中物品401為任何電子裝置或系統。此類電子裝置或系統的說明性實施例可包含無線地互相通信的多個物理部分,例如為靜止計算機的部分的處理器及存儲器,例如膝上型計算機、桌上型計算機或經由一或多個無線鏈路通信的服務器計算機1015,其中傳感器及用戶輸入電路密封在足夠小以保持在手中的外殼中。[0060]取決于在手持式相機所捕捉圖像中辨識的特定符號,用戶可取決于實施例而接收不同類型的反饋。在一些實施例中,額外觸覺反饋(例如通過移動裝置401的振動)通過觸發觸覺反饋電路1018(圖6)而提供,從而當在圖像中辨識文字時提供反饋給用戶。代替剛剛描述的觸覺反饋,在其它實施例中,可經由移動裝置401中的揚聲器來提供音頻反饋。[0061]因此,在一些實施例中,一或多個處理器404用設備中的軟件320編程以操作為:用于接收現實世界的場景的圖像的裝置、用于計算圖像中的基于像素強度的屬性的裝置、用于使用所述屬性來識別待用于處理所述圖像的至少一個輸入以識別其中的至少一個最大穩定極值區域的裝置、用于執行所述處理以基于所述至少一個輸入來識別所述至少一個最大穩定極值區域的裝置,以及用于存儲在一或多個存儲器中的裝置,所述至少一個最大穩定極值區域由所述處理來識別。在剛剛描述的實施例中的一些中,一或多個處理器404用軟件320編程以操作為用于對圖像子取樣以獲得經子取樣版本的裝置、用于識別經子取樣版本中的額外最大穩定極值區域(也稱為“第二最大穩定極值區域”)的裝置,以及用于使用額外最大穩定極值區域的筆劃寬度來識別待經受所述處理的所述部分的裝置。[0062]在不脫離所描述實施例的范圍的情況下可作出各種調適及修改。因此,不應將所附權利要求書的精神及范圍限于前述描述。應理解所描述實施例的若干其它方面將根據本文描述而變得為所屬領域的技術人員顯而易見,其中以說明方式展示及描述各種方面。圖式以及實施方式將被認為在本質上是說明性的。所描述實施例的大量修改及調適將由隨附權利要求書包含。【權利要求】1.一種用以識別圖像中的區域的方法,所述方法包括:接收現實世界的場景的圖像;一或多個處理器基于所述圖像中的像素強度來計算屬性;所述一或多個處理器使用所述屬性來識別待用于處理所述圖像的至少一個輸入以識別其中的至少一個最大穩定極值區域,其中所述至少一個輸入為(A)用于所述處理中的參數或(B)待經受所述處理的所述圖像的一部分中的一者、或(A)與(B)兩者;所述一或多個處理器執行所述處理來基于所述至少一個輸入識別所述至少一個最大穩定極值區域;其中所述處理至少包括比較所述圖像中的一對像素的強度差與預定限值,響應于發現超過所述預定限值而將所述對像素中的像素的一對坐標添加到列表,及重復所述比較及所述添加;及所述一或多個處理器在一或多個存儲器中存儲所述列表作為所述處理識別的所述至少一個最大穩定極值區域的表示。2.根據權利要求1所述的方法,其中:依據所述像素強度中的每一強度的像素數目而根據所述像素強度的直方圖來計算所述屬性。3.根據權利要求2所述的方法,其中:所述屬性是基于所述直方圖中的具有閾值以上的像素的對應計數的多個組格。4.根據權利要求3所述的方法,其中:所述閾值為所述直方圖中的所述多個組格中的最大計數的分數。5.根據權利要求3所述的方法,其中:所述屬性為在所述直方圖的所述多個組格中的像素計數的平均值以上的所述直方圖的面積。6.根據權利要求1所述的方法,其中:所述屬性為所述像素強度的方差。7.根據權利要求1所述的方法,其中:所述屬性與查找表一起用來識別所述參數。8.根據權利要求1所述的方法,其中:所述屬性用于檢查所述部分是否滿足預定測試。9.根據權利要求8所述的方法,其中當發現所述部分滿足所述預定測試時:所述一或多個處理器從所述圖像裁剪包括所述部分的矩形區域;及所述一或多個處理器處理所述矩形區域以識別所述至少一個最大穩定極值區域。10.根據權利要求1所述的方法,其中所述至少一個最大穩定極值區域為下文的第一最大穩定極值區域,所述方法進一步包括:對所述圖像子取樣以獲得經子取樣版本;處理所述經子取樣版本以識別所述經子取樣版本中的第二最大穩定極值區域;及使用所述第二最大穩定極值區域的筆劃寬度來識別待經受所述處理的所述部分。11.一種用以執行執行圖像中的區域的移動裝置,所述移動裝置包括:一或多個存儲器,其包括現實世界的場景的圖像的多個部分;一或多個處理器,其經配置以:基于所述圖像中的像素強度計算屬性;使用所述屬性來識別待用于處理所述圖像的至少一個輸入以識別其中的至少一個最大穩定極值區域,其中所述至少一個輸入為(A)用于所述處理中的參數或(B)待經受所述處理的所述圖像的一部分中的一者、或(A)與(B)兩者;執行所述處理以基于所述至少一個輸入識別所述至少一個最大穩定極值區域;其中所述處理至少包括比較所述圖像中的一對像素的強度差與預定限值,響應于發現超過所述預定限值而將所述對像素中的像素的一對坐標添加到列表,及重復所述比較及所述添加;及在所述一或多個存儲器存儲所述列表作為由所述處理識別的所述至少一個最大穩定極值區域的表示。12.根據權利要求11所述的移動裝置,其中:依據所述像素強度中的每一強度的像素數目而根據所述像素強度的直方圖來計算所述屬性。13.根據權利要求12所述的移動裝置,其中:所述屬性是基于所述直方圖中的具有閾值以上的像素的對應計數的多個組格。14.根據權利要求13所述的移動裝置,其中:所述閾值為所述直方圖中的所述多個組格中的最大計數的分數。15.根據權利要求13所述的移動裝置,其中:所述屬性為在所述直方圖的所述多個組格中的像素計數的平均值以上的所述直方圖的面積。16.根據權利要求11所述的移動裝置,其中:所述屬性為所述像素強度的方差。17.根據權利要求11所述的移動裝置,其中:所述一或多個處理器經進一步配置以使用所述屬性與查找表以識別所述參數。18.根據權利要求11所述的移動裝置,其中:所述一或多個處理器經進一步配置以使用所述屬性來檢查所述部分是否滿足預定測試。19.根據權利要求18所述的移動裝置,其中所述一或多個處理器經進一步配置以響應于發現所述部分滿足所述預定測試而進行以下操作:從所述圖像裁剪包括所述部分的矩形區域;及處理所述矩形區域以識別所述至少一個最大穩定極值區域。20.根據權利要求18所述的移動裝置,其中所述至少一個最大穩定極值區域為下文的第一最大穩定極值區域,及所述一或多個處理器經進一步配置以:對所述圖像子取樣以獲得經子取樣版本;識別所述經子取樣版本中的第二最大穩定極值區域;及使用所述第二最大穩定極值區域的筆劃寬度來識別待經受所述處理的所述部分。21.—或多個非暫時性計算機可讀媒體,其包括多個指令以使一或多個處理器執行方法,所述多個指令包括:第一指令,其用以接收現實世界的場景的圖像;第二指令,其用以基于所述圖像中的像素強度來計算屬性;第三指令,其用以使用所述屬性來識別待用于處理所述圖像的至少一個輸入以識別其中的至少一個最大穩定極值區域,其中所述至少一個輸入為(A)用于所述處理中的參數或(B)待經受所述處理的所述圖像的一部分中的一者、或(A)與(B)兩者;第四指令,其用以執行所述處理來基于所述至少一個輸入識別所述至少一個最大穩定極值區域;其中所述處理至少包括比較所述圖像中的一對像素的強度差與預定限值,響應于發現超過所述預定限值而將所述對像素中的像素的一對坐標添加到列表,及重復所述比較及所述添加;及第五指令,其用以在一或多個存儲器中存儲所述列表作為所述處理識別的所述至少一個最大穩定極值區域的表示。22.根據權利要求21所述的一或多個非暫時性計算機可讀媒體,其中:依據所述像素強度中的每一強度的像素數目而根據所述像素強度的直方圖來計算所述屬性。23.根據權利要求22所述的一或多個非暫時性計算機可讀媒體,其中:所述屬性是基于所述直方圖中的具有閾值以上的像素的對應計數的多個組格。24.根據權利要求23所述的一或多個非暫時性計算機可讀媒體,其中:所述閾值為所述直方圖中的所述多個組格中的最大計數的分數。25.根據權利要求23所述的一或多個非暫時性計算機可讀媒體,其中:所述屬性為在所述直方圖的所述多個組格中的像素計數的平均值以上的所述直方圖的面積。26.根據權利要求21所述的一或多個非暫時性計算機可讀媒體,其中:所述屬性為所述像素強度的方差。27.根據權利要求21所述的一或多個非暫時性計算機可讀媒體,其進一步包括:第六指令,其用以使用所述屬性與查找表以識別所述參數。28.根據權利要求21所述的一或多個非暫時性計算機可讀媒體,其進一步包括:第六指令,其用以使用所述屬性來檢查所述部分是否滿足預定測試。29.根據權利要求28所述的一或多個非暫時性計算機可讀媒體,其進一步包括:第七指令,其用以從所述圖像裁剪包括所述部分的矩形區域;及第八指令,其用以處理所述矩形區域以識別所述至少一個最大穩定極值區域。30.根據權利要求21所述的一或多個非暫時性計算機可讀媒體,其中所述至少一個最大穩定極值區域為下文的第一最大穩定極值區域,所述一或多個非暫時性計算機可讀媒體進一步包括:第六指令,其用以對所述圖像子取樣以獲得經子取樣版本;第七指令,其用以處理所述經子取樣版本以識別所述經子取樣版本中的第二最大穩定極值區域;及第八指令,其用以使用所述第二最大穩定極值區域的筆劃寬度以識別待經受所述處理的所述部分。31.一種用以識別圖像中的區域的設備,所述設備包括:用于接收現實世界的場景的圖像的裝置;用于基于所述圖像中的像素強度計算屬性的裝置;用于使用所述屬性來識別待用于處理所述圖像的至少一個輸入以識別其中的至少一個最大穩定極值區域的裝置,其中所述至少一個輸入為(A)用于所述處理中的參數或(B)待經受所述處理的所述圖像的一部分中的一者、或(A)與(B)兩者;用于執行所述處理來基于所述至少一個輸入來識別所述至少一個最大穩定極值區域的裝置;其中所述處理至少包括比較所述圖像中的一對像素的強度差與預定限值,響應于發現超過所述預定限值而將所述對像素中的像素的一對坐標添加到列表,及重復所述比較及所述添加;及用于在一或多個存儲器中存儲所述列表作為由所述處理識別的所述至少一個最大穩定極值區域的表示的裝置。32.根據權利要求31所述的設備,其中:依據所述像素強度中的每一強度的像素數目而根據所述像素強度的直方圖來計算所述屬性。33.根據權利要求31所述的設備,其中:所述屬性與查找表一起用來識別所述參數。34.根據權利要求31所述的設備,其進一步包括:用于對所述圖像子取樣以獲得經子取樣版本的裝置;用于識別所述經子取樣版本中的額外最大穩定極值區域的裝置;及用于使用所述額外最大穩定極值區域的筆劃寬度以識別待經受所述處理的所述部分的裝置。【文檔編號】G06K9/46GK104428792SQ201380037023【公開日】2015年3月18日申請日期:2013年7月6日優先權日:2012年7月19日【發明者】帕溫·庫瑪·拜哈提,基肖爾·K·巴曼,達納恩杰伊·阿肖克·戈爾,森蒂爾庫馬爾·孫達拉姆申請人:高通股份有限公司