用于有助于檢測圖像內的文本的方法和裝置制造方法
【專利摘要】提供用于有助于檢測圖像內的文本的方法和裝置。一種方法可以包括計算與包含假設的文本片段的圖像區域關聯的阿爾法值。可以定義阿爾法值為用于假設的文本片段的彎曲字符長度分布、字符寬度分布和字符間間距分布的函數。該方法還可以包括至少部分地基于針對假設的文本片段確定的間隔長度分布計算伽馬值。該方法也可以包括至少部分地基于計算出的阿爾法值和伽馬值對圖像區域是否為包含文本的區域進行分類。也提供了對應的裝置。
【專利說明】用于有助于檢測圖像內的文本的方法和裝置
【技術領域】
[0001]本發明的實施例總體涉及圖像處理技術并且更具體地涉及用于有助于檢測圖像內的文本的方法和裝置。
【背景技術】
[0002]現代計算時代已經帶來計算能力的迅速擴張從而產生可負擔并且強大的計算設備的發展。現代計算設備的使用已經變得在跨社會經濟背景范疇的消費者之中幾乎無處不在。這些現代計算設備可以能夠執行多種基于圖像的服務、例如包括增強現實應用、興趣點導航服務和/或其它應用,在這些其它應用中,可以捕獲用戶的周圍環境的圖像并且用可以通過處理圖像而獲得的附加情境信息擴充圖像。作為又一示例,三維地圖繪制技術可以使用捕獲的現實圖像以產生三維地圖,這些三維地圖包括可以從圖像情境獲得的與興趣點有關的三維定位信息和內容。
[0003]這樣的基于圖像的服務可以依賴于檢測捕獲的現實圖像內的文本和/或通過該檢測來增強。就此而言,在現實圖像內識別的文本可以用來有助于興趣點識別、提供捕獲的文本的音頻回讀、為異國旅行者提供語言翻譯服務等。然而圖像內的文本檢測仍然成問題。就此而言,盡管已經在文檔識別領域內使用圖像中的文本檢測,但是在自然界圖像(比如室外場景中的文本檢測)已經證實由于如下挑戰而明顯更困難,這些挑戰由于大量文本字體和樣式、相機視點、圖像對比度以及其它因素而產生,這些其它因素影響捕獲的自然界圖像內的文本的可視性。另外,盡管文檔文本在文檔識別領域中可以是在捕獲的圖像內的主要焦點,但是在自然界圖像內的文本覆蓋范圍通常是圖像的很小部分(經常在數十兆像素的圖像中占用數百像素)。
【發明內容】
[0004]這里提供用于有助于在圖像內的文本檢測的方法、裝置和計算機程序產品。根據各種實施例的方法、裝置和計算機程序產品可以向計算設備、計算設備用戶和設備服務提供商提供若干優點。更具體而言,一些示例實施例提供檢測圖像中的文本,這可以特別有益于檢測在自然界圖像(比如室外圖像)內的文本,在該自然界圖像中可能存在多種字體樣式和大小,并且在該自然界圖像中,背景對比度可能另外妨礙文本檢測。就此而言,一些示例實施例提供在自然界圖像內獨立于文本的字體、字母樣式、語言和定向的文本檢測。更具體而言,一些示例實施例利用可以獨立于字體、字母樣式和語言的文本性質,這些性質可以通過使用可以基于理解的文本性質的模型而更迅速執行的計算來提供比先前方法更快的文本檢測。另外,一些示例實施例所提供的基于模型的文本檢測方式可以比先前基于試探的方式更可靠。一些示例實施例還提供用于為文本檢測指定性能界限的能力,從而可以根據可以由文本模型定義的已知文本性質來提供某個檢測率、由此使用戶能夠調節文本檢測以滿足希望的性能界限。
[0005]在第一示例實施例中,提供一種方法,該方法可以包括計算與包含假設的文本片段的圖像區域關聯的阿爾法值。阿爾法值可以被定義為用于假設的文本片段的彎曲字符長度分布、字符寬度分布和字符間間距分布的函數。這一示例實施例的方法還可以包括至少部分地基于針對假設的文本片段確定的間隔長度分布計算伽馬值。這一示例實施例的方法也可以包括至少部分地基于計算出的阿爾法值和伽馬值對圖像區域是否為包含文本的區域進行分類。
[0006]在另一示例實施例中,提供了一種裝置。這一示例實施例的裝置可以包括至少一個處理器和存儲計算機程序代碼的至少一個存儲器。至少一個存儲器和存儲的計算機程序代碼可以被配置為與至少一個處理器一起使這一示例實施例的裝置至少計算與包含假設的文本片段的圖像區域關聯的阿爾法值。阿爾法值可以被定義為用于假設的文本片段的彎曲字符長度分布、字符寬度分布和字符間間距分布的函數。至少一個存儲器和存儲的計算機程序代碼可以被配置為與至少一個處理器一起還使這一示例實施例的裝置至少部分地基于針對假設的文本片段確定的間隔長度分布計算伽馬值。至少一個存儲器和存儲的計算機程序代碼可以被配置為與至少一個處理器一起還使這一示例實施例的裝置至少部分地基于計算出的阿爾法值和伽馬值對圖像區域是否為包含文本的區域進行分類。
[0007]在另一示例實施例中,提供了一種計算機程序產品。這一實施例的計算機程序產品包括至少一個計算機可讀存儲介質,至少一個計算機可讀存儲介質具有在其中存儲的計算機可讀程序指令。這一示例實施例的程序指令可以包括被配置為計算與包含假設的文本片段的圖像區域關聯的阿爾法值的程序指令。阿爾法值可以被定義為用于假設的文本片段的彎曲字符長度分布、字符寬度分布和字符間間距分布的函數。這一示例實施例的程序指令還可以包括被配置為至少部分地基于針對假設的文本片段確定的間隔長度分布計算伽馬值的程序指令。這一示例實施例的程序指令可以包括被配置為至少部分地基于計算出的阿爾法值和伽馬值對圖像區域是否為包含文本的區域進行分類的程序指令。
[0008]在更多另一示例實施例中,提供了一種裝置,該裝置可以包括用于計算與包含假設的文本片段的圖像區域關聯的阿爾法值的裝置。阿爾法值可以被定義為用于假設的文本片段的彎曲字符長度分布、字符寬度分布和字符間間距分布的函數。這一示例實施例的裝置還可以包括用于至少部分地基于針對假設的文本片段確定的間隔長度分布計算伽馬值的裝置。這一示例實施例的裝置也可以包括用于至少部分地基于計算出的阿爾法值和伽馬值對圖像區域是否為包含文本的區域進行分類的裝置。
[0009]提供以上
【發明內容】
僅用于概括本發明的一些示例實施例以便提供對本發明的一些方面的基本理解。因而將認識到以上描述的示例實施例僅為示例而不應解釋為以任何方式縮小本發明的范圍或者精神實質。將認識到本發明的范圍除了這里概括的實施例之外還涵蓋許多潛在實施例,以下將進一步描述這些潛在實施例中的一些潛在實施例。
【專利附圖】
【附圖說明】
[0010]已經這樣用一般措詞描述本發明的一些示例實施例,現在將參照附圖,這些附圖未必按比例繪制,并且在這些附圖中:
[0011]圖1圖示根據一些示例實施例的用于有助于檢測圖像內的文本的文本檢測裝置的框圖;
[0012]圖2是根據一些示例實施例的移動終端的示意框圖;[0013]圖3圖示根據一些示例實施例的用于執行文本檢測的系統;
[0014]圖4圖示根據一些示例實施例的用于單詞生成的示例貝葉斯網絡,該貝葉斯網絡可以用來描述對在捕獲的圖像內的文本的影響變量和效果;
[0015]圖5圖示根據一些示例實施例跨假設的文本片段應用掃描線;
[0016]圖6圖示根據一些示例實施例的針對訓練數據集計算的阿爾法值和伽馬值,可以使用這些阿爾法值和伽馬值作為用于對假設的文本片段進行分類的模型;
[0017]圖7圖示用于阿爾法值和伽馬值的示例散點圖;
[0018]圖8圖示根據一些示例實施例的樣本分類結果;
[0019]圖9圖示根據一些示例實施例的有助于檢測圖像內的文本的示例方法的流程圖;并且
[0020]圖10圖示根據一些示例實施例的有助于檢測圖像內的文本的另一示例方法的流程圖。
【具體實施方式】
[0021]現在下文將參照附圖更完全地描述本發明的一些實施例,在附圖中示出本發明的一些、但是并非所有實施例。實際上,本發明可以用許多不同形式來體現而不應解釋為限于這里闡述的實施例;實際上,提供這些實施例使得本公開內容將滿足適用法律要求。相似標號全篇指代相似單元。
[0022]如這里所用,術語“數據”、“內容”、“信息”和相似術語可以根據各種示例實施例可互換地用來指代能夠傳輸、接收、顯示和/或存儲的數據。因此,使用任何這樣的術語不應解釋為限制公開內容的精神實質和范圍。另外,在這里描述計算設備從另一計算設備接收數據時,將認識到可以從另一計算設備直接接收數據或者可以經由一個或者多個中間計算設備(如比如一個或者多個服務器、中繼、路由器、網絡接入點、基站等)間接接收數據。
[0023]如這里所用術語“計算機可讀介質”指代被配置為參與向處理器提供信息的任何介質,該信息包括用于執行的指令。這樣的介質可以采用許多形式,這些形式包括、但不限于非瞬態計算機可讀存儲介質(例如非易失性介質、易失性介質)和傳輸介質。傳輸介質例如包括同軸線纜、銅線、光纖線纜和經過空間行進而沒有接線或者線纜的載波、比如聲波和電磁波,這些電磁波包括無線電波、光波和紅外線波。非瞬態計算機可讀介質的示例包括軟盤、硬盤、磁帶、任何其它非瞬態磁介質、緊致盤只讀存儲器(CD-ROM)、緊致盤可重寫(CD-RW)、數字萬用盤(DVD)、藍光、任何其它非瞬態光介質、隨機存取存儲器(RAM)、可編程只讀存儲器(PROM)、可擦除可編程只讀存儲器(EPROM)、FLASH-EPR0M、任何其它存儲器芯片或者盒或者計算機可以從其讀取的任何其它非瞬態介質。術語計算機可讀存儲介質這里用來指代除了傳輸介質之外的任何計算機可讀介質。然而將認識到在描述實施例使用計算機可讀存儲介質時,可以在備選實施例中用其它類型的計算機可讀介質替換計算機可讀存儲介質或者除了計算機可讀存儲介質之外還使用其它類型的計算機可讀介質。
[0024]此外,如這里所用,術語‘電路裝置’指代:(a)僅硬件的電路實現方式(比如在模擬電路裝置和/或數字電路裝置中的實現方式);(b)電路與計算機程序產品的組合,該計算機程序產品包括在一個或者多個計算機可讀存儲器上存儲的軟件和/或固件指令,這些電路和計算機程序產品一起工作以使裝置執行這里描述的一個或者多個功能;以及(C)電路、如比如微處理器或者微處理器的一部分,這些電路需要用于操作的軟件或者固件,即使軟件或者固件并非物理上存在。‘電路裝置’的這一定義適用于這一術語在這里、包括在任何權利要求中的所有使用。作為又一示例,如這里所用,術語‘電路裝置’也包括如下實現方式,該實現方式包括一個或者多個處理器和/或其部分以及附帶軟件和/或固件。作為另一示例,如這里所用的術語‘電路裝置’也例如包括用于移動電話的基帶集成電路或者應用處理器集成電路或者在服務器、蜂窩網絡設備、其它網絡設備和/或其它計算設備中的相似集成電路。
[0025]圖1圖示根據一些示例實施例的用于有助于檢測圖像內的文本的文本檢測裝置102的框圖。將認識到文本檢測裝置102被提供作為一些實施例的示例而不應解釋為以任何方式縮小公開內容的范圍或者精神實質。就此而言,公開內容的范圍除了這里圖示和描述的實施例之外還涵蓋許多潛在實施例。這樣,盡管圖1圖示用于有助于檢測圖像內的文本的裝置的配置的一個示例,但是其它配置也可以用來實施在公開內容的范圍內的實施例。
[0026]文本檢測裝置102可以被體現為桌面型計算機、膝上型計算機、移動終端、移動計算機、移動電話、移動通信設備、平板計算設備、一個或者多個服務器、一個或者多個網絡節點、游戲設備、數字相機/可攜式攝像機、音頻/視頻播放器、電視設備、無線電接收器、數字錄像機、定位設備、芯片組、包括芯片組的裝置、其任何組合等。在一個示例實施例中,文本檢測裝置102可以被體現為移動終端、比如圖2中所示的移動終端。
[0027]就此而言,圖2圖示移動終端10的框圖,該移動終端代表文本檢測裝置102的一個實施例。然而應當理解圖示并且下文描述的移動終端10僅舉例說明可以實施和/或受益于各種實施例的一個類型的文本檢測裝置102、因此不應解讀為限制公開內容的范圍。盡管出于示例的目的而圖示并且下文將描述電子設備的若干實施例,但是其它類型的電子設備、比如移動電話、移動計算機、便攜數字助理(PDA)、尋呼機、膝上型計算機、桌面型計算機、游戲設備、電視和其它類型的電子系統可以運用本發明的各種實施例。
[0028]如圖所示,移動終端10可以包括與發射器14和接收器16通信的一個天線12 (或者多個天線12)。移動終端10也可以包括被配置為分別向發射器和接收器提供信號和從其接收信號的處理器20。處理器20可以例如被體現為各種裝置,這些裝置包括電路裝置、具有附帶數字信號處理器的一個或者多個微處理器、沒有附帶數字信號處理器的一個或者多個處理器、一個或者多個協同處理器、一個或者多個多核處理器、一個或者多個控制器、處理電路裝置、一個或者多個計算機、包括集成電路、如比如ASIC(專用集成電路)或者FPGA(現場可編程門陣列)的各種其它處理單元或者其某種組合。因而雖然在圖2中圖示為單個處理器,但是在一些實施例中,處理器20包括多個處理器。這些由處理器20發送和接收的信號可以包括根據適用蜂窩系統的空中接口標準和/或任何數目的不同有線或者無線聯網技術的信令信息,這些聯網技術包括、但不限于W1-F1、無線局域網(WLAN)技術、t匕如、電氣和電子工程師協會(IEEE)802.1U802.16等。附加地,這些信號可以包括話音數據、用戶生成的數據、用戶請求的數據等。就此而言,移動終端可以能夠用一個或者多個空中接口標準、通信協議、調制類型、接入類型等操作。更具體而言,移動終端可以能夠根據各種第一代(IG)、第二代(2G)、2.5G、第三代(3G)通信協議、第四代(4G)通信協議、網際協議多媒體子系統(MS)通信協議(例如會話發起協議(SIP))、可以將來開發的協議等操作。例如移動終端可以能夠根據2G無線通信協議IS-136(時分多址接入(TDMA))、全球移動通信系統(GSM)、IS-95(碼分多址接入(CDMA))等操作。還例如移動終端可以能夠根據通用分組無線電服務(GPRS)、增強型數據GSM環境(EDGE)等這些2.5G無線通信協議操作。另外例如移動終端可以能夠根據3G無線通信協議、比如通用移動電信系統(UMTS)、碼分多址接入2000(CDMA2000)、寬帶碼分多址接入(WCDMA)、時分-同步碼分多址接入(TD-SCDMA)等操作。移動終端可以附加地能夠根據4G無線通信協議、比如長期演進(LTE)、LTE高級(LTE-A)、演進通用地面無線電接入網絡(E-UTRAN)等操作。
[0029]一些窄帶高級移動電話系統(NAMPS)以及全接入通信系統(TACS)移動終端也可以如雙模或者更高模式的電話(例如數字/模擬或者TDMA/CDMA/模擬電話)應當的那樣從本發明的實施例中受益。附加地,移動終端10可以能夠根據無線保真(W1-Fi)或者全球微波接入互操作性(WiMAX)協議操作。
[0030]理解到處理器20可以包括用于實施移動終端10的音頻/視頻和邏輯功能的電路裝置。例如處理器20可以包括數字信號處理器設備、微處理器設備、模數轉換器、數模轉換器等。可以根據這些設備的相應能力在它們之間分配移動終端的控制和信號處理功能。處理器可以附加地包括內部語音編碼器(VC) 20a、內部數據調制解調器(DM) 20b等。另外,處理器可以包括用于操作可以在存儲器中存儲的一個或者多個軟件程序的功能。例如,處理器20可以能夠操作連接程序、比如web瀏覽器。連接程序可以允許移動終端10根據協議(比如無線應用協議(WAP)、超文本傳送協議(HTTP)等)發送和接收web內容、比如基于位置的內容。移動終端10可以能夠使用傳輸控制協議/網際協議(TCP/IP)以跨因特網或者其它網絡發送和接收web內容。
[0031]移動終端10也可以包括可以操作地耦合到處理器20的用戶接口,該用戶接口例如包括耳機或者揚聲器24、振鈴器22、麥克風26、顯示器28、用戶輸入接口等。就此而言,處理器20可以包括用戶接口電路裝置,該用戶接口電路裝置被配置為控制用戶接口的一個或者多個單元、如比如揚聲器24、振鈴器22、麥克風26、顯示器28等的至少一些功能。處理器20和/或包括處理器20的用戶接口電路裝置可以被配置為通過在處理器20可訪問的存儲器(例如易失性存儲器40、非易失性存儲器42等)上存儲的計算機程序指令(例如軟件和/或固件)控制用戶接口的一個或者多個單元的一個或者多個功能。雖然未示出,但是移動終端可以包括用于向與移動終端有關的各種電路(例如用于提供機械振動作為可檢測輸出的電路)供電的電池。用戶輸入接口可以包括允許移動終端接收數據的設備、比如鍵區30、觸摸屏(未示出)、操縱桿(未示出)和/或其它輸入設備。在包括鍵區的實施例中,鍵區可以包括數字鍵(0-9)和有關鍵(#、*)和/或用于操作移動終端的其它鍵。
[0032]如圖2中所示,移動終端10也可以包括用于共享和/或獲得數據的一個或者多個裝置。例如,移動終端可以包括短程射頻(RF)收發器和/或詢問器64,從而可以根據RF技術與電子設備共享和/或從電子設備獲得數據。移動終端可以包括其它短程收發器、如t匕如紅外線(IR)收發器66、使用Bluetooth?特別興趣組開發的Bluetooth?品牌無線技術來操作的Bluetooth?(BT)收發器68、無線通用串行總線(USB)收發器70等。Bluetooth?收發器68可以能夠根據超低功率Bluetooth?技術(例如Wibree?)無線電標準操作。就此而言,移動終端10并且具體為短程收發器可以能夠向在移動終端的鄰域內(如比如在10米內)的電子設備發送數據和/或從這些電子設備接收數據。雖然未示出,但是移動終端可以能夠根據各種無線聯網技術傳輸和/或接收來自電子設備的數據,這些無線聯網技術包括無線保真(W1-Fi)、WLAN技術、比如IEEE802.11技術、IEEE802.15技術、IEEE802.16技術等。
[0033]移動終端10可以包括與處理器20通信的媒體捕獲單元、比如相機、視頻和/或音頻模塊。媒體捕獲單元可以包括用于捕獲圖像、視頻和/或音頻用于存儲、顯示或者傳輸的任何裝置。例如在其中媒體捕獲單元包括相機模塊36的一些示例實施例中,相機模塊36可以包括被配置為從捕獲的圖像形成數字圖像的數字相機。此外,相機模塊36的數字相機可以被配置為捕獲視頻剪輯。這樣,相機模塊36可以包括為了從捕獲的圖像創建數字圖像文件以及從捕獲的視頻剪輯創建數字視頻文件而必需的所有硬件、比如透鏡或者其它光學部件以及軟件。備選地,相機模塊36可以僅包括為了查看圖像而需要的硬件,而移動終端10的存儲器設備以為了從捕獲的圖像創建數字圖像文件而必需的軟件的形式存儲用于由處理器20執行的指令。作為更多另一備選,可以在移動終端10的顯示器28上顯示在相機模塊36的視野內的一個對象或者多個對象以圖示如果用戶希望則可以捕獲的當前顯示的圖像的視圖。這樣,捕獲的圖像可以例如包括相機模塊36捕獲的并且在圖像文件中存儲的圖像。作為另一示例,捕獲的圖像可以包括移動終端10的顯示器或者取景器當前顯示的、但是未必在圖像文件中存儲的一個對象或者多個對象。在一些示例實施例中,相機模塊36還可以包括被配置為輔助處理器20處理圖像數據的處理單元、比如協同處理器以及用于壓縮和/或解壓圖像數據的編碼器和/或解碼器。編碼器和/或解碼器可以例如根據聯合圖象專家組(JPEG)標準、運動圖象專家組(MPEG)標準或者其它格式編碼和/或解碼。
[0034]移動終端10可以包括可以存儲與移動用戶有關的信元的存儲器、比如用戶身份模塊(SM) 38、可拆卸用戶身份模塊(R-UM)等。除了 SM之外,移動終端還可以包括其它可拆卸和/或固定存儲器。移動終端10可以包括易失性存儲器40和/或非易失性存儲器42。例如易失性存儲器40可以包括隨機存取存儲器(RAM)、片上或者片外高速緩存存儲器等,該RAM包括動態和/或靜態RAM。可以是嵌入的和/或可拆卸的非易失性存儲器42可以例如包括只讀存儲器、閃速存儲器、磁存儲設備(例如硬盤、軟盤驅動、磁帶等)、光盤驅動和/或介質、非易失性隨機存取存儲器(NVRAM)等。如同易失性存儲器40,非易失性存儲器42可以包括用于暫時存儲數據的高速緩存區域。存儲器可以存儲移動終端可以用于執行移動終端的功能的一個或者多個軟件程序、指令、一條或者多條信息、數據等。例如,存儲器可以存儲能夠唯一標識移動終端10的標識符、比如國際移動設備標識(IMEI)代碼。
[0035]回顧圖1,在一些示例實施例中,文本檢測裝置102包括用于執行這里描述的各種功能的各種裝置。這些裝置可以包括處理器110、存儲器112、通信接口 114、用戶接口 116、圖像捕獲電路裝置118或者檢測電路裝置120中的一項或者多項。如這里描述的文本檢測裝置102的裝置可以例如被體現為電路裝置、硬件單元(例如適當編程的處理器、組合邏輯電路等)、包括計算機可讀介質(例如存儲器112)的計算機程序產品或者其某種組合,該計算機可讀介質存儲可以由適當配置的處理設備(例如處理器110)執行的計算機可讀程序指令(例如軟件或者固件)。
[0036]在一些示例實施例中,圖3中所示裝置中的一個或者多個裝置可以被體現為芯片或者芯片組。換而言之,文本檢測裝置102可以包括一個或者多個物理封裝(例如芯片),該一個或者多個物理封裝包括結構組件(例如基板)上的材料、部件和/或接線。結構組件可以提供用于在其上包括的部件電路裝置的物理強度、尺寸節約和/或電互作用限制。就此而言,可以體現處理器110、存儲器112、通信接口 114、用戶接口 116、圖像捕獲電路裝置118和檢測電路裝置120中的一項或者多項或者其某種組合為芯片或者芯片組。文本檢測裝置102因此可以在一些示例實施例中被配置為在單個芯片上或者作為單個“片上系統”實施本發明的實施例。作為另一示例,在一些示例實施例中,文本檢測裝置102可以包括被配置為在單個芯片上或者作為單個“片上系統”實施本發明的實施例的部件。這樣,在一些情況下,芯片或者芯片組可以構成用于執行一個或者多個操作的裝置,該一個或者多個操作用于提供這里描述的功能和/或實現用于關于這里描述的功能和/或服務的用戶接口導航。
[0037]處理器110例如可以被體現為各種裝置,這些裝置包括具有附帶數字信號處理器的一個或者多個微處理器、沒有附帶數字信號處理器的一個或者多個處理器、一個或者多個協同處理器、一個或者多個多核處理器、一個或者多個控制器、處理電路裝置、一個或者多個計算機、包括集成電路、如比如ASIC(專用集成電路)或者FPGA(現場可編程門陣列)的各種其它處理單元或者其某種組合。因而雖然在圖1中圖示為單個處理器,但是在一些實施例中,處理器110包括多個處理器。多個處理器可以相互操作通信并且可以被共同地配置為執行如這里描述的文本檢測裝置102的一個或者多個功能。多個處理器可以被體現在單個計算設備上或者跨被共同地配置為作為文本檢測裝置102工作的多個計算設備分布。在其中文本檢測裝置102被體現為移動終端10的實施例中,處理器110可以被體現為或者包括處理器20。在一些示例實施例中,處理器110被配置為執行在存儲器112中存儲的或者處理器110另外可訪問的指令。這些指令在由處理器110執行時可以使文本檢測裝置102執行如這里描述的文本檢測裝置102的功能中的一個或者多個功能。這樣,無論通過硬件或者軟件方法或者通過其組合來配置,處理器110可以包括能夠當被相應地配置時根據本發明的實施例執行操作的實體。因此,例如在處理器110被體現為ASIC、FPGA等時,處理器110可以包括用于進行這里描述的一個或者多個操作而專門配置的硬件。備選地,作為另一示例,在處理器110被體現為比如可以在存儲器112中存儲的指令的執行器時,指令可以具體地配置處理器110以執行這里描述的一個或者多個算法和操作。
[0038]存儲器112可以例如包括易失性存儲器、非易失性存儲器或者其某種組合。就此而言,存儲器112可以包括非瞬態計算機可讀存儲介質。雖然在圖1中圖示為單個存儲器,但是存儲器112可以包括多個存儲器。多個存儲器可以被體現在單個計算設備上或者可以跨被共同地配置為作為文本檢測裝置102工作的多個計算設備分布。在各種示例實施例中,存儲器112可以例如包括硬盤、隨機存取存儲器、高速緩存存儲器、閃速存儲器、緊致盤只讀存儲器(CD-ROM)、數字萬用盤只讀存儲器(DVD-ROM)、光盤、被配置為存儲信息的電路裝置或者其某種組合。在其中文本檢測裝置102被體現為移動終端10的實施例中,存儲器112可以包括易失性存儲器40和/或非易失性存儲器42。存儲器112可以被配置為存儲用于使文本檢測裝置102能夠根據各種示例實施例執行各種功能的信息、數據、應用、指令等。例如在至少一些實施例中,存儲器112被配置為緩沖用于由處理器110處理的輸入數據。附加地或者備選地,在至少一些實施例中,存儲器112可以被配置為存儲用于由處理器110執行的程序指令。存儲器112可以用靜態和/或動態信息的形式存儲信息。存儲的信息可以例如包括用于臉部檢測的模型、圖像、視頻、視頻幀等。圖像捕獲電路裝置118和/或檢測電路裝置120可以在執行它們的功能的過程期間存儲和/或使用這一存儲的信息。
[0039]通信接口 114可以被體現為被配置為從另一計算設備接收和/或/向其發送數據的、在電路裝置、硬件、包括計算機可讀介質(例如存儲器112)的計算機程序產品或者其組合中體現的任何設備或者裝置,該計算機可讀介質存儲可以由適當配置的處理設備(例如處理器110)執行的計算機可讀程序指令(例如軟件或者固件)。例如,通信接口 114可以通過網絡接口接收代表圖像或者視頻的數據。就此而言,在其中文本檢測裝置102包括服務器、網絡節點等的實施例中,通信接口 114可以被配置為與遠程圖像源(例如圖像源304)通信以接收圖像,該圖像可以由文本檢測裝置102處理以根據一個或者多個示例實施例檢測圖像內的文本。在一些示例實施例中,通信接口 114可以被至少部分體現為處理器110或者另外由處理器110控制。就此而言,通信接口 114可以比如經由總線與處理器110通信。通信接口 114可以例如包括用于實現與一個或者多個遠程計算設備通信的天線、發射器、接收器、收發器和/或支持硬件或者軟件。通信接口 114可以被配置為使用可以用于在計算設備之間通信的任何協議來接收和/或發送數據。就此而言,通信接口 114可以被配置為使用任何可以用于通過無線網絡、有線網絡、其某種組合等(文本檢測裝置102和一個或者多個計算設備可以通過該網絡通信)傳輸數據的協議來接收和/或發送數據。通信接口 114可以附加地比如經由總線與存儲器112、用戶接口 116、圖像捕獲電路裝置118和/或檢測電路裝置120通信。
[0040]用戶接口 116可以與處理器110通信以接收用戶輸入的指示和/或向用戶提供可聽、可視、機械或者其它輸出。這樣,用戶接口 116可以例如包括鍵盤、鼠標、操縱桿、顯示器、觸摸屏顯示器、麥克風、揚聲器和/或其它輸入/輸出機制。在其中用戶接口 116包括觸摸屏顯示器的實施例中,用戶接口 116可以附加地被配置為檢測和/或接收向觸摸屏顯示器的觸摸手勢或者其它輸入的指示。在其中文本檢測裝置102被體現為一個或者多個服務器的實施例中,可以減少用戶接口 116的方面或者可以甚至消除用戶接口 116。用戶接口 116可以比如經由總線與存儲器112、通信接口 114、圖像捕獲電路裝置118和/或檢測電路裝置120通信。
[0041]在一些示例實施例中,文本檢測裝置102可以包括圖像捕獲電路裝置118。然而將認識導在一些示例實施例中可以排除圖像捕獲電路裝置118。圖像捕獲電路裝置118可以被體現為各種裝置、比如電路裝置、硬件、包括計算機可讀介質(例如存儲器112)的計算機程序產品或者其某種組合,該計算機可讀介質存儲存儲可以由適當配置的處理設備(例如處理器110)執行的計算機可讀程序指令(例如軟件或者固件),并且在一個實施例中圖像捕獲電路裝置118被體現為處理器110或者另外由處理器110控制。在其中圖像捕獲電路裝置118與處理器110分離地體現的實施例中,圖像捕獲電路裝置118可以與處理器110通信。圖像捕獲電路裝置118還可以比如經由總線與存儲器112、通信接口 114、用戶接口116或者檢測電路裝置120中的一項或者多項通信。
[0042]圖像捕獲電路裝置118可以包括被配置為捕獲圖像和/或視頻的硬件。就此而言,圖像捕獲電路裝置118可以包括相機透鏡和/或用于捕獲數字圖像的其它光學部件。作為另一示例,圖像捕獲電路裝置118可以包括被配置為指引可以在文本檢測裝置102中體現的或者另外操作地連接到文本檢測裝置102的分離相機模塊對圖像的捕獲。在其中體現文本檢測裝置102被體現為移動終端10的實施例中,圖像捕獲電路裝置118可以包括相機模塊36和/或可以被配置為控制相機模塊36對圖像的捕獲。
[0043]檢測電路裝置120可以被體現為各種裝置、比如電路裝置、硬件、包括計算機可讀介質(例如存儲器112)的計算機程序產品或者其某種組合,該計算機可讀介質存儲可以由適當配置的處理設備(例如處理器110)執行的計算機可讀程序指令(例如軟件或者固件),并且在一個實施例中檢測電路裝置120被體現為處理器110或者另外由處理器110控制。在其中檢測電路裝置120與處理器110分離地體現的實施例中,檢測電路裝置120可以與處理器110通信。檢測電路裝置120還可以比如經由總線與存儲器112、通信接口 114、用戶接口 116或者圖像捕獲電路裝置118中的一項或者多項通信。
[0044]圖3圖示根據一些示例實施例的用于執行文本檢測的系統300。系統300包括被配置為通過網絡306通信的文本檢測裝置302和圖像源304。文本檢測裝置302可以例如包括文本檢測裝置102的實施例,其中文本檢測裝置102可以被配置為接收圖像和/或通過網絡306從圖像源304訪問圖像以便檢測圖像內的文本。網絡306可以包括有線網絡、無線網絡(例如蜂窩網絡、無線局域網、無線廣域網、其某種組合等)或者其組合并且在一些示例實施例中可以包括因特網。
[0045]圖像源304可以包括被配置為接入網絡306并且與文本檢測裝置302通信以便向文本檢測裝置302提供圖像的任何計算設備。就此而言,圖像源304可以包括可以被配置為捕獲和/或存儲圖像的任何裝置。舉例而言,圖像源304可以例如被體現為桌面型計算機、膝上型計算機、移動終端、移動計算機、移動電話、移動通信設備、平板計算設備、移動終端10、游戲設備、數字相機/可攜式攝像機、音頻/視頻播放器、電視設備、相機設備、數字錄像機、網絡附著存儲設備、其任何組合等。
[0046]這樣,在圖3中所示的示例系統中,文本檢測裝置302可以被配置為從圖像源304訪問和/或接收圖像(例如靜止圖像、視頻剪輯、視頻幀等)。文本檢測裝置302(例如檢測電路裝置120)可以被配置為根據以下關于文本檢測裝置102描述的實施例中的任何實施例執行文本檢測操作以檢測接收的圖像內的文本。在一些示例實施例中,文本檢測裝置302 (例如檢測電路裝置120和/或通信接口 114)還可以被配置為向圖像源304發送由文本檢測裝置302執行的文本檢測的結果。
[0047]在一些示例實施例中,圖像源304可以包括用戶終端,該用戶終端可以被配置為訪問可以由文本檢測裝置302提供的文本檢測功能。就此而言,可以根據一些示例實施例執行的至少一些圖像處理操作可以包括可以由服務器執行的基于云的操作。因此例如在一些示例實施例中,可以根據一些示例實施例向終端用戶提供文本檢測服務而實際的文本檢測操作無需在終端用戶的設備上執行。
[0048]作為又一示例,在系統300的一些示例實施例中,檢測電路裝置120的方面可以被分配在圖像源304與文本檢測裝置302之間。就此而言,可以在文本檢測裝置302與圖像源304之間劃分和/或另外分布用于根據一個或者多個示例實施例執行在圖像內的文本檢測的任務。
[0049]因而將認識到在描述文本檢測裝置102檢測圖像內的文本、對圖像的區域是否為包含文本的區域進行分類等時,圖像可以例如包括由文本檢測裝置102捕獲的圖像(例如由圖像捕獲電路裝置118捕獲的圖像)、對文本檢測裝置102可訪問的本地存儲的圖像(例如在存儲器112中存儲的圖像)、可以通過網絡從遠程圖像源(例如從圖像源304)接收和/或訪問的圖像等。
[0050]在一些示例實施例中,文本檢測裝置102可以被配置為根據模型檢測圖像(例如靜止圖像、視頻、視頻幀等)內的文本,該模型捕獲可以獨立于字體、樣式、視點、背景對比度和/或可以對圖像內的文本的感知有影響的其它因素的文本性質。就此而言,一些示例實施例可以至少部分地基于可以根據一般文本性質預測的模型提供文本檢測,這些一般文本性質可以基本上不在可變字體、文本樣式、文本與圖像背景之間的對比度或者在圖像中捕獲文本時的視點之間變化。這些性質可以例如包括:
[0051].筆畫寬度一般跨文本相當恒定。
[0052].字符高度一般跨文本相當恒定。
[0053].字符間距一般相當恒定。
[0054].可讀性規定對于給定的文本高度,對應的筆畫寬度和字符間距可以與高度成比例,從而筆畫寬度和字符間距不能太大或者太小。
[0055]?假設存在文本下面的某個類型的背景,那么在圖像內包圍文本的定界區域(例如框)可以在強度上為雙模態(bimodal)。
[0056]現在參照圖4,圖4圖示根據一些示例實施例的用于單詞生成的示例貝葉斯網絡,該貝葉斯網絡可以用來描述對捕獲的圖像內的文本的影響變量和效果。如圖4中所示,變量402-418中的一個或者多個變量的任何組合可以影響文本幾何結構320。更具體而言,影響文本幾何結構320的變量可以包括用于文本的字母表402 (例如拉丁字母表、中文本母表、西里爾字母表等)、文本的樣式404 (例如粗體、斜體等)、用于文本的字體406、文本框或者涵蓋文本的其它區域的高度408 (例如文本的字符的高度)、包括文本的字符的筆畫的長度410、文本字符的縮放的筆畫寬度412、在文本的字符之間的間距414、用于字符的字符寬度416和在文本片段中的字符數目418。
[0057]文本幾何結構420可以與文本外觀因素(比如背景顏色422和文本顏色424) —起又影響三維(3D)文本片段426 (如它可以在現實中存在的那樣)的性質。可以在3D文本片段426的圖像中捕獲的二維(2D)文本片段434的生成又可以受3D文本片段426的現實外觀和如下變量(比如變量428-432)影響,這些變量可以影響用來捕獲圖像的成像過程。更具體而言,可以影響成像過程的變量可以包括從其捕獲圖像的視點428、相機測光性(photometry)性質430、捕獲的圖像的場景的照度432等。
[0058]給定以上描述的貝葉斯網絡,可以根據一些示例實施例定義若干隨機變量,這些隨機變量可以描述固有的文本幾何性質。這些變量可以包括:
[0059].H =字符的高度(例如圖4中的節點408)
[0060].L = λ H =字符的一維(ID)長度,可以定義為字符的骨架的總彎曲長度(例如圖4中的節點410)
[0061].B = β H =字符的寬度(例如圖4中的節點416)
[0062].S = ΨΗ =字符的筆畫寬度(例如圖4中的節點412)
[0063].D = δ H =相鄰字符之間的間距(例如圖4中的節點414)
[0064].m = 在單詞或者其它文本片段中的字符數目(例如圖4中的節點418)
[0065]在先前定義中的數量λ、β、ψ和δ可以被定義為表示相應文本性質的隨機變量。就此而言,λ可以表示相對于文本高度的字符長度。β可以表示相對于文本高度的字符長度。Ψ可以表示相對于文本高度的字符寬度。S可以表示相對于文本高度的字符間間距。給定字母表(例如英文、中文等)、樣式(即粗體、斜體、常規)和字體(例如Arial,Courier等)的選擇,該選擇可以映射到用于λ、β、ψ和δ的概率分布。因而在給定字符數目m的情況下,可以從四個概率分布抽取m個實例以創建用于單詞的字符集合。因而一些示例實施例可以使用這些文本幾何性質以用可以對影響文本外觀的變量(比如背景顏色422和文本顏色424)以及影響成像過程的變量(比如視點428、相機測光性430和照度432)而言穩健的方式提供文本檢測。
[0066]就此而言,根據一些示例實施例,可以使用阿爾法值(α )對圖像內的文本片段進行建模,該阿爾法值可以被定義為是彎曲字符長度分布(λ)、字符寬度分布(β)和字符間間距分布(δ )的函數的隨機變量,這些分布如在圖4的上下文中討論的那樣可以在給定具體字母表、字體和樣式的情況下是文本的固有性質。可以示范阿爾法值的推導如下。
[0067]給定在圖像內的單詞或者其它文本片段,文本框的字符在包含文本片段的圖像區域(例如文本框)內占用的面積可以被定義如下:
[0068]At ^ mLS
[0069]^πιλψΗ2[I]
[0070]被包含文本片段的總圖像區域(例如文本框)占用的面積可以被定義如下:
[0071]Ab = HW
[0072]^ mH (B+D)
[0073]^ mH2 ( β + δ )[2]
[0074]被包含文本片段的圖像區域占用的面積與被文本片段占用的面積之比可以稱為占用比(ω)。占用比可以被定義如下:
【權利要求】
1.一種方法,包括: 計算與包含假設的文本片段的圖像區域關聯的阿爾法值,所述阿爾法值被定義為用于所述假設的文本片段的彎曲字符長度分布、字符寬度分布和字符間間距分布的函數;至少部分地基于針對所述假設的文本片段確定的間隔長度分布計算伽馬值;以及至少部分地基于計算出的所述阿爾法值和所述伽馬值對所述圖像區域是否為包含文本的區域進行分類。
2.根據權利要求1所述的方法,其中計算所述阿爾法值包括在不直接計算用于所述假設的文本片段的所述彎曲字符長度分布、所述字符寬度分布或者所述字符間間距分布的情況下計算所述阿爾法值。
3.根據權利要求1至2中任一項所述的方法,其中計算所述阿爾法值包括至少部分地基于占用比和用于所述假設的文本片段的筆畫寬度計算所述阿爾法值,所述占用比定義確定的所述圖像區域中被所述假設的文本片段占用的面積與確定的所述圖像區域的總面積之比。
4.根據權利要求1至2中任一項所述的方法,其中計算所述阿爾法值包括至少部分地基于確定的所述圖像區域的總面積和穿過所述假設的文本片段的至少一個假設的字符的、以線間間距為特征的多個基本平行線的交點數目來計算所述阿爾法值。
5.根據權利要求1至4中任一項所述的方法,其中至少部分地基于所述間隔長度分布計算所述伽馬值包括計算被文本高度除得的所述間隔長度的分布的均值與被文本高度除得的所述間隔長度的所述分布的標準偏差之比。
6.根據權利要求1至5中任一項所述的方法,還包括: 跨所述假設的文本片段應用至少一個掃描線; 至少部分地基于所應用的至少一個掃描線確定所述假設的文本片段的至少一個性質;以及 其中計算所述阿爾法值和所述伽馬值包括至少部分地基于所確定的所述假設的文本片段的至少一個性質計算所述阿爾法值和所述伽馬值。
7.根據權利要求1至6中任一項所述的方法,還包括: 通過二值化確定的所述圖像區域來得出二值圖像; 至少部分地基于所述二值圖像確定所述圖像區域是否使用僅兩個概率分布可描述; 僅在其中確定所述圖像區域使用僅兩個概率分布可描述的實例中,使用所述二值圖像來計算所述阿爾法值并且計算所述伽馬值;以及 在其中所述圖像區域使用僅兩個概率分布不可描述的實例中,將所述圖像區域分類為非包含文本的區域。
8.根據權利要求1至7中任一項所述的方法,其中至少部分地基于計算出的所述阿爾法值和所述伽馬值對所述圖像區域是否為包含文本的區域進行分類包括: 確定計算出的所述阿爾法值和所述伽馬值是否滿足所定義的、與期望的阿爾法值和伽馬值的閾值關系; 在其中確定計算出的所述阿爾法值和所述伽馬值滿足與期望的阿爾法值和伽馬值的所述閾值關系的實例中,將所述圖像區域分類為包含文本的區域;以及 在其中確定計算出的所述阿爾法值和所述伽馬值不滿足與期望的阿爾法值和伽馬值的所述閾值關系的實例中,將所述圖像區域分類為非包含文本的區域。
9.根據權利要求1至8中任一項所述的方法,其中至少部分地基于計算出的所述阿爾法值和所述伽馬值對所述圖像區域是否為包含文本的區域進行分類包括: 應用高斯分布函數; 在其中計算出的所述阿爾法值和所述伽馬值滿足與所述高斯分布函數的閾值關系的實例中,將所述圖像區域分類為包含文本的區域;以及 在其中計算出的所述阿爾法值和所述伽馬值不滿足與所述高斯分布函數的閾值關系的實例中,將所述圖像區域分類為非包含文本的區域。
10.一種計算機程序,包括被配置為使裝置執行根據權利要求1至9中任一項所述的方法的指令。
11.一種裝置,包括至少一個處理器和存儲計算機程序代碼的至少一個存儲器,其中所述至少一個存儲器和存儲的計算機程序代碼被配置為與所述至少一個處理器一起使所述裝置至少: 計算與包含假設的文本片段的圖像區域關聯的阿爾法值,所述阿爾法值被定義為用于所述假設的文本片段的彎曲字符長度分布、字符寬度分布和字符間間距分布的函數; 至少部分地基于針對所述假設的文本片段確定的間隔長度分布計算伽馬值;并且 至少部分地基于計算出的所述阿爾法值和所述伽馬值對所述圖像區域是否為包含文本的區域進行分類。
12.根據權利要求11所述的裝置,其中所述至少一個存儲器和存儲的計算機程序代碼被配置為與所述至少一個處理器一起使所述裝置在不直接計算用于所述假設的文本片段的所述彎曲字符長度分布、所述字符寬度分布或者所述字符間間距分布的情況下計算所述阿爾法值。
13.根據權利要求11至12中任一項所述的裝置,其中所述至少一個存儲器和存儲的計算機程序代碼被配置為與所述至少一個處理器一起使所述裝置至少部分地基于占用比和用于所述假設的文本片段的筆畫寬度計算所述阿爾法值,所述占用比定義確定的所述圖像區域中被所述假設的文本片段占用的面積與確定的所述圖像區域的總面積之比。
14.根據權利要求11至12中任一項所述的裝置,其中所述至少一個存儲器和存儲的計算機程序代碼被配置為與所述至少一個處理器一起使所述裝置至少部分地基于確定的所述圖像區域的總面積和穿過所述假設的文本片段的至少一個假設的字符的、以線間間距為特征的多個基本平行線的交點數目來計算所述阿爾法值。
15.根據權利要求11至14中任一項所述的裝置,其中所述至少一個存儲器和存儲的計算機程序代碼被配置為與所述至少一個處理器一起使所述裝置至少部分地通過計算被文本高度除得的所述間隔長度的分布的均值與被文本高度除得的所述間隔長度的所述分布的標準偏差之比來至少部分地基于所述間隔長度分布計算所述伽馬值。
16.根據權利要求11至15中任一項所述的裝置,其中所述至少一個存儲器和存儲的計算機程序代碼被配置為與所述至少一個處理器一起還使所述裝置: 跨所述假設的文本片段應用至少一個掃描線; 至少部分地基于所應用的至少一個掃描線確定所述假設的文本片段的至少一個性質;并且至少部分地通過至少部分地基于所確定的所述假設的文本片段的至少一個性質計算所述阿爾法值和所述伽馬值來計算所述阿爾法值和所述伽馬值。
17.根據權利要求11至16中任一項所述的裝置,其中所述至少一個存儲器和存儲的計算機程序代碼被配置為與所述至少一個處理器一起還使所述裝置: 通過二值化確定的所述圖像區域來得出二值圖像; 至少部分地基于所述二值圖像確定所述圖像區域是否使用僅兩個概率分布可描述; 僅在其中確定所述圖像區域使用僅兩個概率分布可描述的實例中,使用所述二值圖像來計算所述阿爾法值并且計算所述伽馬值;并且 在其中所述圖像區域使用僅兩個概率分布不可描述的實例中,將所述圖像區域分類為非包含文本的區域。
18.根據權利要求11至17中任一項所述的裝置,其中所述至少一個存儲器和存儲的計算機程序代碼被配置為與所述至少一個處理器一起還使所述裝置至少部分地通過以下操作來至少部分地基于計算出的所述阿爾法值和所述伽馬值對所述圖像區域是否為包含文本的區域進行分類: 確定計算出的所述阿爾法值和所述伽馬值是否滿足所定義的、與期望的阿爾法值和伽馬值的閾值關系; 在其中確定計算出的所述阿爾法值和所述伽馬值滿足與期望的阿爾法值和伽馬值的所述閾值關系的實例中,將所述圖像區域分類為包含文本的區域;以及 在其中確定計算出的所述阿爾法值和所述伽馬值不滿足與期望的阿爾法值和伽馬值的所述閾值關系的實例中,將所述圖像區域分類為非包含文本的區域。
19.根據權利要求11至18中任一項所述的裝置,其中所述至少一個存儲器和存儲的計算機程序代碼被配置為與所述至少一個處理器一起還使所述裝置至少部分地通過以下操作來至少部分地基于計算出的所述阿爾法值和所述伽馬值對所述圖像區域是否為包含文本的區域進行分類: 應用高斯分布函數; 在其中計算出的所述阿爾法值和所述伽馬值滿足與所述高斯分布函數的閾值關系的實例中,將所述圖像區域分類為包含文本的區域;以及 在其中計算出的所述阿爾法值和所述伽馬值不滿足與所述高斯分布函數的閾值關系的實例中,將所述圖像區域分類為非包含文本的區域。
20.根據權利要求11至19中任一項所述的裝置,其中所述裝置包括移動計算設備或者被體現在所述移動計算設備上,所述移動計算設備包括用戶接口電路和在所述至少一個存儲器中的一個或者多個存儲器上存儲的用戶接口軟件;其中所述用戶接口電路和用戶接口軟件被配置為: 通過使用顯示器有助于對所述移動計算設備的至少一些功能的用戶控制;并且 使所述移動計算設備的用戶接口的至少一部分顯示于所述顯示器上以有助于對所述移動計算設備的至少一些功能的用戶控制。
21.一種包括至少一個計算機可 讀存儲介質的計算機程序產品,所述至少一個計算機可讀存儲介質具有在其中存儲的計算機可讀程序指令,所述計算機可讀程序指令包括: 被配置為計算與包含假設的文本片段的圖像區域關聯的阿爾法值的程序指令,所述阿爾法值被定義為用于所述假設的文本片段的彎曲字符長度分布、字符寬度分布和字符間間距分布的函數; 被配置為至少部分地基于針對所述假設的文本片段確定的間隔長度分布計算伽馬值的程序指令;以及 被配置為至少部分地基于計算出的所述阿爾法值和所述伽馬值對所述圖像區域是否為包含文本的區域進行分類的程序指令。
22.根據權利要求21所述的計算機程序產品,其中被配置為計算所述阿爾法值的所述程序指令包括被配置為在不直接計算用于所述假設的文本片段的所述彎曲字符長度分布、所述字符寬度分布或者所述字符間間距分布的情況下計算所述阿爾法值的程序指令。
23.根據權利要求21至22中任一項所述的計算機程序產品,其中被配置為計算所述阿爾法值的所述程序指令包括被配置為至少部分地基于占用比和用于所述假設的文本片段的筆畫寬度計算所述阿爾法值的程序指令,所述占用比定義確定的所述圖像區域中被所述假設的文本片段占用的面積與確定的所述圖像區域的總面積之比。
24.根據權利要求21至22中任一項所述的計算機程序產品,其中被配置為計算所述阿爾法值的所述程序指令包括被配置為至少部分地基于確定的所述圖像區域的總面積和穿過所述假設的文本片段的至少一個假設的字符的、以線間間距為特征的多個基本平行線的交點數目來計算所述阿爾法值的程序指令。
25.根據權利要求21至24中任一項所述的計算機程序產品,其中被配置為至少部分地基于所述間隔長度分布計算所述伽馬值的所述程序指令包括被配置為計算被文本高度除得的所述間隔長度的分布的均值與被文本高度除得的所述間隔長度的所述分布的標準偏差之比的程序指令。
26.根據權利要求21至25中任一項所述的計算機程序產品,還包括: 被配置為跨所述假設的文本片段應用至少一個掃描線的程序指令; 被配置為至少部分地基于所應用的至少一個掃描線確定所述假設的文本片段的至少一個性質的程序指令;并且 其中被配置為計算所述阿爾法值和所述伽馬值的所述程序指令包括被配置為至少部分地基于所確定的所述假設的文本片段的至少一個性質計算所述阿爾法值和所述伽馬值的程序指令。
27.根據權利要求21至26中任一項所述的計算機程序產品,還包括: 被配置為通過二值化確定的所述圖像區域來得出二值圖像的程序指令; 被配置為至少部分地基于所述二值圖像確定所述圖像區域是否使用僅兩個概率分布可描述的程序指令; 被配置為僅在其中確定所述圖像區域使用僅兩個概率分布可描述的實例中使用所述二值圖像來計算所述阿爾法值并且計算所述伽馬值的程序指令;以及 被配置為在其中所述圖像區域使用僅兩個概率分布不可描述的實例中將所述圖像區域分類為非包含文本的區域的程序指令。
28.根據權利要求21至27中任一項所述的計算機程序產品,其中被配置為至少部分地基于計算出的所述阿爾法值和所述伽馬值對所述圖像區域是否為包含文本的區域進行分類的所述程序指令包括:被配置為確定計算出的所述阿爾法值和所述伽馬值是否滿足所定義的、與期望的阿爾法值和伽馬值的閾值關系的程序指令; 被配置為在其中確定計算出的所述阿爾法值和所述伽馬值滿足與期望的阿爾法值和伽馬值的所述閾值關系的實例中將所述圖像區域分類為包含文本的區域的程序指令;以及 被配置為在其中確定計算出的所述阿爾法值和所述伽馬值不滿足與期望的阿爾法值和伽馬值的所述閾值關系的實例中將所述圖像區域分類為非包含文本的區域的程序指令。
29.根據權利要求21至28中任一項所述的計算機程序產品,其中被配置為至少部分地基于計算出的所述阿爾法值和所述伽馬值對所述圖像區域是否為包含文本的區域進行分類的所述程序指令包括: 被配置為應用高斯分布函數的程序指令; 被配置為在其中計算出的所述阿爾法值和所述伽馬值滿足與所述高斯分布函數的閾值關系的實例中將所述圖像區域分類為包含文本的區域的程序指令;以及 被配置為在其中計算出的所述阿爾法值和所述伽馬值不滿足與所述高斯分布函數的閾值關系的實例中將所述圖像區域分類為非包含文本的區域的程序指令。
30.一種裝置,包括: 用于計算與包含假設的文本片段的圖像區域關聯的阿爾法值的裝置,所述阿爾法值被定義為用于所述假設的 文本片段的彎曲字符長度分布、字符寬度分布和字符間間距分布的函數; 用于至少部分地基于針對所述假設的文本片段確定的間隔長度分布計算伽馬值的裝置;以及 用于至少部分地基于計算出的所述阿爾法值和所述伽馬值對所述圖像區域是否為包含文本的區域進行分類的裝置。
31.根據權利要求30所述的裝置,其中所述用于計算所述阿爾法值的裝置包括用于在不直接計算用于所述假設的文本片段的所述彎曲字符長度分布、所述字符寬度分布或者所述字符間間距分布的情況下計算所述阿爾法值的裝置。
32.根據權利要求30至31中任一項所述的裝置,其中所述用于計算所述阿爾法值的裝置包括用于至少部分地基于占用比和用于所述假設的文本片段的筆畫寬度計算所述阿爾法值的裝置,所述占用比定義確定的所述圖像區域中被所述假設的文本片段占用的面積與確定的所述圖像區域的總面積之比。
33.根據權利要求30至31中任一項所述的裝置,其中所述用于計算所述阿爾法值的裝置包括用于至少部分地基于確定的所述圖像區域的總面積和穿過所述假設的文本片段的至少一個假設的字符的、以線間間距為特征的多個基本平行線的交點數目來計算所述阿爾法值的裝置。
34.根據權利要求30至33中任一項所述的裝置,其中所述用于至少部分地基于所述間隔長度分布計算所述伽馬值的裝置包括用于計算被文本高度除得的所述間隔長度的分布的均值與被文本高度除得的所述間隔長度的所述分布的標準偏差之比的裝置。
35.根據權利要求30至34中任一項所述的裝置,還包括: 用于跨所述假設的文本片段應用至少一個掃描線的裝置; 用于至少部分地基于所應用的至少一個掃描線確定所述假設的文本片段的至少一個性質的裝置;并且 其中所述用于計算所述阿爾法值和所述伽馬值的裝置包括用于至少部分地基于所確定的所述假設的文本片段的至少一個性質計算所述阿爾法值和所述伽馬值的裝置。
36.根據權利要求30至35中任一項所述的裝置,還包括: 用于通過二值化確定的所述圖像區域來得出二值圖像的裝置; 用于至少部分地基于所述二值圖像確定所述圖像區域是否使用僅兩個概率分布可描述的裝置; 用于僅在其中確定所述圖像區域使用僅兩個概率分布可描述的實例中使用所述二值圖像來計算所述阿爾法值并且計算所述伽馬值的裝置;以及 用于在其中所述圖像區域使用僅兩個概率分布不可描述的實例中將所述圖像區域分類為非包含文本的區域的裝置。
37.根據權利要求30至36中任一項所述的裝置,其中所述用于至少部分地基于計算出的所述阿爾法值和所述伽馬值對所述圖像區域是否為包含文本的區域進行分類的裝置包括: 用于確定計算出的所述阿爾法值和所述伽馬值是否滿足所定義的、與期望的阿爾法值和伽馬值的閾值關系的裝置; 用于在其中確定計算出的所述阿爾法值和所述伽馬值滿足與期望的阿爾法值和伽馬值的所述閾值關系的實例中將所述圖像區域分類為包含文本的區域的裝置;以及 用于在其中確定計算出的所述阿爾法值和所述伽馬值不滿足與期望的阿爾法值和伽馬值的所述閾值關系的實例中將所述圖像區域分類為非包含文本的區域的裝置。
38.根據權利要求30至37中任一項所述的裝置,其中所述用于至少部分地基于計算出的所述阿爾法值和所述伽馬值對所述圖像區域是否為包含文本的區域進行分類的裝置包括: 用于應用高斯分布函數的裝置; 用于在其中計算出的所述阿爾法值和所述伽馬值滿足與所述高斯分布函數的閾值關系的實例中將所述圖像區域分類為包含文本的區域的裝置;以及 用于在其中計算出的所述阿爾法值和所述伽馬值不滿足與所述高斯分布函數的閾值關系的實例中將所述圖像區域分類為非包含文本的區域的裝置。
【文檔編號】G06K9/20GK103946865SQ201280057054
【公開日】2014年7月23日 申請日期:2012年10月8日 優先權日:2011年11月21日
【發明者】V·帕拉梅斯瓦蘭, S-H·特賽, R·格澤茨克祖克 申請人:諾基亞公司