專利名稱:用于文字識別的文本圖像預處理方法
技術領域:
本發明涉及圖像處理技術領域,具體地說是用于文字識別的文本圖像預處理方法。
技術背景在文字識別、計算機視覺和機器理解等領域的應用中,對復雜環境圖像中的文字內容 進行分離和識別是技術難點之一。機器理解文字是基于文字識別結果的,而用于文字識別 的源圖像的質量越好,識別率就越高。文本圖像預處理方法的目的是為文字識別算法提供 一種幾何失真小、前景文本分離完善的二值化圖像。用于文字識別的圖像預處理方法一般 是對圖像中的文字內容區域進行識別,然后采用圖像平移、旋轉和伸縮等方法對文字內容 區域進行校正,然后對校正結果進行全局固定域值的二值化處理。目前,針對文本內容的圖像幾何校正方法主要集中于對文本圖像的傾斜校正上,根據 文字走向和行間空白將文本校正為水平或垂直方向的。然而,這種傾斜校正方法僅對于傾 斜的矩形區域文本有效。對于實際攝像得到的圖像,由于透視關系和鏡頭非線性失真,原 為矩形的文字區域將發生失真變為不規則四邊形或曲四邊形。目前沒有較為便捷的針對文 字圖片失真為不規則四邊形或曲四邊形的幾何校正方法。針對亮度背景變化的文本圖像的 二值化問題,采用全局固定域值方法不足之處是不能取得好的效果,而采用分塊圖像局部 二值化域值方法會導致分塊邊界效應。在文字識別預處理領域,目前尚無一種實用軟件能 夠對照相機攝影的文字圖片進行有效的幾何校正和文字前景的提取。 發明內容本發明的目的在于為文字識別和機器理解提供一種方便實用的用于文字識別的文本 圖像預處理方法文字圖片預處理方法,利用此方法,可根據照相機拍攝的文字圖片,進行 文字區域的識別、并將識別區域還原為矩形區域,通過自適應域值的二值化方法實現文字 前景與亮度變化背景之間分離,為文字識別方法提供良好的圖像源。本發明解決的主要技術問題是采用以下技術方案來實現的對照相機攝取的文字圖片的文字區域幾何失真進行區域校正,得到矩形區域的校正結 果;并將照相機攝取的文字圖片中的文字前景和亮度不均的背景自適應地分離出來。對照相機攝取的文字圖片的文字區域幾何失真進行區域校正的方法是首先對照相機攝取的具有幾何失真的文本圖像進行區域自動識別或指定,得出文本區域的邊界位置,再 利用文本圖像文字排列的固有矩形區域特性,對所識別或指定的文本區域進行幾何校正, 還原為矩形形狀的文本區域;對于文本圖像中的任何一個像素,根據它與所指定的文本區 域的邊界位置的關系,求取其在設定矩形區域中的對應位置,從而得到該像素在校正后圖 像中的本源位置。校正后圖像的所有像素的色彩值或亮度值均以其所對應的源文字圖片中 的像素本源位置作為參照,通過任意一種圖像插值算法確定;具體步驟如下1) 對原本為矩形文字區域的圖像進行文字區域識別,得出文本的邊界;2) 以區域識別結果為基準,計算源圖像相對于該基準下的位置關系;3) 通過任意一種圖像插值算法確定校正后圖像對應像素的色彩值或亮度值,從而得 出幾何校正的結果;4) 對步驟3所得出的幾何校正的結果還可重復步驟1、步驟2和步驟3,通過迭代 得到更好的幾何校正的結果。對照相機攝取的文字圖片或由上述的文字區域幾何失真校正方法所得出的結果圖像 進行文字前景的提取,將文字前景和亮度不均的背景自適應地分離出來的方法是圖像動態域值二值化預處理方法通過圖像中任意像素及其鄰域像素之間的運算,可使用但不限于使用任意一種圖像模糊方法,求取局部背景亮度;通過利用局部背景亮度的加權值作為該 區域的二值化門限,對該區域文字前景進行分離;根據分離結果,將源圖像中的文字前景 部分扣除,再次使用但不限于使用任意一種圖像模糊方法計算局部背景亮度,然后利用其 加權值作為新的動態門限對源圖像進行二值化,得出更精確的分離結果;這一過程可以進 行多次迭代,具體步驟如下1) 采用固定域值方法對文本前景進行粗分離;2) 利用任意一種圖像模糊方法,對粗分離出來的背景區域求取其局部背景亮度;3) 對局部背景亮度進行加權計算,以之作為動態域值對原圖像進行文獻前景分離;4) 利用步驟3所得出的結果,重復迭代步驟2、 3得出更精確的分離結果。 本發明的方法與現有技術比較具有的優點是由于本發明采取了上述的技術措施,與現有技術方法相比,具有對攝影環境適應性強、算法簡單、穩定可靠的優良效果,此外, 還設計了迭代方法以改進結果圖像的質量,應用范圍更廣。實踐中,利用本方法的文本圖 像預處理效果明顯優于現有的文字識別預處理方法的結果。本發明可以采用軟件實現,形 成為計算機文字識別軟件進行圖像預處理的軟件部分或模塊,也可以通過硬件或數字信號處理芯片實現,成為數碼照相機、攝像機、機器人視覺系統等嵌入式系統的一個功能。本發明的具體實施方法由以下實施例及其附圖詳細給出。
圖1是線性失真的被校正的文字圖像的文字區域示意圖(該區域對應的不失真文字區 域是一個矩形)。其中Pll,Pln,Pml,Pmn分別為該不規則四邊形區域的四個頂點,Plk, P21, Pin, Pij為圖像區域中的一些不同位置上的像素。圖2是對圖1文字圖像的校正結果區域示意圖。其中Pll',Pln',Pmr,Pmn,分別為對應圖1中Pll, Pln, Pml, Pmn四頂點的校正位置 結果;Plk,,P21,,Pin,,Pij,對應圖1中的Plk, P21, Pin, Pij點。圖3是非線性失真情況下的被校正的文字圖像的文字區域示意圖(該區域對應的不失 真文字區域是一個矩形)。其中,Pij表示該失真區域中的一個像素點。圖4是經過垂直方向校正之后的文字區域示意圖。其中像素點Pij'對應圖3中的像素點Pij。圖5是圖4區域進一步經過水平校正之后的文字區域示意圖。其中像素點Pij"對應圖4中的像素點Pij',也即對應圖3中的像素點Pij。圖6是動態域值二值化計算方法示意圖的一維表示。其中,曲線f表示二維圖像f(x,y);曲線g表示經過鄰近像素之間運算得出的模糊圖像 g(x,y),曲線t表示模糊圖像g(x,y)經過平移加權得出的圖像t(x,y), D為平移加權值。
具體實施方式
以下結合附圖實施例,對本發明的文本圖像預處理方法作進一步的詳述。 實施例1.對于線性幾何失真的不規則的四邊形的校正如圖1所示,被校正圖像中的文字區域發生了線性失真,原本為矩形區域的文字部分 失真為一個不規則四邊形區域。由于文字區域部分與文字區域邊沿有明顯區別,可采用自 動識別方法自動辨別出該文本所在區域,也可通過人工觀察來手工設定該區域。 為了將該失真區域校正為圖2所示的無失真矩形區域,應用本發明的方法是 將不規則的四邊形邊沿按照橫向和縱向劃分為若干像素,例如,統計線段PllPln所歷經的像素點數目,設為N1,統計線段PmlPmn所歷經的像素點數目,設為N2,則橫向 劃分像素點數n為 n=(Nl+N2)/2采用類似方法對線段PllPml和線段PlnPmn進行縱向像素點劃分,設縱向劃分像素 點數為m。求出線段PUPln上均勻劃分的n個像素點(Pll, P12, ..., Pin)的所在坐標,并根 據任何一種插值方法,求出這些像素點的取值。然后將這些點映射到圖2中的線段Pll'Pln,上的n個點(Pir, P12', ..., Pln,)位置上。以相同的方法對下一線段P21P2n上的n個像素點進行操作。這樣,當進行第i次線段劃分時,將線段PilPin上的n個像素點(Pij, j=l,...,n)值對 應到圖2中的線段Pil,Pin,上的像素點(Pij,, j=l,...,n)位置上。 這樣的過程一直進行到線段PmlPmn為止。 可重復以上過程形成迭代。2.對于非線性幾何失真的不規則的四邊形的校正如圖3所示,被校正圖像中的文字區域發生了非線性失真,原本為矩形區域的文字部 分失真為一個由四段曲線圍成的不規則區域。由于文字區域部分與文字區域邊沿有明顯區別,可采用自動識別方法自動辨別出該文本所在區域,也可通過人工觀察來手工設定該區 域。由于曲線的光滑性質,在區域辨別或設定時只需要確定曲線上的若干點,再通過如樣 條插值等插值方法計算出近似曲線。為了將該曲線圍成的失真區域校正為圖6所示的無失真矩形區域,應用本發明的方法是將一次迭代校正過程分為兩個階段第一階段是進行垂直校正,其結果為將區域豎直 方向的圍線校正為垂直等長的兩條邊,而水平方向上仍然存在失真,如圖4所示。第二階 段是在圖4所示結果的基礎上再進行水平方向的校正,得到如圖5所示的矩形區域校正結 果。 '這兩個階段所使用的校正算法相同。以第一階段垂直校正為例,設定垂直方向的計算 分辨率m后,將豎直方向的兩曲邊分割為m段,并將兩曲邊上對應的分割點用直線連接 起來,再根據設定的水平方向分辨率n,將該連線分割為n段,于是得出這些網格交點共t^ri個,圖3中所示的點Pij即表示這些網格交點中任意一個。根據點Pij的序號(ij)可直接將之映射到圖4所示的區域中,得到點Pij'。這樣的 過程一直進行到i=m, j=n為止。用同樣的方法完成第二階段的水平方向校正。得到如圖5所示的校正結果。最終將被 校正圖像上的點Pij映射到圖5所示的點Pij"上。可重復以上過程形成迭代。3. 動態域值的文字部分二值化分離方法如圖6所示,圖中以一維曲線來示例二維圖像的亮度變化。設曲線取值大的部分(凸 起部分)為圖像中的文字部分,而曲線取值較小部分(凹下部分)為圖像背景部分。注意 到背景部分的取值是變化的,表示圖像背景隨區域的不同而發生亮度變化。f(x,y)表示源圖 像,動態域值二值化分離方法的思想是構造一種隨圖像局部背景亮度變化而變化的量化域 值,從而將文字凸起部分和背景部分分離。為此,本發明的方法是對源圖像f(x,y)進行任意形式的模糊運算,也即圖像的低通濾波,得出的模糊圖像g(x,y) 代表了源圖像局部區域的亮度。本發明利用模糊圖像g(x,y)的加權值t(x,y)=g(x,y)+D作為動態域值,對源圖像f(x,y)進行二值化分離,即 H(x,y)=255當f(x,y)〉t(x,y) H(x,y)=0 當f(x,y)<t(x,y)還可進一步采用迭代方法來改善文字部分的分離效果,如下根據分離結果,將源圖像f(x,y)中文字部分扣除(H(x,y"255部分),即用相鄰背景亮 度替代相應的文字部分,得出背景部分f'(x,y),對之采用上述的圖像模糊方法可得到新的 模糊圖像g'(x,y),加權后可作為新的動態域值對源圖像實施二值化。4. 迭代停止條件以上方法(幾何校正方法和動態域值方法)中,當前后兩次迭代產生的結果之差值的 均方值小于設定門限時,或迭代次數大于指定最大迭代次數值時,停止迭代。以上所述,僅是本發明的較佳的實施例,不構成對本發明的任何形式上的限制,凡是 依據本發明的技術實質對以上實施例所做的任何簡單修改、等效變化與修飾,均仍屬于本 發明技術方案范圍內。
權利要求
1.一種用于文字識別的文本圖像預處理方法,其特征在于對照相機攝取的文字圖片的文字區域幾何失真進行區域校正,得到矩形區域的校正結果;并將照相機攝取的文字圖片中的文字前景和亮度不均的背景自適應地分離出來。
2. 根據權利要求1所述的用于文字識別的文本圖像預處理方法,其特征在于對照 相機攝取的文字圖片的文字區域幾何失真進行區域校正的方法是首先對照相機攝取的具 有幾何失真的文本圖像進行區域自動識別或指定,得出文本區域的邊界位置,再利用文本 圖像文字排列的固有矩形區域特性,對所識別或指定的文本區域進行幾何校正,還原為矩 形形狀的文本區域;對于文本圖像中的任何一個像素,根據它與所指定的文本區域的邊界 位置的關系,求取其在設定矩形區域中的對應位置,從而得到該像素在校正后圖像中的本 源位置。校正后圖像的所有像素的色彩值或亮度值均以其所對應的源文字圖片中的像素本 源位置作為參照,通過任意一種圖像插值算法確定;具體步驟如下1) 對原本為矩形文字區域的圖像進行文字區域識別,得出文本的邊界;2) 以區域識別結果為基準,計算源圖像相對于該基準下的位置關系;3) 通過任意一種圖像插值算法確定校正后圖像對應像素的色彩值或亮度值,從而得 出幾何校正的結果;4) 對步驟3所得出的幾何校正的結果還可重復步驟1、步驟2和步驟3,通過迭代 得到更好的幾何校正的結果。
3. 根據權利要求l所述的用于文字識別的文本圖像預處理方法,其特征在于對照相 機攝取的文字圖片或由權利要求1所述的文字區域幾何失真校正方法所得出的結果圖像進 行文字前景的提取,將文字前景和亮度不均的背景自適應地分離出來的方法是圖像動態域 值二值化預處理方法通過圖像中任意像素及其鄰域像素之間的運算,可使用但不限于使 用任意一種圖像模糊方法,求取局部背景亮度;通過利用局部背景亮度的加權值作為該區 域的二值化門限,對該區域文字前景進行分離;根據分離結果,將源圖像中的文字前景部 分扣除,再次使用但不限于使用任意一種圖像模糊方法計算局部背景亮度,然后利用其加 權值作為新的動態門限對源圖像進行二值化,得出更精確的分離結果;這一過程可以進行 多次迭代,具體步驟如下1) 采用固定域值方法對文本前景進行粗分離;2) 利用任意一種圖像模糊方法,對粗分離出來的背景區域求取其局部背景亮度;3) 對局部背景亮度進行加權計算,以之作為動態域值對原圖像進行文獻前景分離;4) 利用步驟3所得出的結果,重復迭代步驟2、 3得出更精確的分離結果。
4.根據權利要求l所述的用于文字識別的文本圖像預處理方法,其特征在于幾何校 正方法包含自動區域識別和手動區域指定兩種。
全文摘要
本發明是用于文字識別的文本圖像預處理方法。包含對文本圖像的幾何校正以及動態域值二值化兩個步驟。所述的幾何校正方法對照相機攝取的文字圖片的文字區域幾何失真進行區域校正,得到矩形區域的校正結果;幾何校正方法包含自動區域識別和手動區域指定兩種。所述的動態域值二值化方法將照相機攝取的文字圖片中的文字前景和亮度不均的背景自適應地分離出來。本方法的特征是可根據所識別的文字區域進行矩形化校正,并可結合任意的圖像模糊算法,以源圖像作為參考圖像通過對比計算,從而將亮度不均的背景中的文字前景分離出來。本方法所得出的結果圖像可用于計算機文字識別、機器視覺和機器理解等領域。本發明具有對環境適應性強、算法穩定可靠的優良效果。
文檔編號G06K9/46GK101315664SQ20081005845
公開日2008年12月3日 申請日期2008年5月27日 優先權日2008年5月27日
發明者邵玉斌 申請人:昆明理工大學