專利名稱:用于退化文字行的字符識別裝置和方法
技術領域:
本發明總體上涉及用于字符識別的裝置和方法,更具體地涉及用于退化文字行的字符識別裝置和方法。
背景技術:
隨著數碼相機和數碼攝像機在文檔圖像拍攝方面的日益普及,退化文字行識別得到了越來越多的重視。對退化文字行的識別包括單個字符識別和文字行分割兩個部分。這兩個部分又是有機結合在一起的。
對于文字行分割來說,基于識別的分割方法是使用最為廣泛的一種方法。圖1是傳統的基于識別的分割方法的原理圖。首先對所輸入的圖像進行二值化處理,然后通過對二值圖像的連接部分進行分析來獲得字符的筆畫(圖1中的最上一行)。圖像的連接部分的分析算法可以參見岡薩雷斯,《數字圖像處理(第二版)》,第435頁,阮秋琦,阮宇智等譯。每一個連接部分都可以看作是一個基本分割字符(圖1中的中間一行)。連接部分的組合被看作是合成分割字符(圖1中的最下面一行)。然后,對每一個基本分割字符和合成分割字符都進行字符識別,并給出一個識別距離。一個文本行可以被分解為多條由不同基本分割字符和合成分割字符組合在一起的分割路徑,每一個分割路徑的識別距離是構成它的基本分割字符和合成分割字符的識別距離之和。該文本行的正確分割結果是通過選擇總的識別距離最小的分割路徑來獲得的。在實現了分割的同時,對每個基本分割字符和合成分割字符的識別結果也就是對字符的最后識別結果。
圖1是傳統的基于識別的分割方法的原理圖。
如圖1所示,由“ハ”、“リ”和“を”組成的分割路徑具有最小的識別距離值72。因此它們被輸出為最后的分割和識別的結果。
從上述的原理圖我們可以看出識別距離的值不僅對于識別結果,而且對于正確分割也是非常重要的。例如,在圖1中,對于“ハ”的最小識別距離是21,該字符的左右兩個筆畫的識別距離分別是19和22。如果這兩個筆畫的識別距離之和小于21,則即使“ハ”的識別結果是正確的,它仍然會被錯誤地分割為“ノ”和“丶”兩個部分。
目前已經有很多關于文本行分割的文章和專利,比如Y.Lu,“Machine Printed Character Segmentation-AnOverview”.Pattern Recognition,Vol.28,No.1,pp.67-80,Jan,1995。
S.W.Lee,D.J.Lee,H.S.Park,“A New Methodology forGray-Scale Character Segmentation and Recognition”.IEEEtransaction on pattern analysis and machine intelligence,Vol.18,No.10,pp.1045-1050,Oct,1996。
Kamitani“Character segmentation device and charactersegmentation system”.US Pat.No.6,327,385。
Hanson,“Apparatus for performing character segmentationusing slant histograms”.US Pat.No.5,692,069。
Tan,“Fast character segmentation of skewed text lines foroptical character recognition”.US Pat.No.5,172,422。
這些文獻和專利中的大部分都是針對粘連文字的處理,而且大多的處理對象都是二值化圖像,而對于退化的文本行圖像,傳統的二值化方法常常會引起嚴重的斷筆(筆畫像素點丟失)或者筆畫的粘連。因此識別的效果不佳。
基于雙子空間(dual eigenspace)的方法對于退化字符具有很好的識別效果。該方法從灰度字符圖像中直接提取字符特征。圖2是利用雙子空間方法來進行字符識別的流程圖。其輸入是經過歸一化的字符圖像。首先,通過第一字典(圖2中的字典一)來提取字符圖像的特征。然后,通過第二字典(圖2中的字典二)將該字符圖像粗略分類為M個候選類別。隨后,通過第三字典(圖2中的字典三)將所輸入的字符特征精細地分類為該M個候選類別中的某一類別。最后,輸出識別出的字符編碼和識別距離。
由于基于雙子空間的方法從灰度圖像中直接提取特征,避免了二值化的環節,因此它對于由于圖像退化而引起的噪聲具有更好的抵抗能力。但是,直接在基于識別的分割方法中利用雙子空間方法存在一些問題。
如圖3所示,第一行的圖像是文本行圖像。第二行是二值化的結果。二值化圖像用來進行粗分割。所示的邊框是粗分割的結果。第三行是經過歸一化后的基本分割字符的灰度圖像。在每一個分割圖像的下面是識別字符和對應的識別距離。第四行是經過歸一化后的合成分割字符“年”和“開”的歸一化灰度字符圖像,以及對應的識別結果和識別距離。如果使用傳統的基于識別的分割方法,則不能正確地識別“開”,因為在第二行中,“開”會被分割為四個部分,這四個部分的識別距離之和是5.39+61.01+45.69+20.37=132.46。由于“開”本身的識別距離是409.71,大于其四個部分的識別距離之和。因此整個文本行將被識別為“年1回I!IIㄑ”。
發明內容
本發明的目的在于提供一種針對退化文字行的字符識別裝置和方法,其通過使用更好的特征來產生更合理的識別距離,從而解決了利用雙子空間進行分割而出現的問題。
根據本發明的一個方面,提供了一種用于退化文字行的字符識別裝置,該字符識別裝置包括特征提取單元,利用第一字典從所輸入的歸一化圖像中提取特征;粗分類單元,通過將所提取的特征與存儲在第二字典中的特征進行比較,來選擇特定數量的字符候選類別;特征重構單元,通過使用第三字典以及所選擇的特定數量的字符候選類別來重構數量為所述特定數量的重構特征;精細識別單元,根據由所述特征提取單元提取的特征與所述重構特征來識別并輸出最終的識別字符編碼;圖像重構單元,通過使用所述第一字典以及由所述特征重構單元生成的重構特征來重構數量為所述特定數量的重構圖像;識別距離計算單元,用于根據所輸入的歸一化圖像和所述圖像重構單元生成的重構圖像來計算并輸出識別距離。
根據本發明的另一方面,提供了一種用于退化文字行的字符識別方法,該字符識別方法包括以下步驟利用第一字典從所輸入的歸一化圖像中提取特征;通過將所提取的特征與存儲在第二字典中的特征進行比較,來選擇特定數量的字符候選類別;通過使用第三字典以及所選擇的特定數量的字符候選類別來重構數量為所述特定數量的重構特征;根據所提取的特征與所述重構特征來識別并輸出最終的識別字符編碼;通過使用所述第一字典以及所述重構特征來重構數量為所述特定數量的重構圖像;根據所輸入的歸一化圖像和所述重構圖像來計算并輸出識別距離。
由于在本發明中,根據所提取的特征與重構特征來識別并輸出最終的識別字符編碼,并且根據所輸入的歸一化圖像和重構圖像來計算并輸出識別距離,所以本發明使用更好的特征產生了更適用于分割的識別距離,使得能夠正確地分割退化文本行的字符。
圖1是傳統的基于識別的分割方法的原理圖。
圖2是利用雙子空間方法來進行字符識別的流程圖。
圖3是利用雙子空間方法來進行字符識別的示例。
圖4是根據本發明實施例的字符識別裝置中所使用的字符識別方法的流程圖。
圖5是根據本發明實施例的字符識別裝置中所使用的字符識別方法的示例。
具體實施例方式
下面將參照
本發明的實施例。
圖4是根據本發明實施例的字符識別裝置中所使用的字符識別方法的流程圖。
如圖4所示,根據本發明實施例的字符識別裝置包括特征提取單元402,其利用第一字典403從所輸入的歸一化圖像401中提取特征;粗分類單元404,通過將所提取的特征和存儲在第二字典405中的特征進行比較,來選擇M個字符候選類別;特征重構單元406,通過使用第三字典407以及該M個字符候選類別來重構M個重構特征;圖像重構單元408,通過使用第一字典403來重構M個重構圖像;精細識別單元409,通過比較由特征提取單元提取的特征與重構特征之間的差異,來輸山最終的識別字符編碼411;識別距離計算單元410,用于輸出識別距離412。
根據圖4所示的流程圖,對于所輸入的經過歸一化的字符圖像401,特征提取單元402利用第一字典403提取該字符圖像的特征Y=UT(X-X) (1)其中X=[x1,x2,...xw*h]T表示長度和寬度分別為w和h的經過歸一化的字符圖像。X=[x1,x2,...xw*h]T是所有歸一化字符圖像的平均值。U=[u1,u2,…,un]T是轉換矩陣,其中ui=[ui1,ui2,...uiw*h]T。第一字典403由U和X構成。公式(1)中所使用的特征提取方法稱為主成份分析方法(Principal ComponentAnalysis,簡稱PCA)。關于PCA的具體實現參見R.O.Duda,P.E.Hart和D.G.Stork.A所著的“Pattern classification”,second edition,A Wiley-Interscience Publication John Wiley&Sons,Inc.2001.pp.115~117,568~569。
在特征提取之后,通過粗分類單元404將所提取的特征Y和預先存儲在第二字典405中的每一個字符類別的特征進行比較。特征比較的算法很多,其中一種是基于歐式距離的比較方法Di=|Y-Yi|,其中Di是特征Y與第i字符類別的特征Yi的歐式距離。假設粗分類單元404輸出的候選字符類別的數量是M,則選擇具有最小歐式距離的M個字符類別作為粗分類的輸出。
特征重構單元406利用第三字典407來重構出與該M個候選類別相對應的M個重構特征。該第三字典存儲有每一個字符類別的轉換矩陣U~i=[u1i,u2i,...,un1i]]]>和平均特征向量Ci。通過公式(2)獲得第i重構特征 ηi=U~iT(Y-Ci),Y^i=U~iTηi+Ci---(2)]]>圖4中的精細識別單元409計算原始特征Y與M個重構特征 之間的差異,選擇具有最小差異的字符類別作為精細識別的最終結果,輸出與該字符類別相對應的編碼作為識別出的字符編碼411。
與圖2所示的傳統的雙子空間方法不同,本發明的識別距離不是提取特征Y和重構特征之差。在本發明中,提出了一個新的圖像重構單元408,其利用第一字典403來計算M個重構圖像 X··i=UY^i+X‾---(3)]]>X··i(k)=255*(X··i(k)-m1)(m2-m1),m1=min{X··i(k)},m2=max{X··i(k)}---(4)]]>公式(3)可以從公式(1)推導出來。公式(4)用于將重構圖像的像素點的取值范圍歸一化為0~255。該范圍與原始圖像的像素點的取值范圍是一致的。
圖4中的識別距離計算單元410計算原始歸一化字符圖像401與M個重構圖像 之間的距離,將其中的最小距離作為最后輸出的識別距離412。
圖5示出了通過根據本發明實施例的字符識別裝置中所使用的字符識別方法得到的識別距離。可以看出,圖5中的識別距離對于分割來說更加合理。“開”的識別距離是104.78,而它的四個組成部分的識別距離之和是494.02,遠遠大于“開”本身的識別距離104.78。因此可以正確地分割和識別該字符。
盡管實施例中采用的示例字符是日文字符,但是本方法不僅僅限于日語,其還可以適用于中文和韓文等其它文字。
權利要求
1.一種用于退化文字行的字符識別裝置,該字符識別裝置包括特征提取單元,利用第一字典從所輸入的歸一化圖像中提取特征;粗分類單元,通過將所提取的特征與存儲在第二字典中的特征進行比較,來選擇特定數量的字符候選類別;特征重構單元,通過使用第三字典以及所選擇的特定數量的字符候選類別來重構數量為所述特定數量的重構特征,其特征在于,還包括精細識別單元,根據由所述特征提取單元提取的特征與所述重構特征來識別并輸出最終的識別字符編碼;圖像重構單元,通過使用所述第一字典以及由所述特征重構單元生成的重構特征來重構數量為所述特定數量的重構圖像;識別距離計算單元,用于根據所輸入的歸一化圖像和所述圖像重構單元生成的重構圖像來計算并輸出識別距離。
2.根據權利要求1所述的字符識別裝置,其中所述精細識別單元比較由所述特征提取單元提取的特征與所述重構特征之間的差異,并輸出與差異最小的重構特征相對應的字符編碼作為所述最終的識別字符編碼。
3.根據權利要求1所述的字符識別裝置,其中所述圖像重構單元將所述重構圖像的像素點的取值范圍歸一化為0到255的范圍。
4.根據權利要求1所述的字符識別裝置,其中所述識別距離計算單元計算所輸入的歸一化圖像與所述圖像重構單元生成的重構圖像之間的距離,并將其中的最小距離輸出為所述識別距離。
5.根據權利要求1到4中的任何一個所述的字符識別裝置,其中所述第一字典由一轉換矩陣和所有歸一化圖像的平均值構成。
6.根據權利要求1到4中的任何一個所述的字符識別裝置,其中所述第二字典存儲有每一個字符類別的特征。
7.根據權利要求1到4中的任何一個所述的字符識別裝置,其中所述第三字典存儲有每一個字符類別的轉換矩陣和平均特征向量。
8.一種用于退化文字行的字符識別方法,該字符識別方法包括以下步驟利用第一字典從所輸入的歸一化圖像中提取特征;通過將所提取的特征與存儲在第二字典中的特征進行比較,來選擇特定數量的字符候選類別;通過使用第三字典以及所選擇的特定數量的字符候選類別來重構數量為所述特定數量的重構特征;根據所提取的特征與所述重構特征來識別并輸出最終的識別字符編碼;通過使用所述第一字典以及所述重構特征來重構數量為所述特定數量的重構圖像;根據所輸入的歸一化圖像和所述重構圖像來計算并輸出識別距離。
9.根據權利要求8所述的字符識別方法,其中識別并輸出最終的識別字符編碼的所述步驟比較所提取的特征與所述重構特征之間的差異,并輸出與差異最小的重構特征相對應的字符編碼作為所述最終的識別字符編碼。
10.根據權利要求8所述的字符識別方法,其中重構圖像的所述步驟將所述重構圖像的像素點的取值范圍歸一化為0到255的范圍。
11.根據權利要求8所述的字符識別方法,其中計算并輸出識別距離的所述步驟計算所輸入的歸一化圖像與所述重構圖像之間的距離,并將其中的最小距離輸出為所述識別距離。
12.根據權利要求8到11中的任何一個所述的字符識別方法,其中所述第一字典由一轉換矩陣和所有歸一化圖像的平均值構成。
13.根據權利要求8到11中的任何一個所述的字符識別方法,其中所述第二字典存儲有每一個字符類別的特征。
14.根據權利要求8到11中的任何一個所述的字符識別方法,其中所述第三字典存儲有每一個字符類別的轉換矩陣和平均特征向量。
全文摘要
用于退化文字行的字符識別裝置和方法。該字符識別裝置包括特征提取單元,利用第一字典從所輸入的歸一化圖像中提取特征;粗分類單元,通過將所提取的特征與存儲在第二字典中的特征進行比較,來選擇特定數量的字符候選類別;特征重構單元,通過使用第三字典以及所選擇的特定數量的字符候選類別來重構數量為該特定數量的重構特征;精細識別單元,根據由該特征提取單元提取的特征與該重構特征來識別并輸出最終的識別字符編碼;圖像重構單元,通過使用該第一字典以及由該特征重構單元生成的重構特征來重構數量為該特定數量的重構圖像;識別距離計算單元,用于根據所輸入的歸一化圖像和該圖像重構單元生成的重構圖像來計算并輸出識別距離。
文檔編號G06K9/20GK1920855SQ200510093529
公開日2007年2月28日 申請日期2005年8月26日 優先權日2005年8月26日
發明者孫俊, 堀田悅伸, 藤本克仁, 勝山裕, 直井聰 申請人:富士通株式會社