專利名稱:用于識別圖像中的字符的字符識別裝置和字符識別方法
技術領域:
本發明涉及字符識別技術,具體涉及用于識別圖像中的字符的字符識別裝置和字符識別方法。
背景技術:
字符識別技術廣泛地應用于日常生活中的各個領域,這其中包括對靜態圖像和動態圖像(視頻圖像)中的字符的識別。作為一種視頻圖像的演講視頻在電子學習和其他教育、培訓領域中應用十分廣泛。在通常的演講視頻中,演講者一邊講解,一邊在視頻背景上播放著幻燈圖像。通常,演講視頻中會展示出大量的文本信息,使得內容的創建、索引和查找都非常便利。
由于需要識別的字符圖像往往會模糊不清或者規模太小,所以演講視頻中字符的識別效果不是很好,因為此識別方法中使用的詞典都源自原始清晰的字符圖像。
在先前技術中,對演講視頻中的字符進行識別的技術和對掃描文檔中的字符進行識別的技術相同,字符都先被分段,再使用從原始清晰詞典建立的詞典進行識別。
關于合成字符圖像的生成,已經有了多篇論文和多項專利,例如P.Sarkar,G.Nagy,J.Zhou,and D.Lopresti.Spatial samplingof printed patterns.IEEE PAMI,20(3)344-351,1998E.H.Barney Smith,X.H.Qiu,Relating statistical imagedifferences and degradation features.LNCS 24231-12,2002T.Kanungo,R.M.Haralick,I.Phillips.“Global and LocalDocument Degradation Models,”Proceedings of IAPR 2ndInternational Conference on Document Analysis and Recognition,Tsukuba,Japan,1993pp.730-734H.S.Baird,“Generat ion and use of defect ive images in imageanalysis”.U.S.Pat.No.5,796,410.
但是,到目前為止還沒有關于使用合成模式進行視頻字符識別的報道。
Arai Tsunekazu、Takasu Eiji和Yoshii Hiroto曾經發表過一項專利,名為《模式識別裝置將輸入模式的特征和字號數據與已記錄的特征和字號模式數據進行對比,用于記錄特征和字號數據的裝置,以及相應的方法和儲存媒介》(“Pattern recognition apparatus whichcompares input pattern feature and size data to registered featureand size pattern data,an apparatus for registering feature andsize data,and corresponding methods and memory mediatherefore”)。(美國專利號6,421,461)。在這項專利中,他同樣提取出了測試字符的字號信息,不過他將這些信息用于與詞典中的字號信息進行對比。
因此,需要對現有技術進行改進以提高字符識別效果。
發明內容
本發明的一個目的是解決現有技術中的問題,改善對圖像中的字符進行識別時的字符識別效果。
根據本發明,提供一種用于識別圖像中的字符的字符識別裝置,其包括文本行提取單元,用于從輸入圖像中提取多個文本行;特征識別單元,用于識別各文本行的一個或更多個特征;合成模式生成單元,用于利用特征識別單元所識別出的特征以及原始字符圖像,來為各文本行分別生成合成字符圖像;合成詞典生成單元,用于利用合成字符圖像來為各文本行分別生成合成詞典;文本行識別單元,用于利用合成詞典來分別識別各文本行中的字符。
根據本發明還提供一種用于識別圖像中的字符的字符識別方法,其包括以下步驟從輸入圖像中提取多個文本行;識別各文本行的一個或更多個特征;利用所識別出的特征以及原始字符圖像來為各文本行分別生成合成字符圖像;利用合成字符圖像來為各文本行分別生成合成詞典;利用合成詞典來分別識別各文本行中的字符。
在本發明中,通過事先提取待識別的文本的一些特征,把這些特征與原始字符圖像合成得到合成字符并進而得到合成詞典,從而使用適于該待識別文本的合成詞典來進行字符識別。因此,能夠明顯改善字符識別的效果。
圖1是本發明的整體流程圖。
圖2是畫面文本識別單元的操作流程圖。
圖3是對比度估算單元的操作流程圖。
圖4是合成模式生成單元的操作流程圖。
圖5是合成詞典生成單元的操作流程圖。
圖6是文本行識別單元的操作流程圖。
具體實施例方式
在本發明中,首先用文本畫面提取單元提取出包含文本信息的視頻畫面。接下來在畫面文本識別單元,識別畫面圖像中的字符內容。在畫面文本識別單元的字體類型辨別單元中,辨別圖像畫面中字符的字體類型。文本行提取單元從每一個文本畫面圖像中提取出所有的文本行。對比度估算單元估算出每一個文本行圖像中的對比度值。壓縮水平估算單元用于估算每一個原始模式生成的模式數量。然后,通過合成模式生成單元,運用估算出的字體類型和對比度信息,生成一組合成字符模式。這些合成字符圖像又用于對每一個文本行建立起合成詞典。最終,由字符識別單元運用已生成的合成詞典,識別各文本行的字符。
圖1示意了本發明的字符識別裝置的整體流程圖。例如,本裝置的輸入是演講視頻101,在文本畫面提取單元102,對包含文本信息的視頻畫面進行提取。在102單元可使用多種現有方法,例如可以使用在“JunSun,Yutaka Katsuyama,Satoshi NaoiText processing method fore-Learning videos,IEEE CVPR workshop on Document Image Analysisand Retrieval,2003.”中列出的方法。文本畫面提取單元的結果是一系列包含文本信息的文本畫面103,共有N幀。這些文本畫面中的每一幀都要在畫面文本識別單元104進行畫面中所包含的文本識別。畫面文本識別單元104的輸出是已識別出來的各幀畫面的文本內容105。將畫面文本識別的所有結果合成起來既得出演講視頻識別的結果106。雖然圖中顯示了多個畫面文本識別單元104,實際上可以僅由一個畫面文本識別單元104依次對多個文本畫面103進行處理。
圖2示意了圖1中畫面文本識別單元104的操作流程圖。對圖1中每一個文本畫面103,都由文本行提取單元201處理,從畫面中提取所有的文本行202。然后,在對比度估算單元203,對每一個文本行估算出文本行范圍內的對比度值。同時,演講視頻的幻燈片文件204被送往字符的字體辨別單元205,以判別視頻中字符的字體類型。以微軟的幻燈片軟件(Powerpoint)為例,PPT文件要被轉換成HTML格式。然后,從HTML文件中就可以比較容易地提取出字體信息。對于其它類型的圖像文件,可以采用其它合適的字體信息提取方法。
對于經過了判別的每一個文本行,估算出字體類型和對比度值后,在合成模式生成單元207運用一組清晰的字符模式圖像,生成一組合成字符圖像。接下來,合成詞典生成單元208將利用單元207的輸出生成合成詞典。之后是文本行識別單元209利用已生成的合成詞典識別文本行中的字符。將所有文本行的經過識別的文本行內容結合成起來,就得到了圖1中的文本內容105。
在文本行提取單元201中使用的具體方法可以參考Jun Sun,Yutaka Katsuyama,Satoshi Naoi,“Text processing method fore-Learning videos”,IEEE CVPR workshop on Document Image Analysisand Retri eval,2003。
圖3示意了圖2中對比度估算單元203的操作流程圖。該單元的輸入是圖2中一幀文本行圖像202。從文本行圖像中可以得出灰度值直方圖(S301)。直方圖的算法則可以參見《Digital Image Processing》(K.R.Castleman,Prentice Hall press.1996.)。平滑直方圖這個步驟(S302)通過如下運算來使直方圖更加平滑prjs(i)=12δ+1Σj=i-δi+δprj(j),]]>其中prjs(i)是對位置i的平滑值,δ是平滑運算的窗口大小,j是平滑操作時的當前位置。在平滑后的直方圖中,記錄下最大值和最小值的位置(S303,S304)。然后計算這兩個位置的差,就得出對比度值(S305)。
圖4示意了圖2中合成模式生成單元(207)的操作流程圖。該單元以文本行圖像202作為輸入,用文本行的高度來確定壓縮率水平nlvl。壓縮率是用在單一字符圖像生成單元(S403)中的一個參量。壓縮率的水平決定了針對每個原始字符生成的圖像的數量。對小字號的字符,圖像通常會發生大幅劣化,所以需要較高的壓縮率水平。對大字號的字符,劣化幅度不大,所以較小的壓縮率水平就足夠了。假設原始字符模式的數量為nPattern,對這些圖像的每一幀,都有特定的對比度值和字體類型(在圖2中203和205單元已經估算出),也得到了從S401單元中獲得的壓縮率水平,那么通過單一字符圖像生成單元(S403)就可以生成一個合成字符圖像。。對于每一個原始的特定文本行,生成的字符圖像的總數為nPattern*nlvl*nFont。其中,nFont是演講視頻中字體類型的數量。
圖5示意了圖2中合成詞典生成單元208的操作流程圖。針對特定的合成字符圖像401,特征提取單元從第一幀字符圖像(S501)開始提取字符的特征(S502)。在S502中有多種方法可用于特征提取,例如,可參考M.Shridhar,F.Kimura“Segmentation-Based CursiveHandwriting recognition”,Handbook of Character Recognition andDocument Image Analysispp.123-156,1997.此程序將不斷重復直到字符的所有特征都被提取完畢(S503和S504)為止。詞典生成單元的輸出是合成詞典(S505)。
圖6示意了圖2中文本行識別單元209的操作流程圖。針對特定的文本行圖像,最初執行的是分段單元的操作(S601),它將文本行圖像分為nChar段獨立的字符圖像。然后在特征提取單元的操作(S603)中,從第一幀字符圖像(S602)開始提取當前字符圖像的特征。S603中使用的方法和S502中使用的方法相同。接下來,分類單元(S604)運用合成詞典生成單元生成的合成詞典S505,按照字符類型對每一幀字符圖像進行分類。本程序的輸出是第i幀字符圖像的字符代碼(種類)。本程序將不斷重復直到nChar段字符圖像全部經過合成詞典的識別(S606和S607)為止。對文本行內所有字符進行識別的結果就是圖2中文本行的內容210。
對于一幀特定的文本畫面圖像,對該圖像中所有文本行進行識別的結果就是對該圖像內容的識別結果。最后,105中所有的結果合成起來,就得到本發明的最終輸出,即演講視頻的識別結果。
應該指出,雖然以上參照演講視頻圖像對本發明的字符識別技術進行了說明,但是本發明的字符識別技術同樣可以應用于其它類型的視頻圖像。而且,對于靜態的圖像,例如掃描文件、照片等等,也可以應用本發明的字符識別技術。另外,在本發明實施例中,在獲得合成詞典的過程中從待識別文本行提取的特征是對比度、字體、壓縮率,但是所提取的特征并不局限于這些特征中的一個或幾個,還可以包括或替換為文本行的其它特征。
權利要求
1.一種用于識別圖像中的字符的字符識別裝置,其包括文本行提取單元,用于從輸入圖像中提取多個文本行;特征識別單元,用于識別各文本行的一個或更多個特征;合成模式生成單元,用于利用特征識別單元所識別出的特征以及原始字符圖像,來為各文本行分別生成合成字符圖像;合成詞典生成單元,用于利用合成字符圖像來為各文本行分別生成合成詞典;文本行識別單元,用于利用合成詞典來分別識別各文本行中的字符。
2.根據權利要求1所述的字符識別裝置,其中特征識別單元包括用于辨別文本行的字體類型的字體類型辨別單元。
3.根據權利要求1或2所述的字符識別裝置,其中特征識別單元包括用于估算文本行的對比度值的對比度估算單元。
4.根據權利要求3所述的字符識別裝置,其中對比度估算單元包括計算文本行的灰度值直方圖、進行平滑、并根據灰度值平均值來計算對比度的單元。
5.根據權利要求4所述的字符識別裝置,其中合成模式生成單元包括用于確定文本行的壓縮率水平的壓縮率水平估算單元,并針對每個級別的壓縮率水平生成一組合成字符圖像。
6.根據權利要求1所述的字符識別裝置,其中文本行識別單元包括分段單元,用于將文本行分為多個獨立的字符圖像;特征提取單元,用于提取各字符圖像的特征;分類單元,用于利用合成詞典對各字符圖像進行分類。
7.根據權利要求1所述的字符識別裝置,其中合成詞典生成單元包括用于提取每一合成字符圖像的特征的特征提取單元。
8.根據權利要求1所述的字符識別裝置,其中輸入圖像是靜態圖像或視頻圖像。
9.根據權利要求5所述的字符識別裝置,其中合成字符圖像的數量由字體類型數量、原始字符圖像的模式數量、和壓縮率水平決定。
10.根據權利要求5所述的字符識別裝置,其中壓縮率水平估算單元包括用于確定文本行高度的單元并根據文本行高度來確定壓縮率水平。
11.一種用于識別圖像中的字符的字符識別方法,其包括以下步驟從輸入圖像中提取多個文本行;識別各文本行的一個或更多個特征;利用所識別出的特征以及原始字符圖像來為各文本行分別生成合成字符圖像;利用合成字符圖像來為各文本行分別生成合成詞典;利用合成詞典來分別識別各文本行中的字符。
12.根據權利要求11所述的方法,其中識別文本行的一個或更多個特征的步驟包括辨別文本行的字體類型。
13.根據權利要求11或12所述的方法,其中識別文本行的一個或更多個特征的步驟包括估算文本行的對比度值。
14.根據權利要求13所述的方法,其中估算文本行的對比度值的步驟包括計算文本行的灰度值直方圖、進行平滑、并根據灰度值平均值來計算對比度。
15.根據權利要求14所述的方法,其中生成合成字符圖像的步驟包括確定文本行的壓縮率水平,并針對每個級別的壓縮率水平生成一組合成字符圖像。
16.根據權利要求11所述的方法,其中識別文本行中的字符的步驟包括將文本行分為多個獨立的字符圖像;提取各字符圖像的特征;利用合成詞典對各字符圖像進行分類。
17.根據權利要求11所述的方法,其中生成合成詞典的步驟包括提取每一合成字符圖像的特征。
18.根據權利要求11所述的方法,其中輸入圖像是靜態圖像或視頻圖像。
19.根據權利要求15所述的方法,其中合成字符圖像的數量由字體類型數量、原始字符圖像的模式數量、和壓縮率水平決定。
20.根據權利要求15所述的方法,其中估算壓縮率水平的步驟包括確定文本行的高度并根據文本行高度來確定壓縮率水平。
全文摘要
用于識別圖像中的字符的字符識別裝置和字符識別方法,該字符識別裝置包括文本行提取單元,用于從輸入圖像中提取多個文本行;特征識別單元,用于識別各文本行的一個或更多個特征;合成模式生成單元,用于利用特征識別單元所識別出的特征以及原始字符圖像,來為各文本行分別生成合成字符圖像;合成詞典生成單元,用于利用合成字符圖像來為各文本行分別生成合成詞典;文本行識別單元,用于利用合成詞典來分別識別各文本行中的字符。
文檔編號G06K9/62GK1734466SQ20041005833
公開日2006年2月15日 申請日期2004年8月10日 優先權日2004年8月10日
發明者孫俊, 勝山裕, 直井聰 申請人:富士通株式會社