圖像處理裝置以及文字識別方法與流程

文檔序號：11971129閱讀：171來源：國知局

本發(fā)明涉及一種圖像處理裝置以及文字識別方法，特別是涉及一種對多種原稿進行文字識別的圖像處理裝置以及文字識別方法。

背景技術：
作為對由掃描儀裝置等讀取原稿而獲取的圖像數(shù)據(jù)內(nèi)的文字進行識別的技術，存在一種OCR（OpticalCharacterRecognition；光學文字識別）技術。在OCR技術中，現(xiàn)在尋求不僅是對只記載有文字的原稿，對文字、圖片、照片等混在一起的原稿也能夠識別文字。因此，為了能從各種原稿高精度地進行文字識別，OCR處理正變得復雜，處理需要較長時間。專利文獻1中公開了一種包括CPU、串行運算處理部、并行運算處理部的信息處理裝置。該信息處理裝置中，對由CPU、串行運算處理部以及并行運算處理部中哪一個來執(zhí)行包含于圖像處理的各種運算處理能實現(xiàn)高速運行進行事先驗證，并預先存儲設定了由哪一個來執(zhí)行各種運算處理的表格。并且，CPU針對已命令執(zhí)行的各種運算處理，參照已存儲的表格，確定哪一個為執(zhí)行主體。專利文獻2中公開了進行文字識別處理和壓縮處理的圖像處理裝置。該圖像處理裝置針對文章、圖形、圖片混在一起的原稿，識別圖像數(shù)據(jù)的屬性（標題、文章、圖形以及圖片）并分割區(qū)域。并且，使用對包含標題、文章等的文字的區(qū)域進行簡單二值化后得到的二值數(shù)據(jù)來進行文字識別處理。另外，專利文獻2中記載了對針對包含標題、文章等的文字的區(qū)域進行簡單二值化后得到的二值數(shù)據(jù)進行壓縮處理，對針對圖片、照片等的中間色調(diào)區(qū)域通過誤差擴散法等進行二值化后得到的中間色調(diào)二值數(shù)據(jù)進行壓縮處理。【現(xiàn)有技術文獻】【專利文獻】【專利文獻1】特開2011-191903號公報【專利文獻2】特開平8-315159號公報

技術實現(xiàn)要素：
【發(fā)明要解決的技術問題】由于專利文獻1中公開的信息處理裝置對各被包含于圖像處理的運算處理，選擇能夠最快執(zhí)行該處理的處理部，因此能夠高速地執(zhí)行各運算處理。然而，由該信息處理裝置進行文字識別處理的情況下，由于對所有原稿一律執(zhí)行預先設定的運算處理，即使是對只記載有文字的原稿也需要與有文字、圖片、照片等混在一起的原稿幾乎相同的處理時間。由于專利文獻2中公開的圖像處理裝置不對圖片、照片等的區(qū)域進行文字識別處理，因而能夠高速地執(zhí)行文字識別處理。然而，該圖像處理裝置在圖片、照片等的區(qū)域包含有文字的情況下，無法識別該文字。本發(fā)明的目的在于，提供一種在確保文字識別的精度的同時可以高速地進行文字識別的圖像處理裝置以及文字識別方法。【解決問題的技術手段】本發(fā)明的一方面所涉及的一種圖像處理裝置包括：直方圖生成部，其基于輸入圖像中的各像素的像素值來生成直方圖；成分判定部，其基于直方圖對輸入圖像中是否包含有文字成分、是否包含有除文字成分和背景成分之外的非文字成分進行判定；二值化部，其在輸入圖像中包含有文字成分和非文字成分兩者的情況下，通過基于各像素的邊緣強度對該輸入圖像進行二值化的第1處理來生成二值圖像，在輸入圖像中包含有文字成分且不包含非文字成分的情況下，通過基于各像素的亮度值對該輸入圖像進行二值化的第2處理來生成二值圖像；文字識別部，其對二值圖像進行文字識別。又，本發(fā)明的另一方面所涉及的一種文字識別方法包含：基于輸入圖像中的各像素的像素值來生成直方圖的步驟；基于直方圖對輸入圖像中是否包含有文字成分、是否包含有除文字成分和背景成分之外的非文字成分進行判定的步驟；在輸入圖像中包含有文字成分和非文字成分兩者的情況下，通過基于各像素的邊緣強度對該輸入圖像進行二值化的第1處理來生成二值圖像，在輸入圖像中包含有文字成分且不包含非文字成分的情況下，通過基于各像素的亮度值對該輸入圖像進行二值化的第2處理來生成二值圖像的步驟；對二值圖像進行文字識別的步驟?！景l(fā)明的效果】根據(jù)本發(fā)明的一個實施方式，能夠提供一種在確保文字識別的精度的同時可以高速地進行文字識別的圖像處理裝置以及文字識別方法。附圖說明圖1是實施方式所涉及的圖像處理系統(tǒng)的概略構(gòu)成圖。圖2是圖像處理部的概略構(gòu)成圖。圖3是示出圖像讀取處理的動作的示例的流程圖。圖4是示出文字識別處理的動作的示例的流程圖。圖5是用于說明區(qū)域分割處理的示意圖。圖6是示出區(qū)域分割處理的動作的示例的流程圖。圖7（a）～（c）是用于說明成分判定處理的示意圖。圖8是示出成分判定處理的動作的示例的流程圖。圖9是示出二值化處理的動作的示例的流程圖。圖10是示出圖像處理部的其它示例的概略構(gòu)成圖。圖11是示出文字識別處理的動作的其它示例的流程圖。圖12是示出圖像處理部的其它示例的概略構(gòu)成圖。圖13是其它實施方式所涉及的圖像處理系統(tǒng)的概略構(gòu)成圖?！痉柕恼f明】1、2圖像處理系統(tǒng)10、30圖像讀取裝置11、31圖像輸入部12、32第1圖像存儲器部13、33第1接口部14、34第1存儲部15、35第1中央處理部20、40信息處理裝置21、41第2接口部22、42第2圖像存儲器部23、43顯示部24、44輸入部25、45第2存儲部26、46第2中央處理部27、28、29、36圖像處理部201圖像轉(zhuǎn)換部202區(qū)域分割部203直方圖生成部204成分判定部205二值化部206文字識別部207布局分析部具體實施方式以下，針對本發(fā)明的一方面所涉及的圖像處理裝置以及文字識別方法參照圖進行說明。但本發(fā)明的技術的范圍并不限定于這些實施方式，值得注意的是其涉及到專利權(quán)利要求書所記載的發(fā)明及其等同發(fā)明。圖1是示出實施方式所涉及的圖像處理系統(tǒng)的概略構(gòu)成的圖。如圖1所示，圖像處理系統(tǒng)1具有圖像讀取裝置10和信息處理裝置20。圖像讀取裝置10可以是例如圖像掃描儀、數(shù)碼相機等，信息處理裝置20可以是例如與圖像讀取裝置10相連接使用的個人電腦等。圖像讀取裝置10具有圖像輸入部11、第1圖像存儲器部12、第1接口部13、第1存儲部14、第1中央處理部15。以下，針對圖像讀取裝置10的各部進行詳細的說明。圖像輸入部11具有對作為攝像對象物的原稿等進行攝像的攝像傳感器。該攝像傳感器包括一維或二維排列的CCD（ChargeCoupledDevice：電荷耦合器件）、CMOS（ComplementaryMetalOxideSemiconductor：互補金屬氧化物半導體）等的攝像元件和在攝像元件上對攝像對象物的像進行成像的光學系統(tǒng)，各攝像元件輸出與RGB各個顏色相應的模擬值。然后，圖像輸入部11將攝像傳感器輸出的各模擬值轉(zhuǎn)換成數(shù)字值后生成像素數(shù)據(jù)，并生成由已生成的各像素數(shù)據(jù)構(gòu)成的圖像數(shù)據(jù)（以下稱為輸入圖像）。該輸入圖像中的各像素數(shù)據(jù)為，例如由RGB各個顏色分別用8bit來表示共計24bit的RGB值構(gòu)成的彩色圖像數(shù)據(jù)。第1圖像存儲器部12具有不揮發(fā)性半導體存儲器、揮發(fā)性半導體存儲器、磁盤等的存儲裝置。第1圖像存儲器部12與圖像輸入部11相連接，并保存由圖像輸入部11生成的輸入圖像。第1接口部13具有以USB（UniversalSerialBus：串行總線）等的串行總線為基準的接口電路，與信息處理裝置20電連接并收發(fā)圖像數(shù)據(jù)以及各種信息。又，也可將閃存等連接到第1接口部13以暫時性存儲被保存到第1圖像存儲器部12的圖像數(shù)據(jù)，并復制到信息處理裝置20。又，也可以介由互聯(lián)網(wǎng)、電話線路網(wǎng)（包含移動終端線路網(wǎng)、一般電話線路網(wǎng)）、企業(yè)內(nèi)部網(wǎng)等的有線或無線網(wǎng)絡來連接第1接口部13與信息處理裝置20。在該情況下，第1接口部13還包括連接的網(wǎng)絡的通信接口電路。第1存儲部14具有：RAM（RandomAccessMemory：隨機存取存儲器）、ROM（ReadOnlyMemory：只讀存儲器）等存儲裝置；硬盤等固定磁盤裝置；或軟盤、光盤等可移動的存儲裝置等。又，第1存儲部14中儲存有用于圖像讀取裝置10的各種處理的計算機程序、數(shù)據(jù)庫、表格等。第1中央處理部15與圖像輸入部11、第1圖像存儲器部12、第1接口部13以及第1存儲部14連接并控制這些各部。第1中央處理部15進行圖像輸入部11的圖像生成控制、第1圖像存儲器部12的控制、介由第1接口部13與信息處理裝置20之間的收發(fā)數(shù)據(jù)控制、第1存儲部14的控制等。信息處理裝置20具有第2接口部21、第2圖像存儲器部22、顯示部23、輸入部24、第2存儲部25、第2中央處理部26、圖像處理部27。以下，針對信息處理裝置20的各部進行詳細說明。第2接口部21具有與圖像讀取裝置10的第1接口部13同樣的接口電路，連接信息處理裝置20與圖像讀取裝置10。第2圖像存儲器部22具有與圖像讀取裝置10的第1圖像存儲器部12一樣的存儲裝置。第2圖像存儲器部22介由第2接口部21保存從圖像讀取裝置10接收到的輸入圖像，同時與圖像處理部27相連接，保存圖像處理部27對輸入圖像完成圖像處理后的各種的處理圖像。顯示部23具有由液晶、有機EL等構(gòu)成的顯示器和輸出圖像數(shù)據(jù)或各種的信息到顯示器的接口電路，與第2圖像存儲器部22和第2中央處理部26相連接，將第2圖像存儲器部22中保存的圖像數(shù)據(jù)或從第2中央處理部26輸出的信息顯示到顯示器上。輸入部24具有鍵盤、鼠標等輸入裝置和獲取來自輸入裝置的信號的接口電路，將與使用者的操作相應的信號輸出到第2中央處理部26。第2存儲部25具有與圖像讀取裝置10的第1存儲部14同樣的存儲裝置、固定磁盤裝置、可移動的存儲裝置等。第2存儲部25中儲存有用于信息處理裝置20的各種處理的計算機程序、數(shù)據(jù)庫、表格等。第2中央處理部26與第2接口部21、第2圖像存儲器部22、顯示部23、輸入部24、第2存儲部25以及圖像處理部27連接，并控制這些各部。第2中央處理部26進行介由第2接口部21的與圖像讀取裝置10之間的收發(fā)數(shù)據(jù)控制、第2圖像存儲器部22的控制、顯示部23的顯示控制、輸入部24的輸入控制、第2存儲部25的控制、圖像處理部27的圖像處理的控制等。圖像處理部27與第2圖像存儲器部22相連接，進行文字識別處理。該圖像處理部27與第2中央處理部26相連接，根據(jù)來自第2中央處理部26的控制，基于預先被存儲在第2存儲部25中的程序來進行動作。另外，圖像處理部27也可以由獨立的集成電路、微處理器、固件等構(gòu)成。圖2是示出圖像處理部27的概略構(gòu)成的圖。如圖2所示，圖像處理部27具有圖像轉(zhuǎn)換部201、區(qū)域分割部202、直方圖生成部203、成分判定部204、二值化部205以及文字識別部206。這些各部是通過在處理器上進行動作的軟件來安裝的功能模塊。另外，這些各部也可以由各自獨立的集成電路、微處理器、固件等構(gòu)成。圖3是示出圖像讀取裝置10的圖像讀取處理的動作的示例的流程圖。以下，參照圖3所示的流程圖對圖像讀取處理的動作的示例進行說明。另外，以下說明的動作的流程，基于預先被存儲在第1存儲部14中的程序，主要通過第1中央處理部15與圖像讀取裝置10的各協(xié)作來執(zhí)行。首先，圖像輸入部11生成對作為攝像對象物的原稿進行拍攝得到的輸入圖像，并保存到第1圖像存儲器部12中（步驟S301）。然后，第1中央處理部15介由第1接口部13，將保存在第1圖像存儲器部12中的輸入圖像發(fā)送到信息處理裝置20（步驟S302），結(jié)束一系列步驟。圖4示出信息處理裝置20的文字識別處理的動作的示例的流程圖。以下，參照圖4所示的流程圖對文字識別處理的動作的示例進行說明。另外，以下說明的動作的流程是基于預先被存儲在第2存儲部25中的程序，主要通過第2中央處理部26與信息處理裝置20的各要素協(xié)同執(zhí)行的。首先，第2中央處理部26介由第2接口部21從圖像讀取裝置10獲取輸入圖像后，保存到第2圖像存儲器部22（步驟S401）。然后，圖像轉(zhuǎn)換部201讀出保存在第2圖像存儲器部22中的輸入圖像，生成將輸入圖像的各像素的RGB值轉(zhuǎn)換成亮度值后的圖像（以下，稱為“亮度圖像”），并保存到第2圖像存儲器部22（步驟S402）。另外，亮度值可以通過例如以下的式子進行計算。亮度值=0.30×R值+0.59×G值+0.11×B值（1）然后，區(qū)域分割部202實施將輸入圖像分割成各個以具有規(guī)定范圍內(nèi)的亮度值的像素相連通的區(qū)域為邊界的圖像區(qū)域的區(qū)域分割處理（步驟S403）。圖5是用于對區(qū)域分割處理進行說明的示意圖。圖5所示的圖像500是輸入圖像的示例。輸入圖像500由以下區(qū)域組成：標題區(qū)域501，文章區(qū)域502、503，文章和圖片混合區(qū)域504，圖片區(qū)域505。區(qū)域分割部202抽出具有規(guī)定范圍（例如10）內(nèi)的亮度值的像素相連通的空白區(qū)域511～514，以已抽出的空白區(qū)域511～514為邊界將輸入圖像500分割成各區(qū)域501～505。圖6是示出區(qū)域分割處理的動作的示例的流程圖。以下，參照圖6所示的流程圖對區(qū)域分割處理的動作的示例進行說明。區(qū)域分割部202從第2圖像存儲器部22讀出亮度圖像，針對每條亮度圖像的水平方向的線（以下，稱為“水平線”）分別生成各像素的亮度值的直方圖（以下，稱為“亮度直方圖”）（步驟S601）。然后，區(qū)域分割部202基于亮度直方圖，抽出各像素的亮度值在規(guī)定范圍內(nèi)的水平線，設為水平空白線（步驟S602）。另外，在亮度值在規(guī)定范圍內(nèi)的像素的數(shù)量為該水平線內(nèi)的全部像素數(shù)量的規(guī)定比率（例如95%）以上的情況下，也可以將該水平線設為水平空白線。然后，區(qū)域分割部202將各像素的亮度值的分布范圍大致相同，且相鄰的各水平空白線結(jié)合形成水平空白區(qū)域（步驟S603）。然后，區(qū)域分割部202對是否存在不位于亮度圖像中的上端以及下端的任一端、且在規(guī)定寬度（例如2條線）以上的（即結(jié)合了規(guī)定數(shù)量以上的水平空白線）水平空白區(qū)域進行判定（步驟S604）。在存在這樣的水平空白區(qū)域的情況下，區(qū)域分割部202以與該水平空白區(qū)域相應的輸入圖像中的區(qū)域為邊界，在水平方向上將輸入圖像分割成多個圖像區(qū)域（步驟S605）。在圖5所示的示例中，通過該分割處理，以空白區(qū)域511為邊界，將輸入圖像500分割成標題區(qū)域501和空白區(qū)域511下側(cè)的圖像區(qū)域。另一方面，在不存在這樣的水平空白區(qū)域的情況下，區(qū)域分割部202不進行特別處理，處理前進到步驟S606。然后，區(qū)域分割部202對與分割后的各圖像區(qū)域相應的亮度圖像中的各區(qū)域（在步驟S605中不分割亮度圖像的情況下為亮度圖像），針對每條垂直方向的線（以下，稱為“垂直線”）分別生成亮度直方圖（步驟S606）。然后，區(qū)域分割部202基于亮度直方圖，抽出各像素的亮度值在規(guī)定范圍內(nèi)的垂直線，設為垂直空白線（步驟S607）。另外，與步驟S602的處理一樣，也可以在亮度值在規(guī)定范圍內(nèi)的像素的數(shù)量在該垂直線內(nèi)的全部像素數(shù)的規(guī)定比率以上的情況下，將該垂直線設為垂直空白線。然后，區(qū)域分割部202將各像素的亮度值的分布范圍大致相同且相鄰的各垂直空白線結(jié)合形成垂直空白區(qū)域（步驟S608）。然后，區(qū)域分割部202對是否存在不位于各圖像區(qū)域內(nèi)的左端以及右端且在規(guī)定寬度以上的（即，結(jié)合了規(guī)定數(shù)量以上的垂直空白線）垂直空白區(qū)域進行判定（步驟S609）。在存在這樣的垂直空白區(qū)域的情況下，區(qū)域分割部202以與該垂直空白區(qū)域相應的輸入圖像中的區(qū)域為邊界，在垂直方向上進一步將各圖像區(qū)域分割成多個圖像區(qū)域（步驟S610）。在圖5所示的示例中，通過該分割處理，不分割標題區(qū)域501地以空白區(qū)域512為邊界將空白區(qū)域511下側(cè)的圖像區(qū)域分割成空白區(qū)域512左側(cè)的圖像區(qū)域和右側(cè)的圖像區(qū)域。另一方面，在不存在這樣的空白區(qū)域的情況下，區(qū)域分割部202不進行特別處理，處理前進到步驟S611。然后，區(qū)域分割部202對在步驟S610中是否已對區(qū)域進行分割進行判定（步驟S611）。在步驟S610中已對區(qū)域進行分割的情況下，區(qū)域分割部202對分割后的圖像區(qū)域，再次重復步驟S601～S610的處理。另一方面，在步驟S610中未對區(qū)域進行分割的情況下，結(jié)束一系列步驟。又，在第二次之后的步驟S601～S610的處理中，區(qū)域分割部202在步驟S605的處理之后對在步驟S605中是否已對區(qū)域進行分割進行判定，在未對區(qū)域進行分割的情況下結(jié)束一系列步驟。在圖5所示的示例中，通過第二次的水平方向的分割處理，空白區(qū)域512左側(cè)的圖像區(qū)域以空白區(qū)域513為邊界，被分割成文章區(qū)域502和文章區(qū)域503，空白區(qū)域512右側(cè)的圖像區(qū)域以空白區(qū)域514為邊界，被分割成混合區(qū)域504和圖片區(qū)域505。并且，在第二次的垂直方向的分割處理中不抽出空白區(qū)域，結(jié)束區(qū)域分割處理。這樣，區(qū)域分割部202通過使用各條水平線或垂直線的亮度直方圖，能夠高速地分割輸入圖像中的區(qū)域。另外，區(qū)域分割部202也可以對亮度圖像生成在水平方向以及垂直方向上已間隔剔除像素的間隔剔除圖像，使用已生成的間隔剔除圖像來實施區(qū)域分割處理。由此，區(qū)域分割部202可以更加高速地實施區(qū)域分割處理。又，區(qū)域分割部202也可以生成使用閾值T1對亮度圖像的各像素進行二值化后得到的二值圖像，采用已生成的二值圖像來實施區(qū)域分割處理。該閾值T1可以設定為例如亮度圖像中的全部像素的亮度值的平均值。在該情況下，區(qū)域分割部202按將亮度值在閾值T1以上的像素（接近于白色的像素）設為0，將亮度值不足閾值T1的像素（接近于黑色的像素）設為1的方式進行二值化。然后，針對二值圖像的各條線計算二值的總和，將總和在規(guī)定值（例如“5”）以下的線設為空白線。由此，區(qū)域分割部202能夠更加高速地實施區(qū)域分割處理?；氐綀D4，直方圖生成部203針對由區(qū)域分割部202分割得到的每個圖像區(qū)域，分別生成各像素的亮度值的直方圖，并存儲到第2圖像存儲器部22中（步驟S404）。然后，成分判定部204基于由直方圖生成部203生成的直方圖，實施對各圖像區(qū)域是否包含有文字成分、是否包含有除文字成分和背景成分之外的非文字成分進行判定的成分判定處理（步驟S405）。圖7（a）～（c）是用于對成分判定處理進行說明的示意圖。圖7（a）所示的曲線圖700示出包含有文字成分和非文字成分兩者的圖像區(qū)域的亮度值的直方圖的示例，圖7（b）所示的曲線圖710示出包含有文字成分但不包含非文字成分的圖像區(qū)域的亮度值的直方圖的示例，圖7（c）所示的曲線圖720示出包含有非文字成分但不包含文字成分的圖像區(qū)域的亮度值的直方圖的示例。曲線圖700、710、720的橫軸表示亮度值，縱軸表示頻度。一般的原稿中，文字的明亮程度和背景的明亮程度分別均勻，各自的明亮程度有較大差異以使使用者能夠明確地區(qū)別文字和背景。另一方面，圖片、照片等的明亮程度不均勻。因此，亮度值的直方圖中，文字成分和背景成分的分布寬度有變窄的傾向，非文字成分的分布寬度有變寬傾向。又，在一般的原稿上文字與圖片、照片等重疊的情況下，為了讓使用者能夠區(qū)別文字與圖片、照片等，各自的明亮程度不同。因此，如圖7（a）所示，在包含有文字成分和非文字成分兩者的圖像區(qū)域的亮度值的直方圖中，非文字成分的較寬范圍的分布701和文字成分的較窄范圍的分布702兩者都存在的可能性高。又，如圖7（b）所示，在包含有文字成分但不包含非文字成分的圖像區(qū)域的亮度值的直方圖中，存在背景成分的較窄范圍的分布711與文字成分的較窄范圍的分布712的可能性高。又，如圖7（c）所示，在包含有非文字成分但不包含文字成分的圖像區(qū)域的亮度值的直方圖中，只存在非文字成分的較寬范圍的分布721的可能性高。因此，成分判定部204基于這些特征，對各圖像區(qū)域內(nèi)是否分別包含有文字成分和非文字成分進行判定。圖8是示出成分判定處理的動作的示例的流程圖。以下，參照圖8所示的流程圖對成分判定處理的動作的示例進行說明。成分判定部204從第2圖像存儲器部22讀出處理對象的圖像區(qū)域的亮度值的直方圖（步驟S801）。然后，成分判定部204在已讀出的直方圖中，從亮度值低的一側(cè)開始依次對是否存在頻度在該圖像區(qū)域的全部像素數(shù)的規(guī)定比例（例如1%）以上的亮度值進行判定（步驟S802）。成分判定部204在不存在這樣的亮度值的情況下，使處理前進到步驟S806，在存在這樣的亮度值的情況下，對這樣的亮度值連續(xù)地存在的數(shù)量是否在規(guī)定數(shù)量（例如20）以上進行判定（步驟S803）。成分判定部204在該連續(xù)地存在的數(shù)量在規(guī)定數(shù)量以上的情況下，將該連續(xù)的亮度值的范圍作為第1范圍抽出（步驟S804），在不足規(guī)定數(shù)量的情況下，將該連續(xù)的亮度值的范圍作為第2范圍抽出（步驟S805）。然后，成分判定部204對是否已結(jié)束針對已讀出的直方圖的所有亮度值的處理進行判定（步驟S806）。在針對所有亮度值的處理沒有結(jié)束的情況下，返回到步驟S802，對還未處理的亮度值重復步驟S802～S805的處理。在針對所有亮度值的處理已結(jié)束的情況下，成分判定部204對該直方圖中是否存在第1范圍和第2范圍兩者進行判定（步驟S807）。在直方圖中存在第1范圍和第2范圍兩者的情況下，成分判定部204將該圖像區(qū)域判定為包含有文字成分和非文字成分兩者的第1屬性區(qū)域（步驟S808）。另外，在存在第1范圍和第2范圍兩者的情況下，由于即使其中一方或兩者存在兩個以上，該圖像區(qū)域內(nèi)包含有文字成分和非文字成分兩者的可能性高，因而成分判定部204將該圖像區(qū)域判定為第1屬性區(qū)域。另一方面，在直方圖中不是第1范圍和第2范圍兩者都存在的情況下，成分判定部204對該直方圖中第2范圍是否存在兩個以上進行判定（步驟S809）。在直方圖中第2范圍存在兩個以上的情況下，成分判定部204將該圖像區(qū)域判定為只包含有文字成分和背景成分的第2屬性區(qū)域（步驟S810）。另外，在第2范圍存在三個以上的情況下，由于該第2范圍的其中一個為背景成分，其余的分別為亮度不同的文字成分的可能性高，因而成分判定部204將該圖像區(qū)域判定為第2屬性區(qū)域。另外，在該情況下，也可以將該第2范圍的其中一個判斷為非文字成分，將該圖像區(qū)域判定為第1屬性區(qū)域。另一方面，在直方圖中第2范圍不存在兩個以上的情況下，成分判定部204將該圖像區(qū)域判定為不包含文字成分的第3屬性區(qū)域（步驟S811）。另外，雖然在直方圖中只包含有第1范圍的情況下，該圖像區(qū)域中只包含有非文字成分的可能性高，且在直方圖中只包含有一個第2范圍的情況下，該圖像區(qū)域中只包含有背景成分的可能性高，但不論在何種情況下該圖像區(qū)域中都不包含文字成分。在判定圖像區(qū)域為何種屬性區(qū)域后，成分判定部204對是否已結(jié)束針對所有圖像區(qū)域的直方圖的處理進行判定（步驟S812）。在針對所有圖像區(qū)域的直方圖中的處理沒有結(jié)束的情況下，成分判定部204使處理返回到步驟S801，對還未處理的圖像區(qū)域的直方圖中重復步驟S801～S811的處理。另一方面，在對所有圖像區(qū)域的直方圖中的處理已結(jié)束的情況下，成分判定部204完成一系列步驟。這樣，成分判定部204通過使用各圖像區(qū)域的直方圖，能夠?qū)Ω鲌D像區(qū)域內(nèi)是否分別包含有文字成分和非文字成分進行高速地判定?；氐綀D4，二值化部205依照由成分判定部204所判定的結(jié)果，對各圖像區(qū)域?qū)嵤┒祷幚恚ú襟ES406）。圖9是示出二值化處理的動作的示例的流程圖。以下，參照圖9所示的流程圖對二值化處理的動作的示例進行說明。二值化部205對輸入圖像中是否存在第1屬性區(qū)域進行判定（步驟S901）。在輸入圖像中存在第1屬性區(qū)域的情況下，即在輸入圖像中包含有文字成分和非文字成分兩者且各圖像區(qū)域中至少有一個包含有文字成分和非文字成分兩者的情況下，二值化部205通過第1處理對輸入圖像進行二值化（步驟S902）。各圖像區(qū)域是以空白區(qū)域為邊界而分割成的區(qū)域，第1屬性區(qū)域內(nèi)包含有文字成分和非文字成分兩者。因此，在第1屬性區(qū)域內(nèi)文字成分和非文字成分相連通的可能性高，文字與圖片、照片等重疊的可能性高。因而，在該情況下，為了能從各種亮度組成的非文字成分中適當?shù)胤蛛x出文字成分，需要進行二值化。因此，二值化部205在第1處理中基于各像素的邊緣強度對輸入圖像進行二值化。例如，二值化部205對亮度圖像的各像素，應用Prewitt過濾器、Sobel過濾器等的邊緣檢測過濾器生成將其輸出值的絕對值作為像素值的邊緣圖像。然后，生成根據(jù)已生成的邊緣圖像的各像素的像素值是否在預先設定的閾值T2以上來對各像素進行二值化后得到的二值圖像。該閾值T2例如可以根據(jù)人能通過目視判別圖像上的亮度的差別的亮度值的差（例如20）來設定。另一方面，在輸入圖像中不存在第1屬性區(qū)域的情況下，二值化部205對輸入圖像中是否只存在第2屬性區(qū)域進行判定（步驟S903）。在輸入圖像中只存在第2屬性區(qū)域的情況下，即在輸入圖像中包含文字成分且不包含非文字成分的情況下，二值化部205通過第2處理對輸入圖像進行二值化（步驟S904）。第2屬性區(qū)域內(nèi)只包含有文字成分和背景成分，不包含非文字成分。即輸入圖像中只包含有文字成分和背景成分，因此能夠不基于各像素的邊緣強度進行二值化地分離文字成分和背景成分的可能性高。因此，二值化部205通過第2處理基于各像素的亮度值對輸入圖像進行二值化。在該情況下，二值化部205根據(jù)亮度圖像的各像素的亮度值是否在閾值T3以上生成對各像素進行二值化后的二值圖像。該閾值T3可以設定為例如亮度圖像中的全部像素的亮度值的平均值。第2處理中，由于不需要求出各像素的邊緣強度，因而能夠比第1處理更加高速地實施二值化處理。另一方面，在輸入圖像中存在除第2屬性區(qū)域之外的圖像區(qū)域的情況下，二值化部205對輸入圖像中第2屬性區(qū)域和第3屬性區(qū)域兩者是否存在進行判定（步驟S905）。在輸入圖像中存在第2屬性區(qū)域和第3屬性區(qū)域兩者的情況下，即雖然在輸入圖像中包含有文字成分和非文字成分兩者，但各圖像區(qū)域的任一個都不包含文字成分和非文字成分兩者的情況下，二值化部205只對輸入圖像中的第2屬性區(qū)域基于各像素的亮度值進行二值化（步驟S906）。在輸入圖像中存在第2屬性區(qū)域和第3屬性區(qū)域兩者的情況下，由于雖然輸入圖像中包含文字成分和非文字成分兩者，但各圖像區(qū)域的任一個都不包含文字成分和非文字成分兩者，因而文字成分和非文字成分不連通，文字不與圖片、照片等重疊的可能性高。因此，二值化部205在輸入圖像中只對第2屬性區(qū)域基于各像素的亮度值進行二值化。另一方面，由于在輸入圖像中不存在第2屬性區(qū)域和第3屬性區(qū)域兩者的情況下，認為輸入圖像中不包含文字成分，因而不生成二值圖像地完成一系列步驟。此外，在步驟S902、S904、S906中生成二值圖像后，二值化部205完成一系列步驟。另外，在第1處理中對輸入圖像基于各像素的邊緣強度進行二值化的方法，并不限定于基于邊緣圖像對各像素進行二值化。例如，也可以通過第1處理將亮度圖像分割成足夠小的區(qū)域（例如3像素×3像素的區(qū)域），將各區(qū)域內(nèi)的各像素的亮度值的平均值作為閾值來對該區(qū)域內(nèi)的各像素進行二值化。在該情況下，能夠基于各區(qū)域內(nèi)的各像素的亮度值的差對輸入圖像進行二值化，即使文字成分和非文字成分相鄰也能適當?shù)胤蛛x各成分。因此，作為第1處理，二值化部205針對每個規(guī)定區(qū)域分別設定二值化的閾值來對各像素的亮度值進行二值化，另一方面，作為第2處理，二值化部205為輸入圖像中的所有像素設定共通的二值化的閾值來對各像素的亮度值進行二值化。在該情況下，由于第2處理中不需要針對每個規(guī)定區(qū)域分別求出二值化的閾值，因而能夠比第1處理更加高速地實施二值化處理?；蛘?，二值化部205也可以在第1處理中基于輸入圖像中的各像素中的至少顏色分量來計算邊緣強度。例如，二值化部205通過以下的（2）式，由輸入圖像的各像素的RGB值來計算反映輸入圖像中的各像素的明亮程度的明亮度，生成將計算出的明亮度作為像素值的明亮度圖像。并且，對明亮度圖像生成邊緣圖像，并根據(jù)該邊緣圖像的各像素的像素值是否在規(guī)定的閾值以上生成二值圖像。明亮度=max（R值，G值，B值）（2）或者，二值化部205通過以下的（3）式，由輸入圖像的各像素的RGB值來計算反映輸入圖像中的各像素的色彩鮮艷程度的色度，生成將計算出的色度作為像素值的色度圖像。并且，針對色度圖像生成邊緣圖像，根據(jù)該邊緣圖像的各像素的像素值是否在規(guī)定的閾值以上來生成二值圖像。色度=（max（R值，G值，B值）-min（R值，G值，B值））/max（R值，G值，B值）（3）或者，二值化部205針對以將輸入圖像中的各像素的亮度值、明亮度和色度分別進行歸一化后得到的值中的任意兩個或所有的平均值或加權(quán)平均值作為像素值的圖像生成邊緣圖像，根據(jù)該邊緣圖像的各像素的像素值是否在規(guī)定的閾值以上生成二值圖像。回到圖4，文字識別部206對由二值化部205生成的二值圖像進行文字識別，將識別到的各文字的編碼信息存儲到第2存儲部25中（步驟S407），完成一系列步驟。其后，例如由使用者介由輸入部24發(fā)出的顯示輸入圖像中的文字的指示一旦產(chǎn)生，第2中央處理部26就將存儲在第2存儲部25中的與各編碼信息相應的文字顯示到顯示部23上。另外，在判定輸入圖像中不包含文字成分，且二值化部205沒有生成二值圖像的情況下，文字識別部206不進行文字識別地完成一系列步驟。另外，在步驟S404中，雖然示出了直方圖生成部203生成各像素的亮度值的直方圖的示例，但本發(fā)明不限定于此。直方圖生成部203既可以基于各像素的像素值生成直方圖，也可以基于例如各像素的邊緣強度生成直方圖。在該情況下，直方圖生成部203對由區(qū)域分割部202分割成的各圖像區(qū)域，對各像素的亮度、明亮度或色度生成應用Prewitt過濾器、Sobel過濾器等的邊緣檢測過濾器得到的邊緣圖像，然后生成已生成的邊緣圖像的各像素的像素值的直方圖。如上所述，在一般的原稿中，文字的明亮程度和背景的明亮程度分別均勻，各自的明亮程度有較大差異以使使用者能夠明確地區(qū)別文字和背景。因此，邊緣強度在文字和背景相鄰的部分具有一定的較高值，在其它部分具有一定的較低值。另一方面，圖片、照片等明亮程度不均勻，有平穩(wěn)地變化的傾向。因此，在圖片、照片等部分中的邊緣強度有比文字和背景的邊界上的邊緣強度低且分布于較寬的范圍的傾向。因而，在邊緣強度的直方圖中，與亮度值的直方圖一樣，文字成分和背景成分的分布寬度有變窄的傾向，非文字成分的分布寬度變寬的傾向。因此，成分判定部204同使用亮度值的直方圖的情況一樣，能夠使用邊緣強度的直方圖，對各圖像區(qū)域內(nèi)是否分別包含有文字成分和非文字成分進行判定。如上所詳述的那樣，通過依照圖4所示的流程圖進行動作，信息處理裝置20對文字和圖片、照片等混在一起的原稿，通過將文字與圖片、照片等高精度地分離來識別文字，對不包含圖片、照片等的原稿可以高速地識別文字。由此，在確保文字識別的精度的同時，可以高速地進行文字識別。圖10是示出圖像處理部的其它例的概略構(gòu)成圖。圖10所示的圖像處理部28在圖1所示的信息處理裝置20中可代替圖像處理部27來使用。圖10所示的圖像處理部28與圖2所示的圖像處理部27不同，不具有區(qū)域分割部202。圖11是示出使用圖10所示的圖像處理部28的信息處理裝置20的文字識別處理的動作的示例的流程圖。以下，參照圖11所示的流程圖對文字識別處理的動作的其它示例進行說明。在圖1所示的信息處理裝置20中，該流程圖可代替圖4所示的流程圖來被執(zhí)行。另外，以下說明的動作的流程是基于預先被存儲在第2存儲部25中的程序，主要通過第2中央處理部26與信息處理裝置20的各要素協(xié)同來執(zhí)行的。圖11所示的流程圖中，與圖4所示的流程圖不同，信息處理裝置20不實施步驟S403的區(qū)域分割處理，該步驟之后，不是對各個圖像區(qū)域，而是對輸入圖像整體實施各處理。即，在步驟S1103中，直方圖生成部203對輸入圖像整體生成直方圖。然后，在步驟S1104中，成分判定部204基于對輸入圖像整體生成的直方圖對是否分別包含有文字成分和非文字成分進行判定。然后，在步驟S1105中，二值化部205在輸入圖像中包含有文字成分和非文字成分兩者的情況下，生成通過第1處理對輸入圖像進行二值化后得到的二值圖像，在輸入圖像中包含文字成分且不包含非文字成分的情況下，生成通過第2處理對輸入圖像進行二值化后得到的二值圖像。圖11所示的步驟S1101～S1102、S1106的處理由于與圖4所示的步驟S401～S402、S407的處理相同，故省略說明。如以上詳述的，在依照圖11所示的流程圖進行動作的情況下，信息處理裝置20也能在確保文字識別的精度的同時，高速地進行文字識別。圖12是示出圖像處理部的另外其它例的概略構(gòu)成圖。圖12所示的圖像處理部29在圖1所示的信息處理裝置20中，可以代替圖像處理部27。圖12所示的圖像處理部29中除圖2所示的圖像處理部27的各部之外，還具有布局分析部207。該布局分析部207在圖9所示的流程圖的步驟S905中被判定為Yes的情況下，即在輸入圖像中不存在第1屬性區(qū)域且存在第2屬性區(qū)域和第3屬性區(qū)域的情況下，對輸入圖像進行詳細的布局分析。布局分析部207基于各像素的亮度值對亮度圖像進行二值化，以使背景成分與除它之外的成分相分離，通過標記等手法抽出除背景成分之外的成分的連通成分。然后，布局分析部207求出各連通成分的外接矩形，將相互重疊的外接矩形合并為重疊矩形。進一步地，布局分析部207生成該重疊矩形的大小的直方圖，判定非常大的矩形（例如按從大到小的順序的前10%）為非文字成分，將其它矩形作為文字成分的候補。布局分析部207針對文字成分的各候補，將其與在橫向或縱向上的規(guī)定距離（例如該外接矩形的長邊的規(guī)定倍數(shù)）之內(nèi)且最為接近的其它候補相結(jié)合作為行元素。另外，將沒有與其它候補相結(jié)合的候補判定為非文字成分。布局分析部207在橫向的行元素被抽出的情況下，對各橫行元素，將其與在縱向上的規(guī)定距離（例如該橫行元素的縱向長度的規(guī)定倍數(shù)）之內(nèi)且最為接近的橫行元素相結(jié)合作為段元素。另一方面，在縱向的行元素被抽出的情況下，對各縱行元素，將其與在橫向上的規(guī)定距離（例如，該縱行元素的橫向的長度的規(guī)定倍數(shù)）之內(nèi)且最為接近的縱行元素相結(jié)合作為段元素。布局分析部207判定各段元素為文字成分，判定沒有與其它行元素相結(jié)合的行元素為非文字成分。并且，二值化部205在輸入圖像中不存在第1屬性區(qū)域且存在第2屬性區(qū)域和第3屬性區(qū)域的情況下，僅對被布局分析部207判定為文字成分的各段元素，基于各像素的亮度值進行二值化。如以上所詳述的那樣，信息處理裝置20在輸入圖像中文字成分被包含在與非文字成分相分離的位置的情況下，可以更加高精度地抽出文字成分。圖13是示出其它實施方式所涉及的圖像處理系統(tǒng)2的概略構(gòu)成的圖。圖13所示的圖像處理系統(tǒng)2與圖1所示的圖像處理系統(tǒng)1之間的差異在于，具有圖像處理部的裝置不同。即圖像處理系統(tǒng)2中，不是信息處理裝置40，而是圖像讀取裝置30具有圖像處理部36。該圖像處理部36具有與信息處理裝置20的圖像處理部27、28或29一樣的功能。圖13所示的圖像處理系統(tǒng)2能夠執(zhí)行與圖3、4、11所示的處理幾乎一樣的處理。以下，對對于圖3的流程圖所示的圖像讀取處理以及圖4、11的流程圖所示的文字識別處理如何適應進行說明。在圖像處理系統(tǒng)2中，步驟S301的處理以及步驟S402～S407、S1102～S1106的處理是基于預先被存儲在第1存儲部34中的程序，主要通過第1中央處理部35與圖像讀取裝置30的各要素協(xié)作來執(zhí)行的。步驟S301中，圖像讀取裝置30的圖像輸入部31生成對攝像對象物進行拍攝得到的輸入圖像并保存到第1圖像存儲器部32中。由于文字識別處理是在圖像讀取裝置30中實施，步驟S302、S401、S1101的輸入圖像的收發(fā)信號處理被省略。步驟S402～S407、S1102～S1106的處理是由圖像讀取裝置30的圖像處理部36來執(zhí)行的。這些處理的動作與由關于圖像處理系統(tǒng)1已說明的信息處理裝置20的圖像處理部27～29執(zhí)行的情況一樣。圖像讀取裝置30的文字識別部206介由第1接口部33將識別到的各文字的編碼信息發(fā)送到信息處理裝置40。另一方面，信息處理裝置40的第2中央處理部46將接收到的各文字的編碼信息存儲到第2存儲部45。這樣，圖像讀取裝置30具有圖像處理部36并執(zhí)行文字識別處理的情況也能夠得到同信息處理裝置具有圖像處理部并執(zhí)行文字識別處理的情況一樣的效果。以上，對本發(fā)明的適合的實施方式進行了說明，但本發(fā)明并不限定于這些實施方式。例如，圖像讀取裝置和信息處理裝置的功能分工不限于圖1和圖13所示的圖像處理系統(tǒng)的示例，包含圖像處理部內(nèi)的各部地將圖像讀取裝置以及信息處理裝置的各部配置到圖像讀取裝置和信息處理裝置的任一個也可以是適當?shù)淖兏；蛘撸部梢詫D像讀取裝置和信息處理裝置構(gòu)成為一個裝置。又，在圖1所示的圖像處理系統(tǒng)1中，在圖像讀取裝置10與信息處理裝置20介由有線或無線的網(wǎng)絡相連接的情況下，為了能夠以云計算的方式來提供圖像處理的服務，也可以在網(wǎng)絡上分散地配置多個信息處理裝置20，各信息處理裝置20相互協(xié)作，來分擔區(qū)域分割處理、二值化處理等。由此，圖像處理系統(tǒng)1能夠?qū)Χ鄠€圖像讀取裝置10讀取到的輸入圖像，高效率地實施區(qū)域分割處理和二值化處理。同樣地，在圖13所示的圖像處理系統(tǒng)2中也可以介由網(wǎng)絡來連接圖像讀取裝置30的第1接口部33和信息處理裝置40的第2接口部41。

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：島崎克仁
技術所有人：株式會社PFU
我是此專利的發(fā)明人

上一篇：筆桿自動上料機構(gòu)的制作方法與工藝
上一篇：一種電路板裝料機的制作方法與工藝

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！