一種基于筆劃編碼的印刷體漢字識別方法
【專利摘要】本發明公開了一種基于筆劃編碼的印刷體漢字識別方法,包括如下步驟:(1)根據漢字筆劃對漢字進行編碼;根據編碼結果建立筆劃編碼數據庫;(2)提取漢字庫中各字符圖像的LBP特征;(3)使用svm分類器學習漢字的編碼,以獲得學習器;(4)使用所述學習器對待識別漢字的字符圖像進行預判,獲取筆劃編碼;(5)將預判獲得的筆劃編碼與筆劃編碼數據庫里所有的筆劃編碼進行匹配,匹配成功的筆劃編碼所對應的漢字即為識別結果;本發明公開的這種印刷體漢字識別方法,基于筆劃編碼進行漢字識別,使用特征學習的方法空間映射預判,筆劃編碼特征向量只由25位二進制編碼表示,具有識別速度快,識別精度高的特點。
【專利說明】
-種基于筆劃編碼的印刷體漢字識別方法
技術領域
[0001] 本發明屬于印刷體漢字識別技術領域,更具體地,設及一種基于筆劃編碼的印刷 體漢字識別方法。
【背景技術】
[0002] 現有技術的印刷體漢字識別多基于均勻網格特征、彈性網格方向分解特征、梯度 特征,LBP特征進行分析識別。其中,基于均勻網格特征的方法是W網格為單位進行的,個別 像素差異不會對結果有很大的影響,該方法識別速度快,簡單易行,但是對圖像的質量要求 很高,不易滿足。而彈性網格方向分解特征法對不同的字體之間,筆劃寬度,大小不固定的 情況有著比較好的適應能力,但是該方法增加了對字符劃分彈性網格的步驟,從而增加了 耗時;基于梯度特征的方法是基于灰度圖像上提取的,可W避免信息的損失,獲得較高的識 別率,但是需要通過SObel算子檢測邊緣,耗時不能滿足實時需求;LBP特征算法簡單,識別 速度快,能夠滿足實時性要求,但是其特征不能良好的表示漢字字符,導致識別精度不高。
[0003] 目前,印刷體漢字識別技術的難點在于:其一,圖像印刷質量較低、圖像傾斜、W及 字符粘連斷裂等干擾都對特征提取造成了 一定的影響,導致最后漢字識別率不高;其次,漢 字的字符集非常龐大,常用的簡體漢字集合大約為7000個,還不包括其他的大量生僻字的 情況,大量的漢字使得一些簡單的特征無法唯一的表示所有的漢字;運些特殊性都給漢字 識別帶來了較大的困難。
【發明內容】
[0004] 針對現有技術的W上缺陷或改進需求,本發明提供了一種基于筆劃編碼的印刷體 漢字識別方法,其目的在于解決現有技術識別精度不高、實時性較差的技術問題。
[0005] 為實現上述目的,按照本發明的一個方面,提供了一種基于筆劃編碼的印刷體漢 字識別方法,包括如下步驟:
[0006] (1)根據漢字筆劃對漢字進行編碼;根據編碼結果建立筆劃編碼數據庫;
[0007] (2)提取漢字庫中各字符圖像的LBP特征;
[000引(3)使用svm分類器學習漢字的編碼,W獲得學習器;
[0009] (4)使用學習器對待識別漢字的字符圖像進行預判,獲取筆劃編碼;
[0010] (5)將預判獲得的筆劃編碼與筆劃編碼數據庫里所有的筆劃編碼進行匹配,匹配 成功的筆劃編碼所對應的漢字即為識別結果。
[0011] 優選地,上述基于筆劃編碼的印刷體漢字識別方法,步驟(1)中,根據漢字筆劃,為 每個漢字生成一個唯一對應的25位二進制編碼。
[0012] 優選地,上述基于筆劃編碼的印刷體漢字識別方法,根據漢字筆劃對漢字進行編 碼的方法,具體如下:
[0013] (1.1)判斷漢字是否包含橫豎撇掠折運五個筆劃,若是,則將對應筆劃的編碼位標 記為1;若否,則將對應筆劃的編碼位標記為0;由此生成二進制編碼的第0-4位的編碼;
[0014] (1.2)將漢字圖像區域均勻劃分為2*2的區域;并按照從左到右,從上到下的順序, 依次判斷各區域是否包含有橫豎撇掠折運五個筆劃;
[0015] 若是,則將對應筆劃的編碼位標記為1;若否,則將對應筆劃的編碼位標記為0;獲 得各區域的5位編碼;
[0016] 按照上述各區域在漢字圖像里從左到右,從上到下的順序,將上述各區域的5位編 碼,依次對應到二進制編碼的第5-9位、第10-14位、第15-19位、第20-24位;并與所述第0-4 位二進制編碼一起按照比特位順序生成25位二進制編碼;
[0017] 運個步驟,將漢字圖像劃分為巧2的區域,對筆劃編碼加上了漢字的空間分布信 息,提高了對于漢字的分辨能力。
[0018] 優選地,上述基于筆劃編碼的印刷體漢字識別方法,其步驟(2)中對字符圖像提取 LBP特征向量的過程,包括如下子步驟:
[0019] (2.1)對字符圖像進行灰度化處理;
[0020] (2.2)對灰度化處理后的字符圖像進行圖像分塊,均勻劃分為16*16個圖像塊;
[0021] (2.3)獲取灰度化處理后的字符圖像中各像素點的LBP特征值;
[0022] (2.4)根據各圖像塊內各像素的LBP特征值,獲取LBP特征值直方圖;
[0023] 對直方圖進行歸一化處理,將所有256種LBP值均等量化為32個等級,根據LBP特征 值在32個量級中出現的頻率,獲取各圖像塊的32維的LBP特征向量;其中,LBP值由8位二進 制組成,共有256種不同的值;
[0024] (2.5)按照圖像塊在字符圖像里從左到右,從上到下的順序,依次將各圖像塊的 LBP特征向量拼接起來,由此獲得字符圖像的16*16*32維的LBP特征向量。
[0025] 優選地,上述基于筆劃編碼的印刷體漢字識別方法,獲取字符圖像中各像素點的 LBP特征值方法,包括如下子步驟:
[0026] (2.3.1)在3*3的窗口內,W窗口中屯、像素點的灰度值為闊值,與相鄰的8個像素的 灰度值依次進行比較;若周圍像素點的灰度值大于中屯、像素點灰度值,則將該像素點的位 置標記為1,否則標記為0;
[0027]
[002引其中,(Xe,yc)是指3x3鄰域的中屯、元素,它的像素值為ic,ip是指鄰域內其他像素 的值;
[0029]
[0030] (2.3.2)對3*3鄰域內的8個點進行比較,由此生成8位二進制數;將該8位二進制數 轉換為十進制;該十進制數即為該窗口中屯、像素點的LBP特征值,采用該LBP特征值來反映 對應區域的紋理信息。
[0031] 優選地,上述基于筆劃編碼的印刷體漢字識別方法,其步驟(3)中使用svm分類器 學習步驟(1)中獲得的漢字的編碼,W獲得學習器,具體為:
[00創將步驟(2)獲得的LBP特征向量,依次輸入到25個svm分類器中,與漢字庫中對應的 筆劃編碼進行訓練學習;使得每一位筆劃編碼對應的svm分類器形成對應的規則,可判斷 LBP特征向量對應的筆劃編碼位是O還是1,獲得學習器。
[0033] 優選地,上述基于筆劃編碼的印刷體漢字識別方法,其步驟(4)使用學習器對待識 別漢字的字符圖像進行預判,獲取筆劃編碼的方法,具體包括如下子步驟;
[0034] (4.1)提取待識別漢字的字符圖像的LBP特征向量;
[0035] (4.2)將上述LBP特征向量輸入到學習器中,預判出該LBP特征向量對應的25位筆 劃編碼;運串筆劃編碼即為待識別漢字的字符圖像所對應的筆劃編碼。
[0036] 總體而言,通過本發明所構思的W上技術方案與現有技術相比,能夠取得下列有 益效果:
[0037] (1)本發明所提供的基于筆劃編碼的印刷體漢字識別方法,其步驟(3)中使用特征 學習的方法訓練獲得學習器,步驟(4)中使用學習器進行空間映射預判獲取字符圖像的筆 劃編碼,步驟(5)中基于匹配的思想,將待識別字符的筆劃編碼與漢字庫中字符的筆劃編碼 進行匹配;
[0038] 對于擬捜索的漢字文本字符,可獲得對應的筆劃編碼;然后將擬捜索的文本塊圖 像進行字符切分,獲得單個字符的圖像,依次進行編號,獲取每個字符圖像的筆劃編碼,將 擬捜索的字的筆劃編碼與文本塊圖像中字的筆劃編碼進行對比,匹配成功即為捜索結果; 實現了 W字捜圖;
[0039] 相比較而言,現有技術中的印刷體漢字識別方法是先進行簡單的特征提取,然后 進行訓練分類,特征提取時的處理對象都是image圖像,而無法獲取一個txt文本字符的特 征,因此無法進行后續的訓練分類,進而無法實現W字捜圖;
[0040] (2)本發明所提供的基于筆劃編碼的印刷體漢字識別方法,采用筆劃特征,對漢字 圖像區域進行均勻劃分,加入運種空間劃分,使得每個漢字對應唯一的筆劃編碼;由于筆劃 特征本身就具有比其他統計特征更強的漢字表征能力;就加上空間劃分之后,筆劃編碼特 征加上了漢字的空間分布信息,其區分漢字的能力進一步增強,極大的提高了識別精度;
[0041] (3)本發明所提供的基于筆劃編碼的印刷體漢字識別方法,其筆劃編碼特征向量 每一位都采用0或者1表示,而現有的特征算法,特征向量是采用浮點數表示的,而計算機處 理0或1的布爾值類型速度遠遠快于處理浮點數的速度,因此本發明所提供的運種基于筆劃 編碼的印刷體漢字識別方法,在識別過程中的耗時更短,極大的提高了識別的實時性。
【附圖說明】
[0042] 圖1是本發明實施例的識別方法對應的流程圖;
[0043] 圖2是本發明實施例的漢字編碼示意圖。
【具體實施方式】
[0044] 為了使本發明的目的、技術方案及優點更加清楚明白,W下結合附圖及實施例,對 本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用W解釋本發明,并 不用于限定本發明。此外,下面所描述的本發明各個實施方式中所設及到的技術特征只要 彼此之間未構成沖突就可W相互組合。
[0045] 本發明實施例提供的一種基于筆劃編碼的印刷體漢字識別方法,其流程如圖1所 示,包括如下步驟:
[0046] (1)根據漢字筆劃是否包含橫豎撇掠折運五個筆劃,對漢字進行二進制編碼;將漢 字圖像區域均勻劃分為2*2的區域;根據各區域是否包含有橫豎撇掠折運五個筆劃,對各區 域進行編碼,根據漢字整體的筆劃編碼,W及各子區域的編碼,生成漢字對應的25位二進制 編碼;根據編碼結果建立筆劃編碼數據庫。
[0047] (2)提取漢字庫中各字符圖像的LBP特征;該步驟包括如下子步驟:
[0048] (2.1)對字符圖像進行灰度化處理;
[0049] (2.2)對灰度化處理后的字符圖像進行圖像分塊,均勻劃分為16*16個圖像塊;
[0050] (2.3)獲取灰度化處理后的字符圖像中各像素點的LBP特征值;
[0051 ] (2.4)根據各圖像塊內各像素的LBP特征值,獲取LBP特征值直方圖;
[0052] 對直方圖進行歸一化處理,將所有256種LBP值均等量化為32個等級,根據LBP特征 值在32個量級中出現的頻率,獲取各圖像塊的32維的LBP特征向量;其中,LBP值由8位二進 制組成,共有256種不同的值;
[0053] (2.5)按照圖像塊在字符圖像里從左到右,從上到下的順序,依次將各圖像塊的 LBP特征向量拼接起來,由此獲得字符圖像的16*16*32維的LBP特征向量。
[0054] (3)將步驟(2)獲得的LBP特征向量,依次輸入到25個svm分類器中,與漢字庫中對 應的筆劃編碼進行訓練學習;使得每一位筆劃編碼對應的svm分類器形成對應的規則,可判 斷LBP特征向量對應的筆劃編碼位是0還是1,獲得學習器。
[0055] (4)使用學習器對待識別漢字的字符圖像進行預判,獲取筆劃編碼,該步驟包括如 下子步驟;
[0056] (4.1)提取待識別漢字的字符圖像的LBP特征向量;
[0057] (4.2)將上述LBP特征向量輸入到學習器中,預判出該LBP特征向量對應的25位筆 劃編碼;運串筆劃編碼即為待識別漢字的字符圖像所對應的筆劃編碼。
[0058] (5)將預判獲得的筆劃編碼與筆劃編碼數據庫里所有的筆劃編碼進行匹配,匹配 成功的筆劃編碼所對應的漢字即為識別結果。
[0059] 實施例中,對漢字"天"進行編碼的細節如圖2所示的,先判斷整個天字是否包含橫 豎撇掠折五個基本筆劃,若是,則將對應筆劃的編碼設為1,若否,則將對應筆劃的編碼設為 0,由此,對"天"字整體進行編碼后獲得第0-4位筆劃編碼為10110;
[0060] 然后將"天"字均勻劃分為2*2的區域,根據各區域是否包含橫豎撇掠折五個筆劃, 對各區域單獨進行編碼;并按照各區域從左到右,從上到下的順序,將四個區域對應的筆劃 依次編碼為:11000,10010,00100,00010;與上述漢字整體圖像的筆劃編碼一起,由此獲得 "天"字對應的 25 位編碼為"1011011000100100010000010"。
[0061] 實施例中,采用筆劃特征,對漢字圖像區域進行均勻劃分,加入運種空間劃分,使 得每個漢字對應唯一的筆劃編碼;由于筆劃特征本身就具有比其他統計特征更強的漢字表 征能力;加上空間劃分之后,筆劃編碼特征加上了漢字的空間分布信息,其區分漢字的能力 進一步增強,極大的提高了識別精度;而且筆劃編碼特征向量每一位都采用0或者1表示,與 現有的特征算法的特征向量采用浮點數表示的方法相比,計算機處理0或1的布爾值類型速 度遠遠快于處理浮點數的速度,因此運種基于筆劃編碼的印刷體漢字識別方法,可極大的 降低識別耗時,提高識別的實時性。
[0062] 將實施例提供的運種漢字識別方法應用于身份證識別系統,具體過程如下:
[0063] (1)采集獲取統一的身份證圖像;
[0064] (2)對上述身份證圖像進行預處理,包括對身份證圖像進行灰度化,版塊分割,二 值化;
[0065] 采用加權平均法對圖像進行灰度化,W保留較多的高頻信息;由于身份證是一種 具有規范格式的證件,個人信息總體布局是統一的,且各自有獨立的含義,因此可將其劃分 為多個區域,W減少冗余信息或噪聲對二值化的干擾,提高二值化的效果;身份證圖像明顯 的被分為背景,底紋與字符=個部分,運=個部分之間的灰度值差距明顯,因此采用二值化 采用直方圖谷點口限法可W得到一個較好的二值化效果;
[0066] (3)字符分割:采用投影法對字塊進行行初次切分,然后使用改進的投影算法對初 次劃分獲得的每一行字塊進行字切分;
[0067] (4)字符識別:依次輸入字符分割后的字符圖像到本發明實施例中的學習器中進 行預判編碼,然后與詞庫中的筆劃編碼進行匹配,匹配成功的筆劃編碼對應的漢字即為識 別結果;所有識別結果可保存至數據庫中。
[0068] 將本實施例提供的漢字識別方法用于身份證識別系統中的漢字識別,可快速錄入 身份證個人信息,避免手動錄入可能帶來的誤差,W及能夠快速、高效的完成識別工作。
[0069] 本領域的技術人員容易理解,W上所述僅為本發明的較佳實施例而已,并不用W 限制本發明,凡在本發明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含 在本發明的保護范圍之內。
【主權項】
1. 一種基于筆劃編碼的印刷體漢字識別方法,其特征在于,包括如下步驟: (1) 根據漢字筆劃對漢字進行編碼;根據編碼結果建立筆劃編碼數據庫; (2) 提取漢字庫中各字符圖像的LBP特征; (3) 使用svm分類器學習漢字的編碼,獲得學習器; (4) 使用所述學習器對待識別漢字的字符圖像進行預判,獲取筆劃編碼; (5) 將預判獲得的筆劃編碼與筆劃編碼數據庫里所有的筆劃編碼進行匹配,匹配成功 的筆劃編碼所對應的漢字即為識別結果。2. 如權利要求1所述的印刷體漢字識別方法,其特征在于,所述步驟(1)中,根據漢字筆 劃,為每個漢字生成一個唯一對應的25位二進制編碼。3. 如權利要求2所述的印刷體漢字識別方法,其特征在于,所述步驟(1)根據漢字筆劃 對漢字進行編碼的方法,具體包括如下子步驟: (1.1) 判斷漢字圖像是否包含橫豎撇捺折這五個筆劃,若是,則將對應的筆劃的編碼位 標記為1;若否,則將對應的筆劃的編碼位標記為0;由此生成二進制編碼的第0-4位的編碼; (1.2) 將漢字圖像區域均勻劃分為2*2的區域;并按照從左到右,從上到下的順序,依次 判斷各區域是否包含有橫豎撇捺折這五個筆劃; 若是,則將對應的筆劃的編碼位標記為1;若否,則將對應的筆劃的編碼位標記為0;獲 得各區域的5位編碼; 按照所述各區域在漢字圖像里從左到右,從上到下的順序,將所述各區域的5位編碼, 依次對應到二進制編碼的第5-9位、第10-14位、第15-19位、第20-24位;并與所述第0-4位二 進制編碼一起按照比特位順序生成25位二進制編碼。4. 如權利要求1所述的印刷體漢字識別方法,其特征在于,所述步驟(2)中對字符圖像 提取LBP特征向量的過程,包括如下子步驟: (2.1) 對字符圖像進行灰度化處理; (2.2) 對灰度化處理后的字符圖像進行圖像分塊,均勻劃分為16*16個圖像塊; (2.3) 獲取灰度化處理后的字符圖像中各像素點的LBP特征值; (2.4) 根據各圖像塊內各像素的LBP特征值,獲取LBP特征值直方圖; 對直方圖進行歸一化處理,將所有256種LBP值均等量化為32個等級,根據LBP特征值在 32個量級中出現的頻率,獲取各圖像塊的32維的LBP特征向量; (2.5) 按照圖像塊在字符圖像里從左到右,從上到下的順序,依次將各圖像塊的LBP特 征向量拼接起來,由此獲得字符圖像的16*16*32維的LBP特征向量。5. 如權利要求4所述的印刷體漢字識別方法,其特征在于,其步驟(2.3)所述獲取字符 圖像中像素點的LBP特征值方法,包括如下子步驟: (2.3.1) 在3*3的窗口內,以窗口中心像素點的灰度值為閾值,與相鄰的8個像素的灰度 值依次進行比較;若周圍像素點的灰度值大于中心像素點灰度值,則將該像素點的位置標 記為1,否則標記為0; (2.3.2) 對3*3鄰域內的8個點進行比較,由此生成8位二進制數;將該8位二進制數轉換 為十進制數;所述十進制數即為所述窗口中心像素點的LBP特征值。6. 如權利要求1所述的印刷體漢字識別方法,其特征在于,所述步驟(3)中使用svm分類 器學習步驟(1)中獲得的漢字的編碼以獲得學習器的過程,具體為: 將步驟(2)獲得的LBP特征向量,依次輸入到25個svm分類器中,與漢字庫中對應的筆劃 編碼進行訓練學習;使得每一位筆劃編碼對應的svm分類器形成對應的規則,獲得學習器。7.如權利要求1所述的印刷體漢字識別方法,其特征在于,所述步驟(4)使用學習器對 待識別漢字的字符圖像進行預判,獲取筆劃編碼的方法,具體包括如下子步驟; (4.1) 提取待識別漢字的字符圖像的LBP特征向量; (4.2) 將上述LBP特征向量輸入到學習器中,預判出該LBP特征向量對應的25位筆劃編 碼;這串筆劃編碼即為待識別漢字的字符圖像所對應的筆劃編碼。
【文檔編號】G06K9/68GK106022393SQ201610352919
【公開日】2016年10月12日
【申請日】2016年5月25日
【發明人】尤新革, 李政, 陳鵬旭
【申請人】華中科技大學