一種基于網格特征智能匹配殘缺漢字的識別方法
【專利摘要】本發明公開了一種基于網格特征智能匹配殘缺漢字的識別方法,包括以下步驟:S1:將碎紙復原圖轉化成0-1矩陣;S2:用完整字大小的子矩陣逐行逐列的循環方法來定位漢字的圖像位置;S3:將步驟S2中得到的殘缺漢字進行網格分塊分成多個子矩陣,提取特征;S4:分別對殘缺漢字網格分割后的每一網格子矩陣特征通過標準詞庫進行智能匹配識別。本發明提供一種基于網格特征智能匹配殘缺漢字的識別方法,解決碎紙復原技術雖然由機器進行識別匹配,但行列拼接均有出錯的情況導致最終無法對殘缺漢字進行識別的問題。
【專利說明】
一種基于網格特征智能匹配殘缺漢字的識別方法
【技術領域】
[0001]本發明涉及一種基于網格特征智能匹配殘缺漢字的識別方法。
【背景技術】
[0002]如今,碎紙復原技術在司法物證復原、歷史文獻修復以及軍事情報獲取等重要領域都有著重大作用。在對隱私信息進行處理時,也要將碎紙復原技術考慮在內。
[0003]如圖1和圖2所示,現在的碎紙復原技術主要是使用一種拼接算法,將漢字按像素點以矩陣形式存儲,根據紙片邊距和漢字匹配程度進行碎紙還原。雖然此方法科學易實現,但是由機器進行識別匹配,行列拼接均有出錯的情況,最終會導致無法對漢字進行識別的問題。
【發明內容】
[0004]本發明的目的在于克服現有技術的不足,提供一種基于網格特征智能匹配殘缺漢字的識別方法,解決碎紙復原技術雖然由機器進行識別匹配,但行列拼接均有出錯的情況導致最終無法對殘缺漢字進行識別的問題。
[0005]本發明的目的是通過以下技術方案來實現的:一種基于網格特征智能匹配殘缺漢字的識別方法,包括以下步驟:
S1:將碎紙復原圖轉化成0-1矩陣;
52:根據圖像位置定位規則,用完整字大小(大小取決于圖像中平均字大小)的子矩陣逐行逐列的循環方法來定位漢字的圖像位置;
53:將步驟S2中得到的殘缺漢字進行網格分塊分成子矩陣,提取特征;
S4:分別對殘缺漢字網格分割后的每一網格子矩陣特征通過標準詞庫進行智能匹配識別。
[0006]步驟SI采用MATLAB軟件對碎紙復原圖進行轉化。
[0007]步驟S2中所述的圖像位置定位規則包括:
(1)如果在完整字大小的子矩陣中含有寬/長等于一個字大小的,則確定一個殘缺字,同時記錄位置;
(2)如果完整字大小的子矩陣中含有寬/長大于一個字大小的,則確定為I個殘缺字,同時記錄位置,并且再分別從左右/上下兩個反方向循環,再確定一個殘缺字,同時記錄位置;
(3)如果完整字大小的子矩陣中含有寬/長少于一個字大小的,確定為I個殘缺字,同時記錄位置。
[0008]所述的步驟S3包括以下子步驟:
531:按照殘缺漢字大小,將殘缺漢字分成多個子矩陣;
532:對每個子矩陣分別用小波函數分析提取這多個子矩陣圖片的多個參數矩陣,將這多個參數矩陣一起作為該殘缺字的特征。
[0009]一種基于網格特征智能匹配殘缺漢字的識別方法還包括一個建立標準詞庫子步驟:將每一個完整漢字的每種字號,分別進行網格分解,得到標準特征的多個子矩形及其多個參數矩陣,確定一個完整漢字的特征值。
[0010]所述的子矩陣為2*2大小的子矩陣。
[0011]所述的參數矩陣包括垂直屬性、水平屬性和對角屬性的3個參數矩陣。
[0012]所述的多種字號為10號字至22號字之間的8種字號。
[0013]所述的步驟S4包括以下子步驟:
541:將步驟S3得到的多個網格子矩陣與標準詞庫中每一個完整漢字的標準特征矩陣進行比較;
542:如果相似度大于某一比例,就判定該殘缺字為詞庫中的這個完整的字。
[0014]步驟S42所述的某一比例為百分之五十。
[0015]本發明的有益效果是:本發明首先將碎紙復原圖轉化成0-1矩陣,再根據圖像位置定位規則,用完整字大小的子矩陣逐行逐列的循環方法來定位漢字的圖像位置,判斷其是否可能是一個殘缺的字,有可能是字的話將其保存,然后通過基于小波函數提取漢字特征向量來實現與詞庫中的漢字識別。本發明解決碎紙復原技術雖然由機器進行識別匹配,但行列拼接均有出錯的情況導致最終無法對殘缺漢字進行識別的問題,提供一種殘缺漢字識別方法。
【專利附圖】
【附圖說明】
[0016]圖1為商務函電樣本圖;
圖2為樣本碎紙復原效果圖;
圖3為本發明方法流程圖。
【具體實施方式】
[0017]下面結合附圖進一步詳細描述本發明的技術方案:如圖3所示,一種基于網格特征智能匹配殘缺漢字的識別方法,包括以下步驟:
S1:將碎紙復原圖轉化成0-1矩陣;
52:用完整字大小(大小取決于圖像中平均字大小)的子矩陣逐行逐列的循環方法來定位漢字的圖像位置;
53:將步驟S2中得到的殘缺漢字進行網格分塊分成子矩陣,提取特征;
S4:分別對殘缺漢字網格分割后的每一網格子矩陣特征通過標準詞庫進行智能匹配識別。
[0018]步驟SI采用MATLAB軟件對碎紙復原圖進行轉化。
[0019]步驟S2中所述的定位漢字的圖象位置的規則包括以下子步驟:
521:如果在完整字大小的子矩陣中含有寬/長等于一個字大小的,則確定一個殘缺字,同時記錄位置;
522:如果完整字大小的子矩陣中含有寬/長大于一個字大小的,則確定為I個殘缺字,同時記錄位置,并且再分別從左右/上下兩個反方向循環,再確定一個殘缺字,同時記錄位置; S23:如果完整字大小的子矩陣中含有寬/長少于一個字大小的,確定為I個殘缺字,同時記錄位置。
[0020]所述的步驟S3包括以下子步驟:
531:按照殘缺漢字大小,將殘缺漢字分成多個子矩陣;
532:對每個子矩陣分別用小波函數分析提取這多個子矩陣圖片的多個參數矩陣,將這多個參數矩陣一起作為該殘缺字的特征。
[0021]一種基于網格特征智能匹配殘缺漢字的識別方法還包括一個建立標準詞庫子步驟:將每一個完整漢字的每種字號,分別進行網格分解,得到標準特征的多個子矩形及其多個參數矩陣,確定一個完整漢字的特征值。
[0022]所述的子矩陣為2*2大小的子矩陣。
[0023]所述的參數矩陣包括垂直屬性、水平屬性和對角屬性的3個參數矩陣。
[0024]所述的多種字號為10號字至22號字之間的8種字號。
[0025]所述的步驟S4包括以下子步驟:
541:將步驟S3得到的多個網格子矩陣與標準詞庫中每一個完整漢字的標準特征矩陣進行比較;
542:如果相似度大于某一比例,就判定該殘缺字為詞庫中的這個完整的字。
[0026]步驟S42所述的某一比例為百分之五十。
【權利要求】
1.一種基于網格特征智能匹配殘缺漢字的識別方法,其特征在于:它包括以下步驟: S1:將碎紙復原圖轉化成0-1矩陣; 52:根據圖像位置定位規則,用完整字大小的子矩陣逐行逐列的循環方法來定位漢字的圖像位置; 53:將步驟S2中得到的殘缺漢字進行網格分塊分成子矩陣,提取特征; S4:分別對殘缺漢字網格分割后的每一網格子矩陣特征通過標準詞庫進行智能匹配識別。
2.根據權利要求1所述的一種基于網格特征智能匹配殘缺漢字的識別方法,其特征在于:步驟S1采用MATLAB軟件對碎紙復原圖進行轉化。
3.根據權利要求1所述的一種基于網格特征智能匹配殘缺漢字的識別方法,其特征在于:步驟S2中所述的圖像位置定位規則包括: (1):如果在完整字大小的子矩陣中含有寬/長等于一個字大小的,則確定一個殘缺字,同時記錄位置; (2)如果完整字大小的子矩陣中含有寬/長大于一個字大小的,則確定為1個殘缺字,同時記錄位置,并且再分別從左右/上下兩個反方向循環,再確定一個殘缺字,同時記錄位置; (3)如果完整字大小的子矩陣中含有寬/長少于一個字大小的,確定為1個殘缺字,同時記錄位置。
4.根據權利要求1所述的一種基于網格特征智能匹配殘缺漢字的識別方法,其特征在于:所述的步驟S3包括以下子步驟: 531:按照殘缺漢字大小,將殘缺漢字分成多個子矩陣; 532:對每個子矩陣分別用小波函數分析提取這多個子矩陣圖片的多個參數矩陣,將這多個參數矩陣一起作為該殘缺字的特征。
5.根據權利要求1所述的一種基于網格特征智能匹配殘缺漢字的識別方法,其特征在于:它還包括一個建立標準詞庫子步驟:將每一個完整漢字的多種字號,分別進行網格分解,得到標準特征的多個子矩形,用小波函數提取這個多個子矩陣的多個參數矩陣,確定一個完整漢字的特征值。
6.根據權利要求4或5所述的一種基于網格特征智能匹配殘缺漢字的識別方法,其特征在于:所述的子矩陣為2*2大小的子矩陣。
7.根據權利要求4或5所述的一種基于網格特征智能匹配殘缺漢字的識別方法,其特征在于:所述的參數矩陣包括垂直屬性、水平屬性和對角屬性的3個參數矩陣。
8.根據權利要求5所述的一種基于網格特征智能匹配殘缺漢字的識別方法,其特征在于:所述的多種字號為10號字至22號字之間的8種字號。
9.根據權利要求1所述的一種基于網格特征智能匹配殘缺漢字的識別方法,其特征在于:所述的步驟S4包括以下子步驟: 541:將步驟S3得到的多個網格子矩陣與標準詞庫中每一個完整漢字的標準特征矩陣進行比較; 542:如果相似度大于某一比例,就判定該殘缺字為詞庫中的這個完整的字。
10.根據權利要求9所述的一種基于網格特征智能匹配殘缺漢字的識別方法,其特征在于:步驟S42所述的某一比例為百分之五十。
【文檔編號】G06K9/68GK104376300SQ201410607290
【公開日】2015年2月25日 申請日期:2014年11月3日 優先權日:2014年11月3日
【發明者】陳旭, 李耘書, 楊翰典, 王越亞, 白維珊 申請人:電子科技大學