一種基于多區域特征的電子公文分類方法
【技術領域】
[0001]本發明涉及一種基于多區域特征的電子公文分類方法,尤其針對政府公文圖片的類型識別。
【背景技術】
[0002]政府公文即行政公文,是公務文書的簡稱,是人類在治理社會、管理國家的公務實踐中使用的具有法定權威和規范格式的應用文。作為表述國家意志、執行法律法規、規范行政執法、傳遞重要信息的最主要的載體,從某種程度上來說,公文是國家法律法規的延續和補充。其類型一般包括:決議、決定、命令(令)、公報、公告、通告、意見、通知、通報、報告、請示、批復、議案、函、紀要等。
[0003]隨著電子政府的不斷發展,政府辦公網絡化、信息化、電子化的日益盛行。為了提高政府辦公效率,實現政府電子公文的自動分類或識別成為亟待解決的問題。
[0004]目前,國內外對電子公文的分類主要局限于電子文檔的類型分類,尚未有基于圖像內容特征的電子公文的分類或識別系統或方法。
[0005]由于政府公文是正式的文書,有比較固定的格式和版面要求。例如:行政公文的格式要素可劃分為眉首、主體、版記三部分。紅色反線以上的各個要素統稱眉首;紅色反線(不含)以下至主題詞(不含)之間的各要素統稱為主體;主題詞以下的各要素統稱為版記。其中,版頭由發文機關全稱或者規范化簡稱加上“文件”二字或者加上帶括號注明的文種名稱組成,用套紅大字居中印在公文首頁上部。聯合行文,可用主辦機關名稱,也可并用聯署機關名稱。發文字號由機關代字、年份和發文序號組成等。因此,公文的這些要素可作為公文類型識別的關鍵點。
【發明內容】
[0006]本發明克服了現有技術中的缺點,提供了一種基于多區域特征的電子公文分類方法,該方法可以實現對已有版式模版的電子公文的類型進行識別的能力。
[0007]為了解決上述技術問題,本發明是通過以下技術方案實現的:
[0008]一種基于多區域特征的電子公文分類方法,包括以下步驟:
[0009]1)圖像預處理
[0010](1)圖像灰度化:由于獲取的電子公文圖像一般為彩色圖像,為使處理簡化,必須將彩色信息變換到灰度空間中;
[0011](2)圖像自適應濾波:通過自適應中值濾波實現對拍攝的電子公文的噪聲濾除;
[0012](3)圖像灰度拉伸:在實際圖像中,經常會出現比較大的光照不同,因此圖像灰度不一致,這將導致后續處理出現較大的誤差。通過對圖像進行灰度拉伸,可以實現各種灰度像素分布的調整,有利于改善圖像光照條件不足導致的圖像灰度的偏差;
[0013](4)圖像最優閾值計算:在實際圖像二值化時,對不同光照的圖像進行二值化后其結果圖像差距常比較大。本發明通過迭代算法實現圖像的自適應閾值計算,減少圖像二值化結果受光照條件的影響,保證公文二值化后的一致性,從而保證公文識別的準確度;
[0014](5)圖像二值化:將圖像轉化為只有黑、白兩種顏色的圖像;
[0015](6)圖像傾斜矯正:通過hough變換檢測角度在0?5°范圍內的直線,實現圖像傾斜矯正。
[0016]2)區域特征提取
[0017](1)圖像分塊像素分布統計特征;
[0018](2)平滑圖像直方圖特征;
[0019](3)圖像紋理特征;
[0020]3)標準文檔多區域特征提取及入庫
[0021](1)標準文檔圖像預處理;
[0022](2)標準文檔圖像關鍵區域選擇;
[0023](3)標準文檔圖像各區域特征提取,獲得各區域特征向量;
[0024](4)生成文檔類型特征矩陣;
[0025]4)文檔類型識別
[0026](1)從數據庫讀取文檔類型特征矩陣和對應的特征區域;
[0027](2)獲取被檢文檔圖像對應特征區域圖像;
[0028](3)計算被檢文檔圖像各特征區域特征向量;
[0029](4)計算被檢文檔的特征矩陣;
[0030](5)兩個特征的相關系數矩陣,計算文檔類型相似度,并以此值作為判定圖像是否一致的依據。
[0031]進一步,所述圖像二值化為:先通過對圖像進行灰度拉伸和灰度平滑矯正,然后采用最優閾值方法進行圖像二值化。
[0032]進一步,所述圖像分塊像素分布統計特征為:首先,對各區域圖像進一步分塊;然后,分別統計每個分塊中像素個數,計算其在區域圖像中的占比。最后,生成分布統計直方圖。
[0033]進一步,所述圖像平滑圖像直方圖特征為:首先,區域圖像進行高斯平滑;然后,分別計算區域圖像灰度分布直方圖。
[0034]進一步,所述圖像紋理特征為:首先,區域圖像進行高斯平滑;然后,分別計算區域圖像的surf特征點和特征向量。
[0035]進一步,所述標準文檔多區域特征為:將文檔圖像的各個關鍵區域設為文檔分類的特征提取區域,通過對各區域圖像提取區域圖像的統計特征。
[0036]與現有技術相比,本發明的有益效果是:
[0037]本發明所述一種基于多區域特征的電子公文分類方法,可以對政府公文進行準確的分類或識別,方法操作簡單,實現方便。而且具有較廣的適用性。能適用于多種流行的圖像格式文件,同時支持各種彩色、灰度圖等多種圖像文件,可識別已入庫的公文類型。本方法能適應于多種光照條件,對不同明暗及曝光條件均能良好自適應。能自動分析背景色階范圍,并有效消除背景圖像對于文檔分類的影響。對旋轉和噪聲有較好的魯棒性,并能較好抵抗環境噪聲的影響。具有較好的準確率和速度,出錯率低。
【附圖說明】
[0038]附圖用來提供對本發明的進一步理解,與本發明的實施例一起用于解釋本發明,并不構成對本發明的限制,在附圖中:
[0039]圖1是本發明的圖像預處理的流程圖。
[0040]圖2是本發明的區域圖像特征提取流程圖。
[0041]圖3是本發明的文檔特征提取與特征入庫流程圖。
[0042]圖4是本發明的電子公文文檔類型識別流程圖。
[0043]圖5?圖7是文檔識別效果圖。
【具體實施方式】
[0044]以下結合附圖對本發明的優選實施例進行說明,應當理解,此處所描述的優選實施例僅用于說明和解釋本發明,并不用于限定本發明。
[0045]圖1至3是本發明所述一種基于多區域特征的電子公文分類方法的流程圖。
[0046]本方法的輸入為待識別的電子公文圖像和標準電子公文模版圖像,輸出文檔識別的相似度結果。參閱圖4。
[0047]1、實施過程
[0048]1)標準公文圖像錄入
[0049](1)讀取電子公文圖像。讀取電子公文圖像,圖像類型可以為JPG、BMP或其它常見格式圖像文件。
[0050](2)圖像預處理化。對原始圖像灰度化,圖像灰度拉伸,濾波去噪,二值化,圖像傾斜矯正等。
[0051](3)圖像區域設置。根據電子公文的類型和特點設置特征區域。
[0052](4)提取各區域特征,計算電子公文特征矩陣。
[0053](5)將特征區域和特征矩陣存入數據庫。
[0054]2)被檢公文類型識別
[0055](1)從數據庫中分別讀取每一個標準公文圖像的特征區域與特征矩陣。
[0056](2)對被檢公文圖像的對應特征區域計算特征矩陣。
[0057](3)將文檔特征矩陣進行相似度比較。
[0058](4)得到公文文檔類型編號。
[0059]2實施例
[0060]【實施例1】如圖5所示。實施例1被檢圖像與標準圖像相同時能準確進行文檔類型的識別,相似度結果為1,即被檢公文圖像與標準公文圖像相同。
[0061]【實施例2】如圖6所示。實施例2中被檢圖像與標準圖像不同時能準確進行文檔類型的識別,相似度結果為0.17,即被檢公文圖像與標準公文圖像不相同。
[0062]【實施例3】如圖7所示。實施例3中被檢圖像與標準圖像不同時也能準確進行文檔類型的識別,相似度結果為0.2,即被檢公文圖像與標準公文圖像不相同。
[0063]最后應說明的是:以上僅為本發明的優選實施例而已,并不用于限制本發明,盡管參照實施例對本發明進行了詳細的說明,對于本領域的技術人員來說,其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換,但是凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。
【主權項】
1.一種基于多區域特征的電子公文分類方法,其特征在于,包括以下步驟:1)圖像預處理 (1)圖像灰度化; (2)圖像自適應濾波; (3)圖像灰度拉伸; (4)圖像最優閾值計算; (5)圖像二值化; (6)圖像傾斜矯正; 2)區域特征提取 (1)圖像分塊像素分布統計特征; (2)平滑圖像直方圖特征; (3)圖像紋理特征; 3)標準文檔多區域特征提取及入庫 (1)標準文檔圖像預處理; (2)標準文檔圖像關鍵區域選擇; (3)標準文檔圖像各區域特征提取,獲得各區域特征向量; (4)生成文檔類型特征矩陣; 4)文檔類型識別 (1)從數據庫讀取文檔類型特征矩陣和對應的特征區域; (2)獲取被檢文檔圖像對應特征區域圖像; (3)計算被檢文檔圖像各特征區域特征向量; (4)計算被檢文檔的特征矩陣; (5)兩個特征的相關系數矩陣,計算文檔類型相似度。2.根據權利要求1所述一種基于多區域特征的電子公文分類方法,其特征在于,所述圖像二值化為:先通過對圖像進行灰度拉伸和灰度平滑矯正,然后采用最優閾值方法進行圖像二值化。3.根據權利要求1所述一種基于多區域特征的電子公文分類方法,其特征在于,所述圖像分塊像素分布統計特征為:首先,對各區域圖像進一步分塊;然后,分別統計每個分塊中像素個數,計算其在區域圖像中的占比,最后,生成分布統計直方圖。4.根據權利要求1所述一種基于多區域特征的電子公文分類方法,其特征在于,所述圖像平滑圖像直方圖特征為:首先,區域圖像進行高斯平滑;然后,分別計算區域圖像灰度分布直方圖。5.根據權利要求1所述一種基于多區域特征的電子公文分類方法,其特征在于,所述圖像紋理特征為:首先,區域圖像進行高斯平滑;然后,分別計算區域圖像的surf特征點和特征向量。6.根據權利要求1所述一種基于多區域特征的電子公文分類方法,其特征在于,所述標準文檔多區域特征為:將文檔圖像的各個關鍵區域設為文檔分類的特征提取區域,通過對各區域圖像提取區域圖像的統計特征。
【專利摘要】本發明所述一種基于多區域特征的電子公文分類方法,包括以下步驟:圖像預處理:圖像灰度化;圖像自適應濾波;圖像灰度拉伸;圖像最優閾值計算;圖像二值化;區域特征提取:圖像分塊像素分布統計特征;平滑圖像直方圖特征;圖像紋理特征;標準文檔多區域特征提取及入庫:標準文檔圖像預處理;標準文檔圖像關鍵區域選擇;標準文檔圖像各區域特征提取;生成文檔類型特征矩陣;文檔類型識別:從數據庫讀取文檔類型特征矩陣和對應的特征區域;獲取被檢文檔圖像對應特征區域圖像;計算被檢文檔圖像各特征區域特征向量;兩個特征的相關系數矩陣,計算文檔類型相似度。本發明可以對政府公文進行準確的分類或識別,方法操作簡單,實現方便。
【IPC分類】G06K9/32, G06K9/00, G06K9/46
【公開號】CN105389557
【申請號】CN201510761336
【發明人】王東, 李曉東, 陳俊健, 顧艷春
【申請人】佛山科學技術學院
【公開日】2016年3月9日
【申請日】2015年11月10日