專利名稱:一種基于svm的文檔圖像版式信息識別方法
技術領域:
本發明涉及一種識別方法,尤其是涉及一種基于SVM的文檔圖像版式信息識別方法。
背景技術:
隨著OCR (Optical Character Recognition,光學字符識別)技術的發展與應用,版面分析作為OCR處理的關鍵步驟受到越來越多的重視。版面分析實際上是特定的圖像理解問題,其研究內容涉及圖像處理、人工智能、模式識別等多學科的交叉領域。版面分析技術從初期對布局結構較簡單的文本文檔頁面進行分割的研究,到對文檔內部對象進行邏輯標識的研究開始逐步發展。目前,版面分析的研究已發展到針對各個不同應用領域的文檔采用不同的技術,多角度的科學研究,并解決實際問題。傳統的版面分析算法主要有以下幾類自頂向下、自底向上、混合法。自頂向下的方法重視圖像的全局信息,從整個圖像入手,將圖像遞歸分割成足夠小的區域,最后得到圖像的幾何結構,是一個分解的過程。自底向上的方法重視圖像的局部信息,從圖像細節入手,將圖像中具有相同屬性的小區域逐步合并成較大區域,是一個合并的過程。將自頂向下和自底向上兩種方法結合起來使用也就是混合法。近年來,模式識別和機器學習中的許多方法被運用到了文檔分類中。SVM(Support Vector Machine,支持向量機)是20世紀80年代初由Vapik等提出的基于統計學習理論的樣本學習技術,它基于結構風險最小化原則,采用核函數技術實現由低維到高維空間的非線性映射,成功地解決了 “維災難”問題,其結構風險最小化原則避免了神經網絡的過擬合現象,提高了學習機的泛化能力。
發明內容
本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種準確率高的基于SVM的文檔圖像版式信息識別方法。本發明的目的可以通過以下技術方案來實現一種基于SVM的文檔圖像版式信息識別方法,包括以下步驟I)獲取文檔圖像樣本,并對文檔圖像樣本進行預處理;2)對預處理后的文檔圖像樣本進行特征提取,獲得特征向量;3)根據特征向量構造用于SVM訓練的特征空間,并對SVM分類器進行訓練;4)獲取待識別文檔圖像,利用訓練后的SVM分類器對待識別文檔圖像進行版式識別。所述的步驟I)中的預處理包括文檔圖像的縮放、灰度化處理和二值化處理。所述的二值化處理具體為采用Otsu分割方法獲得二值化圖像。所述的步驟2)中的特征提取具體包括以下步驟21)分別計算文檔圖像垂直方向和水平方向上指定間隔區域內黑色像素的平均個數,獲得文檔圖像的特征向量;
22)對特征向量進行歸一化處理。所述的步驟3)的具體步驟如下31)以徑向基函數(RBF)作為SVM訓練的核函數;32)通過交叉驗證方法測試SVM分類器的精度;33)根據測試的精度獲得最優的徑向基函數懲罰因子C和核參數r,完成SVM分類器的訓練。與現有技術相比,本發明利用SVM分類器對文檔圖像進行版式識別,具有較高的識別準確率、精度和效率,且具有一定的實用性和應用價值。
圖I為本發明的流程示意圖;圖2為實施例中稀疏文檔的示意圖;圖3為實施例中稠密文檔的示意圖;圖4為圖2特征提取后的示意圖;圖5為圖3特征提取后的示意圖;圖6為圖4歸一化處理后的示意圖;圖7為圖5歸一化處理后的示意圖。
具體實施例方式下面結合附圖和具體實施例對本發明進行詳細說明。實施例如圖I所示,一種基于SVM的文檔圖像版式信息識別方法,具體步驟如下在步驟SI中,獲取文檔圖像樣本,并對文檔圖像樣本進行預處理,包括文檔圖像的縮放、灰度化處理和二值化處理;所述的二值化處理就是將圖像上的像素點的灰度值設置為O或255,也就是將整個圖像呈現出明顯的黑白效果。在這里,本發明使用Otsu分割方法找到最佳的分割閾值將256個亮度等級進行劃分從而獲得仍然可以反映圖像整體和局部特征的二值化圖像,這樣更加有利于圖像的進一步處理和突顯出感興趣的目標輪廓。在步驟S2中,2)對預處理后的文檔圖像樣本進行特征提取,獲得特征向量S201 :分別計算文檔圖像垂直方向和水平方向上指定間隔區域內黑色像素的平均個數,獲得文檔圖像的特征向量;S202 :對特征向量進行歸一化處理,歸一化處理使所有屬性映射到同一值域
范圍內,以利于SVM分類器的生成和分類識別的進行,本發明對特征向量使用相同的歸一化因子,即特征向量的每個屬性除以其中的最大屬性值。圖2和圖3為不同數字文檔的示意圖,在垂直方向上獲取特征向量后的直方圖如圖4和圖5所示,直方圖在垂直方向上差別明顯,這不利于訓練樣本數據的統一和之后的SVM分類中屬性值域的劃分,因此對所有特征向量做歸一化處理是有必要的,歸一化處理后如圖6和圖7所示。在步驟S3中,根據特征向量構造用于SVM訓練的特征空間,并對SVM分類器進行訓練
31)以徑向基函數(RBF)作為SVM訓練的核函數;32)通過交叉驗證方法測試SVM分類器的精度,本實施例中采用4種交叉驗證方案9次交叉驗證、7次交叉驗證、5次交叉驗證及3次交叉驗證;33)根據測試的精度獲得最優的徑向基函數懲罰因子C和核參數r,完成SVM分類器的訓練,獲得SVM的決策函數。在步驟S4中,獲取待識別文檔圖像,利用訓練后的SVM分類 器對待識別文檔圖像進行版式識別。 本實施例利用打印機輸出不同版式樣本932個,見表1,構造SVM分類器的訓練樣本空間,對樣本空間進行預處理和特征提取,對圖像的垂直投影和水平投影上各取100個量化值并進行歸一化,就得到SVM訓練的特征空間,特征向量的維數是200。表I樣本總概
權利要求
1.一種基于SVM的文檔圖像版式信息識別方法,其特征在于,包括以下步驟 1)獲取文檔圖像樣本,并對文檔圖像樣本進行預處理; 2)對預處理后的文檔圖像樣本進行特征提取,獲得特征向量; 3)根據特征向量構造用于SVM訓練的特征空間,并對SVM分類器進行訓練; 4)獲取待識別文檔圖像,利用訓練后的SVM分類器對待識別文檔圖像進行版式識別。
2.根據權利要求I所述的一種基于SVM的文檔圖像版式信息識別方法,其特征在于,所述的步驟I)中的預處理包括文檔圖像的縮放、灰度化處理和二值化處理。
3.根據權利要求2所述的一種基于SVM的文檔圖像版式信息識別方法,其特征在于,所述的二值化處理具體為采用Otsu分割方法獲得二值化圖像。
4.根據權利要求I所述的一種基于SVM的文檔圖像版式信息識別方法,其特征在于,所述的步驟2)中的特征提取具體包括以下步驟 21)分別計算文檔圖像垂直方向和水平方向上指定間隔區域內黑色像素的平均個數,獲得文檔圖像的特征向量; 22)對特征向量進行歸一化處理。
5.根據權利要求I所述的一種基于SVM的文檔圖像版式信息識別方法,其特征在于,所述的步驟3)中對SVM分類器進行訓練的具體步驟如下 31)以徑向基函數作為SVM訓練的核函數; 32)通過交叉驗證方法測試SVM分類器的精度; 33)根據測試的精度獲得最優的徑向基函數懲罰因子C和核參數r,完成SVM分類器的訓練。
全文摘要
本發明涉及一種基于SVM的文檔圖像版式信息識別方法,包括以下步驟1)獲取文檔圖像樣本,并對文檔圖像樣本進行預處理;2)對預處理后的文檔圖像樣本進行特征提取,獲得特征向量;3)根據特征向量構造用于SVM訓練的特征空間,并對SVM分類器進行訓練;4)獲取待識別文檔圖像,利用訓練后的SVM分類器對待識別文檔圖像進行版式識別。與現有技術相比,本發明具有識別準確率高、精度和效率高等優點。
文檔編號G06K9/66GK102880857SQ201210313558
公開日2013年1月16日 申請日期2012年8月29日 優先權日2012年8月29日
發明者朱敏 申請人:華東師范大學