一種中文圖像型垃圾郵件過濾方法及系統的制作方法
【技術領域】
[0001] 本發明涉及字符識別技術領域,特別是涉及一種中文圖像型垃圾郵件過濾方法及 系統。
【背景技術】
[0002] 隨著互聯網的發展,使用圖像作為載體來傳遞信息已經越來越常見了,很多正常 郵件圖像常常也含有大量的文本內容。在這樣的情況,為了正確區分出垃圾郵件圖像就需 要一定程度的圖像語義信息。
[0003] 目前,對圖像型垃圾郵件的過濾主要有以下四類:
[0004] 一、基于圖像近似特征的過濾技術
[0005] 這種技術主要利用了垃圾郵件圖像的產生機制,即大量的垃圾郵件圖像實際上是 由很少的圖像模板增加一定的隨機干擾產生的。因此,可以在郵件服務器端對接收的郵件 圖像進行聚類分析,從而獲取更多的有益信息。美國阿拉巴馬大學伯明翰分校的提出利用 聚類識別來自相同源的垃圾郵件圖像的方法。相同聚類中的圖像來自相同源地址的可能性 較高,這樣有利于對這些地址進行進一步的跟蹤分析。利用郵件批量發送的特征,可以通過 聚類對來自相同源的批量圖像型垃圾郵件進行監測,有利于實時發現可疑的發送者,聚類 結果可以作為后續判斷的基礎依據。這種方式對于降低計算開銷,提高系統吞吐量具有較 好作用,但卻很難避免對于正常圖像的誤判。
[0006] 二、基于圖像文本區域的過濾技術
[0007] 為了克服具有圖像文本內容過濾技術的缺點,一些學者提出利用圖像中的文字區 域特征進行過濾的方法,從而避免進行文本內容識別。如美國SRI研宄所提出定位圖像中 的文本區域,再將文字區域在整幅圖像中所占的面積比值、顏色飽和度、顏色散度等特征送 入支持向量機訓練后用于判斷垃圾郵件圖像。美國加州大學的則提出利用圖像中內嵌的文 字區域特征,標題或者計算機自動生成圖像的特征,圖像的位置信息特征則構成郵件的特 征向量,再同樣借助支持向量機進行分類判斷。
[0008] 三、基于圖像文本內容的過濾技術
[0009] 實際上就是基于OCR (Optical Character Recognition,光學字符識別)技術的方 法,該類方法首先利用OCR技術將圖像中的文字進行識別,然后再使用成熟的文本過濾器 進行判決。基于OCR技術的方法因為能夠得到圖像本身的語義信息,同時能夠借用各種成 熟的文本過濾技術,往往能夠得到在準確率等性能上表現良好。但是其性能受OCR技術限 制太大,對含有復雜背景或是中文內容的垃圾郵件圖像往往不能準確識別文本并且效率太 低。
[0010] 四、基于圖像本身特征的過濾技術
[0011] 這種方法類似于圖像分類,通過提取圖像特征,并將其歸類為正常圖像和垃圾郵 件圖像。目前,這類方法的區別主要在于提取的圖像特征和使用的分類器不同。如美國賓夕 法尼亞大學提出利用圖像類型、大小、圖像高、寬、高寬比、顏色均值、色飽和度、邊緣特征、 主色調覆蓋范圍等特征構成圖像屬性,并利用最大熵和貝葉斯分類器進行判別。美國安全 計算公司提出利用圖像像素位寬度、高度、圖像類型、文件大小、圖像面積、壓縮比等九個特 征用于描述圖像的屬性再結合決策樹和支持向量機來進行判斷。電子科技大學的萬明成等 則提出利用垃圾郵件圖像的顏色數量、方差、連續出現的顏色數、主色覆蓋范圍、色飽和度 表示圖像的顏色特征,再利用圖像特征點的主方向分布特征表示文字分布特征,同時使用 支持向量機進行判斷。
[0012] 發明人在發明過程中發現,上面的方法除了基于OCR技術的方法,在本質上都很 難抽取圖像的語義信息。然而使用OCR技術過濾垃圾郵件圖像,一方面識別全部文本信 息可能是冗余的,因為對垃圾郵件圖像的識別或者類別的判定往往只需要少量的關鍵字即 可。另一方面則受制于OCR技術本身,如效率太低等。其中,OCR技術的效率問題在中文 OCR識別中表現的更加嚴重,因為在中文OCR中識別單位是漢字而并非像英文中少量的字 母,而常用的漢字就有3755個。
【發明內容】
[0013] 本發明要解決的技術問題是提供一種中文圖像型垃圾郵件過濾方法及系統,用以 解決現有技術對中文圖像型垃圾郵件識別效率低的問題。
[0014] 為解決上述技術問題,本發明提供一種中文圖像型垃圾郵件過濾方法,所述方法 包括以下步驟:在圖像背景下提取得到圖像中的漢字;使用漢字的關鍵點對所述漢字的字 符特征進行表示,所述漢字的關鍵點為漢字中筆畫的頂點以及筆畫之間的交點;將所述字 符特征與預先設置的樣本庫進行匹配,識別出垃圾郵件;對所述垃圾郵件進行過濾。
[0015] 進一步,所述在圖像背景下提取得到圖像中的漢字的過程具體包括:利用Haar小 波變換提取文本區域;將所述文本區域切分為一系列單字符子圖。
[0016] 進一步,所述提取文本區域的過程具體包括:
[0017] 使用二維離散Harr小波變換,將圖像信息變換至4個小波域;
[0018] 對3個高頻域使用最大類間方差法進行二值化,其中根據公式
[0019] t = Max {w〇 (t) X [u0 (t) -u] ^w1 (t) X [U1 (t) -u]2}
[0020] 選擇閾值,其中u代表圖像整體的平均灰度;U(l(t)和^⑴分別代表在閾值t下 進行分割時背景和前景區域的平均灰度;% (t)和W1 (t)分別代表背景和前景區域
[0021] 在整體中的比例;
[0022] 對得到的高頻域進行圖像閉操作;
[0023] 對經過閉操作后的高頻域進行二維離散Harr小波逆變換,并與原圖進行與操作, 得到文本區域。
[0024] 進一步,所述將文本區域切分為一系列單字符子圖的過程具體包括:利用2*1的 矩形窗對圖像進行閉操作;通過使用大小和寬高比條件進行篩選,得到圖像中的漢字字符; 所述大小條件為在14*14到40*40之間;所述寬高比條件為寬高比在0. 7到I. 1之間。
[0025] 進一步,所述使用漢字的關鍵點對漢字的字符特征進行表示的過程具體包括:提 取漢字字符中的所有關鍵點以及關鍵點之間連接關系,得到關鍵點鄰接矩陣;從所述關鍵 點鄰接矩陣中二次抽取夾角直方圖特征和相對位置直方圖特征,利用所述夾角直方圖特征 和相對位置直方圖特征表示所述漢字的字符特征。
[0026] 進一步,所述得到關鍵點鄰接矩陣的過程具體包括:
[0027] 通過Sun-Zhang并行算法對圖像進行骨架抽取,得到骨架圖;
[0028] 使用圖像鄰接矩陣
【主權項】
1. 一種中文圖像型垃圾郵件過濾方法,其特征在于,所述方法包括以下步驟: 在圖像背景下提取得到圖像中的漢字; 使用漢字的關鍵點對所述漢字的字符特征進行表示,所述漢字的關鍵點為漢字中筆畫 的頂點以及筆畫之間的交點; 將所述字符特征與預先設置的樣本庫進行匹配,識別出垃圾郵件; 對所述垃圾郵件進行過濾。
2. 如權利要求1所述的中文圖像型垃圾郵件過濾方法,其特征在于,所述使用漢字的 關鍵點對漢字的字符特征進行表示的過程具體包括: 提取漢字字符中的所有關鍵點以及關鍵點之間連接關系,得到關鍵點鄰接矩陣; 從所述關鍵點鄰接矩陣中二次抽取夾角直方圖特征和相對位置直方圖特征,利用所述 夾角直方圖特征和相對位置直方圖特征表示所述漢字的字符特征。
3. 如權利要求2所述的中文圖像型垃圾郵件過濾方法,其特征在于,所述得到關鍵點 鄰接矩陣的過程具體包括: 通過Sun-Zhang并行算法對圖像進行骨架抽取,得到骨架圖; 使用圖像鄰接矩_
表示骨架化的漢字,其中N為骨架點的數 量;矩陣的對角線元素 k表示第k個骨架點;表示第j個骨架點相對于第i個骨架點的 連接權重; 隨機選取一個初始點進行深度優先遍歷,在遍歷的過程通過公式
分別計算當前點和在遍歷方向上下一點在八鄰域連接點的數量和連接關系權重,其中 N(v)代表當前骨架點V周圍的鄰接點數量;w⑴代表第i個鄰接點相對于當前點的連接權 重; 提取只保留關鍵點及其連接關系的鄰接矩 其中m表示關鍵點數量;nk代表第k個關鍵點的編號;a u表示第i個關鍵點和第j個 關鍵點是相互連接,取值為O或1。
4. 如權利要求3所述的中文圖像型垃圾郵件過濾方法,其特征在于,所述抽取夾角直 方圖特征的過程具體包括: 根據所述關鍵點鄰接矩陣中的連接關系和關鍵點在骨架圖中的位置,得到漢字字形本 身所形成的所有夾角; 以15度為單位區間,將所有的夾角信息映射成一個12維的特征向量。
5. 如權利要求3所述的中文圖像型垃圾郵件過濾方法,其特征在于,所述抽取相對位 置直方圖特征的過程具體包括: 對漢字的每一個關鍵點,計算其他所有關鍵點相對于所述關鍵點的八卦限分布,得到 一個8維的特征向量,所述八卦限以45度為單位劃分。
6. 如權利要求1至5任一項所述的中文圖像型垃圾郵件過濾方法,其特征在于,所述識 別出垃圾郵件的過程具體包括: 使用最近鄰匹配算法,將字符特征與樣本庫進行匹配,得到最接近的匹配字符特征作 為潛在匹配; 判斷當前字符特征和所述潛在匹配的距離是否大于預先設定的閾值,如果所述距離小 于閾值,則將所述潛在匹配的類別標記賦給當前字符特征,否則將當前字符特征標記為其 他; 重復上述兩個步驟,得到圖像中所有字符的類別信息; 根據所述類別信息,使用分類器對圖像的類別進行判定。
7. 如權利要求6所述的中文圖像型垃圾郵件過濾方法,其特征在于,所述方法還包括 使用已知的垃圾郵件圖像中的字符特征構建樣本庫,并通過對構建樣本庫的垃圾郵件圖像 進行訓練,選取所述閾值。
8. 如權利要求7所述的中文圖像型垃圾郵件過濾方法,其特征在于,在識別出垃圾郵 件之后,所述方法還包括:將所述垃圾郵件圖像中的字符特征加入所述樣本庫。
【專利摘要】本發明公開了一種中文圖像型垃圾郵件過濾方法,包括:在圖像背景下提取得到圖像中的漢字;使用漢字的關鍵點對漢字的字符特征進行表示;將字符特征與預先設置的樣本庫進行匹配,識別出垃圾郵件;對垃圾郵件進行過濾。本發明還公開了一種中文圖像型垃圾郵件過濾系統。本發明在中文圖像型垃圾郵件過濾中既能保留一定程度的語義信息,又能快速準確的進行識別,本發明可以在只使用很小的特征庫下,得到極低的誤識別率和很高的準確率。本發明具有更寬松的字符識別要求,能夠適應更多變,背景更復雜的圖像;對較廣泛的圖片都能到達較好的效果;在對中文的過濾應用中,本發明從實際垃圾郵件圖像中提取少量關鍵字樣本庫,使得算法效率大大提高。
【IPC分類】G06Q10-10, G06K9-46, G06K9-00
【公開號】CN104834891
【申請號】CN201510083460
【發明人】劉亞姝, 徐彬, 嚴寒冰, 張洪剛, 李思遠, 徐原, 胡俊, 高勝, 何世平, 饒毓, 徐曉燕, 劉婧, 黨向磊, 李世淙, 趙宸
【申請人】北京建筑大學, 北京郵電大學, 國家計算機網絡與信息安全管理中心
【公開日】2015年8月12日
【申請日】2015年2月16日