本發明涉及網絡安全領域,具體涉及垃圾郵件的檢測過濾系統和方法。
背景技術:
電子郵件作為人們日常工作、工作、學習中信息交換的一種重要手段,也是Internet應用最廣泛的服務之一。但隨著網絡電子郵件的發展,越來越多帶有商業性推廣,政治目的和內容中含有大量釣魚網站的垃圾郵件數目急劇增長。垃圾郵件的泛濫不僅會極大浪費用戶的工作時間處理一些根本沒有用的郵件,甚至內容中含有釣魚網站的郵件可能會對用戶的財產安全構成為威脅。目前,針對垃圾郵件的過濾已經有了不少的研究,大多數方法,都是基于郵件內容(文本分詞)的檢測方法。該類方法有一個明顯的缺點,由于為所有的用戶保存統一的垃圾郵件過濾參數,提供一致的模型。因此,無法滿足不同用戶的個性化需求(對垃圾郵件的定義不同),當然該方法也不能通過自主學習,改變識別策略,尤其不能適應當用戶對黑名單的內容改變時情形。
對于現有的對垃圾郵件檢測的方法,郵件的處理流程存在可以優化情形。例如我們可以對不同類型的郵件采用不同的處理方式,這樣在不影響對郵件結果判斷的情況下,又能提高對郵件處理的速度。例如現實中,很多廣告郵件或者商業推廣郵件往往都有群發的現象,利用這個特性,當用戶收到的一份新郵件中,發現收件人有很多,對于這份郵件,很可能為垃圾郵件,我們可以直接對這份郵件進行文本分詞處理,然后看它是否符合垃圾郵件的特性,而不用,再去分析它的發件人是否來自用戶黑名單中的郵箱,這樣就節省了郵件的處理時間。
技術實現要素:
本發明為了解決現有的垃圾郵件檢測大多基于用戶的設置信息對垃圾郵件進行判斷存在的不能對用戶設置中沒有設置信息的垃圾郵件進行過濾的問題。
一種基于用戶個性化設置的垃圾郵件的過濾系統,包括:
郵箱個性化設置模塊,用于獲取用戶郵箱的個性化設置,包括好友郵箱信息、訂閱賬號信息和黑名單郵箱賬號信息;
郵件預處理模塊,用于將新接收的郵件進行解析,獲取郵件收件人信息、發件人信息和郵件的主題及內容;
垃圾郵件初步判斷模塊,根據郵箱個性化設置模塊的信息和郵件預處理模塊的信息,對郵件進行初步過濾;
郵件內容處理模塊,用于對垃圾郵件初步判斷模塊過濾后的郵件進行行識別,根據郵件內容是否包含共性中文分詞或誘導性鏈接,從而判斷郵件是否為垃圾郵件。
優選地,所述一種基于用戶個性化設置的垃圾郵件的過濾系統還包括誘導性鏈接數據庫和垃圾郵件中文分詞數據庫;所述的誘導性鏈接數據庫是經過對網絡中已知垃圾郵件(并非針對本郵箱收到的,是針對網絡中已經發現所有的垃圾郵件)提取鏈接信息;所述的垃圾郵件中文分詞數據庫是經過對網絡中已知垃圾郵件(并非針對本郵箱收到的,是針對網絡中已經發現所有的垃圾郵件)進行中文分詞處理后獲得的中文分詞集合,稱為共性中文分詞集合;誘導性鏈接數據庫和垃圾郵件中文分詞數據庫用于對郵件內容處理模塊中的含有的鏈接和文本分詞進行比對,判斷收到的郵件是否為垃圾郵件。
一種基于用戶個性化設置的垃圾郵件的過濾方法,包括以下步驟:
步驟1、用戶新收到的郵件后,郵箱個性化設置模塊獲取用戶郵箱中設置的黑名單郵箱賬號、用戶的好友郵箱賬戶信息、用戶訂閱的公眾郵箱賬戶信息;
步驟2、郵件預處理模塊將新收到的郵件進行處理,獲取收件人信息、發件人信息和郵件的主題及內容(SMTP,POP3協議很容易獲取到這些內容);收件人信息包括郵件發送方發送時對應所有收信人的數量,即郵件的收信人很多,收件人信息包括這些收信人的數量;
步驟3、垃圾郵件初步判斷模塊內設置收件人閾值;垃圾郵件初步判斷模塊首先獲取包含有郵件發送方發送時對應所有收信人的數量的收件人信息,并將收信人的數量與所述的收件人閾值(例如將閾值設置為50)進行比較;
如果收信人的數量大于等于收件人閾值,那么這份郵件很符合商業推廣、廣告郵件等垃圾郵件的某些特征,則將該郵件的主題及內容發送至郵件內容處理模塊進行處理;
如果收信人的數量小于收件人閾值,則將發件人信息與郵箱個性化設置模塊獲取的黑名單郵箱賬號信息進行比對,如果發件人信息屬于黑名單郵箱賬號信息,則判定該郵件為垃圾郵件;如果發件人信息不屬于黑名單郵箱賬號信息,則繼續判斷發件人是否為好友郵箱賬戶信息或用戶訂閱的公眾郵箱賬戶信息,如果是則判定郵件為正常郵件,如果發件人信息也不屬于好友郵箱賬戶信息或者用戶訂閱的公眾郵箱賬戶信息,則將該郵件的主題及內容送至郵件內容處理模塊處理;
步驟4、郵件內容處理模塊對收到郵件的主題及內容后進行識別,如果郵件內容包含共性中文分詞或誘導性鏈接,則判定該郵件為垃圾郵件,否者判斷郵件為正常郵件。
優選地,所述步驟4的實現過程包括以下步驟:
步驟4.1、郵件內容處理模塊對郵件的主題及內容進行識別,獲得郵件內容的文本分詞和郵件內容含有的鏈接;
步驟4.2、郵件內容處理模塊將郵件內容含有的鏈接與誘導性鏈接數據庫進行比對;如果郵件內容含有的鏈接有一條鏈接為誘導性鏈接,則判定該郵件是垃圾郵件,并將該郵件中含有的、且不屬于誘導性鏈接數據庫中的鏈接添加到誘導性鏈接數據庫中,對誘導性鏈接數據庫進行更新;
將已知的垃圾郵件中文分詞數據庫中的中文分詞集合稱為共性中文分詞集合;郵件內容處理模塊將郵件內容的文本分詞與共性中文分詞集合進行比對;當郵件內容的文本分詞符合共性中文分詞集合的數量達到設定的分詞閾值時,判斷郵件為垃圾郵件;
當郵件內容含有的鏈接均不含有誘導性鏈接數據庫中的鏈接且郵件內容的文本分詞符合共性中文分詞集合的數量低于設定的分詞閾值時,判斷郵件為正常郵件。
優選地,步驟4中所述的誘導性鏈接數據庫是網絡中安全軟件(例如殺毒軟件)或郵件服務器已經發現所有的垃圾郵件中包含的鏈接集合。
優選地,步驟4中所述的共性中文分詞集合是網絡中安全軟件(例如殺毒軟件)或郵件服務器已經發現所有的垃圾郵件的分詞集合。
本發明具有以下有益效果:
本發明不但能夠基于用戶的個性化設置信息對垃圾郵件進行判斷,提高用戶的體驗;同時能夠對用戶設置中沒有設置信息的郵件盡心判斷,提高了接收新垃圾郵件屏蔽過濾概率。相比現有的完全基于用戶個性化設置信息對垃圾郵件判斷方法,本發明能夠將商業推廣等垃圾郵件的屏蔽概率提高50%以上。
附圖說明
圖1為本發明的方法流程示意圖。
具體實施方式
具體實施方式一:
一種基于用戶個性化設置的垃圾郵件的過濾系統,包括:
郵箱個性化設置模塊,用于獲取用戶郵箱的個性化設置,包括好友郵箱信息、訂閱賬號信息和黑名單郵箱賬號信息;
郵件預處理模塊,用于將新接收的郵件進行解析,獲取郵件收件人信息、發件人信息和郵件的主題及內容;
垃圾郵件初步判斷模塊,根據郵箱個性化設置模塊的信息和郵件預處理模塊的信息,對郵件進行初步過濾;
郵件內容處理模塊,用于對垃圾郵件初步判斷模塊過濾后的郵件進行行識別,根據郵件內容是否包含共性中文分詞或誘導性鏈接,從而判斷郵件是否為垃圾郵件。
具體實施方式二:
本實施方式所述的一種基于用戶個性化設置的垃圾郵件的過濾系統,還包括誘導性鏈接數據庫和垃圾郵件中文分詞數據庫;所述的誘導性鏈接數據庫是經過對網絡中已知垃圾郵件(并非針對本郵箱收到的,是針對網絡中已經發現所有的垃圾郵件)提取鏈接信息;所述的垃圾郵件中文分詞數據庫是經過對網絡中已知垃圾郵件(并非針對本郵箱收到的,是針對網絡中已經發現所有的垃圾郵件)進行中文分詞處理后獲得的中文分詞集合,稱為共性中文分詞集合;誘導性鏈接數據庫和垃圾郵件中文分詞數據庫用于對郵件內容處理模塊中的含有的鏈接和文本分詞進行比對,判斷收到的郵件是否為垃圾郵件。
其他模塊和功能與具體實施方式一相同。
具體實施方式三:結合圖1說明本實施方式,
一種基于用戶個性化設置的垃圾郵件的過濾方法,包括以下步驟:
步驟1、用戶新收到的郵件后,郵箱個性化設置模塊獲取用戶郵箱中設置的黑名單郵箱賬號、用戶的好友郵箱賬戶信息、用戶訂閱的公眾郵箱賬戶信息;
步驟2、郵件預處理模塊將新收到的郵件進行處理,獲取收件人信息、發件人信息和郵件的主題及內容(SMTP,POP3協議很容易獲取到這些內容);收件人信息包括郵件發送方發送時對應所有收信人的數量,即郵件的收信人很多,收件人信息包括這些收信人的數量;
步驟3、垃圾郵件初步判斷模塊內設置收件人閾值;垃圾郵件初步判斷模塊首先獲取包含有郵件發送方發送時對應所有收信人的數量的收件人信息,并將收信人的數量與所述的收件人閾值(例如將閾值設置為50)進行比較;
如果收信人的數量大于等于收件人閾值,那么這份郵件很符合商業推廣、廣告郵件等垃圾郵件的某些特征,則將該郵件的主題及內容發送至郵件內容處理模塊進行處理;
如果收信人的數量小于收件人閾值,則將發件人信息與郵箱個性化設置模塊獲取的黑名單郵箱賬號信息進行比對,如果發件人信息屬于黑名單郵箱賬號信息,則判定該郵件為垃圾郵件;如果發件人信息不屬于黑名單郵箱賬號信息,則繼續判斷發件人是否為好友郵箱賬戶信息或用戶訂閱的公眾郵箱賬戶信息,如果是則判定郵件為正常郵件,如果發件人信息也不屬于好友郵箱賬戶信息或者用戶訂閱的公眾郵箱賬戶信息,則將該郵件的主題及內容送至郵件內容處理模塊處理;
步驟4、郵件內容處理模塊對收到郵件的主題及內容后進行識別,如果郵件內容包含共性中文分詞或誘導性鏈接,則判定該郵件為垃圾郵件,否者判斷郵件為正常郵件。
具體實施方式四:
本實施方式所述步驟4的實現過程包括以下步驟:
步驟4.1、郵件內容處理模塊對郵件的主題及內容進行識別,獲得郵件內容的文本分詞和郵件內容含有的鏈接;
步驟4.2、郵件內容處理模塊將郵件內容含有的鏈接與誘導性鏈接數據庫進行比對;如果郵件內容含有的鏈接有一條鏈接為誘導性鏈接,則判定該郵件是垃圾郵件,并將該郵件中含有的、且不屬于誘導性鏈接數據庫中的鏈接添加到誘導性鏈接數據庫中,對誘導性鏈接數據庫進行更新;
將已知的垃圾郵件中文分詞數據庫中的中文分詞集合稱為共性中文分詞集合;郵件內容處理模塊將郵件內容的文本分詞與共性中文分詞集合進行比對;當郵件內容的文本分詞符合共性中文分詞集合的數量達到設定的分詞閾值時,判斷郵件為垃圾郵件;
當郵件內容含有的鏈接均不含有誘導性鏈接數據庫中的鏈接且郵件內容的文本分詞符合共性中文分詞集合的數量低于設定的分詞閾值時,判斷郵件為正常郵件。
其他模塊和步驟與具體實施方式三相同。
具體實施方式五:
本實施方式所述步驟4中所述的誘導性鏈接數據庫是網絡中安全軟件(例如殺毒軟件)或郵件服務器已經發現所有的垃圾郵件中包含的鏈接集合。
其他模塊和步驟與具體實施方式三或四相同。
具體實施方式六:
本實施方式所述步驟4中所述的共性中文分詞集合是網絡中安全軟件(例如殺毒軟件)或郵件服務器已經發現所有的垃圾郵件的分詞集合。
其他模塊和步驟與具體實施方式三至五之一相同。