專利名稱:基于鏈接域名和用戶反饋的反釣魚郵件系統及方法
技術領域:
本發明涉及的是一種網絡電子郵件過濾評估技術,特別是涉及一種針對釣魚 郵件的過濾技術。
(二)
背景技術:
隨著人們越來越依靠互聯網來處理商業、金融等問題,釣魚郵件的數量也急 劇增加,而且形式呈多樣化。釣魚郵件指利用偽裝的電郵,欺騙收件人將賬號、 口令等信息回復給指定的接收者或引導收件人連接到特制的網頁,這些網頁通常 會偽裝成和真實網站一樣,令登錄者信以為真,輸入信用卡或銀行卡號碼、賬戶 名稱及密碼等而被盜取。郵件中都會以某管理機構的身份,內容通常涉及到中獎、 賬號和密碼等信息。特別是淘寶、拍拍、易趣、飛信、銀行等站點等被大量釣魚 網站克隆,用各種手段偽裝虛假的身份,欺騙用戶登錄其網站且騙取用戶信息, 這些釣魚網站通常被嵌在郵件中發送給收件人。如果用戶在毫無警惕的情況下, 點擊了郵件正文中的超級鏈接,就會打開一個冒充的頁面,由于仿冒得很像,用 戶往往認為自己進入的真正網站,其實用戶所造訪的不過是一個假冒網站而已。
根據賽門鐵克7月垃圾郵件現狀報告[R].2009,釣魚攻擊鏈接可以由釣魚軟 件制作,這種軟件可以自動建立一個假冒的網頁,這為成功的實現網絡釣魚攻擊 提供了方便。目前越來越多的釣魚攻擊者正在自身的虛假網站上濫用合法SSL 證書,由于這些網站上顯示熟悉的SSL掛鎖圖標,這就給用戶造成了一種虛假 的安全感。另一方面,免費主機服務一直是釣魚攻擊活躍的大本營,因為它幾乎 不需要任何成本和技術就能制作一個網站。
目前對釣魚郵件的治理還是集中在依靠釣魚攻擊防御、識別技術,主要分為 基于釣魚鏈接地址的識別和基于釣魚頁面的識別兩類。基于釣魚鏈接地址的識別 機制主要是利用鏈接地址的黑白名單或自定義規則的相似度等技術,該類識別技 術識別速度快,但是識別技術過于單一、識別效果較差,而且不能正常識別經過 偽裝的鏈接地址,該類識別技術也沒有考慮用戶的需求,往往會導致誤判率較高。 基于釣魚頁面的識別機制主要是通過鏈接地址來獲取鏈接站點的頁面布局,利用
5釣魚網站的頁面存在的共性及與合法頁面的不同,從頁面中提取釣魚網站的敏感
特征,利用頁面檢測算法或算法的改進,對頁面進行分類,從而識別釣魚網站。
如網絡釣魚Web頁面檢測算法[J].2008, 34(20),分析Phishing頁面敏感特征,
提出了一種基于敏感特征異常檢測的Phishing頁面檢測算法,通過分析Web頁面
的文檔對象模型來提取Phishing敏感特征,使用BP神經網絡檢測頁面異常程度,
利用線性分類器判斷該頁面是否為Phishing頁面;如專利文件(中國專利,公開
號101145902,
公開日期2008-03-19)基于圖像處理的釣魚網頁檢測方法,采用
逐一計算可疑釣魚網頁與各個受保護網頁之間的相似度,將可疑網頁與受保護網
頁之間的相似度小于預先設定的值的可疑網頁判為針對該受保護網頁的釣魚網
頁,直接分析用戶所訪問的網頁圖像,不易被網頁設計技巧所欺騙;通過對網頁
圖片進行分割可以進行部分匹配,防止由于部分相似而引起的網絡釣魚;又如A
Content-based Approach to DetectingPhishing Web Sites[C] 2007, 639-648頁,闡述
的也是基于釣魚頁面的分析。該類方法的缺點在于識別速度較慢,要對郵件中的
鏈接做DNS解析才能得到該鏈接所在的頁面信息,而DNS解析過程又增加了處
理時間,且敏感特征提取等預處理過程需要較多的輸入做參考,需要大量的系統
資源來完成頁面分類器的構造,識別要耗費較多的時間。
發明內容
本發明的目的在于提供一種資源開銷少,可靠性高、實時性強的基于鏈接域 名和用戶反饋的反釣魚郵件系統及方法。 本發明的目的是這樣實現的
本發明的基于鏈接域名和用戶反饋的反釣魚郵件系統的構成包括網絡郵件
接收裝置、郵件預處理裝置、郵件性質判定裝置、輸出裝置、反饋處理裝置;
網絡郵件接收裝置通過實現SMTP協議交互過程,接收進出受控網絡的電
子郵件,并存儲郵件全部信息;
郵件預處理裝置根據郵件的編碼類型、字符集、消息類型提取并解碼郵件
中的正文信息,形成不同類型的郵件正文結構體,在已解析的郵件正文中提取鏈
接地址;
郵件性質判定裝置當鏈接地址經過惡意的編碼偽裝,則將鏈接去除偽裝, 還原為真實的鏈接地址,提取該鏈接的域名信息,根據郵件屬于純文本類型還是 超文本類型,進行鏈接域名的特征分析處理,以此判定該郵件性質;輸出裝置根據郵件性質判定裝置得到的郵件性質,按該郵件性質的不同進 行郵件去向處理;
反饋處理裝置收集用戶的反饋信息,提供受控網內用戶反饋信息的自動處 理機制,及時更新個性化特征庫,且保證各受控網內用戶間互不干擾。
本發明的基于鏈接域名和用戶反饋的反釣魚郵件系統的構成還可以包括
1、 所述的郵件預處理裝置包括郵件正文解析單元、鏈接提取單元;郵件正 文解析單元在郵件中定位并提取郵件正文、郵件字符集類型和傳輸編碼信息,判 斷郵件類型后,再根據該郵件的字符集和傳輸編碼類型,解析郵件正文信息,并 存入正文結構體鏈表;鏈接提取單元用于在郵件正文解析單元所得的正文信息中 提取鏈接地址,若郵件類型為純文本,則在正文中査找"http:Z/或www"字段, 若郵件類型為超文本,則在HTML類型的正文中査找"<AHERF=……>…… </A>"字段,以此定位鏈接地址。
2、 所述的郵件性質判定裝置包括鏈接去偽裝單元、個性化特征庫過濾單元、 快速釣魚特征庫匹配單元、鏈接特征分析單元和相似度比較單元;鏈接去偽裝單 元判斷待分析的鏈接地址是否經過惡意的編碼,若存在惡意的編碼,則將其解碼 還原為真實的鏈接地址;個性化特征庫過濾單元利用匹配域名的正則表達式,從 鏈接去偽裝單元所得的鏈接地址中提取出域名信息,結合該郵件的收件人郵箱地 址,形成待檢測信息,利用字符串匹配自動機,判斷待檢測信息是否存在于個性 化特征庫中;快速釣魚特征庫匹配單元根據個性化特征庫過濾單元中獲得的鏈接 的域名信息,采用ELFhash字符串散列函數處理后,在釣魚特征庫的哈希表中匹 配該信息,且用鏈地址法處理所構造的釣魚特征庫哈希表沖突問題;鏈接特征分 析單元分析該鏈接是否具備釣魚鏈接的特征,通過識別該鏈接地址是否存在鏈接
的跳轉特征、鏈接的域名是否包含點分十進制IP地址;相似度比較單元將個性 化特征庫過濾單元中獲得的鏈接的域名與金融站點特征庫,采用自然語言處理 (NLP)里的Levenshtein Distance算法,依次計算兩者相似度,并判斷相似度是否 超過設定的閾值。
3、 所述的輸出裝置將根據郵件判定性質裝置判斷的郵件性質,分別采取不 同的輸出策略;當郵件威脅度為高時,則該郵件屬于釣魚郵件,本發明將攔截該 郵件,將郵件存入隔離區,禁止該郵件轉發;當郵件威脅度為中時,則該郵件屬 于疑似釣魚郵件,在郵件中添加提醒信息,提醒受控網用戶該郵件極有可能為釣
7魚郵件,通知用戶登錄本發明的監控區域查看郵件,并且提供給受控網用戶反饋 接口;當郵件威脅度為低時,則該郵件屬于正常郵件,將正常轉發該郵件到收件 人信箱中,受控網用戶能正常接收。
4、所述的反饋處理裝置包括1)反饋處理裝置接收反饋信息后,自動判斷 信息的類型是否正確,并提取反饋信息的域名信息;2)在反饋信息的域名與反 饋者的郵箱地址中添加標志位"[per]",形成個性化特征信息;3)完成字符串匹 配自動機的更新,使該個性化特征信息添加到個性化特征庫,完成個性化特征庫 的更新。
本發明的所述的反釣魚郵件方法分析新郵件的工作過程包括以下步驟 郵件預處理步驟,解析郵件正文信息,提取郵件正文中的鏈接地址; 鏈接預處理步驟,解碼還原經惡意編碼的鏈接地址;
個性化特征庫的過濾步驟,提取該鏈接地址的域名信息,結合該郵件的收件 人郵箱地址,形成待檢測信息,利用字符串匹配自動機查找待檢測信息是否存在 于個性化特征庫中,若查找到,則分析過程結束,且郵件威脅等級為高,否則進 行下一步驟;
快速釣魚特征庫的匹配步驟,將待檢測信息經ELFhash字符串散列處理后, 在所構造的釣魚特征庫的哈希表中査找該待檢測信息,若查找到,則分析過程結 束,郵件威脅等級為高,否則進行下一步驟;
鏈接的特征分析步驟,判斷該鏈接地址是否存在鏈接跳轉、鏈接的域名信息 包含點分十進制IP地址等特征,若存在,則郵件威脅等級為中,否則進行下一 步驟;
相似度比較步驟,采用Levenshtdri Distance算法,依次計算鏈接的域名信 息與金融站點特征庫中信息的相似度,若兩者相似度超過閾值,則郵件威脅等級 為中,否則郵件威脅等級為低;
所述的反釣魚郵件方法將依次分析郵件中的每個鏈接地址,結束該分析過程 的充要條件是郵件威脅等級為高或者郵件中所有鏈接均已分析完畢,且郵件性質 是取決于分析每個鏈接所得的郵件威脅等級的最高值。
針對以上情況,本發明根據釣魚鏈接的特征,從郵件中提取鏈接地址的域名, 分析鏈接域名的特征,并結合了用戶反饋的策略,提出了基于鏈接域名和用戶反 饋的反釣魚郵件系統及方法。本發明的有益效果在于通過本發明可以在網關或郵件服務器處對釣魚郵件進行攔截,對疑似釣魚郵件添加處理信息和提醒信息,提高受控網用戶警惕性,將郵件投遞到本發明提供的郵件監控區域,通知受控網用戶登錄該區域查看郵件,故不會對郵件的誤攔截,從而給受控網用戶造成損失。本發明較釣魚頁面檢測方法有較快的郵件處理速度,只需郵件中的鏈接地址,大大減少了資源的開銷,具有可靠性高、實時性高。本發明采用了郵件正文信息全部解析,故可以識別郵件中的圖片鏈接和隱藏的鏈接,同時提供給受控網用戶的反饋接口,充分考慮用戶的因素,同時保證受控網內用戶間互不干擾,這樣有效的抵抗受控網內惡意用戶的干擾,可保護受控網的電子郵件用戶免受網絡釣魚的欺騙。
本發明可以部署到要求高實時性的郵件服務器、網關服務器中,可廣泛的應用于網絡郵件過濾管理、防網絡釣魚攻擊等應用領域。
(四)
圖l本發明所述的系統的結構框圖2本發明所述的郵件性質判定裝置的結構圖3用戶反饋分析模型的處理流程圖4實施本發明的典型應用環境;
圖5純文本類型郵件處理的工作原理流程圖6超文本類型郵件處理的工作原理流程(五)
具體實施例方式
下面結合附圖舉例對本發明做更詳細地描述
圖1所示為基于鏈接域名和用戶反饋的反釣魚郵件系統的結構框圖,包括網絡郵件接收裝置通過實現SMTP協議交互過程,接收進出受控網絡的電
子郵件,并存儲郵件全部信息;
郵件預處理裝置根據郵件的編碼類型、字符集、消息類型提取并解碼郵件
中的正文信息,形成不同類型的郵件正文結構體,在已解析的郵件正文中提取鏈
接地址;
郵件性質判定裝置當鏈接地址經過惡意的編碼偽裝,則將鏈接去除偽裝,還原為真實的鏈接地址,提取該鏈接的域名信息,根據郵件屬于純文本類型還是超文本類型,進行鏈接域名的特征分析處理,以此判定該郵件性質;輸出裝置根據郵件性質判定裝置得到的郵件性質,按該郵件性質的不同進行郵件去向處理;
反饋處理裝置收集用戶的反饋信息,提供受控網內用戶反饋信息的自動處理機制,及時更新個性化特征庫,且保證各受控網內用戶間互不干擾。
圖2給出了郵件性質判定裝置的各個單元的結構圖,包括
鏈接去偽裝單元用于判斷待分析的鏈接地址是否經過惡意編碼,若存在惡意編碼,則將其解碼還原為真實的鏈接地址;
個性化特征庫過濾單元利用匹配域名的正則表達式,從鏈接去偽裝單元所獲得的鏈接地址中提取出域名信息,結合該郵件的收件人郵箱地址,形成待檢測信息,利用字符串匹配自動機,判斷待檢測信息是否存在于受控網用戶個性化特征庫中;
快速釣魚特征庫匹配單元根據個性化特征庫過濾單元中獲得的鏈接的域名信息,采用ELFhash字符串散列函數處理后,在釣魚特征庫的哈希表中快速匹配該信息,且用鏈地址法處理所構造的釣魚特征庫的哈希表沖突問題;
鏈接的特征分析單元分析該鏈接是否具備釣魚鏈接的特征,通過識別該鏈接地址是否存在鏈接的跳轉特征、鏈接的域名是否包含點分十進制IP地址;
相似度比較單元將個性化特征庫過濾單元中獲得的鏈接的域名與金融站點特征庫,采用自然語言處理(NLP)里的Levenshtein Distance算法,依次計算兩者相似度,并比較相似度是否超過給定的閾值,閾值可取0.75-0.95之間。
所述的個性化特征庫,可以是用于存儲從經過處理后的受控網用戶反饋信息;所述的釣魚特征庫,可以是用于存儲權威機構提供的站點的域名信息;所述的金融站點的特征庫,可以是用于存儲涉及電子商務、電子金融站點的域名信息。
圖3給出了用戶反饋分析模型的處理流程圖,包括
反饋信息處理裝置接收反饋信息后,自動判斷信息的類型是否正確;提取反饋信息的域名信息與反饋者的郵箱地址;在反饋信息的域名與反饋者的郵箱地址中添加標志位"[per]",即"[per]反饋者的郵箱地址[per]反饋信息的域名[per]"類型,形成個性化特征信息,這樣是為了防止出現誤匹配現象;同時完成自動機更新,釋放舊的自動機,建立新的自動機,使該個性化特征信息添加到個性化特征庫,更新個性化特征庫。
此反饋分析模型的建立,實現了個性化特征庫的實時更新,通過用戶的不斷
10反饋報告,使得本發明在原有的基礎上不斷地提高識別能力,提高分析性能。所述的反饋信息處理裝置接收反饋信息是依托于本發明提供的受控網用戶
反饋界面,為了安全性考慮,該反饋界面處于本發明所在的服務器上,并非處于
受控網用戶的客戶端。
圖4展現了實施本發明的典型應用環境。
在圖示的應用環境下,本發明部署在高性能服務器網關中,保護受控網內所有郵件服務器及用戶免受網絡釣魚郵件的攻擊,其中郵件發送者C處于外部網絡,用戶A、 B為受控網中兩類用戶的代表,即用戶A為正常用戶,用戶B為惡意用戶;用戶A、 B反饋時,本發明會分別處理反饋信息,惡意用戶B反饋的信息,只對用戶B本身有效,對用戶A無效,這樣避免惡意用戶B通過反饋錯誤的信息,而影響整個受控網,有效的抵抗受控網內惡意用戶的干擾。
外部郵件發送者C發送正常郵件時,本發明將投遞該郵件到相應收件人的郵箱中;發送釣魚郵件時,本發明將攔截該郵件存入隔離區;對于本發明識別為疑似釣魚郵件,為了避免誤判給用戶造成損失,還考慮到郵件可能帶有網絡釣魚攻擊,故本發明添加了處理信息及提醒信息,提高受控網用戶的警惕性,防止用戶在不知情的情況下受到網絡釣魚的攻擊。
實施例一、本發明對純文本類型的郵件分析圖5給出了實施例一的原理流程圖。實施例二、本發明對超文本類型的郵件分析圖6給出了實施例二的原理流程圖。
下面通過基于鏈接域名和用戶反饋的反釣魚郵件系統對具體類型的釣魚郵件識別過程,結合上述兩個實施例進一步介紹本發明的技術方案。
1、 網絡電子郵件的接收
實現SMTP協議交互過程,接收發往受控網絡或從受控網絡發出的電子郵件,并存儲郵件全文;
2、 網絡電子郵件的解析
通過對郵件類型的分析,獲得該郵件為純文本還是超文本類型,在郵件中提取正文信息、郵件字符集類型和傳輸編碼等頭信息;若郵件類型為純文本,則根據字符集類型和傳輸編碼將郵件的正文解析為純文本類型,并存入正文結構體鏈表;若郵件類型為超文本,則郵件正文解析為HTML類型,存入正文結構體鏈表。
3、 正文中鏈接的提取
若郵件類型為純文本,則在正文中査找"http:/Z或www"字段;若郵件類型為超文本,則提取出解析為HTML類型的正文結構體,并在其中査找 "<AHERF=……>......</八>"字段,特別的當郵件類型為超文本類型時,鏈接地址包
括了鏈接的顯式地址和隱式地址(如在"<A HERF=X>Y々AV'中,X代表鏈接的隱式地址,Y代表鏈接的顯式地址,從X中提取的域名信息為隱式域名,從Y中提取的鏈接的域名信息為顯式域名);根據査找上述字段來定位鏈接地址,依次并提取鏈接地址。
4、 鏈接地址的解碼
在鏈接地址中查找'%,,來判斷是否經過URL的惡意編碼,若存在惡意的編碼,則進行URL字符解碼,將兩位16進制的ASCII碼還原為字符,完成鏈接地址的還原。
5、 鏈接分析
利用匹配域名的正則表達式從解碼后的鏈接地址中匹配該鏈接地址的域名,作為待分析信息;
判斷上述待分析信息是否存在于受控網用戶個性化特征庫中,若存在,則該郵件為釣魚郵件,郵件威脅等級達到高,結束鏈接分析過程;否則進行下一歩處理;
將待分析信息經過ELFhash字符串散列函數處理后,在釣魚特征庫的哈希表中查找,若査找到,則該郵件為釣魚郵件,郵件威脅等級達到高,結束鏈接分析過程;若未査找到,根據郵件類型,分別進行如下處理;
1)當郵件為純文本類型時,直接通過匹配IP的正則表達式從待分析信息中匹配點分十進制IP地址;
如果匹配到IP地址,則郵件暫判為疑似釣魚郵件,且郵件威脅等級達到中,該鏈接的分析過程結束;
如果未匹配IP地址,將待分析信息與金融站點特征庫逐一進行相似度比較;先判斷待分析信息是否存在于金融站點特征庫中,若存在于金融站點特征庫中,則說明待分析信息為正常,郵件威脅等級為低,該鏈接的分析過程結束;若待分析信息不存在于特征庫中,則根據相似度計算策略將待分析信息的與金融站點特征庫逐一進行相似度比較,所述的相似度計算策略為俄國科學家Levenshtein提出的自然語言處理(NLP)里的Levenshtein Distance算法,即計算從待分析信息s轉換到特征庫中某一特征信息t所需要的最少的插入,刪除和替換的數目,通過構造矩陣,矩陣中的值d[n, m]表示待分析信息s與特征信息t的距離,且d[i, j〗=min(d[i-l, j] + l,d[i, j-1] + 1, d[i-l , j-l] + k)(其中n、 m分別為待分析信息s、特征信息t的長度,i, j分別介于1到n、 1到m,若s[i]=t[j]成立,k取O,否者k取l),得到待分析信息s與特征信息t的距離,即可得st相似度氣l-st距離/max(n, m));
當某次比較相似度結果超過閾值,閾值一般取(0.75-0.95)較為合適,則結束相似度比較,且郵件威脅等級為中,該鏈接的分析過程結束;
當待分析信息s與特征庫中的特征信息逐一比較結果均未超過閾值,則為待分析的信息為正常,則郵件威脅度為低,該鏈接的分析過程結束。
2)當郵件類型為超文本類型時,提取鏈接的顯式域名與鏈接的隱式域名;
若鏈接的顯式域名與鏈接的隱式域名均存在且不一致,則郵件威脅等級為中,該鏈接的分析過程結束;
若鏈接的顯式域名與鏈接的隱式域名一致或鏈接的顯式域名不存在,則通過匹配IP的正則表達式在鏈接的隱式域名中匹配點分十進制IP地址;
如果匹配到點分十進制IP地址,則郵件威脅等級為中,該鏈接的分析過程結束;
如果未匹配到點分十進制IP地址,則按照上述相似度比較策略分析鏈接的隱式域名與金融站點的特征庫相似度,以此判斷郵件威脅等級。
本發明從郵件中的每個鏈接地址中提取鏈接的域名信息,作為待分析信息集,依次提取每個待分析信息經過上述鏈接分析過程,結束郵件性質判定過程的充要條件為郵件威脅等級到達高或所有待分析信息均巳分析完畢,而郵件的性質是取決于每個鏈接分析過程所得的郵件威脅等級的最高值。
6.郵件輸出處理
當郵件威脅度為高時,則該郵件屬于釣魚郵件,本發明將郵件存入隔離區;當郵件威脅度為中時,則該郵件屬于疑似釣魚郵件,在郵件中添加警告信息,
13提醒受控網用戶該郵件極有可能為釣魚郵件;
當郵件威脅度為低時,則該郵件屬于正常郵件,本發明將正常轉發該郵件。 綜上,本發明在執行效率、資源開銷等方面具有較好的性能,能夠滿足實時 釣魚郵件過濾的需求,可防止受控網內惡意用戶的干擾,可保護受控網的電子郵 件用戶免受網絡釣魚的攻擊,本發明適合部署在要求高實時性的郵件服務器、網 關服務器中,可廣泛的應用于網絡郵件過濾管理、防網絡釣魚攻擊等應用領域。
權利要求
1、一種基于鏈接域名和用戶反饋的反釣魚郵件系統,其構成包括網絡郵件接收裝置、郵件預處理裝置、郵件性質判定裝置、輸出裝置和反饋處理裝置;其特征是網絡郵件接收裝置通過實現SMTP協議交互過程,接收進出受控網絡的電子郵件,并存儲郵件全部信息;郵件預處理裝置根據郵件的編碼類型、字符集、消息類型提取并解碼郵件中的正文信息,形成不同類型的郵件正文結構體,在已解析的郵件正文中提取鏈接地址;郵件性質判定裝置當鏈接地址經過惡意的編碼偽裝,則將鏈接去除偽裝,還原為真實的鏈接地址,提取該鏈接的域名信息,根據郵件屬于純文本類型還是超文本類型,進行鏈接域名的特征分析處理,以此判定該郵件性質;輸出裝置根據郵件性質判定裝置得到的郵件性質,按該郵件性質的不同進行郵件去向處理;反饋處理裝置收集用戶的反饋信息,提供受控網內用戶反饋信息的自動處理機制,及時更新個性化特征庫,且保證各受控網內用戶間互不干擾。
2、 根據權利要求l所述的基于鏈接域名和用戶反饋的反釣魚郵件系統,其特征是所述的郵件預處理裝置包括郵件正文解析單元、鏈接提取單元;郵件正文解析單元在郵件中定位并提取郵件正文、郵件字符集類型和傳輸編碼信息,判斷郵件類型后,再根據該郵件的字符集和傳輸編碼類型,解析郵件正文信息,并存入正文結構體鏈表;鏈接提取單元用于在郵件正文解析單元所得的正文信息中提取鏈接地址,若郵件類型為純文本,則在正文中査找"11 ://或\^"字段,若郵件類型為超文本,則在HTML類型的正文中査找"<AHERF=……>……</A>"字段,以此定位鏈接地址。
3、 根據權利要求2所述的基于鏈接域名和用戶反饋的反釣魚郵件系統,其特征是所述的郵件性質判定裝置包括鏈接去偽裝單元、個性化特征庫過濾單元、快速釣魚特征庫匹配單元、鏈接特征分析單元和相似度比較單元;鏈接去偽裝單元判斷待分析的鏈接地址是否經過惡意的編碼,若存在惡意的編碼,則將其解碼還原為真實的鏈接地址;個性化特征庫過濾單元利用匹配域名的正則表達式,從鏈接去偽裝單元所得的鏈接地址中提取出域名信息,結合該郵件的收件人郵箱地址,形成待檢測信息,利用字符串匹配自動機,判斷待檢測信息是否存在于個性化特征庫中;快速釣魚特征庫匹配單元根據個性化特征庫過濾單元中獲得的鏈接的域名信息,采用ELFhash字符串散列函數處理后,在釣魚特征庫的哈希表中匹配該信息,且用鏈地址法處理所構造的 釣魚特征庫哈希表沖突問題;鏈接特征分析單元分析該鏈接是否具備釣魚鏈接的特 征,通過識別該鏈接地址是否存在鏈接的跳轉特征、鏈接的域名是否包含點分十進制 IP地址;相似度比較單元將個性化特征庫過濾單元中獲得的鏈接的域名與金融站點特 征庫,采用自然語言處理NLP里的Levenshtein Distance算法,依次計算兩者相似度, 并判斷相似度是否超過給定的閾值。
4、 根據權利要求3所述的基于鏈接域名和用戶反饋的反釣魚郵件系統,其特征 是所述的輸出裝置將根據郵件判定性質裝置判斷得到的郵件性質,分別采取不同的輸出策略;當郵件威脅度為高時,則該郵件屬于釣魚郵件,攔截該郵件,將郵件存入 隔離區;當郵件威脅度為中時,則該郵件屬于疑似釣魚郵件,添加提醒信息,用于提醒受控網的用戶,將郵件投遞到郵件監控區域,通知用戶登錄該區域查看郵件,并提供用戶反饋接口;當郵件威脅度為低時,則該郵件屬于正常郵件,將正常轉發郵件。
5、 根據權利要求4所述的基于鏈接域名和用戶反饋的反釣魚郵件系統,其特征 是所述的反饋處理裝置包括1)反饋處理裝置接收反饋信息后,自動判斷信息的 類型是否正確,并提取反饋信息的域名;2)在反饋信息的域名與反饋者的郵箱地址 中添加標志位"[per]",形成個性化特征信息;3)完成字符串匹配自動機的更新,使該 個性化特征信息添加到個性化特征庫,完成個性化特征庫的更新。
6、 基于鏈接域名和用戶反饋的反釣魚郵件方法,其特征是包括以下步驟 郵件預處理步驟,解析郵件正文信息,提取郵件正文中的鏈接地址; 鏈接預處理步驟,解碼還原經惡意編碼的鏈接地址;個性化特征庫的過濾步驟,提取該鏈接地址的域名信息,結合該郵件的收件人郵 箱地址,形成待檢測信息,利用字符串匹配自動機查找待檢測信息是否存在于個性化 特征庫中,若査找到,則分析過程結束,且郵件威脅等級為高,否則進行下一步驟;快速釣魚特征庫的匹配步驟,將待檢測信息經ELFhash字符串散列處理后,在所 構造的釣魚特征庫的哈希表中查找該待檢測信息,若査找到,則分析過程結束,郵件 威脅等級為高,否則進行下一步驟;鏈接的特征分析步驟,判斷該鏈接地址是否存在鏈接跳轉、鏈接的域名信息包含 點分十進制IP地址等特征,若存在,則郵件威脅等級為中,否則進行下一步驟;相似度比較步驟,采用Levenshtein Distance算法,依次計算鏈接的域名信息與金 融站點特征庫中信息的相似度,若兩者相似度超過閾值,則郵件威脅等級為中,否則郵件威脅等級為低。
7、根據權利要求6所述的基于鏈接域名和用戶反饋的反釣魚郵件方法,其特征 是所述的反釣魚郵件方法將依次分析郵件中的每個鏈接地址,結束該分析過程的充 要條件是郵件威脅等級為高或郵件中所有鏈接均己分析完畢,且郵件性質是取決于分 析每個鏈接所得的郵件威脅等級的最高值。
全文摘要
本發明提供的是一種基于鏈接域名和用戶反饋的反釣魚郵件系統及方法。本發明所述的系統包括網絡郵件接收裝置、郵件預處理裝置、郵件性質判定裝置、輸出裝置、反饋處理裝置。所述的方法為通過分析郵件中鏈接的域名的特征,并結合受控網用戶反饋策略,實現釣魚郵件以及疑似釣魚郵件的識別。本發明的優點在于識別效率高、低資源消耗、無誤判率,可部署到要求高實時性的郵件服務器、網關服務器等,保護受控網用戶免受釣魚郵件的欺騙,可抵抗受控網內惡意用戶的干擾,可廣泛應用于網絡郵件過濾管理、防網絡釣魚攻擊等應用領域。
文檔編號H04L12/58GK101667979SQ20091007304
公開日2010年3月10日 申請日期2009年10月12日 優先權日2009年10月12日
發明者朱文龍, 武 楊, 玄世昌, 巍 王, 苘大鵬, 邱文真 申請人:哈爾濱工程大學