專利名稱:一種基于url分類的釣魚網站檢測方法
技術領域:
本發明屬于網絡安全領域,涉及一種反網絡釣魚的方法,特別涉及一種基于URL(網頁地址)分類的釣魚網站檢測方法。
背景技術:
網絡釣魚攻擊已經成為當前網上交易安全的一個重大威脅,其對電子商務的發展造成了很大阻礙,因而對釣魚防范的研究成為網絡安全領域的熱點問題。釣魚網站的規模逐年成倍遞增,從機器學習與模式識別角度講,大量的釣魚網站已經呈現出一種有跡可循的模式,這給用模式識別的方法進行學習分類帶來了一定的應用空間。目前存在的基于模式識別的釣魚網站判別方法主要有 基于郵件特征的釣魚郵件檢測方法。其主要方法是通過對大量釣魚郵件的學習訓練找出一組普遍存在的現象特征。方案從郵件的語言,布局以及結構入手獲取諸如特殊句法,結構布局特點,詞匯使用模式,反常語言應用等特征。基于網頁文本特征的釣魚網頁檢測方法。該方法借助于TF-IDF算法計算一篇文檔中的重要程度較高的詞匯,然后以這些詞匯為網頁特征對網頁進行分類,分類過程借鑒了 google對網頁的評價排名。基于網頁圖像相似度得釣魚網頁檢測。首先將HTML網頁轉換為標準圖片形式,提取主色調和圖片重心位置等屬性標示圖片特征,然后應用EMD (Earth Mover’s Distance)算法計算兩圖像間的相似度,設定一個閾值判斷當前網頁是否有模仿現象。目前釣魚檢測方法存在一定的不足,無論是基于郵件特征還是基于網頁特征都要通過對郵件或網頁內容進行整體分析,這可能帶來以下問題,一是郵件或網頁標準不統一,這導致預先設定的檢測特征有可能缺失;二是對郵件或網頁進行整體分析花費時間較多,從應用角度來講可能超過用戶所能忍受的網絡延時;三是受保護機構合法郵件或網頁更新時,檢測機構沒有相應的聯動機制。
發明內容
發明目的針對上述現有技術存在的問題和不足,本發明的目的是提供一種適用性強、效率高的基于URL分類的釣魚網站檢測方法。技術方案為實現上述發明目的,本發明采用的技術方案為一種基于URL分類的釣魚網站檢測方法,包括如下步驟(I)對釣魚網站的URL特征進行歸納分析,并將所述URL特征向量化;(2)根據URL特征向量,對原始數據進行訓練得到初始分類模型。進一步地,還包括步驟(3):檢測釣魚網站的服務器根據在線增量學習策略對當前分類模型進行升級。進一步地,所述步驟(I)中,釣魚網站的URL特征包括DURL中存在IP地址。一定比例的釣魚URL包含有IP地址,而在合法URL中幾乎不存在包含IP地址的情況;2)用”來對域名進行混淆。釣魚網頁往往通過用很多”來隔開一個正常的字段以達到迷惑用戶的目的,如http //paypal. com. online-update. onlinebanking. service, customer. /而這種URL在合法網站幾乎很少見到;3) URL路徑深度異常。即URL中包括“/”的數目,偽造的URL通過加長路徑來混淆合法網址;4)包含特殊字符。如在釣魚URL中經常會出現;5)存在較多數字、字母相混合的情況。該特征在合法URL與釣魚URL中都有體現,但在釣魚URL中更為明顯; 6)域名字段長度異常。一般情況下,認為出現在‘http ://’與第一個‘/’之間的字符串為域名字段,大部分合法URL的域名長度比較適中,而有一部分釣魚URL此部分長度顯得過長;7) PageRank排名較低。PageRank是Google對所收錄網頁按照重要程度進行的排名,在檢測中發現,絕大部分釣魚URL此項數值較低或沒有記錄。8)合法域名篡改。釣魚網站域名往往對合法網站域名進行篡改,如把“paypal”中的字母“ I ”替換為數字“ I ”,根據一定方法可以對該現象進行檢測。9)可疑詞匯。釣魚URL中有些詞匯出現頻率較高,如“login”,“account”等,根據一定方法可以對這些可疑詞匯進行統計提取。對URL特征I)至6)采用正則表達式匹配的方式獲取,對URL特征7)通過谷歌獲取,對URL特征8)和9)進行特征建模。進一步地,所述步驟(I)中,域名篡改特征的檢測方法為設從URL提取出的域名字符串U = U^U2'…、Um,受保護域名字符串T = tp t2、;計算分別以Ui和&結束的兩個域名子字符串的最大相似度值,該最大相似度值用Hi,j表示,那么根據Ui與&相對位置的不同,Hiij值有以下四種情況I)兩子字符串到Ui與&結束時長度相同,此時有Hi, j = Hh,h+s (Ui, tj)其中
權利要求
1.一種基于URL分類的釣魚網站檢測方法,包括如下步驟 (1)對釣魚網站的URL特征進行歸納分析,并將所述URL特征向量化; (2)根據URL特征向量,對原始數據進行訓練得到初始分類模型。
2.根據權利要求I所述一種基于URL分類的釣魚網站檢測方法,其特征在于還包括步驟(3):檢測釣魚網站的服務器根據在線增量學習策略對當前分類模型進行升級。
3.根據權利要求I所述一種基于URL分類的釣魚網站檢測方法,其特征在于所述步驟(I)中,釣魚網站的URL特征包括 1)URL中存在IP地址; 2)用來對域名進行混淆; 3)URL路徑深度異常; 4)包含特殊字符; 5)存在較多數字、字母相混合的情況; 6)域名字段長度異常; 7)PageRank排名較低; 8)域名由合法域名篡改而來; 9)存在可疑詞匯; 對URL特征I)至6)采用正則表達式匹配的方式獲取,對URL特征7)通過谷歌獲取,對URL特征8)和9)進行特征建模。
4.根據權利要求3所述一種基于URL分類的釣魚網站檢測方法,其特征在于所述步驟(I)中,域名篡改特征的檢測方法為設從URL提取出的域名字符串U = U1, U2,…、Uffl,受保護域名字符串T = tp t2、; 計算分別以Ui和&結束的兩個域名子字符串的最大相似度值,該最大相似度值用Hu表示,那么根據Ui與&相對位置的不同,Hiij值有以下四種情況 1)兩子字符串到Ui與結束時長度相同,此時有 Hi, j = Us(UiJj) 其中
5.根據權利要求3所述一種基于URL分類的釣魚網站檢測方法,其特征在于所述步驟(I)中,可疑詞匯特征的統計步驟為 步驟I :構造一棵空的廣義后綴樹GST,設定路徑結束符為“ $”; 步驟2 將URL字符串產生的后綴依次插入GST,若遇到相同后綴則合并當前節點,若無已存在的相同后綴則分裂當前節點產生新的后綴節點; 步驟3 :重復步驟2直至URL集合中的所有URL處理完畢,此時GST構建完成; 步驟4 :初始化Map集合S〈P,S〉,其中P表示路徑集合,S表示P所對應的字符串; 步驟5 :遍歷GST,對于每個節點所對應的路徑e,查詢其所屬的URL子字符串S,根據s搜索Map集合5得到s所對應的所有路徑集合p’,如果$’=0,則將路徑e和其子字符串s組合成<e,s>加入到Map集合5中,否則轉步驟6 ; 步驟6 :如果e比p’中任一路徑都要長,則p’ = p’ Ue ; 步驟7 :重復步驟5、6,直到所有路徑都遍歷完成; 步驟8 :遍歷集合8〈P,S〉,輸出s出現次數超過k次的s的集合D,D即為所求。
6.根據權利要求I所述一種基于URL分類的釣魚網站檢測方法,其特征在于所述步驟(2)中,根據URL特征向量,采用支持向量機算法對所述URL特征向量進行訓練得到初始分類模型M,用于對待檢測URL進行分類。
7.根據權利要求2所述一種基于URL分類的釣魚網站檢測方法,其特征在于所述在線增量學習策略包括如下步驟 步驟I :定義兩個空數據集C-SET與B-SET,其中C-SET用于存放分類器訓練樣本,B-SET用于存放增量過程中的丟棄樣本; 步驟2 :定義初始樣本集為Yh,此時有C-SET = Yh ; 步驟3 :以Yh為訓練樣本得到初始分類器WH,以Wh檢驗增量樣本集Y1,其中違背KKT條件的樣本記為Y/K,符合KKT條件的樣本記為Y/,若YinK=O則本輪增量結束,否則轉步驟.4 ; 步驟4 :令C-SET=C-SET U Y , B-SET=B-SET U Y115 ;對C-SET進行訓練得到增量分類器屯1;步驟5 :利用對B-SET進行再分類得到YBffi,若Ybnk=0,則為最終增量 分類器,否則令C-SET=C-SET U YBNK,對C-SET進行再次訓練得到修正的最終分類器W。。
全文摘要
本發明公開了一種基于URL分類的釣魚網站檢測方法,包括如下步驟對釣魚網站的URL特征進行歸納分析,并將所述URL特征向量化;根據URL特征向量,對原始數據進行訓練得到初始分類模型。本發明適用性強、效率高。
文檔編號H04L29/06GK102739679SQ20121022350
公開日2012年10月17日 申請日期2012年6月29日 優先權日2012年6月29日
發明者東方, 劉波, 吳江林, 曹玖新, 楊鵬偉, 王田峰, 羅軍舟, 董丹 申請人:東南大學