專利名稱:基于url分類的釣魚網站檢測方法
技術領域:
本發明涉及網絡安全領域,涉及一種反網絡釣魚的方法,特別涉及一種基于URL分類的釣魚網站檢測方法。
背景技術:
網絡釣魚攻擊已經成為當前網上交易安全的一個重大威脅,其對電子商務的發展造成了很大阻礙,因而對釣魚防范的研究成為網絡安全領域的熱點問題。釣魚網站的規模逐年成倍遞增,從機器學習與模式識別角度講,大量的釣魚網站已經呈現出一種有跡可循的模式,這給用模式識別的方法進行學習分類帶來了一定的應用空間。目前存在的基于模式識別的釣魚網站判別方法主要有I.基于郵件特征的釣魚郵件檢測方法。其主要方法是通過對大量釣魚郵件的學習·訓練找出一組普遍存在的現象特征。方案從郵件的語言,布局以及結構入手獲取諸如特殊句法,結構布局特點,詞匯使用模式,反常語言應用等特征。2.基于網頁文本特征的釣魚網頁檢測方法。該方法借助于TF-IDF算法計算一篇文檔中的重要程度較高的詞匯,然后以這些詞匯為網頁特征對網頁進行分類,分類過程借鑒了 google對網頁的評價排名。3.基于網頁圖像相似度得釣魚網頁檢測。首先將HTML網頁轉換為標準圖片形式,提取主色調和圖片重心位置等屬性標示圖片特征,然后應用EMD(Earth Mover’ sDistance)算法計算兩圖像間的相似度,設定一個閾值判斷當前網頁是否有模仿現象。目前釣魚檢測方法存在一定的不足,無論是基于郵件特征還是基于網頁特征都要通過對郵件或網頁內容進行整體分析,這可能帶來以下問題,一是郵件或網頁標準不統一,這導致預先設定的檢測特征有可能缺失;二是對郵件或網頁進行整體分析花費時間較多,從應用角度來講可能超過用戶所能忍受的網絡延時;三是受保護機構合法郵件或網頁更新時,檢測機構沒有相應的聯動機制。
發明內容
本發明的目的是針對現有技術的不足,提供一種適用性強、效率高的基于統一標準的URL的釣魚檢測方法。本發明采用的技術方案是一種基于URL分類的釣魚網站檢測方法,該方法包括以下步驟(I)、對釣魚URL特征進行歸納分析,包括數值特征和布爾特征,數值特征有1)包含IP地址的個數2)包含”的個數;3)域名位置的字符長度4)包含的個數5)包含的數字字母組合個數6) google PageRank值;布爾特征包括兩部分,一是域名相關特征,二是關鍵詞相關特征。其中前一種表示是否有域名模仿現象;后一種包括釣魚URL中出現頻率較高的關鍵詞在當前URL中的存在情況。上述對釣魚URL特征進行歸納具體包括
1)URL中存在IP地址。一定比例的釣魚URL包含有IP地址,而在合法URL中幾乎不存在包含IP地址的情況;2)用”來對域名進行混淆。釣魚網頁往往通過用很多”來隔開一個正常的字段以達到迷惑用戶的目的,如 http://paypal. com. online-update. onlinebanking.service, customer. /...而這種URL在合法網站幾乎很少見到;3) URL路徑深度異常。即URL中包括“/”的數目,偽造的URL通過加長路徑來混淆合法網址;4)包含特殊字符。如在釣魚URL中經常會出現;5)存在較多數字、字母相混合的情況。該特征在合法URL與釣魚URL中都有體現,但在釣魚URL中更為明顯;6)域名字段長度異常。一般情況下,認為出現在‘http://’與第一個‘/’之間的·字符串為域名字段,大部分合法URL的域名長度比較適中,而有一部分釣魚URL此部分長度顯得過長;7) PageRank排名較低。PageRank是Google對所收錄網頁按照重要程度進行的排名,在檢測中發現,絕大部分釣魚URL此項數值較低或沒有記錄;8)合法域名篡改。釣魚網站域名往往對合法網站域名進行篡改,如把“paypal”中的字母“ I ”替換為數字“ I ”,根據一定方法可以對該現象進行檢測。9)可疑詞匯。釣魚URL中有些詞匯出現頻率較高,如“login”,“account”等,根據一定方法可以對這些可疑詞匯進行統計提取。采用特定方法檢測域名篡改現象與統計可疑關鍵詞。所述域名篡改檢測方法為假設從URL提取出的域名字符串U = U1IV" Um,受保護域名字符串T = ^t2-tn,目標是計算U和T的最大相似度值S (U,T)。采用動態規劃思想,選擇計算分別以Ui和&結束的兩個域名字符串分段的最大相似度值問題作為子問題,該相似度值用Hi, j表示,那么根據Ui與相對位置的不同與Hi, j值有四種情況I)兩子字符串到Ui與&結束時長度相同,此時有
「. TT TT, , s. [+ Wmatch,—w ul = f
I11 i-Lj-l n dismaich,ui . 1J其中Wmatdl與Wdismatdl分別表示Ui與tj相同和相異時的權值。2)以Ui結束的子字符串在Ui之前存在長度為k的缺失值,此時有Hi, j = Hi^rWk.其中Wk為缺失懲罰值。3)與2)類似的,以tj結束的子字符串在tj之前存在長度為I的缺失值,此時有Hi;J = Hi, H-W1.其中W1為缺失懲罰值。4)當i = 0或j = 0時,為防止出現負的匹配值,定義此時的Hiij為0,即Hi0 = H0j = O.綜合上述四種情況,可以得到遞歸公式
權利要求
1.一種基于URL分類的釣魚網站檢測方法,其特征在于,該方法包括以下步驟 (1)、對釣魚URL特征進行歸納分析,包括數值特征和布爾特征,布爾特征包括域名相關特征和關鍵詞相關特征,采用特定方法檢測域名篡改現象與統計可疑關鍵詞; (2)、根據特征建模結果,采用支持向量機算法對原始數據進行訓練得到初始分類模型,根據此分類模型可以對待檢測的URL進行檢測; (3)、為適應釣魚攻擊行為的多變性,檢測釣魚網站的服務器根據特定的在線增量學習策略對當前分類模型進行升級。
2.根據權利要求I所述的基于URL分類的釣魚網站檢測方法,其特征在于 所述步驟(I)中域名篡改檢測方法為 假設從URL提取出的域名字符串U = U1Uf Um,受保護域名字符串T = ^t2-tn,目標是計算U和T的最大相似度值S (U,T)。
采用動態規劃思想,選擇計算分別以Ui和&結束的兩個域名字符串分段的最大相似度值問題作為子問題,該相似度值用Hi, j表示,那么根據Ui與相對位置的不同與Hi, j值有四種情況 1)兩子字符串到Ui與結束時長度相同,此時有 rr rr, ( ^ f+W,natc ^r =(} 好y=K—W—1+電 4=斤—講= / 111 /-!,./-I n dismatch,ui 1J 其中Wmateh與 "^dismatch 分別表不Ui與tj相同和相異時的權值。
2)以Ui結束的子字符串在Ui之前存在長度為k的缺失值,此時有 Hi, j = Hi^rWk. 其中Wk為缺失懲罰值。
3)與2)類似的,以結束的子字符串在之前存在長度為I的缺失值,此時有 Hi, j = Hi, H-W1- 其中W1為缺失懲罰值。
4)當i= 0或j = 0時,為防止出現負的匹配值,定義此時的Hi, j為0,即氏,。=H0;j=0. 綜合上述四種情況,可以得到遞歸公式 O' +S(UtJj) Hj —w,),I ^ i ^ m, I ^ j ^ n Iaax(Hihl-W1) 利用上述遞歸公式對兩域名進行計算得到一個m*n的矩陣H。兩域名的最大相似度值即矩陣的最大值h(m,n)。根據目標受保護域名(即域名T)的長度進行規格化處理,之后得到U的域名相似系數 T肩,當TMu=I時表示U與目標合法域名完全匹配,對于其 f} Wmatch他情況,給定一個域名模仿的閾值區間(Gf2LiTMuG (f1; f2)時表示極有可能為域名模仿現象。在發明將此區間設置為(0.5,I)。
3.根據權利要求I所述的基于URL分類的釣魚網站檢測方法,其特征在于所述可疑關鍵詞統計方法為 步驟I.構造一棵空的廣義后綴樹(GST),設定路徑結束符為“$”; 步驟2.將URL字符串產生的后綴依次插入GST,若遇到相同后綴則合并當前節點,若無已存在后綴則分裂當前節點產生新的后綴節點; 步驟3.重復步驟2直至URL集合中的所有URL處理完畢,此時GST構建完成; 步驟4.設置Map集合〈P,S〉,其中P表示路徑集合,S表示P所對應的字符串; 步驟5.遍歷GST,對于每個節點所對應的路徑e,查詢其所屬于的URL子字符串s,根據s搜索Map集合得到s所對應的所有路徑集合p’,如果p =0,令=U <e, s>否則轉步驟6; 步驟6.如果e比p’中任一路徑都要長,令p’ =p’ U e ; 步驟7.重復步驟5、6,直到所有路徑都遍歷完成; 步驟8.遍歷集合〈P,S〉,輸出s出現次數超過k次的響應P集合D,D即為所求。
4.根據權利要求I所述的基于URL分類的釣魚網站檢測方法,其特征在于所述步驟(2)中得到初始分類模型步驟如下 步驟I.根據特征建模結果,將原始URL記錄轉換成特征向量。
步驟2.采用支持向量機算法對這些特征向量進行訓練得到初始分類模型M,用于對待檢測URL進行分類。
5.根據權利要求I所述的基于URL分類的釣魚網站檢測方法,其特征在于所述步驟(3)中在線增量學習策略如下 步驟I.定義兩個空數據集C-SET與B-SET,其中C-SET用于存放分類器訓 練樣本,B-SET存放增量過程中的丟棄樣本。
步驟2.定義初始樣本集為Yh,此時有C-SET = Yh 步驟3.以Yh為訓練樣本得到初始分類器WH。以Wh檢驗增量樣本集Y1, 其中違背KKT條件的樣本記為Y嚴,符合KKT條件的樣本記為Y/,若Yf=0則本輪增量結束否則轉步驟4 步驟4.令C-SET=C-SET U YiniSB-SET=B-SET U Y/。對C-SET進行訓練得到增量分類器 步驟5.利用$1對8-3£1'進行再分類得到¥^,若11#二0則W1為最終增量分類器。否則令C-SET=C-SET U YBNK,對C-SET進行再次訓練得到修正的最終分類器W。。
全文摘要
本發明公開了一種基于URL分類的釣魚網站檢測方法,首先對URL特征進行建模,針對特征中的域名模仿現象,本發明提出了一種利用動態規劃思想對可疑域名和受保護域名進行相似度計算的方法,為收集釣魚URL高頻可疑字符特征,本發明提出了一種基于廣義后綴樹的可疑字符提取算法,之后在特征建模基礎上利用支持向量機(SVM)算法對實驗訓練集進行了分類訓練,訓練結果得到SVM分類模型,用于對待檢測URL進行分類,檢測釣魚網站的服務器根據特定的在線增量學習策略對當前SVM分類模型進行升級。
文檔編號H04L29/06GK102790762SQ20121020270
公開日2012年11月21日 申請日期2012年6月18日 優先權日2012年6月18日
發明者東方, 劉波, 吳江林, 曹玖新, 楊鵬偉, 王田峰, 羅軍舟, 董丹 申請人:東南大學