基于可視化聚類的網絡流量異常分析方法
【專利摘要】本發明公開了一種基于可視化聚類對網絡流量進行異常分析的方法,步驟為:1)對網絡流量監控數據記錄進行預處理;2)對流量數據進行RadViz可視聚類,得到網絡流量特征類似的流量時隙聚類;3)歸納2)所得到的流量時隙聚類的網絡流量特征,得到流量特征異常的聚類;4)對2)所得到的流量時隙聚類過濾選擇,得到不在聚類內離散的時隙點;5)結合IPPort矩陣對3)4)所得到的流量異常聚類中的和離散的時隙點進行分析。本發明能結合多角度快速對網絡流量進行協同過濾,高效分析出網絡流量的異常。
【專利說明】基于可視化聚類的網絡流量異常分析方法
【技術領域】
[0001] 本發明涉及一種基于可視化聚類的網絡流量異常分析方法。
【背景技術】
[0002] 流量是網絡中傳播的數據量,數據傳輸是網絡活動的基礎,網絡流量就是網絡活 動最重要的標志之一,幾乎所有的網絡應用和網絡攻擊在流量變化上都有跡可循。如今信 息社會進入大數據時代,網絡規模日益壯大,設備集成程度越來越高,數據容量越來越大, 新興的網絡業務正在逐漸被開發,網絡流量呈爆發性的增長,這些都有可能使得網絡出現 狀況。
[0003] 由于網絡流量數據的海量和高維,傳統的數據挖掘技術和算法讓用戶難以理解和 使用,往往耗費大量的時間,也未能分析清楚數據之間的關聯來反應完整的網絡狀態,而且 不能以用戶為驅動進行交互。而實踐證明,用可視化的方法描述龐大的流量數據集合和復 雜的關聯規則,讓用戶在易于理解的圖形結構中對流量進行直觀的可視分析,效率和效果 都會比對著一堆數據操作好很多。用戶在看到直觀的圖片形式的網絡流量表示圖后,可以 較快的對當前流量有一個清楚的認識,同時也便于用戶繼續執行流量分析及異常判斷的步 驟。
[0004] 基于可視化方法對網絡流量進行異常分析,能幫助用戶直觀地感受網絡狀態的發 展,使用戶能夠在及時找出故障原因,預測運行態勢,規避網絡危險,從而做到防微杜漸,穩 定網絡環境,提升網絡性能。
【發明內容】
[0005] 本發明的主要目的是針對如今呈爆發性的增長的網絡流量和網絡問題,提出一種 基于可視化聚類的,結合多角度快速對網絡流量進行協同過濾可視聚類的方法,能高效分 析出網絡流量的異常。
[0006] 為了實現上述技術目的,本發明的技術方案是,
[0007] -種基于可視化聚類對網絡流量進行異常分析的方法,包括:
[0008] 步驟1):對需監控的時間段內網絡流量監控數據記錄進行預處理,得到反應流量 特征的關于各個時隙slot點的集合P的流量信息表Netflow_Info_Table ;
[0009] 步驟2):根據步驟1)得到的流量信息表Netflow_Info_Table,對集合p進行 RadViz可視聚類,得到網絡流量特征類似的時隙點聚類;
[0010] 步驟3):初步歸納步驟2)得到的時隙點聚類的網絡流量特征,得到Radviz中流 量特征異常聚類中的時隙點集si ;
[0011] 步驟4):根據步驟2)得到的時隙點聚類圖像進行過濾選擇,得到不在聚類內的離 散時隙點集s2 ;
[0012] 步驟5):根據步驟3)和步驟4)得到的點集合si、s2,用IPPort矩陣反映每個時 隙點的IP和端口的流量、連接情況,利用IPPort矩陣判斷哪些時間點發生了何種異常,完 成對該時間段網絡流量的異常分析。
[0013] 所述的一種基于可視化聚類對網絡流量進行異常分析的方法,所述步驟1)包括:
[0014] 步驟1. 1):提取需監控時間段內的網絡流量監控數據中的描述網絡流量特征 數據,即提取每一條流記錄的時隙slot、發送方源IPsip、接收方目的IPdip、發送方端口 sport、接收方端口 dport、傳輸流大小byte字段;
[0015] 步驟1. 2):根據步驟I. 1)得到的網絡流量特征數據,計算對應每個時隙網絡流 量數據特征的相關統計信息,包括該時隙的源IP標準熵sipNormEntro、目的IP標準熵 dipNormEntro,源端口標準熵 sportNormEntro、目的端口標準熵 dportNormEntro ;該時隙 的主機總連接數sumCount ;該時隙的總流量大小sumByte ;并將每一個時隙點加入時隙 slot點集合p中,其中Pi代表集合p中第i個時隙點;
[0016] 步驟1. 3):根據步驟1. 2)計算得到的對應每個時隙網絡流量數據特征的相關統 計信息,建立關于各個時隙slot點集合p的流量信息表Netflow_Info_Table。
[0017] 所述的一種基于可視化聚類對網絡流量進行異常分析的方法,所述步驟2)包括:
[0018] 步驟2. 1):選取源IP標準熵sipNormEntro、目的IP標準熵dipNormEntro,源端 口標準熵sportNormEntro、目的端口標準熵dportNormEntro ;主機總連接數sumCount ;總 流量大小sumByte作為6個維度的錨點,將其均勻分布在RadViz圓周;
[0019] 步驟2. 2):對時隙slot點集p中每個流量時隙點進行Radviz聚類,每個時隙點 在Radviz以半徑r的圓表示,r介于RadViz圓半徑的1/60與1/70之間,受其對應維度錨 點產生的彈簧力而在RadViz中處于平衡位置;
[0020] 步驟2. 3):用K-Means算法對RadViz圓環內時隙點聚類,設置初始聚類個數 K=[# ],X為流量信息表Netfl〇W_Inf〇_Table中時隙記錄條數;聚類內記錄個數限制 Nummin = 30 ;在RadViz中隨機選定K個時隙點作為聚類質心Centroid,每個質心代表聚類 Ci, i = 1,2, ···,!(;第一步對每個時隙點分別計算其到各個聚類質心的距離,選取距離該時 隙點最近的聚類Ci作為這個時隙點的聚類;第二步對每個聚類重新計算質心,即對聚類中 所有的點求平均坐標并作為新的質心;重復迭代第一步和第二步直到前后質心變動的距離 d不大于時隙點半徑r ;第三步逐個判斷每個聚類中記錄個數Numi是否小于類內記錄個數 限制Nummin,若Num i < Nummin,則取消該聚類,K = K-I ;聚類內的時隙點回復未被聚集狀態; 聚類Ci半徑Ri為聚類Ci的質心到邊緣時隙點最大值,其中R i的最大值為Rmax ;
[0021] 步驟2.4):對步驟2.3)中的初始聚類個數K、聚類內記錄個數限制Num min進行調 整,重復執行步驟2. 3),直到任一聚類Ci半徑Ri總小于與之相鄰聚類間質心距離,即得到 最終聚類結果,其中初始聚類個數K的調整范圍為0到I'
【權利要求】
1. 一種基于可視化聚類對網絡流量進行異常分析的方法,其特征在于,包括: 步驟1):對需監控的時間段內網絡流量監控數據記錄進行預處理,得到反應流量特征 的關于各個時隙slot點的集合P的流量信息表Netflow_Info_Table ; 步驟2):根據步驟1)得到的流量信息表Netflow_Info_Table,對集合p進行RadViz 可視聚類,得到網絡流量特征類似的時隙點聚類; 步驟3):初步歸納步驟2)得到的時隙點聚類的網絡流量特征,得到Radviz中流量特 征異常聚類中的時隙點集si; 步驟4):根據步驟2)得到的時隙點聚類圖像進行過濾選擇,得到不在聚類內的離散時 隙點集s2 ; 步驟5):根據步驟3)和步驟4)得到的點集合si、s2,用IPPort矩陣反映每個時隙點 的IP和端口的流量、連接情況,利用IPPort矩陣判斷哪些時間點發生了何種異常,完成對 該時間段網絡流量的異常分析。
2. 根據權利要求1所述的一種基于可視化聚類對網絡流量進行異常分析的方法,其特 征在于,所述步驟1)包括: 步驟1. 1):提取需監控時間段內的網絡流量監控數據中的描述網絡流量特征數據,即 提取每一條流記錄的時隙slot、發送方源IPsip、接收方目的IPdip、發送方端口 sport、接 收方端口 dport、傳輸流大小byte字段; 步驟1.2):根據步驟1.1)得到的網絡流量特征數據,計算對應每個時隙網絡流量 數據特征的相關統計信息,包括該時隙的源IP標準熵SipNormEntro、目的IP標準熵 dipNormEntro,源端口標準熵 sportNormEntro、目的端口標準熵 dportNormEntro ;該時隙 的主機總連接數sumCount ;該時隙的總流量大小sumByte ;并將每一個時隙點加入時隙 slot點集合p中,其中Pi代表集合p中第i個時隙點; 步驟1. 3):根據步驟1. 2)計算得到的對應每個時隙網絡流量數據特征的相關統計信 息,建立關于各個時隙slot點集合p的流量信息表Netflow_Info_Table。
3. 根據權利要求2所述的一種基于可視化聚類對網絡流量進行異常分析的方法,其特 征在于,所述步驟2)包括: 步驟2. 1):選取源IP標準熵sipNormEntro、目的IP標準熵dipNormEntro,源端口標 準熵sportNormEntro、目的端口標準熵dportNormEntro ;主機總連接數sumCount ;總流量 大小sumByte作為6個維度的錨點,將其均勻分布在RadViz圓周; 步驟2. 2):對時隙slot點集p中每個流量時隙點進行Radviz聚類,每個時隙點在 Radviz以半徑r的圓表示,r介于RadViz圓半徑的1/60與1/70之間,受其對應維度錨點 產生的彈簧力而在RadViz中處于平衡位置; 步驟2. 3):用K-Means算法對RadViz圓環內時隙點聚類,設置初始聚類個數K= [一7 ], X為流量信息表Netflow_Info_Table中時隙記錄條數;聚類內記錄個數限制Nummin = 30 ; 在RadViz中隨機選定K個時隙點作為聚類質心Centroid,每個質心代表聚類Ci, i = 1, 2,· · ·,Κ;第一步對每個時隙點分別計算其到各個聚類質心的距離,選取距離該時隙點 最近的聚類Ci作為這個時隙點的聚類;第二步對每個聚類重新計算質心,即對聚類中所有 的點求平均坐標并作為新的質心;重復迭代第一步和第二步直到前后質心變動的距離d不 大于時隙點半徑r ;第三步逐個判斷每個聚類中記錄個數Numi是否小于類內記錄個數限制 Nummin,若Numi < Nummin,則取消該聚類,K = K-I ;聚類內的時隙點回復未被聚集狀態;聚類 Ci半徑Ri為聚類Ci的質心到邊緣時隙點最大值,其中Ri的最大值為R max ; 步驟2.4):對步驟2. 3)中的初始聚類個數K、聚類內記錄個數限制Nummin進行調整,重 復執行步驟2. 3),直到任一聚類Ci半徑Ri總小于與之相鄰聚類間質心距離,即得到最終聚 類結果,其中初始聚類個數K的調整范圍為O到之間的整數,聚類內記錄個數限制 Numniin為大于O的整數。
4. 根據權利要求3所述的一種基于可視化聚類對網絡流量進行異常分析的方法,其特 征在于,所述步驟2. 4)中,最終聚類結果中的不同聚類由用戶進行調整,包括: 步驟2.5):對步驟2. 4)中得到的每一個聚類Ci,首先統計該聚類中記錄個數Numi,然 后以該聚類質心為圓心,以一半聚類半徑即學:為半徑,統計此區域內包含記錄個數ruim,若 num< pumi,則認為聚類(^記錄點分布離散,取消該聚類;若nmiS >mi,則記錄 來作為衡量聚類Ci的記錄密度,其中Pi的最小值為Pmin ; 步驟2.6):對步驟2. 4)中由于Nummin限制未被聚類的時隙點,以及步驟2. 5)中分散 的時隙點,由用戶選擇組成新的聚類:第一步,隨機選擇一未被聚類的時隙點作為新聚類質 心,然后以此時隙點為圓心、不大于當前已有聚類的最大半徑R max的距離為半徑,隨機選擇 該范圍內的另一未被聚類的時隙點加入點集作為新聚類中的點,然后重新計算點集內所有 點的平均坐標作為新的聚類質心,再以新的質心為圓心,半徑保持不變,繼續加入新的時隙 點并計算質心,直至范圍內沒有未被聚類的時隙點或點集加入時隙點會成為已形成過的不 能聚類的點集為止;第二步,設所選點集中時隙點個數為η、點集中所有點的平均坐標到點 集中任一點的最大值為1,若滿足則認為六個維度對點集中時隙點影響相似,所選 點集成為新的聚類,若不滿足,則認為所形成的點集不符合聚類要求,記錄該點集內容并標 記為不能聚類的點集并取消聚類;隨后重復進行第一步和第二步,直到連續3次出現點集 為已形成過的不能聚類的點集,則認為剩下的離散點再不能構成聚類。
5. 根據權利要求4所述的一種基于可視化聚類對網絡流量進行異常分析的方法,其特 征在于,對所述步驟3)包括: 步驟3. 1):通過步驟2) RadViz可視聚類,將Radviz圓心往每一聚類Ci的質心的向量, 向圓心到源ip,目的ip,源端口,目的端口,連接數,流量大小六個維度錨點方向進行分解, 得到六個維度的分量 SipEi、(IipEi、SportEi、(IportEi、Counter i、bytei,如果滿足關系(SipEi > 0) Π (ClipEi < 0) Π (ClportEi < 0),則認為聚類Ci符合DDos攻擊的圖像特征,標記Ci 為異常聚類;如果滿足(SipEi < 0) Π (ClipEi < 0) Π (ClportEi > 0),符合端口掃描攻擊的 圖像特征,標記Ci為異常聚類; 步驟3. 2):對于步驟1. 2)時隙slot點集ρ中的每一時隙點Pi,確定Pi為步驟2)所 得到RadViz中的哪個聚類,若Pi所在聚類為步驟3. 1)異常聚類,將Pi加入特征異常的聚 類中的時隙點集si中。
6. 根據權利要求1所述的一種基于可視化聚類對網絡流量進行異常分析的方法,其特 征在于,所述步驟4):根據得到的時間點聚類Radviz圖像進行過濾選擇,對于步驟I. 2)時 隙slot點集p中的每一時隙點Pi,若Pi不為步驟2)中聚類的點,將Pi加入不在聚類內的 離散時隙點集s2中。
7.根據權利要求1所述的一種基于可視化聚類對網絡流量進行異常分析的方法,其特 征在于,所述步驟5)包括: 步驟5. 1):建立IPPort矩陣來反應時隙點6個維度的網絡流量特征,IPPort包括源 IP,目的IP,源端口,目的端口四個矩陣;將網絡中的主機按順序排列到到IP矩陣中,每個 單位代表一個主機IP ;將主機中端口按順序排列到Port矩陣中,每個單位代表一個端口; 對應IP和Port中的流量和連接數映射到對應矩陣的顏色,顏色由暗到亮對應數量級由低 到高;并且實現四個矩陣對應固定某個IP或端口的交互過濾; 步驟5. 2):根據步驟1. 3)得到的流量信息表Netfl〇W_Inf〇_Table將sl、s2中時隙點 的流量信息映射到IPPort矩陣中; 步驟5. 3):根據對應時隙點的IPPort矩陣中由顏色代表的流量大小和連接數的分布, 選擇其中對應大數量級顏色的IP或端口,固定該IP或端口進行交互,過濾掉與之無關的流 量信息,快速定位到網絡可疑處查看流量分布情況,記錄下所發現的異常信息,包括異常的 時間點、異常類型和異常的IP與端口。
【文檔編號】H04L12/24GK104394021SQ201410745810
【公開日】2015年3月4日 申請日期:2014年12月9日 優先權日:2014年12月9日
【發明者】周芳芳, 王俊韡, 趙穎, 彭燕妮, 施榮華, 樊曉平 申請人:中南大學