一種基于密度峰值聚類的網(wǎng)絡(luò)異常流量監(jiān)測系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)入侵檢測、機(jī)器學(xué)習(xí)等領(lǐng)域,尤其涉及一種基于多空間異常賦權(quán) 的無監(jiān)督的網(wǎng)絡(luò)異常流量檢測方法。
【背景技術(shù)】
[0002] 網(wǎng)絡(luò)入侵檢測技術(shù)主要分為誤用檢測(Misuse Detection)和異常檢測(Anomaly Detection)兩類。誤用檢測是將計(jì)算機(jī)行為與已知的應(yīng)用或攻擊特征進(jìn)行比對(duì)的特征匹 配方法,這種方法檢測率比較高,但是只能對(duì)已知的攻擊類型和已知的系統(tǒng)弱點(diǎn)進(jìn)行檢測, 難以檢測出未知的攻擊。而相對(duì)而言,異常檢測是根據(jù)異常監(jiān)視器觀察主體的活動(dòng),然后產(chǎn) 生刻畫這些活動(dòng)行為的輪廓,每一個(gè)輪廓保存記錄主體當(dāng)前的行為,并定時(shí)將當(dāng)前行為與 存儲(chǔ)的輪廓合并,通過比較當(dāng)前行為與已保存的輪廓來判斷異常行為檢測網(wǎng)絡(luò)入侵。大部 分誤用檢測和異常檢測的算法都極大地依賴帶標(biāo)簽的訓(xùn)練數(shù)據(jù)。如果訓(xùn)練數(shù)據(jù)的標(biāo)簽不正 確,通過算法訓(xùn)練得到的正?;虍惓DP途蜁?huì)不準(zhǔn)確,算法的檢測效率就會(huì)大大降低,甚至 算法會(huì)完全失效。而無監(jiān)督入侵檢測算法可以在無標(biāo)簽的數(shù)據(jù)中學(xué)習(xí)并發(fā)現(xiàn)數(shù)據(jù)中的入侵 行為,無監(jiān)督入侵算法的研究是一個(gè)新興的研究方向,具有廣闊的研究前景。
【發(fā)明內(nèi)容】
[0003] 針對(duì)以下現(xiàn)有的不足,提出了一種能適應(yīng)多樣的網(wǎng)絡(luò)環(huán)境,擺脫對(duì)先驗(yàn)知識(shí)的依 賴,并提高檢測精度和準(zhǔn)確率的基于密度峰值聚類的網(wǎng)絡(luò)異常流量監(jiān)測系統(tǒng)。。本發(fā)明的技 術(shù)方案如下:一種基于密度峰值聚類的網(wǎng)絡(luò)異常流量監(jiān)測系統(tǒng),其包括:特征選擇模塊:用 于對(duì)原始網(wǎng)絡(luò)流量數(shù)據(jù)的特征進(jìn)行提取和選擇,按照關(guān)鍵字源IP地址在單位時(shí)間一分鐘 內(nèi)生成21維聚合特征空間數(shù)據(jù);
[0004] 子空間映射模塊:用于將生成的21維聚合特征空間數(shù)據(jù)映射到k個(gè)m維特征的數(shù) 據(jù)子空間上,子空間的維數(shù)小于原空間維數(shù),即m〈21 ;
[0005] 異常權(quán)重賦值模塊:將本網(wǎng)絡(luò)的數(shù)據(jù)流量看作數(shù)據(jù)點(diǎn),根據(jù)數(shù)據(jù)點(diǎn)與相鄰點(diǎn)的距 離大小來計(jì)算出數(shù)據(jù)點(diǎn)的密度值,通過計(jì)算所有比該數(shù)據(jù)點(diǎn)密度更大的點(diǎn)之間的距離來計(jì) 算出最小距離值,結(jié)合密度值和最小距離值計(jì)算出每個(gè)數(shù)據(jù)點(diǎn)的異常權(quán)值;
[0006] 異常權(quán)值整合模塊:將每個(gè)子空間計(jì)算出的異常權(quán)值進(jìn)行整合并計(jì)算出所有網(wǎng)絡(luò) 流量的最終異常權(quán)值;
[0007] 異常權(quán)值閾值確定模塊:將最終異常權(quán)值進(jìn)行逆序排序并生成曲線,取斜率突變 處為異常權(quán)值閾值;
[0008] 異常流量檢測模塊:所有網(wǎng)絡(luò)流量的異常權(quán)值大于閾值的檢測為異常,其余小于 閾值的檢測為正常。
[0009] 進(jìn)一步的,所述特征選擇模塊關(guān)鍵字選取源IP地址或目的IP地址,將抓取的網(wǎng)絡(luò) 流量數(shù)據(jù)根據(jù)時(shí)間戳以每一分鐘為單位聚合起來并計(jì)算提取以下21個(gè)特征向量:單位時(shí) 間內(nèi)記錄條數(shù),源IP地址量,源IP地址數(shù)量熵,源端口數(shù)量,源端口數(shù)量熵,目的IP地址數(shù) 量,目的IP地址數(shù)量熵,目的IP地址編輯距離,目的IP地址編輯距離方差,目的端口數(shù)量, 目的端口數(shù)量熵,上行流量均值,上行流量方差,下行流量均值,下行流量方差,協(xié)議數(shù)量, 協(xié)議數(shù)量熵,源操作系統(tǒng)數(shù)量,源操作系統(tǒng)數(shù)量熵,目的操作系統(tǒng)數(shù)量,目的操作系統(tǒng)數(shù)量 熵。
[0010] 進(jìn)一步的,所述異常權(quán)重賦值模塊計(jì)算該點(diǎn)的密度值具體為:
[0011] 設(shè)該點(diǎn)為i,則點(diǎn)i的密度值p i由以下公式來定義:
[0013] 其中當(dāng)X < 0時(shí)X (X) = 1,否則X (X) = 0, X是函數(shù)的參數(shù),也就是dij-dc的 值,且牝是點(diǎn)i與點(diǎn)j的距離,距離計(jì)算方法采用歐式距離,d。是截?cái)嗑嚯x,其取值是所有 點(diǎn)之間距離的前1 %到2%。
[0014] 進(jìn)一步的,所述異常權(quán)重賦值模塊計(jì)算最小距離值具體為:點(diǎn)j的最小距離δ 以下公式來定義:
[0016] 其中是點(diǎn)i與點(diǎn)j的距離,對(duì)于密度值最大的點(diǎn),其值為δ max 。
[0017] 進(jìn)一步的,每個(gè)點(diǎn)的異常值由以下公式來定義:
[0019] 其中0 < a < l,d]k表示點(diǎn)j與點(diǎn)k的距離;參數(shù)α用來調(diào)整最小距離值δ 1與 密度值Pi可能造成的偏差。
[0020] 進(jìn)一步的,異常權(quán)值整合模塊計(jì)算出最終異常權(quán)值具體為:首先分別計(jì)算出各個(gè) 子空間上的每條網(wǎng)絡(luò)流量數(shù)據(jù)的異常權(quán)值0/ ,然后計(jì)算出原空間上的每條網(wǎng)絡(luò)流量數(shù)據(jù) 的異常權(quán)值<9/,最后通過
的線性組合求出每條網(wǎng)絡(luò)流量數(shù)據(jù)的最終的異常 權(quán)值,其中a和b是組合參數(shù)。
[0021] 進(jìn)一步的,所述異常權(quán)值閾值確定模塊具體為:將最終異常權(quán)值進(jìn)行逆序排序并 生成曲線,取斜率突變處為異常權(quán)值閾值;并依次計(jì)算每兩點(diǎn)之間的斜率,然后比較相鄰斜 率大小,若前后相差〇. 5倍且位于前20%位置則相應(yīng)地選取該處的值為異常權(quán)值閾值,否 則選取第20%位置處的值為異常權(quán)值閾值。
[0022] 本發(fā)明的優(yōu)點(diǎn)及有益效果如下:
[0023] 1、本發(fā)明采用基于無監(jiān)督機(jī)器學(xué)習(xí)的方法,因此可以充分從數(shù)據(jù)中挖掘信息,避 免有監(jiān)督方法中訓(xùn)練集的使用而造成的信息偏置較大等缺點(diǎn)。
[0024] 2、本發(fā)明是基于網(wǎng)絡(luò)的入侵檢測系統(tǒng)。其數(shù)據(jù)分析、檢測基于網(wǎng)絡(luò)流量數(shù)據(jù),因此 可以適應(yīng)較為復(fù)雜的網(wǎng)絡(luò)環(huán)境。
[0025] 3、本發(fā)明具有較好的可拓展性。該方法在運(yùn)行過程中,將持續(xù)采集網(wǎng)絡(luò)流量數(shù)據(jù), 通過異常權(quán)值賦值標(biāo)記所有網(wǎng)絡(luò)流量數(shù)據(jù)。從長遠(yuǎn)的角度來看,這將使得其自動(dòng)識(shí)別并建 立更多的入侵模式。
[0026] 4、本發(fā)明具有較好的兼容性。該方法所采用的技術(shù)是基于無監(jiān)督,不需要對(duì)其他 網(wǎng)絡(luò)系統(tǒng)進(jìn)行過多配置則可以很好的與之兼容。
【附圖說明】
[0027] 圖1是本發(fā)明提供優(yōu)選實(shí)施例總體框架圖;
[0028] 圖2為特征空間映射到子空間流程圖;
[0029] 圖3為子空間和原空間異常流量數(shù)據(jù)異常權(quán)值整合流程圖;
[0030] 圖4為異常權(quán)值的閾值選取的示例圖;
[0031] 圖5為網(wǎng)絡(luò)流量數(shù)據(jù)檢測流程圖
【具體實(shí)施方式】
[0032] 以下結(jié)合附圖,對(duì)本發(fā)明作進(jìn)一步說明:
[0033] 如圖1所示,101特征選擇模塊:對(duì)原始網(wǎng)絡(luò)流量數(shù)據(jù)特征提取和選擇,按照關(guān)鍵 字在單位時(shí)間內(nèi)聚合成新的特征空間數(shù)據(jù);單位時(shí)間的長短決定了特征選擇的粒度的粗 細(xì),根據(jù)最優(yōu)原則,這里單位時(shí)間長度選取一分鐘。關(guān)鍵字選取源IP地址或目的IP地址, 將抓取的網(wǎng)絡(luò)流量數(shù)據(jù)根據(jù)時(shí)間戳以每一分鐘為單位聚合起來并計(jì)算提取以下21個(gè)特征 向量:單位時(shí)間內(nèi)記錄條數(shù),源IP地址量,源IP地址數(shù)量熵,源端口數(shù)量,源端口數(shù)量熵, 目的IP地址數(shù)量,目的IP地址數(shù)量熵,目的IP地址編輯距離,目的IP地址編輯距離方差, 目的端口數(shù)量,目的端口數(shù)量熵,上行流量均值,上行流量方差,下行流量均值,下行流量方 差,協(xié)議數(shù)量,協(xié)議數(shù)量熵,源操作系統(tǒng)數(shù)量,源操作系統(tǒng)數(shù)量熵,目的操作系統(tǒng)數(shù)量,目的 操作系統(tǒng)數(shù)量熵。
[0034] 102子空間映射模塊:將21維特征的數(shù)據(jù)空間映射到k個(gè)m維特征的數(shù)據(jù)子空間 上,子空間的維數(shù)小于原空間維數(shù)m〈21。多維數(shù)據(jù)映射到低維數(shù)據(jù)空間上是基于類簇屬性 單一性的特性,即如果在高維數(shù)據(jù)上有多個(gè)高聚集度的類簇單元,那么這些類簇單元也會(huì) 在低維的空間數(shù)據(jù)上表現(xiàn)出來,意味著高維數(shù)據(jù)空間的屬性信息會(huì)被體現(xiàn)在低維屬性空間 上。數(shù)據(jù)空間維度的減少不僅可以極大減少檢測計(jì)算復(fù)雜度,還可以提供更細(xì)粒度的評(píng)估 分析并更好地提高檢測效果。因此,原21維特征空間數(shù)據(jù)映射到η (n-1)/2 = 210個(gè)子空 間上