本發明涉及數據異常檢測,特別涉及基于貝葉斯優化的網絡流量異常檢測方法。
背景技術:
1、目前,現有專利申請號為:cn202310906687.4的中國專利中公開了一種新型的網絡流量組合預測模型,包括采集原始網絡流量數據,剔除異常網絡流量數據;對剔除異常網絡流量數據時產生的網絡流量缺失數據進行補齊得到更正網絡流量數據;對更正網絡流量數據進行樣本歸一化處理,將更正網絡流量數據的舊時間序列轉換為新時間序列;將新時間序列通過lmd分解為pf分量和余量;對bilstm神經網絡預測模型的超參數進行優化;將pf分量和余量作為訓練數據,采用貝葉斯優化方法得到bilstm神經網絡優化后的超參數;利用貝葉斯優化后的bilstm神經網絡預測模型對pf分量和余量進行預測,分別得到各分量和余量的預測值;對所有預測值進行線性疊加,得到更正網絡流量數據的最終預測值;雖然通過這種方式,使得網絡流量預測更加準確,但是,在實際使用的過程中,無法對數據傳輸的路徑進行優化。
2、但在上述技術方案實施的過程中,發現至少存在如下技術問題:
3、無法有效的對網絡異常流量進行管控,且網絡異常流量檢測重復性大:現有的網絡異常檢測方法主要針對的是經過傳輸后的數據(最終獲取的數據),再對數據進行異常數據分析,將所獲取數據中的異常流量數據剔除,之后再將補全,此方法具有嚴重的滯后性,此外,由于數據傳輸的路徑單一,且無法有效避開存在異常數據的路徑,導致異常數據重復出現在所獲取數據中,所以異常數據識別分析算法在進行運算時,需要花費大量的時間與精力在重復性的工作上,嚴重影響數據的處理效率,例如,當某一個傳輸路徑上出現了異常數據,經過該傳輸路徑的所有原始數據都會有很大的可能性帶有該種異常數據,導致異常數據識別分析系統需要重復的刪除對應的異常數據,隨意這種方式不但容易影響異常數據的根治,同時無法保證原始數據的準確性,為此,我們提出基于貝葉斯優化的網絡流量異常檢測方法。
技術實現思路
1、(一)解決的技術問題
2、針對現有技術的不足,本發明提供了基于貝葉斯優化的網絡流量異常檢測方法,通過獲取原始數據傳輸前后的數據變化情況,推導數據傳輸路徑中存在的風險,方便后續進行規避,從而得到一個能直觀評價該線路所存在風險嚴重程度的數據變化預估值,此外,通過將數據變化預估值與數據傳輸的完整情況結合,得到風險程度的劃分標準,借由該劃分標準將數據變化預估值對應的原始數據分為高異常、低異常、非異常三個擋位,之后再根據異常的擋位情況判定數據傳輸的可靠性,以及異常的檢測力度,從而提高檢測的針對性,為傳輸的傳輸效率提供解決的基礎,解決現有網絡異常檢測方法在使用時,無法有效的對網絡異常流量進行管控,且網絡異常流量檢測重復性大的技術問題。
3、(二)技術方案
4、為實現以上目的,本發明通過以下技術方案予以實現:
5、基于貝葉斯優化的網絡流量異常檢測方法,該檢測方法包括:
6、設定網絡異常流量特征的標準閾值區間,利用netflow流量分析軟件收集網絡傳輸過程中的原始流量數據,再依據設定的標準閾值區間將原始流量數據中的異常流量數據修正;以原始流量數據在傳輸前后的數據變化情況為基礎,檢測原始流量數據在不同路徑上傳輸時的變化程度,其中,網絡異常流量特征包括數據流量、流量傳輸速率、流量類型以及傳輸流量的完整率;
7、以原始流量數據在傳輸前后變化最大的網絡異常流量特征對應的種類為基準,對傳輸路線進行分類;依據所分類型從數據庫中調取經過該傳輸線路的歷史網絡異常流量,并計算歷史網絡異常流量之間的重合評估值,之后按照重合評估值與預設重合閾值區間的位置關系,將歷史網絡異常流量分為重度重合數據、中度重合數據以及輕度重合數據,對于重度重合數據發出禁用指令,將原始流量數據中與重度重合數據相同部分剔除,并重新與網絡異常流量特征的標準閾值區間進行比對;對于中度重合數據則發出溯源指令,獲取中度重合數據出現的節點;對于輕度重合數據則不作響應;
8、調取原始流量數據的可用傳輸路徑,并依據對應傳輸路線上的歷史網絡異常流量之間的重合評估值,生成對應的可信度評估值;按照可信度評估值的大小對原始流量數據的可用傳輸路徑進行排序,將低于預設可信度閾值的傳輸路徑舍棄,記為可信傳輸路徑集;
9、調取可信傳輸路徑集,采用貝葉斯優化對網絡異常流量分類過程中搜索lgbm模型的參數進行組合,輸出優選路徑組合。
10、優選的,原始流量數據中的異常流量數據修正的具體過程如下:
11、根據原始流量數據中各網絡異常流量特征的種類設定對應標準閾值區間,當網絡異常流量特征在與其對應的標準閾值區間內時,則將其剔除;當網絡異常流量特征高于對應的標準閾值區間時,則重新傳輸;反之,當網絡異常流量特征低于對應的標準閾值區間時,則不剔除;
12、根據剔除的異常數據,調取與其對應的流量數據段,將流量數據段補入原始流量數據中,得到補全的原始流量數據。
13、優選的,依據網絡異常流量與標準網絡流量的行為模式不符,將網絡異常流量分為網絡非正常流量量級、網絡流量分布異常、網絡流量傳輸速率異常、網絡流量內容異常以及網絡流量源地址異常;
14、網絡非正常流量量級,網絡異常流量大于標準網絡流量;
15、網絡流量分布異常,與標準網絡流量在不同時間、不同網絡協議和不同通信端口之間有著不同的分布;
16、網絡流量傳輸速率異常,網絡異常流量的傳輸速率通常比標準網絡流量的速率高;
17、網絡流量內容異常,包含與標準網絡流量不同的協議、請求、響應或數據內容;
18、網絡流量源地址異常,非法或虛假的ip地址以及spoofing攻擊。
19、優選的,對原始流量數據傳輸前后的數據變化程度進行分析的過程如下:
20、設定數據傳輸后完整率的分界閾值;
21、調取原始流量數據的傳輸路徑,并記錄原始流量數據在第k條傳輸路線上,數據經過傳輸節點前的正常數據量、數據經過傳輸節點后的正常數據量、誤差次數以及數據變化量,分別記為wz、wr、、;
22、通過分析公式計算原始流量數據在經過傳輸后的完整率,當≥分界閾值時,舍棄該次檢測得到的數據,并將傳輸路徑關閉,反之,則不作響應;
23、將代入分析公式計算出原始流量數據傳輸后的數據變化預估值,式中,表示原始流量數據經過第n條傳輸路線傳輸后的誤差次數,表示原始流量數據經過第n條傳輸路線傳輸后的數據變化量,表示原始流量數據經過第n條傳輸路線傳輸前的正常數據量,表示原始流量數據在經過傳輸節點后的最大完整率,表示原始流量數據在經過傳輸節點后的最小完整率,分別表示原始流量數據平均誤差量、完整率極限差值以及原始流量數據傳輸前后變化值的權值;
24、將原始流量數據傳輸前后的數據變化預估值與傳輸誤差變化標準區間進行比對,并根據比對與數據變化預估值對應的原始流量數據進行分類。
25、優選的,原始流量數據傳輸前后的數據變化預估值與傳輸誤差變化標準區間進行比對的分析過程如下:
26、將計算得到的原始流量數據傳輸前后的數據變化預估值,代入計算出傳輸誤差變化上限標準值和傳輸誤差變化下限標準值,式中,和分別表示預設的傳輸誤差變化上限標準值和傳輸誤差變化下限標準值的常數修正系數;
27、根據傳輸誤差變化上限標準值和傳輸誤差變化下限標準值作為分界線,當數據變化預估值≤下限標準值時,則將該數據變化預估值對應的原始流量數據記為高異常輸送數據,更換傳輸線路,并重新進行傳輸原始流量數據;當下限標準值<數據變化預估值<上限標準值時,則將該數據變化預估值對應的原始流量數據記為低異常輸送數據,重新進行傳輸原始流量數據;當數據變化預估值≥上限標準值,則將該數據變化預估值對應的原始流量數據記為非異常輸送數據,不作響應。
28、優選的,網絡異常流量之間重合評估值的分析過程如下:
29、按照原始流量數據是否相同,將經過同一傳輸線路的歷史網絡異常流量數據分為相同傳輸數據集和差異傳輸數據集;
30、采集相同傳輸數據在傳輸過程中的流量傳輸速率和傳輸流量的完整率,分別記為gv、qx,傳輸流量的完整率qx≠0,并從相同傳輸數據集中隨機選擇兩個相同傳輸數據進行組合,選擇l次;
31、通過分析公式計算相同傳輸數據之間的重合評估值,式中,表示第i組相同傳輸數據之間的重合率,分別表示相同傳輸數據傳輸完整率比例和流量傳輸速率的權重,,且;
32、采集差異傳輸數據在傳輸過程中的流量傳輸速率和傳輸流量的完整率,分別記為gt、qt,并從差異傳輸數據集中隨機選擇兩個差異傳輸數據進行組合,選擇d次;
33、通過分析公式計算差異傳輸數據之間的重合評估值,式中,表示第m組差異傳輸數據之間的重合率,分別表示差異傳輸數據傳輸完整率比例和流量傳輸速率的權重,,且。
34、優選的,將和代入分析公式計算出歷史網絡異常流量之間的重合評估值,式中,分別表示重合比例、相同傳輸數據重合評估值以及差異傳輸數據重合評估值;
35、將重合評估值與預設重合閾值區間進行比對,當重合評估值大于重合閾值區間的最大值時,則將經過該傳輸線路的歷史網絡異常流量記為重度重合數據,執行禁用指令;當重合評估值小于重合閾值區間的最小值時,則將經過該傳輸線路的歷史網絡異常流量記為輕度重合數據,則不做響應;當重合評估值位于重合閾值區間內時,則將經過該傳輸線路的歷史網絡異常流量記為中度重合數據,執行溯源命令。
36、優選的,在接收到溯源指令時,執行溯源命令,具體分析過程如下:
37、獲取中度重合數據傳輸過程中經過的傳輸路徑,記為模擬路徑;
38、向獲取的模擬路徑中輸入傳輸模擬數據,并記錄各節點處的數據;
39、關閉傳輸模擬數據傳輸過程中第一次出現中度重合數據的節點,并將該節點從模擬路徑中剔除并補入可替換節點,重新向模擬路徑中輸入傳輸模擬數據,直至中度重合數據不再出現時停止,將剔除的節點標記為中度異常傳輸節點。
40、優選的,生成對應的可信度評估值所依據的公式如下:
41、
42、式中,分別為歷史網絡異常流量重合評估值和數據變化預估值的比例系數,且。
43、優選的,利用貝葉斯優化lgbm的具體步驟如下:
44、確定待優化的lgbm模型的參數空間;
45、將lgbm模型與待優化參數結合,定義一個目標函數作為優化目標,選定20次交叉驗證的精度平均值作為目標函數;
46、選擇貝葉斯優化(bayesianoptimization)庫,并根據定義的參數空間和目標函數進行初始化;
47、在每一次迭代中,貝葉斯優化器根據當前的參數空間和目標函數進行采樣,得到一組參數取值,使用這組參數訓練lgbm模型,并評估模型在訓練數據上的性能,根據評估結果,更新貝葉斯優化器的模型,并選擇下一組參數進行采樣;迭代過程中貝葉斯優化器不斷更新模型,以尋找目標函數的優選解;
48、當達到預定的迭代次數時,貝葉斯優化過程結束,從優化過程中記錄的參數取值和目標函數的取值中找到優選的參數組合。
49、(三)有益效果
50、1、通過獲取原始數據傳輸前后的數據變化情況,推導數據傳輸路徑中存在的風險,方便后續進行規避,從而得到一個能直觀評價該線路所存在風險嚴重程度的數據變化預估值,此外,通過將數據變化預估值與數據傳輸的完整情況結合,得到風險程度的劃分標準,借由該劃分標準將數據變化預估值對應的原始數據分為高異常、低異常、非異常三個擋位,之后再根據異常的擋位情況判定數據傳輸的可靠性,以及異常的檢測力度,從而提高檢測的針對性,為傳輸的傳輸效率提供解決的基礎。
51、2、按照原始流量數據是否相同,將經過同一傳輸線路的歷史網絡異常流量數據分為相同傳輸數據集和差異傳輸數據集,之后再分別檢測傳輸前后的異常數據重合評估值,由此反映各種異常流量數據的重合情況,再以此為基礎,對存在異常流量數據的線路進行禁用或追溯,從而保證數據在傳輸過程中的準確性,同時還能減小數據傳輸前后的偏差范圍,此外,按照異常數據重合評估值的大小,便可以看出不同輸送線路上,各種異常流量數據的出現概率,由此便可以控制檢測系統對針對高發異常流量數據進行優先檢測,從而進一步提高檢測的效率。