一種網絡流量分類方法
【技術領域】
[0001]本發明涉及一種網絡流量分類方法,具體涉及一種網絡流量分類方法。
【背景技術】
[0002]隨著互聯網規模的擴大和各種高帶寬、多種類網絡服務的廣泛應用,網絡業務數據量急劇上升,網絡數據流智能化管理日益重要。前提就是對數據流類型進行分類識別。
[0003]流量分類不僅要保證準確率,降低時間和內存開銷也成為研宄熱點。現有分類技術中機器學習方法是研宄熱點,分為無監督算法和有監督算法,其中無監督算法根據樣本相似性進行類簇劃分,聚類是應用比較廣泛的無監督算法,主要有基于劃分聚類、基于層次聚類、基于密度聚類和基于網格聚類的算法,其中k-means算法是應用最為廣泛的聚類算法;有監督算法通過訓練已知類別的樣本集調整分類器參數,得到分類器模型。主要有神經網絡、分類決策樹、貝葉斯理論、支持向量機(SVM)等方法。聚類算法準確率較低,有監督算法消耗的系統時間和內存較高。
【發明內容】
[0004]為了克服上述現有技術的不足,本發明提供一種網絡流量分類方法,該方法通過聚類和有監督算法的結合,可以使時間復雜度降低,分類準確率升高,提升了分類效率。
[0005]為了實現上述發明目的,本發明采取如下技術方案:
[0006]一種網絡流量分類方法,所述方法包括如下步驟:
[0007](I)提取網絡流量行為特征集;
[0008](2)獲取分類器模型,將所述行為特征集輸入分類器,進行分類訓練,得到相應參數;分類器性能評估,并優化分類器性能。
[0009]本發明提供的優選技術方案中,所述步驟(I)包括如下步驟:
[0010]A.網絡流量抓取并篩選未知流量數據的關鍵信息;
[0011]B.處理所述關鍵信息,得到更直觀有效的數據信息,以表示未知流量的行為特征;
[0012]C.確定特征集維數,整合所述行為特征,避免信息冗余,并保留有效識別數據流的信息。
[0013]本發明提供的第二優選技術方案中,所述關鍵信息包括數據業務類型、數據包協議、時間和類型。
[0014]本發明提供的第三優選技術方案中,所述步驟(2)包括如下步驟:
[0015]A.選取部分已提取的網絡流量行為特征集進行類別標注,作為新加入的一項行為特征,得到分類器訓練的訓練集和測試集;
[0016]B.將訓練集進行聚類算法,得到新的訓練集;
[0017]C.將新的訓練集進行監督算法,確定分類準則;
[0018]D.測試集輸入分類器進行分類準則測試,并進行準確率評估;
[0019]E.判斷準確率是否符合要求,是則結束;否則返回步驟B,至準確率符合要求。
[0020]本發明提供的第四優選技術方案中,所述步驟B包括如下步驟:
[0021](a)聚類算法參數初始化,訓練集輸入進行訓練;
[0022](b)判斷聚類中心是否收斂,是則執行步驟(C),否則執行步驟(a);
[0023](c)聚類訓練結束后,保存聚類中心和收斂半徑,調整訓練集并去除已聚類的樣本,形成新的訓練集。
[0024]本發明提供的第五優選技術方案中,所涉步驟(C)包括如下步驟:
[0025](a)監督算法參數初始化,輸入新的訓練集進行訓練;
[0026](b)判斷算法是否收斂,是則執行步驟(C),否則執行步驟(a);
[0027](c)監督算法參數確定,分類準則確定。
[0028]本發明提供的第六優選技術方案中,所述訓練集包括部分已標注的特征集和部分未標注的特征集。
[0029]本發明提供的第七優選技術方案中,所述測試集包括部分已標注的特征集和部分未標注的特征集。
[0030]本發明提供的第八優選技術方案中,所述類別標注采用深度包檢測技術。
[0031]本發明提供的第九優選技術方案中,所述分類器性能評估包括對分類器準確率、系統時間和內存開銷的評估。
[0032]與現有技術相比,本發明的有益效果在于:
[0033]本發明結合機器學習方法中無監督和有監督兩種算法進行分類。二者結合可以在保證較高分類準確率的前提下降低系統時間和內存開銷,提升分類效率。
[0034]本發明對聚類算法加以改進,在聚類過程中加入了標注過的樣本點,可以檢測聚類中心是否選取得當,修正誤差和錯誤,降低不符合實際情況的樣本中心點,提升聚類準確率,從而提尚整體性能。
【附圖說明】
[0035]圖1是一種網絡流量分類方法流程圖
[0036]圖2是網絡流量行為特征集提取的流程示意圖
[0037]圖3是分類器模型獲取和優化流程圖
【具體實施方式】
[0038]下面結合附圖對本發明作進一步詳細說明。
[0039]如圖1所示,一種基于聚類和有監督算法的網絡流量分類方法,步驟如下:
[0040]步驟SlOl:網絡數據流提取行為特征;
[0041]步驟S102:獲取分類器模型,將上述行為特征集輸入分類器,進行分類器訓練,得到相應參數;
[0042]步驟S103:分類器性能評估,包括準確率、系統時間和內存開銷等,測試集輸入分類器進行分類,根據準確率調整分類器算法和參數,優化分類器性能。
[0043]如圖2所示,網絡流量行為特性集提取方法,步驟如下:
[0044]步驟S201:網絡流量抓取并篩選未知流量數據的關鍵信息,關鍵信息包括數據業務類型、數據包協議、時間和大小;
[0045]步驟S202:對上述關鍵信息處理,得到更直觀有效的數據信息,以表示未知流量的行為特征;
[0046]步驟S203:確定特征集維數,整合上述行為特征集,避免信息冗余,并保留有效識別數據流的信息。
[0047]如圖3所示,分類器模型獲取和優化方法,步驟如下:
[0048]步驟S301:選取部分已提取的網絡流量行為特征集進行類別標注,作為新加入的一項行為特征,得到分類器訓練的訓練集和測試集;其中標注方法可采用人工或DPI (深度包檢測技術,基于應用層的流量檢測和控制)方法;
[0049]步驟S302:聚類算法參數初始化,訓練集輸入進行訓練;
[0050]步驟S303:判斷聚類中心是否收斂,是則執行S304,否則執行步驟S302 ;
[0051]具體算法為:隨機選取部分標注過的樣本與大量未標注過的樣本共同訓練聚類算法,選取聚類中心,標注過的樣本點可以檢測樣本中心點是否選取得當,修正誤差和錯誤,降低因無監督,僅憑聚類準則得到結果得到不符合實際情況的樣本中心點。根據聚類準則迭代訓練樣本集,終止條件為算法收斂。此時聚類中心和適宜的聚類范圍確定,聚類范圍采用收斂半徑表示;
[0052]步驟S304:保存聚類中心,收斂半徑,調整訓練集,去除已聚類的樣本點并保存;
[0053]聚類訓練結束后,保存聚類中心和收斂半徑,作為未知流量數據分類的聚類判定依據,去除聚類過的樣本點,有監督算法訓練的數據量有所降低,如SVM算法的復雜度在
O(η2)?0(η3)之間,η為樣本數目,這樣有監督算法復雜度大為降低,可以提升訓練效率;
[0054]步驟S305:有監督算法參數初始化,輸入新的訓練集進行訓練;
[0055]步驟S306:判斷算法是否收斂,是則執行S307,否則執行S305 ;
[0056]步驟S307:有監督算法參數確定,分類準則確定;
[0057]步驟S308:測試集輸入分類器進行分類測試,并進行準確率評估;
[0058]步驟S309:判斷準確率是否符合要求,不滿足則返回S302,至分類效果符合要求,主要為分類準確率較高;滿足則確定該分類器模型可行,結束算法。
[0059]最后應當說明的是:以上實施例僅用以說明本發明的技術方案而非對其限制,盡管參照上述實施例對本發明進行了詳細的說明,所屬領域的普通技術人員應當理解:依然可以對本發明的【具體實施方式】進行修改或者等同替換,而未脫離本發明精神和范圍的任何修改或者等同替換,其均應涵蓋在本發明的權利要求范圍當中。
【主權項】
1.一種網絡流量分類方法,其特征在于,所述方法包括如下步驟: (1)提取網絡流量行為特征集; (2)獲取分類器模型,將所述行為特征集輸入分類器,進行分類訓練,得到相應參數;分類器性能評估,并優化分類器性能。
2.根據權利要求1所述網絡流量分類方法,其特征在于,所述步驟(I)包括如下步驟: A.網絡流量抓取并篩選未知流量數據的關鍵信息; B.處理所述關鍵信息,得到更直觀有效的數據信息,以表示未知流量的行為特征; C.確定特征集維數,整合所述行為特征,避免信息冗余,并保留有效識別數據流的信息。
3.根據權利要求2所述網絡流量分類方法,其特征在于,所述關鍵信息包括數據業務類型、數據包協議、時間和類型。
4.根據權利要求1所述網絡流量分類方法,其特征在于,所述步驟(2)包括如下步驟: A.選取部分已提取的網絡流量行為特征集進行類別標注,作為新加入的一項行為特征,得到分類器訓練的訓練集和測試集; B.將訓練集進行聚類算法,得到新的訓練集; C.將新的訓練集進行監督算法,確定分類準則; D.測試集輸入分類器進行分類準則測試,并進行準確率評估; E.判斷準確率是否符合要求,是則結束;否則返回步驟B,至準確率符合要求。
5.根據權利要求4所述網絡流量分類方法,其特征在于,所述步驟B包括如下步驟: (a)聚類算法參數初始化,訓練集輸入進行訓練; (b)判斷聚類中心是否收斂,是則執行步驟(C),否則執行步驟(a); (c)聚類訓練結束后,保存聚類中心和收斂半徑,調整訓練集并去除已聚類的樣本,形成新的訓練集。
6.根據權利要求4所述網絡流量分類方法,其特征在于,所涉步驟(C)包括如下步驟: (a)監督算法參數初始化,輸入新的訓練集進行訓練; (b)判斷算法是否收斂,是則執行步驟(C),否則執行步驟(a); (c)監督算法參數確定,分類準則確定。
7.根據權利要求4所述網絡流量分類方法,其特征在于,所述訓練集包括部分已標注的特征集和部分未標注的特征集。
8.根據權利要求4所述網絡流量分類方法,其特征在于,所述測試集包括部分已標注的特征集和部分未標注的特征集。
9.根據權利要求4所述網絡流量分類方法,其特征在于,所述類別標注采用深度包檢測技術。
10.根據權利要求1所述網絡流量分類方法,其特征在于,所述分類器性能評估包括對分類器準確率、系統時間和內存開銷的評估。
【專利摘要】本發明提供一種網絡流量分類方法,所述方法包括(1)提取網絡流量行為特征集;(2)獲取分類器模型,將所述行為特征集輸入分類器,進行分類訓練,得到相應參數;分類器性能評估,并優化分類器性能。本發明結合機器學習方法中無監督和有監督兩種算法進行分類。二者結合可以在保證較高分類準確率的前提下降低系統時間和內存開銷,提升分類效率。對聚類算法加以改進,提升聚類準確率,從而提高整體性能。
【IPC分類】H04L12-801, H04L12-26
【公開號】CN104767692
【申請號】CN201510176138
【發明人】張庚, 孫勇, 孫振超, 張然, 周禹, 鐘卓健, 李思珍, 汪洋, 劉世棟, 郭經紅, 蘇斕, 丁慧霞, 王智慧, 王妙心, 李哲, 高強
【申請人】中國電力科學研究院, 國家電網公司, 北京郵電大學, 江蘇省電力公司
【公開日】2015年7月8日
【申請日】2015年4月15日