加密網絡流聲紋特征向量提取方法
【專利摘要】本發明提供了一種加密網絡流聲紋特征向量提取方法,包括步驟:S2.為加密網絡流建立一個聲紋特征向量提取滑動窗口;S3.使用當前數據包更新聲紋特征向量提取滑動窗口;S5.過濾聲紋特征向量提取滑動窗口;S7.從滑動窗口中篩選出連續超過k個單元的單元組;S9.按順序提取每個單元組的聲紋特征。本發明提取的聲紋特征能夠有效地刻畫網絡流的動態特征。本發明的方法不僅繼承了傳統的網絡流統計特征提取方法的優勢,還能夠提供更加豐富且可靠的知識,可以為高速網絡中高性能流量分類系統的設計和實現提供技術支持。
【專利說明】加密網絡流聲紋特征向量提取方法
【技術領域】
[0001]本發明屬于網絡技術中流量分類【技術領域】,尤其涉及加密網絡流聲紋特征向量提取方法。
【背景技術】
[0002]網絡技術和網絡帶寬的迅速發展對網絡安全提出了新的挑戰:首先,網絡中的數據流量成倍增加,網絡數據高速無窮到達,且不間斷,呈現海量數據特點,并且本地無法進行存儲。因此,傳統基于數據包載荷的流量分類技術的效率無法滿足需要;其次,網絡承載的業務也越來越豐富,越來越多的網絡業務使用加密協議封裝后傳輸,加密協議的廣泛使用,使得傳統基于數據包載荷的流量分類技術無法找到有效的關鍵字,已經嚴重失效。
[0003]針對上述問題,業界提出了基于網絡流的流量分類技術。網絡流是兩個網絡實體之間持續一段時間并屬于相同流屬性值集的數據包序列。作為一種數據交換方式,網絡流從一個微觀層面上反映了主機行為和主機之間相互通信的細節。通過收集IP協議流量信息,網絡流能夠為流量分類系統提供精確、高效、可靠的處理對象。網絡流是目前流量分類【技術領域】的熱點,它的應用能夠提升流量分類系統在高速網絡中的性能。
[0004]思科公司首先提出了網絡流的概念,并引入了兩個重要的參數:流規范(flowspecification)和流超時(flow timeout)。
[0005]流規范的定義可以用一個五元組來表示:
[0006]1、源 IP 地址;
[0007]2、目的IP地址;
[0008]3、TCP/UDP協議的原始端口號(O代表其它協議);
[0009]4、TCP/UDP協議的目的端口號(O代表其它協議);
[0010]5、IP協議類型。
[0011]按照流規范的定義,對于一個新進的網絡數據包,如果在Cache (高速緩沖存儲器)中無法能夠找到與之相對應的網絡流信息,則在Cache中創建一個新的網絡流。
[0012]流超時規定了 4個規則來判定一個網絡流是否終結:
[0013]1、TCP協議標志位是FIN或者RST ;
[0014]2、收到一個數據包后15秒內沒有另外的數據包到達;
[0015]3、網絡流創建30分鐘;
[0016]4、網絡流的Cache已滿。
[0017]基于網絡流的流量分類技術從網絡流中提取統計特征,然后利用機器學習等方法對提取的統計特征進行建模和分類。因此,該技術能夠在不檢測數據包載荷的前提下,實現流量的分類。基于網絡流的流量分類技術已經成為業界熱點。然而,隨著加密協議的不斷演化,利用加密協議的傳播手段越來越靈活,基于網絡流的流量分類技術的效果也受到越來越多的挑戰。其中,影響該技術效果的主要原因在于統計特征向量的提取方法:
[0018]首先,許多私有加密協議模仿一些公開的加密協議進行業務傳播,而私有協議和被模仿的加密協議在統計特征上極其相似,這就使得基于網絡流的流量分類技術無法正確地將這些私有加密協議和被模仿的公開加密協議進行分類。
[0019]其次,越來越多的網絡業務采用加密代理通道協議傳輸業務。加密代理通道協議以加密協議作為外部中介,利用加密協議所建立的加密通道傳輸特定協議封裝后的信息。例如,利用SSH、VPN等加密代理通道協議封裝HTTP協議進行傳輸。加密代理通道協議不僅具有加密協議的特性,還具有極強的隱秘性。一方面,加密代理通道協議將多種業務的流量混合在一起,增加了流量分類的難度;另一方面,加密代理通道協議利用一個加密網絡流對多個網絡流進行封裝,不僅隱藏了載荷關鍵字,還掩蓋了流量的統計特征。目前,加密代理通道協議已經成為許多非法業務的主要傳播途徑,許多不法分子利用加密代理通道協議在網上肆意傳播盜版、黃色、反動等不良信息。利用現有的統計特征提取方法,基于網絡流的流量分類技術雖然能夠有效識別加密代理通道協議,卻無法識別通道內的隱藏協議。
[0020]綜上所述,由于目前分類技術采用的統計特征提取方法只能從網絡流中提取靜態的統計特征,導致流量分類系統無法正確分類私有加密協議流量,更不能有效識別隱藏在加密代理通道內的協議。針對這一問題本發明引入了網絡流聲紋特征的概念。區別于傳統的網絡流靜態特征,聲紋特征著眼于網絡流的動態特性。網絡流聲紋特征能夠突破私有加密協議以及代理通道協議的隱秘性帶來的障礙,動態地反映真實協議的行為特征,為識別私有加密協議以及代理通道中隱藏協議提供知識基礎。
【發明內容】
[0021](一)要解決的技術問題
[0022]本發明所要解決的技術問題是:如何提供一種加密網絡流聲紋特征提取方法,為基于網絡流的流量分類系統提供更加豐富的知識,以識別私有加密協議,以及隱藏在代理通道內的協議。
[0023](二)技術方案
[0024]為了解決上述問題,本發明提供了一種加密網絡流聲紋特征向量提取方法,包括步驟:S2.為加密網絡流建立一個聲紋特征向量提取滑動窗口 ;S3.使用當前數據包更新聲紋特征向量提取滑動窗口 ;S5.過濾聲紋特征向量提取滑動窗口 ;S7.從滑動窗口中篩選出連續超過k個單元的單元組;S9.按順序提取每個單元組的聲紋特征。
[0025]優選地,步驟S2包括:判斷該網絡流是否已建立一個聲紋特征向量提取滑動窗口,若否,則為該網絡流建立一個聲紋特征向量提取滑動窗口 ;步驟S3與S5之間包括:
S4.判斷網絡流持續時間t2-tl是否超過iX j秒,若未超過,則返回執行步驟SI,若超過,則判斷距離上次聲紋特征提取時間間隔t3-t2是否超過iX j秒,若超過則執行步驟S5,若未超過,則返回執行步驟SI ;步驟S5與S7之間包括:S6.判斷剩余單元個數是否大于0,若是,則創建一個新的聲紋特征向量提取滑動窗口,并返回執行步驟SI ;步驟S7與S9之間包括:S8.判斷單元組的個數是否大于0,若否,則返回執行步驟SI。
[0026]優選地,在步驟S2之前還包括步驟:S1.查找捕獲到的新進網絡包在網絡流表中對應的網絡流。
[0027]優選地,在步驟SI之前還包括步驟:S0.建立用于存儲網絡流信息的所述網絡流表的步驟。[0028]優選地,步驟SI包括:S1.1更新該網絡流的基本信息。
[0029]優選地,網絡流的基本信息包括:網絡流的創建時間tl、新進數據包的到達時間t2。
[0030]優選地,滑動窗口包含i個單元,每個單元記錄了網絡流在j秒內傳輸的數據包個數和字節數。
[0031]優選地,步驟S3包括:S3.1計算聲紋特征向量提取滑動窗口中需要更新的單元Ui2—U/./」.S3.2該單元記錄的數據包個數加上I ;S3.3該單元記錄的字節數加上當前數據包的載荷字節數。
[0032]優選地,步驟S5包括:S5.1更新聲紋特征提取時間t3為當前數據包到達時間t2 ;
S5.2按順序讀取聲紋特征向量提取滑動窗口,直至最后一個處理單元;S5.3判斷當前單元中數據包個數是否大于等于n,若是,則返回執行步驟S5.2 ;S5.4判斷當前單元中的字節數是否大于等于m,若是,則返回執行步驟S5.2,若否,則刪除當前處理單元。
[0033]優選地,步驟S9包括:S9.1提取單元組的持續時間作為聲紋特征的第一維;S9.2提取單元組傳輸的數據包個數作為聲紋特征的第二維;S9.3提取單元組傳輸的字節數作為聲紋特征的第三維;S9.4計算單元組平均每個包傳輸的字節數作為聲紋特征的第四維;S9.5計算單元組每個數據包所包含載荷字節數的標準差作為聲紋特征的第五維;S9.6計算單元組中每個單元所包含載荷數的標準差作為聲紋特征的第六維。
[0034](三)有益效果
[0035]本發明的方法從加密網絡流中提取聲紋特征。區別于以往的網絡流靜態統計特征,本發明提取的聲紋特征能夠有效地刻畫網絡流的動態特征。本發明的方法不僅繼承了傳統的網絡流統計特征提取方法的優勢,還能夠提供更加豐富且可靠的知識,可以為高速網絡中高性能流量分類系統的設計和實現提供技術支持。
【專利附圖】
【附圖說明】
[0036]下面參照附圖并結合實例來進一步描述本發明。其中:
[0037]圖1為根據本發明實施例的加密網絡流聲紋特征向量提取方法的主要步驟流程圖。
[0038]圖2為根據本發明實施例的加密網絡流聲紋特征向量提取方法的具體步驟流程圖。
【具體實施方式】
[0039]下面結合附圖和實施例,對本發明的【具體實施方式】作進一步詳細描述。以下實施例用于說明本發明,但不用來限制本發明的范圍。
[0040]針對目前分類技術采用的統計特征提取方法只能從網絡流中提取靜態的統計特征,從而導致流量分類系統無法正確分類私有加密協議流量,更不能有效識別隱藏在加密代理通道內的協議的問題,本發明提出了一種加密網絡流聲紋特征向量提取方法。該方法首先利用一個滑動窗口記錄一個連續時間段內加密網絡流的時序統計特征,然后對滑動窗口內的處理單元進行過濾,得到加密網絡流數據傳輸階段,最后從數據傳輸階段中提取聲紋特征。該方法不僅繼承了傳統的網絡流統計特征提取方法的優勢,還能夠提供更加豐富且可靠的知識,幫助流量分類系統識別私有加密協議和隱藏在加密代理通道內的協議。
[0041]如圖1和圖2所示,根據本發明提供的加密網絡流聲紋特征向量提取方法包括如下步驟:
[0042]S1.查找捕獲到的新進網絡包在網絡流表中對應的網絡流;
[0043]其中,步驟S1.1前還包括建立用于存儲網絡流信息的所述網絡流表的步驟;
[0044]其中,步驟SI進一步包括:
[0045]S1.1更新該網絡流的基本信息;
[0046]其中,在步驟S1.1中,
[0047]網絡流的基本信息包括:網絡流的創建時間tl、新進數據包的到達時間t2。
[0048]S2.判斷該網絡流是否已建立一個聲紋特征向量提取滑動窗口,若否,則為該網絡流建立一個聲紋特征向量提取滑動窗口;
[0049]其中,在步驟S2中,
[0050]滑動窗口包含30個單元,每個單元記錄了網絡流在I秒內傳輸的數據包個數和字節數;
[0051]S3.使用當前數據包更新聲紋特征向量提取滑動窗口 ;
[0052]其中,步驟S3進一步包括:
[0053]S3.1計算聲紋特征向量提取滑動窗口中需要更新的單元t2_tl ;
[0054]S3.2該單元記錄的數據包個數加上I ;
[0055]S3.3該單元記錄的字節數加上當前數據包的載荷字節數;
[0056]S4.判斷網絡流持續時間t2_tl是否超過30秒,若未超過,則返回執行步驟SI,若超過,則判斷距離上次聲紋特征提取時間間隔t3-t2是否超過30秒,若超過則執行步驟S5,若未超過,則返回執行步驟SI ;
[0057]S5.過濾聲紋特征向量提取滑動窗口中數據包個數少于15個或字節數少于3000字節的單元;
[0058]其中,步驟S5進一步包括:
[0059]S5.1更新聲紋特征提取時間t3為當前數據包到達時間t2 ;
[0060]S5.2按順序讀取聲紋特征向量提取滑動窗口,直至最后一個處理單元;
[0061]S5.3判斷當前單元中數據包個數是否大于等于15,若是,則返回執行步驟S5.2 ;
[0062]S5.4判斷當前單元中的字節數是否大于等于3000,若是,則返回執行步驟S5.2,若否,則刪除當前處理單元;
[0063]S6.判斷剩余單元個數是否大于0,若是,則創建一個新的聲紋特征向量提取滑動窗口,并返回執行步驟Si ;
[0064]S7.從過濾后的聲紋特征向量提取滑動窗口中選出連續超過2個單元的單元組;
[0065]S8.判斷單元組的個數是否大于0,若否,則返回執行步驟SI ;
[0066]S9.按順序提取每個單元組的聲紋特征;
[0067]其中,步驟S9進一步包括:
[0068]S9.1提取單元組的持續時間作為聲紋特征的第一維;
[0069]S9.2提取單元組傳輸的數據包個數作為聲紋特征的第二維;
[0070]S9.3提取單元組傳輸的字節數作為聲紋特征的第三維;[0071]S9.4計算單元組平均每個包傳輸的字節數作為聲紋特征的第四維;
[0072]S9.5計算單元組每個數據包所包含載荷字節數的標準差作為聲紋特征的第五維;
[0073]S9.6計算單元組中每個單元所包含載荷數的標準差作為聲紋特征的第六維。
[0074]本發明的描述是為了示例和描述起見而給出的,而并不是無遺漏的或者將本發明限于所公開的形式。很多修改和變化對于本領域的普通技術人員而言是顯然的。選擇和描述實施例是為了更好說明本發明的原理和實際應用,并且使本領域的普通技術人員能夠理解本發明從而設計適于特定用途的帶有各種修改的各種實施例。
【權利要求】
1.一種加密網絡流聲紋特征向量提取方法,其特征在于,包括步驟: 52.為加密網絡流建立一個聲紋特征向量提取滑動窗口; 53.使用當前數據包更新聲紋特征向量提取滑動窗口; S5.過濾聲紋特征向量提取滑動窗口 ; S7.從滑動窗口中篩選出連續超過k個單元的單元組; S9.按順序提取每個單元組的聲紋特征。
2.如權利要求1所述的方法,其特征在于: 步驟S2包括:判斷該網絡流是否已建立一個聲紋特征向量提取滑動窗口,若否,則為該網絡流建立一個聲紋特征向量提取滑動窗口; 步驟S3與S5之間包括:S4.判斷網絡流持續時間t2-tl是否超過iX j秒,若未超過,則返回執行步驟SI,若超過,則判斷距離上次聲紋特征提取時間間隔t3-t2是否超過iXj秒,若超過則執行步驟S5,若未超過,則返回執行步驟SI ; 步驟S5與S7之間包括:S6.判斷剩余單元個數是否大于O,若是,則創建一個新的聲紋特征向量提取滑動窗口,并返回執行步驟SI ; 步驟S7與S9之間包括:S8.判斷單元組的個數是否大于O,若否,則返回執行步驟SI。
3.如權利要求1或2所述的方法,其特征在于,在步驟S2之前還包括步驟: S1.查找捕獲到的新進網絡包在網絡流表中對應的網絡流。
4.如權利要求3所述的方法,其特征在于,在步驟SI之前還包括步驟: s0.建立用于存儲網絡流信息的所述網絡流表的步驟。
5.如權利要求3所述的方法,其特征在于,步驟SI包括: S1.1更新該網絡流的基本信息。
6.如權利要求5所述的方法,其特征在于: 網絡流的基本信息包括:網絡流的創建時間tl、新進數據包的到達時間t2。
7.如權利要求1或2所述的方法,其特征在于: 滑動窗口包含i個單元,每個單元記錄了網絡流在j秒內傳輸的數據包個數和字節數。
8.如權利要求1或2所述的方法,其特征在于,步驟S3包括: S3.1計算聲紋特征向量提取滑動窗口中需要更新的單元Lfe-O/./」.S3.2該單元記錄的數據包個數加上I ; S3.3該單元記錄的字節數加上當前數據包的載荷字節數。
9.如權利要求1或2所述的方法,其特征在于,步驟S5包括: S5.1更新聲紋特征提取時間t3為當前數據包到達時間t2 ; S5.2按順序讀取聲紋特征向量提取滑動窗口,直至最后一個處理單元; S5.3判斷當前單元中數據包個數是否大于等于n,若是,則返回執行步驟S5.2 ; S5.4判斷當前單元中的字節數是否大于等于m,若是,則返回執行步驟S5.2,若否,則刪除當前處理單元。
10.如權利要求1或2所述的方法,其特征在于,步驟S9包括: S9.1提取單元組的持續時間作為聲紋特征的第一維; S9.2提取單元組傳輸的數據包個數作為聲紋特征的第二維;S9.3提取單元組傳輸的字節數作為聲紋特征的第三維;S9.4計算單元組平均每個包傳輸的字節數作為聲紋特征的第四維;S9.5計算單元組每個數據包所包含載荷字節數的標準差作為聲紋特征的第五維;S9.6計算單元組中每個單·元所包含載荷數的標準差作為聲紋特征的第六維。
【文檔編號】H04L12/26GK103546333SQ201210246765
【公開日】2014年1月29日 申請日期:2012年7月16日 優先權日:2012年7月16日
【發明者】薛一波, 王大偉 申請人:清華大學