一種快速自動識別加密網絡行為的方法
【技術領域】
[0001] 本發明涉及一種識別加密網絡行為的方法,具體涉及一種快速自動識別加密網絡 行為的方法,屬于網絡安全技術領域。
【背景技術】
[0002] 網絡的出現大大的改變了人們的通信方式,使人們的生活發生了翻天覆地的變 化,不同的用戶使用網絡中的各種應用,每天都會產生數以億計的應用流,而這些看似正常 的流量中可能隱藏著各種惡意攻擊行為。因此,分類識別網絡流量,對規范網絡應用、凈化 網絡環境以及保護網絡用戶的隱私安全都具有重大意義,這也是網絡安全領域所要研宄的 熱點問題,尤其是如何快速準確地識別加密的網絡行為更是重中之重。
[0003] 目前,常見的加密流量分類識別方法包括:基于端口號識別、基于載荷信息識別、 基于機器學習識別以及基于流的統計特征識別。其中,基于端口號識別原理和實現都比較 簡單,但容易受到加密類流量的動態端口、偽造端口等影響;基于載荷信息識別對于加密應 用模式匹配難度大,易受版本升級的影響;基于機器學習識別和基于流的統計特征識別的 識別準確率尚可,但計算開銷大,實現復雜度高,無法滿足在線實時識別的要求。
【發明內容】
[0004] 為解決現有技術的不足,本發明的目的在于提供一種快速自動識別加密網絡行為 的方法,該識別方法能夠及時、快速、高效地實現對加密數據的加密流量的在線判斷,進而 有效解決因加密協議頻繁升級而帶來的研發工作量加大的問題。
[0005] 為了實現上述目標,本發明采用如下的技術方案:
[0006] 一種快速自動識別加密網絡行為的方法,其特征在于,包括以下步驟:
[0007]Stepl:構建具體的加密網絡行為模型庫;
[0008] Step2 :實時采集網絡交互數據;
[0009] Step3 :計算實時采集網絡交互數據與模型庫中不同參考樣本的相關系數;
[0010] step4:依據計算相關系數結合預設閾值進行網絡行為自動分類識別。
[0011] 前述的快速自動識別加密網絡行為的方法,其特征在于,在Stepl中,構建加密網 絡行為模型庫的方法為:
[0012] (1)分析大量不同版本的加密網絡行為數據;
[0013] (2)在前一步的分析基礎上,提取出能夠表征該加密網絡行為的特征;
[0014] (3)根據相關系數原理和前一步提取出來的特征,構建該加密網絡行為的模型庫 及參考樣本。
[0015] 前述的快速自動識別加密網絡行為的方法,其特征在于,在Step2中,實時采集網 絡交互數據的方法為:采用滑動窗口方式采集與參考樣本相同長度的測量數據集。
[0016] 前述的快速自動識別加密網絡行為的方法,其特征在于,在Step2中,根據下列公 式計算實時采集網絡交互數據與模型庫的相關系數:
[001/
[0018] 其中,X=[Xpx2, ???,xN]表示樣本數據,Y=[ypy2,…,yN]表示新采集數據,相關 系數P>0表示正相關,P〈0表示負相關,P= 0表示無關。
[0019] 前述的快速自動識別加密網絡行為的方法,其特征在于,在St印3中,
[0020] (1)對于音頻和消息類,直接計算實時采集網絡交互數據與模型庫的相關系數;
[0021] (2)對于視頻和圖片類,先對采集到的數據進行預處理,預處理的方式是針對特定 位置使數據的值發生微小波動,從而使采集數據值與參考樣本完全一樣,然后計算預處理 后的數據與模型庫的相關系數。
[0022] 本發明的有益之處在于:本發明的識別方法能夠及時、快速、高效地實現對加密數 據的加密流量的在線判斷,進而有效解決因加密協議頻繁升級而帶來的研發工作量加大的 問題。
【附圖說明】
[0023] 圖1是發消息交互過程中的流量記錄圖;
[0024] 圖2是行為識別總體流程圖;
[0025] 圖3是數據采集方式示意圖;
[0026] 圖4是Twitter行為分析的程序實現流程圖。
【具體實施方式】
[0027] 針對海量的加密網絡行為難以識別的問題,本發明提出了一種快速自動識別加密 網絡行為的方法。該方法首先構建具體的加密網絡行為模型庫,然后進行實時采集網絡交 互數據,同時計算實時采集網絡交互數據與模型庫的相關系數,并依據計算的相關系數結 合預設閾值進行自動分類識別。
[0028] 以下結合附圖和具體實施例對本發明作具體的介紹。
[0029] 在本實施例中,以Android版Twitter發帖為研宄對象。
[0030] Twitter發帖時涉及文字消息和上傳圖片,發文字消息時,從安全套接層(Secure SocketsLayer,SSL)的交互過程中可以獲取域名為:"api.twitter,com",在upload圖片 時的域名為"upload,twitter,com"。發消息屬于長連接,且容易和看帖的行為相混淆,為區 別看帖,采用本實施例的方案進行實現。
[0031] 基本原理:
[0032] 同一類行為有相似的統計特征或其他外在特征,本發明依據網絡數據流量的統計 特征,通過構建具體行為樣本庫,將實時采集的網絡數據向樣本庫投影,投影值是依據相關 系數進行計算。系數值的大小反映了兩個隨機變量之間的相似程度。
[0033] 經過對Twitter數據大量研宄分析表明,明文和密文從外在形式上保持一致,密 文包的大小反映明文內容的多少,不同的行為動作,其特征不同,對于某一具體動作,例如 發消息,客戶端和服務器之間的交互模式相對固定,交互過程中,反映交互雙方負載流量也 保持了某種趨勢,該趨勢也不會因為小版本不同而發生變化。
[0034] 圖1是發消息交互過程中的流量記錄圖。如圖1所示,圖1 (A)和圖1 (B)是兩次 真Twitter消息,圖1(C)是一次偽消息,欲辨真偽,可選擇其中一次真Twitter消息數據作 為模板,將其它兩個消息與之比對,為能給出數值結果,可采用相關系數。而相關系數反映 了兩個隨機向量間的相關程度,計算公式如下:
[0035]
[0036] 其中,X=[Xpx2,…,xN]表示樣本數據,Y=[ypy2,…,yN]表示新采集數據,相關 系數P>0表示正相關,P〈0表示負相關,P= 0表示無關。P的絕對值越大表示相關程 度越高。
[0037] 按照上述公式,兩個真Twitter消息之間的相關系數為0. 8881,另外兩個消息之 間的相關系數為〇. 6058。因此,本實施例以Twitter的登陸、聊天、音頻、圖片以及視頻等 消息為樣板,通過大量的數據分析,分別建立相應的模板,且設定閾值為〇. 8,若大于設定閾 值,判為真,否則為假。
[0038] 算法實現:
[0039] 結合數據包大小及特點區分,將基于相關系數的行為識別分成兩類情形進行分 析,如圖2所示,行為識別總體流程為:
[0040] Stepl:構建具體的加密網絡行為模型庫