一種基于時間滑動窗口的互聯網流量建模方法
【技術領域】
[0001]本發明涉及互聯網流量建模技術領域,具體涉及一種基于時間滑動窗口的互聯網流量建模方法。
【背景技術】
[0002]隨著近年來網絡技術、規模和業務的發展,互聯網已經成為人類社會的重要基礎設施,它從根本上改變了人們以前的交流方式和生活方式。互聯網的繁榮帶來了許多新的挑戰,網絡流量爆炸式增長,應用變化發展和推陳出新的速度非常迅速,用戶行為趨于復雜化。互聯網流量建模有助于把握應用流量特征,為流量預測、網絡維護、網絡設施升級、網絡安全防御等提供基礎的數據支撐能力,具有明顯的現實意義。
[0003]流量建模是網絡測量領域的一個重要方面,產生了種類繁多的網絡流量模型。傳統的流量模型包括泊松模型、馬爾可夫模型、自回歸模型等。最早的泊松模型是根據電話業務流量的特征提出來的,是指在時間序列t內,呼叫或數據包到達的數量符合參數為t的泊松分布,其相應的呼叫或包到達的時間間隔序列呈負指數分布。馬爾可夫模型針對分組交換網絡流量,每次狀態轉換代表一個新的到達,未來狀態只依賴于當前狀態,而描述一個狀態持續時間的隨機變量的分布呈指數分布(連續時間)或幾何分布(離散時間)。自回歸模型采用自動回歸法,強調時間序列未來的點數由同一時間序列過去的值來決定。上述流量模型只存在短相關性,即在不同的時間尺度上有不同特性,并且大量源疊加會平緩突發性,與實際數據網絡流量特征存在較大的偏差。
[0004]互聯網研究人員隨后發現實際業務流在各個時間尺度下表現出自相似的突發特性,在相關函數上表現為長相關特性,又相繼提出了若干長相關模型,包括重尾分布的0N/OFF模型、分形布朗運動模型、FARIMA模型等。重尾分布的0N/0FF模型首先疊加大量的0N/OFF源,每個源都有兩個狀態,即周期交替的0N和0FF,在0N狀態中,數據源連續地發送數據包;在OFF狀態中,數據源不發送任何數據包。每個發送源的0N狀態和OFF狀態的時長獨立地符合重尾分布(如Pareto分布)。分形布朗運動模型是一種統計自相似過程的數學模型,它是一個均值為0的連續高斯過程,其平穩增量過程是分形高斯噪聲。FARIMA模型是一個時間序列模型,它是一個二階漸進自相似過程,通過3個參數來控制自相關結構。上述流量模型可以描述流量的突發性和長相關性,刻畫了業務流量的自相似特性。
[0005]以上流量模型大多從純粹的數學角度對網絡流量的性質進行挖掘,通過包長、包到達時亥IJ、包到達時間間隔、包突發數量等微觀性質的數學描述,試圖找出最有效的建模方式,但卻忽略了網絡流量的現實意義,即流量是為網絡交互而產生,天然具有多個參與者的特性,而不僅僅是通信單方或雙方的問題。此外,現有的一些長相關流量模型存在較高的計算復雜度,由于其結構復雜、參數眾多,導致算法收斂速度慢,已無法實際應用于網絡流量管理和預測中。
【發明內容】
[0006]針對現有技術存在的不足,本發明目的是提供一種基于時間滑動窗口的互聯網流量建模方法,引入時間滑動窗口,既表征了網絡流量的動態變化特性,又避免了流量的時間累積效應,降低了模型的分析處理復雜度。
[0007]為了實現上述目的,本發明是通過如下的技術方案來實現:
[0008]本發明的一種基于時間滑動窗口的互聯網流量建模方法,具體包括以下幾個步驟:
[0009](1)通過網絡中的流量監控設備對不同時刻產生的流信息進行采集,采集到的每個流信息對應一條流記錄;
[0010](2)根據步驟⑴采集到的流信息建立流量圖,流量圖的建圖方法如下:
[0011 ] 將流記錄中的源主機和目的主機作為節點,將源主機和目的主機之間的流量交互作為邊,將邊上的流量交互總和設為邊的權值,節點的強度為與它相連的所有邊的權值總和;
[0012](3)利用時間窗口的滑動對流量圖進行迭代更新,時間窗口包含窗口大小W和滑動時間間隔τ兩個參數,具體迭代更新方法如下:
[0013](la)在時間窗口 W1中,通過步驟⑵的建圖方法建立一個流量圖G1 ;
[0014](2a)將時間窗口 W1往后滑動τ,從而形成時間窗口 W2,并對流量圖G1進行更新,具體更新方法如下:
[0015]若時間窗口 W2包含了新的流記錄,則在流量圖G1上增加新的節點和邊;
[0016]對每條在時間窗口 W1中已經存在的舊邊(即W1中有一條流記錄,但是W2中無相同節點對之間的流記錄,或者W2中的一條流記錄具有相同的節點對),僅對該邊的權值進行更新,即減去W1中流記錄的流量大小,再加上W2中流記錄的流量大小(可能為0);若舊邊的權值已減為0,則刪除該舊邊;若舊節點已無邊相連,則刪除該節點,從而形成流量圖G2 ;
[0017](4)通過步驟(3)中時間窗口的滑動,從而生成一系列的流量圖,通過對流量圖的統計特性如度分布進行對比分析(對比分析的方法為現有技術),可得出網絡流量的動態變化特性。
[0018]步驟⑴中,每條流記錄的內容包括發生時間、源和目的IP地址、源和目的端口、包數及字節數和應用類型。
[0019]步驟(1)中,在固定網絡中,流量監控設備可安裝在接入網和骨干網之間的鏈路上;
[0020]在移動網絡中,流量監控設備可安裝在GPRS網絡中SGSN和GGSN之間的鏈路上;
[0021]通過這些鏈路的所有流信息均被流量監控設備記錄和分析。
[0022]步驟(3)中,可通過流量圖的度分布和強度分布的冪指數來確定窗口大小W。
[0023]在P2P流量測試中,窗口大小W設為60分鐘。
[0024]步驟(3)中,通過流持續時間的經驗值或流量圖的重邊比例來確定滑動時間間隔τ ο
[0025]在P2P流量測試中,滑動時間間隔τ設為10分鐘。
[0026]本發明的有益效果如下:
[0027](1)從宏觀層面而非微觀層面考慮流量建模問題,涉及到網絡多個用戶的多維通信,而忽略一個流或一個包的微觀特征,便于大規模網絡流量建模;
[0028](2)從實際流量數據出發建立流量圖模型,準確表征了網絡用戶的交互行為,通過圖結構統計特性易于挖掘全局流量特征;
[0029](3)引入時間滑動窗口,既表征了網絡流量的動態變化特性,又避免了流量的時間累積效應,降低了模型的分析處理復雜度。
【附圖