本發明涉及無線通信和數據挖掘技術領域,包括社會網絡分析,支持向量機等方法。特別涉及一種基于支持向量機的無線網絡吞吐量的評估方法及裝置。
背景技術:
隨著無線網絡的快速發展,移動互聯網數據業務的種類和流量都有了很大的提高,流量爆炸性增長、業務類型極其豐富,對網絡流量行為分析也就愈加復雜。為了有效實現網絡規劃設計、網絡資源分配,精細化運營管理等,必須準確地分析網絡吞吐量。由于數據業務的多樣性、隨機性和突發性等特點,傳統的數據分析方法已經不能夠滿足當前的網絡吞吐量行為分析。近些年,隨著大數據的發展,相關的數據挖掘算法也越來越成熟,這些算法也為無線網絡吞吐量行為分析提供了強有力的工具。合理使用相應的數據挖掘算法分析網絡吞吐量行為,可以對網絡規劃、優化、擴容等提供一定指導,從而提高網絡對日益豐富的數據業務的承載能力。
技術實現要素:
本發明的目的在于提供一種基于支持向量機的無線網絡吞吐量的評估方法及裝置,解決了現有技術中由于數據業務的多樣性、隨機性和突發性,不能夠滿足當前的網絡吞吐量行為分析的問題。
根據本發明的一個方面,提供了一種基于支持向量機的無線網絡吞吐量的評估方法,包括以下步驟:
采集N個基站的吞吐量的歷史數據;
根據所采集的N個基站的吞吐量的歷史數據,構建所述N個基站的基站關系網絡;
利用根據所述基站關系網絡以及所述吞吐量的歷史數據,找到對基站關系網絡吞吐量評估效果起重要作用的M個基站,并將該M個基站作為重要基站;
利用所述M個重要基站的吞吐量歷史數據,對剩余的N-M個基站吞吐量進行評估;
其中,N和M均為正整數,并且N大于M。
優選地,所述采集N個基站的吞吐量的歷史數據包括:
獲取每個基站的吞吐量序列,并計算出所述吞吐量序列中吞吐量的平均值;
通過將所獲取的每個基站的吞吐量序列中前3%大的吞吐量替換為所述吞吐量的平均值,得到每個基站的新吞吐量序列;
通過對每個基站的新吞吐量的時間序列進行歸一化處理,得到每個基站的歸一化吞吐量序列。
優選地,所述根據所采集的N個基站的吞吐量的歷史數據,構建所述N個基站的基站關系網絡包括:
根據所得到每個基站的歸一化吞吐量序列,分別計算所述N個基站中兩兩基站之間的相關系數;
當所述相關系數大于相關系數閾值時,則在所述兩兩基站之間生成一條無向邊;
通過所述N個基站中兩兩基站之間生成的無向邊,構建所述N個基站的基站關系網絡。
優選地,所述利用根據所述基站關系網絡以及所述吞吐量的歷史數據,找到對基站關系網絡吞吐量評估效果起重要作用的M個基站包括:
通過統計所述基站關系網絡中每個基站的無向邊條數,得到每個基站的度;
依次選取所述N個基站中前m個度大的基站,根據支持向量機評估N-m個基站的吞吐量,得到m種基站關系網絡的吞吐量評估效果;
在所得到的m種基站關系網絡的吞吐量評估效果中,選取最好的吞吐量評估效果,并將所選取的最好吞吐量評估效果相對應的m個基站作為對基站關系網絡吞吐量評估效果起重要作用的M個基站;
其中,m、M、N為正整數,M<=m,M<N,m<N。
優選地,所述每個基站的無向邊條數與基站度的大小成正比。
優選地,所述利用所述M個重要基站的吞吐量歷史數據,對剩余的N-M個基站吞吐量進行評估包括:
通過支持向量機算法構造剩余的N-M個基站與M個重要基站的吞吐量關系模型;
利用所述吞吐量關系模型和所述M個重要基站的吞吐量歷史數據,得到剩余的N-M個基站的評估吞吐量。
根據本發明的另一方面,提供了一種基于支持向量機的無線網絡吞吐量的評估裝置,包括:
采集模塊,用于采集N個基站的吞吐量的歷史數據;
構建模塊,用于根據所采集的N個基站的吞吐量的歷史數據,構建所述N個基站的基站關系網絡;
查找模塊,用于利用根據所述基站關系網絡以及所述吞吐量的歷史數據,找到對基站關系網絡吞吐量評估效果起重要作用的M個基站,并將該M個基站作為重要基站;
評估模塊,用于利用所述M個重要基站的吞吐量歷史數據,對剩余的N-M個基站吞吐量進行評估;
其中,N和M均為正整數,并且N大于M。
優選地,所述采集模塊包括:
計算吞吐量平均值單元,用于獲取每個基站的吞吐量序列,并計算出所述吞吐量序列中吞吐量的平均值;
獲取單元,用于通過將所獲取的每個基站的吞吐量序列中前3%大的吞吐量替換為所述吞吐量的平均值,得到每個基站的新吞吐量序列,以及通過對每個基站的新吞吐量的時間序列進行歸一化處理,得到每個基站的歸一化吞吐量序列。
優選地,所述構建模塊包括:
計算相關系數單元,用于根據所得到每個基站的歸一化吞吐量序列,分別計算所述N個基站中兩兩基站之間的相關系數;
生成無向邊單元,用于當所述相關系數大于相關系數閾值時,則在所述兩兩基站之間生成一條無向邊;
構建單元,用于通過所述N個基站中兩兩基站之間生成的無向邊,構建所述N個基站的基站關系網絡。
優選地,所述查找模塊包括:
獲取單元,用于通過統計所述基站關系網絡中每個基站的無向邊條數,得到每個基站的度,以及依次選取所述N個基站中前m個度大的基站,根據支持向量機評估N-m個基站的吞吐量,得到m種基站關系網絡的吞吐量評估效果;
查找單元,用于在所得到的m種基站關系網絡的吞吐量評估效果中,選取最好的吞吐量評估效果,并將所選取的最好吞吐量評估效果相對應的m個基站作為對基站關系網絡吞吐量評估效果起重要作用的M個基站;
其中,m、M、N為正整數,M<=m,M<N,m<N。
與現有技術相比較,本發明的有益效果在于:
本發明使選取出的少量的基站吞吐量能夠體現出其他大量基站的特性,為數據分析減小復雜度;同時,使得能夠在已知空間部分基站吞吐量的情況下,評估出空間范圍內其他大量未知基站的吞吐量,從而對無線網絡資源的優化提供參考。
附圖說明
圖1是本發明實施例提供的一種基于支持向量機的無線網絡吞吐量的評估方法流程圖;
圖2是本發明實施例提供的一種基于支持向量機的無線網絡吞吐量的評估裝置示意圖;
圖3是本發明實施例提供的基于支持向量機的無線網絡吞吐量評估方法的流程圖;
圖4是本發明實施例提供的支持向量機的算法流程圖;
圖5是本發明第一實施例提供的構建基站關系網絡圖;
圖6是本發明第一實施例提供的SMAPE(Symmetric mean absolute percentage error,對稱平均相對誤差)平均值隨m的變化情況圖;
圖7是本發明第一實施例提供的兩個基站的評估結果圖;
圖8是本發明第二實施例提供的構建基站關系網絡圖;
圖9是本發明第二實施例提供的SMAPE平均值隨m的變化情況圖;
圖10是本發明第二實施例提供的兩個基站的評估結果圖。
具體實施方式
以下結合附圖對本發明的優選實施例進行詳細說明,應當理解,以下所說明的優選實施例僅用于說明和解釋本發明,并不用于限定本發明。
圖1是本發明實施例提供的一種基于支持向量機的無線網絡吞吐量的評估方法流程圖,如圖1所示,包括以下步驟:
步驟S101:采集N個基站的吞吐量的歷史數據;
步驟S102:根據所采集的N個基站的吞吐量的歷史數據,構建所述N個基站的基站關系網絡;
步驟S103:利用根據所述基站關系網絡以及所述吞吐量的歷史數據,找到對基站關系網絡吞吐量評估效果起重要作用的M個基站,并將該M個基站作為重要基站;
步驟S104:利用所述M個重要基站的吞吐量歷史數據,對剩余的N-M個基站吞吐量進行評估;
其中,N和M均為正整數,并且N大于M。
其中,所述采集N個基站的吞吐量的歷史數據包括:獲取每個基站的吞吐量序列,并計算出所述吞吐量序列中吞吐量的平均值;通過將所獲取的每個基站的吞吐量序列中前3%大的吞吐量替換為所述吞吐量的平均值,得到每個基站的新吞吐量序列;通過對每個基站的新吞吐量的時間序列進行歸一化處理,得到每個基站的歸一化吞吐量序列。
其中,所述根據所采集的N個基站的吞吐量的歷史數據,構建所述N個基站的基站關系網絡包括:根據所得到每個基站的歸一化吞吐量序列,分別計算所述N個基站中兩兩基站之間的相關系數;當所述相關系數大于相關系數閾值時,則在所述兩兩基站之間生成一條無向邊;通過所述N個基站中兩兩基站之間生成的無向邊,構建所述N個基站的基站關系網絡。
其中,所述利用根據所述基站關系網絡以及所述吞吐量的歷史數據,找到對基站關系網絡吞吐量評估效果起重要作用的M個基站包括:通過統計所述基站關系網絡中每個基站的無向邊條數,得到每個基站的度;依次選取所述N個基站中前m個度大的基站,根據支持向量機評估N-m個基站的吞吐量,得到m種基站關系網絡的吞吐量評估效果;在所得到的m種基站關系網絡的吞吐量評估效果中, 選取最好的吞吐量評估效果,并將所選取的最好吞吐量評估效果相對應的m個基站作為對基站關系網絡吞吐量評估效果起重要作用的M個基站;其中,m、M、N為正整數,M<=m,M<N,m<N。其中,所述每個基站的無向邊條數與基站度的大小成正比。
其中,所述利用所述M個重要基站的吞吐量歷史數據,對剩余的N-M個基站吞吐量進行評估包括:通過支持向量機算法構造剩余的N-M個基站與M個重要基站的吞吐量關系模型;利用所述吞吐量關系模型和所述M個重要基站的吞吐量歷史數據,得到剩余的N-M個基站的評估吞吐量。
圖2是本發明實施例提供的一種基于支持向量機的無線網絡吞吐量的評估裝置示意圖,如圖2所示,包括:采集模塊201、構建模塊202、查找模塊203以及評估模塊204。所述采集模塊201,用于采集N個基站的吞吐量的歷史數據;所述構建模塊202,用于根據所采集的N個基站的吞吐量的歷史數據,構建所述N個基站的基站關系網絡;所述查找模塊203,用于利用根據所述基站關系網絡以及所述吞吐量的歷史數據,找到對基站關系網絡吞吐量評估效果起重要作用的M個基站,并將該M個基站作為重要基站;所述評估模塊204,用于利用所述M個重要基站的吞吐量歷史數據,對剩余的N-M個基站吞吐量進行評估;其中,N和M均為正整數,并且N大于M。
其中,所述采集模塊201包括:計算吞吐量平均值單元,用于獲取每個基站的吞吐量序列,并計算出所述吞吐量序列中吞吐量的平均值;獲取單元,用于通過將所獲取的每個基站的吞吐量序列中前3%大的吞吐量替換為所述吞吐量的平均值,得到每個基站的新吞吐量序列,以及通過對每個基站的新吞吐量的時間序列進行歸一化處理,得到每個基站的歸一化吞吐量序列。所述構建模塊202包括:計算相關系數單元,用于根據所得到每個基站的歸一化吞吐量序列,分別計算所述N個基站中兩兩基站之間的相關系數;生成無向邊單元,用于當所述相關系數大于相關系數閾值時,則在所述兩兩基站之間生成一條無向邊;構建單元,用于通過所述N個基站中兩兩基站之間生成的無向邊,構建所述N個基站的基站關系網絡。所述查找模塊203包括:獲取單元,用于通過統計所述基站關系網絡中每個基站的無向邊條數,得到每個基站的度,以及依次選取所述N個基站中前m個度大的基站,根據支持向量機評估N-m個基站的吞吐量,得到m種基站關系網 絡的吞吐量評估效果;查找單元,用于在所得到的m種基站關系網絡的吞吐量評估效果中,選取最好的吞吐量評估效果,并將所選取的最好吞吐量評估效果相對應的m個基站作為對基站關系網絡吞吐量評估效果起重要作用的M個基站;其中,m、M、N為正整數,M<=m,M<N,m<N。
本發明主要包含以下四個模塊:數據預處理模塊,基站關系網絡構建模塊,重要基站選取模塊,空間吞吐量評估模塊。所述數據預處理模塊,用于選取待研究的N個基站,剔除其中的異常數據點;所述基站關系網絡構建模塊,用于根據已采集的N個基站歷史數據構建基站之間的關系網絡;所述重要基站選取模塊,用于根據在歷史數據上的評估效果,從N個基站中選取出M個重要基站;所述空間吞吐量評估模塊,用于對于待評估時間,根據已知的M個基站的吞吐量評估出其他N-M個基站的吞吐量。
具體地說,所述數據預處理模塊包括:
A1.選取空間位置上處于同一區域的N個基站;
A2.剔除每個基站吞吐量中的異常點;
A3.對數據進行一次歸一化。
所述基站關系網絡構建模塊包括:
B1.計算N個基站兩兩之間的相關系數;
B2.根據相關系數,構建一個給定閾值的基站關系網絡。
所述重要基站選取模塊包括:
C1.統計基站關系網絡中各基站度的大小;
C2.依次選取度前m(m=1,2……N)大的基站作為重要基站,根據支持向量機評估其他N-m個基站的吞吐量;
C3.選取在歷史數據上評估效果最好時的M個基站作為重要基站。
所述空間吞吐量評估模塊包括:
D1.根據選出的M個重要基站,評估其他N-M個基站的吞吐量。
圖3是本發明實施例提供的基于支持向量機的無線網絡吞吐量評估方法的流程圖,如圖3所示,包括:
步驟1、數據預處理;
為了未來根據部分基站的吞吐量評估其他大量基站的吞吐量,需要先采集到 所有基站的歷史業務數據,然后對數據進行預處理。數據預處理主要包含以下幾個步驟:
a、根據需求選取空間位置上處于同一區域的N個基站;
b、整理N個基站吞吐量序列,將各個序列中前3%大的吞吐量替換為該序列的平均值,得到第i個基站的吞吐量序列pi(i=1,2……N);
c、對各基站吞吐量的時間序列進行歸一化處理,得到第i個基站的歸一化吞吐量序列Si。
其中,為第i個基站t時刻的歸一化吞吐量,max(pi),min(pi)分別表示原始吞吐量序列的最大值與最小值,L為序列總長度。
步驟2、構建基站關系網絡;
對待研究的N個基站,L為所采集數據的總時長,取L中前T(一般左右)個時間數據計算第i(i=1,2,3……N)個基站與第j(j=1,2,3……N)個基站之間的相關系數ρij,計算公式為
Si為第i個基站的吞吐量序列,為第i個基站在總時長內的平均吞吐量,為第i個基站在時刻t時的吞吐量大小(t=1,2,3……T);Sj為第j個基站的吞吐量序列,為第j個基站在總時長內的平均吞吐量,為第j個基站在時刻t時的吞吐量大小(t=1,2,3……T)。對于一個給定的相關系數閾值c,若ρij大于c,則認為基站i與基站j存在明顯的相關關系,在他們之間添加一條無向邊,這樣就可以構建出N個基站的關系網絡。
步驟3、選取重要基站;
在本發明中,采用SVM(Support Vector Machine,支持向量機)來評估基 站吞吐量。SVM的算法流程如圖4所示,包括以下步驟:
1、根據評估樣本建立訓練樣本集和測試樣本集;
2、根據訓練樣本集建立目標函數;
3、求解目標函數,得到最優參數;
4、將最優參數代入目標函數,得到決策回歸方程;
5、使用測試數據驗證決策回歸方程;
6、是否小于給定誤差e;
當判斷小于給定誤差e時,進入步驟7,當判斷不小于給定誤差e時,調整參數,并返回到步驟3。
7、將評估樣本輸入決策回歸方程計算其他基站吞吐量。
在本發明中,最終吞吐量評估效果好壞使用SMAPE來衡量,SMAPE反映了評估值與真實值之間相對誤差的大小,同時解決了由于真實值過小可能帶來的相對誤差太大的問題,其具體公式為:
其中Ft為評估值,At為實際值。
為了篩選出部分基站作為重要基站,依次選取度前m(m=1,2……N)大的基站作為重要基站,根據支持向量機評估其他N-m個基站的吞吐量。計算評估出來的各個基站的SMAPE,選取平均SMAPE最小時的M個基站作為重要基站。
步驟4、使用重要基站評估其他基站吞吐量。
在本發明中,根據選出的M個重要基站,采用SVM算法,使用歷史數據訓練出其他N-M個基站與M個重要基站的吞吐量關系模型。將待評估時間段內的M個基站的吞吐量輸入到關系模型中,即可輸出對應的N-M個基站的吞吐量。
為了使本發明的上述目的、特征和優點能夠更加明顯易懂,下面結合附圖5至附圖10對本發明做進一步的詳細的說明。
實施例一
本實例中數據來源于現網中某大型城市所有基站統計的數據,其時間顆粒度為60分鐘,時間總長度為連續21天。本發明實施例中的無線網絡空間吞吐量評估方法包含以下步驟:
步驟一:數據預處理;
A.根據需求選取空間位置上處于同一區域的95個基站;
B.剔除95個基站中的異常數據點,得到各基站的吞吐量序列;
C.對各基站吞吐量的時間序列進行歸一化處理,得到第i個基站的歸一化吞吐量序列Si。
步驟二:對待研究的95個基站,構建基站關系網絡;
A.取這95個基站前18天的數據計算第i(i=1,2,3……95)個基站與第j(j=1,2,3……95)個基站之間的相關系數ρij,計算公式為
其中T=432,Si為第i個基站的吞吐量序列,為第i個基站在總時長內的平均吞吐量,為第i個基站在時刻t時的吞吐量大小(t=1,2,3……432);Sj為第j個基站的吞吐量序列,為第j個基站在總時長內的平均吞吐量,為第j個基站在時刻t時的吞吐量大小(t=1,2,3……432)。
B.在本發明中,給定相關系數閾值c=0.6(一般認為相關系數大于0.6即為強相關),若ρij大于0.6,則在基站i與基站j之間添加一條無向邊,這樣就可以構建出95個基站的關系網絡。如圖5所示,其中點代表基站,無向邊體現了基站之間的相關性,點越大代表該基站的度越大。
步驟四:選取重要基站;
A.從18天的歷史數據中,選取前15天數據作為訓練樣本集,后3天數據作為測試樣本集;將所有基站前15天數據作為支持向量機算法(SVM)的輸入,輸出訓練得到的其他95-m個基站與選取的m個基站吞吐量關系模型;
B.將度最大的m個基站的后3天數據作為吞吐量關系模型的輸入,輸出其他95-m個基站后3天的估計值;
C.計算95-m個基站各自的SMAPE,做出SMAPE平均值隨m的變化情況,如圖6所示,黑點為95-m個基站SMAPE的平均值,從圖中可以看出,當m=8時, 其他基站的平均SMAPE最小,也就是預測效果最佳,因此在本實施例中我們選取的重要基站個數為M=8。
步驟五:使用支持向量機算法評估空間吞吐量。
在本發明中,我們根據選出的8個重要基站,采用支持向量機算法(SVM)使用歷史數據訓練出其他87個基站與8個重要基站的吞吐量關系模型。將原始21天數據中的最后3天的8個基站的吞吐量輸入到關系模型中,即可輸出對應的87個基站的吞吐量。
如圖7所示,展示了87個基站中部分基站的評估結果,其中1為評估值,2為真實值。計算87個基站的評估誤差,得到平均SMAPE=30.3%,可見該方法具有較高的準確度
實施例二
本實例中數據來源于現網中某大型城市中典型區域的統計數據,其時間顆粒度為60分鐘,時間總長度為連續18天。本發明實施例中的無線網絡空間吞吐量評估方法包含以下步驟:
步驟一:數據預處理;
A.根據需求選取空間位置上處于同一區域的117個基站;
B.剔除117個基站中的異常數據點,得到各基站的吞吐量序列;
C.對各基站吞吐量的時間序列進行歸一化處理,得到第i個基站的歸一化吞吐量序列Si。
步驟二:對待研究的117個基站,構建基站關系網絡;
A.取這117個基站前15天的數據計算第i(i=1,2,3……117)個基站與第j(j=1,2,3……117)個基站之間的相關系數ρij,計算公式為
其中T=360,Si為第i個基站的吞吐量序列,為第i個基站在總時長內的平均吞吐量,為第i個基站在時刻t時的吞吐量大小(t=1,2,3……360);Sj為第j個基站的吞吐量序列,為第j個基站在總時長內的平均吞吐量,為 第j個基站在時刻t時的吞吐量大小(t=1,2,3……360)。
B.在本發明中,我們給定相關系數閾值c=0.6(一般認為相關系數大于0.6即為強相關),若ρij大于0.6,則在基站i與基站j之間添加一條無向邊,這樣就可以構建出117個基站的關系網絡。如圖8所示,其中點代表基站,邊體現了基站之間的相關性,點越大代表該基站的度越大。
步驟四:選取重要基站;
A.從15天的歷史數據中,選取前12天數據作為訓練集,后三天數據作為測試集;將所有基站前12天數據作為支持向量機算法(SVM)的輸入,輸出訓練得到的其他117-m個基站與選取的m個基站吞吐量關系模型;
B.將度最大的m個基站的后3天數據作為吞吐量關系模型的輸入,輸出其他117-m個基站后三天的估計值;
C.計算117-m的基站各自的SMAPE,做出平均SMAPE隨m的變化情況,如圖9所示,黑點為117-m個基站SMAPE的平均值,從圖中可以看出,當m=11時,其他基站的平均SMAPE最小,也就是預測效果最佳,因此在本實施例中我們選取的重要基站個數為M=11。
步驟五:使用SVM算法評估空間吞吐量。
在本發明中,我們根據選出的11個重要基站,采用支持向量機算法(SVM)使用歷史數據訓練出其他106個基站與11個重要基站的吞吐量關系模型。將待評估時間段內的11個基站的吞吐量輸入到關系模型中,即可輸出對應的106個基站的吞吐量。
如圖10所示,即為評估結果示例,其中3為評估值,4為真實值。計算106個基站的評估誤差,得到平均SMAPE=36.4%,評估結果有較高的準確度。
綜上所述,本發明具有以下技術效果:
本發明根據基站歷史數據得到基站之間吞吐量變化關系,并構建基站關系網絡,從該網絡中選取出少數重要基站,從而評估出其他大量基站的吞吐量。具有很高的實用價值,例如在基站數據采集中,有很多基站的數據會有缺失,采用本發明,可以評估出缺失數據,從而做進一步的網絡分析。同時,可以根據需求,靈活的選取不同地區或者時間段的歷史數據來評估,具有普遍的適用性和更好的預測準確度。
盡管上文對本發明進行了詳細說明,但是本發明不限于此,本技術領域技術人員可以根據本發明的原理進行各種修改。因此,凡按照本發明原理所作的修改,都應當理解為落入本發明的保護范圍。