虛擬資產不平衡交易數據的采樣方法
【專利摘要】本發明公開一種虛擬資產不平衡交易數據的采樣方法,包括以下步驟:將虛擬資產交易中的異常交易數據定義為少數類,對少數類樣本采用改進的SMOTE方法進行過采樣,從而增加其樣本數量;將虛擬資產交易中的正常交易數據定義為多數類,對多數類樣本采用基于距離的DUS方法進行欠采樣,以減少其樣本數量;通過設置比例因子來調節過采樣和欠采樣采樣數目的比例;將本發明的不平衡交易數據的采樣方法應用到虛擬資產異常交易檢測當中,可大大降低異常交易檢測的計算量,同時能達到很高的準確率。
【專利說明】虛擬資產不平衡交易數據的采樣方法
【技術領域】
[0001] 本技術屬于網絡與信息安全領域,涉及一種虛擬資產不平衡交易數據的采樣方 法。
【背景技術】
[0002] 互聯網的迅猛發展催生了電子商務的繁榮,其中虛擬資產交易的增長尤為迅速。
[0003] 目前,我國已經開展了基于elD的網域空間虛擬資產管理與保全技術研究,實現 對虛擬資產的規范統一管理。虛擬資產保全系統全面準確的記錄了對虛擬資產的各種操 作,但如何從這些記錄數據中間挖掘出異常的交易行為仍然面臨諸多挑戰。針對網絡虛擬 資產交易信息規模巨大,增長速度非常快的特點,自動地從海量的虛擬資產交易信息中發 現以及預測異常行為,從而對已經發生以及可能發生的犯罪行為進行有效的檢測顯得極為 迫切。
[0004] 由于異常檢測的目的是要根據已知的異常數據訓練并建立一個異常檢測模型,利 用這個模型檢測已知類型或未知類型的異常,所以從本質上將,異常檢測是一種典型的數 據分類問題。異常檢測模型狹義上講就是其數據分類模型,實際上當前異常檢測的研究焦 點也就是在于如何構建準確高效的分類模型。因此,可以將針對虛擬資產異常交易行為的 檢測歸納為不平衡數據環境下的異常行為挖掘問題。即認為在虛擬資產交易過程中,大部 分交易都是正常進行的,異常交易只占到很小一部分。在正常交易和異常交易數目不平衡 的環境下,如何實現異常行為的挖掘是發明所要著重解決的問題。
[0005] 柴洪峰等人[1]提出了一種基于數據挖掘的異常交易檢測方法,當一個用戶提交 一筆新的消費交易時,采用貝葉斯信念網絡算法判斷當前交易屬于正常交易的后驗概率, 作為在業務層面的可信因子;然后提取該用戶在當前交易之前的若干個操作,與當前交易 一起構成一個固定長度的操作序列,并通過BLAST-SSAHA算法將其與該用戶正常操作序列 和已知異常操作序列進行比對,得出在操作層面的可信因子。綜合考慮業務層面的可信因 子和操作層面的可信因子,最終決定當前交易是否為異常交易。
[0006] 劉卓軍等人[2]提出一種新的基于非線性馬爾科夫隨機過程、相空間重構和隱馬 爾科夫鏈的非線性隨機方法,用于對金融交易時序進行建模擬合,然后應用魯棒控制圖對 估計誤差進行檢驗以發現異常。
[0007] 前述第一種異常交易檢測方法在每次檢測的時候都需要計算當前交易屬于正常 交易的后驗概率,計算量較大。第二種方法需要對交易時序數據進行擬合,同樣計算量很 大。
[0008] [1]柴洪峰,李銳,王興建,等.基于數據挖掘的異常交易檢測方法[J].計算機 應用與軟件,2013, 30 (1) : 165-170.
[0009] [2]劉卓軍,李曉明.基于時間序列建模和控制圖的異常交易檢測方法[J].數學 的實踐與認識,2013, 43(10) :89-96.
【發明內容】
[0010] 針對現有技術的缺陷,本發明將不平衡數據分類技術應用到了虛擬資產異常交易 檢測當中,大大降低了異常交易檢測的計算量,同時能達到很高的準確率。
[0011] 本發明的技術方案主要包括:虛擬資產存儲架構的描述、不平衡交易數據的采樣 和分類器的構建。
[0012] 其中不平衡交易數據的采樣方法如下:
[0013] 一般情況下,大部分虛擬資產的交易數據都是正常的,異常交易數據只占很少一 部分。因此,可將正常交易數據看作是多數類,即包含更多實例數據的類。將異常交易數 據看作是少數類,即含有較少實例數據的類。本發明對少數類樣本采用改進的SMOTE方法 (ISM0TE)進行過采樣,從而增加其樣本數量,同時對多數類樣本采用DUS (Distance-based Under Sampling)方法對多數類樣本進行欠采樣,以減少其樣本數量。過采用和欠采用并非 獨立,因此,通過設置比例因子來調節兩者采樣數目的比例,從而保持數據集規模不變,不 會增加計算量。
[0014] 1、改進的 SMOTE 方法(ISMOTE)
[0015] SMOTE [1]首先為每個少數類樣本隨機選出幾個鄰近樣本,并且在該樣本與這些鄰 近樣本的連線上隨機生成無重復的新樣本。本方法增加了權重向量的概念,對鄰近樣本中 的少數類樣本賦予較高的權重,對多數類樣本賦予較低權重。具體算法如下:
[0016] Stepl :選取少數類中的一個樣本xji = 1,…,吣,計算xjlj樣本集中其它樣本的 距離,得到k個最近鄰樣本點;
[0017] Step2 :根據采樣倍數R/N,隨機從k個最近鄰樣本點中選取R/N個樣本,記為}^,」 =1,...,R/N;
[0018] Step3 :在Xi與y」之間構造新的少數類樣本χ/ :χ/ = Xi+randon^O, 1) X (yj-x) XWeight[isMinority(yj)];其中,random(0, 1)表示產生一個 0-1 的隨機數。Weight[]為 二維權重向量,對近鄰中的少數類和多數類樣本賦予不同的權重。isMinorityO用于判斷 yj是否是少數類。
[0019] Step4 :對少數類中的剩余樣本重復以上步驟,直至所有少數類樣本均處理完為 止。
[0020] Step5 :將新產生的數據與原有數據進行合并,生成新的數據集。
[0021] 2、基于距離的欠采樣方法(DUS)
[0022] 在基于決策面的分類過程中,如SVM方法,真正能夠區分類別的是那些在決策面 附近的樣本,而遠離決策面的樣本起的作用很小,甚至會使決策面偏離實際的位置,降低分 類精度。因此,適當刪除遠離決策面的樣本可以在提高精度的情況下,降低數據的不平衡程 度。本文以歐氏距離為標準,對多數類樣本進行欠采樣處理,具體算法如下:
[0023] Stepl :選取多數類中的一個樣本Zi(i = 1,"·,Μ,Μ為多數類的樣本個數),計算 Zi到所有少數類樣本的距離dij,j = 1,…,Ν ;Ν為少數類樣本的個數; ' Ν 、
[0024] St印2:計算距離的平均值4: 4= Σ4 /7V; kJ=1 J
[0025] St印3 :如果&大于設定的與閾值,則刪除,否則保留;
[0026] Step4:對多數類中的剩余樣本重復以上步驟,直至所有多數類樣本均處理完為 止。
[0027] St印5 :最后剩余的樣本組成新的數據集。
[0028] 3、過采樣和欠采用之間比例因子的設置
[0029] 上述兩種方法分別單獨對少數類數據和多數類數據進行了采樣。接下來,我們將 兩種方法結合起來考慮,對同一數據集同時采用IS0MTE和DUS方法進行采樣。為減小數據 集規模變化對訓練與分類時間的影響,本文對ISM0TE和DUS方法的采樣倍數設置了比例 因子,使得過采樣的增加的樣本數和欠采樣減少的樣本數相同,從而保持數據集規模不變。 ISM0TE方法可以通過設置采樣倍數R來指定新生成樣本的數量,而DUS方法閾值的調節很 難精確控制采樣數目,因此,我們設計了如下步驟:
[0030] St印1 :對多數類中的所有樣本Zi(i = 1,"·,Ν,N為多數類樣本的個數),計算Zi 到所有少數類樣本的距離c^_,j = 1,…,Μ ;M為少數類樣本的個數。 ' N 、
[0031] St印2:計算距離的平均值4: 4= Σ4 ,對計算得到的平均值進行排序 、/=1 / 得到A' i ;
[0032] Step3 :根據采樣倍數R,將中的前R個元素對應的樣本刪除,其余保留;
[0033] Step4 :最后剩余的樣本組成新的數據集。
[0034] 本發明將不平衡數據分類技術應用到了虛擬資產異常交易檢測當中,大大降低了 異常交易檢測的計算量,同時能達到很高的準確率。
【專利附圖】
【附圖說明】
[0035] 圖1為本發明的海量多結構虛擬資產數據管理系統架構圖
[0036] 圖2為本發明的數據采樣和分類器訓練流程圖
【具體實施方式】
[0037] 下面通過【具體實施方式】來進一步說明本發明的技術方案:
[0038] 本發明的技術方案主要包括:虛擬資產存儲架構的描述、不平衡交易數據的采樣 和分類器的構建。
[0039] 1.虛擬資產存儲架構描述
[0040] 虛擬資產存儲采用分布式框架,其體系架構如圖1所示,包括海量多結構數據的 組織與管理、海量多結構數據的查詢處理、服務發布與編程接口等部分。
[0041] 系統底層架構部署在傳統的分布式計算環境或云計算平臺上,通過分布式文件系 統實現對分布式計算環境中各節點上文件數據的透明訪問。分布式計算節點包括170臺高 性能服務器(兩顆Intel Xeon E5640,2. 66GHz ;16G DDR3內存;兩塊千兆網卡;冗余電源 及風扇),每一個服務器內置1個1TB磁盤,為了提高網絡的穩定性以及帶寬,配置兩套網 絡,網絡系統采用10臺48 口的千兆交換機連接而成。此外,為加強容災備份能力,系統還 包括8個盤陣,800塊1TB硬盤,48個盤柜,32塊RAID卡,8臺SAN交換機。在分布式文件 系統的基礎上,海量多結構數據的組織與管理子系統負責對分布的文件系統或數據進行統 一管理,其中,對文件或數據的統一管理是通過數據組織和數據管理模塊完成的。此外,還 包括不同數據/文件在底層分布式計算環境中的部署與配置管理。
[0042] 海量多結構數據的查詢處理子系統面向海量個人身份/屬性信息檢索類應用,支 持多結構數據的高效查詢處理,包括復合數據模型、混合數據操作模式等模塊。本發明主要 針對其中的日志分析與挖掘模塊,旨在利用數據挖掘技術快速高效檢測出虛擬資產交易過 程中存在的異常行為。
[0043] 服務發布、定制與編程接口子系統是系統的對外接口,以面向服務的方式對數據 進行程序設計接口定義,支持對結構化數據的SQL查詢、對非結構化數據的API及類SQL查 詢;支持用戶以服務接口定制的方式,對個人信息查詢服務接口進行自定義。本發明也可以 利用系統提供的數據訪問接口實現對虛擬資產交易數據的查詢與分析。在實際應用本發明 的時候,既可進行日志的挖掘與分析,也可以通過數據接口進行數據查詢與分析,也可以將 兩種方式結合。根據實際問題的不同,可采用最適合的方式。
[0044] 2.不平衡交易數據的采樣
[0045] 一般情況下,大部分虛擬資產的交易數據都是正常的,異常交易數據只占很少一 部分。因此,可將正常交易數據看作是多數類,即包含更多實例數據的類。將異常交易數 據看作是少數類,即含有較少實例數據的類。本發明對少數類樣本采用改進的SMOTE方法 (ISM0TE)進行過采樣,從而增加其樣本數量,同時對多數類樣本采用DUS (Distance-based Under Sampling)方法對多數類樣本進行欠采樣,以減少其樣本數量。過采用和欠采用并非 獨立,因此,通過設置比例因子來調節兩者采樣數目的比例,從而保持數據集規模不變,不 會增加計算量。采樣及分類器的訓練過程如圖2所示。
[0046] 2. 1 改進的 SMOTE 方法(ISM0TE)
[0047] SMOTE [1]首先為每個少數類樣本隨機選出幾個鄰近樣本,并且在該樣本與這些鄰 近樣本的連線上隨機生成無重復的新樣本。本方法增加了權重向量的概念,對鄰近樣本中 的少數類樣本賦予較高的權重,對多數類樣本賦予較低權重。具體算法如下:
[0048] Stepl :選取少數類中的一個樣本xji = 1,"·,Ν),計算乂1到樣本集中其它樣本的 距離,得到k個最近鄰樣本點;
[0049] Step2 :根據采樣倍數R/N,隨機從k個最近鄰樣本點中選取R/N個樣本,記為yj, j =1, - ,R/N;
[0050] Step3 :在Xi與y」之間構造新的少數類樣本χ/ :χ/ = Xi+randon^O, 1) X (yj-x) XWeight[isMinority(yj)];其中,random(0, 1)表示產生一個 0-1 的隨機數。Weight[]為 二維權重向量,對近鄰中的少數類和多數類樣本賦予不同的權重。isMinorityO用于判斷 yj是否是少數類。
[0051] Step4 :對少數類中的剩余樣本重復以上步驟,直至所有少數類樣本均處理完為 止。
[0052] Step5 :將新產生的數據與原有數據進行合并,生成新的數據集。
[0053] 2. 2基于距離的欠采樣方法(DUS)
[0054] 在基于決策面的分類過程中,如SVM方法,真正能夠區分類別的是那些在決策面 附近的樣本,而遠離決策面的樣本起的作用很小,甚至會使決策面偏離實際的位置,降低分 類精度。因此,適當刪除遠離決策面的樣本可以在提高精度的情況下,降低數據的不平衡程 度。本文以歐氏距離為標準,對多數類樣本進行欠采樣處理,具體算法如下:
[0055] Stepl :選取多數類中的一個樣本Zi (i = 1,…,M,Μ為多數類的樣本個數),計算 Zi到所有少數類樣本的距離dij,j = 1,…,Ν ;Ν為少數類樣本的個數; ' Ν 、
[0056] Step2 :計算距離的平均值4 : 4 = V J=1 )
[0057] St印3 :如果&大于設定的與閾值,則刪除,否則保留;
[0058] Step4:對多數類中的剩余樣本重復以上步驟,直至所有多數類樣本均處理完為 止。
[0059] Step5 :最后剩余的樣本組成新的數據集。
[0060] 2. 3過采樣和欠采用之間比例因子的設置
[0061] 上述兩種方法分別單獨對少數類數據和多數類數據進行了采樣。接下來,我們將 兩種方法結合起來考慮,對同一數據集同時采用IS0MTE和DUS方法進行采樣。為減小數據 集規模變化對訓練與分類時間的影響,本文對ISM0TE和DUS方法的采樣倍數設置了比例 因子,使得過采樣的增加的樣本數和欠采樣減少的樣本數相同,從而保持數據集規模不變。 ISM0TE方法可以通過設置采樣倍數R來指定新生成樣本的數量,而DUS方法閾值的調節很 難精確控制采樣數目,因此,我們設計了如下步驟:
[0062] St印1 :對多數類中的所有樣本Zi(i = 1,…,仏N為多數類樣本的個數),計算Zi 到所有少數類樣本的距離c^_,j = 1,…,Μ ;M為少數類樣本的個數。 ' N 、
[0063] St印2:計算距離的平均值4: 4= Σ4 /iV,對計算得到的平均值進行排序 Vi=i / 得到A' i ;
[0064] Step3 :根據采樣倍數R,將中的前R個元素對應的樣本刪除,其余保留;
[0065] Step4 :最后剩余的樣本組成新的數據集。
[0066] 3.分類器的構建
[0067] 通過2中所描述算法得到采樣后新的數據集。在該數據集上訓練得到SVM分類器。
[0068] 對于新的虛擬資產交易數據,將其輸入到SVM訓練器中進行分類。根據分類結果 即可判斷該交易是否異常。
[0069] 與已有技術相比,本專利申請將不平衡數據分類技術應用到了虛擬資產異常交易 檢測當中,大大降低了異常交易檢測的計算量,同時能達到很高的準確率。
[0070] 以上是對本發明進行了示例性的描述,顯然本發明的實現并不受上述方式的限 制,只要采用了本發明技術方案進行的各種改進,或未經改進將本發明的構思和技術方案 直接應用于其它場合的,均在本發明的保護范圍內。
【權利要求】
1. 一種虛擬資產不平衡交易數據的采樣方法,其特征在于,包括以下步驟: 將虛擬資產交易中的異常交易數據定義為少數類,對少數類樣本采用改進的SMOTE方 法進行過采樣,從而增加其樣本數量; 將虛擬資產交易中的正常交易數據定義為多數類,對多數類樣本采用基于距離的DUS 方法進行欠采樣,以減少其樣本數量; 通過設置比例因子來調節過采樣和欠采樣采樣數目的比例; 其中改進的SMOTE方法為: Stepl :選取少數類中的一個樣本Xi (i = 1,…,N),計算Xi到樣本集中其它樣本的距 離,得到k個最近鄰樣本點; Step2 :根據采樣倍數R/N,隨機從k個最近鄰樣本點中選取R/N個樣本,記為y」,j = 1,…,R/N; Step3 :在Xi與y」之間構造新的少數類樣本χ/ :χ/ = Xi+randon^O, 1) X (yj-xD XWe ight[isMinority(yj)];其中,random(0, 1)表示產生一個 0-1 的隨機數。Weight □為二維 權重向量,對近鄰中的少數類和多數類樣本賦予不同的權重。isMinorityO用于判斷7』是 否是少數類; St印4 :對少數類中的剩余樣本重復以上步驟,直至所有少數類樣本均處理完為止; Step5 :將新產生的數據與原有數據進行合并,生成新的數據集; 其中基于距離的DUS方法為: Stepl :選取多數類中的一個樣本Zi(i = 1,"·,Μ,Μ為多數類的樣本個數),計算Zi到 所有少數類樣本的距離dij,j = 1,…,N ;N為少數類樣本的個數; ' N 、 st印2:計算距離的平均值4: 4= Σ4 /iV; Vi=1 ./ St印3 :如果Ai大于設定的與閾值,則刪除,否則保留; St印4 :對多數類中的剩余樣本重復以上步驟,直至所有多數類樣本均處理完為止; Step5 :最后剩余的樣本組成新的數據集; 其中過采樣和欠采用之間比例因子的設置方法為: Stepl :對多數類中的所有樣本Zi(i = 1,···,Ν,Ν為多數類樣本的個數),計算Zi到所 有少數類樣本的距離dij,j = 1,…,Μ ;M為少數類樣本的個數; ' N 、 st印2:計算距離的平均值4: 4= Σ4 /Λ",對計算得到的平均值進行排序得到 \J=l ) A' i ; Step3 :根據采樣倍數R,將A' i中的前R個元素對應的樣本刪除,其余保留; Step4 :最后剩余的樣本組成新的數據集。
【文檔編號】G06F19/00GK104091073SQ201410329242
【公開日】2014年10月8日 申請日期:2014年7月11日 優先權日:2014年7月11日
【發明者】李虎, 賈焰, 韓偉紅, 周斌, 楊樹強, 李愛平, 黃九鳴, 李樹棟, 劉 東, 全擁, 鄧璐, 姬炳帥 申請人:中國人民解放軍國防科學技術大學