一種基于事件關系網絡的事件摘要方法
【專利摘要】本發明提供一種基于事件關系網絡的事件摘要方法,包括以下步驟:步驟1,選取有序事件序列中任意兩個事件類型作為關注事件類型,根據關注事件類型構造一個子事件序列,并構造該子事件序列的到達間隔直方圖;步驟2,基于最短描述長度原則編碼子事件序列中的片段;步驟3,基于啟發式算法對子事件序列中的片段進行劃分,計算子事件序列的最短編碼長度;步驟4,構造事件關系網絡刻畫事件模式。本發明提供的方法依據最短描述長度原則對事件到達間隔直方圖及其近似直方圖進行編碼,表達方式直觀、易于理解,克服了需要事先確定組數和頻數的不足,并能識別不相交的直方圖集合。
【專利說明】一種基于事件關系網絡的事件摘要方法
【技術領域】
[0001] 本發明屬于數據挖掘領域,特別是一種基于事件關系網絡圖的事件摘要方法。
【背景技術】
[0002] 事件摘要是數據挖掘領域事件挖掘方向相對新的研究熱點之一,可以被視為是頻 繁項集挖掘和頻繁場景挖掘的擴展。頻繁模式挖掘技術通過識別離散時間之間的相關性, 能揭示一些令人感興趣的模式,往往可以作為事件摘要的構造塊。
[0003] 許多系統和應用程序會產生大量的時序事件,即關聯著時間戳的事件序列,例如: 系統日志、HTTP請求序列、數據庫請求序列和網絡流量數據序列等。這些事件捕獲了隨著 時間變化而不斷改變的系統狀態和行為,對于歷史事件數據的挖掘是理解和優化系統行為 的有效方式之一。通過審核挖掘得到的事件模式,系統管理員可以建立事件或事故管理規 則以消除或者緩解系統失效風險。目前,這種方式已經成為大規模分布式系統管理的標準 方法,被IBM和HP這樣的IT公司應用于IT基礎設施管理。
[0004] 現有的大部分事件挖掘研究工作都致力于場景挖掘或頻繁模式發現(R. Agrawal and R. Srikant.Mining sequential patterns. In ICDEj 1995 ;S.Laxman and K. P. Unnikrishnan P. S. Sastryand. Discovering frequent episodes and learning hidden markov models:A formal connection. IEEE Transactions on Knowledge and Data Engineering, 17:1505-1517, 2005 ;T. Li, F. Liang, S. Maj and W. Peng. An integrated framework on mining logs files for computing system management. In KDD,2005.) 〇這 些方法簡單地產生相互獨立的大量模式,而不能提供一種簡要的和綜合性的事件摘要以揭 示數據集所蘊含的系統視圖,且這些模式對于系統管理員而言難于獲得將它們應用于降低 系統運行風險的方法。
[0005] 最新的事件挖掘研究工作不在聚焦于頻繁模式發現,轉而關注事件摘要。通常的 方法是將事件序列劃分為不相交的事件片段,而后為每一個事件片段產生一個事件模式用 于描述片段中的事件。Peng提出了一種事件摘要方法,該方法從通過分析事件日志進而 度量事件達到獲取模式(W. Peng, C. Perng, T. Li, and H. Wang. Event summarization for system management. In KDD, 2008.) ;Kiernan將事件摘要建模成優化問題,主要目的是 平衡摘要的準確性和局部模型的缺陷,為此提出了一種基于分片的事件摘要方法,該方法 將事件序列按照事件出現的頻率變化劃分為若干個事件片段(J. Kiernan and E. Terzi. Constructing comprehensive summaries of large event sequences. ACM Transactions on Knowledge Discovery from Data, 3:1 - 31,2009)。基于上述工作,Peng 進一步地提 出了采用隱馬爾科夫模型來刻畫事件序列片段之間的狀態遷移過程,改進基于分片的事 件摘要方法(W. Peng, H. Wang, M. Liu, and W. Wang. An algorithmic approach to event summarization. In SIGM0D, 2010.)。然而,這些方法獲得的事件摘要對于數據挖掘領域的 外行而言難于理解,無法為系統管理員提供足夠的幫助。
[0006] 本發明中采用直方圖的方式描述事件模式,并采用信息論中的位串方式對直方 圖進行編碼。Marsland提出了 一種直方圖的編碼方法(S. Marsland, C. J. Twining, and C. J. Taylor. A minimum description length objective function for group-wise non-rigid image registration. In Image and Vision Computing, 2008),但該方法僅適 用于有固定的組數和固定的頻數的直方圖,而本發明中用于事件摘要的直方圖不能滿足上 述要求,所以不能應用于本發明。
【發明內容】
[0007] 為克服現有技術的不足,本發明中依據最短描述長度原則對事件到達間隔直方圖 及其近似直方圖進行編碼,克服了需要事先確定組數和頻數的不足,并能識別不相交的直 方圖集合。進一步地,采用事件網絡關系模型這一直觀和易于理解的表達方式表示事件模 式,能幫助系統管理員掌握系統運行狀態及其變化過程。
[0008] -種基于事件關系網絡的事件摘要方法,包括以下步驟:
[0009] 步驟1,構造事件到達間隔直方圖,過程如下:
[0010] 給定一個事件序列D,令S是D中最多包含兩種不同事件類型ex和ey的子序列, 且子序列S可以劃分為k個不相交的片段,即S = (S1, S2,. . .,Sp,. . .,Sk),1彡P彡k ;對于 任意的片段Sp,根據片段Sp中事件類型為ex和ey的事件到達時間間隔分布情況,構造事件 到達間隔直方圖,記為hxy(Sp);
[0011] 步驟2,基于最短描述長度原則編碼事件片段,過程如下:
[0012] 給定僅包含事件類型ex和ey的子序列S,對于任意的子序列S中事件 片段Sp,先編碼近似直方圖l(sph編碼長度,再編碼L(Sp)與h xy (Sp) 的距離,編碼長度,最后計算事件到達間隔直方圖編碼長度, Khxr (S1,)) = L(hx,(S")) + L(/,t>.(SF) I A,,(S/());
[0013] 步驟3,基于啟發式算法的最佳事件片段劃分,過程如下:
[0014] 給定事件序列D中僅包含事件類型ex和ey的子序列S,構造子序列S對應的直方 圖圖采用最短路徑算法Dijkastra查找直方圖圖巧的最短路徑,路徑上的k個 不相交片段即為子序列S1 -個最佳劃分^ 5;),使得子序列S1的編碼長度最 短,然后按照步驟2計算S的每個劃分對應的近似直方圖h表示事件片段<蘊含 的事件模式,并將該事件模式添加到事件模式集R ;
[0015] 步驟4,構造事件關系網絡刻畫事件模式,過程如下:
[0016] 定義事件關系網絡ERN = (V',E'),其中頂點集V'表示事件模式集R中涉及到的 所有事件類型集^ = ,E'表示事件類型之間的關系;遍歷事件模式集R,將每一個事件 模式表示成ERN的一條邊,并將事件模式的參數作為邊的權重;遍歷完成后產生完整的事 件關系網絡。
[0017] 本發明與現有技術相比具有顯著優點:(1)可以捕獲同類型事件和兩種不同類型 事件之間的時序關系;(2)采用最短描述長度原則平衡摘要的準確性和簡潔性;(3)以事件 關系網絡刻畫事件序列蘊含的事件模式,使得系統管理員易于理解;
[0018] 下面結合附圖對本發明作進一步詳細描述。
【專利附圖】
【附圖說明】
[0019] 圖1基于事件關系網絡的事件摘要方法;
[0020] 圖2事件到達間隔直方圖示例;
[0021] 圖3事件片段的編碼過程;
[0022] 圖4基于啟發式算法的最佳事件片段劃分過程。
【具體實施方式】
[0023] 結合圖1,闡述一種基于事件關系網絡的事件摘要方法,包括以下步驟:
[0024] 步驟1,選取有序事件序列中任意兩個事件類型作為關注事件類型,根據關注事件 類型構造一個子事件序列,并構造該子事件序列的到達間隔直方圖,過程如下:
[0025] 步驟1. 1,給定一個由n個有序事件構成的事件序列D= (<1^,ei>,. . .,<ti, ej > ,..,< tn, em > ),其中,< h,e」> ,1彡i彡n, 1彡j彡m表示第i個事件,&表示第 i個事件發生的時間戳,4 G e = {ei,e2, . . .,eJ表示事件類型,e表示事件類型的集合。
[0026] 步驟1. 2,獲取事件序列D中僅包含事件類型edP ey的子事件序列S,1彡x,y彡m。
[0027] 步驟1. 3,將子事件序列S劃分為k個不相交的片段S = (S1, S2, . . .,Sp,. . .,Sk)。
[0028] 步驟1. 4,記錄下列參數:序列S每一個片段Sp中類型為ex的事件到達的時間 戳,序列S每一個片段Sp中類型為ex的事件到達后首次出現類型為ey的事件的時間戳 、到達間隔值bp、非空組Mnp的個數C1和非空組binp頻數nunip,如圖2所示。
[0029] 步驟1. 5,利用公式①構造片段Sp的事件到達間隔直方圖hxy (Sp)
[0030] Ief =e,,nexf(fve-J-\ ①
[0031] 步驟2,基于最短描述長度原則編碼子事件序列中的片段,給定僅包含事件類型ex和ey的子序列S,事件摘要問題本質就是查找該事件序列的k個不相交片段的一個最佳劃 分S = (S1, S2,. . .,Sp,. . .,Sk),并為任意的事件片段Sp構造一個最佳的近似直方圖作為Sp的事件到達間隔直方圖的近似,從而使得子序列S的編碼長度最短,結合圖3,具體過程如 下:
[0032] 步驟2. 1,編碼到達間隔直方圖hxy(Sp)的近似直方圖L(Sp) 4合定Sp及其對應的 事件到達間隔直方圖hxy (Sp),采用Iwsi,)表示對hxy (Sp)的近似,兩者具有相同的事件到達 頻數,但非空組數不同,且Ijs,,)的非空組數一般取值為1或2,小于hxy(Sp)的非空組數; 編碼任意的事件片段Sp對應的近似直方圖IJ需要對描述直方圖的三個要素分別進行 編碼,這三個要素分別是:事件類型,事件片段的邊界和非空的組:
[0033] 步驟2. 1. 1,對事件片段Sp的事件類型集進行編碼,長度為如O = Iogf ;
[0034] 步驟2. 1.2,對事件片段Sp邊界進行編碼,長度為/4B,J = l〇g;V,Bp表示事件片段Sp的邊界;
[0035] 步驟2. I. 3,對事件片段Sp所有非空組進行編碼,長度為/4/,/,》) = log'; +丨〇g;?l〇g, S表示事件片段Sp中最大的到達間隔;
[0036] 步驟2. 1. 4,利用公式②,編碼到達間隔直方圖hxy(Sp)的近似直方圖t(S,,)
[0037] L(Jx,y(Sr)) = Hs) + L(Bp) + L(bim) 〇 ②
[0038] 步驟2. 2,編碼I(Sp)與hxy(Sp)的距離,表示兩直方圖間的距離定 義為需要移動的頻數之和:
[0039] 步驟2.2. 1,獲取hxy (Sp)的非空組數<",設的非空組數為/1:;
[0040] 步驟2. 2. 2,遍歷L(Sp),記錄非空組bin' p,若If(Sjj)中不存在到達間隔值bp的組,則/4/?"4)|。5^) = £(/!".(5<,)|1,.(\?備1?1/,;若1辦,,)中存在到達間隔值、的組,則 UKiSr) I (5;)) = L(hniSp) I In,{Sp)) + \lh\Sp)|hp J^ Jin-(Sp )i b(! \\ 〇
[0041] 步驟2.3,計算事件到達間隔直方圖hxy(Sp)的編碼長度, i(MSP ))=呵 minL,, .V.. ,5p ( S;J) + Ml A )丨 t 直方圖hxy(Sp)的所有可能的近似直方圖的全集,需要從TL*沖查找最小的一個LR)作 為hxy (Sp)的近似,計算方法如下:
[0042] 步驟2. 3. 1,按照非空組binp的頻數nump大小,以降序方式對hxy (Sp)中的所有非 空組進行排序;
[0043] 步驟 2. 3. 2,初始化 topn = 1 ;
[0044] 步驟2. 3. 2,取hxy (Sp)的前topn個非空組binp,采用步驟2. 1的方法構
【權利要求】
1. 一種基于事件關系網絡的事件摘要方法,其特征在于,包括以下步驟: 步驟1,選取有序事件序列中任意兩個事件類型作為關注事件類型,根據關注事件類型 構造一個子事件序列,并構造該子事件序列的到達間隔直方圖; 步驟2,基于最短描述長度原則編碼子事件序列中的片段; 步驟3,基于啟發式算法對子事件序列中的片段進行劃分,計算子事件序列的最短編碼 長度; 步驟4,構造事件關系網絡刻畫事件模式。
2. 根據權利要求1所述的基于事件關系網絡的事件摘要方法,其特征在于,步驟1的直 方圖具體構造過程如下: 步驟1. 1,給定一個由n個有序事件構成的事件序列D=(<tpei>,...,<心,ej>,..,<tn,em > ),其中,< 心,e」>,1彡i彡n, 1彡j彡m表示第i個事件,h表示第i 個事件發生的時間戳,4Ge = {ei,e2, . . .,eJ表示事件類型,e表示事件類型的集合; 步驟1. 2,獲取事件序列D中僅包含事件類型ex和ey的子事件序列S,1 <x,y<m; 步驟1. 3,將子事件序列S劃分為k個不相交的片段S=(SpS2,. . .,Sp,. . .,Sk); 步驟1. 4,記錄下列參數:序列S每一個片段Sp中類型為ex的事件到達的時間戳^,序 列S每一個片段Sp中類型為ex的事件到達后首次出現類型為ey的事件的時間戳 到達間隔值bp、非空組binp的個數和非空組binp頻數nunip; 步驟1. 5,利用公式①構造片段Sp的事件到達間隔直方圖hxy(Sp)
3. 根據權利要求1所述的基于事件關系網絡的事件摘要方法,其特征在于,步驟2的具 體過程為: 步驟2. 1,編碼到達間隔直方圖hxy(Sp)的近似直方圖 步驟 2. 2,編碼心-(S#)與hxy (Sp)的距離 (.S;J|L.(.V〇; 步驟2. 3,計算事件到達間隔直方圖hxy(Sp)的編碼長度。
4. 根據權利要求3所述的基于事件關系網絡的事件摘要方法,其特征在于,步驟2. 1的 具體方法為: 步驟2. 1. 1,對事件片段Sp的事件類型集進行編碼,長度為i(4 =l〇gh 步驟2. 1. 2,對事件片段Sp邊界進行編碼,長度為i(B") =togp,Bp表示事件片段Sp的邊 界; 步驟2. 1. 3,對事件片段Sp所有非空組進行編碼,長度為
5表 示事件片段Sp中最大的到達間隔; 步驟2. 1. 4,利用公式②,編碼到達間隔直方圖hxy(Sp)的近似直方圖k(S")
5. 根據權利要求4所述的基于事件關系網絡的事件摘要方法,其特征在于,步驟2. 2的 具體方法為: 步驟2. 2. 1,獲取hxy(Sp)的非空組數C,設iv(S")的非空組數為; 步驟2. 2. 2,遍歷Epg),記錄非空組bin'p,若中不存在到達間隔值bp的 組,則
若t(S,,)中存在到達間隔值bp的組,則
6. 根據權利要求5所述的基于事件關系網絡的事件摘要方法,其特征在于,步驟2. 3的 具體方法為: 步驟2. 3. 1,按照非空組binp的頻數nump大小,以降序方式對hxy(Sp)中的所有非空組 進行排序; 步驟2. 3. 2,初始化topn=1 ; 步驟2. 3. 3,取hxy(Sp)的前topn個非空組binp,采用步驟2. 1的方法構 造hxy(Sp)的前topn個非空組binp的近似直方圖
,計算
步驟2. 3. 4,取前topn+1個非空組構造近似直方圖,采用與步驟2. 3. 3相同的方式 計算出新的Ln? (hxy (Sp)),
,若Ln? (hxy (Sp))大于 L(hxy(Sp)),貝ljLn?(hxy(Sp))為事件到達間隔直方圖hxy(Sp)的編碼長度,計算結束;否貝IJ,topn=topn+1,跳轉到步驟 2. 3. 2,直到ftp? =Cj。
7. 根據權利要求1所述的基于事件關系網絡的事件摘要方法,其特征在于,步驟3的具 體步驟為: 步驟3. 1,獲取事件序列D中僅包含一種事件類型的m個子序列,其中m為事件類型 的總個數;獲取事件序列D中包含兩種事件類型的m2-m個子序列,將m2個子序列構成集 合SubD;對于任意一個子序列S\lG[l,m2]中的事件片段式,S1GSubD,采用五元組 (446,刻畫事件片段駑中蘊含的事件模式,其中t和 < 分別表示該模式所刻畫的事 件序列的開始時間戳和結束時間戳,wp表示事件類型為ex和ey的事件到達間隔長度; 步驟3. 2,初始化事件序列D蘊含的事件模式集i? = 0 ; 步驟3. 3,構造子序列S1對應的有向直方圖圖MK#),其中V1是頂點集,E1是邊 集;頂點集的大小f1=4,其中必是子序列^中事件類型ex和ey的事件之間的到達間 隔的總個數;對于任意的兩個頂點和蛤,,以頂點必:為起點,以頂點 為 終點構成事件片段按照公式②計算事件片段筆的事件到達間隔直方圖的編碼長度 丨作為這條邊的權值,添加一條邊、到邊集E1 ; 步驟3. 4,采用最短路徑算法Dijkastra查找直方圖圖上從第一頂點到第 頂 點弋的所有路徑中的最短路徑^^1^),/^/< <^卜(¥2,-*,4,.*#,\),則子序列《的最佳 事件片段劃分為S1 = {<V"v2 >,<v2,v3 >,--?,<vw,v(w+1) >,--,<vz,Cxy > }; 步驟3. 5,按照步驟2. 3計算任意的子序列S1的每個劃分對應的近似直方圖, 表示事件片段< 蘊含的事件模式,并將該事件模式添加到事件模式集R; 步驟3. 6,SubD=SubD-tS1},若轉到步驟3. 3,對任意的新子序列進行步驟 3. 3至步驟3. 5的計算過程;否則結束步驟3。
8.根據權利要求1所述的基于事件關系網絡的事件摘要方法,其特征在于,步驟4的具 體步驟為: 步驟4.1,定義事件關系網絡可為ERN= (V',E'),其中頂點集V'表示事件模式集R中涉及到的所有事件類型集=fehE'表示事件類型之間的關系,對于任意的兩個頂點 ex'GV'和ey'GV',邊其中w表示邊的權值; 步驟4. 2,識別事件模式集R中涉及到的所有事件類型集e',使得V' =e' ; 步驟4. 3,遍歷事件模式集R,對于任意的事件模式epGR,若ep僅包含事件類型exGV',則印是周期性模式,添加邊〃,一到邊集E',其中印?wp表示事件模式印中 事件重復出現的周期值;若ep包含事件類型ex,eyeV',且ex尹ey,則印是相關性模式, 添加邊'g,..........輕.......到邊集E',其中印?wp表示事件模式ep中事件類型為ex的事件出現后 事件類型為ey的事件的到達間隔; 步驟4. 4R=R- {印},若i? = 0,則結束,否則跳轉到步驟4. 3。
【文檔編號】G06F19/00GK104408294SQ201410607163
【公開日】2015年3月11日 申請日期:2014年10月31日 優先權日:2014年10月31日
【發明者】徐建, 李濤, 許福, 張琨, 張宏, 李千目, 陳龍, 范志凱, 吳旺文, 費薇 申請人:南京理工大學