專利名稱:預測模型的在線增量式插入與刪除方法
技術領域:
本發明涉及預測模型的在線增量式插入與刪除方法,屬于計算機應用技術 領域,本發明可廣泛應用于預測模型的在線更新。
背景技術:
標準局部匹配預測模型(PPM: Prediction by Partial Match)是一種上下 文關系模型,它用馬爾可夫模型來存儲上下文關系,樹中的每個節點代表從根 到該節點的訪問序列,節點中的計數代表訪問序列的訪問頻率,并可利用上下 文關系進行預測,其中上下文關系的長度稱為階。標準PPM有著廣泛的應用,比 如用作Web預測模型時,稱其為基于局部匹配的Web預測模型,其中模型元素對 應Web頁面的訪問事件,上下文關系依賴于這些事件的順序,Markov預測樹用來 描述用戶的瀏覽特征,通過序列匹配來預測用戶將來的訪問請求。
目前預測模型是基于先訓練后測試的靜態模式,無在線能力,更新過程一 般采用定期重新構造一遍PPM預測樹的方法。因此,這些PPM模型不能隨時加 入新的用戶請求和刪除過時信息,當用作具體應用領域時,比如局部匹配的Web 預測模型時,會導致模型中包含的用戶瀏覽模式與新的用戶訪問請求不一致, 不能體現當前用戶的瀏覽興趣,從而降低模型的預測能力。
發明內容
本發明的目的是在PPM的基礎上,通過引入非壓縮后綴指針、增量式插入和 增量刪除操作機制,實現了PPM模型的在線增量式插入和刪除的更新機制。
本發明的預測模型的在線增量式插入與刪除方法的整體框架設計流程如圖
l所示,具體實現步驟如下
步驟一、構造帶有非壓縮后綴指針的PPM預測樹
首先,給出相關概念的定義。
定義l:滑動窗口滑動窗口定義為h(&^^)個請求訪問序列〈Tl, Il>, <T2, 12〉, 〈T3, 13〉, ..., 〈Th, Ih〉,其中M表示一個窗口最多包含的請求個數,7;(i二l,2,3…) 為元組的請求時間,Z表示實體,且DTi。
隨著訪問序列的輸入,滑動窗口不斷的向前滑動,新的請求不斷的滑入窗 口,末端的請求不斷地滑出窗口。
構造帶有非壓縮后綴指針的PPM預測樹基本思想是在滑動窗口控制下的 PPM預測樹中,為每個非根節點中,引入了一個后綴指針,它指向其后綴節點。 其主要步驟如下
第(1)步初始狀態為一個根節點,或為在滑動窗口控制下的PPM預測樹, 其中非根節點代表從根到此節點的請求序列,上下文的長度等于節點的深度, 節點中的計數代表相應上下文的訪問次數;
第(2)步選擇一個節點,若為非根節點時,依據當前會話,引入了一個 后綴指針,它指向其后綴節點;
第(3)步所有非根節點都有了一個后綴指針時,帶有非壓縮后綴指針的 PPM預測樹就構造好了,否則轉第(2)步。
步驟二、增量式插入的方法
在步驟一的相關概念定義和帶有非壓縮后綴指針的PPM預測樹的基礎上, 步驟二提出一種在線更新操作中增量式插入的方法。
增量式插入的基本思想是在已經構建的非壓縮后綴樹預測樹的基礎上, 找到將要加入的請求所在的活動會話,并將此請求加入到此會話,將其表示為 Su, j. k),其中i表示某對象,j表示此對象的第j個會話,k表示此會話已包含 的請求的個數,且^W^1,"1。為了將這個新請求插入到非壓縮后綴預測樹模 型中,在S("h)所對應的所有當前活動上下文下,加入新的請求,即會話Sa,j. k尸(Ab A2, A3,…,Ak)的后綴可以通過在會話S(i. j, k—D={ A, A2, A3,…,Ah} 的每個后綴末端連接上Ak而獲得;同時,設置相應的后綴指針,并改變S(i, j.k) 中部分請求的指向最長分枝的指針。
設Suf f ix—T表示非壓縮后綴樹,Order表示Suf f ix一T的階。對于一個新請 求A,用一個滑動窗口控制處于SiiffixJT中的用戶訪問序列,每次總是插入最 前端的用戶請求。按照下列的步驟加入到Suffix一T中
第(l)步如果A屬于一個新對象的會話,標識此對象會話為活動會話,并 置同一對象原來活動會話為不活動的,同時將對應的最長上下文指針指向根節 點。設A對應的活動會話為Su, j, k)={ A:,A2,A3,…,AJ,為會話S(i, j, w中的每個請求Am分配一個指向最長分枝的指針L—Branch"」, )(BW^;0 ,其中玍表示會 話Sa, j, w中的第m個請求;
第(2)步檢查S(i,j.w)的最長上下文和所有后綴的子節點中是否包含A。如
果存在這樣的節點(SuffixJ中已存在這樣的上下文),將這個上下文的計數增 1;否則,創建一個新的子節點,將此新節點的計數設置為1;
第(3)步改變S(i, j, k)的最長上下文指針,使其指向新的最長上下文;
第(4)步若創建了新節點,則使其后綴指針指向相應的后綴;否則,不改 變后綴指針的值;
第(5)步對于S", j. k)中的第m個請求A , L_Branch(i, jj指向代表序列 {Am, A +1,…,Aj的節點,其中,若OWw2it,貝Ul^w^A:;否貝廿,A — CWerSwSA。 步驟三、增量式刪除的方法
在步驟一的相關概念定義和帶有非壓縮后綴指針的PPM預測樹的基礎上, 步驟三提出一種在線更新操作中增量式刪除的方法。
增量式刪除的基本思想是在預測模型的基礎上,每次刪除的總是存在于
模型中的最早的請求A,從而只需刪除由A所屬會話在非壓縮后綴樹模型上所引
起的分枝。因為在模型構建中,已經為輸入序列的每一個請求分配一個指向其 對應的最長分枝,所以在刪除時,僅需對最長分枝到根的每個節點的上下文計 數減l,如果結果為零,則刪除該節點。
隨著訪問序列的輸入,滑動窗口不斷的向前滑動,新的請求不斷的滑入窗
口,末端的請求不斷的滑出窗口,增量式從模型中刪除。具體步驟為 第(l)步獲取滑動窗口中最早的請求A; 第(2)步刪除滑動窗口的第一個請求; 第(3)步査找A所屬的會話S(i,l,k); 第(4)步:刪除S(i,l,k)的第一個請求;
第(5)步對最長分枝到根的每個節點的上下文計數減l,如果結果為零, 則刪除該節點。 有益效果
① 為PPM預測樹引入后綴指針后,可擴展其在線的更新操作能力,當需要 從一個上下文節點移動到其對應的最長后綴上下文的節點時,根據后綴指針可 以直接找到,避免復雜的査找過程;為訪問序列的每個請求分配一個指向其對 應的最長分枝的指針,可加速操作的處理;
② 預測模型的在線更新(增量插入、刪除)方法,無須再定期重新構造一遍PPM預測樹,可隨時加入新的請求和刪除過時信息,當用作Web預測模型時,保 持用戶瀏覽模式與新的用戶訪問請求一致,體現出當前用戶的瀏覽興趣,提高 模型的預測能力;
③隨著訪問序列的輸入,滑動窗口不斷的向前滑動,新的請求不斷的滑入 窗口,增量式插入到模型中,末端的請求不斷的滑出窗口,增量式從模型中刪 除。每次插入的總是處于滑動窗口前端的最新的請求,刪除的總是處于滑動窗 口末端的請求。
圖1為本發明的整體框架設計流程圖; 圖2為本發明實施例中的增量插入操作初態舉例說明圖; 圖3為本發明實施例中的增量插入用戶請求序列"ABABCDC)第一個A操作 舉例說明圖4為本發明實施例中的增量插入用戶請求序列(AABABCDC)第二個A操作 舉例說明圖5為本發明實施例中的增量插入用戶請求序列(AABABCDd第二個C操作 舉例說明圖6為本發明實施例中的刪除用戶請求序列(AABABCDC)第一個請求A操作 舉例說明圖7為本發明實施例中的刪除用戶請求序列UABABCDCl第二個請求A操作 舉例說明圖。
具體實施例方式
根據上述技術方案,下面結合附圖和實施例對本發明進行詳細說明。 以用戶請求序列(AABABCDC1為例,這些請求所屬的用戶對象表示為 {12132133},其中的標號l、 2和3表示請求分別屬于用戶1、用戶2和用戶3。 劃分用戶會話后,用戶1的會話為{ABC}、用戶2的會話為{AB}、用戶3的會話 為{ADC}。
步驟一、構造帶有非壓縮后綴指針的PPM預測樹 以圖2-圖7為例,均是大小為8的滑動窗口。
以圖5為例,在大小為8的滑動窗口控制下,構造帶有非壓縮后綴指針的第(1)步PPM預測樹是由"BC)、 UB)和(ADC)序列組成的,其中非根節
點有1個A/3、 2個B/2、 4個C/1、 1個C/2、 2個D/1。
第(2)步為A/3建立指向根節點的后綴指針;
為B/2建立指向根節點的后綴指針,或建立指向B/2的后綴指針; 為C/2建立指向根節點的后綴指針;
為D/1建立指向根節點的后綴指針,或建立指向D/1的后綴指針; 為C/1建立指向C/1的后綴指針,或建立指向C/2的后綴指針; 或為C/1建立指向另一個C/1節點的后綴指針,或建立指向C/2 的后綴指針;
第(3)步構造帶有非壓縮后綴指針的PPM預測樹結束。 步驟二、增量式插入的方法
在圖2-圖5中,說明插入序列(AABABCDC)到預測模型的部分過程,設滑動 窗口的大小為8。其中帶箭頭的實線表示后綴指針,帶箭頭的虛線表示指向最長 分枝的指針,直線段表示非壓縮后綴樹本身,滑動窗口的陰影部分表示當前插 入的請求,每一個步驟代表順序插入序列(AABABCDC)中的一個請求。在插入每 個請求的過程中,都是在前一個已構建預測樹的基礎上,在相應的活動上下文 的子節點中插入新的用戶請求,改變對應的后綴指針和指向最長分枝的指針。
在初始時,只存在一個根節點。如圖2所示。
當插入第一個用戶請求A時,此時只有根節點是此請求的活動上下文,則 僅在根節點下插入新的節點,并設計數值為l,同時令該新節點的后綴指針指向 根節點,該會話的請求A的最長分枝指針指向新加入的節點,如圖3所示;
圖3插入第一個用戶請求A的過程如下
第(l)步A屬于一個新的用戶會話,標識此會話為活動用戶會話,并置同
一用戶原來活動用戶會話為不活動的;
第(2)步插入第一個用戶請求A時,只有根節點是此請求的活動上下文,
則僅在根節點下插入新的節點,并設計數值為1;
第(3)步改變S(i, j, k)的最長上下文指針,使其指向新的最長上下文; 第(4)步因創建了新節點,使其后綴指針指向相應的后綴,即根節點; 第(5)步該會話的請求A的最長分枝指針指向新加入的節點。當插入第二個請求A時,因為其屬于另一個用戶會話的第一個用戶請求,
因此該請求的活動上下文仍然為根節點,僅在根節點下插入此請求,由于根節
點的子節點中已包含請求A,則只需將計數增l即可,而后將對應的最長分枝指 針指向該節點,如圖4所示。
圖4插入第二個用戶請求A的過程
第(l)步A屬于另一個新的用戶會話,標識此會話為活動用戶會話,并置
同一用戶原來活動用戶會話為不活動的;
第(2)步插入這個用戶請求A時,由于根節點的子節點中已包含請求A,
則只需將計數增1即可;
第(3)步改變S(i, j, k)的最長上下文指針,使其指向新的最長上下文; 第(4)步保持其后綴指針指向相應的后綴;
第(5)步該會話的請求A的最長分枝指針指向新加入的節點。
在圖5中插入序列(AABABCDCi的第二個訪問C,這個訪問屬于用戶3,所對 應的當前用戶會話的活動上文是仏DK {0}和根節點,因為在所對應的節點下沒 有C,因此加入新的節點,并設置計數為l。
圖5中插入序列{AABABCDC}的第二個訪問C的過程
第(l)步C屬于另一個用戶會話,標識此會話為活動用戶會話,并置同一
用戶原來活動用戶會話為不活動的;
第(2)步插入這個用戶請求C時,所對應的當前用戶會話的上文是(ADK (Dl和根節點,因為在所對應的節點下沒有C,因此加入新的節點,并設置計數 為l;
第(3)步改變S(i, j, k)的最長上下文指針,使其指向新的最長上下文; 第(4)步保持其后綴指針指向相應的后綴;
第(5)步該會話的請求C的最長分枝指針指向新加入的節點。 步驟三、增量式刪除的方法
圖6和圖7為從圖5中依次刪除序列{AABABCDC}的第一和第二請求的過程, 滑動窗口左邊的虛線方框表示刪除的用戶請求,設滑動窗口的大小為8。 圖6表示刪除序列{AABABCDC}的第一個請求A的過程,具體步驟為
第(l)步獲取滑動窗口中最早的用戶請求第一個A; 第(2)步刪除滑動窗口的第一個請求;第(3)步查找A所屬的用戶會話S(i,l,k); 第(4)步刪除S(i,l,k)的第一個請求;
第(5)步這個請求屬于用戶1,所以與它對應的最長分枝是MBCh則將上
下文(ABCh (AB)和W所對應節點的計數都減1,其中(ABC)所對應節點的計數 為0,刪除此節點。
刪除序列{AABABCDC}的第一個請求A后,圖6是序列{ABABCDC}的非壓縮后 綴樹。
圖7表示刪除序列{AABABCDC}的第二個請求A過程,具體步驟為 第(l)步獲取滑動窗口中最早的用戶請求第二個A; 第(2)步刪除滑動窗口的這個請求; 第(3)步:査找A所屬的用戶會話S(i,l,k); 第(4)步刪除S(i,l,k)的第一個請求;
第(5)步這個請求A屬于用戶2,與它所對應的最長分枝是仏B),則將上 下文(AB1和M1所對應節點的計數都減1,計數結果為0的節點被刪除。
刪除序列{AABABCDC}的第二個請求A后,圖7是序列{BABCDC}的非壓縮后 綴樹。
權利要求
1. 預測模型的在線增量式插入與刪除方法,其特征在于具體實現步驟如下步驟一、構造帶有非壓縮后綴指針的PPM預測樹首先給出相關概念的定義,其次提出構造帶有非壓縮后綴指針的PPM預測樹的步驟;步驟二、增量式插入的方法在步驟一基礎上,提出一種在線更新操作中增量式插入的方法;步驟三、增量式刪除的方法在步驟一基礎上,提出一種在線更新操作中增量式刪除的方法。
2. 根據權利要求1所述的預測模型的在線增量式插入與刪除方 法,其特征在于步驟一中相關概念的定義為定義l:滑動窗口滑動窗口定義為力,/^^個請求訪問序列〈L, I,, 〈T2, I2〉, 〈T3, 13〉, ..., <Th, Ih〉,其中M表示一個窗口最多包含的請求個數,乃(i二l,2,3…)為元組的請求時間,力表示實體,且Tw〉Ti。
3. 根據權利要求l所述的預測模型的在線增量式插入與刪除方 法,其特征在于步驟一中構造帶有非壓縮后綴指針的PPM預測樹的步驟為第(1)步初始狀態為一個根節點,或為在滑動窗口控制下的PPM預測樹,其中非根節點代表從根到此節點的請求序列,上下文的 長度等于節點的深度,節點中的計數代表相應上下文的訪問次數;第(2)步選擇一個節點,若為非根節點時,依據當前會話序 列,引入了一個后綴指針,它指向其后綴節點;第(3)步所有非根節點都有了一個后綴指針時,帶有非壓縮 后綴指針的PPM預測樹就構造好了,否則轉第(2)步。
4. 根據權利要求1所述的預測模型的在線增量式插入與刪除方 法,其特征在于步驟二中的增量式插入方法為設Suff ix—T表示非壓縮后綴樹,Order表示Suff ix—T的階;對 于一個新請求A,用一個滑動窗口控制處于Suffix—T中的用戶訪問序列,每次總是插入最前端的用戶請求;按照下列的步驟加入到 Suffix—T中第(l)步如果A屬于一個新對象的會話,標識此對象會話為活 動會話,并置同一對象原來活動會話為不活動的,同時將對應的最長上下文指針指向根節點;設A對應的活動會話為S(i, j, k)={ AhA2,A3,…,M,為會話S(i, j, k)中的每個請求Am分配一個指向最 長分枝的指針L_Branch(i,丄(ls附"),其中^表示會話S(i, j, k)中的 第m個請求;第(2)步檢査S(i, j, H)的最長上下文和所有后綴的子節點中是否 包含A;如果存在這樣的節點(SuffixJT中己存在這樣的上下文),將 這個上下文的計數增l;否則,創建一個新的子節點,將此新節點的 計數設置為1;第(3)步改變S(i, j, k)的最長上下文指針,使其指向新的最 長上下文;第(4)步若創建了新節點,則使其后綴指針指向相應的后綴; 否則,不改變后綴指針的值;第(5)步對于S(i,j,k)中的第m個請求Am, L—Branch, j.—指向代 表序列(&, Am+1,…,Ak)的節點,其中,若CWwa,則1^附";否則, & — S附S A: o
5.根據權利要求1所述的預測模型的在線增量式插入與刪除方 法,其特征在于步驟三中的建立增量式刪除的方法為 第(l)步獲取滑動窗口中最早的請求A; 第(2)步刪除滑動窗口的第一個請求; 第(3)步查找A所屬的會話S(i,l,k); 第(4)步刪除S(i,l,k)的第一個請求;第(5)步對最長分枝到根的每個節點的上下文計數減1,如果 結果為零,則刪除該節點。
全文摘要
本發明涉及預測模型的在線增量式插入與刪除方法,屬于計算機應用技術領域。本發明在標準預測模型PPM的基礎上,通過引入非壓縮后綴指針、增量式插入和增量刪除操作機制,實現了PPM模型的在線增量更新機制。本發明可廣泛應用于預測模型的在線更新。
文檔編號G06F17/30GK101446956SQ20081018323
公開日2009年6月3日 申請日期2008年12月12日 優先權日2008年12月12日
發明者付引霞, 古志民, 班志杰, 磊 石 申請人:北京理工大學