一種多支持度下的加權負序列模式數據挖掘方法
【專利摘要】本發明公開了一種多支持度下的加權負序列模式數據挖掘方法,其實現過程為:首先獲取所需挖掘項目的加權支持度和最小支持度,根據加權支持度不低于最小支持度的條件,生成加權的頻繁正序列;然后在此基礎上生成負序列,通過加權支持度不低于最小支持度的條件,獲得加權頻繁負序列。該多支持度下的加權負序列模式數據挖掘方法與現有技術相比,在經典負序列模式算法Neg?GSP的基礎上給項目添加權值并設置多支持度,只有大于項目自身的加權支持度,才能作為頻繁序列被輸出,有效地提高了數據挖掘的質量和效率,實用性強。
【專利說明】
一種多支持度下的加權負序列模式數據挖掘方法
技術領域
[0001] 本發明涉及計算機數據挖掘技術領域,具體地說是一種實用性強的多支持度下的 加權負序列模式數據挖掘方法。
【背景技術】
[0002] 在現有技術的計算機數據挖掘過程中,比如網絡點擊率的數據挖掘中,負序列模 式挖掘技術作為正序列模式挖掘技術的有利補充,能夠挖掘負頻繁序列,有著廣闊的應用 前景。
[0003] 目前常用的數據挖掘算法有以下幾種:
[0004] PNSP算法,給出了負序列的定義和一些約束條件,同時在GSP算法的基礎上研究出 連接正負項集的全新策略;
[0005] Neg-GSP算法,在GSP算法的基礎上,引入種子集的概念,剪掉了多余的候選集,提 升了算法的效率;
[0006] 現有的這些負序列模式挖掘算法都是默認項目擁有同樣的重要程度,然而在實際 數據庫當中,項目重要程度各不相同,例如商品的價格、利潤等,無法挖出對決策者更重要 的知識;且現有的算法都是在單一支持度下進行挖掘的,由用戶自己設定支持度,設定的過 高會忽略掉一些重要的數據,設置的過低又會出現冗余現象,不能有效挖掘大序列,而大序 列模式蘊涵著豐富的信息,能夠使決策者預測更多事件的發生次序。
[0007] 基于此,現提供一種多支持度下的加權負序列模式數據挖掘方法,即快速挖掘負 序列模式算法,首先生成正頻繁序列,然后在此基礎上通過特定的方法獲得最終的頻繁負 序列,優點是不再需要多次掃描數據庫,節省時間,并且還提出了一種計算負序列支持度的 全新方法,整個算法高效可行。
【發明內容】
[0008] 本發明的技術任務是針對以上不足之處,提供一種實用性強、多支持度下的加權 負序列模式數據挖掘方法。
[0009] -種多支持度下的加權負序列模式數據挖掘方法,其實現過程為:首先獲取所需 挖掘項目的加權支持度和最小支持度,根據加權支持度不低于最小支持度的條件,生成加 權的頻繁正序列;然后在此基礎上生成負序列,通過加權支持度不低于最小支持度的條件, 獲得加權頻繁負序列。
[0010]其具體實現過程為:
[0011]步驟一、首先挖掘多最小支持度加權頻繁正序列,這里的頻繁是指加權支持度不 低于最小支持度的序列:
[0012]通過GSP序列模式挖掘算法,根據設定的項目權值計算出項目的加權支持度和給 定序列的加權支持度,然后計算出各項目最小支持度;掃描數據庫,對各項目進行計數,當 各項的加權支持度大于其最小支持度時,則將此項加入并生成初始的長度為1的候選序列 &當中,其對應長度序列U,并以此候選序列為基礎,通過GSP序列模式挖掘算法的連接和剪 切操作,生成長度為2、3、4……η的候選序列Cn,其對應長度序列 即為挖掘出來的多最小支持度加權頻繁正序列模式;
[0013]步驟二、挖掘多最小支持度加權負序列模式:
[0014]根據挖掘出的頻繁正序列,將1-正項序列轉變為1-負項序列作為長度為1候選負 序列,并用1-Cneg表示,然后掃描數據庫計算第一個1-負項的負基本匹配加權支持度,如果 大于其負項最小支持度,則留在1-C neg中,如果計算出的1-負項的負匹配加權支持度大于其 項最小支持度,則存入長度為1的頻繁負序列1-Lne3g中;并以此頻繁負序列為基礎,通過Neg-GSP算法挖掘負序列算法的連接和剪切操作,生成長度為2、3、…、η的頻繁負序列2-L ne3g,…, n-Lneg,則該頻繁負序列即為挖掘出來的多最小支持度加權頻繁負序列模式。
[0015] 加權支持度不低于最小支持度的頻繁序列是指:
[0016] Wsup(Y)^MIS(Y),其中Y是指頻繁序列Y,WSUP(Y)為該頻繁序列Y的加權支持度,MIS (Y)為頻繁序列Y的最小支持度,當Ycz γ, r c Γ且X r時,則必有wsup(x) 2 wsup(Y)。
[0018] 其中,T為序列數據庫,T= {si,S2,S3,......Si},Si表示數據中的序列,Si={ii,i2, 13……in},in表示項目集,而項目集由項目組成;每個項目武予權值W諫表示每個項目的 重要程度,其中〇<Wj< 1,」={1,2,3,~,11};序列8冊權重為抑(8〇,
[0019] 所述頻繁序列 Y 的最小支持度
[0020] 其中,且1 <k<n;項目的最小支持度
M(i)=W(i),LS為用戶給定的最小支持度,β是一個在0到1之間的參數,f(i)是項目的實際 支持度,MIS(i)為最終的項最小支持度。
[0021 ]所述步驟一中通過通過GSP序列模式挖掘算法的連接和剪切操作獲取多最小支持 度加權頻繁正序列的具體過程為:所述候選序列&是長度為1的頻繁1-序列記SLhU通過 連接操作產生長度為2的候選序列C 2,C2通過剪枝操作生成長度為2的頻繁2-序列L2,即剪掉 C2中序列的加權支持度大于其最小支持度的序列,以此類推,直到Ln通過連接操作不再生成 候選序列C n+1,此過程結束,序列L^Ls、…、Ln即為挖掘出來的多最小支持度加權頻繁正序列 模式。
[0022]所述步驟二中通過Neg-GSP算法挖掘負序列算法的連接和剪切操作獲取多最小支 持度加權頻繁負序列的具體過程為:1-Cne3g通過連接操作產生長度為2的候選負序列2-Cne3g, 然后通過剪枝操作將2-C neg*的序列負基本匹配加權支持度大于其最小支持度的留在2-Cneg中,負匹配加權支持度大于其最小支持度的放到長度為2的頻繁負序列2-L neg中,以此類 推,直到n-Cneg通過連接操作不再生成候選序列(n+l)-Cneg,此過程結束,負序列1-L neg、2-Lne3gd-Lne3g即為我們挖掘出來的多最小支持度加權頻繁負序列模式。
[0023] 本發明的一種多支持度下的加權負序列模式數據挖掘方法,具有以下優點:
[0024] 本發明提出的一種多支持度下的加權負序列模式數據挖掘方法,在經典負序列模 式算法Neg-GSP的基礎上給項目添加權值并設置多支持度,只有大于項目自身的加權支持 度,才能作為頻繁序列被輸出,有效地提高了數據挖掘的質量和效率;權重的設置可以使算 法挖掘出那些在數據庫中出現的頻率低但重要程度高的序列,多最小支持度的設置可以避 免在單支持度下支持度設置過高而忽略掉的有價值的序列或者是支持度設置過低產生冗 余序列的情況;通過這兩者的改進,利用實驗驗證了本方法在挖掘序列模式的效率和性能 上都優于Neg-GSP算法,可以挖掘出更多符合用戶需求的序列,實用性強,易于推廣。
【附圖說明】
[0025] 附圖1為β = 0時挖掘出的頻繁負序列所需時間變化圖。
[0026] 附圖2為LS = 1%時挖掘出的頻繁負序列所需時間變化圖。
[0027] 附圖3為1萬條數據β變化時所需時間變化圖。
[0028]附圖4為LS = 5%時所挖出的頻繁負序列條數與經典Neg-GSP算法的比較圖。
[0029]附圖5為LS = 5 %時所用時間與經典Neg-GSP算法的比較圖。
【具體實施方式】
[0030]下面結合附圖和具體實施例對本發明作進一步說明。
[0031 ]本發明提供一種多支持度下的加權負序列模式數據挖掘方法,其實現過程為:首 先獲取所需挖掘項目的加權支持度和最小支持度,根據加權支持度不低于最小支持度的條 件,生成加權的頻繁正序列;然后在此基礎上生成負序列,通過加權支持度不低于最小支持 度的條件,獲得加權頻繁負序列。
[0032]進一步的,其具體實現過程為,
[0033] 步驟一、首先挖掘多最小支持度加權頻繁正序列,這里的頻繁是指加權支持度不 低于最小支持度的序列:
[0034] 通過GSP序列模式挖掘算法,根據設定的項目權值計算出項目的加權支持度和給 定序列的加權支持度,然后計算出各項目最小支持度;掃描數據庫,對各項目進行計數,當 各項的加權支持度大于其最小支持度時,則將此項加入并生成初始的長度為1的候選序列 &當中,其對應長度序列U,并以此候選序列為基礎,通過GSP序列模式挖掘算法的連接和剪 切操作,生成長度為2、3、4……η的候選序列C n,其對應長度序列 即為挖掘出來的多最小支持度加權頻繁正序列模式;
[0035] 步驟二、挖掘多最小支持度加權負序列模式:
[0036]根據挖掘出的頻繁正序列,將1-正項序列轉變為1-負項序列作為長度為1候選負 序列,并用1-Cneg表示,然后掃描數據庫計算第一個1-負項的負基本匹配加權支持度,如果 大于其負項最小支持度,則留在1-C neg中,如果計算出的1-負項的負匹配加權支持度大于其 項最小支持度,則存入長度為1的頻繁負序列1-Lne3g中;并以此頻繁負序列為基礎,通過Neg-GSP算法挖掘負序列算法的連接和剪切操作,生成長度為2、3、…、η的頻繁負序列2-L ne3g,…, n-Lneg,則該頻繁負序列即為挖掘出來的多最小支持度加權頻繁負序列模式。
[0037]加權支持度不低于最小支持度的頻繁序列是指:
[0038] Wsup(Y)^MIS(Y),其中Y是指頻繁序列Y,WSUP(Y)為該頻繁序列Y的加權支持度,MIS (Y)為頻繁序列Y的最小支持度,當X C r,F c Γ且C= F時,則必有Wsup(x) 2 wsup(Y)。
[0040] 其中,T為序列數據庫,T= {si,S2,S3,......Si},si表示數據中的序列,Si={ii,i2, 13……in},in表示項目集,而項目集由項目組成;每個項目武予權值W諫表示每個項目的
重要程度,其中〇<Wj< 1,」_={1,2,3,"_,11};序列8冊權重為如(8〇,
[0041] 所述頻繁序列 Y 的最小支持度
[0042] 其中,且1 <k《n;項目的最小支持度 (i)=W(i),LS為用戶給定的最小支持度,β是一個在0到1之間的參數,f(i)是項目的實際 支持度,MIS(i)為最終的項最小支持度。
[0043] 所述步驟一中通過通過GSP序列模式挖掘算法的連接和剪切操作獲取多最小支持 度加權頻繁正序列的具體過程為:所述候選序列&是長度為1的頻繁1-序列記SLhU通過 連接操作產生長度為2的候選序列C 2,C2通過剪枝操作生成長度為2的頻繁2-序列L2,即剪掉 C2中序列的加權支持度大于其最小支持度的序列,以此類推,直到Ln通過連接操作不再生成 候選序列C n+1,此過程結束,序列L^Ls、…、Ln即為挖掘出來的多最小支持度加權頻繁正序列 模式。
[0044]所述步驟二中通過Neg-GSP算法挖掘負序列算法的連接和剪切操作獲取多最小支 持度加權頻繁負序列的具體過程為:1-Cne3g通過連接操作產生長度為2的候選負序列2-Cne3g, 然后通過剪枝操作將2-C neg*的序列負基本匹配加權支持度大于其最小支持度的留在2-Cneg中,負匹配加權支持度大于其最小支持度的放到長度為2的頻繁負序列2-L neg中,以此類 推,直到n-Cneg通過連接操作不再生成候選序列(n+l)-Cneg,此過程結束,負序列1-L neg、2-Lne3gd-Lne3g即為我們挖掘出來的多最小支持度加權頻繁負序列模式。
[0045] 進一步的,上述步驟中提到的負序列是指:當傳統正序列中包含至少一個缺失項 目集時,此序列就被稱為負序列。例如〈a,nc,d>,〈a,n (c,d),f >。如果負序列的支持度大 于預先給定的最小支持度,那么此序列就被稱為負序列模式。
[0046] 而在上述步驟中所使用的負基本匹配(Negati ve-Base-Matching)和負匹配 (Negative-Matching)具體解釋如下:
[0047]負基本匹配:序列si匹配序列s2,滿足si中的每個正元素用同樣的順序匹配s2中 相同的元素,同時si中的每一個負元素在s2中對應的位置找到一個匹配元素。
[0048] 例如sl〈b,_c,a>基本匹配s2〈b,d,a>,同時si也基本匹配s3〈b,d,c,a>,因為-c在 s3中對應的位置有d元素與其匹配。
[0049] 負匹配:序列si匹配序列s2,滿足si中的每個正元素用同樣的順序匹配s2中相同 的元素,同時si中的每一個負元素在s2中對應的位置找到一個匹配元素。但s2中不能在包 含si的序列當中出現負元素的正項。
[0050] 例如sl〈b,_c,a>匹配s2〈b,d,a>,匹配s3〈b,d,a,c>,但不匹配s4〈b,d,c,a>,因為b 和a之間包含了c〇
[0051] 在本文中利用負基本匹配來計算一個負序列的負基本匹配加權支持度 (negative-base-wsup),并與最小支持度作對比產生種子集,利用負匹配計算一個負序列 的負加權支持度(negative-wsup),與最小支持度作對比產生負頻繁序列模式。
[0052]約束1:單個元素中的所有項目集必須都是正的,或者都是負的。如<a,(b,nc),d> 就不符合約束條件,因為(b,^c)屬于同一個元素,但是一正一負,違反規定。
[0053]約束2:不能出現兩個或者兩個以上連續的負元素。如〈&,^13,1(3>不符合條件。
[0054] 實際應用中的算法具體描述如下:
[0055]
[0058] 表1和表2展示了一個序列數據庫SDB,表1表示數據庫SDB中包含了 6個項和5個輸 入序列;每個項目的權值在表2中展示。
[0059] 表1序列數據庫
[0061]表2序列數據庫中各項目權值
[0062]
[0063] 具體實例:
[0064] 實驗在PC上進行,配置如下:Inter2.50GHz的CPU;4G內存;操作系統:windows7旗 艦版;編程語言:java;實驗數據:UCI數據集中的MSNBC數據集。
[0065] MSNBC數據集來自于msnbc .com的網絡信息服務博客,記錄的是某一天的msn. com 網站模塊點擊率。它包含90多萬條序列,數據集中的每條序列都表示該用戶一天對網站各 模塊的點擊情況。序列中的每個項對應的是用戶所關注的模塊,這些類別包括:"首頁"新 聞,"科技","當地","觀點","播音中","音樂","天氣","健康","正在直播","商務","運 動","總結","bbs","旅行","MSN新聞","MSN運動"。針對不同需求的瀏覽用戶來說,各項的 重要程度不同,根據人們瀏覽網頁的習慣來說,各類別的點擊次數不同,首頁點擊的次數會 明顯高于其他子項。
[0066]第一部分:挖掘多支持度加權頻繁正序列。
[0067] Step 1:給定β = 0 · 5,最小支持度 LS = 0 · 2。
[0068]
M(i)=財(i),計算得出每項的最小支 持度,即多最小支持度:MIS(10)=0.3,MIS(20)=0.4,MIS(30)=0.2,MIS(40)=0.5,MIS (50)=0.2,MIS(60)=0.2〇
[0069] Step3:根據表2的各項權值和公式序列Si的權重:WT(Si):
[0070] 計算各序列的權重,例如序列〈(2 0,4 0 ) 2 0 1 0 >的權值=
[0071] Step4:掃描數據庫,找到單獨的序列〈10>,〈20>,〈30>,〈40>,〈50>,〈60>,各加權支 持度如下表所示:
[0072]表3各項的加權支持度
[0075] 所以得出種子集 L(l):〈10,20,30,40,60>。
[0076] Step5:對種子集L(1)進行連接操作,連接方法與GSP算法連接方法一樣,得到候選 集C2,如下表所示:
[0079] Step6:剪枝操作:同GSP算法一致,看每個候選序列的連續子序列是不是頻繁序列 采用逐個取元素,只去其中一個項目,然后看是不是有相應的頻繁序列在L中。如果元素只 有一個項目,則去除該元素做相應判斷。
[0080] Step7:生成頻繁正序列模式L[2]:計算各序列的加權支持度,若大于所含項的支 持度閾值最小值則放到頻繁序列L中,所得L[2]:[〈10 60>,〈60 10>,〈(20,60)>,〈20 60>,〈 40 60>,〈60 60>]。
[0081 ] Step8:重復連接和剪枝操作,再生成頻繁正序列模式L[3]:[〈60 10 60>,〈10 60 60>,〈(20,60)60〉,〈40 60 60>],即共挖掘出15條頻繁正序列。
[0082]第二部分:挖掘多支持度加權頻繁負序列。
[0083] Stepl:根據挖掘出來的正序列L[l],得到相應的負序列種子集:[<10>,〈-10>,〈20 >,〈-20>,〈30>,〈-30>,〈40>,〈-40>,〈60>,〈-60>],多最小支持度為:]\05(-10) = 1-]\05(10) = 0.7,MIS(-20)=0.6,MIS(-30)=0.8,MIS(-40)=0.5,MIS(60)=0.8。
[0084] Step2:連接操作:通過正序列模式(k-l)-length種子序列合并的方式獲得k-length候選負序列,根據負序列的約束1和約束2剔除無意義的候選負序列。
[0085] Step3:剪枝操作:計算所有候選負序列的負匹配加權支持度閾值和負基本匹配加 權支持度閾值。對于某個(k-l)-length候選負序列,如果其負基本匹配加權支持度閾值大 于最小支持度,則將其添加到k-length種子集。如果其負匹配加權支持度閾值大于最小支 持度,則該候選負序列為頻繁負序列,并將其輸出為Ι-length負序列模式。
[0086] Step4:根據負序列成立的條件,滿足以下四點:1.有負元素2.-個元素中必須全 正或全負3.不能出現兩個連續的負元素4.不能有相同或者相反的元素,去除不滿足要求的 元素,最后得到頻繁的負序列為:〈1〇 -30>,〈10 -40>,〈-10 30>,〈-10 40>,〈-10 60>,〈20 -10>,〈20 -30>,〈20 -40>,〈20 -60>,〈-20 40>,〈-20 60>,〈30 -10>,〈30 -20>,〈30 -40〉, 〈30-60>,〈-3040>,〈-3060>,〈40-20>,〈40-30>,〈-4030>,〈-4060>,〈60-20>,〈60-30>,〈60 -40>,〈-60 30>,〈-60 40>共計26條。
[0087] 根據數據項實際的重要程度分配權值,根據實際的出現頻率設置最小支持度。按 照公式:
M( i) = W(i),LS為用戶給定的最小支持度,β是一個在0 至|J1之間,表現數據項出現頻率的參數,f (i)是項目的實際支持度。MIS(i)為最終的項最小 支持度。當β = 〇時,所有數據項有相同的最小支持度;當β=1時,f(i)是數據項的最小支持 度。
[0088] 當β = 0時,算法就是一個單支持度的加權頻繁負序列挖掘算法,如圖1所示是隨著 實際數據庫的數量增加時,挖掘出的頻繁負序列所需時間變化,其中由上往下三條曲線分 別為LS = 1 %時、LS = 2 %時和LS = 5 %時。可以看出,LS越小,數據量越大,所消耗的時間也 越多。
[0089] 當β取0到1之間的數時,算法為基于多最小支持度的加權負序列模式挖掘算法。如 圖2所示,由上往下四條曲線分別表示β = 0時、β = 0.3時、β = 0.6時和β = 0.9時四種情況,當 LS= 1 %隨數據庫數量增加時,挖掘的頻繁負序列所需的時間變化,當β越小時,數據量越大 時,所需的時間也越多;相應的,當β越小,LS越小時,所需的時間也越多,如圖3所示,由上往 下三條曲線分別表示LS = 1%時、LS = 2%時和LS = 3%時。
[0090] 當i3 = 0.6,LS = 5%時,在數據庫容量不同的情況下,所挖出的頻繁負序列條數與 經典Neg-GSP算法相比較,如圖4所示,其中上下兩條曲線分別表示傳統Neg-GSP算法和本發 明的挖掘方法,所用時間與經典Neg-GSP算法的比較,如圖5所示,其中上下兩條曲線分別表 示本發明的挖掘方法和傳統Neg-GSP算法,由此可見,本文提出的算法要比經典Neg-GSP算 法挖出更多有效的序列,所用時間也相對增加。
[0091] 本算法相對于經典負序列算法Neg-GSP的優點在于給項目賦予了權重和多最小支 持度,權重的設置可以使算法挖掘出那些在數據庫中出現的頻率低但重要程度高的序列, 多最小支持度的設置可以避免在單支持度下支持度設置過高而忽略掉的有價值的序列或 者是支持度設置過低產生冗余序列的情況。
[0092]通過這兩者的改進,利用實驗驗證了本算法在挖掘序列模式的效率和性能上都優 于Neg-GSP算法,可以挖掘出更多符合用戶需求的序列。
[0093]上述【具體實施方式】僅是本發明的具體個案,本發明的專利保護范圍包括但不限于 上述【具體實施方式】,任何符合本發明的一種多支持度下的加權負序列模式數據挖掘方法的 權利要求書的且任何所述技術領域的普通技術人員對其所做的適當變化或替換,皆應落入 本發明的專利保護范圍。
【主權項】
1. 一種多支持度下的加權負序列模式數據挖掘方法,其特征在于,其實現過程為,首先 獲取所需挖掘項目的加權支持度和最小支持度,根據加權支持度不低于最小支持度的條 件,生成加權的頻繁正序列;然后在此基礎上生成負序列,通過加權支持度不低于最小支持 度的條件,獲得加權頻繁負序列。2. -種多支持度下的加權負序列模式數據挖掘方法,其特征在于,其具體實現過程為, 步驟一、首先挖掘多最小支持度加權頻繁正序列,這里的頻繁是指加權支持度不低于 最小支持度的序列: 通過GSP序列模式挖掘算法,根據設定的項目權值計算出項目的加權支持度和給定序 列的加權支持度,然后計算出各項目最小支持度;掃描數據庫,對各項目進行計數,當各項 的加權支持度大于其最小支持度時,則將此項加入并生成初始的長度為1的候選序列(^當 中,其對應長度序列U,并以此候選序列為基礎,通過GSP序列模式挖掘算法的連接和剪切 操作,生成長度為2、3、4……η的候選序列C n,其對應長度序列 為挖掘出來的多最小支持度加權頻繁正序列模式; 步驟二、挖掘多最小支持度加權負序列模式: 根據挖掘出的頻繁正序列,將1-正項序列轉變為1-負項序列作為長度為1候選負序列, 并用1-Cneg表示,然后掃描數據庫計算第一個1-負項的負基本匹配加權支持度,如果大于其 負項最小支持度,則留在l_C neg中,如果計算出的1-負項的負匹配加權支持度大于其項最小 支持度,則存入長度為1的頻繁負序列l_Lneg中;并以此頻繁負序列為基礎,通過Neg-GSP算 法挖掘負序列算法的連接和剪切操作,生成長度為2、3、…、η的頻繁負序列2-L ne3g,···,!!-Lneg,則該頻繁負序列即為挖掘出來的多最小支持度加權頻繁負序列模式。3. 根據權利要求2所述的一種多支持度下的加權負序列模式數據挖掘方法,其特征在 于,加權支持度不低于最小支持度的頻繁序列是指: WSUP(Y) 2MIS(Y),其中Y是指頻繁序列Y,WSUP(Y)為該頻繁序列Y的加權支持度,MIS(Y) 為頻繁序列Y的最小支持度,當X c Γ,Γ c Γ且Xc= F時,則必有WSUP(X) 2 WSUP(Y)。4. 根據權利要求3所述的一種多支持度下的加權負序列模式數據挖掘方法,其特征在 于,所述頻繁序列Y的加權支持違 .s嚴1其中,T為序列數據庫,T = {si,S2,S3,......Si},Si表示數據中的序列,Si= {il,i2,i3...... in},in表示項目集,而項目集由項目組成;每個項目武予權值W諫表示每個項目的重要程 度,其中0^」<1,」={1,2,3,'",]1};序列81的權重為如(8土)5. 根據權利要求3所述的一種多支持度下的加權負序列模式數據挖掘方法,其特征在 于,所述頻繁序列Y的最小支持度,MIS(i 2),. . .,MIS(ik)]; 其中,Y^ihiydk}且l<k<n;項目的最小支持度=W (i),LS為用戶給定的最小支持度,β是一個在0到1之間的參數,f (i)是項目的實際支持 度,MI S (i)為最終的項最小支持度。6. 根據權利要求2-5任一所述的一種多支持度下的加權負序列模式數據挖掘方法,其 特征在于,所述步驟一中通過通過GSP序列模式挖掘算法的連接和剪切操作獲取多最小支 持度加權頻繁正序列的具體過程為:所述候選序列&是長度為1的頻繁1-序列記為。,"通 過連接操作產生長度為2的候選序列C 2,C2通過剪枝操作生成長度為2的頻繁2-序列L2,即剪 掉&中序列的加權支持度大于其最小支持度的序列,以此類推,直到L n通過連接操作不再生 成候選序列Cn+1,此過程結束,序列^、^、…、匕即為挖掘出來的多最小支持度加權頻繁正序 列模式。7. 根據權利要求6所述的一種多支持度下的加權負序列模式數據挖掘方法,其特征在 于,所述步驟二中通過Neg-GSP算法挖掘負序列算法的連接和剪切操作獲取多最小支持度 加權頻繁負序列的具體過程為:1-C ne3g通過連接操作產生長度為2的候選負序列2-Cne3g,然后 通過剪枝操作將2-C neg中的序列負基本匹配加權支持度大于其最小支持度的留在2-Cneg中, 負匹配加權支持度大于其最小支持度的放到長度為2的頻繁負序列2-'沖,以此類推,直 至Ijn-C ne3g通過連接操作不再生成候選序列(n+1 )-Cne3g,此過程結束,負序列1-Lne3g、2-Lne3g、…、 n-Lne3g即為我們挖掘出來的多最小支持度加權頻繁負序列模式。
【文檔編號】G06F17/30GK105868314SQ201610179437
【公開日】2016年8月17日
【申請日】2016年3月25日
【發明人】姜合, 楊愛鑫, 李秀芳
【申請人】齊魯工業大學