項集挖掘方法及裝置的制造方法【專利摘要】本發明公開了一種項集挖掘方法及裝置,屬于數據挖掘領域。所述方法包括:獲取自定義的權重和最低期望權重閾值ε;根據數據項的發生概率和權重,計算不確定性數據庫D中的項集的項權重概率上限iubwp,將iubwp≥|D|*ε的項集挖掘為高期望權重上限項集HUBEWI;計算每個HUBEWI的期望權重支持度expWSup,將expWSup≥|D|*ε的HUBEWI挖掘為高權重項集HEWI。本發明通過計算項集的項權重概率上限得到高期望權重上限項集,再計算高期望權重上限項集的期望權重支持度獲取高權重項集,以少量計算量先挖掘出高期望權重上限項集作為候選項集,縮小高權重項集的挖掘范圍,解決了挖掘高權重項集只能處理精確數據,尚無針對不確定性數據庫的高權重項集挖掘技術的問題,達到了提高挖掘的效能的效果。【專利說明】項集挖掘方法及裝置
技術領域:
[0001]本發明涉及數據挖掘領域,特別涉及一種項集挖掘方法及裝置。【
背景技術:
】[0002]不確定性數據庫(英文〖uncertaindatabase)中通常包括有至少一個事務(英文:transaction),每個事務中包括至少一個數據項(英文:item),比如,一條關于天氣記錄的事務中,包括天氣類型、濕度和溫度等數據項。每個數據項有各自對應的發生概率。[0003]目前現有的一種數據挖掘方法中,用戶自定義對每個數據項的權重,然后根據每個數據項的權重,從精確數據庫中的各個數據項集(itemset)中挖掘高頻繁權重項集(英文:HighFrequentWeightedItemset,簡稱:HFWI)。項集是由至少一個數據項構成的集合,用于表征精確數據庫中內在的一種關聯規則。[0004]在實現本發明的過程中,發明人發現現有技術至少存在以下問題:目前的相關數據挖掘方法,只能處理精確數據,并沒考慮到現實應用中普遍存在的不確定性數據,尚無能有效處理不確定性數據的高權重項集挖掘技術的提出,而且需要計算每個數據項集的期望權重支持度,計算量較大,從而導致挖掘高權重項集的效率較低,占用了計算機的大量處理內存。【
發明內容】[0005]為了解決無法針對不確定性數據挖掘高權重項集的問題,本發明實施例提供了一種項集挖掘方法及裝置。所述技術方案如下:[0006]第一方面,提供了一種項集挖掘方法,該方法包括:[0007]獲取自定義的權重和最低期望權重閾值ε,該權重是不確定性數據庫D中的數據項所對應的權重,該不確定性數據庫D包括至少一個事務,每個事務包括至少一個數據項;[0008]根據該數據項的發生概率和該權重,計算該不確定性數據庫D中的候選項集的項權重概率上限iubwp,將該iubwp彡|D|*ε的項集挖掘為高期望權重上限項集HUBEWI;該項集是包括至少一個數據項的集合,該|D|是該不確定性數據庫D中的事務總數;[0009]計算每個HUBEWI的期望權重支持度expWSup,將該expWSup多該|D|*ε的HUBEWI挖掘為高權重項集HEWI。[0010]第二方面,提供了一種項集挖掘裝置,該裝置包括:[0011]獲取模塊,用于獲取自定義的權重和最低期望權重閾值ε,該權重是不確定性數據庫D中的數據項所對應的權重,該不確定性數據庫D包括至少一個事務,每個事務包括至少一個數據項;[0012]第一計算模塊,用于根據該數據項的發生概率和該權重,計算該不確定性數據庫D中的項集的項權重概率上限iubwp,將該iubwp彡|D|*ε的項集挖掘為高期望權重上限項集HUBEWI;該項集是包括至少一個數據項的集合,該|D|是該不確定性數據庫D中的事務總數;[0013]第二計算模塊,用于計算每個HUBEWI的期望權重支持度expWSup,將該expWSup彡該IDI*ε的HUBEWI挖掘為高權重項集HEWI。[0014]本發明實施例提供的技術方案帶來的有益效果是:[0015]通過計算各個項集的項權重概率上限得到高期望權重上限項集,再計算高期望權重上限項集的期望權重支持度來獲取高權重項集,以少量計算量先挖掘出高期望權重上限項集作為候選項集,從而縮小高權重項集的挖掘范圍,解決了現有技術中挖掘高權重項集只能處理精確數據,尚無針對不確定性數據庫的高權重項集挖掘技術的問題,達到了提高挖掘的效能的效果。【附圖說明】[0016]為了更清楚地說明本發明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。[0017]圖1示出了本發明一個實施例提供的項集挖掘方法的方法流程圖;[0018]圖2Α示出了本發明另一個實施例提供的項集挖掘方法的方法流程圖;[0019]圖2Β示出了本發明另一個實施例提供的項集挖掘方法的方法流程圖;[0020]圖2C示出了本發明一個實施例提供的(k+l)_項集生成方法的示意圖;[0021]圖3示出了本發明一個實施例提供的項集挖掘裝置的裝置結構示意圖;[0022]圖4示出了本發明另一個實施例提供的項集挖掘裝置的裝置結構示意圖。【具體實施方式】[0023]下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。[0024]為了便于對本發明實施例進行說明,預先對本發明實施例涉及的基本概念進行如下介紹:[0025]l、transaction(事務):指數據庫中的一條記錄。比如,當數據庫中記錄的是超市商品的購買記錄,則數據庫中的每一個事務對應商品的購買記錄,該購買記錄中包含購買商品的數量和名稱等信息。[0026]2、item(數據項):事務中記錄的每條信息項目,且一個事務中包含至少一個數據項。比如,當數據庫中的事務對應顧客的購買記錄時,事務中的數據項則可以是購買記錄中,購買商品的數量和名稱等信息。[0027]3、itemset(項集):至少一個數據項構成的集合,用于表征數據庫內在的一種關聯規則。事務與項集的不同的點是,事務通常是由實際的事件所觸發生成的數據庫中的記錄;而項集通常是從數據庫挖掘而出的,并不一定有實際的含義。[0028]4、k-itemSet(k-項集):包含有k個數據項的集合。比如,1-項集可以為A,即只包含數據項A;2_項集可以為AB,即包含數據項A和B。[0029]5、D(UncertainDatabases,不確定性數據庫):指存儲的事務中的數據項存在一定發生概率的數據庫。[0030]一種示意性的不確定性數據庫的結構如表一所示。比如,不確定性數據庫中記錄的是未來天氣情況,則數據庫中每一種天氣情況對應一個發生概率,即不確定性數據庫中的每個事務對應一個發生概率。[0031]表一[0032][0033]6、TID(transactionID,事務標識):用于在同一個不確定性數據庫中區別不同的事務。比如,排在不確定性數據庫第一行的事務為T1,第二行的事務為T2。[0034]7、itemweightinatransaction(項集在事務中的項集權重):項集在事務中的項集權重等于組成項集的各個數據項在事務中的權重的平均值,用于表示項集在事務中的重要程度。[0035]8、itemweightinD(項集在不確定性數據庫中的項集權重):項集在不確定性數據庫中的項集權重等于項集在事務中的項集權重,用于表示項集在不確定性數據庫中的重要程度。[0036]比如,在表一示出的不確定性數據庫D中,包括4、8、(:、0346個數據項,假設用戶自定義設置的這6個數據項的權重表(weight-talbe)w-table為:[0037]{w(A)=0.2,w(B)=0.75,w(C)=0.9,w(D)=1.0,w(E)=0.55,w(F)=0.3,}[0038]9、itemprobabilityinatransaction(項集在事務中的項集概率):項集在事務中的項集概率等于組成項集的各個數據項在事務中的發生概率的乘積,用于表示項集在事務中的發生概率。[0039]10、expSup(Expectedsupport,期望支持度):項集的期望支持度等于項集在包含該項集的各個事務中的項集概率之和。[0040]ll、expWSup(Expectedweightedsupport,期望權重支持度):項集的期望權重支持度等于項集的期望支持度與項集在不確定性數據庫中的項集權重的乘積。[0041]12、HEWI(HighExpectedWeightedItemset,高權重項集):若項集的期望權重支持度大于或等于最低期望權重閾值與不確定性數據庫中事務總數的乘積,則將該項集確定為高權重項集。[0042]13、tubw(Transactionupper-boundweight,事務權重上限):事務的事務權重上限等于事務包括的各個項集在不確定性數據庫的項集權重中的最大值。[0043]14、tubp(Transactionupper-boundprobability,事務概率上限):事務的事務概率上限等于事務包括的各個項集的發生概率的最大值。[0044]15、tubwp(Transactionupper-boundweightedprobability,事務權重概率上限):事務權重概率上限等于事務的事務概率上限與事務權重上限的乘積。[0045]16、iubwp(Itemupper-boundweightedprobability,項權重概率上限):項集的項權重概率上限等于包含該項集的各事務的事務權重概率上限之和。[0046]17、HUBEWI(Highupper-boundexpectedweighteditemset,高期望權重上限項集):若項集的項權重概率上限大于或等于最低期望權重閾值與不確定性數據庫中事務總數的乘積,則將該項集確定為高期望權重上限項集。[0047]本發明實施例還提供了以下規則:[0048]1、在一個事務中,任何項集的權重均小于或等于該事務的事務權重上限,即:[0049][0050]在上式中,X用于表示項集,Tq用于表示不確定性數據庫D包括的事務,i,用于表示項集X包括的數據項,|k|用于表示項集X包括的數據項的個數,w(X,Tq)用于表示項集X在事務Tq的項集權重,W(ij,Tq)用于表示項集X包括的數據項在事務Tq的權重,tubw(Tq)用于表示事務Tq的事務權重上限。[0051]2、在一個事務中,任何項集的項集概率均小于或等于該事務的事務概率上限,即:[0052]p(X,Tq)<tubp(Tq)。[0053]在上式中,p(X,Tq)用于表示項集X的在事務Tq的項集概率,tubp(Tq)用于表示事務Tq的事務權重上限。[0054]3nHUBEWDCproperty(Highupper-boundexpectedweighteddownwardclosureproperty,向下閉合的高期望權重上限屬性):如果一個項集是高期望權重上限項集,那么該項集的任何一個子集也是高期望權重上限項集。[0055]4、高權重項集屬于高期望權重上限項集,即:[0056][0057]在上式中,HEWIs用于表示高權重項集,HUBEWIs用于表示高期望權重上限項集。[0058]請參考圖1,其示出了本發明一個實施例提供的項集挖掘方法的方法流程圖。參見圖1,該方法包括:[0059]步驟101,獲取自定義的權重和最低期望權重閾值ε,該權重是不確定性數據庫D中的數據項所對應的權重,該不確定性數據庫D包括至少一個事務,每個事務包括至少一個數據項。[0060]步驟102,根據數據項的發生概率和權重,計算不確定性數據庫D中的項集的項權重概率上限iubwp,將該iubwp彡|D|*ε的項集挖掘為高期望權重上限項集HUBEWI;該項集是包括至少一個數據項的集合,該|D|是不確定性數據庫D中的事務總數。[0061]步驟103,計算每個HUBEWI的期望權重支持度expWSup,將expWSup彡|D|*ε的HUBEWI挖掘為高權重項集HEWI。[0062]綜上所述,本發明實施例提供的方法,通過計算各個項集的項權重概率上限得到高期望權重上限項集,再計算高期望權重上限項集的期望權重支持度來獲取高權重項集,以少量計算量先挖掘出高期望權重上限項集作為候選項集,從而縮小高權重項集的挖掘范圍,解決了現有技術中挖掘高權重項集只能處理精確數據,尚無針對不確定性數據庫的高權重項集挖掘技術的問題,達到了提高挖掘的效能的效果。[0063]請參考圖2Α,其示出了本發明另一個實施例提供的項集挖掘方法的方法流程圖。參見圖2Α,該方法包括:[0064]步驟201,獲取自定義的權重和最低期望權重閾值ε,該權重是不確定性數據庫D中的數據項所對應的權重,該不確定性數據庫D包括至少一個事務,每個事務包括至少一個數據項。[0065]不確定性數據庫D是指存儲的事務中的數據項存在一定發生概率的數據庫,該不確定性數據庫D包括至少一個事務,每個事務包括至少一個數據項。[0066]比如,在表一示出的不確定性數據庫D中,包括了10個事務和A、B、C、D、E、F6個數據項,以及各個數據項在各個事務中的發生概率。[0067]用戶可以根據實際挖掘需要,自定義設置各個數據項的權重和最低期望權重閾值ε〇[0068]比如,當用戶需要挖掘的不確定性數據庫D中記錄的是未來天氣情況,即不確定性數據庫中每個事務包含的數據項可以是天氣類型及天氣類型對應的發生概率。用戶可以根據對不確定性數據庫中的各種數據項的重視程度設置各個數據項的權重。假如用戶對數據項Α非常重視,則可以將數據項Α的權重設置得較高。[0069]為了保證挖掘的項集具有較高的發生概率,用戶可以將最低期望權重閾值ε設置的較大。[0070]在本發明實施例中,為了區分不同的事務,還為每個事務設置一個TID(TransactionIdentity,事務標識),該事務標識TID用于確定對應的事務。[0071]比如,表一中事務標識1對應的事務為(A,0.25),(C,0.4),(E,1.0)。[0072]步驟202,根據數據項的發生概率和該權重,計算不確定性數據庫D中的項集的項權重概率上限iubwp,將該iubwp彡|D|*ε的項集挖掘為高期望權重上限項集HUBEWI;該項集是包括至少一個數據項的集合,該|D|是該不確定性數據庫D中的事務總數。[0073]用戶需要從不確定性數據庫中挖掘出符合要求的k_項集。[0074]在本發明實施例中,定義k_項集是包含k個數據項的集合,k彡1,比如,{A,B,C}包含了3個數據項,則{A,B,C}是一個3-項集。[0075]其中,當k=1時,該1-項集即為一個數據項,比如,{A}即為一個1-項集。[0076]定義k-項集中每個數據項在包含該k-項集的事務中的權重之和除以k的值,為該k-項集在包含該k-項集的事務中的項集權重,即:[0077][0078]在上式中,X用于表示該k_項集,Tq用于表示不確定性數據庫D包括的事務,i^用于表示項集X包括的數據項,|k|用于表示項集X包括的數據項的個數,w(X,Tq)用于表示項集X在事務Tq的項集權重,W(ij,Tq)用于表示項集X包括的數據項在事務Tq的權重。[0079]比如,根據表一示出的不確定性數據庫D,以k-項集為3-項集{A,C,E}為例,項集{A,C,E}的項集權重為:[0080]w(ACE)=w(ACE,I\)=(w(A,I\)+w(C,I\)+w(C,?\))/3[0081]=(0.2+0.9+0.55)/3[0082]=0.55[0083]定義k-項集中每個數據項在包含k-項集的事務中的發生概率的乘積,為該k-項集在每個事務中的項集概率,SP:[0084][0085]在上式中,X用于表示該k_項集,ij用于表示該k_項集包括的數據項,p(X,Tq)用于表示項集X的在事務Tq的項集概率,P(i,,Tq)用于表示該k-項集包括的數據項在事務Tq的發生概率。[0086]比如,根據表一示出的不確定性數據庫D,以k-項集為3-項集{A,C,E}為例,3-項集{A,C,E}在事務T1中的項集概率為:[0087]p(ACE,I\)=p(A,?\)Xp(C,?\)Xp(E,?\)[0088]=0.25X0.4X1.0[0089]=0.1[0090]首先,定義事務的事務權重概率上限tubwp等于事務的事務權重上限tubw和事務概率上限tubp的乘積,即對于每個事務,其對應:[0091]tubwp(Tq)=tubw(Tq)Xtubp(Tq)[0092]在上式中,tubwp(Tq)用于表示事務Tq的事務權重概率上限,tubw(Tq)用于表示事務Tq的事務權重上限,tUbp(Tq)用于表示事務Tq的事務概率上限。[0093]其中,事務權重上限tubw為事務包括的各個數據項的權重的最大值,事務概率上限tubp為事務包括的各個數據項的發生概率的最大值。[0094]根據以上定義,在獲取了不確定性數據庫D中用戶自定義的每個數據項的權重和每個數據項的發生概率后,可以計算出每個事物的事務權重概率上限tubwp。[0095]根據表一示出的不確定性數據庫D和用戶自定義的權重表w-table,計算得到事務T1的事務權重概率上限tubwp為:[0096]tubwp(I\)=tubw(?\)Xtubp(?\)=0·9X1.0=0·9[0097]在上式中,?\用于表示不確定性數據庫D中事務標識為1的事務,tubwp(TJ用于表示事務!\的事務權重概率上限。[0098]步驟203,對于每個k-項集,根據包含有該k-項集的事務的tubwp,計算該k-項集的項權重概率上限iubwp,該k-項集是包含k個數據項的集合,k多1。[0099]首先,定義k-項集的項權重概率上限iubwp為不確定性數據庫D中,所有包括該k_項集的事務的事務權重概率上限tubwp之和。[0100]即:[0101][0102]在上式中,X用于表示k_項集,iubwp(X)用于表示k_項集的項權重概率上限。[0103]其中,該步驟可以被替換為步驟203a,如圖2B所示,在圖2B中:[0104]步驟203a:對于每個k-項集,將包含該k-項集的每個事務的tubwp之和,確定為該k-項集的項權重概率上限iubwp。[0105]對于每個k-項集,首先,從不確定性數據庫D中確定包括該k-項集的各個事務。[0106]比如,以k-項集為3-項集{A,C,E}為例,在表一示出不確定性數據庫D中,1\、T2、T3包括了3-項集{A,C,E}。[0107]其次,根據權重概率上限iubwp的定義,將確定的包括該k-項集的各個事務的事務權重概率上限tubwp相加,得到該k-項集的權重概率上限iubwp。[0108]比如,根據表一示出的不確定性數據庫D,以k-項集為3-項集{A,C,E}為例,計算{A,C,E}的項權重概率上限為:[0109]iubwp(ACE)=tubwp(T^+tubwp(Τ3)+tubwp(Τ10)[0110]=0.9+0.9+0.9=2.7[0111]在上式中,iubwp(ACE)用于表示3-項集{Α,C,Ε}的項權重概率上限,tubwp(?\)用于表示事務!\的事務權重概率上限,tubwp(Τ2)用于表示事務1~2的事務權重概率上限,tubwp(Τ3)用于表示事務1~3的事務權重概率上限。[0112]根據表一示出的不確定性數據庫D和不確定性數據庫D中各個事務的事務權重概率上限tubwp,得到的各個1-項集的項概率權重上限iubwp如表二:[0113]表二[0114][0115]步驟204,將iubwp彡該IDI*ε的k-項集添加到第k組HUBEWI中。[0116]首先,定義iubwp彡|D|*ε的k-項集為高期望權重上限項集HUBEWI,其中,該|D是不確定性數據庫D中的事務總數。[0117]根據該定義,對于每個k-項集,在計算出該k-項集的項權重概率上限iubwp后,比較該不確定性數據庫D中的事務總數|D|與ε的乘積與該k-項集的項權重概率上限iubwp的大小,若該k-項集的iubwp彡|D|*ε,則將該k-項集添加到第k組高期望權重上限項集HUBEWI中。[0118]比如,以k=1為例,設1-項集為{A}。假設ε為10%,計算出1-項集{A}的項權重概率上限iubwp為3.6,不確定性數據庫D中的事務總數|D|為10。由于iubwp(Α)=3.6>10%X10,因此,可以將{A}添加到第1組高期望權重上限項集HUBEWI中。[0119]根據表二示出的各個1-項集的項概率權重上限iubwp,設ε為45%,得到iubwp彡|D|*ε的1-項集如表三:[0120]表三[0121][0122]步驟205,當第k組HUBEWI不組HUBEWI中的k-項集自連接生成(k+1)-項集,該(k+1)-項集是該k-項集的超集,該(k+l)_項集是包含k+Ι個數據項的項集。[0123]當第k組HUBEWI不為空時,按照第k候選項集中項集的排列順序,將每個項集與排在該項集之后的項集進行合并且去重后,生成一個(k+l)_項集。[0124]比如,當第1候選項集中包含的項集為A、B、C、D和E時,且排列順序為A-B-C-D-E時,自連接生成的2-項集即為AB、AC、AD、AE、BC、BD、BE、CD、CE和DE。[0125]又比如,當第2候選項集為AC、AD、AE、BE、⑶和CE時,生成的3-項集即為A⑶、ACE、ABE、BCE和CDE。[0126]為了方便理解,結合圖2C,以第1候選項集中包含的項集為{A}、{B}、{C}、{D}、{E}為例對k-項集自連接生成(k+l)_項集的過程進行說明。[0127](1)將每個數據項分別構成第一候選項集,則得到的第一候選項集為{A}、{B}、{C}、{D}、{E},分別計算這5個第一候選項集的項權重概率上限iubwp,判斷每個第一候選項集是否滿足iubwp彡|D|*ε。[0128](2)假設5個第一候選項集都滿足iubwp彡|D|*e,則獲取每個第一候選項集的真超集,得到第二候選項集,則根據第一候選項集{A}得到第二候選項集{AB}、{AC}、{AD}、{AE},根據第一候選項集{A}得到第二候選項集{BC}、{BD}、{BE},根據第一候選項集{C}得到第二候選項集{CD}、{CE},根據第一候選項集{D}得到第二候選項集{DE}。分別計算這10個第二候選項集的項權重概率上限iubwp,判斷每個第二候選項集是否滿足iubwp多|D|*ε。[0129](3)假設這10個第二候選項集中的項集{AC}不滿足iubwp彡|D|*e,則可以確定項集{AC}的真超集{ABC}、{ACD}、{ACE}、{ABCD}、{ABCE}、{ABCDE}都不滿足iubwp多|D|*ε。[0130]對于除項集{AC}之外的第二候選項集,獲取這些第二候選項集的真超集中不包含項集{AC}的項集,得到第三候選項集。則根據第二候選項集{ΑΒ}得到第三候選項集{ABD}、{ABE},根據第二候選項集{AD}得到第三候選項集{ADE},根據第二候選項集{BC}得到第三候選項集{BCE},根據第二候選項集{BD}得到第三候選項集{BDE},根據第二候選項集ICD}得到第三候選項集ICDE}。分別計算這7個第三候選項集的項權重概率上限iubwp,判斷每個第三候選項集是否滿足iubwp彡|D|*ε。[0131](4)假設這7個第三候選項集中的項集{BCD}不滿足iubwp彡|D|*ε,則可以確定項集出⑶}的真超集{Β⑶Ε}不滿足iubwp彡|D|*ε,可以直接過濾掉。[0132]對于除項集{Β⑶}之外的第三候選項集,獲取這些第三候選項集的真超集中不包含項集{AC}和{BCD}的項集,得到第四候選項集,則根據第三候選項集{ABD}得到第四候選項集{ABDE}。[0133](5)計算第四候選項集{ABDE}的項權重概率上限iubwp,判斷第四候選項集{ABDE}是否滿足iubwp彡|D|*ε。[0134]為了方便理解,在圖2C中,用斜線對不滿足iubwp彡|D|*e的候選集進行了標識,以網格線對不滿足iubwp彡|D|*ε的候選集的真超集進行了標識。[0135]顯而易見的,根據上述步驟204將不滿足iubwp彡|D|*ε的k-項集進行過濾,使得根據第k候選項集中的k-項集自連接生成(k+1)-項集數量遠小于不確定性數據庫中包含的(k+l)_項集的總數,從而達到了縮小挖掘范圍的效果。[0136]對每個k_項集的項權重概率上限iubwp與|D|*e的大小判斷過程完成后,可以檢測第k組HUBEWI中是否存在k-項集,若檢測到第k組HUBEWI中存在k-項集,則生成各個k-項集的超集(k+Ι)-項集。[0137]比如,當k為1時,若檢測到第1組HUBEWI中存在1-項集,則生成各個1-項集的超集2-項集。若檢測到第1組HUBEWI中的1-項集分別為{A}、{B}、{F},則生成的2-項集為{A,B}、{A,F}、{B,F}。在本發明實施例中,可使用Q的算法生成k-項集的超集(k+Ι)-項集,其中,HUBEWIk為第k組HUBEWI。[0138]需要說明的是,若當該第k組HUBEWI為空時,則無法生成(k+Ι)-項集,執行步驟207〇[0139]比如,根據表三示出的的1-項集,自連接生成的2-項集即為:{BC}、{BD}、{BF}、{CD}、{CF}、{DF}。[0140]繼續計算{BC}、{BD}、{BF}、{CD}、{CF}、{DF}的項概率權重上限iubwp如表四:[0141]表四[0142][0143][0144]根據表四示出的2-項集{BC}、{BD}、{BF}、{CD}、{CF}、{DF}的項概率權重上限iubwp,計算得到滿足iubwp彡IDI*ε=4·5的2-項集為{BC}。[0145]此時,根據{BC}無法獲取3-項集,因此,第3組HUBEWI為空,無法生成(k+1)-項集,執行步驟207。[0146]根據上述不確定性數據庫D中k_項集的描述,本發明實施例得出了一個k_項集的高期望權重上限的向下閉合屬性HUBEWDCproperty,該屬性為:如果一個k-項集是高期望權重上限項集HUBEWI,則該k-項集的任何一個子集也是高期望權重上限項集HUBEWI,即:[0147]iubwp(Xk)iubwp(Xk[0148]該屬性的證明方式如下:[0149]設Xk為一個k_項集,該k_項集的子集為Xk\由于dk,則包含Xk1的事務包括了包含Xk的事務,因此:「01501[0151]通過該屬性,可以推導出:假如k-項集為高期望權重上限項集HUBEWI,那么該k_項集的超集(k+l)_項集也可能是高期望權重上限項集HUBEWI;若k-項集不是高期望權重上限項集HUBEWI,那么該k-項集的超集(k+Ι)-項集也不可能是高期望權重上限項集HUBEWI〇[0152]步驟206,將k更新為k+1,再次執行根據該對于每個k-項集,根據包含有該k-項集的事務的tubwp,計算該k-項集的項權重概率上限iubwp的步驟。[0153]若第k組高期望權重上限項集HUBEWI不為空,則還需要執行步驟203計算新生成的(k+Ι)-項集的項權重概率上限iubwp,從而從新生成的(k+Ι)-項集中繼續確定高期望權重上限項集HUBEWI,直到獲取不到候選項集。[0154]步驟207,對于每個HUBEWI,計算該HUBEWI在包含有該HUBEWI的事務中的項集權重,將該項集權重確定為該HUBEWI在不確定性數據庫D的項集權重。[0155]在獲取了所有高期望權重上限項集HUBEWI后,對于高期望權重上限項集HUBEWI,可以計算該高期望權重上限項集HUBEWI在包含有該高期望權重上限項集HUBEWI的事務中的項集權重。[0156]由于高期望權重上限項集HUBEWI為k-項集,因此可以根據k-項集的項集權重計算方法計算高期望權重上限項集HUBEWI在包含有該高期望權重上限項集HUBEWI的事務中的項集權重。[0157]其中,k-項集的項集權重計算方法已在步驟202a中示出,此處不做贅述。[0158]需要說明的是,由于在獲取高期望權重上限項集HUBEWI時,已經計算了高期望權重上限項集HUBEWI中各個k-項集在各個事務中的項集權重,因此,也可以直接從存儲的項集權重中,獲取高期望權重上限項集HUBEWI在包含有該高期望權重上限項集HUBEWI的事務中的項集權重。[0159]步驟208,獲取HUBEWI在包含有該HUBEWI的事務中的項集概率。[0160]在獲取了所有高期望權重上限項集HUBEWI后,對于高期望權重上限項集HUBEWI,可以計算該高期望權重上限項集HUBEWI在包含有該高期望權重上限項集HUBEWI的事務中的項集權重。[0161]由于高期望權重上限項集HUBEWI為k-項集,因此可以根據k-項集的項集概率計算方法計算高期望權重上限項集HUBEWI在包含有該高期望權重上限項集HUBEWI的事務中的項集概率。[0162]需要說明的是,由于在獲取高期望權重上限項集HUBEWI時,已經計算了高期望權重上限項集HUBEWI中各個k-項集在各個事務中的項集概率,因此,也可以直接從存儲的項集概率中,獲取高期望權重上限項集HUBEWI在包含有該高期望權重上限項集HUBEWI的事務中的項集概率。[0163]步驟209,將HUBEWI在所有包含有該HUBEWI的事務中的項集概率之和,確定為該HUBEWI的期望支持度expSup。[0164]首先,對于每個HUBEWI中的k-項集,定義該k-項集在每個包含有該k-項集的事務中的項集概率之和為該k-項集的期望支持度exoSuD,即:[0165][0166]在上式中,expSup(X)用于表示k-項集X的期望支持度。[0167]比如,以3-項集{A,C,E}為例進行說明,計算得到的{A,C,E}的期望支持度expSup為:[0168]expSup(ACE)=p(ACE,+p(ACE,T3)+p(ACE,T10)[0169]=0.1+0.63+0.306[0170]=1.036[0171]步驟210,根據項集權重與expSup,計算HUBEWI的期望權重支持度expWSup。[0172]對于每個HUBEWI中的k-項集,定義該k-項集的期望支持度expSup與該k-項集在不確定性數據庫D的項集權重的乘積為該k-項集的期望權重支持度expWSup,即:[0173][0174]比如,以3-項集{A,C,E}為例進行說明,計算得到的{A,C,E}的期望權重支持度expWSup為:[0175]expffSup(ACE)=w(ACE)XexpSup(ACE)[0176]=0.55X1.036[0177]=0.5698[0178]步驟211,若expWSup彡該|D|*ε,則將HUBEWI挖掘為高權重項集HEWI。[0179]對于每個HUBEWI中的k-項集,首先比較該k-項集的期望權重支持度expWSup與IDI*ε的大小,若該k-項集的期望權重支持度expWSup大于或等于IDI*ε,則將該k-項集確定為高權重項集HEWI。[0180]SP,當每個HUBEWI中的k-項集滿足:[0181]expWSup(X)多εX|D|[0182]則將該k-項集確定為高權重項集HEWI。[0183]根據高期望權重上限的向下閉合屬性HUBEWDCproperty,本發明實施例提出了一個定理:高權重項集HEWI屬于高期望權重上限項集。[0184]該定理的證明方式如下:[0185]由于W(X)=W(X,Tq),w(X,Tq)彡tubw(Tq),并且p(X,Tq)彡tubp(Tq),則:[0186][0187]在上式中,expWSup(X)用于表示k-項集X的期望權重支持度。[0188]因此,如果一個項集不是不確定性數據庫D中的高期望權重上限項集HUBEWI,那么該項集也不可能是該不確定性數據庫D中的高權重項集HEWI。[0189]本發明實施例通過使用該定理,在確定了單個數據項,即1-項集中的高期望權重上限項集HUBEWI后,只需要對計算出的k-項集的超集(k+l)_項集繼續進行項集挖掘,從而極大縮小了從不確定性數據庫中挖掘高期望權重數據項的挖掘范圍。[0190]由于現有的高權重項集HWI挖掘方法不但不適用于處理不確定性數據庫,而且需要的計算量極大。而本發明實施例提出的方法,通過計算不確定性數據庫D中的各個項集的項權重概率上限iubwp,從而將項權重概率上限iubwp不滿足iubwp彡|D|*ε的項集除去,即,通過很少計算量即可除去大部分的高權重項集HEWI,從而能夠縮小挖掘高權重項集的范圍,減少確定高權重項集HEWI時需要的計算量。[0191]綜上所述,本發明實施例提供的方法,通過計算各個項集的項權重概率上限得到高期望權重上限項集,再計算高期望權重上限項集的期望權重支持度來獲取高權重項集,以少量計算量先挖掘出高期望權重上限項集作為候選項集,從而縮小高權重項集的挖掘范圍,解決了現有技術中挖掘高權重項集只能處理精確數據,尚無針對不確定性數據庫的高權重項集挖掘技術的問題,達到了提高挖掘的效能的效果。[0192]需要說明的一點是,上述步驟202,根據各個數據項的發生概率和該權重,計算每個事務的事務權重概率上限tubwp,具體可以包括步驟202a和步驟202b,如圖2B所示,在圖2B中:[0193]步驟202a,將每個事務包含的各個數據項的權重中的最大值確定為該事務的事務權重上限tubw,將每個事務包含的各個數據項的發生概率中的最大值確定為該事務的事務概率上限tubp。[0194]在計算事務的事務權重上限tubw時,首先從用戶自定義設置的權重表w-table中獲取該事務中包括的各個數據項的權重,然后,將該事務中各個數據項的權重的最大值確定為該事務的事務權重上限tubw,即:[0195]tubw(Tq)=max{w(i^Tq),w(i2,Tq),w(i3,Tq)...,w(ij,Tq)}[0196]其中Tq用于表示事務,ipi2、V-卜用于表示在事務Tq中的數據項,j用于表示事務Tq的數據項數目,《α,,!;)用于表示事務Tq中第j個數據項的權重,tubW(Tq)用于表不事務Tq的事務權重上限。[0197]需要說明的是,由于一個數據項的權重在不確定性數據庫D中任何一個事務的權重都是相同的,因此,得出推論一:[0198]w(i.j,Tq)=w(i.j),即tubw(Tq)=max{w(i!),w(i2),w(i3)···,w(i.j)}〇[0199]比如,根據表一示出的不確定性數據庫D和用戶自定義的權重表w-table,計算不確定性數據庫D中各個事務的事務權重上限tubw如表五:[0200]表五[0201][0202]根據事務權重上限tubw的定義,可以得出推論二:對于任一事務,該事務的事務權重上限tubw太干等干該車備包栝的仵何k_煩集的權雷。該推論二的推導討程如下:[0203][0204]所以,結合事務權重上限tubw的定義,可以推出,當一個事務包括了一個k_項集,那么該k_項集的權重小于等于該事務的事務權重上限tubw,因此推論二得證。[0205]對于每個事務,在計算事務概率上限tubp時,首先比較事務中包括的各個數據項的發生概率,然后,將該事務中數據項的發生概率的最大值確定為該事務的事務概率上限tubp,即:[0206]tubp(Tq)=max{p(i^Tq),p(i2,Tq),p(i3,Tq)...,p(ij,Tq)}[0207]其中,Pa,,Tq)用于表示事務Tq中第j個數據項的發生概率,tUbp(Tq)用于表示事務Tq的事務概率上限。[0208]比如,根據表一示出的不確定性數據庫D,計算不確定性數據庫D中事務T1的事務概率上限tubp為:[0209]tubp(I\)=max{p(A,I\),p(C,I\),p(E,I\)}=max{0·25,0·4,1.0}=1.0[0210]根據表一示出的不確定性數據庫D,計算不確定性數據庫D中各個事務的事務概率上限tubp如表六:[0211]表六[0212][0213]根據事務概率上限tubp的定義,可以得出推論三:對于任一事務,該事務的事務概率上限tubp大于等于該事務包括的任何k_項集的概率。該定理的推導過程如下:[0214]由于tubp(Tq)=maxfedTq),p(i2,Tq),p(i3,Tq).··,p(i.j,Tq)},則:[0215][0216]即:[0217]p(X,Tq)彡tubp(Tq)[0218]所以,結合事務概率上限tubp的定義,可以推出,當一個事務包括了一個k_項集,那么該k-項集的概率小于等于該事務的事務概率上限tubp,因此推論二得證。[0219]步驟202b,根據事務的tubw和tubp,計算每個事務的事務權重概率上限tubwp。[0220]在不確定性數據庫D中,對于任一事務,在計算出該事務的事務權重上限tubw和事務概率上限tubp后,定義事務的tubw和tubp的乘積為該事務的事務權重概率上限tubwp〇[0221]比如,根據表五示出的不確定性數據庫D中各事務的tubw值和表六示出的不確定性數據庫D中各事務的tubp值,得到的各事務的tubwp如表七:[0222]表七[0223][0224]需要說明的另一點是,本發明實施例所使用的算法的偽代碼示意如下:[0225]輸入:不確定性數據庫D,用戶自定義權重表w-table,最小期望權重支持度閾值ε〇[0226]輸出:高權重期望項集HEWI%[0227]l:foreachTqinDdo[0228]2:calculatetubw(Tq),tubp(Tq),andtubwp(Tq)·//計算事務權重概率上限[0229]3:endfor[0230]4:foreachijinDdo[0231]5:calculateiubwpQ);//計算項權重概率上限[0232]6:ifiubwp(ij)彡εX|D|then[0233]TzHUBEWI1-ij.獲取高期望權重上限項集[0234]8:endif[0235]9:endfor[0236]10:setk-2.[0237]11:setXas(k)-itemset.[0238]12:whileHUBEWIk1關nulldo//當第k-1候選項集不為空時[0239]13:Ck=Apriori_gen(HUBEWIkΟ.//根據第k-1候選項集中的(k-1)-項集自連接生成k項集[0240]14:foreachk-itemsetXinCkdo[0241]15:scanDtocalculateiubwp(X)[0242]16:ifiubwp(X)彡εX|D|then//高期望權重上限項集判斷公式[0243]17:HUBEWIk-X[0244]18:endif[0245]19:endfor[0246]20:k-k+1//生成k+1候選項集[0247]21:endwhile[0248]22:HUBEWIs-UkHUBEWIk.//將每組高期望權重上限項集作為高期望權重上限項集[0249]23:foreachk-itemsetinHUBEWIsdo[0250]24:scanDtocalculateexpSup(X)[0251]25:calculateexpffSup(X)=w(X)XexpSup(X)[0252]26:ifexpWSup(X)彡εX|D|then//高權重項集判斷公式[0253]27:HEWIs-Χ·[0254]28:endif[0255]29:endfor[0256]30:returnHEWIs.[0257]請參考圖3,其示出了本發明一個實施例提供的項集挖掘裝置的裝置結構示意圖。參見圖3,該裝置包括:獲取模塊310、第一計算模塊320、第二計算模塊330。[0258]獲取模塊310,用于獲取自定義的權重和最低期望權重閾值ε,該權重是不確定性數據庫D中的數據項所對應的權重,該不確定性數據庫D包括至少一個事務,每個事務包括至少一個數據項;[0259]第一計算模塊320,用于根據該數據項的發生概率和該權重,計算該不確定性數據庫D中的項集的項權重概率上限iubwp,將該iubwp彡|D|*ε的項集挖掘為高期望權重上限項集HUBEWI;該項集是包括至少一個數據項的集合,該|D|是該不確定性數據庫D中的事務總數;[0260]第二計算模塊330,用于計算每個HUBEWI的期望權重支持度expWSup,將該expWSup彡該|D|*ε的HUBEWI挖掘為高權重項集HEWI。[0261]綜上所述,本發明實施例提供的裝置,通過計算各個項集的項權重概率上限得到高期望權重上限項集,再計算高期望權重上限項集的期望權重支持度來獲取高權重項集,以少量計算量先挖掘出高期望權重上限項集作為候選項集,從而縮小高權重項集的挖掘范圍,解決了現有技術中挖掘高權重項集只能處理精確數據,尚無針對不確定性數據庫的高權重項集挖掘技術的問題,達到了提高挖掘的效能的效果。[0262]請參考圖4,其示出了本發明另一個實施例提供的項集挖掘裝置的裝置結構示意圖。參見圖4,該裝置包括:獲取模塊410、第一計算模塊420、第二計算模塊430。[0263]獲取模塊410,用于獲取自定義的權重和最低期望權重閾值ε,該權重是不確定性數據庫D中的數據項所對應的權重,該不確定性數據庫D包括至少一個事務,每個事務包括至少一個數據項;[0264]第一計算模塊420,用于根據該數據項的發生概率和該權重,計算該不確定性數據庫D中的項集的項權重概率上限iubwp,將該iubwp彡|D|*ε的項集挖掘為高期望權重上限項集HUBEWI;該項集是包括至少一個數據項的集合,該|D|是該不確定性數據庫D中的事務總數;[0265]第二計算模塊430,用于計算每個HUBEWI的期望權重支持度expWSup,將該expWSup彡該|D|*ε的HUBEWI挖掘為高權重項集HEWI。[0266]可選的,該第一計算模塊420,包括:第一計算單元421、第二計算單元422、項集添加單元423、超集生成單元424、項集更新單元425。[0267]第一計算單元421,用于根據該數據項的發生概率和該權重,計算每個事務的事務權重概率上限tubwp;[0268]第二計算單元422,用于對于每個k-項集,根據包含有該k-項集的事務的tubwp,計算該k-項集的項權重概率上限iubwp,該k-項集是包含k個數據項的集合,k多1;[0269]項集添加單元423,用于將該iubwp彡該|D|*ε的k-項集添加到第k組HUBEWI中;[0270]超集生成單元424,用于當該第k組HUBEWI不為空時,根據該第k組HUBEWI中的k_項集自連接生成(k+l)_項集,該(k+l)_項集是該k-項集的超集,該(k+l)_項集是包含k+Ι個數據項的項集;[0271]項集更新單元425,用于將k更新為k+Ι,再次執行根據該對于每個k-項集,根據包含有該k-項集的事務的tubwp,計算該k-項集的項權重概率上限iubwp的步驟。[0272]可選的,該第一計算單元421,包括:第一計算子單元421a、第二計算子單元421b。[0273]第一計算子單元421a,用于將每個事務包含的各個數據項的權重中的最大值確定為該事務的事務權重上限tubw,將每個事務包含的各個數據項的發生概率中的最大值確定為該事務的事務概率上限tubp;[0274]第二計算子單元421b,用于根據該事務的tubw和tubp,計算每個事務的事務權重概率上限tubwp。[0275]可選的,該第一計算單元421,還用于對于每個k-項集,將包含該k-項集的每個事務的tubwp之和,確定為該k-項集的項權重概率上限iubwp。[0276]可選的,該第二計算模塊430,包括:權重確定單元431、概率獲取單元432、第一支持度確定單元433、第二支持度確定單元434、項集挖掘單元435。[0277]權重確定單元431,用于對于每個該HUBEWI,計算該HUBEWI在包含有該HUBEWI的事務中的項集權重,將該項集權重確定為該HUBEWI在不確定性數據庫D的項集權重;[0278]概率獲取單元432,用于獲取該HUBEWI在每個包含有該HUBEWI的事務中的項集概率;[0279]第一支持度確定單元433,用于將該HUBEWI在所有包含有該HUBEWI的事務中的項集概率之和,確定為該HUBEWI的期望支持度expSup;[0280]第二支持度確定單元434,用于根據該項集權重與該expSup,計算該HUBEWI的期望權重支持度expWSup;[0281]項集挖掘單元435,用于當該expWSup彡該|D|*ε時,將該HUBEWI挖掘為高權重項集HEWI。[0282]綜上所述,本發明實施例提供的裝置,通過計算各個項集的項權重概率上限得到高期望權重上限項集,再計算高期望權重上限項集的期望權重支持度來獲取高權重項集,以少量計算量先挖掘出高期望權重上限項集作為候選項集,從而縮小高權重項集的挖掘范圍,解決了現有技術中挖掘高權重項集只能處理精確數據,尚無針對不確定性數據庫的高權重項集挖掘技術的問題,達到了提高挖掘的效能的效果。[0283]需要說明的是:上述實施例提供的項集挖掘裝置在挖掘項集時,僅以上述各功能模塊的劃分進行舉例說明,實際應用中,可以根據需要而將上述功能分配由不同的功能模塊完成,即將設備的內部結構劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實施例提供的項集挖掘裝置與項集挖掘方法實施例屬于同一構思,其具體實現過程詳見方法實施例,這里不再贅述。[0284]上述本發明實施例序號僅僅為了描述,不代表實施例的優劣。[0285]本領域普通技術人員可以理解實現上述實施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質中,上述提到的存儲介質可以是只讀存儲器,磁盤或光盤等。[0286]以上所述僅為本發明的較佳實施例,并不用以限制本發明,凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。【主權項】1.一種項集挖掘方法,其特征在于,所述方法包括:獲取自定義的權重和最低期望權重閾值ε,所述權重是不確定性數據庫D中的數據項所對應的權重,所述不確定性數據庫D包括至少一個事務,每個事務包括至少一個數據項;根據所述數據項的發生概率和所述權重,計算所述不確定性數據庫D中的項集的項權重概率上限iubwp,將所述iubwp彡|D|*ε的項集挖掘為高期望權重上限項集HUBEWI;所述項集是包括至少一個數據項的集合,所述|D|是所述不確定性數據庫D中的事務總數;計算每個HUBEWI的期望權重支持度expWSup,將所述expWSup彡所述|D|*ε的HUBEWI挖掘為高權重項集HEWI。2.根據權利要求1所述的方法,其特征在于,所述根據所述數據項的發生概率和所述權重,計算所述不確定性數據庫D中的項集的項權重概率上限iubwp,將所述iubwp彡|D|*ε的項集挖掘為高期望權重上限項集HUBEWI,包括:根據所述數據項的發生概率和所述權重,計算每個事務的事務權重概率上限tubwp;對于每個k-項集,根據包含有所述k-項集的事務的tubwp,計算所述k-項集的項權重概率上限iubwp,所述k-項集是包含k個數據項的集合,k多1;將所述iubwp彡所述|D|*ε的k-項集添加到第k組HUBEWI中;當所述第k組HUBEWI不為空時,根據所述第k組HUBEWI中的k-項集自連接生成(k+1)-項集,所述(k+1)-項集是所述k-項集的超集,所述(k+1)-項集是包含k+Ι個數據項的項集;將所述k更新為k+1,再次執行根據所述對于每個k-項集,根據包含有所述k-項集的事務的tubwp,計算所述k-項集的項權重概率上限iubwp的步驟。3.根據權利要求2所述的方法,其特征在于,所述根據所述數據項的發生概率和所述權重,計算每個事務的事務權重概率上限tubwp,包括:將每個事務包含的各個數據項的所述權重中的最大值確定為所述事務的事務權重上限tubw,將每個事務包含的各個數據項的所述發生概率中的最大值確定為所述事務的事務概率上限tubp;根據所述事務的tubw和tubp,計算每個事務的事務權重概率上限tubwp。4.根據權利要求2所述的方法,其特征在于,所述對于每個k-項集,根據包含有所述k_項集的事務的tubwp,計算所述k-項集的項權重概率上限iubwp,包括:對于每個k-項集,將包含所述k-項集的每個事務的所述tubwp之和,確定為所述k-項集的項權重概率上限iubwp。5.根據權利要求1至4任一所述的方法,其特征在于,所述計算每個HUBEWI的期望權重支持度expWSup,將所述expWSup彡所述|D|*ε的HUBEWI挖掘為高權重項集HEWI,包括:對于每個所述HUBEWI,計算所述HUBEWI在包含有所述HUBEWI的事務中的項集權重,將所述項集權重確定為所述HUBEWI在所述不確定性數據庫D的項集權重;獲取所述HUBEWI在每個包含有所述HUBEWI的事務中的項集概率;將所述HUBEWI在所有包含有所述HUBEWI的事務中的項集概率之和,確定為所述HUBEWI的期望支持度expSup;根據所述項集權重與所述expSup,計算所述HUBEWI的期望權重支持度expWSup;若所述expWSup彡所述IDI*ε,則將所述HUBEWI挖掘為高權重項集HEWI。6.-種項集挖掘裝置,其特征在于,所述裝置包括:獲取模塊,用于獲取自定義的權重和最低期望權重閾值ε,所述權重是不確定性數據庫D中的數據項所對應的權重,所述不確定性數據庫D包括至少一個事務,每個事務包括至少一個數據項;第一計算模塊,用于根據所述數據項的發生概率和所述權重,計算所述不確定性數據庫D中的項集的項權重概率上限iubwp,將所述iubwp彡|D|*ε的項集挖掘為高期望權重上限項集HUBEWI;所述項集是包括至少一個數據項的集合,所述|D|是所述不確定性數據庫D中的事務總數;第二計算模塊,用于計算每個HUBEWI的期望權重支持度expWSup,將所述expWSup彡所述|D|*ε的HUBEWI挖掘為高權重項集HEWI。7.根據權利要求6所述的裝置,其特征在于,所述第一計算模塊,包括:第一計算單元,用于根據所述數據項的發生概率和所述權重,計算每個事務的事務權重概率上限tubwp;第二計算單元,用于對于每個k-項集,根據包含有所述k-項集的事務的tubwp,計算所述k-項集的項權重概率上限iubwp,所述k-項集是包含k個數據項的集合,k多1;項集添加單元,用于將所述iubwp彡所述|D|*ε的k-項集添加到第k組HUBEWI中;超集生成單元,用于當所述第k組HUBEWI不為空時,根據所述第k組HUBEWI中的k-項集自連接生成(k+l)_項集,所述(k+l)_項集是所述k-項集的超集,所述(k+l)_項集是包含k+Ι個數據項的項集;項集更新單元,用于將所述k更新為k+Ι,再次執行根據所述對于每個k-項集,根據包含有所述k-項集的事務的tubwp,計算所述k-項集的項權重概率上限iubwp的步驟。8.根據權利要求7所述的裝置,其特征在于,所述第一計算單元,包括:第一計算子單元,用于將每個事務包含的各個數據項的所述權重中的最大值確定為所述事務的事務權重上限tubw,將每個事務包含的各個數據項的所述發生概率中的最大值確定為所述事務的事務概率上限tubp;第二計算子單元,用于根據所述事務的tubw和tubp,計算每個事務的事務權重概率上限tubwp。9.根據權利要求7所述的裝置,其特征在于,所述第一計算單元還用于對于每個k-項集,將包含所述k-項集的每個事務的所述tubwp之和,確定為所述k-項集的項權重概率上限iubwp。10.根據權利要求6至9任一所述的裝置,其特征在于,所述第二計算模塊,包括:權重確定單元,用于對于每個所述HUBEWI,計算所述HUBEWI在包含有所述HUBEWI的事務中的項集權重,將所述項集權重確定為所述HUBEWI在不確定性數據庫D的項集權重;概率獲取單元,用于獲取所述HUBEWI在每個包含有所述HUBEWI的事務中的項集概率;第一支持度確定單元,用于將所述HUBEWI在所有包含有所述HUBEWI的事務中的項集概率之和,確定為所述HUBEWI的期望支持度expSup;第二支持度確定單元,用于根據所述項集權重與所述expSup,計算所述HUBEWI的期望權重支持度expWSup;項集挖掘單元,用于當所述expWSup彡所述IDI*ε時,將所述HUBEWI挖掘為高權重項集HEWI〇【文檔編號】G06F17/30GK106033449SQ201510116198【公開日】2016年10月19日【申請日】2015年3月17日【發明人】林浚瑋,李勇,王巨宏,賴曉平,甘文生【申請人】哈爾濱工業大學深圳研究生院,騰訊科技(深圳)有限公司