海量數(shù)據(jù)集上主觀興趣度的關(guān)聯(lián)規(guī)則優(yōu)化算法
【專利摘要】一種海量數(shù)據(jù)集上主觀興趣度的關(guān)聯(lián)規(guī)則優(yōu)化算法,本發(fā)明使用復(fù)合模板同時優(yōu)化分析,即分為總體印象知識模板(GI)、相對精確知識模板(RPC),這種分類擴大了用戶含義表達范圍,有助于從不同側(cè)重點對關(guān)聯(lián)規(guī)則進行優(yōu)化,此外,把限制與包含模板的作用轉(zhuǎn)而體現(xiàn)在不同興趣度上,細化興趣度為四種類型,包括一致度、后件不可預(yù)知度、前件不可預(yù)知度、不可預(yù)知度,使得優(yōu)化粒度非常清晰;優(yōu)化結(jié)合了復(fù)合模板的興趣度計算模型,使得興趣度的計算能合理適應(yīng)復(fù)合分析環(huán)境。
【專利說明】海量數(shù)據(jù)集上主觀興趣度的關(guān)聯(lián)規(guī)則優(yōu)化算法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明是一種有關(guān)海量數(shù)據(jù)集上主觀興趣度的關(guān)聯(lián)規(guī)則優(yōu)化算法,該方法能夠發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或者相關(guān)聯(lián)系,可以幫助許多商務(wù)決策的制定,如分類設(shè)計、交叉購物和賤賣分析等,屬于關(guān)聯(lián)規(guī)則挖掘中的關(guān)聯(lián)規(guī)則優(yōu)化算法領(lǐng)域。
【背景技術(shù)】
[0002]對海量數(shù)據(jù)進行關(guān)聯(lián)挖掘?qū)С龅年P(guān)聯(lián)規(guī)則數(shù)量巨大,這給分析、決策人員的判斷帶來了困難,而且僅基于支持度-置信度框架的傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘算法并不能指出用戶真正感興趣的規(guī)則,給用戶對所導(dǎo)出規(guī)則的分析帶來了不便,規(guī)則優(yōu)化則成為了提升規(guī)則質(zhì)量、發(fā)現(xiàn)有價值規(guī)則的有效手段。
[0003]目前現(xiàn)有的規(guī)則優(yōu)化算法主要從兩個方面對關(guān)聯(lián)規(guī)則進行優(yōu)化:
[0004]1.客觀關(guān)聯(lián)規(guī)則優(yōu)化:一般從規(guī)則的結(jié)構(gòu)、集合性質(zhì)、統(tǒng)計結(jié)果、離差模型等入手進行分析,這類方法包括RuleCover算法、冗余刪除算法。客觀性優(yōu)化方法能有效刪除多余、無效的規(guī)則。
[0005]2.主觀關(guān)聯(lián)規(guī)則優(yōu)化:一般利用領(lǐng)域知識、模板、興趣度等主觀量度對規(guī)則進行分析。Piatetsky-Shapiro首先提出了興趣度問題。Hoschka和Klosgen首次提出模板的概念。離差分析法被提出用來衡量真實結(jié)果與期望結(jié)果間的距離,而Piatetsky-Shapiro和Matheus把離差與興趣度相結(jié)合,分析了離差的興趣度。Klemettinen等人在中也提出了規(guī)則模板的概念,并使用包含模板和限制模板分別過濾有趣規(guī)則和非有趣規(guī)則。
[0006]雖然客觀優(yōu)化方法刪除多余規(guī)則的效果明顯,但無法實現(xiàn)主觀優(yōu)化方法所帶來的優(yōu)點。從用戶需求分析,對主觀思路進行研究有以下兩點意義:①面對挖掘出來的規(guī)則,用戶唯一的目標就是去尋找那些特殊的、沒有被發(fā)現(xiàn)的規(guī)則。若僅給出一堆雜亂無序的規(guī)則,用戶便需要花費較多的時間來分析和發(fā)現(xiàn)有價值的規(guī)則。②當規(guī)則數(shù)量成千上萬時,用戶希望能快速切入主題、發(fā)現(xiàn)價值,而不是面對規(guī)則無從下手。
[0007]同時,模板是主觀興趣度算法中使用到的一個重要的工具,是用戶表達含義的載體,但目前基于模板的優(yōu)化方法一般僅涉及一個模板的分析。興趣度是規(guī)則有趣程度的客觀度量,目前基于興趣度的優(yōu)化方法一般結(jié)合具體領(lǐng)域知識提出相應(yīng)的興趣度計算模型,用來衡量規(guī)則的有趣程度。
[0008]然而,在一般的規(guī)則優(yōu)化方案中,模板使用單一模板進行優(yōu)化分析,用戶含義表達受限;模板類型種類少,部分論文提出限制模板、包含模板這兩種模板類型用于過濾與匹配規(guī)則。另一方面興趣度,一般只涉及一種興趣度類型,分析的細化程度受限;興趣度計算模型單一、雜亂,優(yōu)化效果難以評判。
【發(fā)明內(nèi)容】
[0009]本發(fā)明針對目前興趣度優(yōu)化算法存在的不足:興趣度計算方法欠妥;用戶含義表達受限;領(lǐng)域知識、模板、興趣度等主觀量度未有機結(jié)合,本算法提出了一種海量數(shù)據(jù)集上主觀興趣度的關(guān)聯(lián)規(guī)則優(yōu)化算法對上述不足進行了改進
[0010]本發(fā)明為解決上述技術(shù)問題所采用的技術(shù)方案是:
[0011]海量數(shù)據(jù)集上主觀興趣度的關(guān)聯(lián)規(guī)則優(yōu)化算法,其特征在于該優(yōu)化算法包括:
[0012]1-(a).數(shù)據(jù)獲取步驟:為優(yōu)化算法提供基礎(chǔ)數(shù)據(jù);
[0013]l-(b).用戶指定模板步驟:所述模板是用戶表達含義的載體,具體地:形如A1...A1...Ak=>Ak+1,的蘊含式,其中Ai可以是屬性名、類名或者C+、C*的表達式,若為C+表示一個或多個類C的實例,若為C*表示零或多個類C的實例;用戶選擇指定GI模板、RPC模板或者同時指定GI模板和RPC模板;
[0014]所述GI模板:用戶因項間關(guān)系模糊而給出的不確定的知識模板,稱為總體印象知識模板,簡稱GI模板,表不為giliS”...,Sj其中,Si可以是一個屬性名、類名或者一條表達式;
[0015]所述RPC模板:用戶知曉項間關(guān)系且明確關(guān)系方向而給出的相對合理的知識模板,稱為相對精確知識模板,簡稱RPC,表示為rpc [S1,SmAV1,...,Vg]其中,Sk可以是一個屬性名、類名或者一條表達式;
[0016]l-(c).解析模板步驟:根據(jù)模板對待優(yōu)化的關(guān)聯(lián)規(guī)則進行掃描計數(shù);
[0017]l-(d).獲取相關(guān)參數(shù)步驟:獲取模板的相關(guān)數(shù)據(jù)及不匹配度量;
[0018]l-(e).計算模板權(quán)重累計值步驟:當指定多個模板時,模板權(quán)重為weight=l/n,其中η模板數(shù),設(shè)XU、YU分別為Ri中前件、后件與GI]或RPq中前件、后件不匹配程度的度量。TXi為Xu的權(quán)重累計值,TYi為Yu的權(quán)重累計值。TXp TYi按如下公式計算:`[0019]TXi=TX^lMXij.;
[0020]TYi=TY^lMYij.;
[0021]1-(f).興趣度計算:
[0022]l-(f-l).根據(jù)公式計算一致度的步驟:規(guī)則Ri的興趣度表示規(guī)則前件、后件與指定模板集U匹配的程度,用符號Confi表示,稱為規(guī)則Ri的一致度;
[0023]Confi = TXi^TYi
[0024]l-(f-2).根據(jù)公式計算后件不可預(yù)知度的步驟:規(guī)則Ri的興趣度表示規(guī)則后件與指定模板集U不匹配的程度,用符號UnexpYi表示,稱為規(guī)則Ri的后件不可預(yù)知度;
【權(quán)利要求】
1.海量數(shù)據(jù)集上主觀興趣度的關(guān)聯(lián)規(guī)則優(yōu)化算法,其特征在于該優(yōu)化算法包括: 1-(a).數(shù)據(jù)獲取步驟:為優(yōu)化算法提供基礎(chǔ)數(shù)據(jù); l-(b).用戶指定模板步驟:所述模板是用戶表達含義的載體,具體地:形如A1...A1...Ak=>Ak+1,的蘊含式,其中Ai包含屬性名、類名或者C+、C*的表達式,若為C+表示一個或多個類C的實例,若為C*表示零或多個類C的實例;用戶選擇指定GI模板、RPC模板或者同時指定GI模板和RPC模板; 所述GI模板:用戶因項間關(guān)系模糊而給出的不確定的知識模板,稱為總體印象知識模板,簡稱GI模板,表不為gi [S1,...,Sm]其中,Si類型包含一個屬性名、類名或者一條表達式; 所述RPC模板:用戶知曉項間關(guān)系且明確關(guān)系方向而給出的相對合理的知識模板,稱為相對精確知識模板,簡稱RPC,表示為rpc [S1,Sm=M1,…,Vg]其中,Sk類型包含一個屬性名、類名或者一條表達式; l-(c).解析模板步驟:根據(jù)模板對待優(yōu)化的關(guān)聯(lián)規(guī)則進行掃描計數(shù);l-(d).獲取相關(guān)參數(shù)步驟:獲取模板的相關(guān)數(shù)據(jù)及不匹配度量;l-(e).計算模板權(quán)重累計值步驟:當指定多個模板時,模板權(quán)重為weight=l/n,其中η為模板數(shù),設(shè)Xij、Yu分別為第i條相關(guān)規(guī)則Ri中前件、后件與GI]或RPCj中前件、后件不匹配程度的度量,TXi為Xu的權(quán)重累計值,TYi為Yu的權(quán)重累計值,TXpTYi按如下公式計算:Txi=Tx^iMxij;
TYi=TY^iMYij;
l-(f).興趣度計算: l-(f-l).根據(jù)公式計算一致度的步驟:規(guī)則Ri的興趣度表示規(guī)則前件、后件與指定模板集U匹配的程度,用符號Confi表示,稱為規(guī)則Ri的一致度;
Confi=TXi^TYi l-(f-2).根據(jù)公式計算后件不可預(yù)知度的步驟:規(guī)則Ri的興趣度表示規(guī)則后件與指定模板集U不匹配的程度,用符號UnexpYi表示,稱為規(guī)則Ri的后件不可預(yù)知度;
2.根據(jù)權(quán)利要求1所述海量數(shù)據(jù)集上主觀興趣度的關(guān)聯(lián)規(guī)則優(yōu)化算法,當用戶僅指定GI模板時,所述一致度公式為:
3.根據(jù)權(quán)利要求2所述海量數(shù)據(jù)集上主觀興趣度的關(guān)聯(lián)規(guī)則優(yōu)化算法,所述獲取相關(guān)參數(shù)步驟包含: 若為GI模板Yij分別為Ri中前件、后件與GIj或RPCj中前件、后件不匹配程度的度量 設(shè)TNj為GIj中元素總數(shù);ΧΜυ、ΥΜυ分別為Ri中前件、后件與GIj中元素相匹配的個數(shù);TMij為GIj中已被Ri中元素所匹配的元素總數(shù),則Xu、Yij分別為Ri中前件、后件與GIj或RPCj中前件、后件不匹配程度的度量為: 若 TNj=O,則 TMJTNj=I
4.根據(jù)權(quán)利要求1-3中任意一條所述海量數(shù)據(jù)集上主觀興趣度的關(guān)聯(lián)規(guī)則優(yōu)化算法,所述興趣度計算完成后,對含不同類型興趣度的規(guī)則集排序步驟。
【文檔編號】G06F19/00GK103810371SQ201310265305
【公開日】2014年5月21日 申請日期:2013年6月28日 優(yōu)先權(quán)日:2013年6月28日
【發(fā)明者】牛新征, 周冬梅, 侯孟書, 楊健 申請人:電子科技大學(xué)