一種基于Canopy聚類和BIRCH層次聚類的連續(xù)屬性離散化方法
【技術領域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘預處理技術領域,具體來說是一種基于Canopy聚類和BIRCH 層次聚類的連續(xù)屬性離散化方法。
【背景技術】
[0002] 連續(xù)屬性離散化是數(shù)據(jù)挖掘的重要預處理步驟,直接影響到數(shù)據(jù)挖掘的效果。目 前,很多數(shù)據(jù)挖掘算法在建模前都要求連續(xù)屬性離散化,如粗糙集算法。連續(xù)屬性的離散化 是指在特定的連續(xù)屬性的值域范圍內設定若干個劃分點,將屬性的值域范圍劃分為一些離 散化的區(qū)間,最后用不同的符號或整數(shù)代表落在每個自區(qū)間中的屬性值。連續(xù)屬性離散化 本質上可歸結為利用選取的斷點來對條件屬性的空間進行劃分的問題,即將m維(假設有 m個條件屬性)空間劃分成n個(n〈card(U))區(qū)域,每個區(qū)域中對象的決策值相同,則每個 這樣的區(qū)域對應一個離散后決策系統(tǒng)中的一個對象。
[0003] 目前,連續(xù)屬性離散化方法大致上可以歸為非監(jiān)督離散化和有監(jiān)督離散化兩大 類:
[0004] 有監(jiān)督離散化方法,如統(tǒng)計檢驗法、信息熵法、貪心算法及其改進算法等,此類方 法的優(yōu)勢是考慮了連續(xù)屬性離散化時對象的分類信息,缺點是忽略了樣本間的關聯(lián)性,因 而容易造成不合理的離散化或產生太多的離散化區(qū)間數(shù)目。
[0005] 非監(jiān)督離散化方法,如密度分布聚類、超立方體聚類、Canopy聚類等,此類方法的 優(yōu)勢是簡單、易于操作,但由于不帶類別信息,此類方法需要事先人為地指定聚類簇數(shù)且大 多沒有考慮對象的分類信息,因此,離散化效果往往不太理想。
【發(fā)明內容】
[0006] 本發(fā)明的目的是為了解決現(xiàn)有技術中離散化效果差、離散化不合理的缺陷,提供 一種基于Canopy聚類和BIRCH層次聚類的連續(xù)屬性離散化方法來解決上述問題。
[0007] 為了實現(xiàn)上述目的,本發(fā)明的技術方案如下:
[0008] 一種基于Canopy聚類和BIRCH層次聚類的連續(xù)屬性離散化方法,包括以下步驟:
[0009] 利用Canopy聚類實現(xiàn)連續(xù)屬性數(shù)據(jù)初始聚類;設置合理的距離閾值Tl、T2,其中 閾值Tl、T2為劃分Canopy大小的度量;利用Canopy聚類方法,將相似對象放在一個子集 Cluster中;經(jīng)處理后獲取各個Cluster的質心,完成數(shù)據(jù)初始聚類;
[0010] 以初始聚類中心為樣本,通過BIRCH層次聚類進行二次聚類;利用Canopy聚類輸 出的Cluster質心,結合聚類特征可加性原理構建聚類特征CF和聚類特征樹CF樹;通過 BIRCH聚類方法把稀疏的簇當做離群點刪除,將稠密的簇合并為更大的簇,實現(xiàn)數(shù)據(jù)集的二 次聚類;
[0011] 對斷點集任一樣本找出其所在維各聚類中心的最近鄰,以此作為離散微調依據(jù), 實現(xiàn)連續(xù)屬性的離散化;以BIRCH聚類算法的聚類中心為斷點集,以輪廓系數(shù)作為聚類效 果評價指標,以不相容度作為離散效果評價指標,對數(shù)據(jù)集任一樣本找出其所在維各聚類 中心的最近鄰,以此作為離散微調依據(jù),將聚類微調的結果作為最終連續(xù)屬性離散結果。
[0012] 所述的Canopy聚類方法包括以下步驟:
[0013] 將數(shù)據(jù)集預處理后得到List集合,經(jīng)十折交叉驗證方法后選擇兩個距離閾值T1 和 T2,且 T1>T2 ;
[0014] 循環(huán)List集合,從List集合中任取一點t,用距離度量快速計算點t與所有 Canopy之間的距離;
[0015] 若點t與某個Canopy距離在T1以內,則將點t加入到該Canopy ;
[0016] 若點t與某個Canopy的距離在T2以內,則把點t從List中刪除。
[0017] 所述的Cluster的質心計算公式如下:
[0018]
【主權項】
1. 一種基于Canopy聚類和BIRCH層次聚類的連續(xù)屬性離散化方法,其特征在于,包括 以下步驟: 11) 利用Canopy聚類實現(xiàn)連續(xù)屬性數(shù)據(jù)初始聚類;設置合理的距離閾值Tl、T2,其中 閾值Tl、T2為劃分Canopy大小的度量;利用Canopy聚類方法,將相似對象放在一個子集 Cluster中;經(jīng)處理后獲取各個Cluster的質心,完成數(shù)據(jù)初始聚類; 12) 以初始聚類中心為樣本,通過BIRCH層次聚類進行二次聚類;利用Canopy聚類輸 出的Cluster質心,結合聚類特征可加性原理構建聚類特征CF和聚類特征樹CF樹;通過 BIRCH聚類方法把稀疏的簇當做離群點刪除,將稠密的簇合并為更大的簇,實現(xiàn)數(shù)據(jù)集的二 次聚類; 13) 對斷點集任一樣本找出其所在維各聚類中心的最近鄰,以此作為離散微調依據(jù),實 現(xiàn)連續(xù)屬性的離散化;以BIRCH聚類算法的聚類中心為斷點集,以輪廓系數(shù)作為聚類效果 評價指標,以不相容度作為離散效果評價指標,對數(shù)據(jù)集任一樣本找出其所在維各聚類中 心的最近鄰,以此作為離散微調依據(jù),將聚類微調的結果作為最終連續(xù)屬性離散結果。
2. 根據(jù)權利要求1所述的一種基于Canopy聚類和BIRCH層次聚類的連續(xù)屬性離散化 方法,其特征在于,所述的Canopy聚類方法包括以下步驟: 21) 將數(shù)據(jù)集預處理后得到List集合,經(jīng)十折交叉驗證方法后選擇兩個距離閾值T1和 T2,且T1>T2 ; 22) 循環(huán)List集合,從List集合中任取一點t,用距離度量快速計算點t與所有Canopy 之間的距離; 若點t與某個Canopy距離在T1以內,則將點t加入到該Canopy; 若點t與某個Canopy的距離在T2以內,則把點t從List中刪除。
3. 根據(jù)權利要求1所述的一種基于Canopy聚類和BIRCH層次聚類的連續(xù)屬性離散化 方法,其特征在于,所述的Cluster的質心計算公式如下:
其中:C/為簇Cj的聚類中心;n為樣本數(shù)目;為簇j時第k個屬性第n條樣本。
4. 根據(jù)權利要求1所述的一種基于Canopy聚類和BIRCH層次聚類的連續(xù)屬性離散化 方法,其特征在于,所述的結合聚類特征可加性原理構建聚類特征CF和聚類特征樹CF樹包 括以下步驟: 41) 定義聚類特征CF為三元組,CF= {n,LS,SS}, 其中n是聚類數(shù)據(jù)的數(shù)目,LS是n個數(shù)據(jù)點的線性和,SS是s個數(shù)據(jù)點的平方和; 42) 以聚類特征CF為基礎,推導出簇的形心X(l、簇的半徑R,公式如下:
R為成員對象到形心X〇的平均距離; 43)假設CF1=(N^LSpSSJ、CF2= (N2,LS2,SS2),CFJPCF^別為兩個類的聚類特 征; 合并后新簇的聚類特征為CFi+CF2=(Ni+N2,LSi+LS2,SSi+SS2)。
5. 根據(jù)權利要求1所述的一種基于Canopy聚類和BIRCH層次聚類的連續(xù)屬性離散化 方法,其特征在于,所述的輪廓系數(shù)S的取值范圍在[_1,1]之間變化,在此范圍內,值越大 聚類效果越好,輪廓系數(shù)S的計算公式如下:
其中,%是樣本i到本簇中所有其他樣本的平均距離;bi是樣本i到不包含該樣本的 其他任意簇中所有樣本平均距離的最小值。
6. 根據(jù)權利要求1所述的一種基于Canopy聚類和BIRCH層次聚類的連續(xù)屬性離散化 方法,其特征在于,所述的不相容度的計算步驟如下: 61) 設知識表達系統(tǒng)R= (U,A,V,f),A為一個有限屬性集合,v為屬性a的值域, f:UXA-V為{目息函數(shù),即:VfleJ,xGU,f(x,a)GVa; 62) 屬性Ai的不相容度公式如下:
其中,AiT為只考慮條件屬性時論域中不相容樣本的集合,Card(A廣)、Card(U)分別為集 合A'U的基數(shù); 63) 整個決策表的相容性度量如下所示:
設定不相容度誤差界限0 = 〇. 25,a= 1(T7,則每個屬性的不相容度近似估計值為:
,離散后的屬性不相容度滿足|ai-aT| = |&廠0.1|〈0.25。
7. 根據(jù)權利要求1所述的一種基于Canopy聚類和BIRCH層次聚類的連續(xù)屬性離散化 方法,其特征在于,所述的聚類離散微調包括以下步驟: 71) 對斷點集任一樣本i找出其所在維各聚類中心的最近鄰; 72) 將最近鄰的聚類中心標識賦予i,實現(xiàn)了樣本到其所屬聚類中心的微調,實現(xiàn)了連 續(xù)屬性離散化。
【專利摘要】本發(fā)明涉及一種基于Canopy聚類和BIRCH層次聚類的連續(xù)屬性離散化方法,與現(xiàn)有技術相比解決了離散化效果差、離散化不合理的缺陷。本發(fā)明包括以下步驟:利用Canopy聚類實現(xiàn)連續(xù)屬性數(shù)據(jù)初始聚類;以初始聚類中心為樣本,通過BIRCH層次聚類進行二次聚類;對斷點集任一樣本找出其所在維各聚類中心的最近鄰,以此作為離散微調依據(jù),實現(xiàn)連續(xù)屬性的離散化。本發(fā)明可解決高維、大數(shù)據(jù)樣本的連續(xù)屬性離散化方法,減少連續(xù)屬性值的數(shù)目,降低系統(tǒng)對存儲空間的依賴,使離散化后的數(shù)據(jù)更規(guī)約和簡化,便于理解、使用和解釋,擴大了適用范圍。
【IPC分類】G06F17-30
【公開號】CN104573050
【申請?zhí)枴緾N201510028384
【發(fā)明人】閆永剛, 陶剛, 劉俊, 張小兵, 張曉花
【申請人】安徽科力信息產業(yè)有限責任公司
【公開日】2015年4月29日
【申請日】2015年1月20日