一種基于維度相關(guān)性分析的高維數(shù)據(jù)維度排序方法
【專利摘要】本發(fā)明涉及一種基于維度相關(guān)性分析的高維數(shù)據(jù)維度排序方法,包括:進(jìn)行維度聚類;計(jì)算維度間類和類的對(duì)應(yīng)概率來(lái)判斷兩個(gè)維度成強(qiáng)相關(guān)還是弱相關(guān),若是兩個(gè)類之間對(duì)應(yīng)概率較大,則成強(qiáng)相關(guān),反之則成弱相關(guān),然后統(tǒng)計(jì)兩個(gè)維度所有類的對(duì)應(yīng)概率和作為判斷兩個(gè)維度相關(guān)性的標(biāo)準(zhǔn);維度排序。本發(fā)明的維度相關(guān)性的分析方法是基于聚類的,通過(guò)分析類與類之間的對(duì)應(yīng)關(guān)系來(lái)判斷其所屬維度的相關(guān)性,比起直接計(jì)算數(shù)據(jù)點(diǎn)之間的對(duì)應(yīng)關(guān)系要簡(jiǎn)便很多,很大程度上減少了計(jì)算量,而且最終的相關(guān)性用數(shù)值來(lái)表示,可以很直觀的看出兩個(gè)維度的相關(guān)性大小。
【專利說(shuō)明】
一種基于維度相關(guān)性分析的高維數(shù)據(jù)維度排序方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于高維可視分析領(lǐng)域,涉及一種維度相關(guān)性的分析方法,并用于維度排 序,方便用戶分析高維數(shù)據(jù)。
【背景技術(shù)】
[0002] 隨著信息技術(shù)的高速發(fā)展,產(chǎn)生了大量的結(jié)構(gòu)繁多、數(shù)目巨大的高維數(shù)據(jù),這些高 維數(shù)據(jù)加大了我們對(duì)于它們的理解難度,給我們帶來(lái)了巨大的挑戰(zhàn),但同時(shí)也給我們帶來(lái) 了許多機(jī)遇,讓我們從中獲取許多有價(jià)值的信息,為我們創(chuàng)造更多的財(cái)富。而這些信息往往 存在于復(fù)雜的數(shù)據(jù)關(guān)系中,如果我們能夠發(fā)現(xiàn)隱藏在高維數(shù)據(jù)中的那些復(fù)雜的數(shù)據(jù)關(guān)系, 我們便可以利用它們來(lái)做一些預(yù)測(cè)的工作,為我們創(chuàng)造價(jià)值,因此相關(guān)性分析在高維數(shù)據(jù) 分析中變得尤為重要。相關(guān)性分析主要是分析屬性之間的數(shù)據(jù)元素是否是相關(guān)的,如果它 們是相關(guān)的,是強(qiáng)相關(guān)還是弱相關(guān),是正相關(guān)還是負(fù)相關(guān)。在眾多的高維可視化方法中,平 行坐標(biāo)(Parallel Coordinates)和散點(diǎn)圖(ScatterPlot)可以比較有效的展示維度間的關(guān) 系,其中散點(diǎn)圖(Scatter Plot)可以比較清晰的表現(xiàn)兩個(gè)維度間的關(guān)系,而平行坐標(biāo) (Parallel Coordinates)可以表現(xiàn)所有維度間的關(guān)系,但是維度關(guān)系表現(xiàn)不夠清晰。由于 高維數(shù)據(jù)維數(shù)眾多、數(shù)目巨大,這兩種方法在表現(xiàn)維度間關(guān)系時(shí)容易產(chǎn)生混亂,不能夠很好 的幫助我們分析維度間的相關(guān)性。于是,為了能夠更好地幫助我們分析維度間的關(guān)系,產(chǎn)生 了許多基于維度相關(guān)性分析的維度排序方法,主要是使相鄰維度間具有較強(qiáng)的相關(guān)性,從 排序后的維度序列中我們還可以看出一定的高維數(shù)據(jù)結(jié)構(gòu)。
【發(fā)明內(nèi)容】
[0003] 為了能夠更好地幫助人們理解高維數(shù)據(jù),發(fā)現(xiàn)隱藏在其中的復(fù)雜的數(shù)據(jù)關(guān)系,本 發(fā)明提供一種高維數(shù)據(jù)維度排序方法,本發(fā)明采用相關(guān)性分析方法,發(fā)現(xiàn)維度間的強(qiáng)弱相 關(guān)性以及正負(fù)相關(guān)性,并將這種相關(guān)性分析方法用于維度排序,使其相鄰的維度間具有較 強(qiáng)的相關(guān)性,方便用戶對(duì)其數(shù)據(jù)作進(jìn)一步的分析。本發(fā)明的技術(shù)方案如下:
[0004] -種基于維度相關(guān)性分析的高維數(shù)據(jù)維度排序方法,包括下列步驟:
[0005] (1)進(jìn)行維度聚類
[0006] 使用K-means算法對(duì)高維數(shù)據(jù)集D={di,d2,d3, . . .,dm}的每一維度分別聚類;
[0007] (2)維度相關(guān)性分析
[0008] 根據(jù)上述的聚類結(jié)果,計(jì)算維度間類和類的對(duì)應(yīng)概率來(lái)判斷兩個(gè)維度成強(qiáng)相關(guān)還 是弱相關(guān),若是兩個(gè)類之間對(duì)應(yīng)概率較大,則成強(qiáng)相關(guān),反之則成弱相關(guān),然后統(tǒng)計(jì)兩個(gè)維 度所有類的對(duì)應(yīng)概率和作為判斷兩個(gè)維度相關(guān)性的標(biāo)準(zhǔn),步驟如下:
[0009] ①計(jì)算類之間的對(duì)應(yīng)概率
[0010] 對(duì)于高維數(shù)據(jù)集0={(11,(12,(13,...,(1111}的任意兩個(gè)維度(^和(1」,設(shè)維度(14皮聚成11 類,維度山被聚成m類,計(jì)算類之間的對(duì)應(yīng)概率,令cU, P為維度cU的p類,diq為維度dj勺q類,統(tǒng) 計(jì)落在cU,P中的數(shù)據(jù)個(gè)數(shù)num (i,P)和落在dj,q中的數(shù)據(jù)個(gè)數(shù)numaq),然后統(tǒng)計(jì)共同落在這兩 個(gè)類中的數(shù)據(jù)個(gè)數(shù)num,得到這兩個(gè)類ckdPcUq的對(duì)應(yīng)概率定義為:
[0012]②維度間的相關(guān)性分析
[0013]計(jì)算兩個(gè)維度間所有類的對(duì)應(yīng)概率和作為兩個(gè)維度相關(guān)性判斷的標(biāo)準(zhǔn),進(jìn)行維度 間的相關(guān)性分析;
[0014] (3)維度排序
[0015] 在維度相關(guān)性分析的基礎(chǔ)上,將維度按照相關(guān)性大小進(jìn)行排序,使得相鄰之間的 維度有較強(qiáng)的相關(guān)性,方法為:首先選擇一個(gè)維度放在序列的第一個(gè)位置,然后找與其最相 關(guān)的維度放在其后,以此類推,直到所有的維度排列完成。
[0016] 作為優(yōu)選實(shí)施方式,其特征在于,步驟(1)中,
[0017]使用改進(jìn)了初始聚類中心選取方法的κ-means算法對(duì)高維數(shù)據(jù)集D= {di,d2, d3, . . .,dm}的每一維度分別聚類,對(duì)于每一維數(shù)據(jù)集,設(shè)為X= {X1,X2,X3, . . .,χη},其初始聚 類中心選取步驟如下:
[0018]①利用公式d(xi,xj)= |xi_xj |求出一維數(shù)據(jù)集X任意兩點(diǎn)Xi和Xj之間的距離,并組 成距離矩陣distarraynxn;
[0020]
得到所有數(shù)據(jù)點(diǎn)的密度 集,其中f是一個(gè)函數(shù),當(dāng)distarray(i,j)Cmeanradium時(shí),f = 1,否則f = 0;
[0021] ④最后計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的簇內(nèi)
[0022] ⑤求密度集合density中的最大值相對(duì)應(yīng)的序號(hào),如果這樣的值唯一,則取其相對(duì) 應(yīng)的數(shù)據(jù)點(diǎn)為一個(gè)聚類中心c,如果這樣的值不唯一,貝以dens_distaver中最小值為基準(zhǔn), 取最小值的對(duì)應(yīng)的那個(gè)數(shù)據(jù)點(diǎn)為一個(gè)聚類中心c,并將此初始聚類中心c放入集合C中; [0023] ⑥在距離矩陣中去掉那些和聚類中心c相關(guān)的且小于meanradium的值,得到新的 距離矩陣,并根據(jù)新的距離矩陣生成新的平均半徑meanradium、密度集density和簇內(nèi)樣本 相似度集 dens_distaver;
[0024] ⑦重復(fù)步驟⑤-⑥,直到集合C中的數(shù)據(jù)不再發(fā)生變化,則得到k個(gè)初始聚類中心, 其中k為集合c中數(shù)據(jù)點(diǎn)的個(gè)數(shù)。
[0025] 計(jì)算兩個(gè)維度間所有類的對(duì)應(yīng)概率和作為兩個(gè)維度相關(guān)性判斷的標(biāo)準(zhǔn),進(jìn)行維度 間的相關(guān)性分析的步驟可以如下:
[0026] a根據(jù)上式對(duì)應(yīng)概率的定義求出維度cU的第一個(gè)類和維度山的所有類的對(duì)應(yīng)概率, 并選擇其中最大的那個(gè)概率Pmi放入集合P中;
[0027] b求出維度cU的第二個(gè)類和維度山的所有類的對(duì)應(yīng)概率,并選擇其中最大的那個(gè)概 率Pm2放入集合P中;
[0028] c以此類推,直至求出維度cU的第η個(gè)類和維度山的所有類的對(duì)應(yīng)概率,并選擇其中 最大的那個(gè)概率Pmn放入集合Ρ中;
[0029] d計(jì)算集合P中的概率值的和sum(P),即為高維數(shù)據(jù)集D的維度di和維度dj的相關(guān) 性。
[0030] 本發(fā)明的維度相關(guān)性的分析方法是基于聚類的,通過(guò)分析類與類之間的對(duì)應(yīng)關(guān)系 來(lái)判斷其所屬維度的相關(guān)性,比起直接計(jì)算數(shù)據(jù)點(diǎn)之間的對(duì)應(yīng)關(guān)系要簡(jiǎn)便很多,很大程度 上減少了計(jì)算量,而且最終的相關(guān)性用數(shù)值來(lái)表示,可以很直觀的看出兩個(gè)維度的相關(guān)性 大小。然后基于相關(guān)性將維度重新排序,排序后的維度序列加上維度聚類的效果,更加清晰 的展示了相鄰維度間的相關(guān)性,在一定程度上可以幫助用戶發(fā)現(xiàn)其中隱藏的一些數(shù)據(jù)結(jié) 構(gòu)。
【附圖說(shuō)明】
[0031] 圖1為總的流程圖;
[0032]圖2(a)為正相關(guān)示例圖;
[0033]圖2(b)為負(fù)相關(guān)不例圖;
[0034]圖3為所有維度的每一類數(shù)據(jù)的均值和標(biāo)準(zhǔn)差組成的散點(diǎn)圖,且屬于同一維度的 類用曲線連接;
[0035]圖4為類和類的對(duì)應(yīng)概率條形圖;
[0036]圖5為維度相關(guān)性示例圖;
[0037]圖5(a)為汽車(chē)數(shù)據(jù)集(Car Data Set)中屬性"power"的類1和其它屬性的類之間 的對(duì)應(yīng)概率;
[0038]圖5(b)為汽車(chē)數(shù)據(jù)集(Car Data Set)中屬性"power"的類2和其它屬性的類之間 的對(duì)應(yīng)概率;
[0039]圖5(c)為汽車(chē)數(shù)據(jù)集(Car Data Set)中屬性"power"的類3和其它屬性的類之間 的對(duì)應(yīng)概率;
[0040]圖6 (a)屬性" power"和屬性"weight"組成的散點(diǎn)圖;
[0041 ] 圖6(b)屬性" power"和屬性"economy"組成的散點(diǎn)圖;
[0042]圖7(a)為汽車(chē)數(shù)據(jù)集(Car Data Set)排序前的維度序列圖;
[0043]圖7(b)為汽車(chē)數(shù)據(jù)集(Car Data Set)排序后的維度序列圖。
【具體實(shí)施方式】
[0044] 本發(fā)明是一種基于維度相關(guān)性分析的高維可視化方法,提出一種基于維度聚類的 維度相關(guān)性計(jì)算方法,可以直接用數(shù)值來(lái)表示維度間的相關(guān)性,然后利用維度間的相關(guān)性 將維度重新排序,使得相鄰之間的維度具有較強(qiáng)的相關(guān)性,有利于我們分析高維數(shù)據(jù)。
[0045] 圖1為總的流程圖,具體包括以下步驟:
[0046] 1.維度聚類
[0047]利用聚類將每一維度數(shù)據(jù)分成幾個(gè)小類,我們希望聚類算法可以自動(dòng)識(shí)別聚類數(shù) 目,且每一類之內(nèi)數(shù)據(jù)相似度較大,因此我們選取一種改進(jìn)的K-means算法,它優(yōu)化了初始 聚類中心,且可以自動(dòng)給出聚類數(shù)目。這里會(huì)用到幾個(gè)公式:
[0048] 定義一維數(shù)據(jù)集父={>1,幻,幻,...,&},
[0049] 任意兩點(diǎn)之間的距離為:
[0050] d(xi,xj)= IXi~Xj (1)
[0051] 其中均為數(shù)據(jù)集X中任意兩點(diǎn),i和j的取值為1~n,n代表數(shù)據(jù)集X中數(shù)據(jù)點(diǎn) 的個(gè)數(shù);
[0052] 得到距離矩陣:
[0054]數(shù)據(jù)集間的平均半徑:
[0056]其中,distarray(i, j)代表數(shù)據(jù)點(diǎn)Xi和Xj之間的距離;
[0057]數(shù)據(jù)點(diǎn)Xi的密度值:
[0059] 其中,f是一個(gè)函數(shù),當(dāng)distarray(i,j) <meanradium時(shí),f = 1,否貝!Jf = 0;
[0060] 數(shù)據(jù)點(diǎn)Xi的簇內(nèi)相似度:
[0062]基于以上公式,對(duì)于高維數(shù)據(jù)集的每一維度,此處設(shè)為d,進(jìn)行如下步驟的聚類操 作:
[0063] a根據(jù)式(1)和式(2)計(jì)算維度數(shù)據(jù)集d的距離矩陣distarraynXn,根據(jù)式(3)得到其 平均半徑meanradium;
[0064] b根據(jù)式(4)統(tǒng)計(jì)距離矩陣的每一行中小于meanrad ium的值,得到數(shù)據(jù)點(diǎn)的密度集 合density;
[0065] c根據(jù)式(5)生成簇內(nèi)樣本相似度集dens_distaver;
[0066] d求密度集合density中的最大值相對(duì)應(yīng)的序號(hào),如果這樣的值唯一,則取其相對(duì) 應(yīng)的數(shù)據(jù)點(diǎn)為一個(gè)聚類中心c,如果這樣的值不唯一,貝以dens_distaver中最小值為基準(zhǔn), 取最小值的對(duì)應(yīng)的那個(gè)數(shù)據(jù)點(diǎn)為一個(gè)聚類中心c,并將此初始聚類中心c放入集合C中; [0067] e在距離矩陣中去掉那些和聚類中心c相關(guān)的且小于meanradium的值,得到新的距 離矩陣,并根據(jù)新的距離矩陣生成新的平均半徑meanradium、密度集density和簇內(nèi)樣本相 似度集 dens_distaver;
[0068] f重復(fù)步驟d-e,直到集合C中的數(shù)據(jù)不再發(fā)生變化,則得到k個(gè)初始聚類中心,其中 k為集合c中數(shù)據(jù)點(diǎn)的個(gè)數(shù);
[0069] g得到k個(gè)初始聚類中心之后,再用K-means算法對(duì)數(shù)據(jù)集d進(jìn)行聚類,最終得到維 度d的k個(gè)類;
[0070] 2.維度相關(guān)性分析
[0071]維度間的相關(guān)性主要分為正相關(guān)和負(fù)相關(guān)兩種,其中正相關(guān)是指維度間的數(shù)據(jù)一 一對(duì)應(yīng)(如圖2(a)所示),而負(fù)相關(guān)是指維度間的數(shù)據(jù)交叉對(duì)應(yīng)(如圖2(b)所示)。在兩個(gè)維 度之間,若對(duì)應(yīng)的數(shù)據(jù)點(diǎn)數(shù)越多則說(shuō)明其相關(guān)性較強(qiáng),否則相關(guān)性較弱,甚至沒(méi)有相關(guān)性。 直接統(tǒng)計(jì)兩個(gè)維度間數(shù)據(jù)點(diǎn)的對(duì)應(yīng)程度是不太容易的,而且對(duì)于數(shù)據(jù)量巨大的高維數(shù)據(jù), 計(jì)算起來(lái)是很耗費(fèi)時(shí)間的。于是這里我們通過(guò)上述聚類算法將每一個(gè)維度的數(shù)據(jù)聚成幾個(gè) 小類,我們來(lái)計(jì)算維度間類和類的對(duì)應(yīng)概率來(lái)判斷兩個(gè)維度成正相關(guān)還是負(fù)相關(guān),若是兩 個(gè)類之間--對(duì)應(yīng)得概率較大,則其成正相關(guān),反之,若是其交叉對(duì)應(yīng)概率較大,則其成負(fù) 相關(guān),然后統(tǒng)計(jì)兩個(gè)維度所有類的對(duì)應(yīng)概率和作為判斷兩個(gè)維度相關(guān)性的標(biāo)準(zhǔn)。具體計(jì)算 步驟如下:
[0072] (1)計(jì)算類之間的對(duì)應(yīng)概率
[0073]對(duì)于高維數(shù)據(jù)集0={(11,(12,(13,...,(1111}的任意兩個(gè)維度(^和(1」,設(shè)維度(^被聚成11 類,維度山被聚成m類,計(jì)算類之間的對(duì)應(yīng)概率,令cU,P為維度cU的p類,山,q為維度山的q類,統(tǒng) 計(jì)落在cU, P中的數(shù)據(jù)個(gè)數(shù)num(i,P)和落在dj,q中的數(shù)據(jù)個(gè)數(shù)numaq),然后統(tǒng)計(jì)共同落在這兩 個(gè)類中的數(shù)據(jù)個(gè)數(shù)num,得到這兩個(gè)類ckdPcUq的對(duì)應(yīng)概率定義為:
[0075]為了便于后續(xù)操作和直觀的統(tǒng)計(jì)每一維度的每一類所包含的數(shù)據(jù)點(diǎn)個(gè)數(shù),我們將 每一類數(shù)據(jù)用一個(gè)點(diǎn)來(lái)表示,這里我們?nèi)∑渚岛蜆?biāo)準(zhǔn)差并用散點(diǎn)圖顯示,用標(biāo)簽顯示每 一類所包含的數(shù)據(jù)點(diǎn)個(gè)數(shù)(如圖3所示)。類和類之間的對(duì)應(yīng)概率我們用條形圖來(lái)表示,這樣 我們便可以直觀的看出其相關(guān)性大小以及正負(fù)相關(guān)性。如圖4所示,點(diǎn)擊屬性 "displacement"的類1,得到其它屬性的所有類與之對(duì)應(yīng)的概率,其中屬性"cylinders"的 類1與其性關(guān)性最大。
[0076] (2)計(jì)算維度間的相關(guān)性
[0077] 計(jì)算兩個(gè)維度間所有類的對(duì)應(yīng)概率和作為兩個(gè)維度相關(guān)性判斷的標(biāo)準(zhǔn),步驟如 下:
[0078] a利用式(6)求出維度cU的第一個(gè)類和維度山的所有類的對(duì)應(yīng)概率,并選擇其中最 大的那個(gè)概率Pml放入集合P中;
[0079] b求出維度cU的第二個(gè)類和維度山的所有類的對(duì)應(yīng)概率,并選擇其中最大的那個(gè)概 率Pm2放入集合P中;
[0080] C以此類推,直至求出維度di的第η個(gè)類和維度dj的所有類的對(duì)應(yīng)概率,并選擇其中 最大的那個(gè)概率Pmn放入集合P中;
[0081 ] d計(jì)算集合P中的概率值的和sum(P),即為維度di和維度dj的相關(guān)性。
[0082] (3)除此之外,我們還可以使用散點(diǎn)圖(scatterplot)來(lái)作為相關(guān)性分析的輔助方 法,因?yàn)樯Ⅻc(diǎn)圖是展現(xiàn)任意兩個(gè)維度相關(guān)性最好的可視化方法,通過(guò)它我們可以直觀的看 出兩個(gè)維度是呈正相關(guān)或是呈負(fù)相關(guān),還是沒(méi)有相關(guān)性。如圖6(a)所示,我們可以清楚看出 屬性"ρ 〇w e r"和屬性"w e i gh t"呈正相關(guān),而從圖6 (b)我們可以看出,屬性"ρ 〇w e r"和屬性 "economy"呈負(fù)相關(guān)
[0083] 實(shí)例1:汽車(chē)數(shù)據(jù)集(Car Data Set)是高維數(shù)據(jù)分析中經(jīng)常用的一個(gè)數(shù)據(jù)集,它包 含7個(gè)屬性和406條數(shù)據(jù),這里我們用它作為一個(gè)實(shí)例來(lái)分析,在這個(gè)數(shù)據(jù)集中,維度間存在 著比較清晰的相關(guān)性,且有的呈正相關(guān),有的呈負(fù)相關(guān)。如圖5所示,屬性"cylinders"和 "111卩11"被聚成了2類,屬性"(118。13〇611161^"、"。0¥61'"、\6181^"和"6(30110111/'被聚成了3類,屬 性"year"被聚成了4類,我們給出了屬性"power"的三個(gè)類和其它屬性的所有類的對(duì)應(yīng)概率 條形圖,其中圖5(a)中展示的是"power"的類1和其它屬性的類的對(duì)應(yīng)概率,根據(jù)表3的算 法,我們選取屬性間對(duì)應(yīng)概率大的類,p(p〇werl,weight 1) =0.58,
[0084] p( power 1, cylindersl) = 0.54 ?p (power 1 ,displacementl) = 0.51 ?
[0085] p( power 1, economy 3) = 0.46 ?p (power 1 ,mph2) = 0.36 ?p (power 1 ,year3) = 0.12;
[0086] 圖5(b)中展示的是"power"的類2和其它屬性的類的對(duì)應(yīng)概率,根據(jù)表3的算法,我 們選取屬性間對(duì)應(yīng)概率大的類,P(P〇wer2,weight2) =0.46,
[0087] p(power2,cylinders2)=0.23,p(power2,displacement2)=0.36,
[0088] p(power2, economy 2) = 0.34?p(power2 ,mphl )=0.27 ?p(power2 ,year2) = 0.15;
[0089] 圖5(c)中展示的是"power"的類3和其它屬性的類的對(duì)應(yīng)概率,根據(jù)表3的算法,我 們選取屬性間對(duì)應(yīng)概率大的類,P(P〇wer3,weight3) =0.72,
[0090] p(power3,cylinders2)=0.50?p(power3,displacements)=0.87 ?
[0091] p( power3, economy 1) =0.54 ?p( power3 ,mphl )=0.38 ?p(power3,yearl )=0.29; [0092] 我們從這些類的對(duì)應(yīng)概率可以看出,屬性"p 〇 w e r "和屬性"w e i g h t "、 "displacement"的類之間是一一對(duì)應(yīng)的,且對(duì)應(yīng)概率較大,因此我們可以猜測(cè)它們呈正相 關(guān),且具有較強(qiáng)的相關(guān)性,而屬性"power"和屬性"economy"的類之間是交叉對(duì)應(yīng)的,但對(duì)應(yīng) 概率沒(méi)有太大,因此我們猜測(cè)屬性"power"和屬性"economy"呈負(fù)相關(guān),且相關(guān)性較弱。屬性 "power"和其它的幾個(gè)屬性的類之間的對(duì)應(yīng)沒(méi)有太明顯的規(guī)律,且對(duì)應(yīng)概率較小,因此我們 猜測(cè)它們相關(guān)性很弱,幾乎沒(méi)有相關(guān)性。下面我們具體計(jì)算它們的相關(guān)性:
[0093] corr(power, weight)=p(power1, weight1)+p(power2,weight2)+p(power3, we ight3)= 0.58+0.46+0.72 = 1.76
[0094] corr(power,cylinders)=p(power1,cylindersl)+p(power2,cylinders2)+p (power3, cylinders2) =0.54+0.23+0.50 = 1.27
[0095] corr(power,displace me nt)=p(powerl,displace me ntl)+p(power2, displacement2)+p(power3, displacements)=0.51+0.36+0.87 = 1.74
[0096] corr(power, economy)=p(power1,economy3)+p(power2,economy2)+p(power3, economyl) =0.46+0.34+0.54 = 1.34
[0097] corr(power ,mph) =p(power 1 ,mph2)+p(power2 ,mphl )+p(power3 ,mphl )=0.36+ 0.27+0.38 = 1.01
[0098] corr(power, year)=p(power1,year3)+p(power2,year2)+p(power3,yearl)= 0.12+0.15+0.29 = 0.56
[0099] 從上述計(jì)算結(jié)果我們可以看出,屬性"power"和屬性"weight"、"displacement"具 有很強(qiáng)的相關(guān)性,而與屬性"mph"、"year"相關(guān)性很弱,幾乎沒(méi)有相關(guān)性,與屬性"economy"、 "cy 1 inders"有著較弱的相關(guān)性。
[0100] 3.維度排序
[0101] 在維度相關(guān)性分析的基礎(chǔ)上,我們將維度按照相關(guān)性大小進(jìn)行排序,使得相鄰之 間的維度有較強(qiáng)的相關(guān)性。我們首先需要選擇一個(gè)維度放在序列的第一個(gè)位置,然后找與 其最相關(guān)的維度放在其后,以此類推,直到所有的維度排列完成。
[0102] 實(shí)例2:我們選取高維數(shù)據(jù)分析中常用的一個(gè)數(shù)據(jù)集一一汽車(chē)數(shù)據(jù)集(Car Data Set)作為我們的一個(gè)分析實(shí)例,在這個(gè)數(shù)據(jù)集中有7個(gè)維度和406條數(shù)據(jù),且維度間有著較 明顯的相關(guān)關(guān)系。圖7(a)顯示了排序之前的維度序列,圖7(b)為按照相關(guān)性排序之后的維 度序列圖,這里我們選擇屬性"displacement"作為核心維度放在第一個(gè)位置,然后依次排 序。從圖7(b)中我們可以看出,屬性"displacement"、"weight"和"power"之間的相關(guān)性較 強(qiáng),且呈正相關(guān)。而屬性"mph"、"cylinders"和"year"之間的相關(guān)性很弱,而且類的對(duì)應(yīng)關(guān) 系比較混亂,因此這三個(gè)屬性之間幾乎不存在相關(guān)性。屬性"power"、"economy"和 "cylinders"之間存在著較弱的負(fù)相關(guān)性。對(duì)比圖7(a)和圖7(b),我們可以看到排序后的序 列圖比較清楚的展現(xiàn)了維度間的相關(guān)關(guān)系,而且其強(qiáng)弱性可以從具體數(shù)據(jù)值來(lái)直觀的判 斷,除此之外,從整個(gè)排序后的序列圖中我們還可以看到數(shù)據(jù)的一個(gè)明顯的趨勢(shì)。
【主權(quán)項(xiàng)】
1. 一種基于維度相關(guān)性分析的高維數(shù)據(jù)維度排序方法,包括下列步驟: (1) 進(jìn)行維度聚類 使用K-means算法對(duì)高維數(shù)據(jù)集D= {di,d2,d3, . . .,dm}的每一維度分別聚類; (2) 維度相關(guān)性分析 根據(jù)上述的聚類結(jié)果,計(jì)算維度間類和類的對(duì)應(yīng)概率來(lái)判斷兩個(gè)維度成強(qiáng)相關(guān)還是弱 相關(guān),若是兩個(gè)類之間對(duì)應(yīng)概率較大,則成強(qiáng)相關(guān),反之則成弱相關(guān),然后統(tǒng)計(jì)兩個(gè)維度所 有類的對(duì)應(yīng)概率和作為判斷兩個(gè)維度相關(guān)性的標(biāo)準(zhǔn),步驟如下: ① 計(jì)算類之間的對(duì)應(yīng)概率 對(duì)于高維數(shù)據(jù)集D= {cU,d2,d3,. . .,dm}的任意兩個(gè)維度cU和山,設(shè)維度cU被聚成η類,維 度山被聚成m類,計(jì)算類之間的對(duì)應(yīng)概率,令cU,P為維度cU的ρ類,diq為維度山的q類,統(tǒng)計(jì)落 在cU, P中的數(shù)據(jù)個(gè)數(shù)num(i,P)和落在dj,q中的數(shù)據(jù)個(gè)數(shù)numaq),然后統(tǒng)計(jì)共同落在這兩個(gè)類 中的數(shù)據(jù)個(gè)數(shù)num,得到這兩個(gè)類ckdPcUq的對(duì)應(yīng)概率定義為: ② 維度間的相關(guān)性分析計(jì)算兩個(gè)維度間所有類的對(duì)應(yīng)概率和作為兩個(gè)維度相關(guān)性判斷的標(biāo)準(zhǔn),進(jìn)行維度間的 相關(guān)性分析; (3) 維度排序 在維度相關(guān)性分析的基礎(chǔ)上,將維度按照相關(guān)性大小進(jìn)行排序,使得相鄰之間的維度 有較強(qiáng)的相關(guān)性,方法為:首先選擇一個(gè)維度放在序列的第一個(gè)位置,然后找與其最相關(guān)的 維度放在其后,以此類推,直到所有的維度排列完成。2. 根據(jù)權(quán)利要求1所述的排序方法,其特征在于,步驟(1)中, 使用改進(jìn)了初始聚類中心選取方法的K-means算法對(duì)高維數(shù)據(jù)集D= {di,d2,d3, ...,dm} 的每一維度分別聚類,對(duì)于每一維數(shù)據(jù)集,設(shè)為X={X1,X2,X3, . . .,Xn},其初始聚類中心選 取步驟如下: ① 利用公式(1(~^)=41-幻|求出一維數(shù)據(jù)集)(任意兩點(diǎn)&和幻之間的距離,并組成距 離矩陣 distarraynxn; ② 利用公¥:出一維數(shù)據(jù)集X的平均半徑; ③ 利用公式-得到所有數(shù)據(jù)點(diǎn)的密度集,其 中f是一個(gè)函數(shù),當(dāng)distarray(i,j) <meanradium時(shí),f = 1,否則f = 0; ④ 最后計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的簇內(nèi)相似度(⑤ 求密度集合density中的最大值相對(duì)應(yīng)的序號(hào),如果這樣的值唯一,則取其相對(duì)應(yīng)的 數(shù)據(jù)點(diǎn)為一個(gè)聚類中心c,如果這樣的值不唯一,貝以dens_distaver中最小值為基準(zhǔn),取最 小值的對(duì)應(yīng)的那個(gè)數(shù)據(jù)點(diǎn)為一個(gè)聚類中心C,并將此初始聚類中心c放入集合C中; ⑥ 在距離矩陣中去掉那些和聚類中心c相關(guān)的且小于meanradium的值,得到新的距離 矩陣,并根據(jù)新的距離矩陣生成新的平均半徑meanradium、密度集density和簇內(nèi)樣本相似 度集 dens_distaver; ⑦ 重復(fù)步驟⑤-⑥,直到集合C中的數(shù)據(jù)不再發(fā)生變化,則得到k個(gè)初始聚類中心,其中k 為集合c中數(shù)據(jù)點(diǎn)的個(gè)數(shù)。3.根據(jù)權(quán)利要求1所述的排序方法,其特征在于,計(jì)算兩個(gè)維度間所有類的對(duì)應(yīng)概率和 作為兩個(gè)維度相關(guān)性判斷的標(biāo)準(zhǔn),進(jìn)行維度間的相關(guān)性分析的步驟如下: a根據(jù)上式對(duì)應(yīng)概率的定義求出維度cU的第一個(gè)類和維度山的所有類的對(duì)應(yīng)概率,并選 擇其中最大的那個(gè)概率Pml放入集合P中; b求出維度di的第二個(gè)類和維度dj的所有類的對(duì)應(yīng)概率,并選擇其中最大的那個(gè)概率pm2 放入集合P中; C以此類推,直至求出維度di的第η個(gè)類和維度dj的所有類的對(duì)應(yīng)概率,并選擇其中最大 的那個(gè)概率Pmn放入集合P中; d計(jì)算集合P中的概率值的和sum(P),即為高維數(shù)據(jù)集D的維度di和維度dj的相關(guān)性。
【文檔編號(hào)】G06F17/30GK105868352SQ201610185969
【公開(kāi)日】2016年8月17日
【申請(qǐng)日】2016年3月29日
【發(fā)明人】劉騰, 張怡, 李克非
【申請(qǐng)人】天津大學(xué)