數(shù)據(jù)挖掘中基于密度的k中心點(diǎn)劃分聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種聚類方法,尤其是一種數(shù)據(jù)挖掘中基于密度的K中心點(diǎn)劃分聚類 方法,屬于聚類分析的技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 數(shù)據(jù)挖掘是當(dāng)今計算機(jī)研宄的熱題之一,聚類分析作為一種無監(jiān)督的機(jī)器學(xué)習(xí)方 法,是指對于一個數(shù)據(jù)對象集合,研宄如何自動把數(shù)據(jù)對象劃分到不同的簇中,讓相同簇內(nèi) 的對象在某種衡量標(biāo)準(zhǔn)下具有較高的相似性,而不同簇中的數(shù)據(jù)對象具有低的相似性。聚 類分析被廣泛的應(yīng)用在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、語音識別、圖像分割、商業(yè)分析和生物信息處 理等前沿領(lǐng)域。目前,傳統(tǒng)的聚類算法主要包括五類,他們分別是:基于劃分的聚類算法、基 于層次的聚類算法、基于密度的聚類算法、基于網(wǎng)格的聚類算法和基于模型的聚類算法。
[0003] 在聚類算法當(dāng)中,K均值算法屬于基于劃分的聚類算法,它簡潔而快速,以高效而 著稱。但原始的K均值算法存在一些缺陷:1)、原始算法要求使用者給出K值,即類簇的個 數(shù),這個值主要由經(jīng)驗(yàn)得來,所以確定K值的難度較大;2)、算法對初始聚類中心敏感,初始 中心選擇的優(yōu)劣,會影響聚類結(jié)果,影響算法運(yùn)行的效率;3)、該算法對異常數(shù)據(jù)較為敏感, 會導(dǎo)致結(jié)果陷入局部最優(yōu)解。
[0004] 目前,一些學(xué)者已對初始中心點(diǎn)問題做出了些改進(jìn),如為防止結(jié)果陷入局部最優(yōu), 通常是選擇距離較遠(yuǎn)的比較分散的點(diǎn)作為初始中心點(diǎn)。但若僅僅考慮距離因素,則容易選 到異常點(diǎn),進(jìn)而影響到聚類效果。學(xué)者也都考慮到這些問題,進(jìn)而從密度的角度出發(fā),來過 濾掉異常點(diǎn)。還有一個問題是初始中心點(diǎn)有可能會被選成同一個類簇中的點(diǎn),即盡管某個 點(diǎn)的密度比較大,但是該點(diǎn)對應(yīng)的類簇中已經(jīng)有點(diǎn)被選做中心點(diǎn)了,此時應(yīng)該選擇其它類 中的有代表性的點(diǎn),否則,也會導(dǎo)致結(jié)果容易陷入局部最優(yōu)解。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是克服現(xiàn)有技術(shù)中存在的不足,提供一種數(shù)據(jù)挖掘中基于密度的K 中心點(diǎn)劃分聚類方法,其能夠選出高質(zhì)量的中心點(diǎn),然后將數(shù)據(jù)對象聚類,而不需要像K均 值算法中的后續(xù)迭代更新步驟,其降低計算復(fù)雜度,提高分類的準(zhǔn)確率,穩(wěn)定性高,提高運(yùn) 算效率。
[0006] 按照本發(fā)明提供的技術(shù)方案,一種數(shù)據(jù)挖掘中基于密度的K中心點(diǎn)劃分聚類方 法,所述聚類方法包括如下步驟:
[0007] 步驟1、給定所需的數(shù)據(jù)集,并確定聚類個數(shù)K;
[0008] 步驟2、計算數(shù)據(jù)集內(nèi)所有數(shù)據(jù)對象的密度,并根據(jù)得到數(shù)據(jù)對象的密度計算數(shù)據(jù) 集的平均密度;
[0009] 步驟3、計算數(shù)據(jù)集內(nèi)每個數(shù)據(jù)對象的最小密度距離值;
[0010] 步驟4、對數(shù)據(jù)集內(nèi)數(shù)據(jù)對象的最小密度距離值進(jìn)行降序排序,根據(jù)確定的聚類個 數(shù)K,從大到小選擇K個與最小密度距離值對應(yīng)并且密度大于平均密度的數(shù)據(jù)對象作為聚 類中心;
[0011] 步驟5、根據(jù)上述獲得的聚類中心,將數(shù)據(jù)集內(nèi)的數(shù)據(jù)對象分配到與所述數(shù)據(jù)對象 距離最近的初始聚類中心,得到聚類結(jié)果。
[0012] 對于數(shù)據(jù)集X=IxiIi= 1,2,…,n},數(shù)據(jù)對象具有m維特征,則數(shù)據(jù)對象的密度 為
【主權(quán)項】
1. 一種數(shù)據(jù)挖掘中基于密度的K中心點(diǎn)劃分聚類方法,其特征是,所述聚類方法包括 如下步驟: 步驟1、給定所需的數(shù)據(jù)集,并確定聚類個數(shù)K; 步驟2、計算數(shù)據(jù)集內(nèi)所有數(shù)據(jù)對象的密度,并根據(jù)得到數(shù)據(jù)對象的密度計算數(shù)據(jù)集的 平均密度; 步驟3、計算數(shù)據(jù)集內(nèi)每個數(shù)據(jù)對象的最小密度距離值; 步驟4、對數(shù)據(jù)集內(nèi)數(shù)據(jù)對象的最小密度距離值進(jìn)行降序排序,根據(jù)確定的聚類個數(shù) K,從大到小選擇K個與最小密度距離值對應(yīng)并且密度大于平均密度的數(shù)據(jù)對象作為聚類 中心; 步驟5、根據(jù)上述獲得的聚類中心,將數(shù)據(jù)集內(nèi)的數(shù)據(jù)對象分配到與所述數(shù)據(jù)對象距離 最近的初始聚類中心,得到聚類結(jié)果。
2. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)挖掘中基于密度的K中心點(diǎn)劃分聚類方法,其特征是: 對于數(shù)據(jù)集X = Ixi I i = 1,2,…,η},數(shù)據(jù)對象具有m維特征,則數(shù)據(jù)對象的密度為
其中,d(Xi,xp為數(shù)據(jù)對象Xi與數(shù)據(jù)對象^之間的歐式距離,
,i = 1,2,…,η ; j = 1,2,…,n ;R為數(shù)據(jù)對象Xi的鄰域半徑。
【專利摘要】本發(fā)明涉及一種數(shù)據(jù)挖掘中基于密度的K中心點(diǎn)劃分聚類方法,其包括如下步驟:步驟1、給定所需的數(shù)據(jù)集,并確定聚類個數(shù)K;步驟2、計算數(shù)據(jù)對象的密度及平均密度;步驟3、計算數(shù)據(jù)集內(nèi)每個數(shù)據(jù)對象的最小密度距離值;步驟4、對數(shù)據(jù)集內(nèi)數(shù)據(jù)對象的最小密度距離值進(jìn)行降序排序,根據(jù)確定的聚類個數(shù)K,從大到小選擇K個與最小密度距離值對應(yīng)并且密度大于平均密度的數(shù)據(jù)對象作為聚類中心;步驟5、將數(shù)據(jù)集內(nèi)的數(shù)據(jù)對象分配到與所述數(shù)據(jù)對象距離最近的初始聚類中心,得到聚類結(jié)果。本發(fā)明能夠選出高質(zhì)量的中心點(diǎn),而不需要像K均值算法中的后續(xù)迭代更新步驟,其降低計算復(fù)雜度,提高分類的準(zhǔn)確率,穩(wěn)定性高,提高運(yùn)算效率。
【IPC分類】G06F17-30
【公開號】CN104765879
【申請?zhí)枴緾N201510208624
【發(fā)明人】袁啟龍, 史海波, 周曉鋒
【申請人】無錫中科泛在信息技術(shù)研發(fā)中心有限公司
【公開日】2015年7月8日
【申請日】2015年4月28日