基于空間最短距離平均的密度自適應無監督聚類方法
【專利摘要】本發明公開一種基于空間最短距離平均的密度自適應無監督聚類方法,步驟如下:計算空間中任意兩點間最短距離平均,生成距離矩陣;根據距離密度和矩陣用遞歸擴散的方法尋找高密聚類區;根據最短距離平均倍數系數步長調整距離密度范圍;根據設定的最小聚類數和最大聚類數穩定寬度判斷聚類過程是否結束;根據在不同密度范圍下得到的聚類數,按照聚類密度變化的次序對聚類數繪制曲線;根據聚類數變化曲線中的聚類數穩定窗口識別主要聚類和離群點;根據聚類數變化曲線中聚類數穩定區域出現的先后次序繪制聚類層次樹圖;根據聚類層次樹圖差分計算出不同層次的聚類,得到最終的聚類及離群點。
【專利說明】基于空間最短距離平均的密度自適應無監督聚類方法
【技術領域】
[0001]本發明涉及數據挖掘【技術領域】,具體涉及一種適應性廣泛、能自主識別聚類的基于空間最短距離平均的密度自適應無監督聚類方法。
【背景技術】
[0002]隨著計算機和通信技術的發展及其應用的普及,每時每刻都在產生大量的數據,對大數據進行處理、挖掘并發現有用的信息是一個重要的課題。從人類認知客觀事物并獲得有效信息的角度,聚類是一種非常有效的學習和認知手段,同樣對數據進行聚類挖掘也是計算機獲得有效認知的一種重要手段。目前已經存在的一些聚類技術,往往缺乏足夠的可適應性,對形狀、密度等聚類特征有特定的要求,同時對聚類存在的自主發現也存在著一定的困難,往往需要輔助的指標判斷或用人工干預的辦法進行不斷的嘗試。
【發明內容】
[0003]本發明是為了解決現有技術所存在的上述技術問題,提供一種適應性廣泛、能自主識別聚類的基于空間最短距離平均的密度自適應無監督聚類方法。
[0004]本發明的技術解決方案是:一種基于空間最短距離平均的密度自適應無監督聚類方法,其特征在于按照如下步驟進行:
a.計算空間中任意兩點間最短距離平均,同時生成距離矩陣;
b.根據距離密度和距離矩陣采用遞歸擴散的方法尋找高密聚類區;
c.根據最短距離平均倍數系數步長調整距`離密度范圍,適應不同密度聚類區;
d.根據設定的最小聚類數和最大聚類數穩定寬度判斷聚類過程是否結束;
e.根據在不同密度范圍下得到的聚類數,按照聚類密度變化的次序對聚類數繪制曲
線.f.根據聚類數變化曲線中的聚類數穩定窗口識別主要聚類和離群點;
g.根據聚類數變化曲線中聚類數穩定區域出現的先后次序繪制聚類層次樹圖;
h.根據聚類層次樹圖差分計算出不同層次的聚類,得到最終的聚類及離群點。
所述a步驟如下:
對空間中的每一點尋找到其他點的最短距離,將尋找過程中計算得到的距離記入距離矩陣,最后根據所有點的最短距離求平均值得到最短距離平均
_ ;最短距離平均-定義如下:
【權利要求】
1.一種基于空間最短距離平均的密度自適應無監督聚類方法,其特征在于按照如下步驟進行: a.計算空間中任意兩點間最短距離平均,同時生成距離矩陣; b.根據距離密度和距離矩陣采用遞歸擴散的方法尋找高密聚類區; c.根據最短距離平均倍數系數步長調整距離密度范圍,適應不同密度聚類區; d.根據設定的最小聚類數和最大聚類數穩定寬度判斷聚類過程是否結束; e.根據在不同密度范圍下得到的聚類數,按照聚類密度變化的次序對聚類數繪制曲線.f.根據聚類數變化曲線中的聚類數穩定窗口識別主要聚類和離群點; g.根據聚類數變化曲線中聚類數穩定區域出現的先后次序繪制聚類層次樹圖; h.根據聚類層次樹圖差分計算出不同層次的聚類,得到最終的聚類及離群點。
2.根據權利要求1所述基于空間最短距離平均的密度自適應無監督聚類方法,其特征在于所述a步驟如下: 對空間中的每一點尋找到其他點的最短距離,將尋找過程中計算得到的距離記入距離矩陣,最后根據所有點的最短距離求平均值得到最短距離平均5 ;最短距離平均(?定義如下:
3.根據權利要求2所述基于空間最短距離平均的密度自適應無監督聚類方法,其特征在于所述b步驟如下:從空間中任意點開始,通過比對基于最短距離平均的密度范圍和兩點間的距離遞歸尋找與自己鄰近的高密點,跳過已標記聚類的點和低密點。
4.根據權利要求3所述基于空間最短距離平均的密度自適應無監督聚類方法,其特征在于所述c步驟如下:根據設定的步長對最短距離平均的倍數系數進行調整,逐步擴大點間聚類的距離范圍,用來適應同一聚類內部密度不均勻的情況,同時保證不同聚類間的區別,聚類密度G定義為:
5.根據權利要求4所述基于空間最短距離平均的密度自適應無監督聚類方法,其特征在于所述d步驟如下:設定最小分類個數作為聚類過程的結束條件,或者把聚類過程中聚類個數相對穩定的次數稱為聚類穩定窗口,當聚類穩定窗口寬度大于所設定的最大聚類穩定窗口寬度時聚類過程結束,其中最小分類個數定義為Cmin,聚類穩定窗口最大寬度定義/V max ο
【文檔編號】G06F19/00GK103761419SQ201310735562
【公開日】2014年4月30日 申請日期:2013年12月28日 優先權日:2013年12月28日
【發明者】張大為, 項明 申請人:遼寧師范大學