R樹上溢結點分裂問題的增量式聚類優化求解方法
【技術領域】
[0001] 本發明提供一種R樹上溢結點分裂問題的增量式聚類優化求解方法,屬于產品逆 向工程技術領域。
【背景技術】
[0002] R樹能有效應用于解決逆向工程中大規模采樣數據的動態維護、鄰域查詢以及分 片曲面模型的幾何運算等核心問題,使得自由曲面重建及后續設計與制造過程的數據管理 機制保持一致,也是CAD/CAM、機器視覺、醫學圖像分析以及地理信息系統等領域中空間數 據庫研宄的重要基礎。
[0003] R樹是B+樹在多維空間的自然擴展,自Guttman于1984年提出后,逐漸衍生出眾 多變體。這些變體之間的主要區別是上溢結點分裂方法的不同,其中較具代表性的變體有 R*樹、Hilbert R樹以及CR樹。R*樹在R樹單一的結點優度評價指標的基礎上增加了結 點包圍盒的周長及重疊度等指標,并提出了結點強制重新插入技術,使得R樹結構的局部 與全局均能得到一定程度的優化。Hilbert R樹本質上是借助空間填充曲線,將R樹結點 的多維非線性排序問題轉化為類似B+樹的一維排序問題,可有效提高數據插入與上溢結 點分裂的效率,但容易導致檢索性能下降,又因其構建算法需預知數據所占據的整體空間, 從而失去了 R樹原有的動態數據維護方面的優勢。Beckmann等對其早先提出的R*樹進行 了改進,所提出的RR*樹可根據數據插入過程中結點包圍盒中心的偏移方向進行結點分裂 優化,使得數據插入與空間查詢效率優于R*樹與Hilbert R樹。但是與Hilbert R樹類 似,RR*樹的數據結構與R樹不相容,導致R樹的子樹選擇、結點刪除以及索引合并等算法 均需進行相應調整。與R樹其他變體顯著不同的是,THEODORIDIS等在學術期刊 in Databases and Information SystemsJ),2QQ2 發衰飽文韋" Revisiting r-tree COfl1Sirwciio/? 中提出的CR樹將R樹上溢結點分裂問題視為典型的聚類問題, 可利用^均值算法求解,從而將傳統的兩簇分裂轉變為多簇分裂,能夠使得數據插入效率 與R樹相仿,并獲得與R*樹近乎相同的性能。
[0004] 正如孫殿柱等在學術期刊《計算機輔助設計與圖形學學報》,2013b,25 (10)上發表 的文章"R-樹結點多目標遺傳分裂算法"中所述,雖然CR樹的工作表明了上溢結點的多簇 分裂是R樹改進研宄中一個很重要的方向,但是對于結點分裂簇數的確定問題,亦即左均值 算法中對I的確定問題,一直缺乏較好的解決方法。目前主要獲取在指定取值范圍內一組 遞增對I對應的免均值算法聚類結果,然后采用啟發式搜索策略從中選取最優解。由于這一 過程需要對同一組數據多次應用左均值算法,而左均值算法對隨機指派的初始分類中心的 優度較為敏感的缺陷極易干擾最優解的搜索過程,導致聚類結果不夠理想。孫殿柱等在學 術期刊《機械工程學報》,2013a,49 (13)上發表的文章"基于均值漂移的R*-樹結點分裂優 化算法"中應用均值漂移算法獲取概率密度較大的點集并將其作為左均值算法的初始分類 中心,可在一定程度上提高左均值算法的初始分類中心優度,但是均值漂移算法的Parzen 窗寬度值的確定本身也是一個難題,并且該算法的時間復雜度過高,不適于大規模數據的R 樹構建問題。
[0005] 綜上所述,目前R樹構建過程中存在上溢結點分裂結果不理想以及分裂過程時間 消耗大的技術問題,提出一種可優化分裂結果且降低分裂過程時間消耗的R樹上溢結點分 裂方法已成為本領域技術人員亟待解決的技術問題。
【發明內容】
[0006] 為解決上述技術問題,本發明所采用的技術方案是一種R樹上溢結點分裂問題的 增量式聚類優化求解方法,應用于求解由上溢結點的子結點包圍盒中心點集的聚類問題, 能以較小的計算代價自適應獲取近似全局最優的聚類結果,這種方法在R樹的構建效率、 存儲利用率以及空間查詢效率等方面的綜合性能優于現有技術。
[0007] 一種R樹上溢結點分裂問題的增量式聚類優化求解方法,其特征在于步驟依 次為:(1)設上溢結點為私龍為R樹結點所容許的子結點數上限值,將廟勺子結點集 {%}轉化為點集片(fti,,計算公式為:
【主權項】
1. 一種R樹上溢結點分裂問題的增量式聚類優化求解方法,其特征在于步驟依 次為:(1)設上溢結點為私龍為R樹結點所容許的子結點數上限值,將廟勺子結點集 CM轉化為點集片(#%},Μ0Λ-·,Μ+1},計算公式為: 其中B(i4表示的任一子結點e的包圍盒,3?!?表示包圍盒的中心點;(2)結合胡斤 在父結點的子結點數和斯直確定聚類過程中的分類個數的上限值系(3)初始化:循環次 數,最初的單一分類Cb P,初始聚類結果集合巧^枳?},分類歸屬記錄^e巧, 分類的中心分類中心集合其中表示計算點集的中心;(4)采用 主元分析導向的增量式k均值算法獲取點集應奸1次聚類結果F m ;(5)設5(1?)表示 第左次聚類結果的Silhouette指標值,若,跳轉至⑶,否則; (6) ifc4-ifc+l ;(7)重復(4)至(6),直至fc=iE: ;(8)根據步驟⑴中確定的子結點集產與廟勺 雙射關系以及^中記錄的中各點分類歸屬,對綱子結點進行劃分,將所得結果作為廟勺分 裂結果。
2. 根據權利要求1所述R樹上溢結點分裂問題的增量式聚類優化求解方法,其特征在 于步驟(2)中所述結合萬所在父結點的子結點數和斯直確定分類個數的上限值I,具體計算 公式為: K = M 2 - w} 其中,JT是人為設定值,其取值范圍建議為[2·^?】,i偽R樹結點所容許的子結點 數上限值,η為萬所在父結點的子結點數。
3. 根據權利要求1所述R樹上溢結點分裂問題的增量式聚類優化求解方法,其特征在 于步驟(4)中所述主元分析導向的增量式k均值算法,具體步驟為:(1)在巧中選擇方差 最大的分類C w,并從/中提取Cw的中心(2)對于C?的協方差矩陣,應用奇異值分 解(SVD)方法獲取最大特征值對應的特征向量u,過》?且垂直于u構建平面VdfC w中分 布于倆側的點集分別歸并為?Ρ與qf,且與Cf均不包含CW中在吐的投影距離 為〇的點;⑶;⑷I-ZUW rtJ ;(5)以Z為初始分類中心集 合,對·0^應用A均值算法,獲得第奸1次聚類結果。
4. 根據權利要求1所述R樹上溢結點分裂問題的增量式聚類優化求解方法,其特征在 于步驟(5)中所述第左次聚類結果的Silhouette指標值是第左次聚類后產 中各點的Silhouette指標值的平均值,而對于_任意一點/7,設其所屬分類為C?,則其 Silhouette指標值計算公式為.
式中,4#))表示/7到中其他點的距離的均值,對于巧中除C?之外的其他任一分類 C〇,設dfeCW)表示成」cCfl內所有點的距離的均值,則
【專利摘要】本發明針對R樹上溢結點的分裂算法存在的聚類結果不理想以及計算代價過高等問題,提出一種R樹上溢結點分裂問題的增量式聚類優化求解方法,屬于產品逆向工程技術領域。該方法采用主元分析導向的增量式k均值算法,可在既有分類中心附近的第一主元方向上搜索新的初始分類中心,將該算法與Silhouette指標相結合應用于求解由上溢結點分裂問題所轉化的點集聚類問題,能以較小的計算代價自適應獲取近似全局最優的點集聚類結果。基于增量式聚類的R樹上溢結點分裂算法在R樹構建效率、存儲利用率及空間查詢等方面的綜合性能優于現有技術。
【IPC分類】G06F17-30
【公開號】CN104731984
【申請號】CN201510190617
【發明人】孫殿柱, 魏亮, 李延瑞, 南艷艷
【申請人】山東理工大學
【公開日】2015年6月24日
【申請日】2015年4月22日