專利名稱:基于熵排序的半監督譜聚類確定聚類數的方法
技術領域:
本發明屬于圖像處理技術領域,涉及圖像聚類方法,可應用于圖像聚類領域,以自 適應地確定聚類數。
背景技術:
圖像聚類是圖像處理過程中的一個重要步驟。圖像聚類的目的是將圖像上不同的 區域根據圖像像素點之間的關系聚成不同的類。譜聚類是近年來新興的一個聚類方法,該 算法的思想起先源于譜圖劃分理論,被看作是一個無向圖的多路劃分問題。譜聚類優于傳 統的聚類算法原因在于其不受樣本空間形狀限制且收斂于全局最優解,因此,譜聚類算法 在圖像聚類領域得到了廣泛應用。近年來提出的半監督譜聚類算法是在譜聚類算法的基礎上加入人工標記的類標 簽來改良聚類結果的一種方法。這種類標簽以先驗信息的形式出現,一般地,通過修正親和 度矩陣來加入先驗信息。類標簽的個數很有講究,太少不足以達到理想的聚類結果,太多又 會給計算和存儲帶來過大負擔,因此,加入多少類標簽需要讀者在實際中權衡。譜聚類中有兩個共同關注的問題,即尺度參數和聚類數的自適應確定。尺度參數 確定的方法近年來已經發展得相當完善。本發明主要探討聚類數的確定問題。聚類數的事 先確定會使得聚類過程更加的自適應,降低了手工工作量。目前現有的方法大都通過分析 由親和度矩陣構造而得的拉普拉斯矩陣的特征值和特征向量入手的。2001年,A. NG等人指出特征向量等于1的個數即為該組數據的類別數,參 見 A.Y. Ng, Μ. I. Jordan,and Y. Weiss,《On spectral clustering Analysis and an algorithm》,Advances in Neural Information Processing Systems (NIPS)。這禾中方法容 易受到噪聲影響而導致聚類結果出現誤差。2005 年,Zelnik-Manor 和 Perona 等人提出的自調節譜聚類(self-tuning spectral clustering)算法通過將部分特征向量進行旋轉以構造一個與聚類數相關的目 標函數,認為使之達到最小的即為最佳聚類數,參見Zelnik-Manor,L.,and Perona, P., 《Self-tuning spectral clustering》, Advances in Neural Information Processing Systems。這種方法能出色地處理一些復雜性問題,但是由于其反復重組旋轉向量大大增 加了計算代價,而且,由于要人工設定閾值,所以針對不同數據集,不同實踐者,就產生了誤 差,同時帶來了較大工作量。Zhong等人于2008年提出一種新的自適應譜聚類(adaptive spectral clustering, ASC)算 法, 參 見 Qingliu, Ζ. , and Zixing, C.,《Adaptive spectral clustering algorithm for color image Segmentation Application》, Research of Computers 25(12),(2008)。它采用全局平均N近鄰距離的比例參數代替局部N近鄰距離 的比例參數,利用相鄰特征向量前k個相鄰列間的平均差異與第一列的比值來確定最佳分 類數,直到該比值小于某個給定閾值時對應的k認為是最佳分類數。該算法由于要人工設 定閾值,使得它的自調節性大打折扣。
4
Wang等人于2005年提出的ACNA算法通過特征向量與相應坐標軸的距離將數據點 劃分至不同的類,經過若干次的循環迭代最后穩定到的那個k值就認為是最佳的聚類數, 參見Chongjun,W.,Wujun,L,Lin,D. , Juan,Τ.,and Shifu,C.,《Image segmentation using spectral clustering)),Proceedings of the 17th IEEE In ternational Conference on Tools with Artificial Intelligence,IEEE Computer Society,677-678 (2005)。該算法 在一定程度上取得了較好的結果,但是對于復雜數據結果就欠理想。以上自動確定聚類數方法由于均選取前k個最大特征值對應的特征向量,因此存 在以下不足1.易受噪聲影響而導致聚類誤差;2.對大數據結果欠佳或者失效;3.需人工 設定閾值。
發明內容
本發明的目的在于克服上述聚類方法只選取前k個最大特征值對應的特征向量 而導致部分圖像信息丟失的缺點,提出一種基于熵排序的半監督譜聚類確定聚類數的方 法,通過熵排序的理論將特征向量按照其重要度進行一次“重排列”,選取前k列重要度最 高的特征向量,以在無需人工設定閾值的條件下準確地確定聚類數,減小聚類誤差,提高聚 類效果。1、一種基于熵排序的半監督譜聚類確定聚類數的方法,包括如下步驟(1)輸入數據集X= {X1,X2,...,XJ e Rd,Xi表示數據集中的任意點,i e (Ι,η), η為數據個數,d表示數據維數;(2)分別計算數據集X中各個點的尺度參數σ i和數據集的親和度矩陣A ;(3)由人工加入的類標簽提取成對約束信息,并用這些成對約束信息對親和度矩
權利要求
一種基于熵排序的半監督譜聚類確定聚類數的方法,包括如下步驟(1)輸入數據集X={x1,x2,...,xn}∈Rd,xi表示數據集中的任意點,i∈(1,n),n為數據個數,d表示數據維數;(2)分別計算數據集X中各個點的尺度參數σi和數據集的親和度矩陣A;(3)由人工加入的類標簽提取成對約束信息,并用這些成對約束信息對親和度矩陣加以修正其中must link限制兩個樣本點必須屬于同一類;cannot link限制兩個樣本點不能處于同一類;(4)用修正后的親和度矩陣構造拉普拉斯矩陣L=D 1/2AD1/2,其中D為對角矩陣,對角線上的任意元素(5)對拉普拉斯矩陣進行特征分解,并按照特征值的大小將對應特征向量從大到小排列;(6)用熵排序方法對特征向量按其重要度進行重排序(6a)依次移出特征向量的每一列,計算其余列熵值,將求得的熵值規定為該列特征向量對應的熵值;(6b)將特征向量按照其對應的熵值從大到小進行一次“重排列”,得到特征向量重要度由高到低的排序,記為VR;(7)初始化聚類數k=2,取VR的前k列并歸一化;(8)自適應確定聚類數(8a)把取得的VR前k列看成n個k維的點,將其投射到k維坐標系;(8b)用每個坐標軸的正負方向分別表示一個聚類,根據每個點距坐標系各個半軸的距離將輸入數據點劃分為2k類;(8c)除去2k類中沒有點的類或者點數少于輸入數據點數百分之一的聚類,將保留下來的聚類數記為c;(9)比較k和c,如果二者不同,令k=c,返回步驟(8),如果相同,此時所得的k就是最佳聚類數,記為km;(10)將輸入數據點劃分至km類,并按輸入點的坐標對輸入數據點進行標記,得到聚類結果。FSA00000265361000011.tif,FSA00000265361000012.tif
2.根據權利要求1所述的確定聚類數的方法,其中步驟(2)所述的分別計算數據集X 中各個點的尺度參數ο i和數據集的親和度矩陣A,用以下公式計算1 m^=-ZIk-^llm d=\其中,O i表示數據點中任意點的尺度參數,Xd是數據級X中任意點Xi距其余各點的第 d個近鄰,選擇d = 7;
3.根據權利要求1所述的確定聚類數的方法,其中步驟(6a)所述的計算其余列熵值 E,由下式計算
全文摘要
本發明公開了一種基于熵排序的半監督譜聚類確定聚類數的方法,主要解決譜聚類中拉普拉斯矩陣的特征向量的選擇問題。其過程為用熵排序的理論對特征向量進行“重排列”,得到特征向量重要度最高的列,對于一個k類問題,抽取特征向量的前k列,并將其投射到k維空間;根據各個點與k維空間中2k個半軸的距離進行聚類,除去2k類中沒有點的類或者點數少于輸入數據點數百分之一的聚類,將保留下來的聚類數記為c;再抽取特征向量前c列,循環該操作直到聚類數穩定為止,此時對應的類數是最佳聚類數;按輸入點的坐標對輸入數據點進行標記,得到聚類結果。本發明具有自適應和聚類正確率高的優點,可用于對圖像類別數的自適應確定。
文檔編號G06K9/62GK101968852SQ20101027876
公開日2011年2月9日 申請日期2010年9月9日 優先權日2010年9月9日
發明者侯彪, 公茂果, 劉若辰, 張向榮, 李陽陽, 楊杰, 焦李成, 王爽 申請人:西安電子科技大學