基于稀疏表示和空譜拉普拉斯圖的高光譜數據降維方法
【專利摘要】本發明公開了一種用于大規模高光譜數據的降維方法,主要用于解決傳統流行學習信息單一和該類方法難以處理較大規模數據的問題。其實現步驟為:1.從大規模的高光譜數據中選擇一定量的數據作為訓練樣本;2.對訓練樣本進行空譜拉普拉斯圖的構造;3.對拉普拉斯矩陣進行特征分解得到訓練樣本的低維表示;4.利用訓練樣本及其低維表示構造高維字典和低維字典;5.計算剩余高光譜數據在高維字典上的稀疏表示系數;6.將該稀疏表示系數與低維字典進行相乘,得到剩余數據的低維表示;7.整合訓練樣本與剩余數據的低維表示得到完整的降維數據。本發明提升了流行降維的效果,可用于處理大規模的高光譜數據。
【專利說明】基于稀疏表示和空譜拉普拉斯圖的高光譜數據降維方法
【技術領域】
[0001] 本發明屬于數據處理【技術領域】,涉及高光譜數據的前期處理,主要目的是為了減 少高光譜數據的維數,從而降低后期數據處理方法的計算復雜度,同時盡可能提升其性能。 該方法可以被應用于大規模的高光譜數據聚類或分類中。
【背景技術】
[0002] 數據降維處理在數據處理中起著很大的作用,許多維數過高的數據在處理之前都 會進行降維處理,一方面可以降低計算量,另一方面還可以從原有特征中挖取更有用的特 征,提升后期算法的處理效果。光譜數據隨著成像設備的光譜分辨率的不斷提高,數據的維 數也是越來越高,數據降維必不可少,同時,隨著設備的發展,空間分辨率也在不斷提高,數 據的規模也在不斷的增大,如何處理大規模的高光譜數據也成為非常關鍵的一個問題。
[0003] 現有的數據降維方法很多,常用的如:主成分分析PCA,線性判別分析LDA,局部保 持投影LPP,拉普拉斯嵌入。主成分分析及線性判別分析方法簡單實用,但是適合于線性數 據,對于非線性的數據處理效果不是很好。以往研究表明,高光譜數據中存在著流形結構, 線性方法并不能完全高光譜的數據背景。流形學習針對于非線性數據,利用圖嵌入的方法 捕捉數據的空間結構,將數據映射到具有同樣空間結構的低維流行空間中,從而保持數據 間的分布結構。
[0004] 目前流形學習降維的方法有不少,如:
[0005] 2000年Tenenbaum與Silva在《Science》上提出了IS0MAP,這個方法是利用非線 性的局部變量信息學習數據集的全局集合結構,使用了測地距離來度量高維空間中的樣本 點距離,通過建立原數據的測地線距離與降維數據空間的空間距離的對等關系完成數據降 維。該方法保證流形上的空間結構在低維流行空間中依然存在,但是當選擇較大鄰域時會 出現短路現象。
[0006] 2000 年Roweis和Saul提出 了了局部線性嵌入法(LocallyLinear Embedding,LLE),該方法的主要思想是具有低維子流形結構的數據集,原空間與低維空間 中的點的鄰域結構關系式不變的。該方法很好的保留了鄰接點間的關系,使每個點的鄰接 權值保持不變,但對于等距流形,嵌入效果不是很好。
[0007] 2003年M.Belkin與P.Niyogi提出了拉普拉斯特征映射LE,該方法的出發點為: 高維空間中離得很近的點投影到低維空間中的像應該也會離得很近。該方法處理分類問題 很好,但是權值計算所使用的heatkernel中的參數對嵌入結構有很大影響。
[0008] 上述方法有兩個統一的缺陷:(1)這些方法中很重要的步驟就是圖的構造,當數 據規模非常大的時候,圖的存儲及后期的計算都是非常困難的,一般的流形學習方法無法 處理大規模數據;(2)普通的流形學習方法,并沒有考慮到高光譜數據中所存在的空間結 構,只是單純的考慮其譜間的鄰域關系,導致對高光譜數據降維效果不理想。
【發明內容】
[0009] 本發明的目的在于克服上述已有技術的缺點,提出了一種基于稀疏表示和空譜拉 普拉斯圖的高光譜數據降維方法,以提高高光譜數據降維的效果,便于將流行學習能推廣 到大規模的高光譜數據中。
[0010] 本發明的技術方案是:從大規模的高光譜數據中選擇一定量的數據作為訓練樣 本,對所選訓練樣本進行空譜拉普拉斯圖的構造,對拉普拉斯矩陣進行特征分解得到訓練 樣本的低維表示;利用高維訓練樣本及其低維表示構造高維字典和低維字典,將剩余的高 光譜數據在高維字典上進行稀疏表示,得到對應的稀疏表示系數;將該稀疏表示系數與低 維字典進行相乘,得到剩余高光譜數據的低維表示,整合訓練樣本與剩余高光譜數據的低 維表示得到整體數據的低維表示。其具體步驟包括如下:
[0011] (1)從一幅高光譜圖像數據I中選擇n個數據點作為高維的訓練樣本,高光譜數據 維數為P,n的數值由高光譜圖像數據的規模確定,取整體數目的10%以上;
[0012](2)對所選高維訓練樣本進行空譜拉普拉斯圖G的構造:
[0013] (2a)構造譜間圖Gl:
[0014] 使用譜信息散度SID作為訓練樣本點間的距離度量,計算第i個訓練樣本與其它 訓練樣本間的距離,i= 1,…,n,并對這些距離值進行由小到大排序,選擇距離最小的N個 樣本作為第i個訓練樣本點的N近鄰,N= 6;
[0015] 根據第i個訓練樣本點的N近鄰確定第i個訓練樣本點與其它訓練樣本點的連接 關系:若第j個訓練樣本點在第i個訓練樣;N 中,則將第j個訓練樣本點與第 i個訓練樣本點連接,并計算該連接邊的權{I
【權利要求】
1. 一種基于稀疏表示和空譜拉普拉斯圖的高光譜數據降維方法,包括以下步驟: (1) 從一幅高光譜圖像數據I中選擇η個數據點作為高維的訓練樣本,高光譜數據維數 為Ρ,η的數值由高光譜圖像數據的規模確定,取整體數目的10%以上; (2) 對所選高維訓練樣本進行空譜拉普拉斯圖G的構造: (2a)構造譜間圖Gl: 使用譜信息散度SID作為訓練樣本點間的距離度量,計算第i個訓練樣本與其它訓練 樣本間的距離,i= 1,…,n,并對這些距離值進行由小到大排序,選擇距離最小的N個樣本 作為第i個訓練樣本點的N近鄰,N= 6 ; 根據第i個訓練樣本點的N近鄰確定第i個訓練樣本點與其它訓練樣本點的連接關 系:若第j個訓練樣本點在第i個訓練樣本點的N近鄰中,則將第j個訓練樣本點與第i個 訓練樣本點連接,并計算該連接邊的權值g= 反之,第j個訓練樣本點與第i個訓 練樣本點不連接,fu= 0,其中X,y分別為第i個訓練樣本點與第j個訓練樣本點所對 應的光譜向量,參數t根據實際數據調試確定; (2b)構造空間圖G2 : 比較第i個訓練樣本點與其它訓練樣本點的二維坐標,i= 1,…,n,確定其它訓練樣本 點是否在第i個訓練樣本點的K鄰域中,若第j個訓練樣本點在第i個訓練樣本點的K鄰 域內,將第i個訓練樣本點與第j個訓練樣本點進行連接,反之第i個訓練樣本點與第j個 訓練樣本點不連接,鄰域參數K= 11,該參數表示以第i個訓練樣本點為中心的11*11的鄰 域區域; 確定連接邊的權值:將11*11的鄰域劃分為內鄰域和外鄰域,內鄰域為以第i個訓練樣 本點為中心的5*5的區域,外鄰域為除去內鄰域的剩余鄰域區域;如果第j個訓練樣本點在 第i個訓練樣本點的內鄰域中,則連接邊的權值為W"u = 1,如果第j個訓練樣本點在第 i個訓練樣本點的外鄰域中,則連接邊的權值W"u = 0. 8 ;若第i個訓練樣本點與第j個 訓練樣本點間不存在連接,則W"u= 0 ; (2c)將譜間圖Gl和空間圖G2進行合并操作,保留這兩個圖中的所有連接邊,得到空譜 拉普拉斯圖G,得到空譜拉普拉斯圖G的權值矩陣為W,W=W' +W",計算拉普拉斯矩陣L,L =D-W,其中D為由W的行或列求和得到的向量作為對角線元素的對角矩陣; (3) 對拉普拉斯矩陣L和對角矩陣D進行廣義特征值分解,取最小r個特征值對應的特 征向量作為訓練樣本所對應的低維表示TR; (4) 構造高維空間與低維空間的對偶字典:將η個p維的訓練樣本作為高維字典HD,將 η個訓練樣本對應的r維表示TR作為低維字典LD,這兩個字典的原子間存在一一對應的關 系; (5) 對剩余高光譜數據進行稀疏表示求解,得到剩余高光譜數據在高維字典HD上的稀 疏表示系數:θ= [Θ" · ··,Θs,· ··,ΘJ; (6) 將剩余高光譜數據的稀疏表示系數〇與低維字典LD相乘,得到剩余高光譜數據的 r維表示RR=LD*Θ; (7) 結合訓練樣本的r維表示TR,得到整個高光譜數據的r維表示IR=[TR;RR]。
2. 根據權利要求書1所述的基于稀疏表示和空譜拉普拉斯圖的高光譜數據降維方法, 其中步驟(3)所述的對拉普拉斯矩陣L和對角矩陣D進行廣義特征值分解,按如下步驟進 行: (3. 1)將廣義特征值問題轉化為一般特征值問題,1Lu=λu,其中IT1為對角矩陣D的逆矩陣,λ為特征值,u為特征值λ對應的特征向量; (3. 2)對D4L進行一般特征值分解得到η個特征值λi,λ2,...,λη,η為方陣D4L的 行數,這η個特征值按照從小到大的順序排列,S卩:A1 <λ2,...,<λη,以及對應的特征 向量UpU2,...,un,取最小的r個特征向量值對應的特征向...,ur作為訓練樣本的 r維表示TR,r表示降維后的數據維數,該參數可以根據實驗數據設置。
3.根據權利要求書1所述的基于稀疏表示和空譜拉普拉斯圖的高光譜數據降維方法, 其中步驟(5)所述的對剩余高光譜數據進行稀疏表示求解,是對每個數據點分別進行求 解: (5. 1)設剩余高光譜數據在高維字典HD上的稀疏表示系數為:Θ=[Θ. ..,Θs,. ..,Θm],Θs為第s個數據點的稀疏表示系數,s= 1,. . .,m,m為剩余高光 譜數據的個數; (5.2)最小化下式中的目標函數,得到對應的解向量Θ,使稀疏表示系數03等于該解 向量Θ:
其中,Xs為第S個數據點對應的光譜向量,11*112為向量的2范數,11*111S向量的1 范數,β為調節參數。
【文檔編號】G06K9/62GK104318243SQ201410542949
【公開日】2015年1月28日 申請日期:2014年10月14日 優先權日:2014年10月14日
【發明者】焦李成, 陳璞花, 楊淑媛, 侯彪, 王爽, 馬文萍, 馬晶晶, 劉紅英 申請人:西安電子科技大學