本發明涉及一種水庫水體分類方法,尤其涉及一種基于光譜屬性信息和空間信息的水庫水體分類方法及裝置。
背景技術:
遙感具有監測區域范圍廣,獲取數據周期短,地物波譜信息豐富等特點,利用遙感影像可以快速、實時地分析水資源在時空上的動態分布情況。因此,遙感技術在水質動態變化監測、災情評估、水資源管理及水環境調查等多個方面都有廣泛的應用,對水利信息化有著重要的意義。
目前,國內外關于水體時空變化的研究較多,主要包括以下兩個方面。一方面是針對區域水資源時空演變規律的研究,如王明常等(參見文獻:Wang M,He Y,Xing L et al.Research on evolution and spatial pattern of water in the west part of Jilin Province,2007,22(1):45-49(in Chinese).Doi:10.11873/j.issn.1004-0323.2007.1.45.[王明常,何月,邢立新,等.吉林西部遙感水域空間格局演變研究[J].遙感技術與應用,2007,22(1):45-49.])建立空間信息庫對吉林西部水域景觀空間格局的動態演變規律進行探究;陳定貴等(參見文獻:Chen D,Zhou D,Lv X.Spatial evolution character of surface water bodies pattern due to urbanization of Changchun City.Journal of Jilin University(Earth Science Edition),2008,38(3):437-443(in Chinese with English abstract).Doi:10.3969/j.issn.1671-5888.2008.03.013.[陳定貴,周德民,呂憲國.長春城市發展過程中地表水體空間格局演變特征[J].吉林大學學報:地球科學版,2008,38(3):437-443.])利用遙感信息討論長春城市發展對于城市市區和城區水體結構、形態和空間分布等多種特征的影響;Fisher等(參見文獻:Fisher A,Flood N,Danaher T.Comparing Landsat water index methods for automated water classification in eastern Australia[J].Remote Sensing of Environment,2016,175:167-182.Doi:10.1016/j.rse.2015.12.055)利用水體指數法對澳大利亞東部水體分布情況進行分類。另一方面是針對水體面積的時間序列挖掘分析,如劉洋等(參見文獻:Liu Y,You H,Cheng X,et al.Estimation of variation of Poyang Lake area based on long-term MODIS observations.Journal of Geo-information Science,2013,15(3):469-475(in Chinese).Doi:10.3724/SP.J.1047.2013.00469.[劉洋,尤慧,程曉,等.基于長時間序列MODIS數據的鄱陽湖湖面面積變化分析[J].地球信息科學學報,2013,15(3):469-475.])基于長時間序列遙感觀測對鄱陽湖的湖面進行提取;孫芳蒂等(參見文獻:Sun F,Zhao Y,Gong P,et al.Monitoring dynamic changes of global land cover types:Fluctuations of maj or lakes in China every 8days from 2000-2010.Chin Sci Bull,2014,59,doi:10.1007/s11434-013-0045-0(in Chinese).[孫芳蒂,趙圓圓,宮鵬,等.動態地表覆蓋類型遙感監測:中國主要湖泊面積2000~2010年間逐旬時間尺度消長[J].科學通報,2014,1(4):397-411.])利用MODIS建立中國629個湖泊8天時間間隔數據庫并分析了中國湖泊的消長情況;邵佳麗等(參見文獻:Shao J,Zheng W,Liu C.Analysis of spatial-temporal variations in the main flood season and their influencing factors of the Dongting Lake based on meteorological satellite data.Resources and Environment in the Yangtze Basin,2015,24(8):1315-1321(in Chinese).Doi:10.11870/cjlyzyyhj201508008.[邵佳麗,鄭偉,劉誠.衛星遙感洞庭湖主汛期水體時空變化特征及影響因子分析[J].長江流域資源與環境,2015,24(8):1315-1321.])綜合多種水體提取方法提取洞庭湖水體面積并探討其變化情況;萬華偉等(參見文獻:Wan H,Kang J,Gao S,et al.Study on dynamic change of Hulun Lake water area and climate driving force analysis.China Environmental Science,2016,36(3):894-898(in Chinese with English abstract).Doi:10.3969/j.issn.1000-6923.2016.03.035[萬華偉,康峻,高帥,等.呼倫湖水面動態變化遙感監測及氣候因素驅動分析[J].中國環境科學,2016,36(3):894-898.])采用水體指數的方法對2000~2013年呼倫湖的水體面積進行了動態變化分析。
有關水體時空格局分布的研究已經很多,也達成了不少研究共識,但是對不同水庫水體光譜的空間格局分布特征分析與探討甚少。定量準確地獲取和剖析水庫水體信息是水庫研究的關鍵環節,水庫水體的廣域性、分散性、隨機性等特征決定了不可能對其進行統一處理。由于不同水庫水體的成因、賦存條件以及受地質構造作用存在較大的差異。因此,影響水庫水體成像的因素也不盡相同,這就使得對于不同水庫水體需要考慮多種方案,難以有統一的模式。
技術實現要素:
本發明所要解決的技術問題在于克服現有技術不足,提供一種基于光譜屬性信息和空間信息的水庫水體分類方法及裝置,充分考慮了水庫水體的光譜屬性信息和空間信息,提高了水庫水體分類的準確性,為區域性水體動態分析及監測提供科學依據,減少了人為因素的影響,分類效果更具有客觀性。
本發明具體采用以下技術方案解決上述技術問題:
基于光譜屬性信息和空間信息的水庫水體分類方法,包括以下步驟:
步驟A、從研究區域的遙感影像中獲取各水庫的樣本點,并提取樣本點的光譜屬性特征和空間特征,所述光譜屬性特征為標準化后的樣本點在各光譜波段的值,所述空間特征為樣本點的空間經緯度坐標;
步驟B、構建樣本點集合的相似度矩陣,具體包括以下子步驟:
步驟B1、利用下式構建樣本點集合的光譜屬性特征相似度矩陣SDS:
其中,SDSij表示光譜屬性特征相似度矩陣SDS中第i行第j列的元素,Sij為樣本點i和j之間的光譜屬性特征相似度,sigma為預設系數,exp(·)為指數函數;
步驟B2、利用下式構建樣本點集合的地理位置相似度矩陣DDS:
式中,DDSij表示地理位置相似度矩陣DDS中第i行第j列的元素,Ddij為樣本點i和j之間的距離;
步驟B3、利用下式構建樣本點集合的相似度矩陣SS:
SSij=SDSij*DDSij i,j=1,2,...,n
式中,SSij表示相似度矩陣SS中第i行第j列的元素;
步驟C、在不同的聚類數條件下對樣本點集合的相似度矩陣SS分別進行譜聚類,并利用聚類有效性評價指標從中選出最佳聚類數,最佳聚類數條件下的譜聚類結果即為水庫水體分類結果。
基于光譜屬性信息和空間信息的水庫水體分類裝置,包括:
特征提取單元,用于從研究區域的遙感影像中獲取各水庫的樣本點,并提取樣本點的光譜屬性特征和空間特征,所述光譜屬性特征為標準化后的樣本點在各光譜波段的值,所述空間特征為樣本點的空間坐標;
相似度矩陣生成單元,用于構建樣本點集合的相似度矩陣,其包括:
光譜屬性特征相似度矩陣生成模塊,利用下式構建樣本點集合的光譜屬性特征相似度矩陣SDS:
其中,SDSij表示光譜屬性特征相似度矩陣SDS中第i行第j列的元素,Sij為樣本點i和j之間的光譜屬性特征相似度,sigma為預設系數,exp(·)為指數函數;
地理位置相似度矩陣生成模塊,利用下式構建樣本點集合的地理位置相似度矩陣DDS:
式中,DDSij表示地理位置相似度矩陣DDS中第i行第j列的元素,Ddij為樣本點i和j之間的距離;
相似度矩陣生成模塊,利用下式構建樣本點集合的相似度矩陣SS:
SSij=SDSij*DDSij i,j=1,2,...,n
式中,SSij表示相似度矩陣SS中第i行第j列的元素;
譜聚類單元,用于在不同的聚類數條件下對樣本點集合的相似度矩陣SS分別進行譜聚類,并利用聚類有效性評價指標從中選出最佳聚類數,最佳聚類數條件下的譜聚類結果即為水庫水體分類結果。
優選地,所述地域為地區、省、市或縣。
優選地,所述聚類有效性評價指標為DB指數。
優選地,使用歐式距離度量所述光譜屬性特征相似度。
優選地,所述光譜屬性特征為min-max標準化后的樣本點在各光譜波段的值。
相比現有技術,本發明技術方案具有以下有益效果:
本發明首次將譜聚類引入水庫水體分類中,并通過充分利用遙感影像水庫水體的光譜屬性信息和空間信息構建光譜權重矩陣,以所構建的光譜權重矩陣作為譜聚類算法的相似度矩陣,能夠更好地改善空間分析和空間數據挖掘的信息質量,從而有效提高水庫水體分類的準確性。
附圖說明
圖1為全國省份權重鄰接矩陣拓撲圖;
圖2為DB指數曲線圖;
圖3為不同聚類方法的正確率比較結果。
具體實施方式
下面結合附圖對本發明的技術方案進行詳細說明:
針對復雜的水庫水體的分類問題,本發明的思路是將譜聚類引入水庫水體分類中,并通過充分利用遙感影像水庫水體的光譜屬性信息和空間信息構建光譜權重矩陣,以所構建的光譜權重矩陣作為譜聚類算法的相似度矩陣,能夠更好地改善空間分析和空間數據挖掘的信息質量,從而有效提高水庫水體分類的準確性。
為便于公眾理解,首先對于譜聚類的內容進行簡要介紹。
譜聚類算法是建立在譜圖理論基礎上的一種新的聚類方法,與傳統的聚類算法相比,它具有能在任意形狀的樣本空間上聚類且收斂于全局最優解的優點。譜聚類的基本思想是利用樣本數據之間的相似矩陣(Laplacian矩陣)進行特征分解,即通過拉普拉斯特征映射(Laplacian Eigenmaps)的方式進行降維,然后將得到的特征向量在低維空間進行聚類(參見文獻:[Luxburg U V.A tutorial on spectral clustering[J].Statistics&Computing,2007,17(17):395-416.Doi:10.1007/s11222-007-9033-z])。譜聚類的問題相當于一個圖的分割問題,即通過給定一個圖G=(V,E),其中V為頂點集代表各個數據樣本,E為帶權的邊代表各個樣本之間的相似度。譜聚類的目的就是找到一個最佳的圖分割的方法,將圖G分割成若干個子圖,使得連接不同子圖的邊權重盡可能低,而同一子圖內邊的權重盡可能高。常用的劃分準則有最小割集準則、規范割集準則、比例割集準則、平均割集準則以及最大最小割集準則。圖劃分的最優解通常是一個松弛NP難問題,通過考慮連續松弛形式,將NP難問題轉換為求解相似矩陣的譜分解問題。
設X=(X1,X2,...Xn)為n個樣本數據,X的每一行為同一樣本的不同屬性數據,每一列為不同樣本的同一屬性數據。構建一個圖G=(V,E),圖中的每個節點V對應數據樣本點,而E用于表示數據之間的相似度,將這個圖G用鄰接矩陣的形式表示出來,記為W。
式(1)中,xi,xj表示數據樣本點,σ表示尺度參數,當i=j時,Wij=0。
將W的每一列元素相加得到N個數置于對角線,其余位置為0,組成一個N*N的對角矩陣,記為度矩陣D,在此基礎上可以計算拉普拉斯矩陣L。拉普拉斯矩陣有兩類,分別為非正則拉普拉斯矩陣和正則拉普拉斯矩陣。非正則拉普拉斯矩陣,其形式為
L=D-W (2)
正則拉普拉斯矩陣有兩種,分別是對稱拉普拉斯矩陣,其形式為
Lsym=D-1/2LD-1/2=I-D-1/2WD-1/2 (3)
及隨機游走拉普拉斯矩陣,其形式為
Lrw=D-1L=I-D-1W (4)
將n個待聚類的樣本視作圖G的n個頂點,求出L的前k個特征值,并將前k個特征值從小到大排序,并求得對應的特征向量將k個列向量u1,u2,...,uk組成矩陣U,U∈Rn*k。對于i=1,2,...,n,令yi∈Rk作為U的第i行向量。將U進行多類劃分,采用規范割集準則,其是兩類劃分規范割準則的擴展,定義如式(5)所示:
式(5)中,vol(Ci)為子圖Ci所有定點之間的連接權值之和。根據上式可以將最小化規范割準則表示如下形式
minNcut(C1,C2,...,Ck) (8)
式(8)是一個離散優化問題,通過忽略U中元素的離散限制條件,使其可以取任意實數解。根據瑞利商原理,該優化問題最優解由D-1/2LD-1/2最小的k的特征值所對應的特征向量構成的,即找到E=D-1/2WD-1/2的前k個最大特征值對應的特征向量。對U使用K-means算法將點(yi)i=1,2,...,n聚類成簇C1,C2,...,Ck,每行數據對應的聚類簇就是原樣本xi對應的聚類簇。
具體而言,本發明所提出的基于光譜屬性信息和空間信息的水庫水體分類方法,包括以下步驟:
步驟A、從研究區域的多光譜遙感影像中獲取各水庫的樣本點,并提取樣本點的光譜屬性特征和空間特征,所述光譜屬性特征為標準化后的樣本點在各光譜波段的值,所述空間特征為樣本點的空間坐標;
水庫水體遙感影像反映的信息主要有光譜屬性信息和空間信息。水庫水體的光譜屬性信息表現為量化的輻射值,即遙感影像的像元值。該值的大小是由水體內的各種物質對光輻射的吸收和散射性質決定的。水庫水體的空間信息表現為水庫水體的像元值在空間上的變化,包括遙感影像上水庫水體的分布、面積、紋理信息等。由于譜聚類算法直接在相似度矩陣上進行分割聚類,不同形式的相似矩陣對算法的影響很大,所以通過充分利用遙感影像水庫水體的光譜屬性信息和空間信息構建光譜權重矩陣,能夠更好地改善空間分析和空間數據挖掘的信息質量。
本發明首先提取樣本點的光譜屬性特征:對所有的n個水庫水體樣本點每個光譜屬性特征進行min-max標準化,使結果值映射到[0,1]之間,用以消除不同維度波段像元值的差異,消除量綱不一致的缺陷,使各光譜屬性特征之間具有橫向可比性。min-max標準化的轉換函數如下:
x*=(x-xmin)/(xmax-xmin) (9)
其中xmax為樣本數據的最大值,xmin為樣本數據的最小值。
樣本點的空間特征可直接以樣本點的空間經緯度坐標來表示。
步驟B、構建樣本點集合的相似度矩陣,具體包括以下子步驟:
步驟B1、構建樣本點集合的光譜屬性特征相似度矩陣SDS:
聚類分析中常用歐氏距離來度量兩個樣本之間的相似性,即多維空間點到點之間的幾何距離(當然,也可采用曼哈頓距離、漢明距離、閔可夫斯基距離、相關系數等度量方式)。光譜屬性特征相似度可定義如下:
通過高斯核函數(也稱徑向基函數核)計算相似度,兩個樣本之間距離越大,代表其相似度越小。則光譜屬性特征相似度矩陣(Spectrum Distance Similarity)可以定義為
其中,SDSij表示光譜屬性特征相似度矩陣SDS中第i行第j列的元素,Sij為樣本點i和j之間的光譜屬性特征相似度;預設系數sigma的大小影響光譜之間的距離,SDSij隨著sigma增大而衰減速度放慢,由于歸一化后數據在[0,1]之間,設置sigma為1。
步驟B2、構建樣本點集合的地理位置相似度矩陣DDS:
首先計算n個水庫水體樣本點任意兩點間的距離矩陣。距離矩陣計算公式如下:
其中d為兩點的弧長,Dd單位為米,R默認值為地球半徑長度,即6371米,i,j=1,2,...,n,且當i=j,Ddij=0。
然后構建研究區域的地域鄰接權重矩陣,較常用的空間屬性表現形式是基于各地域(例如地區、省、市、縣這樣的行政地理區劃)之間的鄰接關系,即若兩地域之間相鄰,則假設其光譜特性之間具有一定的相關性。其鄰接關系可以用0和1兩個數值來表達,兩地域地理位置相互接壤毗鄰則定義1,否則定義為0。鄰接矩陣Wij定義如下:
根據各地域之間鄰接矩陣構建無向圖,圖1即顯示了全國省份權重鄰接矩陣拓撲,省份之間的相關性通過直線連接表示,省份旁的數字代表與該省份毗鄰的省份數。為了讓同一地域內抽取若干水庫樣本點存在空間自相關性,在此基礎上構建改進的鄰接權重矩陣nWij。nWij定義如下:
在改進的鄰接權重矩陣nWij的基礎上可構建n個水庫水體樣本點空間特征。由于同一個地域內水庫樣本點存在強相關性,并且隨著兩樣本點距離的增加,相互產生的影響力減小,即假設兩地空間距離越近則光譜相似性越高,反之則越低。本發明所使用的基于距離和地域的地理位置相似度矩陣(Data Distance Similarity)為距離的倒數與對應改進的鄰接權重矩陣nWij值的乘積,樣本點自身的DDSij值設為0。則有:
式中,DDSij表示地理位置相似度矩陣DDS中第i行第j列的元素,Ddij為樣本點i和j之間的距離;
步驟B3、構建樣本點集合的相似度矩陣SS:
SSij=SDSij*DDSij i,j=1,2,...,n (17)
式中,SSij表示相似度矩陣SS中第i行第j列的元素。
步驟C、在不同的聚類數條件下對樣本點集合的相似度矩陣SS分別進行譜聚類,并利用聚類有效性評價指標從中選出最佳聚類數,最佳聚類數條件下的譜聚類結果即為水庫水體分類結果:
聚類有效性評價指標用來評價在不同聚類數時聚類結果的優劣,通常包括外部有效性評價指標和內部有效性評價指標。本發明采用非監督分類,故采用內部有效性評價指標。內部有效性評價指標根據數據自身的特點來對聚類結果進行評價,并將最優的聚類結果所對應的聚類數目作為最佳聚類數。其中,DB指數(參見文獻[Davies D L,Bouldin D W.A Cluster Separation Measure[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,1979,PAMI-1(2):224-227.Doi:10.1109/tpami.1979.4766909])以其簡單易用和良好的評價能力而得到廣泛應用。DB指數用于描述樣本的類內散度與各聚類中心的間距,將各個類間的指標進行平均,減少離群點對樣本聚類產生的噪聲影響。DB指數定義為
其中,Nc是聚類數目,wi表示類ci中的所有樣本到其聚類中心的平均距離,wj表示類ci中的所有樣本到類cj中心的平均距離,cij表示類ci和cj中心之間的距離。一個好的聚類劃分應該使得類內樣本距離盡可能的最小,類間樣本距離盡可能最大,因此結合DB指數定義式(18)可以看出DB指數越小表示類與類之間的相似度越低,聚類效果越佳。
本具體實施方式中所使用的譜聚類算法具體步驟如下:
①計算度矩陣(Degree Matrix)。光譜相似度矩陣SSij每一行(列)的和作為度矩陣對角線上的元素,其余位置為0。度矩陣公式如式(19)所示:
②計算規范對稱Laplacian矩陣:
Lsym=DMij-1/2LMij-1/2=I-DMij-1/2SSijMij-1/2 (20)其中,I為單位矩陣。
③對Lsym進行特征值分解,從小到大排列,得到Lsym的前k個特征值對應的特征向量u1,u2,...,uk,這里k設為聚類數。
④將k個列向量u1,u2,...,uk組成矩陣U,U∈Rn*k。對于i=1,2,...,n,令yi∈Rk為U的第i行向量。對稱拉普拉斯矩陣需要對yi依次歸一化,使得|yi|=1。把U的每一行當成一個新的樣本點,對這n個新的樣本點進行K-means聚類。
⑤根據DB指數最小值確定譜聚類的最佳聚類數k。
為了驗證本發明技術方案的效果,選擇了46個全國典型水庫(總庫容量大于10億立方米)進行分類驗證,高分一號遙感影像水庫列表如表1所示。
表1高分一號遙感影像水庫列表
對46景2014年10月07日左右遙感影像使用ENVI進行預處理,包括輻射定標、Flassh大氣校正及正射校正,從而消除一些非系統性誤差,包括地形起伏、星歷數據不準確等因素導致的影像幾何畸變和大氣狀況、地形部位等因素造成的影像輻射失真等問題。所選擇的遙感影像的基本特點為無浮云及漂浮物,使用ENVI中ROI選擇感興趣水庫遙感影像區域。本實驗選擇水庫水體遙感影像ROI區域位于水庫中心,大小為15*15像素,每個代表性水庫共225個樣本點。
每個樣本點提取6個特征,包括樣本點的光譜屬性特征和空間特征。其中樣本點的光譜屬性特征為高分一號在該像素點的四個波段值,具體的波譜信息見表2。
表2樣本點光譜屬性特征波段信息
設有n個水庫水體樣本點,第i個水庫水體樣本點的空間特征和光譜屬性特征分別為
其中xi為樣本點緯度坐標,yi為樣本點經度坐標,ai1,ai2,ai3,ai4分別為樣本點高分一號多光譜藍、綠、紅、近紅外的波段值。則樣本點特征向量為:
Si=(Pi,Ai)=(xi,yi,ai1,ai2,ai3,ai4) i=1,2,...,n (22)
利用上述的本發明譜聚類算法進行聚類,并通過DB指數最小值確定最佳聚類數。設置的聚類數k取值范圍為[2,23]。圖2為不同聚類數情況下的DB指數變化曲線,當k為7時,DB指數值最小。根據DB指數定義,此時k=7為最佳聚類數。k=7時的譜聚類類簇結果見表3
表3基于光譜屬性特征和空間特征譜聚類類簇結果(k=7)
為了進一步驗證本文方法的有效性,將本發明方法結果和其他兩種方法進行了對比分析,包括僅基于光譜屬性特征譜聚類算法和基于光譜屬性特征和空間特征K-means算法,本發明方法為基于光譜屬性特征和空間特征譜聚類算法。
定義正確率Acc為正確分類與樣本總數的比值。正確分類定義為將同一個水庫225個樣本都歸為同一類。對所有樣本進行評判,若經過聚類后該水庫樣本被分到不同聚類簇內,則選擇該水庫225個樣本中聚類后標簽頻數最多的作為正確分類,剩余的樣本則記為錯誤分類。正確率Acc定義為
其中,N為樣本總數,wrong為某一水庫內錯誤分類總數,Acc取值范圍為[0,1]。
圖3給出了三種算法的正確率Acc對比結果,從多次運行實驗的結果來看,本發明方法即基于光譜屬性特征和空間特征譜聚類算法正確率Acc最高,為1.00,且正確率Acc并沒有因為聚類數k的增加造成預測正確率的下降。