專利名稱:面向遙感影像分類的樣本自動選取方法
技術領域:
本發明涉及遙感影像處理技術及遙感影像信息提取方法,具體地說,涉及遙感影 像分類技術及其核心的樣本自動選取方法,本發明適用于基于多種分類器模型的遙感影像 精確化自動分類。
背景技術:
遙感影像分類是很多環境和社會經濟應用的基礎,因此一直是遙感研究領域的熱 點之一;由于諸多因素的影響,遙感分類是一個復雜的綜合過程,所以它同時也是研究的難 點。現有遙感分類方法主要集中在應用模式識別的方法,利用遙感像素的波譜信息(或者 輔以紋理等空間信息),采用距離、角度、概率等聚類準則或神經網絡分類方法實現。這些 方法在處理特定的問題時都具有一定的效果,然而由于模式識別方法本身的局限性,這些 分類方法都不可避免的需要大量的人工參與,尤其是選擇分類樣本與指定類別等過程需要 以人工判斷或者專家知識作為基礎,相應的參考文獻包括Tso,B. and Mather, P.M.,2001. Classification Methodsfor Remotely Sensed Data[M] · Taylor and Francis, London ; Lu,D. and Q. ffeng. 2007. A survey ofimage classification methods and techniques for improving classification performance[J]. International Journal of Remote Sensing 28(5) :823-870。針對海量的遙感數據處理要求,同時也為了突破上述缺陷,多年來,國內外學者一 直都在探求能夠自動、高效地實現遙感影像解譯的方法,研究思路大體分為兩種一是研究 新的分類算法,如支持向量機方法、模糊數學方法等;二是將遙感的領域知識加入到機器學 習過程中,亦即將專家目視解譯時用到的知識加入到計算機自動解譯過程中進行綜合分類 提高整個過程的智能化程度。目前討論比較廣泛的是第二種方法,如何提取分類所需的知 識,如何將知識應用于分類過程,這些都是基于知識的遙感自動分類方法設計過程中必須 考慮的問題,而目前還沒有哪一種方法能得到一致的認可。相應的參考文獻包括Vapnik, V and A. Vashist, Anew learning paradigm :Learning using privileged information. Neural Networks. 2009,22(5-6) :p. 544-557. Pereira, G. C. and N. F. F. Ebecken, Knowledge discovering for coastal waters classification. Expert Systems with Applications,2009. 36(4) :p.8604-8609。地物根據其波譜特性會在遙感影像的不同波段表現出不同的輻射或反射特性,如 何根據這些特征發現地學知識并合理利用是實現自動分類首先要解決的問題。國內外學者 根據不同地物的波譜特性建立了許多遙感特征指數(如NDWI,NDVI等),這是地學知識發現 與應用的重要方法之一。而光譜相似性度量可以根據波譜特性有效描述波譜數據隸屬于特 定地物的程度,目前已有一些較為成熟的光譜相似性度量算法。相應的參考文獻有Vander Meer, F. , Theeffectiveness of spectral similarity measures for the analysis of hyperspectral imagery. InternationalJournal of Applied Earth Observation and Geoinformation. 2006,8(1) :p. 3-17.
在眾多從遙感數據中發掘地學知識或者將知識與數據結合應用的方法中,決策樹 是應用比較廣泛的一種方法,它具有靈活、直觀、效率高等特點,其基本思想是通過一系列 判斷條件(關于數據的或者知識判斷的)對原始數據集逐步進行細化。應用決策樹關鍵在 于地物類型閾值的確定,確定閾值的方法有樣本觀測、經驗知識及基于信息熵的方法。相 應的參考文獻有 Tooke, T. R. , et al. , Extracting urban vegetation characteristics using spectral mixture analysisand decision tree classifications. Remote Sensing of Environment,2009. 113(2) :p.398—407。在遙感影像的分類方法中,目前可見的專利、文獻中關注于分類算法的研究較多, 而針對分類過程的自動化及其實用性方面則鮮有涉及,更沒有專門考慮從選擇樣本這個階 段改進分類的自動化程度。
發明內容
本發明的目的是提供一種面向遙感影像監督分類的全自動樣本選擇方法,重點應 用決策樹方法實現地學知識的發掘與專家知識的融入,針對不同分類器的要求以及特定的 分類任務引入隸屬度以自動調整樣本分布,在完善自動分類流程的同時保證樣本選擇精 度,可以取得良好的分類效果。本發明的基本思路為從標準類別庫中選擇所需類別,利用自適應調整的分類決 策樹完成各類樣本的自動選擇,從而應用各種分類器完成遙感影像的像素級分類過程。本 發明的重點在于樣本自動選取過程,具體可分解為三步(1)用戶在與標準決策樹對應的 標準類別庫中選擇需要分類的類別,并根據所選類別對標準決策樹進行相應剪枝形成當前 的決策樹用于選擇樣本;(2)在影像中隨機選取候選樣本點,對于每個候選樣本點,根據分 類決策樹計算其相對于每個類別的隸屬度,并根據最近的隸屬關系確定其類別,形成相應 類別的樣本點;(3)統計每個類別中樣本點的分布關系,并進行相應的剔除和添加,使其符 合相對于隸屬度的正比(或指數)分布。本發明可以選擇ARTMAP、BP神經網絡、支撐向量機等模式識別方法中針對多維輸 入的相關分類器進行分類,這些方法是相對較為成熟,再結合本發明所提供的樣本自動選 取方法,可真正實現遙感影像的自動監督分類,在實際應用中體現更大的優勢。本發明的技術方案提供了遙感影像全自動分類的實現方法,包括以下的實施步 驟 1)根據指數知識和波譜知識建立標準決策樹,預設相應的標準類別庫;2)從預設的標準類別庫中選定針對當前影像所需的類別,并根據選定的類別對標 準決策樹進行剪枝,形成對應的分類決策樹;3)從影像中隨機選取一個候選樣本點,依據分類決策樹每一層級的判斷指標確定 該候選樣本點對應于每個類別的隸屬度,并根據最近的隸屬關系確定其類別,作為該類別 的樣本點;4)對于每個類別,統計其相應于隸屬度值的分布情況,按照與隸屬度成正比(或 指數關系)的分布原則,剔除多余樣本,或者補足缺失樣本;5)重復步驟3),直至所選樣本滿足步驟4)中的統計要求;6)每個類別都達到相應的樣本分布要求和數量時,以樣本對應的全部波段值作為多維輸入,選擇合適的分類器,進行樣本的訓練,并對影像進行分類,形成最終的分類圖;上述實施步驟的特征在于步驟1)中標準庫和標準決策樹的建立需要參考波譜知識和經驗知識,如水體指 數可以作為對水體的評判準則,而植被指數則可以用作對植被的評判準則,因此標準決策 樹的建立也意味著標準類別庫的形成,每一種標準類別都是標準決策樹中的一個葉子節 點。上述各種評判準則的閾值根據經驗知識初步確定,并在后續根據實際分類影像進行自 適應調整;步驟2)需對標準決策樹進行適當的剪枝即形成僅包含當前類別的子決策樹,同 時針對當前影像對評判準則的閾值進行自適應調整;步驟3)是根據分類決策樹確定當前影像中隨機候選樣本點的類別,類型通過計 算隸屬度來判別,隸屬度則由指數知識和地物波譜知識來確定,符合遙感機理并且采用定 量化計算方法,從而更精確地獲取樣本;步驟4)根據每個類型中樣本的隸屬度值統計并確定樣本的分布關系,根據分類 器的特點,可以使用不同的樣本分布策略,一般來講,樣本數量應按照隸屬度從大到小呈遞 減的分布,從而保證分類過程中在區分大類的同時,能夠有一定數量的參考樣本來辨別存 在于各個類型之間的臨界區域中的像素點;步驟5)、步驟6)確定所選樣本已符合分類的數量和分布后,可選擇多種分類器進 行分類,所選分類器需支持多維輸入,輸出為表示類別的標號值;由于本方法選擇的樣本可 以是對應于每個類別的隸屬度,因此也可由模糊分類器進行分類,分類結果為對應于每個 類別的隸屬度向量。本發明與現有技術相比具有如下特點能夠充分發掘遙感和地學知識以及專家經 驗知識,并加以形式化地表達來指導樣本的定量化計算,從而自動地確定類型,同時根據所 選樣本的統計信息,自動確定樣本的分布和數量,使知識的應用更為有效,自動選擇的樣本 不僅準確而且具有較廣泛的代表性。本發明實現了監督分類的自動化和精確化,還可以充 分發揮監督分類器(如支持向量機、神經網絡模型)在不同分類要求中的優勢,達到有機結 合的目的,提高了分類的精度以及自動化程度。
圖1是遙感影像自動分類流程示意2是自動剪枝生成當前決策樹示意3是決策樹及樣本隸屬度判別示例4是波譜角示意5是污水反射率曲線6是某一類別的“隸屬度_樣本數量”曲線分布7是某一類別的樣本規整流程圖
具體實施例方式圖1為遙感影像自動分類方法的示意圖,一共包含6個處理單元,其中C、D、E和F 組成的樣本自動選取為本發明的關鍵環節。開始分類之前首先需要對原始的遙感影像進行預處理(處理單元A),主要包括幾何校正、輻射校正等工作,接下來的自動選擇樣本工作過 程如下首先需要確定當前影像應該分為哪幾類(處理單元B),這是監督分類的基本要 求。本發明采用從預設類別庫中選擇的方法(如圖2所示),預設類別庫相當于標準決策樹 的所有葉子節點,亦即根據標準決策樹對預設類別庫中的所有類別進行分類。雖然標準決 策樹的建立是自動分類的前期工作,但它對分類結果的影響深遠,因此有必要對其進行分 析和介紹。標準決策樹根據地物標準波譜數據輔以地學專家知識(也可完全依據專家經驗 知識)而生成,除了使用積分波段值以外,還延伸使用一系列的指數作為決策樹判別準則, 主要有歸一化雪被指數(NDSI),其計算公式如下 歸一化差異水體指數(NDWI),其計算公式如下 歸一化差異植被指數(NDVI),其計算公式如下 陸表水指數(LSWI),其計算公式如下 上述公式中,Geeen代表綠色波段,Mie代表中紅外波段,Nie代表近紅外波段,Red代 表紅色波段,Swik代表短波紅外波段。圖3所示為標準決策樹一個子集的示例,由于通過指數和波段值的判別能很好地 區分地物的大類,因此被用于進行粗分類。根據經驗指標的判別,即可確定水體、冰雪、云 層、濕地、植被、其他等幾個大類。進一步的小類則需依賴業已測定的地物波譜庫來確定,具 體方法見后續說明。建立標準類別庫和對應的標準分類決策樹后,為了獲得與當前分類類別所匹配的 子決策樹,我們還需要對上述標準決策樹進行自動剪枝處理(圖1的處理單元C)。不同于 一般的決策樹后剪枝算法,在此我們已經確定需要裁剪的葉子節點,因此處理相對簡單,剪 枝的原則是保留所選定類別的葉子節點,將其他葉子節點相關的分叉剪除。確定了類型和相應的決策樹后,即可在影像中隨機選取候選樣本點,根據圖3所 示的決策樹計算其相對于各個選定類別的隸屬度值(圖1的處理單元D)。具體計算方法如 下在決策樹的每個分叉處都有一定的范圍約束,利用此范圍即可定義出對應類別的 隸屬度,需要說明的是,本發明對于隸屬度的計算只在確定葉子節點的那個分叉進行,其他 分叉只用于區分大的類別。以區分水體和冰雪的分叉為例,依據NDWI值,它確定了兩個子 類別,其中約束水體的指標為NDWI > 0. 4 (經驗值),定義其隸屬度Subwatw如下 當NDWI值大于0. 4時,其隸屬度隨著NDWI值的增大呈線性增大;而當NDWI值小 于等于0.4時,其隸屬度則隨著NDWI值的減小呈指數減小。δ則由上一級的分叉決定,屬 于本分枝時(NDSI>0.3)則給予較大的因子1.0,否則給予較小的因子0.1。由以上公式 確定的隸屬度即定義了水體的隸屬度值,其他類型也可根據指數值進行相應的定義。以上只針對指數值進行了隸屬度的定義,它只適用于幾個大類的隸屬度計算,對 于更細的小類,則需借助于現有的典型地物波譜庫來完成。具體實現方式如下圖4所示為一般的波譜角計算方法,圖4 (a)為兩種地物在二維空間(兩個波段) 上的光譜角示意,若S為標準地物波譜在二維空間上的波段矢量,而S’為測試樣本的相應 波段矢量,那么SAM即為它們的波譜夾角,并且其大小可以表征兩者的相似程度。將其擴展 到多維空間,如圖4 (b)所示為某一地物在η維空間中的表示,其中橫坐標為波段值,縱坐標 為對應的反射率,S1, S2. . . Sn分別表示該地物在相應中心波段值上的反射率積分值,現假設 S= (R1, R2, R3... Rn)、S' = (R' i;R' 2,R' 3. . . R' n)分別為標準地物的波譜矢量和候 選樣本的波譜矢量,則根據如下公式可以計算候選樣本與某一標準地物光譜的相似性,以 波譜夾角的反余弦函數表征 針對某一類地物,選取相應的若干條波譜數據,按照遙感數據的波段配置計算波 譜積分值后,形成各自的波譜向量,再與候選樣本的光譜向量一一計算波譜角,并取其最小 值,即作為候選樣本對應于該類地物的隸屬度值。例如,對于污水,本發明選取了 USGS發布 的全球地物波譜數據庫中的 water_mont_mix_a. 27273、water_mont_mix_a. 27299、water_ mont_mix_a. 27324、water_mont_mix_a. 27348四條波譜數據作為基準指標(如圖5),遙感 數據選用ETM影像的1-6波段數據。首先對以上四條波譜數據分別在0. 45-0. 52 μ m(藍 波段)、0· 52-0. 60 μ m(綠波段)、0· 62-0. 69 μ m(紅波段)、0· 76-0. 96 μ m(近紅外波段)、 1. 04-1. 25 μ m(遠紅外波段)、1. 55-1. 75 μ m(中紅外波段)六個波段范圍內進行反射率積 分,分別獲得六維的波譜積分向量;然后取候選樣本點在六個波段上的反射率值(或者DN 值)作為其光譜向量;計算兩者向量的波譜角,并對其在W,l]范圍內進行歸一化,即可作 為該樣本點對污水的隸屬度。將以上基于指數和基于波譜角的隸屬度相結合,即可一一計算候選樣本點相對于 每個選中類型的隸屬度值,取它們的最大值,即可取得其所屬類別。重復計算單個樣本的步 驟,即獲得每個類別上的樣本集合,需對其進行數量和分布的規整(圖1的處理單元E),本 發明按照以下方式進行規整。對于每個類別,其樣本的分布要求由以下公式確定Num = α · e10.Sub其中Sub表示隸屬度,Num表示了分類所需的隸屬度為Sub的樣本個數,α作為調 整該類別樣本總數的一個限定參數。
具體調整樣本分布的算法如圖7所示,描述如下①對于某一類別的樣本,在
區間內將Sub值等分為10個區間W,0. 1],
,…,
;②分別取以上區間的中間值Sub = 0. 05,0. 15,0. 25. ... ,0. 95來計算Num值(取
整)作為該區間內所需的樣本個數,此處α可取一個合適的常整數;③對于每一個隸屬度區間,在當前隨機獲得的該類樣本集合中按照隸屬度值均勻 分布的原則選取所需數量的樣本,并且剔除多余的樣本,對于樣本數量不足的區間,則不考 慮均勻分布的原則而以保證樣本數量為優先考慮原則;④若最高三個隸屬度區間內的樣本數量尚未滿足所需數量的一半,則再進行隨機 樣本選取,或者遍歷部分影像,以搜集獲得足夠的樣本點,并跳至③;⑤若還未滿足數量要求,則調低α值,再次進行調整計算,跳至②;否則算法結
束ο此算法的優點在于既保證了最能表征每個類別的樣本點占有多數,從而使分類盡 量準確;同時又保留了隸屬度相對較低的那些樣本點,從而使介于各個類型之間的那些模 糊像素點得以區分。至此,對應于選中的每個類型,都已選定了滿足數量和分布要求的樣本點集合,隨 后我們按照一般的“樣本預處理_機器學習_機器分類”的步驟,對影像進行分類,并獲取 最終的分類圖。本發明所選取的樣本,可應用于目前流行的各種支持多維輸入的分類器進 行分類,具有一定的普適性。本發明的實例在PC平臺上實現,經實驗證明,本發明能在遙感影像監督分類中實 現了智能和自動地選取樣本,并且分類精度與常規人工的分類方法大體相當,使其真正達 到了自動化水平。本發明中所提及方法可用于遙感影像像素級分類相關的大規模應用領域 中,在保證分類精度的前提下,改善其自動化程度,提高工作效率,節省人力,如第二次全國 土地資源調查等大型應用。
權利要求
一種遙感影像全自動樣本選擇的實現方法,其特征在于包括以下的實施步驟步驟1,根據指數知識和波譜知識建立標準決策樹,預設相應的標準類別庫;步驟2,從預設的標準類別庫中選定針對當前影像所需的類別,并根據選定的類別對標準決策樹進行剪枝,形成對應的分類決策樹;步驟3,從影像中隨機選取一個候選樣本點,依據分類決策樹每一層級的判斷指標確定該候選樣本點對應于每個類別的隸屬度,并根據最近的隸屬關系確定其類別,作為該類別的樣本點;步驟4,對于每個類別,統計其相應于隸屬度值的分布情況,按照與隸屬度成正比(或指數關系)的分布原則,剔除多余樣本,或者補足缺失樣本;步驟5,重復步驟3,直至所選樣本滿足步驟4中的統計要求;步驟6,每個類別都達到符合相應的樣本分布要求和數量時,以樣本對應的全部波段值作為多維輸入,選擇合適的分類器,進行樣本的訓練,并對影像進行分類,形成最終的分類圖。
2.根據權利要求1所述的自動樣本選擇方法,其特征在于標準決策樹的建立需參考各 種地學知識和經驗知識,同時其葉子節點與標準類別庫相對應,各種評判標準的閾值確定 根據經驗知識初步確定,并在后續根據實際分類影像進行自適應調整,而用于分類樣本選 擇的決策樹在上述標準決策樹上進行相應剪枝而自動生成,無須人工干預。
3.根據權利要求1所述的自動樣本選擇方法,其特征在于隨機候選樣本點的類型通過 計算隸屬度來判別,隸屬度則由指數知識和地物波譜知識來確定,同時結合對樣本分布的 調整以方便與特定的分類器有效結合或滿足特定的分類要求。
全文摘要
本發明提供一種面向遙感影像監督分類過程的全自動樣本選擇方法,屬于計算機遙感影像信息處理技術領域。該方法主要應用決策樹方法實現地學知識與專家知識的融入并以此自動選擇樣本,首先根據各種指數、波譜及經驗知識建立標準決策樹,然后自動剪枝并形成針對當前影像的分類決策樹,再采用此分類樹自動選擇樣本,同時針對不同分類器的要求或特定的分類任務引入隸屬度以自動調整候選樣本分布,在完善自動分類流程的同時保證樣本選擇精度,最終配合監督分類可以取得良好的分類效果。
文檔編號G06K9/62GK101894270SQ201010236399
公開日2010年11月24日 申請日期2010年7月26日 優先權日2010年7月26日
發明者夏列鋼, 沈占鋒, 程熙, 胡曉東, 郜麗靜, 駱劍承 申請人:中國科學院遙感應用研究所