一種遙感影像分類的域自適應方法及系統的制作方法
【專利摘要】本發明涉及遙感影像技術領域,公開了一種遙感影像分類的域自適應方法及系統,所述域自適應方法包括:通過主動學習從目標領域選擇出對于當前分類器最具有信息量的未標記樣本進行標記,并根據標記后的樣本和當前訓練樣本集來調整所述當前分類器;以及通過半監督學習調整經主動學習調整后的所述當前分類器。本發明的域自適應方法及系統適用于不同時間同一區域或者不同區域之間影像先驗知識的遷移,通過主動學習和半監督學習的方法解決了域自適應性問題,使得不同影像之間的知識得以相互傳遞和利用。
【專利說明】
一種遙感影像分類的域自適應方法及系統
技術領域
[0001 ]本發明涉及遙感影像技術領域,具體地,涉及一種遙感影像分類的域自適應方法 及系統。
【背景技術】
[0002] 目前,利用遙感影像自動分類技術來獲取土地覆蓋類型圖通常利用的是監督學習 的方法和機器學習的方法。
[0003] 監督學習通常依賴于一組標記過的參考樣本訓練分類算法。這些監督學習的方法 在每次處理一個新的遙感影像時,都需要一套新的訓練樣本,導致產生較高的時間和人力 成本。與此同時,對某些無法實施現場踏勘和沒有歷史資料可參考的區域進行分類時,訓練 樣本的較難獲取成為了采用監督學習實現分類的嚴苛限制。
[0004] 機器學習對于某一景遙感影像的分析相對于監督學習,可以在一定程度上有所拓 展,主要表面在兩方面:1)既有先驗知識可以應用于不同區域,但有相似的特征、類別的其 它影像做分類;2)既有先驗知識可以應用于更新土地覆蓋圖,即源影像和目標影像為同一 地理區域但不同時間的影像。從而可知,在機器學習中,對既有先驗知識的利用是非常重要 的,源影像中的既有信息可以應用于目標影像中來減少相關的分類的成本。因此,機器學習 對于某一景遙感影像的分析的問題都可以歸結為迀移學習,特別是歸結為域自適應 (Domain Adaptation,簡稱為DA)學習。DA學習能夠有效地解決訓練樣本和測試樣本概率分 布不一致的學習問題,其主要目的在于將分類器所學習到的知識從源領域向目標領域轉 移。因此,對于DA問題,需要應對由于空間和時間的變化所帶來的地物類別的光譜特征變 化,以實現將分類模型從源領域迀移到目標領域。
[0005] 綜上所述,在通常的工程應用中,進行遙感影像分類時,一般使用監督學習分類的 方法來保證精度,但耗費了大量時間和人力,并產生了大量的冗余樣本。而在機器學習的方 法中,又需要有效地解決DA問題。
【發明內容】
[0006] 本發明的目的是提供一種遙感影像分類的域自適應方法及系統,以有效地解決DA 問題。
[0007] 為了實現上述目的,本發明提供一種遙感影像分類的域自適應方法,該域自適應 方法包括:通過主動學習從目標領域選擇出對于當前分類器最具有信息量的未標記樣本進 行標記,并根據標記后的樣本和當前訓練樣本集來調整所述當前分類器;以及通過半監督 學習調整經主動學習調整后的所述當前分類器。
[0008] 優選地,所述當前分類器為支持向量機SVM分類器和概率分類器中的任意一者;對 于所述SVM分類器,所述主動學習包括:采用邊緣采樣MS方法進行主動學習;對于所述概率 分類器,所述主動學習包括:采用熵查詢采樣EQS方法進行主動學習。
[0009] 優選地,采用MS方法進行主動學習包括:確定各個未標記樣本對應的支持向量和 計算各個未標記樣本到SVM分類超平面的距離;從目標領域選擇未標記樣本進行標記,其 中,所選擇的未標記樣本對應的支持向量各不相同,且到SVM分類超平面的距離不超過設定 閾值;以及將標記后的樣本添加至當前訓練樣本集以更新訓練樣本集,并基于更新后的訓 練樣本集調整當前SVM分類器。
[0010]優選地,采用EQS方法進行主動學習包括:計算每個未標記樣本被預測為各個可能 的類別的概率,并基于計算出的概率計算每個未標記樣本的熵;從目標領域選擇具有最大 熵的未標記樣本進行標記;以及將標記后的樣本添加至當前訓練樣本集以更新訓練樣本 集,并基于更新后的訓練樣本集調整所述概率分類器。
[0011] 優選地,所述通過半監督學習調整經主動學習調整后的所述當前分類器包括:從 通過主動學習后剩余的未標記樣本中,選擇出符合半監督學習的約束條件的樣本;通過經 主動學習調整后的所述當前分類器對選擇出的樣本進行標記;以及將標記后的樣本添加至 當前訓練樣本集以更新訓練樣本集,并基于更新后的訓練樣本集調整經主動學習調整后的 所述當前分類器。
[0012] 優選地,當所述當前分類器為SVM分類器時,所述約束條件被設置為:要求未標記 樣本到對應的間隔邊界的距離大于或等于設定閾值,且該未標記樣本經分類器處理后得到 的標簽與該未標記樣本的最近鄰點的標簽相同。
[0013] 優選地,當所述當前分類器為概率分類器時,所述約束條件被設置為:要求未標記 樣本相對于當前分類器的熵小于或等于設定閾值,且該未標記樣本經分類器處理后得到的 標簽與該未標記樣本的最近鄰點的標簽相同。
[0014] 優選地,該域自適應方法還包括:在主動學習的過程中,設置刪除查詢函數,并基 于該刪除查詢函數從源領域的當前訓練樣本集中刪除不適用于目標領域的樣本。
[0015] 本發明還提供了一種遙感影像分類的域自適應系統,該域自適應系統包括:主動 學習模塊,用于通過主動學習從目標領域選擇出對于當前分類器最具有信息量的未標記樣 本進行標記,并結合標記后的樣本和當前訓練樣本集來調整所述當前分類器;以及半監督 學習模塊,用于通過半監督學習調整經主動學習調整后的所述當前分類器。
[0016] 優選地,所述主動學習模塊包括針對SVM分類器的MS模塊和針對概率分類器的EQS 模塊中的任意一者;其中,所述MS模塊:用于確定各個未標記樣本對應的支持向量和計算各 個未標記樣本到SVM分類超平面的距離;用于從目標領域選擇未標記樣本進行標記,其中, 所選擇的未標記樣本對應的支持向量各不相同,且到SVM分類超平面的距離不超過設定閾 值;以及用于將標記后的樣本添加至當前訓練樣本集以更新訓練樣本集,并基于更新后的 訓練樣本集調整當前SVM分類器。
[0017]通過上述技術方案,本發明的有益效果是:本發明的域自適應方法及系統適用于 不同時間同一區域或者不同區域之間影像先驗知識的迀移,通過主動學習和半監督學習的 方法解決了域自適應性問題,使得不同影像之間的知識得以相互傳遞和利用,利用已有知 識解決未知問題,大大提高了遙感土地覆蓋圖的生產效率,解決了遙感影像樣本選取過程 中的人力和時間的重復投入問題。
[0018]本發明的其它特征和優點將在隨后的【具體實施方式】部分予以詳細說明。
【附圖說明】
[0019] 附圖是用來提供對本發明的進一步理解,并且構成說明書的一部分,與下面的具 體實施方式一起用于解釋本發明,但并不構成對本發明的限制。在附圖中:
[0020] 圖1是本發明的總體設計思路的流程示意圖;
[0021 ]圖2是本發明的實施例中的域自適應方法的流程示意圖;
[0022]圖3是本發明的實施例中的主動學習過程的設計思路示意圖;
[0023]圖4是本發明的SVM分類器的初始分類示意圖;
[0024]圖5是本發明的實施例中基于改進的MS方法進行主動學習的流程示意圖;
[0025]圖6是本發明的實施例中采用改進的MS方法調整SVM分類器后的結果示意圖;
[0026]圖7是本發明的實施例中采用EQS方法進行主動學習的流程示意圖;
[0027]圖8是本發明的實施例中半監督學習過程的設計思路示意圖;
[0028] 圖9是本發明的實施例中進行半監督學習的流程示意圖;
[0029] 圖10是本發明的實施例中的域自適應系統的結構示意圖。
【具體實施方式】
[0030] 以下結合附圖對本發明的【具體實施方式】進行詳細說明。應當理解的是,此處所描 述的【具體實施方式】僅用于說明和解釋本發明,并不用于限制本發明。
[0031 ]在本發明中,所述遙感影像包括有遙感多光譜影像和遙感高光譜影像等。
[0032]目前,主動學習在機器學習領域有著廣泛應用,主動學習通過構造有效訓練集,利 用查詢函數逐次迭代查找有利于最大化提升分類效果的樣本,能夠有效減少分類訓練集的 大小并控制人工標注成本,極大地提高了分類算法的效率。
[0033]另外,監督學習、無監督學習和半監督學習在機器學習領域也有著廣泛應用。監督 學習的中心思想在于通過對大量有標簽(也稱為類別標號)的訓練樣本進行學習,來推導出 一個適用于這些訓練樣本的分類器,并用這個分類器來判斷未知樣本的標簽。無監督學習 是在完全沒有標簽的樣本集中學習,得出樣本集標簽的方法。而半監督學習方法則是監督 學習方法和無監督學習方法的結合,在利用有標簽樣本進行學習的同時,挖掘未標記樣本 中所包含的大量可用于調整分類器的信息,可以將未標記樣本轉化為有標記的樣本,隨后 將轉化后的樣本加入到標簽樣本集中,達到擴大訓練數據集、調整分類器性能和準確性的 目的。半監督學習在遙感地面覆蓋、地面利用信息提取的過程中,能夠通過少量的標記樣本 訓練分類器來實現大量未標記樣本的自動分類,減少人工成本,對于遙感圖像快速處理具 有重要的實際意義。
[0034]因此,本發明綜合主動學習和半監督學習所具備的優點,提出了結合主動學習算 法和半監督學習算法的技術方案,以解決遙感影像分類中的域自適應問題。如圖1所示,本 發明的總體設計思路是:首先假設源影像與目標影像具有相似條件(或源領域與目標領域 具有相同的特征空間),并分別對源影像和目標影像進行預處理,再在源領域按比例選擇初 始訓練樣本,獲得初始分類器;其次,通過主動學習按照一定的查詢條件加入和刪除訓練樣 本以調整分類器;最后,通過基于約束條件的半監督學習對主動學習調整后的分類器進行 后處理,將最終得到的分類器應用于目標影像,從而獲得目標影像分類結果,完成了迀移學 習。
[0035]下面介紹基于上述總體思路的具體實施例。
[0036]如圖2所示,本發明的實施例提出了一種遙感影像分類的域自適應方法,該域自適 應方法包括:
[0037]步驟S1,通過主動學習從目標領域選擇出對于當前分類器最具有信息量的未標記 樣本進行標記,并結合標記后的樣本和當前訓練樣本集來調整所述當前分類器。
[0038]其中,對于當前分類器最具有信息量即是指對于當前分類器而言具有最不確定分 類結果。另外,調整所述當前分類器的同時,還要刪除當前訓練樣本集中不符合目標領域特 征分布的源領域樣本,采用的刪除策略將在下文中有詳細描述,在此不再贅述。
[0039] 步驟S2,通過半監督學習調整經主動學習調整后的所述當前分類器。
[0040]基于步驟Sl和步驟S2,可知本實施例的域自適應方法主要包括主動學習和半監督 學習兩個過程,下面對這兩個過程分別進行詳細描述。
[0041 ] 一、主動學習過程
[0042]本實施例中,為了讓迀移學習之后的分類器更好地適用于目標影像的分類,在目 標影像中應用主動學習的查詢函數來選取最具信息量的未標記樣本進行標記,該最具信息 量的樣本也即是對當前分類器的調整最有價值的樣本。
[0043]假設初始的訓練集來源于源影像中已知的η個樣本,記為Χ={χι,χ2,···,χ η},它們 有相應的標簽Y= {yi,y2,…,yn}。主動學習的目的在于從來自于目標影像的m個未標記樣本 的集合Q = {qi,q2,…,qm}中選擇候選樣本加入到訓練樣本集中,其中m?n,其中預先假設源 領域和目標領域具有相同的特征空間。在主動學習的方法中,算法關注最難分類的樣本,這 是由于位于類別區域內部的樣本的類別較為穩定,對于當前分類器的提升不具有價值,而 位于類別邊緣的樣本才是對于當前分類器的調整最有價值的樣本。
[0044]進一步地,本實施例對最具信息量的未標記樣本進行標記時,采用人工標記的方 式進行主動標記,人工標記的過程有利于保證分類器調整的過程中的準確性。
[0045]在處理分類問題時,主動學習的查詢通常從下面三個方面進行創建:1)基于分類 委員會(熵);2)基于分類器邊緣;3)基于后驗概率。因此,考慮到可以從不同的方面創建查 詢函數,如圖3所示,本實施例分類器的不同類型,提出了針對SVM( Support Vector Machine,支持向量機)分類器的MS (Margin Sampl ing,邊緣采樣)方法和針對概率分類器的 EQS(Entropy Query Sampling,熵查詢采樣)方法,并進一步提出查詢和刪除源領域中不適 用于目標領域的樣本的方法,以獲得最終需要的樣本。
[0046] 1、改進的MS方法
[0047]常規的MS方法是基于SVM分類器的主動學習算法,這種算法充分利用了 SVM算法的 幾何特性。以二類問題的線性可分情況為例,兩個不同的類別由SVM分類超平面區分開來, 支撐向量是距離決策邊界的距離正好為1的已標記樣本,如圖4所示,給出了 SVM初始分類的 示意過程,其中實線表示分離超平面,虛線表示間隔邊界,而三角形和菱形表示兩種不同類 別的樣本,填充的三角形和菱形則表示當前分類超平面所對應的支持向量,符號"X"表示 待選未標記樣本,最有信息量的樣本位于SVM分類超平面的邊緣。在主動學習過程中,假設 最感興趣的候選樣本位于當前SVM分類超平面的邊緣,這些分類不確定的樣本最具有信息 量,很有可能改變當前的分類平面。以二分類情況為例,給出SVM分類器的判別函數如下:
[0048]
( 1 )
[0049] 其中,K(Sj,Xl)是核矩陣,其定義了候選樣本X1和第j個支撐向量^之間的相似度; Q j為支撐向量的系數,^是對應候選樣本的標簽。當處理多類問題時,通常可以分解為多個 一對多問題進行處理。
[0050] 為了保證選出來的樣本在類別之間具有均衡性,可以按比例對每一個類別選取一 定的樣本進行標記。此處的比例有兩層意思:其一是按照在源領域中各個類別樣本之間的 比例α來選取新的樣本;其二是新選取的樣本總數占初始樣本總數的比例β。
[0051] 但是,當用SVM分類器處理遙感圖像時,為了避免相似樣本多次引入導致的信息冗 余且計算量增加,在按比例選取的同時需要加入一些選擇的策略。考慮到分類過程中可能 會出現候選樣本非均勻分布的情況,當同一個支持向量周圍分布多個非常近鄰的候選樣本 時,來自同一地區的多個候選樣本將被選擇。然而這種選擇結果由于在一次迭代中選擇了 多個過于相似的樣本,同樣不能給當前分類器帶來很好的改善。為此,本實施例對常規的MS 方法進行了優化,提出了一種改進的MS方法,該改進的MS方法將每個候選樣本相對于當前 的支持向量的位置被儲存起來,以用于選擇最感興趣的樣本。
[0052]如圖5所示,本實施例中,基于改進的MS方法進行主動學習包括以下步驟:
[0053]步驟S11A,確定各個未標記樣本對應的支持向量和各個未標記樣本到SVM分類超 平面的距離。
[0054] 具體地,考慮到候選樣本在特征空間中的分布,本實施例提供了支持向量列表SV ={(xi,yi),(X2,y2),+ (X1^ynM。基于該支持向量列表,對于每一個候選未標記樣本xu,可 以計算該樣本對應的支持向量的距離S un以及到SVM分類超平面的距離dn,得到一個列表 {(xui,s ui,disi),(xU2,sU2,dis2) ,...,(Xim1Sur^disnM,并進一步根據disn進行排序并選擇最 小的前m個值。
[0055] 步驟SI IB,從目標領域選擇未標記樣本進行標記,其中,所選擇的未標記樣本對應 的支持向量各不相同,且到SVM分類超平面的距離不超過設定閾值。
[0056]具體地,對于上述距離disn最小前m個樣本的選擇,設定以下約束條件:1)給定一 個閾值ds,選擇disn小于或等于該閾值的樣本;2)Sun不能重復選擇。對于約束條件2),表明 在每一次迭代過程中,同時添加進入訓練樣本集的候選樣本之間不可能共享同一個支持向 量。
[0057]步驟S11C,將標記后的樣本添加至當前訓練樣本集以更新訓練樣本集,并基于更 新后的訓練樣本集調整當前SVM分類器。
[0058] 如圖6所示,其為在圖4的基礎上采用改進的MS方法調整SVM分類器后的結果示意 圖,完成了部分的迀移學習,其采用的符號與圖4相一致。從圖4可知,基于改進的MS方法的 查詢規則,從目標領域樣本中選擇所對應的支持向量各不相同,并且到分類面的距離不超 過設定閾值的未標記樣本進行標記。
[0059] 2、EQS 方法
[0060] 前述的經過改進的MS方法更適用于SVM分類器,但是主動學習的過程需要在遙感 影像分類中具有普適性,因此本發明的實施例還提出了適用于多種概率分類器(最大似然、 神經網絡、決策樹等分類器)的EQS方法。該EQS方法是基于分類委員會的查詢算法,候選樣 本的選擇是基于不同分類委員會成員之間的分歧進行的。
[0061] 如圖7所示,采用針對概率分類器的EQS方法進行主動學習的具體步驟包括:
[0062] 步驟S12A,計算每個未標記樣本被預測為各個可能的類別的概率,并基于計算出 的概率計算每個未標記樣本的熵。
[0063] 具體地,將初始訓練樣本集隨機分為K個集合。然后,將K個集合分別用于訓練各自 的分類器并且預測m個候選樣本的類別,計算每個候選樣本X 1被預測為類別c的概率p(Xl, c),并采用下沭公式(2),計筧各未標記樣本的熇:
[0064]
(2)
[0065]步驟S12B,從目標領域選擇具有最大熵的未標記樣本進行標記。
[0066]步驟S12C,將標記后的樣本添加至當前訓練樣本集以更新訓練樣本集,并基于更 新后的訓練樣本集調整所述概率分類器。
[0067] 3、刪除查詢函數
[0068] 在前兩部分中,MS方法和EQS方法的目的均是在當前訓練樣本集中增加目標領域 的新樣本。與此同時,主動學習還可以學習出源領域中不適用于目標領域的樣本進行刪除, 以保證訓練樣本集更向著目標領域的分布調整。實現刪除源領域中不適用于目標領域的樣 本的方法具體包括:在主動學習過程中,設置刪除查詢函數,并基于該刪除查詢函數從源領 域的當前訓練樣本集中刪除不適用于目標領域的樣本。
[0069] 對于不同的分類器,需要刪除的樣本的類型可能也會不同,因此需要設置的刪除 查詢函數也不相同。
[0070] 就SVM分類器而言,以二類問題為例,樣本的標簽可以用{0,1}表示,若該樣本的特
征符合5 ....................... ......... -...........I表示為:
[0071] (3)
[0072] 由于主動學習的過程要經歷多次循環,當循環次數t大于等于指定的to時,可以計 算訓練樣本集Q1中來自于源領域的訓練樣本 Xl被判別函數f (Xl)劃分為正例的累積次數與 被劃分到負例的累積次數的差值的絕對值。該差值越小表示該源領域訓練樣本相對于目標 領域而言不穩定,不能提供很好信息的樣本,因此可以予以刪除。
[0073] 對于使用EQS方法的其他分類器而言,可將源影像的樣本帶入分類器,選擇不能代 表穩定可傳遞信息的樣本,予以刪除。刪除查詢函數Reqs可以表示為:
[0074]
(4)
[0075] 其中,Iu表示初始訓練集,P1U |c)表示第i次循環中訓練樣本X被判別為類別c的條 件概率。通過以上的刪除查詢函數,查詢到源領域中不適用于目標領域的樣本,實現了訓練 樣本集的再次更新。
[0076] 二、半監督學習過程
[0077]上述主動學習過程的目的在于選取出對于當前分類器而言最具有信息量的樣本, 然后對這些挑選出來的未標記樣本進行人工標記,以人為控制當前分類器朝著更適用于目 標領域的方向進行調整。由于挑選出來的樣本相對于整個樣本集而言是最具有信息量的少 量樣本,因此也不會過多的增加人工標記的負擔。因此上述主動學習過程既可以保證準確 性,又可以有效降低人工標記的時間和人力成本。
[0078]由于主動學習之后在目標領域中仍存在大量的未標記樣本,本實施例提出將半監 督學習方法作為主動學習的后處理過程,使得經過主動學習之后目標領域中仍存在的大量 未標記樣本可以得到利用,并進一步調整了分類器,在不增加任何人工成本的情況下,使之 朝著更適用于目標領域的方向發展,提高了不同領域之間的域自適應調整的精度。如圖8所 示,本實施例中設計半監督學習過程的主要思路是:基于SVM分類器和概率分類器分別設計 帶約束條件的半監督學習算法,前者基于距離閾值和最小距離標簽相同兩個約束條件選擇 樣本,后者則基于熵閾值和最小距離標簽相同兩個約束條件選擇樣本。
[0079] 本實施例中,如圖9所示,半監督學習作為主動學習的后處理過程,其調整經主動 學習調整后的分類器的主要步驟包括:
[0080] 步驟21,從通過主動學習后剩余的未標記樣本中,選擇出符合半監督學習的約束 條件的樣本。
[0081] 為了在樣本的信息性和預測標號的準確性兩者之間獲得較好的平衡,本實施例 中,使用CSS(Constrained Semi-supervised learning,帶約束條件的半監督學習)。通過 設置約束條件,可以提高自學習選出的樣本的預測標號的準確性。針對前文所述的針對兩 種分類器的主動學習方法,本實施例的半監督學習設置了不同的約束條件。
[0082] 1)對于SVM分類器,所述約束條件被設置為:要求未標記樣本到對應的間隔邊界的 距離大于或等于設定閾值,且該未標記樣本經分類器處理后得到的標簽與該未標記樣本的 最近鄰點的標簽相同。
[0083] 2)對于概率分類器,所述約束條件被設置為:要求未標記樣本相對于當前分類器 的熵小于或等于設定閾值,且該未標記樣本經分類器處理后得到的標簽與該未標記樣本的 最近鄰點的標簽相同。
[0084] 步驟22,通過經主動學習調整后的分類器對選擇出的樣本進行標記。
[0085] 具體地,通過已知的樣本訓練得到分類器,然后通過這個分類器對選擇出的未標 記樣本進行標記。
[0086] 步驟23,將標記后的樣本添加至當前訓練樣本集以更新訓練樣本集,并基于更新 后的訓練樣本集調整經主動學習調整后的分類器。
[0087] 具體地,將步驟S22中分類器的分類結果中較為確定的未標記樣本,連同它們對應 的由分類器預測得到的標簽一起,加入到當前的訓練樣本集,再用擴充后的訓練樣本集重 新訓練分類器,對分類結果進行更新。
[0088]針對前文所述的針對兩種分類器的主動學習方法,并結合半監督學習的約束條件 和基本步驟21至步驟23,下面詳細介紹針對兩種分類器的具體的半監督學習過程。
[0089] USVM分類器的半監督學習過程
[0090] 1)對于當前的每個未標注樣本xu,計算Xu相對于所對應的間隔邊界的距離d,并記 錄經分類器處理后得到的標簽yd:
[0093] 并將該最近鄰點的標簽記為ynext。
[0091] 彳+曾Y.'SlM川祐垤太隹丨由日ff右垤太的彳dx,Xu),尋找 Xu的最近鄰點Next (Xu):
[0092] ( 5 )
[0094] 3)約束條件
[0095] 閾值約束:d 2 threshold。其中,threshold為設置的閾值。
[0096]空間位置關系約束 :yd = Ynext 〇
[0097] 4)設未標注樣本集中滿足上述約束條件的子集為Ssatisfied,將S satisfied中所有樣本 按照到間隔邊界的大小進行排序,d最小的k個樣本連同標簽一起加入到當前的訓練樣本集 里。
[0098]從CSS的具體步驟中可以看到,上面的兩個約束條件保證了通過半監督學習添加 到訓練集里的樣本標簽具有較高的正確率。同時,在選擇樣本的時候,沒有選擇那些分類結 果最確定的樣本,從而使得選出的樣本對于當前的分類模型也具有一定的信息量,在預測 標簽準確率和樣本的信息量之間達到了一個較好的平衡。在本實施例中,將從目標領域中 經過主動學習步驟之后剩余的未標記樣本中選取不同比例(如20 %、40%、60 %等)進行半 監督學習試驗,以期找到合適的比例,實現時間花費和最終分類精度的平衡。
[0099] 2、EQS方法涉及到的分類器的半監督學習過程
[0100] 1)計算Xu相對于當前分類器的熵,并記錄經分類器處理后得到的標簽yH:
[0101] 2)計算Xu到訓練樣本集中所有樣本的距離,尋找Xu的最近鄰點,并將該最近鄰點的 類別標號記為y next。
[0102] 3)約束條件
[0103] 閾值約束:H < threshold。其中,H為熵值,threshold為設置的閾值。
[0104] 空間位置關系約束:yH=ynext。
[0105] 4)選擇同時符合兩個約束條件的未標記樣本,按照H值由大到小排序,經分類器標 記加入樣本集。
[0106] 綜上所述,本實施例的域自適應方法提供了不同區域不同時相的影像知識之間的 迀移學習,其實施過程主要包括以下組成部分:1)在SVM分類器和常規MS方法的基礎上提出 的基于最近鄰支持向量的邊緣采樣的改進MS方法,以選取目標領域中對于當前分類器最具 有信息量的樣本;2)設置了適用于多種分類器的EQS方法,查詢出對于分類委員會的分類結 果具有最大分歧的樣本,具體用熵來衡量信息量;3)主動學習的后處理過程一一帶有約束 條件的半監督學習CSS,對經過主動學習之后目標領域中剩余的大量未標記樣本進行進一 步利用。
[0107] 據此,本實施例的域自適應方法同現有技術相比較,能充分利用來自源影像的先 驗知識來指導目標領域的影像分類,只需要人工標記經過主動學習查詢出來的少量未標記 的目標領域樣本,有效避免了對于影像處理過程中的大量工人標記所需要花費的時間和精 力,并有效避免了已學到的先驗知識的浪費。
[0108] 基于與上述的遙感影像分類的域自適應方法的相同的發明思路,本發明的實施例 還提出了 一種遙感影像分類的域自適應系統,如圖10所示,該域自適應系統包括:主動學習 模塊,用于通過主動學習從目標領域選擇出對于源領域的當前分類器最具有信息量的未標 記樣本進行標記,并結合標記后的樣本和當前訓練樣本集來調整當前分類器;以及半監督 學習模塊,用于通過半監督學習調整經主動學習調整后的分類器。
[0109] 特別地,所述主動學習模塊包括針對SVM分類器改進的MS模塊和針對概率分類器 的EQS模塊中的任意一者。并且,所述改進的MS模塊:用于計算各個未標記樣本對應的支持 向量和各個未標記樣本到SVM分類器的分類面的距離;用于從目標領域中選擇對應的支持 向量各不相同,并且到分類面的距離不超過設定閾值的未標記樣本進行標記;以及用于將 標記后的樣本添加至當前訓練樣本集以更新訓練樣本集,并基于更新后的訓練樣本集調整 當前分類器。
[0110]進一步地,該域自適應系統基于主動學習模塊和半監督學習模塊實現域自適應, 其具體實施過程與上述的域自適應方法相同或相似,也主要包括以下組成部分:1)在SVM分 類器和常規MS方法的基礎上提出的基于最近鄰支持向量的邊緣采樣的改進的MS模塊,以選 取目標領域中對于當前分類器最具有信息量的樣本;2)設置了適用于多種分類器的EQS模 塊,查詢出對于分類委員會的分類結果具有最大分歧的樣本,具體用熵來衡量信息量;3)主 動學習的后處理過程一一帶有約束條件的半監督學習CSS,對經過主動學習之后目標領域 中剩余的大量未標記樣本進行進一步利用。
[0111] 對于該域自適應系統,其具體的實施過程及實現細節與上述的域自適應方法相同 或相似,在此不再贅述。
[0112] 綜上所述,本實施例的域自適應方法及系統適用于不同時間同一區域或者不同區 域之間影像先驗知識的迀移,通過主動學習和半監督學習的方法解決了域自適應性問題, 使得不同影像之間的知識得以相互傳遞和利用,利用已有知識解決未知問題,大大提高了 遙感土地覆蓋圖的生產效率,解決了遙感影像樣本選取過程中的人力和時間的重復投入問 題。
[0113] 以上結合附圖詳細描述了本發明的優選實施方式,但是,本發明并不限于上述實 施方式中的具體細節,在本發明的技術構思范圍內,可以對本發明的技術方案進行多種簡 單變型,這些簡單變型均屬于本發明的保護范圍。
[0114]另外需要說明的是,在上述【具體實施方式】中所描述的各個具體技術特征,在不矛 盾的情況下,可以通過任何合適的方式進行組合。為了避免不必要的重復,本發明對各種可 能的組合方式不再另行說明。
[0115]此外,本發明的各種不同的實施方式之間也可以進行任意組合,只要其不違背本 發明的思想,其同樣應當視為本發明所公開的內容。
【主權項】
1. 一種遙感影像分類的域自適應方法,其特征在于,該域自適應方法包括: 通過主動學習從目標領域選擇出對于當前分類器最具有信息量的未標記樣本進行標 記,并根據標記后的樣本和當前訓練樣本集來調整所述當前分類器;以及 通過半監督學習調整經主動學習調整后的所述當前分類器。2. 根據權利要求1所述的域自適應方法,其特征在于,所述當前分類器為支持向量機 SVM分類器和概率分類器中的任意一者; 對于所述SVM分類器,所述主動學習包括:采用邊緣采樣MS方法進行主動學習; 對于所述概率分類器,所述主動學習包括:采用熵查詢采樣EQS方法進行主動學習。3. 根據權利要求2所述的域自適應方法,其特征在于,所述采用MS方法進行主動學習包 括: 確定各個未標記樣本對應的支持向量和計算各個未標記樣本到SVM分類超平面的距 離; 從目標領域選擇未標記樣本進行標記,其中,所選擇的未標記樣本對應的支持向量各 不相同,且到SVM分類超平面的距離不超過設定閾值;以及 將標記后的樣本添加至當前訓練樣本集以更新訓練樣本集,并基于更新后的訓練樣本 集調整當前SVM分類器。4. 根據權利要求2所述的域自適應方法,其特征在于,所述采用EQS方法進行主動學習 包括: 計算每個未標記樣本被預測為各個可能的類別的概率,并基于計算出的概率計算每個 未標記樣本的熵; 從目標領域選擇具有最大熵的未標記樣本進行標記;以及 將標記后的樣本添加至當前訓練樣本集以更新訓練樣本集,并基于更新后的訓練樣本 集調整所述概率分類器。5. 根據權利要求1所述的域自適應方法,其特征在于,所述通過半監督學習調整經主動 學習調整后的所述當前分類器包括: 從通過主動學習后剩余的未標記樣本中,選擇出符合半監督學習的約束條件的樣本; 通過經主動學習調整后的所述當前分類器對選擇出的樣本進行標記;以及 將標記后的樣本添加至當前訓練樣本集以更新訓練樣本集,并基于更新后的訓練樣本 集調整經主動學習調整后的所述當前分類器。6. 根據權利要求5所述的域自適應方法,其特征在于,當所述當前分類器為SVM分類器 時,所述約束條件被設置為:要求未標記樣本到對應的間隔邊界的距離大于或等于設定閾 值,且該未標記樣本經分類器處理后得到的標簽與該未標記樣本的最近鄰點的標簽相同。7. 根據權利要求5所述的域自適應方法,其特征在于,當所述當前分類器為概率分類器 時,所述約束條件被設置為:要求未標記樣本相對于當前分類器的熵小于或等于設定閾值, 且該未標記樣本經分類器處理后得到的標簽與該未標記樣本的最近鄰點的標簽相同。8. 根據權利要求1所述的域自適應方法,其特征在于,該域自適應方法還包括:在主動 學習的過程中,設置刪除查詢函數,并基于該刪除查詢函數從源領域的當前訓練樣本集中 刪除不適用于目標領域的樣本。9. 一種遙感影像分類的域自適應系統,其特征在于,該域自適應系統包括: 主動學習模塊,用于通過主動學習從目標領域選擇出對于當前分類器最具有信息量的 未標記樣本進行標記,并結合標記后的樣本和當前訓練樣本集來調整所述當前分類器;以 及 半監督學習模塊,用于通過半監督學習調整經主動學習調整后的所述當前分類器。10.根據權利要求9所述的域自適應系統,其特征在于,所述主動學習模塊包括針對SVM 分類器的MS模塊和針對概率分類器的EQS模塊中的任意一者; 其中,所述MS模塊: 用于確定各個未標記樣本對應的支持向量和計算各個未標記樣本到SVM分類超平面的 距離; 用于從目標領域選擇未標記樣本進行標記,其中,所選擇的未標記樣本對應的支持向 量各不相同,且到SVM分類超平面的距離不超過設定閾值;以及 用于將標記后的樣本添加至當前訓練樣本集以更新訓練樣本集,并基于更新后的訓練 樣本集調整當前SVM分類器。
【文檔編號】G06K9/62GK105844287SQ201610147613
【公開日】2016年8月10日
【申請日】2016年3月15日
【發明人】林月冠, 范大, 范一大, 徐楠, 王志強, 張薇, 溫奇, 沈占鋒, 王薇, 李苓苓, 王平, 黃河, 湯童, 崔燕
【申請人】民政部國家減災中心, 中國科學院遙感與數字地球研究所