基于源域遷移極限學習漂移補償的電子鼻氣體識別方法
【專利摘要】本發明提供了一種基于源域遷移極限學習漂移補償的電子鼻氣體識別方法,其從機器學習角度提出域遷移極限學習機框架用于解決傳感器漂移問題,而不是直接地校正單一傳感器響應,利用電子鼻在未發生漂移時和發生漂移后采集的有標簽的氣體傳感器陣列感測數據矩陣分別構建源域數據集和目標域數據集分別作為極限學習機的輸入,對電子鼻的識別分類器進行學習,以提升識別分類器在電子鼻發生漂移后對氣體識別的容差性能,達到漂移補償和提高氣體識別精度的目的,并且持了極限學習機的技術優點,使得該方法具備了較好的泛化性和遷移性能。可見,本發明方法中提出的源域遷移極限學習機框架建立了一個有良好學習能力和泛化能力的學習框架。
【專利說明】
基于源域遷移極限學習漂移補償的電子鼻氣體識別方法
技術領域
[0001] 本發明涉及電子鼻檢測技術領域,具體涉及一種基于源域迀移極限學習漂移補償 的電子鼻氣體識別方法。
【背景技術】
[0002] 電子鼻是利用氣體傳感器陣列的響應圖譜來識別氣體的智能電子裝置或者人工 嗅覺系統。由于電子鼻中氣體傳感器陣列的交叉特性和廣譜性,使得電子鼻的氣體識別能 力被廣泛用于醫療診斷、茶葉質量評估、環境檢測以及預測氣體濃度等領域。
[0003] 但是,電子鼻的氣體傳感器隨使用時間的增長而不斷老化,這大大縮短了電子鼻 氣體傳感器陣列的使用壽命。中毒,老化或者環境變量都能造成電子鼻的氣體傳感器漂移, 而氣體傳感器漂移會降低分類器的氣體識別性能。對上述問題,研究人員們需要針對電子 鼻所能夠識別的各類別氣體,定期的用新的帶有標簽的各類別氣體的純凈標定樣本重新訓 練電子鼻的分類器網絡,而重新訓練分類器網絡較為費時,并且定期獲取新的氣體的純凈 標定樣本也較為困難。
[0004] 電子鼻中氣體傳感器的漂移可表述如下。假設,在電子鼻在未發生漂移的狀態下, 其檢測某種氣體所得到的氣體傳感器陣列感測數據矩陣為不 示在未漂移狀態下檢測該氣體時電子鼻氣體傳感器陣列的第n個氣體傳感器的感測特征向 量,N表示電子鼻氣體傳感器陣列中所包含的氣體傳感器數量,上角標T為轉置符號;而在子 鼻在發生漂移后,若其檢測該同種氣體所得到的氣體傳感器陣列感測數據矩陣為 ^^=[4,.4,一.#,一.4] 3\1【在漂移后檢測該氣體時電子鼻氣體傳感器陣列的第11個氣體 傳感器的感測特征向量;那么,電子鼻中氣體傳感器漂移問題則表現為矩陣X K的感測特征 分布不同于矩陣Xo的感測特征分布,通常將矩陣XK稱為異構數據樣本,所以,用未發生漂移 的數據樣本Xo所訓練得到識別分類器對漂移后的異構數據樣本X K進行氣體識別時,就會出 現識別準確率降低的問題。而且,隨著時間的推移,氣體傳感器的老化、漂移問題會逐漸增 大,即檢測漂移后數據樣本X K的時間與檢測未漂移數據樣本XQ的時間間隔越久,那么XK與X〇 之間的感測特征分布差異也會越大。
[0005] 氣體傳感器的漂移補償技術研究始于幾十年前,目前的主要補償方法有成分校正 法、調節補償法和機器學習法。
[0006] 典型的多變量成分校正法有成分校正主成分分析法,其是通過用主成分分析找到 漂移方向,從而去掉漂移成分;但是,成分校正主成分分析法的補償思路需要建立在所有類 別數據的漂移方向相一致的前提下,然而電子鼻的實際漂移情況并非如此,因此該方法難 以有效的應用到電子鼻的漂移補償上;而如果通過在成分校正主成分分析法的基礎上增加 一個乘子校正變量來改善對數據漂移方向一致性限制的問題,則又會隨之帶來其漂移補償 的泛化性會受到在線應用時氣體傳感器非線性動態特性的制約問題,導致其漂移補償效果 難以針對不同的氣體識別應用中廣泛適用。
[0007] 調節補償法,是通過對電子鼻的氣體傳感器陣列在進行不同階段氣體識別檢測時 的響應變化情況,對其感測特征分布差異進行調整,進而實現漂移補償;但是這種剛調整補 償方法,容易在電子鼻的氣體傳感器陣列出現暫態響應情況時被誤判為氣體傳感器陣列正 發生劇烈變化的漂移,進而頻繁地進行調整補償,容易打亂電子鼻氣體傳感器陣列原有的 特征值分布規律,導致原本較為準確的識別神經網絡經過漂移補償后反而不能夠正確識別 其匹配氣體,影響電子鼻的氣體識別精度。
[0008] 此前,研究人員們也展開了一些通過機器學習法對電子鼻進行漂移補償的方法研 究,但目前所采用的機器學習法都主要基于支持向量機,其往往需要借助大量的訓練樣本 加以學習,在訓練樣本有限的情況下補償效果不佳,依然不能很好地通過漂移補償來提升 電子鼻的氣體識別精度,此外這類機器學習法通常需要訓練很多基分類器,因此其域迀移 能力和泛化性都受到限制。
[0009] 綜上所述,現有技術針對于電子鼻氣體傳感器漂移的補償方法,普遍存在補償后 電子鼻的氣體識別精度不高、迀移能力和泛化性較差的問題。
【發明內容】
[0010] 針對現有技術中存在的上述不足,本發明的目的在于提供一種基于源域迀移極限 學習漂移補償的電子鼻氣體識別方法,其利用電子鼻在未發生漂移時和發生漂移后的有標 簽的氣體傳感器陣列感測數據矩陣分別作為源域數據集和目標域數據集分別作為極限學 習機的輸入,對電子鼻的識別分類器進行學習,以提升識別分類器在電子鼻發生漂移后對 氣體識別的容差性能,達到漂移補償的識別效果,從而提高電子鼻在其氣體傳感器發生漂 移后的氣體識別精度和泛化性,并且具備較好的迀移性能。
[0011] 為解決上述技術問題,本發明采用了如下的技術手段:
[0012] 基于源域迀移極限學習漂移補償的電子鼻氣體識別方法,包括如下步驟:
[0013] 1 )獲取電子鼻在未發生漂移時所采集的N s個有標簽的氣體傳感 器陣列感測數據矩陣作為源域數據集;= X,!,對應的標簽集合 21-=冗142,"、,砭,">,穿^};任意的第1個源域數據樣本4為電子鼻在未發生漂移時進行一 次氣體檢測所得到的氣體傳感器陣列感測數據矩陣,i G {1,2,…,Ns},即:
[0014] Z; =[x^,x^2,---,xf ;
[0015] 其中,xf表示第i個源域數據樣本X;中電子鼻氣體傳感器陣列的第n個氣體傳感 器的感測特征向量,nG {1,2,…,N},N表不電子鼻氣體傳感器陣列中所包含的氣體傳感器 數量;上角標T為轉置符號;
[0016] 所述第i個源域數據樣本尤的標簽g為:
[0017] 穹=[4'W",4'm,…,4'*f ;
[0018] 其中,表示第i個源域數據樣本X〗在第m類目標氣體類別序號上的類別標簽值, 若對第i個源域數據樣本I;的識別結果為屬于第m類氣體,則令?r=i,否則令c=-i,由此 構成第i個源域數據樣本的標簽{1,2,…,M},M表示電子鼻所能夠識別的目標氣體 種類數;
[0019] 2)獲取電子鼻在發生漂移后所采集的Nt個有標簽的氣體傳感器陣列 感測數據矩陣作為目標域數據集;={<,右,…,對應的標簽集合 A = …,]7,…,r/";任意的第j個目標域數據樣本z/為電子鼻在發生漂移后進行一 次氣體檢測所得到的氣體傳感器陣列感測數據矩陣,j G {1,2,…,Nt},即:
[0020] X; = [xp1. xJ/2, ? ?, xf1, ? ? ?. xJrs f ;
[0021] 其中,xf表示第j個目標域數據樣本中電子鼻氣體傳感器陣列的第n個氣體傳 感器的感測特征向量,nG {1,2,…,N};上角標T為轉置符號;
[0022] 所述第j個目標域數據樣本為的標簽穿為:
[0023] TTj =[4.'心…?,
[0024] 其中,表示第j個目標域數據樣本'在第m類目標氣體類別序號上的類別標簽 值,若對第j個目標域數據樣本的識別結果為屬于第m類氣體,則令珍 M =1,否則令皆M=-l, 由此構成第j個目標域數據樣本X/的標簽寫;mG {1,2,…,M};
[0025] 3)設定源域數據樣本的預測誤差懲罰系數Cs和目標域數據樣本的預測誤差懲罰 系數CT,且設定極限學習機的隱含層神經元個數Nl,并隨機初始化極限學習機的輸入層與隱 含層之間的權重矩陣W 和隱含層的偏置向量
[0026] 4)將源域數據集Xs作為極限學習機的輸入,計算得到相應的極限學習機的隱含層 輸出矩陣仏
[0027] ff^giW-X.+b);
[0028]將目標域數據集XT作為極限學習機的輸入,計算得到相應的極限學習機的隱含層 輸出矩陣焉ei^x:sS [0029] HT=g(W-X, +h),
[0030]其中,g( ?)表示極限學習機的激活函數;
[0031] 5)判斷源域數據集所包含的源域數據樣本個數Ns與極限學習機隱含層神經元個 數Nl的數值關系;
[0032]若Ns多Nl,則按下式計算極限學習機的隱含層與輸出層之間的權重矩陣 f\ e :
[0033] &= (IL+Cs ? HsT ? Hs+Ct ? Htt ? Ht)-HCs ? HsT ? Ts+Ct ? Htt ? Tt);
[0034] 其中,IL為NlXNl的單位矩陣;
[0035]若Ns <Nl,則按下式計算極限學習機的隱含層與輸出層之間的權重矩陣 爲 :
[0036] 氏= hst ? Fst+Htt(Fb-1 ? Tt-Fb-1 ? Fa ? Fst);
[0037] 其中,Fst、Fa、Fb和Fc均為縮寫式,其各自的展開式為:
[0038] Fst= (Fc ? Fb_1 ? Fa-Fd)_1(Fc ? Fb_1 ? Tt-Ts);
[0039] Fa=HtHst;^ = +^f- ;Fc = HsHtt; ^
[0040] 其中,Is為Ns X Ns的單位矩陣;上角標T均為轉置符號;
[0041] 6)獲取電子鼻在發生漂移后所采集的Nu個未標記標簽的氣體傳感器陣列感測數 據矩陣作為待測域數據集A,=…,私,…,;^"},任意的第k個待測數據樣本;^為 電子鼻在發生漂移后進行一次氣體檢測所得到的氣體傳感器陣列感測數據矩陣,kG{l, 2,…,Nu},即:
[0042]
[0043]其中,<'"表示第k個待測數據樣本Xg中電子鼻氣體傳感器陣列的第n個氣體傳感 器的感測特征向量,nG {1,2,…,N};上角標T為轉置符號;
[0044] 7)將待測域數據集Xu作為極限學習機的輸入,計算得到相應的極限學習機的隱含 層輸出矩陣私
[0045] H, =g(W-X{ -rh):
[0046] 由此得到的對應的隱含層輸出矩陣/-/,.=丨A/., V.…./(/V'/d,/V__ ev表亦第k 個待測數據樣本At所對應的隱含層輸出向量;
[0047] 8)將步驟5)所得到的權重矩陣說作為電子鼻的識別分類器,按下式分別計算待測 域數據集中各個待測數據樣本所對應的標簽:
[0048] 尤=/V.A,/ce.!l,2,…,A,,!.;
[0049] 其中,宂表示計算得到的第k個待測數據樣本;^的標簽,且:
[0050] 究《,蛞2,...
[0051] 表示第k個待測數據樣本X〗在第m類目標氣體類別序號上的類別標簽值;
[0052] 對于第k個待測數據樣本,將其標簽總中最大類別標簽值所在的目標氣體類別 序號所對應的目標氣體類別判定識別為待測數據樣本所屬的氣體類別;由此,判定得到 待測域數據集中各個待測數據樣本的氣體類別識別結果。
[0053]上述基于源域迀移極限學習漂移補償的電子鼻氣體識別方法中,作為優選方案, 所述步驟3)中,源域數據樣本的預測誤差懲罰系數Cs的優選取值范圍為1(T3~10*3。
[0054]上述基于源域迀移極限學習漂移補償的電子鼻氣體識別方法中,作為優選方案, 所述步驟3)中,目標域數據樣本的預測誤差懲罰系數CT的優選取值范圍為10*3~10 3。
[0055] 上述基于源域迀移極限學習漂移補償的電子鼻氣體識別方法中,作為優選方案, 所述步驟3)中,極限學習機的隱含層神經元個數Nl的優選取值范圍為10 2~104。
[0056] 上述基于源域迀移極限學習漂移補償的電子鼻氣體識別方法中,作為優選方案, 所述極限學習機的激活函數g( ?)選用徑向基函數或sigmoid函數。
[0057] 相比于現有技術,本發明具有以下有益效果:
[0058] 1、本發明基于源域迀移極限學習漂移補償的電子鼻氣體識別方法,從機器學習機 的角度對電子鼻氣體傳感器漂移問題進行分析和解決,借助少量電子鼻在未發生漂移時和 發生漂移后采集的有標簽的氣體傳感器陣列感測數據矩陣分別構建源域數據集和目標域 數據集,用以進行源域迀移極限學習獲得一個魯棒性好的識別分類器,能夠提升識別分類 器在電子鼻發生漂移后對氣體識別的容差性能,再利用學習后得到的該識別分類器進行待 測氣體樣本的識別時,就能夠達到漂移補償的識別效果,從而提高電子鼻在其氣體傳感器 發生漂移后的氣體識別精度。
[0059] 2、本發明基于源域迀移極限學習漂移補償的電子鼻氣體識別方法保持了極限學 習機的技術優點,學習過程簡單,且使得該方法具備了較好的泛化性和迀移性能,能夠在不 同的電子鼻產品針對不同的氣體識別應用上廣泛適用。
[0060] 3、本發明基于源域迀移極限學習漂移補償的電子鼻氣體識別方法提出的源域迀 移極限學習機框架建立了一個有良好學習能力和泛化能力的電子鼻漂移補償學習框架。
【附圖說明】
[0061] 圖1為本發明基于源域迀移極限學習漂移補償的電子鼻氣體識別方法的流程圖。
[0062] 圖2為本發明實施案例中實驗數據集中10組數據漂移前后的多維傳感器陣列響應 曲線對比圖。
[0063] 圖3為本發明實施案例中實驗數據集中10組數據漂移引起空間分布變化的二維主 成分投影分布圖。
[0064] 圖4為本發明實施案例中采用本發明方法與各對比方法對實驗配置①中各組數據 進行識別的識別精度對比圖。
[0065] 圖5為本發明實施案例中采用本發明方法與各對比方法對實驗配置②中各組數據 進行識別的識別精度對比圖。
[0066]圖6為本發明實施案例中采用本發明方法與正則化極限學習機方法ELM-rbf對配 置①不同數量的目標域數據樣本情況下進行識別的識別精度對比圖。
[0067]圖7為本發明實施案例中采用本發明方法與正則化極限學習機方法ELM-rbf對配 置②不同數量的目標域數據樣本情況下進行識別的識別精度對比圖。
【具體實施方式】
[0068] 針對于電子鼻的氣體傳感器漂移而影響氣體識別精度的問題,本發明提供了一種 基于源域迀移極限學習漂移補償的電子鼻氣體識別方法,從機器學習機的角度對該問題進 行分析和解決,提出了一種基于源域迀移極限學習的理念,借助少量電子鼻在未發生漂移 時和發生漂移后采集的有標簽的氣體傳感器陣列感測數據矩陣分別構建源域數據集和目 標域數據集,用以進行源域迀移極限學習獲得一個魯棒性好的識別分類器,能夠提升識別 分類器在電子鼻發生漂移后對氣體識別的容差性能,再利用學習后得到的該識別分類器進 行待測氣體樣本的識別時,就能夠達到漂移補償的識別效果,從而提高電子鼻在其氣體傳 感器發生漂移后的氣體識別精度,并且其保持了極限學習機的技術優點,學習過程簡單,且 使得該方法具備了較好的泛化性和迀移性能,能夠在不同的電子鼻產品針對不同的氣體識 別應用上廣泛適用。
[0069] 基于上述技術思路,首先對本發明所應用到的極限學習機技術加以簡單的介紹。
[0070] 1、極限學習機理論:
[0071] 極限學習機(Extreme Learning Machine,ELM)算法是新加坡南洋理工大學的黃 廣斌教授提出來的,2004年正式發表文章。極限學習機算法是針對SLFNs(即含單個隱藏層 前饋型神經網絡)的監督型學習算法,其主要思想是:輸入層與隱藏層之間的權值參數,以 及隱藏層上的偏置向量參數是once for all(-次設置配、普遍適用)的,不需要像其他基 于梯度的學習算法一樣通過迭代反復調整刷新,因此求解過程很直接,只需求解一個最小 范數最小二乘問題(最終可化歸成求解一個矩陣的廣義逆問題),具有訓練參數少、學習運 算速度快等優點。
[0072] 極限學習機理論可以進行如下的描述。
[0073] 假設,給定N個樣本[X1,X2,…,Xi,"_,XN]和對應的標簽[tl,t2,…,ti,…,tN],其中, Xi = [Xi,l,Xi,2,…,Xi,n]TGRn,ti = [ti,l,ti,2,…,ti,m]TGRm,n 和m 分別代表輸入神經元的個 數和輸出層的神經元個數。隱含層的輸出向量用h(Xl)GRlxl表示,其中L是隱層神經元的數 目,隱含層和輸出層之間的權值用表示。
[0074]正則化極限學習機旨在用最小化預測誤差的平方和,和輸出權值的范數以防止過 擬合求得輸出權值,公式如下:
(1)
[0076] 其中,L表示第i個訓練樣本的預測誤差,C是預測誤差的懲罰函數。
[0077] 把約束項代入目標函數,得到一個與之等價的無約束的優化問題其表達式如下:
(2)
[0079] 其中,H= [h(xi),h(X2),…,h(xi),…,h(XN),] GRNXL,T = [ti,t2,…,ti,…,tN]T。
[0080] (2)式是一個正則化最小二乘優化問題。e的閉解可通過求(2)式對e求導并令其等 于零方可求得。
[0081] 求解0分兩種情況。如果訓練樣本數量N大于或等于L時,求導式是超定的,0的解如 下式:
(,)
[0083] 其中,II是L XL的單位矩陣。
[0084] 第二種情況,如果訓練樣本數量N小于L時,0解如下式:
(4)
[0086]其中,IN是NXN的單位矩陣。所以,用極限學習機訓練分類器,其輸出權值可由(3) 式或者(4)式得到。
[0087] 2、基于源域迀移極限學習機框架。
[0088] 基于極限學習機理論,本發明提出了一種基于源域迀移極限學習的理論框架,將 電子鼻在未發生漂移時采集的有標簽的氣體傳感器陣列感測數據矩陣作為源域數據集,加 上少量電子鼻發生漂移后采集的有標簽的氣體傳感器陣列感測數據矩陣作為目標域數據 集,并且將極限學習機的隱含層與輸出層之間的權重矩陣&作為識別分類器;由此,源域迀 移極限學習機可表示成如下形式: (5) (6)
[0091] 其中,gei?1%、分別表示第i個源域數據樣本X;的隱含層 輸出、預測誤差和標簽(即訓練目標);取e 、為e i?w、f e i?胃分別表示第j個目 標域數據樣本4的隱含層輸出、預測誤差和標簽(即訓練目標);iG{l,2,~,N s},jG{l, 2,…,Nt},Ns和Nt分別是源域數據樣本數量和目標域數據樣本數量;Nl為極限學習機的隱含 層神經元個數,M為電子鼻所能夠識別的目標氣體種類數,八e 為極限學習機的隱含 層與輸出層之間的權重矩陣,用以作為電子鼻的識別分類器;Cs和C T分別是源域數據樣本和 目標域數據樣本的預測誤差懲罰系數。
[0092] 在這里,如果源域數據樣本屬于第m類,mG{l,2,…,M},則令其標簽f中第m個 標簽值# =1;否則,以=_1;例如,如果源域數據樣本4屬于第1類,則其標簽 f = [1,-1,-1,..?,-iy.即除了標簽砭中第1個標簽值為1之外,其它標簽值均為-1。目標域數 據樣本右的標簽也按照此方式賦值。
[0093]由(5)式可知,由極少的目標域標簽引導樣本引入用于正則化的第三項和(6)式的 第二個約束式子,可使學習的分類器&的迀移能力提高。并且該源域迀移極限學習機算法 能夠同時對多個分類器進行學習。
[0094]用拉格朗日乘子法求解(5)式,其可表示成下式:
[0096] as和ctT為拉格朗日乘子向量。
[0097] 通過令(7)式分別關于吞,as,aT的偏導數為0,令抒,£及~夂表示源域數據集 輸入極限學習機的隱含層輸出矩陣,巧e ' '表示目標域數據集輸入極限學習機的隱含 層輸出矩陣,Ts,Tt分別表示源域數據集和目標域數據集的標簽集合,Is,分別表示源域數 據集和目標域數據集的預測誤差矩陣;可得:
[0099] 為了求解&,必須先求解as和aT。
[0100] 求解&分兩種情況:
[0101] 當訓練樣本數Ns少于Nl時,Hs的列數大于行數,此時,有無窮解。為了解出唯一解, 把(8)式中的第一個方程和第二個方程代入第四和第五個方程,此時有:
[0103]其中,Is為Ns X Ns的單位矩陣;上角標T均為轉置符號。
[0106] 因此,as和aT可求解成如下形式:
[0107] i . t t , , ; (11)
[?r = FBl Tr - ? Fa (Fc ? Fb^ -Fa-Fd)- (Fc ? FBl Tt - Ts )
[0108] 若令Fst=(Fc ? Fb-1 ? Fa-Fd)-HFc ? Fb-1 ? Tt-Ts),把(1)式代入(8)式,就可得輸出 權值: A = Hs'as +H,' ar
[0109] ,, ,丨 , ; (12) = HS' .Fsr + H,l{FK'-Tr-Fil-PrP ST)
[0110]而當訓練樣本數Ns大于或等于Nl時,Hs的行數大于或等于列數,為滿秩矩陣。此時, 把(1)代入(8),可得然后再代入(4)式和(5)式,從而可求解出 輸出權值矩陣&。
[0112] 其中,IL是大小為NlXNl的單位矩陣。
[0113] 事實上,把約束條件代入目標函數,(5)式可改寫成與之等價的無約束的優化問 題,式子如下:
[0115] 通過令Ldaelm-s對&的偏導數為0,即有:
[0116] ^LbaelM_s ^fis-Csn> (7; -//,/?,) +C,/// (7;-//f/?s) = 0 ; (15)
[0117] 由(15)式可以很容易的求得&。
[0118] 對于待測域中無標簽的待測數據樣本而言,可以由以下式子求得其標簽:
[0119] V;- =Ji;', Are S ; (16)
[0120] 其中,紀ei?&表示待測域數據集中第k個無標簽的待測數據樣本;^所對應的隱 含層輸出向量,Nu表示待測域數據集中待測數據樣本的數量;充.表示計算得到的第k個待測 數據樣本^的標簽,且宄…,.古'…,乂;' Mf,乂"表示第k個待測數據樣本#在 第m類目標氣體類別序號上的類別標簽值;而在標簽充中的最大類別標簽值所在序號所對 應的目標類別即為第k個待測數據樣本X〗所屬的類別,這樣以來,就可以確定各個無標簽 的待測數據樣本所述的類別,實現對待測數據樣本的識別。
[0121] 3、本發明基于源域迀移極限學習漂移補償的電子鼻氣體識別方法。
[0122] 根據上述基于源域迀移極限學習的理論框架,本發明基于源域迀移極限學習漂移 補償的電子鼻氣體識別方法流程如圖1所示,具體包括如下步驟:
[0123] 1 )獲取電子鼻在未發生漂移時所采集的Ns個有標簽的氣體傳感器 陣列感測數據矩陣作為源域數據集;= …,尤,…,Xf},對應的標簽集合 rs =拓1,$,???,7/,???,€% 任意的第i個源域數據樣本X〗為電子鼻在未發生漂移時進行一 次氣體檢測所得到的氣體傳感器陣列感測數據矩陣,i G {1,2,…,Ns},即:
[0124] X's - [a-^'.xls2,,,? ? ?,x^v]r ;
[0125] 其中,xf表示第i個源域數據樣本$中電子鼻氣體傳感器陣列的第n個氣體傳感 器的感測特征向量,nG {1,2,…,N},N表不電子鼻氣體傳感器陣列中所包含的氣體傳感器 數量;上角標T為轉置符號;
[0126] 所述第i個源域數據樣本尤的標簽安為:
[0127]
[0128] 其中,?f表示第i個源域數據樣本和在第m類目標氣體類別序號上的類別標簽值, 若對第i個源域數據樣本尤的識別結果為屬于第m類氣體,則令否則令f=-l,由此 構成第i個源域數據樣本X〖的標簽f mG{l,2,…,M},M表示電子鼻所能夠識別的目標氣 體種類數;
[0129] 2)獲取電子鼻在發生漂移后所采集的Nt個有標簽的氣體傳感器陣列 感測數據矩陣作為目標域數據集A = {#.右對應的標簽集合 二拓\石2,壬意的第j個目標域數據樣本右為電子鼻在發生漂移后進行一 次氣體檢測所得到的氣體傳感器陣列感測數據矩陣,j G {1,2,…,Nt},即:
[0130] 匁=[41,xf,…,4%…f ;
[0131 ]其中,表示第j個目標域數據樣本X/中電子鼻氣體傳感器陣列的第n個氣體傳 感器的感測特征向量,nG {1,2,…,N};上角標T為轉置符號;
[0132] 所述第j個目標域數據樣本巧的標簽f為:
[0133]
[0134] 其中,f表示第j個目標域數據樣本右在第m類目標氣體類別序號上的類別標簽 值,若對第j個目標域數據樣本#的識別結果為屬于第m類氣體,則令f =1,否則令# 由此構成第j個目標域數據樣本X/的標簽F/ ;mG {1,2,…,M};
[0135] 3)設定源域數據樣本的預測誤差懲罰系數Cs和目標域數據樣本的預測誤差懲罰 系數C T,且設定極限學習機的隱含層神經元個數Nl,并隨機初始化極限學習機的輸入層與隱 含層之間的權重矩陣F e iTViXV和隱含層的偏置向量f e i?-;
[0136] 4)將源域數據集Xs作為極限學習機的輸入,計算得到相應的極限學習機的隱含層 輸出矩陣:
[0137] Hs =g:g¥-Xs+h)^
[0138] 將目標域數據集XT作為極限學習機的輸入,計算得到相應的極限學習機的隱含層 輸出矩陣e:
[0139] =g(!V-X., +/V);
[0140]其中,g( ?)表示極限學習機的激活函數;
[0141] 5)判斷源域數據集所包含的源域數據樣本個數Ns與極限學習機隱含層神經元個 數Nl的數值關系;
[0142] 若Ns多Nl,則按下式計算極限學習機的隱含層與輸出層之間的權重矩陣
[0143] &= (IL+Cs ? HsT ? Hs+Ct ? Htt ? Ht)-HCs ? HsT ? Ts+Ct ? Htt ? Tt);
[0144] 其中,IL為NlXNl的單位矩陣;
[0145] 若Ns <Nl,則按下式計算極限學習機的隱含層與輸出層之間的權重矩陣 €/?' XM;
[0146] 氏= hst ? Fst+Htt(Fb-1 ? Tt-Fb-1 ? Fa ? Fst);
[0147]其中,FsT、FA、FB、F(;和FD均為縮寫式,其各自的展開式為:
[0148] Fst= (Fc ? Fb_1 ? Fa-Fd)_1(Fc ? Fb_1 ? Tt-Ts);
[0150]其中,Is為NsXNs的單位矩陣;上角標T均為轉置符號;
[0151] 6)獲取電子鼻在發生漂移后所采集的Nu個未標記標簽的氣體傳感器陣列感測數 據矩陣作為待測域數據集I = …,匁,…;、},任意的第k個待測數據樣本<為 電子鼻在發生漂移后進行一次氣體檢測所得到的氣體傳感器陣列感測數據矩陣,kG{l, 2,…,Nu},即:
[0152] =
[0153]其中,表示第k個待測數據樣本Xf中電子鼻氣體傳感器陣列的第n個氣體傳感 器的感測特征向量,nG {1,2,…,N};上角標T為轉置符號;
[0154] 7)將待測域數據集Xu作為極限學習機的輸入,計算得到相應的極限學習機的隱含 層輸出矩陣盡,
[0155] Hv=g(W-X, +/T);
[0156] 由此得到的對應的隱含層輸出矩陣巧,=冗./7...../7....,|,},發&犮&表示第1^ 個待測數據樣本#所對應的隱含層輸出向量;
[0157] 8)將步驟5)所得到的權重矩陣說作為電子鼻的識別分類器,按下式分別計算待測 域數據集中各個待測數據樣本所對應的標簽:
[0158] V," = A/' ps, e j 1,2, - - ?, N{ :
[0159] 其中,窮表示計算得到的第k個待測數據樣本乾的標簽,且:
[0160] ^=[v^L,vf
[0161 ] .v^'表示第k個待測數據樣本在第m類目標氣體類別序號上的類別標簽值;
[0162] 對于第k個待測數據樣本X〗,將其標簽滅中最大類別標簽值所在的目標氣體類別 序號所對應的目標氣體類別判定識別為待測數據樣本#所屬的氣體類別;由此,判定得到 待測域數據集中各個待測數據樣本的氣體類別識別結果。
[0163] 在本發明基于源域迀移極限學習漂移補償的電子鼻氣體識別方法中,源域數據樣 本的預測誤差懲罰系數Cs的優選取值范圍為1(T 3~10'目標域數據樣本的預測誤差懲罰系 數Ct的優選取值范圍為100~103;源域數據樣本的預測誤差懲罰系數Cs和目標域數據樣本 的預測誤差懲罰系數Ct的取值若超出上述取值范圍,容易導致源域和目標域的欠學習和過 學習問題,影響漂移補償的效果,進而對漂移補償后的電子鼻氣體識別精度造成一定的負 面影響。而極限學習機的隱含層神經元個數Nl的優選取值范圍為10 2~104,過多的隱含層神 經元數量容易造成學習運算過于復雜而對電子鼻氣體識別精度的提高貢獻不大;此外,極 限學習機的激活函數g( ?)可以選用徑向基函數,還可以選用sigmoid函數。
[0164] 為了更好的說明和驗證本發明基于源域迀移極限學習漂移補償的電子鼻氣體識 別方法的有效性,下面通過實驗案例對本發明技術方案進行進一步的說明。
[0165] 4、實驗案例。
[0166] 4.1、實驗數據的描述。
[0167] 在本實驗案例中,使用了用公布于UCI機器學習數據庫中的長達三年的傳感器漂 移數據對其進行驗證。
[0168] 這些數據是從2008年1月到2011年2月這個期間收集的,歷時36個月。這個數據集 共13910個觀測值,用于采集數據的電子鼻系統由16個氣體傳感器暴露于6種純凈的不同濃 度值氣體物質,包含丙酮,酒精,氨,乙醛,乙烯以及甲苯這六種氣體。每個傳感器提取出8個 特征,所以,特征向量的維數是128。不同時間階段收集的數據共10組。詳情請可查詢UCI機 器學習數據庫的相應網站。
[0169] 為了使數據集的漂移性質可視化,本案例給出了漂移前后的對比圖。如圖2所示, 我們視第一組數據集(即圖2中的bef〇re(bl))為未漂移的數據,選擇第2組(即圖2中的 &代6^131))、第7組(即圖2中的&代64匕7))和第10組(即圖2中的 &代641310))作為漂移數據 集,從圖2中可以看到,多維傳感器陣列表現出非線性特性,用線性和非線性方法對傳感器 響應進行直接校正是不可能的。我們把它看成是空間分布迀移問題,然后用迀移學習來實 現漂移補償。因此,為了獲取數據集中10組數據漂移引起的空間分布變化,我們用主成份對 數據進行分析,取前兩個主成份,并將數據進行投影,每組投影后的2維分布如圖3所示。 [0170]值得一提的是,有漂移的傳感器響應由于非線性動態特性或者混沌特性不能直接 進行校正。因此,數據分布調節和機器學習對傳感器漂移進行補償更有意義。因為在源域迀 移極限學習機中,首先準備好少量的目標域數據樣本。所以,本實驗案例中用基于歐式距離 的樣本選擇算法選出有代表性的標簽樣本,其選擇過程如下:
[0171]步驟1、準備數據:選用公布于UCI機器學習數據庫中的長達三年的傳感器漂移數 據,且該數據庫分為了 10組;我們假定第1組數據并未發生漂移,而第K組的數據發生了漂 移,其中,K = 2,…,10;所以,第K組數據集符合要求,K = 2,…,10。
[0172]步驟2、確定所需標本數:標簽樣本數量可結合分類器,根據識別精度判斷所需數 量。
[0173] 步驟3、確定最初的兩個樣本:計算第K組數據集中兩兩數據的歐式距離,K = 2,…, 10,選擇距離最大的兩個數據作為最初的兩個標簽樣本,即有# =以,.心。
[0174] 步驟4、選取每個剩余的最短距離:計算剩余樣本分別與已選出的樣本 的歐式距離,選取每個剩余樣本的最短距離,即有Nd(Xl)。
[0175] 步驟5、選取下一個樣本:在Nd(xi)里選取最大值對應的樣本為新的標簽樣本,即有
[0176] 步驟6、判斷是否結束:若選取的標簽樣本達到了預先設定的值,則結束;否則返回 執行步驟4。
[0177] 通過上述的樣本選擇算法可以更好的選出能代表整個空間分布的樣本,從而有助 于更好地體現本發明基于源域迀移極限學習漂移補償的電子鼻氣體識別方法的泛化性。
[0178] 4.2、實驗設計。
[0179] 本實施案例中,極限學習機的隱含層神經元數L設為1000,使用徑向基函數為激活 函數,且預設核寬設為1,對特征進行預處理,使得特征值介于(_1,1)。在本發明提出的源域 迀移極限學習機算法中,設置源域數據樣本的預測誤差懲罰系數Cs為0.001,設置目標域數 據樣本的預測誤差懲罰系數Ct為100,為了更好的對本發明所提出的方法進行驗證,采用如 下的兩種實驗配置:
[0180] 配置①,將第1組數據集作為固定的訓練集(源域),測試集為第K組數據集,其中K =2,…,10;并且在測試集中,選取部分作為目標域數據集,其余部分作為待測域數據集。
[0181] 配置②,訓練集(源域)是動態的,依次為第K-1組,而測試集為第K組數據集,其中K =2,…,10;并且在測試集中,選取部分作為目標域數據集,其余部分作為待測域數據集。
[0182] 根據上述的兩個實驗配置,采用本發明所提出的源域迀移極限學習機理論框架進 行實驗,并與用徑向基函數為核的支持向量機算法SVM-rbf、SVM-gfk和SVM-comgfk做實驗 對比;另外,本實驗案例還采用了ML-gf k和ML-comgf k兩種半監督學習方法作為對比,用同 樣的數據集用于漂移補償;另外,隱含層為徑向基函數的正則化極限學習機ELM-rbf也作為 對比的算法之一;此外,還對比了常用的類主成份分析法CCPCA和集成分類器方法Ensemble 在配置①和配置②下對漂移補償的效果。由于極限學習機的輸入層權值和隱含層的偏置值 是隨機產生的,所以,極限學習機、源域迀移極限學習機都運行10次取平均值作為運行結 果。而且極限學習機的訓練樣本與本發明中源域迀移極限學習機的樣本是相同的。
[0183] 4.3、實驗結果和數據對比。
[0184] 針對本發明提出的基于源域迀移極限學習漂移補償的電子鼻氣體識別方法以及 上述作為對比的個方法,分別在配置①和配置②的條件下進行實驗。采用本發明提出的源 域迀移極限學習機訓練時,分為選20個目標域數據樣本(記為DAELM-S(20))和選30個目標 域數據樣本(記為DAELM-S(30))進行了對比。本發明方法以及各種對比方法對實驗配置① 中各組數據進行識別的識別精度如圖4所示。從圖4可得出以下結論:
[0185] (l)、SVM-comgfk的結果優于類主成份分析法CC-PCA和其它基于支持向量機的方 法,除了第4組和第8組數據集。這同時也表明了機器學習在漂移補償方面優于傳統校正方 法。
[0186] (2)、ML-comgfk方法的平均精度為67.3%,優于其他基本方法。同時也證明了,對 于有限的樣本,將正則化與核相結合在半監督學習方面更有效。
[0187] (3)、本發明基于源域迀移極限學習漂移補償的電子鼻氣體識別方法極大地改善 了極限學習機的泛化性和知識迀移學習能力,且本發明識別方法的平均識別精度比傳統極 限學習機方法ELM-rbf高出27%,且本發明識別方法針對本實施案例中六種氣體的最高平 均識別精度達到了91.86%。
[0188] (4)、本發明基于源域迀移極限學習漂移補償的電子鼻氣體識別方法中,在學習源 域迀移極限學習機時,用30個目標域數據樣本比用20個目標域數據樣本的識別精度要略 尚。
[0189] 從實驗配置①下的實驗結果可知,本發明所提出的基于源域迀移極限學習漂移補 償的電子鼻氣體識別方法,其識別精度明顯優于其它現有技術的方法。
[0190] 同樣第,也對實驗配置②下的各組數據采用本發明方法以及各種對比方法進行識 別驗證實驗,實驗結果的識別精度統計情況如圖5所示。從圖5可得出以下結論:
[0191] (1)、ML-comgfk的平均識別精度為79.6%,優于其它基于支持向量機的機器學習 算法和單核方法。
[0192] (2)、類主成份分析法和集成分類器相連合的方法Ensemble能在一定程度上提高 識別精度,但是,需要訓練很多基分類器,且域迀移能力較差。
[0193] (3)、本發明基于源域迀移極限學習漂移補償的電子鼻氣體識別方法的識別精度 優于其它現有技術方法,且在電子鼻的漂移補償上的魯棒性較好。
[0194] 為了研究目標域數據樣本數量的變化對識別精度的影響,我們用上述樣本選擇算 法選取了不同數量的目標域數據樣本進行了對比,其中目標域數據樣本個數取{5,10,15, 20,25,30,35,40,45,50} -系列值;同時,為了公平比較,訓練樣本由目標域數據樣本和源 域數據樣本組成以訓練極限學習機。采用隱含層為徑向基函數的正則化極限學習機ELM-rbf?作為對比的算法,將本發明的識別方法(記為DAELM-S)與ELM-rbf方法分別對配置①和 配置②下的識別實驗精度統計結果分別如圖6和圖7所示,在圖6和圖7的各個曲線圖中,橫 坐標為數據集樣本數,縱坐標為識別率。從圖6和圖7可得以下結論:
[0195] (1)、隨著目標域數據樣本的增加,傳統的極限學習機ELM-rbf的識別精度并未顯 著提高,這證明了極限學習機沒有知識迀移能力。
[0196] (2)、隨著目標域數據樣本的增加,本發明基于源域迀移極限學習漂移補償的電子 鼻氣體識別方法的識別精度有顯著的提高,且平均識別精度明顯優于傳統的極限學習機 ELM-rbf 〇
[0197] (3)、當目標域數據樣本數量較少時,本發明識別方法中所采用的源域迀移極限學 習機的識別效果依然優于傳統的極限學習機,表明本發明方法在較少的目標域數據樣本條 件下,依然能夠獲得較好的漂移補償識別效果,進而更好的提升氣體識別精度。
[0198] 綜上所述,本發明基于源域迀移極限學習漂移補償的電子鼻氣體識別方法,從機 器學習角度提出域迀移極限學習機框架用于解決傳感器漂移問題,而不是直接地校正單一 傳感器響應,因為漂移具有非線性或者混沌特性,很難捕捉其規律,為此,本發明利用電子 鼻在未發生漂移時和發生漂移后采集的有標簽的氣體傳感器陣列感測數據矩陣分別構建 源域數據集和目標域數據集分別作為極限學習機的輸入,對電子鼻的識別分類器進行學 習,以提升識別分類器在電子鼻發生漂移后對氣體識別的容差性能,達到漂移補償和提高 氣體識別精度的目的,并且持了極限學習機的技術優點,學習過程簡單,且使得該方法具備 了較好的泛化性和迀移性能。由此也可見,本發明方法中提出的源域迀移極限學習機框架 建立了一個有良好學習能力和泛化能力的電子鼻漂移補償學習框架。
[0199] 最后說明的是,以上實施例僅用以說明本發明的技術方案而非限制,盡管參照實 施例對本發明進行了詳細說明,本領域的普通技術人員應當理解,可以對本發明的技術方 案進行修改或者等同替換,而不脫離本發明技術方案的宗旨和范圍,其均應涵蓋在本發明 的權利要求范圍當中。
【主權項】
1.基于源域迀移極限學習漂移補償的電子鼻氣體識別方法,其特征在于,包括如下步 驟: 1) 獲取電子鼻在未發生漂移時所采集的Ns個有標簽的氣體傳感器陣列感測數據矩陣作 為源域數據集xs = ,對應的標簽集合?; = ·?ζ\?2,···,?ν··?;任 意的第i個源域數據樣本為電子鼻在未發生漂移時進行一次氣體檢測所得到的氣體傳 感器陣列感測數據矩陣,ie{l,2,"_,Ns}JP:其中,xf"表示第i個源域數據樣本X丨中電子鼻氣體傳感器陣列的第η個氣體傳感器的 感測特征向量,ne{l, 2,···,N},N表不電子鼻氣體傳感器陣列中所包含的氣體傳感器數量; 上角標T為轉置符號; 所述第i個源域數據樣本的標簽C為:其中,if表示第i個源域數據樣本4在第m類目標氣體類別序號上的類別標簽值,若對 第i個源域數據樣本尤的識別結果為屬于第m類氣體,則令if =1,否則令,=_1,由此構成 第i個源域數據樣本4的標簽左;me {1,2,…,M},M表示電子鼻所能夠識別的目標氣體種類 數; 2) 獲取電子鼻在發生漂移后所采集的Nt個有標簽的氣體傳感器陣列感測數據矩陣作為 目標域數據集;={尤丨,g…,;,·},對應的標簽集合I; = {?2,···#,…,0 ;任 意的第j個目標域數據樣本X〖為電子鼻在發生漂移后進行一次氣體檢測所得到的氣體傳 感器陣列感測數據矩陣,j e {1,2,…,Ντ},即:其中,x/'"表示第j個目標域數據樣本中電子鼻氣體傳感器陣列的第η個氣體傳感器 的感測特征向量,n e {1,2,…,Ν};上角標T為轉置符號; 所述第j個目標域數據樣本X/的標簽為:其中,#表示第j個目標域數據樣本P在第m類目標氣體類別序號上的類別標簽值,若 對第j個目標域數據樣本A的識別結果為屬于第m類氣體,則令否則令f=-:l,由此 構成第j個目標域數據樣本右的標簽f ;me{l,2,···,M}; 3) 設定源域數據樣本的預測誤差懲罰系數Cs和目標域數據樣本的預測誤差懲罰系數 Ct,且設定極限學習機的隱含層神經元個數Nl,并隨機初始化極限學習機的輸入層與隱含層 之間的權重矩陣if e 和隱含層的偏置向量F e ; 4) 將源域數據集Xs作為極限學習機的輸入,計算得到相應的極限學習機的隱含層輸出 矩陣.? :將目標域數據集Xt作為極限學習機的輸入,計算得到相應的極限學習機的隱含層輸出 矩陣:其中,g( ·)表示極限學習機的激活函數; 5) 判斷源域數據集所包含的源域數據樣本個數Ns與極限學習機隱含層神經元個數Nl的 數值關系; 若Ns多NL,則按下式計算極限學習機的隱含層與輸出層之間的權重矩陣慫e : &= (Il+Cs · Hst · Hs+CT · Htt · Ht)-HCs · Hst · Ts+Ct · Htt · Ττ); 其中,Il為Nl X Nl的單位矩陣; 若Ns<NL,則按下式計算極限學習機的隱含層與輸出層之間的權重矩陣爲ef "": Ps = Hst · Fst+Htt(Fb 1 · Tt-Fb 1 · Fa · Fst); 其中,Fst、Fa、Fb和Fe均為縮寫式,其各自的展開式為:其中,Is為Ns X Ns的單位矩陣;上角標T均為轉置符號; 6) 獲取電子鼻在發生漂移后所采集的Nu個未標記標簽的氣體傳感器陣列感測數據矩陣 作為待測域數據集Xt,= {X丨尤,…,拉'卜任意的第k個待測數據樣本X〖.為電子鼻 在發生漂移后進行一次氣體檢測所得到的氣體傳感器陣列感測數據矩陣,ke {1,2,···, Nu},即:其中,;表示第k個待測數據樣本1?中電子鼻氣體傳感器陣列的第η個氣體傳感器的 感測特征向量,n e {1,2,…,Ν};上角標T為轉置符號; 7) 將待測域數據集Xu作為極限學習機的輸入,計算得到相應的極限學習機的隱含層輸 出矩陣/-/, :由此得到的對應的隱含層輸出矩陣仏={紀,妃,…,巧,,.,,^},紀6及~表示第1^個待 測數據樣本X〗.所對應的隱含層輸出向量; 8) 將步驟5)所得到的權重矩陣說作為電子鼻的識別分類器,按下式分別計算待測域數 據集中各個待測數據樣本所對應的標簽: 其中,滅表示計算得到的表示第k個待測數據樣本在第m類目標氣體類別序號上的類別標簽值; 對于第k個待測數據樣本,將其標簽%中最大類別標簽值所在的目標氣體類別序號 所對應的目標氣體類別判定識別為待測數據樣本XJ所屬的氣體類別;由此,判定得到待測 域數據集中各個待測數據樣本的氣體類別識別結果。2. 根據權利要求1所述基于源域迀移極限學習漂移補償的電子鼻氣體識別方法,其特 征在于,所述步驟3)中,源域數據樣本的預測誤差懲罰系數Cs的優選取值范圍為KT 3~10°。3. 根據權利要求1所述基于源域迀移極限學習漂移補償的電子鼻氣體識別方法,其特 征在于,所述步驟3)中,目標域數據樣本的預測誤差懲罰系數Ct的優選取值范圍為IO t3~ IO304. 根據權利要求1所述基于源域迀移極限學習漂移補償的電子鼻氣體識別方法,其特 征在于,所述步驟3)中,極限學習機的隱含層神經元個數Nl的優選取值范圍為IO 2~104。5. 根據權利要求1所述基于源域迀移極限學習漂移補償的電子鼻氣體識別方法,其特 征在于,所述極限學習機的激活函數g( ·)選用徑向基函數或sigmoid函數。
【文檔編號】G01N33/00GK105891422SQ201610218450
【公開日】2016年8月24日
【申請日】2016年4月8日
【發明人】張磊, 劉燕, 鄧平聆, 田逢春
【申請人】重慶大學