基于集成l1正則化的紅外光譜波長選擇方法
【技術領域】
[0001] 本發明涉及紅外光譜技術領域,更具體而言,涉及一種基于集成L1正則化的紅外 光譜波長選擇方法,是一種利用集成學習思想的紅外光譜波長選擇方法。
【背景技術】
[0002] 紅外光譜分析是一種新興的分析技術,由于它具有快速、無損和無污染等優點,在 農業、化工和環境監測等領域有著廣泛的應用。但是,紅外光譜通常具有波長點多、吸收峰 重疊、波長點之間存在嚴重的共線性關系等特點,給后續的定性與定量分析造成困難。因 此,研究波長選擇方法,對于簡化模型、提高模型的預測能力和魯棒性具有重要的實際意 義。
[0003]傳統的波長選擇方法包括前向選擇法、群優化算法、區間偏最小二乘法、無信息變 量消除法等。前向選擇法通過逐步回歸,每次選擇一個相關程度最高的波長,但是沒有考慮 波長點間的共線性問題;群優化算法(遺傳算法、蝙蝠算法等),通過特定的優化策略對目 標函數進行優化,從而實現波長的選擇,但是普遍存在計算量大、魯棒性弱等缺點;區間偏 最小二乘法通過將整個波長范圍劃分成若干個子區間,然后選擇泛化性能最好的若干個子 區間,但是子區間的個數設置對結果的影響較大,且計算量較大;無信息變量消除法通過加 入一些人工隨機變量,剔除穩定性低于隨機變量的波長點,從而達到波長選擇的目的,但是 選擇出的波長點個數依然很多,模型復雜度較高。
[0004]然而,上述方法均未對波長選擇方法的穩定性進行分析,即當數據集發生變化時, 波長選擇的結果也不盡相同,從而導致對篩選出的特征波長解釋性變差。文獻[高維小樣 本數據的特征選擇研究及穩定性分析,2014,廈門大學碩士學位論文.]將隨機森林思想引 入到特征選擇研究中,并提出了隨機集成特征選擇方法,顯著提升了特征選擇算法的穩定 性。然而,該方法并沒有考慮到紅外光譜數據的共線性和稀疏性等特點,直接應用該方法的 效果不佳。
【發明內容】
[0005]針對現有的紅外光譜波長選擇方法普遍存在的穩定性較差的問題,提出一種新型 的集成波長選擇方法,該方法首先對原始數據集利用Bootstrap抽樣方法生成若干個子數 據集,然后利用無信息變量消除法(UninformativeVariableElimination,UVE)對每個子 數據集進行預處理,接著采用L1正則化方法對每個子數據集進行特征選擇,最后對各個子 數據集的波長選擇結果進行集成。
[0006]為了解決上述技術問題,本發明所采用的技術方案為:
[0007]基于集成L1正則化的紅外光譜波長選擇方法,首先利用Bootstrap抽樣方法生成 若干個子數據集,其次針對每個子數據集采用無信息變量消除法進行預處理,然后利用L1 正則化方法對每個子數據集進行特征選擇,將特征選擇問題轉換為稀疏優化問題并進行計 算,最后采用投票法對各個子數據集的波長選擇結果進行集成,從而篩選出最佳的特征波 長組合。
[0008] 具體步驟為:
[0009] 步驟1、利用Bootstrap抽樣方法對原始數據集進行有放回地重采樣,從而生成Μ 個子數據集Si,s2,…,SM;
[0010] 步驟2、針對每個子數據集,利用無信息變量消除法對光譜進行預處理,從而剔除 其中貢獻在噪聲水平的波長點;
[0011] 步驟3、針對每個子數據集,利用L1正則化方法,對經過無信息變量消除法預處理 后的波長點進行特征選擇,即將波長篩選問題轉化為以下1:范數稀疏優化問題計算稀疏解 結果:
[0012]
[0013] 其中,為利用光譜儀掃描出的紅外光譜信號;為對應的待分析 組分含量;b為經過無信息變量消除法預處理后的波長點回歸系數;II為L1正則化算法中 控制稀疏度的參數;?為計算出的最優解;
[0014] 步驟4、采用投票法對Μ個子數據集Si,S2,…,SM的波長選擇結果進行集成,從而篩 選出最佳的特征波長組合。
[0015] 所述步驟2中無信息變量消除法對光譜進行預處理具體為:
[0016] (1)產生一個與原光譜矩陣維度相同的隨機噪聲變量矩陣,并與原光譜矩陣合并 在一起,形成一個擴展矩陣X€ :
[0017] (2)采用交叉驗證PLS方法建立待分析組分含量Y與光譜信號i之間的回歸模 型:
[0018] y= …+bpxp+bp+1xp+1+. · · +b2px2p
[0019] (3)根據下式計算各個變量對待分析組分含量Y的貢獻值:
[0020]
[0021] 上式中,mean(bj和stcKbj)分別表示第j個變量的回歸系數的均值和標準差,可 以看出,S]越大,表明第j個變量的回歸系數的穩定性越高,意味著對待分析組分含量Y的 貢獻值越重要,當s/j、于一定的閾值時,可以認為對應的變量貢獻很少,即稱為"無信息變 量",可以刪除;
[0022] (4)通過下式中給出的閾值,對所有的回歸系數進行處理,將其中小于閾值的變量 刪除:
[0023]cutoff=kXmax(abs(snoise))
[0024] 其中,k為需要調整的參數。
[0025] 所述步驟3中計算的稀疏解結果需要轉換為二進制序列方式,即一個長度為P的 二進制序列,其中1表示對應的波長點被選中,〇表示未被選中。
[0026] 與現有技術相比本發明所具有的有益效果為:
[0027]本發明為了提升紅外光譜波長選擇的穩定性,引入集成學習思想,并利用無信息 變量消除法對光譜數據進行預處理,同時采用L1正則化方法進行特征選擇,與現有方法相 比,該方法具備可調參數少、穩定性強等優點,從而可以大大提升特征選擇結果的穩定性, 可以廣泛應用于固相、液相和氣相的紅外光譜波長選擇領域中。
【附圖說明】
[0028] 下面通過附圖對本發明的【具體實施方式】作進一步詳細的說明。
[0029] 圖1為本發明的系統框圖;
[0030] 圖2為60個汽油樣品的近紅外光譜圖;
[0031] 圖3為無信息變量消除法波長篩選過程圖;
[0032] 圖4為無信息變量消除法波長篩選結果圖;
[0033] 圖5為本發明的波長選擇結果圖。
【具體實施方式】
[0034] 下面實施例結合附圖對本發明作進一步的描述。
[0035] 如圖1所示,為本發明基于集成L1正則化的紅外光譜波長選擇方法系統框圖。
[0036] 假設有N個樣品,利用光譜儀掃描出的紅外光譜信號為Χ£Κ·νχΡ,對應的待分析 組分含量為YeJP/x1。其中,Ρ為紅外光譜的波長點數,一般情況下Ν<<Ρ。
[0037] 由化學計量學原理可得,待分析組分的含量預測模型可以表示為
[0038] Y=Xb+ε (1)
[0039] 其中,15€狀~為待擬合的回歸系數;為噪聲誤差。
[0040] 首先,利用Bootstrap抽樣方法對原始數據集進行有放回地重采樣,從而生成Μ個 子數據集Si,S2,…,SM,每個子數據集中仍然包含Ν個樣品。那么,由概率論可知,新生成的 子數據集中不包含某個樣本的概率為
[0041 ]
[0042]
[0043]
[0044]即雖然新生成的子數據集的樣本總數與原始數據集相等(都為N),但是子數據集 中可能包含了重復的樣本(有放回抽取),若除去重復的樣本,每個子數據集中僅包含了原 始數據集中約1-0. 368X100%= 63. 2 %的樣本。
[0045] 因此,相較于僅依賴一個原始數據集,通過產生Μ個子數據集Si,S2,…,SM,可以有 效保證特征選擇的穩定性。
[0046] 其次,針對每個子數據集,利用無信息變量消除法(UninformativeVariab