Bagging極限學習機集成建模方法
【技術領域】
[0001]本發明屬于化學計量技術領域,具體涉及Bagging極限學習機集成建模方法。
【背景技術】
[0002]人工神經網絡因其強大的自適應、自組織、自學習和非線性映射能力,已廣泛應用于生物、化學、醫學、經濟等各種領域。但是傳統的神經網絡學習算法(如BP算法)需要人為設置大量的網絡訓練參數,訓練速度慢、很容易產生局部最優解。2004年,新加坡南洋理工大學黃廣斌教授提出一種單隱層前饋神經網絡的新算法,命名為極限學習機(ExtremeLearning Machine,ELM)。ELM算法的核心是將神經網絡的訓練問題變化成求解最小二乘的問題,避免了人工神經網絡需要人為的調整參數和易于陷入局部最優解的缺陷。ELM算法因其簡單易實現、學習速度快、泛化能力強等特點,近年來受到越來越多的關注,在分析化學、控制工程、圖像識別等多個領域得到應用。但由于ELM的輸入權重和隱層神經元的偏置是隨機設置的,使得模型的運行結果具有不穩定性。
[0003]集成建模技術通過將多個模型的結果進行融合得到最終預測結果,能提高模型預測的精度與穩定性。Bagging作為一種常用的集成建模方法,用“bootstrap”方法從訓練集中隨機選擇部分樣本建立多個子模型,再將多個子模型預測結果取平均得到最終預測結果。該方法一方面通過重新選取訓練集增加集成建模的差異度,另一方面通過融合多個預測結果提升了基礎模型的預測精度。
[0004]本發明結合ELM及Bagging的優勢,提出了基于Bagging的ELM集成建模方法,并用于復雜樣品定量分析,既保留了 ELM計算速度快、預測能力強的優勢,又克服了 ELM穩定性差的缺點。
【發明內容】
[0005]本發明的目的在于提出一種穩定性好、預測精度高的Bagging極限學習機集成建模方法。
[0006]本發明將Bagging算法與極限學習機模型(ELM)相結合,建立了基于Bagging的極限學習機集成方法(記為Bagging ELM),其流程如圖1所示,具體步驟為:
(1)采集被測物樣本的光譜數據,用常規方法測定樣本被測成分的含量;將樣本集劃分為訓練集和預測集;
(2)對訓練集樣本進行boostrap重采樣,隨機選取一定數目樣本作為一個訓練子集;
(3)確定極限學習機最佳激勵函數和隱藏層節點數,用訓練子集的樣本建立極限學習機子模型;
重復步驟(2 )、步驟(3 )多次,建立N個子模型;
(4)對于未知樣品,通過對多個子模型的預測結果作算術平均,得到最終預測結果。
[0007]本發明中,所述N個子模型的個數的確定方法如下:給定一個足夠大的子模型數目值,固定每個數據集的訓練子集樣本數為總樣本數的50%,計算預測均方根誤差(Rootmean square error of predict1n, RMSEP),并觀察RMSEP隨著子模型個數的變化;當RMSEP值不變或者幾乎不變(趨于穩定)時,其所對應的子模型個數即為所需的個數N。
[0008]本發明中,訓練子集的樣本數目的確定方法如下:固定子模型個數,按樣本數的5%~100%,每間隔5%,改變被選取的樣本的數目(非整數時去尾法取整),計算RMSEP值,RMSEP最小或趨于平穩時對應的樣本數目,即為每次循環選取的樣本數目。
[0009]本發明中,確定極限學習機最佳激勵函數和隱藏層節點數的具體方法如下:根據訓練集光譜的RMSEP值隨選取激勵函數和隱藏層節點數的變化,當RMSEP達到最小時,RMSEP所對應的激勵函數和隱藏層節點數即為最佳參數。
[0010]本發明的優點是:該建模方法結合了集成建模技術Bagging和極限學習機的優勢,提高了極限學習機算法的預測精度與穩定性,為復雜物質多元校正分析提供了一種新的建模方法。本發明方法可廣泛適用于石油、煙草、食品、中藥等領域的復雜物質定量分析。
【附圖說明】
[0011]圖1是Bagging極限學習機的流程圖。
[0012]圖2是燃油紫外數據的預測均方根誤差值隨著子模型個數的變化。
[0013]圖3是燃油紫外數據的預測均方根誤差值隨著訓練子集樣本百分數的變化。
[0014]圖4是燃油紫外數據極限學習機及Bagging極限學習機的預測均方根誤差值隨著預測次數的變化。
[0015]圖5是燃油紫外數據Bagging極限學習機及極限學習機對預測集預測的平均預測值與真實值的關系,其中(a)和(b)分別為Bagging極限學習機及極限學習機。
[0016]圖6是乙醇溶液近紅外數據的預測均方根誤差值隨著子模型個數的變化。
[0017]圖7是乙醇溶液近紅外數據的預測均方根誤差值隨著訓練子集樣本百分數的變化。
[0018]圖8是乙醇溶液近紅外數據極限學習機及Bagging極限學習機的預測均方根誤差值隨著預測次數的變化。
[0019]圖9是乙醇溶液近紅外數據Bagging極限學習機及極限學習機對預測集預測的平均預測值與真實值的關系,其中(a)和(b)分別為Bagging極限學習機及極限學習機。
[0020]圖10是柴油近紅外數據的預測均方根誤差值隨著子模型個數的變化。
[0021]圖11是柴油近紅外數據的預測均方根誤差值隨著訓練子集樣本百分數的變化。
[0022]圖12是柴油近紅外數據極限學習機及Bagging極限學習機的預測均方根誤差值隨著預測次數的變化。
[0023]圖13是柴油近紅外數據Bagging極限學習機及極限學習機對預測集預測的平均預測值與真實值的關系,其中(a)和(b)分別為Bagging極限學習機及極限學習機。
[0024]圖14是血液近紅外數據的預測均方根誤差值隨著子模型個數的變化。
[0025]圖15是血液近紅外數據的預測均方根誤差值隨著訓練子集樣本百分數的變化。
[0026]圖16是血液近紅外數據極限學習機及Bagging極限學習機的預測均方根誤差值隨著預測次數的變化。
[0027]圖17是血液近紅外數據Bagging極限學習機及極限學習機對預測集預測的平均預測值與真實值的關系,其中(a)和(b)分別為Bagging極限學習機及極限學習機。
[0028]圖18是卷煙近紅外數據的預測均方根誤差值隨著子模型個數的變化。
[0029]圖19是卷煙近紅外數據的預測均方根誤差值隨著訓練子集樣本百分數的變化。
[0030]圖20是卷煙近紅外數據極限學習機及Bagging極限學習機的預測均方根誤差值隨著預測次數的變化。
[0031]圖21是卷煙近紅外數據Bagging極限學習機及極限學習機對預測集預測的平均預測值與真實值的關系,其中(a)和(b)分別為Bagging極限學習機及極限學習機。
【具體實施方式】
[0032]為更好地理解本發明,下面結合實施例對本發明做進一步地詳細說明,但是本發明要求保護的范圍并不局限于實施例表示的范圍。
[0033]實施例1:
本實施例是應用于紫外光譜分析,對燃油樣品中單芳香族化合物含量值進行測定。具體的步驟如下:
(I)采集115個燃油樣品的紫外光譜數據,波長范圍為200-400nm,采樣間隔為0.35nm,包含572個波長點,光譜采用Varian Cary 3 UV-visible spectrophometer光譜儀測定。單芳香族化合物含量采用HPG1205A超臨界流體色譜進行測定,二氧化碳作為載氣,流速為2mLmin \爐溫為35° C,出口壓力為150bar,檢測器為火焰離子檢測器。根據網站上對數據集的劃分,70個樣本用作訓練集,45個樣本用作預測集。
[0034](2)對訓練集樣本進行boostrap重采樣,隨機選取一定數目樣本作為一個訓練子集。
[0035](3)確定極限學習機最佳激勵函數和隱藏層節點數,用訓練子集的樣本建立極限學習機子模型。
[0036]重復(2)- (3)步驟多次,建立多個子模型。
[0037](4)對于未知樣品,通過多個子模型的預測結果作算術平均,得到最終預測結果。
[0038]子模型個數的確定方法:給定500個子模型數目值,固定每個數據集的訓練子集樣本數為總樣本數的50%,計算預測均方根誤差(Root mean square error of predict1n,RMSEP)隨著子模型個數的變化,RMSEP值不變或者幾乎不變(趨于穩定)時為應建立的模型個數。該實施例中RMSEP隨著子模型個數的變化如圖2所示,當子模型數為500以后,RMSEP值幾乎不變,所以建立的模型個數為500。
[0039]—定數目樣本的選取方法是:固定子模型個數為500,按樣本數的5[100%,每間隔5%,改變被選取的樣本的數目(非整數時去尾法取整),計算RMSEP值,RMSEP最小或趨于平穩時對應的樣本數為每次循環選取的樣本數。該實施例中RMSEP值隨著訓練子集樣本百分數的變化如圖3所示,當訓練子集樣本數達到訓練樣本總數的20~100%時,RMSEP值達到最小且幾乎不變,因此,訓練子集樣本數為樣本總數的20~100%都可以,本例選取訓練子集樣本數