一種非線性的復雜物質定量分析新方法
【技術領域】
[0001]本發明屬于分析化學領域的化學計量學方法,特別涉及一種用于復雜物質組分含量測定的非線性建模方法。
【背景技術】
[0002]復雜物質組分含量的定量分析是當前分析化學研究中的重要問題之一,將化學計量學結合光譜技術對樣品進行定量分析在化學領域備受關注。利用化學計量學方法對光譜進行定量分析是一種間接分析的方法,大量化學計量學方法被寫成軟件,并成為分析儀器的重要組成部分。多元校正是將被測物組分(或是某些性質)與檢測儀器的響應值通過某些數學方法建立數學關系模型的方法,它是化學計量學的重要組成部分,利用它可以建立光譜與待測目標的定量模型,直接對復雜樣品進行分析。
[0003]目前對于復雜物質定量分析的多元校正方法有偏最小二乘回歸(PLS)、人工神經網絡(ANN)、支持向量回歸(SVR)等。其中偏最小二乘回歸是一種線性建模方法,在遇到復雜非線性問題時,建模效果不是很好。神經網絡和支持向量回歸作為兩種常用的非線性建模方法在解決實際問題中得到了廣泛的應用。但這兩種傳統算法面臨一些難以克服的缺陷,如學習速度慢、需設置大量參數、易陷入局部極小、算法復雜,難以改進擴展等問題。所以需要尋找一種快速有效的分析復雜樣品中組分含量的方法。前饋神經網絡因其明顯的優點已經被廣泛應用于各個領域。一方面,它可以從輸入樣品中直接逼近復雜的非線性映射;另一方面,它可以為大量自然與人為現象提供模型,傳統的參數化技術很難做到。但是,因為不同層參數存在依賴以至于前饋神經網絡的所有參數都需要調整,這使前饋神經網絡非常耗時。
[0004]對此,2004年南洋理工大學黃廣斌教授基于單隱層前饋神經網絡(single hiddenlayer feedforward neural network,SLFNs)提出了一種新算法,命名為極限學習機(Extreme Learning Machine,ELM)。與以往的神經網絡學習算法相比,極限學習機有更快的學習速度,更好的泛化性能和最少的人為干預。由于ELM其本身的優良性能,該方法已經應用于食品鑒別、圖像處理等許多實際問題中。但該方法在復雜樣品定量分析中的應用非常少。ELM模型運行需要設置兩個參數,S卩:激勵函數和隱藏層的節點數,因設置不同的參數對運行結果的準確性和穩定性存在影響,但是參數的設置是個難點,若設置參數為最佳時,ELM模型每次的運行結果相對穩定。我們考察不同輸入參數對ELM模型運行時性能的影響,據此確立了 ELM模型運行時的最優參數。并在最優參數的情況下,建立模型,避免了模型的不穩定性。
[0005]綜上所述,開發快速、有效的定量分析方法是復雜物質成分分析的有效途徑。而本發明引進極限學習機方法,結合光譜分析技術,擬建立復雜物質組分快速、有效的定量檢測方法。
【發明內容】
[0006]本發明的目的是針對上述存在的問題,提供一種快速、有效的復雜樣品非線性定量分析的方法,對于復雜樣品中組分含量的測定具有重要意義。
[0007]為實現本發明所提供的技術方案包括以下步驟:
[0008](I)數據采集
[0009]采集被測物樣本光譜數據,用常規方法測定樣本被測成分的含量。采用一定的分組方式將樣本集劃分為訓練集和預測集,其中訓練集樣本用來建立模型并優化參數,預測集樣本用來檢驗模型的預測能力。
[0010](2) ELM參數優化
[0011]ELM進行計算時需要設置兩個參數:激勵函數和隱藏層節點數,選取的激勵函數包括:Sigmoid函數(簡稱為sig)、Sine函數(簡稱為sin)、Hardlim函數、TriangularBasis函數(簡稱為tribas)和Radial Basis函數(簡稱為radbas);其中參數隱層節點數是正整數,從I變化到某個設定值N。選取激勵函數和設置隱藏層節點數對ELM的精確度有顯著的影響,根據訓練集光譜的RMSEP值隨選取激勵函數和隱藏層節點數的變化,當RMSEP達到最小時對應的激勵函數和隱藏層節點數為最佳參數。
[0012](3) ELM模型建立
[0013]采用最佳參數設置激勵函數和隱藏層節點數,建立最優ELM模型。
[0014](4)未知樣本預測
[0015]將預測集光譜代到確立的ELM模型中,預測未知樣本中被測成分的含量。
【附圖說明】
[0016]圖1為數據集I預測集樣本測量值與預測值的關系圖。其中a)、b)、c)、d)分別對應ELM、PLS、SVR以及ANN方法的建模結果。
[0017]圖2為數據集2預測集樣本測量值與預測值的關系圖。其中a)、b)、c)、d)分別對應ELM、PLS、SVR以及ANN方法的建模結果。
【具體實施方式】
[0018]為更好理解本發明,下面結合實施例對本發明做進一步地詳細說明,但是本發明要求保護的范圍并不局限于實施例表示的范圍。
[0019]實施例1:
[0020]本實施例是應用于近紅外光譜分析,對乙醇組分含量值進行測定。具體的步驟如下:
[0021](I)數據采集
[0022]測定95個乙醇組分的樣本近紅外光譜數據,光譜采用HP8453光譜儀測定,波長范圍為850-1049nm,采樣間隔為lnm,包括200個波長點,根據網站上對數據集的劃分,65個樣本用作訓練集,30個樣本用作預測集。
[0023](2) ELM參數優化
[0024]ELM進行計算時需要設置兩個參數:激勵函數和隱藏層節點數,選取的激勵函數包括:Sigmoid函數(簡稱為sig)、Sine函數(簡稱為sin)、Hardlim函數、TriangularBasis函數(簡稱為tribas)和Radial Basis函數(簡稱為radbas);其中參數隱層節點數目一般設定為1-50。根據65個訓練集光譜的RMSEP值隨選取激勵函數和隱藏層節點數的變化,RMSEP達到最小時對應的最佳參數為:激勵函數radbas和節點數35。
[0025](3) ELM模型建立
[0026]選取radbas為激勵函數,隱藏層節點數設置為35,建立最優ELM模型。
[0027](4)未知樣本預測
[0028]將30個預測集光譜代到確立的ELM模型中,預測乙醇組分的含量。
[0029]當激勵函數tribas,節點數為35時,所建立的ELM模型的預測均方根誤差RMSEP為0.0062,相關系數R為0.9990,運行時間為0.010s,而PLS、SVR和ANN的RMSEP分別為 0.0152、0.0144、0.0444,R 分別為 0.9947、0.9963、0.9873,運行時間分別為 0.0968s,
0.3325s,54.3527s。從以上數據可以看出,ELM具有最高的預測精度以及最快的預測速度,PLS模型略差于ELM模型,ANN模型計算時間為ELM的5435倍,而且預測結果是四種模型中最差的。圖2顯示了 ELM、PLS、SVR以及ANN方法的預測集真實值與預測值的關系,與其他三種方法相比ELM的預測集真實值與預測值非常接近,線性相關性最好,ANN模型預測集真實值與預測值相關性最差。因此,ELM方法也可以用最短的計算時間獲得最高的預測精度。
[0030]實施例2:
[0031]本實施例是應用于近紅外光譜分析,對燃油樣本的密度值進行測定。具體的步驟如下:
[0032](I)數據采集
[0033]測定263個柴油機燃料樣本的近紅外光譜數據,近紅外光譜波長范圍為750_1550nm,包括 401 個波長點,數據由美國軍方 Southwest Research Institute (SffRI),SanAnton1, TX through Eigenvector Research, Inc.(Manson,Washington)提供,下載網址:http://www.eigenvector.com/Data/SWRI),采用網站上對數據集劃分的描述,142個樣本用作訓練集,剩余121個樣本用作預測集。
[0034](2) ELM參數優化
[0035]ELM進行計算時需要設置兩個參數:激勵函數和隱藏層節點數,選取的激勵函數包括:Sigmoid函數(簡稱為sig)、Sine函數(簡稱為sin)、Hardlim函數、TriangularBasis函數(簡稱為tribas)和Radial Basis函數(簡稱為radbas);其中參數隱層節點數目設定為1-50。根據142個訓練集光譜的RMSEP值隨選取激勵函數和隱藏層節點數的變化,RMSEP達到最小時對應的最佳參數為:激勵函數tribas和節點數48。
[0036](3) ELM模型建立
[0037]激勵函數選取tribas,隱藏層節點數設置為48,建立最優ELM模型。
[0038](4)未知樣本預測
[0039]將測定的121個預測集光譜代到ELM模型中,預測柴油機燃料的含量。
[0040]當激勵函數為tr ibas,節點數為48時,所建立的ELM模型的預測均方根誤差RMSEP為0.0012,相關系數R為0.9933,運行時間為0.0410s,而PLS、SVR和ANN的RMSEP分別為 0.0019、0.002U0.0043,R 分別為 0.9817、0.9793、0.9254,運行時間分別為 0.5794s、
2.1877s、63.5766s。從以上數據可以看出,ELM具有最高的預測精度以及最快的預測速度,PLS模型略差于ELM模型,ANN模型計算時間為ELM的1550倍,而且預測結果是四種模型中最差的。圖2顯示了 ELM、PLS、SVR以及ANN方法的預測集真實值與預測值的關系,與其他三種方法相比ELM的預測集真實值與預測值非常接近,線性相關性最好,ANN模型預測集真實值與預測值相關性最差。因此,ELM方法也可以用最短的計算時間獲得最高的預測精度。
[0041]上述實施例說明該方法為非線性復雜物質定量分析提供了一種快速、準確分析的新方法,這種方法能大大縮短計算時間,并提高模型的預測精度。
【主權項】
1.一種非線性的復雜物質定量分析新方法,其特征在于:(1)數據采集,(2) ELM參數優化,(3) ELM模型建立,(4)未知樣本預測。2.根據權利要求1所述的非線性的復雜物質定量分析新方法,其特征在于:ELM模型最佳參數的確定方法:根據訓練集光譜的RMSEP值隨激勵函數和隱藏層節點數的變化,當RMSEP達到最小時對應的激勵函數和隱藏層節點數為最佳參數。3.根據權利要求1所述的非線性的復雜物質定量分析新方法,其特征在于:該方法不僅適用于乙醇溶液、燃油等復雜物質,其它復雜物質如牛奶、中藥等也適應。
【專利摘要】本發明涉及復雜樣品的定量分析問題,由于傳統的建模方法存在負荷量大、學習速度慢、易陷入局部極小等問題,本發明引入了非線性的極限學習機(ELM)建立復雜樣品定量分析方法。首先采用一定的分組方式將數據集劃分為訓練集和預測集。然后根據預測集的RMSEP確定ELM模型的激勵函數和隱藏節點數,采用確定好的最優參數建立ELM模型。對于未知樣品,代入模型預測未知樣本中被測成分的含量。結果表明,與PLSR、SVR以及ANN等方法相比,ELM方法有很高的預測精度,在運行時間上也有明顯的優勢。
【IPC分類】G01N21/25, G06N3/08
【公開號】CN105004677
【申請號】CN201510407751
【發明人】卞希慧, 李淑娟, 劉路顯, 陳嬌嬌, 陸笛
【申請人】天津工業大學
【公開日】2015年10月28日
【申請日】2015年7月10日