基于粒子群算法的近紅外光譜波長選擇方法
【專利摘要】一種基于粒子群算法的近紅外光譜波長選擇方法,采集樣本的近紅外光譜信號,構成現場歷史數據庫,數據庫包含有多個波長變量,將粒子群算法與偏最小二乘法(partial?linear?squares,PIS)相結合,對近紅外光譜的各個波長進行選擇,從而使得所建立的校正模型具有更強的預測能力,實現對物質成分濃度的精確檢測與分析,為近紅外光譜分析技術在各工業領域的應用提供更好的理論基礎,具有重要的現實意義。
【專利說明】基于粒子群算法的近紅外光譜波長選擇方法
【技術領域】
[0001]本發明涉及近紅外光譜在物質成分定量分析中的應用,具體涉及一種基于粒子群算法的近紅外光譜波長選擇方法。
【背景技術】
[0002]近紅外光譜(near infrared spectroscopy, NIR)來源于分子振動對光的吸收,可用于物質的主要成分分析。紅外光照射在物質上時,伴隨著物質組成的不同,不同波長的光線吸收度也不同,即紅外光譜圖中吸收峰的位置隨物質的組成而發生變化,吸收峰高度隨物質含量的多少而變化。
[0003]近紅外光譜分析技術利用精密的光譜儀器及化學計量學軟件獲取物質在近紅外光譜區的吸收光譜,然后對所獲取的近紅外光譜數據進行分析處理,最終獲得該物質成分的定性或定量分析結果,其性能準確、清潔,有著傳統方法不可匹敵的高效性和穩定性,目前已在食品、制藥、重工業、石油化工等行業得到廣泛應用,現場實時在線分析,帶來了可觀的經濟效益。
[0004]近紅外光譜分析技術主要依賴于校正模型,根據所測物質的成分和性質的不同,采用不同的建模方法,并不斷對校正模型進行擴充和維護。偏最小二乘法(partial linearsquares, PIS)是近紅外光譜數據建模的主要方法之一,它是采用全波段的光譜數據進行建模,這樣不僅使得運算速度變慢,而且會降低模型的預測精度。通過特定的方法篩選特征波長或者波長區域可以使得所建立的模型具有更強的預測能力和更好的穩健性。
[0005]目前,波長選擇的方法主要有相關系數法、無信息變量消除法、遺傳算法等。相關系數法是將校正集光譜矩陣中的每個波長對應的吸光度向量與濃度矩陣中的待測組分濃度向量進行相關性計算,得到波長的相關系數或決定系數,對應相關系數絕對值(或決定系數)越大的其波長信息應越多。結合化學知識給定閾值,選擇相關系數大于該閾值的波長建立模型。相關系數法是利用線性統計方法建立起來的,當用于非線性相關系統或校正樣本集分布不均勻時,利用該方法進行波長選擇所建立的模型預測能力較差。無信息變量消除方法(elimination of uninformative variable, UVE)是基于 PLS 回歸系數建立的一種波長選擇方法,該方法的基本思想是將回歸系數作為波長重要性的衡量指標。雖然該方法在選取波長變量時,同時考慮了噪聲和濃度信息的影響,比較直觀實用,但其效果在很大程度上依賴隨機初始矩陣的生成。遺傳算法(genetic algorithm, GA)是利用生物界自然選擇和遺傳機制,通過選擇、交換、變異和突變等算子的操作,隨著不斷的遺傳迭代,使目標函數值較優的波長變量被保留,較差的則淘汰,最終實現波長選擇的結果。但遺傳算法的局部搜索能力較差,容易產生“早熟”現象,而且在建模過程中,初始校正集樣本的選取以及整個算法的計算過程都是具有很強的隨機性。
【發明內容】
[0006]為了克服上述波長選擇方法存在的不足,本發明的目的在于提供一種基于粒子群算法的近紅外光譜波長選擇方法,從而使得所建立的校正模型具有更強的預測能力,實現對物質成分濃度的精確檢測與分析,為近紅外光譜分析技術在各工業領域的應用提供更好的理論基礎,具有重要的現實意義。
[0007]為了達到上述目的,本發明所采用的技術方案是:
[0008]一種基于粒子群算法的近紅外光譜波長選擇方法,步驟如下:
[0009]步驟1:首先采集樣本的近紅外光譜信號,構成現場歷史數據庫D,數據庫D的測量光譜為近紅外光譜;數據庫D包括有N個波長變量;
[0010]步驟2:近紅外光譜波長選擇方法使用蒙特卡洛(Monte-Carlo, MC)方法,按照預設比例R:1將數據庫D隨機劃分為訓練集和驗證集;
[0011]步驟3:近紅外光譜波長選擇方法初始化訓練集,隨機選取Num個粒子,每個粒子代表一個數據對象,即每個粒子是一個N維向量,Num即為粒子群大小;將這Num個粒子的飛行速度進行隨機初始化;
[0012]步驟4:近紅外光譜波長選擇方法采用二進制編碼對每個粒子進行位置編碼;每個粒子長度等于全部波長N,每個波長對應一個二進制碼,其中數值‘I’表示對應的波長被選中,數值‘0’表不對應的波長未被選中;
[0013]步驟5:近紅外光譜波長選擇方法采用偏最小二乘法(partial linear squares,PIS)建立分析校正模型,并選取交叉驗證均方根誤差RMSECV作為適應度函數,計算每個粒子的適應度值,并記錄個體最優解Pi和全局最優解Pg;交叉驗證均方根誤差RMSECV的計算公式為:
【權利要求】
1.一種基于粒子群算法的近紅外光譜波長選擇方法,其特征在于:步驟如下: 步驟1:首先采集樣本的近紅外光譜信號,構成現場歷史數據庫D,數據庫D的測量光譜為近紅外光譜;數據庫D包括有N個波長變量; 步驟2:近紅外光譜波長選擇方法使用蒙特卡洛Monte-Carlo, MC方法,按照預設比例R: I將數據庫D隨機劃分為訓練集和驗證集; 步驟3:近紅外光譜波長選擇方法初始化訓練集,隨機選取Num個粒子,每個粒子代表一個數據對象,即每個粒子是一個N維向量,Num即為粒子群大小;將這Num個粒子的飛行速度進行隨機初始化; 步驟4:近紅外光譜波長選擇方法采用二進制編碼對每個粒子進行位置編碼;每個粒子長度等于全部波長N,每個波長對應一個二進制碼,其中數值‘I’表示對應的波長被選中,數值‘0’表不對應的波長未被選中; 步驟5:近紅外光譜波長選擇方法采用偏最小二乘法partial linear squares,PIS建立分析校正模型,并選取交叉驗證均方根誤差RMSECV作為適應度函數,計算每個粒子的適應度值,并記錄個體最優解Pi和全局最優解Pg;交叉驗證均方根誤差RMSECV的計算公式為:
2.根據權利要求1所述的一種基于粒子群算法的近紅外光譜波長選擇方法,其特征在于:所述的近紅外光譜波長選擇方法采用USB2000+光纖光譜儀和計算機組成的光譜信號采集系統,并對相關成分在各個頻段的光譜吸收率進行測量采集。
【文檔編號】G01N21/359GK103913432SQ201410114669
【公開日】2014年7月9日 申請日期:2014年3月25日 優先權日:2014年3月25日
【發明者】曹暉, 王燕霞, 張彥斌, 周延 申請人:西安交通大學