專利名稱:基于隨機采樣一致集的譜圖異常樣本點檢測方法
技術領域:
本發明涉及化學計量學多元校正模型數據處理技術領域,特別涉及一種基于隨機采樣一致集的譜圖異常樣本點檢測方法。
背景技術:
隨著現代分析儀器的發展,檢測信號已由傳統的單一數值變化為完整的譜圖,甚至是圖像。對于光譜數據,維數相對于采集的樣本個數來說通常是很高的,此時校正回歸問題嚴重病態,傳統的一元單變量校正方法難以對這些數據進行分析,取而代之的是多元校正方法[1]。化學計量學多元校正技術直接利用測量信號,通過降維、特征提取、特征變換以及多元回歸技術建立光譜信號與樣品濃度之間的定量模型,以實現定量分析。然而,經典的多元校正方法,如多元線性回歸、主成分回歸、偏最小二乘回歸[2_3]通常特別易受異常樣本點的影響。一般地,與數據集中大部分樣本相比,異常樣本就是無關的、或者某種程度上是錯誤的和不正常的樣本。異常樣本一般是由儀器故障、采集條件因素、人為操作誤差或數據自身缺陷等原因引起的。異常樣本的存在會影響模型的質量,導致建立的模型無法反映數據的真實關系,無法得到準確的預測結果。因此,需要剔除異常樣本點的影響建立穩健的模型[4]。對于主成分回歸,一般采用穩健的協方差估計替代傳統的數據協方差矩陣,從而實現穩健的主成分回歸。對于偏最小二乘(PLS)回歸,不同的穩健PLS模型被提出,如將PLS方法中所涉及到的最小二乘回歸方法,部分或全部替換成某種穩健回歸方法,如迭代重加權最小二乘(IRLS)、最小中位數平方法(LMS)和截尾最小二乘法(LTS)等;迭代重加權偏最小二乘(IRPLS)方法[5];偏穩健M回歸方法[6] ;RSIMPLS方法[7]。還有一類方法通過交叉驗證來檢測異常樣本,如基于留一交叉驗證得到每個樣本對應的光譜殘差或濃度殘差,然后判定殘差超出某個閾值的樣本為異常樣本M ;類似地,模特卡羅交叉驗證也被用于異常樣本檢測,該方法首先建立模特卡羅交叉驗證模型,然后根據預測誤差平方和排序,并統計每個樣本在不同模型中的出現頻次,最終基于異常樣本與正常樣本的出現頻次差異來判定樣本是否異常。然而,基于交叉驗證的異常樣本檢測方法,可能會產生“掩蓋”現象,導致無法檢測出或錯誤識別異常樣本。穩健的主成分回歸或偏最小二乘回歸對于數據集中異常樣本較多時檢測效果較差。基于最大后驗概率隨機采樣一致集[9],進行多元校正異常樣本檢測,是一種新的方法,它能夠通過不斷地隨機采樣,剔除數據中的異常樣本,目前還未見成熟的技術與文獻。現實應用中的各種復雜情形,如觀測條件、操作因素等,均會導致異常樣本點的出現。各種不同類型的異常樣本點對校正模型的影響程度不同,如何有效消除這些異常樣本的影響是化學計量學多元校正技術的一個難題。[l]Martens H, Nas T. Multivariate calibration. Wiley, 1992[2]ffold H. Soft modelling by latent variables:the nonlineariterativepartial least squares approach.Perspectives in Probability andStatistics.
權利要求
1.一種基于隨機采樣一致集的譜圖異常樣本點檢測方法,其特征在于,包括如下具體步驟 步驟(I):對給定光譜數據X進行穩健主成分分析,檢測并消除異常光譜樣本點,得到校正樣本集X。,記校正樣本集X。中樣本數目為m。; 步驟(2):在所述步驟(I)中的校正樣本集X。上進行隨機采樣,得到當前的訓練集Xs ; 步驟(3):基于所述步驟(2)中的訓練集Xs建立多元校正模型,并計算模型預測殘量誤差Es ; 步驟(4):利用步驟(3)中的多元校正模型和模型預測殘量誤差Es,評價模型的性能并得出評價得分,并將步驟(I)中的校正樣本集X。確定為內點集U。; 步驟(5):重復步驟(2)至步驟(4)N次,其中N定義為自然數,從而得到N個評價得分,選擇其中評價得分最高的多元校正模型所對應的校正樣本集為最終的內點集um。
2.根據權利要求1所述的基于隨機采樣一致集的譜圖異常樣本點檢測方法,其特征在于,所述步驟(I)包括如下具體步驟 步驟(11):建立模型X=TPt,其中Ttt1, t2,…,ta]T定義為得分矩陣,Ρ[ρι,ρ2,…,pa]TS義為載荷矩陣,a定義為主成分個數; 步驟(12):利用公式t—i^mediani^,t2,…ta)計算主成分得分向量tp t2,…,ta的中信t ·I 1-°* ^median, 步驟(13):基于步驟(12)中的中值tmedian以及如下公式 Smad=1- 4826median (| I^tmedian |,| t2_tmedian |,…| ta_tmedian |) 計算出數據的中值絕對偏差Smad ; 步驟(14):利用公式計算出每個主成分得分數據與中值之間的誤差值Cli,其中i=l,…,m。,剔除Cli ^ 3 X Smad的樣本點,得到的數據集為校正樣本集X。。
3.根據權利要求2所述的基于隨機采樣一致集的譜圖異常樣本點檢測方法,其特征在于,所述步驟(2)包括如下具體處理 在校正集X。上進行隨機采樣,隨機地挑選出πι=πιε/2個樣本,其中,m定義為正偶數,形成樣本子集
4.根據權利要求3所述的基于隨機采樣一致集的譜圖異常樣本點檢測方法,其特征在于,所述步驟(3)包括如下具體處理 建立濃度值多元校正模型Ys=XsB,并利用公式
5.根據權利要求4所述的基于隨機采樣一致集的譜圖異常樣本點檢測方法,其特征在于,所述步驟(4)包括如下具體處理 步驟(41):利用公式
全文摘要
本發明公開了一種基于隨機采樣一致集的譜圖異常樣本點檢測方法,以最大后驗概率隨機采樣一致集為基礎,從給定光譜數據入手,通過主成分分析預先剔除部分異常樣本得到校正樣本集,進行隨機采樣,建立多元校正模型并評價模型性能,通過多次隨機采樣,選擇合適的樣本子集為內點集。本發明所設計的基于隨機采樣一致集的譜圖異常樣本點檢測方法快速有效、準確度高和適用范圍廣。
文檔編號G01N21/25GK103018177SQ20121051918
公開日2013年4月3日 申請日期2012年12月6日 優先權日2012年12月6日
發明者王海燕, 劉軍, 姜久英 申請人:江蘇易譜恒科技有限公司