近紅外定性鑒別特征提取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及近紅外的定性分析領(lǐng)域,特別是一種近紅外定性鑒別特征提取方法。
【背景技術(shù)】
[0002] 近紅外光譜(NearInfraredSpectrum,NIR)是介于可見光(Vis)和中紅外(MIR) 之間的電磁輻射波,美國材料檢測協(xié)會(ASTM)將近紅外光譜區(qū)定義為780~2526nm的區(qū) 域,是人們在吸收光譜中發(fā)現(xiàn)的第一個非可見光區(qū)。近紅外光譜區(qū)與有機分子中含氫基團 (〇-H、N-H、C-H)振動的合頻和各級倍頻的吸收區(qū)一致,通過掃描樣品的近紅外光譜,可以得 到樣品中有機分子含氫基團的特征信息,而且利用近紅外光譜技術(shù)分析樣品具有方便、快 速、高效、準確和成本較低,不破壞樣品,不消耗化學(xué)試劑,不污染環(huán)境等優(yōu)點,因此該技術(shù) 受到越來越多人的青睞。
[0003] 在定性分析中,建立模型的性能決定最終的識別結(jié)果。模型性能的評價主要包括 模型的穩(wěn)健性和模型的適應(yīng)性兩個方面。模型的穩(wěn)健性即所建模型的識別效果隨時間推移 的變化趨勢,可以反映模型的適用期限。模式適應(yīng)性是指模型對不同儀器數(shù)據(jù)集的識別能 力,可以通過模型傳遞方法解決此類問題。
[0004] 用儀器測得的近紅外光譜實際上是樣品的表觀光譜,表觀光譜既包含確定信息, 也包含不確定信息,確定信息就是樣品的真實光譜特征,不確定信息是樣品光譜上疊加的 各種背景信息。表觀光譜不僅承載了樣品的化學(xué)和物理信息,還包含了測量光譜的儀器參 數(shù)、樣品松緊度等參數(shù)以及溫度、濕度等環(huán)境參數(shù)多方面的背景信息。提高定性分析模型穩(wěn) 健性的主要任務(wù)就是消除這些不確定因素的影響,提高建模數(shù)據(jù)對不確定信息變動的"包 容性"。
[0005] 在以往的定性分析中,只用一段時間內(nèi),同一臺儀器所測試的近紅外光譜數(shù)據(jù)建 模時,存在以下兩個問題:(1)測試不同日期的樣本時,達到最優(yōu)識別效果時所對應(yīng)的特征 提取環(huán)節(jié)的PLS維數(shù)會發(fā)生變化,即同一個模型識別不同天的測試樣本時,最優(yōu)識別率所 對應(yīng)的特征提取維數(shù)不固定;(2)需要給新品種建模時,原有品種的最優(yōu)識別率所對應(yīng)的 維數(shù)也會發(fā)生變化。而在種子企業(yè)實際應(yīng)用近紅外光譜儀進行品種鑒別或真?zhèn)舞b別時,往 往需要對許多新品種進行建模,由于這種情況導(dǎo)致原有品種的識別效果發(fā)生變化,不利于 模型的實際應(yīng)用和推廣。
[0006] 因此,為了解決上述問題,本方法提供了一種近紅外定性鑒別特征提取方法,以提 高近紅外定性分析模型的穩(wěn)健性。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的主要目的是提供近紅外定性鑒別特征提取方法,該方法可簡單可以提高 近紅外定性分析模型的穩(wěn)健性。
[0008] 為達到上述目的,本發(fā)明提供一種近紅外定性鑒別特征提取方法,包括如下步 驟:
[0009] 步驟I:使用近紅外光譜儀采集建模樣本的近紅外光譜數(shù)據(jù);
[0010] 步驟2 :添加同種物質(zhì)樣本的歷史近紅外光譜數(shù)據(jù);
[0011] 步驟3 :對建模樣本的近紅外光譜數(shù)據(jù)及歷史近紅外光譜數(shù)據(jù)樣本數(shù)據(jù)進行預(yù)處 理;
[0012] 步驟4 :對預(yù)處理后的所有樣本數(shù)據(jù)進行偏最小二乘特征提取,并得到偏最小二 乘空間;
[0013] 步驟5 :將預(yù)處理后的建模樣本的近紅外光譜數(shù)據(jù)向構(gòu)建的偏最小二乘空間進行 投影;
[0014] 步驟6 :將投影后的建模樣本的近紅外光譜數(shù)據(jù)進行正交線性判別分析特征提 取,完成提取的方法。
[0015] 從上述技術(shù)方案中可以看出,本發(fā)明具有以下有益效果:
[0016] 本發(fā)明采用近紅外光譜數(shù)據(jù)來進行定性鑒別,使用添加同種物質(zhì)樣本的歷史近紅 外光譜來構(gòu)建偏最小二乘空間,所建定性分析模型具有更好的容變性。對測試樣本的測量 時間和環(huán)境的變化具有更好的魯棒性,使用添加歷史同種物質(zhì)樣本的近紅外光譜來構(gòu)建 PLS空間的方法,使得最優(yōu)識別率所對應(yīng)的PLS維數(shù)比較固定,也可以降低模型維護的難 度,利于近紅外定性分析技術(shù)的推廣,使用本發(fā)明所提供的方法不僅能夠應(yīng)用在食品安全 領(lǐng)域,同時在石油化工、醫(yī)藥、礦物學(xué)和化妝品等領(lǐng)域中得到廣泛的應(yīng)用。
【附圖說明】
[0017] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照 附圖,對本發(fā)明進一步詳細說明,其中:
[0018] 圖1是本發(fā)明提供的近紅外定性鑒別特征提取方法流程圖。
[0019] 圖2是進行偏最小二乘特征提取的方法流程圖;
[0020] 圖3是正交線性判別分析特征提取的方法流程圖;
[0021] 圖4是依照本發(fā)明實施例中實驗一中未使用同種物質(zhì)歷史光譜數(shù)據(jù)參與構(gòu)建PLS 空間,不同PLS維數(shù)下,建模品種數(shù)增加時的識別效果變化曲線。
[0022] 圖5是依照本發(fā)明實施例中實驗二中使用同種物質(zhì)歷史光譜數(shù)據(jù)參與構(gòu)建PLS空 間,不同PLS維數(shù)下,建模品種數(shù)增加時的識別效果變化曲線。
【具體實施方式】
[0023] 請參閱圖1所示,本發(fā)明提供一種近紅外定性鑒別特征提取方法,包括如下步驟:
[0024] 步驟1 :使用近紅外光譜儀采集建模樣本的近紅外光譜數(shù)據(jù),所述近紅外光譜儀 是測試單粒樣本的微型光譜儀,或者是測試整杯樣本的普通光譜儀,采集方式包括漫反射 或透射;所述采集建模樣本的近紅外光譜數(shù)據(jù),是用同一臺近紅外光譜儀在同一外部環(huán)境、 不同時間采集樣本的近紅外光譜數(shù)據(jù);
[0025] 步驟2 :添加同種物質(zhì)樣本的歷史近紅外光譜數(shù)據(jù);所述歷史近紅外光譜數(shù)據(jù)與 建模樣本的近紅外光譜數(shù)據(jù)采集自同種物質(zhì)樣本,所述的同種物質(zhì)樣本的歷史近紅外光譜 數(shù)據(jù),是在過去的實驗中采集的近紅外光譜,該歷史光譜與建模樣本的光譜,使用的近紅外 光譜儀為同一型號,采集環(huán)境不同,
[0026] 步驟3 :對建模樣本數(shù)據(jù)及歷史近紅外光譜數(shù)據(jù)樣本數(shù)據(jù)進行預(yù)處理,所述的預(yù) 處理,是去除或降低不確定的背景信息對光譜數(shù)據(jù)的噪聲干擾,采用的預(yù)處理方法包括數(shù) 據(jù)歸一化處理、導(dǎo)數(shù)法處理、平滑處理、中心化和標準化處理,所述不確定的背景信息是指 受近紅外光譜儀儀器狀態(tài)、測定條件與環(huán)境影響的信息;所述不確定的背景信息是指受近 紅外光譜儀儀器狀態(tài)、測定條件與環(huán)境影響的信息。
[0027] 步驟4 :對預(yù)處理后的所有樣本數(shù)據(jù)進行偏最小二乘特征提取,并得到偏最小二 乘空間,所述的進行偏最小二乘特征提取,是對所有樣本數(shù)據(jù)進行偏最小二乘特征提取,得 到偏最小二乘特征矩陣,以利用該矩陣將建模數(shù)據(jù)變換到偏最小二乘空間,所述進行偏最 小二乘特征提取,得到偏最小二乘特征矩陣(參閱圖2),具體包括:
[0028] 步驟41 :對樣本數(shù)據(jù)進行標準化處理,即令樣本的各個變量的均值為0,方差為1 ; 令總樣本矩陣為X0,類別信息矩陣為Y。,Xm為步驟1中的建模樣本矩陣,Xra為同種物質(zhì)歷 史樣本矩陣;其中,X。定義為n條光譜p個數(shù)據(jù)點的原始光譜矩陣,Y。為對應(yīng)的類別屬性矩 陣為:
[0034] Y。中,ylj= 1表示第i條光譜屬于第j類,ylj= 0表示第i條光譜不屬于第j類;
[0035] 步驟42 :求矩陣X'J。的協(xié)方差矩陣C=X' A,協(xié)方差矩陣常數(shù)舍棄;
[0036] 步驟43 :求得協(xié)方差矩陣C的特征值以及對應(yīng)的特征向量,并將特征向量按照特 征值的大小排列,取最大的n維特征值對應(yīng)的特征向量組成投影矩陣Was,構(gòu)建偏最小二乘 空間;
[0037] 步驟5 :將預(yù)處理后的建模樣本數(shù)據(jù)向構(gòu)建的偏最小二乘空間進行投影,所述將 建模樣本數(shù)據(jù)向偏最小二乘空間進行投影,即將^為待建模樣本矩陣與投影矩陣W^相 乘,得到新的特征向量為,=X1W' 所述向構(gòu)建的偏最小二乘空間進行投影可以進 一步消除變量之間的相關(guān)性,剔除多重相關(guān)信息和無解釋有意義信息的干擾,突出不同類 數(shù)據(jù)之間的類間差異,從而提高模型的穩(wěn)健性。
[0038] 步驟6 :將投影后的建模數(shù)據(jù)進行正交線性判別分析特征提取,所述的正交線性 判別分析特征提取方法,與傳統(tǒng)的線性判別分析相比,能夠解決后者在現(xiàn)實應(yīng)用中遇到的 小樣本問題。所述對建模樣本數(shù)據(jù)進行正交線性判別分析特征提取(參閱圖3),具體包括:
[0039] 步驟61 :對經(jīng)過偏最小二乘特征提取之后的建模集數(shù)據(jù)進行正交線性鑒別分析 特征提取,得到正交線性鑒別分析特征矩陣;所述進行正交線性鑒別分析特征提取,得到正 交線性鑒別分析特征矩陣,具體包括:
[0040] 步驟611 :假設(shè)有C類樣本,總樣本數(shù)為N,N1為第i類樣本數(shù),則定義類內(nèi)散布矩 陣Sw、類間散布矩陣Sb如下:
[0046] 其中,W1(i= 1,2,...,)對應(yīng)為下式特征值降序排列前n個值對應(yīng)的特征向量, 且要滿足WtW=I:
[0047] SbW=ASwW
[0048] 步驟613 :得到W_ _后,取最大的n維特征值對應(yīng)的特征向量組成投影矩陣 W(UA,即可進行數(shù)據(jù)轉(zhuǎn)換Y' =YW' aDA。
[0049] 步驟62 :利用得到的正交線性鑒別分析特征矩陣,將經(jīng)過偏最小二乘特征提取之 后的建模集數(shù)據(jù)變換到正交線性鑒別分析空間中,完成提取的方法。
[0050] 實施例
[0051] 本實驗以玉米品種鑒別為例,用本發(fā)明提供的方法建立品種鑒別模型的實驗,并 給出實驗測試結(jié)果,以驗證本發(fā)明所建模型的效果。
[0052] 本實施例中的實驗儀器采用杭州聚光科技公司(FPI)的SupNIR-2700系列的近紅 外光譜儀,儀器參數(shù)如下:儀器適用的樣品狀態(tài)為顆?;蚍勰畹裙腆w,光源為鹵鎢燈,波 長范圍為1000~1800nm,有效光程為0. 2~5mm,波長準確性為0. 2nm,測定形式是非接觸 漫反射。
[0053] 實驗所用的建模集玉米品種有農(nóng)華032、農(nóng)大108、京玉16、洛單248、屯玉2106、玉 朱2107、玉朱2110、屯玉2109共8個品種足夠多的籽粒,且均分為有包衣和無包衣的兩種 籽粒;
[0054] 分別用9月15日、9月16日、10月21日上午每個品種的30條有包衣的光譜數(shù)據(jù) 作為測試集,即每個測試集共計240條光譜,三個日期的測試集分別記作Tl、T2、T3。
[0055] 同種物質(zhì)歷史近紅外光譜即過去實驗采集的玉米數(shù)據(jù)有:屯玉綠源2012、屯玉綠 源2014、屯玉綠源2015、農(nóng)華035、農(nóng)大106、農(nóng)華海南101、農(nóng)華海南2010、浚單武威2011、 甘肅臨澤2009、浚單武威2010共計10個品種,每個品種光譜30條,30條分為三天,每天各 10條,分別采于2013年6月27日、2013年7月9日、2013年7月17日,這些數(shù)據(jù)記作歷史 近紅外光譜數(shù)據(jù)H。
[0056] (一)采集樣本的建模近紅外光譜數(shù)據(jù)
[0057] 采集8個品種的近紅外光譜數(shù)據(jù)。在采集時采用交