一種近紅外定性鑒別方法
【專利摘要】本發明公開了一種近紅外定性鑒別方法,該方法包括:步驟1:采集樣本的近紅外光譜數據;步驟2:確定建模樣本數據并進行預處理;步驟3:對建模樣本數據進行偏最小二乘特征提取;步驟4:對建模樣本數據進行正交線性判別分析特征提取;步驟5:用仿生模式識別方法建立定性分析模型;步驟6:用所建立的定性分析模型進行定性鑒別。與傳統定性鑒別方法相比,本發明提供的方法簡單快捷、準確高效,并且無須專業人士操作。
【專利說明】一種近紅外定性鑒別方法
【技術領域】
[0001] 本發明涉及近紅外的定性分析領域,特別是一種近紅外定性鑒別方法。
【背景技術】
[0002] 近紅外光譜(Near Infrared Spectrum,NIR)是介于可見光(Vis)和中紅外(MIR) 之間的電磁輻射波,美國材料檢測協會(ASTM)將近紅外光譜區定義為780?2526nm的區 域,是人們在吸收光譜中發現的第一個非可見光區。近紅外光譜區與有機分子中含氫基團 (〇-H、N-H、C-H)振動的合頻和各級倍頻的吸收區一致,通過掃描樣品的近紅外光譜,可以得 到樣品中有機分子含氫基團的特征信息,而且利用近紅外光譜技術分析樣品具有方便、快 速、高效、準確和成本較低,不破壞樣品,不消耗化學試劑,不污染環境等優點,因此該技術 受到越來越多人的青睞。
[0003] 隨著分析技術的快速發展,基于近紅外光譜的各類檢測技術雖然得到了廣泛的應 用,但是基本都是在定量分析中的應用,在定性分析應用中較少。而目前較為需求的則是近 紅外光譜的定性分析鑒別技術,例如在食品安全領域,要鑒別作物種子的品種真實性,以保 障農民的生產利益;檢測奶粉中是否含有某些危害身體健康的物質以確保食用安全;檢測 藥物中是否含有某一種不安全成分,以確保用藥安全等。
[0004] 以往的定性鑒別方法,主要依靠人工考察經驗的專業判斷,往往會受到很多主觀 和客觀因素的影響,不但速度慢,而且費工費時,制約了定性鑒別的效率。而近紅外光譜分 析技術所具備的快速、高效、無損等特點,已經開始在定性鑒別分析領域得到了重視。
[0005] 仿生模式識別理論自從2002年被提出以來,已經在眾多領域得到了應用。覃鴻、 徐春燕等把仿生模式識別應用到語音識別領域,通過對高維空間同類語音樣本的副高,達 到識別的目的。徐建、曲延鋒等人,在人臉識別和人臉確認過程中,運用多權值神經元構造 了同類樣本的高維復雜幾何形體,取得了比傳統模式識別更高的識別效果。與傳統模式識 別相比,仿生模式識別對數據集分布的認識更加精確,它是以"最佳覆蓋"為目標,區別于 傳統模式識別的"最佳劃分"為目標。因此將仿生模式識別應用在近紅外定性分析鑒別領 域中,能夠提高定性鑒別效果。
[0006] 因此,為了解決上述問題,本方法提供了一種近紅外定性鑒別方法,以滿足日益增 長的定性分析鑒別的應用需求。
【發明內容】
[0007] (一)要解決的技術問題
[0008] 有鑒于此,本發明的主要目的是為了提供一種簡單可行的近紅外定性鑒別方法。
[0009] (二)技術方案
[0010] 為達到上述目的,本發明提供了一種近紅外定性鑒別方法,該方法包括:
[0011] 步驟1:采集樣本的近紅外光譜數據;
[0012] 步驟2 :確定建模樣本數據并進行預處理;
[0013] 步驟3 :對建模樣本數據進行偏最小二乘(PLS)特征提取;
[0014] 步驟4 :對建模樣本數據進行正交線性判別分析(OLDA)特征提取;
[0015] 步驟5 :用仿生模式識別(BPR)方法建立定性分析模型;
[0016] 步驟6 :用所建立的定性分析模型進行定性鑒別。
[0017] 上述方案中,步驟1中所述采集樣本的近紅外光譜數據,是采用近紅外光譜儀在 不同時間采集樣本的近紅外光譜數據。所述近紅外光譜儀是測試單粒樣本的微型光譜儀, 或者是測試整杯樣本的普通光譜儀,采集方式包括漫反射或透射。如果有相同型號的多臺 近紅外光譜儀,則在采集樣本的近紅外光譜數據時,多臺近紅外光譜儀所處的外部環境相 同;對同一份樣本,在相同的測量時間點要求在不同的近紅外光譜儀上進行測量,得到對應 的多條光譜數據。
[0018] 上述方案中,步驟2中所述的確定建模樣本數據,是將能夠對一些不確定信息進 行包容的數據作為建模樣本數據,以減小光譜的變動影響模型對光譜鑒別的準確性,該些 不確定信息是指樣本自身屬性不同、光譜采集時間不同和/或光譜采集儀器不同。
[0019] 上述方案中,步驟2中所述的預處理,是去除或降低不確定的背景信息對光譜數 據的噪聲干擾,采用的預處理方法包括數據歸一化處理、導數法處理、平滑處理或中心化及 標準化處理。所述不確定的背景信息是指受近紅外光譜儀儀器狀態、測定條件與環境影響 的信息。
[0020] 上述方案中,步驟3中所述對建模樣本數據進行偏最小二乘特征提取,具體包括:
[0021] 步驟31 :對建模集數據進行偏最小二乘特征提取,得到偏最小二乘特征矩陣,以 利用該矩陣將數據變換到偏最小二乘空間;其中所述的建模樣本數據,是指經過預處理之 后的建模樣本數據;所述進行偏最小二乘特征提取,得到偏最小二乘特征矩陣,具體包括:
[0022] 步驟311 :對樣本數據進行標準化處理,即令樣本的各個變量的均值為0,方差為 1 ;令樣本矩陣為Xtl,類別信息矩陣為Ytl ;其中,Xtl定義為n條光譜p個數據點的原始光譜矩 陣,Ytl為對應的類別屬性矩陣:
[0023]
【權利要求】
1. 一種近紅外定性鑒別方法,其特征在于,該方法包括: 步驟1 :采集樣本的近紅外光譜數據; 步驟2 :確定建模樣本數據并進行預處理; 步驟3 :對建模樣本數據進行偏最小二乘特征提取; 步驟4 :對建模樣本數據進行正交線性判別分析特征提取; 步驟5 :用仿生模式識別方法建立定性分析模型; 步驟6 :用所建立的定性分析模型進行定性鑒別。
2. 根據權利要求1所述的近紅外定性鑒別方法,其特征在于,步驟1中所述采集樣本的 近紅外光譜數據,是采用近紅外光譜儀在不同時間采集樣本的近紅外光譜數據。
3. 根據權利要求2所述的近紅外定性鑒別方法,其特征在于,所述近紅外光譜儀是測 試單粒樣本的微型光譜儀,或者是測試整杯樣本的普通光譜儀,采集方式包括漫反射或透 射。
4. 根據權利要求2所述的近紅外定性鑒別方法,其特征在于,如果有相同型號的多臺 近紅外光譜儀,則在采集樣本的近紅外光譜數據時,多臺近紅外光譜儀所處的外部環境相 同;對同一份樣本,在相同的測量時間點要求在不同的近紅外光譜儀上進行測量,得到對應 的多條光譜數據。
5. 根據權利要求1所述的近紅外定性鑒別方法,其特征在于,步驟2中所述的確定建模 樣本數據,是將能夠對一些不確定信息進行包容的數據作為建模樣本數據,以減小光譜的 變動影響模型對光譜鑒別的準確性,該些不確定信息是指樣本自身屬性不同、光譜采集時 間不同和/或光譜采集儀器不同。
6. 根據權利要求1所述的近紅外定性鑒別方法,步驟2中所述的預處理,是去除或降低 不確定的背景信息對光譜數據的噪聲干擾,采用的預處理方法包括數據歸一化處理、導數 法處理、平滑處理或中心化及標準化處理。
7. 根據權利要求6所述的近紅外定性鑒別方法,其特征在于,所述不確定的背景信息 是指受近紅外光譜儀儀器狀態、測定條件與環境影響的信息。
8. 根據權利要求1所述的近紅外定性鑒別方法,其特征在于,步驟3中所述對建模樣本 數據進行偏最小二乘特征提取,具體包括: 步驟31 :對建模集數據進行偏最小二乘特征提取,得到偏最小二乘特征矩陣,以利用 該矩陣將數據變換到偏最小二乘空間; 步驟32 :利用得到的偏最小二乘特征矩陣,將經過預處理之后的建模集數據變換到偏 最小二乘空間中。
9. 根據權利要求8所述的近紅外定性鑒別方法,其特征在于,步驟3中所述的建模樣本 數據,是指經過預處理之后的建模樣本數據。
10. 根據權利要求8所述的近紅外定性鑒別方法,其特征在于,步驟31中所述進行偏最 小二乘特征提取,得到偏最小二乘特征矩陣,具體包括: 步驟311 :對樣本數據進行標準化處理,即令樣本的各個變量的均值為0,方差為1 ;令 樣本矩陣為X0,類別信息矩陣為Ytl ;其中,Xtl定義為η條光譜p個數據點的原始光譜矩陣, Ytl為對應的類別屬性矩陣:
Y(i中,yu = 1表示第i條光譜屬于第j類,yu = O表示第i條光譜不屬于第j類; 步驟312:求矩陣Γ Jtl的協方差矩陣C = X' A),協方差矩陣常數舍棄; 步驟313 :求得協方差矩陣C的特征值以及對應的特征向量,并將特征向量按照特征值 的大小排列,取最大的η維特征值對應的特征向量組成投影矩陣W1^ ; 步驟314 :得到新的特征向量為:x' i = XiW' PIjS。
11. 根據權利要求1所述的近紅外定性鑒別方法,其特征在于,步驟4中所述對建模樣 本數據進行正交線性判別分析特征提取,具體包括: 步驟41 :對經過偏最小二乘特征提取之后的建模集數據進行正交線性鑒別分析特征 提取,得到正交線性鑒別分析特征矩陣; 步驟42 :利用得到的正交線性鑒別分析特征矩陣,將經過偏最小二乘特征提取之后的 建模集數據變換到正交線性鑒別分析空間中; 步驟43 :利用變換到正交線性鑒別分析空間中的建模集數據進行建模。
12. 根據權利要求11所述的近紅外定性鑒別方法,其特征在于,步驟4中所述的建模樣 本數據,是指經過偏最小二乘特征提取之后的建模樣本數據;正交線性判別分析特征提取 方法,與傳統的線性判別分析相比,能夠解決后者在現實應用中遇到的小樣本問題。
13. 根據權利要求11所述的近紅外定性鑒別方法,其特征在于,步驟41中所述進行正 交線性鑒別分析特征提取,得到正交線性鑒別分析特征矩陣,具體包括: 步驟411 :假設有C類樣本,總樣本數為N,Ni為第i類樣本數,則定義類內散布矩陣Sw、 類間散布矩陣Sb如下:
其中
/為第i類模式的均值:
,為總樣本均值; 步驟412 :將正交線性鑒別分析的優化問題轉換為求解下式的優化問題:
其中,Wi (i = 1,2,...,)對應為下式特征值降序排列前η個值對應的特征向量,且要 滿足WtW = I : SBw = λ Sww ; 步驟413 :得到Wrai^pt后,取最大的η維特征值對應的特征向量組成投影矩陣Wcma,即 可進行數據轉換t =YW' _Α。
14. 根據權利要求11所述的近紅外定性鑒別方法,其特征在于,步驟41中所述正交線 性鑒別分析特征矩陣,與線性鑒別分析相比,正交線性鑒別分析在求解變換矩陣的過程中, 特征向量之間是兩兩正交的,即滿SW tW = I。
15. 根據權利要求1所述的近紅外定性鑒別方法,其特征在于,步驟5中所述用仿生模 式識別方法建立定性分析模型,具體包括: 步驟51 :計算超香腸神經元:首先對建模集中的每一類樣本進行模糊聚類,在每一個 聚類簇上建立超香腸神經元,最終建立的超香腸神經元數目為類別數目CX每類的聚類數 Κ,超香腸神經元輸出采用簡單的點到超香腸距離的倒數,分母上加1的目的是為確保分母 不為零:
其中X表示輸入樣本向量,τ表示超香腸神經元的核; 步驟52 :計算感知器神經元:感知器數目等于類別數目C,對于建模樣本集X,行表示樣 本,列表不變量,對每一類定義一個感知器的期望輸出列向量qi,其值由〇或1組成,1表不 訓練樣本屬于第i類,〇表示訓練樣本不屬于第i類;對于未知樣本X,其第i個感知器輸出 標量為: qi = Xwi,其中 Wi = (X' ΧΠ ' qi 步驟53 :超香腸神經元和感知器聯合輸出為: 0J = Pj*Qi 其中,為第j個超香腸神經元的輸出,第j個超香腸神經元屬于類別i,Qi為該類別 的感知器輸出; 步驟54 :采用最小二乘法直接求解得出線性神經元的權值,用O表示超香腸神經元和 感知器聯合輸出矩陣,其中表示第i個樣本在第j個超香腸神經元和感知器的聯合輸 出,定義y為訓練集期望輸出列向量,則對應的線性神經元權值為: ψ = (O' 0)_10/ y 步驟55 :對得到的估計值$選取合適的閾值,便能夠進行分類。
16. 根據權利要求15所述的近紅外定性鑒別方法,其特征在于,步驟6中所述的用所建 立的定性分析模型進行定性鑒別,包括: 首先獲取測試樣本的光譜數據,然后對測試樣本光譜數據進行預處理、特征提取,最后 利用所建立的定性分析模型進行快速鑒別,并給出鑒別結果。
17. 根據權利要求16所述的近紅外定性鑒別方法,其特征在于,對測試樣本光譜數據 進行的預處理,其方法與建立的定性分析模型所用的預處理方法相同。
18. 根據權利要求16所述的近紅外定性鑒別方法,其特征在于,對測試樣本光譜數據 進行的特征提取,包括偏最小二乘和正交線性判別分析。
【文檔編號】G01N21/359GK104374737SQ201410598348
【公開日】2015年2月25日 申請日期:2014年10月30日 優先權日:2014年10月30日
【發明者】董肖莉, 李衛軍, 覃鴻, 張麗萍 申請人:中國科學院半導體研究所