一種近紅外光譜模型的魯棒性改善方法
【技術領域】
[0001] 本發明屬于近紅外光譜建模技術領域,具體涉及一種近紅外光譜模型的魯棒性改 善方法。
【背景技術】
[0002] 近紅外光譜技術憑借其無損、快速等優點,廣泛應用于農業工程、食品分析、環境 監測和水聲探測等領域。通過近紅外光譜,可以建立回歸模型和分類模型分別獲取樣本的 定量信息和定性信息。目前研宄的焦點大多集中于如何提高模型的預測性能,而對于模型 魯棒性的改善給予的關注相對較少。魯棒性是模型對光譜數據中不確定因素的適應性,主 要表現為模型的抗噪能力和泛化能力。光譜建模時,儀器響應的漂移、樣本包含噪聲或奇異 值、樣本不充分等因素都會影響模型的魯棒性。魯棒性不足會導致模型應用于不同條件或 受噪聲影響的光譜數據時,預測誤差成倍增長。這一問題嚴重限制了紅外光譜技術的更廣 泛應用和進一步推廣。
[0003] 為了改善模型的魯棒性,一種方法是對訓練樣本進行預處理,從而剔除異常樣本, 但由于缺乏足夠的先驗知識,這種方法很難執行;另一種方法是對訓練樣本引入模糊隸屬 度,依據樣本包含不確定因素的大小、信息的重要性對樣本賦予不同的模糊隸屬度,通過較 小的模糊隸屬度賦值來限制異常樣本對模型的影響。目前,盡管有多種隸屬度函數構造方 法,但還沒有可遵循的一般性準則。如何根據近紅外光譜的特性,構造出符合客觀實際的模 糊隸屬度,從而建立強魯棒性并具有通用性的模型,使模型在訓練樣本不充分或測量過程 中的各種噪聲影響下仍然能穩定而正常的工作是急需要解決的一個難題。
【發明內容】
[0004] 本發明的目的是提供一種可以自動生成模糊隸屬度,進而構建具有強魯棒性的模 糊支持向量機模型的近紅外光譜模型的魯棒性改善方法。
[0005] 本發明的目的是這樣實現的:
[0006] (1)采集樣本的漫反射光譜,測定樣本的糖度值;
[0007] (2)將光譜樣本映射到一個高維的特征空間,尋找樣本的最小包含超球,構建光譜 樣本的數據域描述函數,引入信任因子和舍棄因子將光譜的訓練樣本劃分為三個區域,通 過映射關系建立數據域描述與概率密度的關聯,得到模糊隸屬度函數,應用窮舉搜索參數 尋優法確定模糊隸屬度函數中的四個未知參數:信任因子、舍棄因子、映射度和模糊隸屬度 下限,自動生成每個樣本的模糊隸屬度;
[0008] (3)對樣本的近紅外光譜、模糊隸屬度和糖度數據進行訓練,建立模糊支持向量機 模型,與光譜分析中常用的多元線性回歸、偏最小二乘回歸、支持向量機模型進行對比,檢 驗豐吳型的魯棒性。
[0009] 步驟(1)所述采集樣本的漫反射光譜,采集波長范圍是400-1000nm,采樣間隔為 0. 37nm,取四個測試部位的平均光譜作為樣本的原始光譜。
[0010] 步驟(2)所述模糊隸屬度函數中D(Xi)為光譜數據域描述值,引入信任因子D。和 舍棄因子Dt將光譜的訓練樣本劃分為三個區域:位于D (X J < D。區域的光譜樣本,樣本具 有極高的可信度并且賦予模糊隸屬度為1 ;位于D (Xi) > Dt區域的光譜樣本,包含噪聲或奇 異點,對應的模糊隸屬度為最小值σ ;位于DeS D (X J < Dt,包含噪聲或奇異值的概率各不 相同,模糊隸屬度與包含噪聲或奇異值的概率成正比關系。通過映射關系建立數據域描述 D(X i)與概率密度px (Xi)的關聯,由概率密度來表征樣本的模糊隸屬度,模糊隸屬度函數:
【主權項】
1. 一種近紅外光譜模型的魯棒性改善方法,其特征在于: (1) 采集樣本的漫反射光譜,測定樣本的糖度值; (2) 將光譜樣本映射到一個高維的特征空間,尋找樣本的最小包含超球,構建光譜樣 本的數據域描述函數,引入信任因子和舍棄因子將光譜的訓練樣本劃分為三個區域,通過 映射關系建立數據域描述與概率密度的關聯,得到模糊隸屬度函數,應用窮舉搜索參數尋 優法確定模糊隸屬度函數中的四個未知參數:信任因子、舍棄因子、映射度和模糊隸屬度下 限,自動生成每個樣本的模糊隸屬度; (3) 對樣本的近紅外光譜、模糊隸屬度和糖度數據進行訓練,建立模糊支持向量機模 型,與光譜分析中常用的多元線性回歸、偏最小二乘回歸、支持向量機模型進行對比,檢驗 模型的魯棒性。
2. 根據權利要求1所述的一種近紅外光譜模型的魯棒性改善方法,其特征在于:步驟 (1) 所述采集樣本的漫反射光譜,采集波長范圍是400-1000nm,采樣間隔為0. 37nm,取四個 測試部位的平均光譜作為樣本的原始光譜。
3. 根據權利要求1所述的一種近紅外光譜模型的魯棒性改善方法,其特征在于:步驟 ⑵所述模糊隸屬度函數中D(Xi)為光譜數據域描述值,引入信任因子D。和舍棄因子DJf 光譜的訓練樣本劃分為三個區域:位于D(Xi) <D。區域的光譜樣本,樣本具有極高的可信度 并且賦予模糊隸屬度為1 ;位于D(Xi) > Dt區域的光譜樣本,包含噪聲或奇異點,對應的模 糊隸屬度為最小值σ ;位于DeS D(Xi) SDt,包含噪聲或奇異值的概率各不相同,模糊隸屬 度與包含噪聲或奇異值的概率成正比關系。通過映射關系建立數據域描述D(X i)與概率密 度Px (Xi)的關聯,由概率密度來表征樣本的模糊隸屬度,模糊隸屬度函數:
式中d是控制映射度的參數。
4. 根據權利要求1所述的一種近紅外光譜模型的魯棒性改善方法,其特征在于:步驟 (2) 所述模糊隸屬度函數中四個參數的窮舉搜索參數尋優法,首先固定信任因子DC = Dmin 和舍棄因子DT = Dmax,對映射度d和模糊隸屬度下限σ執行兩維窮舉搜索,σ的搜索范圍 是[0.10.9],步長0.1;(1的搜索范圍是[212 8],乘積為2;固定(1和〇,對1)。和0在施兩 維窮舉搜索,D。的值選擇為使0 %、10 %、20 %、30 %、40 %、50 %的樣本模糊隸屬度為I ;D#勺 值選擇為使〇%、10%、20%、30%、40%、50%的樣本模糊隸屬度為〇。
【專利摘要】本發明屬于近紅外光譜建模技術領域,具體涉及一種近紅外光譜模型的魯棒性改善方法。采集樣本的漫反射光譜,測定樣本的糖度值;將光譜樣本映射到一個高維的特征空間,尋找樣本的最小包含超球,構建光譜樣本的數據域描述函數;對樣本的近紅外光譜、模糊隸屬度和糖度數據進行訓練,建立模糊支持向量機模型。本發明引入信任因子和舍棄因子,通過映射關系建立數據域描述和概率密度的關聯,這樣生成的模糊隸屬度能客觀的反映光譜數據結構,使得該方法更具有通用性。
【IPC分類】G01J3-44, G01N21-359
【公開號】CN104677498
【申請號】CN201510109849
【發明人】李海森, 高玨, 徐超, 杜偉東
【申請人】哈爾濱工程大學
【公開日】2015年6月3日
【申請日】2015年3月13日