一種高識別度的紅外光譜特征提取與匹配方法
【技術領域】
[0001] 本發明設及一種高識別度的紅外光譜特征提取與匹配方法。
【背景技術】
[0002] 紅外光譜的特征提取與匹配技術在民用和軍事領域都具有很好的理論研究價值 和廣泛的應用前景,是當前物質分析的一個研究熱點。該項技術是對光譜測量數據成分的 分解、重組和選擇的過程,它是光譜數據挖掘中的一個關鍵環節,決定著后續處理的質量、 效率、系統復雜度W及穩定性。基于光譜信息的特性W及紅外光譜特征提取與匹配的實用 價值,紅外光譜特征提取與匹配技術被廣泛的應用在了物質分析領域,也即是在給定先驗 知識的前提下,通過對原始目標的光譜福射特性進行一系列的變換映射處理,找到最能表 現目標特性的特征空間,通過投影矩陣將光譜數據的訓練集和測試數據投影到特征空間 中,然后再通過一定的匹配算法,達到了物質成分識別的效果。
[0003] 在現有技術中,論文"光譜數據挖掘中的特征提取方法"(天文學進展,第30卷 第1期,第94~105頁,2012年2月)介紹了一種光譜特征提取的方法一一主成分分析法 (PCA),該方法將已有的眾多指標進行分解、重組,形成一系列線性無關的綜合指標,并按照 它們反映原始信號所蘊含信息的能力從高到低進行排序。在該文獻中,作者采樣一批不同 天體的觀測數據,構造該觀測數據的協方差矩陣,然后采用該協方差矩陣的無偏估計進行 PCA分析,獲取該矩陣的所有特征值和其對應的特征向量,最后依據累積方差貢獻率篩選出 最優的特征空間,運樣達到了數據壓縮的目的,W利于高效的計算,并抑制噪聲等干擾因素 對物質分析結果的不利影響。另外,在進行光譜匹配時用到了歐幾里得距離法,進行物質識 別。
[0004] 1.現有技術在進行光譜的特征提取時遺漏掉了一些重要信息;
[0005] 2.現有技術在進行匹配時,當投影后的測試數據與樣本訓練集數據的相似度值相 同時,會出現無法進行物質區分的現象。
【發明內容】
[0006] 本發明的目的就是為了解決上述問題,提供一種高識別度的紅外光譜特征提取與 匹配方法,它具有既能保證快速的冗余刪減,又能保留內部成員的相互關聯,同時還能進行 準確的物質識別的優點。
[0007] 為了實現上述目的,本發明采用如下技術方案:
[0008] 一種高識別度的紅外光譜特征提取與匹配方法,首先讀取光譜樣本庫,通過豪斯 霍爾德變換方法和QR迭代算法獲取樣本庫的最優特征子空間,將光譜的測試數據和光譜 樣本庫中所有光譜數據分別在最優特征子空間進行投影;計算投影后向量的歐幾里得距離 值,獲取光譜測試數據與光譜樣本庫中光譜數據的相似度,如果出現相似度相等的情況,貝U 對歐幾里得距離法所求的相似度相等的光譜再進行向量空間余弦相似性度量,重新計算相 似度,最終檢索出光譜樣本庫中與光譜測試數據最相近的光譜。
[0009] 一種高識別度的紅外光譜特征提取與匹配方法,包括如下步驟:
[0010] 步驟(1):讀入光譜樣本庫;
[0011] 步驟(2):根據步驟(1)的光譜樣本庫中每種物質的光譜數據都是一維數據的特 性,組成一個多維的矩陣,從而形成原始特征空間,所述原始特征空間是原始的光譜訓練樣 本集;
[0012] 步驟(3):對步驟(1)的原始的光譜訓練樣本集進行標準化處理得到譜圖訓練樣 本;
[0013] 步驟(4):判斷光譜樣本庫中所有光譜數據是否均讀取完畢,如果是就進入步驟 巧),如果否就返回步驟(1);
[0014] 步驟巧):根據步驟(3)所求的譜圖訓練樣本,獲取平均譜圖向量I,根據平均譜圖 向量J,依據K-L變換算法得到訓練樣本集的協方差矩陣C;
[0015] 步驟化):運用豪斯霍爾德變換方法和QR迭代算法,計算出協方差矩陣C的所有 的特征值;
[0016] 步驟(7):先對步驟(6)獲得的協方差矩陣C的特征值按從大到小進行排序,選取 方差累積貢獻率大于85%的特征值,組成特征向量的主成分,該主成分就代表原始的光譜 訓練集的信息,形成最優特征子空間。
[0017] 步驟(8):將光譜的測試數據和依據步驟(1)獲取的光譜樣本庫中所有光譜數據 分別在步驟(7)中獲取的最優特征子空間進行投影;計算投影后向量的歐幾里得距離值, 獲取光譜測試數據與光譜樣本庫中所有光譜數據的歐幾里得距離值;
[0018] 步驟巧):對步驟(8)獲取的所有歐幾里得距離值進行從大到小排序,歐幾里得距 離值越小,測試光譜與光譜樣本庫中對應的標準光譜的相似度越高,歐幾里得距離值越大, 測試光譜與光譜樣本庫中對應的標準光譜的相似度越小;
[0019] 如果是歐幾里得距離值都不同,說明光譜的測試數據與光譜樣本庫中的光譜相似 度都不同,找出歐幾里得距離值最小的,進入步驟(10);
[0020] 如果存在歐幾里得距離值相等的情況,無法進行相似度判斷時,對出現歐幾里得 距離值相等的光譜再通過余弦相似度度量算法,重新對歐幾里得距離值相等的光譜計算相 似度,找出余弦相似度最大的,然后進入步驟(10); 陽02U 步驟(10):從步驟(1)獲取的光譜樣本庫中找到與測試光譜最相近的光譜所對應 的光譜信息。
[0022] 所述步驟(1)的光譜樣本庫里包含聚四氣乙締、聚苯乙締、乙酸、乙醇的標準光 譜,所述標準光譜都是從化ermoFisher公司的物質標準譜庫獲取的。
[0023] 所述步驟(3)中假設光譜樣本庫中有A類不同的物質光譜,對每一類物質選擇a 個譜圖作為訓練樣本,此時,訓練樣本集中譜圖的數量為T=AXa。然后,將新構成的訓練 樣本按列排列,構成一個AXa維的向量。
[0024] 所述步驟妨將步驟做獲得的標準化處理后的光譜數據通過 K-L化arhunen-LoeveTransform)變換算法變換到一個低維的空間。
[00巧]所述平均譜圖向量/的計算公式為:
[0026]
[0027] Ii,代表第i類物質的第j個訓練樣本的譜圖向量,T代表訓練樣本集中譜圖的數 量。
[0028] 所述協方差矩陣的計算公式為:
[0029]
[0030] 本發明提出的新的方法原理為:
[0031] 1.首先,讀取譜庫中的所有光譜信息,構造協方差矩陣;
[0032] 2.其次,運用豪斯霍爾德變換、QR迭代算法W及方差累積貢獻率計算并篩選出光 譜的
[0033] 最優特征子空間;
[0034] 3.最后,將光譜的測試數據與譜庫中的所有光譜數據分別在最優特征子空間進行 投影,計算兩個投影后向量的歐幾里得距離,獲取光譜測試數據與譜庫中光譜數據的相似 度,如果出現相似度相等的情況,則對相似度相等的光譜進行向量空間余弦相似度度量,重 新計算相似度,檢索出譜庫中與測試數據最相近的光譜。
[0035] 本發明的有益效果:
[0036] 1本發明的關鍵點和保護點是對于光譜測試數據與譜庫中的光譜信息進行匹配 時,存在多個相似度相等的情況下,再通過向量空間余弦相似度度量對相似度相同數據進 行相似度判斷,最終達到更好物質識別效果。