一種基于向量模型的氣相色譜質譜譜圖檢索方法
【技術領域】
[0001] 本發明涉及一種氣相色譜-質譜聯用儀(GC-MS)。
【背景技術】
[0002] 應用氣相色譜-質譜聯用儀對混合物樣品進行定性分析,首先要對采集到的 GC-MS原始數據進行分析,并提取干凈的質譜圖,然后需要將它們與質譜庫中的標準譜圖進 行對比,通過比較未知物質譜圖與標準質譜圖的相似程度來確定該樣品包含何種成分,最 終實現定性分析。由于每次分析實驗都會產生大量的數據和質譜圖,并且質譜庫中存有成 千上萬的標準譜圖,若僅采用人工鑒定的方法對未知物進行判定,將是一項非常耗費時間 和人力的工作。因此,有必要采用計算機輔助的形式代替人工鑒定的方式,以實現對混合 物樣品正確、快速、可靠的定性分析,該方法僅需要低分辨率的質譜圖即可實現未知物的鑒 定。實現計算機輔助定性分析的關鍵技術是質譜譜庫檢索算法的實現。
[0003] 目前,大部分的商用氣相色譜-質譜聯用儀都帶有自己的質譜數據庫檢索系統, 以實現計算機輔助定性分析。其中,檢索算法的實現是檢索系統的重要組成部分,檢索算法 的研宄對提高GC-MS定性性能發揮著重要的作用。
[0004] 質譜譜庫檢索原理包含三部分,分別是質譜圖的簡化及編碼、標準質譜庫的建立、 檢索算法的實現。在不損失質譜圖的重要信息及不影響定性分析的情況下對質譜圖進行簡 化及編碼,主要目的是減少存儲空間并提高檢索速度。另外,實現質譜庫檢索的前提是標準 質譜數據庫的建立。標準質譜數據庫中保存了在標準電離條件下得到的已知化合物的標準 質譜圖,同時也存儲了化合物的名稱、分子式、結構等信息。應用一定的檢索算法,比較標準 電離條件下得到的未知化合物的質譜圖與標準譜圖庫的質譜圖的相似性,并將檢索結果按 照相似程度的大小排列,質譜圖的相似程度越高,說明兩者越可能是同一種物質,通常用匹 配因子表示質譜圖的相似程度,檢索結果是按照匹配因子的大小排列的。
[0005] 質譜數據庫檢索類型主要有兩種,一種是"一致性"檢索,另一種是"相似性"檢索。 在"一致性"檢索中,假設標準質譜數據庫中包含未知物的譜圖。"相似性"檢索則是假設標 準質譜數據庫中不包含未知物的譜圖。通常情況下檢索方法均為"一致性"檢索。質譜數 據庫檢索系統通過計算質譜數據庫中的標準質譜圖與未知物質譜圖的相似程度,并將檢索 的結果按照匹配因子的大小排列,匹配因子越大,說明兩個譜圖越相似,質譜數據庫中參考 物與未知物越有可能是同一種物質。
[0006] 質譜數據庫檢索算法主要包括數據預處理和質譜圖相似性計算兩步。首先,需要 對質譜圖進行預處理以提高檢索速度,數據預處理主要包括譜峰選擇、峰強度的比例縮放。 質譜圖相似性計算的方法有多種,如兩幅質譜圖中峰強差的平方和、兩幅質譜圖中峰強差 的絕對值之和、兩譜峰向量間夾角的計算等。質譜數據庫的檢索模式主要有兩種,分別是正 檢索與反檢索。在正檢索中,在計算匹配因子時,未知物與標準質譜圖中的所有質譜峰全部 參與計算。而在反檢索中,只有在未知物質譜圖中出現而未在標準質譜圖中出現的質譜峰 不參與計算。
【發明內容】
[0007] 本發明的目的是提出一種可以提尚檢索性能的GC-MS檢索方法,以提尚其定性分 析的能力。本發明的技術方案如下:
[0008] 一種基于向量模型的氣相色譜質譜譜圖檢索方法,包括下列步驟:
[0009] (1)根據未知物質的原始GC-MS數據,進行氣相色譜質譜純凈譜圖的提取;
[0010] (2)對質譜數據庫里的標準質譜圖進行篩選:將未知物質譜圖中的最強鋒與質譜 庫中的標準質譜圖第一至第八強峰進行比較,看是否有相匹配的峰,然后將未知物質譜圖 中的第二強峰與質譜庫中的標準質譜圖第一至第九強峰比較,看是否有相匹配的峰,由此 類推,直到將未知物質譜圖中的第八強峰與質譜庫中的標準質譜圖第一至第十六強峰進行 比較為止,若標準質譜圖的譜峰中至少有5個峰與未知物質譜圖中的譜峰相匹配,那么就 將這個標準質譜圖保存下來并進入到下一步的計算,其他不滿足條件的標準質譜圖都被篩 掉;
[0011] ⑶峰強度比例縮放:一張質譜圖中包含質荷比m/z和強度I兩個信息,一張質譜 圖的特征也是由m/z和I共同決定的,對未知物的譜峰和標準質譜圖的譜峰進行強度比例 縮放,譜圖強度比例縮放的權重因子為(m/z) 3I°_5;
[0012] (4)采用基于向量空間模型的方法進行譜圖的相似性計算,方法如下:
[0013] a)將每幅質譜圖都可以表示成一個n維向量(w。w2, . . .,wn),其中,n表示質量數 的個數,向量的每個分量&表示與第i個質量數相對應的權重值,即w,. = (m/z^/f5;將未知 物質譜圖與質譜庫的標準質譜圖都表示成向量形式,未知物質譜圖的向量表示形式Ms = (wsl, wS2, . . . wSm),其中,= (w/z))/f5是未知物質譜圖中第i個質量數對應的權重值,標 準質譜圖的向量表示形式MK= (wK1, wK2, . . . WiJ,其中,= (w/z))/f5是標準質譜圖中第i 個質量數對應的權重值;
[0014]b)采用基于p范數的相似度計算未知物質譜圖與標準質譜圖的相似程度,未知物 質譜圖向量Ms與標準質譜圖向量MK之間的相似度計算公式為
【主權項】
1. 一種基于向量模型的氣相色譜質譜譜圖檢索方法,包括下列步驟: (1) 根據未知物質的原始GC-MS數據,進行氣相色譜質譜純凈譜圖的提取; (2) 對質譜數據庫里的標準質譜圖進行篩選:將未知物質譜圖中的最強鋒與質譜庫中 的標準質譜圖第一至第八強峰進行比較,看是否有相匹配的峰,然后將未知物質譜圖中的 第二強峰與質譜庫中的標準質譜圖第一至第九強峰比較,看是否有相匹配的峰,由此類推, 直到將未知物質譜圖中的第八強峰與質譜庫中的標準質譜圖第一至第十六強峰進行比較 為止,若標準質譜圖的譜峰中至少有5個峰與未知物質譜圖中的譜峰相匹配,那么就將這 個標準質譜圖保存下來并進入到下一步的計算,其他不滿足條件的標準質譜圖都被篩掉; (3) 峰強度比例縮放:一張質譜圖中包含質荷比m/z和強度I兩個信息,一張質譜圖的 特征也是由m/z和I共同決定的,對未知物的譜峰和標準質譜圖的譜峰進行強度比例縮放, 譜圖強度比例縮放的權重因子為(m/z)3I°_5 (4) 采用基于向量空間模型的方法進行譜圖的相似性計算,根據計算結果進行譜圖匹 配,方法如下: a) 將每幅質譜圖都可以表示成一個n維向量(Wpw2, . . .,wn)其中,n表示質量數的個 數,向量的每個分量^表示與第i個質量數相對應的權重值,即
;將未知物質 譜圖與質譜庫的標準質譜圖都表示成向量形式,未知物質譜圖的向量表示形式Ms =(wS1,wS2, ...wSm),其中,
是未知物質譜圖中第i個質量數對應的權重值,標準質 譜圖的向量表示形式MK= (wK1,wK2,. . .wKn)其中,
是標準質譜圖中第i個質 量數對應的權重值; b) 采用基于p范數的相似度計算未知物質譜圖與標準質譜圖的相似程度,未知物質譜 圖向量Ms,與標準質譜圖向量MK之間的相似度計算公式為
c) 計算得到的Fd的值越大,表明未知物質譜圖向量Ms和標準質譜圖向量MK越相似,從 而表明未知物質譜圖與標準質譜圖越相似,未知物與標準譜圖代表的物質越有可能是同一 種物質; d) 引入了峰強度比例因子.
式中,NSM為未知物質譜圖與 標準質譜圖共有峰的個數,若
則n= 1,否則,n= _1,匕用來比較未知物 質譜圖與標準質譜圖的譜峰強度的一致性,FK越大,表明兩個譜圖越相似; e) 結合Fd和FK兩個因子,得到匹配因子
式中,隊表不未 知物質譜圖中峰的個數,用匹配因子MF表示未知物質譜圖與標準質譜圖的相似程度,檢索 結果按照MF的大小排列,MF越大,表明兩個譜圖越相似,兩者就越可能是同一種物質。
【專利摘要】本發明提供一種基于向量模型的氣相色譜質譜譜圖檢索方法,包括下列步驟:根據未知物質的原始GC-MS數據,進行氣相色譜質譜純凈譜圖的提取;對質譜數據庫里的標準質譜圖進行篩選;峰強度比例縮放;采用基于向量空間模型的方法進行譜圖的相似性計算,根據計算結果進行譜圖匹配。本發明具有較好的檢索性能。
【IPC分類】G06F17-30
【公開號】CN104572910
【申請號】CN201410830581
【發明人】趙學玒, 汪曣, 杜康, 蔣學慧, 孫傳強, 王博, 蔡彪
【申請人】天津大學
【公開日】2015年4月29日
【申請日】2014年12月26日