本發明涉及一種氣相色譜-質譜聯用技術,特別涉及一種色譜共流出峰解析及混合質譜解析技術,屬于檢測分析
技術領域:
。
背景技術:
:氣相色譜-質譜(gc-ms)聯用技術是復雜樣品定性定量分析中應用最廣泛的技術之一,隨著美國國家標準局推出的nist質譜庫容量的不斷增大,gc-ms已經成為復雜樣品的揮發性和半揮發性小分子有機化合物的首選分析技術。然而,實際的色譜指紋圖譜往往難以將色譜峰完全分離開來,色譜共流出峰非常普遍,主要是受限于氣相色譜硬件本身分離能力的限制,其次是實驗條件的限制。當前技術,如漸進因子分析法,固定尺寸移動窗口因子分析法,局部正交投影方法等(參見《復雜體系儀器分析--白、灰、黑分析體系及其多變量解析方法》,梁逸曾、許青松等著)對部分色譜共流出峰有一定的分離效果,但對色譜峰形有較強依賴,且對完全重疊峰尚無一般性的分離方案,無法滿足某些特殊領域的應用需求。基于標準質譜數據庫對色譜圖中任意保留時間點的混合質譜進行分析是解析色譜共流出峰的一個重要思路。但是,基于標準質譜數據庫對混合質譜直接進行擬合計算的運算量巨大,且容易導致過擬合現象。因此,首先排除質譜數據庫中與待測混合質譜無關或相關性較小的質譜,即開展質譜篩除,是顯著降低混合質譜擬合計算的運算量、避免過擬合現象,提高混合質譜解析效果的必要技術。技術實現要素:針對現有的質譜解析方法存在的缺陷,本發明的目的是在于提供一種能快速、高效篩除無關質譜,以降低候選質譜列表規模,排除無關質譜對計算結果干擾的方法,該方法為質譜定性分析提供技術基礎。為了實現上述技術目的,本發明提供了一種混合質譜篩除方法,該方法是將混合質譜先采用最右端質量數符合準則和基峰符合準則進行粗選,剔除不合格純質譜,再通過加權出峰比率準則、強峰高概率出峰準則和耐擠壓性準則進行細選,剔除不合格純質譜,得到候選質譜列表。優選的方案,所述最右端質量數準則為:若在質譜數據庫中任意物質的純質譜中的最右端峰或最右端峰簇中豐度最大峰所對應的質量數在混合質譜中出峰,則相應質譜保留在候選質譜列表中,否則剔除。優選的方案,所述基峰準則為:若在質譜數據庫中任意物質的純質譜中的基峰所對應的質量數在混合質譜中出峰,則相應質譜保留在候選質譜列表中,否則剔除。優選的方案,所述粗選過程中先用最右端質量數準則剔除不合格純質譜,再用基峰準則剔除不合格純質譜。優選的方案,所述最右端質量數準則在運用過程中預先建立最右端質量數索引結構。較優選的方案,所述索引結構用于查詢純質譜最右端質量數,判斷所述純質譜最右端質量數與混合質譜中某一峰對應的質量數是否一致,如果一致則相應的純質譜列入候選質譜列表中,否則剔除。優選的方案,所述基峰準則在運行過程中預先建立基峰索引結構。較優選的方案,所述索引結構用于查詢純質譜基峰,判斷所述純質譜基峰在混合質譜中是否出峰,且混合質譜中相應峰相對豐度大于閾值t,則所述純質譜列入候選質譜中,否則剔除。所述閾值t優選為20%~30%。閾值t的確定是根據具體實驗數據試算所得的最佳取值范圍,在該范圍內,絕大部分算例工作良好,超出該范圍,很多算例會出現效率或精度上偏差的問題。優選的方案,所述加權出峰比率準則為:確定質譜數據庫中任意物質的純質譜碎片在混合質譜中的所有出峰,依據所述出峰在所述物質的純質譜圖中的豐度求和得s1,對所述物質的純質譜圖中的所有碎片出峰的豐度求和得s2,若s1/s2大于或等于閾值,則所述純質譜列入候選質譜中,否則剔除。所述閾值優選為0.99±0.005。閾值的確定是根據具體實驗數據試算所得的最佳取值范圍,在該范圍內,絕大部分算例工作良好,超出該范圍,很多算例會出現效率或精度上偏差的問題。優選的方案,所述強峰高概率出峰準則為:在質譜數據庫中任意物質的純質譜中的相對豐度不小于10%的碎片峰定義為強峰,若所述強峰在混合質譜中的相對豐度與純質譜圖中所述碎片峰的相對豐度之比大于閾值t,則所述純質譜列入候選質譜中,否則剔除。所述閾值t優選為20%~30%。優選的方案,所述耐擠壓性準則為:若混合質譜中每個相對豐度大于5%的碎片峰,在其相應純質譜中的相對強度與其在混合質譜中相對強度的比值的最大值小于閾值1/t,則所述純質譜列入候選質譜列表中,否則剔除。所述閾值t優選為20%~30%。本發明混合質譜篩除方法包括如下具體步驟(參見圖1):1.粗篩:基于混合質譜中的質譜碎片規律,對質譜數據庫中的質譜進行初步篩除,排除不可能存在于混合質譜中的純質譜;主要包含如下兩步:1)質譜最右端質量數準則(參見圖2):給定質譜數據庫(nist質譜數據庫或其他質譜數據庫)中任一純質譜,考察其質譜圖中最右端峰所對應的質量數,若待測混合質譜在該質量數處出峰,則初步認為所考察純質譜可能是待測混合質譜中的某一組分,將其加入初篩列表a;為加速搜索,可以預先基于最右端質量數對質譜數據庫建立索引結構,索引結構用于更快速查詢純質譜最右端質量數,判斷所述純質譜最右端質量數與混合質譜中某一峰對應的質量數是否一致;2)基峰準則:考察列表a中所有純質譜中相對豐度最大的峰所對應的質量數,若待測混合質譜在對應質量數處出峰且其相對豐度大于某一閾值t(例如t=30%),則將該純質譜保留,將不滿足該條件的質譜從列表a中刪除;為加速對基峰的搜索,可以預先建立關于基峰的索引結構,對每張純質譜,標明并存儲其基峰位置,由此,對基峰的線性搜索被改進為直接查詢;2.細篩:基于初篩后得到的質譜列表a,進行進一步精細篩除,該篩除步驟涉及到質譜出峰強度和一些概率準則,主要分為如下三個小步驟:1)加權出峰比率準則(參見圖3):進一步考察列表a中的質譜,計算其加權出峰比率,若該比率大于某一閾值k(例如k=0.99),則將所考察質譜保留在列表a中,不滿足該條件則將其刪除;此處所考察質譜的加權出峰比率為該質譜在待測混合質譜中出峰的所有質量數處的相對豐度總和與全部出峰的相對豐度總和之比;2)強峰高概率出峰準則(參見圖4),亦即在純質譜中相對豐度較大的峰在待測混合質譜中也應出峰,且其相對豐度不宜太小;一種實現方法為,對列表a中的每一張質譜,若存在某個質量數處的相對豐度i>10%,但在待測混合質譜中出峰的相對豐度m<it,則將所考察的質譜從列表a中刪除,此處的t與前述t相同;3)考察純質譜在待測混合質譜中的耐擠壓性;對列表a中的任一質譜,若其在待測混合質譜中出峰的相對豐度m>1%的每個峰均滿足m<it(此處i為純質譜中相應出峰的相對豐度)則將所考察的質譜從列表a中刪除,此處的t與前述t相同。相對現有技術,本發明的技術方案帶來的有益效果:本發明的技術方案主要是針對現有技術中利用標準質譜數據庫對混合質譜解析過程中存在運算量大,且容易導致過擬合現象等問題而提出的改進方法。本發明的技術方案利用質譜的主要特征(碎片規律)和細節特征(豐度細節),首次提出利用最右端質量數符合準則和基峰符合準則進行粗選,再利用加權出峰比率準則、強峰高概率出峰準則和耐擠壓性準則進行細選的方案,能夠快速、有效篩除與混合質譜無關或相關性較小的質譜,經粗篩后,候選質譜列表中的質譜數目平均意義上可由20余萬減少至1萬以內,問題規模可達20倍以上的縮減;進一步經過細篩后將質譜數目顯著降低,平均可降至10左右,且遺漏真實質譜的概率極低。該方法可極大地降低混合質譜解析的問題規模,為后續分析和處理提供了可靠的數據準備,為進一步開發高效的質譜定性或定量技術提供有力的技術支撐。附圖說明【圖1】為混合質譜篩除方法的總體流程示意圖。【圖2】為最右端質量數準則解說示意圖;假設混合質譜中只出現了質量數為50,60,70的峰,則在最右端質量數峰索引迅速檢索得到對應候選質譜,然后合并而得到候選質譜列表a,另外,實際計算可能忽略一定比例的低質量數。【圖3】為加權出峰比率解說示意圖;上圖為混合質譜,下圖為純質譜,加權出峰比率為:r=s1/s2,當該比率低于事先設定的閾值時,剔除相應純質譜。【圖4】為強峰高概率出峰準則解說示意圖;上圖為純質譜,下兩圖為混合質譜,考慮質量數為60的峰,當純質譜出峰強度低于某閾值時,則剔除該純質譜。【圖5】為苯甲醇與3-甲基環戊烯醇酮混合物的色譜圖(重疊峰局部放大圖)。具體實施方式以下實施例旨在進一步說明本
發明內容,而不是限制本發明權利要求的保護范圍。本發明以標準質譜數據庫為工作基礎。為方便闡述本發明專利的實施效果,以nist11版本的質譜數據庫(含質譜212,961張)為基礎來進行闡述。本發明使用python編程語言實現了所提算法,數據處理(清洗、重塑、合并和轉換等操作)使用了pandas庫,數值計算部分選用了numpy和scipy數值計算庫。本發明將從理論質譜篩除、實驗質譜篩除兩個方面介紹算法的實施效果。對于實驗質譜,應用本發明所提篩除方法前,首先進行適當的預處理,如基線扣除。此處先給出算法的參數設置。默認情況下,設定基峰閾值t=30%,加權出峰比率的閾值為k=0.99。實驗中,如無特殊說明,均使用以上默認參數設置。首先考察算法對理論質譜(數據庫中的質譜)混合譜篩除的正確性。實施例1理論質譜篩除:本實施例從數據庫中選取苯乙醇(索引:55038,nistid:118543)和麥芽酚(索引:98292,nistid:233673)的質譜,將其按1:1混合。上述混合質譜利用數據庫進行篩除的結果如下表所示:表1.苯乙醇與麥芽酚混合質譜篩除結果經歷篩選步驟所剩質譜數目最右端質量數峰準則55715基峰準則1424加權出峰比率準則589強峰高概率出峰準則16耐擠壓性準則11經驗證,最終所剩11張質譜中包含苯乙醇和麥芽酚的質譜。利用這11張質譜,對待測混合質譜進行最小二乘分解,剔除微小權重,可得苯乙醇與麥芽酚的比例大致為1∶1,與實際混合比例一致。實施例2理論質譜篩除:本實施例從數據庫中選取彼此相似度非常高的鄰-二甲苯(索引:55556,nistid:291483),間-二甲苯(索引:55552,nistid:291455)和對-二甲苯(索引:55553,nistid:228010)的質譜,將其按4∶3∶3混合。上述混合質譜利用數據庫進行篩除的結果如下表:表2.鄰、間、對-二甲苯理論混合質譜篩除結果經歷篩選步驟所剩質譜數目最右端質量數峰準則42546基峰準則736加權出峰比率準則54強峰高概率出峰準則6耐擠壓性準則4經驗證,最終所剩4張質譜中包含鄰、間、對-二甲苯的質譜。利用最終所剩4種質譜,對待測混合質譜進行最小二乘分解,忽略微小權重,可得到鄰、間、對-二甲苯的比例大約為4∶3∶3,與原始混合比例相符。以上兩實施例說明,本發明所提篩除算法對理論質譜篩除效果良好,所生成計算結果為后續處理(例如,實施例中基于最小二乘分解的定性定量分析)提供了可靠的數據基礎。但是,實際儀器產生的數據相比理論質譜具有更多的隨機性,如噪聲和實驗操作帶來的影響。有必要進一步驗證分析實驗中的混合質譜的篩除效果。本發明通過實施例3、4、5來闡述本發明算法針對實際混合質譜的測試效果。實施例3實際質譜篩除:本實施例考察某一香精香料gc-ms色譜數據,該數據已通過其他技術手段(安捷倫工作站定性分析、化學檢測)完成分析。其中苯乙醇和麥芽酚兩峰未完全分離,有部分重疊。本實施例選取兩峰之間的谷底,獲取其質譜進行篩除和分析。篩除結果如下:表3.苯甲醇與3-甲基環戊烯醇酮混合質譜篩除結果經歷篩選步驟所剩質譜數目最右端質量數峰準則52676基峰準則1704加權出峰比率準則1121強峰高概率出峰準則11耐擠壓性準則6經驗證,最終所剩6張質譜中包含苯乙醇(索引:55038,nistid:118543)和麥芽酚(索引:98292,nistid:233673)的質譜。利用所剩6張質譜,對待測混合質譜進行最小二乘分解,忽略微小權重,可得苯乙醇與麥芽酚的比例大致為5∶3。實施例4實際質譜篩除:苯甲醇和3-甲基環戊烯醇酮是煙草中常用的香料成分。本實施例將這兩種物質的純樣品進行混合,利用cg-ms儀器分析處理所得色譜圖。儀器條件為:hp-5ms色譜柱(60m*0.25mm*0.25μm),爐溫(60℃保持2min,然后6℃/min升溫到180℃,保持2min,再8℃/min升溫到280℃保持20min;進樣口溫度:250℃),分流比:20∶1,離子源溫度為230℃,四級桿溫度150℃,進樣量1ul。將獲得的色譜圖放大,聚焦于圖5所示的保留時間為13.7min附近的色譜峰。取該色譜峰的頂點(13.71min)處的質譜數據,對該混合質譜進行篩除,篩除結果如下:表4.苯乙醇與麥芽酚混合質譜篩除結果經歷篩選步驟所剩質譜數目最右端質量數峰準則51663基峰準則552加權出峰比率準則412強峰高概率出峰準則19耐擠壓性準則13經驗證,最終所剩13張質譜中包含苯甲醇(索引:44807,nistid:151560)和3-甲基環戊烯醇酮(索引:80534,nistid:1673)的質譜。利用所剩13張質譜,對待測混合質譜進行最小二乘分解,忽略微小權重,解析得知該色譜峰為苯甲醇與3-甲基環戊烯醇酮的共流出峰,比例大致為9∶5。觀察圖5可知,該色譜峰的共流出現象非常嚴重,苯甲醇與3-甲基環戊烯醇酮幾乎完全重疊出峰,傳統方法是難以解析的。本實施例是通過混合質譜篩除與分解的辦法成功解決完全重疊峰解析的典型實例。實施例5實際質譜篩除:本實施例將香精香料中常見的38種化合物配置為混合物,經gc-ms儀器分析,獲取其色譜數據。然后使用本發明算法對色譜圖中的每一個目標色譜峰對應的混合質譜進行質譜篩除。各色譜峰質譜篩除情況的統計分析結果如下:表5.混合質譜篩除衰減數目平均值統計經歷篩選步驟所剩質譜數目(平均值)最右端質量數峰準則78066基峰準則5752加權出峰比率準則217強峰高概率出峰準則13耐擠壓性準則8經驗證,本實施例沒有出現遺漏真實質譜的情況,38種化合物全部出現在相應色譜峰的混合質譜篩除候選列表中。上述實施例充分說明,本發明的混合質譜篩除方法可顯著降低混合質譜解析的運算規模,且遺漏真實質譜的概率非常低。當前第1頁12