一種代謝組學數據隨機誤差的篩選和校正方法
【技術領域】
[0001] 本發明涉及分析化學和代謝組學領域。是一種篩選和校正代謝組學數據隨機誤差 的方法。
【背景技術】
[0002] 代謝組學是研究生物體內源性小分子代謝物動態變化的一門學科,是繼基因組 學、轉錄組學、蛋白質組學后,系統生物學的又一重要分支。代謝物是基因調控的最終產物, 是聯系基因型和生物表型的紐帶,通過對小分子代謝物的定性和定量分析可直接反映機體 當前的生理狀態。近年來,隨著分析技術的發展,代謝組學應用已拓展至疾病的早期診斷和 治療、臨床標記物的發現、藥物篩選和毒性評價、藥物質量控制、功能基因組學、植物學等多 個生命科學研究領域。
[0003] 代謝組學數據質量會直接影響分析結果的可靠性和準確性。但是由于分析過程中 多種不穩定隨機因素的影響,如室溫、相對濕度和氣壓等環境條件的變化,分析人員操作 的微小差異以及儀器的不穩定等,都會造成隨機誤差的存在,從而干擾實驗結果。因此需要 發展一種篩選和校正代謝組數據隨機誤差的分析方法,提高數據質量,保證分析結果的可 靠性。
[0004] 本發明通過計算相鄰兩個QC樣本中代謝物響應強度的比值,將其從小到大排序 后,篩選總比值個數的5%作為離散點,將這5%的離散點平均分配到排序后比值的兩端, 從而篩選出代謝組數據中的隨機誤差。然后利用比值的線性擬合模型對隨機誤差進行校 正。通過對上述過程的集成化處理,可以準確、高效、高通量的篩選和校正代謝組數據的隨 機誤差,改善代謝組學數據的質量。
【發明內容】
[0005] 本發明的目的在于建立一種篩選和校正代謝組數據隨機誤差的分析方法。該方法 的核心技術為利用代謝物的比值構建模型去篩選和校正隨機誤差。該方法具有篩選和校正 過程簡單、結果準確、通路高等特點,適于大規模樣品的隨機誤差的篩選和校正,可廣泛地 應用于大規模代謝組學分析。
[0006] 為實現上述目的,本發明采用的技術方案如下:
[0007] -種用于篩選和校正代謝組學數據隨機誤差的方法,通過計算相鄰兩個QC樣本 中代謝物響應強度的比值,建立模型篩選隨機誤差,然后利用線性擬合模型對隨機誤差進 行校正。
[0008] 具體步驟如下:
[0009] 1)QC樣本的制作:分別從所有將進行化學輪廓分析的樣本中準確稱量或移取等 量樣本并均勻混合成一個大的樣本,即QC樣本;
[0010] 2)代謝組學數據的獲取:每5-20個待測樣本插入一個QC樣本,QC樣本和待測樣 本按照完全相同條件進行樣本預處理和基于色譜-質譜方法的代謝組學分析;
[0011] 3)相鄰兩個QC樣品中代謝組數據比值的獲取:計算代謝物在相鄰兩個QC樣品中 的響應強度的比值;
[0012] 4)構建模型篩選隨機誤差:將相鄰兩個QC樣品中代謝物的比值從小到大排序后, 篩選總比值個數的5%作為離散點,將這5%的離散點平均分配到排序后比值的兩端,從而 篩選出隨機誤差;
[0013] 5)兩個相鄰QC樣品中正常比值的獲取:篩選到隨機誤差后,去除含有隨機誤差的 代謝特征,計算不含有隨機誤差的正常代謝特征在相鄰兩個QC樣品中的比值;
[0014] 6)線性擬合模型的構建:將正常代謝特征在兩個相鄰QC樣本中的比值,進行從小 到大排序,并進行線性擬合,獲得線性擬合模型的公式,將含有隨機誤差的代謝特征j帶入 線性擬合模型的公式中,獲得校正因亍
,其中AQCn#AQC、n1},分別代表特征j 在…中未校正的響應值和在QCυ中校正后的響應值;
[0015] 7)校正隨機誤差:某一含有隨機誤差的代謝物j在QCn中響應值為AQnj,其校正后 的響應值AQC'nj的可以通過如下公式獲得;
[0016]
[0017] 8)利用所建立的篩選和校正代謝組學數據隨機誤差的方法對所有的QC樣本進行 隨機誤差的篩選和校正;
[0018] 本發明可以有效、準確地篩選和校正代謝組學數據中的隨機誤差,該數據處理過 程簡單方便、通量高、校正效果明顯,可以顯著地改善代謝組數據的質量。
【附圖說明】
[0019] 圖1是實施例中篩選隨機誤差的示意圖。
[0020] 圖2是實施列中我們建立的篩選和校正隨機誤差的方法與傳統的箱圖方法比較 的結果。其中(A)PCA分析中QC樣品的歐式距離和皮爾森相關系數,(B)QC樣本的RSD分 布圖;R和Box分別代表我們建立的篩選和校正隨機誤差的方法和箱圖方法。
【具體實施方式】
[0021] 下面通過實例進一步闡釋本發明,實例僅限于說明本發明以便于理解,而非對本 發明的限定。
[0022] 實施例
[0023] 1樣品
[0024] 本例以新鮮煙葉為樣品,采集河南、云南和貴州三個產地的新鮮煙葉共447 個,-196Γ液氮中保存,運輸,液氮條件下研磨,低溫凍干,_80°C冰箱儲存。每個煙末樣本中 分別稱量〇.5g,均勻混合,生成一個新的樣本,即質量控制(QC)樣本。QC樣本可以用于建 立氣相色譜質譜聯用(GC-MS)擬靶標代謝組學方法、評價分析方法的重復性及校正實際樣 本代謝組數據的誤差。
[0025] 2.隨機誤差的篩選和校正方法:
[0026] 2. 1GC-MS代謝組學分析
[0027] (1)樣品預處理:煙草鮮葉樣本從-80°C冰箱中取出,4°C冰箱過夜放置后,室溫下 放置1小時。準確稱取l〇mg煙草鮮葉樣本,加入1. 5mL乙腈/異丙醇/水(3/3/2,v/v/v), 渦旋振蕩提取4分鐘后,14000rpm離心10分鐘,取0. 5mL上清,低溫減壓干燥。衍生采用肟 化反應和硅烷化反應兩步法,第一步加入100μL甲氧胺鹽酸鹽-吡啶溶液(20mg/mL),37°C 水浴衍生90分鐘;第二步加入80mLN-甲基-N-(三甲基硅基)三氟乙酰胺進行硅烷化反 應,反應時間60分鐘。取上清lyL用于進樣。
[0028] (2)GC-MS分析條件:氣相色譜質譜聯用的分析在島津QP2010