基于質荷比誤差識別能力的蛋白質二級質譜鑒定方法
【專利摘要】本發明公開了一種基于質荷比誤差識別能力的蛋白質二級質譜鑒定方法,包括如下步驟:虛擬酶解蛋白質數據庫序列,根據肽段的質量數對酶解后的肽段建立肽段數據庫和肽段數據庫索引,根據待分析實驗圖譜中母離子去電荷后的質量數在建立的肽段數據庫中找出符合要求的候選肽段,進行去同位素峰和選取有效峰處理,產生符合候選肽段理論圖譜的實驗標記圖譜,統計不同離子的質量誤差信息,計算出不同離子類型在不同區間內的質荷比誤差識別能力,對每個候選肽段基于質荷比誤差識別能力進行打分,選擇得分最高的肽段作為此實驗圖譜的鑒定結果,對鑒定結果進行整體質量控制。該方法鑒定的有效圖譜數量和肽段數量均高于目前算法,且可動態選峰,運行速度快。
【專利說明】基于質荷比誤差識別能力的蛋白質二級質譜鑒定方法
【技術領域】
[0001]本發明涉及蛋白質二級質譜鑒定領域,特別是涉及一種基于質荷比誤差識別能力的蛋白質二級質譜鑒定方法。
【背景技術】
[0002]生物質譜技術的運用使得大規模自動化的蛋白質鑒定成為現實,生物實驗和質譜技術相結合能在短時間內產生大量的實驗質譜數據.因此,在蛋白質組學研究中,二級質譜數據處理是一項非常重要的研究內容,其目的是從帶有噪聲或者部分信息缺失的數據中推斷樣品蛋白質的組成。目前推斷樣品蛋白質組成的方法主要有兩種:一是數據庫搜索,二是DeNovo測序.其中數據庫搜索是質譜數據處理中使用最為廣泛的方法,其基本過程如圖1所示:將實驗所得圖譜與數據庫中理論酶切圖譜進行比對并打分,將匹配分值最高的肽段作為候選肽段.[0003]蛋白質二級質譜鑒定主要包括以下幾個方面內容:母離子價態的確定、有效質譜峰的選取、匹配打分模型的構建以及針對鑒定結果進行整體質量控制.其中對鑒定結果進行整體質量控制的方法多樣,其中廣泛采用的方法是應用隨機數據庫對整體鑒定結果進行發現率控制.其基本思想是:首先,對真實蛋白質數據庫和實驗數據集構建一個隨機數據庫;然后,同時或者分別搜索真實蛋白質數據庫和新構建的隨機數據庫,通過隨機數據庫肽段匹配來模擬正常數據庫中的隨機匹配,從而估計正常數據庫中隨機匹配的特征分布,以確定不同的過濾標準,Kair s于2008年在Proteome上公開了一種方法,具體是采用如下公式來得到整體數據集的假發現率(FalseDiscoveryRate, FDR):
[0004]FDR =NR/NN
[0005]打分模型是蛋白質二級質譜鑒定算法的核心,目前主要可分為兩類:解釋型模型和概率統計模型.兩者中最具代表的商業軟件分別是SEQUEST和Mascot。另外還有一些免費的鑒定算法,例如基于超幾何模型的X ! Tandem,基于泊松分布模型的OMSSA以及近期發表在Journal of Proteome Research上基于二項分布模型的ProVerB.綜合目前蛋白質二級質譜鑒定算法,其打分過程中主要考慮以下三方面的特征信息:(I)峰的匹配(2)峰的連續匹配(3)峰強度的匹配。其中(I)、(2)已被廣泛融入到算法構建中,而特征信息(3)卻很少被考慮到,上述ProVerB通過將(3)融入到打分模型中,極大地提升了肽段鑒定量和有效圖譜量,取得了優于Mascot和Sequest的效果。為蛋白質結構信息和功能域的研究提供了極為有力的工具,但是對于質荷比誤差識別能力這個重要的特征信息,卻均未涉及到。
[0006]因此,融入質荷比誤差識別能力這個特征信息,繼而研究一種能明顯提高蛋白質有效質譜數量與蛋白質肽段數量的二級質譜鑒定方法具有很高的理論和實用價值。
【發明內容】
[0007]有必要提供一種能明顯提高蛋白質有效質譜數量和蛋白質肽段數量的基于質荷比誤差識別能力的蛋白質二級質譜鑒定方法。
[0008]一種基于質荷比誤差識別能力的蛋白質二級質譜鑒定方法,包括如下步驟:
[0009](I)虛擬酶解蛋白質數據庫序列,并根據肽段的質量數對酶解后的肽段建立肽段數據庫和肽段數據庫索引;
[0010](2)根據待分析實驗圖譜中母離子去電荷后的質量數在步驟(1)所述的肽段數據庫中找出符合要求的候選肽段;
[0011](3)對待分析實驗圖譜進行去同位素峰和選取有效峰處理;
[0012](4)產生符合候選肽段理論圖譜的實驗標記圖譜;
[0013](5)統計不同離子的質量誤差信息,并計算出不同離子類型在不同區間內的質荷比誤差識別能力;
[0014](6)對每個候選肽段基于質荷比誤差識別能力進行打分,選擇得分最高的肽段作為此實驗圖譜的鑒定結果,并對鑒定結果進行整體質量控制。
[0015]在其中一個實施例中,步驟(4)具體包括如下步驟:
[0016]I)產生候選肽段可能產生的理論碎片b、y離子;
[0017]2)若步驟I)產生b、y離子中包含S、T、E和D四種氨基酸中的一種則產生對應的丟水碎片離子b-H20和y-H20 ;
[0018]3)若步驟I)產生b、y離子中包含R、K、Q和N四種氨基酸中的一種則產生對應的丟氨碎片離子b-NH3和y-NH3 ;
[0019]4)若待分析二級質譜母離子價態是I價,則考慮產生一價碎片離子;
[0020]5)若待分析二級質譜母離子價態大于等于2,并且對應的碎片離子中包含R,K和H三種氨基酸其中一種時,則考慮二價碎片離子峰;
[0021]根據步驟I)~5)產生所有理論碎片離子的方法,得到候選肽段的理論圖譜。
[0022]在其中一個實施例中,步驟(5)具體包括如下步驟:
[0023]I)統計實驗峰質量誤差信息以及實驗峰與理論峰正確匹配與錯誤匹配峰數目,并將質量誤差等劃分為 10 個區間:[0,0.05], [0.05,0.1], [0.1,0.15], [0.15,0.2], [0.2,0.25],[0.25,0.3],[0.3,0.35],[0.35,0.4],[0.4,0.45],[0.45,0.5]
[0024]2)定義質荷比誤差識別能力,并計算出不同離子類型在不同區間內的質荷比誤差識別能力;
[0025]理論碎片離子與實驗圖譜質量誤差區分度的計算:
[0026]Tij = N Crij) /N (e^-) (j = 1,2,...,10)
[0027]其中,j為第j個區間(j e [I, 12], j e Z+) ;i為第i種離子類型(i e b/b-H20/b-NH3/y/y-H20/y-NH3) ;Ν( ^.)為離子類型i在區間j中正確匹配峰的數目;N(eij)為離子類型i在區間j中錯誤匹配峰的數目;TU為離子類型i在區間j中的質荷比誤差識別能力。
[0028]在其中一個實施例中,步驟(6)所述的打分過程包括:基于質荷比誤差識別能力的匹配打分、基于質荷比誤差識別能力的連續匹配打分以及基于質荷比誤差識別能力的b、y離子匹配打分;
[0029]I)基于質荷比誤差識別能力的匹配打分:
【權利要求】
1.一種基于質荷比誤差識別能力的蛋白質二級質譜鑒定方法,其特征在于,包括如下步驟: (1)虛擬酶解蛋白質數據庫序列,并根據肽段的質量數對酶解后的肽段建立肽段數據庫和肽段數據庫索引; (2)根據待分析實驗圖譜中母離子去電荷后的質量數在步驟(1)所述的肽段數據庫中找出符合要求的候選肽段; (3)對待分析實驗圖譜進行去同位素峰和選取有效峰處理; (4)產生符合候選肽段理論圖譜的實驗標記圖譜; (5)統計不同離子的質量誤差信息,并計算出不同離子類型在不同區間內的質荷比誤差識別能力; (6)對每個候選肽段基于質荷比誤差識別能力進行打分,選擇得分最高的肽段作為此實驗圖譜的鑒定結果,并對鑒定結果進行整體質量控制。
2.根據權 利要求1所述的基于質荷比誤差識別能力的蛋白質二級質譜鑒定方法,其特征在于,步驟(4)具體包括如下步驟: 1)產生候選肽段可能產生的理論碎片b、y離子; 2)若步驟I)產生b、y離子中包含S、T、E和D四種氨基酸中的一種則產生對應的丟水碎片尚子b_H20和y_H20 ; 3)若步驟I)產生b、y離子中包含R、K、Q和N四種氨基酸中的一種則產生對應的丟氨碎片尚子b_NH3和y-NH3 ; 4)若待分析二級質譜母離子價態是I價,則考慮產生一價碎片離子; 5)若待分析二級質譜母離子價態大于等于2,并且對應的碎片離子中包含R,K和H三種氨基酸其中一種時,則考慮二價碎片離子峰; 根據步驟I)~5)產生所有理論碎片離子的方法,得到候選肽段的理論圖譜。
3.根據權利要求1所述的基于質荷比誤差識別能力的蛋白質二級質譜鑒定方法,其特征在于,步驟(5)具體包括如下步驟: 1)統計實驗峰質量誤差信息以及實驗峰與理論峰正確匹配與錯誤匹配峰數目,并將質量誤差等劃分為 10 個區間:[0, 0.05], [0.05,0.1], [0.1,0.15], [0.15,0.2], [0.2,0.25],[0.25,0.3],[0.3,0.35],[0.35,0.4],[0.4,0.45],[0.45,0.5] 2)定義質荷比誤差識別能力,并計算出不同離子類型在不同區間內的質荷比誤差識別能力; 理論碎片離子與實驗圖譜質量誤差識別能力的計算:
Tij = NCrij)/NGij) (j = I, 2,..., 10) 其中,j為第j個區間(j e [I, 10], j e Z+) ;i為第i種離子類型(i e b/b-H2O/b-NH3/y/y-H20/y-NH3) ;Ν(Y^.)為離子類型i在區間j中正確匹配峰的數目;N(eij)為離子類型i在區間j中錯誤匹配峰的數目;TU為離子類型i在區間j中的質荷比誤差識別能力。
4.根據權利要求1所述的基于質荷比誤差識別能力的蛋白質二級質譜鑒定方法,其特征在于,步驟(6)所述的打分過程包括:基于質荷比誤差識別能力的匹配打分、基于質荷比誤差識別能力的連續匹配打分以及基于質荷比誤差識別能力的b、y離子匹配打分; I)基于質荷比誤差識別能力的匹配打分:
5.根據權利要求4所述的質荷比誤差識別能力的蛋白質二級質譜鑒定方法,其特征在于,所述質量控制具體包括如下步驟: 。1)統計待分析圖譜所有二級圖譜中的鑒定結果肽段得分的最小值和最大值; 。2)統計在最小值和最大值之間,其中大于每個分值的鑒定結果中真實庫和隨機庫中肽段的個數,并計算每個分值為閾值時FDR的值; 。 3)按得分值從小到大尋找每個分值,直到找到FDR〈= 0.01時,此分值為待分析圖譜的整體閾值; 。4)根據步驟3)找到整體閾值,以此閾值過濾待分析圖譜的鑒定結果,過濾掉小于此閾值的結果,其結果作為待分析圖譜的最終鑒定結果。
6.根據權利要求1所述的基于質荷比誤差識別能力的蛋白質二級質譜鑒定方法,其特征在于,步驟(3)所述的去同位素峰過程具體包括如下步驟: 。 1.D進行初始化,比較三個峰的m/z值及其強度,全部設為0,設三個峰m/z值分別是:m/z_l = O, m/z_2 = O, m/z_3 = O,其峰強對應為 m/z_l_in = O, m/z_2_in = O, m/z_3_in=0,并設置保留峰的容器,已知測量質量誤差m ; 。 1.2)讀取一個峰的信息,將目前的峰放入第三個峰的位置,即m/z_3,m/z_3_in,將第三個峰與第一個峰和第二個峰比較,判斷是否是前兩個峰的同位素峰, .1.2.1)若以下三個條件的任意一個條件成立,則認為是同位素峰,
a.1 m/z_3_m/z_2_l < = m 并且 m/z_2_in>m/z_3_in ;
b.1 m/z_3_m/z_l_l < = m 并且 m/z_l_in>m/z_3_in ; c.1 m/z_2_m/z_l I〈 = m并且m/z_2_in>m/z_3_in,此為相同峰信息,記錄誤差, 執行三個峰向前平移一位,空出第三個峰的位置,即:
m/z_l = m/z_2, m/z_l_in = m/z_2_in ;
m/z_2 = m/z_3, m/z_2_in = m/z_3_in ; . 1.2.2)如果步驟1.2.1)中的三個條件均不成立,則認為目前進入第三位置的峰不是同位素峰,將其作為保留峰存入保留峰容器中,并把三個峰向前平移一位,空出第三個峰的位置,BP:m/z_l = m/z_2, m/z_l_in = m/z_2_in ; .1.3)逐個讀取下一個峰的信息,重復步驟1.2)直到處理完一張二級質譜圖所用的峰信息,其保留峰容器中的峰即為去同位素峰之后的非同位素峰。
7.根據權利要求1所述的基于質荷比誤差識別能力的蛋白質二級質譜鑒定方法,其特征在于,步驟(2)所述的候選肽段的篩選方法具體包括如下步驟: .1)加載database,index文件信息到內存數組index,讀取待分析二級質譜母離子的m/z值和電荷信息,并計算其母離子去電荷后的質量數; .2)根據容許的質量誤差查找index數組記錄并讀取相應肽段信息,查找index數組找到其在文件database, ind中的起始位置和行數,由此位置開始順序讀取相應的行數,并加入內存中,即加載了該區間內的所有肽段信息。 .3)對內存加載肽段進行逐步地精細篩選,并作為此待分析二級質譜的候選肽段。
8.根據權利要求1所述的基于質荷比誤差識別能力的蛋白質二級質譜鑒定方法,其特征在于,步驟(3)所述的選取有效峰處理具體包括如下步驟: .1)尋找實驗圖譜m/z的最大值與最小值,分別記為maxm/z與minm/z,以及最高峰強度對應的m/z值; .2)將實驗圖譜劃分為k 個窗口其中 k = max (round([ (maxm/z-m/z) /50, (m/z-minm/z)/50]+0.5)); .3)以最聞峰強度對應的m/z為基準,并向左右延伸,每次分別開啟50Da的窗口(即以.10Da為I個窗口),直到窗口數等于k結束; .4)對每一窗口的峰進行歸一化,即用每個峰除以該窗口的最高峰,選擇該窗口中最強的前6個峰作為有效峰。
【文檔編號】G01N27/62GK104034792SQ201410298404
【公開日】2014年9月10日 申請日期:2014年6月26日 優先權日:2014年6月26日
【發明者】陳曉舟, 肖傳樂, 朱思敏, 李華梅, 鄭凱, 李慧敏 申請人:云南民族大學