專利名稱::使用新的數據庫檢索模式鑒別和鑒定蛋白質的制作方法使用新的數據庫檢索模式鑒別和鑒定蛋白質政府資助的聲明本發明是在來自國家科學基金(資金#CHE-0134953)和來自國家衛生研究院(資金^GM067193-01)的政府支持下完成的。政府在本發明中有一定權利。附件材料附件包括3個CD復制拷貝,其提供了軟件和數據庫文件。CD內容并入本文作參考。背景分子生物學的一個目的是鑒定由基因序列編碼的蛋白質的結構和生物化學活性。在很大程度上,蛋白質的結構鑒定依賴于當這些蛋白質在天然細胞條件下表達時確定蛋白質的一級結構(氨基酸序列)。一旦蛋白質從mRNA被翻譯,蛋白質的一級結構經常由于酶的作用而被修飾。這些修飾包括在氨基酸殘基的側鏈添加一個新的基團(moiety),如向絲氨酸添加一個磷酸酯,或者蛋白酶裂解,如除去起始甲硫氨酸或信號序列。因此,蛋白質的結構鑒定包括氨基酸序列的線性組構(如由可變剪接和多態性而影響)以及可在序列內發生的任何修飾的存在。為此,蛋白質組學研究的主要目的是了解在蛋白質上發生的詳細的修飾。這類信息不僅對于了解蛋白質的生物學活性是關鍵性的,而且對于開發用于控制與人類疾病相關過程中的細胞增殖和分化的藥物也是很重要。質譜分析(MS)是用于鑒別未知化合物、定量已知化合物和確定分子結構的一種分析技術。質譜儀是一種測量從個體分子轉化的離子的質量的儀器。這一儀器依據離子的特定質量與電荷比而間接測量分子質量。一個離子上的電荷由電子的基本電荷單位z以及質量電荷比m/z表示。典型地,質譜分析中的離子僅有一個單電荷(z=l),因此,m/z值與以Da表示的分子質量在數字上相等。對于單電離子,柳/2比是特定離子的質量。通常,MS轟擊具有高密度質子、電子或中性氣體的樣品的離子,斷裂連鍵,導致從完整分子的分子離子形成碎片離子(fragmentiom)。盡管由MS產生陽性和陰性離子二者,但是僅有一種極性離子被一特定儀器設置檢測。氣相樣品離子的形成使得可以根據質量分選各種離子,并使之得以檢測。樣品可以是畫體、液體或蒸氣,它們經入口進入儀器的真空腔。靜電和/或磁濾波器被用于根據各自的m/z比而選擇離子,這些離子被集中于檢測儀上。在檢測儀中,離子通量被轉變為比例電流。儀器隨后記錄這些電信號的輻度,作為m々的函數,并將這一信息轉變為質譜。絕對質量檢索使得能用完整質量與碎片離子質量的組合從一個序列數據庫中明確地鑒別蛋白質(見圖1)。鑒別是通過從一有注釋數據庫中選擇處于用戶規定的觀察的平均或單一同位素完整質量的容差(userspecifiedtoleranceofanobservedaverageormonoisotopicintactmass)范圍內的所有序列而實現的。優選地,候選蛋白質是從以質量索引的蛋白質形式的數據庫中檢索到。然后用觀察的碎片離子對每一候選序列進行計分。這一過程涉及從每一候選序列計算所有的理論或c/"型碎片離子質量(平均或單一同位素)并計算處于用戶規定的任何理論碎片離子容差(絕對或每百萬份中之份數)內的觀察到的碎片離子數。觀察到的碎片離子數和相應于理論碎片離子的觀察到的碎片離子數被用于計算假性鑒別的概率。所有計算分值與所考慮的候選序列數相乘得到基于概率的分值。然后,具有最低分值(并因此具有為假性鑒別的最低概率)的候選蛋白質被認為是可能性最大的候選蛋白質。MS已被用于確定蛋白質的一級氨基酸序列。觀察到的蛋白質碎片離子的質量差異可被用于推導一部分蛋白質序列的氨基酸組成。這些序列標記可被用于鑒別蛋白質序列,條件是可以獲得足夠數目的相關蛋白質碎片離子的MS數據。使用MS的策略現在正在被開發以改進在蛋白質規模檢測蛋白質修飾的效率和可靠性。盡管在哺乳動物基因組中存在遠比過去所認為的要少的基因數量(LanderWa/.,2001),但是由于核苷酸多態性、可變RNA剪接、RNA編輯和翻譯后修飾所致的每一基因有不同的蛋白質形式是可能的。除了通過修飾調節蛋白質功能外,環境信號也導致蛋白質的化學修飾。修飾的檢測為了解真核細胞的基礎調節機制以及診斷人類疾病提供了一個重要機會。最常見形式的基于MS的蛋白質結構測定涉及利用"自下而上(bottomup)"方法首先用已知特異性的蛋白酶消化完整蛋白質,以產生較短的多肽碎片(見圖2)。這些碎片隨后被純化和用MS進行鑒定。基于所觀察到的各個多肽碎片的絕對質量,可以推斷出氨基酸組成,并且使用檢索算法和已知蛋白質組成的數據庫可以推導蛋白質身份。使用這一方法,已經在單一蛋白質上常規進行修飾的檢測,從而產生接近100%序列覆蓋范圍的肽譜(BiemannandPapayannopoulos,1994)。當然這一方法在鑒定修飾時會留有缺口,因為蛋白酶衍生碎片可能會經歷額外的化學變化并因此未能提供有關原始蛋白質的足夠冗余的信息。用于這一方法的檢索算法現在能支持一些類型的修飾檢測和定位,并且是常規可獲得的(Clauser"a/.,1999;PerkinsWa/"1999;Wilkinsefa/"1999;andZhang""/.,2000)。現在正在開發基于分析衍生自用胰蛋白酶消化完整蛋白質的肽碎片的測量技術以直接靶定修飾。例如,已使用多種程序增強了磷酸化和糖基化的檢測,如分離含有修飾的多肽碎片(例如基于修飾的肽的選擇性純化)、應用MS檢測特異性修飾(例如掃描修飾的肽的標記離子)或同時使用這兩種方法(Goshe""/.,2001;Oda"a/"2001;SteenW,2001;Zhou"a/.,2001;FicarroWa/.,2002)。最終,所述自下而上方法已被用于檢測來自兩種生物學樣品的蛋白質修飾譜中的差異(例如磷酸蛋白質組學)(Odae/"/"1999;Goshee/"/"2001;Odaa/.2001;Zhouefa/"2001;Ficarro"a/.,2002;Gerber<a/.,2002)。盡管這些技術中的一些正在被放大以用于分析數百個蛋白質,但無一可通用于所有類型的修飾。一種稱為"自上而下(topdown)"的替代方法已經被開發用于鑒別和鑒定完整蛋白質中的修飾(見圖2)。這一方法使用串聯質譜法(MS/MS或(MS)")以首先使完整蛋白質碎片化,隨后收集碎片并使之進行后續輪次的碎片化和質量測量。因此,自上而下方法確定完整蛋白質和蛋白質碎片離子的絕對質量。由于完整蛋白質進行MS,所以分析中不會有結構信息被忽略,因此自上而下方法具有鑒別在完整蛋白質內發生的所有修飾的潛力。自上而下方法已被用于獲得來自多達4種生物體的32個蛋白質的修飾信息(Kelleher""/.,1998;PinedaWa/"2000;Reid"a/"2002;Meng"a/"2001)。自上而下方法通用于所有修飾。目前己被自上而下方法鑒定的修飾包括糖基化(Reid"a/.,2002;Geefa/.,2003)、Cys垸基化(KelleherWa/.,1995)、二硫鍵形成(GeeM/.,2002)、氧化(Ge"a/.,2003)和磷酸化(MengWa/.,2001)。這一方法的主要障礙通過蛋白質純化程序的改進(Kachmanfl/.,2002;Meng"a/.,2002)、傅里葉變換MS(FTMS)的自動化(JohnsonW2002),四極-FTMS混合儀器的開發(Belov"2001)以及從MS/MS數據鑒別完整蛋白質所需的軟件的改進(ReidW"/.,2002;Menge/a/.,2001)而被降低。然而,在用于完全鑒定具有修飾的蛋白質的數據加工和檢索軟件方面仍存在重大障礙。概述在一個方面,本發明提供了一種選擇針對一種樣品多肽的一組候選多肽的方法(amethodofselectingasetofcandidatepolypeptidesforasamplepolypeptide),包括根據由質譜法產生的樣品多肽碎片質量差異對候選多肽集合進行的第一次精選(refming),以及根據樣品多肽的絕對質量和碎片的絕對質量對候選多肽集合進行的第二次精選。在第二方面,本發明提供了用于計算機的計算機程序產品。所述計算機程序產品包括一計算機可用介質,在所述介質中有用于選擇針對一種樣品多肽的一組候選多肽的計算機可讀程序代碼。所述計算機程序產品包括用于指導計算機選擇針對一種樣品多肽的一組候選多肽的計算機可讀程序代碼,包括根據由質譜法產生的樣品多肽碎片質量差異對候選多肽集合進行的第一次精選(refining),以及根據樣品多肽的絕對質量和碎片的絕對質量對候選多肽集合進行的第二次精選。在第三方面,本發明提供了一種用于選擇針對一種樣品多肽的一組候選多肽的系統,包括用于實施根據由質譜法產生的樣品多肽碎片質量差異對候選多肽集合進行的第一次精選(refining)的裝置、用于實施根據由質譜法產生的樣品多肽的絕對質量和碎片的絕對質量對候選多肽集合進行的第二次精選的裝置、和計算機。定義術語"碎片(fragments)"和"碎片離子(fragmentions)"當指由質譜法產生的完整多肽的碎片時在本說明書中可互換使用。術語"初生多肽(nascentpolyp印tide)是指mRNA的最初翻譯產物。術語"修飾"在本文是指初生多肽的一級結構的任何化學變化。蛋白質的"修飾"包括(i)在一個密碼子位置的多態性,其產生蛋白質一級結構內的一個不同氨基酸;(ii)mRNA轉錄物的可變剪接或RNA編輯(editing),其導致在被剪接或編輯的mRNA翻譯時產生不同的一級結構;和(iii)在蛋白質翻譯后的化學修飾,其導致蛋白質分子質量的改變。化學修飾包括在細胞中天然發生的翻譯后修飾(例如蛋白水解、蛋白質剪接、N-Met和信號序列的去除、核糖基化、磷酸化、烷基化、羥基化、糖基化、氧化、還原、十四烷基化、生物素化、遍在蛋白化(ubiquination)、碘化、亞硝基化(nitrosylation)、氨基化、硫添加、肽連接、環化、核苷酸添加、脂肪酸添加、酰基化等)以及從對于生物學細胞非內源性的來源(例如環境誘變劑、化學致癌劑、實驗誘導的人工修飾等)發生的修飾。術語"鳥槍注釋(shotgunannotation)"是指對多肽中一個氨基酸殘基發生的特定修飾的描述(例如絲氨酸羥基的磷酸化)。典型地,鳥槍注釋可限定在一限定序列范圍內發生的多肽氨基酸殘基的特定修飾(例如在序列RXYS/TZR《其中Z是任何氨基酸中的絲氨酸或蘇氨酸的羥基的磷酸化)。鳥槍注釋導致數據庫擴大至包括含有指定修飾的蛋白質形式。鳥槍注釋包括本文所用術語"修飾"所表示的任何類型的修飾。短語"動態修飾"是指在進行檢索過程中產生軟件程序或數據庫中的變化。短語"動態鳥槍注釋"是指在進行檢索過程中產生對數據庫中的蛋白質結構的鳥槍注釋。術語"擴展(expanding)"是指在對較小集合進行鳥槍注釋后集合中的蛋白質形式數量的增加。短語"擴展的集合"是指在對較小集合進行鳥槍注釋后獲得的蛋白質形式的集合。術語"精選"是指在用序列標記模式檢索或絕對質量模式檢索對一較大集合進行査詢后,集合中蛋白質形式數量的降低。短語"精選的集合"是指在用序列標記模式檢索或絕對質量模式檢索對一較大集合進行查詢后獲得的蛋白質形式的集合。本文所用術語"肽"是指由經肽鍵連接在一起的D-或L-氨基酸或D-和L-氨基酸的混合物的單鏈組成的化合物。優選地,肽含有至少2個氨基酸殘基并且長度上少于50個氨基酸。本文所用術語"多肽"是指至少兩個氨基酸殘基的聚合物并且其含有一或多個肽鍵。"多肽"包含肽和蛋白質,而無論該多肽是否具有明確的構象。優選地,多肽是天然存在的蛋白質。本文所用術語"蛋白質"是指由線性排列的由肽鍵相連的氨基酸組成的化合物,但是與肽相反,其具有明確的構象。蛋白質與肽相反優選地含有50個或更多個氨基酸組成的鏈。盡管在本文中指出的是蛋白質,但是通常理解的是本發明適用于所有多肽。短語"蛋白質形式(proteinform)"是指單一種類的多肽或蛋白質,包括任何修飾。因此,根據基因結構、轉錄的mRNA的結構以及任何修飾的性質,一個單基因可編碼許多蛋白質形式。短語"RNA剪接"是指通過一給定RNA內的兩個非相鄰磷酸二酯鍵的磷酸二酯鍵裂解除去至少一個RNA間插序列以及通過磷酸二酯鍵連接而連接兩側的外顯子RNA序列。短語"RNA編輯(RNAediting)"是指RNA序列的核苷酸組成中的改變,其中轉錄的RNA的至少一個核堿基由一具有不同的氫鍵鍵合特異性的核堿基置換。所得到的被編輯的RNA可編碼多態性、延長的多肽序列(例如通過消除終止密碼子或導入起始密碼子所致)、或截短的多肽序列(例如通過導入終止密碼子所致)。短語"RNA加工"是指導致RNA序列的共價修飾的任何反應。"RNA加工"包括RNA剪接和RNA編輯。短語"檢索模式"是指從一倉庫數據庫鑒別和檢索候選蛋白質形式的方法。短語"序列標記(sequencetag)"是指一多肽碎片的至少兩個連續氨基酸組成的短末端序列,其可以從由質譜法產生的多肽的兩個相關碎片的質量差異中推斷出。本文所用術語"結構"當用于蛋白質時是指蛋白質的一級氨基酸序列,包括修飾。本文所用術語"結構"和短語"一級結構"具有相同含義。短語"倉庫數據庫(warehousedatabase)"是指兩個或更多個蛋白質形式的集合。附圖的簡要描述圖1是描述了使用MS數據的絕對質量模式檢索程序獲得候選蛋白質的系統結構的流程圖。圖2圖示了用于經MS進行蛋白質鑒別和蛋白質鑒定的"自上而下"和"自下而上"方法,其中可對修飾(例如翻譯后修飾("PTM"))進行鑒別和定位。圖3描述了混合檢索模式方法學的方法流程圖。圖4是軟件系統流程圖,該軟件系統包括一檢索算法(ProSightRetriever)、蛋白質形式的倉庫數據庫(ProSightPTMWarehouse)和主要工具(primaryutilities)。圖5示出了一個實施方案,其中數據庫以"Deltam"模式被檢索圖6示出了鳥槍注釋的示意圖。圖7示出了針對來自釀酒酵母(51.cem^/"e)的ALS-PAGE/RPLC級分的MS/MS實施例。詳細描述本發明利用了混合檢索模式方法學和軟件平臺的發現來確定包括修飾的蛋白質結構。用于確定含有修飾的蛋白質的結構的混合檢索模式方法學使用一種序列標記模式檢索和一或多種絕對質量模式檢索的組合來選擇一精選系列的候選多肽來獲得樣品多肽。這一方法學和相關軟件平臺如下所述。潔合檢索漠式方法學(場6nW化Grc/z/"g廳ofe,f/zo(io/ogyJ混合檢索模式將序列標記檢索的序列鑒別能力與絕對質量檢索的修飾檢測和鑒定力組合在一起(見圖3)。這一混合方法代表了比先前單獨用序列標記或絕對質量檢索方法可能達到的更有效的精選蛋白質集合的方法。在混合檢索中,序列標記從碎片化數據和候選蛋白質集合中匯總。候選蛋白質可源自倉庫數據庫。每一修飾的性質及其在蛋白質內的位置隨后使用致力于完整蛋白質離子和碎片離子的質量的絕對質量方法確定。不計在蛋白質形式的理論質量中的任何質量通常可歸于完整蛋白質或蛋白質碎片中修飾的存在。優選地,蛋白質形式的數據庫最初由大的蛋白質集合組成。優選地,最初數據庫含有未注釋的序列信息。優選地,這一數據庫形成候選多肽的最初集合。在一優選的實施方案中,序列標記檢索將精選由未修飾的多肽組成的候選蛋白質集合。任選地,候選蛋白質集合可以隨后用候選多肽的注釋擴展以考慮修飾。優選地,在序列標記檢索后,在這一集合上進行絕對質量模式檢索以獲得最終的候選多肽集。如果精選后的集合僅含有一種蛋白質形式,則絕對質量檢索模式獨特地鑒別蛋白質中的修飾。混合檢索模式方法學總是采用一種序列標記模式檢索,隨后是至少一種絕對質量模式檢索。任選地,絕對質量模式檢索可以在序列標記模式檢索之前。例如,一種"三階段"檢索可以用混合檢索模式進行。這一方法使用碎片的最初絕對質量利用非嚴格檢索參數(例如最低限度考慮修飾或者大的質量準確度容差或兩者)以鑒別候選序列集合,隨后為序列標記模式檢索以精選候選序列集合。然后進行絕對質量模式檢索以進一步精選集合。疑伴乎臺(TSq/hv臟//"一附W描述了計算機軟件和系統,它們包括檢索算法、蛋白質形式的倉庫數據庫和其它工具(見圖4)。檢索算法支持基于觀察到的碎片離子的絕對質量值的6々和/或c/"離子檢索和序列標記檢索。蛋白質形式的倉庫數據庫可包括未注釋的和注釋的修飾信息。其它有用設施包括數據管理系統、離子預測器、數據還原工具和圖形觀察器界面工具(graphicalviewerinterfacetool)。通過使用組合了序列標記檢索模式和絕對質量檢索模式的混合檢索方法,檢索算法促進了包括修飾信息的蛋白質的自上而下鑒別。參見圖3,首先將所獲得的針對完整蛋白質和所產生的蛋白質碎片離子的MS數據進行蛋白質形式的倉庫數據庫的序列標記檢索查詢。在序列標記檢索中,用戶基于碎片離子質量差異確定蛋白質的部分序列。當產生序列標記時,提供具有相同名義質量值的氨基酸的支持(例如,lie禾BLeu;Lys和Gin)。一種執行產生代表數據所可能含有的所有可能的序列標記的圖。然后分析該圖以產生針對每一被代表的序列標記的規則表示。隨后人們可以用這一部分序列信息從未注釋的蛋白質序列的數據庫選擇候選蛋白質。任選地,用戶可用手工匯總的序列標記集進行檢索。每一候選序列接受一個分值,該分值通過將匹配該序列的所有序列標記的長度相乘而計算出。為了方便起見,僅選擇具有比規定的容差高的分值的序列作為數據輸出。當檢索是用序列標記檢索模式進行時,注釋的序列標記通常不被支持。這是合理的,因為不太可能一個序列標記與一個修飾位點重疊并且因為如果考慮一給定的注釋序列標記集合中可產生的所有可能修飾,則數據的圖形表示會變得復雜。使用這一限制,可以在蛋白質數據庫上實施強線性檢索(robustlinearsearches)以獲得針對檢索功能的可接受的性能測量(例如,對于實際査詢(realqueries),檢索時間典型地在3秒鐘運行時間以下)。任選地,一種稱為A/toM模式(Mm模式")的絕對質量檢索模式通過考慮輸入的完整MW值和數據庫中收錄的理論值之間的質量差異使得可以檢索攜帶一個未知性質或質量的修飾的蛋白質(見圖5)。如果用完整質量誤差約土lDa進行檢索,則可產生質量準確度差異。值的準確度也是土lDa,并且碎片離子準確度可以是每百萬份中之份數(ppm)。根據所選擇的輸入設置,」m值可以有變化的準確度。歪力廣,式游倉,教薪度0Fare/zow化(i"to6oyeo/pra/W"J使用自上而下方法的所有鑒別算法最初從一數據庫中選擇候選序列集合。未注釋形式的蛋白質可作為FASTA文件得自世界上的公共數據庫,如SWISS-PROT,GenBank等。這些數據庫可被探查以使得人們創建為特定項目特制的所需的蛋白質形式倉庫數據庫。優選地,PERL腳本被用于將FASTA文件轉成易于組裝倉庫數據庫的文件。當FASTA文件被轉化時,向來自FASTA文件的基本序列加入必要信息如平均和單一同位素質量計算和序列中的氨基酸數。論,教薪岸游鳥潛茫釋o/衡re/zo聽鑒于在數據庫中缺乏正確的蛋白質形式會妨礙其鑒別,用RESID命名創建注釋序列的數據倉庫,RESID是已知修飾類型的權威數據庫(Garavelli,2003)。擁有蛋白質形式數據庫使得人們考慮可能由獨特的序列基序的出現表示的巳知和推定的修飾。這一方法目的在于將蛋白質形式的部分或完全鑒定與通過檢索來自蛋白質形式數據庫的已知蛋白質而對其進行的鑒別聯系起來(見圖6)。可在數據庫中注釋的翻譯后修飾事件包括N-末端乙酰化、信號肽預測、磷酸化、脂酰化(lipoylatkm)、GPI錨定、核糖基化、垸基化、羥基化、糖基化、氧化、還原、十四垸基化、生物素化、遍在蛋白化、亞硝基化、氨基化、硫添加、肽連接、環化、核苷酸添加、脂肪酸添加、酰基化、蛋白水解等(對于多肽有約150-200種翻譯后修飾(Garavdli,2003)是已知的并可被認為是注釋)。人們可以從公共數據庫如SWISS-PROT中獲得修飾注釋或將修飾注釋手工輸入倉庫數據庫。優選地,每一倉庫數據庫具有摻入基因屬性、蛋白質形式屬性和修飾屬性的三個表。基因屬性包括基因鑒別信息和基因結構的詳細描述。蛋白質形式屬性包括基因鑒別、蛋白質形式鑒別、單一同位素質量、平均質量、氨基酸數、任何已知屬性的標記如信號序列、起始甲硫氨酸等。修飾屬性包括修飾(RESID)鑒別、平均質量、單一同位素質量和RESID編碼屬性。倉庫數據庫的主要任務是負責處理來自檢索算法的査詢。優選地,檢索算法總是基于質量(平均或單一同位素質量)查詢倉庫數據庫。因此,數據庫應該以質量進行索引并應該迅速回報相應的序列從而不降低整個系統的速度。蛋白質形式的表含有檢索算法所需的大部分信息。由于蛋白質形式的表已經含有所有注釋的序列和質量,因此人們可以從數據庫中獲得對來自檢索算法的查詢的迅速回應。雖然修飾位點可以從蛋白質的遺傳信息中經理論預測,但是通常希望的是用所有潛在可能的注釋組成注釋數據庫。將這些注釋包括進來將產生從其剪切大小和延長的檢索時間而言使用不便的數據庫。一旦檢索算法基于序列標記檢索程序鑒別了精選的候選蛋白質集合,則可以產生含有針對那些特定蛋白質的所有可能的注釋的擴展集合。倉庫數據庫的這一修飾不會削弱檢索算法的性能,因為檢索查詢被限制于可能的蛋白質形式的小集合中。因此,倉庫數據庫的動態鳥槍注釋可以被包括在混合檢索方法中。一旦這一集合蛋白質候選物被精選產生了最終的候選多肽及其相關修飾的集合,則被動態輸入倉庫數據庫的鳥槍注釋可以在另一樣品多肽被鑒定之前被取消。離子預測器預測理論妙和c々離子,并被包括在軟件和系統中。這些計算可用于計算誤差,以道爾頓或每百萬份中之份數(parts-per-million)表示(例如見實施例1,表I)。教薪還嚴JZ^raiwc".o"too/,軟件和系統中包括數據還原工具,用以從還原的碎片化數據除去從多種電荷狀態以及水/氨喪失產生的冗余峰。這類工具可用于在獲得的MS數據被用于檢索算法之前快速分析它們。任何數據管理系統均可用于倉庫數據庫。優選地,數據管理系統包括MySQL。這一通用數據庫系統具有許多實用的支持工具和API,并且這一系統是公眾易于獲得的。附件中提供的軟件使用Version11.18distribution3,23.52MySQLforLi羅.凰形觀蔡器界,(Graphicalviewerinterfacetool)在所有檢索方法中,候選序列集合被賦予不同分值而回報。用于觀察衍生自所有檢索方法的候選序列集合的圖形觀察器界面工具被包括在軟件和系統中。任選地,圖形觀察器界面工具包括在本地工作站中,該工作站包括本發明的其它特征。任選地,圖形觀察器界面工具適于觀察經互連網從遠程服務器獲得的數據。對于絕對質量模式檢索,將基因描述、序列、序列長度、理論質量、質量差異(絕對和ppm)、匹配的6(或c)型離子數、匹配的y(或")型離子數、匹配的碎片總數以及計算的概率值提供給用戶。用戶可隨后通過許多列出的抬頭(header)對候選蛋白質集合分類并觀察任何檢索的序列的碎片化詳細資料。碎片化詳細資料觀察提供給用戶有關與該序列匹配的每一碎片的詳細信息。這一觀察提供鑒別的離子、觀察的質量、理論質量、簡單質量差異(即在考慮任何質量位移之前,如通過用"deltaM"模式推導)和位移的質量差異(即在考慮了"deltaM"模式中質量位移之后)以及以百萬分之份數表示的位移的差異。圖形觀察器界面工具還允許碎片化詳細資料的可視化,這是用于確定序列覆蓋范圍和識別碎片化模式以增加用戶對正確鑒別的置信度的有用特征。被支持的數據庫(Databasessuported)支持數據庫可被構造用于任何生物體。一個實施方案支持用于9種生物體的數據庫,這9種生物體包括釀酒酵母(Sacharomycescerevisiae))、埃希氏大腸桿菌(Escherichiacoli))、擬南芥(Arabidopsisthaliana))、枯草芽孢桿菌(Bacillussubtilis),詹氏甲烷球菌(Me/Zzartococowjannaschii)、肺炎支原體(Mycoplasmapneumoniae)、沙雷菌(Shewanellaoneidensis),小家鼠(Musmusculus)和人(Homosapiens。酵母生物Saccharomycescerevisiae數據庫含有最多的注釋,具有已知和預測的修飾信息。數據庫可擴縮性(DatabaseScalability)特別感興趣的是數據庫和檢索時間如何隨修飾信息的增加而放大。一給定的基因和推定的修飾集合產生指數級的蛋白質形式,其中每一形式含有可能的修飾的亞集合。因此隨著n種蛋白質和每一蛋白質m種可能的加工事件,一個實施方案包括含有0("2J蛋白質形式的數據庫。鑒于檢索算法以依賴于完整容差的常數運行(9(wlog2"),絕對質量檢索算法相對于m幾乎線性放大。借助于已知和推定蛋白質形式的數據庫,可鑒別和鑒定觀察到的蛋白質形式,條件是一些修飾被正確預測。公眾可訪問數據庫中假信息的增加會使得一些基于稀少的(sparse)MS/MS數據的檢索不明確。但是,匹配的碎片離子質量數將隨著在査詢步驟中所用的更廣泛和精確的修飾信息而增加。具有質譜分析裝置的計算機界面任選地,各組件被安裝于計算機系統中以與質譜儀通迅。在一個實施方案中,計算機是本地工作站。在另一個實施方案中,計算機是不在現場的服務器(serverlocatedoff-site)。在后一實施方案中,組件可被儲存在服務器上并用基于互連網的界面工具訪問。從質譜儀產生的MS數據被傳遞到計算機中以用于數據采集和存儲。計算機的中央處理器協調使用在一個優選的實施方案中運行的檢索算法進行的對采集的MS數據的分析以檢索蛋白質形式倉庫數據庫。操作者規定的容差選自由檢索算法軟件提供的選項以使得從蛋白質形式倉庫數據庫收集蛋白質候選物以進一步分析修飾。醫學應用人們可辨別環境信號對體內特定靶蛋白質上的修飾程度的影響。例如,許多人類疾病狀態由修飾如磷酸化調節。人們可以診斷外遺傳疾病,其涉及家族內的特異基因的基于修飾的改變。特異的蛋白質可被測量以發現不尋常的修飾的存在并提供對可能與已知基因序列內的改變的相關性不良的疾病狀態的新的洞察。因此這一系統提供了用于篩選疾病或有患特定疾病傾向的個體的強平臺。當個體蛋白質的修飾改變牽涉于疾病的病因學中時,系統可被構建用于研究設備中以促進發現控制或調節對特定蛋白質添加或除去修飾的藥物化合物的發現。在本文公開的一個實施方案中,系統作為一個高通量篩選策略的一個完整組件而實施,其中候選藥物化合物的組合文庫的促進或抑制與修飾活性相關的酶催化特定蛋白質底物上的修飾的能力被評價。用MS查詢蛋白質底物中是否修飾的存在(或不存在)。具有所希望的藥物學作用的化合物隨后可被用于針對特定疾病的第二級藥物開發計劃。系統可被構建用于臨床應用以評價控制或調節特定蛋白質的修飾添加或除去的藥物化合物的功效。在一個實施方案中,系統可被用于從患者樣品確定特異的蛋白質是否攜帶應答藥物質量的修飾。例如,感興趣的靶蛋白質可被從制備自患者樣品的裂解物中純化至均質,并根據本文描述的方法、軟件和系統進行MS/MS分析。得自樣品蛋白質的MS數據相對于倉庫數據庫中所含的具有其所有天然鳥槍修飾注釋的相應蛋白質形式的差異將容易獲得,并對于治療方案的藥物活性有意義。本發明所屬
技術領域:
的技術人員能明了本發明可被用于檢測蛋白質中的多種修飾,而無論其發生機制是什么。例如,人們可使用本發明鑒別和鑒定單蛋白質上多態性的位置、mRNA的RNA剪接或RNA編輯對所得蛋白質序列的影響、翻譯后修飾和環境誘導的化學修飾的存在。另外,本領域技術人員明白混合檢索方法學使得可以檢測產生在理論預測的多肽形式和實際測量的多肽之間的質量差異的任何生物學事件或生物信息學不精確。/Vo5Vg/2f尸rM'教/好膽教附件包括一個CD盤,其提供了實施本文公開的方面和實施方案所需的所有軟件工具和樣品注釋的蛋白質形式的倉庫數據庫。稱為"ProSightPTM"的系統是一個優選的實施方案。這一系統包括4個主要組件,所有均具有基于互連網的界面蛋白質數據庫(ProSightWarehouse、數據庫檢索算法(Retriever)、數據管理器、計劃跟蹤器和其它有用工具(見圖4;Taylor"a/.,2003)。限時任務,如數據庫搜索和計分,是在Linux上以0++語言利用面向對象的設計進行編寫的,并利用iODBC庫進行數據庫連接。采用(針對語言表達性而選擇的)OCaml來寫數據還原工具以及利用繪制圖像(renderingimages)的GD模塊用PERL來寫可視化工具。使用絕對質量檢索需要在ODBC激活的數據庫管理系統上執行ProSightWarehouse。互連網應用使用由在雙處理器Athlon2200+MP上運行的ApacheHTTP服務器提供服務的CGI寫入PERL。實施例公開了一些實施方案,具體示出了與釀酒酵母36-kDa蛋白質相關的修飾的MS/MS分析,該蛋白質稍后被鑒別為磷酸甘油醛脫氫酶3型酶。盡管使用了Q-FTMS,但是可以替換得自任何類型的質譜儀的關于完整蛋白質的數據。描述的數據庫策略是針對即將進行的特定應用所希望的改良的檢索分值和修飾鑒定率而使用已知的和推定的修飾信息。—辨天然摩母歪A應效^動眾^J:^T分析在一種ALS-PAGE/RPLC級分中觀察到一種M值為35,758.3Da的酵母蛋白質(圖7A)。在同一樣品中還有3種其它成分,其中之一相應于一種附著于該35.8-kDa物質的磷酸加成物(+98Da)。在線解巻積算法(on-linedeconvolutionalgorithm)挑出該35.8-kDa蛋白質并產生合適的SWIFT波形以選擇輸出圖7B所示的5種電荷狀態。使用IR激光器,自動產生圖7C的MS/MS譜,其具有相應于由THRASH算法自動檢測的27種離散的碎片離子質量值的39種同位素分布。在濾波器除去假峰(spuriouspeaks)(例如失水峰)后,使用20種離子質量作為用于數據庫檢索的最終輸入。這一蛋白質被鑒別為甘袖醛-3-磷酸脫氫酶(GAPDH3),其具有9個6-型離子和3個匹配的,型離子(表I和表II)。這一檢索的尸值是4xl0—8,表明這一鑒別不太可能是一假事件。表IGAPDH3(SEQIDNO:l)的離子碎片化數據<table>tableseeoriginaldocumentpage24</column></row><table>GAPDH3具有331個氨基酸;理論質量35,615.5Da;如142.8Da表II:GAPDH3(SEQIDNO:l)的圖示碎片圖譜vrva工ngfgr工gr:lvmr工alsrpnvevvJAJnJdJPjE"J工TNdYAaYMFKYdSTHGRYAGEVSHDDKH工VDGKK工ATYQERDPANPWGSSND工ADSTGVFKEDTAQKH工DAGAKKVVITAPSSTAPMFVMGVNEEKYTSDKVSNAS£TT£IiAPAKVNDAFGIEEGMTTVHSTATQKTVDGPSHKD[WRGGRTASGN工PSSTGAAKAVGKVPELQGKTGMAFRVPTVDVSVVDIiTVKIiMKETTYDEIKKVVKAAAEGKKGVI;GYTEDAVSfSDFIiGDSHSSIFDASAGQ:lSPKFVK1/SWYDNEYGYSTRVDLVEHAKAi下劃線的Cys殘基是被鑒別含有丙烯酰胺修飾的殘基。符號j是指氨基衍生的碎片離子,而符號f是指羧基衍生的碎片離子。這一基因產物(GAPDH3;SEQIDNO:l)被成功地與GAPDH基因家族的其它成員GAPDH2(SEQIDNO:2)和GAPDHl(SEQIDNO:3)區分開,其與它們分別具有96%和80%的序列相同性。這些數據還將這一蛋白質形式從由ExPASy報道的一個不一致中辨別出,其中331個氨基酸中僅3個不同。另外,GAPDH3基因產物的觀察分子質量比從數據庫中的序列(無起始Met)計算出的理論值大142Da。碎片圖譜將這一質量差異(A肌)定位在Asp90和Asp股之間,在這一序列區間僅有兩個Cys殘基(Cys,49禾nCys153)(見表II)。使用手動Q-FTMS/MS和超導磁體外的離子碰撞解離對這一蛋白質形式進行的隨后的探詢產生了圖7D的譜圖,其具有98種同位素分布。使用這些數據作為檢索算法的輸入數據進一步將所述+142DaAm限定在Pro126-Leu154區域。這些數據與在凝膠電泳期間兩個Cys殘基被丙烯酰胺烷基化(各+71Da)相符。盡管沒有精確定位于Cys149和Cys153,但是這一凝膠內修飾具有若干先例并預期適用于基于PAGE的分級分離中的游離硫醇。因此,整體方法涉及最初用自上而下方法檢測共價修飾。鑒于絕對質量檢索時間線性依賴于被計分的候選序列數,較小的完整容差加速檢索時間。用土2-kDa容差對酵母進行的簡單檢索對于1500個候選物用時6秒,而用200-Da容差進行相同檢索對于200個候選物用400毫秒完成。混合檢索線性依賴于FASTA文件項目數和所考慮的序列標記數。用5個序列標記迸行檢索在4秒鐘完成。對于目前被碎片化的酵母蛋白質,約有一半可以用檢索算法使用觀察的碎片離子的絕對質量而鑒別。對于其余的,有20%可經由觀察到的碎片離子之間的相對質量差異產生的序列標記而被鑒別。在序列標記模式中,圖7C數據的自動化匯總產生4個標記(兩個真的,兩個假的,每個長度為4個氨基酸)。將序列標記的匯編限制于有相同電荷的碎片離子僅給出2個正確的標記。用圖7D的數據,經電荷狀態限制,8個標記中有5個是假的(長度l-4個氨基酸),6個中有4個是假的(長度l-3個氨基酸)。實嚴粼2:廢遂源蘿^有參濃活絲游艨游眾合激Ji谫實蘑^;本實施例的目的是概述從組合文庫中鑒別以陽性或陰性方式調節展示修飾活性的酶的化合物的高通量策略。盡管特定的實施例是在體外環境中描述的,但是使該實施例適應體內應用是容易認識到的。將含有N-末端組氨酸標記的重組形式的人Src激酶癌蛋白(UpStateBiotechnology,Inc.;LakePlacid,NY)在Src激酶緩沖液(IOOmMTris-HCl(pH7.2),125mMMgCl2,25mMMnCl2,2mMEGTA,500|iMATP,0.25mM原釩酸鈉和2mM二硫蘇糖醇)中固定在用Ni-NTA樹脂包被的96孔皿中。在加入溶解于Src激酶緩沖液中的測試化合物后,優選地每孔一種均一化合物,向每孔中加入已知序列的Src蛋白底物(濃度為100-300nM)以使得其磷酸化。溫育后,回收底物并用ProSightPTM系統進行自上而下質譜分析。特定化合物抑制Src活性的能力通過不存在與蛋白質內磷酸化酪氨酸相關的修飾而表明。這類化合物適于用其它測定進行進一步鑒定以證實所述自上而下分析。例如可以在測定中使用[Y-"P]ATP并用在P81紙上的TCA沉淀測定監控磷酸化活性。,應翔_5:在個謬^檢/遺傳疾癰^!^實蘑^9本實施例的目的是證實ProSightPTM系統對于使用自上而下質譜檢測與外遺傳疾病相關的修飾的用途。從用禽肉瘤病毒感染的雞和未感染的雞中獲得樣品組織。將樣品勻漿并澄清以產生可溶性裂解物。用抗Y-連環蛋白抗體從裂解物中親和純化Y-連環蛋白(一種已知的禽Src激酶的體內底物。然后用自上而下的質譜分析和ProSightPTM分析回收的Y-連環蛋白樣品。預期的結果是從正常組織回收的Y-連環蛋白將展示儲存于ProSight倉庫數據庫中的蛋白質形式的正常修飾模式,而從感染的雞中回收的Y-連環蛋白將包括與酪氨酸磷酸化相關的額外修飾。實/歸心實細/一3被雜,細胞培養物和裂解物分級分離將釀酒酵母細胞(菌株S288C)在厭氧條件下培養。將約2g細胞(濕質量)重懸于含有兩片蛋白酶抑制劑的10mL裂解緩沖液(25mMTris,1mMEDTA,1mMTCEP,pH7.0,加入1mLDNAase)中。經Frenchpress裂解后,將細胞碎片經10,000xg離心30分鐘而澄清。然后將上清與酸不穩定表面活性劑(ALS)樣品緩沖液混合,上樣至491型制備凝膠裝置(Bio-Rad)中,用0.1。/。ALS-I代替0.1%SDS。4%T積層凝膠與以0.50mL/min流速洗脫的12%T分辨凝膠一起使用。在所收集的80個級分(每個級分2mL)中,有2個級分被進一步加工,即冷丙酮沉淀、在6M鹽酸胍(pH2)中重懸以及使用對稱300C4柱(4.6x50mm;WatersInc.,Milford,MA)用標準溶劑(H20,CH3CN,和0."/。TFA)在15分鐘內線性梯度進行反相液相色譜。ESI-Q-FTMS裝置干燥RPLC分級分離的蛋白質并重懸于80|aLESI溶液(50%ACN,49%H20,和1%甲酸)中,然后加樣于納流噴霧機器人(nanosprayrobot)(AdvionBiosciences,Ithaca,NY),以~100nL/min分析5-10iLiL樣品。本研究中使用的8.5-TQ-FTMS儀器是如它處所述在公司內部構建的。簡而言之,在最終于ICR池中分析之前,將蛋白質離子首先儲存于八極(octopole)中,然后轉移通過四極(quadrupole),之后在第二個八極中積聚。四極可以以質量選擇或"rf-only"模式運行。寫在Tel中的自動化腳本獲得了完整蛋白質譜,隨后調用在線解巻積算法以計算Mr值,并且SWIFT分離5個最豐富的電荷狀態(chargestate)。在5次掃描分離的電荷狀態后,啟動IR激光器,進行25或50次掃描(0.45s,75%功率,40-W激光)。通過當特異的電荷狀態被從四極轉移進第二個八極中時碰撞解離它們而手工獲得圖7D的Q-FTMS/MS譜。參考文獻BelovME,MkolaevEN,AndersonGA,AuberryKJ,HarkewiczR,SmithRD."Electrosprayionization-Fouriertransformioncyclotronmassspectrometryusingionpreselectionandexternalaccumulationforultrahighsensitivity,"/」w.Afowi9/e"rcw.12:38-48(2001).BiemannK,PapayannopoulosI.爿cc.C/7柳.i饑27:370-78(1994).ClauserKR,BakerP,BurlingameAL."Roleofaccuratemassmeasurement(+/-10ppm)inproteinidentificationstrategiesemployingMSorMS/MSanddatabasesearching,"Ozew.71:2871-82(1999).FicarroS,McClelandM,StukenbergP,BurkeD,RossM,ShabanowitzJ,HuntD,WhiteF."PhosphoproteomeanalysisbymassspectrometryanditsapplicationtoSaccharomycescerevisiae,"Ato.20:301-305(2002),Garavelli,JS."TheRESIDDatabaseofProteinModifications:2003developments,"iVwc/e/d/cfeL31:499-501(2003).GeY,LawhomBG,ElNaggarMStraussE,ParkJH,BegleyTP,McLaffertyFW."Topdowncharacterizationoflargerproteins(45kDa)byelectroncapturedissociationmassspectrometry,"Xm.CVzew.124:672-78(2002).GeY,ElNaggarM,SzeSK,BinOH,BegleyTP,McLaffertyFW,BoshoffH,BarryCE.爿附.Soc.MawSpec&ow.14:253-61(2003).GerberSA,RushJ,StemmannO,SteenH,KirschnerMW,GygiSP.Orlando,FL,2002.GosheMB,ConradsTP,PaniskoEA,AngellNH,VeenstraTD,SmithRD."Phosphoproteinisotope-codedaffinitytagapproachforisolatingandquantitatingphosphopeptidesinproteome-wideanalyses,"^wa/.CAew.2001,73:2578-86(2001),JohnsonJR,MengF,ForbesAJ,CargileBJ,KelleherNL."Fourier-transformmassspectrometryforautomatedfragmentationandidentificationof5-20kDaproteinsinmixtures,"J57ec^op/zom^23:3217-23(2002).KachmanMTWangH,SchwartzDR,ChoKR,LubmanDM."A2-Dliquidseparations/massmappingmethodforinterlysatecomparisonofovariancancers,"^wa/.C72ew.74:1779-91(2002).KelleherNL,CostelloCA,BegleyTP,McLaffertyFW.J!j附.&>c.Mow一"r畫.6:981-84(1995).KelleherNL,TaylorSV,GrannisD,KinslandC,ChiuHJ,BegleyTP,McLaffertyFW."Efficientsequenceanalysisofthesixgeneproducts(7-74kDa)fromtheEscherichiacolithiaminbiosyntheticoperonbytandemhigh-resolutionmassspectrometry,"/We/"Sb/.7:1796-1801(1998).LanderESa"Initialsequencingandanalysisofthehumangenome,"iV^wM409:860-921(2001).MacCossMJMcDonald麗,SarafA,SadygovR,ClarkJM,TastoJJ,GouldKX,WoltersD,WashburnM,WeissAClarkJI,YatesJR.,III."Shotgunidentificationofproteinmodificationsfromproteincomplexesandlenstissue,"細c.淑/.爿rac/.5W.f/".99:7卯0-7905(2002).MengF,CargileBJ,MillerLM,ForbesAJ,JohnsonJR,KelleherNL."Informaticsandmultiplexingofintactproteinidentificationinbacteriaandthearchaea,"淑歷她c/2/w/.19:952-57(2001).MengF,CargileBJ,PatrieSM,JohnsonJR,McLoughlinSM,KelleherNL."Processingcomplexmixturesofintactproteinsfordirectanalysisbymassspectrometry,"/iwa/.C/zem.74:2923-29(2002).OdaY,HuangK,CrossFR,CowburnD,ChaitBJ,"Accuratequantitationofproteinexpressionandsite-specificphosphorylation,"Proc.iVa".JcadSc/.t/S.A96:6591-96(1999).OdaY,NagasuT,ChaitBT."Enrichmentanalysisofphosphorylatedproteinsasatoolforprobingthephosphoproteome,"TV"f.及'o/ec/mo/.19:379-82(2001).PerkinsD,PappinD,CreasyD,CottrellJ."Probability-basedproteinidentificationbysearchingsequencedatabasesusingmassspectrometrydata,"孤c鄉/io固's20:3551-67(1999).PinedaFJ,LinJS,FenselauC,DemirevPA."Testingthesignificanceofmicroorganismidentificationbymassspectrometryandproteomedatabasesearch,"Xwa/.C/iew.72:3739-44(2000).ReidGE,ShangH,HoganJM,LeeGU,McLuckeySA."Gas-phaseconcentration,purification,andidentificationofwholeproteinsfromcomplexmixtures,"爿m.C7em.Soc.124:7353-62(2002).ReidGE,StephensonJL,McLuckeySA."TandemmassspectrometryofribonucleaseAandB:N-linkedglycosylationsiteanalysisofwholeproteinions,"^wa/.C77柳.74:577-83(2002).SteenH,KusterB,FernandezM,PandeyA,MannM."DetectionoftyrosinephosphorylatedpeptidesbyprecursorionscanningquadrupoleTOFmassspectrometryinpositiveionmode,"爿wa/.C/7ew.73:1440-48(2001).TaylorGK,KimYB,ForbesAJ,MengF,McCarthyR,KelleherNL"Webanddatabasesoftwareforidentificationofintactproteinsusingtopdownmassspectrometry,"C/7ew7.75:4081-86(2003).WilkinsMR,GasteigerE,GooleyAA,HerbertBR,MolloyMP,BinzPA,OuK,SanchezJC,BairochA,WilliamsKL,HochstrasserDF."High-throughputmassspectrometricdiscoveryofproteinpost-translationalmodifications,"/Mo/.5/o/.289:645-57(1999).ZhangW,ChaitB."ProFound:anexpertsystemforproteinidentificationusingmassspectrometricpeptidemappinginformation,"CTzew.72:2482-89(2000).ZhouH,WattsJD,AebersoldR."Asystematicapproachtotheanalysisofproteinphosphorylation,"Ato.5Wec/z"o/.19:375-78(2001).權利要求1.一種選擇針對一種樣品多肽的一組候選多肽的方法,包括根據由質譜法產生的樣品多肽碎片質量的差異對候選多肽集合進行的第一次精選;以及根據樣品多肽的絕對質量和所述碎片的絕對質量對候選多肽集合進行的第二次精選。2.權利要求1的方法,其中第一次精選包括根據碎片質量的差異確定樣品多肽的至少部分氨基酸序列。3.權利要求2的方法,進一步包括確定完整形式的樣品多肽的絕對質量和樣品多肽碎片的絕對質4.權利要求2的方法,進一步包括被精選的集合包括一倉庫數據庫;和基于樣品多肽的所述至少部分氨基酸序列從所述倉庫數據庫中選擇候選多肽。5.—種確定樣品多肽的一級結構的方法,包括用權利要求1的方法選擇一組候選多肽;通過將樣品多肽的絕對質量與候選多肽的理論絕對質量數據進行比較而得到匹配的概率值;禾口通過對匹配概率值排序而基于與候選多肽之一的匹配的最大概率值而鑒別樣品多肽的一級結構。6.權利要求4的方法,其中所述倉庫數據庫進一步包括倉庫數據庫中的至少一種多肽的至少一種鳥槍注釋。7.權利要求6的方法,其中所述鳥槍注釋包括翻譯后修飾。8.權利要求7的方法,其中所述翻譯后修飾包括選自如下一組的至少一個成員,所述的組由核糖基化、磷酸化、烷基化、羥基化、糖基化、氧化、還原、十四垸基化、生物素化、遍在蛋白化、碘化、亞硝基化、氨基化、硫添加、環化、核苷酸添加、脂肪酸添加和酰化組成。9.權利要求4的方法,其中所述倉庫數據庫儲存在計算機的電子存儲器中。10.權利要求9的方法,其中用戶可通過檢索算法經電子通訊訪問計算機而從所述倉庫數據庫檢索信息。11.權利要求10的方法,其中所述檢索算法進一步包括互聯網軟件應用。12.—種篩選化合物對一種對多肽底物進行翻譯后修飾的酶的抑制活性的方法,包括-將所述酶與所述化合物接觸以形成預混合物;以及向所述預混合物中加入多肽底物以形成反應混合物;用權利要求5的方法分析所述多肽底物。13.權利要求12的方法,進一步包括加入與酶一起催化反應的輔因子,其中所述輔因子包括選自由ATP、ADP、AMP、GTP、GDP、GMP、CTP、CDP、CMP、UTP、UDP和UMP組成的一組的至少一個成員。14.權利要求12的方法,其中所述酶被固定在一固相支持物上。15.—種用于計算機的計算機程序產品,所述計算機程序產品包括計算機可用介質,在所述介質中具有計算機可讀程序代碼,以用于針對一種樣品多肽選擇一組候選多肽,所述計算機程序產品包括計算機可讀程序代碼,用于指導計算機針對一種樣品多肽選擇一組候選多肽,包括根據由質譜法產生的樣品多肽碎片質量的差異對候選多肽集合進行的第一次精選;以及根據樣品多肽的絕對質量和所述碎片的絕對質量對候選多肽集合進行的第二次精選。■16.權利要求15的計算機程序產品,其中用于指導計算機確定對集合的第一次精選的計算機可讀程序代碼,其中所述第一次精選包括根據碎片質量的差異確定樣品多肽的至少一部分氨基酸序列。17.權利要求16的計算機程序產品,進一步包括用于指導計算機確定完整形式的樣品多肽的絕對質量和樣品多肽碎片的絕對質量的計算機可讀程序代碼。18.權利要求16的計算機程序產品,進一步包括用于指導計算機基于樣品多肽的至少部分氨基酸序列從蛋白質形式集合中選擇候選多肽的計算機可讀程序代碼。19.權利要求16的計算機程序產品,進一步包括用于指導計算機經權利要求1的方法選擇一組候選多肽的計算機可讀程序代碼,以通過將樣品多肽的絕對質量與候選多肽的理論絕對質量數據進行比較而得到匹配的概率值;和通過對匹配概率值排序而基于與候選多肽之一的匹配的最大概率值而鑒別樣品多肽的一級結構。20.權利要求15的計算機程序產品,進一步包括一系統,其中該系統包括-計算機;蛋白質形式的倉庫數據庫;和主要工具。21.權利要求20的計算機程序產品,其中所述主要工具包括選自由數據管理系統、離子預測器、數據還原工具和圖形觀察器界面工具組成的一組的至少一個成員。22.權利要求20的計算機程序產品,其中所述倉庫數據庫進一步包括鳥槍注釋。23.權利要求20的計算機程序產品,其中所述倉庫數據庫進一步包括動態鳥槍注釋。24.權利要求20的計算機程序產品,其中所述系統進一步包括檢索算法,其中所述檢索算法包括絕對質量檢索模式和序列標記檢索模式。25.權利要求24的計算機程序產品,其中所述絕對質量檢索模式進一步包括dm檢索模式。26.權利要求20的計算機程序產品,進一步包括與計算機通訊的質譜儀。27.權利要求20的計算機程序產品,其中所述計算機與用戶通過應用互聯網軟件通訊。28.權利要求20的計算機程序產品,進一步包括計算機;蛋白質形式的倉庫數據庫;用于檢索所述倉庫數據庫的檢索算法;數據管理系統;離子預測器;數據還原工具;和圖形觀察器界面工具。29.—種用于針對一種樣品多肽選擇一組候選多肽的系統,包括用于根據由質譜法產生的樣品多肽碎片質量的差異對候選多肽集合進行第一次精選的裝置;用于根據樣品多肽的絕對質量和所述碎片的絕對質量對候選多肽集合進行第二次精選的裝置;和計算機。30.權利要求29的系統,其中所述計算機與質譜儀通訊。31.權利要求29的系統,其中所述計算機與用戶通過應用互聯網軟件通訊。32.—種用于針對一種樣品多肽選擇一組候選多肽的系統,包括:權利要求15的計算機程序產品;和計算機。33.權利要求1的方法,進一步包括根據樣品多肽和樣品多肽碎片的絕對質量對集合進行第三次精選,其中對集合的第三次精選在對集合的第一次精選之前發生。全文摘要一種選擇針對一種樣品多肽的一組候選多肽的方法,包括根據由質譜法產生的樣品多肽碎片質量的差異對候選多肽集合進行的第一次精選;以及根據樣品多肽的絕對質量和碎片的絕對質量對候選多肽集合進行的第二次精選。文檔編號G01N33/68GK101124581SQ200580007092公開日2008年2月13日申請日期2005年3月3日優先權日2005年3月3日發明者尼爾·L.·凱萊赫申請人:伊利諾斯大學理事會