穩定的配對e值的制作方法
【專利摘要】本發明涉及用于獲得穩定并且不依賴蛋白或核酸序列數據庫大小的生物信息學配對E值的系統和方法。提供了示例性實施方案,為多蛋白數據中含有的每一個蛋白限定至少一個數據庫,并在查詢(query)蛋白與每一個單蛋白數據庫中的每一個蛋白質之間生成E值,從而為每一個查詢-數據庫蛋白比較提供一個穩定的配對E值。
【專利說明】穩定的配對E值發明領域
[0001]本發明一般的涉及生物信息學領域,更具體地,涉及變應原發現和序列比對領域。
[0002]發明背景
[0003]在生物信息學研究中,E值被用作一種統計學度量,根據蛋白質的氨基酸序列同一性和相似性評估它們的相關性。一般地,E值越低,兩個蛋白質在進化上相關并享有相似結構和功能的可能性越大。E值計算的統計學性質(nature)考慮了所查詢數據庫中蛋白質的數目和/或長度,以估算氨基酸比對是隨機的或者具有進化或生物學顯著性的概率。
[0004]在監管情境中,生物信息學調查已經被用于評估轉基因蛋白質是否與已知的毒素和變應原具有生物學有意義的相關性。目前關于變應原搜尋的指導主要是基于蛋白質內特定連續序列段(stretch)的氨基酸同一性(例如精確匹配8個連續的氨基酸或在一個80個氨基酸的片段上具有>35%的同一性)。當生物信息學研究顯示轉基因蛋白有可能是交叉反應變應原或毒素時,政府監管機構通常要求進行生物學試驗,以確保轉基因蛋白可安全地用于人和/或動物。然而,生物學試驗經常成本高昂并且耗時。因此,生物信息學調查結果的假陽性會顯著延遲或阻止(從經濟上)有用的轉基因蛋白產物市場化。
[0005]最近,有人建議使用E值作為標準/閾值,通過僅選擇有生物學意義的同源物進行進一步的生物信息學評估,來降低假陽性率。然而,因為E值依賴于所用數據庫的大小,所以當向數據庫添加額外的蛋白序列時,在特定查詢蛋白與特定數據蛋白之間進行比較所計算出的E值會發生改變。這種“演化的(evolving)”或不穩定的E值對為監管或科學目的而確定E值的閾值帶來了挑戰。因此,仍然需要能夠高效而準確地使用不依賴數據庫大小的E值閾值的方法。
發明概要
[0006]本發明涉及用于獲得穩定并且不依賴蛋白質序列數據庫大小的生物信息學配對E值的系統和方法。提供了示例性實施方案,用于為多蛋白質數據庫中包含的每一個蛋白質定義至少一個數據庫,并在查詢(query)蛋白質與每一單蛋白質數據庫中的每一蛋白質之間生成E值,從而為每一個查詢對數據庫的蛋白質比較(query-to-database proteincomparison)提供穩定的配對 E 值(pair-wise E value)。
[0007]在至少一個方面中,提供了一種計算機化系統,用于為查詢序列生成穩定的配對E值和/或進行變應原分類。該系統包括:
[0008](a)輸入設備和輸出設備/界面;
[0009](b)與計算機的存儲器相連的分析系統界面;
[0010](c)包含至少一個數據庫的操作系統;
[0011 ] (d)穩定配對E值模塊;和
[0012](e)分類模塊。
[0013]在一個實施方案中,輸入設備選自:任何氨基酸序列、自動化測序儀、測序數據輸入設備、和測序數據存儲設備。在另一個實施方案中,所述輸出界面包括一系列潛在的變應原命中。在另一個實施方案中,所述至少一個數據庫包含共有變應原數據庫。在進一步的或替代的實施方案中,所述至少一個數據庫包括源自美國國家生物技術信息中心(NCBI)的數據庫。
[0014]在一個實施方案中,穩定配對E值模塊針對所使用的數據庫中的每一序列為查詢序列生成一個穩定的配對E值。在另一個實施方案中,分類模塊基于預定的E值對查詢序列進行分類。在另一個實施方案中,分類模塊基于預定的E值對所使用的數據庫中的序列進行分類。在一個實施方案中,所述預定的E值等于或小于0.1。在另一個實施方案中,所述預定的E值為0.1至Ix 10_1(1。在一個實施方案中,所述穩定地E值不依賴所使用的數據庫的大小。在另一個實施方案中,查詢序列針對特定序列的穩定的配對E值不依賴所使用的數據庫的大小。
[0015]在另一個方面中,提供了一種供計算機化系統中使用的、用于為查詢序列生成穩定的配對E值和/或進行變應原分類的方法。該方法包括:
[0016](a)使用穩定配對E值模塊針對第一數據庫中的每一序列為查詢序列生成穩定的配對E值;和
[0017](b)使用分類模塊基于預定的E值對數據庫中的序列進行分類。
[0018]在另一個方面中,提供了一種供計算機化系統中使用的、用于為查詢序列生成穩定的配對E值和/或進行變應原分類的方法。該方法包括:
[0019](a)使用穩定配對E值模塊針對第一數據庫中的每一序列為查詢序列生成穩定的配對E值;和
[0020](b)使用分類模塊基于預定的E值對查詢序列進行分類。
[0021]在另一個方面中,提供了一種供計算機化系統中使用的、用于為查詢序列生成穩定的配對E值和/或進行變應原分類的方法。該方法包括:
[0022](a)使用穩定配對E值模塊為查詢序列針對第一數據庫中的每一序列生成穩定的配對E值;和
[0023](b)使用分類模塊基于預定的E值對查詢序列進行分類。
[0024]在一個實施方案中,該方法進一步包括向用戶輸出潛在的變應原命中的列表。在進一步的或替代的實施方案中,該潛在的變應原命中的列表包括與查詢序列的序列比對。在進一步的或替代的實施方案中,該潛在的變應原命中的列表包括查詢序列與數據庫中每一個已知變應原之間的序列比對。在進一步的或替代的實施方案中,序列比對使用FASTA搜索工具或基本局部比對搜索工具(BLAST)實施。
[0025]在另一個實施方案中,該方法進一步包括用第二數據庫重復進行步驟(a)和(b)。在進一步的或替代的實施方案中,所述第一或第二數據庫源自美國國家生物技術信息中心(NCBI)。在另一個實施方案中,所述第一數據庫包含共有變應原數據庫。在另一個實施方案中,該方法進一步包括用不同的查詢序列重復進行步驟(a)和(b)。在另一個實施方案中,該計算機化系統包括本文中描述的系統。
[0026]在一個實施方案中,所述預定的E值等于或小于0.1。在另一個實施方案中,所述預定的E值為0.1至Ix 10,。在另一個實施方案中,配對E值不依賴數據庫的大小。在另一個實施方案中,針對特定序列的查詢序列的配對E值不依賴數據庫的大小。
[0027]在一個實施方案中,查詢序列是蛋白質或氨基酸序列。在另一個實施方案中,查詢序列是核酸序列。在進一步的實施方案中,核酸序列是DNA或RNA序列。在另一個實施方案中,查詢序列是來自轉基因事件或轉基因植物的序列。在進一步的或替代的實施方案中,轉基因事件或轉基因植物選自轉基因玉米、加拿大油菜(canola)、大豆、向日葵、棉花、小麥或水稻。
[0028]附圖簡述
[0029]圖1顯示了本文中提供的系統和方法的一個示例性實施方案。將查詢蛋白質的序列輸入到穩定配對E值模塊中,以便與選定的變應原數據庫中的每一序列生成配對E值。然后,將所有的穩定的配對E值(針對選定的變應原數據庫中的每一序列)輸入到分類模塊,用于確定該查詢蛋白質的變應原潛力。
[0030]圖2顯示了在本文實施例中使用的示例性蛋白質序列(SEQ ID NO:1)。該序列包含來自一種主要變應原I的30個氨基酸加上CrylF的30個氨基酸。
[0031]圖3顯示了通過搜索GenBank非冗余蛋白質序列而獲得的示例E值。該數據庫大小顯示為14,481,394個序列。對主要變應原I多肽鏈I的E值顯示為7.3x 10_9。
[0032]圖4顯示了通過搜索共有變應原數據庫Vll而獲得的示例E值。該數據庫大小顯示為1,489個序列。對主要變應原I多肽的E值顯示為Sx 10_15。由于數據庫較小,該E值遠小于圖3。
[0033]圖5顯示了通過搜索共有變應原數據庫VlO而獲得的示例E值。該數據庫大小顯示為1,471個序列。對主要變應原I多肽的E值顯示為7.Sx 10_15。由于數據庫較小,該E值也遠小于圖3。
[0034]圖6顯示了通過搜索共有變應原數據庫Vll (經刪減(truncated))而獲得的示例E值。該數據庫大小顯示為1,469個序列。對主要變應原I多肽的E值顯示為1.3χ 1(Γ15。由于數據庫較小,該E值也遠小于圖3。
[0035]圖7顯示了通過搜索僅有一個序列一一主要變應原I多肽的數據庫而獲得的極端E值。針對主要變應原I多肽的E值顯示為6.3χ 1(Γ19。由于數據庫極小,僅含有一個序列,因此該E值遠小于圖3-6。
[0036]圖8顯示了從根據圖3-7的不同數據庫計算得出的E值的匯總。
[0037]發明的詳細說明
[0038]提供了用于生成穩定的配對E值的系統和方法。在一個實施方案中,所生成的穩定的配對E值不依賴于數據庫的大小(序列數目永遠等于I)。具體地,為多蛋白質數據庫中所含的每一個蛋白質定義至少一個數據庫,并在查詢(query)蛋白質與每一單蛋白質數據庫中的每一蛋白質之間生成E值,從而為每一個查詢對數據庫蛋白質比較(query-to-database protein comparison)提供穩定的配對E值。該E值的穩定性允許在監管情境中(以及在科研情境中)確定和/或指定閾值,可以針對該閾值進行特定的配對蛋白質比較。
[0039]聯合國糧食及農業組織(FAO)和世界衛生組織(WHO)為基于IgE交叉反應性預測的轉基因蛋白質變應原篩選建立了標準,其使用(I)至少6個連續氨基酸的同一性;或(2)一個由80個氨基酸構成的“滑移窗口 ”搜索大于35%的同一性。然而,這個由FA0/WH0建立的標準會產生過多的假陽性。見例如Cressman and Ladies (2009) “Further evaluat1nof the utility of ‘Sliding Window’ FASTA in predicting cross-reactivity withallergenic proteins.” Regul.Toxicol.Pharmacol.54: S20-S25,本文援引并入其全部內容。
[0040]作為替代,有人已提出用基于基序的變應性預測系統消除變應原預測的假陽性問題,依據是其聲稱僅需52個變應原基序即可匹配大多數變應原。見Stadler andStadler (2003)FASEB 17:1141-43,本文援弓I并入其全部內容。
[0041]先前,有人提出考慮使用E值作為變應原預測的標準。見例如Ladies etal.(2007) “Comparison of convent1nal FASTA identity searches with the 80aminoacid sliding window FASTA search for the elucidat1n of potential identitiesto known allergens.’’Molecular Nutrit1n&Food Research 51:985-998,本文援引并入其全部內容。然而,關于E值的一個挑戰性問題是,隨著數據庫大小的改變,相同的配對比較會隨時間變化。
[0042]如這里所使用的,詞語“氨基酸”是指具有以下結構的分子,其中一個中心碳原子(阿爾法(α)_碳原子,或“Ca ”)與一個氫原子、一個羧酸基團(其碳原子在此處稱為“羧基碳原子”)、一個氨基(其氮原子在此處稱為“氨基氮原子”)、以及一個側鏈基團R相連。當被納入肽、多肽或蛋白質內時,氨基酸通過脫水反應失去其氨基和羧基上的一個或多個原子,使氨基酸彼此相連。其結果是,當被納入蛋白質內時,氨基酸被稱為“氨基酸殘基”。在天然存在的蛋白質的情況下,通常用于合成蛋白質的20種氨基酸由氨基酸殘基的R基團所區分。
[0043]如本文所用,詞語“蛋白質”是指任何由兩個或更多個單獨的氨基酸(不論其是否為天然存在的)通過肽鍵相連形成的聚合物,當一個氨基酸(或氨基酸殘基)中與a-碳連接的羧基的羧基碳原子與相鄰的氨基酸中與a-碳連接的氨基的氨基氮原子之間發生共價鍵合時,蛋白質便會生成。這些肽鍵連接和包含它們的原子(即a-碳原子、羧基碳原子(以及它們的取代基氧原子)和氨基氮原子(以及它們的取代基氫原子))形成了蛋白質的“多肽主鏈”。多肽主鏈應當理解為是指蛋白質的氨基氮原子、a-碳原子和羧基碳原子。
[0044]進一步地,詞語“蛋白質”應理解為包括詞語“多肽”和“肽”(其有時可以在本文中互換使用)。包含多個多肽亞基(例如DNA聚合酶IE、RNA聚合酶II)或其他組分(例如RNA分子,如在端粒酶中出現的)的分子,包含在這里所使用的“蛋白質”的含義內。蛋白質和多肽的片段也包含在本發明的范圍內,并且在這里可以稱為“蛋白質”。蛋白質“結構域”是指更大的蛋白質的一部分,其在分離條件下呈現的三維構象與該結構域在較大蛋白質中存在時所呈現的構象一致。
[0045]如這里所使用的,詞語“計算機可用介質”是指如下的介質,包括可移動存儲設備和信號。“計算機可用介質”還指指向計算機系統的軟件或程序指令。計算機程序(也稱作計算機控制邏輯)被存儲在主存儲器和/或輔助存儲器中,也可以通過通信界面接收和發送。這樣的計算機程序在被執行時,可以使計算機系統實現如本文中所討論的本發明的特征。
[0046]如這里所使用的,詞語“同一性”是指在比對中相同的序列位置的數目。在大多數情況下,它被表示為比對長度(alignment length)的百分比。
[0047]表1.氨基酸殘基的保守取代列表
分類氨基酸小側鏈氨酸(AlaiA);甘氨酸(GlyiG);和絲氨酸(SedslS)
帶正電_精氨酸(ArgSR);賴氨酸(LysiL);和組氨酸(His或H)
帶負電i冬氨酸(Asp或D)和谷氨酸(GluiE)
胺基團天冬酰胺(Asn或N)和谷氣酜胺(Gli^Q)
極性基團__半胱氨酸(CysiC);絲氨酸(Ser或S);和蘇氨酸(Thr或T)
巰基^胱氨酸(Cys或C)和曱硫氨酸(Met或M)
大的疏水基團繳氨酸(Val或V);亮氣酸(LeuiL);異亮氨酸(He或I);和
__甲硫氨酸(MetiM)_
芳香族基團酪氨酸(Tyr或Y);色氨酸(TrpiW);苯丙氨酸(Plie或F);組_氨酸(His或H) _
[0048]如這里所使用的,詞語“相似性”是指在比對中相似的(例如,保守取代)序列位置的數量。與天然存在的多肽的相應區域相比,根據本發明的多肽可以具有缺失或氨基酸取代,只要它們仍然發揮完整多肽的至少一種生物活性即可。保守取代包括氨基酸變異,其中一個氨基酸被同屬如下組的另一個氨基酸代替:小側鏈、帶正電荷、帶負電荷、胺基團、極性基團、巰基、大的疏水基團和芳香族基團,如表I所示。
[0049]如這里所使用的,詞語“同源性”是指進化上的關系。兩個同源蛋白質從一個共同的前體序列發展而來。同源性并不一定意味著相同或相似,只是同源序列通常比非同源序列更相似(或者在比對中具有更多相同的位置)。
[0050]如這里所使用的,詞語“直系同源物”或“直向同源的”是指一種功能對應物(counterpart),例如另一種生物中的蛋白質,它們都是從共同的前體發展而來。通常情況下,直系同源物保留共同的功能。相比之下,“旁系同源物”是指如下的基因或蛋白質,它們通過基因組內的復制而產生,并且在進化期間獲得了不同的功能,但彼此仍然具有相似性。
[0051]如這里所使用的,詞語“植物”包括雙子葉植物和單子葉植物。雙子葉植物的實例包括煙草、擬南芥、大豆、番茄、木瓜、加拿大油菜、向日葵、棉花、苜蓿、馬鈴薯、葡萄(grapevine)、木豆(pigeon pea)、豌豆、蕓苔屬(Brassica)、鷹嘴豆、甜菜、油菜、西瓜、甜瓜、辣椒、花生、南瓜、蘿卜、菠菜、倭瓜(squash)、西蘭花、卷心菜、胡蘿卜、花椰菜、芹菜、大白菜、黃瓜、茄子和萵苣。單子葉植物的例子包括玉米、水稻、小麥、甘蔗、大麥、黑麥、高粱、蘭花、竹子、香蕉、香蒲、百合、燕麥、洋蔥、黍和黑小麥(triticale)。
[0052]在生物信息學領域,FASTA格式由Bill Pearson和David Lipman在1988年提出,用于表示任何核苷酸或氨基酸序列(見Pearson and Lipman, “Improved tolls forb1logical sequence comparison(1988) Proc.Natl.Acad.Sc1.USA 85:2444-2448),本文援引并入其全部內容。基本上,FASTA格式的序列是一種基于文本的格式,以單行描述開始,在第一列中含有一個大于號(>),接著是序列數據行。
[0053]用于核酸和氨基酸序列的通用比對工具包括基本局部比對搜索工具(BLAST)和FASTAtjMAltschul et al.(1990) J.Mo 1.B1l.215:403-410, and Pearson WR and LipmanDJ (1988) Proc Natl Acad Sci USA 85 (8): 2444-8,本文援引并入其全部內容。
[0054]兩種蛋白質之間的氨基酸相似性往往采用自動化的生物信息學比對工具研究。經常用統計學工具評估所得到的比對結果具有意義的似然性,并用一個期望值(E值)來表示該似然性。此前,E值依賴于查詢長度和數據庫大小。已有人建議用E值替代所需的氨基酸同一性檢索,作為一種有用信息更多的工具,但是該建議受到了責難,因為E值會隨著數據庫大小變化而改變。
[0055]目前兩個特定蛋白質序列(一個查詢蛋白質和一個數據庫蛋白質)之間的E值會隨著數據庫大小變化而改變,甚至在兩個蛋白質的關系并未發生變化的情況下也是如此。這就導致一種情況:在一次查詢中可能達到某個相似性的閾值,但是當數據庫添加了條目后,后來的查詢不超過該閾值。這對于監管機構而言是特別不能接受的,因為他們必須保持對轉基因作物進行明確的監管。穩定的配對E值,如這里所述的,將允許生成穩定的配對閾值。
[0056]本文所述的系統和方法提供了一種生成穩定配對E值的方法,該E值不會隨著數據庫大小的增加(或減少)而改變。根據所提供的系統和方法,將每個查詢蛋白質與數據庫中的每個蛋白質進行比較,并在與數據庫其它蛋白質分離的條件下為每個配對(查詢蛋白質和數據庫蛋白質)確定E值。這樣,根據所提供的系統和方法確定的E值不會隨著多蛋白質數據庫大小變化而改變。
[0057]在一些實施方案中,本文所公開的系統和方法可以適用于核酸(例如,DNA或RNA序列)和氨基酸序列。數據庫中的蛋白質編碼基因和/或由它們編碼的多肽可以以配對比較的方式(例如,每一個DNA與每一個DNA;每一個多肽與每一個多肽)彼此比較,以便發現同源相似性。在一些實施方案中,可以使用Smith-Waterman算法進行配對比較。
[0058]為了評估給定的比對是否構成同源性證據,可以評估比對僅由于偶然性而發生的可能。無缺口的局部對齊(local alignment without gaps)僅由一對等長的節段構成,每一個節段來自于所比較的兩條序列的其中之一。Smith-Waterman或Sellers算法的修改算法可以找到所有不會由于延長或削減而提高“得分”的節段。這些節段被稱作高得分節段對(HSP)。為了分析某一得分由于偶然而發生的蓋然性的高低,需要一個隨機序列模型。用來衡量所得到的相似度的度量就是E值(期望值)。E值表示兩個蛋白質或基因或核酸之間現有的一致性是由于純粹的隨機原因而導致的概率。一般來說,E值越小,搜索中獲得的命中越顯著。因此在兩條相同序列的情況下,E-值逐漸逼近O。在兩條完全不相關序列的情況下,E-值收斂于大于I的值。
[0059]在一個實施方案中,如Gribskov et al.(1987) Proc.Natl.Acad.Sc1.USA84:4355-4358(給定位置處氨基酸的加權平均值)所報告地生成概貌圖(profile)。
實施例
[0060]實施例1
[0061]E值隨著數據庫大小變化而改變
[0062]查詢序列:來自主要變應原I的30個氨基酸加上CrylF的30個氨基酸:EICPAVKRDV DLFLTGTPDE YVEQVAQYKA HVLNHVTFVR WPGEISGSDS WRAPMFSffTH RSA(SEQ IDNO:1) ο GenBank非冗余蛋白質數據庫的搜索算法:萬維網上//fasta.b1ch.Virginia,edu/fasta_www2/fasta_www.cgi 的 FASTA36。所使用的數據庫包括:(I)GenBank 非冗余蛋白質序列;(2)各種變應原數據庫;和(3) —對一(one-to-one), GanBank登錄號為NP_NP_001041618.1。查詢蛋白質和相同靶蛋白質之間比對的E值比較。
[0063]圖3顯示了來自對GenBank非冗余蛋白質序列進行搜索獲得的示例E值。該數據庫大小為14,481,394個序列,包括該查詢蛋白質在內。針對主要變應原I多肽鏈I的E值被確定為7.3χ 10Λ
[0064]圖4顯示了對共有變應原數據庫Vll進行搜索獲得的另一個示例E值。該數據庫大小為1,489個序列。針對主要變應原I多肽的E值顯示為Sx 10_15。由于數據庫較小,該E值遠小于圖3。
[0065]圖5顯示了對共有變應原數據庫VlO進行搜索獲得的另一個示例E值。該數據庫大小為1,471個序列。針對主要變應原I多肽的E值顯示為7.8χ10_15。由于數據庫較小,該E值也遠小于圖3。
[0066]圖6顯示了對共有變應原數據庫Vll (有刪減的)進行搜索獲得的另一個示例E值。該數據庫大小為1,469個序列。針對主要變應原I多肽的E值顯示為1.3χ 1(Γ15。由于數據庫較小,該E值也遠小于圖3。
[0067]圖7顯示了通過搜索僅有一個序列——主要變應原I多肽的數據庫獲得的極端E值。針對主要變應原I多肽的E值顯示為6.3χ 1(Γ19。由于數據庫極小,僅含有一個序列,因此該E值遠小于圖3-6。圖8顯示了從根據圖3-7的不同數據庫計算得出的E值的匯總。
[0068]這個具體實施例證明,E值會隨著數據庫大小的不同而顯著變化。在圖3-7所示的每一個搜索中,搜索引擎鑒定相同的變應原蛋白質一一主要變應原I多肽。然而,當使用不同的數據庫時,E值變化顯著。為了向監管部門提交(regulatory submiss1n)的目的使用這種E值作為變應原預測的主要標準是有挑戰性的,因為E值依賴于數據庫的大小。
[0069]實施例2
[0070]穩定的配對E值的生成
[0071]圖1顯示了本文提供的系統和方法的示例性實施方案。將查詢蛋白質的序列輸入到穩定配對E值模塊(FASTA或BLAST程序)中,以與選定的變應原數據庫中的每一序列生成穩定的E-值。相應地,為選定的變應原數據庫中的每一序列生成穩定的配對E值。然后,將所有穩定的配對E值(針對選定的變應原數據庫中的所有序列)輸入到分類模塊中,用于確定查詢蛋白質的變應原潛力。分類模塊能夠基于該穩定的配對E值與預定的E值閾值的比較,確定潛在變應原輸出。選定的變應原數據庫中所有具有等于或小于預定值的穩定配對E值的序列將被視為查詢蛋白質的“潛在變應原命中”。另一方面,在所選變應原數據庫中所有具有大于預定值的穩定配對E值的序列將被視為對查詢蛋白質而言“不是潛在變應原”。
[0072]同樣的過程可以使用不同的數據庫再次重復,該數據庫可包含若干已經存在于先前所選的變應原數據庫中的重疊序列。根據所提供的系統和方法,這些重疊序列的每一個將產生相同的針對查詢蛋白質的穩定配對E值,而與為這些重疊序列使用哪個數據庫無關。因此,從其中穩定配對E值保持不變的不同數據庫獲得的“潛在變應原命中”將是一致的,不管使用的是哪個數據庫來產生查詢蛋白質與變應原序列(例如,不同數據庫中的某些重疊序列)之間的配對E值。
【權利要求】
1.一種用于為查詢序列生成穩定的配對E值和/或進行變應原分類的計算機化系統,包括: (a)輸入設備和輸出設備/界面; (b)與計算機的存儲器相連的分析系統界面; (c)包含至少一個數據庫的操作系統; (d)穩定配對E值模塊;和 (e)分類模塊。
2.權利要求1的計算機化系統,其中所述輸入設備選自:任何氨基酸序列、自動化測序儀、測序數據輸入設備、和測序數據存儲設備。
3.權利要求1的計算機化系統,其中所述輸出界面包括潛在的變應原命中的列表。
4.權利要求1的計算機化系統,其中所述至少一個數據庫包含共有變應原數據庫。
5.權利要求1的計算機化系統,其中所述穩定配對E值模塊針對所使用的數據庫中的每一序列為所述查詢序列生成一個穩定的配對E值。
6.權利要求2的計算機化系統,其中所述分類模塊基于預定的E值對所使用的數據庫中的序列分類。
7.權利要求6的計算機化系統,其中所述預定的E值等于或小于0.1。
8.權利要求6的計算機化系統,其中所述預定的E值為0.1至Ix 10_1(1。
9.權利要求5的計算機化系統,其中所述穩定的E值不依賴所使用的數據庫的大小。
10.權利要求5的計算機化系統,其中所述查詢序列針對所述數據庫中的特定序列的穩定配對E值不依賴所使用的數據庫的大小。
11.一種供計算機化系統中使用的為查詢序列生成穩定的配對E值和/或進行變應原分類的方法,包括: (a)使用穩定配對E值模塊針對第一數據庫中的每一序列為查詢序列生成穩定的配對E值;和 (b)使用分類模塊基于預定的E值對查詢序列進行分類。
12.權利要求11的方法,還包括向用戶輸出潛在的變應原命中的列表。
13.權利要求12的方法,其中所述潛在的變應原命中的列表包括查詢序列與數據庫中每一個已知變應原之間的序列比對。
14.權利要求13的方法,其中所述序列比對使用FASTA或基本局部比對搜索工具(BLAST)實施。
15.權利要求12的方法,還包括用第二數據庫重復進行步驟(a)和(b)。
16.權利要求15的方法,其中所述第一或第二數據庫源自美國國家生物技術信息中心(NCBI)。
17.權利要求11的方法,其中所述第一數據庫包含共有變應原數據庫。
18.權利要求11的方法,還包括用不同的查詢序列重復進行步驟(a)和(b)。
19.權利要求11的方法,其中所述計算機化系統包括權利要求1的系統。
20.權利要求11的方法,其中所述預定的E值等于或小于0.1。
21.權利要求11的方法,其中所述預定的E值為0.1至Ix 10,。
22.權利要求11的方法,其中所述穩定的E值不依賴數據庫的大小。
23.權利要求11的方法,其中所述查詢序列針對所述數據庫中的特定序列的穩定配對E值不依賴數據庫的大小。
24.權利要求11的方法,其中所述查詢序列是蛋白質或氨基酸序列。
25.權利要求11的方法,其中所述查詢序列是核酸序列。
26.權利要求25的方法,其中所述核酸序列是DNA或RNA序列。
【文檔編號】G06F19/22GK104169928SQ201380014871
【公開日】2014年11月26日 申請日期:2013年1月17日 優先權日:2012年1月18日
【發明者】R·A·赫爾曼, P·桑 申請人:陶氏益農公司