專利名稱:用于預測能夠分泌至體液中的蛋白質的方法及系統的制作方法
技術領域:
本發明一般涉及對人類蛋白的計算分析,更特別地涉及預測蛋白向體液(例如血液)中的分泌。
背景技術:
基因和蛋白表達的改變提供了關于組織或器官生理狀態的重要線索。在惡性轉化中,腫瘤細胞中的遺傳改變能夠破壞自分泌和旁分泌信號傳導系統,從而導致可以分泌至癌細胞外部的一些類型的蛋白(例如生長因子、細胞因子和激素)的過表達(Hanahan和 Weinberg, 2000 ;Sporn和Robers,1985)。通過復雜的分泌途徑,這些蛋白及其他分泌蛋白可以進入唾液、血液、尿、腦脊髓(脊髓)液、精液、陰道液、眼內液或其他體液。對各種癌癥樣本的基因組學研究已鑒定出許多持續過表達的基因,而且其中一些基因編碼分泌蛋白(Buckhaults等,2001 ;Welsh等,2003 ;Welsh等,2001)。舉例而言,在卵巢癌中前列腺蛋白基因和骨橋蛋白基因具有升高的表達水平,而在結腸直腸癌、乳腺癌和前列腺癌中MICl基因發生過表達。與健康個體相比,在具有這些癌癥的患者的血清中已檢測到這些分泌蛋白的豐度升高(Kim等,2002 ;Mok等,2001 ;Welsh等,2003)。另外已發現一些所述分泌蛋白已顯示出與癌癥不同發展階段相關的血清中不同水平的濃度升高,這表示其或許可以用作癌癥分型和分期的標記物(Huang等,2006)。就準確預測哪些蛋白可能分泌至體液中而言,還存在困難和挑戰。一種困難在于, 必須對大量的蛋白序列和生物流體樣品進行分析和分類。對數據進行分類是一項為決定或預測數據項的類別而執行的普通任務。傳統的線性分類器對所收集數據項的群體進行檢查,其中每個數據項屬于兩種類別中的一種,并且利用所收集的數據項的性質來“訓練”所述分類器,從而決定新的數據項會在哪個類別中。 一種傳統的分類器是支持向量機(SVM)。對于SVM,將數據項視作ρ維向量(ρ個數值的列表),并且使用SVM來確定是否能夠用P-I維超平面對這些數據項進行分離。對SVM的使用是目前可利用的數據分類技術和回歸分析技術。雖然一些研究已著眼于可以分泌至細胞外部的蛋白,但是目前還不存在用來預測能夠分泌至特定體液(例如血液或尿)中的蛋白的可利用的方法。將針對胞外分泌蛋白而設計的預測程序用作可預測能夠進入體液的蛋白的近似工具來使用,并不能給出可靠的預測。因此,所需的是如下方法和系統允許利用一些蛋白特征對分類器進行訓練,從而將能夠進入體液的蛋白與不能進入體液的蛋白區分開。此外,為了優化所述分類器的性能以便能夠準確預測進入體液的蛋白分泌,需要用來進行特征選擇的方法和系統。
為了診斷癌癥和其他疾病,對于哪些來自在患病組織(例如癌)中高度表達和異常表達的基因的蛋白能夠分泌至體液中,必須做出準確的預測。與解決此問題相關的困難在于,目前對在蛋白分泌至細胞外部之后的下游定位的理解非常有限,并且現有的知識不足以提供關于蛋白分泌至體液的有用線索。因此,所需的是用來預測哪些人類蛋白可能會分泌至體液中的數據分類方法。人類血清蛋白質組是非常復雜的混合物,其具有高度豐富的蛋白,例如清蛋白、免疫球蛋白、轉鐵蛋白、觸珠蛋白和脂蛋白,以及由不同組織(患病組織或正常組織)所分泌的或者由人體全身的細胞所泄露的蛋白和肽(Adkins等,2002 Jchrader和 khulZ-Knappe,2001)。在研究人類血清蛋白質組時具挑戰性的問題在于,循環中的原生血液蛋白中大多數的豐度比所關心的推定蛋白的豐度高出數個量級。所以,在事先不知道在血液中應尋找何種蛋白或蛋白特征的情況下,在數千或可能更多的原生血液蛋白中以實驗手段檢測此類分泌蛋白及其在血液中升高的相對豐度是非常困難的。因此,所需的是采用新型計算手段的方法和系統,以便預測在癌癥組織中異常高度表達且能夠分泌至體液中的蛋白,從而為對體液(例如人類血清)的定向蛋白質組學工作提供目標列表,并能夠更加實際地解決對體液中標記物蛋白的鑒定。已經進行了大量的研究來預測在真核生物和原核生物中能夠分泌到細胞表面或細胞外環境中的蛋白,并且有若干公共的預測服務器可供使用(Guda,2006 ;Horton等, 2007 ;Menne等,2000 ;Nair和Rost,2005)。多數這些方法的建立是以對蛋白亞細胞定位的一般理解為基礎,而多數蛋白的定位是通過分選事件的級聯完成的,所述分選事件由小 (信號)肽或能夠實現位點特異性攝取、滯留和轉運的基序來指導(Doudna和Batey,2004 ; Tjalsma等,2000)。根據諸如氨基酸組成、蛋白質結構域的共現及注釋的蛋白功能等信息, 已使用各種統計學習方法開發了這些程序(Guda,2006 ;Mott等,2002)。雖然現有的研究關心蛋白是否分泌到細胞外部,但這些研究對預測蛋白最終會在哪里卻并不關心。雖然現有的研究或許已經確定了分泌至體液中的蛋白的表達是否與各種病理狀態有關聯,但這些研究并未包括用于確定分泌蛋白就其物理和化學性質、氨基酸序列及結構特征而言有何共同之處的方法。傳統的方法并不根據蛋白特征來計算蛋白分泌至體液中的概率。然而,由現有的蛋白質組學研究可知,在輔助對病理狀態進行的診斷時,這些計算出的概率是有用的。因此,為了輔助對病理狀態進行診斷,需要用來計算蛋白在體液中存在的概率的方法及系統。
發明內容
本發明公開了用來預測分泌至體液中的蛋白的方法、系統及計算機程序產品。由本發明的實施方式提供的對蛋白向體液中的分泌的可靠預測將能夠實現對病理狀態(例如癌癥)的更及時的和準確的診斷。在本發明的實施方式中,所述體液包括但不限于唾液、血液、尿、脊髓液、精液、陰道液、羊水、齦溝液和眼內液。在一個實施方式中,一種方法預測哪些來自在患病人體組織(例如癌)中高度且異常表達的基因的蛋白能夠分泌至體液中,從而提示了用于后續蛋白質組學研究的可能的標記物蛋白。在另一個實施方式中,血分泌蛋白預測(BSPP)服務器實施由計算機執行的方法,該方法用于預測哪些來自在患病人體組織(例如癌)中異常表達的基因的蛋白能夠分泌至血液中,從而提示了用于后繼血清
7蛋白質組學研究的可能的標記物蛋白質。在本發明的一個實施方式中,鑒定了一種或多種蛋白序列中的一系列蛋白特征, 其包括但不限于顯示與蛋白分泌有相關性的信號肽、跨膜結構域、糖基化位點、無序區、二級結構內容、疏水性(hydrophobicity)和極性量度。使用這些特征,能夠訓練支持向量機 (Support Vector Machine, SVM)類分類器來預測蛋白向血流中的分泌。為了闡明本發明,首先將本發明應用于預測蛋白是否會分泌至血液中,隨后單獨將其應用于預測向尿中的分泌。然而,應了解的是本發明具有更廣泛的應用,從而開發用于預測蛋白是否會分泌至其他體液(例如但不限于唾液、脊髓液、精液、陰道液和眼內液)中的工具及系統。
圖1顯示了本發明實施方式的流程圖,所述流程圖闡明了用于對分類器進行訓練并預測蛋白向體液中的分泌的示例性過程。圖2顯示了本發明實施方式的R-值(可靠性評分)和P-值(正確分類的概率) 之間的統計學關系,所述R-值和P-值是從對305個陽性蛋白樣本和26,962個陰性蛋白樣本的分析推導出的。圖3闡明了本發明實施方式的示例性圖形用戶界面(GUI),其中能夠提供多種蛋白序列來預測哪些蛋白能夠分泌至血流中。圖4描繪了本發明實施方式的在示例性GUI中的所接收的待分類的蛋白序列。圖5描繪了本發明實施方式的示例性GUI中所顯示的蛋白序列的陰性分類結果。圖6描繪了本發明實施方式的示例性GUI中所顯示的蛋白序列的陽性分類結果。圖7描繪了本發明實施方式的實例計算機系統,所述系統對執行用于預測蛋白是否能夠分泌至體液中的系統組件是有用的。現在將參考附圖對本發明進行描述。在所述附圖中,同樣的附圖標記通常表示相同的或功能相似的要素。此外,附圖標記最左邊的數字指明該附圖標記所首次出現在的附圖。
具體實施例方式本發明涉及用來預測蛋白是否會分泌至生物流體中的方法、系統及計算機程序產品,所述生物流體例如有但不限于唾液、血液、尿、脊髓液、精液、陰道液和眼內液。本發明包括系統、方法及計算機程序產品的實施方式,其用來接收一種或多種蛋白序列并分析所接收蛋白序列的特征,從而確定蛋白分泌至體液中的概率。本發明的實施方式包括圖形用戶界面(GUI),其使得用戶能夠提供多種蛋白序列并對所述多種序列進行分析,從而預測所述序列表示的蛋白是否會分泌至血流中。雖然本說明書描述了用戶提供的蛋白序列和用戶輸入的蛋白序列,然而用戶可以是人、計算機程序、應用軟件、軟件主體、宏等。因此,除非特殊說明,本文所用的術語“用戶” 不必需是人。本說明書公開了具有本發明特征的一個或多個的實施方式。所公開的實施方式僅用于舉例說明本發明。本發明的范圍不限于所公開的實施方式。本發明由本文所附的權利要求所界定。在本說明書中述及“一個實施方式”、“本發明的實施方式”、“實施方式”、“實例實施方式”等而描述的實施方式,表示所述實施方式可以包括特定的特征、結構或特性,但是每個實施方式可以不必包括所述特定的特征、結構或特性。另外,此類措詞不必指同一實施方式。此外,在結合一個實施方式對特定的特征、結構或特性進行描述時,應了解的是在本領域技術人員的知識范圍內可以就其他實施方式(不論是否有明確的描述)來實現此特征、結構或特性。本文中對“一個”或“一種”(“a”或“an”)物品的描述可以指單一物品或多個/ 種物品。例如,特征、蛋白、體液或分類器等描述可以指單一特征、蛋白、體液或分類器。作為另一選擇,特征、蛋白質、體液或分類器等描述可以指多個/種特征、蛋白、體液或分類器。 因此,如本文所用的,“一個”或“一種”(“a”或“皿”)可以是單數或復數。類似地,述及多個/種物品和對多個/種物品的描述可以指單一物品。本說明書描述了用于預測蛋白向體液中的分泌的一般方法。本文提供了用于預測蛋白向血流和尿中的分泌的具體示例性實施方式。然而,根據本文所呈現的教導和指引,應了解的是在本領域技術人員的知識范圍內可以容易地使本文所描述的方法適用于預測蛋白向其他體液(例如但不限于唾液、脊髓液、精液、陰道液、羊水、齦溝液和眼內液)中的分泌。本發明的實施方式可以在硬件、固件、軟件或其任意組合中執行。本發明的實施方式還可以作為存儲于機器可讀介質中的指令來執行,所述指令可以由一個或多個的處理器來讀取和執行。機器可讀介質可以包括用于以機器(如計算裝置)可讀形式儲存或傳送信息的任何機構。舉例而言,機器可讀介質可以包括只讀存儲器(ROM);隨機存取存儲器 (RAM);磁盤存儲介質;光存儲介質;閃速存儲裝置;和電學、光學、聲學或其他形式的傳播信號(例如,載波、紅外信號、數字信號等)等。另外,在本文中可以將固件、軟件、例程、指令描述為執行某種功能。然而,應意識到的是此類描述僅僅是為了方便,而此類作用實際上由計算裝置、處理器、控制器或其他執行所述固件、軟件、例程、指令等的裝置產生。分類器的訓練方法數據分類方法是計算方法的一般類別,其試圖根據所提供的各數據元素的特征值來確定在給定數據集中的各數據元素屬于哪個預定的類別。各種監督學習方法,例如支持向量機(SVM)、人工神經網絡(ANN)、決策樹、回歸模型和其他算法已經廣泛運用于數據分類和回歸模型。根據已知數據(訓練數據集形式的知識),所述監督學習方法使計算機能夠自動學習識別復雜模式并發展分類器,其反過來能夠用于做出智能決策并預測未知數據(獨立集)的類別。機器學習類的分類器已經應用于各種領域,例如機器感知、醫學診斷、生物信息學、腦機接口(brain-machine interface)、對DNA序列進行分類以及在計算機視覺中的物體識別。已證明學習類的分類器可高效率地解決一些生物學問題。如本文所用的,分類是通過尋找已知類別中所收集的數據點之間的共同特征來學習將數據點分到不同類別中的過程。可利用神經網絡、回歸分析或其他技術完成分類。分類器是用于進行數據分類的方法、算法、計算機程序或系統。一種類型的分類器是支持向量機(SVM)。傳統的SVM以限定決策邊界的決策超平面這一概念為基礎。決策超平面在具有不同類別成員的一組物體之間進行分割。舉例而言,所收集的數據可以屬于類別I或類別II,而分類器(例如SVM)能夠用來確定(即預測)任何待分類的新物體的類別(即,I或II)。傳統的SVM主要是通過在多維空間中構建超平面來執行分類任務的分類器方法,所述超平面對具有不同類別標記的樣例進行分離。SVM能夠支持回歸和分類任務,并且能夠處理多個連續變量和分類變量。在本發明的實施方式中,對SVM類分類器進行訓練,來預測蛋白序列是否屬于會分泌至體液中的類別。在以下部分中,將參考方法中的步驟來呈現實施本發明的示例性實施方式。下文所討論的實施形態涉及預測蛋白向血液中的分泌。之后描述了如何將本發明的具體實施形態應用于不同的所收集的蛋白集。在一個實施方式中,從諸如Swiss-Prot和分泌蛋白數據庫(SPD)等已知蛋白數據庫收集注釋為分泌蛋白的人類蛋白,并且選出已經由先前的研究以實驗手段在血液中檢測到的蛋白。Chen等Q005)描述了基于網絡的SPD。圖1顯示了闡明訓練分類器的示例性方法100的流程圖。一些性質或蛋白特征對于表征一群所收集的蛋白是重要的,但是如果單獨用作過濾條件可能不會有效。方法100對這些性質一起進行考慮,并且以計算的方式替代經驗主義來評估重要性。在所示的實例中,方法100闡明了能夠用來對分類器進行訓練的步驟。注意在方法100中的步驟不必以所示的順序出現。在步驟103中,該方法首先選出作為“陽性”數據集的一組蛋白。在一個實施方式中,步驟103包括收集已知會分泌至血液中的蛋白,即血分泌蛋白。在本發明的其他實施方式中,該步驟包括收集已知會分泌至其他體液(例如但不限于唾液、尿、脊髓液、精液、陰道液、羊水、齦溝液和眼內液)中的蛋白。應了解的是分別在步驟103和步驟105中選出的陽性數據集和陰性數據集應該足夠大,從而在步驟111 115中對分類器進行訓練時能夠產生統計學上一致的且可靠的結果(見下文的討論)。一般而言,優選較大的陽性蛋白集和陰性蛋白集。在一個實施形態中,在步驟103中從Swiss-Prot蛋白數據庫和分泌蛋白數據庫 (SPD) (Chen等,200 中收集了共1,620種注釋為分泌蛋白的人類蛋白,并且選出已經由先前的研究以實驗手段在血液中檢測到的蛋白。這是通過對照由血漿蛋白質組計劃(PPP)匯編的已知的血清蛋白數據集(Omerm等,2005)和由其他血清蛋白質組學研究生成的另外一些數據集(Adkins等,2002 ;Pi印er等,200 對所述1,620種蛋白進行檢查來完成的,所述數據集由總共約16,000種蛋白組成。所述1,620種蛋白中有305種蛋白與所述約16,000 種蛋白有至少兩個肽段相匹配,因此認為這305種蛋白被分泌至血液中——這是基于質譜數據進行的蛋白鑒定中的常見實踐。為保證在步驟103中選出的陽性數據集的品質,在實施方式中,將符合兩種標準(分泌的和在血清/血漿中檢測到的)的這305種蛋白選為陽性數據集,并且不包括因細胞損傷而泄露至血液中的蛋白(例如,在心臟病發作后釋放至血漿中的心肌紅蛋白)。在步驟105中,將在步驟103中未被選擇的、且來自其他類別和蛋白家族的代表蛋白選為“陰性”數據集。在一個實施方式中,該步驟包括收集非血分泌蛋白。在另一實施方式中,步驟105包括收集已知不分泌至其他體液(例如但不限于唾液、尿、脊髓液、精液、陰道液、羊水、齦溝液和眼內液)中的蛋白。
在本發明的實施方式中,通過從非血分泌蛋白中選出代表來在步驟105中生成蛋白的陰性數據集,所述非血分泌蛋白應包括與分泌途徑無關的蛋白和在循環系統中未涉及到的蛋白。在一個實施方式中,該步驟包括從每個不包含此前提及的血分泌蛋白的蛋白家族(Pfam)數據庫(Bateman等,2002)中選出三種代表作為陰性集。在一些實施方式中,為了獲得用于最終的獨立評估步驟(下文描述的步驟121)的非冗余數據集,使用局部比對基本搜索工具(Basic Local Alignment Search Tool,BLAST) (Altschul等,1997)以10%、20%或30%的序列同一性為截斷值(cutoff)來除去冗余的蛋白。在上述實施方式中,以20%的序列同一性為截斷值得到了 56種陽性蛋白和13,716 種陰性蛋白。使用以下步驟,將剩余的蛋白(即249種陽性蛋白和13,246種陰性蛋白)分別劃分至獨立的訓練集和測試集中。根據實施方式,基于所選特征的相似性對在步驟103 中選出的陽性集中的蛋白進行聚類劃分,這會在下文參照步驟109(特征選擇)進行更詳細的描述,所述相似性用分級聚類法(Jardine和Sibson,1968)通過歐幾里得距離進行度量。 在一個實施方式中,用每個聚類通過最大類內距離和最小類間距離之間的比率(為0. 27 0. 51)獲得了 151個聚類。從每個聚類中隨機選出一個代表蛋白來形成在步驟103中的陽性訓練集。陰性訓練集以相似的方式在步驟105中選出。以這種方式選出訓練集,從而確保其足夠多樣化且在特征空間中廣泛分布。將剩余的蛋白用作測試集。重復進行該過程來構建5個不同的數據集,從而在下述步驟111中對分類器進行訓練,其能夠用來評估數據生成策略的穩定性。步驟103和步驟105可以以平行或順序的方式進行。分別在步驟103和步驟105 中選出陽性數據集和陰性數據集之后,本方法進行至步驟109。特征構建在步驟109中,對與在陽性、陰性數據集中的蛋白相關的特征進行映射。在實施方式中,步驟109包括對在陽性、陰性數據集中的蛋白進行分析來映射蛋白特征,例如但不限于在下表1中所列的特征。在表1中,括號中的數字表示每個性質的向量維度。例如,具有多個維度的性質或特征以多維向量表示。舉例而言,能夠將蛋白的極性表示為21維向量中的連續統或值域,在表1中將其表示為“極性01)”。應了解的是對于不同的流體而言蛋白特征可以有所不同。因此,表1中所列的特征對于不同的生物流體而言可以有所不同。將諸如蛋白大小、氨基酸組成、二肽組成、二級結構、結構域、基序、可溶性、疏水性、標準化的范德華體積、極性、可極化性、電荷,表面張力和溶劑可接觸性(solvent accessibility)等特征映射于在步驟103和步驟105中選出的陽性、陰性蛋白類別。在表1中所列的蛋白特征可以大致分為四類(i) 一般序列特征,例如氨基酸組成、序列長度和二肽組成(Miasin 和Raghava,2004 ;Reczko和Bohr,1994) ; (ii)物理化學性質,例如可溶性、無序區、疏水性、標準化的范德華體積、極性、可極化性和電荷,(iii)結構特征,例如二級結構內容、溶劑可接觸性和回轉半徑,(iv)結構域/基序,例如信號肽、跨膜結構域和雙精氨酸信號肽基序(TAT)。在初始列表中總共包括了 25種性質,其對每個蛋白序列得到1,521維的特征向量。在對這些性質的特征向量描述中,注意對每個所包括的特征而言都需要不同量的信息來對其進行編碼。舉例而言,將氨基酸組成和二肽組成分別表示為20維特征向量和400維特征向量。二級結構內容的特征向量是4維向量,其包括α-螺旋含量、折疊般含量、 卷曲含量和二級結構內容預測(SSCP)程序(Eisenhaber等,1996)所指定的類別。通過疏
11水性特征向量的實例來闡明對物理化學性質的編碼能夠將氨基酸劃分為疏水組(C、V、L、 I、Μ、F、W)、中性組(G、A、S、Τ、P、H、Y)和極性組(R、K、Ε、D、Q、N)。使用如下三種描述符來描述總體組成組成(C)、變換⑴和分布(D),其中C是屬于特定組(例如疏水組)的氨基酸數量除以在蛋白序列中的總氨基酸數量的結果(Cai等,2003 ;Cui等,2007 ;Dubchak等, 1995) ;T為沿蛋白序列變換氨基酸組的相對頻率,而D表示分別包含特定組氨基酸的第一個、25% ,50^^70%和100%的鏈長度。總之,用21種要素來表示這三種描述符3種用于 C,3種用于T,且15種用于D。通過遵循這些步驟,使用總共1,521種特征要素構建了蛋白的特征向量。表1 用于預測血分泌蛋白的初始特征列表
性質類型特征(維度)來源一般序列特征氨基酸組成(20),序列長度(1), 二肽組成(400)本地計算標準化的Moreau-Broto自相關 (240),Moran 自相關(240),Geary 自相關(240),序列順序(160), 假氨基酸組成(50)使用由新加坡國立大學理學院計算科學系的生物信息學和藥物設計課題組(BIDD)開發的蛋白特征服務器(PR0FEAT)進行計算物理化學性質疏水性01),標準化的范德華體積(21),極性(21),可極化性(21), 電荷(21;),二級結構(21;)和溶劑可接觸性用三種描述符進行本地計算組成 (C)、變換(T)和分布(D)。可溶性(1)、可解折疊性(1),無序區(3)、總電荷⑴和憎水性 (hydrophobility) (1)用基于序列的蛋白可溶性求值程序(PROSO) (Smialowski 等,2007) 和來自斯德哥爾摩生物信息學中心的組合型跨膜拓撲學及信號肽預測程序(Phobius)進行確定。結構性質二級結構內容(4),形狀(回轉半徑)⑴使用來自歐洲分子生物學實驗室的二級結構內容預測(SSCP)工具
權利要求
1.一種用于預測蛋白向生物流體中的分泌的方法,所述方法包括 接收一種或多種蛋白序列;對所接收的一種或多種蛋白序列的特征進行鑒定;和使用已訓練的分類器和所鑒定的特征,確定所述所接收的一種或多種蛋白序列分泌至所述生物流體中的概率,其中所述已訓練的分類器對包含已收集的蛋白的性質的蛋白特征集進行訪問,并且其中所述性質與存在于已知分泌至所述生物流體中的蛋白集中的蛋白特征對應。
2.如權利要求1所述的方法,所述方法在所述確定之前還包括構建包含已收集蛋白的分泌性質的特征集,其中所述分泌性質與存在于分泌蛋白的陽性蛋白集中的蛋白特征對應;和根據所述特征集對分類器進行訓練以識別蛋白特征,所述蛋白特征與可能分泌至所述生物流體中的蛋白對應。
3.如權利要求2所述的方法,所述方法還包括構建第二特征集,所述第二特征集包含已知因一種或多種病理狀態而分泌至所述生物流體中的蛋白的性質;根據所述第二特征集對所述分類器進行訓練以識別病理相關蛋白; 使用所訓練的分類器,確定在所述所接收的一種或多種蛋白序列中是否存在病理相關蛋白。
4.如權利要求3所述的方法,其中所述一種或多種病理狀態包括胃癌、胰腺癌、肺癌、 卵巢癌、肝癌、結腸癌、結腸直腸癌、乳腺癌、鼻咽癌、腎臟癌、子宮頸癌、腦癌、膀胱癌、腎癌、 前列腺癌、黑色素瘤和鱗狀細胞癌。
5.如權利要求1所述的方法,其中所述已收集的蛋白收集自蛋白數據庫。
6.如權利要求5所述的方法,其中所述蛋白數據庫包括Swiss-Prot數據庫和分泌蛋白數據庫(SPD)數據庫。
7.如權利要求1所述的方法,其中所述所接收的一種或多種蛋白序列為FASTA格式。
8.如權利要求1所述的方法,其中所述蛋白為人類蛋白。
9.如權利要求2所述的方法,所述方法在所述構建前還包括 根據所述生物流體的已知的分泌蛋白生成分泌蛋白陽性集;和根據所述生物流體的已知的非分泌蛋白生成非分泌蛋白陰性集。
10.如權利要求9所述的方法,其中所述生物流體是血液,并且生成所述分泌蛋白陽性集包括對一種或多種非原生血液蛋白進行選擇。
11.如權利要求10所述的方法,其中生成所述非分泌蛋白陰性集包括從與所述分泌蛋白陽性集不重疊的大型蛋白數據集中選出非血分泌蛋白。
12.如權利要求11所述的方法,其中所述大型蛋白數據集是蛋白家族(Pfam)數據庫。
13.如權利要求2所述的方法,其中所述分泌性質包括 一般序列特征;物理化學性質; 結構性質;和結構域及基序。
14.如權利要求13所述的方法,其中所述一般序列特征包括 氨基酸組成;序列長度; 二肽組成; 序列順序;標準化的Moreau-Broto自相關;和 Geary自相關。
15.如權利要求13所述的方法,其中所述物理化學性質包括 疏水性;標準化的范德華體積; 極性; 可極化性; 電荷; 二級結構; 溶劑可接觸性; 可溶性; 可解折疊性; 無序區; 總電荷;和憎水性。
16.如權利要求13所述的方法,其中所述結構性質包括 二級結構內容;和形狀。
17.如權利要求13所述的方法,其中所述結構域及基序包括 信號肽;跨膜結構域; 糖基化;和雙精氨酸信號肽基序(TAT)。
18.如權利要求1所述的方法,其中所述生物流體是唾液、血液、尿、脊髓液、精液、陰道液、羊水、齦溝液和眼內液中的一種或多種。
19.如權利要求2所述的方法,其中構建所述特征集包括使用局部比對基本搜索工具 (BLAST)來除去冗余蛋白。
20.如權利要求2所述的方法,其中對所述分類器進行訓練包括對支持向量機(SVM)類分類器進行訓練以預測蛋白分泌。
21.如權利要求2所述的方法,其中構建所述特征集還包括通過如下方式來更新所述特征集根據所述已訓練的分類器的性能從所述特征集中除去一個或多個特征,從而生成更新的特征集。
22.如權利要求2所述的方法,其中構建所述特征集還包括通過如下方式來更新所述特征集使用遞歸特征消除(RFE)從所選擇的特征中除去一些特征,從而生成更新的特征集。
23.如權利要求21或22所述的方法,其中對所述分類器進行訓練還包括使用所述更新的特征集對所述分類器進行訓練。
24.一種用于預測蛋白向生物流體中的分泌的計算機執行方法,所述方法包括通過一個或多個計算機,構建包含已收集蛋白的分泌性質的特征集,其中所述分泌性質與存在于分泌蛋白的陽性蛋白集中的蛋白特征對應;根據所述特征集對分類器進行訓練以識別蛋白特征,所述蛋白特征與可能會分泌至所述生物流體中的蛋白對應; 接收一種或多種蛋白序列;對所接收的一種或多種蛋白序列的特征進行鑒定;和通過一個或多個計算機,使用所述分類器和所鑒定的特征,計算所述所接收的一種或多種蛋白序列分泌至所述生物流體中的概率。
25.一種用于預測蛋白向生物流體中的分泌的系統,所述系統包括經配置用來構建特征集的特征收集器,所述特征集包含已收集蛋白的分泌性質,其中所述分泌性質與存在于分泌蛋白的陽性蛋白集中的蛋白特征對應;訓練器,所述訓練器運行,以根據所述特征集來訓練分類器,從而識別蛋白特征,所述蛋白特征與可能會分泌至所述生物流體中的蛋白對應;經配置用來通過輸入設備接收一種或多種蛋白序列的接收器; 預測器,所述預測器經配置用來通過使用所述分類器計算所接收的一種或多種蛋白序列分泌至所述生物流體中的概率;和輸出設備,所述輸出設備經配置用來顯示由所述預測器計算出的概率。
26.—種包括計算機可用介質的計算機程序產品,所述計算機可用介質具有記錄在其中的、用于使處理器能夠對蛋白向生物流體中的分泌進行預測的計算機程序邏輯,所述計算機程序邏輯包括經配置用來構建特征集的特征構建模塊,所述特征集包含已收集蛋白的分泌性質,其中所述分泌性質與存在于分泌蛋白的陽性蛋白集中的蛋白特征對應;訓練模塊,所述訓練模塊經配置用來根據所述特征集來訓練分類器,從而識別蛋白特征,所述蛋白特征與可能會分泌至所述生物流體中的蛋白對應; 經配置用來接收一種或多種蛋白序列的接收器;預測模塊,所述預測模塊經配置用來通過使用所述分類器計算所接收的一種或多種蛋白序列分泌至所述生物流體中的概率;和顯示模塊,所述顯示模塊經配置用來呈現由所述預測模塊計算出的概率。
27.一種實體計算機可讀介質,其具有存儲在其中的計算機可執行指令,所述指令在被計算設備執行時會使所述計算設備實施用于預測蛋白向生物流體中的分泌的方法,所述方法包括接收一種或多種蛋白序列;對所接收的一種或多種蛋白序列的特征進行鑒定;和使用已訓練的分類器和所鑒定的特征,確定所接收的一種或多種蛋白序列分泌至所述生物流體中的概率,其中所述已訓練的分類器對包含已收集的蛋白的性質的蛋白特征集進行訪問,并且其中所述性質與存在于已知會分泌至所述生物流體中的蛋白集中的蛋白特征對應。
28.如權利要求27所述的實體計算機可讀介質,所述方法在所述確定前還包括 構建包含已收集蛋白的分泌性質的特征集,其中所述分泌性質與存在于分泌蛋白的陽性蛋白集中的蛋白特征對應;和根據所述特征集對分類器進行訓練以識別蛋白特征,所述蛋白特征與可能會分泌至所述生物流體中的蛋白對應。
全文摘要
本發明涉及用于預測蛋白向體液中的分泌的方法及系統。在實施方式中,一種方法利用包含所收集蛋白的分泌性質的特征集來根據該特征集對分類器進行訓練,從而識別與可能分泌至生物流體中的蛋白對應的蛋白特征。另一種方法使用已訓練的分類器及所接收蛋白序列的鑒定特征,確定所述蛋白序列分泌至生物流體中的概率。在實施方式中,一種系統預測蛋白向生物流體中的分泌。所述系統包括經配置的組件,其用來構建包含所收集蛋白的性質的蛋白特征集、訓練分類器來預測可能分泌至生物流體中的蛋白的特征、接收蛋白序列以及將所接收的蛋白序列鑒定為分泌蛋白。
文檔編號G01N33/00GK102177434SQ200980139659
公開日2011年9月7日 申請日期2009年8月10日 優先權日2008年8月8日
發明者大衛·普特, 崔娟, 徐鷹 申請人:喬治亞大學研究基金公司