一種蛋白質亞葉綠體多位置預測方法
【技術領域】
[0001] 本發明屬于蛋白質亞細胞位置定位預測領域,尤其設及一種融合位置間關系與位 置相關特征的蛋白質亞葉綠體多位置預測方法。
【背景技術】
[0002] 葉綠體(Chloroplast)是大部分綠色植物細胞中的細胞器,也存在于某些真核生 物體中,如海藻。葉綠體的主要功能是執行光合作用,吸收存儲太陽的光能,轉化成化學能, 并且釋放氧氣。除了光合作用外,它們也負責合成植物所需的幾乎所有脂肪酸和參與植物 的免疫反應。位于葉綠體中的蛋白質在運些生物過程中起到十分重要的作用,并且在不同 的生物過程中扮演不同的角色,具有不同的功能。由于運些葉綠體蛋白質的功能和它們的 亞葉綠體位置有十分密切的關系,因此首先識別出它們的亞葉綠體位置對于了解它們的功 能很有幫助。
[0003] 過去,研究人員主要專注于在細胞級別預測蛋白質的位置,提出了大量的方法。運 些方法分別從W下4個方面推進了該領域的發展:
[0004] (1)不斷拓寬了細胞位置的覆蓋范圍,使亞細胞位置預測工具的實用性大大增強。 最早的一些工作僅覆蓋很少的位置信息。例如,化kashima等人(Nakashima,H. ,Nishikawa, Κ.Discrimination of intracellular and extracellular proteins using amino acid composition and residue-pair frequencies. Journal of Molecular Biology,1994, 238(1): 54-61)的研究僅僅覆蓋了2個位置信息,Cedano等人(Cedano,J.,Aloy,P.,P' erez-Pons,J.A.,et al.Relation between amino acid composition and cellular location of proteins.Journal of Molecular Biology, 1997,266:594-600)的工作覆蓋了5個位置 信息。隨著越來越多的蛋白質數據可用,位置數量已經增加到了 22個。
[0005] (2)大大提高了預測的準確率。研究人員主要從兩個方面入手,一是從蛋白質序列 中提取具有高度判別能力的特征,二是選用和開發泛化能力強大的分類器。對于特征提取, 首先采用的是氨基酸組成,然后畑〇u(Chou,K.C.Prediction of protein cellular attributes using pseudo-amino acid composition.Proteins: Structure.Function, and Bioinformatics,2001,43(3): 246-255)又提出了偽氨基酸組成,加入了序列順序影 響。此后,基于畑OU的偽氨基酸組成概念,大量的變體被開發出來,比如,考慮序列進化信 息,功能域組成,基因本體信息。除了提取特征W外,大量的機器學習方法被應用到該領域, 最常用的有kNN及其變體,SVM等。
[0006] (3)由于不同物種間蛋白質序列和細胞位置間的差異,比如,葉綠體只存在于植物 細胞中,而人類等其他動物細胞中卻沒有,因此,有必要為不同的物種開發專口的預測器, W避免得到無意義的預測結果。目前,已經出現不少的物種專有的預測器,W化OU和化en開 ^^tlCel l-Ploc(Chou ,Κ. C. , Shen ,Η. B . Cel 1-PLoc : a package of Web servers for predicting subcellular localization of proteins in various organisms.Nature Protocols ,2008,3(2) :153-162)最為著名。
[0007] (4)研究表明,有大量的蛋白質定位于多個細胞位置,參與執行不同的生物功能, 運些蛋白質對于制藥工程和基礎研究有很重要的意義。因此,開發出能夠預測多個細胞位 置的方法將十分必要。已經有一些方法可W用于預測蛋白質的多亞細胞位置。
[0008] 隨著對細胞中細胞器研究的深入,研究人員發現了大量的細胞器亞結構,比如,細 胞核中包含核染色質(chromatin)、異染色質化eterochromatin),核被膜(nuclear envelope)、核仁(nucleolus)等亞結構;線粒體中包含內膜(inner membrane)、外膜(outer membrane)等亞結構;葉綠體中包含基質(shoma)、類囊體(Thylakoid)等亞結構。為了更加 深入了解蛋白質的功能,很有必要確定蛋白質在細胞器級別的具體位置。從最近發布的 化1口'〇1邸/5*133斗'〇1數據庫(的16日36 2013_05)了解到,共有14,408個葉綠體蛋白質,標 注有亞葉綠體位置的蛋白質有7,367個,占到總葉綠體蛋白質的7,367/14,408 = 51.1 %,而 運些亞葉綠體位置標注中,經過實驗驗證的共有6,955個,占到總葉綠體蛋白質的6,955/ 14,408 = 48.3%,也就是說,大概一半W上的葉綠體蛋白質都沒有明確的亞結構信息標注。 細胞器是相對于細胞來說更微觀的結構單位,因而實驗確定蛋白質的亞細胞器位置將更加 困難和耗時。隨著葉綠體蛋白組項目的快速發展,葉綠體蛋白質的數量和它們的功能之間 的差距將越來越大。為了彌補運一差距,同時由于實驗測定亞細胞器級的位置更加困難,十 分有必要開發計算預測方法來預測蛋白質的亞葉綠體位置。
[0009] 近年來,已經有一些預測方法可W預測蛋白質的亞-亞細胞位置,比如,亞細胞核 位置的預測(Shen,H.B. ,Chou,K.C.Predicting protein subnuclear location with optimized evidence-theoretic K-nearest classifier and pseudo amino acid composition.Biochemical and Biophysical Research Communications,2005,337(3): 752-756 ),亞線粒體位置的識別(Zeng,Y.H.,加 o,Y.Z.,Xiao, R.Q.,et al. Using the augmented chou's pseudo amino acid composition for predicting protein submitochondria locations based on auto covariance 曰ppro曰ch.Journ曰1 of Theoretical Biology,2009,259(2):366-372)。具體到亞葉綠體位置預測,第一個工作由 Du等人(Du,P. ,C曰o,S. ,Li,Y.SubChlo:predictin邑 protein subchloropl曰st locations with pseudo-amino acid composition and the evidence-theoretic K-nearest nei曲bo;r(ET-K順)algorithm. Journal of Theoretical Biology,2009,261(2) :330-335) 于2009年完成。他們開發了一個基于偽氨基酸組成和ET-K順算法的亞葉綠體位置預測器。 此后,又有一些其他的研究人員在該領域做了一定的工作。但是,現有的工作都存在W下一 個重大的缺點,即已有工作的預測方法只能對僅包含單亞葉綠體位置的蛋白質數據集進行 建模,無法對同時包含單亞葉綠體位置的蛋白質和多亞葉綠體位置的蛋白質數據集進行有 效地建模,進而導致已有工作的預測模型只能對待測蛋白質預測出一個亞葉綠體位置,而 目前已知存在大量的蛋白質同時有多個亞葉綠體位置,因此,迫切需要設計出能夠同時預 測出蛋白質的多個亞葉綠體位置的預測方法。
【發明內容】
[0010] 本發明的目的在于克服現有技術中的無法同時預測蛋白質的多個亞葉綠體位置 的缺點,提出一種融合位置間關系與位置相關特征的蛋白質亞葉綠體多位置預測方法。
[0011] 本發明是運樣實現的,一種融合位置間關系與位置相關特征的蛋白質亞葉綠體多 位置預測方法,包括w下步驟:
[0012] 步驟1、對于待預測的蛋白質序列和訓練數據集,基于蛋白質的氨基酸序列信息, 采用偽氨基酸組成(PseAAC)方法,抽取出待預測的蛋白質序列和訓練數據集中所有蛋白質 序列的特征向量,從而構成待預測樣本集和訓練樣本集;
[0013] 步驟2、基于步驟1所構建的原始訓練樣本集,分別為每個亞葉綠體位置構建新的 訓練樣本集。在每個亞葉綠體位置所對應的新訓練樣本集中,把屬于該亞葉綠體位置的蛋 白質標記為正樣本,不屬于該亞葉綠體位置的蛋白質標記為負樣本;
[0014] 步驟3、基于步驟2所構建的針對每個亞葉綠體位置的新訓練樣本集,分別訓練一 個支持向量機(SVM)預測器;
[0015] 步驟4、對于步驟2構建的每個亞葉綠體位置所對應的新訓練樣本集的每個蛋白質 樣本,除了該新訓練樣本集所對應的亞葉綠體位置W外,把其他亞葉綠體位置對于該蛋白 質樣本的歸屬值追加到該蛋白質樣本的特征向量中,蛋白質樣本屬于某亞葉綠體位置,歸 屬值設為1,否則設為-1,W擴展蛋白質樣本的特征空間,基于此規則,分別更新每個亞葉綠 體位