數據庫的全部蛋白數據轉化為數字化表示,創建了蛋白結 構指紋數據庫。本發明的蛋白結構指紋對蛋白結構的有規則的二級結構和無規則的三級結 構提供了完全描述。運用蛋白質結構的指紋(PSF)可以對蛋白結構進行定量評估,解決了 長期以來蛋白質結構評估局限于圖像和文字定量描述的問題,而且可以對大量的蛋白數據 庫實現高通量篩選。
[0039] 參考文獻:
[0040] _
[0041] ^ttpi/Zwww.rcsb.org/pdb/
[0042]20rengoCA,ThorntonJM.Proteinfamiliesandtheirevolution-a structuralperspective.AnnuRevBiochem2005;74:867 - 900.
[0043]3Kabschff,SanderC.Dictionaryofproteinsecondarystructure:pattern recognitionofhydrogen-bondedandgeometricalfeatures.Biopolymers1983 ; 22:2577 - 2637
[0044]4RidchardsFM,KundrotCE.Identificationofstructuralmotifsfrom proteincoordinatedata:secondarystructureandfirst-levelsupersecondary structure.Proteins1988 ;3:71 - 84.
[0045]irishmanD,ArgosP.Knowledge-basedproteinsecondarystructure. Proteins1995 ;23:566 - 579.
[0046]6SklenarH,EtchebestC,LaveryR.Describingproteinstructure:ageneral algorithmyieldingcompletehelicoidalparametersandauniqueoverallaxis. Proteins1989 ;6:46 - 60.
[0047]7LabesseG,Colloc'hN,PothierJ,MornonJP.P-SEA:anewefficient assignmentofsecondarystructurefromCalphatraceofproteins.ComputApplBiosci 1997 ;13:3:291 - 295.
[0048]8MartinJ,LetellierG,MarinA,TalyJF,deBrevernAG,GibratJF.Protein secondarystructureassignmentrevisited:adetailedanalysisofdifferent assignmentmethods.BMCStructBiol2005;5:17-34.
[0049]9FetrowJS,PalumboMJ,BergG.Patterns,structures,andaminoacid frequenciesinstructuralbuildingblocks,aproteinsecondarystructure classificationscheme.Proteins1997 ;27:249 - 271.
[0050]10ZhangX,FetrowJS,BergG.Designofanauto-associativeneural networkwithhiddenlayeractivationsthatwereusedtoreclassifylocal proteinstructures.In:CrabbVJ,editor.AdvancesinProteinChemistry.San Diego,CA:AcademicPress; 1994.pp397 - 404.
[0051]nBrevernAG,EtchebestC,HazoutS.Bayesianprobabilisticapproach forpredictingbackbonestructuresintermsofproteinblocks.Proteins2000 ; 41:271 - 287.
[0052]12AlexandreG,deBrevernl,ValadierH,HazoutS,EtchebestC.Extensionofa localbackbonedescriptionusingastructuralalphabet:anewapproachtothe sequence-structurerelationship.ProtSci2002;11:2871 - 2886.
[0053]13FourrierL,BenrosC,BrevernAG.Useofastructuralalphabetfor analysisofshortloopsconnectingrepetitivestructures.BMCBioinform2004 ; 5:58
[0054]14Kneller,GeraldR,Hinsen,Konrad.Proteinsecondary-structure descriptionwithacoarse-grainedmodel[J].ActaCrystallographica,2015,71.
[0055]15ZhouJ,GrigoryanG.Rapidsearchfortertiaryfragmentsrevealsprotein sequence-structurerelationships[J].ProteinScience,2015, 24 (4):508-524.
[0056] l0JiikaProskova.Descriptionofproteinsecondarystructureusingdual quaternions[J]·JournalofMolecularStructure,2014, 1076 (1076) :89 - 93〇
【主權項】
1. 一種蛋白質結構指紋數據庫,包含四條表示蛋白結構指紋的字符串,由氨基酸序列, 蛋白質折疊形狀碼,物理化學性質和向量偶合組成: 1) 氨基酸序列,由表示組成蛋白質的氨基酸的字母串組成,代表其一級結構; 2) 蛋白質折疊形狀碼 所述蛋白質折疊形狀碼,為27個,由26英文字母加上"$"符號組成,對應27個描述五 個連續氨基酸殘基的折疊形狀的向量; 3) 物理化學性質 表示每一個氨基酸殘基側鏈的物理化性質,用7個字符分別表示,極性用N表示,電性 S,酸性A,堿性B,芳香性0,親水性H,憎水性P; 4) 向量偶合 每5個連續氨基酸形成的肽段的兩端分別具有不同的折疊特征,螺旋折疊用a表示,片 狀折疊用b表示,無規則折疊用*表示,定義9種向量:a ->a,b->b,a->b, b一>a, *- >a,a- >*,*一〉b,b- >*,*一>*來描述每個肽段的折疊特征,相鄰的兩個肽段共用四個 氨基酸形成向量耦合。2. 根據權利要求1所述的蛋白質結構指紋數據庫,其特征在于,還包括一條結構指紋: 支鏈幾何空間,表示每一個氨基酸殘基的側鏈空間大小,大的側鏈用L表示,小側鏈S,非常 小側鏈T,不能旋轉H。3. 根據權利要求1所述的蛋白質結構指紋數據庫,其特征在于,所述蛋白質折疊形狀 碼,對應27個描述五個連續氨基酸殘基的折疊形狀的向量;所述向量通過以下方法構建: A) 取蛋白質中每五個連續的氨基酸作為一個基本單元; B) 計算每個基本單元中的第一個二面角,該二面角是第一,第二,第三個氨基酸決定的 平面與第二、第三、第四個氨基酸決定的平面的夾角;該二面角為al,a2, a3所確定的范圍 之一; C) 計算每個基本單元中的第二個二面角,該二面角是第二、第三、第四個氨基酸決定的 平面與第三、第四、第五個氨基酸決定的平面的夾角,該二面角為bl,b2, b3所確定的范圍 之一; D) 計算每個基本單元中的第一與第五個氨基酸之間的伸張距離,所述伸張距離為 cl, c2, c3所確定的范圍之一; E) 依據步驟B,C,D得到的數值確定每個基本單元的向量; 所述al 從0 ° ~130°,a2 從 130° ~-130°,a3 從-130° ~0° ;bl 從0° ~130°, b2 從 130。~-130。,b3 從-130。~0。;cl 從 0 ~7. 0 埃,c2 從 4. 0 ~17 埃,c3 大于 12埃。
【專利摘要】本發明涉及一種蛋白質結構指紋數據庫,屬于生物信息學領域。包含四條表示蛋白結構指紋的字符串,由氨基酸序列,蛋白質折疊形狀碼,物理化學性質和向量偶合組成。所述蛋白質折疊形狀碼,為27個,由26英文字母加上“$”符號組成,對應27個描述五個連續氨基酸殘基的折疊形狀的向量;物理化學性質表示每一個氨基酸殘基側鏈的物理化性質,用7個字符分別表示。相鄰的兩個肽段共用四個氨基酸形成向量耦合。使用本發明的數據庫,可以大大減少數據儲存量,加快了檢索速度,擺脫必須依賴超級大型計算機或者大量計算機組合資源的局面,可以實現個人電腦運作。
【IPC分類】G06F19/16
【公開號】CN105243292
【申請號】CN201510622449
【發明人】楊家安
【申請人】麥科羅醫藥科技(武漢)有限公司
【公開日】2016年1月13日
【申請日】2015年9月25日