一種蛋白質結構指紋數據庫的制作方法
【技術領域】
[0001] 本發明涉及一種蛋白質結構指紋數據庫,屬于生物信息學領域。
【背景技術】
[0002] 從1940年確定蛋白質結構中含有有規則的螺旋和片狀結構以來,結構生物化學 家一直在繼續努力解讀蛋白質三維折疊結構。到目前為止(2015年),全球共享的蛋白質數 據庫(PDB)已經積累了將近十二萬以上的蛋白質三維結構數據^目前對蛋白質空間三維 構象的解析只局限于二級結構和一些簡單鏈接^^'^^^''對于大約仙^左右的 無不規則的三級結構的解析基本上處于空白 14'15'16。目前全球蛋白質數據庫對已知蛋白結 構的解析只局限到二級結構,對無規則的三級結構只能用直線段表示。完全解讀蛋白質結 構,包括了解蛋白質的三級結構,對于蛋白質的生物功能和活性,以及生物醫藥研究和藥物 設計具有重要意義。
[0003] 蛋白質的三維空間結構可以通過X射線晶體學或者核磁共振技術來測定的。如何 直接從一個蛋白質三維圖像或者原始數據提取信息是十分困難的問題。如何從蛋白質數據 庫已經積累的大量數據中提取信息就是一個更困難的問題。蛋白結構生物化學家所面臨的 關鍵問題之一是如何完整地描述蛋白質的折疊構象。另外,蛋白質的氨基酸序列和空間構 象和其生物功能密切相關。如何將蛋白質的氨基酸序列和空間構象和其生物功能相關起 來,也是一個很有意義的課題。由于蛋白結構的復雜性,完全理解某個蛋白結構已經不是容 易的課題。目前蛋白質數據庫(PDB)已經積累了豐富的數據,如何從大量的蛋白數據中提 取和發現有意義的信息支持生物醫藥研究面臨巨大的挑戰。為了解決這些問題,發明人在 專利ZL200880003164. 2中用27個蛋白質折疊形狀碼來描述蛋白質中連續的五個氨基酸的 結構。在此基礎上,依據全球蛋白數據庫(PDB)的全部數據,本發明建立了一個全新的蛋白 質結構指紋數據庫(PSF-PDB)。
【發明內容】
[0004] 本發明提供的蛋白質結構指紋數據庫,包含四條蛋白結構指紋。蛋白質結構的指 紋(PSF)是將蛋白質的結構信息轉化為由字符串組成的指紋表示。主要有四條指紋:氨基 酸序列,蛋白質折疊形狀碼,物理化學性質和向量偶合組成。
[0005] 1.氨基酸序列
[0006] 蛋白質是由20個氨基酸的不同排序組成的多肽生物分子。蛋白質由幾十個甚至 到上千個氨基酸排序組成。蛋白質的每個殘基可以由單字母的氨基酸表示。構成指紋代表 其一級結構。
[0007] 2.蛋白質折疊形狀碼(PFSC)
[0008] 在專利ZL200880003164. 2中,發明人開發的蛋白質折疊形狀碼(PFSC),為描述蛋 白結構指紋創立了基礎。通過數學推導得到一組27向量,這組向量能夠覆蓋任何五個連續 氨基酸殘基所有可能的折疊形狀。用26英文字母加上符號形成27蛋白質折疊形狀碼 (PFSC),與27個向量一一對應。因此,任何已知具有三維結構的蛋白質可以轉化為一維的PFSC字母表示。對于蛋白質結構,PFSC碼的表達可以從N-端開始至C-端結束,涵蓋每5 個氨基酸的折疊構象,沒有任何遺漏和缺失,包括二級結構片段和三級結構片段。最重要的 特點是,所有27PFSC向量具有相關性,可以對蛋白質構象的相似性進行定量評價。
[0009] 3.物理化學性質
[0010] 每一個氨基酸殘基的主要性能取決于側鏈的功能。側鏈的性質大致分為七類,如 疏水性,酸性或堿性和其他特殊功能基團,并且每個屬性由單字母代表其功能。物理化性質 用7個字符分別表示。極性用N表示,電性S,酸性A,堿性B,芳香性0,親水性H,憎水性P。
[0011] 4.向量偶合
[0012] 每5個氨基酸的肽段形成折疊構象。每個肽段的兩端可以分別具有不同的折疊特 征,螺旋折疊用a表示,片狀折疊用b表示,無規則折疊用*表示。因此可定義9種向量:a- >a,b->b,a->b,b一>a, *->a,a一>*, *一>b,b一>*,*一>*。相鄰的兩個向量共用四個 氨基酸形成向量親合。例如,V折疊碼的向量是b-〉a,A折疊碼的向量是a-〉a。a表示螺 旋特征,b表示片狀特征。VA兩個向量偶合即b-〉aa-〉a。這個向量偶合說明V向量的C 端是螺旋特征,A向量的N端也是螺旋特征,這兩個向量很好的共用之間的4個氨基酸。再 舉例說明,BVA折疊碼的連接,用向量表示為b->bb一>aa一>a。
[0013] 本發明的蛋白質結構指紋數據庫,還可以包括一條指紋:支鏈幾何空間。每一個氨 基酸殘基的側鏈空間大小不相同,而且空間旋轉柔性不相同。采用單字母代表氨基酸殘基 的側鏈空間的性質。大的側鏈用L表示,小側鏈S,非常小側鏈T,不能旋轉H。
[0014] 所述蛋白質折疊形狀碼,為27個,對應27個描述五個連續氨基酸殘基的折疊形狀 的向量。
[0015] 在蛋白質結構的指紋(PSF)基礎上,我們將全球共享蛋白數據庫(PDB)中超過 十一萬蛋白質結構數據全部轉化為蛋白質結構的指紋(PSF),構建了全球唯一蛋白結構指 紋數據庫(PSF-PDB)。
[0016] 對于每一個蛋白質結構,全球共享蛋白數據庫(PDB)中通常需要數千行的數據來 表示,到目前(2015年7月)為止,11萬蛋白結構在計算機需要大約63兆(G)的儲存空間, 數據量大,檢索困難。在本發明提供的蛋白結構指紋數據庫中,每一個蛋白只有要四行或五 行文字描述,計算機總共只需要大約0.325兆(G)的儲存空間,儲存空間壓縮到二百分之 一。因此,大大減少了數據儲存量,加快了檢索速度,擺脫必須依賴超級大型計算機或者大 量計算機組合資源的局面,可以實現個人電腦運作。
【附圖說明】
[0017] 圖1,蛋白質結構指紋數據庫格式:只有五行的數據。
[0018] 圖2,舒尼替尼藥物蛋白結合靶點區:高通量篩選過程中,對蛋白指紋相似性的定 量評分。
[0019] 圖3,舒尼替尼藥物蛋白結合靶點區:依據蛋白指紋對比評分實現高通量篩選。
【具體實施方式】
[0020] 本發明提供的蛋白質結構指紋數據庫,包含四條表示蛋白結構指紋的字符串,由 氨基酸序列,蛋白質折疊形狀碼,物理化學性質和向量偶合組成。
[0021] 1)氨基酸序列,由表示組成蛋白質的氨基酸的字母串組成,代表其一級結構;
[0022] 2)蛋白質折疊形狀碼
[0023] 所述蛋白質折疊形狀碼,為27個,由26英文字母加上"$"符號組成,對應27個描 述五個連續氨基酸殘基的折疊形狀的向量;
[0024] 3)物理化學性質
[0025] 表示每一個氨基酸殘基側鏈的物理化性質,用7個字符分別表示,極性用N表示, 電性S,酸性A,堿性B,芳香性0,親水性H,憎水性P;
[0026] 4)向量偶合
[0027] 每5個連續氨基酸形成的肽段的兩端分別具有不同的折疊特征,螺旋折疊用a表 示,片狀折疊用b表示,無規則折疊用*表示,定義9種向量:a->a,b->b,a->b,b- >a,*一〉a,a- >*,*一〉b,b- >*,*一>*來描述每個肽段的折疊特征,相鄰的兩個肽段共用 四個氨基酸形成向量耦合。
[0028] 還可以包括一條結構指紋:支鏈幾何空間。表示每一個氨基酸殘基的側鏈空間大 小,大的側鏈用L表示,小側鏈S,非常小側鏈T,不能旋轉Η;
[0029] 2)中的蛋白質折疊形狀碼,對應27個描述五個連續氨基酸殘基的折疊形狀的向 量。如同在專利ZL200880003164. 2中描述,所述向量通過以下方法構建:
[0030]Α)取蛋白質中每五個連續的氨基酸作為一個基本單元;
[0031]Β)計算每個基本單元中的第一個二面角,該二面角是第一,第二,第三個氨基酸決 定的平面與第二、第三、第四個氨基酸決定的平面的夾角;該二面角為al,a2,a3所確定的 范圍之一;
[0032] C)計算每個基本單元中的第二個二面角,該二面角是第二、第三、第四個氨基酸決 定的平面與第三、第四、第五個氨基酸決定的平面的夾角,該二面角為bl,b2,b3所確定的 范圍之一;
[0033] D)計算每個基本單元中的第一與第五個氨基酸之間的伸張距離,所述伸張距離為 cl,c2,c3所確定的范圍之一;
[0034]E)依據步驟B,C,D得到的數值確定每個基本單元的向量。
[0035]所述al從 0。~130。,a2 從 130。~-130。,a3 從-130。~0。;bl從 0。~ 130°,b2 從 130° ~-130°,b3 從-130° ~0°;cl從 0 ~7.0 埃,c2 從 4.0 ~17 埃,c3 大于12埃。
[0036] 蛋白質三維空間結構原始數據需要數百行到千行的數據描述一個蛋白結構。而采 用本發明蛋白質結構指紋數據庫只需要5行指紋數據就描述蛋白結構特征。如圖1所示。 因此,對數十萬個蛋白結構,蛋白質結構指紋數據庫儲存空間得到減少,更重要的是可以大 大節省時間,對蛋白大數據實現高通量檢索。
[0037] 另外一個例子說明如何運用蛋白質結構指紋數據庫對蛋白大數據實現高通量篩 選,可以通過指紋相似性分數,對蛋白空間結構進行歸一化的定量評估。這些依據蛋白原始 數據或者圖像分析根本做不到。圖2顯示高通量篩選過程中,對舒尼替尼藥物蛋白結合靶 點區的蛋白指紋相似性進行定量評分。圖3顯示依據蛋白指紋相似性評分,實現藥物靶標 的高通量篩選。
[0038] 本發明將全球共享蛋白