一種基于副本交換的變步長蛋白質構象空間搜索方法
【技術領域】
[0001] 本發明涉及生物信息學、計算機應用領域,尤其涉及的是一種基于副本交換的變 步長蛋白質構象空間搜索方法。
【背景技術】
[0002] 蛋白質分子在生物細胞化學反應過程中起著至關重要的作用。它們的結構模型和 生物活性狀態對我們理解和治愈多種疾病有重要的意義。蛋白質只有折疊成特定的三維結 構才能產生其特有的生物學功能。因此,要了解蛋白質的功能,就必須獲得其三維空間結 構。
[0003] 蛋白質三級結構預測是生物信息學的一個重要任務。目前,蛋白質結構預測方法 大致可以分為兩類,基于模板的方法和不基于模板的方法。其中,不基于模板的從頭預測 (Ab-inito)方法應用最為廣泛。它適用于同源性小于25%的大多數蛋白質,僅從序列產 生全新結構,對蛋白質分子設計及蛋白質折疊的研宄等具有重要意義。當前有以下幾種比 較成功的從頭預測方法:張陽與Jeffrey Skolnick合作的TASSER(Threading/Assembly/ Refinement)方法、David Baker及團隊設計的Rosetta方法、Shehu等設計的FeLTr方法 等。但是到目前還沒有一種十分完善的方法來預測蛋白質的三維結構,即使獲得了很好的 預測結果,但也只是針對某些蛋白質而言的,目前主要的技術瓶頸在于兩個方面,第一方面 在于采樣方法,現有技術對構象空間采樣能力不強,另一方面在于構象更新方法,現有技術 對構象的更新精度仍然不足。
[0004] 因此,現有的構象空間搜索方法存在不足,需要改進。
【發明內容】
[0005] 為了克服現有蛋白質結構預測方法的構象更新精度較低、搜索能力較差的不足, 本發明提出在低能量引導的樹搜索框架下,利用基于副本交換的變步長蛋白質構象空間搜 索方法,增強了構象跳出局部極小點的能力,同時保持了個體的多樣性,進而增強對構象空 間中近天然態構象搜索的能力。
[0006] 本發明解決其技術問題所采用的技術方案是:
[0007] -種基于副本交換的變步長蛋白質構象空間搜索方法,所述搜索方法包括以下步 驟:
[0008] 1)給定輸入的氨基酸序列;
[0009] 2)按照能量對構象空間分層,劃分成一維網格,能量值以SE為間隔,從最低能量 到最高能量分層,表示為GEG ;
[0010] 3)按照溫度對構象空間分層,劃分成一維網格,由起始溫度逐步非等間隔的到最 低溫度,表不為[T max,Tmin];
[0011] 4)在每一個能量層中再按照超速形狀識別方法(USR)刻度對能量層進行細分得 到"構象室",記為cell ;
[0012] 5)對給定的氨基酸序列進行一次完全的片段組裝得到一個初始構象;
[0013] 6)調用Rosetta Score3能量函數,計算得到的初始構象的能量值,并根據能量值 將此構象放入相應的能量層中;
[0014] 7)由超速形狀識別(USR)判別將該構象置入指定cell;
[0015] 8)按照〇>(/) = £:^(/)對能量層分配權重,其中1表示能量層,表示該層平均 能量的平方,《 (1)表示權重值;
[0016] 9)按照
設置片段組裝(FA)步長,其中N為序列長度,M 為常數;
[0017] 10)按照
1設置Monte Carlo擾動(MC)步長,其中N為序 列長度,Q為常數,由以上公式反向分配步長值;
[0018] 11)初始溫度值根據區間分半搜索方法來確定,從而非等間隔的建立溫度列表
[T-,Tmin];
[0019] 12)設置迭代次數;
[0020] 13)構象空間搜索過程:
[0021]13. 1)按照能量權重值_;) = ,依概率
隨機的反向選能量層 1 ;
[0022] 13. 2)按照概率1/[ (1+nsel) confs]選定"構象室"cell,其中,nsel表示當前cell 被選擇的頻次,confs表示當前cell中構象的數目;
[0023] 13. 3)選定cell后,隨機選擇一個構象,用于下一步的擴展;
[0024] 13.4)按照步驟9)設定的FA步長,對選定構象進行片段組裝,生成新的構象;
[0025] 13. 5)按照步驟10)設定的MC步長,對構象進行Monte Carlo擾動,使用設定的相 應溫度參數,按照玻爾茲曼概率'AE接受新生成的構象,其中AE為當前構象與上一步產 生的構象之間的能量差,0為溫度因子,0 =_l/kBT,kB為玻爾茲曼常數,T為溫度參數;
[0026] 13. 6)如果當前新生成的構象被接受,則將其存入構象系綜;
[0027] 13. 7)按照en AE判斷是否需要進行副本交換,其中A 0為新生成的構象與前 一構象的溫度參數差值,0 =-l/kBT,若發生副本交換,則交換兩個構象在構象空間中的位 置,若不發生副本交換,則直接進行下一次迭代;
[0028] 14)迭代的運行步驟13),直至達到設置的迭代次數。
[0029] 本發明的有益效果為:在低能量引導的樹搜索框架下,采用變步長和副本交換的 策略搜索蛋白質構象空間,依據所分能量層的權重在不同能量層賦予不同的片段組裝(FA) 步長和Monte Carlo擾動(MC)步長,在構象空間能量較高的區域,使用大的FA步長和較小 的MC步長,迫使算法更快的向低能量區域搜索,隨著構象搜索逐步向低能量區域靠近,改 變FA、MC步長,在能量較低的區域使用較小的FA步長和較大的MC步長,避免對天然態構象 的采樣不足導致算法有效性降低。同時在構象空間對溫度分層,在不同的溫度層采用相應 的Metropolis準則來判斷是否接收當前構象,以增強構象跳出局部極小點的能力,g[J本交 換的引入能夠進一步增強構象空間中采樣的多樣性,從而增強了對構象空間中近天然態構 象采樣的能力。
【附圖說明】
[0030] 圖1是蛋白質1VII構象系綜中構象更新示意圖。
【具體實施方式】
[0031] 下面結合附圖對本發明作進一步描述。
[0032] 參照圖1,一種基于副本交換的變步長蛋白質構象空間搜索方法,包括以下步驟:
[0033] 1)給定輸入的氨基酸序列;
[0034] 2)按照能量對構象空間分層,劃分成一維網格,能量值以SE為間隔,從最低能量 到最高能量分層,表示為Geg ;
[0035] 3)按照溫度對構象空間分層,劃分成一維網格,由起始溫度逐步非等間隔的到最 低溫度,表不為[T max,Tmin];
[0036] 4)在每一個能量層中再按照超速形狀識別方法(USR)刻度對能量層進行細分得 到"構象室",記為cell ;
[0037] 5)對給定的氨基酸序列進行一次完全的片段組裝得到一個初始構象;
[0038] 6)調用Rosetta Score3能量函數,計算得到的初始構象的能量值,并根據能量值 將此構象放入相應的能量層中;
[0039] 7)由超速形狀識別(USR)判別將該構象置入指定cell ;
[0040] 8)按照《(/) = £^(/)對能量層分配權重,其中1表示能量層,£^.g(/)表示該層平均 能量的平方,《 (1)表示權重值;
[0041] 9)按照
設置片段組裝(FA)步長,其中N為序列長度,M 為常數;
[0042] 10)按照
設置Monte Carlo擾動(MC)步長,其中N為序 列長度,Q為常數,由以上公式反向分配步長值;
[0043] 11)初始溫度值根據區間分半搜索方法來確定,從而非等間隔的建立溫度列表
[T-,Tmin];
[0044] 12)設置迭代次數;
[0045] 13)構象空間搜索過程:
[0046] 13. 1)按照能量權重值《(/) = £;%(/),依概率
隨機的反向選能量 層1 ;
[0047] 13. 2)按照概率1/[ (1+nsel) confs]選定"構象室"cell,其中,nsel表示當前cell 被選擇的頻次,confs表示當