專利名稱:蛋白質聚集預測系統的制作方法
技術領域:
本發明涉及鑒定結構化(折疊)的蛋白中聚集-傾向區域的方法,涉及確定蛋白 的聚集傾向的相關方法,涉及執行所述方法的計算機程序代碼和設備,并且涉及鑒定新的 藥物和藥物靶標以及蛋白質毒性的相關方法。
背景技術:
背景現有技術描述在Protein Science (蛋白質科學),卷15,2006,JA Marsh 等,“Sensitivity of secondary structure propensities to sequence differences between alpha-and gamma-synuclein Implicationd for fibrillation(二級結構傾向對于在α-和Y-突觸核蛋白之間序列差異性的敏感性對于原纖化的涉及)", 2795-2804 ;和 in silico Biology(硅內生物學),卷 7,2007,S Inicula-Thomas 等,“Correlation between the structural stability and aggregation propensity of proteins (在蛋白質的結構穩定性和聚集傾向之間的關聯)",225-237中。之前,我們 已經在WO 2004/066168和WO 2005/045442中描述了用于預測以其天然、未折疊狀態存在 的蛋白質的聚集/溶解性比率的技術。這些技術,例如有效用于預測無結構化的多肽鏈的 抗聚集突變變體,但是它們通常不可應用于預測結構化(折疊)蛋白的聚集。然而,蛋白 質在其折疊狀態的聚集對于許多疾病是重要的,并且認為對于該現象的精確預測是一個難 題,因此其尚未得到解決。我們將描述解決該問題的工具;存在該工具的許多應用,包括合 理的設計藥物以及蛋白生產技術。發明_既述根據本發明的第一方面,因此提供鑒定蛋白質的氨基酸序列中一個或多個在折 疊的蛋白中被預測促進聚集的區域的方法,所述方法包括對于沿所述序列的氨基酸位置 (i),確定在所述氨基酸位置的局部聚集傾向(Ai),所述局部聚集傾向通過組合關于所述氨 基酸位置的疏水性值、α -螺旋傾向值、β -折疊傾向值、電荷值和模式值來確定;確定關于 所述氨基酸位置的局部結構穩定性值,所述局部結構穩定性值包括在所述氨基酸位置的局 部結構穩定性的量度;以及組合在所述氨基酸位置的所述確定的局部聚集傾向和在所述氨 基酸位置的所述局部結構穩定性值從而鑒定所述氨基酸序列中一個或多個區域,所述一個 或多個區域被預期在所述折疊的蛋白質中促進聚集。局部結構穩定性值考慮蛋白質處于其折疊狀態。在一些優選的實施方案中,該信 息純粹由該蛋白的氨基酸序列預測。在優選的實施方案中,局部結構穩定性值有效測量結 構的熱波動的幅度。在一些特別優選的實施方案中,在序列中的位置i(Pi)的局部結構 穩定性值是氨基酸序列(通常基本上是整個氨基酸序列)的性質。通過蛋白質的折疊并 且在其折疊狀態保持穩定的傾向確定的對數Pi值通過如在Tartaglia,G. G.,Cavalli, A. &Vendruscolo,M. (2007) Structure (結構)15,139-143 中所述的 CamP 方法確定,將其內 容結合在本文作為參考。在所述方法的實施方案中,無需蛋白質的天然折疊結構的知識而 確定局部結構穩定性值。在實施方案中,確定的局部聚集傾向和局部結構穩定性值的組合通過用局部結構穩定性值來調節局部聚集傾向來進行,盡管,潛在地,所述組合也可以以其他的方式進行, 例如通過在數據的圖解表示的不同軸上表示兩組值來進行。技術人員將理解確定局部聚集 傾向不需要包括疏水性、α-螺旋和β-折疊傾向、電荷和模式值的線性組合。在一些優選 的實施方案中,將通過局部結構穩定性數據調節的局部聚集傾向用于確定折疊蛋白的聚集 傾向模式,所述模式代表組合數據中隨沿所述序列的位置的變化。接著,一個或多個被預測 易于聚集的區域可以通過鑒定局部或絕對最大值,例如在模式的局部峰值或模式的多個區 域的局部峰值而容易地鑒定,在所述區域中,所述模式具有大于閾值水平的值。所述方法的優選實施方案還考慮“門控(gatekeepers) ”的概念,具體地通過考慮 局部電荷對氨基酸模式的作用。因此,當一些氨基酸模式,例如其中親水性氨基酸和疏水性 氨基酸交替的模式,具體地具有至少5個氨基酸的長度,促進聚集,這種作用受在所述模式 兩翼或其內部的局部電荷抑制。因此,所述方法的優選實施方案確定在關于氨基酸模式任 一側的窗口(window)內的總局部電荷并且使用該值來改變在氨基酸位置確定的局部聚集 傾向。因此,在另一方面,本發明提供在蛋白質的氨基酸序列中鑒定一個或多個在折疊 的蛋白質中被預測促進聚集的區域的方法,所述方法包括關于沿所述序列的多個位置i, 確定灼agg的值,其中灼agg代表在位置i的氨基酸的固有聚集傾向并且包括Ph,Ps, Ph-和P。 的函數,并且Ph,Ps, Phyd和P。分別是在沿所述序列的所述位置i的氨基酸的α -螺旋傾向 值,β _折疊傾向值,疏水性值,和電荷值;關于沿所述序列的多個位置i,確定乂/7值,其中
乂尸由下式確定 其中i
窗口 ι表示在關于所述位置i的任一側的第一窗口內的氨基酸位置的第一總和,/Tzi是 代表在位置i的親水性和疏水性氨基酸中一種或兩種的模式的模式值,/f是代表側鄰所述 模式或在其內部的電荷的電荷值,并且其中a” apat和α gk是比例因子;并且從關于沿所 述序列的所述多個位置i的乂廣值確定關于所述蛋白的聚集傾向模式,所述聚集傾向模式包 括鑒定相關聚集傾向關于沿所述序列的位置的變化的數據。如前所述,本領域技術人員應該理解可以使用廣泛范圍的ph,ps,phyjnp。的函數, 并且技術的實施方案并不限于這些值的線性組合。因此該方法的實施方案并不限于在下述 方程(1)中給出的Piagg計算的具體形式。如上提及,優選地,代表在氨基酸的局部模式兩側或在其內部的電荷的電荷值包 括在氨基酸位置i的窗口內的(氨基酸)電荷的總和;優選地,該(第二)窗口大于用于確 定乂/7的(第一)窗口。在實施方案中,第一窗口具有基本等于β鏈的相關長度的長度,例 如7個氨基酸;在實施方案中,第二窗口的邊緣是這樣的點,在所述點,有效失去電荷對于 β鏈的“記憶”作用,例如在越過第一窗口邊界的超過三個、五個或七個氨基酸處。在優選的實施方案中,確定聚集傾向模式考慮在殘基特異性水平的結構保護和聚
6集傾向,具體地通過乘以
( 對數Λ ) α2--^
VJ進行。在這里,^和Ci3是比例因子,并且對數可以例如是基于10的對數或基于 e的對數(對數有效地考慮測量群體/概率并轉換為表示穩定性的自由能表示);在實施方 案中,保護因子Pi代表對氫交換的保護,并且自由能涉及產生范德華接觸或氫鍵的自由能 分布。對數Pi范圍越大,天然結構越不穩定;在實施方案中,α 3具有約15的值,因為,通過 實驗已經發現大于該值的對數Pi的值對應于不穩定的局部結構。在所述方法的實施方案 中,可以確定標準化的固有聚集傾向模式Zf,但是本領域技術人員應該理解這種標準化不 是必須的。同樣地,在通過局部結構穩定性值調節之前,清楚地確定該標準化的固有聚集傾 向模式也不是必需的。在上述技術的實施方案中,可以通過總計聚集傾向數據,優選地考慮局部結構穩 定性值,僅在被鑒定為預測促進聚集的那些區域進行總計來確定總的聚集傾向。因此,在另一個方面,本發明提供確定折疊蛋白的總聚集傾向的方法,所述方法包 括考慮局部氫交換和局部電荷對聚集誘導的氨基酸模式的抑制中的一種或兩種,在蛋白 的氨基酸序列中鑒定一個或多個在折疊的蛋白中被預測促進聚集的區域;接著總計由在沿 所述序列的多個氨基酸位置(i)的局部聚集傾向的值(Ai)而確定的聚集傾向數據;其中所 述總計包括基本上僅在所述鑒定的區域范圍內的總計。由其氨基酸序列預測的所述確定的總的蛋白聚集傾向可以用于鑒定這樣的多肽 序列,其特別適合(或不適合)于生產,因為其不可能(或可能)形成不溶的聚集體。在已 經鑒定適合于生產的多肽后,可以接著將該方法的實施方案,從而制備以該方式鑒定的多 肽(蛋白質)。在一些優選的技術中,所述鑒定的多肽使用機器多肽合成裝置制備,例如在 計算機程序代碼的控制下來執行上述方法。另外,可以通過計算機程序代碼來控制自動的 (機器)實驗室設備,所述計算機程序代碼這樣設置以執行上述方法從而鑒定蛋白的氨基 酸序列中的一個或多個在折疊的蛋白中被預測促進聚集的區域。可以例如使用所述設備從 而自動地鑒定蛋白中的藥物靶標和/或自動鑒定藥物,所述藥物與蛋白特別地在一個或多 個鑒定的靶區域內相互作用。因此,在另一個方面,本發明提供鑒定蛋白中的藥物靶標的方法,具體地使用上述 方法以鑒定氨基酸序列中一個或多個被預測促進聚集的靶部分。在已經進行了這樣的預測 后,任選地這可以通過例如突變該序列來進行測試。此外,已經在蛋白中鑒定了一個或多個 藥物靶標后,接著,可以繼續進行所述方法以鑒定預測與該蛋白相互作用的一種或多種藥 物,所述相互作用例如通過在靶位點結合進行。這可以是直接的,如在數據庫中觀察以確定 是否存在已知在所述靶位點結合的任何分子,或一旦鑒定了靶位點就可以使用鑒定在所述 靶標結合的分子的合理方法,或可以使用體內/體外篩選方法。此外,可以通過自動(機 器)實驗室設備進行所述方法,例如在用于進行上述方法的計算機程序代碼的控制下。因此,本發明還提供這樣的計算機程序代碼,其用于控制計算機或計算化的裝置 以執行如上所述的方法或系統。該代碼可以在載體上提供,所述載體如磁盤,例如CD-或DVD-R0M,或程序存儲器例如固件。執行本發明的實施方案的代碼(和/或數據)可以包括 源、對象或在常規編程語言(解釋的或編譯的)中的可執行代碼如C、或匯編代碼,用于設置 或控制ASIC(專用集成電路(Application Specific Integrated Circuit))或FPGA(現場 可編程門陣列(Field Programmable Gate Array))的代碼、或用于硬件描述語言的代碼, 所述硬件描述語言如Verilog(商標)或VHDL(超高速集成電路硬件描述語言(Very high speed integrated circuit Hardware Description Language))。如本令頁域技術人員將理 解,所述代碼和/或數據可以在彼此聯系的多個偶聯組件之間傳遞。技術人員將理解本發明的上述方面和實施方案的特征可以以任何順序組合。附圖
簡述本發明的這些和其它方面現在將通過僅舉例的方式進一步描述,參考附圖,其 中圖Ia和Ib分別顯示用于進行本發明所述的方法的實施方案的計算機系統的示意 圖;和參與淀粉狀蛋白疾病的四種肽的聚集傾向模式上線表示固有聚集傾向模式Zp,而下 線表示聚集傾向Zps,后者通過考慮由蛋白的折疊形式的球狀結構提供的結構保護來計算; Ai^42 陰影區域顯示形成交叉β-核心的區段,并且線條顯示對應于肽A β 16_22 (KLVFFAE) 的區域,其已經顯示形成高度規則的淀粉狀蛋白原纖維;胰高血糖素;降鈣素;人CA150的 第二 Wff結構域,其中陰影區域顯示形成交叉β核心的區段;圖2顯示結構化蛋白的預測的聚集傾向模式的實例低折疊傾向的區域,其被較 少保護免于聚集,被鑒定為通過考慮折疊形式的結構保護而計算的聚集傾向模式Zps(黑 線)中的最高峰值;固有聚集傾向模式Zp是上線;二級結構元件顯示為線條200(β_折疊) 和上線202 ( α -螺旋);溶菌酶;陰影區域顯示殘基26-123和32-108的區域,其對于聚集 是重要的;肌紅蛋白陰影區域指示高度易于聚集的肽片段(殘基100-114);圖3顯示在個體殘基水平(H=螺旋,S=鏈,和T=轉角)的折疊(IogP評分)和 聚集(Zp評分)傾向之間的關聯;根據■· expasy. org的無結構化的區域以星形標記,(a) 溶菌酶我們預測區域或殘基43-54 (螺旋),73-76 (轉角),82-85 (鏈),和96-98,(無結 構化的)同時具有低結構保護和高聚集傾向,并且因此特別易于在不穩定條件下聚集;我 們還用許多與促淀粉狀變突變相關的位置標記;在圖中殘基標號遵循在ExPASy網絡服務 器上的殘基編號,并包括18個殘基的N-末端標記。(b)肌紅蛋白我們預測殘基4-19(螺 旋),21-35 (螺旋),125-149 (螺旋)的區域具有高聚集傾向和低結構保護。圖4顯示兩種朊病毒蛋白的聚集傾向模式,關于所述朊病毒蛋白可獲得詳細的結 構信息;上線表示固有聚集傾向模式Zp,下線表示聚集傾向模式zps,其通過考慮由折疊形 式蛋白的球狀結構提供的結構保護而計算。(a)hPrP(23_231)序列的聚集傾向模式;固有模式 Zp和有效的Zps模式;在hPrPC中存在的次級結構元件表示為線條400 ( β -折疊)和線條 402(0-螺旋)。二硫鍵C179-C214中的位置由線404表示。實驗確定的聚集敏感區域(殘 基113-127)由灰色陰影區域表示,并且顯示與我們的方法預測的具有明顯的聚集傾向(Zps > 1)的主要區域基本重疊。(b)HET-s 顯示通過固態NMR鑒定的對應于四種β鏈的區域; 所述陰影區域對應于C-末端片段,其淀粉狀蛋白結構已經通過固態NMR光譜法表征。圖5顯示在關于人朊病毒蛋白(H =螺旋,S =鏈,和T =轉角)的個體殘基水平 上折疊(IogP評分)和聚集(Zp評分)傾向之間的關系;根據棚.expasy. org的無結構區域用星形標記;我們預測殘基120-123的區域具有最高的聚集傾向和最低的結構保護,其 次是重復序列84-91的區域;我們還標記與CJD突變相關的位置。優選實施方案詳述我們將描述預測肽和蛋白序列中對促進它們聚集以及淀粉狀蛋白形成最重要的 區域的方法。所述方法關于這樣的條件容許進行所述預測,在所述條件下,涉及的分子可以 包含顯著程度的永久結構。為了獲得該結果,所述方法的實施方案僅使用氨基酸序列的知 識來同時估計折疊傾向以及聚集傾向,以及這兩種類型的傾向彼此競爭的方式。我們通過 將所述方法應用于一組均與疾病相關或都不與疾病相關的肽和蛋白來舉例說明這樣的方 法。該結果不僅顯示具有高固有聚集傾向的蛋白區域可以以機器方式鑒定,還顯示以單體 (可溶)形式存在的所述區域的結構背景對于確定它們在聚集過程中的作用非常重要。多肽鏈的氨基酸序列的特定區域,有時也稱為“易于聚集”區域(Pawar,Α. P., DuBay,K.F· ,Zurdo,J. ,Chiti,F. ,Vendruscolo,M.& Dobson,C. M. (2005) J. Mol. Biol. ( ^ 子生物學雜志)350,379-392),在確定它們聚集并最終形成有組織的結構如淀粉狀蛋白原 纖維的傾向中具有主要作用(Pawar,A. P. ,DuBay,K. F. ,Zurdo, J.,Chiti,F. ,Vendruscolo, Μ. & Dobson, C. Μ. (2005) J. Mol. Biol (分子生物學雜志)· 350,379-392 ;de Groot, N. S., Pallares, I,Aviles,F. X. ,Vendrell, J. & Ventura, S. (2005) BMC Struct. Biol (BMC 結構生 物學).5 ;Fernandez-Escami 11a, Α. Μ. , Rousseau, F. , Schymkowitz, J. &Serrano, L. (2004) Nat Biotech(自然生物技術)22,1302-1306)。通過分析突變對于特定肽和蛋白的聚集 傾向的作用(Chiti, F. , Taddei, N. , Baroni, F. , Capanni, C, Stefani, Μ. , Ramponi, G. & Dobson, C. M. (2002) Nat. Struct. Biol.(自然結構生物學)9,137-143)并通過確定說明多 肽鏈的特定區段組成所述原纖維的高度有序核心的高分辨率結構模型來提供對于這種觀 點的強有力的支持。易于聚集的區域的存在已經提示了這樣的方式,其中合理誘變作用可 以減少生物技術中的聚集問題(Ventura, S. & Villaverde, Α. (2006)Trends Biotech.(生 物技術趨勢)24,179-185)。此外,已經提議了特異性靶向這些區域以減少它們促進有序分 子間裝配形成傾向的治療策略(Tatarek-Nossol,M.,Yan, L. M.,Schmauder, A.,Tenidis, K.,ffestermark, G. &Kapurniotu, Α. (2005) Chemistry & Biology (化學和生物學)12, 797-809)。最近已經描述了促進未折疊的多肽鏈聚集的主要的理化因子(Chiti,F., Stefani, M. , Taddei, N. , Ramponi, G. & Dobson, C. Μ. (2003)Nature (自 M ),424, 805-808. Dubay, K. F. , Pawar, Α. P. , Chiti, F. , Zurdo, J. , Dobson, C. Μ. & Vendruscolo, Μ. (2004) J. Mol. Biol (分子生物學雜志)· 341,1317-1326),并且基于此,已經提議了一些 算法來預測"聚集傾向模式",其能夠鑒定具有高固有聚集傾向的區域(Rousseau,F., Schymkowitz, J. &Serrano, L. (2006)Curr. Op. Struct. Biol.(現代結構生物學觀點)16, 118-126 ;Tartaglia, G.G. , Cavalli, A. , Pellarin, R. & Caflisch, Α. (2004)Protein Sci (蛋白質禾斗學)· 13,1939-1941 ;Thompson, Μ. J. , Sievers, S. Α. , Karani col as, J., Ivanova, Μ. I,Baker, D. & Eisenberg,D. (2006)Proc. Natl. Acad. Sci. USA(美國國家科學 院學報)103,4074-4078 ;Trovato, Α.,Chiti, F.,Maritan, A. &Seno, F. (2006)PLoS Comp. Biol. 2,1608-1618 ;Conchillo-Sole, 0. , de Groot, N. S. , Aviles, F. X. , Vendrell, J., Daura,X. & Ventura,S. (2007) BMC Bioinformatics (BMC 生物信息學)8)。我們在前面已經顯示了這種方法用于預測在生理條件下是無結構的多肽鏈的易于聚集的區域的有效性,所 述多肽鏈包括與阿爾茨海默病相關的A β肽,和α-突觸核蛋白,α-突觸核蛋白即為一種 天然未折疊的蛋白,它的聚集與帕金森病相關。目前,我們已經將該方法延伸用于預測促進結構化和部分結構化的球狀蛋白質聚 集的區域。在這樣的計劃中,我們考慮了這樣的可能性,即,具有高固有聚集傾向的區域可 能埋在穩定的和通常是高協同作用的結構元件內部,并因此在所述狀態不能形成導致聚 集的特定分子間相互作用。因此,以這種方式遮蔽,它們可能不能在聚集過程中起主要作 用,盡管在使天然結構去穩定的突變之后,它們可獲得這種能力。為了能夠考慮蛋白質序 列的給定區域采取折疊構象的傾向,我們探索了從其序列的知識預測蛋白的各個區域的局 部穩定性的可能性(Tartaglia, G. G.,Cavalli, A. &Vendruscolo, Μ. (2007) Structure (結 構)15,139-143)。實質上,考慮到蛋白的氨基酸序列,我們在此顯示了怎樣可以組合關于 形成有序的聚集體和折疊為穩定結構的傾向模式的預測。我們通過將該方法應用于預測一 系列肽和蛋白的聚集模式來舉例說明該方法,所述肽和蛋白的聚集傾向已經通過實驗進行 了特別詳細地表征。由于我們開發的算法基于相對于淀粉狀蛋白形成動力學的突變數據進 行,我們提供的結果使我們能夠討論具有促進聚集過程的高傾向的區域可以怎樣與在穩定 淀粉狀蛋白構象的結構核心中起主要作用的那些區分開。方法多肽序列的固有聚集傾向模式在本文所述的方法中,將個體氨基酸的固有聚集傾向定義為(1)
Pigs = ahPi丨+asps+CCliyll ρΙψΙ +acpc
(1)其中分別是α螺旋和β折疊形成的傾向,并且Phyd是疏水性,并且P。是 電荷。接著,以如下所述確定的系數α以線性方式組合這些傾向。技術人員將理解可以使 用除了線型模型之外的模型。組合/^gg值以提供模式Ap,其將固有聚集傾向描述為完整氨 基酸序列的函數(1)。在實施方案中,/可以使用系數α比例化,例如在士 1內。在沿
所述序列的每個位置i,我們將模式Ap限定為七個堿基的窗口的平均值 其中Ipat是考慮交替疏水殘基和親水殘基(1)的特定模式存在的術語,而Igk是考 慮個體電荷門控作用Ci的術語 參數α 可以根據由 DuBay 等(16. Dubay,K. F. ,Pawar,A. P. ,Chiti,F. ,Zurdo, J., Dobson, C. Μ. & Vendruscolo,Μ. (2004) J. Mol. Biol.(分子生物學雜志)341,1317-1326)所述的一般方法擬合。為了比較固有傾向模式,我們通過考慮在隨機序列的每個位置k的AkP 的平均值(μΑ)和標準偏差(Oa)來對Ap進行標準化。我們因此獲得標準化的固有聚集傾 向模式。 關于Z/的目標是具有O的平均值和1的標準偏差,其中我們在隨機序列范圍內計 算平均值μ和標準偏差σ
在這些式中,我們考慮了長度為N的NJ逭機序列,并且我們證實μ和σ對于范 圍在50-1000內的N值是恒定的。μ和σ的值取決于長度N ;例如關于N = 100,μ = 6.9, σ = 7. 3。通過使用SffISS-PROT數據庫的氨基酸頻率產生隨機序列(Boeckmann,B., Bairoch, A. , Apweiler, R. , Blatter, Μ. C, Estreicher, Α. , Gasteiger, Ε. , Martin, Μ. J., Michoud, K. , 0' Donovan, C, Phan, I,Pilbout, S. & Schneider,Μ. (2003)Nucleic Acids Res (核酸研究).31,365-370)。從所述序列預測折疊傾向我們使用了 CamP方法,通過所述方法以高精確度預測蛋白的柔性和溶劑可及性。 該方法能夠以超過80%的精確度從隱蔽區域(buried regions)的氨基酸序列的知識進 行預測,并且以平均60%的精確度從關于氫交換的保護因子的知識進行預測(Tartaglia, G. G.,Cavalli, A. & Vendruscolo, M. (2007) Structure (結構)15,139-143)。關于部分結構化多肽鏈的聚集傾向模式的預測為了促進聚集,多肽序列的區域應該符合兩個條件其應該具有高固有聚集傾向 (Zp >0),并且其應該足夠不穩定以具有明顯的形成分子間相互作用的傾向。為了描述后 者,我們使用關于來自氫交換的保護因子InP的CamP方法。對于具有Zp > 0的那些值,我 們通過用InP調節來改變聚集傾向模式Zp 關于結構化多肽序列的絕對聚集傾向認為僅具有低局部穩定性的殘基有利于總的聚集傾向ZSagg,得到下式 其中函數θ (χ)是1(χ > 0)和0(χ < 0)。我們使用類似的表達式(見"Systematic In Vivo Analysis of the Intrinsic Determinants of Amyloid β Path0geniCity(系統體內分析β淀粉狀蛋白病原性的固有決定因子)〃 Leila Μ. Luheshi, Gian Gaetano Tartaglia,Ann-Christin Brorrsson,Amol P. Pawar, Ian Ε. Watson, Fabrizio Chiti,Michele Vendruscolo,David A. Lomas,Christopher M. Dobson,Damian C. CrowtheriPloS Biology (www. plosbiology. org),2007 年 11 月,卷 5,
11期,e290)在無結構校正的情況下計算絕對聚集傾向
執行上沭方法的計算機系統實例現在參考圖la,其中顯示了用于執行上述方法的計算機系統的示意圖。通用的計 算機系統100包括處理器100a,其偶聯于貯存執行所述方法的計算機程序代碼的程序存儲 器100b,偶聯于工作存儲器100d,并偶聯于接口(interface) IOOc如常規的計算機屏幕,鍵 盤,鼠標,和打印機,以及其他的界面如網絡接口,和軟件接口如數據庫接口。計算機系統100接受來自數據輸入裝置104的使用者輸入,所述數據輸入裝置如 鍵盤、輸入數據文件、或網絡接口,并提供輸出給輸出裝置108如打印機、顯示器、網絡接 口、或數據存儲裝置。輸入裝置104,例如網絡接口,接受的輸入包括蛋白質的氨基酸序列以 及適合于多肽環境的任選的PH和溫度值。輸出裝置108提供的輸出包括下列的一個或多 個-.Af, Ζ^,ΖΓ, Zaggs和Zagg。例如,可以提供聚集傾向模式或聚集傾向圖表(例如,如在后 圖中所顯示)。計算機系統100偶聯于數據存儲器(data store) 102中,所述數據存儲器存儲疏 水性數據,折疊傾向數據(本身作為傾向數據或在自由能方面),任選地α-螺旋傾向 數據(見下),和電荷數據。存儲的這種數據是關于每種氨基酸(殘基)的;任選地存儲對 應于不同的PH值和/或溫度值的這些數據類型中每種的多組。在舉例說明的實例中,計算 機系統顯示與α-螺旋傾向確定系統106和局部結構穩定性確定系統107連接。可以將這 些中的一個或兩個作為單獨的機器進行,例如通過網絡偶聯于計算機系統100,或可以包括 在計算機系統100上運行單獨的或整合的程序。無論使用哪種方法,這些系統接收序列數 據并又提供α-螺旋傾向數據和局部結構穩定性數據(In Pi)。如舉例說明的,計算機系統100還可以向自動肽合成儀112提供數據輸出110,例 如238/或2388。以這種方式,可以對計算機系統100進行編程從而自動比較多種多肽的性 質并選擇預期具有自動合成的有利性質的那些多肽的一種或多種。適合的自動肽合成儀的 實例是ABI 433A肽合成儀(來自應用生物系統(Applied Biosystems)) 0α-螺旋傾向可以通過簡單地在關于每種氨基酸的傾向值表中查找關于序列的每個氨基酸的 傾向值來確定α-螺旋傾向。備選地,可以使用α-螺旋傾向計算程序,例如獲自MMlZZ www. embl~heidelberg. de/Services/serrano/agadir/agadir-start. html 的 AGADIR 代 石馬,或獲自 http //npsa-pbil. ibcp. fr/cgi~bin/npsa automat, pi ? page = npsa gor4.html的G0R4代碼。任選地,可以考慮pH和溫度β折疊傾向、疏水性、和電荷下表給出了 20種天然氨基酸的疏水性、β-折疊傾向和電荷的等級。 a基于從水到辛醇的分配系數,20種氨基酸殘基在中性pH的疏水性值。數據來自參考 文獻30中的表4.8的第6欄。
bWO (高β-折疊傾向)到1 (低β-折疊傾向)標準化的20種氨基酸殘基的β-折疊傾 向。數據來自參考文獻29的表1的第4欄。由于難以通過實驗確定,未報道脯氨酸的 β-折疊傾向。甘氨酸的β-折疊傾向來自理論計算。 e電荷值是在中性pH的值。
d當組氨酸殘基帶正電荷時,括號內的值是在低于6.0的pH的值_關于脯氨酸,沒有獲得折疊傾向值,并且因此當評價上述方程(1)時,可以忽 略脯氨酸殘基,可以使用任意值(例如1,如果β-折疊傾向以自由能的方式表示),或對應 于另一種氨基酸的值。模式值可以確定序列的每種氨基酸的模式值,例如通過計算極性/非極性交替的數量 直到其達到5以上,并接著將例如+1的模式值(Ipat)分配給交替序列中的每個氨基酸進 行(可以將這些值進行標準化從而使,例如在長度為5的交替序列中的每種氨基酸具有 +0.2的值)。交替的親水性(“P”)/疏水性(“ΝΡ”)模式導致增加的聚集傾向。優選使 用5個以上的殘基,因為這似乎是可以在β折疊促進(· Δ · Δ ·)模式和α-螺旋促進 (· Δ · △ △)模式之間進行區分的最少數量的交替殘基。更長的交替序列可以給出更大的 值,例如對于長度為9的交替氨基酸鏈,為+2。任選地,關于抑制聚集模式(例如親水性氨 基酸的鏈,或一些特定氨基酸如脯氨酸的鏈),Ipat可以通過負值,例如-ι來給出或調整。可以將在 Roseman 等級[Roseman, M. A. , Hydrophilicity of polar amino acid side-chains is markedly reduced by flanking peptide bonds (極j"生M基酸偵!J鏈白勺親 水性被兩側的肽鍵顯著減少).J Mol Biol (分子生物學),1988. 200(3) :p. 513-22]上具有 (-0. 5的親水性值的殘基認為是疏水性的,而將具有> 0. 5的值的那些認為是親水性的。 備選地,可以使用下列分類疏水性ala,val, phe,ile,leu, met, tyr,trp ;疏水性asp, glu,lys,arg,his, ser,thr,cys,gin, asn ;甘氨酸可以是疏水的或可以被認為是中性的。局部結構穩定性(保護因子)可以將殘基i的保護因子定義為在無結構的肽中觀察到的固有比率免產與觀察到 的酰胺氫交換比率h之間的比率,即,PH/"汰。局部結構穩定性數據(In Pi)可以通過確 定從訓練的神經網絡(trained neural network)進行InP模式的傅里葉轉換的系數而確 定,所述訓練的神經網絡被訓練以擬合結構數據從而平衡氫交換測量 其中代表對來自埋藏(burial)的氫交換的保護,Λ^是關于位置i的酰胺氫的
氫鍵的數目,并且參數b。和bh分別給出產生范德華接觸和氫鍵的自由能分布。詳情可見于 CamP ;http//www-almost· ch. cam, ac. uk/camp, php。結果通過實驗,易于聚集的區域通過一系列不同技術得到鑒定,所述技術包括淀粉狀蛋白原纖維核心的聚集過程動力學的突變分析或淀粉狀蛋白原纖維核心的淀粉狀蛋白原 纖維高分辨率結構分析穩定性的突變分析,熒光技術,和關于從野生型蛋白提取的肽片段 的聚集的研究。這些探索提供了關于聚集過程的動力學的不同方面,以及淀粉狀蛋白狀態 的熱力學的不同方面的報告。由于我們進行的預測基于對聚集動力學進行的突變作用的分 析,我們對下面兩方面都感興趣評價對于促進聚集過程是最重要的區域的預測質量,和探 索在可能影響淀粉狀蛋白原纖維的形成和穩定性的這些方面和其它因素之間的關系。預測肽的聚集傾向我們首先提供對于參與淀粉狀蛋白病的少于50個殘基的四種肽的聚集傾向模式 的預測,即Αβ 1-42,降鈣素,胰高血糖素,和CA150的第二 Wff結構域(圖lb)。除了用上述 方法計算的固有的聚集傾向模式Zp,我們提供了第二種類型的模式Zps,其考慮了多肽鏈的 不同區域形成穩定的折疊結構的傾向(見上)。Aβ 1^42.我們鑒定了高聚集傾向(在中心(殘基17-22)和C端(殘基32_42)中 高于Zps = 1閾值的那些(上線))區域的兩種定位。這兩種區域都在以其淀粉狀蛋白形式 存在的Aβ _(26)和Αβ 1-42肽的目前的結構模型中具有重要的結構作用。聚集傾向模式 ZPS,其考慮了單體形式的Ah_42在溶液中采取永久構象的傾向,揭示殘基33-38的區域與 從固有聚集傾向模式Zp預測的相比,具有顯著更低的聚集傾向。這與最近的研究所取得的 結論相一致,即,在單體形式中,匪殘基34-37在兩條短β鏈之間形成β轉角。降鈣素.人降鈣素是一種參與鈣調節和骨動力學的32個殘基的多肽激素,其顯示 在患有甲狀腺髓樣癌的患者中作為淀粉狀蛋白原纖維存在。此外,原纖維還可以在被設計 用于治療應用的體外制備的樣品中形成,并且對其向患者的施用表現相當大的限制。通過 計算聚集模式Zps,我們預測了關于12個殘基的N端區域和關于殘基18-19和27-28的高 聚集潛力。通過實驗,已經將K18和F19鑒定為生物活性和自我裝配兩者中的關鍵殘基,并 且區域15-19 (DFNKF)已經顯示在體外寡聚化作用和原纖維形成中具有積極作用。我們沒 有預測這種短肽的單體形式形成永久結構的固有傾向,這與可獲得的實驗證據一致。因此, 固有聚集傾向模式Zp與Zps模式接近。胰高血糖素.胰高血糖素是一種29個殘基的激素,其參與碳水化合物代謝并輔 助調節血糖水平,因此用于治療低血糖癥。胰高血糖素已經顯示容易在酸性條件下形成淀 粉狀蛋白原纖維,并且N端和C端區域似乎對于原纖維形成是重要的,而中心區域(殘基 13-18和22)在確定原纖維本身的形態中具有主要作用。如Αβ 142和降鈣素的情形,胰高血 糖素在其單體形式不是高度結構化的,并且與這些結果一致,即固有聚集傾向模式Zp與Zps 模式接近。與實驗發現一致,我們預測在N端區域(特別是殘基Τ7和S8)和C端區域(特 別是殘基Q24和W25)中是高度易于聚集的。CA150. WW2.人CA150 (—種與亨廷頓病的亨廷頓蛋白共沉積的蛋白)的第二 Wff結 構域,是一種40個殘基的蛋白,已經顯示其在生理條件下在體外形成淀粉狀蛋白原纖維。 這種Wff結構域在淀粉狀蛋白原絲中的結構最近通過固態NMR光譜法進行了表征,顯示殘基 2-14和16-29組成了原纖維的核心。這些實驗結果與本文計算的那些一致,因為將超過Zps =1閾值的區域鑒定為殘基5-6和18-22的那些。預測球狀蛋白的聚集模式具體地設計本文提供的方法,從而包括對蛋白的氨基酸序列的那些從球狀狀態起始促進其有序的聚集的區域的預測。在這樣的情形中,在正常情況下需要對結構進行去穩 定以提高多肽主鏈和疏水側鏈的可及性從而有利于發生聚集過程。在本部分中,我們討論 了在所述條件下顯示聚集的兩種蛋白。溶菌酶.通過考慮從所述序列預測的天然狀態中的結構保護而計算的聚集傾向 模式Zps (圖中下線)沒有顯示超過Zps= 1閾值的任何區域。該結果與這樣的觀察一致,即, 在體外溶菌酶必須去穩定才能聚集,并且發現淀粉狀疾病僅作為使常見的突變去穩定的結 果。通過計算野生型人溶菌酶的固有聚集傾向模式zp,我們鑒定了超過Zp= 1閾值的5個 易于聚集的區域(殘基42-49,71-76,79-85,92-98和109-111)。這些預測根據最近的實驗 觀察是特別令人感興趣的,所述觀察即一旦轉化為淀粉狀蛋白狀態,包括殘基32-108的序 列區域對于蛋白水解具有高度抗性。為了闡明在保持折疊或聚集的傾向之間的關系,我們比較了在殘基特異性水平上 的結構保護和聚集傾向。通過Zp評分測量了聚集傾向,并且通過IogP評分測量了結構保 護,其提供了對于包括特定殘基的區域的局部穩定性的預測(圖3a)。在這種類型的繪圖 中,在繪圖的右下角發現最可能在聚集過程的第一階段起重要作用的以折疊狀態存在的高 聚集傾向和低結構穩定性的區域。我們預測殘基Leu25(螺旋)和His78(轉角)具有最高 的聚集傾向和最低的結構保護。有趣的是,在患有VIII型淀粉樣變性病的患者中分別突變 為Thr56和His67的殘基Ile56和Asp67 (鏈)顯示高聚集傾向和低結構保護。肌紅蛋白.通過考慮天然狀態的結構保護而計算的聚集傾向模式ZPS,沒有顯示超 過Zps = 1閾值的任何區域,這與肌紅蛋白應該被充分去穩定化才能聚集的事實是一致的。 這種情況可能對于天然蛋白是常見的。關于溶菌酶,我們鑒定了具有高固有聚集傾向的四 個區域,即超過Zp= 1閾值(圖2中的上線)的那些(殘基9-12,31-33,65-70和108-114), 其中一種與在體外發現高度易于聚集的肽片段(殘基100-114)部分重疊。在圖3b中,我們在個體殘基水平比較了聚集傾向(Zp評分)和結構保護(IogP評 分)。我們預測了殘基 Asp5,Gly6,(螺旋 4_19),Ala23(螺旋 21-35),Glyl25, Alal26,和 Aspl27(螺旋125-149)具有特別高的聚集傾向和低的結構保護。預測朊病毒蛋白的易于聚集的區域人朊病毒蛋白.一系列人和動物神經變性疾病,傳染性海綿狀腦病(TSEs),與 哺乳動物朊病毒蛋白的錯誤折疊和聚集相關。人朊病毒蛋白(hPrP)參與散發性的、遺 傳的或感染性形式的克洛伊茨費爾特-雅各布病(Creutzfeldt-Jakob disease) (CJD), 格-施-沙病(Gerstmann-Straussler-Sheinker disease) (GSS)和致命性家族性失眠癥 (fatal familial insomnia) (FFI)。與這些人類疾病相關的發病機理中的關鍵事件是將 朊病毒蛋白的正常富含α-螺旋和蛋白酶敏感性細胞同種型(hPrPe)轉化為富含折疊 的聚集形式(hPrPSe),其具有獨特的理化性質如蛋白酶抗性,不溶性和潛在的毒性。此外, hPrPSc本身似乎通過促進hPrPG轉化為其修飾的和致病的聚集狀態來介導TSE的傳播。盡管將hPrPG轉化為hPrPSe的機制尚未被詳細了解,hPrPG序列的特定區域似乎在 調節與hPrPSe的相互作用和促進淀粉狀蛋白形成的過程中是特別重要的。在圖3a中,我 們顯示了關于hPrP(23_231)序列的固有聚集傾向模式Zp。我們接著考慮了被結構化并且因此 被保護不聚集的各種殘基的固有傾向的作用(見上)。在后一種情形中,其考慮了固有的 基于序列的傾向和特定的結構因子,跨越殘基118-128的區域(在圖4a中的深色框)對應
16于完整序列中的最高峰,并且僅有一個對應于具有Zps > 1,提示該區域可能是多肽鏈的最 具致淀粉樣變性病性的區段。包含描述通過結構的存在來改變聚集的固有傾向的程度的術 語是我們以前關于無結構多肽描述的預測方法范圍(我們以前的專利申請,如上,結合作 為參考)的非常重要的延伸。通過僅考慮固有理化因子預測的聚集模式(圖4a)將對應于 α -螺旋II的區域180-186鑒定為最顯著的致淀粉樣變性病區域。然而,該區域以hPrPC 形式存在,是高度結構化的,并且從實驗數據顯示對于聚集其沒有殘基113-127的區域那 樣重要。在關于殘基1-125的Zp和Zps模式中的類似性與實驗觀察一致,即該區域不是結 構化的。此外,二硫鍵C179-C214的存在似乎在穩定該高度易于聚集的區域中具有重要作 用并且抑制分子間相互作用的形成。我們還計算了在包含八肽序列PHGGGWGQ的四個串聯 重復的銅結合區域附近的顯著聚集傾向,這與該區域在該蛋白的寡聚化過程中可能具有重 要作用的觀察是一致的。預測的聚集傾向模式Zp和Zps與關于hPrP片段的體外聚集行為的實驗數據良好相 關。重組hPrP的肽hPrP1Q6_114,hPrP1(16_126,hPrP113_126和hPrP127_147都具有形成淀粉樣蛋白原纖 維的較高傾向。hPrP1(l6_126具有聚合為直鏈和無支鏈的原纖維并誘導原代大鼠海馬培養物的 凋亡的特別高的固有能力(25)。hPrP113_126還能夠容易地聚集,盡管在這些制備物中的原纖 維在相同的起始肽濃度下豐度較低,并且相對于hPrP1(l6_126,其長度和直徑都減少。hPrP1Q6_114 和hPrP127_147與hPrP1(l6_126相比,都具有更低的聚集傾向,盡管前者轉化的原纖維在形態上類 似于由hPrP1Q6_126形成的那些,而后者形成扭曲的纖維結構。最近的報道已經鑒定了兩種其 它的肽片段,hPrP119_126和hPrP121_127,其可以容易地形成淀粉樣蛋白樣原纖維并且對于星形 膠質細胞可能是細胞毒性的。這些片段至少部分地包括該序列的區域118-128 (圖4a)。本文所述的關于人朊病毒蛋白的計算支持這樣的觀點,即結構因子對于確定通過 聚集傾向性部分折疊的狀態而自我裝配的蛋白的聚集率是重要的。我們發現在CJD中存在 所有的突變(http //www. expasy. org/uniprot/PRIO_HUMAN),例外是 D178N 和 V180I,與野 生型相比其具有更高的聚集傾向Zsagg (方程7)(表1)。表 1 關于與克洛伊茨費爾特-雅各布病相關的突變的總聚集傾向Zsagg(http://Ww. expaasy. org/uniprot/PRIO-HUMAN).除了 D178N和V180I之外的所有的突變都具有與野生 型相比更高的聚集傾向。
我們預測突變D178N和V180I增加螺旋172-189的保護,這導致所述蛋白的總聚 集傾向的減少。將在個體殘基水平的聚集傾向(Zp評分)和結構穩定性(IogP評分)的比 較顯示在圖5中。我們觀察到殘基120-123的區域具有最高的聚集傾向和最低的結構保護, 其次是重復序列84-91的區域。我們還標記與在上述表1中報道的CJD突變相關的位置。HET-S.酵母Podospora anserine的HET-s是參與異核體不相容性的朊病毒蛋白, 并且其與疾病不相關。HET-s已經顯示形成淀粉狀蛋白原纖維,其結構已經通過固態NMR, 結合位點定向熒光標記和氫交換方法來表征。在從HET-s的C端片段(殘基218-289)得到 的原纖維的結構模型中,每個分子貢獻4條β -鏈,其中鏈1和3 (殘基226-234和262-270) 形成平行的β-折疊,并且鏈2和4(殘基237-245和273-282)形成位于約10人遠處的另 一種平行的β -折疊。這些β _鏈分別通過β 1和β 2,以及β 3和β 4之間的兩個短環, 以及在β 2和β 3之間的無結構的15個殘基的區段連接。固有聚集傾向模式Zp的計算(圖4b)揭示在殘基5-22和245-289區域中的高聚 集傾向。HET-s的單體形式似乎在殘基1-227的區域中是結構化的,而在殘基228-289的區 域中是相對無結構的(9)。與這些結果一致,我們通過Zps模式確定在C端區域中的低得多 的聚集傾向(圖4b),所述Zps模式部分是由通過CamP方法(上文)關于此區域預測的極 高結構保護得來的。因此,預期包括殘基228-289的區域是主要的易于聚集的區域。該片 段,與片段1-227相反,保留在體外形成原纖維的能力,有效催化全長HET-s的聚集并且能 夠在體內誘導朊病毒增殖。此外,有限的蛋白水解實驗指示殘基218-289的區域位于原纖 維核心中。通過實驗鑒定為形成交聯β-結構的核心的那些的4條β-鏈(殘基226-234, 237-244,262-271和273-282)中的3條對應于HET_s的聚集傾向模式Zps中的主要的三個 峰(殘基242-245,260-267和278-289)(圖4b)。我們因此建議β _鏈1在穩定淀粉狀蛋 白原纖維的結構中起重要的熱力學作用,并且不可能直接參與聚集過程。在本文中我們已經描述了用于預測結構化和部分結構化的蛋白中對于促進其聚 集是最重要的區域的方法。我們的分析揭示可以基于氨基酸序列的知識,鑒定甚至從球狀 狀態促進聚集的區域。我們所提供的方法是通用的并且基于這樣的理念,即蛋白的序列決 定其在折疊和錯誤折疊情形中的行為。由方法如我們在本文提供的用于預測天然未折疊的 多肽鏈的促進聚集的區域的方法,用于預測球狀蛋白的促進聚集的區域的方法和用于預測 包含折疊和未折疊結構域的系統的促進聚集的區域的方法提供的可能性在生物技術中開 發避免聚集并且用于治療聚集性疾病的合理方法中有顯著的意義,因為其鑒定了決定聚集 的主要因子以及其中普遍存在這些因子的區域。毋庸置疑,技術人員將明了許多其它的有效備選方案。要理解的是,本發明并不限 于上述實施方案并且涵蓋對于本領域技術人員顯而易見的修改,所述修改在后附的權利要 求的精神和范圍內。
19
權利要求
一種鑒定在蛋白的氨基酸序列中的一個或多個在折疊的蛋白中被預測促進聚集的區域的方法,所述方法包括對于沿所述序列的氨基酸位置(i),確定在所述氨基酸位置的局部聚集傾向(Ai),所述局部聚集傾向通過組合關于所述氨基酸位置的疏水性值、α 螺旋傾向值、β 折疊傾向值、電荷值和模式值來確定;確定關于所述氨基酸位置的局部結構穩定性值,所述局部結構穩定性值包括在所述氨基酸位置的局部結構穩定性的量度;以及組合在所述氨基酸位置的所述確定的局部聚集傾向和在所述氨基酸位置的所述局部結構穩定性值從而鑒定所述氨基酸序列中一個或多個在所述折疊的蛋白質中被預期促進聚集的區域。
2.如權利要求1所述的方法,其中所述組合包括使用在所述氨基酸位置的所述局部結 構穩定性值來改變在所述氨基酸位置的所述確定的局部聚集傾向從而確定限定關于所述 折疊蛋白的聚集傾向模式的改變的局部聚集傾向,所述聚集傾向模式包括限定所述改變的 局部聚集傾向隨所述序列的氨基酸位置變化的數據;所述方法還包括在所述氨基酸序列中 鑒定所述一個或多個在所述折疊的蛋白中被預期從所述聚集傾向模式促進聚集的區域。
3.如權利要求2所述的方法,所述方法還包括為所述鑒定,僅選擇具有超過局部聚集 傾向閾值的所述聚集傾向模式的區域。
4.如權利要求2或3所述的方法,其中所述改變在所述氨基酸位置的所述確定的局部 聚集傾向包括通過對數?1調節在所述氨基酸位置的所述確定的局部聚集傾向,其中Pi包括 關于在所述序列中的位置i的氨基酸的結構保護因子。
5.權利要求1-4任一項所述的方法,其中在所述氨基酸位置的所述局部結構穩定性的 量度包括在所述氨基酸位置的所述折疊蛋白保持折疊狀態的傾向的量度。
6.權利要求1-5任一項中所述的方法,其中從所述蛋白的所述氨基酸序列確定在所述 氨基酸位置的每個所述局部結構穩定性值。
7.如前述權利要求中任一項所述的方法,其中在所述氨基酸位置的所述局部結構穩定 性值包括取決于在對于所述氨基酸位置的任一側的窗口內的總局部電荷的電荷門控值。
8.—種在蛋白質的氨基酸序列中鑒定一個或多個在折疊的蛋白質中被預測促進聚集 的區域的方法,所述方法包括關于沿所述序列的多個位置i,確定/ ,agg的值,其中外agg代 表在位置i的氨基酸的固有聚集傾向并且包括ph,Ps, Phyd和P。的函數,并且ph,ps, Phyd和 P。分別是在沿所述序列的所述位置i的氨基酸的α-螺旋傾向值,β-折疊傾向值,疏水性 值,和電荷值;關于沿所述序列的多個位置i,確定J/7值,其中J/7由下式確定Σ Pr ^ ^p Jr^cxzkIf窗口 ιV其中L表示在關于所述位置i的任一側的第一窗口內的氨基酸位置的第一總和,jpat窗口 1A是代表在位置i的親水性和疏水性氨基酸中一種或兩種的模式的模式值,是代表側鄰所 述模式或在其內部的電荷的電荷值,并且其中Q1, Qpat和α gk是比例因子;并且從關于沿所述序列的所述多個位置i的d廣值確定關于所述蛋白的聚集傾向模式,所述 聚集傾向模式包括鑒定相關聚集傾向關于沿所述序列的位置的變化的數據。
9.如權利要求8所述的方法,其中所述確定所述電荷值,助包括關于Σ的確定J/窗口 2值,其中Σ 表示在位置i的任一側的第二窗口內的氨基酸位置的第二總和,所述總和窗口 2包括在所述第二窗口內的所述氨基酸位置的電荷的總和。
10.如權利要求8或權利要求9所述的方法,其中所述確定所述聚集傾向模式包括從 JiP的每個值確定關于所述位置i的Z/^值,其中通過將取決于Ai的值乘以( 對數Λ α2--VJ來確定,其中%和α3是比例因子并且?1包括關于位置i的結構保護因子,所述結構 保護因子取決于在其折疊狀態,所述蛋白在位置i的結構被保護不聚集的程度。
11.如權利要求10所述的方法,其中所述取決于Ai的值包括關于所述位置i的Z/^的 值,其中Z^代表關于位置i的標準化的固有聚集傾向。
12.一種確定蛋白的聚集傾向的方法,所述方法包括使用前述任一項權利要求的方法 來鑒定在蛋白的氨基酸序列中的一個或多個在折疊的蛋白中被預測促進聚集的區域,并且 接著總計由所述局部聚集傾向確定的聚集傾向數據或Ai的值,其中所述總計包括基本上僅 在所述鑒定區域內總計。
13.一種確定折疊蛋白的總聚集傾向的方法,所述方法包括在蛋白的氨基酸序列中鑒定一個或多個在折疊的蛋白中被預測促進聚集的區域,其中 考慮局部氫交換和局部電荷對誘導聚集的氨基酸模式的抑制中的一個或兩個;并且接著 總計由沿所述序列的多個氨基酸位置(i)的局部聚集傾向值(Ai)確定的聚集傾向數據;其中所述總計包括基本上僅在所述鑒定的區域內總計。
14.一種制備具有氨基酸序列的蛋白的方法,所述方法的特征在于使用前述權利要求 中任一項的方法來鑒定蛋白的氨基酸序列中的所述一個或多個在折疊的蛋白中被預測促 進聚集的區域,或鑒定所述蛋白的總的所述聚集傾向。
15.一種確定蛋白的毒性數據的方法,所述方法包括使用權利要求1-13中任一項的方 法來鑒定蛋白的氨基酸序列中一個或多個在折疊的蛋白中被預測促進聚集的區域,或所述 蛋白的總所述聚集傾向,并接著使用所述蛋白的所述鑒定的區域或所述總的所述聚集傾向 來確定所述毒性數據。
16.一種鑒定蛋白中的藥物靶標的方法,所述藥物靶標包括所述蛋白的氨基酸序列的 靶部分,所述方法包括使用權利要求1-11中任一項的方法來鑒定蛋白的氨基酸序列中的 一個或多個在折疊的蛋白中被預測促進聚集的區域,,和接著使用所述鑒定的區域來鑒定 所述氨基酸序列被藥物靶向的所述靶部分。
17.一種鑒定與蛋白相互作用的藥物的方法,所述方法包括使用權利要求16的方法 來鑒定所述蛋白中的藥物靶標,和接著鑒定與所述氨基酸序列的所述靶部分相互作用的藥物。
18.如權利要求17所述的方法,其中所述鑒定包括篩選針對所述藥物靶標的候選藥物。
19.一種攜帶計算機程序代碼的載體,所述計算機程序代碼在運行時,執行前述權利要 求任一項的方法。
20.自動實驗室設備,其包括權利要求19的載體,所述設備被構造從而在所述計算機 程序代碼的控制下執行權利要求1-18任一項所述的方法。
21.—種控制自動多肽合成裝置來制備多肽的方法,所述方法包括控制所述裝置來根 據權利要求12或13確定蛋白的聚集傾向,使用所述確定的聚集傾向來選擇用于合成的多 肽,和接著控制所述自動多肽合成裝置來制備所述選擇的多肽。
22.如權利要求1-18任一項所述的方法,其中所述方法是計算機化的,所述方法還包 括將至少一個步驟的結果輸出到顯示器和存儲器中的至少一個中。
全文摘要
本發明涉及用于鑒定結構化(折疊)的蛋白中的易于聚集的區域的方法,涉及確定蛋白的聚集傾向的相關方法,涉及用于執行所述方法的計算機程序代碼和設備,涉及鑒定新的藥物和藥物靶標以及蛋白毒性的相關方法。一種鑒定在蛋白氨基酸序列中的一個或多個在折疊的蛋白中被預測促進聚集的區域的方法,所述方法包括對于沿所述序列的氨基酸位置(i),確定在所述氨基酸位置的局部聚集傾向(Ai),所述局部聚集傾向通過組合關于所述氨基酸位置的疏水性值、α-螺旋傾向值、β-折疊傾向值、電荷值和模式值來確定;確定關于所述氨基酸位置的局部結構穩定性值,所述局部結構穩定性值包括在所述氨基酸位置的局部結構穩定性的量度;以及組合在所述氨基酸位置的所述確定的局部聚集傾向和在所述氨基酸位置的所述局部結構穩定性值從而鑒定所述氨基酸序列中一個或多個在所述折疊的蛋白中被預測促進聚集的區域。
文檔編號G06F19/22GK101925902SQ200880125569
公開日2010年12月22日 申請日期2008年11月13日 優先權日2007年11月28日
發明者克里斯托夫·多布森, 吉安·加埃塔諾·塔爾塔利亞, 塞巴斯蒂安·佩奇曼, 米凱萊·文德魯斯科洛 申請人:劍橋企業有限公司