專利名稱::確定蛋白溶解性的方法
技術領域:
:本發明涉及在候選蛋白的表達文庫中篩選可溶候選蛋白表達的方法。所述方法包括將文庫中的每種候選蛋白融合到肽底物上,并且通過檢測所述肽底物的酶促修飾而鑒定表達可溶候選蛋白的細胞。本文引用的所有出版物、專利和專利申請通過參考完全結合于此。
背景技術:
:最近幾年來結構基因組已經引起了逐漸增加的興趣。蛋白結構的闡明對于增加對蛋白功能的理解并且由此促進藥物開發是重要的。蛋白表達和純化是這樣的研究的主要步驟,并且通常受到產生正確折疊的重組蛋白的能力的限制。應用大腸桿菌(Escherichiacoli(E.coli))表達系統進行結構和功能分析的蛋白制備通常受到形成不溶的細胞內蛋白聚集物(包涵體)、蛋白酶降解或缺少表達的干擾。大腸桿菌是一種常見的表達宿主,當迫使其過量產生非自身的基因產物時,其常常形成錯誤折疊的蛋白。這嚴重地限制了蛋白在諸如通過結晶學和NMR進行結構分析的領域內的應用,并且限制了目前結構基因組工程的綜合成功率。用于不溶表達蛋白難題的常規方法包括低溫表達,應用具有不同強度的啟動子、各種增強溶解度的融合標記(KapustRB&WaughDS.‘Escherichiacolimaltose-bindingproteinisuncommonlyeffectiveatpromotingthesolubilityofpolypeptidestowhichitisfused’.ProteinSci.1999Aug;8(8)1668-74),并且改進生長培養基(MakridesSC‘Strategiesforachievinghigh-levelexpressionofgenesinEscherichiacoli’.MicrobiolRev.1996Sep;60(3)512-38.綜述)。另一種克服這一難題的方法是通過從目的蛋白的氨基酸序列進行結構預測。將諸如同源性比對和二級結構預測的信息用于預測穩定的、可溶的結構域的位置。首先構建目標蛋白的剪截體或突變體,然后表達并且檢測溶解性。盡管持續地進展,但是完全‘推理性地’設計具有理想的特性諸如穩定性或可溶性表達的蛋白,至少到目前為止通常是不可行的。即使存在大量的結構和機械論信息,也很難預測所需要的必要的序列剪截體。關于氨基酸序列怎樣影響蛋白結構的每一方面,從其在異源宿主中表達的穩定性到其在非自身環境中折疊的能力,仍然只有很少的信息。實驗已經證明,蛋白特性的變化由許多小調整的累積效應引起,許多這些小調整沿著蛋白分子內的顯著距離分布或者擴散,并且目前生物信息程序不能準確地預測哪些剪截或突變將增加蛋白的可溶性。在常規結構工程中,可以構建幾十種克隆并且檢測可溶蛋白的表達。在這樣的工程中,可能的多樣性遠遠沒有得到充分地取樣,并且通常找不到解決方案。另外,由于許多蛋白從基因組序列預測而來,沒有已知的同源性,并且這限制了生物信息方法的作用。當標準方法不起作用時,可以證明高通量的篩選策略能有效地發現可溶的構建體。這些需要對大量的表達克隆進行準確的分析,以鑒定適宜的構建體用于結構確定。如果完整的蛋白不表達或結晶,下一步驟是產生剪截體或隨機突變體并且重新檢測。盡管(i)現有的方法允許產生非常大的表達文庫;和(ii)文庫含有可溶蛋白的機會隨著文庫的大小而增加,但是,由現有的篩選表達文庫的方法強加的應用局限限制了這一應用。希望表達可溶的或結晶形式的目的蛋白的實驗者的最終目的是合成目的蛋白的所有可能的變體,并且篩選它們的可溶表達。表達可溶蛋白的克隆可以直接應用,或者可以用于接種下一輪的文庫構建和篩選。這樣的實驗將產生大量的克隆,然后其必須進行可溶目的蛋白表達的篩選。已經描述了一些具有鑒定目的候選蛋白的可溶變體(通過隨機誘變或剪截而產生)目的的系統。在融合報道分子方法中,候選蛋白和具有易于檢測特征或生物活性的報道蛋白作為遺傳融合體進行表達。關于所述蛋白折疊狀態的信息可以來源于所述融合報道結構域的篩選或選擇活性。融合報道分子方法通常包括C端伴侶“可溶性報道分子”(例如,綠色熒光蛋白(GFP)、氯霉素乙酰基轉移酶(CAT)或β半乳糖酐酶)的融合。在GFP融合報道分子方法中,GFP的熒光產量提供關于其融合伴侶的折疊狀態的信息。表達融合到很差折疊的不溶蛋白上的GFP的細胞發出的熒光不如表達融合到很好折疊的可溶蛋白上的GFP的那些細胞亮。GFP監測檢測蛋白的折疊產量,其隨后進行沒有GFP標記的表達(WaldoGS‘Geneticscreensanddirectedevolutionforproteinsolubility’.CurrOpinChemBiol.2003Feb;7(1)33-8.綜述)。本發明人先前已經研發了一種融合報道分子系統,其基于生物素羧基載體蛋白(BCCP)作為蛋白-折疊標記的應用。在這一系統中,將來自大腸桿菌BCCP的生物素化結構域融合到檢測蛋白上。這一結構域正確折疊的二級和三級結構由內源宿主細胞生物蛋白連接酶識別,其將所述結構域生物素化。對于生物素基團的存在,表達正確折疊的檢測蛋白和BCCP結構域的宿主細胞將檢測為陽性(WO03/064656‘Proteintagcomprisingabiotinylationdomainandmethodforincreasingsolubilityanddeterminingfoldingstate’)。然而,存在與這些系統相關的問題,這限制了它們的適用性。自動折疊報道分子蛋白的應用(例如,GFP,CAT,β-gal或BCCP結構域),由于它們的巨大和可溶的性質,可以產生有疑問的假陽性率。由于所述報道分子可以耐受另外不溶的蛋白X片段或全長蛋白的融合,而其自身沒有變得不溶,所以這可以產生大量的假陽性率。當標記可以位于適當的位置,例如,當通過標記固定蛋白或者在純化的蛋白上進行生物化學分析時,這可以不是問題,但是,許多應用,例如,蛋白結晶學,需要通過蛋白酶分解或遺傳刪除而去除所述標記;通過處理一旦標記去除隨后就將聚集或降解的克隆而失去了許多時間和花費,并且因此是不可用的。對于融合蛋白,也可以在體內表達過程中通過蛋白水解而降解,其留下產生假陽性結果的可溶熒光報道分子。對于融合蛋白,諸如那些含有麥芽糖結合蛋白、谷胱甘肽-S-轉移酶、GFP、硫氧還蛋白的融合蛋白,這些作用是非常常見的,并且大概是一種普遍作用。因此,高度可溶的融合伴侶作為可溶性報道分子的存在強烈地擾亂了與之融合的蛋白的可溶性。此外,先前公開的大多數融合蛋白是大蛋白。例如,GFP融合增加了蛋白的大小約37kDa。在大腸桿菌中表達大融合蛋白是有困難的,其具有約100kDa的應用限制。當與實驗和序列/結構數據庫分析組合時,模擬研究可以幫助描述負責蛋白定型的主要進化因素。然而,這樣的研究的潛力還沒有得到充分地開發。因此,在本領域中,存在這樣的主要需求,即,研發一種在從克隆到結構確定的全過程中盡可能早的快速的、高通量的和可靠的篩選表達蛋白的方法,其允許選擇可溶表達的蛋白。適宜的方法應該允許大量含有不同變體序列的分子的高通量篩選,選擇步驟允許容易地鑒定具有提高的溶解度的分子。這樣的方法對個體蛋白變體表達文庫的高通量分析的服從性,特別當與突變或剪截方法策略組合應用以能夠鑒定并且分離不溶蛋白的可溶變體時,將使得有問題的蛋白的高水平表達的最優化更能夠獲得并且更不費力。另外,所述方法應該尋求i)將任何融合伴侶的干擾作用(pertubatoryeffects)減到最小,并且ii)應該將結構分析所需要的下游步驟諸如移除融合的標記的步驟減到最少;蛋白通常與小肽一起結晶,但是很少作為二結構域融合體結晶。發明概述本發明包括可以選擇不溶蛋白的可溶變體的機制。在這些機制中,可以操作、翻譯和表達不溶蛋白的編碼區,以確定特殊的操作是否產生可溶變體。因此,影響不溶蛋白的溶解的因素可以通過對其編碼核酸分子測序而確定。因此,所述機制還給出影響溶解性的蛋白特征的重要理解。按照本發明的一方面,提供了在多種變體候選蛋白中篩選可溶候選蛋白的方法,其中將每種候選蛋白融合到肽底物上,以致可溶的候選蛋白通過檢測所述肽底物的酶促修飾而得到鑒定。這種新穎的方法不依賴于展現出某種可檢測活性的肽底物本身,諸如在GFP情形中的內在熒光,或者在氯霉素乙酰基轉移酶情形中的酶促周轉。將這樣的肽用作溶解性報道分子的潛在原理是,只有可溶的分子是酶的有效底物。因此,只有當肽融合到可溶的候選蛋白上時,它才可以作為酶的直接底物,而不需要肽本身的折疊。然而,如果它被融合到不溶的蛋白上,那么它與肽-修飾的酶活性位點的相互作用由于空間和擴散原因而被嚴重地限制,并且將發生可以忽略的酶促修飾,這導致陰性的、未修飾的表型。另外,如果肽在大腸桿菌中獨立地表達(如果融合到基因或基因片段的閱讀框之外,這將發生),它們通常是不穩定的、易蛋白水解的,并且因此從細胞中去除,這又導致默認的陰性表型。所述方法適用于表達文庫的高通量分析,例如,當與蛋白剪截策略組合應用時。由于制備并且在單一步驟中檢測大量的變體,這極大地增加了成功鑒定可溶并且理想地高度表達的候選蛋白的機會。所述肽底物是小的并且惰性的,并且因此不能顯著地改變它與之融合的候選蛋白的物理特征。在這種情形中,術語“不顯著”,或者其變體,與物理特征的改變的關系意指在+/-50%之間或更少的物理特征的變化,例如,+/-45%或更少,+/-40%或更少,+/-35%或更少,+/-30%或更少,+/-25%或更少,+/-20%或更少,+/-15%或更少,+/-13%或更少,+/-10%或更少,或者更少。優選地,所述肽底物沒有改變與之融合的候選蛋白的物理特征。這樣的物理特征包括候選蛋白的溶解性、大小、電荷、折疊和組裝機制。特別的優點是候選蛋白的溶解性既不被干擾也不被增強。這限制了假陽性結果的發生,假陽性結果是現有技術方法中常見的并且與耐受另外不溶的蛋白片段的融合的大的、折疊的、可溶報道分子的應用相關。本發明的另一個優點是所述方法允許要制備的候選蛋白的產量和溶解性的定量分析以及定性分析。這允許使用者選擇編碼特別可溶的候選蛋白的克隆用于分析和/或操作和篩選的其它步驟。當用于本文時,術語“候選蛋白”可以是任何蛋白或肽,合成的或天然存在的,包括蛋白片段、多肽、多聚體蛋白、重組蛋白、融合體和雜交蛋白、抗體等。按照本發明,“肽底物”包括任何肽的短區域,其包括通過肽鍵和修飾的肽鍵彼此連接的氨基酸,即,肽等構物。這一術語是指5和20個氨基酸之間的短肽鏈,以及20和50個氨基酸之間的更長的肽鏈。這樣的肽可以融合到候選蛋白上,并且必須能夠作用為酶的底物,以致當可溶時,所述肽底物被酶促作用修飾。優選地,所述肽底物相對于與之融合的候選蛋白是小的。例如,在大的候選蛋白的情形中,肽底物的大小應該逐漸變小就不是那么重要,并且可以耐受稍微更大的肽底物,其不會干擾候選蛋白結構干擾并且因此引起假陽性結果。相反,在小的候選蛋白的情形中,所述肽底物理想地應該盡可能小。優選地,所述肽底物的長度不超過候選蛋白長度的20%;更優選地,不超過候選蛋白長度的15%;甚至更優選地,不超過候選蛋白長度的10%;并且甚至更優選地,不超過候選蛋白長度的5%。優選地,所述肽底物是短的,長度為50個氨基酸或更小,例如,45個或更少、40個或更少、35個或更少、30個或更少、25個或更少、20個或更少、15個或更少、13個或更少、10個或更少氨基酸、或更小。優選地,所述肽底物是線性的,并且沒有三級結構。這意味著,所述肽不能折疊成二級結構基序的有結構的、三維排列。優選的肽底物包括作為生物素蛋白連接酶的底物的肽。這樣的肽底物的一個實例是由Schatz(1993)和Beckett等.(1999)描述的15個氨基酸的肽[SchatzPJ(1993)Useofpeptidelibrariestomapsubstratespecificityofapeptide-modifyingenzymea13residueconsensuspeptidespecifiesbiotinylationinEscherichiacoliBiotechnology,11138-1143;Becket等.(1999)Aminimalpeptidesubstrateinbiotinholoenzymesynthetase-catalysedbiotinylationProteinScience8921-929]。這一肽的序列是GLNDIFEAQKIEWHE,并且還存在一些相近的變體。當與可溶蛋白融合時,所述肽作為生物素蛋白連接酶的底物,所述生物素蛋白連接酶是一種將生物素-AMP的生物素分子轉移到所述序列下劃線標記的賴氨酸殘基上的酶。當不融合,或者融合到不溶伴侶上時,它是效率很低的底物。用于生物素蛋白連接酶底物的肽底物的應用允許蛋白通過使用鏈霉抗生物素蛋白綴合物檢測而篩選溶解性。例如,可以應用蛋白質印跡類型或點印跡,其中鏈霉抗生物素蛋白-過氧化物酶綴合物可以用化學發光進行檢測,或者直接使用熒光標記的鏈霉抗生物素和熒光成像儀器例如AmershamTyphoon進行檢測。能夠與生物素結合的其它化合物包括中性抗生物素蛋白(neutravidin)、抗生物素蛋白和單聚體抗生物素蛋白。優選的肽底物還包括作用為共表達的激酶諸如例如酪蛋白激酶II(一種在真核細胞中普遍存在的絲氨酸/蘇氨酸蛋白激酶)的底物的肽。當與可溶蛋白融合時,肽(例如,RRRDDDSDDD)作用為所述激酶的底物,并且在特異性殘基(S)被磷酸化。如先前所述,當不融合,或者融合到不溶的伴侶上時,肽的有效的磷酸化不會發生。使用特異性的抗磷酸抗體檢測磷酸化的肽底物。抗磷酸抗體與磷酸肽的結合可以直接檢測,例如,使用熒光標記的抗磷酸抗體綴合物。正如有經驗的讀者應該理解的那樣,存在許多方法,其中所述肽底物可以被融合到候選蛋白上。例如,所述肽底物可以通過非共價鍵融合到候選蛋白上。所述肽底物可以在翻譯后融合到候選蛋白上,例如,通過內含肽生物學。優選地,所述肽底物可以通過共價鍵融合到候選蛋白上,例如,通過肽鍵,通過化學連接等。優選地,所述肽底物作為遺傳融合體,與候選蛋白形成重組融合蛋白而表達。在這樣的遺傳融合體的情形中,所述肽底物與候選蛋白成分的附著可以優選地使用編碼融合蛋白氨基酸序列的重組DNA構建體而獲得,所述重組DNA構建體使得編碼所述肽底物的DNA在編碼候選蛋白的DNA的相同的閱讀框內。所述肽底物可以位于候選蛋白的氨基或羧基末端,或者可以在蛋白內部,例如,作為位于候選蛋白結構外的環。優選地,將所述肽底物融合到候選蛋白的氨基或羧基末端。按照本發明,‘酶促修飾’包括肽底物的任何可被檢測到的修飾,例如,通過與標記或標簽結合,從肽上添加或者刪除化學部分,化學狀態的改變,諸如磷酸化、甲基化、乙酰化、遍在蛋白化、蘇素化、豆蔻酰化或糖基化而實現。例如,由于肽底物的適當設計,由修飾酶賦予的變化可以激活抗生素抗性基因的表達,這允許用抗生素選擇成功的候選子,或者激活表型標記基因的表達,諸如編碼綠色熒光蛋白或β-半乳糖酐酶的基因,這允許一種物理富集方法,諸如FACS(fluorescentactivatedcellsorting,熒光活化的細胞分類)。優選地,所述肽底物通過酶促反應而被生物素化。其它適當類型的修飾對于有經驗的讀者是顯而易見的。在一個備選實施方案中,所述肽底物可以以某種方式影響底物修飾蛋白的活性,例如,通過作用為酶促反應的輔因子,以致底物修飾蛋白的活性作為候選蛋白的溶解性的結果而被特異性地升高或者降低。在這種方法中,如果表達的候選分子是可溶的,那么可以基于底物修飾蛋白的活性或無活性,例如,用攜帶減輕突變的作用的肽的蛋白來互補(complementation)無活性的突變酶,而將編碼候選分子的具體的細胞分離出來。在按照本發明應用的優選的肽的情形中,所述肽為生物素蛋白連接酶的底物,所述酶促修飾是肽的生物素化狀態的改變。為了發生酶促修飾,需要存在一種能夠進行需要的修飾反應的酶。所述酶可以獨立地添加到反應混合物中,或者它可以內在包含在反應系統中,例如,在其中進行篩選方法的宿主細胞中天然表達。例如,所述細胞可以組成型地表達具有作為修飾底物-修飾酶的底物活性的蛋白。在一個備選實施方案中,所述宿主細胞轉化染色體外的元件,諸如質粒、附加體、人造染色體等,它們含有編碼肽底物修飾酶的多聚核苷酸序列。按照本發明,‘檢測’是指允許已經進行肽底物酶促修飾鑒定的任何適宜的方法。一旦被酶改變,肽標記必須在某些方面不同,以允許其與未改變的肽底物的區分。在這種方式中,可溶的候選蛋白可以與不溶的候選蛋白區分開來。檢測修飾的肽底物的適當方法對于本領域的技術人員是顯而易見的,并且當然,取決于要應用的修飾酶的特性。檢測可以是關于改變的肽底物或者未改變的肽底物。優選地,檢測是改變的肽底物的陽性檢測。例如,在本發明應用其生物素化狀態被改變的肽底物的優選實施方案中,選擇可以是關于生物素狀態的改變,并且可以利用由抗生物素蛋白和鏈霉抗生物素蛋白表現出的對于生物素的高結合親和力,以允許基于這一結合對的高結合親和力進行檢測。備選地,質譜可以通過監測質量變化而提供一種檢測標記修飾的方法。使用這種檢測方法,不需要結合伴侶。本發明候選蛋白的篩選可以在體外進行,例如,使用沒有細胞的翻譯系統,在其中候選蛋白被轉錄和翻譯而不是在細胞中表達。在這種情形中,在基因型和表型之間必須存在某種聯系,以致可溶的候選蛋白的選擇允許編碼核酸的伴隨選擇。這允許所述方法的重疊合法(deconvolution),以致引起可溶蛋白產生的有利序列特征可以得到評估。本領域已知適當的方法。例如,最近在國際專利申請WO99/02671中發表的一種體外系統報道了用水-在-油乳狀液制備的微膠囊的應用,以區分并且因此分離翻譯系統的成分。優選地,候選蛋白在宿主細胞中表達。正如有經驗的讀者應該理解的那樣,候選蛋白在其中表達的任何宿主細胞系統都應該是適宜的,包括原核表達系統,諸如鏈球菌(streptococci)、葡萄球菌(staphylococci)、大腸桿菌、鏈霉菌(Streptomyces)和枯草芽孢桿菌(Bacillussubtilis)細胞,和真核系統,諸如酵母菌(例如,釀酒酵母(S.cerevisiae)和曲霉菌(Aspergillus)細胞)、昆蟲細胞、植物細胞和哺乳動物細胞培養物。大腸桿菌是按照本發明應用的一種優選的宿主細胞,部分是由于它表達內源性生物素蛋白連接酶,其這樣允許在宿主細胞自身內進行與候選蛋白融合的肽底物的修飾。這一機制的一種優點是基因型和表型之間需要的聯系維持在每個細胞內,并且因此所述方法允許對發現是可溶的候選蛋白的DNA序列進行分析。然而,通過在篩選之前將酶的編碼序列引入所述細胞,還可以應用與這種具體的肽相容的不表達生物素蛋白連接酶的其它宿主細胞。對于在宿主細胞中的表達,編碼候選蛋白的核酸序列,任選地作為具有肽底物的融合蛋白,應該被克隆到一種或多種適當的載體上。宿主細胞可以用這樣的載體轉化、轉染或轉導,以影響要篩選的候選蛋白的表達。適當的表達方法對于本領域的技術人員是公知的,并且許多方法由Sambrook等(如前所述)和Fernandez與Hoeffler(1998,eds.″Geneexpressionsystems.Usingnaturefortheartofexpression″.AcademicPress,SanDiego,London,Boston,NewYork,Sydney,Tokyo,Toronto)詳細地描述。一般地,將編碼基因置于控制元件的控制下,諸如啟動子、核糖體結合位點(用于細菌表達)和,任選地,操縱子,以致編碼需要的多肽的DNA序列在轉化的宿主細胞中轉錄成RNA。所述編碼核酸分子可以包括編碼控制序列的序列,諸如信號肽和前導序列,當需要時,例如,用于將翻譯的多肽分泌到內質網腔內,分泌到壁膜間隙中或者分泌到胞外環境中。這些信號對于多肽可以是內源的,或者它們可以是異源信號。前導序列可以通過細菌宿主在翻譯后加工中被去除。優選地,候選蛋白存在于同底物-修飾酶相同的細胞區室中。例如,生物素蛋白連接酶是一種細胞質蛋白,并且因此,潛在地用作這種酶的底物的候選蛋白應該保留在細胞質中。除了控制序列,可以必要地添加調控序列,其相對于宿主細胞的生長,允許調控多肽的表達。所述候選蛋白可以從重組細胞回收和純化以用于分析,例如,使用公知的方法,諸如硫酸銨或乙醇沉淀、酸提取和層析。然而,為了保持表型和基因型之間的聯系,必須應用某種方法來允許跟蹤所回收的蛋白的來源。更簡單的,可以將表達候選蛋白的宿主細胞裂解,并且分析所述肽底物的修飾。通過記錄可溶的候選蛋白來源的克隆的歷史(history)而保留基因型和表型之間的必要的聯系。例如,在本發明篩選可溶的候選蛋白在宿主細胞中表達的實施方案中,所述宿主細胞可以簡單地在硝化-纖維素膜上原位裂解,并且檢測所述肽底物的修飾,例如,通過用抗體、鏈霉抗生物素蛋白或其它識別所修飾的肽底物的檢測試劑進行印跡檢測。還可以使用專門的載體構建來促進蛋白純化,當需要時,通過將編碼本發明的多肽的序列與編碼促進可溶蛋白純化的多肽結構域的核苷酸序列連接而實現。這樣的純化-促進結構域的實例包括金屬螯合肽,諸如允許在固定的金屬上純化的六組氨酸標記和組氨酸-色氨酸組件,允許在固定的免疫球蛋白上純化的蛋白質A結構域,和用于FLAGS延伸/親和力純化系統(ImmunexCorp.,Seattle,WA)的結構域。在純化結構域和候選蛋白之間包含的可分解連接序列,諸如對于因子XA或腸激酶特異性的那些序列(Invitrogen,SanDiego,CA),可以用來促進純化。由生物素蛋白連接酶產生的生物素化的蛋白也可以使用抗生物素蛋白-衍生的瓊脂糖進行純化。所述載體還可以包括功能性選擇標記。所述功能性選擇標記可以是,例如,抗性基因,諸如卡那霉素、氨芐青霉素、殺稻瘟素、羧芐青霉素、四環素或氯霉素。所述載體還可以包括缺少關鍵元件的雙功能選擇標記,并且其中當用所述元件成功轉化細胞時,所述關鍵元件由核酸元件提供。所述雙功能選擇標記可以是,例如,抗性基因或報道分子基因,諸如lacZ基因等。當然,這些可能的排列可以混合,以致反應系統的一些成分從生物體的基因組表達,并且一些從染色體外的元件諸如表達載體表達。為了提高成功選擇可溶的候選蛋白的機會,所述反應系統應該在適于所述肽底物-修飾蛋白的活性的條件下溫育。例如,在當將外源底物修飾蛋白添加到反應介質中的情形中,應該將這一介質放置于適于所添加蛋白的活性的條件下。在當底物-修飾蛋白在本篩選方法所用的宿主細胞中表達的情形中,宿主細胞應該在適于它們健康生長和適于所表達的蛋白的活性的條件下生長。在這樣的情形中,應該在所述系統中存在適當的轉錄和翻譯機制(machinery),以允許底物修飾蛋白從其編碼基因表達。在大多數情形中,這一機制應該來源于細胞自身。所述方法允許篩選多種候選蛋白變體。實際上,所述方法的一個長處是它允許非常大量的不同變體平行地進行活性篩選。這意味著,如果需要,由于所述方法適于高通量的分析,所以,可能對于一種或多種具體的蛋白的全部或非常大量的可能變體進行窮盡的篩選。制備文庫的方法在本領域內是公知的。例如,剪截基因的文庫可以通過核酸外切酶III消化進行構建(Ostermeir&Lutz,“ThecreationofITCHYhybridproteinlibraries”,在MethodsinMolecularBiology第231卷第129-141頁)。例如,為了鑒定已經證明很難溶解的蛋白的具體的可溶變體,可以制備剪截體的文庫。這樣的文庫可以含有,例如,在所述蛋白N端和C端任一端或者兩端的漸進的單個或多個氨基酸剪截。在一個優選的實施方案中,制備并且檢測了蛋白的所有可能的剪截。為了合理地確定已經進行了窮盡篩選,有必要將每種剪截體過量采樣至少3倍,優選地至少5倍,更優選地至少10倍。剪截體文庫可以是增加的剪截體文庫,其中候選蛋白的一端固定,并且另一端可變。例如,可以將C端固定,并且N端可變,或者將N端固定,并且C端可變。作為這樣的策略的一個實例,對于一種770個氨基酸的蛋白,存在670種剪截體,其產生長度大于100個氨基酸的蛋白(對于在大腸桿菌中表達和篩選的蛋白的近似實踐更低的大小限制)。在DNA水平上,這對應2010個核苷酸。10倍的過量取樣將需要構建并且篩選20,100個克隆。這些克隆的三分之一將在閱讀框內,而三分之二將含有移碼,并且因此不表達有用的肽-標記的蛋白。剪截體文庫可以是內部片段文庫,其中所述候選多肽已經在兩端被剪截。這避免了這種情形,即,其中具體固定的末端引起一些出乎意料的和不可預知的問題,例如,表達問題,其因而導致有偏倚的或無用的結果,例如,易于細胞蛋白水解或與細胞毒性相互作用。對于“N”個殘基的一種具體的蛋白,存在大約N2/2個片段。為了確保蛋白編碼序列在兩端處于正確的方向并且在閱讀框內,需要18倍的過量取樣。以編碼500個氨基酸的蛋白的基因為例,這產生兩百萬個可能的連接產物;因此,10倍的過量取樣意指必須取樣200,000,000個克隆的文庫。剪截的方法是本領域的技術人員已知的。影響這種類型剪截的最簡單的方法是使用各種遺傳工程的公知技術,以在任一端或兩端選擇性地刪除編碼核酸序列,并且然后將所需要的編碼序列插入到選擇的載體中。優選地,使用3’和/或5’核酸外切酶策略分別選擇性地去除編碼核酸的3’和/或5’端,而產生候選蛋白的剪截體。用于產生剪截體文庫的一種優選技術是使用核酸的可控的或隨機的核酸外切酶III消化,優選地與限制性內切酶消化的應用組合。例如,某些限制性酶在產生3’突出端的位點切割(例如,NsiI)。其它的在產生5’突出端的位點切割(例如,Not1)。通過在這些位點的其余的一個位點切割,并且使用3’和/或5’核酸外切酶,并且將反應溫育可控的時間階段,可以獲得消化的選擇程度和方向。適于應用本發明的方法的適宜載體構建的實例在本文包含的實施例中描述。備選地,使用隨機引物對目標基因進行PCR擴增可以用來產生在兩端剪截的基因片段(Kawasaki等,RandomPCR-basedscreeningforsolubleproteinsusinggreenfluorescentprotein,Biochem.&Biophys.Res.Comm.2001第280卷第842-844頁)。其它等價方法包括DNAseI消化、超聲和點沉式片段化(pointsinkfragmentation)。可以制備其中已經制備了突變變的變體文庫。誘變可以是隨機的誘變,或者可以是合理的、定點誘變。適宜的操作方法應該時本領域的技術人員已知的,并且包括點誘變(錯誤傾向的PCR、化學誘變、特異性突變宿主株系的應用)、循環全體誘變(recursiveensemblemutagenesis)(Delagrave和Youvan(1993)Bio-Technology,111548-1552)、組合盒式誘變(Black等.,1996)、DNA改組(Stemmer等.,1994)或者通過密碼子置換誘變而實現。對于最近在體外重組方法中的改善的綜述,參見Giver和Arnold,1998(CurrentOpinioninChemicalBiology,2(3)335-338)。例如,一種或多種具體的氨基酸可以選擇性地從野生型序列突變到另一種氨基酸。這樣的突變體可以包括變體候選蛋白,其中一個或多個氨基酸殘基被保守或非保守的氨基酸殘基取代(優選地保守氨基酸殘基)。例如,高構象撓性的殘基諸如Arg或Lys可以與低熵的那些殘基諸如Ala交換,目的是提高結晶的均一性,以便獲得更好質量的蛋白晶體用于X-射線分析。這樣取代的氨基酸殘基可以或者可以不是由遺傳密碼編碼的氨基酸。典型的這樣的取代在Ala、Val、Leu和Ile之間;在Ser和Thr之間;在酸性殘基Asp和Glu之間;在Asn和Gln之間;在堿性殘基Lys和Arg之間;或者在芳香殘基Phe和Tyr之間。特別優選的是這樣的變體,其中一些,即,在5和10之間,1和5之間,1和3之間,1和2之間或者只有1個氨基酸被取代、刪除或以任何組合添加。特別優選的是不改變蛋白的功能性特性或活性的取代、添加和刪除。在這一點上還特別優選的是保守的取代。這樣的突變體還包括其中一個或多個氨基酸殘基包括取代基團的多肽。可以制備變體文庫,其中插入片段已經被加入到序列中,例如,一個或多個氨基酸的序列,或者一段氨基酸序列以便,例如,在所述候選蛋白中形成或者刪除環。特別地,如果包含親水氨基酸,那么可以導致候選蛋白的溶解性的增加。然后篩選這些候選蛋白文庫的表現出最大程度溶解性的具體的變體。按照本發明的這一方面,候選蛋白的文庫可以含有多于103個不同的克隆,,多于105個不同的克隆,多于106個不同的克隆,多于107個不同的克隆,多于108個不同的克隆或者甚至更多。優選地,所述文庫含有表達候選蛋白的每一種可能的剪截體和變體的克隆。由于所有可能的剪截體的產生和檢測極大地增加了成功的機會,并且允許分析大量的數據,所述數據可以將溶解性變化與蛋白序列特征聯系起來,所以這是有利的。此外,所有位置的全面篩選允許一種確定要放棄的實驗應該只獲得陰性結果。克隆的文庫可以包括多種轉化的細胞,其每個細胞表達不同的候選蛋白。這樣的文庫可以通過用適當載體的文庫轉化細胞制備物而產生。在適當的條件下,用這樣的載體的轉化可以這樣進行,以確保基本上在文庫的每個細胞中只有一種類型的候選蛋白表達。這將從所述核酸表達的蛋白限制在相同的細胞內,并且促進編碼目的分子的核酸的選擇;如果每個細胞包括多個核酸分子,那么當分離所述細胞時,將不會清楚是哪一種核酸分子編碼了引起所需作用的蛋白。形成本發明的部分的改進的選擇技術允許簡單應用反復分子進化循環,以致可以通過一系列的重復攜帶大容量的潛在的候選子。優選地,表達高度可溶候選蛋白的克隆應該從克隆的文庫獲得,無需任何其它操作。然而,為了最優化已經通過本發明方法鑒定為可溶的候選蛋白的溶解性,可以必要地或理想地進行反復的序列改變和篩選步驟。例如,初始文庫篩選可以選擇許多具有增加的溶解性的候選子,盡管這一文庫將顯著地受到表達不溶的或不穩定表達的蛋白的克隆的污染。然而,使將在第一輪篩選后選擇的可溶的候選子用作下一代候選子的親本,反復循環允許所述過程被重復;通過進行額外的序列改變和篩選步驟,可以將這些可溶的候選子進一步向可溶性進化。庫的含量將愈加被更多的可溶(“更適合的”)候選子占據。在一系列的反復循環后,可以采用成功的候選子庫并且操作以產生新的文庫,用來在更嚴謹的選擇標準下開始新的系列的反復循環。優選地,只進行操作和篩選步驟的一次反復,更優選地3次,更優選地4次或更多次。自動化操作的可能性可以允許應用更多的循環,如果需要,可能超過100、500或1000次。為了將本發明的方法用到其在高通量篩選方法中的完全的潛力,必要地所述篩選可以在與文庫大小相稱的規模上起作用。為了充分利用這種類型的技術的潛力,克隆挑選器和陣列機器人的應用應該用來將平板化的轉化轉換成有秩序的文庫,并且篩選這些的陽性克隆。理想地,每個克隆給予一個與在平板中具體的孔相對應的“地址”。條形碼的應用可能使這容易。任選地,所述文庫可以準確地安全地復制。優選地,使用與96腿(pin)挑選頭等組合的視頻技術,克隆的篩選和選擇是自動化的。384孔平板可以通過允許更多的克隆進行篩選而促進這一過程。使用這一技術,每小時大約2500個克隆的挑選速度是很容易獲得的。在將本發明方法付諸應用的優選的方法中,將轉化子文庫作為接種子排列在覆蓋LB瓊脂的硝化纖維素膜上,形成集落點陣(colonyarray)(Buessow等,1998NucleicAcidsResearch第26卷,第5007-5008頁)。誘導蛋白的表達,例如,通過將所述膜轉移到含有IPTG和生物素的瓊脂上,并且使細胞在適宜的溫度生長3小時。然后將細胞在原位裂解。然后對于蛋白和/或DNA內容物,進行大規模的點印跡分析。以這種方式,每22×22cm的膜上,可以排列并且檢測60,000個克隆。由于克隆本身作為表達容器,并且表達和檢測這樣多的克隆的管理(logistics)極大地被簡化,所以,應用這樣的檢測形式在將克隆表達在微量滴定平板上具有優點。如果排列在容易去卷積的(deconvolutable)幾何點陣中,表達水平和溶解度水平的定量通過應用點陣分析軟件而更容易;克隆可以相對表達水平排列并且按先后次序排列。所述方法允許容易的、平行的處理大量的檢測點并且簡單的將檢測點追溯回到物理的初始克隆。這樣的處理優選地是受軟件控制的。在這種類型的方法中,通過將具有克隆的膜置于浸透氫氧化鈉的襯墊上將細胞原位裂解后,將來自排列克隆的細胞蛋白保存在膜上。蛋白可以通過針對標記的抗體檢測,所述抗體對翻譯后修飾(例如,生物素化)不敏感,并且這允許對蛋白產量進行評估,盡管沒有顯示蛋白的溶解性狀況。更重要地,可以使用對克隆的溶解性狀況敏感的檢測方法,例如,在指示溶解性的蛋白翻譯后生物素化作用的情形中,鏈霉抗生物素蛋白結合提供了關于所述標記是否已被修飾的讀出結果,而檢測所述蛋白。另外,關于表達條件的有用信息可以通過比較抗體和鏈霉抗生物素蛋白信號,例如,在XY分散圖表中,由此允許評估可溶的總蛋白的分數而獲得。如果將鏈霉抗生物素蛋白綴合到過氧化物酶或堿性磷酸酶上,檢測可以通過化學發光進行,或者綴合到熒光染料上,顯現可以通過熒光成像進行。然后,可以將鑒定為生物素陽性的克隆從文庫分離,并且在常規方法中檢測,以驗證可溶表達。可以將表現出生物素陽性表型的這樣的克隆生長在液體培養基中,通過加入IPTG誘導蛋白表達,并且通過裂解證實溶解性狀況,并且隨后將裂解物分成不溶的和可溶的制備物,例如,通過離心或過濾。然后可以對蛋白進行分析和特征性描述,諸如通過SDS-PAGE和蛋白質印跡。因此,用抗體和鏈霉抗生物素蛋白探針復制膜的比較允許具體的變體例如剪截體的溶解性狀況的讀出結果,表達或者沒有表達,可溶的或者不溶的。在這種方式中,可以產生“表達圖譜”,其允許測定單一氨基酸剪截體的溶解作用。當設計用于蛋白表達的構建體時,這是結構生物學家需要的信息類型,并且可以導致對影響蛋白表達的因子的更深的理解。更詳細地,克隆可以測序,以鑒定剪截體的確切身份,并且鑒定連接和復制。使用這些數據,可以將克隆按照從在可溶表達圖譜(圖6)中獲得的信息的表達水平和大小進行先后順序排列,其與針對編碼基因序列中的剪截點的構建體的溶解性相關。如可從圖6看出那樣,在描述按照編碼基因序列排列的各種克隆的溶解性程度中明顯地存在一定程度的次序。相似的溶解度水平在具有連續剪截的構建體中是明顯的(參見通過標記點所畫的直線),并且據信,這些與溶劑暴露接頭中的連續殘基區域相對應。相反,低溶解度的缺口在屬于蛋白結構區域(參見圖11中標記為“結合結構域”的區域)的剪截界線是明顯的。在本文中假設,這種類型的分析允許對蛋白剪截變體的溶解性進行窮盡分析,以揭示關于蛋白結構諸如結構域邊界的信息,和蛋白一級結構中的殘基的溶劑暴露程度。因此,在另一方面,本發明提供用于獲得關于蛋白結構信息的方法,所述方法包括進行按照上述本發明的任一實施方案篩選的方法,并且將關于每種構建體的溶解性的信息與蛋白序列的剪截點相聯系。優選地,通過將構建體的溶解性針對編碼基因序列中的剪截點作圖,將從本發明的任一實施方案獲得的數據用來產生可溶表達圖譜。溶劑暴露接頭區域被鑒定為具有顯著可溶性的連續殘基區域。在溶劑暴露接頭區域之間的缺口被鑒定為蛋白序列中的結構區域。溶劑暴露殘基和結構區域之間的拐點被鑒定為蛋白序列內的結構域邊界。在進行上述點陣形式的表達檢測之前,應該通過分析基因片段大小的分布而測定所述基因剪截文庫的質量。這樣的特征性描述應該典型地包括使用側連插入片段的引物進行的PCR篩選。這樣得到關于插入片段大小的概念。然后,通過使用在其識別位點中包含ATG的限制性酶(例如,NdeI)消化PCR產物,而證實起始密碼子。在點陣形式的表達檢測并且從所述文庫分離陽性子后,可以將克隆測序,以鑒定所述剪截體的確切身份。當與上述方法聯合時,應該優選地使用適當的對照,以確保考慮到假陽性和假陰性結果。例如,陽性對照應該使用一種已知在篩選所用的條件下是可溶的蛋白。陽性對照的一個實例可以是肽底物與之融合的麥芽糖-結合蛋白(MBP)。這種蛋白可溶地表達,并且因此經歷通過底物修飾蛋白進行的肽底物修飾。在本發明應用融合到候選蛋白上的生物素化肽的實施方案中,因此,陽性對照克隆將是融合到生物素化肽上的MBP。陰性對照可以是,例如,在肽編碼序列中含有移碼的克隆,以致所述肽不被表達或者表達但不會融合到可溶蛋白上。一種備選的、并且任選地互補的陰性對照克隆可以編碼一種符合所述肽的讀框(inframe)的不溶蛋白。由于是不溶的,所述肽將不能作為底物修飾蛋白的有效底物。本發明的其它方面涉及按照上述方法應用的試劑盒。例如,一種用于鑒定候選蛋白的可溶變體的適宜的試劑盒可以包括a)一種表達載體,用于在宿主細胞中表達變體候選蛋白;其中所述載體含有允許編碼候選蛋白的目的基因插入的限制性位點,以致編碼生物素化肽的序列遺傳性地融合到所述目的基因上;b)一種陽性對照載體,其表達遺傳性融合到編碼生物素化肽的核酸上的麥芽糖結合蛋白;c)一種如同b)中的陰性對照載體,但是其包括在生物素化肽編碼序列中的移碼,因此麥芽糖結合蛋白沒有被生物素化;和d)另一種陰性對照載體,其表達符合生物素化肽的讀框的不溶蛋白。所述試劑盒還可以包含關于產生編碼目的候選蛋白的基因的剪截體文庫和克隆所述剪截體以致它們融合到編碼肽底物的序列上的用法說明。現在將通過實例的方式更詳細地描述本發明的各個方面和實施方案。應該理解,在不背離本發明范圍的條件下可以進行細節的改進。附圖簡述圖1質粒pHAR1111,其編碼在3’末端符合讀框地與編碼生物素化肽的DNA融合的候選基因,并且所述基因5’末端的限制性位點設計成允許構成所述蛋白的N端剪截體系列。圖2質粒pHAR1112,其編碼在3’末端符合讀框地與編碼生物素化肽的DNA融合的人NF-κB基因,并且所述基因5’末端的限制性位點設計成允許構成所述蛋白的N端剪截體系列。圖3質粒pMAS106,其編碼在5’末端與相鄰物符合讀框,但是在3’末端不與在編碼生物素化肽的DNA符合讀框的人NF-κB基因,并且所述基因3’末端的限制性位點設計成允許構成所述蛋白的C端剪截體系列。圖4表達分析。照片1a顯示在立即裂解后使用針對肽標記的抗體探針的全部點陣。全表達(非溶解溶表達)是明顯的。圖5顯示指示可溶性的生物素化蛋白的鑒定的表達分析。在圖5a和5b中顯示6個中的1個視野,并且包括5×5點陣(每個視野24個平板)。通過鏈霉抗生物素蛋白-辣根綴合物結合而鑒定蛋白。結果從在細胞裂解前沒有誘導的(圖5a)和用IPTG誘導的(圖5b)復制點陣獲得。可以從第二張膜上看出IPTG-誘導蛋白表達的證據。使用成像分析軟件(VisualGrid;GPCBiotech),定量地分析幻燈片(5c)。圖6通過PCR,剪截的NF-κB剪截插入片段的大小顯示出隨機大小分布。圖7使用側連寡核苷酸引物,通過PCR衡量表達質粒的DNA片段大小。表達可溶的剪截NFκB蛋白的克隆可以組成2群,指示兩個結構域構建體的一種(大約25kDa和40kDa的預測大小)。圖8NF-κB蛋白的結構,顯示當從C端剪截時,兩個結構域蛋白片段之一的大小。圖9通過蛋白質印跡進行的48種最好的表達NF-κB的克隆的蛋白表達篩選。對于每一克隆,在總(T)和可溶(S)級分之間沒有顯著的差異,這表明通過所述篩選鑒定的克隆是可溶的。由于它是細胞中唯一另一種生物素化的蛋白,大腸桿菌內源BCCP蛋白的微弱表達也是可見的。圖10通過將在剪截的3’末端DNA測序數據的最后18個堿基對與全長基因序列相比對,確定準確的剪截末端。圖11編碼先前不表達的蛋白的基因的可溶表達圖譜,其使得溶解性與遺傳剪截點相關。在構建N端剪截體文庫的過程中產生的新的起始密碼子位置針對全長基因序列進行比對。在2400個位置中,61個顯示可溶蛋白表達。本圖顯示二元輸出(在閾值界限上的表達對不表達),然而,一些克隆比另一些表達得好得多(顯示了低和高表達克隆的實例)。圖12通過隨機篩選鑒定的可溶地表達NF-κB的構建體與預先確定的、全長蛋白結構的比對。結構域邊界的高分辨率定義(high-resolutiondefinition)從用點標記的克隆而顯而易見。存在1-和2-結構域構建體的最緊湊的形式。圖13使用蛋白質印跡分析確定的蛋白表達。將在質粒pHAR1111中的基因的剪截體文庫的96種陽性克隆生長在LB中。將細胞裂解,分離,并且將可溶級分通過用Str-HRP進行蛋白質印跡而分析。顯示了一些代表性的克隆。來自蛋白質印跡分析群的重組蛋白依照3種大小范圍(大約10,20,30kDa),如從圖11的可溶表達圖譜中可見。也顯示了內源宿主蛋白BCCP。圖14由質粒消化揭示的質粒pHAR1111(見圖1)的基因插入片段的大小分布。明顯地,這里進行的核酸外切酶剪截過程產生基因片段大小的線性和相對沒有偏倚的分布,這允許所有大小的目標基因的隨機剪截體的篩選。圖15質粒pHAR1111的隨機剪截基因的PCR分析結果,顯示在可溶性篩選前文庫中克隆樣品的大小分布。圖16由質粒pHAR1111中基因的隨機剪截體文庫克隆表達的蛋白的可溶性篩選。這里,點陣使用Alexa488熒光團綴合的鏈霉抗生物素蛋白探測,并且通過Typhoon熒光掃描儀(Amersham)捕獲圖像。表達可溶蛋白的克隆以一式兩份的形式顯示。圖17質粒pHAR1111的隨機剪截的基因的PCR分析結果,顯示表達可溶蛋白的剪截體的非隨機大小分布。圖18使用溶解性篩選鑒定的可溶蛋白片段的純化圖表。首先,將所述基因片段亞克隆到一種大腸桿菌表達載體中,以添加N端六組氨酸標記促進純化(圖19)。圖19pTriEX載體(Novagen)的衍生物,其用來亞克隆基因片段,以用于蛋白表達的按比例擴大。將TEV蛋白酶切割的六組氨酸標記添加到構建體的N末端,以允許親和性純化。圖20在將剪截的基因融合到麥芽糖結合蛋白上以輔助表達和純化后,獲得的從pHAR1111表達的蛋白的多結構域30kDa片段。圖2115N標記的蛋白的HQSCNMR譜分析結果,其證實從隨機文庫篩選鑒定的純化結構域除了高度可溶之外也是很好地折疊的。結果和方法實施例-用于下列各項的方法的概念證據1)編碼先前不表達的蛋白的候選基因,和2)編碼已知結構的蛋白的人NF-κB基因,用于驗證目的構建允許分析由目的插入基因編碼的蛋白N端剪截體的載體在溶解性篩選中通用的質粒最初通過將含有目的基因的載體與賦予剪截處理的相關特征的一起組裝而構建。這一初始構建體用于分析候選基因,但是還用作質粒的來源,用于通過將候選閱讀框直接、簡單置換成另一種而克隆任何其它目的基因。描述了含有候選基因的構建體的構建,之后描述了含有不同的、不相關基因,NF-κB的衍生構建體的構建。a)候選基因的PCR候選基因通過從含有開放閱讀框的先前的質粒進行PCR而克隆。按照提供的用法說明,PCR反應在50μl反應液中進行,使用PWO聚合酶(Roche)。在一種策略中,PCR構建使用了4種寡核苷酸引物,其中小的外部引物擴增由大的寡核苷酸引發而產生的初始擴增子(以增加反應效率)[5’GATCCTAGCATATGAAATGCATGGATCCGCGGCCGCTGAXXXXXXXXXXXXXXXXXXXXXXXXXXX-3’]60nMfor1其中X表示與省略ATG起始密碼子的候選基因序列互補的堿基,600nMfor2[5’-GATCCTAGCATATGAAATGCATGG-3’],60nMFse1rev1[5’-GATCCTAGGGCCGGCCXXXXXXXXXXXXXXXXXXXXXXXXXXX-3’]和600nMFse1rev2[5’-GATCCTAGGGCCGGCCXXXXX-3’]。PCR條件是94℃,2min,然后25個循環的94℃,30sec;45℃,30sec;72℃,2min。PCR在1%TBE瓊脂糖上電泳,切下條帶,并且使用QIAEXII試劑盒(Qiagen)純化DNA產物。為了產生克隆的插入片段,將1μgPCR產物用NdeI和FseI消化完全,然后通過QIAEXII凝膠純化2230bp的DNA片段。b)構建含有編碼生物素化肽的DNA和用于克隆候選PCR產物的適宜限制性位點的載體通過將2種寡核苷酸biot-1_for[5’-AGCTTGCTTGGTGGCGGTCTGAACGACATCTTCGAGGCTCAGAAAATCGAATGGCACGAATAATGAG-3’]和biot-1_rev[5’-AGCTCTCATTATTCGTGCCATTCGATTTTCTGAGCCTCGAAGATGTCGTTCAGACCGCCACCAAGCA-3’]退火而產生寡核苷酸盒。這被連接到pMAL-c2g[NewEnglandBiolabs]的HindIII位點,形成中間質粒pMAS103,然后將其用NdeI和FseI消化。將5521堿基對的片段(載體骨架)按上述進行凝膠純化,并且用Shrimp堿式磷酸酶(Amersham)去磷酸化。c)將PCR產物克隆到大腸桿菌表達載體中然后使用T4DNA連接酶(RapidLigationKit,Roche)將2230堿基對的候選基因連接到5521堿基對的pMAS103-源性的骨架上,并且隨后使用PCRQuick柱將反應物脫鹽,并且洗脫在35μl10mMTrisClpH8.0中。將大腸桿菌菌株DH5α用2μl的脫鹽連接反應物通過電穿孔轉化,在SOC培養基中復蘇1小時,并且接種到補充氨芐青霉素到70μg/ml的LB瓊脂上。從一些克隆分離質粒,并且通過限制性消化和DNA測序進行特征性描述,以證實構建的正確性pHAR1111(見圖1)。質粒pHAR1111用于候選基因的基因剪截體實驗。它還用作分析其它基因的起始載體通過用NotI和FseI進行質粒消化而將候選基因切下,并且通過使用具有由PCR引入的兼容NotI和FseI位點的連接基因,將備用基因插入到相對于開放閱讀框起始和終止密碼子的相同位置。例如,最初將人NF-κB基因突變,以沉默移除內部的NsiI位點。然后,將其使用寡核苷酸引物NFκBfor1[5’-GGATCCGCGGCCGCTGAGCAGATGGCCCATACCTTCAAATATTAGAGC-3’]和NfκBFseRev1[5’-GGGATCCGGCCGGCCCCTTCTGACGTTTCCTCTGCACTTCTTC-3’]通過PCR擴增,形成其中初始的起始密碼子已被移除的基因。將PCR產物用NotI和FseI消化,并且連接到源于NotI和FseI消化的pHAR1111的載體骨架中。這樣,以與由所述基因編碼的蛋白的N端刪除兼容的形式產生了NF-κB基因(載體pHAR1112;圖2)。概括來說,產生了2種相似的載體,其允許制備5’刪除的文庫pHAR1111,其含有先前不表達的候選基因;pHAR1112,其含有轉錄因子NF-κB基因,NF-κB是一種已知結構的蛋白,可以用于驗證目的。d)構建允許分析由插入的目的基因編碼的蛋白的C端剪截體的載體載體pMAS103(上文所述)形成能夠在目的基因3’末端進行消化的第二種構建體的基礎。這里,候選基因作為DNA片段全長克隆,其中起始密碼子(ATG)位于NdeI位點(CATATG)中,并且其中終止密碼子后接著與pMAS103載體的BamHI、XbaI、SalI或HindIII位點兼容的任何形式的末端(作為兼容性突出端或通過平端連接)。為了示例其,將人NF-κB基因通過NdeI和BamHI消化從另一質粒(pHAR307)上切下,所述質粒pHAR307含有融合到編碼C端六組氨酸標記(所述標記在本實驗中沒有意義)的DNA上的基因。將這一片段連接到通過NdeI和BamHI消化制備的pMAS103載體骨架上。概括來說,質粒pMAS106(圖3)含有與由所述基因編碼的蛋白的C端刪除兼容的形式的NF-κB插入片段。由于NF-κB的蛋白結構是充分特征性描述的,所以這隨后用于驗證目的。剪截流程(描述含有先前不表達的蛋白的基因的載體pHAR1111)剪截流程按照ITCHY方法(參見TheCreationITCHYHybridProteinLibrariesinMethodsinMolecularBiologybyOstermeier,M.&Lutz,S.,第231卷,第129-141頁)進行。簡要地,為了酶促剪截目的基因,將10微克質粒pHAR1111用NotI和NsiI消化完全。將4微克純化的、線性的載體稀釋在1×緩沖液1(NewEnglandBiolabs),80mMNaCl(除了在緩沖液中的NaCl之外)中,并且終體積是120微升。立即,將30微升移到150微升的PB緩沖液(Qiagen)中,形成t=0sec對照。向在22℃的剩余的90微升中加入150單位的核酸外切酶III,并且混合。在30秒的時間間隔,移出0.5微升的酶-DNA反應物,并且加入到在冰上的含有300微升PB緩沖液的單一“猝滅管”中。這總共持續1h,直到90微升的反應混合物被轉移。剩余的30微升形成t=1h對照,并且也加入150微升的PB緩沖液。使用PCR凈化(cleanup)離心柱(Qiagen),將3種反應物(t=0,t=1h和所述文庫)凈化,并且分別洗脫在30微升、30微升和50微升的EB緩沖液中。對照樣品在凝膠上分析,以驗證核酸外切酶反應(數據未顯示)。為了去除核酸外切酶消化后留下的單鏈突出端,將50微升的文庫混合物稀釋在1×綠豆核酸酶(MBN)緩沖液(NewEnglandBiolabs)中,并且加入3單位的MBN酶,終體積大約55微升。然后,將反應物在37℃溫育30min。將反應物使用PCR凈化離心柱凈化,并且洗脫在65微升EB中。在連接之前,為了使載體的末端光滑,將48微升文庫DNA稀釋在1×T4DNA聚合酶緩沖液(NewEnglandBiolabs)中,具有2.5mMdNTPs和1單位T4DNA聚合酶,終體積100微升。將反應物在12℃溫育20min,然后通過加入EDTA至10mM終濃度并且加熱到75℃持續20min而進行猝滅。將反應混合物上樣到0.5%TBE瓊脂糖凝膠上,并且進行電泳,以通過大小分離DNA片段。將目的大小范圍的DNA(>5.5kb)從凝膠上切下,用QIAEXII樹脂(Qiagen)純化,并且洗脫在60微升的EB中。與含有剪截基因片段的線性載體相對應的選擇大小的DNA通過用T4DNA連接酶連接而重新環化,按照制造者的用法說明,將8微升的QIAEXII純化DNA溶液與Roche應用科學連接試劑盒(RocheAppliedScienceLigationKit)的試劑一起溫育而實現。使用PCR凈化離心柱將連接混合物脫鹽,并且將2微升用于通過電穿孔轉化大腸桿菌DH5α感受態細胞。將轉化混合物在SOC培養基中復蘇后,將文庫接種到22cm方形瓊脂平板(Genetix,UK)上。在37℃過夜生長后,從瓊脂上刮下大約24,000個克隆,將克隆重懸在PBS中,并且使用miniprep試劑盒(Qiagen)從少量等分的細胞制備質粒。將這一質粒用于轉化大腸桿菌蛋白表達菌株,BL21密碼子+RIL(Stratagene)。通過用側面引物進行96個克隆的克隆PCR篩選和瓊脂糖凝膠電泳,而證實剪截體的平均大小分布。文庫的機器人操作.克隆挑選將轉化了質粒文庫的BL21密碼子+RIL以每平板大約4,000個克隆的密度接種到22cm方形LB瓊脂平板上(氨芐青霉素70mg/l;氯霉素30mg/l),在30℃生長。使用Kbiosystemsgridder-picker機器人,將26,880個克隆機械性地挑選到384孔平板中,所述平板每孔裝滿70微升的LB-HBFM培養基(補充了氨芐青霉素和氯霉素)。將液體培養物在30℃HiGro搖動培養箱中過夜生長達到飽和。網格到膜上剪切方形的硝化纖維素膜(Amersham),并且置于22cmLB瓊脂平板(補充了氨芐青霉素和氯霉素)頂部。使用網格釘工具和排列機器人,將培養物以高密度印到膜上。然后將平板在25℃培養過夜,直到克隆剛好肉眼可見。將膜從瓊脂上揭起,并且放到新鮮LB瓊脂平板(補充了氨芐青霉素和氯霉素)上,所述平板補充了終濃度為0.1mM的IPTG,以誘導克隆內的重組蛋白表達。在這一點上的立即裂解并且用針對生物素化肽的抗體檢測全部點陣,導致檢測到表達蛋白的克隆(可溶的或不可溶的;圖4)。將膜在30℃溫育4.5h,從誘導瓊脂上揭起,并且置于-80℃。在進行分析前,將膜溫育至室溫,并且在室溫下放到浸透了0.5MNaOH,1.5MNaCl的濾紙上持續10mins。然后,將膜在1MTrisHCl,pH7.5;1.5MNaCl中中和2×5min,然后在2×SSC緩沖液中持續15min。然后,將膜用Superblock(Pierce)封閉過夜。用鏈霉抗生物素蛋白和針對肽標記的抗體雜交表達蛋白的檢測將小鼠單克隆抗-生物素標記抗體(Avidity)1∶7,500稀釋在40mlPBS-T中,并且添加到膜上,在RollerBlot雜交烘箱(Techne)中在室溫持續2h。然后,將膜用PBS-T緩沖液洗滌,更換3次緩沖液,每次5min。將抗小鼠過氧化物酶綴合物1∶25,000稀釋在40mlPBS-T中,并且添加到膜上,在RollerBlot雜交烘箱(Techne)中在室溫持續1h。然后,將膜用PBS-T緩沖液洗滌,更換3次緩沖液,每次5min。使用辣根過氧化物酶的化學發光底物(AmershamECLreagent)和放射自顯影法進行蛋白檢測(圖4)。信號通過密度計量學進行定量。膜的剝離通過將膜在室溫下在剝離緩沖液(PBS;2%SDSw/v;100mMβ巰基乙醇)中溫育30min,而將抗體去除。然后將膜在PBS-T中洗滌30min,然后用Superblock封閉。生物素化蛋白的檢測通過在PBS-T洗滌5min而將過量的封閉試劑去除。將鏈霉抗生物素-辣根過氧化物酶1∶25,000稀釋在40mlPBS-T中,并且添加到膜上,在RollerBlot雜交烘箱(Techne)中在室溫持續1h。然后,將膜用PBS-T緩沖液洗滌,更換3次緩沖液,每次5min。使用辣根過氧化物酶的化學發光底物(AmershamECLreagent)和放射自顯影法進行蛋白檢測。圖5顯示了可溶蛋白鏈霉抗生物素蛋白篩選的結果。顯示了從沒有誘導的和在細胞裂解前用IPTG誘導的一式兩份點陣獲得的結果(分別為圖5a和5b)。IPTG-誘導的蛋白表達的證據可以在第二張膜上看出(5b)。除了上述化學發光方法外,一種檢測的備選的、更能定量的方法使用熒光,并且得到描述將候選基因的相同的文庫按上文制備成點陣,然后使用熒光Alexa488-鏈霉抗生物素綴合物(MolecularProbes)檢測生物素化的蛋白。然后,使用Typhoon成像儀(Amersham)掃描膜,并且使用軟件VisualGrid(GPCBiotech)分析圖像(Figure16)。數據分析將來自點陣的信號通過密度計量法定量,并且使用圖像分析軟件將克隆按表達水平排列(5c),并且按先后順序排列以備將來研究。在分析的27000個克隆中,由于數據表明可溶蛋白的表達,有大約300個選作將來分析。未選擇和選擇的克隆的分析使用gridder-picker機器人的重排列功能,將來自pHAR1111先前不表達的候選基因的文庫的克隆機械性地從冷凍庫提取,所述文庫從點陣數據被鑒定為表達可溶的、穩定的蛋白。使用兩側引物對96個克隆進行PCR篩選和瓊脂糖凝膠電泳,而篩選插入片段的大小。為了確定文庫的質量,在從文庫中隨機選擇的克隆上也進行相同的分析用來比較。隨機挑取的克隆的PCR結果在圖15中顯示。顯示這一PCR數據分析的圖表在圖14中顯示,并且它可以觀察到存在剪截長度的線性的并且相對無偏倚的分布。將PCR產物用NdeI消化,以確定起始密碼子。對于從熒光分析被鑒定為最好的可溶表達子的克隆的PCR分析顯示在圖17中,并且很清楚地,剪截體大小的分布不再是隨機的,而是大約相似大小的一群。第一批96個最好的表達子(相同的文庫但是來自更早的化學發光檢測方法)的蛋白表達通過蛋白質印跡進行驗證,并且通過表達裂解物基于過濾的分離(圖13)證實蛋白是可溶的,并且與預計插入片段大小相匹配。然后,使用載體特異性引物對先前不表達候選基因的可溶表達克隆進行測序,使用沿著剪截基因讀取的序列來鑒定剪截體邊界的確切身份(identity)和重復(這里相同的克隆被發現多次)。后者的發生是由于,平均起來,蛋白的每個位置被檢測7倍。使用這些數據,將實驗確定的克隆針對全長基因進行序列比對,形成可溶表達圖譜(圖11)。這樣的圖譜是獨特的,并且先前對于蛋白從未產生過。它闡明了蛋白中可以被剪截并且產生可溶蛋白的位置。鑒定了多個克隆,并且這些克隆可以通過下述各項而進一步按先后順序排列a)當用鏈霉抗生物素蛋白探測時,選擇在膜點陣上給出高信號即,很好地表達的那些克隆;b)當連續的氨基酸被鑒定為剪截點時,選擇最小的那些克隆。由于具有有序末端的緊密蛋白通常比具有附加的、無序肽的蛋白更有效地結晶,所以,當克隆用于X-射線結晶學時,后者是有利的。只有由于所述篩選方法的高通量性質使得可以進行實驗的過量取樣,這一信息的確定才是可能的。可以看出,在描述按照編碼基因序列排列的各種克隆的溶解性程度中明顯地存在一定程度的次序。在具有連續剪截的構建體中,相似水平的溶解度是明顯的(參見通過標記點所畫的直線),并且據信,這些與溶劑暴露接頭中連續殘基區域相對應。相反,低溶解度的缺口在屬于蛋白結構區域(參見圖11中標記為“結合結構域”的區域)的剪截界線是明顯的。在本文中假設,這種類型的分析允許對蛋白剪截變體的溶解性進行窮盡分析,以揭示關于蛋白結構諸如結構域邊界的信息,和蛋白一級結構中的殘基的溶劑暴露程度。這構成了本發明的另一方面。蛋白表達集落vs液體圖13顯示陽性克隆的蛋白質印跡分析,陽性克隆在LB培養基中生長,裂解并且分離成可溶級分。盡管可以區分出10kDa、20kDa和30kDa的3簇,這在可溶表達圖譜上也是明顯的(圖11),但是寬范圍的表達水平是明顯的。全長蛋白是86kDa,并且認為沒有更大的構建體是這種特殊目標物的結構的結果。這一結果還表明,在集落中測定的蛋白表達很好地與更標準的液體培養物形式相關聯。蛋白表達的規模化和進一步描述將上述鑒定為表達純化蛋白的一種遺傳構建體亞克隆到pTriEX衍生載體(Novagen)中(圖19),以便通過應用基于T7的更強的啟動子提高蛋白表達,并且通過添加可以通過TEV蛋白酶切割而被去除的N端六組氨酸標記而輔助純化。這一具體的構建體的表達良好,每升大約40mg,并且形成容易純化的物質。這通過純化級分的SDS-PAGE分析得到證明(圖18)。使用NMR,這里顯示的純化蛋白得到關于折疊性的進一步特征性描述,N15標記物質的HQSC譜在圖21中顯示。將這種具體的蛋白通過NMR進行全面結構解析,這表明它確實包括來自先前從未成功地過量表達的蛋白的折疊的、可溶的和球狀的結構域,因此證明本發明的有用性。這一克隆已經用于結晶學研究。另外,使用來自可溶表達圖譜的信息指導克隆選擇(圖11),已經產生了這一目標物的第二大的30kDa蛋白,并且其包括上述更小的結構域加另一種20kDa的物質。預計這包括至少2個結構域。這種蛋白有效地從pTriEX系統(圖19)和pMAL載體(NewEnglandBiolabs)表達,pMAL載體產生一種容易純化的麥芽糖結合蛋白融合體,這里所述融合體在圖20中顯示。分析NF-κB本發明應用已知結構的蛋白作為驗證目的的另一個實例上文詳細顯示的第一個實例是一種先前很難處理的蛋白,原因在于在本工作之前是不可能表達這種蛋白的。然而,為了進一步驗證本方法,考慮到還有必要在已知結構的蛋白上進行相同的處理方法。由于它具有非常確定的結構域結構,所以選擇了蛋白NF-κB。將pHAR1112用于N端剪截體(圖2),將pMAS106(圖3)用于C端剪截體,構建了2個文庫。除了在核酸外切酶剪截步驟之前,將pMAS106用FseI和XbaI消化以外,文庫按照上述實例進行構建。如上文那樣,通過用兩側引物對基因片段插入物進行PCR,而測定pMAS106C端剪截體文庫的質量,并且結果顯示在圖6中。使用上文所述Alexa488-鏈霉抗生物素蛋白綴合物的熒光方法分析集落點陣。使用gridder-picker機器人的cherrypicking功能,將陽性克隆從主文庫分離,并且將最強的96個克隆用PCR進行分析。結果(圖7)顯示2種大小的DNA簇,預測其編碼大約25kDa和40kDa的蛋白。這些預測的大小很好地與NF-κB的結構域結構(圖8)相關。將第一批48個克隆在LB液體培養物中表達,并且制備全部和可溶的裂解物。蛋白質印跡分析(圖9)表明所有的蛋白都是完全可溶的,并且觀察到的蛋白大小與通過PCR篩選(圖7)預測的大小緊密相匹配。將所有可溶的克隆測序,并且將通過剪截產生的新的C端針對蛋白序列進行序列比對,形成NF-κB的可溶表達圖譜(圖10)。清楚地揭示了所述蛋白的結構域結構,并且通過選擇最小的、最緊湊形式的每種結構域,而將結構域的邊緣定位到單個氨基酸分辨率(圖12)。2個40kDa結構域和1個25kDa結構域的構建體先前在科學文獻中被特征性描述為具有DNA結合的功能。因此,通過篩選隨機剪截的NF-κB基因的可溶表達而鑒定的結構域是可溶的和有功能的。權利要求1.一種在多種變體候選蛋白中篩選可溶候選蛋白的方法,其中將每種候選蛋白融合到肽底物上,以致可溶的候選蛋白通過檢測所述肽底物的酶促修飾而得到鑒定。2.按照權利要求1的方法,當可溶時,其中所述肽底物通過酶促作用而被修飾。3.按照權利要求1或權利要求2的方法,其中所述肽底物沒有顯著地干擾與之融合的候選蛋白的物理特征。4.按照權利要求3的方法,其中所述肽底物沒有顯著地干擾與之融合的候選蛋白的溶解性。5.按照前述權利要求任一項的方法,其中所述肽底物長度在5和20個氨基酸之間。6.按照前述權利要求任一項的方法,其中所述肽底物是生物素蛋白連接酶的底物。7.按照權利要求6的方法,其中所述肽底物是BCCP的15個氨基酸的肽模擬物,具有序列GLNDIFEAQKIEWHE。8.按照前述權利要求任一項的方法,其中所述肽底物通過肽鍵融合到每種候選蛋白上。9.按照前述權利要求任一項的方法,其中所述肽底物融合在候選蛋白的羧基端。10.按照前述權利要求任一項的方法,其中所述肽底物融合在候選蛋白的氨基端。11.按照前述權利要求任一項的方法,其中多種變體候選蛋白從包含在宿主細胞文庫內的載體表達。12.按照權利要求11的方法,其中文庫中的每種宿主細胞表達一種能夠修飾所述肽底物的底物-修飾酶。13.按照權利要求11的方法,其中所述宿主細胞是大腸桿菌(E.coli)細胞。14.按照權利要求13的方法,其中所述大腸桿菌細胞表達生物素蛋白連接酶。15.按照前述權利要求任一項的方法,其中所述多種變體候選蛋白包括候選蛋白的剪截體文庫。16.按照權利要求15的方法,其中所述文庫通過用核酸外切酶消化編碼所述蛋白的核酸而產生。17.按照前述權利要求任一項的方法,其中所述多種變體候選蛋白通過使用集落點陣進行溶解性篩選。18.按照權利要求17的方法,其中通過使用修飾肽選擇性的抗體或其它檢測試劑(例如,鏈霉抗生物素蛋白)檢測修飾的肽底物,從而篩選由點陣中的集落表達的候選蛋白的溶解性。19.按照權利要求15-17中任一項的方法,其還包括使得關于文庫內多種候選蛋白的溶解性的信息與蛋白序列中的剪截點相關聯的步驟。20.一種用于獲得關于蛋白結構的信息的方法,所述方法包括按照權利要求15-17中任一項的篩選方法,還包括使得關于文庫內多種候選蛋白的溶解性的信息與蛋白序列中的剪截點相關聯的步驟。21.一種用于鑒定候選蛋白的可溶變體的試劑盒,所述試劑盒包括a)一種表達載體,用于在宿主細胞中表達變體候選蛋白;其中所述載體含有允許編碼候選蛋白的目的基因插入的限制性位點,以致編碼生物素化肽的序列遺傳性地融合到所述目的基因;b)一種陽性對照載體,其表達遺傳性融合到編碼生物素化肽的核酸上的麥芽糖結合蛋白;c)一種如同b)中的陰性對照載體,但是其包括在生物素化肽編碼序列中的移碼,因此麥芽糖結合蛋白沒有被生物素化;和d)另一種陰性對照載體,其表達符合生物素化肽的讀框的不溶蛋白。全文摘要本發明涉及在候選蛋白的表達文庫中篩選可溶候選蛋白表達的方法。所述方法包括將文庫中的每種候選蛋白融合到肽底物上,并且通過檢測所述肽底物的酶促修飾而鑒定表達可溶候選蛋白的細胞。文檔編號C12N15/62GK101040188SQ200580035335公開日2007年9月19日申請日期2005年9月5日優先權日2004年9月3日發明者達瑞恩·詹姆斯·哈特申請人:歐洲分子生物學實驗室