專利名稱::密碼子優化方法
技術領域:
:本發明一般涉及為細菌表達而對基因進行優化的方法。本發明進一歩涉及分析優化基因的數據庫系統和工具。
背景技術:
:15許多細菌己被用作制備異源重組蛋白質的宿主細胞。許多細菌系統的一個顯著缺點是它們使用稀有密碼子,這與人類基因中的密碼子偏好性十分不同。這些稀有密碼子的存在能導致重組基因的表達延遲和表達降低。在一些方面,可對核酸序列進行修飾以編碼重組多肽變體,其中該核酸序列的特定密碼子已被改變為特定宿主偏好的密碼子20并能導致表達水平增強(參見例如Haasetal.,Curr.Biol.6:315,1996;Yangetal.,NucleicAcidsRes.24:4592,1996)。對編碼異源表達蛋白質的核苷酸序列進行優化的處理可成為提高表達產量的一個重要步驟。優化要求可包括改善宿主產生外源蛋白質能力的步驟,以及幫助研究者有效設計表達構建體的步驟。盡管近年25來基因規模DNA合成的價格已經大大降低,為該目的合成優化基因的投資仍可能是昂貴的。因此,在進行合成之前進行全面分析以保證已經適當地滿足所有設計要求是重要的。此外,評價候選合成基因以及產生該分析結果的人類可讀報告的過程是耗時的過程。盡管存在幾種計算密碼子偏好性的工具,但這些工具一般不是被30設計來在可用環境中報告密碼子使用。因為這些工具并不將計算的使用情況與參考標準相比較,為辨別相對于宿主表達系統的稀有密碼子,一般需要對輸出數據進行手工重新格式化。對沿被翻譯的基因序列稀有密碼子的空間可視化處理也必須手工進行。因而,需要進行大量用戶培訓,包括將所需序列輸入到每個應用的正確格式。5
發明內容本發明包括為在細菌宿主細胞如熒光假單胞菌(Aewtfomo"wy/,;^"m)中進行異源表達已經進行優化的合成多核苷酸序列。本發明也提供在細菌細胞胞質或周質中生產重組蛋白質的方法,其包括為在細菌宿主中進行異源表達而對合成多核苷酸進行優化,其10中該合成多核苷酸包括編碼蛋白質如抗原的核苷酸序列。該方法也包括將優化的合成多核苷酸序列連接到表達載體以及用該表達載體轉化宿主細菌。該方法另外還包括在適于該蛋白質表達的適當培養基中培養所述轉化的宿主細菌以及分離該蛋白質。所選定的細菌宿主可以是熒光假單胞菌。15本發明的其他實施方式包括為在宿主細胞中異源表達而對合成多核苷酸序列進行優化的方法,其通過從合成多核苷酸序列中鑒定和修飾宿主中很少使用的稀有密碼子來進行。此外,這些方法可包括從該合成多核苷酸序列中鑒定和修飾推測的內部核糖體結合位點序列以及鑒定和修飾延伸的G或C核苷酸重復(extendedrepeats)。該方法也可20包括從該合成多核苷酸序列中鑒定和最小化RBS和基因編碼區中mRNA的二級結構,和修飾不希望存在的酶限制性位點。本發明也提供基因的自動系列分析和產生報告,其通過使用數據庫和工具來從原始序列計算密碼子使用和圖示報告稀有密碼子在翻譯的DNA序列上的位置。當對特定基因設計了多個候選版本時,對所有25版本進行分析以確定最好的合成候選版本。該比較以及候選版本與參照密碼子偏好性版本的比較以有用的人類可讀格式呈現。圖1:顯示了展現在優化合成多核苷酸序列中的可用步驟的流程30圖2和圖3:顯示了展現在熒光假單胞菌菌株MB214中稀有密碼子沿被翻譯的蛋白質序列定位和分布的稀有密碼子使用的概況;和圖4:顯示了本發明基因數據庫的數據庫方案的一個實施方式。具體實施例方式5下文參照附圖對本發明進行了更全面的說明,其中顯示了本發明的優選具體實施方式。然而,本發明可以許多不同的形式實施,不能解釋為僅限于此處所述的具體實施方式;而應解釋為提供這些具體實施方式的目的是使本發明對于所屬
技術領域:
技術人員來說詳細、完整并能全面表述本發明的范圍。10本發明一般涉及在原核宿主細胞中制備異源重組蛋白質的方法。確定宿主細胞對宿主細胞基因的密碼子使用。在編碼異源重組蛋白質的核酸中很少使用的密碼子用宿主細胞中經常出現的密碼子修飾。然后用編碼重組蛋白質的核酸轉化宿主細胞并表達該重組核酸。如此處所用,術語"修飾"或"改變",或其任何形式意思為修飾、15改變、替代、刪除、置換、去除、變化或轉化。本發明也涉及編碼蛋白質的合成多核苷酸序列。本發明的具體實施方式也提供在細菌宿主中異源表達合成多核苷酸。其他具體實施方式包括在熒光假單胞菌屮異源表達合成多核苷酸。本發明另外的具體實施方式也包括編碼能夠使用基于異源熒光假單胞菌表達系統表達的20重組蛋白質的優化的多核苷酸序列。本發明另一具體實施方式也包括在熒光假單胞菌胞質中異源表達合成多核苷酸。本發明另外的具體實施方式也包括在熒光假單胞菌周質中異源表達合成多核苷酸。在異源表達系統中,優化歩驟可改善宿主產生異源蛋白質的能力。蛋白質表達受許多因素的控制,包括那些影響轉錄、mRNA加工和翻25譯穩定性和起始的因素。多核苷酸優化歩驟可包括提高宿主產生外源蛋白質能力的步驟,以及幫助研究者有效設計表達構建體的步驟。優化策略可包括,例如翻譯起始區的修飾、mRNA結構元件的改變和不同密碼子偏好性的使用。下述段落討論可能導致異源蛋白質表達降低的可能問題以及可能解決這些問題的技術。30能夠導致異源蛋白質表達降低的一個領域為稀有密碼子誘導的翻譯中止。稀有密碼子誘導的翻譯中止包括在宿主生物體中很少使用的密碼子在所需核苷酸中的存在可能對蛋白質翻譯有不利影響,這是由于它們在可獲得的tRNA庫中的缺乏導致的。改善宿主生物體中優化翻譯的一個方法包括進行密碼子優化,該優化可導致該合成多核苷酸序列中稀有宿主密碼子的修飾。5能夠導致異源蛋白質表達降低的另一領域是通過替代翻譯起始。替代翻譯起始可包括無意中(inadvertently)包含能夠作為核糖體結合位點(RBS)起作用的基元的合成多核苷酸序列。這些位點可導致從基因內部位點起始翻譯截短的蛋白質。降低產生在純化中難以除去的截短蛋白質可能性的一種方法包括從優化的多核苷酸序列中對推測的]o內部RBS序列進行修飾。能夠導致異源蛋白質表達降低的另一領域是通過重復誘導的聚合酶滑動(repeat-inducedpolymeraseslippage)。重復誘導的聚合酶滑動涉及已經顯示導致DNA聚合酶滑動或羈絆(slippageorstuttering)從而導致移碼突變的核苷酸序列重復。這樣的重復也導致RNA聚合酶滑15動。在有高G+C含量偏好性的生物體屮,可能存在更高程度的由G或C核苷酸重復組成的重復。因此,降低誘導RNA聚合酶滑動可能性的一個方法包括改變G或C核苷酸的延伸重復。能夠導致異源蛋白質表達降低的另一領域是通過有干擾性的二級結構。二級結構能夠隔離RBS序列或起始密碼子,與蛋白質表達降低20有關。莖環結構也可能涉及轉錄中止和衰減。優化的多核苷酸序列可以在該核苷酸序列的RBS和基因編碼區包含最少的二級結構以允許改善的轉錄和翻譯。能影響異源蛋白質表達的另一領域是限制性位點多核苷酸序列可通過修飾能夠干擾將轉錄單元亞克隆到宿主表達載體的限制性位點25而得到優化。優化DNA序列可負向或正向影響基因表達或蛋白質產生。例如,用更常見密碼子修飾更少見的密碼子可影響mRNA的半衰期或通過引入干擾該信息翻譯的二級結構而改變其結構。因此,在某些情況下,可能有必要改變最優化的信息。30基因的全部或部分可被優化。在有些情況下通過基本優化完整基因而獲得所期望的表達調節。在另外一些情況下通過優化基因的一部分而不是全部而獲得所期望的表達調節。可調整任何編碼序列的密碼子使用以獲得所需性質,例如在特定細胞類型中的高水平表達。上述優化的起點可為具有100%常用密碼子的編碼序列,或者是包含常用和非常用密碼子混合的編碼序列。5可產生兩條或更多密碼子使用不同的候選序列并對其進行測試以確定是否具有所需性質。候選序列的評價可通過使用計算機檢索調節元件如沉默子或增強子的存在和檢索能夠通過改變密碼子的使用從而轉化成上述調節元件的編碼序列區的存在而進行。另外的標準可包括特定核苷酸如A、C、G或U的富集,對特定氨基酸的密碼子偏好性或10特定mRNA的二級或三級結構的存在與否。對候選序列的調整可基于一些上述標準進行。構建有希望使用的候選序列然后進行實驗評價。多個候選者可被彼此獨立地評價,或者通過使用最有希望的候選者作為新的起點或通過結合兩個或更多的候選者的區段以產生新的雜合體從而使該過程反15復進行。可包括更多輪修飾和評價。對候選序列密碼子使用進行修飾可導致正向或負向元件的產生或破壞。一般來說,正向元件是指該元件從候選序列屮改變或去除能導致該治療蛋白質的表達降低的任何元件,或該元件的產生能導致治療蛋白質的表達升高的任何元件。例如,正向元件可包括增強子、啟動20子、下游啟動子元件、正向調控子(例如轉錄激活子)的DNA結合位點或負責給予或修飾mRNA二級結構或三級結構的序列。負向元件是指該元件從候選序列中改變或去除能導致該治療蛋白質的表達升高的任何元件,或該元件的產生能導致治療蛋白質的表達降低的任何元件。例如,負向元件可包括沉默子、負向調控子(例如轉錄抑制子)的DNA25結合位點、轉錄中止位點或負責給予或修飾mRNA二級結構或三級結構的序列。一般來說,負向元件比正向元件更頻繁出現。因而,任何導致蛋白質表達升高的密碼子使用的變化更可能來自于對負向元件的破壞而不是正向元件的產生。此外,候選序列的改變更可能是破壞正向元件而不是產生正向元件。在一個具體實施方式中,選擇和修飾候30選序列以增加治療蛋白質的產量。候選序列可通過例如在候選序列中連續改變密碼子或隨機改變密碼子被修飾。然后通過確定所產生的治療蛋白質的表達水平或通過其他參數例如和表達水平相關的參數來評價修飾后的候選序列。選擇與未改變的候選序列相比產生了升高水平的治療蛋白質的候選序列。在另一個方法中,例如可不考慮蛋白質或信息結構而修飾一個或5—組密碼子并測試。或者,可根據信息水平的性質選擇一個或更多的密碼子,所述信息水平的性質例如,在具有預先確定的例如高或低GC含量的區域的定位、在具有如增強子或沉默子結構的區域的定位、在能夠被修飾以引入如增強子或沉默子結構的區域的定位、在具有或預測具有二級或三級結構例如鏈內配對、鏈間配對的區域的定位、在缺10少或預測缺少二級或三級結構例如鏈內配對、鏈間配對的區域的定位。如果特定區域產生所需結果則選定該特定修飾區域。系統地產生候選序列的方法是有用的。例如,在合成核酸序列不同位置的一個或一組例如一組連續的密碼子可用常用密碼子(或例如,起始序列已經被優化過的情況下,用不常用密碼子)修飾并對產生的15序列進行評價。可通過優化(或去優化)序列中指定"窗口"密碼子產生第一候選者,然后移動窗口到該序列中新的位置,優化(或去優化)窗口下新位置的密碼子以提供第二候選者,從而產生候選序列。可通過確定候選者提供的表達水平或通過評價其他參數例如和表達水平相關的參數來評價候選者。一些參數可通過檢查或計算機評價,例20如其是否具有或缺少高或低GC含量;序列元件如增強子或沉默子;二級或三級結構如鏈內或鏈間配對。在一些具體實施方式中,優化的核酸序列可表達其蛋白質,其水平至少為未優化的核酸序列所表達蛋白質的110%、150%、200%、500%、1,000%、5,000%或甚至10,000%。25如圖1所示,優化過程可通過鑒定將要被宿主異源表達的所需氨基酸序列開始。根據該氨基酸序列可設計候選多核苷酸或DNA序列。在設計合成DNA序列時,密碼子使用頻率可與宿主表達生物體的密碼子使用相比較,稀有的宿主密碼子在合成序列中可被修飾。此外,為去除不想要的限制性酶切位點和增加或改變任何想要的信號序列、接30頭或非翻譯區,可對合成候選DNA序列進行修飾。可對合成DNA序列的可能干擾翻譯過程的二級結構如G/C重復和莖環結構的存在進行分析。在候選DNA序列合成前,可檢查優化的序列設計以確定該序列正確編碼了所需氨基酸序列。最后,候選DNA序列可使用DNA合成技術如本領域已知的那些合成技術合成。在本發明另一個具體實施方式中,在一個宿主生物體如熒光假單5胞菌中一般的密碼子使用情況可用來優化異源多核苷酸序列的表達。對于很少會認為是宿主表達系統中特定氨基酸優選密碼子的密碼子的百分比和分布可進行評價。5%和10%的使用值可用作確定稀有密碼子的截斷值(cutoffvalue)。例如,表1中列出的密碼子在熒光假單胞菌MB214基因組中計算的出現率低于5%,其在熒光假單胞菌宿主中表io達的優化基因中一般應避免使用。表l氨基酸使用的密碼子%出現率GGIyGGA3.26HleATA3,05LLeuC丁A1.78CTT4.57TTA1.89RArgAGA1.39AGG2.72CGA4.99SSerTCT4.18多種宿主細胞可用于表達所需異源基因產物。宿主細胞可選自適當的大腸桿菌細胞或假單胞菌細胞群。如此處所使用的,假單胞菌和15密切相關的細菌與此處定義為"革蘭氏陰性變形菌亞組1(Gmm(-)ProteobacteriaSubgroup1)"的組同樣廣大(co-extensive)。"革蘭氏陰性變形菌亞組1"更具體的定義為屬于R.E.Buchanan和N.E.Gibbons(纟扁車茸),Sergey'sAfo"w"/0/Dete7"附/w""veS""en》/ogy,pp.217-289(第乂、版,1974)(TheWilliams&WUkinsCo.,巴爾地摩,馬里蘭州,美國)(此20后稱為"Bergey(1974)")命名的"革蘭氏陰性好氧桿菌和球菌"分類"部分"中所描述的科和/或屬的變形菌組。宿主細胞可選自革蘭氏陰性變形菌亞組18,其被定義為所有熒光假單胞菌種的亞種、變種、株和其他亞種單位的組,包括屬于例如下述的那些(示例性菌株的ATCC或其他保藏號顯示于括號內)熒光假單胞菌生物型A,也稱生物變種li1或生物變種I(ATCC13525);熒光假單胞菌生物型B,也稱生物變種2或生物變種I1(ATCC17816);熒光假單胞菌生物型C,也稱生物變種3或生物變種I11(ATCC17400);熒光假單胞菌生物型F,也稱生物變種4或生物變種IV(ATCC12983);熒光假單胞菌生物型G,也5稱生物變種5或生物變種V(ATCC17518);熒光假單胞菌生物型VI;'熒光假單胞菌PfO-l;熒光假單胞菌Pf-5(ATCCBAA-477);熒光假單胞菌SBW25;熒光假單胞菌細胞外層亞種(P.fluorescenssubsp.Cellulosa)(NCIMB10462)。宿主細胞可選自革蘭氏陰性菌變形菌亞組19,其被定義為熒光假10單胞菌生物型A所有菌株的組,包括熒光假單胞菌菌株MB101及其衍生菌株。在一個具體實施方式中,宿主細胞可為假單胞菌目中變形菌中的任何一種。在一個特定具體實施方式屮,宿主細胞可為假單胞菌科中變形菌中的任何一種。在一個特定具體實施方式中,宿主細胞可選自15下述一種或更多革蘭氏陰性變形菌亞組l、2、3、5、7、12、15、17、18或19。其他可用于本發明的熒光假單胞菌菌株包括熒光假單胞菌Migula和熒光假單胞菌Loitokitok,具有下列ATCC號[NCIB8286];NRRLB-1244;NCIB8865菌株COI;NCIB8866菌株C02;1291[ATCC17458;20IFO15837;NCIB8917;LA;NRRLB-1864;卩比咯烷;PW2[ICMP3966;NCPPB967;NRRLB-899];13475;NCTC10038;NRRLB-1603[6;IFO15840];52-1C;CCEB488-A[BU140];CCEB553[IEM15/47];IAM1008[AHH-27〗;IAM1055[AHH-23];1[IFO15842];12[ATCC25323;NIH11;denDoorendeJong216];18[IFO15833;WRRLP-7];9325[TR-10];108[52-22;IFO15832];143[IFO15836;PL];149[2-40-40;IFO15838];182[IFO3081;PJ73];184[IFO15830];185[W2L-l];186[IFO15829;PJ79];187[NCPPB263];188[NCPPB316];189[PJ227;1208];191[IFO15834;PJ236;22/1];194[KlingeR-60;PJ253];196[PJ288];197[PJ290];198[PJ302];201[PJ368];202[PJ372];203[PJ376];20430[IFO15835;PJ682];205[PJ686];206[PJ692];207[PJ693];208[PJ722];212[PJ832];215[PJ849];216[PJ885];267[B-9];271[B-1612];401[C71A;IFO15831;PJ187];NRRLB-3178[4;IFO15841];KY8521;123081;30-21;[IFO3081];N;PYR;PW;D946-B83[BU2183;FERM-P3328];P-2563[FERM-P2894;IFO13658];IAM-1126[43F];M-1;A506[A5-06];A505[A5-05-l];A526[A5-26];B69;72;NRRLB4290;PMW6[NCIB11615];SC12936;Al[IFO15839];F]847[CDC-EB];F18485[CDC93];NCIB10586;P17;F-12;AmMS257;PRA25;6133D02;6519E01;Ni;SCI5208;BNL-WVC;NCTC2583[NCIB8194];H13;1013[ATCC11251;CCEB295];IFO3903;1062;或Pf-5。可用任何本領域已知轉化方法用載體轉化假單胞菌宿主細胞,細菌宿主細胞可作為原封未動的細胞或原生質體(即,包括胞質體)轉io化。轉化方法包括穿孔方法如電穿孔、原生質體融合、細菌結合和二價陽離子處理如氯化鈣處理或CaCl/Mg^+處理,或其他本領域熟知的方法。參見,例如Morrison,J.S"c,132:349-351(1977);Clark-Curtiss&Curtiss,MethodsinEnzymology,101:347-362(Wu等人編,1983),Sambrooketal.,MolecularCloning,ALaboratoryManual(第二版1989);15Kriegler,GeneTransferandExpression:ALaboratoryManual(1990);禾口CurrentProtocolsinMolecularBiology(Ausubel等人編,1994》。如此處所用,術語"發酵"包括真正使用發酵的具體實施方式,也包括使用其他非發酵培養方式的具體實施方式。發酵可以任何規模進行。在本發明的具體實施方式中,發酵培養基可選自豐富培養基、20最小培養基和礦物鹽培養基;豐富培養基也可使用。在另一個具體實施方式中選擇最小培養基或礦物鹽培養基。在另一具體實施方式中選擇最小培養基。在另一具體實施方式中選擇礦物鹽培養基。一般使用礦物鹽培養基。礦物鹽培養基由礦物鹽和碳源如葡萄糖、蔗糖或甘油組成。礦物25鹽培養基的例子包括例如M9培養基、假單胞菌培養基(ATCC179)、Davis和Mingioli培養基(見BDDavis&ESMingioli(1950)于乂Sa".60:17-28)。用于制備礦物鹽培養基的礦物鹽包括那些選自,例如磷酸鉀、硫酸銨或氯化銨、硫酸鎂或氯化鎂或痕量礦物質如氯化鈣、硼酸鹽或鐵、銅、鎂和鋅的硫酸鹽。在礦物鹽培養基中不包括有機氮源如蛋白30胨、胰蛋白胨、氨基酸或酵母提取物。相反,使用無機氮源,其可選自,例如銨鹽、液態氨或氣態氨。礦物鹽培養基可包含葡萄糖作為碳源。與礦物鹽培養基相比,最小培養基也可包含礦物鹽和碳源,但可添加例如低水平的氨基酸、維生素、蛋白胨或其他成分,盡管是以非常低的水平添加。在一個具體實施方式中,培養基可使用下面所列的多種成分制備。所述成分可以下述順序加入首先(NH4)HP04、KH2P04和檸檬酸可溶5解在約30升蒸餾水中;然后可加入痕量元素溶液,接著加入消泡劑,如UcolubN115。然后在熱消毒(如在約]21攝氏度)后,可加入無菌葡萄糖MgS04和硫胺-HCL溶液。可用氨水控制pH在約6.8。然后可加入滅菌蒸餾水調節初始容量至371減去甘油存儲液(123mL)。化學試劑可通過許多供應商如Merck通過商業途徑獲得。本培養基允許io假單胞菌菌種和相關細菌高細胞密度培養(HCDC)生長。HCDC可作為批量過程開始,其后進行兩期分批補料培養(two-phasefed-batchcultivation)。在分批部分無限制生長后,在一段3倍增時間(3doublingtimes)的期間可控制在降低的特定生長率生長,其間生物量濃度可增長7倍。Riesenberg,D.;Schulz,V.;Knorre,W,A.;Pohl,H.D.;Korz,D.;15Sanders,E.A.;Ross,A.;Derckwer,W.D.(1991)"HighcelldensitycultivationofEscherichiacoliatcontrolledspecificgrowthrate"JBiotechnol:20(1)17-27描述了這樣的培養程序的進一步細節。表-US-00005表5:培養基組成組分初始濃度KH2P0413.3克/升(NH4)2HP044.0克/升檸檬酸1.7克/升MgS04-7H201.2克/升微量金屬溶液10毫升/升硫胺素HCl4.5毫克/升葡萄糖-&027.3克/升消泡劑UcolubN1150.1毫升/升進料溶液MgSO40-7H2O19.7克/升葡萄糖-H20NH3微量金屬溶液6克/升Fe(lll)檸檬酸鹽1.5克/升MnCl2-4H200.8克/升ZmCH2C0012-2H200.3克/升H3B030.25克/升Na2Mo04-2H200.25克/升CoCl26H200.15克/升CuCl22H200.84克/升乙二胺四乙酸Na2鹽2H20(TitriplexIII,Merck)本申請引用的序列可為同源的(具有相似的同一性)。當蛋白質和/或蛋白質序列天然或人工的來自于共同的祖先蛋白質或蛋白質序列時,它們是"同源的"。相似地,當核酸和/或核酸序列天然或人工的來自于共同的祖先核酸或核酸序列吋,它們是同源的。例如,任何天然5存在的核酸可通過任何可得的誘變方法修飾以包括一個或更多的選擇者(selector)密碼子。當表達時,這種突變的核酸編碼包括一個或更多非天然氨基酸的多肽。當然,突變過程可另外改變--個或更多標準密碼子,從而在產生的突變蛋白質屮也改變-個或更多的標準氨基酸。同源性一般由兩個或更多核酸或蛋白質(或其序列)之間的序列相似io性推出。確定同源性有用的序列之間相似性的精確百分比隨所討論的核酸和蛋白質不同而變化,但低至25%的序列相似性常規地用來確定同源性。更高水平的序列相似性,例如30%、40%、50%、60%、70%、80%、90%、95%、96%、97%、98%或99%或更多也可用于確定同源性。確定序列相似性百分比的方法(例如使用缺省參數的BLASTP和15BLASTN)在此處進行了描述且一般是可以得到的。多肽可在蛋白質N端包括信號(或引導)序列,其在翻譯同時或翻譯后引導該蛋白質的轉移。也可將該多肽連接到接頭或其他序列以方便進行合成、純化或鑒定多肽(例如聚-His),或增強該多肽與固相支持物的結合。20在比較多肽序列時,如下所述,當用最大相關性對序列比對時,770克/升23克如果兩個序列中氨基酸序列相同則稱兩個序列是"完全相同的"(identical)。兩個序列之間的比較一般通過在一個比較窗口上比較該序列,從而鑒定和比較序列局部區域的相似性。如此處所用,"比較窗口"是指至少約20個連續位點,通常30至約75,40至約50的區段,5其中,在進行兩個序列最優比對后,將一個序列與具有同樣數目連續位點的參照序列相比較。為比較而進行的序列最優比對可通過Lasergene生物信息軟件套裝(DNASTAR,Inc.,Madison,Wis.)中的Megalign程序使用缺省參數進行。該程序包含了幾個如下述參考文獻中所描述的比對方案Dayhoff,]0M.0.(1978)Amodelofevolutionarychangeinproteins-Matricesfordetectingdistantrelationships.在Dayhoff,M.O.(纟扁)AtlasofProteinSequenceandStructure,NationalBiomedicalResearchFoundation,WashingtonD.C.Vol.5,Suppl.3,pp.345358;HeinJ.(1990)UnifiedApproachtoAlignmentandPhyiogenespp.626645Methodsin15Enzymologyvol.183,AcademicPress,Inc.,SanDiego,Calif.;Higgins,D.G.andSharp,P.M.(198"CABIOS5:151153;Myers,E.W.andMullerV/.(1988)CABIOS4:1117;Robinson,E.D.(1971)Comb.Theor11:105;Santou,N.Nes,M.(1987)Mol.Biol.Evol.4:406425;Sneath,P.H.A.andSokal,R.R.(1973)NumericalTaxonomy—thePrinciplesandPracticeof20NumericalTaxonomy,FreemanPress,SanFrancisco,Calif.;Wilbur,W.J.andLipman,D.J.(1983)Prac.iVaf/.^cad,USA80:726730。或者,為比較而進行的序列最優比對可通過SmithandWaterman(1981)Add.APL.Math2:482的局部同一性算法,通過NeedlemanandWunsch(1970)J.Mol.Biol.48:443的同一性比對算法,通過Pearsonand25Lipman(1988)Proc.Natl.Acad.Sci.USA85:2444的相似性檢索方法,通過這些算法的計算機實施(WisconsinGeneticsSoftwarePackage,GeneticsComputerGroup(GCG),575ScienceDr.,Madison,Wis.中的GAP、BESTFIT、BLAST、FASTA和TFASTA)或通過檢查。適合確定百分比序列同一性和序列相似性算法的一個例子是30BLAST和BLAST2.0算法,其在Altschuletal.(1977)7Vmc/.Jc/Ai^.25:33893402和Altschuletal.(1990)/Mo/.B/o/.215:403410中分別描述。BLAST和BLAST2.0可用于(例如通過此處描述的參數)確定本16發明多核苷酸和多肽的百分比序列同-一性。進行BLAST分析的軟件通過國家生物技術信息中心(NationalCenterforBiotechnologyInformation)可公開得到。對于氨基酸序列,可用得分矩陣計算累積得分。當累積比對得分從其最大所得值通過X量(byquantityX)減少時;5當由于一個或更多負得分殘基比對的積累而導致累積得分達到零或以下時;或當到達序列任何一個端點時,在每一個方向單詞擊中(wordhits)的延伸終止。BLAST算法參數W、T和X決定了比對的敏感性和速度。在一個方法中,"序列同一性百分比"通過在至少20個位點的比o較窗口中比較兩個最優比對的序列來確定,其中為對兩個序列進行最優比對,比較窗口中的多肽序列部分與參照序列相比(其不包括加入或刪除)可包括20%或更低,通常5-15%或10-12%的加入或刪除(即缺口)。百分比通過確定兩個序列中都出現相同氨基酸殘基的位點數目以產生匹配位點數,匹配位點數除以參照序列(即窗口大小)中的總15位點數得到的結果乘以100產生序列同一性百分比而進行計算。在其他示例性具體實施方式中,密碼子優化序列可包括包含多個此處描述的多肽的融合多肽的多肽,或包括至少一種此處描述的多肽和不相關序列如己知的腫瘤蛋白質的多肽。融合伙伴(partner)可以,例如協助提供輔助T細胞表位(免疫融合伙伴),優選地為人識別的輔20助T細胞表位,或可以協助以比天然重組蛋白質更高產量表達該蛋白質(表達增強子)。一些優選的融合伙伴是既有免疫的也有表達增強的融合伙伴。可以選擇其他融合伙伴以提高該多肽的可溶性或使該多肽可定向到所需的細胞內區室(intracellularcompartments)。更有一些融合伙伴包括親和標簽,其幫助該多肽的純化。25融合多肽一般可通過使用標準技術制備,包括化學聯結(conjugation)。優選地,融合多肽作為重組多肽表達,在表達系統中相對于非融合多肽具有提高水平的產量。簡單的說,編碼多肽成分的核酸序列可單獨組裝并連接到適當的表達載體中。編碼一個多肽成分的DNA序列的3'端通過肽接頭或不通過肽接頭連接到編碼第二多肽30.成分的DNA序列的5'端以便使序列的讀碼框同相。這允許翻譯成一條保留了兩個成分多肽的生物學活性的單條融合多肽。17可使用肽接頭序列以足夠保證每個多肽折疊成其二級和三級結構的距離來分隔第一和第二多肽成分。這樣的肽接頭通過本領域熟知的標準技術加入到融合多肽中。適當的肽接頭序列可基于下述因素選擇(1)其采用可塑擴展構象的能力;(2)其不采用可能與第一和第二多5肽上的功能表位相互作用的二級結構的能力;以及(3)缺少可能和該多肽功能表位反應的疏水或帶電殘基。優選的肽接頭序列包含Gly、Asn和Ser殘基。其他接近中性的氨基酸,如Thr和Ala可用在接頭序列中。可用作接頭的氨基酸序列包括Marateaetal.,Gem40:3946,1985;Murphyetal.,Prac.JcfldUSA83:82588262,1986;美國專利ioNo.4,935,233和美國專利No.4,751,180中公開的那些序列。接頭序列長度一般為1至約50氨基酸。當第一和第二多肽有可用于分隔功能結構域和防止立體干擾的非必需N端氨基酸區時,不需要接頭序列。連接的DNA序列可操作的連接到適當的轉錄或翻譯調節元件。負責DNA表達的調節元件僅位于編碼第一多肽的DNA序列的5'方向。15相似地,終止翻譯所需的終止密碼子和轉錄終止信號僅出現在編碼第二多肽的DNA序列的3'方向。本發明也提供對基因的自動序列分析和報告產生,其通過使用數據庫和工具來計算原始序列密碼子使用和圖示報告稀有密碼子在翻譯的DNA序列上的位置。己經開發出幾個新的工具來協助這一過程,其20中分析和報告產生完全是自動化的,降低了研究者所需的時間。在項目設計的最初階段,可對蛋白質編碼序列進行評價以確定對整個或部分基因進行優化是否是合適的。盡管作出這一決定沒有絕對的標準,一個策略涉及評價對于在宿主表達系統中的特定氨基酸被認為很少是優選的密碼子的百分比和分布。5%和10%的使用值-般用作25確定稀有密碼子的截斷值。例如,表1中列出的密碼子在MB214基因組中計算的出現率低于5%,在將要在該宿主中表達的優化基因中優選地避免使用。為確定所需基因是否可以不經優化進行異源表達,可通過確定該基因中存在的稀有密碼子的百分比和它們是否位于可能對表達產生不利影響的位置(即該基因的5'端附近或聚集在一起形成簇)。30為解決這些問題,本發明的工具被設計用來計算原始ORF序列中的密碼子使用和圖示報告稀有密碼子在翻譯的DNA序列上的位置。另外,可呈現顏色編碼的表格來對所提交基因的密碼子使用與MB214參照密碼子偏好性的密碼子使用進行比較。為便于攜帶,不依賴于任何特定的基礎生物信息包以及便于使用,新工具可全部用Peri編程語言寫成CGI程序,并可以表單形式通過網絡瀏覽器獲得。使用時,未格式化的核苷酸序列粘帖入表格并提交,返回格式化的報告。圖2和3和表2顯示了樣本結果。表2<table>tableseeoriginaldocumentpage19</column></row><table>和iii)所分析的基因與MB214中的使用情況相比的百分比差別。突出顯示了在MB214中低于10。/。的密碼子使用。基因使用欄中"0.00"值的突出顯示顯示了在所分析的序列中未使用的稀有密碼子。圖2和3顯示了展示在翻譯的蛋白質序列上稀有密碼子定位和分5布的稀有密碼子使用概況的結果。在圖2和圖3中,熒光假單胞菌菌株MB214中低于5%和10%頻率的密碼子分別進行了突出顯示。在圖2和3中,翻譯序列后也分別顯示了低于5%或10%使用的密碼子的總百分數和絕對數。也提供了分析優化基因的數據庫和工具。一旦對基因進行了分析io并決定合成該基因的優化版本是有理由的,可設計該基因的一個或更多合成版本。在合成前可對每個產生的基因候選設計進行分析以保證符合所有的設計標準。為記錄所提交的基因、相關的設計標準以及將要分析的產生的合成候選版本,提供關系數據庫以存儲這些信息。為在Linux環境下與現存的Perl編碼一同工作,在本發明的一個15特定具體實施方式中,選擇PostgreSQL作為關系數據庫。可用例如Perl的DBI組件將數據輸入所產生的數據庫和從該數據庫中提取數據。數據庫方案可進行設計,以允許靈活選擇將要包括在合成轉錄單元的元件(例如蛋白質序列、引導序列和UTR'S)。可限定表達載體和宿主以保證合成基因與載體多克隆位點和宿主密碼子偏好性的相容性。也20可限定在最終序列中應該避免的基元,并可存儲每個基因的候選合成版本。圖4顯示了基因數據庫的數據庫方案的代表性具體實施方式,在實際數據庫中提交的名稱以小寫字母表示。為便于將數據輸入數據庫而不必要求SQL技能,本發明的一個具體具體實施方式中,開發了由CGI生成的HTML表單組成的用戶界面。25該用戶界面也提供錯誤檢查層以保證所有輸入數值都是有效的。輸入新基因要求完成CGI生成的HTML表單并按下SUBMIT(提交)按鈕。數值可自由的輸入表單文本框中或從預先限定的下拉菜單和選擇框菜單中選擇。這些菜單可由數據庫中目前可得的數據自動建立。每個菜單中新數值的加入可通過點擊相應的"Add"(添加)超鏈30接,其產生一個該數據條目特定的新HTML表單。如果在提交時檢測到錯誤,可使用戶返回表單并給出進行更正所必需的描述信息。所有20以前輸入的數值可保存在表單中,所以僅有錯誤相關的數值可被修改或重新輸入。在輸入新基因后,外部銷售商可要求一個引用(quote)以對候選基因/轉錄單元進行設計和合成。該過程可通過在銷售商網頁上輸入信5息開始。為促進該過程并預防數據輸入錯誤,可提供允許將必需的數據直接從數據庫制備成所需的格式的工具。通過從在該頁面載入時數據庫中所有可得基因自動生成的下拉菜單中選定基因名稱,該工具允許用戶產生針對引用的所需信息。當基因選定后,點擊SUBMIT(提交)按鈕產生一個帶有三個字段的表單,其可直接粘帖到銷售商的引io用請求表單中。也可提供針對該頁的超鏈接。由于遺傳密碼的冗余性,對于一個合成候選基因可產生許多不同的編碼序列。對每個基因銷售商一般會提供多個候選合成版本以允許研究者選擇與所要求的設計標準最匹配的版本。這些序列可加入數據庫中并與通過網絡提交的相關基因相聯系。基因名稱可從自動生成的15下拉菜單中選擇,可輸入版本號、序列和任何描述性評論。一旦提交,可運行fi動分析流水線以確定數據庫屮所提交的哪個版本是設適合合成的。可包括一個程序(例如Perl程序)來使評價每個候選合成版本的過程fi動化以保證提交到數據庫中時符合設計標準。每個合成基因版20本以及相關的設計說明可從數據庫中提取出來,并進行一系列分析。這些分析可包括下述一個或更多1)可運行GCG(可從AccelrysSoftware,Inc.,SanDiego,CA得至U)CODONFREQUENCY來確定合成版本中的密碼子使用。分析輸出文件,并可檢測由存儲在數據庫中的對每個基因的百分比截斷值限定的任何25稀有密碼子的存在;2)可運行GCGMAPSORT來確定可能干擾將來亞克隆的任何不想要的限制性酶的存在。評價后的限制性酶列表可通過酶、表達載體和基因之間的關系從數據庫中提取出來。分析輸出文件以從酶的列表中檢測任何限制性位點的存在;303)可運行GCGFINDPATTERNS來檢測任何應該在合成版本中避免的序列基元的存在。每個模式以及對該具體模式可容忍的不匹配數目可在數據庫中限定。分析輸出文件以檢測任何限定的不利序列基元的存在;4)可運行程序(如Perl程序)來檢測任何存在的莖環結構的強度。該程序可順序運行GCGSTEMLOOP來發現序列中推測的莖環的位置,5提取那些環的同等物,然后通過GCGMFOLD運行環等同物分析以確定環結構的自由能。輸出結果可通過自由能分類并提取5個最強環的數據。另外,為進行比較,可報告最強環的自由能;以及5)可運行GCGBESTFIT來比較天然和合成DNA序列的肽翻譯以保證沒有錯誤地引入突變。翻譯的序列可通過GCGTRANSLATE產生。10可分析輸出結果并報告。報告可以HTML格式生成,以通過網絡瀏覽器或微軟Word瀏覽和打印。報告可包括表格形式的分析結果的綜合報告。例如,如表3所示,可對每個合成版本提供一欄,對每個分析提供一行。表3標準vlv2v3銜St55G's或C's基因內部SD序列巔強的基因內部莖環結構,一限制性位點合成基因編碼的蛋白與原蛋白序列相冋以這種方式,研究者可比較每個版本的結果并選擇最適當的合成版本。如果分析表明沒有版本滿足設計標準,可請求其他的版本并重新進行分析直到獲得適當的版本。為便于編制文檔,報告也可包括來源于每個分析的原始數據。每個基因版本的數據可通過進行分析來校20對,輸出數據的相關部分可突出顯示以便于閱讀。本發明在下述實施例中進一步詳述。這些實施例目的在于示例性說明本發明,而不是對其進行限制。實施例22實施例1根據熒光假單胞菌的合成基因設計在編碼序列上游加入含有最適Shine-Dalgarno序列和單一Spel限制性酶位點的DNA區。在編碼序列下游加入含有三個終止密碼子和單5限制性酶位點的DNA區。對所有尸/enexORFome中出現的低于5%密碼子使用的稀有密碼子進行修飾以避免核糖體終止(stalling)。對所有與aggaggtn5-1()dtg模式有兩個或更少錯配的基因內部核糖體結合位點進行修飾以避免截短的蛋白質產物。刪除五個或更多C或五個或更多G核苷酸的延伸區段以避免RNA聚合酶滑動。對強的基因內莖io環結構,特別是覆蓋核糖體結合位點的進行修飾。合成基因用DNA2.0,Inc.(MenloPark,CA)合成。實施例2根據熒光假單胞菌的合成基因設計15最終表達的蛋白質產物中包括從甲硫氨酸21至谷氨酰胺520的氨基酸。對所有P/enexORFome中出現的低于5%密碼子使用的稀有密碼子進行修飾以避免核糖體終止。對所有與aggaggtn5-1()dtg模式有兩個或更少錯配的基因內部核糖體結合位點進行修飾以避免截短的蛋白質產物。刪除五個或更多C或五個或更多G核苷酸的延伸區段以避免RNA20聚合酶滑動。對強的基因內莖環結構,特別是覆蓋核糖體結合位點的進行修飾。編碼24個氨基酸的p一周質分泌引導序列的DNA序列融合到優化序列的5,端。在編碼序列上游加入含有最適Shine-Dalgamo序列和單一限制性酶位點的DNA區。在編碼序列下游加入含有三個終止密碼子和單一lol限制性酶位點的DNA區。合成基因用25DNA2.0,Inc.合成。本發明不限于此處描述的具體實施方式的范圍。事實上,從上述描述可知除此處描述之外的對本發明的各種修改對本領域技術人員來說是顯而易見的。這些修改落入所附權利要求書的范圍。權利要求1、一種生產重組蛋白質的方法,包括為在熒光假單胞菌宿主細菌中異源表達對合成多核苷酸序列進行優化,其中所述合成多核苷酸包括編碼蛋白質的核苷酸序列;將優化的合成多核苷酸序列連接到表達載體中;使用表達載體轉化熒光假單胞菌宿主細菌;在適合蛋白質表達的適當培養基中培養轉化的熒光假單胞菌宿主細菌;以及分離蛋白質。2、根據權利要求1所述的方法,其中為在熒光假單胞菌宿主細菌中異源表達對合成多核苷酸序列進行優化進一歩包括從合成多核苷酸序列中鑒定和修飾在熒光假單胞菌宿主細菌中不常使用的稀有密碼15子。3、根據權利要求2所述的方法,其中為在熒光假單胞菌宿主細菌中異源表達對合成多核苷酸序列進行優化進一歩包括從合成多核苷酸序列中鑒定和修飾推測的內部核糖體結合位點序列。204、根據權利要求2所述的方法,其中為在熒光假單胞菌宿主細菌中異源表達對合成多核苷酸序列進行優化進一步包括從合成多核苷酸序列中鑒定和修飾延伸的G或C核苷酸重復。5、根據權利要求2所述的方法,其中為在熒光假單胞菌宿主細菌中異源表達對合成多核苷酸序列進行優化進一步包括鑒定和最小化合成多核苷酸序列的RBS和基因編碼區中的mRNA二級結構。6、根據權利要求2所述的方法,其中為在熒光假單胞菌宿主細菌30中異源表達對合成多核苷酸序列進行優化進一步包括從該合成多核苷酸序列中鑒定和修飾不希望存在的酶限制性位點。7、根據權利要求2所述的方法,其中鑒定和修飾稀有密碼子包括鑒定和修飾在熒光假單胞菌細菌基因組中出現率低于10%的密碼子。8、根據權利要求2所述的方法,其中鑒定和修飾稀有密碼子包括鑒定和修飾在熒光假單胞菌細菌基因組中出現率低于5%的密碼子。9、根據權利要求1所述的方法,其中為異源表達對合成多核苷酸序列進行優化進一歩包括從該合成多核苷酸序列中鑒定和修飾密碼子以提高表達。10、根據權利要求2所述的方法,其中所述的修飾稀有密碼子包括用經常出現的密碼子替換稀有密碼于。11、一種生產重組蛋白質的方法,包括從合成多核苷酸序列中鑒定和修飾在假單胞菌屬尸^^fom朋^宿主細菌中很少使用的稀有密碼子;從合成多核苷酸序列中鑒定和修飾推測的內部核糖體結合位點序列;從合成多核苷酸序列中鑒定和修飾延伸的G或C核苷酸重復;鑒定和最小化合成多核苷酸序列RBS和基因編碼區中的mRNA二級結構;從合成多核苷酸序列中鑒定和修飾不希望存在的酶限制性位點以形成優化的合成多核苷酸序列;25將優化的合成多核苷酸序列連接到表達載體中;用表達載體轉化假單胞菌屬宿主細菌;在適合蛋白質表達的適當培養基中培養轉化的假單胞菌屬宿主細菌;以及分離蛋白質。12、根據權利要求ll所述的方法,其中所述假單胞菌屬宿主細菌為熒光假單胞菌。13、根據權利要求ll所述的方法,其中所述假單胞菌屬宿主細菌為熒光假單胞菌菌株MB101。14、根據權利要求12所述的方法,其中鑒定和修飾稀有密碼子包括鑒定和修飾在熒光假單胞菌細菌基因組中出現率低于10%的密碼子。15、根據權利要求12所述的方法,其中鑒定和修飾稀有密碼子包括鑒定和修飾在熒光假單胞菌細菌基因組中出現率低于5%的密碼子。16、一種分析優化基因的方法,包括提供針對熒光假單胞菌細菌的基因優化數據庫;輸入基因數據到數據庫中;鑒定表達載體或宿主;提交候選基因或轉錄單元的合成請求;加入優化的基因序列到數據庫中;評價一個或更多的合成候選基因的合成版本以保證符合合成請求;以及分析候選基因的一個或更多合成版本。17、根據權利要求16所述的方法,進一歩包括產生來源于所述候選基因的--個或更多合成版本分析結果的報告。18、根據權利要求16所述的方法,其中分析候選基因的一個或更25多合成版本包括通過檢査或計算分析候選基因。19、根據權利要求16所述的方法,其中分析候選基因的一個或更多合成版本包括分析候選基因所提供的表達水平。20、根據權利要求16所述的方法,其中分析候選基因的一個或更多合成版本包括分析候選基因含有或缺少高或低GC含量、序列元件或候選基因的結構。全文摘要本發明涉及優化的編碼蛋白質的多核苷酸序列在假單胞菌屬宿主細菌中的異源表達。文檔編號C12P21/00GK101495644SQ200780019821公開日2009年7月29日申請日期2007年5月30日優先權日2006年5月30日發明者C·D·赫什伯格,S·J·斯特爾曼,T·M·拉姆塞耶爾申請人:陶氏環球技術公司