專利名稱:纖維素酶、編碼它們的核酸及其制備和應用的方法
技術領域:
本發明涉及分子和細胞生物學和生物化學。一方面,本發明提供具有纖維素酶活性一例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性一的多肽、編碼這些多肽的多核苷酸,以及制備和使用這些多核苷酸和多肽的方法。一方面,本 發明涉及具有纖維素酶活性例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性——包括熱穩定的和耐熱的活性——的多肽,和編碼這些酶的多核苷酸,以及制備和使用這些多核苷酸和多肽。本發明的多肽可用于各種制藥、農業和工業環境中。
背景技術:
纖維素是地球上最豐富的可再生資源。它由重復單元是纖維二糖的β _1,4葡萄糖單元的線性鏈組成,纖維二糖是具有如圖5所示結構的葡萄糖二聚體。該高分子通過一組酶進行降解,包括隨機水解纖維素高分子的內切葡聚糖酶(EG)以及從纖維素除去末端纖維二糖殘基的纖維二糖水解酶(CBH)。纖維二糖和纖維寡糖被β -葡糖苷酶(BG)水解成葡萄糖。所有這三種酶對于纖維素完全分解成葡萄糖是必需的。對于這三種酶的每一種,存在行使相同功能的不同結構的變體。此外,除了不同結構變體外,已知真菌和細菌還產生多種形式的相同結構變體。已知一些厭氧細菌和真菌以多酶復合物的形式產生這些酶,這一事實進一步使該系統復雜化,所述多酶復合物含有都附著于酶支架上的多種酶,分子量在2百萬道爾頓以上。為什么這樣的酶復合系統對于這樣的簡單分子是必需的? 一些研究者認為該復雜性原因在于底物的頑拗性質。纖維素鏈形成微纖維,其通過相鄰鏈的氫鍵鍵合堆積成晶體基質。該結構對于化學降解或酶促降解是高度耐受的。由于它們對纖維素的酶促攻擊性質,CBH被認為是該晶體纖維素降解中的關鍵酶。與CBH不同,EG具有開放的裂縫,其以垂直角度攻擊纖維素鏈。CBH通過含有活性位點的坑道直接攻擊所述鏈。目前認為,纖維素鏈進入所述坑道,同時,相鄰的氫鍵鍵合被破壞。一旦纖維二糖水解酶在該底物上建立起“立足點”,然后,EG可以進來,并更容易攻擊底物。已知的CBH的一個主要缺陷是其低的催化活性。一些觀點認為,低活性是源于如下事實來自水解的能量被轉化成動能,以破壞氫鍵并使酶能夠沿著底物移動。CBH是外切作用酶并在90個糖基水解酶家族中的6個家族中發現。它們包括家族5、6、7、9、10和48。家族5含有許多不同類型的糖基水解酶,包括纖維素酶、甘露聚糖酶和木聚糖酶。盡管在該家族中大部分纖維素酶是內切葡聚糖酶,仍存在纖維二糖水解酶的例子,最為人知的是來自熱纖梭菌(Clostridium thermocellum)的CelO。家族6僅含有內切葡聚糖酶或纖維二糖水解酶,其中纖維二糖水解酶成員比內切葡聚糖酶更多。該酶具有反向機制(invertingmechanism),并且晶體學研究表明,所述酶具有扭曲的α/β桶結構,其含有七個而非八個平行的β鏈。家族7酶也由內切葡聚糖酶和纖維二糖水解酶組成,其中纖維二糖水解酶更多,并且已知的成員僅來自真菌。該酶具有保持機構(retaining mechanism),并且晶體結構示出了膠凍卷結構。家族9含有內切葡聚糖酶、纖維二糖水解酶和β-葡糖苷酶,其中內切葡聚糖酶占優勢。然而,嗜熱放線菌(Thermobifida fusca)產生內切/外切_1,4_葡聚糖酶,其晶體結構顯示出(0/^)6桶狀折疊。該酶具有內切和外切葡聚糖酶CBH的特征。家族10僅含有2個成員,被描述為纖維二糖水解酶,其余主要被描述為木聚糖酶。家族10的纖維二糖水解酶和木聚糖酶具有對甲基-傘形基纖維二糖苷的活性。家族48主要含有細菌和厭氧真菌纖維二糖水解酶和內切葡聚糖酶。結構是類似于家族9的(α/α)6桶狀折疊。存在對用于公路車輛的較不昂貴和可再生的燃料來源的需求。如果新的燃料來源·在燃燒之后產生無害的終產物,則它們將更加有吸引力。乙醇提供了石油基燃料的有吸引力的可替代選擇,并且可以通過衍生自淀粉或木質纖維素的單體糖發酵獲得。然而,目前的經濟學不支持乙醇的廣泛使用,原因在于生產乙醇的高成本。一個目標在于降低成本的研究領域是增加用于從木質纖維素產生可發酵糖類的酶的技術效率。更有效地消化原料的酶的開發將轉變成降低的乙醇生產成本。更有效的工藝將降低美國對進口油的依賴以及與該依賴性相關的價格波動。使用更清潔的運輸燃料例如生物乙醇還可以降低凈CO2排放,其被認為是造成全球變暖的部分原因。
發明概述本發明提供了纖維素酶,例如,內切葡聚糖酶、纖維二糖水解酶和/或β -葡糖苷酶(多種β_葡糖苷酶),以及制備和使用它們的方法。一方面,本發明的酶具有增加的催化速率,以改善底物水解過程。在催化速率上這種增加的效率導致在生產糖類上增加的效率,這可用于工業應用中,例如,如此產生的糖可被微生物用于乙醇生產。一方面,本發明提供了高活性(例如,具有增加的催化速率)的纖維二糖水解酶、內切葡聚糖酶和β -葡糖苷酶。本發明提供了工業應用(例如,生物物質(biomass)轉化為乙醇),其利用了本發明的具有降低的酶成本的酶,例如,在生物物質轉化為乙醇的過程中降低的成本。因此,本發明提供了由任何生物質生產生物乙醇和含生物乙醇的組合物的有效率的工藝,所述含生物乙醇的組合物包括含有生物乙醇的燃料。一方面,本發明的酶具有葡聚糖酶例如內切葡聚糖酶活性,例如催化內部內-β-1,4-和/或β-1,3-葡聚糖鍵的水解。一方面,內切葡聚糖酶活性(例如,內切1,4-β -D-葡聚糖4-葡聚糖水解酶活性)包括水解纖維素、纖維素衍生物(例如羧甲基纖維素和羥乙基纖維素)地衣聚糖(Iichenin)中的1,4_和/或β _1,3-β-D-糖苷鍵、混合的β-1,3葡聚糖中的β-1,4鍵,例如谷類β-D-葡聚糖或木葡聚糖以及含有纖維質部分的其它植物材料。一方面,本發明的酶具有內切葡聚糖酶(例如,內切_β -1,4-葡聚糖酶,EC3.2.1.4;內切-β_1,3(1)-葡聚糖酶,EC 3. 2. 1.6;內切-β _1,3-葡聚糖酶,EC3. 2. I. 39)活性并且可以水解纖維素和葡聚糖中的內部0-1,4-和/或0-1,3-糖苷鍵,以產生較小分子量的葡萄糖和葡萄糖寡聚體。本發明提供了使用本發明的這些酶產生更小分子量的葡萄糖和葡萄糖寡聚體的方法。一方面,本發明的酶用于產生葡聚糖,例如,由1,4-β-和/或1,3-糖苷鍵接的D-吡喃葡糖形成的多糖。一方面,本發明的內切葡聚糖酶被用在食品工業中如烘焙及水果和蔬菜加工、農業廢物的分解、動物飼料的生產、紙漿和紙的生產、紡織物生產以及家用和工業清潔劑。一方面,通過微生物如真菌和/或細菌,生產本發明的酶,例如內切葡聚糖酶。一方面,本發明的酶如內切葡聚糖酶被用于水解葡聚糖,葡聚糖是谷物主要的非淀粉多糖。根據品種和生長條件,多糖的葡聚糖含量可顯著變化。該多糖的物理化學性質是在氧化條件下產生粘性溶液或者甚至是凝膠。此外,葡聚糖具有高的水結合能力。所有這些特征給幾個行業帶來了問題,包括釀造、烘焙、動物營養。在釀造應用中,葡聚糖的存在導致麥芽汁過濾性和形成渾濁的問題。在烘焙應用中(尤其對于曲奇和脆餅),葡聚糖可產生發粘面團,其難以進行機械加工和減小餅干尺寸。因此,本發明的酶如內切葡聚糖酶被用于降低含β_葡聚糖的組合物中β_葡聚糖的量,例如,本發明的酶被用在降低溶液或 凝膠的粘度的工藝中;用于降低組合物例如含β_葡聚糖的組合物的水結合能力;在釀造工藝中(例如,用于增加麥芽汁過濾性和降低混濁),用于降低面團的粘性,例如,用于制作曲奇、面包、餅干等等的面團。此外,碳水化合物(例如,β -葡聚糖)參與烘焙產品的快速再水化,導致松脆性損失和縮短的貨架期。因此,本發明的酶,例如內切葡聚糖酶,被用于保持松脆性、增加松脆性或降低松脆性的損失速率,以及增加任何含碳水化合物食品、飼料或飲料的貨架期,例如含β -葡聚糖的食品、飼料或飲料。本發明的酶,例如內切葡聚糖酶,被用于降低消化道內容物(例如,在動物中,如反芻動物或人中)的粘性,例如,含有谷物膳食的那些。因此,在可選的方面,本發明的酶,例如內切葡聚糖酶,被用于正面影響食品或飼料的可消化性以及動物(例如,人或家畜)生長速率,以及在一方面,被用于產生更高的飼料轉化效率。對于谷物食物的單胃動物飼料應用,β -葡聚糖是消化道內容物的粘性的促成因素,并且從而負面影響飼料的可消化性和動物生長速率。對于反芻動物,這些β_葡聚糖代表纖維攝入的基本成分,而葡聚糖的更完全的消化將促進更高的飼料轉化效率。因此,本發明提供了含有本發明的內切葡聚糖酶的動物飼料和食品,并且在一方面,這些酶在動物消化道中是有活性的,例如在胃和/或腸中是有活性的。本發明的酶,例如內切葡聚糖酶,被用于消化纖維素或任何含β-1,4_連接葡聚糖的合成或天然的材料,包括在任何植物材料中發現的那些。本發明的酶,例如內切葡聚糖酶,被用作例如在木材加工、紙漿和/或紙工業中、在紡織品制造中以及在家用和工業清潔劑中和/或在生物物質廢物處理中消化纖維素的商業酶。一方面,本發明提供了含有本發明的酶、多肽或多核苷酸的組合物(例如,藥物組合物、食物、飼料、藥物、飲食補充物)。這些組合物可以以各種形式加以配制,例如片劑、凝膠、丸劑、植入物、液體、噴劑、粉末、食物、飼料小丸或任何類型的膠囊化形式。本發明提供了分離的或重組的核酸,包括在至少大約10、15、20、25、30、35、40、45、50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、I100、I150、1200、1250、1300、1350、1400、1450、1500、1550、1600、1650、1700、1750、1800、1850、1900、1950、2000、2050、2100、2200、2250、2300、2350、2400、2450、2500或更多殘基的區域內,與本發明的示例性核酸具有至少大約50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性的核酸序列,本發明的示例性核酸包括SEQ ID NO: I, SEQ ID NO: 3, SEQ ID NO: 5, SEQ ID NO: 7, SEQ ID NO: 9, SEQID NO:11,SEQ ID NO:13,SEQ ID NO:15,SEQ ID NO:17,SEQ ID NO:19,SEQ ID NO:21,SEQID NO:23,SEQ ID NO:25,SEQ ID NO:27,SEQ ID NO:29,SEQ ID NO:31,SEQ ID NO:33,SEQID NO:35,SEQ ID NO:37,SEQ ID NO:39,SEQ ID NO:41,SEQ ID NO:43,SEQ ID NO:45,SEQID NO:47,SEQ ID NO:49,SEQ ID NO:51, SEQ ID NO:53, SEQ ID NO:55, SEQ ID NO:57, SEQID NO:59,SEQ ID NO:61,SEQ ID NO:63,SEQ ID NO:65, SEQ ID NO:67, SEQ ID NO:69, SEQID NO:71,SEQ ID NO:73,SEQ ID NO:75,SEQ ID NO:77,SEQ ID NO:79,SEQ ID NO:81,SEQID NO:83,SEQ ID NO:85,SEQ ID NO:87,SEQ ID NO:89,SEQ ID NO:91,SEQ ID NO:93,SEQID NO:95,SEQ ID NO:97,SEQ ID NO:99,SEQ ID NO:101,SEQ ID NO:103,SEQ ID NO:105,SEQ ID NO: 107,SEQ ID NO: 109,SEQ ID NO: 111,SEQ ID NO: 113,SEQ ID NO: 115,SEQ ID·NO:117,SEQ ID NO:119,SEQ ID NO:121,SEQ ID NO:123,SEQ ID NO:125,SEQ ID NO:127,SEQ ID NO: 129,SEQ ID NO: 131,SEQ ID NO: 133,SEQ ID NO: 135,SEQ ID NO: 137,SEQ IDNO:139,SEQ ID NO:141,SEQ ID NO:143,SEQ ID NO:145,SEQ ID NO:147,SEQ ID NO:149,SEQ ID NO: 151,SEQ ID NO: 153,SEQ ID NO: 155,SEQ ID NO: 157,SEQ ID NO: 159,SEQ IDNO: 161,SEQ ID NO: 163和SEQ ID NO: 165 ;也參見下面的表1、2和3、實施例I和4,以及序列表;以及在可選的方面,這些核酸編碼至少一個具有纖維素酶活性例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽,或者編碼能夠產生可特異性結合本發明多肽的抗體的多肽,或者,這些核酸可用作鑒別或分離編碼纖維素酶的核酸的探針,或用于抑制表達纖維素酶的核酸的表達(所有這些方面都稱為“本發明的核酸”)。一方面,所述序列同一性通過運用了序列比較算法的分析或通過視覺觀察來確定。本發明的核酸也包括,編碼本發明的示例性酶的分離的或重組的核酸,本發明的示例性酶包括具有如下所示序列的多肽SEQ ID NO:2, SEQ ID NO:4, SEQ ID NO:6, SEQ IDNO:8, SEQ ID NO: 10,SEQ ID NO: 12,SEQ ID NO: 14,SEQ ID NO: 16,SEQ ID NO: 18,SEQ IDNO:20,SEQ ID NO:22,SEQ ID NO:24,SEQ ID NO:26,SEQ ID NO:28,SEQ ID NO:30,SEQ IDNO:32,SEQ ID NO:34,SEQ ID NO:36,SEQ ID NO:38,SEQ ID NO:40,SEQ ID NO:42,SEQ IDNO:44,SEQ ID NO:46,SEQ ID NO:48,SEQ ID NO:50,SEQ ID NO:52,SEQ ID NO:54,SEQ IDNO:56,SEQ ID NO:58,SEQ ID NO:60,SEQ ID NO:62,SEQ ID NO:64,SEQ ID NO:66,SEQ IDNO:68,SEQ ID NO:70,SEQ ID NO:72,SEQ ID NO:74,SEQ ID NO:76,SEQ ID NO:78,SEQ IDNO:80,SEQ ID NO:82,SEQ ID NO:84,SEQ ID NO:86,SEQ ID NO:88,SEQ ID NO:90,SEQID NO:92,SEQ ID NO:94,SEQ ID NO:96,SEQ ID NO:98,SEQ ID NO: 100,SEQ ID NO: 102,SEQ ID NO: 104,SEQ ID NO: 106,SEQ ID NO: 108,SEQ ID NO: 110,SEQ ID NO: 112,SEQ IDNO:114,SEQ ID NO:116,SEQ ID NO:118,SEQ ID NO:120,SEQ ID NO:122,SEQ ID NO:124,SEQ ID NO: 126,SEQ ID NO: 128,SEQ ID NO: 130,SEQ ID NO: 132,SEQ ID NO: 134,SEQ IDNO:136,SEQ ID NO:138,SEQ ID NO:140,SEQ ID NO:142,SEQ ID NO:144,SEQ ID NO:146,SEQ ID NO: 148,SEQ ID NO: 150,SEQ ID NO: 152,SEQ ID NO: 154,SEQ ID NO: 156,SEQ IDNO: 158,SEQ ID NO: 160, SEQ ID NO: 162,SEQ ID NO: 164 和 SEQ ID NO: 166,也參見下面的表1、2和3、實施例I和4,和序列表,及其子序列和其變體。一方面,該多肽具有纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性。一方面,本發明提供了編碼纖維素酶的核酸,例如編碼內切葡聚糖酶、纖維二糖水解酶和/或葡糖苷酶的核酸,其共同的新穎性在于它們來源于混合培養物。本發明提供了從混合培養物分離的編碼纖維素降解酶的核酸,其包括本發明的多核苷酸,例如在至少大約 50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150或更多殘基的區域內,與本發明的示例性核酸具有至少大約 10%、15%、20%、25%、30%、35%、40%、45%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性的序列,本發明的示例性核酸例如SEQID NO: I, SEQ ID N0:3, SEQ ID N0:5, SEQ ID N0:7, SEQ ID N0:9, SEQ ID NO: 11, SEQ ID·NO:13,SEQ ID NO:15,SEQ ID NO:17,SEQ ID NO:19,SEQ ID NO:21,SEQ ID NO:23,SEQ IDNO:25,SEQ ID NO:27,SEQ ID NO:29,SEQ ID NO:31,SEQ ID NO:33,SEQ ID NO:35,SEQ IDNO:37,SEQ ID NO:39,SEQ ID NO:41,SEQ ID NO:43,SEQ ID NO:45,SEQ ID NO:47,SEQ IDNO:49,SEQ ID NO:51,SEQ ID NO:53,SEQ ID NO:55,SEQ ID NO:57,SEQ ID NO:59, SEQ IDN0:61,SEQ ID NO:63,SEQ ID NO:65,SEQ ID NO:67, SEQ ID NO:69, SEQ ID NO:71, SEQ IDNO:73,SEQ ID NO:75,SEQ ID NO:77,SEQ ID NO:79,SEQ ID N0:81,SEQ ID NO:83,SEQ IDNO:85,SEQ ID NO:87,SEQ ID NO:89,SEQ ID N0:91,SEQ ID NO:93,SEQ ID NO:95,SEQ IDN0:97, SEQ ID N0:99, SEQ ID NO: 101, SEQ ID NO: 103, SEQ ID NO: 105, SEQ ID NO: 107,SEQ ID NO: 109,SEQ ID NO: 111,SEQ ID NO: 113,SEQ ID NO: 115,SEQ ID NO: 117,SEQ IDNO:119,SEQ ID NO:121,SEQ ID NO:123,SEQ ID NO:125,SEQ ID NO:127,SEQ ID NO:129,SEQ ID NO: 131,SEQ ID NO: 133,SEQ ID NO: 135,SEQ ID NO: 137,SEQ ID NO: 139,SEQ IDNO:141,SEQ ID NO:143,SEQ ID NO:145,SEQ ID NO:147,SEQ ID NO:149,SEQ ID NO:151,SEQ ID NO: 153, SEQ ID NO: 155,SEQ ID NO: 157, SEQ ID NO: 159,SEQ ID NO: 161,SEQ IDNO: 163和SEQ ID NO: 165 ;也參見下面的表1、2和3、實施例I和4,以及序列表。一方面,本發明提供了編碼纖維素酶的核酸,例如編碼內切葡聚糖酶、纖維二糖水解酶和/或β -葡糖苷酶的核酸,包括本發明的示例性多核苷酸序列,也參見下面的表1、2和3、實施例I和4,和序列表,以及由它們編碼的多肽,包括本發明的酶,諸如本發明的示例性多肽,如 SEQ ID NO:2,SEQ ID NO:4,SEQ ID NO:6,SEQ ID NO:8,SEQ ID NO: 10,SEQ IDNO:12,SEQ ID NO:14,SEQ ID NO:16,SEQ ID NO:18,SEQ ID NO:20,SEQ ID NO:22,SEQ IDNO:24,SEQ ID NO:26,SEQ ID NO:28,SEQ ID NO:30,SEQ ID NO:32,SEQ ID NO:34,SEQ IDNO:36,SEQ ID NO:38,SEQ ID NO:40,SEQ ID NO:42,SEQ ID NO:44,SEQ ID NO:46,SEQ IDNO:48,SEQ ID NO:50,SEQ ID NO:52,SEQ ID NO:54,SEQ ID NO:56,SEQ ID NO:58,SEQ IDNO:60,SEQ ID NO:62,SEQ ID NO:64,SEQ ID NO:66,SEQ ID NO:68,SEQ ID NO:70,SEQ IDNO:72,SEQ ID NO:74,SEQ ID NO:76,SEQ ID NO:78,SEQ ID NO:80,SEQ ID NO:82,SEQ IDNO:84,SEQ ID NO:86,SEQ ID NO:88,SEQ ID NO:90,SEQ ID NO:92,SEQ ID NO:94,SEQ IDNO:96, SEQ ID NO:98, SEQ ID NO: 100, SEQ ID NO: 102, SEQ ID NO: 104, SEQ ID NO: 106,SEQ ID NO: 108,SEQ ID NO: 110,SEQ ID NO: 112,SEQ ID NO: 114,SEQ ID NO: 116,SEQ IDNO:118,SEQ ID NO:120,SEQ ID NO:122,SEQ ID NO:124,SEQ ID NO:126,SEQ ID NO:128,SEQ ID NO: 130,SEQ ID NO: 132,SEQ ID NO: 134,SEQ ID NO: 136,SEQ ID NO: 138,SEQ IDNO:140,SEQ ID NO:142,SEQ ID NO:144,SEQ ID NO:146,SEQ ID NO:148,SEQ ID NO:150,SEQ ID NO: 152,SEQ ID NO: 154,SEQ ID NO: 156,SEQ ID NO: 158,SEQ ID NO: 160,SEQ IDNO: 162, SEQ ID N0:164和SEQ ID NO: 166,也參見表I和序列表,其共同的新穎性在于它們來源于共同的來源,例如環境來源。一方面,本發明也提供了編碼纖維素酶的核酸,例如編碼內切葡聚糖酶、纖維二糖水解酶和/或β_葡糖苷酶的核酸,其共同的新穎性在于它們來源于環境來源,例如混合的環境來源。一方面,序列比較算法是BLAST 2. 2. 2版本算法,其中過濾設置(filteringsetting)被設置為blastall -p blastp - d “nr pataa” -F F,所有其它選項被設置為缺
省。 本發明的另一方面是分離的或重組的核酸,包括本發明的核酸序列的至少10、15、
20、25、30、35、40、45、50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、I100、I150、1200、1250、1300、1350、1400、1450、1500、1550、1600、1650、1700、1750、1800、1850、1900、1950、2000、2050、2100、2200、2250、2300、2350、2400、2450、2500或更多個連續堿基、與其基本相同的序列、以及與其互補的序列。一方面,所述分離的或重組的核酸編碼具有纖維素酶活性的多肽,例如,具有內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽,其是熱穩定的。該多肽在包括如下溫度范圍的條件下可以保持纖維素酶活性大約37°C到大約95°C之間;大約55°C到大約85°C之間;大約70°C到大約95°C之間;或大約90°C到大約95°C之間。該多肽在如下范圍內的溫度下可以保持纖維素酶活性在大約1°C到大約5°C之間,大約5°C到大約15 °C之間,大約15 °C到大約25 °C之間,大約25 °C到大約37 °C之間,大約37 °C到大約95 °C、96 °C、97 °C、98 °C或99 °C之間,大約55 °C到大約85 °C之間,大約70 V到大約75 °C之間,或大約90 V到大約99 °C,或95 °C、96 °C、97 °C、98 V或99 °C,或更高溫度。另一方面,所述分離的或重組的核酸編碼具有纖維素酶活性的多肽,例如,具有內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性的多肽,其是耐熱的。該多肽在暴露于如下范圍內的溫度后可以保持纖維素酶活性37°C以上到大約95°C,或55°C以上到大約85°C的范圍之內的任何溫度。該多肽在暴露于如下范圍內的溫度后可以保持纖維素酶活性在大約1°C到大約5°C之間,大約5°C到大約15°C之間,大約15°C到大約25°C之間,大約25°C到大約37°C之間,大約37°C到大約95°C、96°C、97°C、98°C或99°C之間,大約55 °C到大約85 °C之間,大約70 V到大約75 °C之間,或大約90 V到大約95 °C之間,或更高溫度。一方面,該多肽在暴露于如下范圍內的溫度后保持纖維素酶活性90°C以上到大約99°〇,或95°〇、961、971、981或991,在大約 pH 4. 5,或更高。本發明提供了分離的或重組的核酸,包括在嚴緊條件下與本發明的核酸雜交的序列,所述本發明的核酸包括本發明的示例性序列,例如如下所示的序列SEQ ID NO: I, SEQID NO:3, SEQ ID NO:5, SEQ ID NO:7, SEQ ID NO:9,SEQ ID NO: 11,SEQ ID NO: 13,SEQ IDNO:15,SEQ ID NO:17,SEQ ID NO:19,SEQ ID NO:21,SEQ ID NO:23,SEQ ID NO:25, SEQ IDNO:27,SEQ ID NO:29,SEQ ID NO:31,SEQ ID NO:33, SEQ ID NO:35, SEQ ID NO:37,SEQ IDNO:39,SEQ ID NO:41,SEQ ID NO:43,SEQ ID NO:45,SEQ ID NO:47,SEQ ID NO:49,SEQ IDNO:51,SEQ ID NO:53,SEQ ID NO:55,SEQ ID NO:57,SEQ ID NO:59,SEQ ID N0:61,SEQ IDNO:63,SEQ ID NO:65,SEQ ID NO:67,SEQ ID NO:69,SEQ ID NO:71,SEQ ID NO:73,SEQ IDNO:75,SEQ ID NO:77,SEQ ID NO:79,SEQ ID N0:81,SEQ ID NO:83,SEQ ID NO:85,SEQ IDNO:87,SEQ ID NO:89,SEQ ID N0:91,SEQ ID NO:93,SEQ ID NO:95, SEQ ID NO:97, SEQ IDNO:99, SEQ ID NO: 101, SEQ ID NO: 103, SEQ ID NO: 105, SEQ ID NO: 107, SEQ ID NO: 109,SEQ ID NO: 111,SEQ ID NO: 113,SEQ ID NO: 115,SEQ ID NO: 117,SEQ ID NO: 119,SEQ IDNO:121,SEQ ID NO:123,SEQ ID NO:125,SEQ ID NO:127,SEQ ID NO:129,SEQ ID NO:131,SEQ ID NO: 133,SEQ ID NO: 135,SEQ ID NO: 137,SEQ ID NO: 139,SEQ ID NO: 141,SEQ IDNO:143,SEQ ID NO:145,SEQ ID NO:147,SEQ ID NO:149,SEQ ID NO:151,SEQ ID NO:153,SEQ ID NO:155,SEQ ID NO:157,SEQ ID NO:159,SEQ ID NO:161,SEQ ID NO:163或SEQ IDNO: 165 (也參見下面的表1、2和3、實施例I和4),或其片段或其子序列。一方面,該核酸編碼具有纖維素酶活性的多肽,例如,具有內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/ 或葡糖苷酶活性。該核酸的長度可以是至少大約10、15、20、25、30、35、40、45、50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200或更多殘基,或基因的全長或轉錄物的全長。一方面,嚴緊條件包括洗滌步驟,包括在O. 2Χ SSC中在大約65°C的溫度洗滌大約15分鐘。本發明提供了核酸探針,其用于鑒定或分離編碼具有纖維素酶活性——例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性一的多肽的核酸,其中所述探針含有核酸序列的至少大約10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950,1000或更多個連續堿基,所述核酸序列包括本發明的序列或其片段或其子序列,其中所述探針通過結合或雜交來鑒定核酸。該探針可以包括寡核苷酸,該寡核苷酸含有核酸序列的至少大約10到50、大約20到60、大約30到70、大約40到80或大約60到100個連續堿基,所述核酸序列包括本發明的序列或其片段或其子序列。本發明提供了核酸探針,其用于鑒定或分離編碼具有纖維素酶活性——例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶活性一的多肽的核酸,其中所述探針包括含有本發明核酸的至少大約10、15、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000 或更多殘基所示的序列的核酸,所述本發明核酸例如與本發明的示例性核酸具有至少大約50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或更高或完全的(100%)序列同一性的多核苷酸。一方面,序列同一性通過運用序列比較算法的分析或通過視覺觀察來確定。在可選的方面中,該探針可以包括寡核苷酸,該寡核苷酸含有本發明的核酸序列或其子序列的至少大約10到50、大約20到60、大約30到70、大約40到80或大約60到100個連續堿基。本發明提供了擴增引物序列對,其用于擴增(例如,通過PCR)編碼具有纖維素酶活性一例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性一的多肽的核酸,其中該引物對能夠擴增含有本發明的序列或其片段或子序列的核酸。擴增引物序列對的一個或每一個成員可以包括寡核苷酸,該寡核苷酸包括該序列的至少大約10到50個或更多個連續堿基,或者包括該序列的大約10、11、12、13、14、15、16、17、18、19、20、
21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36 或更多個連續堿基。本發明提供了擴增引物對,其中所述引物對包括第一成員和第二成員,第一成員具有本發明核酸的大約前(5,)12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36或更多個殘基所示的序列,第二成員含有第一成員的互補鏈的大約前(5’)12、13、
14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36 或更多個殘基所不的序列。本發明提供了通過擴增產生的編碼纖維素酶的核酸,例如編碼內切葡聚糖酶、纖維二糖水解酶和/或β -葡糖苷酶的核酸,所述擴增例如聚合酶鏈反應(PCR),其中使用本發明的擴增引物對。本發明提供了通過擴增產生的編碼纖維素酶的核酸,例如編碼內切葡·聚糖酶、纖維二糖水解酶和/或β -葡糖苷酶的核酸,所述擴增例如聚合酶鏈反應(PCR),其中使用本發明的擴增引物對。本發明提供了通過擴增制備纖維素酶——例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶——的方法,所述擴增例如聚合酶鏈反應(PCR),其中使用本發明的擴增引物對。一方面,所述擴增引物對從文庫例如基因文庫諸如環境文庫擴增核酸。本發明提供了擴增核酸的方法,所述核酸編碼具有纖維素酶活性的多肽,例如具有內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽,所述方法包括用能擴增本發明的核酸序列或其片段或子序列的擴增引物序列對擴增模板核酸。本發明提供了包含本發明的核酸或其子序列的表達序列盒。一方面,表達序列盒可以包含可操作地連接到啟動子上的核酸。啟動子可以是病毒、細菌、哺乳動物或植物啟動子。一方面,植物啟動子可以是馬鈴薯、稻、玉米、小麥、煙草或大麥啟動子。啟動子可以是組成型啟動子。組成型啟動子可以包括CaMV35S。另一方面,啟動子可以是誘導型啟動子。一方面,啟動子可以是組織特異性啟動子或環境調節型或發育調節型啟動子。因此,啟動子可以是,例如種子特異性、葉特異性、根特異性、莖特異性或脫落誘導啟動子。一方面,表達序列盒可以進一步包括植物或植物病毒表達載體。本發明提供了克隆載體,包括本發明的表達序列盒(例如載體)或本發明的核酸。克隆載體可以是病毒載體、質粒、曬菌體(phage)、曬粒、粘粒(cosmid)、fos-質粒(fosmid)、細菌曬菌體(bacteriophage)或人工染色體。病毒載體可以包括腺病毒載體、逆轉錄病毒載體或腺相關病毒載體。克隆載體可以包括細菌人工染色體(BAC)、質粒、細菌噬菌體Pl衍生載體(PAC)、酵母人工染色體(YAC)或哺乳動物人工染色體(MAC)。本發明提供了包含本發明的核酸或本發明的表達序列盒(例如載體)或本發明的克隆載體的轉化細胞。一方面,轉化細胞可以是細菌細胞、哺乳動物細胞、真菌細胞、酵母細胞、昆蟲細胞或植物細胞。一方面,植物細胞可以是大豆、油菜籽、含油種子、番茄、甘蔗、谷類、馬鈴薯、小麥、稻、玉米、煙草或大麥細胞。本發明提供了包含本發明核酸或本發明表達序列盒(例如載體)的轉基因非人動物。一方面,該動物是小鼠、大鼠、豬、山羊或綿羊。
本發明提供了包含本發明核酸或本發明表達序列盒(例如載體)的轉基因植物。轉基因植物可以是谷類植物、玉米植物、馬鈴薯植物、番茄植物、小麥植物、含油種子植物、油菜籽植物、大豆植物、水稻植物、大麥植物或煙草植物。本發明提供了包含本發明核酸或本發明表達序列盒(例如載體)的轉基因種子。轉基因種子可以是谷類種子、玉米種子、小麥粒、含油種子、油菜籽、大豆種子、棕櫚核、向日葵種子、芝麻種子、花生或煙草植物種子。本發明提供了包含與本發明的核酸互補的核酸序列或能與本發明的核酸在嚴緊條件下雜交的核酸序列的反義寡核苷酸。本發明提供了抑制纖維素酶例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶信息在細胞中翻譯的方法,該方法包括給細胞施用反義寡核苷酸或在細胞中表達反義寡核苷酸,所述反義寡核苷酸包括與本發明的核酸互補的核酸序列或能與本發明的核酸在嚴緊條件下雜交的核酸序列。一方面,所述反義寡核苷酸的長度在大約10到50、大約20到60、大約30到70、大約40到80或大約60到100 個堿基之間,例如長度為 10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100或更多個堿基。本發明提供了抑制纖維素酶例如內切葡聚糖酶、纖維二糖水解酶、甘 露聚糖酶和/或β -葡糖苷酶信息在細胞中翻譯的方法,該方法包括給細胞施用反義寡核苷酸或在細胞中表達反義寡核苷酸,所述反義寡核苷酸包括與本發明的核酸互補的核酸序列或能與本發明的核酸在嚴緊條件下雜交的核酸序列。本發明提供了含有本發明的序列的子序列的雙鏈抑制RNA (RNAi或RNA干擾)分子(包括小干擾性RNA,或siRNA,用于抑制轉錄,以及微RNA或miRNA,用于抑制翻譯)。在一個方面,siRNA的長度為大約21至24個殘基之間,或大約至少15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、55、60、65、70、75、80、85、90、95,100或更多個雙鏈核苷酸。本發明提供了抑制纖維素酶例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶在細胞中的表達,所述方法包括向所述細胞施用雙鏈抑制RNA (siRNA或miRNA)或在所述細胞中表達雙鏈抑制RNA (siRNA或miRNA),其中所述RNA含有本發明的序列的子序列。本發明提供了分離的或重組的多肽,包括在至少大約10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300、325、350 或更多個殘基的區域內或者在多肽的全長區域內,與本發明的示例性多肽或肽具有至少大約50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或更高或完全的(100%)序列同一性的氨基酸序列。一方面,序列同一性通過運用序列比較算法的分析或通過視覺觀察來確定。本發明的示例性多肽或肽序列包括SEQ ID N0:2, SEQ ID NO:4, SEQ ID N0:6, SEQ IDNO:8, SEQ ID NO: 10,SEQ ID NO: 12,SEQ ID NO: 14,SEQ ID NO: 16,SEQ ID NO: 18,SEQ IDNO:20,SEQ ID NO:22,SEQ ID NO:24,SEQ ID NO:26,SEQ ID NO:28,SEQ ID NO:30,SEQ IDNO:32,SEQ ID NO:34,SEQ ID NO:36,SEQ ID NO:38,SEQ ID NO:40,SEQ ID NO:42,SEQ IDNO:44,SEQ ID NO:46,SEQ ID NO:48,SEQ ID NO:50,SEQ ID NO:52,SEQ ID NO:54,SEQ IDNO:56,SEQ ID NO:58,SEQ ID NO:60,SEQ ID NO:62,SEQ ID NO:64,SEQ ID NO:66,SEQ IDNO:68,SEQ ID NO:70,SEQ ID NO:72,SEQ ID NO:74,SEQ ID NO:76,SEQ ID NO:78,SEQ IDNO:80,SEQ ID NO:82,SEQ ID NO:84,SEQ ID NO:86,SEQ ID NO:88,SEQ ID NO:90,SEQID NO:92,SEQ ID NO:94,SEQ ID NO:96,SEQ ID NO:98,SEQ ID NO: 100,SEQ ID NO: 102,SEQ ID NO: 104,SEQ ID NO: 106,SEQ ID NO: 108,SEQ ID NO: 110,SEQ ID NO: 112,SEQ IDNO:114,SEQ ID NO:116,SEQ ID NO:118,SEQ ID NO:120,SEQ ID NO:122,SEQ ID NO:124,SEQ ID NO: 126,SEQ ID NO: 128,SEQ ID NO: 130,SEQ ID NO: 132,SEQ ID NO: 134,SEQ IDNO:136,SEQ ID NO:138,SEQ ID NO:140,SEQ ID NO:142,SEQ ID NO:144,SEQ ID NO:146,SEQ ID NO: 148,SEQ ID NO: 150,SEQ ID NO: 152,SEQ ID NO: 154,SEQ ID NO: 156,SEQ IDNO: 158,SEQ ID NO: 160, SEQ ID NO: 162, SEQ ID NO: 164 和 SEQ ID NO: 166 (也參見下面的表1、2和3、實施例I和4,和序列表)及其子序列和其變體。示例性多肽還包括長度為至少大約 10、15、20、25、30、35、40、45、50、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600或更多個殘基的片段,或者為酶的全長區域內的片段。本發明的多肽或肽序列包括由本發明的核酸編碼的序列。本發明的多肽或肽序列包括由本發明的抗體特異性結合的多肽或肽(例如,表位),或可產生本發明的抗體的多肽或肽(例如,免疫原)。一方面,本發明的多肽具有至少一種纖維素酶活性,例如內切葡聚糖酶、纖維二糖 水解酶、甘露聚糖酶和/或β_葡糖苷酶活性。在可選的方面,本發明的多核苷酸編碼具有至少一種纖維素酶活性的多肽,例如具有內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶活性的多肽。一方面,纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或 葡糖苷酶活性,是熱穩定的。多肽在包括如下溫度范圍的條件下可以保持纖維素酶活
性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性:大約rc到大約5 °C之間,大約5 0C到大約15 °C之間,大約15 °C到大約25 °C之間,大約25 °C到大約37 °C之間,大約37°C到大約95°C之間,大約55°C到大約85°C之間,大約70°C到大約75°C之間,或大約90°C到大約95°C之間,或更高溫度。在另一方面,纖維素酶活性,例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性,可以是耐熱的。該多肽在暴露于如下范圍內的溫度后可以保持纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性37°C以上到大約95°C,或55°C以上到大約85°C的范圍內。一方面,該多肽在PH 4. 5時暴露于90°C以上到大約95°C的溫度后可以保持纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性。本發明的另一方面提供了分離的或重組的多肽或肽,包括本發明的多肽或肽序列、與其基本上相同的序列、與其互補的序列的至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150或更多個連續堿基。該肽可以是例如免疫原性片段、基序(例如結合位點)、信號序列、前原序列(prepro sequence)或活性位點。本發明提供了分離的或重組的核酸,包括編碼具有纖維素酶活性例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽和信號序列的序列,其中所述核酸包括本發明的序列。信號序列可以來源于另一種纖維素酶,例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶,或者非纖維素酶,例如非內切葡聚糖酶、非纖維二糖水解酶和/或非β_葡糖苷酶(異源)。本發明提供了分離的或重組的核酸,包括編碼具有纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或
葡糖苷酶活性的多肽的序列,其中所述序列不含有信號序列,所述核酸包括本發明的序列。一方面,本發明提供了分離的或重組的多肽,包括本發明的多肽,其缺少信號序列的全部或部分。一方面,所述分離的或重組的多肽可以包括本發明的多肽,其含有異源信號序列,例如異源纖維素酶信號序列如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶信號序列,或非纖維素酶信號序列如非內切葡聚糖酶、非纖維二糖水解酶和/或非β-葡糖苷酶信號序列。—方面,本發明提供了嵌合蛋白,其包括含有本發明的信號序列的第一結構域和至少第二結構域。該蛋白可以是融合蛋白。第二結構域可以包括酶。該酶可以是非酶(non-enzyme)ο本發明提供了嵌合多肽,包括含有本發明的信號肽(SP)、前原序列和/或催化結構域(CD)的至少第一結構域以及含有異源多肽或肽的第二結構域,其中所述異源多肽或肽不與所述信號肽(SP)、前原序列和/或催化結構域(CD)天然相關。一方面,所述異源多肽或肽不是纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶。所述異源多肽或肽可以在所述信號肽(SP)、前原序列和/或催化結構域(CD)的氨基端、羧基端或兩端。·本發明提供了編碼嵌合多肽的分離的或重組的核酸,其中所述嵌合多肽包括含有本發明的信號肽(SP)、前原結構域和/或催化結構域(CD)的至少第一結構域以及含有異源多肽或肽的第二結構域,其中所述異源多肽或肽不與所述信號肽(SP)、前原結構域和/或催化結構域(CD)天然相關。本發明提供了分離的或重組的信號序列(例如,信號肽),其包括本發明的多肽的殘基 I 至 14、I 至 15、I 至 16、I 至 17、I 至 18、I 至 19、I 至 20、I 至 21、I 至 22、I 至 23、I 至24、1 至 25、1 至 26、1 至 27、1 至 28、1 至 28、1 至 30、1 至 31、1 至 32、1 至 33、1 至 34、1 至35、I 至 36、I 至 37、I 至 38、I 至 40、I 至 41、I 至 42、I 至 43、I 至 44、I 至 45、I 至 46 或 I 至47所示的序列或由本發明的多肽的殘基I至14、I至15、I至16、I至17、I至18、I至19、I 至 20、1 至 21、1 至 22、1 至 23、1 至 24、1 至 25、1 至 26、1 至 27、1 至 28、1 至 28、1 至 30、I 至 31、I 至 32、I 至 33、I 至 34、I 至 35、I 至 36、I 至 37、I 至 38、I 至 40、I 至 41、I 至 42、I至43、I至44、I至45、I至46或I至47所示的序列組成,本發明的多肽例如示例性的SEQID NO:2,SEQ ID NO:4,SEQ ID NO:6,SEQ ID NO:8,SEQ ID NO: 10,SEQ ID NO: 12,SEQ IDNO:14,SEQ ID NO:16,SEQ ID NO:18,SEQ ID NO:20,SEQ ID NO:22,SEQ ID NO:24,SEQ IDNO:26,SEQ ID NO:28,SEQ ID NO:30,SEQ ID NO:32,SEQ ID NO:34,SEQ ID NO:36,SEQ IDNO:38,SEQ ID NO:40,SEQ ID NO:42,SEQ ID NO:44,SEQ ID NO:46,SEQ ID NO:48,SEQ IDNO:50,SEQ ID NO:52,SEQ ID NO:54,SEQ ID NO:56,SEQ ID NO:58,SEQ ID NO:60,SEQ IDNO:62,SEQ ID NO:64,SEQ ID NO:66,SEQ ID NO:68,SEQ ID NO:70,SEQ ID NO:72,SEQ IDNO:74,SEQ ID NO:76,SEQ ID NO:78,SEQ ID NO:80,SEQ ID NO:82,SEQ ID NO:84,SEQ IDNO:86,SEQ ID NO:88,SEQ ID NO:90,SEQ ID NO:92,SEQ ID NO:94,SEQ ID NO:96,SEQ IDN0:98, SEQ ID NO: 100,SEQ ID NO: 102,SEQ ID NO: 104,SEQ ID NO: 106,SEQ ID NO: 108,SEQ ID NO: 110,SEQ ID NO: 112,SEQ ID NO: 114,SEQ ID NO: 116,SEQ ID NO: 118,SEQ IDNO:120,SEQ ID NO:122,SEQ ID NO:124,SEQ ID NO:126,SEQ ID NO:128,SEQ ID NO:130,SEQ ID NO: 132,SEQ ID NO: 134,SEQ ID NO: 136,SEQ ID NO: 138,SEQ ID NO: 140,SEQ IDNO:142,SEQ ID NO:144,SEQ ID NO:146,SEQ ID NO:148,SEQ ID NO:150,SEQ ID NO:152,SEQ ID NO: 154,SEQ ID NO: 156,SEQ ID NO: 158,SEQ ID NO: 160,SEQ ID NO: 162,SEQ IDNO: 164或SEQ ID NO: 166(也參見下面的表1、2和3、實施例I和4,以及序列表)。一方面,本發明提供了信號序列,其包括本發明的多肽的前14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70 或更多個氨基端殘基。一方面,纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性,包括在大約37°C每毫克蛋白大約I到大約1200單位,或每毫克蛋白大約100到大約1000單位的范圍內的比活性。另一方面,纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性,包括每毫克蛋白從大約100到大約1000單位,或從大約500到大約750單位的比活性。可以選擇地,纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性,包括在37°C每毫克蛋白從大約I到大約750單位,或每毫克蛋白大約500到大約1200單位的范圍內的比活性。一方面,纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶 活性,包括在37°C每毫克蛋白從大約I到大約500單位,或每毫克蛋白大約750到大約1000單位的范圍內的比活性。另一方面,纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性,包括在37°C每毫克蛋白從大約I到大約250單位的范圍內的比活性。可選地,纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性,包括在37°C每毫克蛋白從大約I到大約100單位的范圍內的比活性。另一方面,耐熱性包括在被加熱到高溫后,保持在37°C時纖維素酶例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶的比活性的至少一半。可以選擇地,耐熱性可以包括在被加熱到高溫后,保持在37°C每毫克蛋白從大約I到大約1200單位,或每毫克蛋白大約500到大約1000單位的范圍內的比活性。另一方面,耐熱性可以包括在被加熱到高溫后,保持在37°C每毫克蛋白從大約I到大約500單位的范圍內的比活性。本發明提供了本發明的分離的或重組的多肽,其中所述多肽包括至少一個糖基化位點。一方面,糖基化可以是N-連接糖基化。一方面,多肽可以在畢赤酵母(P. pastoris)或裂變酵母(S. pombe)中被表達后被糖基化。一方面,多肽可以在包括大約pH 6. 5、pH 6、pH 5. 5、pH 5、pH 4· 5或pH4的更酸性的條件下保持纖維素酶活性,例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性。另一方面,多肽可以在包括大約PH 7、pH 7. 5、pH 8. O、pH 8. 5, pH 9、pH 9. 5、pH 10、pH 10. 5或pH 11或更堿性的條件下保持纖維素酶活性,例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性。一方面,多肽可以在暴露于包括大約pH 6. 5、pH 6、pH 5. 5、pH 5、pH4. 5或pH 4的更酸性pH的條件下保持纖維素酶活性,例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性。另一方面,多肽可以在暴露于包括大約 pH 7、pH 7. 5, pH 8. O, pH 8. 5, pH 9、pH 9. 5, pH 10、pH 10. 5或pH 11或更堿性pH的條件下保持纖維素酶活性,例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性。一方面,本發明的纖維素酶,例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶,在堿性條件下,例如在腸道如小腸的堿性條件下,具有活性。一方面,多肽在暴露于胃的酸性PH后保持活性。本發明提供了含有本發明的多肽(包括肽)的蛋白制劑,其中該蛋白制劑包括液體、固體或凝膠。本發明提供了包含本發明的多肽和第二蛋白或結構域的異二聚體。該異二聚體的第二成員可以是不同的纖為素酶,例如,內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶,不同的酶或另一種蛋白。一方面,第二域結構可以是多肽,異源二聚體可以是融合蛋白。一方面,第二結構域可以是表位(epitope)或標記物(tag)。一方面,本發明提供了包含本發明的多肽的同型二聚體。本發明提供了具有纖維素酶活性例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的固定化多肽(包括肽),其中所述固定化多肽包括本發明的多肽、由本發明的核酸編碼的多肽、或含有本發明的多肽和第二結構域的多肽。一方面,多肽可以被固定在細胞、金屬、樹脂、聚合物、陶瓷、玻璃、微電極、石墨顆粒、珠子、凝膠、平板、陣列或毛細管上。本發明還提供了包含本發明的固定化核酸的陣列,包括,例如本發明的探針。本發 明還提供了包含本發明的抗體的陣列。本發明提供了分離的或重組的抗體,其與本發明的多肽或與由本發明的核酸編碼的多肽特異性結合。本發明的這些抗體可以是單克隆或多克隆抗體。本發明提供了包含本發明的抗體的雜交瘤,所述抗體例如,與本發明的多肽或與由本發明的核酸編碼的多肽特異性結合的抗體。本發明提供了編碼這些抗體的核酸。本發明提供了分離或鑒定具有纖維素酶活性如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽的方法,該方法包括如下步驟(a)提供本發明的抗體;(b)提供包含多肽的樣品;和((3)將步驟(b)的樣品與步驟(a)的抗體在所述抗體能與所述多肽特異性結合的條件下接觸,從而分離或鑒定具有纖維素酶活性如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽。本發明提供了制備抗纖維素酶抗體——例如抗內切葡聚糖酶抗體、抗纖維二糖水解酶抗體和/或抗β -葡糖苷酶抗體——的方法,該方法包括以足夠的量向非人動物施用本發明的核酸或本發明的多肽或其子序列,所述的量足以產生體液免疫應答,由此制備抗纖維素酶抗體,例如,抗內切葡聚糖酶抗體、抗纖維二糖水解酶抗體和/或抗β -葡糖苷酶抗體。本發明提供了產生抗纖維素酶免疫應答(細胞應答或體液應答)——例如抗內切葡聚糖酶免疫應答、抗纖維二糖水解酶免疫應答和/或抗β -葡糖苷酶免疫應答一的方法,該方法包括以足以產生免疫應答(細胞應答或體液應答)的量向非人動物施用本發明的核酸或本發明的多肽或其子序列。本發明提供了產生重組多肽的方法,包括如下步驟(a)提供與啟動子可操作地連接的本發明的核酸;和(b)在允許多肽表達的條件下表達步驟(a)的核酸,從而產生重組多肽。一方面,該方法可進一步包括用步驟(a)的核酸轉化宿主細胞,隨后表達步驟(a)的核酸,從而在轉化細胞中產生重組多肽。本發明提供了用于鑒定具有纖維素酶活性如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽的方法,該方法包括如下步驟(a)提供本發明的多肽;或由本發明的核酸編碼的多肽;(b)提供纖維素酶底物,例如內切葡聚糖酶底物、纖維二糖水解酶底物、甘露聚糖酶底物和/或β -葡糖苷酶底物;和((3)用步驟(b)的底物接觸步驟(a)的多肽或其片段或其變體,并且檢測底物量的降低或反應產物量的增加,其中底物量的降低或反應產物量的增加檢測出具有纖維素酶活性如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性的多肽。一方面,底物可以是含纖維素的化合物。本發明提供了用于鑒定纖維素酶底物的方法,如內切葡聚糖酶底物、纖維二糖水解酶底物、甘露聚糖酶底物和/或β -葡糖苷酶底物,包括如下步驟Ca)提供本發明的多肽;或由本發明的核酸編碼的多肽;(b)提供測試底物;和((3)用步驟(b)的測試底物接觸步驟(a)的多肽,并且檢測底物量的降低或反應產物量的增加,其中底物量的降低或反應產物量的增加檢測出作為纖維素酶底物如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶的測試底物。本發明提供了確定測試化合物是否與多肽特異性結合的方法,包括如下步驟
(a)在允許核酸翻譯為多肽的條件下表達核酸或包含核酸的載體,其中所述核酸包括本發明的核酸,或提供本發明的多肽;(b)提供測試化合物;(C)用測試化合物接觸多肽;和((1)·確定步驟(b)的測試化合物是否與多肽特異性結合。本發明提供了用于鑒定纖維素酶活性如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的調節劑的方法,包括如下步驟Ca)提供本發明的多肽,或由本發明的核酸編碼的多肽;(b)提供測試化合物;和((3)用步驟(b)的測試化合物接觸步驟(a)的多肽,并測定纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶的活性,其中在存在測試化合物的情況下測定的纖維素酶活性一如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性——與不存在測試化合物的情況下測定的活性相比的變化,確定了該測試化合物調節纖維素酶活性,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性。一方面,纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性,可以通過提供纖維素酶底物,例如內切葡聚糖酶底物、纖維二糖水解酶底物、甘露聚糖酶底物和/或β -葡糖苷酶底物,并檢測底物量的降低或反應產物量的增加,或底物量的增加或反應產物量的降低來測量。與沒有測試化合物時底物或反應產物的量相比,有測試化合物時底物量的降低或反應產物量的增加鑒定出作為纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的激活劑的測試化合物。與沒有測試化合物時底物或反應產物量相比,有測試化合物時底物量的增加或反應產物量的降低鑒定出作為纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性的活性的抑制劑的測試化合物。本發明提供了計算機系統,該系統包括處理器和數據存儲設備,其中所述數據存儲設備上已經存儲了本發明的多肽序列或核酸序列(例如由本發明的核酸編碼的多肽或肽)。一方面,計算機系統可以進一步包括序列比較算法和數據存儲設備,其中數據存儲設備上已經存儲了至少一個參考序列。另一方面,序列比較算法包括可指出多態現象(多態性)的計算機程序。一方面,計算機系統可以進一步包括在所述序列中鑒定一個或多個特征的鑒定器(標識符,identifier)。本發明提供了計算機可讀介質,其上已經存儲了本發明的多肽序列或核酸序列。本發明提供了用于鑒定序列中的特征的方法,包括如下步驟(a)使用可鑒定序列中的一個或多個特征的計算機程序讀取序列,其中所述序列包括本發明的多肽序列或核酸序列jP(b)用所述計算機程序鑒定序列中的一個或多個特征。本發明提供了將第一序列與第二序列進行比較的方法,包括如下步驟(a)通過使用可比較序列的計算機程序讀取第一序列和第二序列,其中第一序列包括本發明的多肽序列或核酸序列;和(b)用所述計算機程序確定第一序列和第二序列之間的差異。確定第一序列和第二序列之間差異的步驟可以進一步包括鑒定多態性的步驟。一方面,該方法可以進一步包括可鑒定序列中的一個或多個特征的鑒定器。另一方面,該方法可以包括使用計算機程序讀取第一序列,并鑒定該序列中的一個或多個特征。本發明提供了從環境樣品中分離或回收核酸的方法,所述核酸編碼具有纖維素酶活性如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽,該方法包括如下步驟(a)提供用于擴增編碼具有纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽的核酸的擴增引物序列對,其中所述引物對能擴增本發明的核酸;(b)從環境樣品中分離核酸,或處理環境樣品,以便樣品中的核酸可實現與擴增引物對雜交;和((3)將步驟(a)的擴增引物對與步驟(b)的核酸結合,并從環境樣品中擴增核酸,從而從環境樣品中分離或回收編碼具有纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性的多肽的核酸。擴增引物序列對的一個或每一成員可以包括寡核苷酸,該寡核苷酸包括本發明的擴增引物序列對,例如,具有本發明 的序列的至少大約10到50個連續堿基。本發明提供了從環境樣品中分離或回收核酸的方法,所述核酸編碼具有纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽,該方法包括如下步驟(a)提供包含本發明的核酸或其子序列的多核苷酸探針;(b)從環境樣品分離核酸,或處理環境樣品,以便樣品中的核酸可實現與步驟(a)的多核苷酸探針雜交;(c)將步驟(a)的多核苷酸探針與步驟(b)的分離的核酸或處理的環境樣品結合;和(d)分離與步驟(a)的多核苷酸探針特異性雜交的核酸,從而從環境樣品中分離或回收編碼具有纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽的核酸。環境樣品可以包括水樣品、液體樣品、土壤樣品、空氣樣品或生物樣品。一方面,生物樣品可以來源于細菌細胞、原生動物細胞、昆蟲細胞、酵母細胞、植物細胞、真菌細胞或哺乳動物細胞。本發明提供了產生編碼具有纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽的核酸變體的方法,該方法包括如下步驟Ca)提供包括本發明的核酸的模板核酸jP(b)在模板序列中修飾、刪除或添加一個或多個核苷酸,或進行修飾、刪除和添加的組合,以產生模板核酸的變體。一方面,該方法可以進一步包括表達變體核酸,以產生變體纖維素酶多肽,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶多肽。修飾、添加或刪除通過包括如下方法中的方法來引入,包括易錯PCR、改組(重排,shuffling)、寡核苷酸誘導的定向突變、裝配PCR、有性PCR誘變、體內誘變、盒式誘變、遞歸整體誘變(recursive ensemble mutagenesis)、指數整體誘變、位點特異性誘變、基因再裝配、基因位點飽和誘變(GSSM)、合成連接重裝配(SLR)、染色體飽和誘變(CSM)或其組合。另一方面,修飾、添加或刪除通過如下方法的方法引入包括重組、遞歸序列重組、硫代磷酸酯修飾的DNA誘變、含尿卩密唳模板誘變、缺口雙重誘變(gapped duplexmutagenesis)、點錯配修復誘變、修復缺陷型宿主株誘變、化學誘變、放射誘變、缺失誘變、限制選擇誘變、限制純化誘變、人工基因合成、整體誘變、嵌合核酸多聚體生成及其組合。
一方面,該方法可以被反復重復,直到產生與模板核酸編碼的多肽相比具有改變的或不同的活性或者改變的或不同的穩定性的纖維素酶,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶。一方面,變體纖維素酶多肽,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶多肽,是耐熱的,在暴露于升高的溫度之后可以保持一些活性。另一方面,與模板核酸編碼的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶相比,變體纖維素酶多肽,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶多肽,具有增加的糖基化。可以選擇地,變體纖維素酶多肽,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶多肽,在高溫下具有纖維素酶活性,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性,其中由模板核酸編碼的纖維素酶,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶,在高溫下沒有活性。一方面,該方法可以被反復重復,直到產生具有與模板核酸的密碼子使用有所不同的密碼子使用的纖維素酶編碼序列,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶編碼序列。另一方面,該方法可以被反復重復,直到產生具有比模板核酸的信息表達或穩定性更高或更低水平的信息表達或穩定性的纖維素酶基因,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶基因。
本發明提供了在編碼具有纖維素酶活性一如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性——的多肽的核酸中修飾密碼子以增加其在宿主細胞中的表達的方法,該方法包括如下步驟(a)提供編碼具有纖維素酶活性——如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性——的多肽的本發明的核酸;和(b)鑒定步驟(a)的核酸中非優選或較不優選的密碼子,用優選的或中度使用(neutrallyused)的密碼子來代替,所述優選或中度使用的密碼子編碼與被取代的密碼子相同的氨基酸,其中優選密碼子是在宿主細胞的基因的編碼序列中過度表現的密碼子,非優選或較不優選密碼子是在宿主細胞的基因的編碼序列中表現不足的密碼子,從而修飾核酸以增加其在宿主細胞中的表達。本發明提供了在編碼具有纖維素酶活性一如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性——的多肽的核酸中修飾密碼子的方法,該方法包括如下步驟(a)提供本發明的核酸;和(b)鑒定步驟(a)的核酸中的密碼子,并用不同的密碼子來代替,所述不同的密碼子編碼與被取代的密碼子相同的氨基酸,從而修飾在編碼纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶的核酸中的密碼子。本發明提供了在編碼具有纖維素酶活性一如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性——的多肽的核酸中修飾密碼子以增加其在宿主細胞中的表達的方法,該方法包括如下步驟(a)提供編碼纖維素酶多肽如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶多肽的本發明核酸;和6)鑒定步驟(a)的核酸中的非優選或較不優選密碼子,并用優選的或中度使用的密碼子來代替,所述優選或中度使用的密碼子編碼與被取代的密碼子相同的氨基酸,其中優選密碼子是在宿主細胞的基因的編碼序列中過度表現的密碼子,非優選或較不優選密碼子是在宿主細胞的基因的編碼序列中表現不足的密碼子,從而修飾核酸以增加其在宿主細胞中的表達。本發明提供了在編碼具有纖維素酶活性——如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性一的多肽的核酸中修飾密碼子以降低其在宿主細胞中的表達的方法,該方法包括如下步驟(a)提供本發明的核酸;和(b)鑒定步驟(a)的核酸中的至少一個優選密碼子,并用非優選的或較不優選的密碼子來代替,所述非優選或較不優選的密碼子編碼與被取代的密碼子相同的氨基酸,其中優選密碼子是在宿主細胞的基因的編碼序列中過度表現的密碼子,非優選或較不優選的密碼子是在宿主細胞的基因的編碼序列中表現不足的密碼子,從而修飾核酸以降低其在宿主細胞中的表達。一方面,宿主細胞可以是細菌細胞、真菌細胞、昆蟲細胞、酵母細胞、植物細胞或哺乳動物細胞。本發明提供了用于產生核酸文庫的方法,所述核酸編碼一系列的被修飾的纖維素酶一例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶一活性位點或底物結合位點,其中被修飾的活性位點或底物結合位點來源于第一核酸,所述第一核酸包含編碼第一活性位點或第一底物結合位點的序列,該方法包括如下步驟(a)提供第一核酸,其編碼第一活性位點或第一底物結合位點,其中所述第一核酸序列包括在嚴緊條件下與本發明的核酸雜交的序列,所述核酸編碼纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性位點或纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶底物結合位點;(b)提供一組誘變寡核苷酸,其在第一核酸的·多個目標密碼子處編碼天然發生的氨基酸變體;和((3)使用該組誘變寡核苷酸,產生一組編碼活性位點或編碼底物結合位點的變體核酸,其在被誘變的每一氨基酸密碼子處編碼一定范圍的氨基酸變化,從而產生編碼多個被修飾的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性位點或底物結合位點的核酸文庫。一方面,該方法包括通過包括如下方法中的方法誘變步驟(a)的第一核酸優化的定向進化系統、基因位點飽和誘變(GSSM)、合成連接重裝配(SLR)、易錯PCR、改組、寡核苷酸誘導的定向突變、裝配PCR、有性PCR誘變、體內誘變、盒式誘變、遞歸整體誘變、指數整體誘變、位點特異性誘變、基因再裝配及其組合。另一方面,該方法包括通過包括如下方法中的方法誘變步驟(a)的第一核酸或變體重組、遞歸序列重組、硫代磷酸酯修飾的DNA誘變、含尿嘧啶模板誘變、缺口雙重誘變、點錯配修復誘變、修復缺陷型宿主株誘變、化學誘變、放射誘變、缺失誘變、限制選擇誘變、限制純化誘變、人工基因合成、整體誘變、嵌合核酸多聚體生成及其組合。本發明提供了產生小分子的方法,包括如下步驟(a)提供多個能合成或修飾小分子的生物合成酶,其中這些酶中的一種酶包括由本發明的核酸編碼的纖維素酶,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶;(b)為步驟(a)的至少一種酶提供底物;和((3)將步驟(b)的底物與這些酶在能促進多個生物催化反應的條件下通過一系列生物催化反應進行反應,以產生小分子。本發明提供了修飾小分子的方法,包括如下步驟(a)提供纖維素酶,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶,其中該酶包括本發明的多肽,或由本發明的核酸編碼的多肽,或其子序列;(b)提供小分子;和((3)將步驟(b)的小分子與步驟(a)的酶在能促進由纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶催化的酶促反應的條件下進行反應,從而通過纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶酶促反應修飾小分子。一方面,該方法可以包括為步驟(a)的酶提供多個小分子底物,從而產生通過由纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶催化的至少一種酶促反應產生的被修飾小分子的文庫。一方面,該方法可以包括多個其它的酶,在有助于這些酶介導的多個生物催化反應的條件下使用這些酶,以形成由多個酶促反應產生的被修飾小分子的文庫。另一方面,該方法可以進一步包括測試該文庫以確定該文庫中是否存在表現出期望活性的特定被修飾小分子的步驟。測試該文庫的步驟可以進一步包括系統地去除所有但保留一個用于產生文庫中多個被修飾小分子中的一部分的生物催化反應,方法是通過測試被修飾小分子的所述部分中存在或不存在具有期望活性的特定被修飾小分子,鑒定出產生具有期望活性的特定修飾小分子的至少一個特定生物催化反應。本發明提供了確定纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶的功能片段的方法,包括如下步驟(a)提供纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶,其中該酶包括本發明的多肽或由本發明的核酸編碼的多肽、或其子序列jP(b)從步驟(a)的序列刪除多個氨基酸殘基,并測試剩余的子序列的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性,從而確定纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的功能片段。一方面,纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶活性通過提供纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶底物并檢測底物量的減少或反應產物量的增加來測量。 本發明提供了通過使用實時代謝流(real-time metabolic flux)分析進行新的或修飾的表型的全細胞工程改造的方法,該方法包括如下步驟(a)通過修飾細胞的遺傳組成產生修飾的細胞,其中所述遺傳組成通過將本發明的核酸加入到細胞來修飾;(b)培養修飾的細胞以產生多個修飾的細胞;(c)通過實時監控步驟(b)的細胞培養物來測量該細胞的至少一個代謝參數;和(d)分析步驟(C)的數據,以確定被測量的參數是否與在類似條件下未修飾細胞中的參照測量值不同,從而使用實時代謝流量分析鑒定細胞中的工程表型。一方面,細胞的遺傳組成可以通過包括在細胞中序列的刪除或序列的修飾,或敲除基因的表達的方法來修飾。一方面,該方法可以進一步包括選擇含有新的工程表現型的細胞。另一方面,該方法可以包括培養被選擇的細胞,從而產生包含新的工程表型的新細胞株。本發明提供了增加纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶的多肽的耐熱性或熱穩定性的方法,該方法包括糖基化纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的多肽,其中該多肽包括本發明的多肽或由本發明的核酸序列編碼的多肽的至少三十個連續氨基酸,從而增加纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的多肽的耐熱性或熱穩定性。一方面,纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶的比活性可以在大于大約37°C到大約95°C的溫度范圍內是熱穩定的或耐熱的。本發明提供了在細胞中過量表達重組纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的多肽的方法,該方法包括表達含有核酸的載體,該核酸包括本發明的核酸或本發明的核酸序列,其中序列同一性通過使用序列比較算法的分析或通過視覺觀察來確定,其中過量表達通過使用高活性啟動子、雙順反子(dieistronic)載體或通過該載體的基因擴增來實現。本發明提供了產生轉基因植物的方法,該方法包括如下步驟(a)將異源核酸序列引入細胞中,其中異源核酸序列包括本發明的核酸序列,從而產生轉化的植物細胞;和
(b)從轉化的細胞產生轉基因植物。一方面,步驟(a)可以進一步包括通過植物細胞原生質體的電穿孔或顯微注射引入異源核酸序列。另一方面,步驟(a)可以進一步包括通過DNA微粒轟擊(DNA particle bombardment)將異源核酸序列直接引入植物組織中。可以選擇地,步驟(a)可以進一步包括使用根瘤農桿菌(Agrobacterium tumefaciens)宿主將異源核酸序列引入植物細胞DNA中。一方面,植物細胞可以是甘蔗、甜菜、大豆、番茄、馬鈴薯、玉米、稻、小麥、煙草或大麥細胞。本發明提供了在植物細胞中表達異源核酸序列的方法,該方法包括如下步驟(a)用與啟動子可操作地連接的的異源核酸序列轉化植物細胞,其中異源核酸序列包括本發明的核酸;(b)在異源核酸序列可在植物細胞中表達的條件下培養所述植物。本發明提供了在植物細胞中表達異源核酸序列的方法,該方法包括如下步驟(a)用與啟動子可操作地連接的的異源核酸序列轉化植物細胞,其中異源核酸序列包括本發明的序列;(b)在異源核酸序列可在植物細胞中表達的條件下培養所述植物。本發明提供了飼料或食物,其含有本發明的多肽或本發明的核酸編碼的多肽。一方面,本發明提供了食品、飼料、液體如飲料(如果汁或啤酒)、面包或面團或面包產品、或飲料前體(例如,麥芽汁),其含有本發明的多肽。本發明提供了動物的食物或營養補充劑,其 含有本發明的多肽,例如,由本發明的核酸編碼的多肽。一方面,食物或營養補充劑中的多肽可以被糖基化。本發明提供了可食用的酶輸送基質,其含有本發明的多肽,例如,由本發明的核酸編碼的多肽。一方面,該輸送基質包括丸劑。一方面,多肽可被糖基化。一方面,纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶的活性是耐熱的。另一方面,纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的活性是熱穩定的。本發明提供了含有本發明的多肽的食物、飼料或營養補充劑。本發明提供了將纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶用作動物飲食中的營養補充劑的方法,所述方法包括制備含有纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的營養添加物,所述纖維素酶包含本發明的多肽的至少三十個連續氨基酸;以及向動物施用所述營養添加物。動物可以是人、反芻動物或單胃動物。通過在選自細菌、酵母、植物、昆蟲、真菌和動物的生物體中表達編碼纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶的多核苷酸,可以制備纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶。所述生物體可選自裂變酵母(S. pombe)、釀酒酵母(S. cerevisiae)、畢赤酵母(Pichia. pastoris)、大腸桿菌(E. coli.)、鏈霉菌屬某種(Streptomyces sp.)、桿菌屬某種(Bacillus sp.)和乳酸桿菌屬某種(Lactobacillus sp.)。本發明提供了可食用的酶輸送基質,其含有熱穩定的重組纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶,如本發明的多肽。本發明提供了向動物輸送纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶補充劑的方法,所述方法包括制備丸劑形式的可食用的酶輸送基質,其含有粒狀可食用載體以及熱穩定的重組纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶,其中所述丸劑容易將包含在其中的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶分散入含水介質中,以及向所述動物施用該可食用酶輸送基質。重組纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶,可以包括本發明的多肽。纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶,可被糖基化,以在壓丸條件下提供熱穩定性。該輸送基質可以通過對含有谷物胚芽和纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的混合物進行壓丸而形成。壓丸條件可包括蒸汽的應用。壓丸條件可包括應用超過約80°C的溫度約5分鐘,而該酶保持每毫克蛋白至少大約350到大約900單位的比活性。一方面,本發明提供了藥物組合物,其含有本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶,或者本發明的核酸編碼的多肽。一方面,藥物組合物作為助消化劑。在某些方面,含纖維素化合物與具有纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的本發明多肽在約ΡΗ3. O至9. O、10. O、11. O或更高的范圍的PH下接觸。在其它方面,含纖維素化合物與纖維素酶例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或3-葡糖苷酶在約551、601、651、701、751、801、851、901或更高的溫度下接觸。
本發明的一個或多個方面的細節如附圖和下面的描述所示。本發明的其它特征、目標和優點將通過說明書和附圖以及權利要求而更加清楚。此處引述的所有出版物、專利、專利申請、GenBank序列和ATCC保藏物均被特意地引入,以作為參考,用于所有目的。
下面的附圖是本發明的方面的例證性說明,而不意圖限制權利要求書所包括的本發明的范圍。圖I是一個計算機系統的框圖。圖2是一個流程圖,該圖示意性說明了用于將新核苷酸或蛋白序列與序列數據庫進行比較以確定該新序列與數據庫中序列之間的同源性水平的過程的一個方面。圖3是一個流程圖,該圖示意性說明了在計算機中確定兩個序列是否同源的過程的一個方面。圖4是一個流程圖,該圖示意性說明了檢測序列中特征的存在的鑒定過程300的
一個方面。圖5是纖維二糖結構的示意圖。圖6和7示意性說明了來自纖維己糖的反應產物的TLC分析結果,如在下面的實施例I中所詳細討論的。圖8以圖形數據進行例證性說明,顯示了通過本發明的示例性酶22/22a(CBH)從PASC釋放纖維二糖,如在下面的實施例2所詳細討論的。圖9以圖形數據進行例證性說明,顯示了通過本發明的示例性酶22/22a(CBH)從AVl( tL. 5MCC釋放纖維二糖,如在下面的實施例2所詳細討論的。圖10以圖表數據進行了例證性說明,顯示了典型的GIGAMATRIX breakout,其中表達能夠水解甲基傘形基纖維二糖苷的活性克隆被鑒定,如下面的實施例4所詳細討論的。圖11以圖表數據進行了例證性說明,通過毛細管電泳(CE)分析顯示了所選擇的酶對憐酸溶脹纖維素(phosphoric acid-swollen cellulose, PASC)的活性,如下面的實施例4所詳細討論的。圖12以圖表數據進行了例證性說明,數據來自本發明的示例性酶和亞克隆變體在/WlC'hL : Microcrystalline Cellulose (MCC)中的分析,其中通過BCA還原糖測定來分析反應產物,如下面的實施例4所詳細討論的。圖13以圖表數據進行了例證性說明,數據來自一級GSSM篩選分析,如下面的實施例4所詳細討論的。圖14以圖表數據進行了例證性說明,數據來自二級GSSM篩選分析,如下面的實施例4所詳細討論的。圖15以圖表數據進行了例證性說明,數據來自混合的或“摻合的”GSSM篩選分析,如下面的實施例4所詳細討論的。 在不同的附圖中同樣的標記符號表示同樣的要素。
發明詳述本發明提供了具有纖維素酶活性例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽、編碼它們的多核苷酸、以及制備和使用這些多核苷酸和多肽的方法。本發明還提供了纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶,編碼這些酶的多核苷酸、這類多核苷酸和多肽的應用。一方面,本發明提供了纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶,其具有增強的催化速率,改善了底物水解過程。在催化速率上的這種增加的效率導致在生產糖類上增加的效率,所述糖類隨后可被微生物用于乙醇生產。一方面,產生本發明的酶的微生物與產乙醇微生物一起使用。因此,本發明提供了生產乙醇和制備基于乙醇的“清潔燃料”的方法,例如,用于利用生物乙醇進行的運輸。一方面,本發明提供了組合物(例如,酶制劑、飼料、藥物、飲食補充物),其包括本發明的酶、多肽或多核苷酸。這些組合物可以以各種形式加以配制,例如液體、凝膠、丸劑、片劑、噴劑、粉末、食物、飼料小丸或包括納米膠囊劑型在內的膠囊劑型。測量纖維素酶活性如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的分析試驗,例如用于確定多肽是否具有纖維素酶活性,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶活性的分析試驗,在本領域中是熟知的,并且在本發明的范圍內;參見,例如Baker WL, PanowA, Estimation of cellulaseactivity using a glucose-oxidase-Cu(II)reducing assay for glucose, J BiochemBiophys Methods. 1991 Dec, 23(4):265-73;Sharrock KR, Cellulase assay methods:areview, J Biochem Biophys Methods. 1988 Oct, 17(2):81-105;Carder JH, Detectionand quantitation of cellulase by Congo red staining of substrates in acup-plate diffusion assay, Anal Biochem. 1986Feb 15,153 (I):75-9;CanevasciniG. , A cellulase assay coupled to cellobiose dehydrogenase, Anal Biochem. 1985Jun, 147 (2) :419-27;Huang JS,Tang J,Sensitive assay for cellulase anddextranase. Anal Biochem. 1976Jun, 73(2):369-77。本發明使用的反應條件的pH是本發明提供的另一個可變參數。在某些方面,反應的pH在約3. O至約9. O的范圍內。在其它方面,pH為約4. 5,或pH為約7. 5或pH為約9。在堿性條件下進行的反應條件也可能是有利的,例如,在本發明的酶的一些工業應用或制藥應用中。本發明提供了各種形式和配方的本發明的纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶多肽。在本發明的方法中,本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶多肽以各種形式和配方使用。例如,純化的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶多肽可以用在酶制劑中,該酶制劑在生物乙醇的生產中或制藥或飲食助劑應用中使用。可選地,本發明的酶可直接用在生產生物乙醇、制備清潔燃料、處理生物廢物、加工食物、液體或飼料等等的各種工藝中。可選地,本發明的纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶多肽,可使用本領域已知的方法在微生物中表達。在其它方面,本發明的纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶多肽,可在用于本發明的方法之前固定在固體支持物上。將酶固定在固體支持物上的方法在本領域中廣為人知,例如 J. Mol. Cat. B:Enzymatic 6 (1999) 29-39; Chivata et al. Biocatalysis: Immobilized cells and enzymes, J Mol. Cat. 37(1986) 1-24:Sharma etal. , Immobilized Biomaterials Techniques and Applications, Angew. Chem. Int. Ed. Eng1.21(1982)837-54:Laskin(Ed. ), Enzymes and Immobilized Cells in Biotechnolog0
核酸、探針和抑制分子(Inhibitory Molecules)本發明提供了分離的和重組的核酸,例如參見下面的表1、2和3,實施例I和4,以及序列表;編碼多肽的核酸,包括本發明的示例性多核苷酸序列,例如,參見表I和序列表;包括表達序列盒,例如含有本發明的核酸的表達載體和各種克隆載體。本發明還包括使用本發明的核酸發現、鑒定或分離新的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶多肽序列的方法。本發明還包括使用本發明的核酸抑制編碼纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的基因和轉錄物的表達的方法。還提供了修飾本發明的核酸的方法,包括通過例如合成連接重裝配、優化的定向進化系統和/或飽和誘變例如基因位點飽和誘變(GSSM)產生本發明的核酸變體的方法。術語“飽和誘變”、基因位點飽和誘變或“GSSM”包括使用簡并寡核苷酸引物將點突變引入多核苷酸的方法,如在下面所詳細描述的。術語“優化的定向進化系統”或“優化的定向進化”包括用于重新裝配相關的核酸序列的片段的方法,所述的相關核酸序列例如相關的基因,下面對其進行了詳細解釋。術語“合成連接重裝配”或“SLR”包括以非隨機方式連接寡核苷酸片段的方法,下面進行了詳細解釋。術語“變體”是指在一個或多個堿基對、密碼子、內含子、外顯子或氨基酸殘基處被(分別地)修飾的本發明的多核苷酸或多肽,然而它們仍然保持本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶生物學活性。變體可以通過許多種方法產生,包括的方法諸如,例如易錯PCR、改組、寡核苷酸誘導的定向突變、裝配PCR、有性PCR誘變、體內誘變、盒式誘變、遞歸整體誘變、指數整體誘變、位點特異性誘變、基因再裝配、GSSM及其任意組合。本發明的核酸可以通過,例如cDNA文庫的克隆和表達、通過PCR進行的信息或基因組DNA擴增以及類似的技術來制造、分離和/或操縱。例如,本發明的示例性核酸最初來源于環境來源。因此,一方面,本發明提供了編碼纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的核酸,以及由它們編碼的多肽,其共同的新穎性在于它們來源于共同的來源,例如環境來源、混合的培養物或細菌來源。在本發明方法的實踐中,同源基因可以通過操縱模板核酸加以修飾,如同在文中所描述的。本發明可以與本技術領域已知的任何方法或程序或設備一起實踐,這些方法、程序或設備在科學和專利文獻中有很好的描述。如本文所使用,短語“核酸”或“核酸序列”是指寡核苷酸、核苷酸、多核苷酸,或者寡核苷酸、核苷酸、多核苷酸中任意一種的片段,或者基因組的或合成來源的DNA或RNA,它們可以是單鏈或雙鏈,并且可以代表正義鏈或反義(互補)鏈,或者是指肽核酸(PNA)或者天然或合成來源的任何DNA樣或RNA樣的物質。短語“核酸”或“核酸序列”包括寡核苷酸、核苷酸、多核苷酸,或者寡核苷酸、核苷酸、多核苷酸中任意一種的片段,或者基因組的或合成來源的DNA或RNA (例如mRNA、rRNA、tRNA、iRNA),它們可以是單鏈或雙鏈,并且可以代表正義鏈或反義鏈,還包括肽核酸(PNA)或者天然或合成來源的任何DNA樣或RNA樣的物·質,例如包括iRNA、核糖核蛋白(例如雙鏈iRNA,例如iRNPs)。該術語包括含有天然核苷酸的已知類似物的核酸,例如寡核苷酸。該術語也包括具有合成骨架的核酸樣結構,例如參見Mata (1997)Toxicol. Appl. Pharmacol. 144:189-197;Strauss-Soukup(1997)Biochemistry36:8692-8698; Samstag (1996) Antisense Nucleic Acid Drug Dev 6:153-156。“寡核昔酸”或者包括單鏈的多脫氧核苷酸,或者包括兩個互補的多脫氧核苷酸鏈,它們可以是化學合成的。這樣的合成的寡核苷酸沒有5’磷酸,因此如果不在存在激酶的情況下采用ATP添加磷酸,該合成寡核苷酸便不會連接到另一個寡核苷酸上。合成的寡核苷酸可以連接到沒有被去磷酸化的片段上。特定多肽或蛋白的“編碼序列”或編碼特定多肽或蛋白的“核苷酸序列”是這樣的核酸序列,其當置于合適的調節序列的調控下時被轉錄和翻譯成多肽或蛋白質。術語“基因”意指在產生多肽鏈中所涉及的DNA片段;其包括編碼區之前的區域和之后的區域(前導區(leader)和尾區(trailer)),以及在適用的情況下,可以包括各個編碼片段(外顯子)之間的間插序列(內含子)。啟動子序列“可操作地連接到”編碼序列上,此時RNA聚合酶可以在啟動子處起始轉錄,將編碼序列轉錄成mRNA。正如此處所用,“可操作地連接(operablylinked)”是指兩個或更多個核酸(例如DNA)片段之間的功能關系。“可操作地連接”可以指轉錄調控序列與被轉錄序列的功能關系。例如,如果啟動子刺激或調節編碼序列例如本發明的核酸在適當的宿主細胞或其它表達系統中的轉錄,那么該啟動子便是可操作地連接到編碼序列。通常,可操作地連接到被轉錄序列的啟動子轉錄調控序列與被轉錄序列是物理上相鄰的,即它們是順式作用。然而,一些轉錄調控序列,如增強子,不需要與編碼序列物理相鄰或者位于與編碼序列接近的位置,但這些轉錄調控序列仍能增強編碼序列的轉錄。正如本文所用,術語“表達序列盒(expression cassette)”指能影響結構基因(即蛋白編碼序列,例如,編碼本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶的序列)在與這樣的序列相容的宿主中的表達的核苷酸序列。表達序列盒包括至少一個與多肽編碼序列可操作地連接的啟動子;并且任選地,可以與其它序列例如轉錄終止信號序列可操作地連接。也可以使用其它的在實現表達的方面必需的或有用的因子,例如增強子、α -因子。因此,表達序列盒也包括質粒、表達載體、重組病毒、任何形式的重組“裸DNA”載體,以及類似物。“載體”包括可以感染、轉染、短暫或永久地轉導細胞的核酸。應該認識到,載體可以是裸核酸、或與蛋白或脂質復合的核酸。該載體任選地包含病毒或細菌核酸和/或蛋白,和/或膜(例如細胞膜、病毒脂質包被等等)。載體包括但不限于復制子(例如RNA復制子、細菌噬菌體),DNA片段可以連接到這些復制子上從而可被復制。因此,載體包括但不限于RNA、自主復制環狀或線狀DNA或RNA (例如質粒、病毒以及類似物,例如參見美國專利5,217,879),并且包括表達質粒和非表達質粒。在重組微生物或細胞培養物被描述為“表達載體”的宿主的情況下,該載體包括染色體外環狀和線狀DNA,它們可以已經被整合到宿主染色體中。在載體通過宿主細胞來維持的情況下,該載體或者可以作為自主結構在有絲分裂過程中被細胞穩定地復制,或者被整合進宿主的基因組中。正如此處所用,術語“重組的”包括與“骨架”核酸相鄰的核酸,這些核酸在其天然環境中與該“骨架”核酸是不相鄰的。一方面,為了被富集,核酸表現為在核酸骨架分子群體中有大約5%或更多數量的核酸插入物。本發明的“骨架分子”包括核酸,如表達載體、自主復制核酸、病毒、整合核酸,以及用于維持或操縱感興趣的核酸插入物的其它載體或核酸。一方面,富集的核酸表現為在重組的骨架分子群體中有大約15%或更多數量的核酸插入物。一方面,富集的核酸表現為在重組的骨架分子群體中有大約50%或更多數量的核酸 插入物。一方面,富集的核酸表現為在重組的骨架分子群體中有大約90%或更多數量的核酸插入物。本發明的一方面是分離的或重組的核酸,包括本發明的序列之一,或者含有本發明的核酸的至少 10、15、20、25、30、35、40、50、75、100、150、200、300、400 或 500 或更多個連
續堿基的片段。該分離的或重組的核酸可以包含DNA,包括cDNA、基因組DNA和合成DNA。DNA可以是雙鏈或單鏈,并且如果是單鏈,可以是編碼鏈或非編碼(反義)鏈。可選地,該分離的或重組的核酸包含RNA。 本發明的分離的或重組的核酸可用于制備本發明的多肽之一,或者含有本發明的多肽之一的至少5、10、15、20、25、30、35、40、50、75、100或150或更多個連續氨基酸的片段。因此,本發明的另一方面是分離的或重組的核酸,其編碼本發明的多肽的一種,或者含有本發明的多肽之一的至少5、10、15、20、25、30、35、40、50、75、100或150或更多個連續氨基酸的片段。這些核酸的編碼序列可以與本發明的核酸之一的編碼序列之一相同或者可以是不同的編碼本發明的多肽之一的編碼序列,所述的多肽具有本發明的多肽之一的至少5、10、15、20、25、30、35、40、50、75、100或150或更多個連續氨基酸,這是遺傳密碼子的冗余性或簡并性的結果。遺傳密碼子對于本領域技術人員是熟知的,并可以例如在B. Lewin, GenesVI, Oxford University Press, 1997 的第 214 頁上得到。編碼本發明的多肽的核酸包括但不限于本發明的核酸的編碼序列和另外的編碼序列,例如前導序列或蛋白原序列(proprotein sequences),以及非編碼序列,例如內含子,或編碼序列的5’和/或3’非編碼序列。因此,如在本發明中所使用,術語“編碼多肽的多核苷酸”包括多核苷酸,其包括多肽的編碼序列以及包含另外的編碼和/或非編碼序列的多核苷酸。一方面,使用常規技術,例如定點誘變或本領域技術人員熟悉的其它技術,本發明的核酸序列被誘變,以將沉默改變引入本發明的多核苷酸。如本文所使用,“沉默改變(silent changes)”包括,例如不改變由所述多核苷酸編碼的氨基酸序列的改變。這樣的改變可能是期望的,以通過引入在宿主微生物中頻繁發生的密碼子或密碼子對而增加由宿主產生多肽的水平,該宿主含有編碼所述多肽的載體。本發明還涉及具有核苷酸改變的多核苷酸,所述核苷酸改變在本發明的多肽中導致氨基酸取代、添加、缺失、融合和截短。使用技術例如定點誘變、隨機化學誘變、外切核酸酶III刪除和其它重組DNA技術,可以導入這樣的核苷酸改變。可選地,這樣的核苷酸改變可以是天然存在的等位基因變體,其通過鑒定在本文所提供的高嚴緊條件、中度嚴緊條件或低嚴緊條件下特異性雜交到探針的核酸而分離出,所述探針含有本發明的序列(或其互補序列)之一的至少 10、15、20、25、30、35、40、50、75、100、150、200、300、400 或 500 或更多個連續堿基。
一般技術用于實踐本發明的核酸,不管是RNA、siRNA、miRNA、反義核酸、cDNA、基因組DNA、載體、病毒或其雜合體,都可以從多種來源分離、進行遺傳工程改造、擴增和/或表達/重組產生。從這些核酸產生的重組多肽(例如纖維素酶,如內切葡聚糖酶、纖維二糖水解酶、甘露 聚糖酶和/或β_葡糖苷酶)可以被單獨地分離或克隆,并且可測試其期望活性。可以使用任何重組表達系統,包括細菌、哺乳動物、酵母、昆蟲或植物細胞表達系統。可以選擇地,這些核酸可以通過熟知的化學合成技術體外合成,正如例如 Adams (1983)J.Am.Chem.Soc. 105:66 I ;BeIousov (1997)Nuc Ieic AcidsRes.25:3440-3444;Frenkel(1995)Free Radic.Biol.Med.19:373-380;Blommers(1994)Biochemistry 33:7886-7896;Narang(1979)Meth. EnzymoI. 68:90;Brown(1979)Meth.Enzymol. 68:109; Beaucage (1981)Tetra. Lett. 22:1859 ;美國專利 4, 458, 066 中所描述的。用于操縱核酸的技術,例如亞克隆、標記探針(例如使用Klenow聚合酶的隨機引物標記、切口平移、擴增)、測序、雜交以及類似的技術在科學和專利文獻中有很好的描述,例如參見 Sambrook 編著,MOLECULAR CLONING: A LABORATORY MANUAL (2ND ED. ),1-3卷,Cold Spring Harbor Laboratory, (1989);CURRENT PROTO⑶LS IN MOLECULARBIOLOGY, Ausubel, ed. John ffiley&Sons, Inc.,New York(1997);LABORATORY TECHNIQUESIN BIOCHEMISTRY AND MOLECULAR BIOLOGY:HYBRIDIZATION WITH NUCLEIC ACIDPROBES, Part I.Theory and Nucleic Acid Preparation,Tssen,ed. Elsevier, N.Y. (1993)。獲得和操縱用于實踐本發明的方法的核酸的另一個有用方法是從基因組樣品中克隆,并且如果期望的話,篩選和再克隆插入物,插入物可以分離或擴增自例如基因組克隆或cDNA克隆。用于本發明的方法中的核酸的來源包括基因組或cDNA文庫,所述文庫可以包含在例如哺乳動物人工染色體(MACs),例如參見美國專利5,721,118 ;6,025,155 ;人類人工染色體,例如參見Rosenfeld (1997) Nat. Genet. 15 :333-335 ;酵母人工染色體(YAC);細菌人工染色體(BAC) ;P1人工染色體,例如參見Woon (1998) Genomics 50 :306-316 ;P1來源的載體(PACs),例如參見Kern (1997) Biotechniques 23 :120-124 ;粘粒、重組病毒、噬菌體或質粒中。一方面,編碼本發明的多肽的核酸與能指導翻譯出的多肽或其片段的分泌的前導序列以適當的位置關系進行裝配。
本發明提供了融合蛋白和編碼這些融合蛋白的核酸。本發明的多肽可以被融合到異源肽或多肽上,如N-末端鑒定肽,其給予了期望的特性,如增加的穩定性或簡化的純化特性。本發明的肽和多肽也可以作為融合蛋白被合成和表達,其中所述融合蛋白中連接有一個或多個額外的結構域,例如用于產生免疫原性更強的肽、以便更易于分離重組合成的肽、以便鑒定和分離抗體和表達抗體的B細胞,等等。有利于檢測和純化的結構域包括,例如金屬螯合肽,如多組氨酸標記和組氨酸-色氨酸模塊,其允許在固定的金屬上純化,還包括蛋白A結構域,其允許在固定的免疫球蛋白上純化,還包括在FLAGS延伸/親和純化系統中所使用的結構域(Immunex Corp, Seattle WA)。在純化結構域和含有基序的肽或多肽之間包含可切裂的連接子序列有助于純化,這樣的連接子序列例如Xa因子或腸激酶(Invitrogen, San Diego CA)。例如,表達載體可以包括編碼表位的核酸序列,其連接到六組氨酸殘基上,還連接有硫氧還蛋白和腸激酶切割位點(例如參見Williams (1995)Biochemistry 34:1787-1797 ;Dobeli (1998)Protein Expr. Purif. 12 :404-414)。組氨酸殘基有助于檢測和純化,而腸激酶切割位點提供了將表位與融合蛋白的剩余部分純化分離開的手段。關于編碼融合蛋白的載體的技術以及融合蛋白的應用在科學和專利文獻中進行了很好的描述,例如參見 Kroll (1993) DNA Cell. Biol.,12:441-53。
轉錄和翻譯控制序列本發明提供了可操作地連接到一個或多個表達(例如轉錄或翻譯)控制序列上的本發明的核酸(例如DNA)序列,所述控制序列例如啟動子或增強子,它們可以指導或調節RNA合成/表達。表達控制序列可以在表達載體中。示例性的細菌啟動子包括lacI、lacZ、T3、T7、gpt、λ PR、PL和trp。示例性的真核啟動子包括CMV即時早期啟動子、HSV胸苷激酶啟動子、早期和晚期SV40啟動子、來自逆轉錄病毒的LTR啟動子以及鼠金屬硫蛋白I啟動子。如本文所使用,術語“啟動子”包括能夠驅動編碼序列在細胞中如植物或動物細胞中轉錄的所有序列。因此,在本發明的構建物中所用的啟動子包括順式作用轉錄控制元件和調節序列,它們涉及調節或調控基因轉錄的時間和/或速率。例如,啟動子可以是順式作用轉錄控制元件,包括增強子、啟動子、轉錄終止子、復制起點、染色體整合序列、5’和3’非翻譯區或內含子序列,它們均涉及轉錄的調節。這些順式作用序列通常與蛋白或其它生物分子互相作用來執行(打開/關閉、調節、調控等等)轉錄。“組成型”啟動子是那些在大部分環境條件和發育狀態或細胞分化狀態下持續地驅動表達的啟動子。“誘導型”或“可調控型”啟動子在環境條件或發育條件的影響下指導本發明的核酸的表達。可以通過誘導型啟動子影響轉錄的環境條件的實例包括無氧條件、增高的溫度、干旱或光的存在。“組織特異性”啟動子是僅僅在特定細胞或組織或器官中有活性的轉錄控制元件,例如在植物或動物的特定細胞或組織或器官中有活性。組織特異性調節可以通過某些內在因子來實現,這些內在因子確保對給定組織特異的蛋白編碼基因被表達。這樣的因子已知存在于哺乳動物和植物中,以便允許特異性組織的發育。適合于在細菌中表達多肽的啟動子包括大腸桿菌Iac或trp啟動子、IacI啟動子、IacZ啟動子、T3啟動子、T7啟動子、gpt啟動子、λ PR啟動子和λ PL啟動子、來自編碼糖酵解酶如3-磷酸甘油酯激酶(PGK)的操縱子的啟動子、以及酸性磷酸酶啟動子。真核啟動子包括CMV即時早期啟動子、HSV胸苷激酶啟動子、熱激啟動子、早期和晚期SV40啟動子、來自逆轉錄病毒的LTRs、以及小鼠金屬硫蛋白-I啟動子。也可以使用已知在原核或真核細胞或它們的病毒中控制基因表達的其它啟動子。適合于在細菌中表達多肽或其片段的啟動子包括大腸桿菌Iac或trp啟動子、IacI啟動子、IacZ啟動子、T3啟動子、T7啟動子、gpt啟動子、入匕啟動子和λ匕啟動子、來自編碼糖酵解酶如3-磷酸甘油酯激酶(PGK)的操縱子的啟動子、以及酸性磷酸酶啟動子。真菌啟動子包括α-因子啟動子。真核啟動子包括CMV即時早期啟動子、HSV胸苷激酶啟動子、熱激啟動子、早期和晚期SV40啟動子、來自逆轉錄病毒的LTRs以及小鼠金屬硫蛋白-I啟動子。也可以使用已知在原核或真核細胞或它們的病毒中控制基因表達的其它啟動子。
組織特異性植物啟動子本發明提供了可以以組織特異性方式表達的表達序列盒,例如可以以組織特異性方式表達本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶的表達序列盒。本發明也提供了以組織特異性方式表達本發明纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶的植物或種子。組織特異性可以是種子特異性、莖特異性、葉特異性、根特異性、果實特異性以及類似的方式。 術語“植物”包括全植物、植物部分(例如葉、莖、花、根等等)、植物原生質體、種子和植物細胞以及它們的后代。可以用于本發明的方法中的植物的種類很廣泛,廣泛至能用轉化技術進行處理的高等植物,包括被子植物(單子葉植物和雙子葉植物),以及裸子植物。它們包括各種倍數性水平的植物,包括多倍體、二倍體、單倍體和半合子植物。正如此處所用,術語“轉基因植物”包括異源核酸序列已經被插入到其中的植物或植物細胞,所述異源核酸序列例如本發明的核酸和各種重組構建物(例如表達序列盒)。一方面,組成型啟動子如CaMV 35S啟動子可以被用于在植物或種子的特定部分或在整個植物中的表達。例如,為了過度表達,可以使用植物啟動子片段,其將指導核酸在植物例如再生植物的一些或所有組織中表達。此處,這樣的啟動子被稱作“組成型”啟動子,它們在大部分環境條件和發育或細胞分化狀態下是有活性的。組成型啟動子的實例包括花椰菜花葉病毒(CaMV) 35S轉錄起始區、來自根瘤農桿菌的T-DNA的I’或2’啟動子、以及來自本技術領域已知的多種植物基因的其它轉錄起始區。這樣的基因包括,例如來自擬南芥(Arabidopsis)的 ACTll (Huang (1996) Plant Mol. Biol. 33:125-139);來自擬南芥的 Cat3 (Genbank No. U43147, Zhong (1996)Mol. Gen. Genet. 251:196-203);來自甘藍型油菜(Brassica napus)的編碼硬酯酰基-酰基載體蛋白去飽和酶的基因(Genbank No. X7 4782, Solocombe (1994) Plant Physiol. 104:1167-1176);來自玉米的GPcl (Genbank No.X15596;Martinez(1989)J. Mol. Biol. 208:551-565);來自玉米的Gpc2 (Genbank No. U45855; Manjunath (1997) Plant. Mol. Biol. 33:97-112);在美國專利4,962,028; 5, 633,440中描述的植物啟動子。本發明使用來自病毒的組織特異性或組成型啟動子,這些啟動子可以包括,例如煙草花葉病毒亞基因組啟動子(Kumagai (1995)Proc. Natl. Acad. Sci. USA92:1679-1683 ;稻米東格魯桿狀病毒(RTBV),該病毒僅在受感染稻米植物中的韌皮細胞中復制,它的啟動子驅動強的韌皮特異性報道基因的表達;木薯脈帶花葉病毒(CVMV)啟動子,其在導管、葉中軸細胞、根尖中具有最高活性(Verdaguer (1996)Plant Mol. Biol. 31:1129-1139)。一方面,植物啟動子指導表達纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶的核酸表達于特定組織、器官或細胞類型中(即,組織特異啟動子),或者可以在更加精確的環境或發育控制下或在誘導型啟動子的控制下指導表達纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶的核酸的表達。可以影響轉錄的環境條件的例子包括厭氧條件、提高溫度、有光或噴撒化學品/激素。例如,本發明包括玉米的干旱誘導型啟動子(Busk (1997)如上),馬鈴薯的寒冷、干旱、高鹽誘導型啟動子(Kirch (1997) Plant Mol. Biol. 33:897909)。一方面,組織特異性啟動子只在該組織的發育階段的某個時間段內促進轉錄。參見,例如描述擬南芥LEAFY基因啟動子的Blazquez (1998)Plant Celll0:791_800。也見,描述轉錄因子 SPL3 的 Cardon (1997)Plant J 12:367-77,SPL3 識別擬南芥(A. thaliana)的調節植物分生組織形成的基因(meristem identity gene) API的啟動子區域的保守序列基序;和描述分生組織啟動子eIF4的Mandel (1995) Plant Molecular Biology,29卷,995-1004頁。可以使用在特定組織的整個生命周期都具有活性的組織特異性啟動子。一方面,本發明的核酸與主要在棉花纖維細胞中有活性的啟動子可操作地連接。一方面,本發明的核酸與主要在棉花纖維細胞伸長的階段具有活性的啟動子可操作地連接,例如,Rinehart (1996) supra所描述的。核酸可以與Fbl2A基因啟動子可操作地連接, 這樣它將偏好在棉花纖維細胞(Ibid)中表達。也見John (1997) Proc. Natl. Acad. Sci.USA 89:5769-5773 John等,美國專利5,608,148和5,602,321,描述了用于構建轉基因棉花植物的棉花纖維特異性啟動子和方法。也可以使用根特異性啟動子來表達本發明的核酸。根特異性啟動子的例子包括乙醇脫氫酶基因中的啟動子(DeLisle (1990) Int. Rey.Cytol. 123:39-60)。也可以使用別的啟動子來表達本發明的核酸,包括,例如,胚珠特異的、胚芽特異的、胚乳特異的、珠柄特異的、種皮特異的啟動子或它們的組合;葉特異的啟動子(見,例如,Busk (1997) Plant J. 11:12851295,描述玉米的葉特異的啟動子);發根農桿菌(Agrobacterium rhizogenes)的0RF13啟動子(0RF13啟動子在根部表現出高活性,見,例如Hansen (1997)如上);玉米花粉特異性啟動子(見,例如Guerrero (1990) Mol. Gen.Genet. 224:161168);番茄啟動子,其在果實成熟、變老、從葉上脫落的過程中有活性,在花中具有低一些的活性(見,例如,Blume (1997)Plant J. 12:731746);馬鈴薯SK2基因的雌蕊特異性啟動子(見,例如 Ficker (1997) Plant Mol. Biol. 35:425431);豌豆的 Blec4 基因,Blec4基因在蔬菜的表皮組織和轉基因苜蓿的花梗頂中具有活性,這使它成為使外源基因靶向表達于活躍地生長的芽或纖維的表皮層的有用工具;胚珠特異的BELl基因(見,例如,Reiser (1995) Cell 83:735-742,GenBank 號:U39944);和 / 或 Klee,美國專利 5,589,583中的啟動子,描述了一種植物啟動子區域,其可導致在分生組織和/或快速分裂細胞中的高水平轉錄。一方面,經由對植物激素例如植物生長素的暴露便能被誘導的植物啟動子可用于表達本發明的核酸。例如,本發明可以使用大豆(Glycine max L.)的植物生長素響應元件El 啟動子片段(AuxREs) (Liu (1997)Plant Physiol. 115:397-407);植物生長素響應的擬南芥GST6啟動子(也對水楊酸和過氧化氫產生響應)(Chen (1996)Plant J. 10:955-966);煙草的植物生長素誘導的ParC啟動子(Sakai (1996) 37:906-913);植物生物素響應元件(Streit (1997) Mol. Plant Microbe Interact. 10:933-937);和對應激激素脫落酸產生響應的啟動子(Sheen (1996) Science 274:1900-1902)。
本發明的核酸也可以與植物啟動子可操作地連接,所述植物啟動子暴露于施用于植物的化學試劑例如除草劑或抗生素,便能夠被誘導。例如,可以使用由苯磺酰胺除草劑安全劑活化的玉米 In2-2 啟動子(De Veylder (1997) Plant Cell Physiol. 38:568-577);不同的除草劑安全劑的應用誘導不同的基因表達模式,包括在根中、排水器中和芽尖分生組織中的表達。編碼序列可以處于例如四環素誘導的啟動子的控制下,例如,針對含有燕麥(Avena sativa L. ) (oat)精氨酸脫羧酶基因的轉基因煙草植物所描述的(Masgrau(1997)Plant J. 11:465-473);或者處于水楊酸響應元件的控制之下(Stange (1997)PlantJ. 11:1315-1324 )。使用化學(例如,激素或殺蟲劑)誘導的啟動子,S卩,對施用于田間的轉基因植物的化學劑發生響應的啟動子,本發明的多肽的表達可以在植物發育的特定階段被誘導。所以,本發明也提供含有可誘導基因的轉基因植物,所述可誘導基因編碼本發明的多肽,其宿主范圍局限于靶向植物種類,例如玉米、稻、大麥、大豆、番茄、小麥、馬鈴薯或別的作物,并且所述可誘導基因在作物發育的任何階段都可被誘導。本領域技術人員會認識到,組織特異性的植物啟動子可能驅動可操作地連接的序列在不是靶組織的組織中表達。因此,一方面,組織特異性啟動子是驅動在靶組織或細胞類型中產生優勢表達的啟動子,但是也可以導致在別的組織中的一些表達。 本發明的核酸也可以與在暴露于化學試劑時被誘導的植物啟動子可操作地連接。這些試劑包括例如,除草劑、合成的植物生長激素或抗生素,它們可以通過例如噴霧施用于轉基因植物。本發明的產生纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶的核酸的誘導型表達將允許栽培者對具有最佳的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶表達和/或活性的植物進行選擇。植物部分的發育也可以因此被控制。這樣,本發明提供了促進植物和植物部分的收獲的方法。例如,在許多實施方式中,玉米的由苯磺酰胺除草劑安全劑活化的玉米Ιπ2-2啟動子被使用(De Veylder (1997) Plant Cell Physiol. 38:568-577);應用不同的除草劑安全劑誘導出不同的基因表達模式,包括在根中、排水器中、芽尖分生組織中的表達。本發明的編碼序列也可以處于四環素誘導的啟動子的控制之下,例如,對含有燕麥(Avena sativa L. ) (oat)精氨酸脫羧酶基因的轉基因煙草植物的描述(Masgrau(1997)Plant J. 11:465-473);或者,可以由水楊酸響應元件控制(Stange (1997) Plant J. 11:1315-1324)。在一些方面,適當的多肽表達可能要求在該編碼區域的3’端具有多聚腺苷酸化區域。多聚腺苷酸化區域可以源自天然基因、各種類別的其它植物(或者動物或其它)基因或者農桿菌T-DNA中的基因。
表達載體和克隆載體本發明提供包括本發明的核酸例如編碼本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶的序列的表達載體和克隆載體。本發明的表達載體和克隆載體可以包括病毒顆粒、桿狀病毒、噬菌體、質粒、噬菌粒(phagemi ds )、粘粒、fos-質粒(fosmids)、細菌人工染色體、病毒DNA (例如疫苗、腺病毒、禽痘病毒、偽狂犬病病毒和SV40的衍生物)、Pl衍生的人工染色體、酵母質粒、酵母人工染色體和任何別的對感興趣的特定宿主(例如,桿狀菌、曲霉和酵母)有特異性的載體。本發明的載體可以包括染色體、非染色體和合成的DNA序列。大量的合適的載體對于本領域技術人員都是已知的,并且可以商業獲得。典型的載體包括細菌=PQE載體(Qiagen)、pBLUESCRIPT 質粒、pNH載體、λ -ZAP 載體(Stratagene);ptrc99a、PKK223_3、pDR540、pRIT2T (Pharmacia);真核細胞的PXTl、pSG5 (Stratagene)、pSVK3、pBPV、pMSG、pSVLSV40 (Pharmacia)。然而,也可以使用任何別的質粒或別的載體,只要它們可以在宿主中復制和維持下去。可以在本發明中使用低拷貝數或高拷貝數的載體。“質粒”可以商購得到,在不受限制的基礎上可以公開獲得,或可以根據已公開的程序用可獲得的質粒來構建。與本文描述的那些質粒等價的質粒在本技術領域是已知的,并且對于普通技術人員是顯而易見的。表達載體可以包括啟動子、用于起始翻譯的核糖體結合位點和轉錄終止子。載體也可以包括用于擴增表達的合適序列。哺乳動物表達載體可以包括復制原點、任何必需的核糖體結合位點、聚腺苷酸化位點、剪接供體和受體位點、轉錄終止序列、5’側翼非轉錄序列。在一些方面,衍生于SV40剪接子和聚腺苷酸化位點的DNA序列可以用于提供所需要的非轉錄基因元件。
在一個方面,表達載體含有一個或多個選擇性標記基因,使得可以對含有該載體的宿主細胞進行選擇。這樣的選擇性標記包括編碼二氫葉酸還原酶的基因和使得真核細胞培養物具有新霉素抗性的基因、使得大腸桿菌(E. coli)具有四環素或氨芐青霉素抗性的基因和釀酒酵母(S. cerevisiae)TRP1基因。啟動子區域可以從任何期望的基因中選擇出來,使用氯霉素轉移酶(CAT )載體或具有選擇標記的別的載體。在一個發明,用于在真核細胞中表達多肽或其片段的載體含有增強子,以增加表達水平。增強子是DNA的順式作用元件,一般長度為大約10到大約300bp。它們作用于啟動子,增強其轉錄。示例性增強子包括在復制原點下游側IOObp到270bp的SV40增強子、巨細胞病毒早期啟動子增強子、在復制原點下游側的多瘤增強子,和腺病毒增強子。核酸序列可以通過各種程序插入載體中。一般而言,將插入物和載體用合適的限制性內切酶消化后,序列可以連接到載體中的所希望的位置。可選擇地,插入物和載體的平末端可以被連接。在本領域已知多種克隆技術,例如在Ausubel和Sambrook中描述的。這樣的程序和別的程序被認為在本領域技術人員的范圍內。載體可以是質粒、病毒顆粒或噬菌體的形式。別的載體包括染色體的、非染色體的和合成的DNA序列,SV40的衍生物;細菌質粒、噬菌體DNA、桿狀病毒、酵母質粒、衍生于質粒和噬菌體DNA的組合的載體、病毒DNA例如牛痘、腺病毒、禽痘病毒和偽狂犬病病毒DNA。在原核和真核宿主中使用的各種克隆和表達載體被例如Sambrook描述。可以使用的特定的細菌載體包括商業上可獲得的質粒,其包括以下已知的克隆載體的遺傳元件pBR322 (ATCC 37017)、pKK223_3 (Pharmacia FineChemicals, Uppsala, Sweden)> GEMl (Promega Biotec, Madison, WI, USA)、pQE70、pQE60、pQE-9 (Qiagen)、pDIO、psiX174pBluescript II KS、pNH8A、pNH16a、pNH18A、pNH46A(Stratagene)> ptrc99a> pKK223_3、pKK233_3、DR540、pRIT5 (Pharmacia)、pKK232_8 和pCM7。特定的真核載體包括 pSV2CAT、p0G44、pXTl、pSG (Stratagene) pSVK3、pBPV、pMSG 和PSVL (Pharmacia)。然而,可以使用任何別的載體,只要它可以在宿主細胞中復制和維持。本發明的核酸可以在表達序列盒、載體或病毒中表達,在植物細胞和種子中短暫地或穩定地表達。一個示例性的短暫表達系統應用了附加體(印isomal)表達系統,例如,通過含有超螺旋DNA的附加小染色體的轉錄而在核中產生的花椰菜花葉病毒(CaMV)病毒RNA,見,例如,Covey (1990)Proc. Natl. Acad. Sci. USA87:1633-1637。作為選擇,編碼序列,即本發明的序列的全部或子片段,可以插入到植物宿主細胞基因組中,而成為該宿主染色體DNA的整合部分。正義和反義轉錄子可以以這種方式被表達。包含本發明的核酸的序列(例如,啟動子或編碼區域)的載體可以包含賦予植物細胞或種子選擇性表型的標記基因。例如,所述標記可以編碼生物殺滅劑抗性,特別是抗生素抗性,例如對卡那霉素、G418、博來霉素、潮霉素或除草劑的抗性,例如對氯磺隆或Basta的抗性。可以在植物中表達核酸和蛋白的表達載體在本領域中是熟知的,可以包括,例如,根瘤農桿菌的載體、馬鈴薯病毒X (見,例如,Angell (1997) EMBO J. 16:3675-3684)、煙草花葉病病毒(見,例如,Casper (1996) Gene 173:69-73)、番茄叢矮病毒(見,例如,Hillman (1989) Virology 169:42-50)、煙草蝕紋病毒(見,例如,Dolja (1997)Virology234:243-252)、菜豆金色花葉病毒(見,例如,Morinaga (1993) Microbiolinimunol. 37:471-476)、花椰菜花葉病毒(見,例如,Cecchini (1997) Mol. Plant MicrobeInteract. 10:1094-1101)、玉米 Ac/Ds 轉座兀件(見,例如,Rubin (1997) Mol. Cell.Biol. 17:6294-6302 ;Kunze (1996)Curr. Top.Microbiol. Inimunol. 204:161-194),和玉米抑制基因-突變基因(Spm)轉座元件(見,例如Schlappi (1996) Plant Mol.Biol. 32:717-725);和它們的衍生物。·在一個方面,表達載體可以有兩套復制系統,使其可以在兩種生物中保持,例如在哺乳動物或昆蟲細胞中表達,在原核宿主中克隆和擴增。進一步,對于整合表達載體,該表達載體可以包括至少一個與宿主細胞基因組同源的序列。它可以在該表達構建物的兩側包含兩個同源序列。通過選擇包含入載體的合適的同源序列,可以將該整合載體定位到宿主細胞的特定位置。整合載體的構建在本領域是已知的。本發明的表達載體也可以包括選擇性的標記基因,以便對已經轉化的細菌株進行選擇,例如,使細菌對藥物,例如氨芐青霉素、氯霉素、紅霉素、卡那霉素、新霉素和四環素產生抗性的基因。選擇性的標記也可以包括生物合成基因,例如在組氨酸、色氨酸和亮氨酸生物合成途徑中的基因。表達載體中的DNA序列被可操縱連接到合適的表達控制序列(一種或多種)(啟動子),以指導RNA合成。具體命名的細菌啟動子包括lacl、lacZ、T3、T7、gpt、λ Ρκ、λ P1和trp。真核啟動子包括CMV即時早期啟動子、HSV胸苷激酶啟動子、早期和晚期SV40啟動子、來自逆轉錄病毒的LTRs以及小鼠金屬硫蛋白-I啟動子。選擇合適的載體和啟動子在本領域技術人員的水平之內。表達載體還可以包括用于起始翻譯的核糖體結合位點和轉錄終止子。載體也可以包括用于擴增表達的合適序列。啟動子區域可以從任何期望的基因中選擇出來,使用氯霉素轉移酶(CAT)載體或具有選擇標記的別的載體。此外,在一個方面,表達載體含有一個或多個選擇性標記基因,以提供用于選擇被轉化的宿主細胞的表型特征,例如用于真核細胞培養的二氫葉酸還原酶或新霉素抗性,或例如大腸桿菌中的四環素或氨芐青霉素抗性。哺乳動物表達載體還可以包括復制原點、任何必需的核糖體結合位點、聚腺苷酸化位點、剪接供體和受體位點、轉錄終止序列和5’側翼非轉錄序列。在一些方面,衍生于SV40剪接子的DNA序列和聚腺苷酸化位點可以用于提供所需要的非轉錄基因元件。用于在真核細胞中表達多肽或其片段的載體也可以含有增強子,以增加表達水平。增強子是DNA的順式作用元件,一般長度為大約10到大約300bp,其作用于啟動子,增強其轉錄。示例性增強子包括在復制起點下游側IOObp到270bp的SV40增強子、巨細胞病毒早期啟動子增強子、在復制起點下游側的多瘤增強子,和腺病毒增強子。此外,表達載體含有一個或多個選擇性標記基因,使得可以對含有該載體的宿主細胞進行選擇。這樣的選擇性標記包括編碼二氫葉酸還原酶的基因和使得真核細胞培養物具有新霉素抗性的基因、使得大腸桿菌(E. coli)具有四環素或氨芐青霉素抗性的基因和釀酒酵母(S. cerevisiae) TRPl 基因。在一些方面中,編碼本發明的多肽之一或含有其至少大約5、10、15、20、25、30、35、40、50、75、100或150或更多個連續氨基酸的片段的核酸與能指導翻譯出的多肽或其片段的分泌的前導序列以適當的位置關系進行裝配。一方面,該核酸可以編碼融合蛋白,其中本發明的多肽之一或含有其至少大約5、10、15、20、25、30、35、40、50、75、100或150或更多個連續氨基酸的片段被融合到異源肽或多肽,例如N-末端鑒定肽,其給予了期望的特性,如增加的穩定性或簡化的純化特性。合適的DNA序列可以通過各種程序插入載體中。一般而言,將插入物和載體用合 適的限制性內切酶消化后,DNA序列可以連接到載體中的所希望的位置。可選擇地,插入物和載體的平末端可以被連接。多種克隆技術被公開于Ausubel et al. Current Protocolsin Molecular Biology, John Wiley 503 Sons, Inc. 1997 和 Sambrook et al, MolecularCloning:A Laboratory Manual 2nd Ed. , Cold Spring Harbor Laboratory Press (1989)。這樣的程序和別的程序被認為在本領域技術人員的范圍內。載體可以是例如質粒、病毒顆粒或噬菌體的形式。別的載體包括染色體的、非染色體的和合成的DNA序列,SV40的衍生物;細菌質粒、噬菌體DNA、桿狀病毒、酵母質粒、衍生于質粒和噬菌體DNA的組合的載體、病毒DNA例如牛痘、腺病毒、禽痘病毒和偽狂犬病病毒DNA。在原核和真核宿主中使用的各種克隆和表達載體在Sambrook, et al, MolecularCloning:A Laboratory Manual, 2nd Ed. , Cold Spring Harbor, N. Y. , (1989)中描述。
宿主細胞和轉化細胞本發明也提供了包含本發明的核酸序列的轉化細胞,所述核酸序列例如編碼本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的序列,或本發明的載體。宿主細胞可以是本領域技術人員熟悉的任何宿主細胞,包括原核細胞,真核細胞,例如,細菌細胞、真菌細胞、酵母細胞、哺乳動物細胞、昆蟲細胞或植物細胞。示例性的細菌細胞包括鏈霉菌屬、葡萄球菌屬或桿菌屬的任何種,或者示例性種大腸桿菌、枯草芽孢桿菌(Bacillus subtil is)、臘狀芽孢桿菌(Bacillus cereus)、鼠傷寒沙門氏菌(Salmonella typhimurium)。示例性的昆蟲細胞包括草地夜蛾屬(Spodoptera)或果蜆屬(Drosophila)的任何種,包括果蠅S2和草地夜蛾(Spodoptera)Sf9。示例性的動物細胞包括CH0、C0S或黑色素瘤細胞或任何鼠或人的細胞系。合適的宿主的選擇在本領域技術人員的能力范圍內。轉化各種高等植物種類的技術是已知的,在技術和科學文獻中有描述,見,例如,Weising (1988) Ann. Rey. Genet. 22:421-477 ;美國專利 5,750,870。載體可以使用各種技術導入宿主細胞中,包括轉化、轉染、轉導、病毒感染、基因槍或者Ti介導的基因轉移。具體的方法包括磷酸鈣轉染、DEAE-Dextran介導的轉染、月旨轉染法(Iipofection)或電穿孔(Davis, L.,Dibner, M.,Battey, I. , Basic Methods inMolecular Biology,(1986))。
一方面,本發明的核酸或載體導入細胞是為了篩選,所以,所述核酸是以合適于該核酸的后續表達的方式進入細胞。導入的方法大體上由靶細胞類型決定。示例性的方法包括CaPO4沉淀法、脂質體融合、脂轉染法(例如,LIP0FECTIN )、電穿孔法、病毒感染法,等等。候選的核酸可以穩定地整合到宿主細胞基因組中(例如,用反轉錄病毒導入)或者可以短暫的或穩定的存在于細胞質中(即,通過使用傳統的質粒,利用標準的調控序列、選擇標記,等等)。因為許多藥學上重要的篩選要求人或模型哺乳動物靶細胞,所以可以使用能夠轉染這些靶的反轉錄病毒載體。在適當的情況下,工程宿主細胞可以在傳統的營養培養基中培養,所述營養培養基經改良而適于激活啟動子、選擇轉化子或擴增本發明的基因。在合適的宿主株被轉化和宿主株生長到合適的細胞密度之后,用合適的方法(例如,溫度變化或化學誘導)誘導被選擇的啟動子,細胞再培養一段時期,使得它們產生所需的多肽或其片段。細胞可以通過離心收獲,通過物理或化學方法破碎,保留得到的粗提物以用于進一步的純化。被用來表達蛋白質的微生物細胞可以用任何常規方法破碎,包括冷凍-融解循環、超聲波裂解法、機械破碎法或使用細胞裂解試劑。這些方法為本領域技術人員所熟·知。表達的多肽或其片段可以從重組細胞培養物中通過包括硫酸銨或乙醇沉淀、酸提取、陰離子或陽離子交換色譜、磷酸纖維素色譜、疏水作用色譜、親和色譜、羥基磷灰石色譜和凝集素色譜在內的方法回收和純化。假如必要的話,可以應用蛋白質重折疊來完成多肽的構象。假如需要的話,在最終的純化步驟中可以采用高效液相色譜(HPLC)。宿主細胞中的構建物可以以傳統方式用于產生由重組序列編碼的基因產物。取決于重組生產方法中所用的宿主,由含有載體的宿主細胞產生的多肽可以糖基化或者非糖基化。本發明的多肽也可以包括或不包括起始甲硫氨酸殘基。也可以采用無細胞的翻譯系統來產生本發明的多肽。無細胞翻譯系統可以應用由DNA構建物轉錄得到的mRNA,所述DNA構建物包括與編碼所述多肽或其片段的核酸可操作地連接的啟動子。在一些方面,該DNA構建物在進行體外轉錄反應之前可以被線性化。轉錄得到的mRNA然后與合適的無細胞翻譯提取物例如兔網狀細胞提取物溫育,產生所需的多肽或其片段。表達載體可以含有一個或多個選擇性標記基因,為選擇轉化宿主細胞提供表型特征,例如真核細胞培養物的二氫葉酸還原酶或新霉素抗性,或者例如大腸桿菌的四環素或
氨芐青霉素抗性。含有感興趣多核苷酸如本發明的核酸的宿主細胞可以在傳統的營養培養基中培養,所述營養培養基經改良而適于激活啟動子、選擇轉化子或擴增基因。培養條件例如溫度、PH和類似條件是先前選擇宿主細胞用于表達所使用的培養條件,對于普通技術人員是明顯的。然后,被鑒定為具有指定的酶活性的克隆被測序,以鑒定編碼具有增強活性的酶的多核苷酸序列。本發明提供了在細胞中過度表達重組纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的方法,該方法包括表達含有本發明的核酸的載體,本發明的核酸例如包含在至少約100個殘基的區域內與本發明的示例性序列具有至少約50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或更高的序列同一性的核酸序列的
核酸,其中序列同一性通過使用序列比較算法的分析或通過視覺觀察來確定;或者在嚴緊條件下與本發明的核酸序列雜交的核酸。過度表達通過任何方式例如使用高活性啟動子、雙順反子(dicistronic)載體或通過該載體的基因擴增來實現。本發明的核酸可以在任何體外或體內表達系統中被表達或過度表達。任何細胞培養系統可被用于表達或過度表達重組蛋白,包括細菌、昆蟲、酵母、真菌或哺乳動物培養物。通過啟動子、增強子、載體(例如,復制子載體、雙順反子載體的使用(見,例如Gurtu(1996)Biochem. Biophys. Res. Commun. 229:295_8))、培養基、培養系統等等的合適選擇,可以實現過度表達。一方面,使用選擇標記如谷氨酰胺合酶(見,例如Sanders (1987) Dev. Biol.Stand. 66:55-63)在細胞系統中進行的基因擴增被用于過度表達本發明的多肽。宿主細胞可以是本領域技術人員熟悉的任何宿主細胞,包括原核細胞,真核細胞,例如,細菌細胞、真菌細胞、酵母細胞、哺乳動物細胞、昆蟲細胞或植物細胞。合適的宿主的選擇在本領域技術人員的能力范圍內。
載體可以使用各種技術導入宿主細胞中,包括轉化、轉染、轉導、病毒感染、基因槍或者Ti介導的基因轉移。具體的方法包括磷酸鈣轉染、DEAE-Dextran介導的轉染、月旨轉染法(Iipofection)或電穿孔(Davis, L.,Dibner, M.,Battey, I. , Basic Methods inMolecular Biology,(1986))。在適當的情況下,工程宿主細胞可以在傳統的營養培養基中培養,所述營養培養基經改良而適于激活啟動子、選擇轉化子或擴增本發明的基因。在合適的宿主株被轉化和宿主株生長到合適的細胞密度之后,用合適的方法(例如,溫度變化或化學誘導)誘導被選擇的啟動子,細胞再培養一段時期,使得它們產生所需的多肽或其片段。細胞可以通過離心收獲,通過物理或化學方法破碎,保留得到的粗提物以用于進一步的純化。被用來表達蛋白質的微生物細胞可以用任何常規方法破碎,包括冷凍-融解循環、超聲波裂解法、機械破碎法或使用細胞裂解試劑。這些方法為本領域技術人員所熟知。表達的多肽或其片段可以從重組細胞培養物中通過包括硫酸銨或乙醇沉淀、酸提取、陰離子或陽離子交換色譜、磷酸纖維素色譜、疏水作用色譜、親和色譜、羥基磷灰石色譜和凝集素色譜在內的方法回收和純化。假如必要的話,可以應用蛋白質重折疊來完成多肽的構象。假如需要的話,在最終的純化步驟中可以采用高效液相色譜(HPLC)。各種哺乳動物細胞培養系統也可以被用于表達重組蛋白。哺乳動物表達系統的實例包括猴腎成纖維細胞的C0S-7系(由Gluzman,Cell, 23:175,1981描述),以及能從相容載體表達蛋白的其它細胞系,如C127、3T3、CH0、HeLa和BHK細胞系。宿主細胞中的構建物可以以傳統方式用于產生由重組序列編碼的基因產物。根據重組產生方法中所用的宿主,由含有載體的宿主細胞產生的多肽可以糖基化或者非糖基化。本發明的多肽也可以包括或不包括起始甲硫氨酸殘基。可選地,本發明的多肽,或者含有其至少大約5、10、15、20、25、30、35、40、50、75、
100或150或更多個連續氨基酸的片段,可以通過常規肽合成儀合成產生,例如,如下面所討論。在其它方面,通過肽合成,所述多肽的片段或部分可以被用于產生相應的全長多肽;因此,所述片段可用作產生全長多肽的中間物。也可以采用無細胞的翻譯系統來產生本發明的多肽之一或含有其至少大約5、10、15、20、25、30、35、40、50、75、100或150或更多個連續氨基酸的片段,其應用由0嫩構建物轉錄得到的mRNA,所述DNA構建物包括與編碼所述多肽或其片段的核酸可操作地連接的啟動子。在一些方面,該DNA構建物在進行體外轉錄反應之前可以被線性化。轉錄得到的mRNA然后與合適的無細胞翻譯提取物例如兔網狀細胞提取物溫育,產生所需的多肽或其片段。核酸的擴增在本發明的實踐中,本發明的核酸和編碼本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的核酸,或本發明的修飾的核酸,可以通過擴增來增殖,例如,通過PCR。擴增也可以被用于克隆或修飾本發明的核酸。因此,本發明提供了用于擴增本發明核酸的擴增引物序列對。本技術領域技術人員能設計用于這些序列的任何部分或全長的擴增弓I物序列對。一方面,本發明提供了通過本發明的擴增引物對擴增的核酸,所述擴增引物對例如本發明的核酸的大約前(5’)12、13、14、15、16、17、18、19、20、21、22、23、24或25或更多個殘基以及互補鏈的大約前(5’) 15、16、17、18、19、20、21、22、23、24或25或更多個殘基所示的引物對。本發明提供了用于擴增核酸的擴增引物序列對,所述核酸編碼具有纖維素酶如 內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的多肽,其中所述引物對能夠擴增含有本發明的序列或其片段或子序列的核酸。擴增引物序列對的一個成員或每一成員可以包含寡核苷酸,該寡核苷酸包含所述序列的至少約10至50個或更多個連續堿基,或所述序列的約12、13、14、15、16、17、18、19、20、21、22、23、24或25或更多個連續殘基。本發明提供了擴增引物對,其中所述引物對包括第一成員和第二成員,第一成員具有本發明核酸的大約前(5,)12、13、14、15、16、17、18、19、20、21、22、23、24或25或更多個堿基所示的序列,第二成員具有第一成員的互補鏈的大約前(5’)12、13、14、15、16、17、18、19、20、21、
22、23、24或25或更多個堿基所示的序列。本發明提供了通過擴增產生的纖維素酶,例如編碼內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶,所述擴增例如聚合酶鏈反應(PCR),使用本發明的擴增引物對。本發明提供了通過擴增制備纖維素酶,例如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶的方法,所述擴增例如PCR,使用本發明的擴增引物對。一方面,所述擴增引物對從文庫例如基因文庫諸如環境文庫擴增核酸。擴增反應也可以被用于量化樣品中核酸的量(如細胞樣品中信息的量)、標記核酸(例如將其應用于陣列或印跡)、檢測核酸,或量化樣品中特異性核酸的量。在本發明的一個方面,擴增從細胞或cDNA文庫分離出的信息。技術人員可以選擇和設計合適的寡核苷酸擴增引物。擴增方法在本技術領域也是已知的,包括,例如聚合酶鏈式反應PCR (例如參見PCR PROTOCOLS, A⑶IDE TO METHODSAND APPLICATIONS,ed. Innis, Academic Press, N. Y. (1990)和PCR STRATEGIES(1995), ed.Innis, Academic Press, Inc. N. Y.,連接酶鏈式反應(LCR)(例如參見 Wu (1989)Genomics4:560; Landegren (1988) Science 241:1077; Barringer (1990) Gene 89:117);轉錄擴增(例如參見Kwoh (1989) Proc. Natl. Acad. Sci. USA 86:1173);和自主維持序列復制(例如參見 Guatelli (1990)Proc. Natl. Acad. Sci. USA 87:1874) ;Q β 復制酶擴增(例如參見Smith(1997) J. Clin. Microbiol. 35:1477-1491),自動 Q-β 復制酶擴增測定法(例如參見Burg(1996)Mol. Cell. Probes 10:257-271)和其它的 RNA 聚合酶介導技術(例如 NASBA, Cangene, Mississauga, Ontario);也參見 Berger (1987)Methods Enzymol. 152:307-316; Sambrook; Ausubel;美國專利 4, 683, 195 和 4, 683, 202 ;Sooknanan (1995) Biotechnology13:563-564。
確定核酸和多肽的序列同一,性本發明提供了核酸,所述核酸包括與本發明的示例性核酸(參見表1、2和3,下面的實施例 I 和 4,以及序列表)在至少大約 50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、I100、1150、1200、1250、1300、1350、1400、1450、1500、1550或更多殘基的區域內具有至少大約50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性(同源性)的序列。本發明提供了多肽,該多肽包括與本發明的示例性多肽(參見表1、2和3,下面的實施例I和4,以及序列表)具有至少大約 50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、 83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或更高或完全的(100%)序列同一性的序列。序列同一性(同源性)的程度可以使用任何計算機程序和相關參數來確定,包括本文描述的那些,如BLAST 2. 2. 2或FASTA 3. 0t78版本,參數為默認值。本發明的核酸序列可以包括本發明的示例性序列和與其基本上相同的序列的至少 10、15、20、25、30、35、40、50、75、100、150、200、300、400 或 500 或更多個連續核苷酸。本發明的核酸序列的同源序列和片段可以指與這些序列具有至少約50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的序列同一1丨生(同源性)的序列。同源性(序列同一性)可以使用本文所描述的任何計算機程序和參數來確定,包括FASTA 3. 0t78版本,參數為默認值。同源序列還包括RNA序列,其中尿嘧啶取代本發明核酸序列中的胸腺嘧啶。同源序列可以使用本文描述的任意一種方法獲得,或者從對測序錯誤的糾正中產生。應該意識到,本發明的核酸序列可以以傳統的單字母格式表示(例如參見Stryer, Lubert.Biochemistry, 3rd Ed. , W. H Freeman&Co. , New York),或以在序列中記錄核苷酸的身份的任何其它格式表示。在各個方面,本文描述的序列比較程序被用于本發明的該方面,S卩,確定核酸或多肽序列是否在本發明的范圍之內。然而,蛋白和/或核酸序列同一性(同源性)可以使用本技術領域已知的任何序列比較算法或程序來評價。這樣的算法和程序包括,但不限于,TBLASTN、BLASTP、FASTA、TFASTA 和 CLUSTALW(參見,例如 Pearson and Lipman, Proc. Natl.Acad. Sci. USA 85(8) :2444-2448, 1988; Altschul 等人,J. Mol. Biol. 215(3) :403-410, 1990; Thompson 等人,Nucleic Acids Res. 22 (2) : 4673-4680,1994; Higgins 等人,Methods Enzymol. 266:383-402,1996;Altschul 等人,J. Mol. Biol. 215(3) :403-410, 1990;Altschul等人,Nature Genetics 3:266-272,1993)。一方面,同源性或同一性可以使用序列分析軟件來測量(例如,地址為1710University Avenue, Madison, WI 53705的威斯康星大學生物技術中心遺傳學計算機組(Genetics Computer Group)的序列分析軟件包)。這樣的軟件通過對各種缺失、取代和其它的修飾賦予同源性度數來匹配相似的序列。一方面,用于表示兩個或者更多個核酸或者多肽序列之間的關系的術語“同源性”和“同一性”,是指當兩個或更多個序列或子序列在某一比較窗口(comparison window)或者指定區域內被比較和聯配以確定最大一致性時,這些序列是相同的,或者具有特定百分比例的相同氨基酸殘基或核苷酸,其可以應用各種序列比較算法或者通過人工聯配和視覺觀察來確定。一方面,對于序列比較,將一個序列作為參考序列,而將測試序列與之進行比較。當使用序列比較算法時,將測試序列和參考序列輸入到計算機中,指定子序列坐標,如果必要,也指定序列算法程序參數。可以使用默認的程序參數,或者可以指定別的參數。然后基于程序參數,序列比較算法計算出測試序列相對于參考序列的序列同一性百分比。正如本文所用,“比較窗口 ”包括參考具有任意數目的連續位置的片段,所述數目選自從20到600、通常大約50到大約200,更經常大約100到大約150,其中在序列和參考序列進行最優化聯配后,序列可與具有相同數目的連續位置的參考序列作比較。用于比較的聯配方法在本技術領域是熟知的。可以通過如下方法進行用于比較的序列的最優化聯 配例如 Smith 和 Waterman, Adv. Appl. Math. 2 :482, 1981 的局部同源性算法,Needleman和 ffunsch, J. Mol. Biol. 48:443, 1970 的同源性聯配算法,person 和 Lipman, Proc. Nat,I.Acad. Sci. USA 85 :2444, 1988的查找相似性的方法,這些算法的計算機化實施(WisconsinGenetics Software Package 中的 GAP、BESTFIT、FASTA 和 TFASTA, Genetics ComputerGroup, 575Science Dr. ,Madison, WI),手工聯配和觀察檢驗。除了 BLAST程序(生物信息國家中心的基本局域聯配搜索工具(Basic Local Alignment Search Tool))外,用于確定同源性或者同一性的其它的算法包括,例如,ALIGN、AMAS (多重聯配序列分析(Analysis ofMultiply Aligned Sequences))、AMPS (蛋白多重序列聯配(Protein Multiple SequenceAlignment))、ASSET (聯配片段統計評估工具(Aligned Segment Statistical EvaluationTool))、BANDS、BESTSC0R、BI0SCAN (生物學序列比較分析節點(Biological SequenceComparative Analysis Node))>BLIMPS(BLocks IMProved Searcher)、FASTA、Intervals &Points,BMB、CLUSTAL V、CLUSTAL W、CONSENSUS、LCONSENSUS、WCONSENSUS、Smith-ffaterman算法、DARWIN、Las Vegas 算法、FNAT(強迫核苷酸聯配工具(Forced Nucleotide AlignmentTool))、Framealign> Framesearch、DYNAMIC、FILTER、FASP (Fristensky 序列分析軟件包)、GAP (全局聯配程序(GlobalAlignment Program))、GENAL、GIBBS、GenQuest、ISSC(靈敏性序列比較(Sensitive Sequence Comparison))> LALIGN (局部序列聯配(LocalSequence Alignment))、LCP (局部內容程序(Local Content Program))> MACAW (多重聯配構建和分析工作臺(Multiple Alignment Construction & Analysis Workbench))>MAP (多重聯配程序(Multiple Alignment Program))、MBLKP、MBLKN、PIMA (模式誘導的多重序列聯配(Pattern-Induced Multi-sequence Alignment))、SAGA (通過遺傳算法的序列聯配(Sequence Alignment by Genetic Algorithm))和 WHAT-IF。這樣的聯配程序也可以用于篩查基因組數據庫,以鑒定具有大體上相同的序列的多核苷酸序列。大量的基因組數據庫是可利用的,例如,作為人類基因組測序工程的構成部分的人類基因組的實質部分可以被利用(Gibbs,1995)。至少二i^一個其它基因組已經測定,如,生殖器支原體(M. genitalium) (Fraser 等,1995)、甲燒球菌(M. jannaschii) (Bult 等,1996)、流行性感冒桿菌(H. influenzae) (Fleischmann 等,1995)、大腸桿菌(E. coli) (Blattner 等,1997)和酵母(釀酒酵母(S. cerevisiae)) (Mewes 等,1997)和黑腹果妮(D. melanogaster)(Adams等,2000)。在模式生物的基因組序列的測序上已經取得了很大的進展,如小鼠,線蟲(C. elegans)和擬南芥(Arabadopsis sp.)。含有基因組信息并且注釋有一些功能性信息的一些數據庫由不同組織維護,可以通過互聯網登錄。一方面,BLAST和BLAST 2. O算法被使用,其分別被描述于Altschul (1997) Nuc.Acids Res.25:3389-3402,1997 和 Altschul (1990) J. Mol.Biol.215:403-410,1990。用于實施BLAST分析的軟件可以通過美國國家生物技術信息中心公開獲得。這一算法涉及首先通過鑒別待詢序列(query sequence)中長度為W的短的字串來確定高分序列對(highscoring sequence pairs, HSPs),所述高分序列對在與數據庫序列中同樣長度的字串聯配時,匹配或者滿足某個正值的閾值T。T是指鄰近字串(neighborhood word)的分數閾值(Altschul等,如上)。這些初始的鄰近字串被用來啟動搜索以發現包含有它們的更長的HSPs0所述字串沿著每一個序列向兩個方向延伸,只要累積的聯配分數在增加。對于核苷酸序列,使用參數M (—對匹配的殘基的獎勵分數;總是大于O)來計算累積分數。對于氨·基酸序列,使用記分矩陣來計算累計分數。出現下面情況時,字串在各個方向上的延伸便停止累積的聯配分數由達到的最大值下降了數量X ;由于一個或者多個記分為負的殘基聯配的累積,累積分數達到O或者O以下;或者延伸到了任一序列的末端。BLAST算法的參數W、T和X決定了聯配的靈敏度和速率。BLASTN程序(對于核苷酸序列)默認的是字串長度(W)為11,期望值(E)為10,M=5, N=-4,對兩條鏈進行比較。對于氨基酸序列,BLASTP程序默認字串長度為3,期望值(E)為10,BL0SUM62記分矩陣(參見Henikoff和Henikoff(1989) Proc. Natl. Acad. Sci. USA 89:10915)聯配(B)為 50,期望值(E)為 10,M=5,N=_4,對兩條鏈進行比較。BLAST算法也進行兩個序列之間的相似性的統計學分析(參見,例如,Karlin和Altschul (1993)Proc. Natl. Acad. Sci. USA 90:5873)。由 BLAST 算法提供的一種相似性量度是最小合計概率(smallest sum probability, P (N)),其表示兩個核苷酸或者氨基酸序列間的匹配將偶然發生的概率。例如,在測試核酸和參考核酸的比較中,如果最小合計概率小于大約O. 2,更優選的是在一方面中小于O. 01,最優選的是在一方面中小于大約O. 001,就認為該核酸與參考序列相似。一方面,應用基本局域聯配搜索工具(“BLAST”)來評價蛋白和核酸序列同源性。具體而言,五個特定的BLAST程序可以用來進行以下的任務
(1)BLASTP和BLAST3把氨基酸待詢序列與蛋白質序列數據庫進行比較;
(2)BLASTN把核苷酸待詢序列與核苷酸序列數據庫進行比較;
(3)BLASTX把待詢核苷酸序列(兩條鏈)的六個閱讀框架的概念上的翻譯產物與蛋白序列數據庫進行比較;
(4)TBLASTN把待詢蛋白序列與核苷酸序列數據庫的所有六個閱讀框架(兩條鏈)的翻譯結果進行比較;和
(5)TBLASTX把核苷酸待詢序列的六個框架的翻譯結果與核苷酸序列數據庫的六個框架的翻譯結果進行比較。
BLAST程序通過確定相似片段來確定同源序列,所述相似片段在此是指在待查詢的氨基酸或核酸序列與受測序列之間的“高分片段對(high-scoring segment pairs)”,該受測序列一方面從蛋白或者核酸序列數據庫得到。高分片段對一方面利用記分矩陣來鑒定(即,聯配),很多的記分矩陣在本領域是已知的。一方面,應用的記分矩陣為BL0SUM62矩陣(Gonnet (1992),Science 256 :1443-1445 ;Henikoff 和 Henikoff (1993), Proteins17:49-61)。較不優選地,在一方面,也可以應用PAM或者PAM250矩陣(參見如,Schwartz和 Dayhoff, eds.,1978,Matrices for Detecting Distance Relationshfps:Atlasof protein Sequence and Structure, Washingion: National Biomedical ResearchFoundation)。BLAST 程序通過美國國家醫學圖書館(U. S. National Library ofMedicine)可以獲得。根據所研究的序列長度和同源性程度,上述算法使用的參數可以被調整。在一些方面,在無用戶的指示的情況下,所述參數使用算法所采用的默認參數。
機算機系統和計算機程序產品 本發明提供了計算機、計算機系統、計算機可讀取的介質、計算機程序產品以及其上記錄或存儲了本發明的核酸和多肽序列的類似設備。此外,在實踐本發明的方法中,例如,為了確定和鑒定序列同一性(為了確定核酸是否在本發明的范圍之內)、結構同源性、基序等等,本發明的核酸或多肽序列可以在可通過計算機讀取和訪問的任何介質上存儲、記錄和操作。正如此處所用,詞語“記錄”和“存儲”指在計算機介質上存儲信息的過程。熟練技術人員能容易地采用任何已知方法,在計算機可讀取的介質上存儲信息,以產生包括本發明的一個或多個核酸和/或多肽序列的產品。正如本文所用,術語“計算機”、“計算機程序”和“處理器”以它們在最廣的普通語境中的含義被使用,包括了所有這樣的設備,例如下面所詳細描述的。特定多肽或蛋白的“編碼序列”或“編碼特定多肽或蛋白的序列”是指當被置于適當的調控序列的控制下時可被轉錄和翻譯成多肽或蛋白的核酸序列。本發明的多肽包括本發明的示例性序列和與其基本上相同的序列以及前述序列的任一個的子序列(片段)。一方面,基本上相同的、或同源的多肽序列是指與本發明的示例性序列具有至少 50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99% 或更高或完全的(100%)序列同一性(同源性)的多肽序列。同源性(序列同一性)可以使用本文所描述的計算機程序和參數的任一種進行確定。本發明的核酸或多肽序列可以在可通過計算機讀取和訪問的任何介質上存儲、記錄和操作。正如此處所用,詞語“記錄”和“存儲”指在計算機介質上存儲信息的過程。熟練技術人員能容易地采用任何目前已知的方法,在計算機可讀取的介質上存儲信息,以產生包括本發明的一個或多個核酸序列、本發明的一個或多個多肽序列的產品。本發明的另一方面是其上記錄有至少2、5、10、15或20或更多個本發明的核酸或多肽序列的計算機可讀取介質。本發明的另一方面是其上記錄有本發明的一個或多個核酸序列的計算機可讀取介質。本發明的另一方面是其上記錄有本發明的一個或多個多肽序列的計算機可讀取介質。本發明的另一方面是其上記錄有至少2、5、10、15或20或更多個如上面所述的核酸或多肽序列的計算機可讀取介質。計算機可讀取介質包括磁性可讀取介質、光學可讀取介質、電子可讀取介質和磁/光學介質。例如,計算機可讀取的介質可以是硬盤、軟盤、磁帶、CD-ROM、數字化視頻光盤(DVD)、隨機存取存儲器(RAM)或只讀存儲器(ROM)以及本領域的技術人員已知的其它類型的其它介質。本發明的方面包括系統(例如基于因特網的系統),例如計算機系統,它們存儲和操縱本文描述的序列信息。計算機系統100的一個實例以框圖形式示意性地描述在圖I中。正如此處所用,“計算機系統”指硬件部分、軟件部分以及數據存儲部分,它們用于分析本發明的核酸序列的核苷酸序列或本發明的多肽序列。一方面,計算機系統100包括用于處理、訪問和操縱序列數據的處理器。處理器105可以是任何熟知類型的中央處理單元,如來自英特爾公司的奔騰III,或來自Sun、Motorola、Compag> AMD或IBM公司的類似處理器。一方面,計算機系統100是一個通用的系統,該系統包括處理器105和用于存儲數 據的一個或多個內部數據存儲部件110,以及用于檢索數據存儲部件上存儲的數據的一個或多個數據檢索設備。技術人員能容易地意識到,任何一種當前可獲得的計算機系統都是合適的。在一個特定的方面,計算機系統100包括連接到總線上的處理器105,總線連接到主存儲器115 (在一方面,以RAM來實現)和一個或多個內部數據存儲設備110,例如其上已經存儲了數據的硬盤驅動器和/或其它計算機可讀介質。在一些方面,計算機系統100進一步包括一個或多個數據檢索設備118,用于讀取在內部數據存儲設備110上存儲的數據。數據檢索設備118可以是,例如軟盤驅動器、壓縮磁盤驅動器、磁帶驅動器或能連接到遠程數據存儲系統的調制解調器(例如通過因特網)等等。在一些方面中,內部數據存儲設備110是可移動的計算機可讀介質,例如含有控制邏輯和/或其上記錄的數據的軟盤、壓縮磁盤、磁帶等等。計算機系統100可以有利地包括適當的軟件或用適當的軟件編程,用于當數據存儲部件被插入到數據檢索設備中時從數據存儲部件讀取控制邏輯和/或數據。計算機系統100包括顯示器120,用于給計算機用戶顯示輸出。也應用注意到,計算機系統100可以被連接到網絡或廣域網中的其它計算機系統125a-c,以便給計算機100提供集中訪問。用于訪問和處理本發明的核酸序列的核苷酸或本發明的多肽序列的軟件(例如,檢索工具、比較工具和建模工具等等)在執行過程中可駐留于主存儲器115中。在一些方面,計算機系統100可以進一步包括序列比較算法,其用于比較存儲于計算機可讀介質上的本發明核酸序列或本發明多肽序列與存儲于計算機可讀介質上的參考核苷酸或多肽序列。“序列比較算法”指在計算機系統100上執行(本地或遠程)的一種或多種程序,以比較核苷酸序列和數據存儲設備中存儲的其它核苷酸序列和/或化合物。例如,序列比較算法可以將計算機可讀介質上存儲的本發明的核酸序列的核苷酸序列或本發明的多肽序列與計算機可讀介質上存儲的參考序列進行比較,以鑒定同源性或結構基序。圖2是示意性說明過程200的一個方面的流程圖,該過程用于將新的核苷酸或蛋白序列與序列數據庫進行比較,以便確定新序列和數據庫中的序列之間的同源性水平。序列數據庫可以是存儲于計算機系統100上的個人數據庫,或可以通過因特網獲得的公共數據庫如GENBANK。過程200在起始狀態201開始,然后轉到狀態202,其中要被比較的新序列被存儲于計算機系統100的存儲器上。正如上面所討論的,該存儲器可以是任何類型的存儲器,包括RAM或內部存儲設備。然后過程200轉到狀態204,其中打開序列數據庫以進行分析和比較。然后過程200轉到狀態206,其中數據庫中存儲的第一個序列被讀取到計算機的存儲器中。然后在狀態210進行比較,以確定第一個序列是否與第二個序列相同。重要的是應該注意到,該步驟不限于進行新序列和數據庫中第一個序列之間的精確比較。用于比較兩個核苷酸或蛋白序列的熟知的方法對于本技術領域的普通技術人員是已知的,即使所述兩個核苷酸或蛋白序列不完全相同。例如,可以在一個序列中引入空位,以提高兩個測試序列之間的同源性水平。控制空位或其它特征在比較過程中是否被引入到序列中的參數通常由計算機系統的用戶輸入。一旦已經在狀態210進行兩個序列的比較,在決策狀態210就要作出兩個序列是 否相同的判斷。當然,術語“相同的”不限于絕對相同的序列。在過程200中,在由用戶輸入的同源性參數范圍內的序列都將被標記為“相同的”。如果作出兩個序列相同的判斷,過程200轉到狀態214,其中來自數據庫的序列的名稱被顯示給用戶。該狀態通知用戶,具有顯示的名稱的序列滿足所輸入的同源性限制。一旦所存儲序列的名稱被顯示給用戶,過程200轉到決策狀態218,其中作出數據庫中是否存在更多序列的判斷。如果數據庫中不存在更多的序列,那么過程200在結束狀態220終止。然而,如果數據庫中確實存在更多的序列,那么過程200轉到狀態224,其中指針被指向數據庫中的下一個序列,以便與新序列進行比較。以這種方式,將新序列與數據庫中的每一序列聯配并進行比較。應該注意到,如果已經在決策狀態212已經作出了序列不同源的判斷,那么過程200將立即轉到決策狀態218,以便確定用于比較的數據庫中的任何其它序列是否可利用。因此,本發明的一個方面是計算機系統,該系統包括處理器、其上已經存儲了本發明核酸序列或本發明的多肽序列的數據存儲設備、其上以可檢索方式存儲了待與本發明的核酸序列或本發明的多肽序列比較的參考核苷酸序列或多肽序列的數據存儲設備、以及用于進行比較的序列比較器。該序列比較器可以指出被比較的序列之間的同源性水平,或鑒定上述的本發明的核酸序列的核酸密碼或者本發明的多肽序列中的結構基序,或者該比較器可以鑒定與這些核酸密碼和多肽密碼進行比較的序列中的結構基序。在一些方面中,數據存儲設備可以在其上已經存儲了至少2、5、10、15、20、25、30或40個或更多個本發明的核酸序列或本發明的多肽序列的序列。本發明的另一方面是確定本發明的核酸序列或本發明的多肽序列和參考核苷酸序列之間的同源性水平的方法。所述方法包括通過使用確定同源性水平的計算機程序讀取核酸密碼或多肽密碼以及參考核苷酸或多肽序列,以及用該計算機程序確定核酸密碼或多肽密碼與參考核苷酸或多肽序列之間的同源性水平。所述計算機程序可以是確定同源性水平的許多計算機程序的任何一種,包括本文中具體羅列的那些程序(例如,BLAST2N,具有默認參數或任何調整的參數)。所述方法可以使用上述的計算機系統執行。所述方法還可以如下進行通過使用所述計算機程序讀取至少2、5、10、15、20、25、30或40個或更多個上述的本發明的核酸序列或本發明的多肽序列,以及確定核酸密碼或多肽密碼與參考核苷酸或多肽序列之間的同源性水平。
圖3是示意性說明計算機中實施的過程250的一個方面的流程圖,該過程用于確定兩個序列是否同源。過程250在起始狀態252開始,然后轉到狀態254,其中要被比較的第一個序列被存儲到存儲器上。然后要被比較的第二個序列在狀態256被存儲到存儲器上。然后過程250轉到狀態260,其中讀取第一個序列中的第一個字符,然后轉到狀態262,其中讀取第二個序列的第一個字符。應該理解到,如果序列是核苷酸序列,那么字符將通常是A、T、C、G或U。如果序列是蛋白序列,那么字符一方面可以是單字母氨基酸密碼,以便第一個序列和第二個序列可以被容易地比較。然后在決策狀態264作出兩個字符是否相同的判斷。如果它們相同,那么過程250轉到狀態268,其中第一個和第二個序列中的下一個字符被讀取。然后作出該下一個字符是否相同的判斷。如果它們相同,那么過程250繼續循環,直到兩個字符不相同。如果作出的判斷是這兩個字母不相符,那么過程250轉到決策狀態274,以確定是否有更多的字符或者序列可以讀取。如果沒有可讀取的任何更多的字符,那么過程250轉到狀態276,其中第一個和第二個序列之間的同源性水平被顯示給用戶。同源性水平通過計算序列之間相同的字符在第一個序列的序列總數中的比例來確定。因此,如果第一個100個核苷酸序列中的每一個字符都與第二個序列中的每一個字符聯配,那么同源性水平將是100%。可以選擇地,計算機程序可以是這樣的計算機程序,其將本發明所示的核酸序列的核苷酸序列與一個或多個參考核苷酸序列進行比較,以確定本發明的核酸密碼是否在一個或多個位置上與參考核酸序列不同。任選地,這樣的程序記錄,相對于參考多核苷酸序列或者本發明的核酸序列,被插入、刪除或取代的核苷酸的長度和身份。一方面,計算機程序可以是確定本發明的核酸序列是否相對于參考核苷酸序列含有單核苷酸多態性(SNP)的程序。因此,本發明的另一方面是確定本發明的核酸序列是否在一個或多個核苷酸處與參考核苷酸序列不同的方法,所述方法包括通過使用鑒定核酸序列之間的差異的計算機程序讀取核酸密碼和參考核苷酸序列,并用該計算機程序鑒定核酸密碼和參考核苷酸序列之間的差異。在一些方面,計算機程序是鑒定單核苷酸多態性的程序。該方法可以通過上面描述的計算機程序和圖3所示意性說明的方法執行。所述方法還可以如下進行通過使用所述計算機程序讀取至少2、5、10、15、20、25、30或40個或更多個本發明核酸序列和參考核苷酸序列,以及用該計算機程序鑒定核酸密碼與參考核苷酸序列之間的差異。在其它方面,基于計算機的系統可以進一步包括鑒定器,其用于鑒定本發明的核酸序列或本發明的多肽序列中的特征。“鑒定器”指在本發明的核酸序列或本發明的多肽序列中鑒定某些特征的一個或多個程序。一方面,鑒定器可以包括在本發明的核酸序列中鑒定開放閱讀框(ORF)的程序。圖4是示意性說明鑒定器過程300的一個方面的流程圖,即用于檢測序列中特征的存在。過程300在起始狀態302開始,然后轉到狀態304,其中將被檢查特征的第一個序列存儲在計算機系統100的存儲器115上。然后過程300轉到狀態306,其中打開序列特征數據庫。這樣的數據庫包括每一特征的屬性以及該特征的名稱的列表。例如,特征名稱是“起始密碼子”,屬性是“ATG”。另一個實例是特征名稱“TAATAA序列盒”,特征屬性是“TAATAA”。這樣的數據庫的實例由威斯康星大學遺傳學計算機組(University ofWisconsin Genetics Computer Group)開發。可以選擇地,這些特征可以是結構多肽基序如α螺旋、β折疊,或功能多肽基序如酶活性位點、螺旋-轉角-螺旋基序或本技術領域技術人員已知的其它基序。一旦在狀態306打開特征數據庫,過程300就轉到狀態308,其中從數據庫讀取第一個特征。然后在狀態310將第一個特征的屬性與第一個序列進行比較。接著在決策狀態316作出在第一個序列中是否發現該特征的屬性的判斷。如果發現了屬性,那么過程300轉到狀態318,其中所發現的特征的名稱被顯示給用戶。然后,過程300轉到決策狀態320,其中作出數據庫中是否存在更多特征的判斷。如果不存在更多特征,那么過程300在結束狀態324終止。然而,如果數據庫中確實存在更多的特征,那么過程300在狀態326讀取下一個序列特征,循環回到狀態310,其中將下一個特征的屬性與第一個序列進行比較。應當注意,如果在決策狀態316在第一個序列中沒有發現特征屬性,那么過程300直接轉到決策狀態320,以便確定數據庫中是否存在更多特·征。因此,本發明的另一方面是鑒定本發明的核酸序列或本發明的多肽序列中的特征的方法,所述方法包括通過使用鑒定其中特征的計算機程序讀取核酸密碼或多肽密碼,并用該計算機程序鑒定核酸密碼中的特征。一方面,計算機程序包括鑒定開放閱讀框(ORF)的計算機程序。所述方法可以如下進行通過使用所述計算機程序讀取本發明的核酸序列或本發明的多肽序列中的一個序列或至少2、5、10、15、20、25、30或40個或更多個序列,以及用該計算機程序鑒定核酸密碼或多肽密碼中的特征。本發明的核酸序列或本發明的多肽序列可以以多種格式在各種數據處理器程序中存儲和操作。例如,本發明的核酸序列或本發明的多肽序列可以以文本文件存儲在字處理文件中,如Microsoft WORD 或WORDPERFECT ,或以ASCII文件存儲在本領域技術人員熟悉的各種數據庫程序中,例如DB2 、SYBASE 或ORACLE 。此外,許多計算機程序和數據庫可以被用作序列比較算法、鑒定器或與本發明的核酸序列或本發明的多肽序列進行比較的參考核苷酸序列或多肽序列的來源。下面的羅列不意圖限制本發明,而是提供對本發明的核酸序列或本發明的多肽序列有用的程序和數據庫的指導。可以使用的程序和數據庫,包括但不限于MACPATTERN (EMBL).DISCOVERYBASE (Molecular Application Group)、GENEMI NE (Molecular Application Group)、LOOK (Molecular Application Group)> MACL00K (Molecular Application Group)、BLAST 和BLAST2 (NCBI)、BLASTN 和 BLASTX (Altschul 等人,J. Mol. Biol. 215:403,1990)、FASTA(Pearson and Lipman, Proc. Natl. Acad. Sci. USA, 85:2444, 1988)> FASTDB (Brutlag 等人,Comp. App. Biosci.6:237-245,1990)、CATALYST (Molecular Simulations Inc·)、Catalyst/SHAPE (Molecular Simulations Inc. )、Cerius2. DBAccess (MolecularSimulations Inc. )>HypoGen (Molecular Simulations Inc. )>INSIGHT II (MolecularSimulations Inc. )、DISCOVER (Molecular Simulations Inc. )、CHARMm (MolecularSimulations Inc. )、FELIX (Molecular Simulations Inc. )、DELPHI (MolecularSimulations Inc. )、QuanteMM (Molecular Simulations Inc. )、Homology (MolecularSimulations Inc. )、MODELER (Molecular Simulations Inc. )、ISIS (MolecularSimulations Inc. )、Quanta/Protein Design (Molecular Simulations Inc. )、WebLab(Molecular Simulations Inc. )、WebLab Diversity Explorer (Molecular SimulationsInc. )、Gene Explorer(Molecular Simulations Inc. )>SeqFold(Molecular SimulationsInc. )> MDL Available Chemicals Directory 數據庫、MDL Drug Data Report 數據庫、Comprehensive Medicinal Chemistry 數據庫、Derwent’ s World Drug Index 數據庫、BioByteMasterFile數據庫、Genbank數據庫和Genseqn數據庫。基于本發明的公開內容,許多其它程序和數據庫對于本技術領域的技術人員是顯而易見的。可以用上述程序檢測的基序包括編碼亮氨酸拉鏈的序列、螺旋-轉角-螺旋基序、糖基化位點、泛素化位點、α螺旋和β折疊、編碼指導被編碼的蛋白分泌的信號肽的信號序列、在轉錄調節中涉及的序列如同源框、酸性伸展物(acidic stretches)、酶活性位點、底物結合位點和酶切割位點。
核酸的雜交 本發明提供了分離的或重組的核酸,這些核酸與本發明的示例性序列(例如SEQID NO: I, SEQ ID N0:3, SEQ ID N0:5, SEQ ID N0:7, SEQ ID NO:9, SEQ ID NO: 11, SEQ IDNO:13,SEQ ID NO:15,SEQ ID NO:17,SEQ ID NO:19,SEQ ID NO:21,SEQ ID NO:23,SEQ IDNO:25,SEQ ID NO:27,SEQ ID NO:29,SEQ ID NO:31,SEQ ID NO:33,SEQ ID NO:35,SEQ IDNO:37,SEQ ID NO:39,SEQ ID NO:41,SEQ ID NO:43,SEQ ID NO:45,SEQ ID NO:47,SEQ IDNO:49,SEQ ID NO:51,SEQ ID NO:53,SEQ ID NO:55,SEQ ID NO:57,SEQ ID NO:59, SEQ IDN0:61,SEQ ID NO:63,SEQ ID NO:65,SEQ ID NO:67, SEQ ID NO:69, SEQ ID NO:71, SEQ IDNO:73,SEQ ID NO:75,SEQ ID NO:77,SEQ ID NO:79,SEQ ID N0:81,SEQ ID NO:83,SEQ IDNO:85,SEQ ID NO:87,SEQ ID NO:89,SEQ ID N0:91,SEQ ID NO:93,SEQ ID NO:95,SEQ IDN0:97, SEQ ID N0:99, SEQ ID NO: 101, SEQ ID NO: 103, SEQ ID NO: 105, SEQ ID NO: 107,SEQ ID NO: 109,SEQ ID NO: 111,SEQ ID NO: 113,SEQ ID NO: 115,SEQ ID NO: 117,SEQ IDNO:119,SEQ ID NO:121,SEQ ID NO:123,SEQ ID NO:125,SEQ ID NO:127,SEQ ID NO:129,SEQ ID NO: 131,SEQID NO: 133,SEQ ID NO: 135,SEQ ID NO: 137,SEQ ID NO: 139,SEQ IDNO:141,SEQ ID NO:143,SEQ ID NO:145,SEQ ID NO:147,SEQ ID NO:149,SEQ ID NO:151,SEQ ID NO: 153, SEQ ID NO: 155,SEQ ID NO: 157, SEQ ID NO: 159,SEQ ID NO: 161,SEQ IDNO: 163或SEQ ID NO: 165 (也參見表1、2和3、下面的實施例I和4,以及序列表))在嚴緊條件下雜交。嚴緊條件可以是高度嚴緊性條件、中度嚴緊性條件和/或低度嚴緊性條件,包括本文描述的高的和降低的嚴緊性的條件。一方面,正如下面所討論的,洗滌條件的嚴緊性提供了決定核酸是否在本發明范圍內的條件。“雜交”指這樣一個過程,即,通過該過程核酸鏈與互補鏈通過堿基配對而結合。雜交反應可以是靈敏的并且是選擇性的,以便感興趣的特定序列可以被鑒定,甚至在其以低濃度存在的樣品中也可以被鑒定。適度的嚴緊條件(stringent conditions)可以通過,例如預雜交和雜交溶液中鹽或甲酰胺的濃度來定義,或者通過雜交溫度來定義,這些嚴緊條件在本技術領域是已知的。在可選的方面,嚴緊性可以通過降低鹽的濃度、增加甲酰胺的濃度或升高雜交溫度來增加。在可選擇的方面,本發明的核酸通過它們在各種嚴緊條件(例如強、中等和低嚴緊條件)下雜交的能力來定義,正如本文所示。
一方面,高度嚴緊性下的雜交包括在大約37°C到42°C的溫度下大約50%的甲酰胺。一方面,雜交條件包括在大約30°C到35°C下在大約35%至25%的甲酰胺中降低的嚴緊性條件。一方面,雜交條件包括高度嚴緊性條件,例如,在42°C、在50%甲酰胺、5X SSPE,O. 3%SDS中,和200n/ml的剪切和變性鮭精DNA。一方面,雜交條件包括這些降低的嚴緊性條件,但在降低的溫度35°C在35%甲酰胺中。相應于特定的嚴緊性水平的溫度范圍可以通過計算目標核酸中的嘌呤嘧啶比并相應調節溫度而進一步縮小。上述范圍和條件的變化在本領域中是熟知的。在可以選擇的方面中,本發明的核酸,正如通過它們在嚴緊條件下雜交的能力所定義的,可以在本發明的核酸的大約五個殘基到全長之間;例如它們的長度可以是至少5、10、15、20、25、30、35、40、50、55、60、65、70、75、80、90、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000 或更多殘基。也包括小于全長的核酸。
這些核酸可以用作,例如雜交探針、標記探針、PCR寡核苷酸探針、siRNA或miRNA (單鏈或雙鏈)、反義或編碼抗體結合肽(表位)、基序、活性位點的序列以及類似序列。
一方面,本發明的核酸通過它們在高度嚴緊性下雜交的能力定義,高度嚴緊性包括在大約37°C到42°C的溫度下大約50%的甲酰胺的條件。一方面,本發明的核酸通過它們在降低的嚴緊性下雜交的能力定義,降低的嚴緊性包括在大約30°C到35°C在大約35%至25%的甲酰胺中的條件。可以選擇地,本發明的核酸通過它們在高度嚴緊性下雜交的能力定義,高度嚴緊性包括的條件為在42°C、在50%甲酰胺、5X SSPE、0. 3%SDS中,和封閉核酸的重復序列,如cot-1或鮭精DNA(例如200n/ml的剪切和變性鮭精DNA)。一方面,本發明的核酸通過它們在降低的嚴緊性條件下雜交的能力定義,降低的嚴緊性條件包括在35°C或42°C的降低溫度下的35%或40%甲酰胺中。在核酸雜交反應中,用于得到特定嚴緊性水平的條件將根據雜交中的核酸的性質變化。例如,所述核酸的雜交區域的長度、互補程度、核苷酸序列組成(例如GC和AT含量)和核酸類型(例如RNA和DNA)可以在選擇雜交條件時加以考慮。另外的考慮因素是核酸之一是否被固定,例如固定在濾膜上。雜交可以在低度嚴緊性、中度嚴緊性或高度嚴緊性的條件下進行。作為核酸雜交的一個實例,含有固定化的變性核酸的聚合物膜首先在45°C在含有如下成分的溶液中預雜交 30 分鐘0. 9M NaCl、50mM NaH2PO4, pH 7. 0、5· OmM Na2EDTA、0. 5%SDS、10X Denhardt’s 和0. 5mg/ml多核糖腺苷酸。然后在該溶液中加入大約2X 107cpm(比活性為4-9X 108cpm/ug)的32P末端標記的寡核苷酸探針。在溫育12-16小時后,在室溫下在含有O. 5%SDS的IX SET(150mM NaCl、20mM Tris鹽酸,pH 7. 8、lmM Na2EDTA)中將膜洗滌30分鐘,隨后,在該寡核苷酸探針的Tm-10°C的溫度,在新鮮的IX SET中洗滌30分鐘。然后將膜暴露于放射自顯影膠片,以檢測雜交信號。所有的前述雜交將被認為在高嚴緊性條件下。雜交后,洗滌濾膜以除去任何非特異性結合的可檢測探針。用于洗滌濾膜的嚴緊性也可以根據如下方面進行變化被雜交的核酸的性質、被雜交的核酸的長度、互補程度、核苷酸序列組成(例如GC和AT含量)和核酸類型(例如RNA和DNA)。逐步增高的嚴緊性條件洗滌的實例如下'TL SSC, O. 1%SDS,室溫下洗滌15分鐘(低度嚴緊性);0. IX SSC, O. 5%SDS,室溫下洗滌30分鐘到I小時(中度嚴緊性);0. IX SSC, O. 5%SDS,雜交溫度和68°C之間洗滌15到30分鐘(高度嚴緊性);和O. 15M NaCl,72°C洗滌15分鐘(極高嚴緊性)。最終的低嚴緊性洗滌可以在O. IX SSC在室溫下進行。上述的實例僅僅是可用于洗滌濾膜的一組條件的示例性說明。本領域技術人員將知道,對于不同嚴緊性的洗滌,可以有多種方案。下面給出了一些其它實例。一方面,雜交條件包括洗滌步驟,其包括在室溫下在含有IX 150mM NaCl,20mMTris鹽酸,pH 7. 8、ImM Na2EDTA、0. 5%SDS的溶液中洗滌30分鐘,然后在新鮮溶液中洗滌30分鐘。通過放射自顯影或其它常規技術,鑒定已雜交至探針的核酸。可以對上述方法進行修飾,以鑒定與探針序列具有降低水平的序列同一性(同源性)的核酸。例如,為了獲得與可檢測的探針具有降低的序列同一性(同源性)的核酸,可以使用較低嚴緊性的條件。例如,雜交溫度可以以5°C的梯度變化從68°C降低到42°C,雜交緩沖液的Na+濃度為大約1M。在雜交后,用2X SSC、0. 5%SDS在雜交溫度下洗滌濾膜。這些條件在高于50°C被認為是“中度”條件,在低于50°C被認為是“低度”條件。特定實例的·“中度”雜交條件是當上述雜交在55°C進行。特定實例的“低度嚴格性”雜交條件是當上述雜交在45°C進行。可以選擇地,雜交可以在含有甲酰胺的緩沖液如6X SSC中在42°C的溫度下進行。在這種情況下,雜交緩沖液中甲酰胺的濃度可以以5%的梯度變化從50%降低到0%,以鑒定與探針具有降低水平的同源性的克隆。在雜交后,用6X SSC、0. 5%SDS在50°C洗滌濾膜。這些條件在高于25%的甲酰胺被認為是“中度”條件,在低于25%甲酰胺被認為是“低度”條件。特定實例的“中度”雜交條件是當上述雜交在30%甲酰胺中進行。特定實例的“低度嚴格性”雜交條件是當上述雜交在10%甲酰胺中進行。然而,雜交形式的選擇不是關鍵性的一洗滌條件的嚴緊性是決定核酸是否在本發明范圍內的條件。用于鑒定本發明范圍內的核酸的洗滌條件包括,例如在PH 7大約O. 02M的鹽濃度,至少大約50°C或大約55°C到大約60°C的溫度;或者在72 V大約O. 15MNaCl的鹽濃度下大約15分鐘;或者在至少大約50°C或大約55°C到大約60°C的溫度下大約O. 2X SSC的鹽濃度下大約15到大約20分鐘;或者用溶液將雜交復合物洗滌兩次,所述溶液的鹽濃度為含有O. 1%SDS的大約2X SSC,在室溫下洗滌15分鐘,然后用含有O. 1%SDS的O. IX SSC在68°C洗滌15分鐘,洗滌兩次;或者等同的條件。參見Sambrook, Tijssen和Ausubel對于SSC緩沖液和等同條件的描述。這些方法可以被用于分離或鑒定本發明的核酸。例如,前述方法可用于分離或鑒定核酸,所述核酸具有與選自本發明的序列或含有其至少大約10、15、20、25、30、35、40、50、75、100、150、200、250、300、350、400或500個連續堿基的片段以及其互補序列之一的核酸序列具有至少大約 50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98% 或 99% 或更高的序列同一性(同源性)的序列。序列同一性(同源性)可以使用聯配算法來測量。例如,同源多核苷酸可以具有編碼序列,該編碼序列是本文描述的編碼序列之一的天然發生的等位基因變體。當與本發明的核酸比較時,這樣的等位基因變體可以具有一個或多個核苷酸的取代、刪除或添加。另外,上述的方法可用于分離編碼多肽的核酸,所述多肽與本發明的多肽或者包含其至少5、10、15、20、25、30、35、40、50、75、100或150個連續氨基酸的片段具有至少大約99%、至少大約95%、至少大約90%、至少大約85%、至少大約80%、至少大約75%、至少大約70%、至少大約65%、至少大約60%、至少大約55%或至少大約50%的序列同一性(同源性),正如使用序列聯配算法(例如FASTA3. 0t78版本算法,參數為默認值)所確定的。
寡核苷酸探針及使用這些寡核苷酸探針的方法本發明也提供了核酸探針,例如可以用于鑒定、擴增或分離編碼具有纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的多肽的核酸或其片段,或用于鑒定纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的基因。一方面,該探針包括本發明核酸中的至少大約10個連續堿基。可以選擇地,本發明的探針可以是如本發明核酸中所示序列的至少大約5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、60、70、80、90、100、110、120、130、150 或大約10到50、大約20到60或大約30到70個連續堿基。這些探針通過結合和/或雜交來鑒定核酸。這些探針可以在本發明的陣列中使用,參見下面的討論,包括例如毛細管陣列。本發明的探針也可以用于分離其它核酸或多肽。 本發明的分離或重組的核酸、與其互補的序列、或含有本發明的序列之一的至少約 10、15、20、25、30、35、40、50、75、100、150、200、300、400 或 500 個連續堿基的片段、或與其
互補的序列,也可用作探針,以確定生物樣品如土壤樣品是否含有具有本發明的核酸序列的生物體或從中可得到所述核酸的生物體。在這樣的方法中,獲得潛在地具有從中可分離出所述核酸的生物體的生物樣品,并從樣品中獲得核酸。將這些核酸在允許探針與樣品中存在的任何互補序列特異性雜交的條件下與探針接觸。在必要的時候,允許探針與互補序列特異性雜交的條件,可以通過將探針與來自樣品的互補序列以及對照序列進行接觸來確定,所述樣品已知含有互補序列,所述對照序列不含有互補序列。雜交條件,如雜交緩沖液的鹽濃度、雜交緩沖液的甲酰胺濃度或雜交溫度,可以被改變以確定允許探針與互補核酸特異性雜交的條件。如果該樣品含有從中可分離出核酸的生物體,那么探針的特異性雜交被檢測到。雜交可以通過用可檢測的試劑標記探針來檢測,所述可檢測的試劑如放射性同位素、熒光染料或能催化可檢測產物形成的酶。使用標記探針來檢測樣品中互補核酸的存在的許多方法對于本領域技術人員是熟知的。這些方法包括Southern印跡、Northern印跡、集落雜交方法和斑點印跡。這些方法中的每一種方法的方案在 Ausubel et al. Current Protocols in Molecular Biology,John Wiley 503 Sons, Inc. (1997)和Sambrook et al, Molecular Cloning:A LaboratoryManual 2nd Ed. , Cold Spring Harbor Laboratory Press (1989)中提供。可以選擇地,多于一種的探針(其中至少一種探針能與核酸樣品中存在的任何互補序列特異性雜交)可以在擴增反應中使用,以確定樣品是否包含含有本發明的核酸的生物體(例如從中可分離出所述核酸的生物體)。一方面,這些探針包括寡核苷酸。一方面,擴增反應可以包括PCR反應。PCR實驗方案在在Ausubel和Sambrook, supra中有所描述。可選地,擴增可以包括連接酶鏈式反應、3SR或鏈置換反應(見Barany,F.,〃The LigaseChain Reaction in a PCR World〃,PCR Methods and Applications j_:5-16,1991;E.Fahy et ah, "Self-sustained Sequence Replication(3SR) : An I sothermalTranscription-based Amplification System Alternative to PCR〃,PCR Methodsand Applications 丄:25-33,1991;以及 Walker G. T. et ah, "Strand DisplacementAmplification-an Isothermal in vitro DNA Amplification Technique", Nucleic AcidResearch迎1691-1696, 1992)。在這樣的方法中,將樣品中的核酸與探針接觸,進行擴增反應,檢測所得到的擴增產物。擴增產物可以通過在反應產物上進行凝膠電泳并用嵌入劑如溴化乙啶染色凝膠來檢測。可以選擇地,可以用放射性同位素標記一種或多種探針,放射性擴增產物的存在在凝膠電泳后通過放射自顯影術來檢測。衍生自本發明核酸的末端附近的序列的探針也可以在染色體步移(chromosomewalking)方法中使用,以鑒定含有臨近本發明的序列的基因組序列的克隆。這樣的方法允許從宿主生物中分離編碼額外蛋白的基因。一方面,本發明的分離或重組的核酸、與其互補的序列、或含有本發明的序列之一的至少 10、15、20、25、30、35、40、50、75、100、150、200、250、300、350、400 或 500 個連續堿基
的片段、或與其互補的序列,被用作探針,以鑒定和分離相關的核酸。在一些方面,該相關的 核酸可以是來自生物體的cDNA或基因組DNA,這些生物體并不是最初從中分離出所述核酸的生物體。例如,其它生物體可以是相關生物體。在這樣的方法中,核酸樣品在允許探針與相關序列特異性雜交的條件下與探針接觸。然后用上面描述的任意一種方法檢測探針與來自相關生物體的核酸的雜交。通過改變用于鑒定與可檢測探針雜交的核酸例如cDNA或基因組DNA的雜交條件的嚴緊性,可以鑒定并分離與探針具有不同同源性水平的核酸。嚴緊性通過在低于探針的解鏈溫度的變化溫度下進行雜交來改變。解鏈溫度Tm是50%的靶序列與完全互補的探針雜交時的溫度(在確定的離子強度和PH下)。選擇非常嚴緊的條件,使其與特定探針的Tm相等,或比Tm低大約5°C。可以使用下述公式計算探針的解鏈溫度
對于長度在14到70個核苷酸的探針,使用如下公式計算解鏈溫度(Tm):Tm = 81.5 +16.6 (log[Na+])+0. 41 (G + C的比例分數)一(600/N),其中N是探針的長度。
如果雜交在含有甲酰胺的溶液中進行,解鏈溫度使用如下等式計算Tm = 81. 5+16.6(log[Na+] ) +0. 41 (G + C的比例分數)—(0. 63%甲酰胺)—(600/N),其中N是探針的長度。預雜交在6X SSC、5X DenhardtJ s試劑、0. 5%SDS、100 μ g變性的片段化鮭精DNA或6X SSC、5X Denhardt’ s試劑、0. 5%SDS、100 μ g變性的片段化鮭精DNA,50%甲酰胺中進行。SSC和Denhardt ’ s溶液的配方已在Sambrook等,supra中列出。一方面,雜交通過將可檢測探針加入到上面所列出的預雜交溶液中來進行。在探針包括雙鏈DNA的情況下,在加入到雜交溶液之前對探針變性。一方面,將濾膜與雜交溶液接觸充足的時間,以允許探針與含有與其互補的序列或與其同源的序列的cDNA或基因組DNA雜交。對于長度超過200個核苷酸的探針,雜交可以在比Tm低15_25°C的溫度進行。對于更短的探針,如寡核苷酸探針,雜交在比Tm低5-10°C的溫度進行。一方面,6X SSC中的雜交在大約68°C進行。通常,在含有50%甲酰胺的溶液中的雜交是在大約42°C進行的。
抑制纖維素酶的表達本發明提供了與本發明的核酸例如編碼纖維素酶的核酸互補的核酸(例如本發明的核酸的反義序列),例如包括反義序列、siRNA、miRNA、核酶的核酸。含有反義序列的本分明核酸能抑制編碼纖維素酶的基因的轉運、剪接或轉錄。抑制可通過將基因組DNA或信使RNA作為靶標來實現。作為靶標的核酸的轉錄或功能可以被抑制,例如通過雜交和/或切害I]。本發明提供的一組示例性的抑制劑包括寡核苷酸,這些寡核苷酸能結合纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶基因或信息,在兩種情況下都阻止或抑制纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶的產生或功能。結合可通過序列特異性雜交來完成。另一類有用的抑制劑包括引起纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的信息失活或切割的寡核苷酸。該寡核苷酸可具有引起此類切割的酶活性,如核酶。可以對寡核苷酸進行化學修飾,或與能切割互補核酸的酶或組分偶聯。可以對許多不同的這樣的寡核苷酸的庫進行篩選來尋找那些具有期望活性的寡核苷酸。因此,本發明提供了在核酸和/或蛋白水平抑制纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶表達的各種組合物,例如,含有本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶序列的反義序列、siRNA、miRNA和核酶,以及抗纖維素酶抗體,如本發明的抗內切葡聚糖酶抗體、抗纖維二糖水解酶抗體、抗甘露聚糖酶抗體和/或抗β -葡糖苷酶抗體。
纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶表達的抑制可以具有各種工業應用。例如,抑制纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶的表達可以減慢或防止變壞。一方面,本發明的抑制纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶的表達和/或活性的組合物的使用,例如抗體、反義寡核苷酸、核酶、siRNA和miRNA的使用,被用于減慢或防止變壞。因此,一方面,本發明提供了方法和組合物,包括將本發明的抗體、反義寡核苷酸、核酶、siRNA和miRNA應用于植物或者植物產品(如,谷物、谷粒、果實、種籽、根、葉等),以阻止或者延緩變壞。這些組分也可以由植物(如,轉基因植物)或者其它生物(如,用本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶的基因轉化的細菌或者其它微生物)表達。用于抑制纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶表達的本發明的組分(例如,反義序列、iRNA、核酶、抗體)可用作藥物組合物,例如,抗病原劑,或用在其它治療中,例如用作抗微生物劑,如用于沙門氏菌屬。
反義寡核苷酸本發明提供了能結合纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶信息的反義寡核苷酸,一方面,其能通過以mRNA作為靶標來抑制纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶活性。設計反義寡核苷酸的策略在科學和專利文獻中有很好的描述,技術人員能使用本發明的新試劑設計這樣的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶寡核苷酸。例如,篩選有效的反義寡核苷酸的基因步移/RNA作圖方法在本技術領域是熟知的,例如參見Ho (2000)Methods Enzymol. 314:168-183,該文獻描述了 RNA作圖分析法,該分析法是基于標準的分子技術,以提供用于有效的反義序列選擇的一種簡單且可靠的方法。也參見Smith(2000) Eur. J. Pharm. Sci. 11:191-198。自然發生的核酸被用作反義寡核苷酸。該反義寡核苷酸可以是任意長度;例如,在可選擇的方面,該反義寡核苷酸在大約5到100之間,大約10到80之間,大約15到60之間,大約18到40之間。最適長度可以通過常規篩選來決定。這些反義寡核苷酸可以以任意濃度存在。最適濃度可通過常規篩選來決定。廣泛種類的合成的、非天然發生的核苷酸和核酸類似物是已知的,它們可以解決這一潛在的問題。例如,可以使用含有非離子骨架的肽核酸(PNAs),如含有N-(2-氨基乙基)甘氨酸單元。也可以使用具有硫代磷酸酯鍵的反義寡核苷酸,正如在如下文獻中所描述的WO 97/03211 ;W0 96/39154 ;Mata (1997) ToxicolApplPharmacol144:189-197 ;Antisense Therapeutics, ed. Agrawal(Humana Press, Totowa, N.J.,1996)。正如上面所描述的,本發明提供的具有合成DNA骨架類似物的反義寡核苷酸也可以包括二硫代磷酸酯、甲基膦酸、氨基磷酸酯、烷基磷酸三酯、氨基磺酸酯、3’-硫代乙縮醛、亞甲基(甲基亞氨)、3' -N-氨基甲酸酯和嗎啉代氨基甲酸酯核酸。組合化學方法學可用于產生大量能被快速篩選特異性寡核苷酸的寡核苷酸,所述特異性寡核苷酸對任何靶標具有適當的結合親和性和特異性,例如本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶正義和反義序列(例如參見 Gold(1995)J. ,Biol. Chem. 270:13581-13584)。
抑制性核酶本發明提供了能結合纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶的信息的核酶。這些核酶能抑制纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶的活性,例如通過以mRNA作為靶標。設計核酶和選擇用于靶向的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶特異性反義序列的策略在科學和專利文獻中有很好的描述,熟練技術人員能使用本發明的新試劑來設計這樣的核酶。核酶通過核酶的靶RNA結合部分來與靶RNA結合,從而發揮作用,核酶的靶RNA結合部分與該RNA上切割靶RNA的酶促部分非常接近。這樣,通過互補的堿基配對,核酶識別和結合靶RNA,而且一旦結合于正確的位置,便以酶促活性作用來切割靶RNA和使其失活。如果切割發生在編碼序列中,以這樣的方式切割靶RNA將會破壞其引導合成編碼的蛋白的能力。核酶結合和切割其RNA靶之后,它可以從結合的RNA上釋放出來并且重復切割新的靶。在一些情況下,核酶的酶促性質會優于其它的技術,如反義技術(其中核酸分子僅結合于核酸靶來阻止其轉錄、翻譯或者與其它分子的聯系),因為實現治療效果所必要的核酶有效濃度可能低于反義寡聚核苷酸的濃度。這一潛在的優點反映出核酶可以以酶促方式進行作用的能力。因此,單個核酶分子可以切割靶RNA的多個分子。一方面,核酶是高度特異性的抑制物,其抑制作用的特異性不僅依賴于堿基配對的結合機制,也依賴于該分子抑制與其結合的RNA的表達的機制。即,所述抑制是由切割靶RNA引起的,因此特異性定義為靶RNA的切割率與非靶RNA的切割率的比值。除了涉及堿基配對的那些因素,這種切割機制還依賴于另外的因素。這樣,核酶作用的特異性比結合于同樣的RNA位點的反義寡聚核苷酸強。本發明的核酶,例如,具有酶活的核酶RNA分子,可以形成錘頭狀基序、發夾基序,如肝炎S病毒基序、I類內含子基序和/或與RNA引導序列(guide sequence)相聯系的 RNaseP 樣 RNA。銀頭狀基序的例子在如 Rossi (1992) Aids Research and HumanRetroviruses 8:183 中有說明;發夾基序在 Hampel (1989) Biochemistry 28:4929 和Hampel (1990) Nuc. Acids Res. 18:299 中有說明;肝炎 δ 病毒基序在 Perrotta (1992)Biochemistry 31:16 中有說明;RNaseP 基序在 Guetrier-Takada (1983) Cell 35:849 中有說明;1類內含子在Cech美國專利4,987,071中有說明。這些特定基序的引述并不是限制性的。本領域技術人員將認識到本發明的核酶,如,本發明的有酶活的RNA分子,可以有與一個或者多個靶基因的RNA區域互補的特異性底物結合位點。本發明的核酶可以在底物結合位點內或者其周圍具有賦予了該分子RNA切割活性的核苷酸序列。
RNA 干擾(RNAi )在一個方面,本發明提供了被稱為“RNAi”分子的RNA抑制性分子,其含有本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶序列。RNAi分子可以包括雙鏈RNA (dsRNA)分子,例如siRNA和/或miRNA。RNAi分子,例如siRNA和/或miRNA,可抑制纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶基因的表達。在一個方面,RNAi分子如siRNA和/或miRNA的長度大約為15、16、17、18、19、20、21、22、23、24、25或更多個核苷酸的雙鏈。本發明不限于任何特殊的作用機制,RNAi可進入細胞中,引起相似或相同序列的單鏈RNA(ssRNA)的降解,包括內源性mRNA。當 細胞暴露于雙鏈RNA (dsRNA)時,來自同源基因的mRNA被稱為RNA干擾(RNAi)的過程選擇性地降解。RNAi的一個可能的基本機制是將與特定的基因序列匹配的雙鏈RNA (dsRNA)打斷成為稱為短的干擾RNA的短的碎片,它可觸發與其序列匹配的mRNA的降解。在一個方面,本發明的RNAi可用于基因沉默(gene-silencing)療法中,見,例如Shuey (2002)DrugDiscov. Today 7:1040-1046。在一個方面,本發明提供了使用本發明的RNAi如siRNA和/或miRNA選擇性降解RNA的方法。該過程可在體外、離體或體內實施。在一個方面,本發明的RNAi分子可用來在細胞、器官或動物中產生喪失功能的突變。制備和應用可選擇性降解RNA的RNAi分子如siRNA和/或miRNA的方法在本領域中是為人所熟知的,見,例如美國專利 6,506,559; 6, 511,824; 6, 515,109; 6, 489,127。
核酸的修飾——制備本發明的酶變體本發明提供了產生本發明的核酸的變體的方法,所述本發明的核酸例如那些編碼纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶的核酸。這些方法可以被重復或者以多種組合使用,以產生具有與模板核酸編碼的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶有所改變的或不同的活性或有所改變的或不同的穩定性的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶。這些方法也可以被重復或以多種組合使用,從而例如在基因/信息表達、信息翻譯或信息穩定性方面產生變化。另一方面,細胞的遺傳組成可以被改變,例如通過同源基因的離體修飾,隨后再將其插入到細胞中。例如,一方面,本發明提供了分離的或重組的核酸,其具有包含SEQ ID NO: 163的至少一個核苷酸堿基殘基修飾的序列,其中所述修飾包括下列改變的一個或多個位置265至267的任何一處的核苷酸被修飾為CGT、CGC、CGA、CGG、AGA或AGG ;位置307至309的任何一處的核苷酸被修飾為GGT、GGC、GGA或GGG ;位置328至330的任何一處的核苷酸被修飾為GGT、GGC、GGA或GGG ;位置340至342的任何一處的核苷酸被修飾為TTA、TTG、CTT、CTC、CTA或CTG ;位置469至471的任何一處的核苷酸被修飾為TCT、TCC、TCA、TCG、AGT或AGC ;位置1441至1443的任何一處的核苷酸被修飾為TTT或TTC ;位置1648至1650的任何一處的核苷酸被修飾為AAT或AAC ;或者,位置1768至1770的任何一處的核苷酸被修飾為CGT、CGC、CGA、CGG、AGA或AGG。另一方面,本發明提供了分離的或重組的多肽,其具有包含SEQ ID NO: 164的至少一個氨基酸殘基修飾的序列,其中所述修飾包括下列改變的一個或多個氨基酸位置89的甲硫氨酸被修飾為精氨酸;氨基酸位置103的苯丙氨酸被修飾為甘氨酸;氨基酸位置110的脯氨酸被修飾為甘氨酸;氨基酸位置114的酪氨酸被修飾為亮氨酸;氨基酸位置157的丙氨酸被修飾為絲氨酸;氨基酸位置481的色氨酸被修飾為苯丙氨酸;氨基酸位置550的脯氨酸被修飾為天冬酰胺;或者,氨基酸位置590的甘氨酸被修飾為精氨酸。另一方面,本發明提供了分離的或重組的核酸,其具有包含本發明的示例性序列(例如,SEQ ID NO:1、SEQ ID NO:3,SEQ ID NO:5,SEQ ID NO:7,SEQ ID N0:9、SEQ ID NO:11等等)的核苷酸殘基序列修飾的序列,其中所述修飾包括下列改變的一個或多個SEQ IDNO: 163的位置265至267的任何一處的相當位置的核苷酸變為CGT、CGC、CGA、CGG、AGA或AGG ;SEQ ID NO: 163的位置307至309的任何一處的相當位置的核苷酸變為GGT、GGC、GGA或GGG ;SEQ ID NO: 163的位置328至330的任何一處的相當位置的核苷酸變為GGT、GGC、·GGA或GGG;SEQ ID NO: 163的位置340至342的任何一處的相當位置的核苷酸變為TTA、TTG、CTT、CTC、CTA或CTG ;SEQ ID NO: 163的位置469至471的任何一處的相當位置的核苷酸變為TCT、TCC、TCA、TCG、AGT或AGC ;SEQ ID NO: 163的位置1441至1443的相當位置的核苷酸變為TTT或TTC ;SEQ ID NO: 163的位置1648至1650的任何一處的相當位置的核苷酸變為AAT或AAC ;或者,SEQ ID NO: 163的位置1768至1770的任何一處的相當位置的核苷酸變為CGT、CGC、CGA、CGG、AGA或AGG。另一方面,本發明提供了分離的或重組的核酸,其具有包含本發明的任何核酸的核苷酸殘基序列修飾的序列,其中所述修飾包括下列改變的一個或多個SEQ ID NO: 163的位置265至267的任何一處的相當位置的核苷酸變為CGT、CGC、CGA、CGG、AGA或AGG ;SEQ ID NO: 163的位置307至309的任何一處的相當位置的核苷酸變為GGT、GGC、GGA或GGG ;SEQ ID NO: 163的位置328至330的任何一處的相當位置的核苷酸變為GGT、GGC、GGA或GGG ;SEQ ID NO: 163的位置340至342的任何一處的相當位置的核苷酸變為TTA、TTG、CTT、CTC、CTA或CTG ;SEQ ID NO: 163的位置469至471的任何一處的相當位置的核苷酸變為TCT、TCC、TCA、TCG、AGT或AGC ;SEQ ID NO: 163的位置1441至1443的相當位置的核苷酸變為TTT或TTC ;SEQ ID NO: 163的位置1648至1650的任何一處的相當位置的核苷酸變為AAT或AAC ;或者,SEQ ID NO: 163的位置1768至1770的任何一處的相當位置的核苷酸變為CGT、CGC、CGA、CGG、AGA或AGG。另一方面,本發明提供了分離的或重組的多肽,其具有包含本發明的示例性序列(例如,SEQ ID NO:2, SEQ ID NO:4、SEQ ID NO:6, SEQ ID NO:8, SEQ ID N0:10 等等)的氨基酸殘基修飾的序列,其中所述修飾包括下列改變的一個或多個SEQ ID NO: 164的氨基酸位置89的甲硫氨酸相當的氨基酸變為精氨酸;SEQ ID NO: 164的氨基酸位置103的苯丙氨酸相當的氨基酸變為甘氨酸;SEQ ID NO: 164的氨基酸位置110的脯氨酸相當的氨基酸變為甘氨酸;SEQ ID NO: 164的氨基酸位置114的酪氨酸相當的氨基酸變為亮氨酸;SEQ IDNO: 164的氨基酸位置157的丙氨酸相當的氨基酸變為絲氨酸;SEQ IDNO: 164的氨基酸位置481的色氨酸相當的氨基酸變為苯丙氨酸;SEQ ID NO: 164的氨基酸位置550的脯氨酸相當的氨基酸變為天冬酰胺;或者,SEQ ID NO: 164的氨基酸位置590的甘氨酸相當的氨基酸變為精氨酸。
另一方面,本發明提供了分離的或重組的多肽,其具有包含本發明的任何多肽的氨基酸殘基修飾的序列,其中所述修飾包括下列改變的一個或多個SEQ ID NO: 164的氨基酸位置89的甲硫氨酸相當的氨基酸變為精氨酸;SEQ ID NO: 164的氨基酸位置103的苯丙氨酸相當的氨基酸變為甘氨酸;SEQ ID NO: 164的氨基酸位置110的脯氨酸相當的氨基酸變為甘氨酸;SEQ ID NO: 164的氨基酸位置114的酪氨酸相當的氨基酸變為亮氨酸;SEQ IDNO: 164的氨基酸位置157的丙氨酸相當的氨基酸變為絲氨酸;SEQ ID NO: 164的氨基酸位置481的色氨酸相當的氨基酸變為苯丙氨酸;SEQ ID NO: 164的氨基酸位置550的脯氨酸相當的氨基酸變為天冬酰胺;或者,SEQ ID NO: 164的氨基酸位置590的甘氨酸相當的氨基酸變為精氨酸。本發明的核酸可以通過任何方法來改變。例如,隨機(random或stochastic)方法、或者非隨機、或者“定向進化”的方法,參見如,美國專利6,361,974。基因的隨機突變方法在本領域是已知的,參見如,美國專利5,830, 696。例如,可以應用突變劑來對基因進行隨機突變。突變劑包括,如,紫外線或者Y輻射,或者化學誘變劑,如,絲裂霉素,亞硝酸,光活化的補骨脂內酯,它們單獨使用或者組合使用來誘導DNA的斷裂,其可以通過重組被修復。另外的化學誘變劑包括,如,亞硫酸氫鈉、亞硝酸、羥胺、肼或者甲酸。其它的誘變劑是核苷酸前體的類似物,如,亞硝基胍、5-溴尿嘧啶、2-氨基嘌呤或者吖啶。這些試劑可以加入到PCR反應中替換核苷酸前體,從而突變該序列。也可以應用嵌入試劑如普羅黃素、吖啶黃、奎納克林和類似物。可以應用分子生物學上的任何技術,如隨機PCR誘變,參見,如,Rice (1992)Proc.Natl. Acad. Sci. USA 89:5467-5471 ;或者組合式多重盒式誘變,參見如,Crameri (1995)Biotechinques 18:194-196。可選擇地,核酸,如基因,可以在隨機片段化后重新裝配,參見,如,美國專利 6,291,242 ;6,287,862 ;6,287,861 ;5,955,358 ;5,830,721 ;5,824,514,5,811,238 ;5,605,793.。在可選擇的方面,修飾、增加或者刪除可以通過易錯PCR、改組、寡核苷酸誘導的定點突變、裝配PCR、有性PCR誘變、體內誘變、盒式誘變、遞歸整體誘變、指數整體突變、位點專一性誘變、基因再裝配、基因位點飽和誘變(GSSM)、合成連接重裝配(SLR)、重組、遞歸序列重組(recursive sequence recombination)、硫代磷酸酯修飾的DNA誘變、含有尿卩密唳模板的誘變、缺口雙重誘變(gapped dup I ex mutagenesi s )、點錯配修復誘變(point mismatch repair mutagenesis)、修復缺陷型宿主株誘變、化學誘變、放射誘變、缺失誘變、限制選擇誘變(restrict ion-select ion mutagenesis)、限制純化誘變(restriction-purification mutagenesis)、人工基因合成、整體誘變、嵌合核酸多聚體生成、染色體飽和誘變(CSM)和/或者這些方法和其它方法的組合產生。以下的出版物描述了可以整入到本發明的方法中的各種遞歸重組程序和/或方 Stemmer(1999Molecular breeding of viruses for targeting and other clinical
properties,,Tumor Targeting 4:1-4 ;Ness (1999) Nature Biotechnology 17:893-896 ;Chang (1999) “Evolution of a cytokine using DNA family shuffling” NatureBiotechnology 17:793-797 ;Minshull (1999) “Protein evolution by molecularbreeding,,Current Opinion in Chemical Biology 3:284-290 ;Christians (1999)“Directed evolution of thymidine kinase for AZT phosphorylation using DNAfamily ShufflingnNature Biotechnology 17:259-264 ;Crameri (1998)iiDNA shufflingof a family of genes from diverse species accelerates directed evolutionnNature391:288-291 ;Crameri (1997) “Molecular evolution of an arsenate detoxificationpathway by DNA shuffling” Nature Biotechnology 15:436-438 ;Zhang ( 1997)uDirected-evoIution of an effective fucosidase from a galactosidase by DNAshuffling and screening,,Proc. Natl. Acad. Sci. USA 94:4504-4509 ;Patten 等(1997)“Applications of DNA Shuffling to Pharmaceuticals and Vaccines’’Current Opinionin Biotechnology 8:724-733 ;Crameri 等(1996) “Construction and evolution ofantibody-phage libraries by DNA shuffling”Nature Medicine 2:100-103 ;Gates 等(1996)“Affinity selective isolation of ligands from peptide libraries throughdisplay on a lac repressor’headpiece dimer’ ,,Journal of Molecular Biology255:373-386 ;Stemmer (1996) “Sexual PCR andAssembly PCR”In:The Encyclopedia ofMolecular Biology. VCH Publishers, New York. 447-457 頁;Crameri 和 Stemmer (1995)“Combinatorial multiple cassette mutagenesis creates all the permutations of mutant and wildtype cassettes^BioTechniques 18:194-195 ;Stemmer 等(1995)“Single-step assembly of a gene and entire plasmid form large numbers of oIigodeoxyribonucleotides^Genej 164:49-53 ;Stemmer ( 1995) “The Evolution ofMolecular Computation,,Science 270:1510 ;Stemmer (1995) “Searching SequenceSpace,,Bio/Technology 13:549-553 ;Stemmer (1994) “Rapid evolution of a proteinin vitro by DNA shuffling”Nature 370:389-391 ;和 Stemmer (1994) “DNA shufflingby random fragmentation and reassembly:In vitro recombination for molecularevolution” Proc. Natl. Acad. Sci. USA 91:10747-10751。產生多樣性的突變方法包括,例如,定點誘變(Ling等.(1997) "Approachesto DNAmutagenesis:an overview” Anal Biochem. 254 (2):157-178 ;Dale 等(1996)uOligonucIeotide-directed random mutagenesis using the phosphorothioatemethod”Methods Mol. Biol. 57: 369-374 ;Smith (1985) “In vitro mutagenesis” Ann.Rev. Genet. 19:423-462 ;Botstein&Shortle (1985) “Strategies and applicationsof in vitro mutagenesis”Science 229:1193-1201 ;Carter (1986) “Site-directedmutagenesis”Biochem.J. 237:1-7 ;和 Kunkel ( 1987) “The efficiency ofoligonucleotide directed mutagenesis” 在 Nucleic Acids&Molecular Biology(Eckstein, F.和 Lilley,D. M. J. eds.,SpringerVerlagj Berlin));使用含有尿啼唳的模板的誘變(Kunkel (1985) “Rapid and efficient site-specific mutagenesiswithout phenotypic selection” Proc. Natl. Acad. Sci. USA 82: 488-492 ;KunkeI 等(1987) “Rapid and efficient site-specific mutagenesis without phenotypicselection’^Methods in Enzymol. 154,367-382 ;和 Bass 等(1988 )“Mutant Trp repressorswith new DNA-binding specificities” Science 242:240-245);寡核苷酸誘導的定點誘變(Methods in Enzymol. 100:468-500 (1983) ;Methods in Enzymol. 154:329-350(1987) ;Zoller (1982) “Oligonucleotide-directed mutagenesis using M 13-derivedvectors:an efficient and general procedure for the production of pointmutations in any DNA fragment,,Nucleic Acids Res. 10:6487-6500 ;Zoller&Smith(1983) “Oligonucleotide-directed mutagenesis of DNA fragments cloned into M13vectors Methods in Enzymol. 100:468-500 和 Zoller (1987)01igonucleotide_directedmutagenesis:a simple method using two oligonucleotide primers and asingle-stranded DNA template ^Methods in Enzymol. 154:329-350);硫代憐酸酯修飾的DNA 誘變(Taylor (1985)“The use of phosphorothioate-modified DNA in restrictionenzyme reactions to prepare nicked DNA,,NucI. Acids Res. 13:8749-8764 ;Taylor(1985) “The rapid generation of oligonucleotide-directed mutations at highfrequency using phosphorothioate-modified DNA” NucI. Acids Res. 13:8765-8787
(1985);Nakamaye (1986) “Inhibition of restriction endonuclease Nci I cleavageby phosphorothioate groups and its application to oligonucleotide-directedmutagenesis” Nucl.Acids Res. 14:9679-9698 ;Sayers (1988) “Y_T Exonucleasesin phosphorothioate-based oligonucleotide-directed mutagenesis,,Nucl.Asids Res. 16:791-802 ;和 Sayers 等(1988) “Strand specific cleavage of phosphorothioate-containing DNA by reaction with restriction endonucleasesin the presence of ethidiumbromide” Nucl. Acids Res. 16:803-814);使用缺口雙鏈體 DNA 的誘變(Kramer 等(1984) “The gapped duplex DNA approach tooligonucleotide-directed mutation construction,,Nucl. Acids Res. 12:9441-9456 ;Kramer&FritzC1987)Methods in Enzymol. uOligonucleotide-directed construction ofmutations via gapped duplex DNA,,154:350-367 ;Kramer( 1988)“ Improved enzymatic invitro reactions in the gapped duplex DNA approach to oligonucleotide-directedconstruction of mutations” Nucl. Acids Res. 16:7207 ;和 Fritz ( 1988)“Oligonucleotide-directed construction of mutations:a gapped duplex DNAprocedure without enzymatic reactions in vitro”Nucl. Acids Res. 16:6987-6999)。可以用于實踐本發明的另外的實驗方案包括點錯配修復(Kramer (1984) “PointMismatch Repair” Cell 38:879-887),應用修復缺陷型宿主株的誘變(Carter 等(1985)“Improved oligonucleotide site-directed mutagenesis using M13 vectors,,Nucl.Acids Res. 13 :4431_4443 和 Carter (1987) “Improved oligonucleotide-directedmutagenesis using M13 vectors,,Methods in Enzymol. 154:382-403), 缺失誘變(Eghtedarzadeh (1986) “Use of oligonucleotides to generate largedeletions^Nucl. Acids Res. 14:5115),限制-選擇和限制-純化(Wells 等(1986)“Importance of hydrogen-bond formation in stabilizing the transition state ofsubtilisin” Phil. Trans. R. Soc. Lond. A 317:415-423),通過全基因合成的誘變(Nambiar等(1984) “Total synthesis and cloning of a gene coding for the ribonucleaseS protein” Science 223:1299-1301 ;Sakamar 和 Khorana (1988) “Total synthesisand expression of a gene for the a—subunit of bovine rod outer segmentguanine nucleotide-binding protein (transducin),,Nucl. Acids Res. 14:6361-6372 ;WelIs 等(1985) “Cassette mutagenesis:an efficient method for generationof multiple mutations at defined sites,,Gene 34:315-323 和 Grundstrom 等(1985) iiOligonucIeotide-directed mutagenesis by microscale ‘shot-gun’ genesynthesis^Nucl. Acids Res. 13:3305-3316),雙鏈斷裂修復(Mandecki (1986),Arnold(1993) “Protein engineering for unusual environments,,Current Opinion inBiotechnology 4:450-455. “Oligonucleotide-directed double-strand break repairin plasmids of Escherichia coli:a method for site-specific mutagenesis,,Proc.Natl. Acad. Sci. USA,83:7177-7181)。很多以上的方法的另外的細節在Methods inEnzymology的154卷中有說明,其中也描述了用于解決各種誘變方法中所會遇到的問題的有用策略。在例如下列的文件中描述了可以用于實踐本發明的實驗方案,如Stemmei'的美國專利 5,605,793 (1997. 2. 25),“Methods for In Vitro Recombination” ;Stemmer 等的美國專利 5,811,238 (1998. 9. 22) “Methods for Generating Polynucleotides havingDesired Characteristics by Iterative Selection and Recombination,,;Stemmer 等的美國專利 5,830,721 (1998. 11. 3),“DNA Mutagenesis by Random Fragmentati on andReassembly” ;Stemmer 等的美國專利 5,834,252 (1998. 11. 10),“End-ComplementaryPolymerase Reaction” ;Minshull 等的美國專利 5,837,458 (1998.11. 17) “Methodsand Compositions for Cellular and Metabolic Engineering,,;W0 95/22625,Stemmer和 Crameri,“Mutagenesis by Random Fragmentation and Reassembly” ;W0 96/33207,Stemmer 和 Lipschutz,“End Complementary Polymerase Chain Reaction,,;W0 97/20078,Stemmer 和 Crameri 的“Methods for Generating Polynucleotides having DesiredCharacteristics by Iterative Selection and Recombination,,;W0 97/35966,Minshull 和 Stemmer,“Methods and Compositions for Cellular and MetabolicEngineerin’’;W0 99/41402,Punnonen 等,“Targeting of Genetic Vaccine Vectors” ;W099/41383,Punnonen 等,“Antigen Library Immunization” ;W0 99/41369,Punnonen 等,“Genetic Vaccine Vector Engineering” ;W0 99/41368,Punnonen 等,“Optimization ofImmunomodulatory Properties of Genetic Vaccines” ;EP 752008,Stemmer 和 Crameri,“DNA Mutagenesis by Random Fragmentation and Reassembly,,;EP 0932670,Stemmer,“Evolving Cellular DNA Uptake by Recursive Sequence Recombination, ;W0 99/23107,Stemmer 等,“Modification of Virus Tropism and Host Range by Viral GenomeShuffling” ;W0 99/21979,Apt 等,“Human Papillomavirus Vectors” ;W0 98/31837,del Cardayre 等,“Evolution of Whole Cells and Organisms by Recursive SequenceRecombination” ;W0 98/27230,Patten 和 Stemmer,“Methods and Compositions forPolypeptide Engineering” ;W0 98/27230,Stemmer 等,“Methods for Optimizationof Gene Therapy by Recursive Sequence Shuffling and Selection,,;W0 00/00632,“Methods for Generating Highly Diverse Libraries” ;W0 00/09679,“Methods forObtaining in Vitro Recombined Polynucleotide Sequence Banks and ResultingSequences” ;W0 98/42832, Arnold 等,“Polynucleotide Sequences Using Random orDefined Primers”;W0 99/29902,Arnold 等,“Method for Creating Polynucleotide andPolypeptide Sequences”;W098/41653,Vind,“An in Vitro Method for Construction ofa DNA Library”;W098/41622,Borchert 等,“Method for Constructing a Library UsingDNA Shuffling”;以及 WO 98/42727, Pati 和 Zarl ing, “Sequence Alterations usingHomologous Recombination,,。在例如下列的文件中描述了可以用于實踐本發明的方案(提供了關于產生不同多樣性的方法的細節),如美國專利申請系列號(USSN) 09/407, 800,Patten等的“SHUFFLINGOF C0D0NALTERED GENES”,于 1999 年 9 月 28 日提交;del Cardayre 等的 “EVOLUTIONOF WHOLE CELLS AND ORGANISMS BY RECURSIVE SEQUENCE RECOMBINATION”,美國專利6,379,964 ;Crameri 等的 “OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION”,美國專利 6,319,714 ;6, 368,861 ;6, 376,246 ;6, 423,542 ;6, 426,224 和 PCT/US00/01203 ;Welch 等的“USE OF ⑶DON-VARIED OLIGONUCLEOTIDE SYNTHESIS FOR SYNTHETICSHUFFLING”,美國專利 6,436,675 ;Selifonov 等的 “METHODS FOR MAKING CHARACTERSTRINGS, POLYNUCLEOTIDES &P0LYPEPTIDES HAVING DESIRED CHARACTERISTICS”,2000 年I 月 18 日提交,(PCT/US00/01202)和,如 Selifonov 等的“METHODS FOR MAKING CHARACTERSTRINGS, POLYNUCLEOTIDES &POLYPEPTIDES HAVING DESIRED CHARACTERISTICS”,2000年7月 18 日提交,(美國系列號 09/618,579);Selifonov和 Stemmer 的“METHODS OF POPULATINGDATA STRUCTURES FOR USE IN EVOLUTIONARY SMULATIONS”,2000 年 I 月 18 日提交(PCT/ US00/01138),和 Affholter 的“SINGLE-STRANDED NUCLEIC ACID TEMPLATE-MEDIATEDRECOMBINATION AND NUCLEIC ACID FRAGMENT ISOLATION”,2000年 9 月 6 日提交(美國系列號 09/656,549),和美國專利 6,177,263 ;6,153,410。非隨機或“定向進化”方法包括,例如飽和誘變如基因位點飽和誘變(GSSM )、合成連接重裝配(SLR)或其組合,它們被用于修飾本發明的核酸,以產生具有新的或改變的特性(例如在高度酸性或堿性條件下的活性,在高溫或低溫的活性,等等)的纖維素酶,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶。由修飾的核酸編碼的多肽可以在測試葡聚糖水解或其它活性之前被篩選活性。可以使用任何形式或實驗方案,例如使用毛細管陣列平臺。例如參見美國專利6,361,974 ;6,280,926 ;5,939,250。
基因位點飽和誘變或GSSM本發明提供了使用基因位點飽和誘變或GSSM制備酶的方法,如在本文中以及美國專利6,171,820和6,579,258所述的。一方面,含有簡并N, N, G/T序列的密碼子引物被用于將點突變引入多核苷酸中,例如纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶或本發明的抗體,以便產生一組子代多肽,其中在每一氨基酸位置上可表現出全范圍的單氨基酸取代,取代發生的位置例如酶活性位點中的氨基酸殘基,或將要被修飾的配體結合位點。這些寡核苷酸可以包括相鄰的第一同源序列,簡并N,N, G/T序列,和任選地第二同源序列。由使用這些寡核苷酸而得到的下游子代翻譯產物包含沿著多肽的每一氨基酸位點上的所有可能的氨基酸變化,這是由于N,N, G/T序列的簡并性包括了所有20個氨基酸的密碼子。一方面,一個這樣的簡并寡核苷酸(例如包括一個簡并N,N, G/T序列盒)被用于使親本多核苷酸模板中的每一原始密碼子進行完全范圍的密碼子取代。另一方面,使用至少兩個簡并序列盒,或在相同的寡核苷酸中或不同的寡核苷酸中,用于使親本多核苷酸模板中的至少兩個原始密碼子進行完全范圍的密碼子取代。例如,一個寡核苷酸中可以包含一個以上N,N, G/T序列,以便在多于一個的位點上引入氨基酸突變。這些多個N, N, G/T序列可以直接相鄰,或由一個或多個額外的核苷酸序列分隔開。另一方面,用于弓I入插入和刪除的寡核苷酸可以單獨使用,或者與含有N,N, G/T序列的密碼子組合使用,以便引入氨基酸插入、刪除和/或取代的任何排列組合。一方面,兩個或更多個連續氨基酸位置的同時誘變是使用含有相鄰N,N, G/T三聯體的寡核苷酸進行的,即簡并(N,N, G/T) η序列。另一方面,使用與N,N, G/T序列相比具有較低簡并性的簡并序列盒。例如,在一些情況下,可能期望(例如,在寡核苷酸中)使用僅包括一個N的簡并三聯體序列,其中所述的N可以在三聯體的第一、第二或第三位置上。在該三聯體的剩余兩個位置上,可以使用包括任意排列組合的任何其它堿基。可以選擇地,在一些情況下可能期望使用(例如在寡聚體中)簡并N,N, N三聯體序列。一方面,使用簡并三聯體(例如N,N, G/T三聯體)允許在多肽中的每一和每個氨基酸位置上系統且容易地產生完全范圍的可能的天然氨基酸(總共20種氨基酸)(在可以選擇的方面,這些方法也包括在每一氨基酸殘基或密碼子、位置產生低于所有可能種類的取代)。例如,對于100個氨基酸的多肽,可以產生2000個不同種類(即每個位置上的20種可能氨基酸X 100個氨基酸位置)。通過使用含有簡并N,N, G/T三聯體的寡核苷酸或一組寡 核苷酸,32種不同序列可編碼所有20種可能的天然氨基酸。因此,在其中使用至少一種這樣的寡核苷酸對親本多核苷酸序列進行飽和誘變的反應容器中,產生了編碼20種不同多肽的32種不同的子代多核苷酸。相反,在定點誘變中使用非簡并寡核苷酸在每個反應容器中僅僅導致一種子代多肽。非簡并寡核苷酸可以任選地與所公開的簡并引物組合使用;例如,非簡并寡核苷酸可以被用于在工作多核苷酸中產生特異性點突變。這提供了產生特異性沉默點突變、導致相應的氨基酸變化的點突變、以及導致產生終止密碼子和多肽片段的相應表達的手段。一方面,每一飽和誘變反應容器含有編碼至少20種子代多肽(例如纖維素酶,如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶)分子的多核苷酸,以便所有的20種天然氨基酸都會出現在對應于親本多核苷酸中被誘變的密碼子位置的特定氨基酸位置(其它方面使用了少于20個天然的組合)。從每一飽和誘變反應容器產生的32倍簡并的子代多肽可以被克隆擴增(例如使用表達載體克隆到合適的宿主中,例如大腸桿菌宿主中),并進行表達篩選。當單個子代多肽通過篩選鑒定,顯示出有利的特性變化時(當與親本多肽相比時,如在堿性或酸性條件下增高的葡聚糖水解活性),可以對其測序以鑒定其中所含的相應的有利氨基酸取代。一方面,如本文所公開的,應用飽和誘變對親本多肽的各個和所有的氨基酸位置進行誘變后,可以在超過一個的氨基酸位置確定出的有利的氨基酸變化。可以產生一個或多個新的子代分子,其含有所有或部分這些有利的氨基酸取代的組合。例如,如果在多肽的3個氨基酸位置的每一個氨基酸位置處鑒定出2個特異的有利的氨基酸變化,那么出現的排列就包括每一位置上的3種可能性(與原始氨基酸沒有變化的可能性,以及兩個有利變化中的每一個的可能性)和3個位置。因此,總共有3X3X3或27種可能性,其中包括了先前被檢驗的7種可能性,即6個單點突變(即三個位置的每一個位置有2個)和在任何位置上沒有變化的點突變。另一方面,位點飽和誘變可以與改組、嵌合、重組和其它誘變方法以及篩選一起使用。本發明提供了以反復的方式使用任何誘變方法,包括飽和誘變。在一個實例中,任何誘變方法的反復使用結合篩選使用。
本發明還提供了使用專有密碼子引物(含有簡并N,N,N序列)將點突變引入多核苷酸中,以便產生一組子代多肽,其中在每一氨基酸位置上可表現出全范圍的單氨基酸取代(基因位點飽和誘變(GSSM))。這些寡聚體包括相鄰的第一同源序列,簡并N,N,N序列,以及一方面不必須包括第二同源序列。由使用這些寡聚體而得到的下游子代翻譯產物包含沿著多肽的每一氨基酸位點上的所有可能的氨基酸變化,這是由于N,N,N序列的簡并性包括了所有20個氨基酸的密碼子。一方面,一個這樣的簡并寡聚體(包括一個簡并N, N, N序列盒)被用于使親本多核苷酸模板中的每一原始密碼子進行完全范圍的密碼子取代。另一方面,使用至少兩個簡并N, N, N序列盒,或在相同的寡聚體中或不同的寡聚體中,用于使親本多核苷酸模板中的至少兩個原始密碼子進行完全范圍的密碼子取代。因此,一個寡聚體中可以包含一個以上N,N, N序列,以便在多于一個的位點上引入氨基酸突變。這些多個N,N,N序列可以直接相鄰,或由一個或多個額外的核苷酸序列分隔開。另一方面,用于引入插入和刪除的寡聚體可以單獨使用,或者與含有N,N,N序列的密碼子組合使用,以便引入氨基酸插入、刪除和/或取代的任何排列組合。·
一方面,使用含有相鄰N, N, N三聯體的寡聚體,即簡并(N, N, N)n序列,進行兩個或更多個連續氨基酸位置的同時誘變是可能的。另一方面,本發明提供了使用與N,N,N序列相比具有較低簡并性的簡并序列盒。例如,在一些情況下可能期望使用(例如在寡聚體中)僅包括一個N的簡并三聯體序列,其中所述的N可以在三聯體的第一、第二或第三位置上。在三聯體的剩余兩個位置上,可以使用包括任意排列組合的任何其它堿基。可以選擇地,在一些情況下可能期望使用(例如在寡聚體中)簡并N,N, N三聯體序列、N, N, G/T或N,N, G/C三聯體序列。一方面,由于若干個原因,使用簡并三聯體(例如N,N, G/T或N,N, G/C三聯體序列)是有利的。一方面,本發明提供了在多肽中的每一和每個氨基酸位置上系統且相對容易地產生完全范圍的可能的天然氨基酸(總共20種氨基酸)的取代的方法。因此,對于100個氨基酸的多肽,本發明提供了系統且相對容易地產生產生2000個不同種類(即每個位置上的20種可能氨基酸X 100個氨基酸位置)的方法。可以理解,通過使用含有簡并N,N,G/T或N, N, G/C三聯體序列的寡聚體,32種不同序列可編碼所有20種可能的天然氨基酸。因此,在其中使用至少一種這樣的寡聚體對親本多核苷酸序列進行飽和誘變的反應容器中,產生了編碼20種不同多肽的32種不同的子代多核苷酸。相反,在定點誘變中使用非簡并寡聚體在每個反應容器中僅僅導致一種子代多肽。本發明還提供了非簡并寡聚體的使用,其可以任選地與所公開的簡并引物組合使用。可以理解,在一些情況中,使用非簡并寡聚體在工作多核苷酸中產生特異性點突變是有利的。本發明提供了產生特異性沉默點突變、導致相應的氨基酸變化的點突變、以及導致產生終止密碼子和多肽片段的相應表達的手段。因此,在本發明的一方面,每一飽和誘變反應容器含有編碼至少20種子代多肽分子的多核苷酸,以便所有的20種天然氨基酸都會出現在對應于親本多核苷酸中被誘變的密碼子位置的特定氨基酸位置。從每一飽和誘變反應容器產生的32倍簡并的子代多肽可以被克隆擴增(例如使用表達載體克隆到合適的大腸桿菌宿主中),并進行表達篩選。當單個子代多肽通過篩選鑒定,顯示出有利的特性變化時(當與親本多肽相比時),可以對其測序以鑒定其中所含的相應的有利氨基酸取代。一方面,如本文所公開的,應用飽和誘變對親本多肽的各個和所有的氨基酸位置進行誘變后,可以在超過一個的氨基酸位置確定出的有利的氨基酸變化。可以產生一個或多個新的子代分子,其含有所有或部分這些有利的氨基酸取代的組合。例如,如果在多肽的3個氨基酸位置的每一個氨基酸位置處鑒定出2個特異的有利的氨基酸變化,那么出現的排列就包括每一位置上的3種可能性(與原始氨基酸沒有變化的可能性,以及兩個有利變化中的每一個的可能性)和3個位置。因此,總共有3X3X3或27種可能性,其中包括了先前被檢驗的7種可能性,即6個單點突變(即三個位置的每一個位置有2個)和在任何位置上沒有變化的點突變。本發明提供了結合另外的誘變方法使用飽和誘變,例如其中兩個或更多個相關多核苷酸被引入合適的宿主細胞的方法,以便通過重組和還原性重配產生雜合多核苷酸。除了沿著基因的全序列進行誘變之外,本發明提供了 誘變可用于取代多核苷酸序列中任意數量的堿基的每一個,其中待被誘變的堿基的數量在一個方面為從15至 100, 000中的每一個整數。因此,并不是沿著分子誘變每一個位置,可以對每一個或獨立數目的堿基(在一個方面為總共15至100,000的亞組)進行誘變。一方面,單獨的核苷酸被用于沿著多核苷酸序列誘變每一個位置或一組位置。待被誘變的3個位置可以是密碼子。使用誘變引物可以引入突變,該誘變引物含有異源序列盒,也稱為誘變序列盒。示例性的序列盒可以具有I至500個堿基。在這樣的異源序列盒中每一個核苷酸位置可以是N、A、C、G、T、A/C、A/G、A/T、C/G、C/T、G/T、C/G/T、A/G/T、A/C/T、A/C/G 或 E,其中 E 是非 A、C、G 或 T的任何堿基(E可以被稱為設計寡聚體(designer oligo))。一方面,飽和誘變包括誘變有待誘變的限定多核苷酸序列(其中待誘變的序列長度一方面為約15至100,000個堿基)中的一整組誘變序列盒(其中每一個序列盒的長度一方面為約1-500個堿基)。因此,一組突變(從I至100個突變)被引入每一個待誘變的序列盒。在應用一輪飽和誘變的過程中,一組待被引入到一個序列盒的突變可以與第二組待被引入到第二個序列盒的突變不同或相同。這樣的分組通過缺失、插入、特定密碼子的分組以及特定核苷酸序列盒的分組加以例示。一方面,待被誘變的限定序列包括全基因、通路、cDNA、整個開放閱讀框(ORF)以及整個啟動子、增強子、阻抑物/反式激活蛋白、復制原點、內含子、操縱子或任何多核苷酸功能組。通常,為了此目的,“限定序列(defined sequence)”可以是15堿基多核苷酸序列的任何多核苷酸以及長度在15個堿基和15,000個堿基的多核苷酸序列(本發明特別指出中間的每一個整數)。選擇密碼子分組時的考慮因素包括由簡并誘變序列盒編碼的氨基酸類型。—方面,可被引入到誘變序列盒中的突變分組,本發明特別提供了在每一個位置編碼 2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19 和 20 種氨基酸的簡并密碼子取代(使用簡并寡聚體)以及由此編碼的多肽文庫。
合成連接重裝配(SLR)本發明提供了非隨機的基因修飾系統,命名為“合成連接重裝配”或簡單地稱作“SLR”,這是一種“定向進化方法”,可以產生具有新的或改變的特性的多肽,例如本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶或本發明的抗體。SLR是將寡核苷酸片段非隨機地連接在一起的一種方法。該方法與隨機寡核苷酸改組不同的地方在于,核酸構件(building blocks)沒有被隨意地改組、連接或嵌合,而是被非隨機地裝配。例如參見美國專利 6,773,900; 6,740,506; 6,713,282; 6,635,449; 6,605,449;6, 537,776。一方面,SLR包括下述步驟(a)提供模板多核苷酸,其中模板多核苷酸包含編碼同源基因的序列;(b)提供多個構件多核苷酸,其中這些構件多核苷酸被設計成可在預定的序列處與模板多核苷酸交換重裝配(cross-over reassemble),所述構件多核苷酸包含作為同源基因變體的序列和與變體序列兩側的模板多核苷酸同源的序列;(C)將構件多核苷酸與模板多核苷酸組合在一起,以便構件多核苷酸與模板多核苷酸交換重裝配,以產生包含同源基因序列變異體的多核苷酸。SLR不依賴于將被重新排列的多核苷酸之間存在高度同源性。因此,該方法可以被用于非隨機地產生包括超過10·個不同嵌合體的子代分子的文庫(或集合)。SLR可以被用于產生包括超過IOicicitl個不同子代嵌合體的文庫。因此,本發明的一些方面包括產生一組最終嵌合的核酸分子的非隨機方法,所述最終嵌合的核酸分子具有按設計所選擇的整個裝配 次序。該方法包括按設計產生多個特異性核酸構件的步驟,以及裝配這些核酸構件的步驟,這樣可獲得依設計而定的整個裝配次序,所述的多個特異性核酸構件具有可被應用的互相相容的可連接末端。將被裝配的核酸構件的互相相容的可連接末端被認為對于這種類型的有序裝配是“有用的”,如果它們能使這些構件以預定次序結合。因此,核酸構件可以被偶聯的整個裝配次序是由可連接末端的設計來確定。如果使用多于一個的裝配步驟,那么核酸構件可被偶聯的總裝配次序也由裝配步驟的連續次序來確定。一方面,用酶例如連接酶(例如T4DNA連接酶)處理退火的結構片段,以實現結構片段的共價結合。一方面,寡核苷酸構件的設計通過分析一組祖先核酸序列模板來獲得,所述祖先核酸模板作為產生最終嵌合的多核苷酸的子代集合的基礎。這些親本寡核苷酸模板因此作為序列信息的來源,它們在將被誘變例如被嵌合或改組的核酸構件的設計中有用。在該方法的一個方面,多個親本核酸模板的序列被聯配,以便選擇一個或多個分界點。這些分界點可以位于同源區域,由一個或多個核苷酸構成。這些分界點優選地由至少兩個祖先模板共享。從而這些分界點可以被用于描繪將要產生的寡核苷酸構件的邊界,以便重排列親本多核苷酸。在祖先分子中鑒定和選擇的分界點作為最終嵌合的子代分子的裝配中的潛在嵌合點。分界點可以是由至少兩個親本多核苷酸序列分享的同源區域(包括至少一個同源性核苷酸堿基)。可以選擇地,分界點可以是由至少一半的親本多核苷酸序列分享的同源區域,或者可以是由至少三分之二的親本多核苷酸序列分享的同源區域。甚至更優選地,有用的分界點是由至少四分之三的親本多核苷酸序列分享的同源區域,或者可以是由幾乎所有的親本多核苷酸序列分享的同源區域。一方面,分界點是由所有親本多核苷酸序列分享的同源區域。一方面,連接再裝配過程被徹底地進行,以便產生含有盡量可能多的子代嵌合多核苷酸的文庫。換句話說,核酸構件的所有可能的有序組合都呈現在最終嵌合的核酸分子集合中。同時,另一方面,在每一組合中的裝配次序(即各個最終嵌合核酸的5’到3序列中每一構件的裝配次序)是如上所述地遵循預先的設計(或非隨機地)。由于本發明的非隨機特性,大大地降低了不需要的副產品的可能性。另一方面,連接再裝配方法被系統地進行。例如,實施該方法,以便產生子代分子的系統區分化的文庫,該文庫分成能被系統地篩選的數個部分,例如可以逐個地篩選。換句話說,通過選擇性的和審慎的應用特定的核酸構件,再加上選擇性的和審慎的應用連續的分步驟的裝配反應,本發明使得這樣一種設計可以實現,即可以在各個反應容器中制備出各自特定的一系列子代產物。這樣的設計允許進行系統的檢查和篩選步驟。因此,這些方法允許很可能非常大量的子代分子以更小的組被系統地檢查。由于其具有以高度變通而又徹底和系統的方式進行嵌合化反應的能力,尤其是當祖先分子之間具有低水平的同源性時,這些方法可以產生包含大量子代分子的文庫(或集合)。由于本發明的連接再裝配的非隨機特性,所產生的子代分子一方面包含有最終嵌合核酸分子的文庫,這些核酸分子具有按設計而選擇的總裝配次序。飽和誘變和優化的定向進化方法也可以被用于產生不同的子代分子種類。應該意識到,本發明在分界點的選擇、核酸構件的大小和數量以及偶聯的大小和設計方面提供了選擇的自由度和可控制性。進一步,應該意識到,就本發明的可操作性而言,對分子間同源性的要求大大地放寬了。事實上,甚至可以在有很少的分子間同源性或沒有分子間同源性的區域內選擇分界點。例如,由于密碼子的擺動,即密碼子的簡并性,可以 將核苷酸取代引入核酸構件,同時又不會改變在相應的祖先模板中最初編碼的氨基酸。可以選擇地,可以改變密碼子,從而改變對原始氨基酸的編碼。在本發明中,這樣的取代可以被引入到核酸構件中,以便增加分子間同源分界點的發生率,從而使得在構件之間可獲得的偶聯的數量增加,而這又允許產生更多數量的子代嵌合分子。
合成基因再裝配一方面,本發明提供了非隨機的方法,命名為合成基因重裝配,其在一定程度上與隨機改組相關,只是核酸構件不隨機改組、連接或嵌合,而是被非隨機地裝配。例如參見美國專利 6,537,776。合成基因重裝配法不依賴于將被改組的多核苷酸之間存在高度同源性。本發明可以被用于非隨機地產生包括超過10·個不同嵌合體的子代分子的文庫(或集合)。可以想象地,合成基因重裝配可以被用于產生包括超過10·°個不同子代嵌合體的文庫。因此,一方面,本發明提供了產生一組最終嵌合的核酸分子的非隨機方法,所述最終嵌合的核酸分子具有按設計所選擇的整個裝配次序,該方法包括按設計產生多個特異性核酸構件的步驟,以及裝配這些核酸構件的步驟,這樣可獲得依設計而定的整個裝配次序,所述的多個特異性核酸構件具有可被應用的互相相容的可連接末端。將被裝配的核酸構件的互相相容的可連接末端被認為對于這種類型的有序裝配是“有用的”,如果它們能使這些構件以預定次序結合。因此,一方面,核酸構件可以被偶聯的整個裝配次序是由可連接末端的設計來確定,并且如果使用多于一個的裝配步驟,那么核酸構件可被偶聯的總裝配次序也由裝配步驟的連續次序來確定。在本發明的一方面,用酶例如連接酶(例如T4DNA連接酶)處理退火的結構片段,以實現結構片段的共價結合。另一方面,核酸構件的設計通過分析一組祖先核酸模板的序列來獲得,所述祖先核酸模板作為產生最終嵌合的多核苷酸的子代集合的基礎。這些祖先核酸模板因此作為序列信息的來源,它們在將被誘變例如被嵌合或改組的核酸構件的設計中有用。在一個示例中,本發明提供了相關基因的家族和它們編碼的相關產物的家族之間的嵌合。在具體的示例中,編碼的產物是酶。根據本文描述的方法,本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶可以被誘變。因此,根據本發明的一個方面,多個祖先核酸模板序列(例如本發明的多核苷酸)被聯配,以便選擇一個或多個分界點,這些分界點可以位于同源區域。這些分界點可以被用于描繪將要產生的寡核苷酸構件的邊界。因此,在祖先分子中鑒定和選擇的分界點作為子代分子的裝配中的潛在嵌合點。一方面,有用的分界點是由至少兩個祖先模板分享的同源區域(包括至少一個同源核苷酸堿基),但分界點可以是由至少一半的祖先模板、至少三分之二的祖先模板、至少四分之三的祖先模板以及一方面可以是由幾乎所有的祖先模板分享的同源區域。甚至仍在一方面,有用的分界點是由所有祖先模板分享的同源區域。一方面,基因再裝配過程被徹底地進行,以便產生含有盡量可能多的文庫。換句話說,核酸構件的所有可能的有序組合都呈現在最終嵌合的核酸分子集合中。同時,另一方面,在每一組合中的裝配次序(即各個最終嵌合核酸的5’到3序列中每一構件的裝配次序)·是設計的(或非隨機地)。由于本發明的非隨機特性,大大地降低了不需要的副產品的可能性。另一方面,基因再裝配過程在所述方法中被系統地進行,以便例如產生子代分子的系統區分化的文庫,該文庫分成能被系統地篩選的數個部分,例如可以逐個地篩選。換句話說,通過選擇性的和審慎的應用特定的核酸構件,再加上選擇性的和審慎的應用連續的分步驟的裝配反應,本發明使得這樣一種設計可以實現,即可以在各個反應容器中制備出各自特定的一系列子代產物。這樣的設計允許進行系統的檢查和篩選步驟。因此,這些方法允許很可能非常大量的子代分子以更小的組被系統地檢查。由于其具有以高度變通而又徹底和系統的方式進行嵌合化反應的能力,尤其是當祖先分子之間具有低水平的同源性時,本發明可以產生包含大量子代分子的文庫(或集合)。由于本發明的基因再裝配的非隨機特性,所產生的子代分子一方面包含有最終嵌合核酸分子的文庫,這些核酸分子具有按設計而選擇的總裝配次序。在特別的方面,這樣的所產生的文庫包括大于IO3至IOicicitl種不同的子代分子種類。一方面,如所述產生的一組最終嵌合的核酸分子包括編碼多肽的多核苷酸。根據一方面,該多核苷酸是基因,其可以是人造基因。根據另一方面,該多核苷酸可以是基因通路,其可以是人造基因通路。本發明產生的一種或更多種人造基因在本發明中可以摻入人造基因途徑,例如在真核生物體(包括植物)中可操縱的途徑。在另一個示例中,產生構件的步驟的合成屬性允許設計和引入核苷酸(例如一個或多個核苷酸,例如可以是密碼子或內含子或調控序列),這些核苷酸隨后可以在體外過程中(例如通過誘變)或者在體內過程中(例如通過利用宿主生物體的基因剪接能力)被任選地去除。應該意識到,在許多情況下,除了產生有用的分界點的好處之外,還有許多其它原因也使得可能期望引入這些核苷酸。因此,根據另一方面,核酸構件在本發明中被用于引入內含子。這樣,功能性內含子在本發明中被引入到本發明的人造基因中。功能性內含子在本發明中還可以被引入本發明的人造基因通路中。因此,本發明提供了嵌合多核苷酸的產生,該嵌合多核苷酸是含有一個(或多個)人工引入的內含子的人造基因。
本發明還提供了嵌合多核苷酸的產生,該嵌合多核苷酸是含有一個(或多個)人工引入的內含子的人造基因通路。一方面,人工引入的內含子在一種或多種宿主細胞的基因剪接中發揮作用,其發揮作用的方式與天然發生的內含子在基因剪接中發揮作用的方式在很大程度上是相同的。本發明提供了產生含人造內含子的多核苷酸的方法,該多核苷酸將被引入宿主生物體中,用于重組和/或剪接。使用本發明產生的人造基因也可作為底物發揮作用,用于與另一核酸重組。同樣,使用本發明產生的人造基因途徑也可作為底物發揮作用,用于與另一核酸重組。一方面,重組由人造的含內含子基因和作為重組伙伴的核酸之間的同源區域促進,或發生在人造的含內含子基因和作為重組伙伴的核酸之間的同源區域。一方面,重組伙伴也可以是本發明產生的核酸,包括人造基因或人造基因途徑。重組可以由人造基中一個(或多個)人工引入的內含子上存在的同源區域促進,或發生在由人造基中一個(或多個)人工引入的內含子上存在的同源區域。一方面,本發明的合成基因再裝配方法使用多種核酸構件,其每一種一方面具有 兩個可連接末端。在每一個核酸構件上的兩個可連接末端可以是兩個平端(即,每一個末端具有零個核苷酸的突出),或者一方面可以是一個平端和一個突出端,或者一方面可以是兩個突出端。一方面,用于該目的的一個有用的突出端可以是3’突出端或5’突出端。因此,核酸構件可以具有一個3’突出端或可選地具有一個5’突出端或可選地具有兩個3’突出端或可選地具有兩個5’突出端。核酸構件被裝配來形成最終嵌合的核酸分子的整個裝配次序通過有目的試驗設計確定并且是非隨機的。一方面,通過化學合成兩個單鏈核酸(也稱為單鏈寡聚體)并使它們接觸促以便允許它們退火形成雙鏈核酸構件來生成核酸構件。雙鏈核酸構件可以具有不同的大小。這些構建的大小可以是小的或大的。構件的示例性大小在I堿基對(不包括任何突出端)至100,000堿基對(不包括任何突出端)之間。還提供了其它示例性大小,其具有Ibp至10,OOObp (包括中間的每一個整數)的下限和Ibp至100,OOObp (包括中間的每一個整數)的上限。存在許多方法,通過這些方法,可以產生可用于本發明的雙鏈核酸構件;并且這些方法在本領域中是已知的,且普通技術人員容易進行。根據一個方面,通過首先產生兩個單鏈核酸并使它們退火形成雙鏈核酸構件,從而產生雙鏈核酸構件。雙鏈核酸構件的兩條鏈可以在每個核苷酸處互補,除了形成突出端的任何一個核苷酸;從而除了任何突出端外不含有錯配。根據另一方面,雙鏈核酸構件的兩條鏈可以在比除了形成突出端外的每個核苷酸更少的核苷酸處互補。因此,根據一方面,雙鏈核酸構件可用于引入密碼子簡并性。一方面,使用本文描述的位點飽和誘變,使用一個或多個N,N, G/T序列盒,或者可選地,使用一個或多個N,N, N序列盒,引入密碼子簡并性。本發明的體內重組方法可以在未知雜合體或具體多核苷酸或序列的等位物的庫上進行盲試。然而,不必須知道所述具體多核苷酸的精確DNA或RNA序列。采用混合基因群內的重組的方法可用于產生任何有用的蛋白質,例如,本發明的纖維素酶或其變體。該方法可用于產生具有改變的特異性或活性的蛋白質。該方法還可以用于產生雜合核酸序列,例如,基因的啟動子區、內含子、外顯子、增強子序列、3’未翻譯區或5’未翻譯區。因此,該方法在研究重復DNA序列中也是有用的。最終,該方法可用于制備本發明的核酶或適體。
一方面,本文中描述的發明涉及還原性重配、重組和選擇的重復循環應用,其使得可以通過重組實現高度復雜的線性序列例如DNA、RNA或蛋白質的定向分子進化。
優化的定向進化系統本發明提供了一種非隨機的基因修飾系統,命名為“優化的定向進化系統”,其可以用來生產具有新的或者改變的性質的多肽,如本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶或者抗體。一方面,優化的定向進化涉及還原性重配(reductive reassortment)、重組和選擇的重復循環應用,其使得可以通過重組實現核酸的定向分子進化。優化的定向進化允許產生大量的進化出的嵌合序列,其中產生的群體顯著地富集了具有預定數目遺傳交換事件(crossover events)的序列。遺傳交換事件是在嵌合序列中的一個點,在這里,從一個親本變異體到另一個親本變異體的序列轉換發生。這樣的點一般在來自兩個親本的寡聚核苷酸連接在一起形成單個序列的連接處。這一方法允許計算寡聚核苷酸序列的正確濃度,這樣,序列的最終嵌合群體富集了選定數目的遺傳交換事件。這也提供了對選擇具有預定數目的遺傳交換事件的嵌合突變體的更多控制。 此外,這一方法與其他系統相比,提供了一種用于探究大數量的可能蛋白變異體的方便手段。以前,例如,如果在反應中產生了 IO13個嵌合分子,測試這樣大數目的嵌合突變體的特定活性將會非常困難。此外,子代群體的相當部分將具有很高數目的遺傳交換事件,其中得到的蛋白較不可能具有增高水平的特定活性。通過應用這些方法,嵌合分子的群體可以富集那些含有特定數目的遺傳交換事件的變異體。因此,盡管在反應中可以仍然產生IO13嵌合分子,但是所選擇的用于進一步分析的每一個分子很可能具有,例如,僅僅三個遺傳學交換事件。因為得到的子代群體可以偏向于具有預定數目的遺傳交換事件,所以嵌合分子之間的功能多樣性的范圍縮少了。當要計算在最初的親本多核苷酸中的哪一個寡核苷酸可能影響到特定的性質時,這便提供了更加可控數目的變量。產生嵌合子代多核苷酸序列的一個方法是產生對應于每一個親本序列的片段或者部分的寡核苷酸。每一個寡核苷酸一方面包括重疊的獨特區域,這樣把所述寡核苷酸混合,得到具有以正確順序裝配的每個寡核苷酸片段的新的變異體。可選地,實踐本發明的方法的方案可以在美國專利 6,773,900; 6,740,506; 6,713,282; 6,635,449; 6,605,449; 6,537,776;6, 361,974 中找到。對應于每一個親本變異體產生的寡核苷酸數目與在最終產生的嵌合分子中得到的交換的總的數目具有一定的關系。例如,為了發現具有如在高溫下的更高活性的嵌合變異體,可以提供三個親本核苷酸序列變異體來進行連接反應。作為一個例子,對應于每一個親本變異體的每一部分可以產生總共50個寡核苷酸序列。相應地,在連接再裝配過程中,在每一個嵌合序列中就有可能有多達50個交換事件。產生的每一個嵌合多核苷酸都以交替的順序含有來自各個親本變異體的寡核苷酸的可能性很低。如果每一個寡核苷酸片段以同樣的摩爾量存在于連接反應中,有可能在一些位置上來自同一親本多核苷酸的寡核苷酸將與相鄰的彼此連接,而不導致遺傳交換事件。如果在這一例子的任何連接步驟中,來自每一個親本的每一種寡核苷酸的濃度都保持不變,那么將會有三分之一的機會(假定3個親本)來自同一個親本變異體的寡核苷酸連接于嵌合序列內而不產生交換。因此,可以確定概率密度函數(PDF),預測在一個連接反應的每一步中可能發生的遺傳交換事件的總數,其中給定了一套具有確定數目的親本變異體、對應于每種變體的寡核苷酸、以及在連接反應的每個步驟中的每種變異體的濃度。在確定HF中應用到的統計學和數學在下面被描述。通過應用這些方法,可以計算這樣的概率密度函數,而且這樣就富集了來源于特定連接反應的具有預定數目的遺傳交換事件的嵌合子代群體。此外,可以預先確定遺傳交換事件的目標數目,然后對該系統進行程序化,以計算在該連接反應的每一個步驟中,每種親本寡聚核苷酸的起始量,從而得到以遺傳交換事件的預先確定的數目為中心的概率密度函數。這些方法涉及還原性重配、重組和選擇的重復循環應用,通過重組實現編碼多肽的核酸的定向分子進化。該系統允許產生大量的進化出的嵌合序列,其中產生的群體顯著地富集了具有預定數目遺傳交換事件的序列。遺傳交換事件是在嵌合序列中的一個點,在這里,從一個親本變異體到另一個親本變異體的序列轉換發生。這樣的點一般是在兩個親本的寡聚核苷酸連接在一起形成單個序列的連接處。這一方法允許計算寡聚核苷酸序列的正確濃度,這樣,序列的最終嵌合群體富集了選定數目的遺傳交換事件。這也提供了對選擇具有預定數目的遺傳交換事件的嵌合突變體的更多控制。此外,這些方法與其他系統相比,提供了一種用于探究大數量的可能蛋白變異體的方便手段。通過應用在這里描述的方法,嵌合分子的群體可以富集那些含有特定數目的遺傳交換事件的變異體。因此,盡管在反應中可以仍然產生IO13個嵌合分子,但是所選擇的·用于進一步分析的每一個分子很可能具有,例如,僅僅三個遺傳學交換事件。因為得到的子代群體可以傾向于具有預定數目的遺傳交換事件,所以造成嵌合分子之間的功能多樣性的界線減少。當計算出在最初的親本多聚核苷酸中的哪一個可能影響到特定的性質時,便提供了更加可控制的變量。一方面,該方法通過產生對應于每一個親本序列的片段或者部分的寡聚核苷酸,產生嵌合子代多核苷酸序列。每一個寡核苷酸優選地包括重疊的獨特區域,這樣把所述寡聚核苷酸混合,得到具有以正確順序裝配的寡核苷酸片段的新的變異體。也可參見美國專利 6,773,900; 6,740,506; 6,713,282; 6,635,449; 6,605,449; 6,537,776; 6,361,974。
確定交換事件本發明的多個方面包括系統和軟件,它們以所需的遺傳交換的概率密度函數(PDF)、待再裝配的親本基因的數目以及在再裝配中的片段數目作為輸入量。該程序輸出“片段roF”,它可以用于確定用于獲得重新裝配的基因和那些基因的估計的遺傳交換I3DF的具體方法。在此描述的過程一方面在MATLAB 中進行(TheMathworks, Natick, Massachusetts), MATLAB 是一種用于技術計算的程序語言和開發環境。
迭代處理本發明的任何過程可以被迭代重復,例如,可以鑒定出編碼本發明的改變的或者新的纖維素酶表型如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶的核酸,再分離,再修飾,再測試活性。這一過程可以重復直到工程化得到所需的表型。例如,完整的生物化學合成代謝或分解代謝途徑可以被工程化到細胞中,例如包括纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶活性的細胞。類似地,如果確定了某特定寡核苷酸對于所期望的特性(例如新的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶表型)不會造成任何影響,則可以合成包括這段待除去的序列在內的更大的親本寡核苷酸,從而將這段序列從變量中除去。由于將這段序列合并到更大的序列中,可以避免任何遺傳交換事件,所以在子代多核苷酸中,這一序列不再有任何變異。確定哪些寡核苷酸與所需的性質最有關系,以及哪些與所需的性質無關的重復實踐可以更有效地探尋所有可能的具有特定性質或者活性的蛋白變異體。
體內改組在各個方面,分子的體內改組在本發明的方法中使用,提供本發明的多肽的變體,例如本發明的抗體、本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶以及類似物。體內改組可以利用細胞重組多聚體的天然特性進行。盡管體內重組是提供分子多樣性的主要天然途徑,但遺傳重組仍然是一種相對復雜的過程,該過程涉及I)同源性識別;2)鏈切割,鏈侵入,和導致產生重組交叉(recombination chiasma)的代謝步驟;和最后3)交叉消除,得到分離的重組分子。交叉的形成需要同源序列的識別。另一方面,本發明包括一種方法,用于由至少第一多核苷酸和第二多核苷酸獲得 雜合多核苷酸。本發明也用于產生雜合多核苷酸,通過將共享至少一個部分序列同源的區域的至少第一多核苷酸和第二多核苷酸(例如,一個或兩者都是不例性的纖維素酶,例如本發明的內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶)引入到合適的宿主細胞中實現。部分序列同源的區域促進了導致產生雜合多核苷酸的序列再組織過程。正如此處所用,術語“雜合多核苷酸”是從本發明的方法產生的任何核苷酸序列,其含有來自至少兩個原始多核苷酸序列的序列。這樣的雜合多核苷酸可以來自可促進DNA分子間序列整合的分子間重組事件。此外,這樣的雜合多核苷酸可以來自于分子內還原重配過程,該過程利用重復序列來改變DNA分子內的核苷酸序列。一方面,體內重裝配集中在“分子間”的過程上,統稱為“重組”;在細菌中,它一般被視為是“RecA-依賴”的現象。本發明可以依賴于宿主細胞的重組過程來重組和重裝配序列,或者依賴于細胞介導還原過程的能力,通過缺失來減少細胞中的準-重復序列的復雜性。該“還原性重配”過程通過“分子內的”、RecA-依賴過程而發生。在本發明的另一方面,通過還原性重裝配過程,產生新型的多核苷酸。該方法包括產生含有連續序列(起始的編碼序列)的構建物,它們插入到合適的載體中,并且然后將它們引入到合適的宿主細胞。單個分子同一性的重裝配通過在構建物中具有同源性區域的連續序列間的組合過程,或者準-重復單位間的組合過程而發生。重裝配過程重組和/或降低重復序列的復雜性和程度,并且導致產生新型的分子種類。可以應用各種處理來提高重裝配效率。這些處理包括用紫外光,或者損壞DNA的化學試劑處理,和/或使用表現增高水平的“遺傳不穩定性”的宿主細胞系。因此,這樣的重裝配過程可以涉及同源重組或者準-重復序列指導它們自身進化的天然特性。重復或者“準重復(quasi-r印eated)”序列在遺傳不穩定性中起作用。一方面,“準重復”是并不限于它們起初的單元結構的重復。準重復單元可以在構建物中以序列的排列出現;以相似序列的連續單元出現。一旦連接,在連續序列之間的連接處變得基本上無形,并且得到的構建物的準重復性質在分子水平現在是連續的。細胞在準重復序列之間進行的缺失過程降低了得到的構建物的復雜性。準重復單位提供了一個實際上沒有限制的模板內容,在模板上可以發生滑移事件。一方面,含有準重復的構建物有效地提供了足夠的分子彈性,缺失(和潛在的插入)事件實際上可以在準重復單元內的任何地方發生。當準重復序列全部以相同方向連接,例如,頭對尾或者反之亦然,細胞就不能區別各個單元。因此,還原過程可以在整個序列中發生。相反地,例如,當所述單元以頭對頭存在,而不是頭對尾,相鄰單元的頭尾倒置,這樣缺失的形成將有利于不連續單元的失去。因此,優選地,待重裝配序列是處于相同的方向。準重復序列的隨機定向將會導致重裝配效率的損失,而序列的一致定向將會為序列的定向提供最高的效率。然而,雖然具有較少的相同方向的連續序列會降低效率,但是仍然可以為新型分子的有效回收提供足夠的彈性。用定向相同以允許更高效率的準重復序列制備構建物。應用各種方法中的任何一種,可以將序列裝配成頭對尾的定向,包括以下方法
a)可以使用包括poly-A頭和poly-Τ尾的引物,當制成單鏈時,包括poly-Α頭和poly-Τ尾的引物將提供定向。這通過具有由RNA制備引物的頭幾個堿基來完成,而且隨后用RNaseH可以很容易去除RNA。
b)可以應用包括獨特的限制酶切割位點的引物。這需要多個位點、一組獨特的序列、和重復的合成和連接步驟。
c)引物的內部幾個堿基可以被硫醇化,并且用外切酶來產生合適的具有尾巴的分子。—方面,重裝配序列的回收依賴于具有下降的重復指數(RI)的克隆載體的確定。被重裝配的編碼序列可以隨后通過擴增回收。產物被再克隆和表達。具有降低的RI的克隆載體的回收可以這樣被完成,即
1)應用僅僅當構建物的復雜性下降時才能穩定地維持的載體。
2)通過物理程序對縮短的載體進行物理回收。在這一情況下,克隆載體將應用標準的質粒分離程序進行回收,或者在具有低分子量截留的瓊脂糖凝膠或者柱子上利用標準程序進行大小分離。
3)插入物的大小下降時,對含有可以選擇的斷裂基因的載體進行回收。
4)應用表達載體以及適當的選擇,使用定向選擇技術。相關的生物體的編碼序列(例如,基因)可以表現出高度的同源性,并且編碼相當多樣化的蛋白產物。這些類型的序列特別可作為準重復序列用在本發明中。然而,盡管下面所描述的例子證明了幾乎相同的起始編碼序列(準-重復)的再裝配,這一過程并不限于這種幾乎相同的重復。下面的例子展示了本發明的示例性方法。描述了來自三個(3)獨特種的編碼性核酸序列(準-重復)。每一序列編碼具有一套不同特征的蛋白質。每一個序列在序列的唯一位置只有一個或者幾個堿基對的不同。準-重復序列分別地或者共同被擴增并且被連接到隨機的裝配體中,以便所有可能的排列和組合可以在連接的分子群體中獲得。準-重復單位的數目可以通過裝配條件來控制。在構建物中,準-重復單位的平均數目通過重復指數(RI)來定義。一旦形成,構建物可以,或不必按照出版的方法通過瓊脂糖凝膠來按大小分離,插入到克隆載體,并且轉染到合適的宿主細胞中。然后細胞進行繁殖,并且進行“還原性重裝配”。如果需要,還原性重裝配過程的速率可以通過引入DNA損傷來刺激。RI的降低是通過一種“分子內”的機制在重復序列間形成缺失來介導,還是通過“分子間”的機制由類似重組的事件來介導是不重要的。最終的結果是分子被重裝配,得到所有可能的組合。
任選地,本方法包括一個額外的步驟,即對改組的文庫成員進行篩選,以確定個別的改組文庫成員,其具有與一種預定的大分子如蛋白質受體、寡糖、病毒顆粒或者其它的預定的化合物或者結構結合或者不同方式地相互作用,或者催化特定的反應(如,酶的催化結構域)的能力。從這樣的文庫所鑒定得到的多肽可以用于治療、診斷、研究和相關目的(例如,催化劑,用于增加水溶液的滲透性的溶質等等)和/或可以進行改組和/或選擇的一個或者多個另外的循環。在另一方面,可以預見,在重組或重裝配之前,或者在重組或重裝配的過程中,通過本發明的方法產生的多核苷酸可以用試劑處理或進行加工,這些處理或加工促進突變引入到原始的多核苷酸中。引入這樣的突變將會增加得到的雜合多核苷酸及由其編碼的多肽的多樣性。促進誘變的試劑和過程可以包括,但不限于(+)-CC-1065,或者合成的類似物如(+)-CC-1065-(N3-腺嘌呤)(參見Sun和Hurley,(1992);能夠抑制DNA合成的N-乙 酰化或者脫乙酰基的4’ -氟-4-氨基聯苯加合物(見,例如,van de Poll等(1992)),或者能夠抑制DNA合成的N-乙酰化或者脫乙酰基的4-氨基聯苯加合物(也見,van de Poll等
(1992),751-758頁);三價鉻、三價鉻的鹽、可以抑制DNA復制的多環芳香烴(PAH) DNA加合物,如7-溴甲基-苯[a]蒽(“BMA”)、三(2,3-二溴丙基)磷酸鹽(“Tris-BP”)、1,2-二漠_3_氣丙燒(“DBCP”)、2_漠丙稀醒(2BA)、苯并[a]花-7,8- 二氧二醇-9-10-環氧化物(“BPDE”)、鉬(II)鹵素鹽、N-羥基-2-氨基-3-甲基咪唑[4,5_f]-喹啉(“N-羥基-IQ”)、和N-羥基-2-氨基-I-甲基-6-苯基咪唑[4,5-f]-吡啶(“N-羥基-PhIP”)。用于減慢或者停止PCR擴增的示例性方法由紫外線(+)-CC-1065和(+)-CC-1065-(N3-腺嘌呤)組成。特別包含的方法是DNA加合物或者來自多核苷酸或者多核苷酸庫的含有DNA加合物的多核苷酸,在進一步的處理前,其可以通過包括加熱含有所述多核苷酸的溶液的過程進行釋放或者去除。另一方面,本發明涉及產生具有生物活性的重組蛋白,其通過在根據本發明產生雜合或再裝配多核苷酸的條件下處理含有編碼野生型蛋白的雙鏈模板多核苷酸的樣品。
產生序列變異體本發明也提供了用于產生本發明核酸(例如纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β_葡糖苷酶)序列的序列變異體的其它方法。本發明也提供了使用本發明的核酸和多肽分離纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或葡糖苷酶的其它方法。一方面,本發明提供了本發明的纖維素酶如內切葡聚糖酶、纖維二糖水解酶、甘露聚糖酶和/或β -葡糖苷酶編碼序列(例如基因、cDNA或信息)的變異體,這些變異體可以通過任何方法來產生,如上所描述,例如包括隨意或隨機方法、或非隨機或“定向進化”方法。被分離的變異體可以是天然發生的。變異體也可以在體外產生。變異體也可以應用基因工程技術來產生,如定點誘變、隨機的化學誘變、核酸外切酶III缺失方法和標準的克隆技術。可選擇地,可以應用化學合成或者修飾方法來產生這樣的變異體、片段、類似物或者衍生物。本領域技術人員也熟悉制備變異體的其它方法。這些方法包括這樣的程序,其中,從天然分離物中獲得的核酸序列經過修飾而產生編碼具有某些特征的多肽的核酸,所述的特征使這些多肽在工業或者實驗室應用中具有更高的價值。在這樣的程序中,大量的變異體序列被獲得和表征,這些變異體序列與從天然分離物中得到的序列相比,有一個或者多個核苷酸的差異。這些核苷酸的差異可能引起相對于天然分離得到的核酸序列編碼的多肽的氨基酸變化。例如,變異體可以通過易錯PCR產生。在易錯PCR的一個方面中,PCR在DNA聚合酶的復制保真性較低的情況下進行,這樣便在全長的PCR產物中得到較高的點突變率。易錯 PCR 在例如,Leung, D. W.,等,Technique, I :11 15,1989 和 Caldwell, R. C.和 JoyceG. F. , PCR Methods Applic.,2:28-33,1992中描述。簡要地說,在這樣的程序中,待誘變的核酸與PCR引物、反應緩沖液、MgCl2, MnCl2, Taq聚合酶以及適當濃度的dNTP混合,在全長的PCR產物中得到高的點突變率。例如,反應可以使用20fmol待誘變的核酸進行,每種PCR引物 30pmol,反應緩沖液包括 50mM KClUOmM Tris HCl (pH8. 3)和 O. 01 % 明膠、7mM 的MgCl2、0. 5mM MnCl2、5units 的 Taq聚合酶、O. 2mM dGTP、0. 2mM dATPUmM dCTP和 ImM dTTP。PCR可以進行30個循環,每個循環為94°C I分鐘;45°C I分鐘;和72°C I分鐘。然而,應該意識到,這些參數可以適當地變化。誘變的核酸克隆到一個適當的載體,并評價由誘變核酸編碼的多肽的活性。·
一方面,變異體也可以用寡核苷酸誘導的定向突變產生,在任何感興趣的克隆DNA中產生位點特異性的突變。寡核苷酸誘變在,例如,Reidhaar-Olson (1988) Science241:53-57中描述。簡要地說,在這樣的程序中,合成多個具有將要被導入被克隆的DNA中的一個或多個突變的雙鏈寡聚核苷酸,將這些寡聚核苷酸插入到待誘變的克隆DNA中。一方面,回收含有誘變DNA的克隆,表達,并評估它們編碼的多肽的活性。另一種產生變異體的方法是裝配PCR。裝配PCR涉及由小DNA片段的混合物來裝配PCR產物。大量不同的PCR反應在相同的容器中平行地發生,一個反應的產物引發另一個反應的產物。裝配PCR已經被描述,例如在美國專利5,965,408中。一方面,有性PCR誘變是產生本發明的變異體的示例性方法。在有性PCR誘變的一個方面中,由于基于序列同源性的DNA分子隨機片段化,在不同的但是高度相關的DNA序列的DNA分子之間,在體外強行發生同源重組,然后通過PCR反應的引物延伸,遺傳交換得到固定。有性 PCR 誘變在,例如,Stemmer (1994)Proc. Natl. Asad. Sci. USA 91:10747-10751中描述。簡要地說,在這樣的程序中,多個待重組的核酸用DNase消化,產生具有50到200個核苷酸的平均大小的片段。純化具有所需的平均大小的片段,重懸于PCR混合物中。在有利于核酸片段重組的條件下進行PCR反應。例如,PCR可以這樣進行將純化的片段重懸于含有 O. 2mM 的各種 dNTP,2. 2mM MgCl2、50mM KClUOmM 的 Tris-HCl, pH 9. O 以及 O. 1%的Triton X-100的溶液中,其濃度為liKBOng/y I。以100 :1的比例在反應混合物中加入2. 5Units的Taq聚合酶,用以下的條件進行PCR:94°C 60秒,94°C 30秒,50_55°C 30秒,720C 30秒(30-45次),然后72°C進行5分鐘。然而,可以意識到,這些參數可以進行適當的變化。在一些方面,寡聚核苷酸可以被包括在該PCR反應中。在其它方面,DNA聚合酶I的Klenow片段可以用于第一輪PCR反應,而Taq聚合酶可以用于后續的PCR反應。重組序列被分離,并評估它們編碼的多肽的活性。一方面,變異體也可以通過體內誘變產生。在一些方面,感興趣的序列中的隨機突變通過在細菌菌株中增殖該感興趣的序列而產生,所述細菌菌株例如在一個或者多個DNA修復途徑中具有突變的大腸桿菌菌株。這樣的“突變”菌株具有比野生型親本更高的隨機突變率。在一種這樣的菌株中進行DNA的繁殖,最終可產生DNA中的隨機突變。適于在體內誘變中應用的突變菌株在,例如,PCT
發明者D·百隆, J·耿斯奇, M·迪凱科 申請人:維萊尼姆公司