專利名稱:Tal效應子介導的dna修飾的制作方法
技術領域:
本發明涉及基因靶向的方法,尤其是包括使用轉錄激活因子樣(TAL)效應子序列的方法。
背景技術:
通過同源重組修飾染色體的能力(基因靶向)一直是生物學家的奮斗目標。例如,在植物中,基因靶向可有助于了解植物基因功能,為農作物改良提供新的可能。例如,利用基因靶向可進行重排代謝途徑所需的遺傳手術以產生高價值農作物,包括改變油或糖分布的種子、提高營養品質的食物或對疾病和壓カ抗性增加的植物。在動物(例如哺乳動物)中,基因靶向可用于治療疾病。例如,基因靶向可用于對由各種形式突變引起的缺陷基因進行工程校正。這種基因靶向的有效方法難以實現。
發明內容
黃單胞菌屬(Xanthomonas)中植物病原菌的TAL效應子通過結合宿主DNA和激活效應子特異的宿主基因,在疾病或引發防御中起重要作用(參見例如,Gu等(2005)Nature 435:1122;Yang 等(2006)Proc. Natl. Acad. Sci. USA103:10503;Kay 等(2007)Science 318:648; Sugio 等(2007)Proc. Natl. Acad. Sci. USA 104:10720;和 ROmer 等(2007) Science 318:645)。特異性取決于不完善的可變效應子數量,通常是34個氨基酸重復(Schornack等(2006) J. Plant Physiol. 163:256)。多態性主要發生在重復位置12和13,本文將其稱為重復可變雙殘基(RVD )。本發明部分基于TAL效應子的RVD以直接、線性形式對應于其靶位置的核苷酸,一種RVD對應于一種核苷酸,有一些簡并性且沒有明顯的環境依賴性。這個令人意外的發現代表蛋白-DNA識別的新機制,能針對新靶向特異性TAL效應子進行靶位置預測。如本文所述,這些蛋白可作為靶向的嵌合核酸酶用于研究和生物技術,有助于基因組工程改造中的同源重組(例如添加或提高用于植物中生物燃料或生物可再生物的特征)。這些蛋白還用作例如轉錄因子,且特別用于需要很高水平特異性的治療應用,例如(非限制示例)針對病原體(如病毒)的治療。在ー個方面,本發明涉及改良細胞遺傳物質的方法,所述方法包括(a)提供含靶DNA序列的細胞;和(b)將轉錄激活因子樣(TAL)效應子-DNA修飾酶導入所述細胞,所述TAL效應子-DNA修飾酶包括(i)修飾雙鏈DNA的DNA修飾酶結構域,和(ii) TAL效應子結構域,包括聯合結合靶DNA序列中特異性核苷酸序列的多種TAL效應子重復序列,從而所述TAL效應子-DNA修飾酶修飾細胞或其后代中所述特異性核苷酸序列內或相鄰的靶DNA。本方法還可包括將含有與至少部分靶DNA序列同源的序列的核酸提供給細胞,從而在所述靶DNA序列和所述核酸之間產生同源重組。所述細胞可為真核細胞、哺乳動物細胞、植物細胞或原核細胞。所述靶DNA可為染色體DNA。所述導入可包括用編碼TAL效應子DNA修飾酶的載體轉染細胞、將TAL效應子DNA修飾酶作為蛋白機械注射入細胞、用細菌III型分泌系統將TAL效應子DNA修飾酶作為蛋白遞送到細胞,或通過電穿孔將TAL效應子DNA修飾酶作為蛋白導入細胞。所 述DNA修飾酶可為內切核酸酶(如II型限制性內切酶如FokI)。結合所述靶DNA中特異性核苷酸序列的TAL效應子結構域可包括10或更多個DNA結合重復序列,且優選15或更多個DNA結合重復序列。各DNA結合重復序列可包括確定所述靶DNA序列中堿基對識別的重復可變雙殘基(RVD),其中各DNA結合重復序列負責識別所述靶DNA序列中的ー種堿基對,且其中所述RVD包括下述的ー種或多種識別C的HD;識別T的NG;識別A的NI;識別G或A的NN;NS識別A或C或G或T的NS;識別C或T的N*,其中*代表RVD的第二位置中的缺ロ ;識別T的HG;識別T的H*,其中*代表RVD的第二位置中的缺ロ ;識別T的IG;識別G的NK;識別C的HA;識別C的ND;識別C的HI;識別G的HN;識別G的NA;識別G或A的SN;和識別T的YG。各DNA結合重復序列可包括確定所述靶DNA序列中堿基對識別的RVD,其中各DNA結合重復序列負責識別所述靶DNA序列中的ー種堿基對,且其中所述RVD包括下述的ー種或多種識別C的HD;識別C的ND;識別C的HI;識別G的HN;識別G的NA;識別G或A的SN;和識別T的YG ;和識別G的NK,和下述的ー種或多種識別C的HD;識別T的NG;識別A的NI;識別G或A的NN; NS識別A或C或G或T的NS;識別C或T的N*,其中*代表RVD的第二位置中的缺ロ ;識別T的HG;識別T的H*,其中*代表RVD的第二位置中的缺ロ ;識別T的IG。在另一方面,本發明涉及生成編碼所選核苷酸序列特異性TAL效應子的核酸的方法,所述方法包括(I)用PspXI線性化初始質粒,所述初始質粒包括編碼第一 TAL效應子DNA結合重復結構域的核苷酸序列,所述結構域具有特異于所選核苷酸序列的第一核苷酸的重復可變雙殘基(RVD),其中所述第一 TAL效應子DNA結合重復結構域在3’末端具有獨特的PspXI位點;(2)將編碼ー種或多種TAL效應子DNA結合重復結構域的DNA模塊連接到所述初始質粒的PspXI位點,所述結構域具有特異于所選核苷酸序列的后續核苷酸的RVD,其中所述DNA模塊具有XhoI粘性末端;和(3)重復步驟(I)和(2)直到核酸編碼出能結合所選核苷酸序列的TAL效應子。連接后,所述方法還可包括確定PspXI位點中DNA模塊的方向。所述方法可包括重復步驟(I)和(2) 1-30次。在另一方面,本發明涉及生成編碼轉錄激活因子樣效應子內切核酸酶(TALEN)的核酸的方法,所述方法包括(a)在細胞基因組中鑒定第一核苷酸序列;和(b)合成編碼TALEN的核酸,所述核酸包括(i)與所述第一獨特核苷酸序列聯合結合的多種DNA結合重復序列,和(ii)在所述第一核苷酸序列內或鄰近的位置產生雙鏈切割的內切核酸酶,其中各DNA結合重復序列包括確定所述靶DNA中堿基對識別的RVD,其中各DNA結合重復序列負責識別所述靶DNA中的堿基對,其中所述TALEN包括一種或多種下述RVD:識別C的HD;識別T的NG;識別A的NI;識別G或A的NN;NS識別A或C或G或T的NS;識別C或T的N*;識別T的HG;識別T的H*;識別T的IG;識別G的NK;識別C的HA;識別C的ND;識別C的HI;識別G的HN;識別G的NA;識別G或A的SN;和識別T的YG。TALEN包括以下RVD的ー種或多種識別C的HD;識別C的ND;識別C的HI;識別G的HN;識別G的NA;識別G或A的SN;和識別T的YG ;和識別G的NK,和下述的ー種或多種識別C的HD;識別T的NG;識別A的NI;識別G或A的NN; NS識別A或C或G或T的NS;識別C或T的N*;識別T的HG;識別T的H*;識別T的IG。
所述第一核苷酸序列可滿足至少ー種下述標準i)最少15堿基長度且為5’_3’方向,T緊接在5’末端位點的前面;ii)在所述第一(5’)位置中沒有T或所述第二位置中沒有A;iii)在最后的(3’)位置以T結束且接近最后的位置沒有G ;和iv)堿基組成為0-63%A、11-63%C、0-25%G、2-42%T。所述方法可包括在所述細胞的基因組中鑒定第一核苷酸序列和第二核苷酸序列,其中所述第一和第二核苷酸序列滿足至少ー種上述標準且由15-18bp分開。所述內切核酸酶可在所述第一和第二核苷酸序列中產生雙鏈切割。在另ー實施方式中,本發明涉及包括內切核酸酶結構域和靶DNA特異性TAL效應子DNA結合域的TALEN,其中所述DNA結合域包括多種DNA結合重復序列,各重復序列包括確定所述靶DNA中堿基對識別的RVD,其中各DNA結合重復序列負責識別所述靶DNA中的一種堿基對,且其中所述TALEN包括一種或多種下述RVD :識別C的HD;識別T的NG;識別A的NI;識別G或A的NN;NS識別A或C或G或T的NS;識別C或T的N*;識別T的HG;識別T的H*;識別T的IG;識別G的NK;識別C的HA;識別C的ND;識別C的HI;識別G的HN;識別G的NA;識別G或A的SN;和識別T的YG。TALEN可包括以下RVD的ー種或多種識別C的HD;識別C的ND;識別C的HI;識別G的HN;識別G的NA;識別G或A的SN;和識別T的YG ;和識別G的NK,和下述的ー種或多種識別C的HD;識別T的NG;識別A的NI;識別G或A的NN;NS識別A或C或G或T的NS;識別C或T的N*;識別T的HG;識別T的H*;識別T的IG。所述內切核酸酶結構域可來自II型限制性內切核酸酶(如FokI)。在另一方面,本發明涉及包括內切核酸酶結構域和TAL效應子結構域的TALEN,其中所述TALEN的氨基酸序列選自下組SEQ ID N0:33_SEQ ID NO:55,SEQ ID N0:72、和SEQID N0:73。本發明還涉及產生動物的方法,所述方法包括提供包括靶DNA序列的真核細胞,其內需要導入遺傳修飾;用TALEN在靶DNA序列內產生雙鏈切割,所述TALEN包括內切核酸酶結構域和結合靶DNA序列的TAL效應子結構域;和從所述細胞或其后代產生動物,其中已發生雙鏈切割。本方法還可包括將含與至少部分靶DNA同源的序列的外源核酸導入細胞,其中所述導入在允許所述外源核酸和細胞或其后代中靶DNA序列發生同源重組的條件下進行;和從已發生同源重組的所述細胞或其后代產生動物。所述動物可以是哺乳動物。所述遺傳修飾可包括取代、插入或缺失。在另一方面,本發明涉及產生植物的方法,所述方法包括提供含靶DNA序列的植物細胞,其內需要導入預選的遺傳修飾;用TALEN在靶DNA序列內產生雙鏈切割,所述TALEN包括內切核酸酶結構域和結合靶DNA序列的TAL效應子結構域;和從已發生雙鏈切割的所述細胞或其后代產生植物。本方法還可包括將含與至少部分靶DNA序列同源的序列的外源核酸導入植物細胞,其中所述導入在允許所述外源核酸和細胞或其后代中靶DNA序列發生同源重組的條件下進行;和從已發生同源重組的所述細胞或其后代產生植物。在另一方面,本發明涉及細胞中靶向遺傳重組的方法,所述方法包括將編碼靶向所選DNA靶序列的TAL效應子內切核酸酶的核酸導入細胞;在所述細胞中誘導TAL效應子內切核酸酶的表達;和鑒定所選DNA靶序列顯示突變的細胞。所述突變可選自下組遺傳物質的缺失、遺傳物質的插入以及遺傳物質的缺失和插入。所述方法還可包括將供體DNA導入細胞。所述細胞可為昆蟲細胞、植物細胞、魚類細胞或哺乳動物細胞。在另一方面,本發明涉及產生靶向靶DNA的能力增強的TAL效應子的方法,所述方法包括產生編碼TAL效應子的核酸,所述效應子包括具有多種DNA結合重復序列的DNA結 合域,其中各重復序列包括確定所述靶DNA中堿基對識別的RVD,其中各DNA結合重復序列負責識別所述靶DNA中的堿基對,其中所述產生包括納入編碼對A、C或G有特異性的第0變異DNA結合重復序列的核酸,因此不再需要所述結合位點-I位置的T。在另一方面,本發明涉及產生靶向靶DNA的能力增強的TAL效應子的方法,所述方法包括產生編碼TAL效應子的核酸,所述效應子包括具有多種DNA結合重復序列的DNA結合域,其中各重復序列包括確定所述靶DNA中堿基對識別的RVD,其中各DNA結合重復序列負責識別所述靶DNA中的堿基對,其中所述產生包括納入ー種或多種含有對G特異性提高的RVD的TAL效應子DNA結合域編碼核酸,其中所述RVD選下組RN、R*、NG、NH、KN、K*、NA、NT、DN、D*、NL、NM、EN、E*、NV、NC、QN、Q*、NR、NP、HN、H*、NK、NY、SN、S*、ND、NW、TN、T*、NE、NF、YN、Y*和NQ,其中*代表RVD的第二位置上的缺ロ。本發明還涉及生成選擇性識別靶DNA序列中至少ー種堿基對的多肽的方法,所述方法包括合成含重復結構域的多肽,其中所述重復結構域包括衍生自轉錄激活因子樣(TAL)效應子的至少ー個重復單元,其中所述重復単元包括確定靶DNA序列中堿基對識別的高變區,其中所述重復單元負責所述DNA序列中ー種堿基對的識別,且其中所述高變區包括選自下組的元件(a)識別C/G的HD; (b)識別A/T的NI; (c)識別T/A的NG; (d)識別C/G 或 A/T 或 T/A 或 G/C 的 NS; (e)識別 G/C 或 A/T 的 NN; (f)識別 T/A 的 IG; (g)識別 C/G的N; (h)識別C/G或T/A的HG;⑴識別T/A的H;和(j)識別G/C的NK0此外,本發明涉及上述方法生產的多肽,和包括本方法所生成多肽的編碼序列的DNA。還涉及包括可操作連接上述DNA的啟動子的表達盒,和包括所述表達盒的非人宿主細胞。在另一方面,本發明涉及轉化的、包括表達盒的非人生物體。在另一方面,本發明涉及通過多肽選擇性識別DNA序列中堿基對的方法,所述方法包括構建含重復結構域的多肽,其中所述重復結構域包括衍生自TAL效應子的至少ー個重復單元,其中所述重復單元包括確定DNA序列中堿基對識別的高變區,其中所述重復單元負責識別所述DNA序列中的ー種堿基對,且其中所述高變區包括選自下組的元件(a)識別C/G的HD; (b)識別A/T的NI; (c)識別T/A的NG; (d)識別C/G或A/T或T/A或G/C的NS; (e)識別G/C或A/T的NN; (f)識別T/A的IG; (g)識別C/G的N; (h)識別C/G或T/A的HG;⑴識別T/A的H;和(j)識別G/C的NK0本發明還涉及調控細胞中靶基因表達的方法,其中提供含多肽的細胞,所述多肽包括重復結構域,其中所述重復結構域包括衍生自TAL效應子的至少ー個重復單元,其中所述重復単元包括確定DNA序列中堿基對識別的高變區,其中所述重復単元負責識別所述DNA序列中的ー種堿基對,且其中所述高變區包括選自下組的元件(a)識別C/G的HD; (b)識別A/T的NI; (c)識別T/A的NG; (d)識別C/G或A/T或T/A或G/C的NS; (e)識別G/C或A/T的NN; (f)識別T/A的IG; (g)識別C/G的N; (h)識別C/G或T/A的HG;⑴識別T/A的H;和(j)識別G/C的NK0在另一方面,本發明涉及包括重復結構域的多肽,其中所述重復結構域包括衍生自TAL效應子的至少ー個重復單元,其中所述重復単元包括確定DNA序列中堿基對識別的高變區,其中所述重復単元負責識別所述DNA序列中的ー種堿基對,且其中所述高變區包括選自下組的元件(a)識別C/G的HD; (b)識別A/T的NI; (c)識別T/A的NG; (d)識別C/G或A/T或T/A或G/C的NS; (e)識別G/C或A/T的NN; (f)識別T/A的IG; (g)識別C/G的N; (h)識別C/G或T/A的HG;⑴識別T/A的H;和(j)識別G/C的NK0本發明還涉及包括上述多肽編碼序列的DNA。在另一方面,本發明涉及修飾成包括位于靶DNA序列中堿基對的DNA,從而所述堿 基對可被包括重復結構域的多肽特異識別,其中所述重復結構域包括衍生自TAL效應子的至少ー種重復單元,其中所述重復單元包括確定DNA序列中堿基對識別的高變區,其中所述重復単元負責識別所述DNA序列中的ー種堿基對,且為了通過高變區得到選擇性和確定的識別,其中所述堿基對選自下組(a)由HD識別的C/G; (b)由NI識別的A/T; (c)由NG識別的T/A; (d)由NS識別的C/G或A/T或T/A或G/C; (e)由NN識別的G/C或A/T; (f)由IG識別的T/A; (g)由N識別的C/G或T/A; (h)由HG識別的T/A;⑴由H識別的T/A;和(j)由NK識別的G/C。還涉及包括上述DNA的載體,包括所述DNA的非人宿主細胞和包括所述DNA的轉化的非人生物體。在另一方面,本發明涉及生產包括靶DNA序列的DNA的方法,所述靶DNA序列由含重復結構域的多肽選擇性識別,其中所述重復結構域包括衍生自TAL效應子的至少ー個重復單元,其中所述重復單元包括確定DNA序列中堿基對識別的高變區,且其中所述重復單元負責識別所述DNA序列中的ー種堿基對,所述方法包括合成含能被所述重復単元識別的堿基對的DNA,其中所述堿基對選自下組(a)由HD識別的C/G; (b)由NI識別的A/T; (c)由NG識別的T/A; (d)由NS識別的C/G或A/T或T/A或G/C; (e)由NN識別的G/C或A/T; (f)由IG識別的T/A; (g)由N識別的C/G或T/A; (h)由HG識別的T/A;⑴由H識別的T/A;和(j)由NK識別的G/C。在另一方面,本發明涉及修飾植物細胞的遺傳物質的方法。本發明法可包括(a)將下述物質導入植物細胞(i)包括經修飾的核苷酸序列的第一重組核酸,其中所述經修飾的靶核苷酸序列根據所述植物細胞中存在的相應靶核苷酸序列,在核苷酸序列中包括ー種或多種修飾,且其中所述靶核苷酸序列還包括序列特異性TAL效應子內切核酸酶(TALEN)的識別位點;和(ii)包括編碼序列特異性轉錄激活因子樣(TAL)效應子內切核酸酶的核苷酸序列的第二重組核酸;(b)生成含所述植物細胞的植物;(c)分析獲自植物或其后代的細胞、種子、或組織在靶核苷酸序列的重組。所述方法還可包括將(iii)包括編碼可選標記物的核苷酸序列的第三重組核酸導入植物細胞;和確定所述植物或其后代是否表達所述可選標記物。所述方法還可包括根據所述可選擇標記的缺失篩選所述植物或其后代的步驟。編碼所述可選擇標記的核苷酸序列可以側接或不側接與所述植物細胞內源序列(例如第二序列特異性核酸酶的切割位點的序列)相似或相同的序列的ー側或兩側。編碼可選擇標記物的核苷酸序列可通過序列特異性重組酶的識別位點側接兩側。所述方法還可包括異交所述植物的步驟,有或沒有根據所述可選擇標記的缺失篩選異交后代的步驟。所述第一和第二重組核酸可同時導入所述植物細胞。ー種或兩種所述重組核酸可在導入步驟前線性化。所述第一和第二重組核酸可存在于相同構建體中。在另一方面,本發明涉及修飾細胞遺傳物質的另一方法。所述方法可包括提供含需要發生同源重組的染色體靶DNA序列的初級細胞;提供包括可切割雙鏈DNA的內切核酸酶結構域的TALEN和包括多種TAL效應子重復序列的TAL效應子結構域,所述重復序列聯合結合細胞靶DNA中的特異核苷酸序列;和將所述靶DNA序列接觸細胞內的TALEN從而所 述TALEN切割細胞靶DNA序列內或相鄰核苷酸序列的雙鏈。本方法還可包括提供含有與至少部分靶DNA同源的序列的核酸,從而在所述靶DNA序列和所述核酸之間產生同源重組。所述靶DNA序列可為所述細胞內源序列。所述細胞可為用于體外培養的植物細胞、哺乳動物細胞、魚類細胞、昆蟲細胞或衍生自這些生物體的細胞系,或用于體外培養的直接取自活組織并建立的初級細胞。所述接觸可包括用含TALEN編碼序列的載體轉染細胞并在細胞內表達TALEN蛋白、機械注射TALEN蛋白到細胞中、通過細菌III型分泌系統遞送TAL效應子內切核酸酶蛋白到細胞中或通過電穿孔將TALEN蛋白導入細胞。所述內切核酸酶結構域可來自II型限制性內切核酸酶(如FokI)。結合所述靶DNA中特異核苷酸序列的TAL效應子結構域可包括10或更多個DNA結合重復序列,優選15或更多個DNA結合重復序列。所述細胞可來自任何原核或真核生物體。在另一方面,本發明涉及能在特定位置切割DNA的序列特異性TALEN的設計方法。本方法可包括鑒定與需要導入雙鏈切割的第二核苷酸序列相鄰的第一獨特內源染色體核苷酸序列;和設計序列特異性TALEN,其包括(a)聯合結合所述第一獨特內源染色體核苷酸序列的多種DNA結合重復結構域,和(b)在第二核苷酸序列生成雙鏈切割的內切核酸酶。本發明還涉及包括內切核酸酶結構域和具體DNA序列特異性TAL效應子DNA結合域的TALEN。TALEN還可包括純化標簽。所述內切核酸酶結構域可來自II型限制性內切核酸酶(如FokI)。在另一方面,本發明涉及生成導入所需核酸的遺傳改良動物。本方法可包括提供含內源染色體靶DNA序列的初級細胞,其內需要導入核酸;用TALEN在內源染色體靶DNA序列內產生雙鏈切割,所述TALEN包括內切核酸酶結構域和結合內源染色體靶DNA序列的TAL效應子結構域;在允許外源核酸和內源染色體靶DNA間發生同源重組的條件下將含與至少部分內源染色體靶DNA同源的序列的外源核酸導入所述初級細胞;和從發生同源重組的初級細胞生成動物。所述動物可以是哺乳動物。所述同源的序列可為選自下組的核苷酸序列同源重組后破壞基因的核苷酸序列、同源重組后替換基因的核苷酸序列、同源重組后在基因中導入點突變的核苷酸序列和同源重組后導入調控位點的核苷酸序列。在另一方面,本發明涉及生成導入所需核酸的遺傳改良植物。本方法可包括提供含內源靶DNA序列的植物細胞,其內需要導入核酸;用TALEN在內源靶DNA序列中產生雙鏈切割,所述TALEN包括內切核酸酶結構域和結合內源靶核苷酸序列的TAL效應子結構域;在允許外源核酸和內源靶DNA間發生同源重組的條件下將含與至少部分內源靶DNA同源的序列的外源核酸導入所述植物細胞;和從已發生同源重組的植物細胞生成植物。在另一方面,本發明涉及細胞中靶向遺傳重組的方法。本方法可包括將編碼TALEN的核酸分子導入所述細胞,所述TALEN靶向選擇的DNA靶序列;誘導所述細胞中TALEN表達;和鑒定其中所選DNA靶序列顯示突變的細胞。所述突變可選自下組遺傳物質的缺失、遺傳物質的插入以及遺傳物質的缺失和插入。所述方法還可包括將供體DNA導入細胞。所述細胞可為昆蟲細胞、植物細胞、魚類細胞或哺乳動物細胞。在另一方面,本發明涉及生成編碼序列特異性TALEN的核酸的方法,所述方法包括(I)選擇包括編碼第一 TAL效應子DNA結合重復結構域的核苷酸序列的初始質粒,所述結構域具有對所選核苷酸序列的第一核苷酸特異的RVD,其中所述第一 TAL效應子DNA結合重復結構域在3’末端具有獨特的PspXI位點;⑵用PspXI線性化所述初始質粒;(3)將編碼ー種或多種TAL效應子DNA結合重復結構域的DNA模塊連接到PspXI位點,所述結構域具有特異于所選核苷酸序列后續核苷酸的RVD,其中所述DNA模塊具有XhoI粘性末端;和
(4)重復步驟⑵和(3)直到核酸編碼出能結合所選核苷酸序列的TALEN。在一些情況中,所述方法還可在步驟⑶的連接后包括檢查PspXI位點中DNA模塊的方向。除非另外定義,本文使用的所有技術和科學術語的意義與本發明所屬領域的普通技術人員通常所理解的相同。雖然與本文所述類似或等同的方法和材料可用來實施本發明,但在下文描述合適的方法和材料。本文中述及的所有出版物、專利申請、專利和其他參考文獻都通過引用全文納入本文。在抵觸的情況下,以本說明書(包括定義在內)為準。此外,材料、方法和實施例都僅是說明性,并不構成限制。在附圖和以下描述中詳細說明了本發明的一種或多種實施方式。本發明的其他特征、目的和優勢通過描述、附圖以及權利要求書可顯而易見。附圖簡要說明
圖1A-1D顯示TAL效應子-DNA識別密碼。圖IA是普通TAL效應子的圖,顯示重復區域(空心框)和代表性的重復序列(SEQ ID N0:1), RVD用下劃線標出。圖IB顯示各種TAL效應子RVD和靶基因啟動子序列(SEQ ID N0:2_ll)的最佳模式匹配(低熵比對)。星號表示殘基13處有缺失。圖IC顯示B的比對中RVD-核苷酸的關聯以及用40個額外水稻黃單胞菌(X. oryZae)TAL效應子掃描所有水稻啟動子獲得的另10個比對,保留各效應子的最佳比對,感染期間其下游基因活化。圖ID顯示20個TAL效應子靶位點的側接核苷酸頻率。位置是相對于祀位點的5’末端;N,祀位點長度。用WebLogo生成標記。圖2A 和 2B 提供 OsHenl 被水稻條斑病菌(Xanthomonas oryzae pv. oryzicola)株系BLS256的Tallc活化的證據。圖2A是半定量RT-PCR結果圖,顯示用BLS256標記物交換突變體M51、載有空粘粒載體(ev)的M51、載有粘粒pIJF92 (含talla、tallb和tallc)的M51和野生型(WT)株系接種后24小時的水稻葉片中的OsHenl相對轉錄物豐度,用肌動蛋白基因作參考。圖2B是基于通過拯救對M51中単一標記物交換突變做圖以及含標記物的XmaI片段的末端測序的示意圖。顯示粘粒PIJF92中包括的基因組區域、拯救片段的坐標、和BLS256基因組片段的坐標。圖3是參比AvrBs3氨基酸序列(SEQ ID NO: 12)。圖4 是參比 AvrBs3 核酸序列(SEQ ID NO: 13)。圖5是TAL核酸酶表達載體圖。圖6是靶報告質粒圖。圖7是TAL核酸酶的示意結構圖。TAL DNA結合域的識別位點用大寫字母表示,而間隔序列用小寫字母表示。圖8是17個半串聯重復的AvrBs3識別結構域的氨基酸序列(SEQ ID NO: 16)。加框的是位置12和13的高變氨基酸。
圖9顯示檢測TAL有效性的酵母分析方案。圖10繪制了 AvrBs3 TAL核酸酶的酵母分析結果。圖11顯示單、雙、三重AsvBs3重復模塊和克隆載體的示意圖。圖12A和12B表示大多數TAL效應子中重復區域末端存在的單一代表性TAL效應子重復(圖12A)以及代表性截短重復(圖12B)。顯示核苷酸和編碼的氨基酸序列。N代表編碼RVD (用“ XX”表示)的核苷酸。數字表示氨基酸位置。序列取自tallc。圖13的示意圖描繪tallc基因,還顯示重復區域減為單一、截短重復序列,產生PCS487的過程。M, MscI位置;S,SphI位置。圖14的示意圖顯示在pCS487的原始截短重復序列末端導入翻譯沉默突變以形成PspXI和XhoI位點,產生pCS489。顯示原始重復(SEQ ID N0:21)和突變重復(SEQ IDN0:23)中密碼子18-21的序列。編碼的氨基酸序列(SEQ ID NO:22)沒有被突變改變。突變的核苷酸用斜體表不。圖15是卡那霉素抗性質粒PCS488的圖,其僅在Gateway進入載體pENTR-D (英杰公司(Invitrogen),加利福尼亞州卡爾斯巴德)中編碼tallc的N和C末端部分,沒有所述
重復區域。圖16是命名為pCS493的單一重復起始質粒圖,其編碼具有RVD NI的重復序列。三種名為pCS494、pCS495和pCS496的其他質粒相同,除了其編碼的RVD (右邊所示)。圖17A顯示具有RVD NI的單一重復模塊的核苷酸和編碼的氨基酸序列。下劃線表示5’ XhoI相容性粘性末端,MscI位點,和3’ PspXI/XhoI相容性粘性末端。粗體顯示RVD和編碼其的核苷酸。構建與所示相同的3種其他重復模塊,除了分別編碼HD、NI和NG的RVD編碼序列不同。圖17B是名為pCS502的單一重復模塊質粒圖,其含有圖17A所示重復編碼序列。還生成與PCS502相同的名為pCS503、pCS504和pCS505的質粒,除了其編碼的RVD (右邊所示)。圖18A顯示具有RVD NI的單一重復模塊的核苷酸和編碼的氨基酸序列,其中核苷酸取代(斜體)阻止連接到PspXI/XhoI位點后5’末端XhoI位點的重建并破壞內部MscI位點。粗體顯示RVD和其編碼核苷酸。構建與所示相同的3種其他重復模塊,除了分別編碼HD、NI和NG的RVD編碼序列不同。圖18B是通過將其他重復模塊依次連接到單一重復模塊質粒中組裝的三種重復模塊的示意圖。所述第一重復中的MscI位點和3’末端的PspXI位點仍為獨特的,且整個模塊側接有兩個Xho I位點。圖19是一、ニ和二重復模塊質粒的完整組列表。圖20的流程圖顯示可用于組裝任何重復序列到tallc “主干”中生成自定義TAL效應子基因的方法步驟。圖21A和21B的示意圖顯示構建靶向所示核苷酸序列的TAL內切核酸酶中重復模塊的組裝。在圖21A中,質粒pCS519、pCS524、pCS537、pCS551、pCS583和pCS529的重復模塊依次添加到起始質粒pCS493的序列中,產生質粒pMAT55、pMAT56、pMAT57、pMAT58、pMAT59和pMAT60。在圖21B中,質粒pCS530、pCS533、pCS522和pCS541的重復模塊依次添加到質粒 pMATl 的序列中,產生質粒 pMAT61、pMAT62、pMAT63 和 pMAT64。圖22A是TAL效應子蛋白的示意圖。BamHI片段(由B表示)融合FokI內切核酸酶的催化結構域產生TALEN。N,N-末端;NLS,核定位信號;B,BamHI位點,AD,酸性激活域。圖22B描繪了用TAL效應子AvrBs3和PthXoI構建的TALEN的活性。Avr-FokI、AvrBs3TALEN;Pth-FokI、PthXoI TALEN、Avr_FokI 和 Pth-FokI、AvrBs3 和 PthXol 融合催化失活形式的 FokI (Bitinaite 等(1998)Proc. Natl. Acad. Sci. USA 95:10570-10575);含有Zif268 DNA 結合域的鋅指核酸酶 ZFN (Porteus 和 Baltimore (2003) Science 300:763)。圖23是參比PthXol氨基酸序列(SEQ ID NO: 31)。圖24 是參比 PthXoI 核酸序列(SEQ ID NO: 32)。 圖25是pFZ85載體圖。圖26 顯示 avrBs3_TALEN 的氨基酸序列(SEQ ID NO: 33 )。圖27 顯示 pthXo 1_TALEN 的氨基酸序列(SEQ ID NO: 34)。圖28A描繪AvrBs3和PthXo I TALENS在具有不同間隔長度的靶標上的活性。ZFN,Zif268-衍生的鋅指核酸酶。圖28B描繪異型ニ聚TALEN的活性。顯示含有PthXol-FokI和AvrBs3-FokI表達載體和具有靶標的質粒的酵母中的活性(Avr-FokI,Pth-FokI),所述革巴標由頭尾方向被15bp分離的各識別位點組成。還顯示單獨AvrBs3 (Avr-FokI)和PthXol(Pth-FokI)TALENS以及Zif268 (ZFN)在其各自靶標上的活性作為參考。作為陰性對照,對僅具有Avr-FokI、Pth-FokI靶位點質粒的酵母培養物分析LacZ活性(顯示為(-))。圖29A的表顯示個體自定義TALEN和其各DNA識別序列的RVD序列。圖29B描繪自定義TALEN的活性。(-),僅具有靶位點質粒的陰性對照;ZFN,鋅指核酸酶陽性對照。圖30顯示20個靶向和TAL效應子對的末端核苷酸和RVD頻率。圖31 是 Golden Gate 克隆系統的不意圖[Engler 等(2008)PLoS One 3:e3647;和 Engler 等(2009)PLoS One 4:e5553]。圖32A和32B顯示用本文所述Golden Gate克隆方法組裝和克隆自定義TAL效應子重復編碼陣列的58個質粒組。Tet,四環素抗性基因,質粒選擇標記;speC,壯觀霉素抗性基因,質粒選擇標記;amp,氨芐青霉素抗性基因,質粒選擇標記。圖33顯示用圖32所示質粒組通過Golden Gate克隆方法組裝和克隆自定義TAL效應子重復編碼陣列的方法示意圖。為了闡明目的,顯示任意的重復陣列組裝。spec,壯觀霉素抗性基因,質粒選擇標記;amp,氨芐青霉素抗性基因,質粒選擇標記。圖34A-34U顯示如本文實施例9所述生成的TALEN的氨基酸序列。圖34A,端粒酶-TALEN124;圖 34B, gridlock_TALEN105;圖 34C, adhl_TALEN58;圖34D,adhl-TALEN63;圖 34E, adhl_TALEN68;圖 34F, adhl_TALEN73;圖 34G, adhl_TALEN89;圖 34H, gridlock-TALEN106;圖 341,adhl_TALEN64;圖 34J, adhl_TALEN69;圖34K, adhl-TALEN74;圖 34L, tt4-TALEN90;圖 34M,端粒酶-TALEN121;圖 34N,端粒酶-TALEN126;圖 340,gridlock_TALEN107;圖 34P, gridlock_TALEN117;圖 34Q,端粒酶-TALEN131;圖 34R,端粒酶-TALEN136;圖 34S, adhl_TALEN60;圖 34T, tt4_TALEN85;圖34U, gridlock-TALEN102。圖35描繪了酵母試驗檢測的TALEN活性,使用長度增加(9_、10-、12-、13-、15-、16-、17-、或18聚體)的自定義TALEN單體。TALEN靶向擬南芥(Arabidopsis)和斑馬魚基因,如圖所示。圖36A顯示被兩種TALEN對靶向的擬南芥ADHl基因的兩種不同DNA靶序列。圖36B描繪靶向擬南芥 ADHl基因的功能性TALEN對的酵母試驗數據。圖37A是用于檢測擬南芥原生質體中TALEN誘導突變的限制性內切核酸酶試驗的示意圖。圖37B顯示所述限制性內切核酸酶試驗中未消化DNA的9種克隆序列。所述克隆中6種具有非同源末端連接(NHEJ)導入的突變。圖38A顯示數種系統發生學上不同TAL效應子的第0重復序列,番茄細菌性斑點病菌(Xanthomonas gardneri )的AvrHah I、辣椒細菌性瘡痂病菌(X. campestrispv. vesicatoria)的 AvrBs3、水稻白葉枯病菌(X. oryzae pv. oryzae)的 PthXol、柑桔潰瘍病(X. citriMtJ PthA和水稻細菌性條斑病菌(X. oryzae pv. oryzicola)的Tallc。加框表示多態性位置。圖38B的示意圖顯示PthXol的第0和第I重復。“第0”重復緊接第I重復之前,顯示35%的相同性,且具有相似的預測ニ級結構。第I重復的RVD和第0重復的候選類似殘基用下劃線表示。*,缺ロ ;H,螺旋;E,延伸。用JPred預測結構(Cole等(2008)Nucl. Acids Res. 36:W197-W201)。圖39顯示從轉染有質粒的人胚胎腎293T細胞分離的總蛋白的western印跡,所述質粒編碼所示帶V5-標簽的TAL效應蛋白AvrBs3、PthXol和TalIc,然后用小鼠抗V5抗體進行免疫檢測。所示經免疫標記的肌動蛋白作為各泳道等量上樣的對照。圖40A 顯示 TALEN HPRT-3254-17 的氨基酸序列,圖 40B 顯示 TALENHPRT-3286_20r的氨基酸序列。圖4IA的示意圖顯示人染色體HPRT基因中的TALEN靶向位點。顯示HPRT-3254-17和HPRT-3286-20r TALEN的結合位點、這些位點間隔中的BpulOI位點、和擴增所述區域的引物位點。底部坐標給出編碼序列的第一核苷酸中堿基對的距離。圖41B顯示圖41A所示區域的PCR擴增產物的BpulOI消化結果,用來自TALEN處理或未處理細胞的分離基因組DNA作為模板。擴增前用BpulOI消化基因組DNA。用瓊脂糖凝膠電泳分離DNA片段并用溴化こ啶觀察。
具體實施例方式本專利申請提供涉及TAL效應子介導的序列特異性DNA識別的材料和方法。如本文所述,TAL效應子的初級氨基酸序列決定了其結合的核苷酸序列。發明人發現TAL效應子氨基酸序列和其DNA靶序列之間的關系是直接的,從而能預測TAL效應子的靶位置,還可定制TAL效應子以結合具體的核苷酸序列。可出于各種目的利用所述預測和定制。在ー個實施例中,具體TAL效應子序列可融合內切核酸酶序列,使內切核酸酶靶向特異DNA序列,井隨后在靶序列或其附近切割DNA。DNA中的切割(即雙鏈斷裂)可顯著增加同源重組的頻率。因此,聯合載有與具體靶DNA序列有高度序列相似性的序列的DNA構建體,TALEN可用于促進復雜基因組中的定點誘變,即高度準確的高效敲除或改變基因功能,或添加基因或其他序列。因此,本文提供的主題內容包括但不限于,生成遺傳改良生物體(包括但不限于植物、真菌、果蠅(Drosophila)、線蟲、斑馬魚、小鼠、其他哺乳動物和人)的材料和方法。該方法可包括例如,用數種重組核酸轉染細胞。例如,細胞(如真核細胞)可用含供體核苷酸序列的第一重組核酸構建體和編碼TAL核酸酶的第二重組核酸構建體轉化,所述供體核苷酸序列包括相對于所述細胞中所發現相應靶核苷酸序列發生的改變。在一些實施方式中,所述細胞還可用編碼可選擇標記物的第三重組核酸構建體轉化。如本文所述,供體核酸構建體的核酸序列可變為納入轉化細胞的基因組中。例如,用本文所述方法產生的植物細胞可生長至產生將已改變供體核苷酸序列納入到其基因組中的植物。該植物的種子可用于生產具有表型的植物,所述表型例如相對未修飾植物的生長特征改變(如對各種生物和非生物壓カ的抗性或耐受性增加)、外觀改變(如改變的顏色或高度)或組成改變(如碳、氮、油、蛋白、糖(例如糖或淀粉)、氨基酸、脂肪酸或次級代謝物的水平增加或減少)。多核苷酸和多肽本文提供分離的核酸和多肽。術語“核酸”和“多核苷酸”可互換使用,指RNA和DNA,包括cDNA、基因組DNA、合成(如化學合成的)DNA和含核酸類似物的DNA (或RNA)。多核苷酸可具有任何三維結構。核酸可為雙鏈或單鏈(即有義鏈或反義單鏈)。多核苷酸的非限制性示例包括基因、基因片段、外顯子、內含子、信使RNA(mRNA)、轉移RNA、核糖體RNAjI酶、cDNA、重組多核苷酸、分支多核苷酸、質粒、載體、任何序列的分離DNA、任何序列的分離 RNA、核酸探針和引物、以及核酸類似物。本發明的多肽(例如TAL效應子-DNA修飾酶作為非限制性示例)可通過編碼例如所述多肽的載體導入細胞或用遞送載體將多肽本身導入細胞,所述遞送載體關聯或組合任何細胞透化技術例如聲穿孔或電穿孔或這些技術的衍生技術。如本文所用,涉及核酸吋,“分離的”指與基因組如植物基因組中存在的其他核酸分離的核酸,包括正常側接基因組中核酸的ー側或兩側的核酸。本文所用術語“分離的”涉及核酸時還包括任何非天然產生的序列,因為所述非天然產生的序列未在天然情況下發現且其在天然產生的基因組中沒有緊鄰序列。分離的核酸可為例如DNA分子,只要在天然產生基因組中正常發現與該DNA分子直接側接的核酸序列之一被移除或缺失。因此,分離的核酸包括但不限干,不依賴其他序列作為單獨分子(如化學合成的核酸,或PCR或限制性內切核酸酶處理產生的cDNA或基因組DNA片段)存在的DNA分子,以及納入載體、自主復制質粒、病毒(如擬逆轉錄病毒、逆轉錄病毒、慢病毒、腺病毒或皰疹病毒)的DNA,或原核或真核的基因組DNA。此外,分離的核酸可包括重組核酸如作為部分雜交或融合核酸的DNA分子。例如cDNA庫或基因組庫內的數百個到數百萬其他核酸中存在的核酸,或含有基因組DNA限制性酶消化物的凝膠切塊不視作分離的核酸。核酸可通過例如化學合成或聚合酶鏈式反應(PCR)生產。PCR指擴增靶核酸的程序或技木。PCR可用于從DNA以及RNA中擴增特定序列,包括總基因組DNA或總細胞RNA的序列。各種PCR方法如PCR Primer: A Laboratory Manual (〈〈PCR弓丨物實驗室手冊》),Dieffenbach和Dveksler編,冷泉港實驗室出版社(Cold Spring HarborLaboratory Press), 1995所述。通常,用感興趣區域末端或超出其的序列信息來設計寡核苷酸引物,其與待擴增模板相反鏈的序列相同或相似。還可用各種PCR策略,通過其可將位點特異性核苷酸序列修飾導入模板核酸。分離的核酸還可通過突變獲得。例如,供體核酸序列可用標準技術突變,包括寡核苷酸定點突變和通過PCR的定點突變。參見,Short Protocols in MolecularBiology (《分子生物學簡明實驗方案》),第8章,格林出版聯合公司(Green PublishingAssociates, Inc.)和約翰威利公司(John Wiley and Sons, Inc. ),Ausubel 等編,1992。本文所用術語“多肽”指兩種或多種亞基氨基酸的化合物,無論是否經過翻譯后修飾(如磷酸化或糖基化)。所述亞基用肽鍵或其他鍵例如酯鍵或醚鍵連接。術語“氨基酸”指天然和/或非天然或合成的氨基酸,包括D/L光學異構體。涉及多肽吋,“分離的”或“純化的”表示所述多肽一定程度上分離自胞組分,其通常天然存在(如其他多肽、脂質、糖和核酸)。純化的多肽可在非還原性聚丙烯酰胺凝膠上產生單一主條帶。純化的多肽純度可至少為約75% (例如純度至少80%、85%、90%、95%、97%、98%、99%或100%)。純化的多肽可通過例如從天然來源提取、化學合成或者宿主細胞或轉基因植物中的重組生成而獲得,且可用例如親和色譜、免疫沉淀、尺寸排阻色譜和離子交換色譜而純化。純化的程度可通過任何合適的方法測量,包括但不限于柱色譜、聚丙烯酰胺凝膠電泳、或高效液相色譜。 重組構建體本文還提供重組核酸構建體(例如載體)。“載體”是復制子,例如質粒、噬菌體或粘粒,其中插入另一 DNA區段以使所插入區段進行復制。通常,載體與合適的控制元件關聯時能復制。合適的載體主干包括例如,本領域通常使用的那些如質粒、病毒、人工染色體、BAC、YAC、或PAC。術語“載體”包括克隆和表達載體以及病毒載體和整合載體。“表達載體”是包括ー種或多種表達控制序列的載體,且“表達控制序列”是控制和調節另一 DNA序列轉錄和/或翻譯的DNA序列。合適的表達載體包括但不限于衍生自例如噬菌體、桿狀病毒、煙草花葉病毒、皰疹病毒、細胞巨化病毒、逆轉錄病毒、牛痘病毒、腺病毒、和腺相關病毒的質粒和病毒載體。大量載體和表達系統可從例如下述公司購得諾瓦基公司(Novagen)(威斯康星州麥迪遜)、克隆泰克公司(Clontech)(加州帕洛阿爾托)、司查塔基公司(Stratagene)(加利福尼亞州拉由拉市)和英杰/生命技術公司(Invitrogen/Life Technologies)(加利福尼亞州卡爾斯巴德)。術語“調節區域”、“控制元件”和“表達控制序列”指影響轉錄或翻譯起始和速率,以及轉錄或多肽產物的穩定性和/或移動性的核酸序列。調控區域包括但不限于,啟動子序列、增強子序列、響應元件、蛋白識別位點、誘導型元件、啟動子控制元件、蛋白結合序列、5’和3’非翻譯區(UTR)、轉錄起始位點、終止序列、聚腺苷酸化序列、內含子和其他可存在于編碼序列中的調節區域,例如分泌信號、核定位序列(NLS)和蛋白酶切割位點。本文所用的“可操作性連接”表示納入遺傳構建體從而表達控制序列有效控制感興趣的編碼序列表達。當RNA聚合酶能轉錄編碼序列到RNA中,其若為mRNA則可翻譯為所述編碼序列編碼的蛋白時,編碼序列“可操作性連接”細胞中的表達控制序列和“在其控制之下”。因此,調控區域可調節例如調控、促進或驅動需要表達修飾靶核酸的植物細胞、植物或植物組織中的轉錄。啟動子是由DNA分子區域組成的表達控制序列,通常在轉錄起始位點上游的100核苷酸內(一般接近RNA聚合酶II的起始位點)。啟動子參與RNA聚合酶和其他蛋白的識別和結合以起始并調節轉錄。為了將編碼序列置于啟動子控制之下,通常需要將所述多肽的翻譯閱讀框的翻譯起始位點置于所述啟動子下游的I-約50核苷酸。但是,啟動子可置于所述翻譯起始位點上游的多至約5000核苷酸處,或翻譯起始位點上游的約2000核苷酸處。啟動子通常包括至少ー個核心(基礎)啟動子。啟動子還可包括至少ー種控制元件例如上游元件。所述元件包括上游激活區(UAR)和任選地影響多核苷酸轉錄的其他DNA序列如合成的上游元件。
選擇要包括的啟動子取決于數種因素,包括但不限于功效、選擇能力、誘導能力、所需的表達水平和細胞或組織特異性。例如,可使用僅或主要在具體組織、器官和細胞類型中分別產生轉錄的組織_、器官-和細胞-特異性啟動子。在一些實施方式中,植物組織特異性啟動子可為合適的調節區域,所述組織如莖干、軟組織、基本分生組織、維管束、形成層、韌皮部、外皮、芽頂端分生組織、側芽分生組織、根頂端分生組織、側根分生組織、葉原基、葉肉或葉表皮。在一些實施方式中,主要特異于種子的啟動子(“種子優先啟動子”)有用。種子特異性啟動子可在種子發育期間促進胚乳和子葉組織中可操作連接核酸的轉錄。或者,組成型啟動子可在整個植物發育期間促進大多數或所有植物組織中可操作連接核酸的轉錄。其他類型啟動子包括但不限于誘導型啟動子,例如響應外部刺激如化學剤、發育刺激或環境刺激而產生轉錄的啟動子。基礎啟動子是轉錄起始所需轉錄復合物組裝必要的最小序列。基礎啟動子通常包括可能位于轉錄起始位點上游約15-約35核苷酸的“TATA盒”元件。基礎啟動子還可包括“CCAAT盒”元件(通常為序列CCAAT)和/或GGGCG序列,其可位于轉錄起始位點上游約40-約200核苷酸,通常為約60-約120核苷酸。可包括在本文所提供核酸構建體中的啟動子非限制性示例包含花椰菜花葉病毒(CaMV) 35S轉錄起始區域、衍生自根癌農桿菌(Agrobacterium tumefaciens)T-DNA的I’或2’啟動子、Busk((1997)Plant J. 11:1285-1295)所述的玉米葉片特異基因啟動子、玉米和其他物種的knl-相關基因、以及各種植物基因的轉錄起始區域如玉米泛素I啟動子。5’非翻譯區(UTR)轉錄但不翻譯,位于轉錄起始位點和翻譯起始密碼子之間,可包括+1核苷酸。3’UTR可位于翻譯終止密碼子和轉錄末端之間。UTR可具有特定功能如增加mRNA信使穩定性或翻譯衰減。3’ UTR的示例包括但不限于聚腺苷酸信號和轉錄終止序列。編碼區域3’末端的聚腺苷酸區還可操作性連接編碼序列。所述聚腺苷酸區可衍生自天然基因、多種其他植物基因、或農桿菌(Agrobacterium) T-DNA。本文提供的載體還可包括例如復制起點和/或支架連接區(SAR)。此外,表達載體可包括設計用于協助操作或檢測(例如純化或定位)所表達多肽的標簽序列。標簽序列如綠色熒光蛋白(GFP)、谷胱甘肽S轉移酶(GST)、聚組氨酸、c-myc、血細胞凝集素或Flag 標簽(柯達公司(Kodak),康涅狄格州紐黑文)序列通常表達為與編碼多肽的融合物。所述標簽可插入所述多肽內的任何位置,包括羧基或氨基末端。“遞送載體”或“多種遞送載體”表示本發明可采用的任何遞送載體,用于將本發明需要的試劑/化學品和分子(蛋白或核酸)與細胞接觸或遞送到細胞內或亞細胞組分內。其包括但不限于脂質體遞送載體、病毒遞送載體、藥物遞送載體、化學運載體、聚合物運載體、脂復合體、多聚復合體、樹狀聚合物、微泡(超聲造影剤)、納米顆粒、乳劑或其他合適的轉移載體。這些遞送載體可遞送分子、化學品、大分子(基因、蛋白)或其他載體如質粒、Diatos公司開發的肽。在這些情況中,遞送載體為分子運載體。“遞送載體”或“多種遞送載體”還指進行轉染的遞送方法。術語“載體”或“多種載體”指能夠轉運其所連接的另ー核酸的核酸分子。本發明中的“載體”包括但不限于病毒載體、質粒、RNA載體或線性或環形DNA或RNA分子,其可由染色體、非染色體、半合成或合成核酸組成。載體優選能自主復制(附加型載體)和/或表達其連接的核酸(表達載體)。大量合適的載體為本領域技術人員已知,并可市售獲得。病毒載體包括逆轉錄病毒、腺病毒、細小病毒(如腺伴隨病毒)、冠狀病毒、負鏈RNA病毒如正粘病毒(如流感病毒)、彈狀病毒(如狂犬病毒和水泡性口炎病毒)、副粘病毒(如麻疹和仙臺)、正鏈RNA病毒如小RNA病毒和甲型病毒、和雙鏈DNA病毒,包括腺病毒、皰疫病毒(如I和2型單純性皰疫病毒、EB病毒、巨細胞病毒)、和痘病毒(如牛痘、鳥痘和金絲雀痘)。其他病 毒包括例如諾沃克病毒、外衣病毒、黃病毒、呼吸道腸道病毒、乳多空病毒、嗜肝DNA病毒、和肝炎病毒。逆轉錄病毒的例子包括鳥白血病肉瘤、哺乳動物C型、B型病毒、D型病毒、HTLV-BLV組、慢病毒、泡沫病毒(Coffin, J. M.,Retroviridae:Theviruses and their replication (“逆轉錄病毒病毒和其復制”),收錄于 FundamentalVirology (《基礎病毒學》)第3版,B.N. Fields,等編,費城的林普科特瑞文出版社(Lippincott-Raven Publishers),1996)。-“慢病毒載體”表示就基因遞送極具前景的基于HIV的慢病毒載體,因為其包裝容量相對較大、免疫原性低且能高效穩定轉導大范圍的不同細胞類型。慢病毒載體通常在三種(包裝、包膜和轉移)或更多質粒瞬時轉染到生產細胞后生成。類似HIV,慢病毒載體通過病毒表面糖蛋白與細胞表面受體的相互作用進入靶細胞。進入后,所述病毒RNA通過病毒逆轉錄酶復合物介導進行逆轉錄。逆轉錄的產物是雙鏈線性病毒DNA,其是受感染細胞DNA中病毒整合的底物。所述慢病毒載體可為“非整合”或“整合”。-“整合的慢病毒載體(或LV)”指能整合到靶細胞基因組中的非限制性示例載體。-相反的“非整合慢病毒載體(或NILV)”表示不通過病毒整合酶作用整合靶細胞基因組的有效基因遞送載體。一種優選的載體是附加體,即能在染色體外復制的核酸。載體優選能自主復制和/或表達其連接的核酸。能引導其操作性連接基因表達的載體在本文中稱為“表達載體”。本 發明的載體包括但不限于YAC (酵母人工染色體)、BAC (細菌人工染色體)、桿狀病毒載體、噬菌體、噬菌粒、粘粒、病毒載體、質粒、RNA載體或線性或環形DNA或RNA分子,其可由染色體、非染色體、半合成或合成DNA組成。一般,重組DNA技術中利用的表達載體常為“質粒”的形式,通常指環狀雙鏈DNA環,其載體形式不結合染色體。本領域技術人員已知大量合適的載體。載體可含選擇標記物,例如用于真核細胞培養物的新霉素磷酸轉移酶、組氨醇脫氫酶、ニ氫葉酸還原酶、潮霉素磷酸轉移酶、單純皰疹病毒胸苷激酶、腺苷脫氨酶、谷氨酰胺合成酶、和次黃嘌呤鳥嘌呤磷酸核糖基轉移酶;用于釀酒酵母(S. cerevisiae)的TRPl ;大腸桿菌(E. coli)中的四環素、利福平或氨芐青霉素抗性。所述載體優選為表達載體,其中編碼感興趣多肽的序列置于合適的轉錄和翻譯控制元件控制下以生產或合成所述多肽。因此,所述多核苷酸包括在表達盒中。更具體的,所述載體包括復制起點、可操作連接所述編碼多核苷酸的啟動子、核糖體結合位點、RNA剪接位點(用基因組DNA吋)、聚腺苷酸化位點和轉錄終止位點。其還可包括增強子或沉默子元件。啟動子的選擇取決于表達多肽的細胞。合適的啟動子包括組織特異性和/或誘導型啟動子。誘導型啟動子的示例有由重金屬水平増加誘導的真核金屬硫蛋白啟動子、響應異丙基-P-D-硫代吡喃半乳糖苷(IPTG)而誘導的原核IacZ啟動子和溫度増加誘導的真核熱激蛋白啟動子。組織特異性啟動子的示例為骨骼肌肌氨酸激酶、前列腺特異抗原(PSA)、a-抗胰蛋白酶、人表面活性蛋白(SP)A和B、^酪蛋白和酸性乳清蛋白基因。誘導型啟動子可由病原體或壓カ誘導,更優選由諸如冷、熱、UV光、或高離子濃度等壓カ誘導(綜述見Potenza等(2004) In vitro Cell Dev Biol 40:1-22)。誘導型啟動子可由化學品誘導[綜述見Moore等(2006) ; Padidam(2003) ; (Wang等(2003);和(Zuo和Chua (2000)]。遞送載體和載體可關聯或組合任何細胞透化技術例如聲穿孔或電穿孔或這些技術的衍生技術。應理解重組多核苷酸中可存在多于ー個調節區域,如 內含子、增強子、上游激活區域和誘導型元件。重組核酸構建體可包括插入適于轉化細胞(如植物細胞或動物細胞)的載體中的多核苷酸序列。重組載體可用例如標準重組DNA技術制備(參見例如,Sambrook等(1989)Molecular Cloning, A Laboratory Manual (《分子克降,實驗室手冊》)第2版;紐約少H冷泉港的冷泉港實驗室公司(Cold Spring Harbor Laboratory, Cold Spring Harbor, N. Y.)) 本文所述重組核酸序列能通過非常規(即隨機、非同源、非位點特異)重組納入細胞的基因組中,或本文所述重組核酸序列適于通過同源重組納入細胞的基因組中。適于通過同源重組整合的核酸序列側接與內源靶核苷酸序列相似或相同序列的兩側,這有助于重組核酸在含有內源靶核苷酸序列的基因組中具體位點的整合。適于通過同源重組整合的核酸序列還包括序列特異性核酸酶的識別位點。或者,序列特異性核酸酶的識別位點可位于待轉化的細胞基因組中。下述供體核酸序列通常適于通過同源重組整合。在一些實施方式中,編碼可選擇標記物的核酸還可適于通過同源重組整合,且因此可側接與所述植物基因組內的內源序列(如序列特異性核酸酶的切割位點的內源序列)相似或相同的序列兩側。在一些情況中,含選擇性標記物編碼序列的核酸還可包括序列特異性核酸酶的識別位點。在這些實施方式中,序列特異性核酸酶的識別位點可與供體核酸序列中所含的相同或不同(即可被與供體核酸序列相同的核酸酶識別,或被與供體核酸序列不同的核酸酶識別)。在一些情況中,重組核酸序列可適于通過位點特異性重組整合到細胞基因組中。本文所用的“位點特異性”重組指核酸序列靶向基因組中具體位點時發生的重組,不通過重組核酸內序列和基因組內序列之間的同源性,而是通過識別特異性核酸序列并催化這些位點之間DNA鏈相互交換的重組酶作用。因此,位點特異性重組指酶介導的兩種確定核苷酸序列的切割和連接。可使用任何合適的位點特異性重組系統,包括例如Cre-Iox系統或FLP-FRT系統。在這些實施方式中,除了供體核苷酸序列和核酸酶編碼序列以外,還可將編碼重組酶的核酸導入細胞,且在一些情況中,將選擇標記物序列導入細胞。參見例如,美國專利號 4,959,317。序列特異性內切核酸酶本文提供序列特異性核酸酶和編碼所述序列特異性內切核酸酶的重組核酸。序列特異性內切核酸酶可包括TAL效應子DNA結合域和內切核酸酶結構域。因此,編碼該序列特異性內切核酸酶的核酸可包括來自連接核酸酶核苷酸序列的核酸特異性TAL效應子的核苷酸序列。
TAL效應子是植物病原菌蛋白,其通過所述病原體注入植物細胞,其中所述蛋白進入細胞核并作為轉錄因子啟動特定植物基因。TAL效應子的初級氨基酸序列決定其結合的核苷酸序列。因此,可根據TAL效應子預測靶位置,且如本文所述,TAL效應子還可被工程改造并生成以用于結合具體核苷酸序列。融合TAL效應子編碼核酸序列的是編碼核酸酶或部分核酸酶的序列,通常為II型限制性內切核酸酶如FokI的非特異性切割結構域(Kim等(1996) Proc. Natl. Acad. Sci. USA93:1156-1160)。其他有用的內切核酸酶可包括例如HhaI、HindIII、NotI、BbvCI、EcoRI、BglIjP Alwl。可利用一些內切核酸酶僅作為ニ聚物起作用的現象來提高TAL效應子的靶特異性。例如,在一些情況中,各FokI単體可融合識別不同DNA靶序列的TAL效應子序列,且僅當兩個識別位點足夠接近時所述失活的單體才會在一起產生功能性酶。通過需要DNA結合以活化所述核酸酶,可產生高度位點特異的限制性酶。 本文提供的序列特異性TALEN可識別細胞中存在的預選定靶核苷酸序列內的具體序列。因此,在一些實施方式中,可掃描靶核苷酸序列的核酸酶識別位點,且可根據靶序列選擇具體的核酸酶。在其他情況中,TALEN可工程改造成靶向具體的細胞序列。編碼所需TALEN的核苷酸序列可插入任何合適的表達載體,且可連接ー種或多種表達控制序列。例如,核酸酶編碼序列可操作性連接待轉化植物物種中引導所述內切核酸酶組成型表達的啟動子序列。或者,內切核酸酶編碼序列可操作性連接引導條件性表達的啟動子序列(例如,在某些營養條件下表達)。例如,花椰菜花葉病毒35S啟動子可用于組成型表達。其他組成型啟動子包括但不限于胭脂堿合成酶啟動子、泛素啟動子和肌動蛋白啟動子。在一些實施方式中,人工雌激素誘導啟動子可用于條件性表達,且高水平的轉錄可在植物暴露于雌激素時實現。其他可用的條件啟動子包括例如,熱誘導熱激蛋白基因啟動子和光調節啟動子例如來自編碼ニ磷酸核酮糖羧化酶啟動子大亞基的基因。為了治療目的,將本發明的TAL效應子DNA修飾酶和藥學上可接受的賦形劑以治療有效量給予。若給予量為生理上顯著,則稱該組合以“治療有效量”給予。若試劑使接受者的生理發生可檢測的變化,則該試劑為生理上顯著。本文中,若試劑的存在使ー種或多種靶疾病的癥狀嚴重性和損傷或異常的基因組修正降低,則該試劑為生理上顯著。包括靶向DNA和/或編碼TAL效應子DNA修飾酶的核酸的載體可通過各種方法導入細胞(如注射、直接攝取、彈轟擊、脂質體、電穿孔)。TAL效應子DNA修飾酶可用表達載體在細胞中穩定或瞬時表達。真核細胞表達技術為本領域技術人員已知。(參見Current Protocols in HumanGenetics (《新編人類遺傳學實驗方案》):第12章“Vectors For Gene Therapy (基因治療載體)”和第13章“Delivery Systems for Gene Therapy (基因治療的遞送系統)”)。本發明的另一方面,所述TAL效應子DNA修飾酶基本無免疫原性,即造成很小或沒有不良的免疫反應。可根據本發明使用改善或消除此類有害免疫反應的各種方法。在優選實施方式中,TAL效應子DNA修飾酶基本沒有N甲酰甲硫氨酸。避免不需要免疫反應的另一方法是偶聯TAL效應子DNA修飾酶和聚こニ醇(〃PEG〃)或聚丙ニ醇(〃PPG〃)(平均分子量(MW)優選500-20,000道爾頓)。例如Davis等(US 4,179,337)所述,與PEG或PPG偶聯可提供具有抗病毒活性的非免疫原性、生理活性、水溶性TAL效應子DNA修飾酶偶聯物。還使用聚こニ醇-聚丙烯醇共聚物的相似方法如Saifer等(US 5, 006, 333)所述。供體載體
本文還提供包括供體核苷酸序列的重組核酸。供體核苷酸序列可包括與待轉化細胞的基因組內源的預選定靶核苷酸序列相比具有一種或多種修飾(即取代、缺失或插入)的變體序列(本文還稱為“修飾的靶核苷酸序列”)。供體核酸內的變體序列通常側接與細胞內源靶核苷酸序列相似或相同的序列兩側。側接序列可具有任何合適的長度,且通常至少長50核苷酸(如至少50核苷酸、至少75核苷酸、至少100核苷酸、至少200核苷酸、至少250核苷酸、至少300核苷酸、至少500核苷酸、至少750核苷酸、至少1000核苷酸、約50-約5000核苷酸、約100-2500核苷酸、約100-約1000核苷酸、約100-500核苷酸、約200-約500核苷酸、或約250-400核苷酸)。因此,同源重組可在重組供體核酸構建體和所述變體序列兩側的內源靶標之間發生,從而得到的細胞基因組在來自例如相同基因的內源序列環境中包含所述變體序列。可生成供體核苷酸序列以靶向基因組中任何合適序列。例如在植物中,供體核苷酸序列可靶向脂質生物合成基因、糖生物合成基因、種子貯藏蛋白基因、抗病或抗蟲基因、壓カ耐受 基因、耐旱基因、或生成抗營養因子的基因。此外,所述供體核苷酸序列包含本文所述序列特異性核酸酶的識別位點。選擇標記物本文提供的ー些方法包括使用編碼可選擇或可篩選標記物的第三重組核酸。產生可選擇特性的編碼多肽的核苷酸序列可納入含有ー種或多種表達控制序列的表達載體中。例如,表達載體可包括編碼可選擇標記物的序列,其可操作性連接待轉化植物細胞中引導組成型表達的啟動子序列。合適的可選擇標記可包括但不限于,對抗生素如卡那霉素、G418、博來霉素、氨芐青霉素或潮霉素產生抗性的多肽,或除草劑如草丁膦、氯磺隆、或草胺膦。例如在用于植物的實施方式中,可選擇的標記物可產生對除草劑的抗性,除草劑抑制生長點或分生組織,如咪唑并啉酮或磺酰服。該分類編號中用于突變ALS和AHAS酶的示例性多肽如美國專利號5,767,366和5,928,937所述。美國專利號4,761,373和5,013,659針對耐受各種咪唑并啉酮或磺酰胺除草劑的植物。美國專利號4,975,374涉及含編碼突變鄂谷氨酰胺合成酶(GS)基因的植物細胞和植物,其耐受已知能抑制GS的除草劑如草胺膦和甲硫氨酸磺基肟產生的抑制。美國專利號5,162,602公開了對環己ニ酮和芳氧基苯氧基丙酸除草劑的抑制有抗性的植物。該抗性由改變的こ酰輔酶A羧化酶(ACC酶)產生。用于抗草甘膦的多肽(以商標名Roundup*出售)還適用于植物。參見,例如美國專利號4,940,835和4,769,061。美國專利號5,554,798公開了轉基因草甘膦抗性玉米植物,其抗性是由改變的5-烯醇式丙酮酰-3-磷酸莽草酸(EPSP)合成酶賦予。該多肽會賦予對草甘膦除草劑組合物的抗性,所述組合物包括但不限于草甘膦鹽如三甲基锍鹽、異丙胺鹽、鈉鹽、鉀鹽和鋁鹽。參見例如美國專利號6,451,735和6,451,732。對膦化合物如草丁膦銨或草胺膦、和吡啶氧基或苯氧丙酸以及環己酮有抗性的多肽也適用。參見例如,歐洲
發明者A·波格丹諾維, C·L·施米特, D·F·沃塔斯, E·多伊爾, M·克里斯蒂安, T·瑟馬克, 張峰, 王俐 申請人:明尼蘇達大學董事會, 衣阿華州立大學研究基金會股份有限公司