本申請要求2014年6月23日提交的美國臨時申請No.62/015,809、2014年6月24日提交的美國臨時申請No.62/016,400以及2014年8月13日提交的美國臨時申請No.62/036,983的權益,這些美國臨時申請中的每一篇均據此全文以引用方式并入本文。
作為通過EFS WEB提交的文本文件
通過EFS-Web以電子方式將序列表的正式文本作為ASCII格式的序列表提交,該文件名稱為461002SEQLIST.TXT,創建日期為2015年6月23日,文件大小為66KB,并且該文件與本說明書同時提交。該ASCII格式文檔中所含的序列表是本說明書的一部分,并且全文以引用的方式并入本文。
背景技術:
以往,重疊延伸可用作從重疊合成寡核苷酸合成較大雙鏈DNA分子(特別是基因)的一種手段。然而,這些方法不能有效地以快速的方式組合大DNA分子。此外,使用重疊序列對大核酸進行的位點特異性組合通常受限于重疊序列在待組合的核酸中的所需位置處的可用性。被設計成靶向特異性DNA序列的經工程改造的核酸酶作為遺傳操作的強大工具已經引起人們關注,用這些酶可以進行定向的基因缺失、替換和修復以及外源序列插入。然而,現有技術的缺點在于精確度有限,這可導致不可預知的脫靶效應和耗時的多步反應。
技術實現要素:
本文提供了用于組裝具有重疊序列的核酸的方法。此類方法包括用于組裝至少兩個核酸的方法,該方法包括:(a)使第一核酸與第一核酸酶試劑接觸,其中第一核酸酶試劑在第一靶位點處切割第一核酸,以產生第一經酶切的核酸,在第一經酶切的核酸與第二核酸之間具有重疊末端序列;(b)使第一經酶切的核酸和第二核酸與核酸外切酶接觸,以暴露第一經酶切的核酸與第二核酸之間的互補序列;以及(c)組裝由步驟(b)生成的兩個核酸片段。在一些此類方法中,步驟(c)還包括:(i)使暴露的互補序列退火;(ii)延伸經退火的互補序列的3’端;以及(iii)連接第一核酸和第二核酸。
在一些方法中,步驟(a)還包括使第二核酸與第二核酸酶試劑接觸,其中第二核酸不包含重疊末端序列,并且第二核酸酶試劑在第二靶位點處切割第二核酸,以產生第二經酶切的核酸,在第一經酶切的核酸與第二經酶切的核酸之間具有重疊末端序列,并且其中步驟(b)的第二核酸是第二經酶切的核酸。在一些方法中,重疊末端序列的長度在20bp至200bp的范圍內。
在一些方法中,第一核酸酶試劑或第二核酸酶試劑中的至少一者包含靶向第一靶位點或第二靶位點的Cas蛋白和向導RNA(gRNA)(gRNA-Cas復合物)。例如,Cas蛋白可為Cas9蛋白。Cas9蛋白可包含RuvC結構域和HNH結構域,這兩個結構域中的至少一者缺少核酸內切酶活性。在一些實施例中,gRNA包含編碼成簇的規律間隔的短回文重復序列(CRISPR)RNA(crRNA)和反式激活CRISPR RNA(tracrRNA)的核酸序列。第一靶位點和/或第二靶位點可被前間區序列鄰近基序(PAM)序列側接。在一些方法中,核酸酶試劑包括鋅指核酸酶或轉錄激活因子樣效應物核酸酶(TALEN)。
在一些方法中,第一核酸、第二核酸或這兩個核酸來自細菌人工染色體。細菌人工染色體可包含人DNA、嚙齒動物DNA、合成DNA或它們的組合。細菌人工染色體可包含人序列。
本文所公開的方法包括用于組裝至少兩個核酸的方法,該方法包括:(a)使第一核酸與第一核酸酶試劑和第二核酸酶試劑接觸以產生第一經酶切的核酸,其中第一核酸酶試劑在第一核酸的第一鏈上的第一靶位點處生成切口,并且第二核酸酶試劑在第一核酸的第二鏈上的第二靶位點處生成切口,以產生在其末端之一處包含5’或3’懸垂序列的第一經酶切的核酸;(b)使第一經酶切的核酸和包含與5’或3’懸垂序列互補的序列的第二核酸退火;以及(c)連接第一經酶切的核酸和第二核酸。在一些方法中,步驟(b)還包括使用第二鏈作為模板來延伸第一鏈的3’端,并且使用第一鏈作為模板來延伸第二鏈的3’端。在一些方法中,第一靶位點與第二靶位點相隔至少4bp。
在一些方法中,第一核酸酶試劑或第二核酸酶試劑中的至少一者包含靶向第一靶位點或第二靶位點的Cas9蛋白和向導RNA(gRNA)(gRNA-Cas復合物)。gRNA可包含編碼成簇的規律間隔的短回文重復序列(CRISPR)RNA(crRNA)和反式激活CRISPR RNA(tracrRNA)的核酸序列。在一些方法中,第一靶位點和第二靶位點中的至少一者被前間區序列鄰近基序(PAM)序列側接。Cas9蛋白可包含RuvC結構域和HNH結構域,這兩個結構域中的一者缺少核酸內切酶活性。
在一些方法中,第二核酸不包含與第一經酶切的核酸的5’或3’懸垂序列互補的序列,并且步驟(a)還包括使第一經酶切的核酸和第二經酶切的核酸與接合寡核苷酸接觸,其中接合寡核苷酸包含:(i)與第一經酶切的核酸的5’或3’懸垂序列互補的第一互補序列;以及(ii)與第二經酶切的核酸的5’或3’懸垂序列互補的第二互補序列。在一些方法中,第一核酸、第二核酸或這兩個核酸來源于細菌人工染色體。細菌人工染色體可包含人DNA、嚙齒動物DNA、合成DNA或它們的組合。細菌人工染色體可包含人多核苷酸序列。在一些方法中,第二核酸包含細菌人工染色體。
本文所提供的方法還包括用于組裝兩個或更多個核酸片段的方法,該方法包括:(a)使第一核酸與至少一種核酸酶試劑接觸以生成第一經酶切的核酸;(b)使第一經酶切的核酸與第二核酸、接合寡核苷酸和核酸外切酶接觸,其中接合寡核苷酸包含:(i)與第一經酶切的核酸互補的第一互補序列;(ii)間區序列;以及(iii)與第二核酸互補的第二互補序列;其中核酸外切酶使第一互補序列和第二互補序列暴露;以及(c)將接合寡核苷酸與第一經酶切的核酸和第二核酸組裝在一起。在一些此類方法中,步驟(c)中的組裝包括:(i)使接合寡核苷酸的第一互補序列退火到第一經酶切的核酸上,并使接合寡核苷酸的第二互補序列退火到第二核酸上;以及(ii)將接合寡核苷酸連接到第一經酶切的核酸和第二核酸。
在一些方法中,接合寡核苷酸的第一互補序列和第二互補序列包含15至120個互補堿基。在一些方法中,接合寡核苷酸的間區序列包含非互補核酸。在一些實施例中,第一經酶切的核酸被無縫地組裝到第二核酸。
在一些方法中,核酸酶試劑被設計成從將要進行無縫組裝的第一核酸末端切割至少20bp片段,其中,接合寡核苷酸的間區序列包含與所述至少20bp片段相同的序列,其中在第一互補序列與所述至少20bp片段之間不存在核酸堿基,并且在第二互補序列與所述至少20bp片段之間不存在核酸堿基,使得所述第一核酸與所述接合寡核苷酸和所述第二核酸的組裝重建所述至少20bp片段并無縫地組裝第一核酸和第二核酸。在一些方法中,使用來自第二核酸的至少20bp片段作為間區序列來執行相同方法。在一些方法中,間區序列包含約20bp至約120bp。在一些方法中,第二核酸與第二核酸酶試劑和核酸外切酶接觸,其中第二核酸酶試劑切割第二核酸,以產生包含與接合寡核苷酸的第二互補序列互補的核苷酸序列的第二經酶切的核酸,其中第一經酶切的核酸被組裝到第二經酶切的核酸。在一些方法中,使第二核酸與限制性內切酶或大范圍核酸酶和核酸外切酶接觸,其中限制性內切酶或大范圍核酸酶切割第二核酸,以產生包含與接合寡核苷酸中的第二互補序列互補的核苷酸序列的第二經酶切的核酸,其中第一經酶切的核酸被組裝到第二經酶切的核酸。在一些方法中,在步驟(b)中延伸第一經酶切的核酸和/或第二經酶切的核酸的3’端。接合寡核苷酸可在同一反應中或依次地組裝到所述第一核酸和所述第二核酸上。在一些方法中,第一核酸、第二核酸或這兩個核酸來源于細菌人工染色體,長度為至少10kb,和/或包含人DNA、嚙齒動物DNA、合成DNA或它們的組合。
在一些方法中,所述至少一種核酸酶試劑或第二核酸酶試劑包含靶向第一靶位點或第二靶位點的Cas蛋白和向導RNA(gRNA)(gRNA-Cas復合物)。例如,Cas蛋白可為Cas9蛋白。Cas9蛋白可包含RuvC結構域和HNH結構域,這兩個結構域中的至少一者缺少核酸內切酶活性。在一些實施例中,gRNA包含編碼成簇的規律間隔的短回文重復序列(CRISPR)RNA(crRNA)和反式激活CRISPR RNA(tracrRNA)的核酸序列。第一靶位點和/或第二靶位點可被前間區序列鄰近基序(PAM)序列側接。在一些方法中,所述至少一種核酸酶試劑和/或第二核酸酶試劑包括鋅指核酸酶或轉錄激活因子樣效應物核酸酶(TALEN)。
在一些實施例中,接合寡核苷酸包含gBlock。在一些此類方法中,gBlock不包含選擇盒。
本文還提供了用于組裝兩個或更多個核酸的方法,該方法包括:(a)使第一核酸與至少一種核酸酶試劑接觸以生成第一經酶切的核酸;(b)使第二核酸與第二核酸酶試劑接觸以生成第二經酶切的核酸;(c)使第一經酶切的核酸和第二經酶切的核酸與接合寡核苷酸和核酸外切酶接觸,其中接合寡核苷酸包含:(i)與第一經酶切的核酸互補的第一互補序列;(ii)間區序列;以及(iii)與第二經酶切的核酸互補的第二互補序列;其中核酸外切酶使第一互補序列和第二互補序列暴露;以及(d)將接合寡核苷酸與第一經酶切的核酸和第二核酸組裝在一起。
本文提供了用于組裝具有重疊序列的核酸的方法。此類方法包括用于組裝至少兩個核酸片段的方法,該方法包括(a)使包含重疊序列的第一核酸和第二核酸與至少一種gRNA-Cas復合物和核酸外切酶接觸,從而生成在其末端之一處包含互補序列的兩個經酶切的核酸片段;(b)組裝由步驟(a)生成的兩個核酸片段。在一些方法中,所述至少一種gRNA-Cas復合物在第一靶位點處切割第一核酸,以產生第一經酶切的核酸,在第一經酶切的核酸與第二核酸之間包含互補末端序列。在某些方法中,步驟(b)還包括:(i)使暴露的互補序列退火;(ii)延伸經退火的互補序列的3’端;以及(iii)連接第一核酸和第二核酸。在一些方法中,步驟(a)還包括使第二核酸與第二gRNA-Cas復合物接觸,其中第二核酸不包含重疊末端序列,并且第二gRNA-Cas復合物切割第二核酸,以產生第二經酶切的核酸,在第一經酶切的核酸與第二經酶切的核酸之間包含重疊末端序列。例如,gRNA-Cas復合物包含Cas9蛋白。Cas9蛋白可包含RuvC結構域和HNH結構域,這兩個結構域中的至少一者缺少核酸內切酶活性。在一些方法中,重疊序列的長度在20bp至200bp的范圍內。根據權利要求1至7中任一項所述的方法,其中所述第一核酸、所述第二核酸或這兩個核酸來自細菌人工染色體。在一些方法中,細菌人工染色體包含人DNA、嚙齒動物DNA、合成DNA或它們的組合。細菌人工染色體可包含人序列。
本文所提供的方法還包括用于組裝兩個或更多個核酸片段的方法,該方法包括:(a)使第一核酸和第二核酸暴露于至少一種gRNA-Cas復合物,以生成在其末端之一處包含5’或3’懸垂序列的第一經酶切的核酸和第二經酶切的核酸;(b)組裝由步驟(a)生成的兩個核酸片段。在一些方法中,組裝步驟(b)包括:(i)使5’和3’懸垂序列退火;以及(ii)連接第一經酶切的核酸和第二經酶切的核酸。在一些方法中,5’和/或3’懸垂序列包含至少4個互補堿基。在一些方法中,步驟(b)還包括延伸第一經酶切的核酸和第二經酶切的核酸的3’端。在一些方法中,第二核酸不包含與第一經酶切的核酸的5’或3’懸垂序列互補的序列,并且步驟(a)還包括使第一經酶切的核酸和第二經酶切的核酸與接合寡核苷酸接觸,其中接合寡核苷酸包含:(i)與第一經酶切的核酸的5’或3’懸垂序列互補的第一互補序列;以及(ii)與第二經酶切的核酸的5’或3’懸垂序列互補的第二互補序列。在一些方法中,gRNA-Cas蛋白復合物包含Cas9蛋白,該Cas9蛋白包含RuvC結構域和HNH結構域,這兩個結構域中的一者缺少核酸內切酶活性。在一些方法中,gRNA-Cas復合物作為crRNA、tracrRNA和Cas蛋白單獨地提供。在一些方法中,第一核酸和第二核酸包含前間區序列鄰近基序(PAM)序列。在一些方法中,第一核酸、第二核酸或這兩個核酸來源于細菌人工染色體。在一些方法中,細菌人工染色體包含人DNA、嚙齒動物DNA、合成DNA或它們的組合。例如,細菌人工染色體可包含人多核苷酸序列。
本文還提供了用于組裝兩個或更多個核酸的方法,該方法包括:(a)使第一核酸與至少一種gRNA-Cas復合物接觸以生成第一經酶切的核酸;以及(b)使第一經酶切的核酸與第二核酸、接合寡核苷酸和核酸外切酶接觸,其中接合寡核苷酸包含:(i)與第一經酶切的核酸互補的第一互補序列;(ii)間區序列;以及(iii)與第二核酸互補的第二互補序列;其中核酸外切酶使第一互補序列和第二互補序列暴露;以及(c)將接合寡核苷酸與第一經酶切的核酸和第二核酸組裝在一起。在一些方法中,組裝步驟(c)包括(i)使接合寡核苷酸的第一互補序列退火到第一經酶切的核酸上,并使接合寡核苷酸的第二互補序列退火到第二核酸上;以及(ii)將接合寡核苷酸連接到第一經酶切的核酸和第二核酸。在一些方法中,接合寡核苷酸的第一互補序列和第二互補序列包含15至120個互補堿基。在一些方法中,接合寡核苷酸的間區序列包含非互補核酸。
使用接合寡核苷酸,可將第一經酶切的核酸無縫地組裝到第二核酸。在一些方法中,gRNA-Cas復合物被設計成從將要進行無縫組裝的第一核酸末端切割至少20bp片段,其中,接合寡核苷酸的間區序列包含與所述至少20bp片段相同的序列,其中在第一互補序列與所述至少20bp片段之間不存在核酸堿基,并且在第二互補序列與所述至少20bp片段之間不存在核酸堿基,使得所述第一核酸與所述接合寡核苷酸和所述第二核酸的組裝重建所述至少20bp片段并無縫地組裝所述第一核酸和第二核酸。在一些方法中,使用來自第二核酸的至少20bp片段作為間區序列來執行相同方法。在一些方法中,間區序列包含約20bp至約120bp。在一些方法中,使第二核酸與第二gRNA-Cas復合物和核酸外切酶接觸,其中第二gRNA-Cas復合物切割第二核酸,以產生包含與接合寡核苷酸的第二互補序列互補的核苷酸序列的第二經酶切的核酸,其中第一經酶切的核酸被組裝到第二經酶切的核酸。在一些方法中,使第二核酸與限制性內切酶或大范圍核酸酶和核酸外切酶接觸,其中限制性內切酶或大范圍核酸酶切割第二核酸,以產生包含與接合寡核苷酸中的第二互補序列互補的核苷酸序列的第二經酶切的核酸,其中第一經酶切的核酸被組裝到第二經酶切的核酸。在一些方法中,在步驟(b)中延伸第一經酶切的核酸和/或第二經酶切的核酸的3’端。接合寡核苷酸可在同一反應中或依次地組裝到所述第一核酸和所述第二核酸。在一些方法中,gRNA-Cas復合物包含Cas9蛋白。在一些方法中,第一核酸、第二核酸或這兩個核酸來源于細菌人工染色體,長度為至少10kb,和/或包含人DNA、嚙齒動物DNA、合成DNA或它們的組合。
附圖說明
圖1示出了BAC與PCR產物的組裝,該PCR產物具有被設計成對BAC具有特異性的重疊區。50bp重疊區通過PCR加到HYG盒。
圖2示出了利用每個BAC上的兩個Cas9靶位點對具有重疊序列的兩個BAC進行組裝。使用本文所公開的方法進行組裝的過程耗時2天。
圖3示出了使用傳統方法對具有重疊序列的兩個BAC進行組裝。使用傳統方法進行組裝的過程耗時4周。
圖4示出了Cas9/等溫組裝方法的克隆效率以及BAC克隆步驟所需的時間。
圖5示出了使用CRISPR/Cas9系統和等溫組裝來構建大靶向載體(LTVEC)。使用一個或多個接合寡核苷酸和等溫組裝對用CRISPR/Cas9切割的DNA片段進行了無縫組裝。
圖6示出了使用接頭(接合寡核苷酸)對Cas9切割之后的核酸進行無縫組裝的策略。gRNA/Cas9復合物被設計成切割位于目標區域的5’上游的靶位點(箭頭),以生成第一經Cas9酶切的DNA片段(5’DNA)。然后將5’DNA的缺失部分(斜線框)用作接合寡核苷酸中的5’和3’重疊序列之間的間區序列。在等溫組裝反應中組裝三種組分:(a)第一經Cas9酶切的DNA片段(5’DNA);(b)接合寡核苷酸;以及(c)第二DNA片段(3’DNA)。接合寡核苷酸從5’至3’包含:(1)與5’DNA重疊的序列,(2)包含第一經酶切的片段的缺失部分的間區序列,以及(3)與3’DNA重疊的序列。在組裝步驟期間重建5’DNA的缺失部分。
圖7示出了使用CRISPR/Cas9系統和等溫組裝來構建DNA載體。
圖8示出了使用CRISPR/Cas9系統和等溫組裝來構建大靶向載體。
圖9示出了靶向載體的構建,其使用等溫組裝和兩個接頭(接合寡核苷酸)將BAC載體的一部分替換為盒。各種比率的mBAC與片段或接頭的結果在分圖#1、#2、#3和#4中示出。
圖10示出了經序列確認,使用兩個接頭在mBAC(BAC ID:RP23-399M19)與盒之間的組裝反應實現了跨兩個接合部的無縫組裝。
圖11示出了使用Cas9和等溫組裝對兩個mBAC進行組裝。bMQ50f19載體與包含潮霉素抗性基因泛素啟動子的之間的組裝是無縫的。
圖12示出了在接頭1處的無縫組裝的序列確認,以及在接頭2和接頭3處的特意不無縫的組裝的序列確認。
圖13示出了使用四個接頭和等溫組裝在mBAC上插入大的人基因片段。Cas9從hBAC1切割hGene片段A,從hBAC2切割hGene片段B,并且切割mBAC以去除mGene片段。
圖14示出了使用Cas9和等溫組裝在BAC載體中插入人序列。
圖15示出了使用Cas9和等溫組裝來插入包含大范圍核酸酶位點的gBlock。圖15A示出了包含PI-SceI位點的gBlock的插入;圖15B示出了包含MauBI位點的gBlock的插入。
圖16示出了使用三個接合寡核苷酸、Cas9和等溫組裝對靶向載體進行直接人源化的示例。
圖17示出了使用具有上游和下游接合寡核苷酸的供體、Cas9以及等溫組裝對靶向載體進行間接人源化的示例。
圖18示出了使用Cas9和等溫組裝來引入點突變的示例。
圖19示出了通過Cas9和等溫組裝進行BAC修剪的示例。在該示例中,該修剪去除了Ori序列。使用兩個接合寡核苷酸和等溫組裝將Ori序列重新插入載體中。
具體實施方式
I.定義
在本文中可互換使用的術語“蛋白”、“多肽”和“肽”包括任何長度的氨基酸聚合形式,包括編碼氨基酸和非編碼氨基酸以及以化學方式或生化方式修飾或衍生的氨基酸。這些術語還包括經過修飾的聚合物,諸如具有經過修飾的肽骨架的多肽。
在本文中可互換使用的術語“核酸”和“多核苷酸”包括任何長度的核苷酸聚合形式,包括核糖核苷酸、脫氧核糖核苷酸或它們的類似物或修飾形式。這些術語包括單鏈、雙鏈和多鏈DNA或RNA、基因組DNA、cDNA、DNA-RNA雜交體、以及包含嘌呤堿基、嘧啶堿基、或其他天然的、化學修飾的、生物化學修飾的、非天然的或衍生的核苷酸堿基的聚合物。
“密碼子優化”一般包括通過以下方式修飾核酸序列以增強在特定宿主細胞中的表達的過程:將天然序列的至少一個密碼子替換為在宿主細胞的基因中更頻繁或最頻繁使用的密碼子,同時保持天然氨基酸序列。例如,可對編碼Cas蛋白的核酸進行修飾,以替換成與天然存在的核酸序列相比在給定的原核細胞或真核細胞(包括細菌細胞、酵母細胞、人細胞、非人細胞、哺乳動物細胞、嚙齒動物細胞、小鼠細胞、大鼠細胞、倉鼠細胞或任何其他宿主細胞)中具有更高使用頻率的密碼子。密碼子使用表是現成的,例如在“密碼子使用數據庫(Codon Usage Database)”處提供。這些表格可按多種方式進行改編。參見Nakamura et al.(2000)Nucleic Acids Research 28:292(Nakamura等人,2000年,《核酸研究》,第28卷,第292頁)。為實現在特定宿主中的表達而對特定序列進行密碼子優化的計算機算法也是現成的(參見例如Gene Forge)。
“有效連接”或“有效連接的”包括兩個或更多個組分(例如,啟動子和另一個序列元件)的并置,使得這兩個組分正常發揮功能并使這些組分中的至少一者有可能介導被施加在其他組分中的至少一者上的功能。例如,如果啟動子響應于一個或多個轉錄調控因子的存在或不存在而對編碼序列的轉錄水平進行控制,則啟動子可以是有效連接至編碼序列。
核酸的“互補性”意指核酸的一條鏈中的核苷酸序列因其核堿基基團的取向而與相對核酸鏈上的另一個序列形成氫鍵。DNA中的互補堿基通常是A與T及C與G。在RNA中,它們通常是C與G及U與A。互補性可以是完全的或實質的/充分的。兩個核酸之間的完全互補性意指這兩個核酸可以形成雙鏈體,其中雙鏈體中的每個堿基按照沃森-克里克配對原則與互補堿基結合。“實質”或“充分”互補意指一條鏈中的序列不與相對鏈中的序列徹底和/或完全互補,但在一組雜交條件(例如,鹽濃度和溫度)中這兩條鏈上的堿基之間發生充分鍵合而形成穩定的雜交復合物。可通過以下方式預測此類條件:使用序列和標準數學計算來預測雜交鏈的Tm,或使用常規方法憑經驗確定Tm。Tm包括在兩條核酸鏈之間形成的一群雜交復合物發生50%變性時的溫度。在低于Tm的溫度下,有利于雜交復合物的形成,而在高于Tm的溫度下,有利于雜交復合物中的兩條鏈的解鏈或分離。可在1M NaCl水溶液中對具有已知G+C含量的核酸估計Tm,例如使用Tm=81.5+0.41(%G+C),而其他已知的Tm計算法考慮了核酸結構特征。
“雜交條件”包括累積環境,其中一條核酸鏈通過互補鏈相互作用和氫鍵方式鍵合于第二核酸鏈,從而產生雜交復合物。此類條件包括含核酸的水溶液或有機溶液的化學組分及其濃度(例如,鹽、螯合劑、甲酰胺)以及該混合物的溫度。其他因素(例如,溫育時間的長度或反應室尺寸)可對環境有影響。參見例如Sambrook et al.,Molecular Cloning,A Laboratory Manual,2.sup.nd ed.,pp.1.90-1.91,9.47-9.51,1 1.47-11.57(Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.,1989)(Sambrook等人,《分子克隆實驗指南》,第2版,第1.90-1.91、9.47-9.51、1 1.47-11.57節,冷泉港實驗室出版社,美國紐約州冷泉港,1989年)。
雜交要求兩個核酸包含互補序列,但允許堿基之間出現錯配。適于兩個核酸之間的雜交的條件取決于核酸的長度和互補程度,這些變量是本領域眾所周知的。兩個核苷酸序列之間的互補程度越大,具有這些序列的核酸的雜交體的解鏈溫度(Tm)值就越大。對于具有短序列段互補性(例如,在35個或更少、30個或更少、25個或更少、22個或更少、20個或更少、或18個或更少核苷酸內的互補性)的核酸之間的雜交,錯配的位置變得重要(參見Sambrook等人,出處同上,11.7-11.8)。通常,可雜交核酸的長度為至少約10個核苷酸。可雜交核酸的示例性最小長度包括至少約15個核苷酸、至少約20個核苷酸、至少約22個核苷酸、至少約25個核苷酸以及至少約30個核苷酸。此外,可視需要根據諸如互補區域的長度和互補程度等因素來調節溫度和洗滌溶液鹽濃度。
多核苷酸的序列不必與其靶核酸的序列100%互補,也能實現特異性雜交。此外,多核苷酸可在一個或多個區段內雜交,使得間插或相鄰區段不參與雜交事件(例如,環結構或發夾結構)。多核苷酸(例如,gRNA)可與其所靶向的靶核酸序列內的靶區域具有至少70%、至少80%、至少90%、至少95%、至少99%或100%序列互補性。例如,其中20個核苷酸中有18個與靶區域互補并因此特異性雜交的gRNA將具有90%互補性。在該示例中,剩余的非互補核苷酸可以成簇或散布在互補核苷酸內并且無需彼此鄰接或與互補核苷酸鄰接。
通常可使用以下程序來確定核酸內的核酸序列的特定序列段之間的互補性百分比:使用本領域已知的BLAST程序(基本局部比對搜索工具)和PowerBLAST程序(Altschul et al.(1990)J.Mol.Biol.215:403-410(Altschul等人,1990年,《分子生物學雜志》,第215卷,第403-410頁);Zhang and Madden(1997)Genome Res.7:649-656(Zhang和Madden,1997年,《基因組研究》,第7卷,第649-656頁))或使用Gap程序(威斯康星序列分析軟件包,適用于Unix的版本8,遺傳學計算機組,美國威斯康星州麥迪遜的大學研究園(Wisconsin Sequence Analysis Package,Version 8 for Unix,Genetics Computer Group,University Research Park,Madison Wis.)),這些程序使用默認設置,這使用Smith和Waterman的算法(Adv.Appl.Math.,1981,2,482-489(《應用數學進展》,1981年,第2卷,第482-489頁))。
本文所提供的方法和組合物采用多種不同組分。在本說明書通篇中已經確認,一些組分可具有活性變體和片段。此類組分包括例如Cas蛋白、CRISPR RNA、tracrRNA和向導RNA。這些組分中的每一者的生物活性在本文別處描述。
在兩個多核苷酸或多肽序列的語境中,“序列同一性”或“同一性”是指在指定比較窗內對齊以實現最大對應性時這兩個序列中相同的殘基。當使用序列同一性百分比指涉蛋白質時,應認識到,不相同的殘基位置通常差別在于保守氨基酸置換,其中氨基酸殘基被置換為具有類似化學特性(例如,電荷或疏水性)的其他氨基酸殘基且因此不改變分子的功能特性。當序列差別在于保守置換時,可上調序列同一性百分比以校正置換的保守性質。差別在于此類保守置換的序列被稱為具有“序列相似性”或“相似性”。進行這種調節的方式是本領域技術人員眾所周知的。通常,這涉及將保守置換作為部分錯配而非完全錯配來評分,從而增加序列同一性百分比。因此,例如,若一個相同氨基酸被給定1的分數且一個非保守置換被給定0的分數,則一個保守置換被給定0至1之間的分數。保守置換的分數例如在程序PC/GENE(美國加利福尼亞州山景城的Intelligenetics公司(Intelligenetics,Mountain View,California))中所執行的那樣來計算。
“序列同一性百分比”包括通過在比較窗內比較兩個最佳對齊的序列而確定的值,其中與參考序列(其不包含添加或缺失)相比較,多核苷酸序列在比較窗中的部分可包含添加或缺失(即,空位),以便保證這兩個序列的最佳對齊。該百分比通過以下方式計算:確定其中相同的核酸堿基或氨基酸殘基在兩個序列中出現的位置的數目以產生匹配位置的數目,將匹配位置的數目除以在比較窗口中的位置總數,并且將結果乘以100以得到序列同一性百分比。
除非另作說明,否則序列同一性/相似性值包括使用GAP版本10采用以下參數獲得的值:核苷酸序列的同一性%和相似性%使用空位權重(GAP Weight)50和長度權重3及nwsgapdna.cmp評分矩陣;氨基酸序列的同一性%或相似性%使用空位權重8和長度權重2及BLOSUM62評分矩陣;或其任何等同程序。“等同程序”包括任何序列比較程序,其為所考慮的任何兩個序列產生這樣的比對,當與由GAP版本10產生的對應比對相比較時,該比對具有相同的核苷酸或氨基酸殘基匹配和相同的序列同一性百分比。
“包含”或“包括”一個或多個所述及的要素的組合物或方法可包括未具體述及的其他要素。例如,“包含”或“包括”某種蛋白質的組合物可包含單獨的該蛋白質或與其他成分組合的該蛋白質。
值的范圍的指定包括該范圍內的或限定該范圍的所有整數,以及由該范圍內的整數所限定的所有子范圍。
除非從上下文明顯看出,否則術語“約”涵蓋落在規定值的標準測量誤差容限(例如,SEM)內的那些值。
除非上下文另外明確指出,否則單數形式的量詞“一個”、“一種”和“該”包括復數指代物。例如,術語“Cas蛋白”或“至少一種Cas蛋白”可包括多種Cas蛋白,包括它們的混合物。
II.概述
傳統的核酸組裝方法采用以下耗時的步驟:用限制性內切酶進行的常規酶切、核酸的克隆以及將核酸連接在一起(有關傳統方法和時間線的圖解,參見圖3和圖4)。當要將大片段或載體組裝在一起時,這些方法變得更為困難。本文所提供的方法利用核酸酶(例如,向導RNA和Cas9核酸酶)的可塑的靶特異性將核酸轉變為適于在快速組裝反應中使用的形式。
本文提供了使用諸如通過向導RNA(gRNA)被引導至特定靶位點的核酸酶試劑(例如,通過向導RNA(gRNA)被引導至特定靶位點的Cas蛋白)來組裝至少兩個核酸的方法。定點核酸酶試劑(例如,向導RNA引導的Cas蛋白)通過選擇和操縱由其核酸內切酶活性生成的末端序列,可以實現核酸的快速且有效的組合。本文所提供的方法將第一多核苷酸與對所需靶位點具有特異性的核酸酶試劑(例如,gRNA-Cas復合物)和核酸外切酶組合在一起。可對靶位點進行選擇,使得當核酸酶切割核酸時,通過切割產生的所得末端具有與第二核酸的末端互補的區域(例如,重疊末端)。然后可組裝這些互補末端,得到單個組裝的核酸。由于核酸酶試劑(例如,gRNA-Cas復合物)對單個靶位點具有特異性,本發明的方法使得可以以精確的定點方式修飾核酸。本發明的方法通過使用專門被設計用于組合由核酸酶切割所生成的重疊核酸末端或者被設計并合成用于組裝反應的快速且有效的組裝方法,而進一步利用了核酸酶試劑(例如,gRNA-Cas復合物)特異性。例如,通過選擇對靶位點具有特異性的核酸酶試劑(例如,gRNA-Cas復合物)使得在切割時產生與第二核酸的末端序列互補的末端序列,可以使用等溫組裝來組裝所得的經酶切的核酸。因此,通過選擇會產生重疊末端序列的核酸和核酸酶試劑(例如,gRNA-Cas復合物),可以采取快速組合方法來組裝核酸,從而以快速且有效的方式產生最終組裝的核酸。作為另一種選擇,可以將不具有互補末端的核酸和被設計成具有與每個核酸互補的末端的接合寡核苷酸組裝在一起。通過使用接合寡核苷酸,可以無縫地組裝兩個或更多個核酸,從而減少所得組裝的核酸中不必要的序列。
III.核酸酶試劑
本發明的方法采用核酸酶試劑對多核苷酸進行定點切割。具體地講,在所鑒定的靶位點處對多核苷酸進行核酸內切酶切割會產生具有這樣的末端的經酶切的多核苷酸,所述末端隨后可接合到第二多核苷酸,從而以位點特異性方式組裝兩個或更多個多核苷酸。
“核酸酶試劑”包含具有DNA切割活性的分子。用于本文所公開的方法中的核酸酶試劑的具體示例包括RNA引導的CRISPR-Cas9系統、鋅指蛋白、大范圍核酸酶、TAL結構域、TALEN、酵母組裝、重組酶、亮氨酸拉鏈、CRISPR/Cas、核酸內切酶以及本領域技術人員已知的其他核酸酶試劑。可對核酸酶試劑進行選擇或設計以實現在給定靶位點處切割的特異性。例如,可對核酸酶試劑進行選擇以實現在靶位點處的切割,從而在經切割的多核苷酸與另一不同多核苷酸之間形成重疊末端。如CRISPR-Cas9中那樣具有蛋白質和RNA元件兩者的核酸酶試劑可作為已復合成核酸酶試劑的試劑提供,或可作為單獨的蛋白質和RNA元件提供,在這種情況下,它們在本文所述的反應混合物中復合形成核酸酶試劑。
術語“核酸酶試劑的識別位點”包括核酸酶試劑在其處誘導切口或雙鏈斷裂的DNA序列。核酸酶試劑的識別位點對于細胞可為內源的(或天然的),或識別位點對于細胞可為外源的。在具體實施例中,識別位點對于細胞為外源的,從而在細胞基因組中不是天然存在的。在更進一步的實施例中,識別位點對于細胞為外源的,并且對于希望被定位在靶基因座處的目標多核苷酸為外源的。在進一步的實施例中,外源或內源識別位點在宿主細胞的基因組中僅出現一次。在具體實施例中,鑒定了在基因組內僅出現一次的內源或天然位點。然后可使用這種位點來設計將在內源識別位點處產生切口或雙鏈斷裂的核酸酶試劑。
識別位點的長度可變,并且包括例如對于鋅指核酸酶(ZFN)對為約30-36bp(即,對于每個ZFN為約15-18bp)、對于轉錄激活因子樣效應物核酸酶(TALEN)為約36bp、或對于CRISPR/Cas9向導RNA為約20bp的識別位點。
本文還提供了示例性識別位點的活性變體和片段。此類活性變體可與給定識別位點具有至少65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的序列同一性,其中所述活性變體保留生物活性,從而能夠被核酸酶試劑以序列特異性方式識別并切割。測量核酸酶試劑對識別位點造成的雙鏈斷裂的測定法是本領域已知的(例如, qPCR測定法,Frendewey D.et al.,Methods in Enzymology,2010,476:295-307(Frendewey D.等人,《酶學方法》,2010年,第476卷,第295-307頁),該文獻全文以引用的方式并入本文)。
在具體實施例中,識別位點被定位在編碼選擇標記的多核苷酸內。這種位置可位于選擇標記的編碼區內或者位于影響選擇標記的表達的調控區內。因此,核酸酶試劑的識別位點可位于選擇標記的內含子、編碼選擇標記的多核苷酸的啟動子、增強子、調控區或任何非蛋白編碼區中。在具體實施例中,識別位點處的切口或雙鏈斷裂會破壞選擇標記的活性。測定功能選擇標記存在與否的方法是已知的。
可在本文所公開的方法和組合物中使用任何會在所需識別位點中誘導切口或雙鏈斷裂的核酸酶試劑。可采用天然存在的或天然的核酸酶試劑,只要該核酸酶試劑在所需識別位點中誘導切口或雙鏈斷裂即可。作為另一種選擇,可采用經修飾或經改造的核酸酶試劑。“經改造的核酸酶試劑”包括由其天然形式改造(修飾或衍生)成會特異性識別所需識別位點并在所需識別位點中誘導切口或雙鏈斷裂的核酸酶。因此,經改造的核酸酶試劑可衍生自天然的或天然存在的核酸酶試劑,或其可人工生成或合成。核酸酶試劑的修飾在蛋白切割劑中可少至一個氨基酸,或在核酸切割劑中可少至一個核苷酸。在一些實施例中,經改造的核酸酶在識別位點中誘導切口或雙鏈斷裂,其中所述識別位點不是會被天然(未經改造的或未經修飾的)核酸酶試劑識別的序列。在識別位點或其他DNA中產生切口或雙鏈斷裂在本文中可稱為“切開”或“切割”識別位點或其他DNA。
隨后細胞可通過以下兩種方式之一修復這些斷裂:非同源性末端接合和同源性指導的修復(同源重組)。在非同源性末端接合(NHEJ)中,通過使斷裂末端彼此直接連接來修復雙鏈斷裂。因此,未在該位點中插入新的核酸物質,但一些核酸物質可能丟失,從而導致缺失。在同源性指導的修復中,與經切割的靶DNA序列具有同源性的供體多核苷酸可用作修復經切割的靶DNA序列的模板,使得遺傳信息從供體多核苷酸傳遞到靶DNA。因此,可在該位點中插入/復制新的核酸物質。因NHEJ和/或同源性指導的修復所引起的靶DNA的修飾,可用于基因修正、基因替換、基因標記、轉基因插入、核苷酸缺失、基因破壞、基因突變等。
在一個實施例中,核酸酶試劑為轉錄激活因子樣效應物核酸酶(TALEN)。TAL效應物核酸酶是一類序列特異性核酸酶,其可用于在原核或真核生物基因組中的特定靶序列處產生雙鏈斷裂。可通過將天然的或經改造的轉錄激活因子樣(TAL)效應物或其功能部分融合到內切核酸酶如FokI的催化結構域,來生成TAL效應物核酸酶。獨特的模塊化TAL效應物DNA結合結構域使得可以設計潛在地具有任何給定DNA識別特異性的蛋白質。因此,TAL效應物核酸酶的DNA結合結構域可被改造成識別特定DNA靶位點,故可用于在所需靶序列處產生雙鏈斷裂。參見WO 2010/079430;Morbitzer et al.(2010)PNAS 10.1073/pnas.1013133107(Morbitzer等人,2010年,《美國國家科學院院刊》,10.1073/pnas.1013133107);Scholze&Boch(2010)Virulence 1:428-432(Scholze和Boch,2010年,《毒力》,第1卷,第428-432頁);Christian et al.Genetics(2010)186:757-761(Christian等人,《遺傳學》,2010年,第186卷,第757-761頁);Li et al.(2010)Nuc.Acids Res.(2010)doi:10.1093/nar/gkq704(Li等人,2010年,《核酸研究》,2010年,doi:10.1093/nar/gkq704);以及Miller et al.(2011)Nature Biotechnology 29:143–148(Miller等人,2011年,《自然生物技術》,第29卷,第143–148頁);所有這些文獻均以引用的方式并入本文。
合適的TAL核酸酶的示例以及用于制備合適的TAL核酸酶的方法公開于例如美國專利申請No.2011/0239315 A1、2011/0269234 A1、2011/0145940 A1、2003/0232410 A1、2005/0208489 A1、2005/0026157 A1、2005/0064474 A1、2006/0188987 A1、以及2006/0063231 A1中(每一份專利申請均據此以引用的方式并入)。在各種實施例中,TAL效應物核酸酶被改造成在例如目標基因組位點中的靶核酸序列之中或附近進行切開,其中所述靶核酸序列位于靶向載體將要修飾的序列之處或附近。適合與本文所提供的各種方法和組合物一起使用的TAL核酸酶,包括被專門設計成在本文所述的靶向載體將要修飾的靶核酸序列之處或附近進行結合的那些TAL核酸酶。
在一個實施例中,TALEN的每個單體包含經由兩個高變殘基識別單堿基對的33-35個TAL重復序列。在一個實施例中,核酸酶試劑為嵌合蛋白,其包含有效連接至獨立核酸酶的基于TAL重復序列的DNA結合結構域。在一個實施例中,獨立核酸酶為FokI內切核酸酶。在一個實施例中,核酸酶試劑包含第一基于TAL重復序列的DNA結合結構域和第二基于TAL重復序列的DNA結合結構域,其中所述第一基于TAL重復序列的DNA結合結構域和第二基于TAL重復序列的DNA結合結構域中的每一者均有效連接至FokI核酸酶亞基,其中所述第一基于TAL重復序列的DNA結合結構域和第二基于TAL重復序列的DNA結合結構域識別每條DNA靶序列中被可變長度(12-20bp)的間區序列隔開的兩條鄰接DNA靶序列,并且其中所述FokI核酸酶亞基發生二聚化,從而生成能在靶序列處產生雙鏈斷裂的活性核酸酶。
在本文所公開的各種方法和組合物中采用的核酸酶試劑還可包括鋅指核酸酶(ZFN)。在一個實施例中,ZFN的每個單體包含3個或更多個基于鋅指的DNA結合結構域,其中每個基于鋅指的DNA結合結構域結合于3bp亞位點。在其他實施例中,ZFN為包含有效連接至獨立核酸酶的、基于鋅指的DNA結合結構域的嵌合蛋白。在一個實施例中,獨立內切核酸酶為FokI內切核酸酶。在一個實施例中,核酸酶試劑包含第一ZFN和第二ZFN,其中所述第一ZFN和第二ZFN中的每一者均有效連接至FokI核酸酶亞基,其中所述第一ZFN和第二ZFN識別每條DNA靶序列中被約5-7bp間區序列隔開的兩條鄰接DNA靶序列,并且其中所述FokI核酸酶亞基發生二聚化,從而生成能產生雙鏈斷裂的活性核酸酶。參見例如US20060246567;US20080182332;US20020081614;US20030021776;WO/2002/057308A2;US20130123484;US20100291048;WO/2011/017293A2;以及Gaj et al.(2013)Trends in Biotechnology,31(7):397-405(Gaj等人,2013年,《生物技術趨勢》,第31卷,第7期,第397-405頁);這些文獻中的每一篇均以引用的方式并入本文。
在本文所提供的方法的一個實施例中,核酸酶試劑包括(a)包含融合至FokI核酸內切酶的、基于鋅指的DNA結合結構域的嵌合蛋白;或(b)包含融合至FokI核酸內切酶的轉錄激活因子樣效應物核酸酶(TALEN)的嵌合蛋白。
在又一個實施例中,核酸酶試劑為大范圍核酸酶。已基于保守序列基序將大范圍核酸酶分類為四個家族,這些家族是LAGLIDADG(SEQ ID NO:16)、GIY-YIG、H-N-H和His-Cys框家族。這些基序參與金屬離子的配位和磷酸二酯鍵的水解。歸巢內切酶以其長識別位點及耐受其DNA底物中的一些序列多態性而著稱。大范圍核酸酶結構域、結構和功能是已知的,參見例如,Guhan and Muniyappa(2003)Crit Rev Biochem Mol Biol38:199-248(Guhan和Muniyappa,2003年,《生物化學與分子生物學評論》,第38卷,第199-248頁);Lucas et al.,(2001)Nucleic Acids Res 29:960-9(Lucas等人,2001年,《核酸研究》,第29卷,第960-969頁);Jurica and Stoddard,(1999)Cell Mol Life Sci 55:1304-26(Jurica和Stoddard,1999年,《細胞和分子生命科學》,第55卷,第1304-1326頁);Stoddard,(2006)Q Rev Biophys 38:49-95(Stoddard,2006年,《生物物理學季評》,第38卷,第49-95頁);以及Moure et al.,(2002)Nat Struct Biol 9:764(Moure等人,2002年,《自然結構生物學》,第9卷,第764頁)。在一些示例中,使用天然存在的變體和/或經改造的衍生大范圍核酸酶。用于調整動力學、輔因子相互作用、表達、最適條件和/或識別位點特異性及活性篩選的方法是已知的,參見例如,Epinat et al.,(2003)Nucleic Acids Res 31:2952-62(Epinat等人,2003年,《核酸研究》,第31卷,第2952-2962頁);Chevalier et al.,(2002)Mol Cell 10:895-905(Chevalier等人,2002年,《分子細胞》,第10卷,第895-905頁);Gimble et al.,(2003)Mol Biol 334:993-1008(Gimble等人,2003年,《分子生物學》,第334卷,第993-1008頁);Seligman et al.,(2002)Nucleic Acids Res 30:3870-9(Seligman等人,2002年,《核酸研究》,第30卷,第3870-3879頁);Sussman et al.,(2004)J Mol Biol 342:31-41(Sussman等人,2004年,《分子生物學雜志》,第342卷,第31-41頁);Rosen et al.,(2006)Nucleic Acids Res 34:4791-800(Rosen等人,2006年,《核酸研究》,第34卷,第4791-4800頁);Chames et al.,(2005)Nucleic Acids Res 33:e178(Chames等人,2005年,《核酸研究》,第33卷,第e178頁);Smith et al.,(2006)Nucleic Acids Res 34:e149(Smith等人,2006年,《核酸研究》,第34卷,第e149頁);Gruen et al.,(2002)Nucleic Acids Res 30:e29(Gruen等人,2002年,《核酸研究》,第30卷,第e29頁);Chen and Zhao,(2005)Nucleic Acids Res 33:e154(Chen和Zhao,2005年,《核酸研究》,第33卷,第e154頁);WO2005105989;WO2003078619;WO2006097854;WO2006097853;WO2006097784;以及WO2004031346。
可在本發明中使用任何大范圍核酸酶,包括但不限于I-SceI、I-SceII、I-SceIII、I-SceIV、I-SceV、I-SceVI、I-SceVII、I-CeuI、I-CeuAIIP、I-CreI、I-CrepsbIP、I-CrepsbIIP、I-CrepsbIIIP、I-CrepsbIVP、I-TliI、I-PpoI、PI-PspI、F-SceI、F-SceII、F-SuvI、F-TevI、F-TevII、I-AmaI、I-AniI、I-ChuI、I-CmoeI、I-CpaI、I-CpaII、I-CsmI、I-CvuI、I-CvuAIP、I-DdiI、I-DdiII、I-DirI、I-DmoI、I-HmuI、I-HmuII、I-HsNIP、I-LlaI、I-MsoI、I-NaaI、I-NanI、I-NcIIP、I-NgrIP、I-NitI、I-NjaI、I-Nsp236IP、I-PakI、I-PboIP、I-PcuIP、I-PcuAI、I-PcuVI、I-PgrIP、I-PobIP、I-PorI、I-PorIIP、I-PbpIP、I-SpBetaIP、I-ScaI、I-SexIP、I-SneIP、I-SpomI、I-SpomCP、I-SpomIP、I-SpomIIP、I-SquIP、I-Ssp6803I、I-SthPhiJP、I-SthPhiST3P、I-SthPhiSTe3bP、I-TdeIP、I-TevI、I-TevII、I-TevIII、I-UarAP、I-UarHGPAIP、I-UarHGPA13P、I-VinIP、I-ZbiIP、PI-MtuI、PI-MtuHIP、PI-MtuHIIP、PI-PfuI、PI-PfuII、PI-PkoI、PI-PkoII、PI-Rma43812IP、PI-SpBetaIP、PI-SceI、PI-TfuI、PI-TfuII、PI-ThyI、PI-TliI、PI-TliII、或其任何活性變體或片段。
在一個實施例中,所述大范圍核酸酶識別12至40個堿基對的雙鏈DNA序列。在一個實施例中,所述大范圍核酸酶識別基因組中的一個完全匹配的靶序列。在一個實施例中,所述大范圍核酸酶為歸巢核酸酶。在一個實施例中,所述歸巢核酸酶為歸巢核酸酶的LAGLIDADG(SEQ ID NO:16)家族。在一個實施例中,歸巢核酸酶的LAGLIDADG(SEQ ID NO:16)家族選自I-SceI、I-CreI和I-Dmol。
核酸酶試劑還可包括限制性內切核酸酶(限制性內切酶),其包括I型、II型、III型和IV型內切核酸酶。I型和III型限制性內切核酸酶識別特定識別位點,但通常在離核酸酶結合位點的可變位置處切割,該核酸酶結合位點離切割位點(識別位點)可達數百個堿基對。在II型系統中,酶切活性獨立于任何甲基化酶活性,并且通常在結合位點之內或附近的特定位點處發生切割。大多數II型酶切開回文序列,但是IIa型酶識別非回文識別位點并在識別位點之外切割,IIb型酶在識別位點之外的兩個位點處切開序列兩次,并且IIs型酶識別非對稱識別位點并在一側且離識別位點約1-20個核苷酸的限定距離處切割。IV型限制性內切酶靶向甲基化DNA。限制性內切酶進一步在例如REBASE數據庫中進行說明和分類(地址為rebase.neb.com的網頁;Roberts et al.,(2003)Nucleic Acids Res 31:418-20(Roberts等人,2003年,《核酸研究》,第31卷,第418-420頁),Roberts et al.,(2003)Nucleic Acids Res 31:1805-12(Roberts等人,2003年,《核酸研究》,第31卷,第1805-1812頁),以及Belfort et al.,(2002)in Mobile DNA II,pp.761-783,Eds.Craigie et al.,(ASM Press,Washington,DC)(Belfort等人,2002年,載于《可移動的DNA II》,第761-783頁,Craigie等人編輯,美國華盛頓特區ASM出版社))。在具體實施例中,可將至少兩種核酸內切酶選擇為核酸酶試劑,其中所述酶產生相容或互補的粘性末端。
在各種方法和組合物中采用的核酸酶試劑還可包括CRISPR/Cas系統。此類系統可采用Cas9核酸酶,其在一些情況下針對要用來表達其的所需細胞類型進行了密碼子優化。該系統還采用融合的crRNA-tracrRNA構建體,該構建體與經密碼子優化的Cas9一起發揮作用。該單一RNA通常稱為向導RNA或gRNA。在gRNA內,crRNA部分被確定為給定識別位點的“靶序列”,并且tracrRNA通常稱為“支架”。已證實該系統可在多種真核細胞和原核細胞中發揮作用。簡而言之,包含靶序列的短DNA片段被插入到向導RNA表達質粒中。gRNA表達質粒包含靶序列(在一些實施例中約20個核苷酸)、一種形式的tracrRNA序列(支架)以及在細胞中有活性的合適啟動子及用于在真核細胞中正確加工的必要元件。這些系統中的多種系統依賴于定制的互補寡核苷酸,這些寡核苷酸退火而形成雙鏈DNA,接著被克隆到gRNA表達質粒中。然后將gRNA表達盒和Cas9表達盒引入到細胞中。參見例如Mali P et al.(2013)Science 2013Feb 15;339(6121):823-6(Mali P等人,2013年,《科學》,2013年2月15日,第339卷,第6121期,第823-826頁);Jinek M et al.Science 2012Aug 17;337(6096):816-21(Jinek M等人,《科學》,2012年8月17日,第337卷,第6096期,第816-821頁);Hwang WY et al.Nat Biotechnol 2013Mar;31(3):227-9(Hwang WY等人,《自然生物技術》,2013年3月,第31卷,第3期,第227-229頁);Jiang W et al.Nat Biotechnol 2013 Mar;31(3):233-9(Jiang W等人,《自然生物技術》,2013年3月,第31卷,第3期,第233-239頁);以及Cong L et al.Science 2013Feb 15;339(6121):819-23(Cong L等人,《科學》,2013年2月15日,第339卷,第6121期,第819-823頁),這些文獻中的每一篇均以引用的方式并入本文。
本文所公開的方法和組合物可利用成簇的規律間隔的短回文重復序列(CRISPR)/CRISPR相關(Cas)系統或此類系統的組分來修飾細胞內的基因組。CRISPR/Cas系統包括參與Cas基因的表達或指導Cas基因的活性的轉錄物和其他元件。CRISPR/Cas系統可為I型、II型或III型系統。本文所公開的方法和組合物通過利用CRISPR復合物(包含與Cas蛋白復合的向導RNA(gRNA))來采用CRISPR/Cas系統對核酸進行定點切割。
用于本文所公開的方法中的一些CRISPR/Cas系統為非天然存在的。“非天然存在的”系統包括任何表明受到人工干預的系統,諸如該系統的一個或多個組分從其天然存在的狀態改變或突變,至少基本上不含其在自然界中與其天然關聯的至少一個其他組分,或和不與其天然關聯的至少一個其他組分相關聯。例如,一些CRISPR/Cas系統采用非天然存在的CRISPR復合物,這些復合物包含在天然情況下不會同時存在的gRNA和Cas蛋白。
本發明還提供了核酸酶試劑的活性變體和片段(即,經改造的核酸酶試劑)。此類活性變體可與天然核酸酶試劑具有至少65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的序列同一性,其中所述活性變體保留在所需識別位點處切開的能力,從而保留了切口或雙鏈斷裂誘導活性。例如,本文所述的任何核酸酶試劑可由天然內切核酸酶序列修飾而成,并且可被設計成在不被天然核酸酶試劑識別的識別位點處識別并誘導切口或雙鏈斷裂。因此,在一些實施例中,經改造的核酸酶具有在與對應天然核酸酶試劑識別位點不同的識別位點處誘導切口或雙鏈斷裂的特異性。針對切口或雙鏈斷裂誘導活性的測定法是已知的,并且一般測量內切核酸酶對包含識別位點的DNA底物的總體活性和特異性。
IV.CRISPR/Cas系統(gRNA-Cas復合物)
本發明的方法可采用CRISPR/Cas系統(例如,gRNA-Cas復合物)對核酸進行定點切割。具體地講,由gRNA引導至所鑒定的靶位點處對核酸進行Cas切割會產生具有這樣的末端的經酶切的核酸,所述末端隨后可接合到第二核酸,從而以位點特異性方式組裝兩個或更多個核酸。
“gRNA-Cas復合物”包含Cas蛋白與gRNA的復合物。gRNA可被設計或選擇成將Cas切割引導至靶位點,從而在經切割的核酸與另一不同核酸之間形成重疊末端。gRNA-Cas復合物可作為已復合的試劑提供,或可作為單獨的蛋白質和RNA元件提供,在這種情況下,它們在本文所述的方法和反應混合物中復合形成gRNA-Cas復合物。
A.Cas RNA引導的核酸內切酶
Cas蛋白一般包含至少一個RNA識別或結合結構域。此類結構域可與向導RNA(gRNA,下文更詳細地說明)相互作用。Cas蛋白還可包含核酸酶結構域(例如,DNA酶或RNA酶結構域)、DNA結合結構域、解旋酶結構域、蛋白-蛋白相互作用結構域、二聚化結構域以及其他結構域。核酸酶結構域具有用于核酸切割的催化活性。切割包括核酸分子共價鍵的斷裂。切割可產生平頭末端或交錯末端,并且其可為單鏈或雙鏈的。
Cas蛋白的示例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5e(CasD)、Cas6、Cas6e、Cas6f、Cas7、Cas8a1、Cas8a2、Cas8b、Cas8c、Cas9(Csn1或Csx12)、Cas10、Casl0d、CasF、CasG、CasH、Csy1、Csy2、Csy3、Cse1(CasA)、Cse2(CasB)、Cse3(CasE)、Cse4(CasC)、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4和Cu1966,以及它們的同源物或修飾形式。
可在本文所公開的方法和組合物中使用任何在所需識別位點中誘導切口或雙鏈斷裂的Cas蛋白。可采用天然存在的或天然的Cas蛋白,只要該Cas蛋白在所需識別位點處誘導雙鏈斷裂即可。作為另一種選擇,可采用經修飾或經改造的Cas蛋白。“經改造的Cas蛋白”包括由其天然形式改造(修飾或衍生)成在所需識別位點中特異性識別并誘導切口或雙鏈斷裂的Cas蛋白。因此,經改造的Cas蛋白可衍生自天然的或天然存在的Cas蛋白,或其可人工生成或合成。
在特定實施例中,Cas蛋白為Cas9。這些Cas9蛋白通常共用具有保守架構的四個關鍵基序。基序1、2和4為RuvC樣基序,并且基序3為HNH基序。Cas9的核酸酶活性切割靶DNA,產生雙鏈斷裂。隨后細胞可通過以下兩種方式之一修復這些斷裂:非同源性末端接合和同源性指導的修復(同源重組)。在非同源性末端接合(NHEJ)中,通過使斷裂末端彼此直接連接來修復雙鏈斷裂。因此,未在該位點中插入新的核酸物質,但一些核酸物質可能丟失,從而導致缺失。在同源性指導的修復中,與經切割的靶DNA序列具有同源性的供體多核苷酸可用作修復經切割的靶DNA序列的模板,使得遺傳信息從供體多核苷酸傳遞到靶DNA。因此,可在該位點中插入/復制新的核酸物質。因NHEJ和/或同源性指導的修復所引起的靶DNA的修飾,可用于基因修正、基因替換、基因標記、轉基因插入、核苷酸缺失、基因破壞、基因突變等。
Cas蛋白可來自II型CRISPR/Cas系統。例如,Cas蛋白可為Cas9蛋白或衍生自Cas9蛋白。這些Cas9蛋白通常共用具有保守架構的四個關鍵基序。基序1、2和4為RuvC樣基序,并且基序3為HNH基序。Cas9蛋白可來自例如化膿性鏈球菌(Streptococcus pyogenes)、嗜熱鏈球菌(Streptococcus thermophilus)、鏈球菌屬物種(Streptococcus sp.)、金黃色葡萄球菌(Staphylococcus aureus)、達氏擬諾卡氏菌(Nocardiopsis dassonvillei)、始旋鏈霉菌(Streptomyces pristinaespiralis)、綠色產色鏈霉菌(Streptomyces viridochromogenes)、綠色產色鏈霉菌(Streptomyces viridochromogenes)、粉紅鏈孢囊菌(Streptosporangium roseum)、粉紅鏈孢囊菌(Streptosporangium roseum)、酸熱脂環酸芽孢桿菌(AlicyclobacHlus acidocaldarius)、假蕈狀芽孢桿菌(Bacillus pseudomycoides)、還原硒酸鹽芽孢桿菌(Bacillus selenitireducens)、西伯利亞微小桿菌(Exiguobacterium sibiricum)、德氏乳桿菌(Lactobacillus delbrueckii)、唾液乳桿菌(Lactobacillus salivarius)、海洋微顫菌(Microscilla marina)、伯克氏菌(Burkholderiales bacterium)、萘降解極地單胞菌(Polaromonas naphthalenivorans)、極地單胞菌屬物種(Polaromonas sp.)、瓦氏鱷球藻(Crocosphaera watsonii)、藍桿藻屬物種(Cyanothece sp.)、銅綠微囊藻(Microcystis aeruginosa)、聚球藻屬物種(Synechococcus sp.)、阿拉伯糖醋鹽桿菌(Acetohalobium arabaticum)、制氨菌(Ammonifex degensii)、熱解纖維素菌(Caldicelulosiruptor becscii)、Candidatus Desulforudis、肉毒梭菌(Clostridium botulinum)、艱難梭菌(Clostridium difficile)、大芬戈爾德菌(Finegoldia magna)、嗜熱鹽堿厭氧菌(Natranaerobius thermophilus)、丙酸互營細菌(Pelotomaculum thermopropionicum)、喜溫嗜酸硫桿菌(Acidithiobacillus caldus)、嗜酸氧化亞鐵硫桿菌(Acidithiobacillus ferrooxidans)、紫色硫細菌(Allochromatium vinosum)、海桿菌屬物種(Marinobacter sp.)、嗜鹽亞硝化球菌(Nitrosococcus halophilus)、瓦氏亞硝化球菌(Nitrosococcus watsoni)、游海假交替單胞菌(Pseudoalteromonas haloplanktis)、纖線桿菌(Ktedonobacter racemifer)、甲烷鹽菌(Methanohalobium evestigatum)、多變魚腥藻Anabaena variabilis)、泡沫節球藻(Nodularia spumigena)、念珠藻屬物種(Nostoc sp.)、極大節螺藻(Arthrospira maxima)、鈍頂節螺藻(Arthrospira platensis)、節螺藻屬物種(Arthrospira sp.)、鞘絲藻屬物種(Lyngbya sp.)、原型微鞘藻(Microcoleus chthonoplastes)、顫藻屬物種(Oscillatoria sp.)、運動石袍菌(Petrotoga mobilis)、非洲棲熱腔菌(Thermosipho africanus)、或深海單細胞藍細菌(Acaryochloris marina)。Cas9家族成員的附加示例在WO 2014/131833中有描述,該專利全文以引用的方式并入本文。來自化膿性鏈球菌(S.pyogenes)或從其衍生的Cas9蛋白是優選的酶。為來自化膿性鏈球菌的Cas9蛋白分配了SwissProt登錄號Q99ZW2。
Cas蛋白可為野生型蛋白(即,自然界存在的蛋白)、經修飾的Cas蛋白(即,Cas蛋白變體)、或者野生型或經修飾的Cas蛋白的片段。Cas蛋白也可以是野生型或經修飾的Cas蛋白的活性變體或片段。活性變體或片段可與野生型或經修飾的Cas蛋白或者其一部分具有至少80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的序列同一性,其中所述活性變體保留了在所需切割位點處切開的能力,從而保留了切口誘導活性或雙鏈斷裂誘導活性。針對切口誘導活性或雙鏈斷裂誘導活性的測定法是已知的,并且一般測量Cas蛋白對包含切割位點的DNA底物的總體活性和特異性。
可修飾Cas蛋白以提高或降低核酸結合親和力、核酸結合特異性和/或酶活性。還可修飾Cas蛋白以改變蛋白的任何其他活性或特性,諸如穩定性。例如,Cas蛋白的一個或多個核酸酶結構域可以被修飾、缺失或失活,或者Cas蛋白可以被截短以去除對于蛋白質的功能并非必要的結構域,或優化(例如,增強或降低)Cas蛋白的活性。
一些Cas蛋白包含至少兩個核酸酶結構域,諸如DNA酶結構域。例如,Cas9蛋白可包含RuvC樣核酸酶結構域和HNH樣核酸酶結構域。RuvC結構域和HNH結構域各自可切開雙鏈DNA的不同鏈,從而在DNA中產生雙鏈斷裂。參見例如Jinek et al.(2012)Science 337:816-821(Jinek等人,2012年,《科學》,第337卷,第816-821頁),該文獻全文據此以引用的方式并入。
這些核酸酶結構域中的一者或兩者可以被缺失或突變,使得它們不再有功能或具有降低的核酸酶活性。如果核酸酶結構域之一被缺失或突變,則所得的Cas蛋白(例如,Cas9)可稱為切口酶,并且可在雙鏈DNA內的CRISPR RNA識別序列處生成單鏈斷裂,但不會生成雙鏈斷裂(即,其可切割互補鏈或非互補鏈,但無法同時切割兩者)。如果這兩個核酸酶結構域都被缺失或突變,則所得的Cas蛋白(例如,Cas9)將具有降低的切割雙鏈DNA兩條鏈的能力。將Cas9轉變為切口酶的突變的示例是來自化膿性鏈球菌的Cas9的RuvC結構域中的D10A(Cas9的第10位處天冬氨酸至丙氨酸)突變。同樣,來自化膿性鏈球菌的Cas9的HNH結構域中的H939A(氨基酸位置839處組氨酸至丙氨酸)或H840A(氨基酸位置840處組氨酸至丙氨酸)可將Cas9轉變為切口酶。將Cas9轉變為切口酶的突變的其他示例包括來自嗜熱鏈球菌(S.thermophilus)的Cas9的對應突變。參見例如Sapranauskas et al.(2011)Nucleic Acids Research 39:9275-9282(Sapranauskas等人,2011年,《核酸研究》,第39卷,第9275-9282頁)和WO 2013/141680,這些文獻中的每一篇全文均以引用的方式并入本文。此類突變可使用諸如定點誘變、PCR介導的誘變或全基因合成的方法來生成。其他形成切口酶的突變的示例可見于例如WO/2013/176772A1和WO/2013/142578A1中,這些專利中的每一篇均以引用的方式并入本文。
Cas蛋白也可為融合蛋白。例如,Cas蛋白可融合到切割結構域、表觀遺傳修飾結構域、轉錄激活結構域或轉錄阻遏物結構域。參見WO 2014/089290,該專利全文以引用的方式并入本文。Cas蛋白也可融合到異源多肽,從而提供增強或減弱的穩定性。融合的結構域或異源多肽可位于N端、C端或Cas蛋白的內部。
Cas蛋白可融合到有助于亞細胞定位的異源多肽。此類異源肽包括例如用于靶向細胞核的核定位信號(NLS)如SV40NLS、用于靶向線粒體的線粒體定位信號、ER滯留信號等。參見例如Lange et al.(2007)J.Biol.Chem.282:5101-5105(Lange等人,2007年,《生物化學雜志》,第282卷,第5101-5105頁)。此類亞細胞定位信號可位于N端、C端或Cas蛋白內的任何位置處。NLS可包含一段堿性氨基酸,并且可為單分型(monopartite)序列或雙分型(bipartite)序列。
Cas蛋白也可連接至細胞穿透結構域。例如,細胞穿透結構域可衍生自HIV-1TAT蛋白、來自人乙肝病毒的TLM細胞穿透基序、MPG、Pep-1、VP22、來自單純性皰疹病毒的細胞穿透肽、或多聚精氨酸肽序列。參見例如WO 2014/089290,該專利全文以引用的方式并入本文。細胞穿透結構域可位于N端、C端或Cas蛋白內的任何位置處。
Cas蛋白還可包含便于示蹤或純化的異源多肽,諸如熒光蛋白、純化標簽或表位標簽。熒光蛋白的示例包括綠色熒光蛋白(例如,GFP、GFP-2、tagGFP、turboGFP、eGFP、Emerald、Azami Green、Monomeric Azami Green、CopGFP、AceGFP、ZsGreenl)、黃色熒光蛋白(例如,YFP、eYFP、Citrine、Venus、YPet、PhiYFP、ZsYellowl)、藍色熒光蛋白(例如,eBFP、eBFP2、Azurite、mKalamal、GFPuv、Sapphire、T-sapphire)、青色熒光蛋白(例如,eCFP、Cerulean、CyPet、AmCyanl、Midoriishi-Cyan)、紅色熒光蛋白(mKate、mKate2、mPlum、DsRed monomer、mCherry、mRFP1、DsRed-Express、DsRed2、DsRed-Monomer、HcRed-Tandem、HcRedl、AsRed2、eqFP611、mRaspberry、mStrawberry、Jred)、橙色熒光蛋白(mOrange、mKO、Kusabira-Orange、Monomeric Kusabira-Orange、mTangerine、tdTomato)以及任何其他合適的熒光蛋白。標簽的示例包括谷胱甘肽-S-轉移酶(GST)、幾丁質結合蛋白(CBP)、麥芽糖結合蛋白、硫氧還蛋白(TRX)、多聚(NANP)、串聯親和純化(TAP)標簽、myc、AcV5、AU1、AU5、E、ECS、E2、FLAG、血凝素(HA)、nus、Softag 1、Softag 3、Strep、SBP、Glu-Glu、HSV、KT3、S、S1、T7、V5、VSV-G、組氨酸(His)、生物素羧基載體蛋白(BCCP)以及鈣調蛋白。
在一些實施例中,Cas蛋白可被修飾成使所得核酸酶活性被改變。Cas中的某些突變可降低核酸酶切割靶DNA的互補鏈和非互補鏈兩者的能力。例如,Cas蛋白可在已知位置中突變,使得核酸酶活性局限于互補鏈或非互補鏈的切割。具體地講,具有D10A(Cas9的氨基酸位置10處天冬氨酸至丙氨酸)突變的Cas9可切割靶DNA的互補鏈,但切割靶DNA的非互補鏈的能力降低。在一些實施例中,具有H840A(氨基酸位置840處組氨酸至丙氨酸)突變的Cas9可切割靶DNA的非互補鏈,但切割靶DNA的互補鏈的能力降低。具有D10A或H840A突變的Cas9的核酸酶活性將導致單鏈斷裂(SSB)而非DSB。可使其他殘基突變以實現相同效果(即,使一個或另一個核酸酶部分失活)。作為非限制性示例,殘基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987(即,置換)。此外,除丙氨酸之外的置換氨基酸可為合適的。在一些實施例中,當核酸酶具有降低的活性時(例如,當Cas9蛋白具有D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987突變,諸如D10A、G12A、G17A、E762A、H840A、N854A、N863A、H982A、H983A、A984A和/或D986A時),核酸酶只要保留與gRNA相互作用的能力,就仍可以位點特異性方式結合于靶DNA,因為gRNA仍會將其引導至靶DNA序列。
在一些實施例中,Cas被改變成使得核酸酶不切割靶DNA的互補鏈或非互補鏈。例如,具有D10A突變和H840A突變的Cas9切割靶DNA的互補鏈和非互補鏈兩者的能力降低。可使其他殘基突變以實現相同效果(即,使一個或另一個核酸酶部分發生失活)。作為非限制性示例,殘基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或可被置換,以基本上消除核酸酶活性。此外,除丙氨酸置換之外的突變可為合適的。
術語“靶位點”或“靶序列”可互換使用,并且包括靶DNA中存在的這樣的核酸序列,只要存在充分的結合條件,gRNA的DNA靶向區段就將與該核酸序列結合。例如,靶DNA內的靶位點(或靶序列)被Cas蛋白或gRNA所靶向(或與之結合、或與之雜交、或與之互補)。合適的DNA/RNA結合條件包括通常存在于細胞中的生理條件。其他合適的DNA/RNA結合條件(例如,無細胞系統中的條件)是本領域已知的(參見例如Molecular Cloning:A Laboratory Manual,3rd Ed.(Sambrook et al.,Harbor Laboratory Press 2001)(《分子克隆實驗指南》,第3版,Sambrook等人,冷泉港實驗室出版社,2001年))。靶DNA的與Cas蛋白或gRNA互補并雜交的鏈稱為“互補鏈”,并且靶DNA的與“互補鏈”互補(并因此不與Cas蛋白或gRNA互補)的鏈稱為“非互補鏈”或“模板鏈”。
Cas蛋白可在靶序列之內或靶序列之外的位點處切割核酸。“切割位點”包括Cas蛋白在其中產生單鏈斷裂或雙鏈斷裂的核酸位置。如果Cas蛋白產生雙鏈斷裂,則切割位點可位于核酸的兩條鏈上的相同位置處(產生平頭末端),或可位于每條鏈上的不同位點處(產生粘性或粘著末端)。還可通過使用在每條鏈上的切割位點處產生單鏈斷裂的兩種Cas蛋白來產生粘性末端。Cas9對靶DNA的位點特異性切割可在由以下兩者決定的位置處發生:(i)向導RNA與靶DNA之間的堿基配對互補性,以及(ii)靶DNA中的短基序,稱為前間區序列鄰近基序(PAM)。例如,Cas9的切割位點可為PAM序列上游的約1至約10或者約2至約5個堿基對(例如,3個堿基對)。在一些實施例中(例如,當使用來自化膿性鏈球菌的Cas9或密切相關的Cas9時),非互補鏈的PAM序列可為5'-XGG-3',其中X為任何DNA核苷酸,并且X緊鄰靶DNA的非互補鏈的靶序列的3'。因此,互補鏈的PAM序列將為5'-CCY-3',其中Y為任何DNA核苷酸并且Y緊鄰靶DNA的互補鏈的靶序列的5'。在一些此類實施例中,X和Y可為互補的,并且X-Y堿基對可為任何堿基對(例如,X=C且Y=G;X=G且Y=C;X=A且Y=T,X=T且Y=A)。
Cas蛋白可以任何形式提供。例如,Cas蛋白可以蛋白的形式提供,諸如與gRNA復合的Cas蛋白。作為另一種選擇,Cas蛋白可以編碼Cas蛋白的核酸的形式提供,諸如RNA(例如,信使RNA(mRNA))或DNA。任選地,編碼Cas蛋白的核酸可進行密碼子優化,以在特定細胞或生物體中有效翻譯成蛋白。例如,可對編碼Cas蛋白的核酸進行修飾,以替換成與天然存在的多核苷酸序列相比在細菌細胞、酵母細胞、人細胞、非人細胞、哺乳動物細胞、嚙齒動物細胞、小鼠細胞、大鼠細胞或任何其他目標宿主細胞中具有更高使用頻率的密碼子。當將編碼Cas蛋白的核酸引入細胞中時,Cas蛋白可在細胞中瞬時地、條件性地或組成型地表達。
編碼Cas蛋白的核酸可穩定整合在細胞的基因組中,并有效連接至細胞中有活性的啟動子。作為另一種選擇,編碼Cas蛋白的核酸可有效連接至表達構建體中的啟動子。表達構建體包括任何能夠指導目標基因或其他核酸序列(例如,Cas基因)的表達并可將這種目標核酸序列轉移到靶細胞中的核酸構建體。例如,編碼Cas蛋白的核酸可位于包含核酸插入序列的靶向載體和/或包含編碼gRNA的DNA的載體中,或其可位于相對于包含核酸插入序列的靶向載體而言單獨的和/或相對于包含編碼gRNA的DNA的載體而言單獨的載體或質粒中。可用于表達構建體的啟動子包括例如在大鼠、真核生物、哺乳動物、非人哺乳動物、人、嚙齒動物、小鼠或倉鼠多能細胞中有活性的啟動子。此類啟動子可為例如條件啟動子、誘導型啟動子、組成型啟動子或組織特異性啟動子。其他啟動子的示例在本文別處有描述。
B.向導RNA(gRNA)
“向導RNA”或“gRNA”包括結合于Cas蛋白并使Cas蛋白靶向靶DNA內的特定位置的RNA分子。向導RNA(gRNA)可包含兩個區段:“DNA靶向區段”和“蛋白結合區段”。“區段”包括分子的區段、部分或區域,諸如RNA中的一個鄰接核苷酸段。一些gRNA包含兩個單獨的RNA分子:“激活因子-RNA”和“靶向因子-RNA”。其他gRNA為單個RNA分子(單個RNA多核苷酸),其也可稱為“單分子gRNA”、“單向導RNA”或“sgRNA”。參見例如WO/2013/176772A1、WO/2014/065596A1、WO/2014/089290A1、WO/2014/093622A2、WO/2014/099750A2、WO/2013142578A1以及WO 2014/131833A1,這些專利中的每一篇均以引用的方式并入本文。術語“向導RNA”和“gRNA”包括雙分子gRNA和單分子gRNA兩者。
示例性的雙分子gRNA包含crRNA樣(“CRISPR RNA”或“靶向因子-RNA”或“crRNA”或“crRNA重復序列”)分子以及對應的tracrRNA樣(“反式作用CRISPR RNA”或“激活因子-RNA”或“tracrRNA”或“支架”)分子。crRNA包含gRNA的DNA靶向區段(單鏈)和一段核苷酸,該段核苷酸形成gRNA的蛋白結合區段的dsRNA雙鏈體的一半。對應的tracrRNA(激活因子-RNA)包含一段核苷酸,該段核苷酸形成gRNA的蛋白結合區段的dsRNA雙鏈體的另一半。crRNA的一段核苷酸與tracrRNA的一段核苷酸互補并雜交,從而形成gRNA的蛋白結合結構域的dsRNA雙鏈體。因此,每個crRNA可以說成具有對應的tracrRNA。crRNA另外提供了單鏈DNA靶向區段。因此,gRNA包含與靶序列雜交的序列和tracrRNA。
crRNA和對應的tracrRNA(作為對應的對)雜交而形成gRNA。crRNA另外提供了與CRISPR RNA識別序列雜交的單鏈DNA靶向區段。如果用于細胞內的修飾,則給定crRNA或tracrRNA分子的確切序列可被設計成對于將在其中使用這些RNA分子的物種具有特異性。參見例如Mali P et al.(2013)Science 2013Feb 15;339(6121):823-6(Mali P等人,2013年,《科學》,2013年2月15日,第339卷,第6121期,第823-826頁);Jinek M et al.Science 2012Aug 17;337(6096):816-21(Jinek M等人,《科學》,2012年8月17日,第337卷,第6096期,第816-821頁);Hwang WY et al.Nat Biotechnol 2013Mar;31(3):227-9(Hwang WY等人,《自然生物技術》,2013年3月,第31卷,第3期,第227-229頁);Jiang W et al.Nat Biotechnol 2013 Mar;31(3):233-9(Jiang W等人,《自然生物技術》,2013年3月,第31卷,第3期,第233-239頁);以及Cong L et al.Science 2013 Feb 15;339(6121):819-23(Cong L等人,《科學》,2013年2月15日,第339卷,第6121期,第819-823頁),這些文獻中的每一篇均以引用的方式并入本文。
給定gRNA的DNA靶向區段(crRNA)包含與靶DNA中的序列互補的核苷酸序列。gRNA的DNA靶向區段通過雜交(即,堿基配對)以序列特異性方式與靶DNA相互作用。因此,DNA靶向區段的核苷酸序列可變化,并且決定將與gRNA和靶DNA相互作用的靶DNA內的位置。可修飾個體gRNA的DNA靶向區段,以與靶DNA內的任何所需序列雜交。天然存在的crRNA隨Cas9系統和生物體不同而不同,但通常包含21至72個核苷酸長的靶向區段,該靶向區段被21至46個核苷酸長的兩個正向重復序列(DR)側接(參見例如WO2014/131833)。就化膿性鏈球菌而言,DR為36個核苷酸長,并且靶向區段為30個核苷酸長。位于3’的DR與對應的tracrRNA互補并雜交,繼而結合于Cas9蛋白。
DNA靶向區段的長度可為約12個核苷酸至約100個核苷酸。例如,DNA靶向區段的長度可為約12個核苷酸(nt)至約80nt、約12nt至約50nt、約12nt至約40nt、約12nt至約30nt、約12nt至約25nt、約12nt至約20nt、或約12nt至約19nt。作為另一種選擇,DNA靶向區段的長度可為約19nt至約20nt、約19nt至約25nt、約19nt至約30nt、約19nt至約35nt、約19nt至約40nt、約19nt至約45nt、約19nt至約50nt、約19nt至約60nt、約19nt至約70nt、約19nt至約80nt、約19nt至約90nt、約19nt至約100nt、約20nt至約25nt、約20nt至約30nt、約20nt至約35nt、約20nt至約40nt、約20nt至約45nt、約20nt至約50nt、約20nt至約60nt、約20nt至約70nt、約20nt至約80nt、約20nt至約90nt、或約20nt至約100nt。
與靶DNA的核苷酸序列(CRISPR RNA識別序列)互補的DNA靶向區段的核苷酸序列的長度可為至少約12nt。例如,DNA靶向序列(例如,與靶DNA內的CRISPR RNA識別序列互補的DNA靶向區段內的序列)的長度可為至少約12nt、至少約15nt、至少約18nt、至少約19nt、至少約20nt、至少約25nt、至少約30nt、至少約35nt、或至少約40nt。作為另一種選擇,與靶DNA的靶序列互補的DNA靶向區段的DNA靶向序列的長度可為約12個核苷酸(nt)至約80nt、約12nt至約50nt、約12nt至約45nt、約12nt至約40nt、約12nt至約35nt、約12nt至約30nt、約12nt至約25nt、約12nt至約20nt、約12nt至約19nt、約19nt至約20nt、約19nt至約25nt、約19nt至約30nt、約19nt至約35nt、約19nt至約40nt、約19nt至約45nt、約19nt至約50nt、約19nt至約60nt、約20nt至約25nt、約20nt至約30nt、約20nt至約35nt、約20nt至約40nt、約20nt至約45nt、約20nt至約50nt、或約20nt至約60nt。與靶DNA的核苷酸序列(靶序列)互補的DNA靶向區段的核苷酸序列(DNA靶向序列)的長度可為至少約12nt。在一些情況下,DNA靶向序列的長度可為至少約20nt。
TracrRNA可為任何形式(例如,全長tracrRNA或有活性的部分tracrRNA)并具有不同長度。它們可包括初級轉錄物或加工形式。例如,tracrRNA(作為單向導RNA的一部分或作為屬于雙分子gRNA的一部分的單獨分子)可包含以下部分或由以下部分組成:野生型tracrRNA序列的全部或一部分(例如,野生型tracrRNA序列的約或大于約20、26、32、45、48、54、63、67、85個或更多個核苷酸)。來自化膿性鏈球菌的野生型tracrRNA序列的示例包括171個核苷酸、89個核苷酸、75個核苷酸以及65個核苷酸的形式。參見例如Deltcheva et al.(2011)Nature 471:602-607(Deltcheva等人,2011年,《自然》,第471卷,第602-607頁);WO 2014/093661,這些文獻中的每一篇全文均以引用的方式并入本文。單向導RNA(sgRNA)內的tracrRNA的示例包括存在于+48、+54、+67和+85形式的sgRNA內的tracrRNA區段,其中“+n”表示野生型tracrRNA的至多+n核苷酸包含在sgRNA中。參見US 8,697,359,該專利全文以引用的方式并入本文。
DNA靶向序列與靶DNA內的CRISPR RNA識別序列之間的互補性百分比可為至少60%(例如,至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少97%、至少98%、至少99%或100%)。DNA靶向序列與靶DNA內的CRISPR RNA識別序列之間的互補性百分比,在靶DNA互補鏈的靶序列的七個鄰接的5'最末端核苷酸內為100%。在某些實施例中,DNA靶向序列與靶DNA內的CRISPR RNA識別序列之間的互補性百分比在約20個鄰接核苷酸內可為至少60%。例如,DNA靶向序列與靶DNA內的CRISPR RNA識別序列之間的互補性百分比,在靶DNA的互補鏈內的CRISPR RNA識別序列的5’最末端的十四個鄰接核苷酸內為100%,并且在其余鄰接核苷酸內低至0%。在這種情況下,DNA靶向序列可被視為14個核苷酸長。又如,DNA靶向序列與靶DNA內的CRISPR RNA識別序列之間的互補性百分比,在靶DNA的互補鏈內的CRISPR RNA識別序列的5’最末端的七個鄰接核苷酸內為100%,并且在其余鄰接核苷酸內低至0%。在這種情況下,DNA靶向序列可被視為7個核苷酸長。
核酸的互補性意指核酸的一條鏈中的核苷酸序列因其核堿基基團的取向而以氫鍵方式結合于相對核酸鏈上的另一個序列。互補堿基通常為,在DNA中:A與T及C與G,在RNA中:C與G及U與A。互補性可以是完全的或實質的/充分的。兩個核酸之間的完全互補性意指這兩個核酸可以形成雙鏈體,其中雙鏈體中的每個堿基按照沃森-克里克配對原則與互補堿基結合。“實質”或“充分”互補意指一條鏈中的序列不與相對鏈中的序列徹底和/或完全互補,但在一組雜交條件(例如,鹽濃度和溫度)中這兩條鏈上的堿基之間發生充分鍵合而形成穩定的雜交復合物。可通過以下方式預測此類條件:使用序列和標準數學計算來預測雜交鏈的Tm,或使用常規方法憑經驗確定Tm。Tm是指在兩條核酸鏈之間形成的一群雜交復合物發生50%變性時的溫度。在低于Tm的溫度下,有利于雜交復合物的形成,而在高于Tm的溫度下,有利于雜交復合物中的兩條鏈的解鏈或分離。可在1M NaCl水溶液中對具有已知G+C含量的核酸估計Tm,例如使用Tm=81.5+0.41(%G+C),而其他已知的Tm計算法考慮了核酸結構特征。
“雜交條件”是指累積環境,其中一條核酸鏈通過互補鏈相互作用和氫鍵方式鍵合于第二核酸鏈,從而產生雜交復合物。此類條件包括含核酸的水溶液或有機溶液的化學組分及其濃度(例如,鹽、螯合劑、甲酰胺)以及該混合物的溫度。其他因素(例如,溫育時間的長度或反應室尺寸)可對環境有影響(例如Sambrook et al.,Molecular Cloning,A Laboratory Manual,2.sup.nd ed.,pp.1.90-1.91,9.47-9.51,1 1.47-11.57(Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.,1989)(Sambrook等人,《分子克隆實驗指南》,第2版,第1.90-1.91、9.47-9.51、1 1.47-11.57節,冷泉港實驗室出版社,美國紐約州冷泉港,1989年))。
雜交要求兩個核酸包含互補序列,但允許堿基之間出現錯配。適于兩個核酸之間的雜交的條件取決于核酸的長度和互補程度,這些變量是本領域眾所周知的。兩個核苷酸序列之間的互補程度越大,具有這些序列的核酸的雜交體的解鏈溫度(Tm)值就越大。對于具有短序列段互補性(例如,在35個或更少、30個或更少、25個或更少、22個或更少、20個或更少、或18個或更少核苷酸內的互補性)的核酸之間的雜交,錯配的位置變得重要(參見Sambrook等人,出處同上,11.7-11.8)。通常,可雜交核酸的長度為至少約10個核苷酸。可雜交核酸的示例性最小長度為:至少約15個核苷酸、至少約20個核苷酸、至少約22個核苷酸、至少約25個核苷酸以及至少約30個核苷酸。此外,可視需要根據諸如互補區域的長度和互補程度等因素來調節溫度和洗滌溶液鹽濃度。
多核苷酸的序列不必與其靶核酸的序列100%互補,也能實現特異性雜交。此外,多核苷酸可在一個或多個區段內雜交,使得間插或相鄰區段不參與雜交事件(例如,環結構或發夾結構)。多核苷酸(例如,gRNA)可與其靶向的靶核酸序列內的靶區域具有至少70%、至少80%、至少90%、至少95%、至少99%或100%序列互補性。例如,其中gRNA的20個核苷酸中有18個與靶區域互補并因此特異性雜交的gRNA將表示90%互補性。在該示例中,剩余的非互補核苷酸可以成簇或散布在互補核苷酸內并且無需彼此鄰接或與互補核苷酸鄰接。通常可使用以下程序來確定核酸內的核酸序列的特定序列段之間的互補性百分比:使用本領域已知的BLAST程序(基本局部比對搜索工具)和PowerBLAST程序(Altschul et al.,J.Mol.Biol.,1990,215,403-410(Altschul等人,《分子生物學雜志》,1990年,第215卷,第403-410頁);Zhang and Madden,Genome Res.,1997,7,649-656(Zhang和Madden,《基因組研究》,1997年,第7卷,第649-656頁))或使用Gap程序(威斯康星序列分析軟件包,適用于Unix的版本8,遺傳學計算機組,美國威斯康星州麥迪遜的大學研究園(Wisconsin Sequence Analysis Package,Version 8for Unix,Genetics Computer Group,University Research Park,Madison Wis.)),這些程序使用默認設置,這使用Smith和Waterman的算法(Adv.Appl.Math.,1981,2,482-489(《應用數學進展》,1981年,第2卷,第482-489頁))。
個體gRNA的蛋白結合區段與Cas蛋白相互作用。個體gRNA經由DNA靶向區段將結合的多肽引導至靶DNA內的特異性核苷酸序列。個體gRNA的蛋白結合區段可包含彼此互補的兩段核苷酸。蛋白結合區段的互補核苷酸雜交而形成雙鏈RNA雙鏈體(dsRNA)。個體gRNA的蛋白結合區段與Cas蛋白相互作用,并且gRNA經由DNA靶向區段將結合的Cas蛋白引導至靶DNA內的特異性核苷酸序列。
在某些實施例中,如本文所述的gRNA包含兩個單獨的RNA分子。個體gRNA的兩個RNA分子各自包含一段核苷酸,它們彼此互補,使得這兩個RNA分子的互補核苷酸雜交而形成蛋白結合區段的雙鏈RNA雙鏈體(例如,發夾)。個體gRNA可包含任何對應的crRNA和tracrRNA對。在本文所述的方法中,gRNA可用作crRNA和tracrRNA的復合物(例如,gRNA-Cas復合物),或crRNA和對應的tracrRNA可分別進行遞送。例如,如果多個gRNA用于切割反應,則可將對每個靶位點具有特異性的單獨crRNA和可與每個crRNA復合的標準tracrRNA分別遞送。在這種方法中,crRNA可與標準tracrRNA復合以將Cas蛋白引導至靶位點。
向導RNA可包括提供額外所需特征(例如,經修飾或調控的穩定性;亞細胞靶向;用熒光標記物示蹤;蛋白或蛋白復合物的結合位點;等等)的修飾或序列。此類修飾的非限制性示例包括例如5'帽(例如,7-甲基鳥苷酸帽(m7G));3'多聚腺苷酸化尾(即,3'多聚(A)尾);核糖開關序列(例如,以實現經調控的穩定性和/或經調控的蛋白和/或蛋白復合物可及性);穩定性控制序列;形成dsRNA雙鏈體(即,發夾)的序列;使RNA靶向亞細胞位置(例如,細胞核、線粒體、葉綠體等)的修飾或序列;提供示蹤的修飾或序列(例如,與熒光分子的直接綴合、與有利于熒光檢測的部分的綴合、允許熒光檢測的序列等);為蛋白質(例如,作用于DNA的蛋白質,包括轉錄激活因子、轉錄阻遏物、DNA甲基轉移酶、DNA去甲基化酶、組蛋白乙酰轉移酶、組蛋白去乙酰化酶等)提供結合位點的修飾或序列;以及它們的組合。
向導RNA可以任何形式提供。例如,gRNA可以RNA的形式(作為兩分子(單獨的crRNA和tracrRNA)或作為一分子(sgRNA))提供,并任選地以與Cas蛋白的復合物形式提供。gRNA也可以編碼RNA的DNA的形式提供。編碼gRNA的DNA可編碼單個RNA分子(sgRNA)或單獨的RNA分子(例如,單獨的crRNA和tracrRNA)。在后一情況下,編碼gRNA的DNA可作為分別編碼crRNA和tracrRNA的單獨DNA分子提供。
編碼gRNA的DNA可穩定整合在細胞的基因組中,并有效連接至在細胞中有活性的啟動子。作為另一種選擇,編碼gRNA的DNA可有效連接至表達構建體中的啟動子。例如,編碼gRNA的DNA可位于包含核酸插入序列的靶向載體和/或包含編碼Cas蛋白的核酸的載體中,或其可位于相對于包含核酸插入序列的靶向載體而言單獨的和/或相對于包含編碼Cas蛋白的核酸的載體而言單獨的載體或質粒中。此類啟動子可例如在大鼠、真核生物、哺乳動物、非人哺乳動物、人、嚙齒動物、小鼠或倉鼠多能細胞中有活性。此類啟動子可為例如條件啟動子、誘導型啟動子、組成型啟動子或組織特異性啟動子。在一些情況下,所述啟動子為RNA聚合酶III啟動子,諸如人U6啟動子、大鼠U6聚合酶III啟動子、或小鼠U6聚合酶III啟動子。其他啟動子的示例在本文別處有描述。當將編碼gRNA的DNA引入細胞中時,gRNA可在細胞中瞬時地、條件性地或組成型地表達。
作為另一種選擇,可通過各種其他方法制備gRNA。例如,可通過采用例如T7RNA聚合酶的體外轉錄來制備gRNA(參見例如WO 2014/089290和WO 2014/065596)。向導RNA也可為通過化學合成制備的合成產生的分子。
C.CRISPR RNA識別序列
術語“CRISPR RNA識別序列”包括靶DNA中存在的這樣的核酸序列,只要存在充分的結合條件,gRNA的DNA靶向區段就將與該核酸序列結合。例如,CRISPR RNA識別序列包括向導RNA被設計成與之具有互補性的序列,其中CRISPR RNA識別序列與DNA靶向序列之間的雜交促進CRISPR復合物的形成。不必要求完全互補性,只要存在足以引起雜交并促進CRISPR復合物形成的互補性即可。CRISPR RNA識別序列還包括下文更詳細說明的Cas蛋白的切割位點。CRISPR RNA識別序列可包含任何多核苷酸,所述多核苷酸可位于例如細胞的細胞核或細胞質中,或位于細胞的細胞器如線粒體或葉綠體內。
靶DNA內的CRISPR RNA識別序列可被Cas蛋白或gRNA所靶向(即,與之結合、或與之雜交、或與之互補)。合適的DNA/RNA結合條件包括通常存在于細胞中的生理條件。其他合適的DNA/RNA結合條件(例如,無細胞系統中的條件)是本領域已知的(參見例如Molecular Cloning:A Laboratory Manual,3rd Ed.(Sambrook et al.,Harbor Laboratory Press 2001)(《分子克隆實驗指南》,第3版,Sambrook等人,冷泉港實驗室出版社,2001年))。與Cas蛋白或gRNA互補并雜交的靶DNA鏈可稱為“互補鏈”,并且與“互補鏈”互補(并因此不與Cas蛋白或gRNA互補)的靶DNA鏈可稱為“非互補鏈”或“模板鏈”。
Cas蛋白可在將與gRNA的DNA靶向區段結合的靶DNA中存在的核酸序列之內或之外的位點處切割核酸。“切割位點”包括Cas蛋白產生單鏈斷裂或雙鏈斷裂的核酸位置。例如,CRISPR復合物(包含與CRISPR RNA識別序列雜交并與Cas蛋白復合的gRNA)的形成可導致將與gRNA的DNA靶向區段結合的靶DNA中存在的核酸序列之中或附近(例如,在相距1、2、3、4、5、6、7、8、9、10、20、50個或更多個堿基對內)的一條或兩條鏈切割。如果切割位點位于將與gRNA的DNA靶向區段結合的核酸序列之外,則切割位點仍被視為在“CRISPR RNA識別序列”內。切割位點可位于核酸的僅一條鏈上或兩條鏈上。切割位點可位于核酸的兩條鏈上的相同位置處(產生平頭末端),或可位于每條鏈上的不同位點處(產生交錯末端)。可例如通過使用兩種Cas蛋白來產生交錯末端,每種Cas蛋白在每條鏈上的不同切割位點處產生單鏈斷裂,從而產生雙鏈斷裂。例如,第一切口酶可在雙鏈DNA(dsDNA)的第一鏈上形成單鏈斷裂,并且第二切口酶可在dsDNA的第二鏈上形成單鏈斷裂,使得形成懸垂序列。在一些情況下,第一鏈上的切口酶的CRISPR RNA識別序列與第二鏈上的切口酶的CRISPR RNA識別序列相隔至少2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、75、100、250、500或1,000個堿基對。
Cas9對靶DNA的位點特異性切割可在由以下兩者決定的位置處發生:(i)gRNA與靶DNA之間的堿基配對互補性,以及(ii)靶DNA中的短基序,稱為前間區序列鄰近基序(PAM)。PAM可側接CRISPR RNA識別序列。任選地,CRISPR RNA識別序列可被PAM側接。例如,Cas9的切割位點可為PAM序列上游或下游的約1至約10或者約2至約5個堿基對(例如,3個堿基對)。在一些情況下(例如,當使用來自化膿性鏈球菌的Cas9或密切相關的Cas9時),非互補鏈的PAM序列可為5'-N1GG-3',其中N1為任何DNA核苷酸并且緊鄰靶DNA的非互補鏈的CRISPR RNA識別序列的3'。因此,互補鏈的PAM序列將為5'-CC N2-3',其中N2為任何DNA核苷酸并且緊鄰靶DNA的互補鏈的CRISPR RNA識別序列的5'。在一些此類情況下,N1和N2可為互補的,并且N1-N2堿基對可為任何堿基對(例如,N1=C且N2=G;N1=G且N2=C;N1=A且N2=T,N1=T且N2=A)。
CRISPR RNA識別序列的示例包括與gRNA的DNA靶向區段互補的DNA序列、或除PAM序列之外的這種DNA序列。例如,靶基序可為緊接在Cas蛋白所識別的NGG基序前面的20個核苷酸的DNA序列,諸如GN19NGG(SEQ ID NO:8)或N20NGG(SEQ ID NO:24)(參見例如WO 2014/165825)。5’端的鳥嘌呤可有利于RNA聚合酶在細胞中進行轉錄。CRISPR RNA識別序列的其他示例可包括5’端的兩個鳥嘌呤核苷酸(例如,GGN20NGG;SEQ ID NO:25),以有利于T7聚合酶在體外進行有效轉錄。參見例如WO 2014/065596。其他CRISPR RNA識別序列可具有4-22個核苷酸長的SEQ ID NO:8、24和25,包括5’G或GG和3’GG或NGG。另外一些CRISPR RNA識別序列可具有14至20個核苷酸長的SEQ ID NO:8、24和25。
CRISPR RNA識別序列可為細胞內源或外源的任何核酸序列。CRISPR RNA識別序列可為編碼基因產物(例如,蛋白)的序列或非編碼序列(例如,調控序列)或者可包括兩者。
在一個實施例中,Cas蛋白為I型Cas蛋白。在一個實施例中,Cas蛋白為II型Cas蛋白。在一個實施例中,II型Cas蛋白為Cas9。在一個實施例中,第一核酸序列編碼人密碼子優化的Cas蛋白。
在一個實施例中,gRNA包含編碼crRNA和tracrRNA的核酸序列。在具體實施例中,Cas蛋白為Cas9。在一些實施例中,gRNA包含(a)核酸序列5’-GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGU CCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUU-3’(SEQ ID NO:1)的嵌合RNA;或(b)核酸序列5’-GUUUUAGAGCUAGAAAU AGCAAGUUAAAAUAAGGCUAGUCCG-3’(SEQ ID NO:2)的嵌合RNA。在另一個實施例中,crRNA包含5’-GUUUUAGAGCUAGAAAUAGCAA GUUAAAAU-3’(SEQ ID NO:3);5’-GUUUUAGAGCUAGAAAU AGCAAGUUAAAAUAAG(SEQ ID NO:4);或5’-GAGUCCGAGCAGA AGAAGAAGUUUUA-3’(SEQ ID NO:5)。在另外其他實施例中,tracrRNA包含5’-AAGGCUAGUCCG-3’(SEQ ID NO:6)或5’-AAGGCUAGUCCGU UAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUU-3’(SEQ ID NO:7)。
V.多核苷酸的組裝
本文所公開的方法可在一定條件下組裝至少兩個核酸,這些條件能有效接合DNA分子,從而形成基本上完整或無縫的雙鏈DNA分子。可根據本文所公開的方法組裝具有重疊序列的任何目標核酸。例如,可組裝具有重疊序列的任何目標DNA分子,包括天然存在的DNA、克隆的DNA分子、合成產生的DNA等。可根據需要,使用本發明的方法將接合的DNA分子克隆(例如,插入)到載體中。組裝兩個核酸包括任何接合兩個核酸的鏈的方法。例如,組裝包括接合經酶切的核酸,使得來自每個核酸的鏈退火到另一條鏈上;以及延伸,其中每條鏈充當另一條鏈延伸的模板。
在一些實施例中,將核酸與接合寡核苷酸組裝在一起,使得每個核酸組裝到接合寡核苷酸,而非直接組裝在一起。利用接合寡核苷酸進行的組裝可將核酸堿基定位在正在組裝的核酸之間,這些核酸不是待組裝的核酸的一部分,而是接合寡核苷酸的一部分。因此,即使在核酸之間留下額外堿基,也可成功組裝這些核酸。作為另一種選擇,可使用接合寡核苷酸進行無縫組裝,其中在待組裝的核酸之間沒有留下額外堿基。
在一些實施例中,可通過用Cas蛋白、限制性內切酶(限制性核酸內切酶)(例如,本文別處提供的各種限制性核酸內切酶中的任一種)、大范圍核酸酶(例如,本文別處提供的各種大范圍核酸酶中的任一種)或它們的任何組合進行切割,而使這些核酸作好組裝的準備。例如,可用Cas蛋白切割待組裝的核酸之一,并且可用Cas蛋白、限制性內切酶、大范圍核酸酶或它們的任何組合切割待組裝的另一個核酸。在用核酸酶切割后,可將經酶切的核酸直接組裝到具有重疊末端序列的另一個經酶切的核酸,或組裝到未經酶切但具有重疊末端序列的核酸。也可通過使用接合寡核苷酸將經酶切的核酸組裝到另一個核酸。
在采用核酸酶試劑(例如,Cas蛋白)在兩個核酸分子之間產生重疊末端序列的實施例中,可使用快速組合方法來組裝經酶切的核酸。例如,可將具有重疊末端的第一核酸和第二核酸與連接酶、核酸外切酶、DNA聚合酶和核苷酸混合,并在恒定溫度下(諸如在50℃下)溫育。具體地講,可使用T5核酸外切酶從dsDNA的5’端去除核苷酸,從而產生互補懸垂序列。然后在50℃下,使互補單鏈DNA懸垂序列退火,使用DNA聚合酶進行缺口填補,并且使用Taq DNA連接酶密封所得的切口。因此,可在一步等溫反應中將共用重疊末端序列的兩個核酸接合成共價密封的分子。參見例如Gibson,et al.(2009)Nature Methods 6(5):343-345(Gibson等人,2009年,《自然方法》,第6卷,第5期,第343-345頁),該文獻全文以引用的方式并入本文。在一些實施例中,使用蛋白酶K或苯酚/氯仿/異戊醇(PCI)純化,從反應混合物中去除核酸酶試劑(例如,Cas蛋白)。在一些實施例中,可通過基于硅膠的柱純化,從反應混合物中去除核酸酶試劑(例如,Cas蛋白)。
在某些實施例中,本文所公開的方法將載體與線性多核苷酸組裝在一起。在其他實施例中,本文所公開的方法組裝至少兩個載體,諸如兩個BAC載體。術語“BAC載體”包括任何細菌人工染色體。在具體實施例中,對BAC進行修飾以包含具有這樣的核苷酸序列的區域,該核苷酸序列與線性核酸或另一個載體(例如,另一個BAC)的區域的核苷酸序列重疊。
當相應末端彼此互補時,第一單鏈核酸和第二單鏈核酸具有重疊末端。當第一核酸的一條鏈的5’端與第二核酸的一條鏈的3’端互補時,第一雙鏈核酸和第二雙鏈核酸具有重疊末端,反之亦然。例如,對于雙鏈重疊末端序列而言,一個核酸的鏈可與另一個核酸的對應鏈具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同一性。在本文所公開的方法中,待組裝的dsDNA分子的一條鏈的5’端與另一個dsDNA分子的一條鏈的3’端共用重疊末端序列。術語“重疊末端序列”包括dsDNA分子的兩條鏈。因此,當重疊序列的互補區域存在于來自待組裝的兩個多核苷酸的5’和3’端的單鏈懸垂序列中時,來自重疊區域的一條鏈可與其互補鏈特異性雜交。在一些實施例中,使用核酸外切酶從5’或3’端去除核苷酸而形成懸垂末端序列。在一些實施例中,直到用Cas蛋白進行酶切后,第一核酸和/或第二核酸的重疊區域才存在于5’或3’端上。也就是說,重疊區域可以是內部區域,在用Cas蛋白酶切包含內部重疊區域的核酸后,該內部區域后續被轉變為重疊末端序列。Cas蛋白可在重疊區域之內或重疊區域之外的靶位點(例如,切割位點)處切割。
重疊區域的長度優選地足夠長,使得該區域在正組裝的任一核酸內僅出現一次。這樣,可防止其他多核苷酸與末端序列一起退火,并且該組裝對靶核酸可具有特異性。重疊區域的長度可從最少約10個堿基對(bp)至約300bp或更長。一般來講,優選的是,重疊區的長度小于或等于待組合的多核苷酸的大致大小,但不少于約10bp且不超過約1000bp。對于2個或3個多核苷酸的接合而言,約20-30bp重疊區可為足夠的。對于超過10個片段而言,優選的重疊區為約80bp至約300bp。在一個實施例中,重疊區域具有使其易于通過合成方法生成的長度,例如約40bp。在具體實施例中,重疊區域的長度可為約20-200bp。重疊區可為約10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950或1,000bp長。在一些實施例中,重疊區域的長度為20–200bp。在本文所公開的方法的具體實施例中,可組裝至少兩個多核苷酸,其中所述多核苷酸中的至少一者上的重疊區域通過與核酸酶試劑(例如,gRNA-Cas復合物)接觸而生成。例如,第一多核苷酸的核酸內切酶酶切可形成與第二多核苷酸的末端序列重疊的序列,其中重疊末端序列隨后進行組裝。
在本文所公開的方法中,可使重疊序列與核酸外切酶接觸,以暴露重疊序列之間的互補序列(例如,互補單鏈序列)。在一定條件下執行核酸外切酶酶切,這些條件能有效去除(“回噬(chew back)”)足夠數量的核苷酸,從而使暴露的互補性單鏈區域可以進行特異性退火。一般來講,重疊區域的一部分或整個重疊區域被回噬,留下包含重疊區域的一部分或整個重疊區域的懸垂序列。在一些方法中,可在不存在dNTP的情況下由聚合酶(例如,T5DNA聚合酶)執行核酸外切酶酶切,而在其他方法中,可在存在dNTP的情況下由缺乏聚合酶活性的核酸外切酶(例如,核酸外切酶III)執行核酸外切酶酶切。
在本文所公開的方法中,可使用多種5'至3'雙鏈特異性脫氧核糖核酸外切酶中的任一種對核酸的末端進行回噬。術語“5'核酸外切酶”在本文中有時用來指5'至3'脫氧核糖核酸外切酶。如本文所用,“非進行性”核酸外切酶是在每個DNA結合事件期間降解有限數量的(例如,僅一些)核苷酸的核酸外切酶。用5'核酸外切酶進行的酶切在DNA分子中產生了3'單鏈懸垂序列。所希望的5'核酸外切酶的其他特性包括其缺少3'核酸外切酶活性,其生成5'磷酸末端,以及其引發從5'-磷酸化和非磷酸化末端的降解。還希望該酶可引發從分子5'端的酶切,而不論其是平末端,還是具有較小的5'或3'凹缺末端。合適的核酸外切酶對于技術人員將是顯而易見的。這些酶包括例如噬菌體T5核酸外切酶(噬菌體T5基因D15產物)、噬菌體λ核酸外切酶、Rac原噬菌體的RecE、來自大腸桿菌(E.coli)的核酸外切酶VIII、噬菌體T7核酸外切酶(噬菌體T7基因6產物)或參與同源重組反應的多種5'核酸外切酶中的任一種。在本發明的一個實施例中,核酸外切酶是T5核酸外切酶或λ核酸外切酶。在另一個實施例中,核酸外切酶是T5核酸外切酶。在另一個實施例中,核酸外切酶不是噬菌體T7核酸外切酶。用于制備和使用在本發明方法中所采用的核酸外切酶和其他酶的方法是常規的;并且許多方法可得自商業來源,諸如USB Corporation,26111 Miles Road,Cleveland,Ohio 44128(美國俄亥俄州克里夫蘭英里路26111號的USB公司,郵編44128),或New England Biolabs,Inc.(NEB),240County Road,Ipswich,Mass.01938-2723(美國馬薩諸塞州伊普斯威奇縣公路240號的新英格蘭生物實驗室公司(NEB),郵編01938-2723)。
具體而言,在重疊區域非常長的實施例中,可能僅需要回噬該區域的一部分(例如,超過該重疊區域的一半),前提條件是由此生成的單鏈懸垂序列具有足夠的長度和堿基含量,可以在反應條件下特異性地退火。術語“特異性地退火”包括這樣的情況,其中特定的一對單鏈懸垂序列將優先地(或排他地)彼此退火到一起,而非退火到反應混合物中存在的其他單鏈懸垂序列(例如,非互補懸垂序列)。所謂“優先地”意指至少約95%的懸垂序列將退火到互補懸垂序列。技術人員可易于確定用于在一組給定的反應條件下實現目標序列的特異性退火的最佳長度。一般來講,同源重疊區域(單鏈懸垂序列或其互補序列)包含相同序列。然而,可使用部分相同的序列,前提條件是單鏈懸垂序列可在反應條件下特異性地退火。
在某些實施例中,核酸酶試劑(例如,Cas蛋白)可在靶位點處形成單鏈斷裂(即,“切口”)而不切割dsDNA的兩條鏈。“切口酶”包括在dsDNA中形成切口的核酸酶試劑(例如,Cas蛋白)。這樣,對dsDNA每條鏈上的靶位點具有特異性的兩種單獨核酸酶試劑(例如,Cas蛋白)(例如,切口酶)可形成與另一個核酸上的懸垂序列或相同核酸上的單獨區域互補的懸垂序列。通過使核酸與對dsDNA兩條鏈上的靶位點具有特異性的兩種切口酶接觸而形成的懸垂末端可以是5’或3’懸垂末端。例如,第一切口酶可在dsDNA的第一鏈上形成單鏈斷裂,而第二切口酶可在dsDNA的第二鏈上形成單鏈斷裂,使得形成懸垂序列。可選擇每種形成單鏈斷裂的切口酶的靶位點,使得所形成的懸垂末端序列與第二核酸上的懸垂末端序列互補。因此,可通過本文所公開的方法使第一核酸和第二核酸的互補懸垂末端退火。在一些實施例中,切口酶在第一鏈上的靶位點不同于切口酶在第二鏈上的靶位點。dsDNA的單個鏈上的不同靶位點得到由至少2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、75、100、250、500或1,000個堿基對隔開的單鏈斷裂。
在某些實施例中,還使第二核酸與在第二核酸上的第一靶位點處形成切口的第一切口酶及在第二核酸分子上的第二靶位點處形成切口的切口酶接觸。由第二核酸上的兩個不同位點處的切口形成的懸垂末端序列,可與由第一核酸上的兩個不同位點處的切口形成的懸垂末端序列互補,以使得互補懸垂末端序列發生退火。
在一些實施例中,目標基因的核酸序列跨越兩個或更多個BAC。在此類情況下,使用本文所提供的方法時,專門設計的核酸酶試劑可在所需位置處切開所述兩個或更多個BAC,所得的核酸片段接合在一起而形成目標基因的序列。
在一些實施例中,由第一核酸的兩條鏈上的不同靶位點處的切口形成的懸垂末端,不與由第二核酸的兩條鏈上的不同靶位點處的切口形成的懸垂末端互補。在其他實施例中,待組裝的核酸不具有互補末端,使得需要另外的核酸來組裝非互補末端。可使用接合寡核苷酸來接合兩個核酸的非互補末端。“接合寡核苷酸”包括互補臂,所述互補臂所包含的多核苷酸或核酸具有與另一不同的多核苷酸或核酸的末端互補的序列。在一些實施例中,接合寡核苷酸具有在5’端與第一核酸互補的臂、中心部分(間區序列)以及在3’端與第二核酸互補的臂。因此,可通過以下方式組裝具有彼此不互補的末端序列的核酸:在核酸外切酶處理后,使每個核酸退火到相同的接合寡核苷酸。在具體實施例中,接合寡核苷酸具有與第一經酶切的核酸的5’或3’末端序列互補的第一臂,以及與第二經酶切的核酸的5’或3’序列互補的第二臂。接合寡核苷酸可接合平頭的或具有5’或3’懸垂序列的非互補末端序列。
經核酸外切酶處理后,接合寡核苷酸的互補臂序列的長度應當足以退火到待組裝的核酸。例如,接合寡核苷酸的互補臂序列的長度可為至少約10、20、30、35、40、45、50、55、60、65、70、75、80、90、100、110、120、130、140、150bp或更長。在具體實施例中,互補臂為15-120bp、20-100bp、30-90bp、30-60bp或20-80bp。在一個具體實施例中,接合寡核苷酸的互補臂序列的長度為40bp。接合寡核苷酸的每個互補臂可具有不同長度。位于與待組裝的核酸互補的末端序列之間的、接合寡核苷酸的間區序列可為至少約20bp、30bp、35bp、40bp、45bp、50bp、55bp、60bp、65bp、70bp、75bp、80bp、90bp、100bp、250bp、500bp、750bp、1000bp、2000bp、3000bp、4000bp、5000bp、8000bp、10kb、15kb、20kb或更長。例如,接合寡核苷酸的間區序列可包括BAC載體或LTVEC。在一些實施例中,接合寡核苷酸的間區序列可被設計成具有專用于檢測的序列或適用于PCR的序列,以確認成功組裝。在一些實施例中,接合寡核苷酸的間區序列可被設計成引入一個或多個限制性內切酶位點。在一些實施例中,接合寡核苷酸的間區序列可被設計成引入藥物抗性基因或報告基因。在其他實施例中,間區序列可包含來自待組裝的核酸的末端部分的至少20bp,以無縫地組裝核酸。例如,為了實現無縫組裝,間區序列可為約45bp。
在一些實施例中,核酸與接合寡核苷酸的摩爾比可為約1:1至約1:200。在一些實施例中,核酸與接合寡核苷酸的摩爾比為約1:1、1:2、1:3、1:4、1:5、1:6、1:7、1:8、1:9、1:10、1:11、1:12、1:13、1:14、1:15、1:16、1:17、1:18、1:19、1:20、1:30、1:40、1:50、1:60、1:70、1:80、1:90、1:100、1:120、1:140、1:160、1:180或1:200。在具體實施例中,核酸與接合寡核苷酸的摩爾比可為約1:6至約1:20。在一個實施例中,摩爾比為約1:6。在另一個實施例中,摩爾比為約1:20。
在具體實施例中,使用接合寡核苷酸無縫地組裝至少兩個核酸。“無縫”組裝是指兩個核酸的組裝,其中待組裝的核酸的相鄰末端之間不存在間插核酸堿基。例如,無縫組裝的核酸不存在不屬于待組裝的核酸的一部分的核酸堿基。為了無縫地組裝兩個核酸,接合寡核苷酸的間區序列應包括與待組裝的第一核酸或第二核酸的末端部分相同的核酸序列。該末端部分應當先從核酸去除,再與接合寡核苷酸組裝在一起。例如,可通過核酸酶試劑(例如,gRNA-Cas復合物)從核酸的末端切割至少20bp的末端部分,諸如從核酸的末端切割至少40bp或至少45bp的末端部分。作為另一種選擇,可通過核酸酶試劑(例如,gRNA-Cas復合物)從待組裝的核酸的末端切割至少2、至少4、至少6、至少8、至少10、至少12、至少15、至少20、至少25、至少30、至少35、至少37、至少40、至少42、至少45、至少48、至少50、至少55、至少60、至少65、至少70、至少80、至少100、至少110、至少120、至少130、至少140、至少150bp的末端部分。
在一個實施例中,接合寡核苷酸從5’端到3’端可包含:5’核酸的約15-120bp重疊區、5’核酸的3’端區域的約20-50bp以及3’核酸的約15-120bp重疊區。在一個實施例中,接合寡核苷酸從5’端到3’端可包含:5’核酸的約15-120bp重疊區、3’核酸的5’端區域的約20-50bp以及3’核酸的約15-120bp重疊區。因此,當將接合寡核苷酸組裝到第一核酸和第二核酸時,來自接合寡核苷酸的間區序列在組裝之前重建從核酸去除的部分。參見圖5和圖6。術語“重建”包括核酸的被切割的末端部分的替換,從而在組裝到接合寡核苷酸時提供完全組裝的核酸。例如,重建經切割的核酸可將核酸的經切割的部分替換為接合寡核苷酸的間區序列中所含的、具有與經切割的部分相同的序列的核酸。
接合寡核苷酸可以同時地或依次地組裝到第一核酸分子和第二核酸分子。當同時組裝時,可使接合寡核苷酸在同一反應混合物中與第一核酸和第二核酸接觸,使得所得經組裝的核酸包含第一核酸、接合寡核苷酸和第二核酸。當依次組裝時,使接合寡核苷酸在組裝反應中與第一核酸接觸,所產生經組裝的核酸包含組裝到接合寡核苷酸但沒有組裝到第二核酸的第一核酸。然后使這樣的經組裝的核酸在單獨的組裝反應中與第二核酸接觸,所產生經組裝的核酸包含第一核酸、接合寡核苷酸和第二核酸。在其他實施例中,使接合寡核苷酸在組裝反應中與第二核酸接觸,所產生經組裝的核酸包含組裝到接合寡核苷酸但沒有組裝到第一核酸的第二核酸。然后使這樣的經組裝的核酸在單獨的組裝反應中與第一核酸接觸,所產生經組裝的核酸包含第一核酸、接合寡核苷酸和第二核酸。
可在本文方法中使用任何數量的接合寡核苷酸來組裝核酸分子。例如,可使用1個接合寡核苷酸來組裝2個核酸分子,可使用2個接合寡核苷酸來組裝3個核酸分子,可使用3個接合寡核苷酸來組裝4個核酸分子,可使用4個接合寡核苷酸來組裝5個核酸分子,或可使用5個接合寡核苷酸來組裝6個核酸分子。接合寡核苷酸的數量可為1、2、3、4、5、6、7、8、9、10個或更多個,具體取決于待組裝的核酸分子的數量。
在一些實施例中,接合寡核苷酸包含gBlock DNA。“gBlock”為線性雙鏈DNA片段。gBlock可為約50bp至約2000bp。gBlock可為約50bp至約100bp、約100bp至約200bp、約200bp至約300bp、約300bp至約400bp、約400bp至約500bp、約500bp至約600bp、約600bp至約800bp、約800bp至約1000bp、約1000bp至約1250bp、約1250bp至約1500bp、約1500bp至約1750bp、或約1750bp至約2000bp。
可例如通過本文別處所述的PCR測定法(例如,實例10),篩選用gBlock對兩個或更多個核酸進行的組裝。在一些情況下,gBlock不包含選擇盒。這種方法使兩個或更多個核酸分子可以快速接合,可通過簡單的PCR測定法對該接合進行篩選。gBlock可包含任何目標核酸序列。在一些情況下,gBlock可包含核酸酶試劑的靶位點,或本文所提供的各種大范圍核酸酶或限制性內切酶中的任一者的靶位點。在其他實施例中,gBlock可包含選擇盒。在一些實施例中,gBlock包含目標DNA序列。在一個實施例中,gBlock包含人DNA序列。
待組裝的核酸,或各種接合寡核苷酸中的任一者,還可包含選擇盒或報告基因。選擇盒可包含編碼選擇標記的核酸序列,其中所述核酸序列有效連接至啟動子。所述啟動子可在目標原核細胞中有活性和/或在目標真核細胞中有活性。此類啟動子可為誘導型啟動子、對于報告基因或細胞為內源的啟動子、對于報告基因或細胞為異源的啟動子、細胞特異性啟動子、組織特異性啟動子或發育階段特異性啟動子。在一個實施例中,選擇標記選自新霉素磷酸轉移酶(neor)、潮霉素B磷酸轉移酶(hygr)、嘌呤霉素-N-乙酰轉移酶(puror)、殺稻瘟菌素S脫氨酶(bsrr)、黃嘌呤/鳥嘌呤磷酸核糖轉移酶(gpt)和單純性皰疹病毒胸苷激酶(HSV-k)、以及它們的組合。靶向載體的選擇標記可被上游同源臂和下游同源臂側接,或可存在于同源臂的5’或3’。
在一個實施例中,待組裝的核酸,或各種接合寡核苷酸中的任一者,包含有效連接至啟動子的報告基因,其中所述報告基因編碼報告蛋白,所述報告蛋白選自LacZ、mPlum、mCherry、tdTomato、mStrawberry、J-Red、DsRed、mOrange、mKO、mCitrine、Venus、YPet、增強型黃色熒光蛋白(eYFP)、Emerald、增強型綠色熒光蛋白(EGFP)、CyPet、青色熒光蛋白(CFP)、Cerulean、T-Sapphire、熒光素酶、堿性磷酸酶以及它們的組合。此類報告基因可有效連接至在細胞中有活性的啟動子。此類啟動子可為誘導型啟動子、對于報告基因或細胞為內源的啟動子、對于報告基因或細胞為異源的啟動子、細胞特異性啟動子、組織特異性啟動子或發育階段特異性啟動子。
在使單鏈DNA(例如,當待接合的DNA分子是dsDNA時通過核酸外切酶的作用而產生的懸垂序列,或通過在每條鏈上的不同靶位點處形成切口而產生的懸垂序列)退火后,用合適的非鏈置換DNA聚合酶填補核酸外切酶所留下的單鏈缺口,并且用連接酶密封由此形成的切口。如本文所用,“非鏈置換DNA聚合酶”是這樣的DNA聚合酶,其在復制dsDNA分子過程中若遇到位于其路徑中的DNA鏈則會終止DNA的合成,或在復制dsDNA分子過程中會降解遇到的DNA鏈,與此同時填補由此形成的缺口,從而生成“移動切口”(切口平移)。
在一些實施例中,重疊末端序列在重疊區域之間具有足夠的互補性,以使每個多核苷酸的單鏈互補末端退火。在第一多核苷酸的單鏈退火到第二多核苷酸的互補鏈后,可基于第二多核苷酸鏈的模板來延伸第一多核苷酸的3’端,并且可基于第一多核苷酸鏈的模板來延伸第二多核苷酸鏈的3’端。通過延伸每個多核苷酸的互補3’端,可以組裝多核苷酸。在組裝后,可通過連接反應,密封來自一個片段的一條鏈的經延伸的3’端與來自另一個片段的一條鏈的相鄰5’端之間的切口。更具體地講,將第一多核苷酸的經延伸的3’端的羥基連接到第二多核苷酸的5’端的磷酸基團,并且將第二多核苷酸的經延伸的3’端的羥基連接到第一多核苷酸的5’端的磷酸基團。
該連接反應可使用多種合適的耐熱DNA連接酶中的任一種執行。合適的連接酶包括例如Taq連接酶、Ampligase耐熱DNA連接酶(Epicentre生物技術公司(Epicentre Biotechnologies))、美國專利No.6,576,453中所公開的耐熱連接酶、得自百奧尼公司(Bioneer,Inc.)的耐熱Tfi DNA連接酶。
反應混合物中合適量的群集劑(諸如PEG)促使、增強或有利于分子群集。不希望受任何特定機制的約束,已表明群集劑促使分子群集并結合和束縛溶液中的水,從而使溶液的組分彼此更緊密接觸。例如,待重組的DNA分子可更緊密靠近;從而有利于單鏈懸垂序列的退火。另外,已表明酶可與其DNA底物更緊密接觸,并且可通過去除水分子加以穩定。多種合適的群集劑對于技術人員將是顯而易見的。這些群集劑包括多種熟知的大分子,諸如聚合物如聚乙二醇(PEG);聚蔗糖(Ficoll),諸如聚蔗糖70;葡聚糖,諸如葡聚糖70;等等。本申請的許多討論涉及的是PEG。然而,該討論意在也適用于其他合適的群集劑。技術人員會了解如何在該方法中實施常規變化以適應其他群集劑的使用。
反應混合物中合適量的群集劑(諸如PEG)促使、增強或有利于分子群集。例如,群集劑可幫助待重組的DNA分子更緊密靠近;這因此有利于單鏈懸垂序列的退火。另外,已表明酶可與其DNA底物更緊密接觸,并且可通過去除水分子加以穩定。多種合適的群集劑對于技術人員將是顯而易見的。這些群集劑包括多種熟知的大分子,諸如聚合物如聚乙二醇(PEG);聚蔗糖,諸如聚蔗糖70;葡聚糖,諸如葡聚糖70;等等。一般來講,當使用PEG時,約5%(重量/體積)的濃度是最佳的。然而,PEG的量可例如在約3至約7%的范圍內。可使用任何合適大小的PEG,例如在約PEG-200(例如,PEG-4000、PEG-6000或PEG-8000)至約PEG-20,000或甚至更高的范圍內。在本文的實例中,使用了PEG-8000。群集劑除了增強退火反應之外,還增強連接反應。
組裝反應混合物中存在的反應組分(諸如鹽、緩沖液、合適的能量源(諸如ATP或NAD)、反應混合物的pH等)可能對于單種酶(核酸外切酶、聚合酶和連接酶)并非最佳;相反,它們充當對于整組反應有效的折衷方案。例如,由本發明人確定的一種合適緩沖體系(本文有時稱為ISO(等溫)緩沖液)通常包含0.1M Tris-Cl pH 7.5;10mM MgCl.sub.2;各0.2mM的dGTP、dATP、dTTP和dCTP;10mM DTT;5%PEG-8000;以及1mM NAD。
在本文所公開的方法中,使至少兩個核酸在一定條件下與Cas蛋白和其他酶接觸,這些條件能有效組裝核酸,以形成其中保留了單個拷貝的重疊區域的經組裝的雙鏈DNA分子。可使用所述方法接合任何目標DNA分子,包括天然存在的DNA、克隆的DNA分子、合成產生的DNA等。可根據需要,將接合的DNA分子克隆到載體中(例如,使用本發明的方法)。在一些實施例中,可對待組裝的核酸進行密碼子優化,以便在目標細胞(例如,嚙齒動物細胞、小鼠細胞、大鼠細胞、人細胞、哺乳動物細胞、微生物細胞、酵母細胞等)中引入和表達。
可通過本文所公開的方法接合任何長度的DNA分子。例如,可接合約100bp至約750bp或1,000bp或更長的核酸。可根據本文所述的方法在一個或若干個組裝階段中組裝的核酸的數量可為至少約2、3、4、6、8、10、15、20、25、50、100、200、500、1,000、5,000或10,000個DNA分子,例如在約2至約30個核酸的范圍內。組裝階段的數量可為約2、4、6、8、10個或更多個。在單個階段中組裝的分子的數量可在約2至約10個分子的范圍內。可使用本發明的方法將DNA分子或盒接合在一起,每個所述DNA分子或盒的起始大小為至少或不大于約40bp、60bp、80bp、100bp、500bp、1kb、3kb、5kb、6kb、10kb、18kb、20kb、25kb、32kb、50kb、65kb、75kb、150kb、300kb、500kb、600kb、1Mb或更大。經組裝的終產物可為至少約500bp、1kb、3kb、5kb、6kb、10kb、18kb、20kb、25kb、32kb、50kb、65kb、75kb、150kb、300kb、500kb、600kb、1Mb或更大,例如在30kb至1Mb的范圍內。
在一些實施例中,經組裝的核酸形成環和/或連接到載體而形成環。dsDNA環化的大小下限為約200個堿基對。因此,經接合的片段的總長度(在一些情況下包括載體的長度)為至少約200bp長。沒有確切的大小上限,并且可通過本文所公開的方法生成數百千堿基對或更大的經接合的DNA。經接合的核酸可采取環狀或線性分子的形式。
可使用本文所述的方法將線性片段與另一個線性片段組裝在一起,將線性片段與環狀核酸分子組裝在一起,將環狀核酸分子與另一個環狀核酸分子組裝在一起,或將線性核酸和環狀核酸的任何組合組裝在一起。“載體”包括任何環狀核酸分子。在某些實施例中,通過本文所公開的方法組裝的載體是細菌人工染色體(BAC)。載體(例如,BAC)可包含人DNA、嚙齒動物DNA、合成DNA或它們的任何組合。例如,BAC可包含人多核苷酸序列。當接合DNA分子的混合物時,優選的是DNA以適當的等摩爾量存在。
用于由本文所公開的方法進行組裝的核酸可為大靶向載體。術語“大靶向載體”或“LTVEC”包括這樣的載體,其包含對應于且衍生自用于在細胞中進行同源靶向的核酸序列的同源臂,和/或包含具有意欲在細胞中執行同源重組靶向的核酸序列的插入核酸。例如,LTVEC使得對大基因座的修飾成為可能,而傳統的基于質粒的靶向載體由于有大小限制而無法實現這一點。在具體實施例中,LTVEC的同源臂和/或插入核酸包含真核細胞的基因組序列。LTVEC過大而無法通過例如Southern印跡和長片段(例如,1kb-5kb)PCR的常規測定法來篩選靶向事件。LTVEC的示例包括但不限于衍生自細菌人工染色體(BAC)、人類人工染色體或酵母人工染色體(YAC)的載體。LTVEC及其制備方法的非限制性示例描述于例如美國專利No.6,586,251、6,596,541、7,105,348和WO 2002/036789(PCT/US01/45375)及US 2013/0137101中,這些專利每一者均以引用的方式并入本文。
在一些實施例中,可將盒插入載體中,隨后可去除這些盒。可構建各種形式的盒,以便可以在特定細胞或組織類型中、在特定發育階段或在誘導時缺失。此類盒可采用重組酶系統,其中所述盒在兩側上側接重組酶識別位點,并且可使用在所需細胞類型中表達的、在所需發育階段表達的、或在誘導時表達或激活的重組酶來去除。可進一步構建此類盒,以包括一系列成對的不同重組酶識別位點,這些位點被布置成使得可生成無效等位基因、條件等位基因或條件/無效組合等位基因,如US 2011/0104799中所述,該專利全文以引用的方式并入。重組酶基因的調控可按各種方式控制,諸如將重組酶基因有效連接至細胞特異性、組織特異性或受發育調控的啟動子(或其他調控元件),或將重組酶基因有效連接至3’-UTR,該3’-UTR包含僅在特定細胞類型、組織類型或發育階段中轉錄的miRNA的識別位點。重組酶還可例如通過以下方式調控:采用使重組酶處于效應物或代謝物的控制之下的融合蛋白(例如,其活性受到它莫西芬控制的CreERT2),或使重組酶基因處于誘導型啟動子(例如,其活性受到強力霉素和TetR或TetR變體控制的誘導型啟動子)的控制之下。例如在US 8,518,392、US 8,354,389和US 8,697,851中提供了各種形式的盒及調控重組酶基因的方式的示例,這些專利中的每一篇全文均以引用的方式并入。
如本文所公開的用于組裝的載體(例如,LTVEC)可具有任何長度,包括但不限于約20kb至約400kb、約20kb至約30kb、約30kb至40kb、約40kb至約50kb、約50kb至約75kb、約75kb至約100kb、約100kb至125kb、約125kb至約150kb、約150kb至約175kb、約175kb至約200kb、約200kb至約225kb、約225kb至約250kb、約250kb至約275kb或約275kb至約300kb、約200kb至約300kb、約300kb至約350kb、約350kb至約400kb、約350kb至約550kb。在一個實施例中,LTVEC為約100kb。
本文所提供的用于組裝核酸的方法可被設計成使得可以缺失約5kb至約10kb、約10kb至約20kb、約20kb至約40kb、約40kb至約60kb、約60kb至約80kb、約80kb至約100kb、約100kb至約150kb、或約150kb至約200kb、約200kb至約300kb、約300kb至約400kb、約400kb至約500kb、約500kb至約1Mb、約1Mb至約1.5Mb、約1.5Mb至約2Mb、約2Mb至約2.5Mb、或約2.5Mb至約3Mb。
在其他情況下,本文所提供的方法被設計成使得可以插入以下范圍內的外源核酸序列:約5kb至約10kb、約10kb至約20kb、約20kb至約40kb、約40kb至約60kb、約60kb至約80kb、約80kb至約100kb、約100kb至約150kb、約150kb至約200kb、約200kb至約250kb、約250kb至約300kb、約300kb至約350kb、或約350kb至約400kb。在一個實施例中,插入多核苷酸為約130kb或約155kb。
可通過本文所公開的方法將線性核酸彼此組裝在一起或組裝到載體。線性分子可以是經過核酸內切酶(例如,Cas蛋白)酶切的載體,或任何合成的、人工的或天然存在的線性核酸。在某些實施例中,線性核酸被形成為使得末端序列與另一個核酸的區域重疊。可通過本領域已知的任何方法引入線性核酸的重疊末端序列,以便生成定制的核酸序列。例如,末端序列可以是合成產生的分子的一部分,可以通過PCR引入,或可以通過傳統克隆技術引入。
實例
給出以下實例是為了給本領域的普通技術人員提供如何實施并使用本發明的完整公開和描述,而并非旨在限制本發明人視作其發明的范圍,也不旨在表示下文的實驗是所進行過的所有或僅有的實驗。已盡量確保所使用的數字(例如量、溫度等)的準確性,但應考慮到一些實驗誤差和偏差。除非另外指明,否則份數是重量份數,分子量是重均分子量,溫度以攝氏度計,并且壓力是大氣壓或接近大氣壓。
實例1:用CAS9進行BAC酶切,然后與選擇盒組裝在一起
人工crRNA和人工tracrRNA被設計成靶向MAID 6177(116kb LTVEC)中的特異性序列,以便與3kb PCR產物(UB-HYG)組裝在一起。該PCR產物包含50bp與載體重疊的區域。首先將crRNA和tracrRNA溶解于雙鏈體緩沖液(30mM HEPES,pH 7.5,100mM乙酸鉀)中達到100μM。為了使RNA退火,將10μL的100μM crRNA和10μL的100μM tracrRNA添加到80μL的退火緩沖液中。在90℃加熱塊中加熱RNA,然后從加熱器中取出加熱塊并置于工作臺上冷卻。RNA的最終濃度為約10μM。
為了對BAC進行酶切,使用清潔的maxiprep BAC DNA,并根據以下混合物酶切BAC。
在37℃下酶切1小時,然后脫鹽30分鐘。最終反應緩沖液包含:20mM Tris 7.5;100-150mM NaCl;10mM MgCl2;1mM DTT;0.1mM EDTA;100μg/mL BSA;最終體積達到15μL。
為了組裝BAC和插入序列,酶切質粒或執行PCR以形成插入序列。對于PCR反應,在凝膠上運行少量等分試樣并尋找單個產物,如果該產物具有單個條帶,則進行PCR清潔而非凝膠提取。BAC:插入序列的1:1-1:6摩爾比是所期望的。通常,50ng的經純化的插入序列將會有效。可使用以下反應混合物:
BAC酶切產物 4μL
插入序列 1μL
組裝混合物 15μL
在冰上添加DNA和混合物,或直接在50℃的PCR儀中添加DNA和混合物。在50℃下溫育1小時。添加0.5μL的蛋白酶K(20mg/mL),并且在50℃下溫育1小時。脫鹽30分鐘,并且通過電穿孔法將8μL的反應體系導入DH10B細胞中。可在脈沖場凝膠上運行10μL的BAC酶切產物,以檢查酶切效率。使用無RNA酶的水和緩沖液。
按照如下方式執行組裝反應:等溫緩沖液:3mL 1M Tris-HCL(pH 7.5);150μL 2M MgCl2;以下各60μL 100mM:dGTP、dATP、dTTP、dCTP;300μL 1M DTT;1.5g PEG 8000;300μL 100mM NAD。將該等溫緩沖液以320μL等分試樣儲存在-20℃下。按照如下方式制備主混合物:將320μL等溫緩沖液、0.64μL T5核酸外切酶(儲液濃度=10U/μL)、20μL Phusion DNA聚合酶(儲液濃度=2U/μL)、160μL Taq DNA連接酶(儲液濃度=40U/μL)、699.36μL H2O混合在一起,等分為15μL或30μL并且儲存在–20℃下。在總體積20μL的反應體系中使用15μL主混合物(MM)。
本實例中所用的tracr RNA序列為:
CAAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUC(SEQ ID NO:9)。該CRISPR RNA(crRNA)包含:(1)與靶序列互補的約20個核苷酸的RNA,以及(2)將與tracrRNA退火的尾部序列(GUUUUAGAGCUAUGCUGUUUUG(SEQ ID NO:10))。
這些步驟在圖1中概述。
實例2:將以下兩個重疊BAC拼接在一起:小鼠MHC II基因座(H2-A/H2-E)中的人源化HLA-DQ+人源化HLA-DR
人工crRNA和人工tracrRNA被設計成靶向人源化HLA-DQ BAC中的特定序列,以便與人源化HLA-DR BAC組裝在一起。這些載體包含通過Cas9在每個載體上的兩個位點處切割而形成的約70bp彼此重疊的區域(參見圖2)。將crRNA和tracrRNA溶解于Hybe緩沖液中達到100μM。為了使RNA退火,將10μL的100μM crRNA和10μL的100μM tracrRNA添加到80μL的退火緩沖液中。將RNA放入90℃加熱塊中,然后從加熱器中取出加熱塊并置于工作臺上冷卻。RNA的最終濃度為約10μM。
為了對BAC進行酶切,可使用清潔的maxiprep BAC DNA。根據以下混合物單獨地酶切每個BAC:
BAC載體應在37℃下酶切1小時,然后在65℃下熱滅活20分鐘。脫鹽30分鐘。經由苯酚/氯仿/異戊醇(PCI)提取來純化經酶切的DNA,然后重懸于35μL TE緩沖液中。
為了組裝載體,按照如下方式將2.5μL的BAC用于組裝反應:
經酶切的BAC 5μL(總量)
組裝混合物 15μL
在冰上添加DNA和混合物,或直接在50℃的PCR儀中添加DNA和混合物。在50℃下溫育1小時。脫鹽30分鐘,并且通過電穿孔法將8μL經組裝的DNA導入DH10B細胞中。使用無RNA酶的水和緩沖液。
本實例中所用的tracr RNA序列為:CAAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUC(SEQ ID NO:9)。該CRISPR RNA(crRNA)包含:(1)與靶序列互補的約20個核苷酸的RNA,以及(2)將與tracrRNA退火的尾部序列(GUUUUAGAGCUAUGCUGUUUUG(SEQ ID NO:10))。
這些步驟在圖2中概述。
實例3:使用接頭組裝由Cas9從2個不同質粒切割的2個片段
為了構建靶向載體,用2個相同的crRNA切割pMJ8502x,使400bp片段和2283bp Amp骨架脫落。(圖7)。使用Qiagen柱純化整個反應。然后用2個不同的crRNA切割R6KZenUbiNeo,以分離成Neo抗性片段(1086bp)和骨架(5390bp)。使用Qiagen柱純化整個反應。(圖7)。切割反應體系:1170ng DNA、30μL緩沖液、4μL經退火的RNA(為100μM)、1.7μL Cas9(為0.89ng/μL),用H2O定容至60μL。將混合物在37℃下溫育1小時,并且在Qiagen柱上純化,之后在30μL洗脫緩沖液中洗脫。
然后根據以下反應混合物,使用兩個接頭組裝經切割的片段,從而實現無縫組裝:0.5μL接頭1(5ng)、0.5μL接頭2(5ng)、2μL Neo切割物(約60ng)、2μL Amp切割物(約60ng)、15μL組裝主混合物。將混合物在50℃下溫育1小時,并且用H2O透析反應體系。通過電穿孔法將10μL反應體系導入電感受態Pir細胞中,之后接種到Carb/Kan平板上。跨接合部的PCR顯示,8個經選擇的菌落中有6個是正確的,并得到測序確認。
實例4:使用接頭將BAC的一部分替換為盒
為了構建敲除小鼠靶向載體,將40kb的BAC靶向載體替換為被重組識別位點側接的選擇盒。(圖8)2個接頭被設計成從mBAC缺失目標區域并插入選擇盒,一個接頭用于5’,另一個接頭用于3’。這些接頭具有40bp與mBAC重疊的區域以及40bp與選擇盒重疊的區域。首先,根據以下反應體系切割206kb靶向載體(mBAC)中的39.5kb:500μL反應體系(用H2O定容):添加1μL Cas9(為0.89μg/μL)、2μL每個RNA雙鏈體(為50μM)、250μL緩沖液、220μL(12.5ng)BAC maxi prep,并且在37℃下溫育1小時。經由苯酚/氯仿/異戊醇(PCI)提取來純化經酶切的DNA,然后重懸于55μL TE緩沖液中。在mBAC切割物的PCI清潔之后,在50℃下進行1小時組裝,并且通過電穿孔法將10μL的反應體系導入DH10B細胞中。(圖9)。跨接合部的測序確認組裝正確。(圖10)。接頭1(接合寡核苷酸1)從mBAC序列無縫地連接到盒序列(SEQ ID NO:12)。接頭2(接合寡核苷酸2)從盒序列無縫地連接到mBAC序列(SEQ ID NO:13)。
實例5:使用接頭(接合寡核苷酸)組裝兩個BAC載體
利用由Cas9/等溫組裝對2個mBAC進行的拼接法來制備靶向載體,該靶向載體包含對于小鼠基因組區域而言的同源臂,以及用于通過BAC連接反應插入人基因的酶切位點。在BAC連接反應中使用該靶向載體制備人源化靶向載體。根據以下反應體系切割mBAC:12.5μg DNA、2μL每個經退火的RNA(為50μM)、10μL Cas9(為0.89μg/μL)、250μL緩沖液,用H2O定容至500μL。將該混合物在37℃下溫育一小時;通過苯酚/氯仿/異戊醇(PCI)提取來清潔;然后重懸于20μL TE中。然后根據以下反應體系用接頭將這兩個小鼠BAC組裝在一起(圖11):6μL(2μg)bMQ-208A16切割物、5.6μL(2μg)bMQ-50F19切割物、0.25μL每個接頭(為50μM)、4.3μL(100ng)選擇盒(Ubi-Hyg)盒、12μL高濃度組裝主混合物、11.35μL H2O。將反應混合物在50℃下溫育1小時,并且在30℃下用H2O透析。使用10μL或30μL經透析的反應體系來轉化DH10B細胞。Sanger測序確認了所有接合部。Illumina測序再次確認了所有接合部(圖12和SEQ ID NO:17)。接頭1從mBAC無縫地連接到盒(SEQ ID NO:14)。接頭2從盒非無縫地連接到mBAC。它按照項目設計摻入人間區序列。接頭3從mB2非無縫地連接到mB3。它摻入用于PCR驗證的獨特序列。當發生線性化以用于ES電穿孔時,該區域被去除(SEQ ID NO:15)。
圖13示出了使用4個接合寡核苷酸(接頭)并使用四個接頭和等溫組裝在mBAC上插入較大的人基因片段的示例。
實例6:用于切割和組裝的試劑和反應混合物
Crispr RNA(crRNA)(作為ssRNA訂購)包含:(1)與待切割的靶區域互補的20個核苷酸的RNA;(2)以及將退火到tracr RNA的尾部:<20nt crisprRNA>GUUUUAGAGCUAUGCUGUUUUG(SEQ ID NO:10)。
Tracr RNA(作為ssRNA訂購):GUUGGAACCAUUCAA AACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU(SEQ ID NO:11)。
將所有RNA重懸于H2O中達到100μM。將crRNA和tracrRNA各2.5μL與5μL的退火緩沖液(最終濃度:10mM Tris pH 7.5-8.0,50mM NaCl,1mM EDTA)組合。然后將該混合物在95℃下溫育5分鐘,并在1小時內緩慢冷卻至室溫。Cas9 2X切割緩沖液包含40mM HEPES pH7.5(最終濃度=20mM);300mM KCl(最終濃度=150mM);1mM DTT(最終濃度=0.5mM);0.2mM EDTA(最終濃度=0.1mM);20mM MgCl2(最終濃度=10mM)。
大規模Cas9切割反應:在室溫下依次添加:250μL 2x切割緩沖液、12.5μg DNA、各2μL的每種RNA(50μM濃度)、10μL Cas9(0.89mg/mL濃度),用H2O定容至500μL,并且在37℃下溫育1小時。
可根據需要縮放該反應體系,例如:25μL緩沖液、125ng DNA、各2μL的每種RNA(5μM濃度)、1μL Cas9(0.89mg/mL濃度),用H2O定容至50μL,并且在37℃下溫育1小時。
按照如下方式執行組裝反應:等溫緩沖液:3mL 1M Tris-HCL(pH 7.5);150μL 2M MgCl2;以下各60μL 100mM:dGTP、dATP、dTTP、dCTP;300μL 1M DTT;1.5g PEG 8000;300μL 100mM NAD。將該等溫緩沖液以320μL等分試樣儲存在-20℃下。按照如下方式制備主混合物:將320μL等溫緩沖液、0.64μL T5核酸外切酶(儲液濃度=10U/μL)、20μL Phusion DNA聚合酶(儲液濃度=2U/μL)、160μL Taq DNA連接酶(儲液濃度=40U/μL)、699.36μL H2O混合在一起,等分為15μL或30μL并且儲存在–20℃下。在總體積20μL的反應體系中使用15μL主混合物(MM)。
作為另一種選擇,可按照如下方式制備高濃度主混合物(GA MM HC):將320μL等溫緩沖液、0.64μL T5核酸外切酶(儲液濃度=10U/μL)、20μL Phusion DNA聚合酶(儲液濃度=2U/μL)、160μL Taq DNA連接酶(儲液濃度=40U/μL)混合在一起,等分為6μL或12μL并且儲存在–20℃下。在總體積20μL的反應體系中使用6μL的主混合物。
對于所有組裝反應而言,應確定DNA的濃度(例如,通過Nano Drop確定)并使用1:6摩爾比(載體與插入序列)。對于標準濃度而言,使用15μL的組裝主混合物。將DNA和水添加到200μL PCR管中,達到20μL的最終體積。在50℃熱循環儀中反應1小時。然后可將該反應體系儲存在-20℃下。對于高濃度而言,使用6μL的高濃度組裝主混合物。將DNA和水添加到200μL PCR管中,達到20μL的最終體積。在50℃熱循環儀中反應1小時。然后可將該反應體系儲存在-20℃下。在反應完成時,用水透析10μL反應體系30分鐘,接著通過電穿孔法導入適當的電感受態細胞(例如,DH10B或Pir+細胞)中。
Cas9/等溫組裝反應:對于Cas9酶切,將2.5μg的每種DNA(例如,BAC DNA)、各4μL的10μM向導RNA/tracr RNA和5μL的Cas9蛋白(0.89mg/mL)在37℃下酶切2小時。將反應體系在65℃下熱滅活20分鐘,用苯酚氯仿提取(例如,以去除Cas9蛋白),用70%乙醇洗滌一次,接著將DNA重懸于35μL水中。將5μL的DNA與15μL的本文別處所述的主混合物(MM)混合在一起并在50℃下溫育1小時,以此進行等溫組裝。將該反應體系脫鹽30分鐘,并且可通過電穿孔法將8μL的該反應體系導入細胞中。
實例7:通過Cas9/等溫組裝將人序列插入BAC載體中
為了構建人源化靶向載體,用gRNA-Cas復合物切割MAID 6236,以生成具有重疊序列的經切割的片段。還用gRNA-Cas復合物切割VI568,以生成與MAID6236的片段重疊的序列。如上所述那樣執行Cas9/等溫組裝,使人源化基因座插入載體(VI599)中。該過程在圖14中概述。
實例8:在不進行選擇的情況下使用gBlock進行Cas9/等溫組裝
Cas9酶切和組裝還可在不進行選擇的情況下例如通過利用gBlock DNA片段來執行。為了測試在沒有選擇盒的情況下將雙鏈DNA添加到基因座中的可能性,合成了gBlock DNA片段并將這些片段插入構建體中。如圖15A和15B中所概述,Cas9/gRNA被設計成靶向TCRβ基因座內的兩個位點以缺失4.4kb片段。gBlock被設計成將大范圍核酸酶識別位點引入構建體中。gBlock能夠在不使用選擇標記的情況下插入構建體中。圖15A示出了PISceI gBlock的插入,而圖15B展示了MauBI gBlock的插入。
使用表1中示出的引物,通過PCR接合部篩選,確認了最終構建體中成功插入了每個gBlock。用于接合部篩選的方案如下:PCR反應體系包含:1μL DNA、0.5μL引物1、0.5μL引物2、1μL DMSO、4μL dNTPs、2.5μL 10x緩沖液、0.5μL Ex-Taq和15μL水。按照以下方式在熱循環儀中執行反應:在95℃下持續3分鐘,在95℃下持續30秒,在55℃下持續30秒,執行25個循環,然后在72℃持續30秒及在72℃下持續5分鐘。通過測序確認了接合序列。
表1:用于對具有PI-SceI gBlock或MauBI gBlock的MAID1715進行接合部篩選的引物
實例9:使用接合寡核苷酸將人序列插入BAC載體中的Cas9/等溫組裝
圖16提供了使用Cas9/等溫組裝和接合寡核苷酸進行的直接人源化的示例。通過Cas9使人片段和小鼠缺失片段脫落(每個BAC使用2個crispr RNA)。在Gibson組裝反應中使用3個接頭(接合寡核苷酸)和選擇盒將人片段和小鼠骨架連接在一起。
圖17提供了使用Cas9/等溫組裝和接合寡核苷酸組裝成大靶向載體(LTVEC)進行的間接人源化的示例。通過采用2個crispr RNA的Cas9切割掉hBAC上的人片段。供體包含上游和下游接合寡核苷酸及選擇盒。在通過Cas9進行hBAC切割之后,使用摻有互補懸垂序列的合成供體,通過Gisbon組裝來“捕獲”片段。通過Gibson組裝或BHR來完成靶向載體構建。
實例10:通過Cas9/等溫組裝來引入點突變
圖18提供了利用Cas9/等溫組裝來引入點突變的示例。通過傳統克隆來制備供體。將選擇盒插入包含接頭重疊區和點突變的合成DNA片段中。用Cas9切割mBAC,從mBAC中去除該序列,并且通過Gibson組裝法將mBAC組裝到供體,得到包含點突變和選擇盒的構建體(LTVEC)。
實例11:通過Cas9/等溫組裝進行BAC修剪
圖19提供了使用Cas9/等溫組裝方法進行的BAC修剪的示例。使用Cas9來修剪需從LTVEC去除的區域。在本示例中,BAC修剪去除了Ori序列。在Gibson組裝反應中使用2個接頭(接合寡核苷酸)替換Ori。
實例12:用CAS9酶切BAC后再進行組裝的其他方法
可在本文所提供的方法中使用其他方法,包括以下步驟:在反應之前,通過加熱到95℃并緩慢冷卻到室溫,使合成的或體外轉錄的tracrRNA和crRNA預先退火。在37℃下將天然或線性化的質粒DNA(300ng(約8nM))與經純化的Cas9蛋白(50-500nM)和tracrRNA:crRNA雙鏈體(50-500nM,1:1)在含或不含10mM MgCl2的Cas9質粒切割緩沖液(20mM HEPES pH 7.5,150mM KCl,0.5mM DTT,0.1mM EDTA)中溫育60分鐘。用含有250mM EDTA的5X DNA上樣緩沖液終止反應,通過0.8%或1%瓊脂糖凝膠電泳進行分離,并通過溴化乙錠染色來顯色。對于Cas9突變體切割測定法而言,先用5X SDS上樣緩沖液(30%甘油,1.2%SDS,250mM EDTA)終止反應,再上樣于瓊脂糖凝膠中。
人工crRNA和人工tracrRNA被設計成靶向MAID 6177(116kb LTVEC)中的特定序列,以便與3kb PCR產物(UB-HYG)組裝在一起。該PCR產物包含50bp與載體重疊的區域。基于分離的缺少3'核酸外切酶活性的不耐熱5'至3'核酸外切酶的使用,按照如下方式使用等溫一步組裝。設定反應體系,其包含以下物質:各100fmol的每種dsDNA底物、16μL 5X ISO緩沖液、16μL T5核酸外切酶(0.2U/μL,Epicentre)、8.0μL Taq DNA連接酶(40U/μL,NEB)、1.0μL PhusionTMDNA聚合酶(2U/μL,NEB),并且用水定容至80μL。5×ISO(等溫)緩沖液為25%PEG-8000、500mM Tris-Cl、50mM MgCl2、50mM DTT、5mM NAD和各1000μM的每種dNTP(pH 7.5)。
這得到最終濃度為1.25fmol/μL的每個待組裝的dsDNA(或45fmol/μL每個ssDNA)、5%PEG-8000、100mM Tris-Cl pH 7.5、10mM MgCl2、10mM DTT、200MM每種dNTP、1mM NAD、0.02U/μL T5核酸外切酶、4U/μL Taq DNA連接酶以及0.03U/μL PHUSION DNA聚合酶。
對于重疊20-80bp的底物而言,方法使用1.64μL(0.2U/μL)的T5核酸外切酶,而對于具有更大重疊區(例如,200bp)的底物而言,則使用1.6μL(1U/μL)的T5核酸外切酶。T5核酸外切酶作為來自10U/μL T5核酸外切酶(Epicentre)濃縮酶儲液的1:50稀釋液(稀釋于T5核酸外切酶儲存緩沖液中)使用。然后將該反應體系在50℃下溫育15分鐘。
實例13:用于將兩個重疊BAC拼接在一起的其他方法
可在本文所提供的方法中使用其他方法,包括以下步驟:在反應之前,通過加熱到95℃并緩慢冷卻到室溫,使合成的或體外轉錄的tracrRNA和crRNA預先退火。在37℃下將天然或線性化的質粒DNA(300ng(約8nM))與經純化的Cas9蛋白(50-500nM)和tracrRNA:crRNA雙鏈體(50-500nM,1:1)在含或不含10mM MgCl2的Cas9質粒切割緩沖液(20mM HEPES pH 7.5,150mM KCl,0.5mM DTT,0.1mM EDTA)中溫育60分鐘。用包含250mM EDTA的5X DNA上樣緩沖液終止反應,通過0.8%或1%瓊脂糖凝膠電泳進行分離,并通過溴化乙錠染色來顯色。對于Cas9突變體切割測定法而言,先用5X SDS上樣緩沖液(30%甘油,1.2%SDS,250mM EDTA)終止反應,再上樣于瓊脂糖凝膠中。
人工crRNA和人工tracrRNA被設計成靶向人源化HLA-DQ BAC中的特定序列,以便與人源化HLA-DR BAC組裝在一起。這些載體包含通過Cas9在每個載體上的兩個位點處切割而形成的約70bp彼此重疊的區域(參見圖2)。基于分離的缺少3'核酸外切酶活性的不耐熱5'至3'核酸外切酶的使用,按照如下方式使用等溫一步組裝。設定反應體系,其大致包含以下物質:各100fmol的每種dsDNA底物、16μL 5X ISO緩沖液、16μt T5核酸外切酶(0.2U/μL,Epicentre)、8.0μL Taq DNA連接酶(40U/μL,NEB)、1.0μL PhusionTMDNA聚合酶(2U/μL,NEB),并且用水定容至80μL。5×ISO(等溫)緩沖液為25%PEG-8000、500mM Tris-Cl、50mM MgCl2、50mM DTT、5mM NAD和各1000μM的每種dNTP(pH 7.5)。
這得到最終濃度為約1.25fmol/μL的每個待組裝的dsDNA(或45fmol/μL每個ssDNA)、5%PEG-8000、100mM Tris-Cl pH 7.5、10mM MgCl2、10mM DTT、200MM每種dNTP、1mM NAD、0.02U/μL T5核酸外切酶、4U/μL Taq DNA連接酶以及0.03U/μL PHUSION DNA聚合酶。
對于重疊20-80bp的底物而言,方法使用1.64μL 0.2U/μL的T5核酸外切酶,而對于具有更大重疊區(例如,200bp)的底物而言,則使用1.6μL1U/μL的T5核酸外切酶。T5核酸外切酶作為來自10U/μL T5核酸外切酶(Epicentre)濃縮酶儲液的1:50稀釋液(稀釋于T5核酸外切酶儲存緩沖液中)使用。然后將該反應體系在50℃下溫育15分鐘。
實例14:用于將插入序列與BAC載體組裝在一起的其他方法
可在本文所提供的方法中使用其他方法,包括以下步驟:將crRNA和tracrRNA溶解于Hybe緩沖液(10X緩沖液:20mM Tris 7.5、100-150mM NaCl、10mM MgCl2、1mM DTT、0.1mM EDTA、100μg/mL BSA)中達到100μM。為了使RNA退火,將10μL的100μM crRNA和10μL的100μM tracrRNA添加到80μL的退火緩沖液中。在90℃加熱塊中加熱RNA,然后從加熱器中取出加熱塊并置于工作臺上冷卻。RNA的最終濃度為約10μM。
為了對BAC進行酶切,使用清潔的maxiprep BAC DNA,并根據以下混合物酶切BAC。
在37°下酶切1小時,然后脫鹽30分鐘。
為了組裝BAC和插入序列,酶切質粒或執行PCR以形成插入序列。對于PCR反應,在凝膠上運行少量等分試樣并尋找潔凈產物,如果該產物不潔凈,則進行PCR清潔而非凝膠提取。BAC:插入序列的1:1-1:6摩爾比是所期望的。通常,50ng經純化的插入序列將會有效。可使用以下反應混合物:
BAC酶切產物 4μL
插入序列 1μL
組裝混合物 15μL
在冰上添加DNA和混合物,或直接在50℃的PCR儀中添加DNA和混合物。在50℃下溫育1小時。添加0.5μL的蛋白酶K(20mg/mL),并且在50℃下溫育1小時。脫鹽30分鐘,并且通過電穿孔法將8μL的反應體系導入DH10B細胞中。可在脈沖場凝膠上運行10μL的BAC酶切產物,以檢查酶切效率。使用無RNA酶的水和緩沖液。最終反應緩沖液包含:20mM Tris 7.5;100-150mM NaCl;10mM MgCl2;1mM DTT;0.1mM EDTA;100μg/mL BSA;最終體積達到15μL。
本實例中所用的tracr RNA序列為:
CAAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUC(SEQ ID NO:9)。該CRISPR RNA(crRNA)包含:(1)與靶序列互補的約20個核苷酸的RNA,以及(2)將與tracrRNA退火的尾部序列(GUUUUAGAGCUAUGCUGUUUUG(SEQ ID NO:10))。
序列表
<110> 克里斯·舒恩赫
約翰·麥克沃特
科里·莫蒙
林恩·麥克唐納
安德魯·J.·墨菲
格雷格·S.·沃肖
約瑟·F.·羅哈斯
卡曼·維納斯·萊
大衛·M.·巴倫蘇埃拉
凱特琳·蒙塔尼亞
<120>核酸酶介導的DNA組裝
<130> 057766-461002
<140> PCT/US2015/037199
<141> 2015-06-23
<150> US 62/036,983
<151> 2014-08-13
<150> US 62/016,400
<151> 2014-06-24
<150> US 62/015,809
<151> 2014-06-23
<160> 25
<170>適用于Windows的FastSEQ 4.0版
<210> 1
<211> 80
<212> RNA
<213>人工序列
<220>
<223>合成嵌合gRNA
<400> 1
guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc cguuaucaac uugaaaaagu 60
ggcaccgagu cggugcuuuu 80
<210> 2
<211> 42
<212> RNA
<213>人工序列
<220>
<223>合成嵌合gRNA
<400> 2
guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc cg 42
<210> 3
<211> 30
<212> RNA
<213>人工序列
<220>
<223>合成crRNA
<400> 3
guuuuagagc uagaaauagc aaguuaaaau 30
<210> 4
<211> 33
<212> RNA
<213>人工序列
<220>
<223>合成crRNA
<400> 4
guuuuagagc uagaaauagc aaguuaaaau aag 33
<210> 5
<211> 26
<212> RNA
<213>人工序列
<220>
<223>合成crRNA
<400> 5
gaguccgagc agaagaagaa guuuua 26
<210> 6
<211> 12
<212> RNA
<213>人工序列
<220>
<223>合成tracrRNA
<400> 6
aaggcuaguc cg 12
<210> 7
<211> 50
<212> RNA
<213>人工序列
<220>
<223>合成tracrRNA
<400> 7
aaggcuaguc cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 50
<210> 8
<211> 23
<212> DNA
<213>人工序列
<220>
<223> 連接至向導RNA (gRNA)的靶
基因座
<220>
<221> misc_feature
<222> 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18,
19, 20, 21
<223> n = A、T、C或G
<400> 8
gnnnnnnnnn nnnnnnnnnn ngg 23
<210> 9
<211> 41
<212> RNA
<213>人工序列
<220>
<223>合成tracrRNA
<400> 9
caaaacagca uagcaaguua aaauaaggcu aguccguuau c 41
<210> 10
<211> 22
<212> RNA
<213>人工序列
<220>
<223>與tracrRNA互補的合成crRNA區域
<400> 10
guuuuagagc uaugcuguuu ug 22
<210> 11
<211> 89
<212> RNA
<213>人工序列
<220>
<223>合成tracrRNA
<400> 11
guuggaacca uucaaaacag cauagcaagu uaaaauaagg cuaguccguu aucaacuuga 60
aaaaguggca ccgagucggu gcuuuuuuu 89
<210> 12
<211> 145
<212> DNA
<213>人工序列
<220>
<223> 合成-從mBAC到盒的無縫組裝
的確認
<400> 12
ttgtgtgaat ataataatat cagtgcttct ttacttccaa aactggacag cgcatcaaac 60
atcagaaaca acagtatcag ctcctgtccc aactaccatg ggtaccgatt taaatgatcc 120
agtggtcctg cagaggagag attgg 145
<210> 13
<211> 205
<212> DNA
<213>人工序列
<220>
<223> 合成-從盒到mBAC的無縫組裝
的確認
<400> 13
cagcccctag ataacttcgt ataatgtatg ctatacgaag ttatgctagc tcggtcacac 60
tgtcagcttc ctgtgtttcc taggccatga taagatgcag caaagtttct gcaatgcaca 120
atgaggcagc cgtcggaata gatttgagaa agtcatgatg atgcaatgtg cacactcttc 180
ctttgtattt atctctatcc accat 205
<210> 14
<211> 138
<212> DNA
<213>人工序列
<220>
<223> 合成-從mBAC到盒的無縫組裝
的確認
<400> 14
actttagggt ttggttggtt tttaaagccc tatttccagt atgtggaaat gagccaaccc 60
aggacagctt ccgctggatc gtggacagct tctatggccg tcgacgtgta cactcgagat 120
aacttcgtat aatgtatg 138
<210> 15
<211> 147
<212> DNA
<213>人工序列
<220>
<223>合成
<400> 15
tccaaacgac agcagaacta actgagagga gagcacagta gcggccgcaa attgctttga 60
gaggctctat aaaaccttag aggctattta aatttaaatg gccggcccga cggccaggcg 120
gccgccaggc ctacccacta gtcaatt 147
<210> 16
<211> 9
<212> PRT
<213>未知
<220>
<223>合成
<400> 16
Leu Ala Gly Leu Ile Asp Ala Asp Gly
1 5
<210> 17
<211> 49631
<212> DNA
<213>人工序列
<220>
<223>合成
<220>
<221> misc_feature
<222> (22396)...(22533)
<223>接頭1
<220>
<221> misc_feature
<222> (22494)...(25426)
<223>盒序列
<220>
<221> misc_feature
<222> (25427)...(25595)
<223>人間區序列
<220>
<221> misc_feature
<222> (25596)...(40791)
<223> BMQ-208A16序列
<220>
<221> misc_feature
<222> (25387)...(25672)
<223>接頭2
<220>
<221> misc_feature
<222> (40792)...(40858)
<223>接頭3的獨特附加序列
<220>
<221> misc_feature
<222> (40752)...(40898)
<223>接頭3
<220>
<221> misc_feature
<222> (1)...(22395)
<223> bmq-50F19
<220>
<221> misc_feature
<222> (40899)...(49631)
<223> bmq-50F19
<400> 17
gctggagtgt ggtcaggcaa catccccaaa gggatggaga tgccgggacg acacctttag 60
ggaggcagtg gctctggtcc gggattccgg tgctggccat ccctcaccag ccacagcggt 120
tggcgcagga gggatcgccg cgcgcctggg gctagggggc gaactggacc gacttttcct 180
agttcgccta gctgctccga ccgctgccgc gccgagatgt tgaaagcaca ggcgagttct 240
aacttgcgcg ctcattcttt cagcgcgggg gaatcggtcg agggccctgc gtggcgctgg 300
cttccaccct cgcggccagg gggcaggcgc gggaggccgg cttcggctcc gtgcccctgc 360
aaacttccca agaccttcct tctccccccc acctcacccc ccagttcaat aaaatctacc 420
cttaaaggca gacttgcttt caaatccacg gcacccatta tgtgtttggt gtgaaacgct 480
atcaacattt aaaactctat tgtcccaagc gtcccaaatc cctgtaaatc ttccaccagc 540
ctggactcat tttcatctga aaagcctgtt tagtttgaat agaaaagcaa tcaggcgccc 600
ctctcgctct cgttggaatg tcaattaaaa tgcagatttc tcagagctct ttagcgcccc 660
aagaagtggg acaaaacagg atatttcagg ctgacaaatg aaagaaatgc tacaatgaag 720
tggggtggcg atgtgcaccc caaactgctt ggagtaccca ctgaaagagt aggtcaggga 780
ttatggtctt acttacgaca gcttatattt ttggggtttc gttgtgttta gggccccccc 840
ttggtgtccc ccccccccat gagcccatga cagctccctt ccctattcag ccccgtggag 900
aagtaaggga gccttgaacc agggtagaga ggctacattt agtattaacc tgggagtgtt 960
gacttctccc aggagtaatc cacttgagaa caaaatgcca attgctctgc ccgctgaggt 1020
atcctggaac taccctttaa ggtagcagta cccgtcgcac cgcccccctc ccccaagggc 1080
ttgccttaaa ttaacctgcc ttcttgcagg acaggggaga gtgtgtaaac gtgtataaca 1140
ctgcgcaagc tcaccagccg ggccctttcg gccgggtccc tttgcctgtc tttggaggca 1200
gacttgtgtg gagatgaccc caaggggcgg gtggccgtga agagccatcc gtcagagtga 1260
gggtgaggac tcctccctcg taggctgaga agagagtatc ctttcagggg gaaaaataaa 1320
cacgctgggg ctttctctgg ggttcagcct ccaggaagga ttatggtatt gaaggcagga 1380
agctgggatt gtggccgcca gcagcatgct gggcctgtgt tcccaacacg gagccttggg 1440
acctaattat cctgcctagg aggtcgctca gcacttttgt ccactccggt gaggagctgt 1500
gcagacctgc tgccgtcact tctcgcctta cagaggtttg aggagggggc tcctgtgggg 1560
gctgggactt cgaagaacga acgttcaagt tgagtcagcc tggggcactg gccatcttcc 1620
tcattcagct ggagctgagg tactcctggg tagtggctag tagagacagt gggcccagca 1680
ctctgcttca agacctactg ggacctgaga ttgcaaagtt gctggagagg ggagtttacc 1740
tgcattctga aagttcttag gaaatcaacg agaatgtttg tgcactttcc tttgactggt 1800
atgtagaaat agacaaggaa ttatcttttg tgactcttgg ctttaagaag aaagaagact 1860
tgggggaaca aaaatccttc cagccaacta aaaacactgg gcacctaact gctcatatac 1920
ccctggcttt tgttgttagc tataccattc tacctgtgct taaaaaaaca accaaacagc 1980
agcttcctat tcccctcttg gagatggtac gtcctctctg ccttagtctc agtgaaggct 2040
gaaaggaaca gattttagga cggaggttct ggcagtgtcg aaatcctgtg tcataattga 2100
aagcatcaaa agcgcacggg attagaattc tttttctctt tctctctttt tcattaaaac 2160
gctcacccat ccccagtctc ataaaatggg catcccagca tccaaagccc atggttttgt 2220
gcgatccttt cctgccattg gtttcagcag attctctaaa gctcgtgcat tctgactcaa 2280
agattagtca ctgaagacac tgaacaaaca taaagttatt tgtactgtgg taagcttttt 2340
tttttgggaa attctctgct ttggatctag taaattgagt gcccccttgt aactgatact 2400
tgggaggttt agccaatagg ttagcgtatt gaaagttccc aggccaatca cataccaggg 2460
cagcttgtac gtatcatcac cattactaat aaaatcttga attattcatc aagggttgta 2520
tctttacccc tttgacgtcg gttgcagata tttagttagt atgcctgtac actgccttgt 2580
agtcagtgga agggaattca ggctttgaat cccccggttg gattaaactc actctttgta 2640
agtggctgct tggcggaaga ttgaaataca cgcctgcatt cgaaaatgaa ttctgacaag 2700
tgtaaactgg tgggaatgtt tttgaagcct tcctgagatt ctttgattct gttggtctcc 2760
tttctttctg agaaccgttc tgaagcgagg acgtgccgct cagctcagct gaaatgcggt 2820
tctcagagca gacccttcct ccagtcagcg tcttaaaggc cagctggaat aagagacgtt 2880
aatgaggctg gccatgccaa gcccagcgtt ttaaactcag gtttttctgc agttgccctt 2940
gaaaggaatg aaggtcaagt tgcttcagca accttgcagc tttgatagtg gacggaaggg 3000
cacgctgcag agctgggtgg ctgggtccta cagtgatggt ttatcttgcg tctcttaaaa 3060
gtaagcttaa aaaaaaaaag attagcctac tgcagcttgt ggactagcct ggaaacacct 3120
gggacgctga ggtgaggatg gaaggctttt ccgataatga gaaagaatgt gtttgcgaat 3180
gtattgagag gctgagaaat ggttttatcc catctgggtt taagcaagtt ggcactgggg 3240
gaaaaaactg aatctggctg aatctctctc tttcagtggc agccacagca gcagcagcag 3300
cagcagtggg agcaggaaca gcagtaacaa cagcaacagc agcacagccg cctcagagct 3360
ttggctcctg agccccctgt gggctgaagg cattgcaggt agcccatggt ctcagaagaa 3420
gtgtgcagat gggattaccg tccacgtgga gatatggaag aggaccaggg attggcactg 3480
tgaccatggt cagctggggg cgcttcatct gcctggtctt ggtcaccatg gcaaccttgt 3540
ccctggcccg gccctccttc agtttagttg aggataccac tttagaacca gaaggtaagt 3600
tcatgcgtgc cattttaagg gtaccaagtc gttttgggga tgtgtctggg ggaagtggtc 3660
tttaagtggg aggcctgttt cagccggctg ccatatgagt agtctctctc cgcatcatat 3720
cggagcttag aagggagggt cttgtctccc aggcatgagt ggagtggttt ggtttgctct 3780
gttctttgtg cttgggtgag ggaagcagtg gcagttcttg tttagccagt gccttacagc 3840
actctggagg ggacgtacct tggcagggtg actgtggcct tctgcagttg ctctctagat 3900
tgagggaaaa gccttgaatc acactatctt ttggctaaag gaaataggca gcctctgaaa 3960
gctgactttt tttttctttt tccgcattgt ttaagagaaa agaaggttct gaagttgagc 4020
atggagagcc gtgccatgct ggatcggttt ttaagctggt gtaagctctt tgtgctttca 4080
cccggcatca cagagtgggc aggtttcatg ttgggaagat tggaaagtga atttgccaag 4140
agtcttcccc catctgggga aaagccagat ttcactagtg tgtttggctt tgcacacttg 4200
gttgcaaatg tgagaagcta gttgtgagga ggacgtggct gaaatccgga gctgggcaaa 4260
gcgctggtcc ttctcccagg tccttcagag acgtggtctg tggccaagcc tctctccttg 4320
gtgccgcacg ggaatctgtc atcaggaggg aatattggta ggcgagttat tttttgagtg 4380
gtaatccgag cgtgacactg cagatcgcag cactcatcgc cacttaatga acgtgtttgc 4440
tgagggccca cctggtgccg gctggctttg gagtccgtca cggtcctgag tgctggcagg 4500
tcagctgagt tgctgtggct atgcacactg aatcagggtc ctgattcatc cagatcatcc 4560
agagggggat tgtaggaggg acaggacccc tcccccaagg gtgacctcaa ggagggctat 4620
gtacccatct gagaggaggg cttgagaaat gggtccccag taagatccac ccagacagac 4680
actctccctg gctttgtgtg tatgtcgggc cacacagatg cctggaaatg ttataaatta 4740
ccaggtatct ttggaaagga aatgaggtag gagttttgtg catgaggtgt gttcaacata 4800
cagcctcacg tccttttccg gaaccacctc tctgtgactt atcctgtgac gtcagggaga 4860
gtgtaatctg caacagtgac atgttttcaa agggcttaat gtgaggggga aaggattggg 4920
tttctgaaag tctggtctgc acttctttaa ttttgttaat aattaaaatg gatgtccccc 4980
taattgccgg ttgtccctgg agtgtgtggc tcagcactaa ctaaggaagc tgagctagga 5040
tttcctacag cgtgggcttc agaaacagcc ccggttagga aagaattgtc atttttcatt 5100
tggactctcg gggcagtgtt gctgtgagtt gatttcagtt gcagagtata aaatggtcct 5160
ggagggtttc ctggactgca tctaattacc tcagaaaggt tacaagatgt ttgtactcgc 5220
aaggaggagg caggtggggg agaggaagga cagtgggctg gagtccccca aatggctctt 5280
tgtgtaagaa ccgatatcca acaatgctca cattgttgaa agcagatccc accacctggg 5340
gacctgtagg tacatgtaag gttagggagg gaggctgaga agtctccgaa gttgtaggtc 5400
acactttgcc aatgcccctg ggtacacttt gctaggctca gagtttgcat gaggttcgaa 5460
tcacatatag agttgggaga cgctaagaaa aagaaaagaa aaagaaaaaa ggaaaaaagg 5520
aaaatgtctc aaggtgtgga gtttcaccag agcaagcttg ggaaatgcag agaaacccca 5580
gagccttgat tggtgggatc tctttatcaa tagtcactga acagtagtac catccccaga 5640
tgccttctga ggaccagctc aagagattta gttttcacca gtgacctgga cagaaagcag 5700
aaagcacagc tcctggcatt gatggtggcc ttggccatcc ccatccccag caagctgggg 5760
acaagggggt gcacagttct cagtgcagca aacacggtac cctgagatga atgttgcttt 5820
tggatggagg aggtggtgat gctggatttc ggcagggtct gtgctcactc tccttgtctg 5880
ttagaccaac attgccactg acatccaggc catcaagcta gaggctaggc tccatgctag 5940
gctctggtgt ctaatgtgtg catatgtgca tctctccagc cgccatattt gatgcagcca 6000
ggacttcagc taacactgag ttcagcttct gtctcctgaa gctttaccat ggaaggcatc 6060
cgtttgctaa tttagaagct cagtttagat aatgtctatt gggccggaca aatatgtaat 6120
caggaagttc ctagaaagag cctgtgcctc actactaagg agcccttttg accctctagg 6180
gagatgttat gttcagtcat gtagttctgt gcagtgtatg tagccatgca atgtatgtcc 6240
tcaccccgaa tcctatcctg tccgtgtgtc tctggacact ttctcaagtg gcagcagcag 6300
gattgggtca agtcagttga cctaagaagg cagtcatctc tgtaagattt tcctcggtat 6360
ttcagaatag aaatgattgt atccagctgg tcatccctgt gacaaaggac aacagtatca 6420
acagttgggg acttcggagg ggtggtcccg attctaagta ctgttctgtt gattcaaatc 6480
ctgaatgttc ccagtgtagt caagcttgat tactgccagt ctcggctctt actttcagat 6540
tccccctgac gttgtcacct gctctggtta attaagtcat tgttgacatt aagggaatct 6600
gtttacccca gcccagtagg agctaaaata aaagggcttt cccaaaccca aacccttaat 6660
tactttccca ccctctgcta agtgcaaagg gacggcctgg gggtggggtg ggggtgggag 6720
tgagggagta atttacatgc cttaaaaaac acccaccatt tcttgggcag tcttctgggt 6780
tgatgctgtt ccggattgaa gtgagccagc gaaaacctcg tgagtgtgag gtctacgtgg 6840
agacctgctg aagggttccc cccccctcac caccaccacc acagggtagt tcaagtcctt 6900
tgtcagagag tatcctacat gctgtggtct cagcccccca catttaattg ccagttagaa 6960
gaagagaaaa gaaatatctg cgtggtgcaa gtggatgatt taacaggagt cttgtgtttc 7020
ctattatctg cattttttgt tcctcagtgt gagtgtgaat atttaagagt tgactgtaac 7080
ttgatagttt cgctgaggaa caagggctta ttcttggtca attaaaccaa atgcaggcgc 7140
atgctgttaa acacacaatg aagtacacat tctttattag aatatagtgt atttcacaat 7200
tcatgggcaa ggaactgtgt ttaatattac ttctagagca aaaatctggc cagcccagaa 7260
aattggcatt tatataactc tttcttgctg gcttccactg atctgaatag agcaagtttg 7320
tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtgtacc tgtctgtcta tgttgcctgt 7380
ttatttcaat cagttaaaag actaaataac ttacttaaaa aaaaatagcc accccttctc 7440
agatagcctc taaagacttt atgctgtttt taagccttat ttttaaatta ttttaaattg 7500
gggtctgtgt aggcctgtgc acatgagtgc aggtccccct ggaggccaga ggtttttgat 7560
gctagcccgg gagttggttc tggaagtgaa tgtggatcct ctgcaagaac aatatagact 7620
tacaaaaact gagctatctc ttctgctcca atacagttca acattttttc ttttttcttt 7680
ttcttttttt ctgttgaggg tgagaattca aacaaccaag cattccaata tgagatgttt 7740
ccaatatctg atttaatgaa taatcacatg gttatgaaat aactggggta gtgtttaaac 7800
aggaagggga tgtttaatgt tcacattctc tgtggagtgc gtgcagtagc cccgtgcctg 7860
cagtagccct gtgccacact tatagacagt ttggctactt acatagttag ggtggtcatg 7920
aaaagacaac taagtccctt tcatcaggct ccgtcttaac ttttccattt ctgattgaat 7980
ccctgggatc gatccagcag ggtgtcttgt cttggtcagc agctaggagt tattttgggg 8040
gaagggatgc tgcaggctat tttacagata attatgggtt tcctgtgcag aactgtccct 8100
gtaggggctg gagcaagtga tgattctgtg attaagagca cttcctcctt ttgcagagga 8160
ccagtgttgg gtccccaaca cccacaggga agtactcctg attgtcttta tctccaggtg 8220
ctgggggcca gcgcctctga cctactgttg cctgcaggtg cccttctcat gtgggctgcc 8280
cttgccctta ctgtctttgt ggcttcgtag agaatgatgg gaaaaaattc caagatggta 8340
gtcccactgg tgactaaagg tgtttagtag tagctttttc ttaaaataca gttggtgagc 8400
aagatagtgg tgcacacctt taatcccaac actagggagg cagaagcggg tggttctttg 8460
agattgaggc tagcctggtc tacagagtga gtgccaggac tacacacaca cacacacgca 8520
cacacacacc ccagaaagct tgaagttgta gttttacgaa agtgtattta accgtcagga 8580
ctaactatga tctttctttt gggctggtag ctgatggttt ggtttttttt tttttagatg 8640
ggcatctccc acagcctggc ttgggatttg ccttgtagct caggtcggtc tagaactttc 8700
aatcccccta cctcaacttc cactcctaat tgtccggcat ccttgaagag catgtgtctt 8760
gattttctgt aattttgaaa aacttggcct cggattttat ggcttactta tctttatgtg 8820
tatctttatg tgttttgcct gcatgtatgt atgtgtacca tgtatatgtt tagtgcttgc 8880
agagaccaga agaggacttg cggtcccctg gaaatagagt tatctacgtg gttttgagct 8940
agcacccagt ggtcttcact tcccccgtgg ctctccagcc cttggattaa atgtggaatg 9000
tgctgtttgc ttgcttgaag ccaccatagg cagtgacagg ctttgtggac tttctacact 9060
ctgagaataa atgaaagtcc acttgcttgc tcttggctgg gtcaagtcag ggagctaaac 9120
tatcacatac ctcctcttta acttcttgtc caactaaaga atcatgaatc ccaagccgtt 9180
tctggacaga gagaattcca ggttatggtg accatgtttt atgaggatgt taaaaatagc 9240
tcctaaggag gatgctgaca gattcaggaa ggagaacccg gcctcatgtt tatttgggtg 9300
ttatttatgt agcatgttcc tgagacatct caatcctgag cactaaggaa gtcaacacat 9360
tgtttcctaa ccctggaact tgtttttcac ttcttatacc tgacagttta caaatactgg 9420
ttcccccccc cccccatgtg tggccaagtg ttttaaaggt atctaacacc gaaaatggcc 9480
aatttggtgt gctgttatag atcaaaagga gatctttgag actagagatc tctgtcaagt 9540
ttattctctt tggaaaccct tcaagttcac attgagagct gacagttggc tagccctaga 9600
gtcatgtggc ttgcttcaag ccgcctctcc cccattccac ctcaacccct tggactgcca 9660
ctaagactgt tgcttagctg attgtagcag gtaccttgct gaatgtgtaa cctgtataga 9720
ttatgtgttt cagatttaaa accactcagg tctttaaaga ctaagggatc tgatccgaca 9780
tttgacttaa aattttaagt agaaactaag taaagttgtt ttgaatagta tgtgttgtgt 9840
tttctggagg tacagtctca taggaaatcg cccttgggtg ctgagtttga atgtgcctac 9900
tatctacttg accttagtca agtgagataa cctggttgaa attccaagat aatatctgtc 9960
taaattgcac agattgaata cacactggac tgtagttcct ggcccagtgt aggcgcaggg 10020
taagtgctga tttcctccca ccccacacct ttgtcaaact aaataaaacc cacatctcaa 10080
agacctaata tgatgcttgc cttgtaatct ataatgataa atgtcagatt ttcagacctt 10140
aggccttcct ttatccaact ctttttttgc cctcgggttt ttgcaagccc cctggtgttt 10200
agacatgtga ccctttatct gcttacagtc taggtgttca aggttgactt tttttttttt 10260
tcttctgtta aggaagtcaa ccgtagccac ccagcacata gtgagaatat gtcatggtca 10320
tgggtatatt ttggcaggag agtcctctgt ttgaggtttt caaataatcg atgtaggcca 10380
gtgaagggtg gtagagaggt tggtgtgagc ttggttgggt gtgttgggtg tgagcttggt 10440
tgggtgtgtt ggatgtgtta tagtgtgctg tgccctgtcc aagccagtga agaacccatc 10500
caccattgca ggtgttgctt gtcttttgcc atcttctcct gtaatgccac catccatttg 10560
cctgccaggg gagctaggtg ctgggcttcc ggtgggctgt atggcaggga gttcacagaa 10620
ctgtgctggg gtccagacta gtggaagagc tggacattca tgtgcatggt tcctctaaga 10680
ggggcttgtg atggcagagg ctcagggtga gatcgtgtcc ttcaactcag tccttgggct 10740
aatgatggtt tccatgaaga caccttagct cctgctcttt gctccgtgcc ttgtgataag 10800
atgctgaagg tgcagatgct gagagcgcca ggcctttatt aagtgcctgt aagcggctca 10860
catgtgctag ggatgttgac aaattgcccc ttcccaacaa acaggcagat cccaggatcc 10920
catttcatga ataaaatttt tgcaattctt agagatgctg tggtttccgg acaccttcac 10980
agtgaccaca cacccaccct ttaggtgaac taattggtgg aagatggatt tcacagctca 11040
ttcctccttc ctcagcaaga ggatagatat ttgatggagt gttaggcacc cctcttgttt 11100
tttttttttt tttcacccct actttggact ttaaacttca gaggacaggc tggttggttc 11160
tgtttctcct tcacctcccc acacccactt ccttaagtcc tttgaagaag agtttcaggc 11220
aataaaaatt ttctagcact tatattctgt agttctggtg cgatgtaggg agttggtcca 11280
taccctctgc taccgtgggg accagtggga cacagcacag agtcctagac gctgacttat 11340
gctgagtcac tggagaaaag ctcagaacaa gaagggccac cttgctcctg cctgactgtt 11400
cctcatcgtt aggtcttcct ttcctcggat cctccagacc ttagcttcat tgagttgctg 11460
ttttgatagc atttcaagct tctcctttca gcatttcttc ctttttgcaa caaggtggga 11520
aatcaaaggc cacctggact ggactacctg gaactccttc aggctgtggt catgaaaagg 11580
acaggtgtgg aggcctttcc gggaactttt ttctccagag attagggact cacctatctt 11640
ctctccatct ctatctcctc ccctctcccc caggaggaaa aagaaaagaa aaaaattcca 11700
agaacgagaa gtgtggccct aggggcaaaa gaagccagga aatgaagccg ttttaaaagc 11760
cagcaaagct cactttggtg actttaaaaa aaaaaaaagt gacctctggt cgcagctggg 11820
tatggaggtg acagtgactg actaggatac tgatctttgt agaggtcatt tgtgaaatgg 11880
gtggggatgc tcagagacag caggtatgaa gtaaggcaag gtcactgctg aagggaaaga 11940
cccacccaca tcagcttccc tcagagctgt acagcctttg catataacga ccacttccca 12000
ggctggtaga gagaagatgg catctctaga tgtgcttttc tagtctcagg gtaattagtt 12060
ccctttgagt cagtttccca acttattggc tgattggttg acctagagtc tcatgtagcc 12120
cttgaacgtc caattcttct gtctctacct cctgagtgct ggaattacag gcaggcacca 12180
ctttagccag ttcccatctc atctttgttg tagaaaagtg ttcacccttg aaggggtggc 12240
cagtctgagg aagctgcacc gcgctgtagc ttccccttga cgtctctttc ctggcacttc 12300
actctgatgg ctttcttgcc tagccatcat ggaggcaagg aaatggccag ggctgagagg 12360
ccagaaaacc cctgcttctc ttgggcagag taatgatgac ttccctgcct ggcacagtga 12420
cacaccttgt cctcgggaag ccacaatgtt tgggcacctc gcctggatct tcctagactc 12480
agtggctgag tctgaaggga gccacttttc agatttgctt gctttctgaa agccttccct 12540
ccaggcaaag ctgaggtctg tggggcagga gaggaaggtt aaccatggtg ctgccatctt 12600
aatttggaac ttccaagcag atgtggcttt cagtcctcct ggatggcatc cccaggcaga 12660
ggcagagagt cctgtgtcca tccgtccgtc cgtccccccc aacgcaaaac actacagaaa 12720
agtgatcctt ctggctctgg cctacctttc taggtcctgt ggtgttaacc agctgggatg 12780
gtgtggcccc ccgctccaga acgatccctg ccctctcctg aaagcagctt tctgtgaggt 12840
cattgctgtc cagcaacttg cggaccattc ctccagcaga gattcccttc cagcttccat 12900
gcaggcctga gctaactgag ccccagcaac aggatcaaac ccattccaag aggaaggcca 12960
tctgttcctc agcctccagc tgctggccct tcatttgcaa ttggctggga agctttggag 13020
gggtcaggtc ctggggacac atctgcagtc tctgaatggt gttataactg gggtcctgct 13080
gagcagagaa aggccaagcc ctttaaataa acttgctgaa caataccccc ccaaaggtgt 13140
agagtcagag aagcaggagg cagctttgcc ctttagctaa ctcttaacct tggttttgta 13200
gccagggcac ttgaaaacta tttctttatt cagaaagtac ttaccaagcg gagaagggag 13260
gggctgctct gaacaaggaa aatgtcatat aggatttggg catcgatctg ccccttaagg 13320
gaattagagg gcaaatatct ccacttgagt gtatgccatt tattgaatat ttacctcagt 13380
gtcaaagagg tgagcttgtt ccagatgcag cttgtaaaga gccacaggca gcatgaagtc 13440
ctctcgaact tgcctctgga atgcagttca gccttgggaa caccagccaa tctccctagt 13500
tcattgcaag caggtcccca agctgtagct gctttaggtc ctgtggttct tgggcctgtc 13560
tgtagtttgg tgttagggcc cttatttcct gcatccgggg gcctatgata acttagccta 13620
atgctctagg gactttctat agggaccagg ctgtaatcgg gcgtgtgact tcattgagtg 13680
gatgaatggc agttatgcag gtgttgtcca ccttggtttt attgacaggg tctctccctg 13740
actgggaact taccacatag gttaagctgg ctggtgagca ggctccctgg agatgtctct 13800
gtctcattca ctacatctag gtttttttgt ttgtttgttt ttgttttttt ggtttttttt 13860
gtttttgttt ttttgttttt tttttttttt ggtgggttct gaggaattaa agtgatgctt 13920
gcaaggcaag aactttatgg actgagctat ctgtcagcta tctgtcagcc cagcccccag 13980
aggtacaata acctgtgggc cctttggctc actggtttct tgaagcaggt attaggcctg 14040
gtctgtatga gacggagcct tcaggacctg cagatgttta gttccacttg agaactttgc 14100
aggaatcctc gctcagggaa ggcgtgtata taagatgtga cagatttatt cacttgaaag 14160
aaagccctgg tttggagtca gaggcatgca agtggatatt ctcatggggc catcttaacc 14220
ctctgctgac tcatctactg acctgttaga atcaggctgt gacccataaa accaagcccc 14280
aggtggctcc cggctgggtg aatatgtctg cagagcttca ggtagagcat ttgccctact 14340
gtgcacagag tgtttcctct cagtgtgctc ctcacatcag ggtcagtgag ggacttaaca 14400
gaaagccttg ggttccctct ttgtgccacc gtttgccagt agctggcctt tctggtgtct 14460
cagggacaga gggggccgtt cagtacgacc acgttcattt tggacagcag caagccttaa 14520
gctttggtct ttggacaaag ggtttctgag ctggcggtgc catcctcagc tgggagccca 14580
ggagcaccca gccagagcac tcaggccatt caggaggctg accctgggtg gaggtcctta 14640
tgcacgataa acctcggtca ttgcgttcat tttccttcct cccaccttct cagaatgtct 14700
ccacgagaca gttgggtgag aatgaatatg tctgcgtgtt ctacgtggat aaaacatagg 14760
ctgtgacatc atggggatgg ggtgacggca tgtgtcataa tgggaaactg gaaatcttat 14820
agaagagaca tttaggtttt gaaaactgca caggagcctc tcaggtagag aaacagttta 14880
ggtacaggga acagggacag gggacagagg acagacatac cgtctggcta ggcaagccac 14940
catgtgaatg aacgggggga agaggggaaa ctgggggaat gtggtactcg gtaatgatgt 15000
aaagatttcc tagagagaca ctcattatag gttgggtaca ttccattcag gcctttgcct 15060
ctttaggagc ccctatagca ttccttgatg ttgtagctac gaggagcagc aacctggccc 15120
caaaagagat tcaacagact ttcccagtgg cttttgtctg cctgtggatc cagccctaga 15180
tggcaaggtt tgggactagt gtgtcctaag gagtcctgca gaccttgggg agcctgtgct 15240
ttctcttgca agtgcgcctt caggacgcag gaggcctggg cctggctggc cagacctcgg 15300
atacagacgc ctctttgtgc ctctgagcca cgagtgctgg gtactttgac ataacttgta 15360
atgccagttt ctacttcctg ggtgctatgg aatctaatgg ctgagttctc tgggacatgc 15420
tctctcagaa caaaaggttc cattttccag ttcttgctca agcaaagcat caacagctag 15480
gggatttgtg tagctgcgca gatttgatct ctcctcgcgt cttggtggcc cagtgggaat 15540
ttcagtcttg ggagtgtatg aattgagtgc gtatgttgtg accaggcgcc tctgtcattt 15600
ggacactatc gtcgcatgac aggattgggg gggagagagg tgcgggtggg taaggagcta 15660
agctgccgcc gctttgagtc taggtaccgg gtgacacaat gattcttagg cccttttgcc 15720
ttttctgcat ttttattttc tcctgggctc aggcataatt tgtttcaaac tggagggctg 15780
tccaccctgt ttctcaaagc caaacctaaa ttacgagggg tgtgcctaaa tatgaaatat 15840
gtaatggttc ccatattgaa acatttgcta ccttctagtc ctctccgatg ggcggcttga 15900
gccagcccag agtttctggg gctgtccgac tactgcagct gaggtagcta ttggtggggg 15960
tgatgctaac aggaacgtgt ctgaagagat gctccagcta ttggttgtaa acaaagagcc 16020
tgggcagcct gctcacctct ctcctctccc tagcctcacc atcctgccct cccccacccc 16080
ctttttttat gcagccgtat ttcttgaggt tgaaaacttc catctttgtc ctgtatgggt 16140
gttggccccc tcctctcttt caggatgagt tgtacagagg ccttataagg atgctatcag 16200
gatgtgcaag ttggcacact ggtaaagggg aaactttgaa agagtaggag ctgcagcagc 16260
cagctctggg atgtcgtctt tgtgtctggg gacaaggcta gctaggccgc tcttcttcct 16320
gactccacca aaggacccca ttgtccttaa tatcttttat actgaactct ggtgccagct 16380
ccatgctgac agtgccatgc aaaaatatgt acaggagagg ctcttccaag gtcccagtct 16440
tgccaggtgt caccggtttc taaaagccta ggtggacatt ccagtaccat gtgccctgca 16500
ttctgggtgt ccttgatttg aagttacaaa gaacctttca agttctgtac cctgttctat 16560
ggccagtgac cacagctcac caggcccatg gagtggcagg gcatctttat ggctcggagg 16620
gcagagtggg tcaacccttt gccactcacc tgttatgaac ccagtgtcct gtgactttgc 16680
agtgacattt ggcagctcga tccccattct ccgtcaagac ttttggcagt cctgtggctt 16740
tgctgtttat ttgtcttgta ttagatggca ctgtctggga gaacgccggg ccatggtatt 16800
gtcctcgtcc cagggttcct gtgcagtcct actgggctag aggagtgctg ggaggtgggg 16860
acagcttagc tgggcagccc cgtcccttga caggacatgc ctgctgaagc tgtgccttct 16920
cctccaccct cctcctcccc tttccctcct gcctcctctc tcctcttctc tcctcatcgt 16980
cccctttctt ccttgtacgt ccctcttctg ggtgaatcta ctctgattct gctttgtcct 17040
ttccagaaga atgtgttttg ggatctgatt gtgccctgtg gggagccccc ctaagtgggg 17100
ctgtttgagg taccccactg tatctttaac tcagatcctt tagacgctga ctaaagaagt 17160
cattctgggg acaccctaga agtggcttgg tgtggtgcga ggtgatttgt tgccccagag 17220
gtggttggca gaagtggctc cttctccctg cgatggtggg aagctgccat gtgatctgtg 17280
ggagacgatt ggccagggca ggacttggac gcccatctgt tctctgtttg cagttgggcg 17340
ccatttcaga aaccacaggg gaaaagttta taggcaaaca tgataaaaag tgacagtctg 17400
aagtgctgct atcgctggct tggcaactta aagcattacc tgaagcagct tctaacttcc 17460
agacgctcta gctgcaacgg gaaccccaag atggccatcc tgtgggcgct ggggaagatt 17520
tcgtttgtgc gcagtgaggt gtcttagtct cggccccatc tacttcttga aggctccctt 17580
tctagggtga cttcacgaat agcaaggtgt catacccctc ccccctagct tacaggaagg 17640
taaatacaag ctgtcactag tgacatcagg tgaggtccca cccagaggtt gtgacctact 17700
tggatctgta gaaggacttg gagaagggtc aggaagattc tgcctcagtt tccctttcgc 17760
ctgggtctga agcccctctc atttctaaat ccctattacc tcccagggaa tagtggcttg 17820
aggaatcttt gggaagaaag agggctcatg gcagggtaac agtcagccac gtgtgcggaa 17880
ttttaaagac agaatctcac tacatagccc aggctggctt tgactgccct cactcagtag 17940
cttagtaggc ggtaaactct gaagccgatg caggctttga acttatgatc ttcctaaccc 18000
accatgtgcc accatacccc accactgttg atgttttcat tattggattt gatgctgtga 18060
aggaacccct ttatcttttg gtttgtttgt tttctgagta tcagagtagt cagctcactg 18120
aaaatatgac cagtatatag gaaactgctg gcatgtctca agggtttgta acctgtgggt 18180
agaaacacag ctaagcctcc acacaggaga gcctctggcc actgttgtgt ttgtcgcagg 18240
tagaaacagc tgagcagagc cttcccagaa agtaaacatg tcgccttgtt tgttcagaga 18300
gtttaggtaa caatgacagt gtatggccca gctcccatgc atctttccaa gtttccattt 18360
aattatgaaa aatgtatgag aacagacttt ctgtctgcgg aaacccctga aagagcattt 18420
ggtgcctctg ctcgtagctt ctggaacttt ctccccactg tgctgtgcag agtgcagagg 18480
gtggaacttg gaagcgtgtg ctccggtaag ccacggcatc agaaatgtta aatccaggaa 18540
atgttgatat tgctataaaa gagactgttt ggatttccca gggagttcct tgtcctgtgt 18600
caattgtcac gtgttacaca gagcagcttg gcagagtcgg gcaaggagtg gcctgtgtgg 18660
agaggccatc tgagtgggag agacaggtgg ggtgtggcga gcacagtcct tggtgccttg 18720
gccccttata ggacactatg aggtggttac aatatggagt tgtaacacca caggactctt 18780
aagagcaggc agtgattggg aggagccagt cccgaagcct ggtgaaggat ttaggcacag 18840
aagagaagcc tttagctctc aagtctccag ggctaggcgg gagcaggatg gcatcttttc 18900
agcatgccac ttgggttcca tgttcttagt gccctggtcc gtgatgtatc tcatgtgtga 18960
tccatttgca gggagctacc aactgcatct gtgtcctggg atgctgttgg gttggctttt 19020
tcttctcacc cccttattat aatcctgctc tctcctgttt cttccccctc tacggtattt 19080
gaccttctcc tttctttctg ccctttcttt tcctgtattc acccaatctc cctactccct 19140
aggatcacca aggaggaggt aacattgctt tctgctgacg ctgctgaccc ctaagtgggg 19200
cctcttgaga gaaggtcact agggagttgt gcattctgcc tatccaaggc agataccttg 19260
gaggaggcct tggcgttagg atggcttgat ttcatagata cttatctttc tgacgtgctt 19320
gcagatgata ctctatactg tccccaaagc cagtcgtctt cctgggaaac tagagagttt 19380
cccattttgc ccatgccaac ctggcctcac cattgactga gtgagatggg agcccatcag 19440
tgaaagtctt gagattaaaa atccagttgt ttctgaagac agtggagcac cacagttata 19500
gcttgagaac aacggcggat gactgacatt ggttgtggct ggaagatcaa gtatacagcc 19560
ggtggctccc aggcacctcc cgtataatgc cttcttgtat gttggtggtt ggggatcttg 19620
tggctgagag gctatgcagg gcagagagga aatgagccca gtgtccctgt acccagggca 19680
gtgtcccttt accaaacatc cagtgtcctg tcctacctga gacccctctt cttctgtgtt 19740
cctcacagca tggtgataca gtatggtaga attggtccag catggtccag tagtgcagct 19800
aaatttcaat gagtcttggt cctttgttga tgttgggtgg aggaagggtt tctccgtgga 19860
tggtgtagac tttaaggctc catcattctt aacattgtac gaatctttgg tttaaagatg 19920
ttaagaccag actggcagat ggtatgagac ttaggttcaa atggaacccc cctttcccct 19980
ccttatttct cttcctcatc cttaaaaata tgaacccttt gttttacttg ttgttgctgt 20040
tgttcattat tctcagtgtt agtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtgatgt 20100
gtgagtgcat gtagacaaat cagccatgct gtgtaaaggt cagagtgcag tctggtagag 20160
tcaattcctt cttcctcttc taccttttta agggtttctg ggaaccaaac ttggctttag 20220
gcaagcatgc cttcctcctc ggagccatca ttccagaact gcctctccct cattcactta 20280
gccactcagg tcagctgcct cttggtttaa atgggcaggg aaaggcctga gctgagaccc 20340
ttccaactga attctcaatg tctttcaaac ttggttctgt gtagtgccac agggtgtctg 20400
ctacttcttg gaggagactc ctatcccctc ctgcaacaga agctgaaaca ccttcggtga 20460
ggggccacgc tatcagtgtt tggggcttgt agaccatgag attttttttt ttttttcaat 20520
gactctggtc tgcccgtata acacaaaagc agccctagac aatacatacc caagtatgta 20580
ttgagtatgg cactgctcca agaagtcttt gtttacaaaa gcaagtggct gacttgtccc 20640
tcaggccatg ctttgctggc tcctgctgcc cacggggcct tcgcccaccg tttccacatg 20700
aacggctacc tacctgcctc acccttaaga ctcccttaca cacttcctat tttctctgag 20760
gtttttcttc actttcattt gccccactgc aatggagggt ccaccagggc agggatatgg 20820
ctaccctcct gttgcttcct gagtgtacag aacaaagctt ggcctgtggt aggtatgcaa 20880
taaacagagg gcacatgaga taaacaagcc cttgaaacct tacctggctg tcagttgggt 20940
ttgctttctg cccctgcttt gtgtgtgtgt gtgtgtgtgt gtgtgtgtgt gtgtgtgtgt 21000
gtgtggttgt ggtggggttt gtgttccatc aacttctgtt ttcttcccta tgtgggtttt 21060
acttttgtgt tcctgtactg ttaacatctg tgcccctctt ggctgtgtgc atttgaagtg 21120
ggggtcccct gtgagaagcc tcaggcccct tgtgttggct gctgctgcgc ttcttggacc 21180
agatgtttat taaatagcag gactgaaaca tgaattgact gtattctagt cgtgagagaa 21240
tttgttcttt ggagtgggct ctgggcagaa taatcgcctt gtgatgctgc tgcccagatc 21300
tggaacctgc ccagtgtggg gaaggaagca ttgtgttttc caggcttggg actctgggta 21360
ccattcacag ctctcactgt gggatgaaag cttatttcat gagccctcgt ggccacctct 21420
ggccctgagc aaggtcagga gcttccttcc tctcactttt tttgggagaa gctgggaggt 21480
tggatcatag ttggtttcat tctgccctgt ctttagagga aggcaatgtc tgccttctct 21540
gtgtacagca aagatatcca gtgtagggat gggcgtgggc acaatgacct atcagaactg 21600
agctttctga tgtgaaggtt tcctctggaa gtcaggacac ccataggcaa tgtgtctatt 21660
tcagtgtttg gaggtatagg gtaggcagat ggactttaga gtgggagaga cccctttagt 21720
ttccagccag gtgactgatg cagagtgatg gatcatggag ggccatggtt gacctgggca 21780
tcagaggagg aactgggcta aacgggagtg agagggagga ccttgtgttc ataaagaaga 21840
gcaggatgct tgacggagat cagggactct ggggtagtgg tgggttggtg ggcaggatgg 21900
atctggctcc accagtggaa tgctgggtag tagtacatgc tacttatcca gtacatgtag 21960
tctatgtgta tacatggctg gtttatggta tagggccatt aagtgccagt aattccttac 22020
ttttctttct ttggacgtta aaggaccccc agcatctgtc attttgagga agatggaatg 22080
tcccagctcg cccagaacag atctagctca gtcctgatcg ggccccaaga gcacataaaa 22140
acaatcaagc caatagctgc ctcttcccaa gtggtgaaga gtaattttgt agatgggtct 22200
gtttgcccct tgaatttgag acattttatt tatattgaaa agcttggttc tgtgagaaca 22260
ggcaaagtga aatatgaata agtagctaag tcagtgtgag aacgtgtatg tacgtgtgca 22320
tgtatcacat atacagtcat gctggatggc tagcttggaa atcaacttta cagttttctt 22380
gtggattttt cttccacttt agggtttggt tggtttttaa agccctattt ccagtatgtg 22440
gaaatgagcc aacccaggac agcttccgct ggatcgtgga cagcttctat ggccgtcgac 22500
gtgtacactc gagataactt cgtataatgt atgctatacg aagttatatg catggcctcc 22560
gcgccgggtt ttggcgcctc ccgcgggcgc ccccctcctc acggcgagcg ctgccacgtc 22620
agacgaaggg cgcagcgagc gtcctgatcc ttccgcccgg acgctcagga cagcggcccg 22680
ctgctcataa gactcggcct tagaacccca gtatcagcag aaggacattt taggacggga 22740
cttgggtgac tctagggcac tggttttctt tccagagagc ggaacaggcg aggaaaagta 22800
gtcccttctc ggcgattctg cggagggatc tccgtggggc ggtgaacgcc gatgattata 22860
taaggacgcg ccgggtgtgg cacagctagt tccgtcgcag ccgggatttg ggtcgcggtt 22920
cttgtttgtg gatcgctgtg atcgtcactt ggtgagtagc gggctgctgg gctggccggg 22980
gctttcgtgg ccgccgggcc gctcggtggg acggaagcgt gtggagagac cgccaagggc 23040
tgtagtctgg gtccgcgagc aaggttgccc tgaactgggg gttgggggga gcgcagcaaa 23100
atggcggctg ttcccgagtc ttgaatggaa gacgcttgtg aggcgggctg tgaggtcgtt 23160
gaaacaaggt ggggggcatg gtgggcggca agaacccaag gtcttgaggc cttcgctaat 23220
gcgggaaagc tcttattcgg gtgagatggg ctggggcacc atctggggac cctgacgtga 23280
agtttgtcac tgactggaga actcggtttg tcgtctgttg cgggggcggc agttatggcg 23340
gtgccgttgg gcagtgcacc cgtacctttg ggagcgcgcg ccctcgtcgt gtcgtgacgt 23400
cacccgttct gttggcttat aatgcagggt ggggccacct gccggtaggt gtgcggtagg 23460
cttttctccg tcgcaggacg cagggttcgg gcctagggta ggctctcctg aatcgacagg 23520
cgccggacct ctggtgaggg gagggataag tgaggcgtca gtttctttgg tcggttttat 23580
gtacctatct tcttaagtag ctgaagctcc ggttttgaac tatgcgctcg gggttggcga 23640
gtgtgttttg tgaagttttt taggcacctt ttgaaatgta atcatttggg tcaatatgta 23700
attttcagtg ttagactagt aaattgtccg ctaaattctg gccgtttttg gcttttttgt 23760
tagacgtgtt gacaattaat catcggcata gtatatcggc atagtataat acgacaaggt 23820
gaggaactaa accatgaaaa agcctgaact caccgcgacg tctgtcgaga agtttctgat 23880
cgaaaagttc gacagcgtgt ccgacctgat gcagctctcg gagggcgaag aatctcgtgc 23940
tttcagcttc gatgtaggag ggcgtggata tgtcctgcgg gtaaatagct gcgccgatgg 24000
tttctacaaa gatcgttatg tttatcggca ctttgcatcg gccgcgctcc cgattccgga 24060
agtgcttgac attggggaat tcagcgagag cctgacctat tgcatctccc gccgtgcaca 24120
gggtgtcacg ttgcaagacc tgcctgaaac cgaactgccc gctgttctgc agccggtcgc 24180
ggaggccatg gatgcgattg ctgcggccga tcttagccag acgagcgggt tcggcccatt 24240
cggaccgcaa ggaatcggtc aatacactac atggcgtgat ttcatatgcg cgattgctga 24300
tccccatgtg tatcactggc aaactgtgat ggacgacacc gtcagtgcgt ccgtcgcgca 24360
ggctctcgat gagctgatgc tttgggccga ggactgcccc gaagtccggc acctcgtgca 24420
cgcggatttc ggctccaaca atgtcctgac ggacaatggc cgcataacag cggtcattga 24480
ctggagcgag gcgatgttcg gggattccca atacgaggtc gccaacatct tcttctggag 24540
gccgtggttg gcttgtatgg agcagcagac gcgctacttc gagcggaggc atccggagct 24600
tgcaggatcg ccgcggctcc gggcgtatat gctccgcatt ggtcttgacc aactctatca 24660
gagcttggtt gacggcaatt tcgatgatgc agcttgggcg cagggtcgat gcgacgcaat 24720
cgtccgatcc ggagccggga ctgtcgggcg tacacaaatc gcccgcagaa gcgcggccgt 24780
ctggaccgat ggctgtgtag aagtactcgc cgatagtgga aaccgacgcc ccagcactcg 24840
tccgagggca aaggaatagg gggatccgct gtaagtctgc agaaattgat gatctattaa 24900
acaataaaga tgtccactaa aatggaagtt tttcctgtca tactttgtta agaagggtga 24960
gaacagagta cctacatttt gaatggaagg attggagcta cgggggtggg ggtggggtgg 25020
gattagataa atgcctgctc tttactgaag gctctttact attgctttat gataatgttt 25080
catagttgga tatcataatt taaacaagca aaaccaaatt aagggccagc tcattcctcc 25140
cactcatgat ctatagatct atagatctct cgtgggatca ttgtttttct cttgattccc 25200
actttgtggt tctaagtact gtggtttcca aatgtgtcag tttcatagcc tgaagaacga 25260
gatcagcagc ctctgttcca catacacttc attctcagta ttgttttgcc aagttctaat 25320
tccatcagac ctcgacctgc agcccctagc ccgggataac ttcgtataat gtatgctata 25380
cgaagttatg ctagtaacta taacggtcct aaggtagcga gctagcccac cttgccttga 25440
gaatggtcgt cgccttttgg ttcctttggt tgtgctatga tgcgtcagtc tggtgtgcta 25500
actctatggc ctgcttatct gttcctcctc ctgtgatctg caatctagcg cctggaagag 25560
aaaaggagat tacagcttcc ccagactacc tggagatagc tatttactgc ataggggtct 25620
tcttaatcgc ctgcatggtg gtgacagtca tcttttgccg aatgaagacc acgaccaaga 25680
agccagactt cagcagccag ccagctgtgc acaagctgac caagcgcatc cccctgcgga 25740
gacaggtaac agaaagtaga taaagagttt gaagaaattt actcccctcc cccacccagc 25800
cagctcttgg atcttcttcc ctctgatttt ccccctaact tctgtgagct ccagaactgc 25860
aggcaattct aatctgccac tgtgtggagg ttcagtcagc ggttgggact aaagagcatt 25920
aagtcacaat gctgctctgg gcttggtagg ctggctctgg ttttaaagga caagagtgtg 25980
aagactggag ctgcccagtg ggatgggcag aggaggccat gccctctgcg cccctcaagc 26040
tcacggctcc tttgggagaa caagcatttg gtctggctcc attgcttctg tatgaggcca 26100
gatgttcggg ttcaagtttt acccttcata ggaaagagag tttaattttc tttgatttac 26160
tattttaagt agagatcaga aacagaggat ggaggtatac ctgaactaat gcttgcataa 26220
aagtggtctg tgatgtcttc taaactgggt tttggctgat tttgtctggt ttttaaaacg 26280
ctgtatgcgt atagtttatt gttacaggtt tggctaggga ttcagtgata ggatgattgt 26340
gtgtgtgtgt gtgtgtgtgt gtgtgtgtgt gtgtgtgtgt gtgtgtgtgt gtgtgtttgt 26400
atttaggtta taagtacatg tgtgcaggtg cctgtggaga ccaaaagaga gtgtcaggtc 26460
cactagtgct agagtttatc agcataggtg gtaggaattg aactctggtc ttctagaagt 26520
gcagcaagca ctctttaacc actgagccag ttctccagcc cccagatacg atgattgcta 26580
tgtagaacag ggagaaaatt acctttaacc ttgagcttga tctttgatgg ctggctttgg 26640
gggaggtaag gcaatagaac cttccctgtg ccataaaaca aagcccttca aaggtggata 26700
aggaaaaaat gcttgacttc tgtacttgct cctggattcc aagagccagg catgtgtggg 26760
tgtaaatctt tatgataaga ttcggaactt gattctgata agattgtcac tatttttttt 26820
aaattagcaa tggaaatgaa caacctggcc tgtgctatgg ggaggtgcat cttagtgttt 26880
gttaaaactg catattcatt agtttcaacc ctagaaattc ttatttagta cttcttgaat 26940
ggatctgtaa gagtctgcat tttaaacact ttctcgggtg atactgtgta ataccttaag 27000
aatctctggg ttcaacccaa ccctgccttt cctgggccct ttctgtggac aaggtgggaa 27060
ctagcaggtc agtagtggct tggacacagg gccttggctg ttctcaacct agcttcacac 27120
tacaggctga gcaggtcctt gtcaacgtcc ttgaagcctc gtttccaaca ggtgtttctt 27180
gcagagggtt aagatataat ttggagcata tgtcagatgc agcctttggc cagctgttga 27240
atgtggagtc aaaaaggctc agttgggttc cttttaatcc tgagaatgct gtgctacttt 27300
gagtgacacc actgtcattt gtgggaccat agaagctaga tggtgctgaa gttaaagttg 27360
gttgcctgaa tgagttgctg gaagagtcct taataaaact cttacctggc tagatagtgt 27420
taaggcttca ggctgaatgg ccactccttt ggccactcct ttggctactc cttcacagcc 27480
tctcctgatc tcttagccct gggccattct taacatctgg actctggtct agggagttta 27540
agtaaaggga gcaatgtcct gtctcatttg tttttataat agagaaaaga agtaaaatcc 27600
ataagttgag gtagataggc cattgaccct taattatttc atcatttaaa aaactgatgt 27660
gtgtgtgtgt gtgtttatac atgtgtgctg gagctcttgg aaagctggaa gagagcactg 27720
gatccctcag agctggaggg ccggtagttg tgagctctct gatgtggtgc tgggactaga 27780
actcgggtcc tctgcaagag cagcaagcgc tcctaatcac tgagccatct atctctccag 27840
cctgcatcac ttttaaagaa aactctttct atttctccat tttccatttc catttccatc 27900
tttttacatt tatatattac atttatatat ttatgtagct tgggcacgtg tgcgtttgtg 27960
tgggggcatg cacatggcat agcaaggtta gtgaaggtcc ttttgaaatg gtggccaggg 28020
gacaacttac atgggagcca gcacctttct ctaccacgtg attcccagga atcaaacagg 28080
tcaggttcag tcaggtcatc gtatctgatg accgattttg ttgactccat cgcttttaaa 28140
gaaaaaaaga attaacacct attacagcgc tcttcctttt gcttcatgtg aaaaagacag 28200
aggccctgga gttcccaggc acatggattc agcatgtctt cctttctgtt tgtccaactg 28260
agtttcttca ttttctgtcc acctaagctg tccattttgt ttgtttttat attccctgtg 28320
tgaccggagg gaaaagttgt tttttttttt tttcatttac ctccctttct tcttgtattc 28380
attgttattt actgagtgca cagtttcttt tagtgcatgg gcctaaatca ggactcttgg 28440
gctgggagtg tggctcagtg ctggcatgct cgcctagctt gtccaagcct cagtatcacc 28500
aaagaaaata attaagccag tttcgtgtca gagaaagcct gcccatttgc cactggctgc 28560
aaggttagtg aaggtccttt tgaaatgttt cttcatgctg acgctggata acaaatgtgt 28620
gaggcccagg ctctctgcat gaggaagcct ctgggagata aatgggttga aaaggtactg 28680
ataatacccc agcatttcct agaagtcatg gggaagtatg gtactaactg cctcttccca 28740
aaggatttcc caaagcttag gccactggga ggaggaggag gaggaaaagg aggagaagga 28800
ggaggggaga tgcttatcat gagtctggat aaagagggtt ttgggctgta gctggaggcc 28860
tgcagatagg ttaatgacag agtgaattcc tcagggatgc caagcatgcc ttacctggcg 28920
acagatgagc ctgtaatcag atgtctggag gacgggtgct cccaggcact aagaggctag 28980
gctttatttt gtgtaggccc aagcttctat atgatgcagc atccatgccc tggcccttgc 29040
ccaggacggc gaggaggcgc atagcctctc tccattcact ccatctttgt ctttgtttta 29100
gaacgagaaa agttggtttg tttattcatg ctgttttttt ccatgtgcac aagcgcgtgc 29160
tcggaaagtg tgtaggtgtg tacagaaagt gtgctgaggc caaatgataa ccttgggtgt 29220
cattcctcag gtgccgtcca ctccttactc tttgtgtgtg tatgtgtgtg tgtgtgtgtg 29280
tgtgtgtgtg ctaagtttct cacctgcttg cctgaactag ccaagtaagc taggttatct 29340
ggtctgtgag ccccagggtc ccaattgctc ctccttctcc tcctctctgt taggattcca 29400
agtgtcggct cccaagcctg actcttcttt ttttttctga gacagggttc ctctgtgtag 29460
ccctggctgt cctggaactc actctgtaga ccaggctggc cttgaactca gaaatccgcc 29520
tgcctctgcc tccaagtgct gggattaaag gcatggacca ccaccgcccg gctttttttt 29580
tttttttttt tttttttttt taatatagct cctagggatt gctctcaggt caaggaaggc 29640
aggcgttttg atccttcttt ctccttgagg tttgcttccc tgccctgaac ttgtttaaaa 29700
caggcatttc actttaaaaa ggtagggtct ttttttttgt gggtggaggg ggtggggggt 29760
gttttctgta tcaaataaat tctttatagt ctttctagta aacattaatt ttgggagaca 29820
ttgtgcttgg agtaagatac gcaacttttt ggtgggacag cctggtaggt agcctgtggg 29880
atctctaagg aggagtcatc tctctcaccc aaggctagga ctgggcactt tgtaagcgct 29940
tgcgcacttg cctctacttc ttggtaccta gtgttaaatg gcaatagtca gtctagagaa 30000
gggcaccttg tgacccaact ggaccatcag tggtcactgg gcagtggtct ttgtgtactt 30060
ctgagtccaa gtggaaagat ttgccttctg tgatttccac aagtcccttg ttggggaggt 30120
gggccgtatg tgagtgcaga gcggggtgga ggaagccttg ttctgtggag tgcttgtttg 30180
tggaggagct ttcctgggta ggttcagctt ctttctggag ccagaagttt gcttagggca 30240
agatggagat ccatctgtct gtgtccagat gagtgcatag cctacccgat cccccagtct 30300
cacacaggac tgtagtgagt ttgttcccag cctcagccat tgacatgggt agctgagaaa 30360
accagagagc aatttcataa tgcgtttgag acccatggtt attcagggtg ggctgggggg 30420
aacacttaat tccagagctg ttctcagggc aatgtattcg tggtcttaga gtatatgaaa 30480
ctcagtgaaa gtgagtgctg actgcttagc atcccagcac cgtgacctgg aatctccatc 30540
gtacgaggtg tagtcgatcc agagttgcag tgtaccggtt ctgggaaaca tttgggcagc 30600
tggatagttg tggatgaccc gagtggagtc ttcgctttcc tagggatcga tcgctttcct 30660
tgtccccagt ttggcctgtc ttttctctca gcccctgaaa gacatgctgc cttggctgag 30720
atccacccta gacttttgct gatgagctat aagtaggttc agaacacctg agtcaggtac 30780
ttttactgtt gtgacagggc attcaagagt ccagaggagg tagaagctgt ctaaggggca 30840
gtgtgagcaa ttacctagat tttgttatgg aaggaaaaac aaaacaaaac aaaacaaaac 30900
caaaaaactc cactcccaga aactctctga agcttggtgt ggtgcaggtt tttctgttgt 30960
ccatagaggt gtgtggggct agacttaaga tagaacacac tggccctctg ttctgatgtg 31020
gaaggctcca tctgctgcct gggagtcgga gggtgtctca agtctgctgt agtccaaggg 31080
catgtgtcaa ttctcaggaa taaagacaaa cttgactcac ccttccccgt actgtctttg 31140
cttccgcctg cgctgttgtc tgtgaggtcc cctctgaatg ttcagcttca tccagcataa 31200
agggagacgg ctatgacttg gtggctcttt aaaaagaaaa ggggagaaaa cccacttcct 31260
ccgttaatct cccatatgta ccgtggaaat atatgaaaag cacatttagt taaaagcttg 31320
atttatggca cgtggtaaag agatcccggc atgtaaggct gccgaattgg agactgtgaa 31380
gagtgtgcgg ctttctaaaa accgcctgcc aagatttggg gtggggaatg ggggtggggc 31440
ggagcaacag tttactacag tgttagcgtt tattgtttat aagtgaactt ctaacagtgg 31500
gatgttttta agtgcgttga aagggaaact ccaaaatgga agtttctaga ttaaggattg 31560
agaactatct gaggagggaa gttataagta caagagaaag agaagaaagg aagtctgtaa 31620
tacagtggtg tgaggaacct tccaaggtgg gcggtggggc cacaattcag agggaaggag 31680
cccctgaaaa gccaggctcc tccagggacc cctgctgggg attttgccaa gccctccaga 31740
caggttgcct ttctgaggag aggcgagtga agagaaagcc agtcatgctt tatagcccca 31800
gagaggattt taaaagtata gtaaaacgca tggaggtaga attaagatgg acctctgtag 31860
acagggagag cagagtgtat gctcagagac tttgcgtatt ttcttaccct ttcccactct 31920
gggtgttttt tacaaaggta ttttccaggc ttgtacattg aacctgaatc tgcactgtgt 31980
attgaacaaa attcccacac atgaaggcag ttttacattt tgataccaat gtgcagcaac 32040
gactgccaag gttttttttt tttttcttcc gtattagttt agtttttttt tttttttttt 32100
tctccccgtt ttccattttg aaaatgttgc ccttaaaacc ttgtggaggt gctctgttgt 32160
ggggtgggta tgcgtatggg aaacttgcac cccaggcctg tgctgtgcat tctgtttggg 32220
tcaaaggtcc tccacagagt agttgatgtc agactggatg gtaaatctct ctgttttgag 32280
gtaaccccta agtcatggtc accagcggga ccttgctgct ctatggtttt cttcttctcc 32340
tctaattcct acattaaaaa tatatatagt cttgcttact ggaactccag gctatcctgg 32400
ctggcagttt agggtcccat tttgtaaatc agactcgcaa ttcaggtgta tgccatctaa 32460
aatcagaaca aactcacctt gtagagcaga ctggtgagct atggctgtcc cagctcagca 32520
ataagcactt gatgctgtct tcattctgtc ctgctaactc tgagaccacc tgagactcac 32580
atagaccccc ggaatctgac cttgacttca cggtaccatt gaccaggatg tagcctgcca 32640
gggcatcttg gccctgggtg atcaccaggt cacacattga aggatgcgga aacatcacaa 32700
aacagcctgg ggtggggggg acaaaaaaga agtgccatcg ggcgtcttgc tagtttctaa 32760
actgaagtct gcataattca accctgtgcc ttcttttcct gctgttcata tttattttat 32820
tccaaatgct attttggcta aagaaagaat gtctactaaa acacaaagga aacacaagac 32880
cagggtaata aaatctatat gatgtagaaa gttctagaat aagacctgtt tcctaccttg 32940
ctccctattc ttgatctctc actctctctc cgaaggtgac cactgctaaa tccttagata 33000
tctttccaga aaacatttcc tgctttgctt cccaagtctt gatctctctc cccaaagggg 33060
accatggcta aacccttaga tatccttcca gaaaatgcct gtggtcacaa cccatcctgt 33120
aagcctctat gtgctgagta ctgactccca aggacaggcc acagaagctg cgatgtgcca 33180
ctagcctctg gccattacca tcattcagaa ctgtggtctt ctgagatttc tcagcatccc 33240
ctcctcactg gtcttagcac acagtgggtc ctaacaacta agctaggaac tttagggtcc 33300
agtgatgcag aggcaagctg atgatggccc tataaagagt atcctggcta cacacagtct 33360
ctgttggctc tttgctccct ggggtctgtg ttgtctcatt actgggcaga cttttacttg 33420
tttggctgta gcttcttgcc tctgattatc tggtgtgaat ttttactata tttctactgg 33480
gagatgattt ttgcctattt gtgtggaaag actgccagaa agatcttaaa aattaaaaaa 33540
aattacatgc cttttgcaag cataacttgt gagcctgatt cagaatgagt caggtgggtg 33600
gttccacaga agcactatgg accagctcca ttccagaatc ttctgagtcc cttgtctgta 33660
gatggagctc acgatgtttt tgtggccagt ggaaaatgga catcttgatg ttgtcaggaa 33720
acttctggtt tctgatgcag cctgctcacc acagttaggc tggacaccat gcggacagtg 33780
gaaggggctt gggagttatc ttttgtcctg ctgggatgga atgcctattc tggaacaagg 33840
caagtgggtt ctagaggcac tcgcgtgttc cctgctcacc ttcccctgct tgcttctgcg 33900
tttgccttag agattgggat ccttgaatgt atggctctct attacagaat taccaggttc 33960
cttcttcttc ttcttctttt tttttaatta aaaaaaaagc atcaattttt gttgtggcac 34020
aaggagtaaa tgtcctgtct gcatagtata atgtatatac agcttcttct tgggtacggg 34080
tgagatggct caatggacaa aggcacttac gctgatgacc aagcctgacg ctctgtagtc 34140
aatcttcaga gcctatgtgg taggaaaaga gaactgaccc tcagaagttg tcctctgacc 34200
tccacactga tatgcacaca aacacatgca cacagataca ttttttttca tttaaaaaga 34260
aaatcacctt tctccttccc aaaagatact tagaaggttc agaaaagtcc ttatgtgtat 34320
tttaaataat aagatttcat atcaaaattt gcttactgat tttaacattt ctttgtgggg 34380
ttttttttct tttgaggggg ggaggatagg gtctctggga ttgagctcag tgggtagcca 34440
aggataacca tcactgactt taatactgca aacacttttc ttcaattcta ttaagggtag 34500
ttgggtttcc aaagagcaga agggcttgcc aatgggacag tcagtcctgg gaacaacata 34560
ggaccttggg ttcctctgat gagagtctag gatccacatg ggagagttcc tttggcttta 34620
tctttgccag ctggattgag gagtttgtat actcagcagg ggattgtcac ccatgtggga 34680
gctggaagcc tggtgtgctt gctgagtggc tcttgtctaa cctcacaccc atgtctccgg 34740
gaccaaagcc tccgttgtgg tctgagttga aagcagtatc cagcagccca ccatcacacc 34800
aagattgtgt agtcataccc aggcacaggc tttgtgtggg ctctgggtat attttctttc 34860
gcagaaatca gccaaggaga gacggtgtgt ttcagagata gacactgggt ctgacacagt 34920
ctgctataca tcaaggcaaa cttggtgaag ccctgtgtgc tgctgggtga gagaggaccc 34980
ttcccgtgtg gctctgagtg aaagtatctt ttccttaacc cttggtctcc tgtattcact 35040
gctctgcttt ctgaagctaa agtgacaaga gtcagcccat tttcactata tggtctgggc 35100
atcatcaagt ttcagaagga ctggggagag atggagaata gcctccccgt gcctggaact 35160
ctggatttct tgaataaaag acctttgagt taccagaatg ccctttccct gtgtcttagt 35220
taggatttta ttgctgcaaa gagacaacac aatgtaactt aaaaaaatta tttatttgtt 35280
ttatgtatat gagtgcacca tgactctctt cagagacact agaagagggc atcagatccc 35340
attacagatg gttgtgagcc accatgtggt tgctgggaat tgaactgagg acttctcaaa 35400
gagcagttgg tgctcttaac tactgagtca tctctccagc ccccagtgca actcttataa 35460
agaaacacac ttaattgggg cttgcttaca gtttcagagg tttagttcat tattgtcatg 35520
gtggaaagca tggcagcttc ctggcagaca cagtgctgga gagagaagaa gctgagagtt 35580
ctacatcttg atccacaggc agcagaaggg gattgtgtgc catactcttt gaggtttgag 35640
caaaggaaac ctcaaagccc gcccccacag tgagaaactc cctccaacaa ggccacatgt 35700
tctctagcaa ggccacacct cctaatagcg cctatgggcc aggtattcaa accaccacac 35760
catacatatc ttacagctct ttccttgaga tctttcttta tactttggag gcaatggcag 35820
cacggatgac ctcacttgtt agatgtttgt gaatccctcc ctgctgactt gattttggat 35880
gtgtttttat tttatggtgc tggacattgt acatgagaca agcatcctgt aattgagccc 35940
agcctttgag ttagtgatct ataggctgag caaaaaacta taatgaagtc agtagagtct 36000
gtctgcacat tcttaagtgg ctgtcttaaa acaattaagg taaggggctg gagagatgct 36060
tcctcggcta agagcactgg ctgctcttcc agaggacctg ggttcagttc ccagcaccca 36120
tatggcagct cacaactgtc tatacctcca gttccagtct gacatcctca catagacata 36180
catgcaggca aaacaccaat gtacattaaa aaaaacacct aatttttaaa aagttcagat 36240
gaaaagaaga aatactatga ttaaacttct agaaacattt ctatttgtaa acttgacctc 36300
ccaaggtcaa ggatcctgtg acttctcatt tttgcccctg tattttgttg ttgttgttgt 36360
ttttgtttgt ttgttttgtg ttttgtttgt tgtttagttt agtttctcgt tgtttgtttt 36420
gtcctttcct ggttccttcc cctttctttg taagcactcc tgctctggct gggtcccagc 36480
tcacttccag cctcctctga tggagccagc attacatctg ctgttttgca ttttgtatac 36540
aggtttcggc cgagtccagc tcctccatga actccaacac cccgctggtg aggataacaa 36600
cgcgtctgtc ctcaacagcg gacaccccga tgctagcagg ggtctccgag tatgagttgc 36660
cagaggatcc aaagtgggaa ttccccagag ataagtaagt actctccctc tgggagggtc 36720
gttgtctgca cctcctggga ctgagcgcag gtcttggttg tgggagtctc cacctgtgtc 36780
ttggtaatca gggacctgtg tcttggtaat cagggacctt cgaactgtaa actgtaaact 36840
gtaaactgca gcaagatggt gcaattaaca gagctgctgg tgcacagggt aggctaccag 36900
cctgtgccct tgaggtggaa gaccaacctt agctctggga agtgaggatc ctggaaggct 36960
ggcagcttcc ttcttgtagg attagcgtct aaacagcttg agagtaacag aaggtggaaa 37020
aatgggctct ttctgcatca aagacacagg aatacgctcc cagcttgctt gaagacaact 37080
cgtctgccta tcttgacatt ttttcagtgt cttcctaaga ttgttagtga tatgtttaac 37140
acacacagcg tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tatacagaga 37200
ttcagaaaca caaagacaag ctttcccaag tctgggtatg gccagctcta gttgaaagtt 37260
gaaggaagct taggccccct tggagcttcg tgtcacacta ttccaggtat tttggttccc 37320
aacttagaga tctttacata tatcctaatc cagggccgag gaactgtctg tgtagtcatc 37380
ttatgtcagt ggaaagaatt tccagtttct ttatatactg cagtgaaaag agcattcatt 37440
cattccttca ttcattccgg gaatgtttag tggacatttt tggggtgagg tatgaaagaa 37500
aacacaaaga atggcttctt tacctataga attttgagaa aggaaggtat gtttctcttg 37560
acccttgcca gcctcctagc tgggtgtgat tatagaaata gctgggttcg tgtgcacatt 37620
cctatgtcta caaggctgga ctggggagtt gtgctcatat gctaaaaact tgcagctttc 37680
gggttgagcc tgtgctttgg gccacctgtg acaccacagt caacagtgtg agtctgtgtt 37740
gcccagcagc tcccacccgg gggtacccaa gtgtggaaaa tctgagcgct atgcatttcc 37800
aagcagtgtt tagcacaaat gtaggtggag cacattccca atgaatgaag gctatttaga 37860
aatggtttat taggttggag gcaggagtta cacaaagaga ggtttgttat ggttgtagta 37920
acaggggcaa taggacataa attagccatt ttccaacgca aatgtttatt ttctgccaag 37980
atgttcaatt taattttagt tcttgactgg aaagggggcg ccttcagcag agcaagtgct 38040
ggtatccatt ttcttttcct tttttgagct tttaaaagcg ttgcgtgctt actgcaaatg 38100
ctgtttactg aggacagctc aatacttgcc tgtactgggc ttatggtttt ttggtttttg 38160
ttttttttaa aacaaaacaa aacaaaacaa aacaaaacac cccgaaaagc atactcaggc 38220
tggagaggta tctctctggt ctaaagcaga cactgccctg taaaggacca gagttcggtt 38280
cccagcaccc atgatgtgta gctcacaacc tctgtaacta cagatctggg gaatctgtct 38340
gggctcctta ggtgcctgtg ctcacatgcc cataccctct ccccagaaac acacatacac 38400
ataatcaaga ataaattgaa aaaaaataaa aataaaaaac acactcctaa gtattaattc 38460
caaagacttc cctgttcctt tggcttctgg aacatctaaa ataatgtcag gtcatttgtc 38520
tgttgtgtat aaaacttaca tgcttagaaa tgtaacttgt gctgttttct attttttttt 38580
ttccttgttt actttgggta gtgataagga atcctaaact tatgtcaaaa aggtatcgtg 38640
cctgatttct agaagttttt cttaatgaga cacgataaat tatttgaaac gtgctgaaga 38700
ttcctaccct gcaactgggc aatcgatgta accataaaat ctaccggtat tgaataatag 38760
tgatttgaga gttgccactt tacagggaca gaaaataaga acagactttc actttttttt 38820
tcacctctgc gacattttaa attataaata tttaattggc tcaagaccaa aagctcccta 38880
tggctggcat gcagggagcc tgaccaccgc gctagcaagg acaccttcca taaagaaaaa 38940
gaaaataaat cgagaggaca aatgtgaaat ttaatagtcc ctccaacagt aattgacgtt 39000
ctggaaaaac atcactaaga aaatagcctg cgtgtgtatc ggaggctcat tggttccata 39060
tgcatgcctc tggaagattt ttatatttag ttctggaatt tccctccctg tgcccctcgg 39120
ccagactcgc ggtgtgctaa tcccgtattt acacatttag gctgacgctg ggcaaacccc 39180
tgggggaagg ttgcttcggg caagtagtca tggctgaagc agtgggaatc gataaagaca 39240
aacccaagga ggcggtcacc gtggcagtga agatgttgaa aggtgagtgg gcggatgggc 39300
ggtcggggag gagagggtct tatcaggagc gagcgttcct tttgtgacat gtgaactctg 39360
cagggacgtg gggtcagaga gcacatactt gacctggcgg ttgagggggt tttcaggata 39420
aatgagcaaa tgagatggag gatttacctt gagctgtgtg tacttaaaaa gaaaagccag 39480
tttagcagca agttgtagct tgctgggctg aaccggtctc taactcctta gaaaagggtc 39540
ccgattctct tcttttctgt gtgttcatgg gtttagaaag tttagggggt ttatttagct 39600
ggttaaattt tggacccaga cttttaacat acaaataagg agaggtaggt gttggagtgg 39660
caactggaga cagaatgtca aaatgtggat tcaaagagtc gcttagaagc caaaaaggag 39720
caaacaattg gaactgatgc agaatcccag ggacatgtaa acaataatgc cacgctataa 39780
atgcccgctt tgttcttttc ttttcttttc ttttcttttc tttttttttt ttttagggga 39840
ggggagggga gggggtctgg gaatttatcc acaacctttc taacacagct tgatgatgac 39900
gcccaaggag cttaaattgc tttcaactat taacttatcc ttgcatgggt attcttttat 39960
cgaagagata aagggaaagg tcacattata aatcctgttg ttggggaatc tcagaaagga 40020
gaaaggagcc atgttcaatg tttccctggc ttgtgggcag agaagtctgt cccgggcctg 40080
tgggatgtgg catgttctca ggagtccgac cttttctctc tttgatagga cacttaccac 40140
atccctccct gatgcagaca acaaagggcc aggacatggt tcattttgtc agttttagtt 40200
attgacctga gactcccagt gaaatctggg atgttccttt ctttggagac tgataccagg 40260
aaggagatag caagtatcgg ggcaccaggg cagaggcagc ccttggtacc tactggaagc 40320
tgtgggttgg gaaggatcag gcatcatact gctttccaca gaacctctgg ttttgagatc 40380
cctggagcta gtgcaaaagg gaggtttagg ggttggccct tccctttaag caagatcacc 40440
caccatcctt ttcatcgtgg tcagaggaca tgccttttca acattctttg tgacagccag 40500
aggatggctg aggtgtaagg aagacaagtg tactgagcca tgtgtctgtc catagtcctc 40560
tcttccctct tctctgtatt ggtcaggata gatttttgga tacctgtgcc tctatttcat 40620
ttttaaccct tttgcttttc ttttagctca gatttttctt ttctaagtat ttctgtattg 40680
aattagctta gtgacagaac acttgcgtgg tgtgcacatg gtactgggtt tgcatcctag 40740
cattacaaga atccaaacga cagcagaact aactgagagg agagcacagt agcggccgca 40800
aattgctttg agaggctcta taaaacctta gaggctattt aaatttaaat ggccggcccg 40860
acggccaggc ggccgccagg cctacccact agtcaattcg ggaggatcga aacggcagat 40920
cgcaaaaaac agtacataca gaaggagaca tgaacatgaa catcaaaaaa attgtaaaac 40980
aagccacagt tctgactttt acgactgcac ttctggcagg aggagcgact caagccttcg 41040
cgaaagaaaa taaccaaaaa gcatacaaag aaacgtacgg cgtctctcat attacacgcc 41100
atgatatgct gcagatccct aaacagcagc aaaacgaaaa ataccaagtg cctcaattcg 41160
atcaatcaac gattaaaaat attgagtctg caaaaggact tgatgtgtgg gacagctggc 41220
cgctgcaaaa cgctgacgga acagtagctg aatacaacgg ctatcacgtt gtgtttgctc 41280
ttgcgggaag cccgaaagac gctgatgaca catcaatcta catgttttat caaaaggtcg 41340
gcgacaactc aatcgacagc tggaaaaacg cgggccgtgt ctttaaagac agcgataagt 41400
tcgacgccaa cgatccgatc ctgaaagatc agacgcaaga atggtccggt tctgcaacct 41460
ttacatctga cggaaaaatc cgtttattct acactgacta ttccggtaaa cattacggca 41520
aacaaagcct gacaacagcg caggtaaatg tgtcaaaatc tgatgacaca ctcaaaatca 41580
acggagtgga agatcacaaa acgatttttg acggagacgg aaaaacatat cagaacgttc 41640
agcagtttat cgatgaaggc aattatacat ccggcgacaa ccatacgctg agagaccctc 41700
actacgttga agacaaaggc cataaatacc ttgtattcga agccaacacg ggaacagaaa 41760
acggatacca aggcgaagaa tctttattta acaaagcgta ctacggcggc ggcacgaact 41820
tcttccgtaa agaaagccag aagcttcagc agagcgctaa aaaacgcgat gctgagttag 41880
cgaacggcgc cctcggtatc atagagttaa ataatgatta cacattgaaa aaagtaatga 41940
agccgctgat cacttcaaac acggtaactg atgaaatcga gcgcgcgaat gttttcaaaa 42000
tgaacggcaa atggtacttg ttcactgatt cacgcggttc aaaaatgacg atcgatggta 42060
ttaactcaaa cgatatttac atgcttggtt atgtatcaaa ctctttaacc ggcccttaca 42120
agccgctgaa caaaacaggg cttgtgctgc aaatgggtct tgatccaaac gatgtgacat 42180
tcacttactc tcacttcgca gtgccgcaag ccaaaggcaa caatgtggtt atcacaagct 42240
acatgacaaa cagaggcttc ttcgaggata aaaaggcaac atttgcgcca agcttcttaa 42300
tgaacatcaa aggcaataaa acatccgttg tcaaaaacag catcctggag caaggacagc 42360
tgacagtcaa ctaataacag caaaaagaaa atgccgatac ttcattggca ttttctttta 42420
tttctcaaca agatggtgaa ttgactagtg ggtagatcca caggacgggt gtggtcgcca 42480
tgatcgcgta gtcgatagtg gctccaagta gcgaagcgag caggactggg cggcggccaa 42540
agcggtcgga cagtgctccg agaacgggtg cgcatagaaa ttgcatcaac gcatatagcg 42600
ctagcagcac gccatagtga ctggcgatgc tgtcggaatg gacgatatcc cgcaagaggc 42660
ccggcagtac cggcataacc aagcctatgc ctacagcatc cagggtgacg gtgccgagga 42720
tgacgatgag cgcattgtta gatttcatac acggtgcctg actgcgttag caatttaact 42780
gtgataaact accgcattaa agcttatcga tgataagctg tcaaacatga gaattgatcc 42840
ggaaccctta atataacttc gtataatgta tgctatacga agttattagg tccctcgact 42900
atagggtcac cgtcgacagc gacacacttg catcggatgc agcccggtta acgtgccggc 42960
acggcctggg taaccaggta ttttgtccac ataaccgtgc gcaaaatgtt gtggataagc 43020
aggacacagc agcaatccac agcaggcata caaccgcaca ccgaggttac tccgttctac 43080
aggttacgac gacatgtcaa tacttgccct tgacaggcat tgatggaatc gtagtctcac 43140
gctgatagtc tgatcgacaa tacaagtggg accgtggtcc cagaccgata atcagaccga 43200
caacacgagt gggatcgtgg tcccagacta ataatcagac cgacgatacg agtgggaccg 43260
tggtcccaga ctaataatca gaccgacgat acgagtggga ccgtggttcc agactaataa 43320
tcagaccgac gatacgagtg ggaccgtggt cccagactaa taatcagacc gacgatacga 43380
gtgggaccat ggtcccagac taataatcag accgacgata cgagtgggac cgtggtccca 43440
gtctgattat cagaccgacg atacgagtgg gaccgtggtc ccagactaat aatcagaccg 43500
acgatacgag tgggaccgtg gtcccagact aataatcaga ccgacgatac gagtgggacc 43560
gtggtcccag tctgattatc agaccgacga tacaagtgga acagtgggcc cagagagaat 43620
attcaggcca gttatgcttt ctggcctgta acaaaggaca ttaagtaaag acagataaac 43680
gtagactaaa acgtggtcgc atcagggtgc tggcttttca agttccttaa gaatggcctc 43740
aattttctct atacactcag ttggaacacg agacctgtcc aggttaagca ccattttatc 43800
gcccttatac aatactgtcg ctccaggagc aaactgatgt cgtgagctta aactagttct 43860
tgatgcagat gacgttttaa gcacagaagt taaaagagtg ataacttctt cagcttcaaa 43920
tatcacccca gcttttttct gctcatgaag gttagatgcc tgctgcttaa gtaattcctc 43980
tttatctgta aaggcttttt gaagtgcatc acctgaccgg gcagatagtt caccggggtg 44040
agaaaaaaga gcaacaactg atttaggcaa tttggcggtg ttgatacagc gggtaataat 44100
cttacgtgaa atattttccg catcagccag cgcagaaata tttccagcaa attcattctg 44160
caatcggctt gcataacgct gaccacgttc ataagcactt gttgggcgat aatcgttacc 44220
caatctggat aatgcagcca tctgctcatc atccagctcg ccaaccagaa cacgataatc 44280
actttcggta agtgcagcag ctttacgacg gcgactccca tcggcaattt ctatgacacc 44340
agatactctt cgaccgaacg ccggtgtctg ttgaccagtc agtagaaaag aagggatgag 44400
atcatccagt gcgtcctcag taagcagctc ctggtcacgt tcattacctg accatacccg 44460
agaggtcttc tcaacactat caccccggag cacttcaaga gtaaacttca catcccgacc 44520
acatacaggc aaagtaatgg cattaccgcg agccattact cctacgcgcg caattaacga 44580
atccaccatc ggggcagctg gtgtcgataa cgaagtatct tcaaccggtt gagtattgag 44640
cgtatgtttt ggaataacag gcgcacgctt cattatctaa tctcccagcg tggtttaatc 44700
agacgatcga aaatttcatt gcagacaggt tcccaaatag aaagagcatt tctccaggca 44760
ccagttgaag agcgttgatc aatggcctgt tcaaaaacag ttctcatccg gatctgacct 44820
ttaccaactt catccgtttc acgtacaaca ttttttagaa ccatgcttcc ccaggcatcc 44880
cgaatttgct cctccatcca cggggactga gagccattac tattgctgta tttggtaagc 44940
aaaatacgta catcaggctc gaacccttta agatcaacgt tcttgagcag atcacgaagc 45000
atatcgaaaa actgcagtgc ggaggtgtag tcaaacaact cagcaggcgt gggaacaatc 45060
agcacatcag cagcacatac gacattaatc gtgccgatac ccaggttagg cgcgctgtca 45120
ataactatga catcatagtc atgagcaaca gtttcaatgg ccagtcggag catcaggtgt 45180
ggatcggtgg gcagtttacc ttcatcaaat ttgcccatta actcagtttc aatacggtgc 45240
agagccagac aggaaggaat aatgtcaagc cccggccagc aagtgggctt tattgcataa 45300
gtgacatcgt ccttttcccc aagatagaaa ggcaggagag tgtcttctgc atgaatatga 45360
agatctggta cccatccgtg atacattgag gctgttccct gggggtcgtt accttccacg 45420
agcaaaacac gtagcccctt cagagccaga tcctgagcaa gatgaacaga aactgaggtt 45480
ttgtaaacgc cacctttatg ggcagcaacc ccgatcaccg gtggaaatac gtcttcagca 45540
cgtcgcaatc gcgtaccaaa cacatcacgc atatgattaa tttgttcaat tgtataacca 45600
acacgttgct caacccgtcc tcgaatttcc atatccgggt gcggtagtcg ccctgctttc 45660
tcggcatctc tgatagcctg agaagaaacc ccaactaaat ccgctgcttc acctattctc 45720
cagcgccggg ttattttcct cgcttccggg ctgtcatcat taaactgtgc aatggcgata 45780
gccttcgtca tttcatgacc agcgtttatg cactggttaa gtgtttccat gagtttcatt 45840
ctgaacatcc tttaatcatt gctttgcgtt tttttattaa atcttgcaat ttactgcaaa 45900
gcaacaacaa aatcgcaaag tcatcaaaaa accgcaaagt tgtttaaaat aagagcaaca 45960
ctacaaaagg agataagaag agcacatacc tcagtcactt attatcacta gcgctcgccg 46020
cagccgtgta accgagcata gcgagcgaac tggcgaggaa gcaaagaaga actgttctgt 46080
cagatagctc ttacgctcag cgcaagaaga aatatccacc gtgggaaaaa ctccaggtag 46140
aggtacacac gcggatagcc aattcagagt aataaactgt gataatcaac cctcatcaat 46200
gatgacgaac taacccccga tatcaggtca catgacgaag ggaaagagaa ggaaatcaac 46260
tgtgacaaac tgccctcaaa tttggcttcc ttaaaaatta cagttcaaaa agtatgagaa 46320
aatccatgca ggctgaagga aacagcaaaa ctgtgacaaa ttaccctcag taggtcagaa 46380
caaatgtgac gaaccaccct caaatctgtg acagataacc ctcagactat cctgtcgtca 46440
tggaagtgat atcgcggaag gaaaatacga tatgagtcgt ctggcggcct ttctttttct 46500
caatgtatga gaggcgcatt ggagttctgc tgttgatctc attaacacag acctgcagga 46560
agcggcggcg gaagtcaggc atacgctggt aactttgagg cagctggtaa cgctctatga 46620
tccagtcgat tttcagagag acgatgcctg agccatccgg cttacgatac tgacacaggg 46680
attcgtataa acgcatggca tacggattgg tgatttcttt tgtttcacta agccgaaact 46740
gcgtaaaccg gttctgtaac ccgataaaga agggaatgag atatgggttg atatgtacac 46800
tgtaaagccc tctggatgga ctgtgcgcac gtttgataaa ccaaggaaaa gattcatagc 46860
ctttttcatc gccggcatcc tcttcagggc gataaaaaac cacttccttc cccgcgaaac 46920
tcttcaatgc ctgccgtata tccttactgg cttccgcaga ggtcaatccg aatatttcag 46980
catatttagc aacatggatc tcgcagatac cgtcatgttc ctgtagggtg ccatcagatt 47040
ttctgatctg gtcaacgaac agatacagca tacgtttttg atcccgggag agactatatg 47100
ccgcctcagt gaggtcgttt gactggacga ttcgcgggct atttttacgt ttcttgtgat 47160
tgataaccgc tgtttccgcc atgacagatc catgtgaagt gtgacaagtt tttagattgt 47220
cacactaaat aaaaaagagt caataagcag ggataacttt gtgaaaaaac agcttcttct 47280
gagggcaatt tgtcacaggg ttaagggcaa tttgtcacag acaggactgt catttgaggg 47340
tgatttgtca cactgaaagg gcaatttgtc acaacacctt ctctagaacc agcatggata 47400
aaggcctaca aggcgctcta aaaaagaaga tctaaaaact ataaaaaaaa taattataaa 47460
aatatccccg tggataagtg gataacccca agggaagttt tttcaggcat cgtgtgtaag 47520
cagaatatat aagtgctgtt ccctggtgct tcctcgctca ctcgagggct tcgccctgtc 47580
gctcaactgc ggcgagcact actggctgta aaaggacaga ccacatcatg gttctgtgtt 47640
cattaggttg ttctgtccat tgctgacata atccgctcca cttcaacgta acaccgcacg 47700
aagatttcta ttgttcctga aggcatattc aaatcgtttt cgttaccgct tgcaggcatc 47760
atgacagaac actacttcct ataaacgcta cacaggctcc tgagattaat aatgcggatc 47820
tctacgataa tgggagattt tcccgactgt ttcgttcgct tctcagtgga taacagccag 47880
cttctctgtt taacagacaa aaacagcata tccactcagt tccacatttc catataaagg 47940
ccaaggcatt tattctcagg ataattgttt cagcatcgca accgcatcag actccggcat 48000
cgcaaactgc acccggtgcc gggcagccac atccagcgca aaaaccttcg tgtagacttc 48060
cgttgaactg atggacttat gtcccatcag gctttgcaga actttcagcg gtataccggc 48120
atacagcatg tgcatcgcat aggaatggcg gaacgtatgt ggtgtgaccg gaacagagaa 48180
cgtcacaccg tcagcagcag cggcggcaac cgcctcccca atccaggtcc tgaccgttct 48240
gtccgtcact tcccagatcc gcgctttctc tgtccttcct gtgcgacggt tacgccgctc 48300
catgagctta tcgcgaataa atacctgtga cggaagatca cttcgcagaa taaataaatc 48360
ctggtgtccc tgttgatacc gggaagccct gggccaactt ttggcgaaaa tgagacgttg 48420
atcggcacgt aagaggttcc aactttcacc ataatgaaat aagatcacta ccgggcgtat 48480
tttttgagtt atcgagattt tcaggagcta aggaagctaa aatggagaaa aaaatcactg 48540
gatataccac cgttgatata tcccaatggc atcgtaaaga acattttgag gcatttcagt 48600
cagttgctca atgtacctat aaccagaccg ttcagctgga tattacggcc tttttaaaga 48660
ccgtaaagaa aaataagcac aagttttatc cggcctttat tcacattctt gcccgcctga 48720
tgaatgctca tccggagttc cgtatggcaa tgaaagacgg tgagctggtg atatgggata 48780
gtgttcaccc ttgttacacc gttttccatg agcaaactga aacgttttca tcgctctgga 48840
gtgaatacca cgacgatttc cggcagtttc tacacatata ttcgcaagat gtggcgtgtt 48900
acggtgaaaa cctggcctat ttccctaaag ggtttattga gaatatgttt ttcgtctcag 48960
ccaatccctg ggtgagtttc accagttttg atttaaacgt ggccaatatg gacaacttct 49020
tcgcccccgt tttcaccatg ggcaaatatt atacgcaagg cgacaaggtg ctgatgccgc 49080
tggcgattca ggttcatcat gccgtttgtg atggcttcca tgtcggcaga atgcttaatg 49140
aattacaaca gtactgcgat gagtggcagg gcggggcgta atttttttaa ggcagttatt 49200
ggtgccctta aacgcctggt tgctacgcct gaataagtga taataagcgg atgaatggca 49260
gaaattcgat gataagctgt caaacatgag aattggtcga cggcgcgcca aagcttgcat 49320
gcctgcagcc gcgtaacctg gcaaaatcgg ttacggttga gtaataaatg gatgccctgc 49380
gtaagcgggg cacatttcat tacctctttc tccgcacccg acatagataa taacttcgta 49440
tagtatacat tatacgaagt tatctagtag acttaattaa ggatcgatcc ggcgcgccaa 49500
tagtcatgcc ccgcgcccac cggaaggagc tgactgggtt gaaggctctc aagggcatcg 49560
gtcgagcttg acattgtagg actatattgc tctaataaat ttgcggccgc taatacgact 49620
cactataggg a 49631
<210> 18
<211> 20
<212> DNA
<213>人工序列
<220>
<223>合成
<400> 18
ggaaagccac cctgtatgct 20
<210> 19
<211> 19
<212> DNA
<213>人工序列
<220>
<223>合成
<400> 19
cttggccaac agtggatgg 19
<210> 20
<211> 42
<212> RNA
<213>人工序列
<220>
<223>合成
<400> 20
cuaaaaugau ucucaucugc guuuuagagc uaugcuguuu ug 42
<210> 21
<211> 42
<212> RNA
<213>人工序列
<220>
<223>合成
<400> 21
gcucucaacu ucacccuuuc guuuuagagc uaugcuguuu ug 42
<210> 22
<211> 23
<212> DNA
<213>人工序列
<220>
<223>合成
<400> 22
ctaaaatgat tctcatctgc agg 23
<210> 23
<211> 23
<212> DNA
<213>人工序列
<220>
<223>合成
<400> 23
gctctcaact tcaccctttc tgg 23
<210> 24
<211> 23
<212> DNA
<213>人工序列
<220>
<223>合成-連接至向導RNA (gRNA)
的靶基因座
<220>
<221> misc_feature
<222> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17,
18, 19, 20, 21
<223> n = A、T、C或G
<400> 24
nnnnnnnnnn nnnnnnnnnn ngg 23
<210> 25
<211> 25
<212> DNA
<213>人工序列
<220>
<223> 合成-連接至向導RNA (gRNA)
的靶基因座
<220>
<221> misc_feature
<222> 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18,
19, 20, 21, 22, 23
<223> n = A、T、C或G
<400> 25
ggnnnnnnnn nnnnnnnnnn nnngg 25
權利要求書(按照條約第19條的修改)
1.一種用于組裝至少兩個核酸的方法,包括:
(a)使第一核酸與第一核酸酶試劑接觸,其中所述第一核酸酶試劑在第一靶位點處切割所述第一核酸,以產生第一經酶切的核酸,在所述第一經酶切的核酸與第二核酸之間具有重疊末端序列;
(b)使所述第一經酶切的核酸和所述第二核酸與核酸外切酶接觸,以暴露所述第一經酶切的核酸與所述第二核酸之間的互補序列;以及
(c)組裝由步驟(b)生成的所述兩個核酸片段。
2.根據權利要求1所述的方法,其中步驟(c)還包括:
(i)使所述暴露的互補序列退火;
(ii)延伸所述經退火的互補序列的3’端;以及
(iii)連接所述第一核酸和所述第二核酸。
3.根據權利要求1或2所述的方法,其中步驟(a)還包括使所述第二核酸與第二核酸酶試劑接觸,其中所述第二核酸不包含所述重疊末端序列,并且所述第二核酸酶試劑在第二靶位點處切割所述第二核酸,以產生第二經酶切的核酸,在所述第一經酶切的核酸與所述第二經酶切的核酸之間具有所述重疊末端序列,并且,
其中步驟(b)的所述第二核酸是所述第二經酶切的核酸。
4.根據權利要求3所述的方法,其中所述第一核酸酶試劑和所述第二核酸酶試劑中的至少一者包含靶向所述第一靶位點或所述第二靶位點的Cas9蛋白和向導RNA(gRNA)(gRNA-Cas復合物)、鋅指核酸酶或轉錄激活因子樣效應物核酸酶(TALEN)。
5.根據權利要求4所述的方法,其中所述第一核酸酶試劑和所述第二核酸酶試劑中的至少一者包含所述Cas蛋白和所述向導RNA(gRNA)(gRNA-Cas復合物),
其中所述Cas蛋白是Cas9蛋白,所述gRNA包含編碼成簇的規律間隔的短回文重復序列(CRISPR)RNA(crRNA)和反式激活CRISPR RNA(tracrRNA)的核酸序列,并且所述第一靶位點和所述第二靶位點中的至少一者被前間區序列鄰近基序(PAM)序列緊鄰地側接。
6.根據權利要求5所述的方法,其中所述Cas9蛋白包含RuvC結構域和HNH結構域,所述兩個結構域中的至少一者缺少核酸內切酶活性。
7.根據權利要求1至6中任一項所述的方法,其中所述重疊末端序列的長度在20bp至200bp的范圍內。
8.根據權利要求1至7中任一項所述的方法,其中所述第一核酸、所述第二核酸或這兩個核酸衍生自細菌人工染色體。
9.根據權利要求8所述的方法,其中所述細菌人工染色體包含人DNA、嚙齒動物DNA、合成DNA、人多核苷酸序列或它們的組合。
10.一種用于組裝至少兩個核酸的方法,包括:
(a)使第一核酸與第一核酸酶試劑和第二核酸酶試劑接觸以產生第一經酶切的核酸,其中所述第一核酸酶試劑在所述第一核酸的第一鏈上的第一靶位點處生成切口,并且所述第二核酸酶試劑在所述第一核酸的第二鏈上的第二靶位點處生成切口,以產生在其末端之一處包含5′或3′懸垂序列的所述第一經酶切的核酸;
(b)使所述第一經酶切的核酸和包含與所述5′或3′懸垂序列互補的序列的第二核酸退火;以及
(c)連接所述第一經酶切的核酸和所述第二核酸。
11.根據權利要求10所述的方法,其中步驟(b)還包括使用所述第二鏈作為模板來延伸所述第一鏈的3’端,并且使用所述第一鏈作為模板來延伸所述第二鏈的3’端。
12.根據權利要求10或11所述的方法,其中所述第一核酸酶試劑和所述第二核酸酶試劑中的至少一者包含靶向所述第一靶位點或所述第二靶位點的Cas9蛋白和向導RNA(gRNA)(gRNA-Cas復合物)。
13.根據權利要求12所述的方法,其中所述Cas9蛋白包含RuvC結構域和HNH結構域,所述兩個結構域中的一者缺少核酸內切酶活性。
14.根據權利要求10至13中任一項所述的方法,其中所述第一靶位點與所述第二靶位點相隔至少4bp。
15.根據權利要求10至14中任一項所述的方法,其中所述gRNA包含編碼成簇的規律間隔的短回文重復序列(CRISPR)RNA(crRNA)和反式激活CRISPR RNA(tracrRNA)的核酸序列,并且其中所述第一靶位點和所述第二靶位點中的至少一者被前間區序列鄰近基序(PAM)序列緊鄰地側接。
16.一種用于組裝兩個或更多個核酸的方法,包括:
(a)使第一核酸與至少一種核酸酶試劑接觸以生成第一經酶切的核酸;
(b)使所述第一經酶切的核酸與第二核酸、接合寡核苷酸和核酸外切酶接觸,
其中所述接合寡核苷酸包含:
(i)與所述第一經酶切的核酸互補的第一互補序列;
(ii)間區序列;以及
(iii)與所述第二核酸互補的第二互補序列;
其中所述核酸外切酶使所述第一互補序列和所述第二互補序列暴露;以及
(c)將所述接合寡核苷酸與所述第一經酶切的核酸和所述第二核酸組裝在一起。
17.根據權利要求16所述的方法,其中步驟(c)中的組裝包括:
(i)使所述接合寡核苷酸的所述第一互補序列退火到所述第一經酶切的核酸上,并使所述接合寡核苷酸的所述第二互補序列退火到所述第二核酸上;以及
(ii)將所述接合寡核苷酸連接到所述第一經酶切的核酸和所述第二核酸。
18.根據權利要求16或17所述的方法,其中所述接合寡核苷酸的所述第一互補序列和所述第二互補序列包含15至120個互補堿基。
19.根據權利要求16至18中任一項所述的方法,其中所述接合寡核苷酸的所述間區序列包含非互補核酸。
20.根據權利要求16至18中任一項所述的方法,其中所述第一經酶切的核酸被無縫地組裝到所述第二核酸。
21.根據權利要求20所述的方法,其中所述至少一種核酸酶試劑被設計成從將要進行所述無縫組裝的所述第一核酸的末端切割至少20bp片段,
其中所述接合寡核苷酸的所述間區序列包含與所述至少20bp片段相同的序列,其中在所述第一互補序列與所述至少20bp片段之間不存在核酸堿基,并且在所述第二互補序列與所述至少20bp片段之間不存在核酸堿基,
使得所述第一核酸與所述接合寡核苷酸和所述第二核酸的組裝重建所述至少20bp片段并無縫地組裝所述第一核酸和所述第二核酸。
22.根據權利要求20所述的方法,其中所述至少一種核酸酶試劑被設計成從將要進行所述無縫組裝的所述第二核酸的末端切割至少20bp片段,
其中所述接合寡核苷酸的所述間區序列包含與所述至少20bp片段相同的序列,其中在所述第一互補序列與所述至少20bp片段之間不存在核酸堿基,并且在所述第二互補序列與所述至少20bp片段之間不存在核酸堿基,
使得所述第一核酸與所述接合寡核苷酸和所述第二核酸的組裝重建所述至少20bp片段并無縫地組裝所述第一核酸和所述第二核酸。
23.根據權利要求21或22所述的方法,其中所述間區序列包含約20bp至約120bp。
24.根據權利要求16至23中任一項所述的方法,其中步驟(a)還包括使所述第二核酸與第二核酸酶試劑和核酸外切酶接觸,其中所述第二核酸酶試劑切割所述第二核酸,以產生包含與所述接合寡核苷酸的所述第二互補序列互補的核苷酸序列的第二經酶切的核酸,其中所述第一經酶切的核酸被組裝到所述第二經酶切的核酸。
25.根據權利要求16至23中任一項所述的方法,其中步驟(a)還包括使所述第二核酸與限制性內切酶或大范圍核酸酶和核酸外切酶接觸,其中所述限制性內切酶或大范圍核酸酶切割所述第二核酸,以產生包含與所述接合寡核苷酸中的所述第二互補序列互補的核苷酸序列的第二經酶切的核酸,其中所述第一經酶切的核酸被組裝到所述第二經酶切的核酸。
26.根據權利要求24或25所述的方法,其中步驟(b)還包括延伸所述第一經酶切的核酸和/或所述第二經酶切的核酸的3’端。
27.根據權利要求16至26中任一項所述的方法,其中所述接合寡核苷酸在同一反應中被組裝到所述第一核酸和所述第二核酸。
28.根據權利要求16至26中任一項所述的方法,其中所述接合寡核苷酸依次被組裝到所述第一核酸和所述第二核酸。
29.根據權利要求24至28中任一項所述的方法,其中所述至少一種核酸酶試劑和/或所述第二核酸酶試劑包含靶向所述第一靶位點或所述第二靶位點的Cas蛋白和向導RNA(gRNA)(gRNA-Cas復合物)、鋅指核酸酶或轉錄激活因子樣效應物核酸酶(TALEN)。
30.根據權利要求29所述的方法,其中所述第一核酸酶試劑和所述第二核酸酶試劑中的至少一者包含所述Cas蛋白和所述向導RNA(gRNA)(gRNA-Cas復合物),
其中所述Cas蛋白是Cas9蛋白,所述gRNA包含編碼成簇的規律間隔的短回文重復序列(CRISPR)RNA(crRNA)和反式激活CRISPR RNA(tracrRNA)的核酸序列,并且所述第一靶位點和所述第二靶位點中的至少一者被前間區序列鄰近基序(PAM)序列緊鄰地側接。
31.根據權利要求30所述的方法,其中所述Cas9蛋白包含RuvC結構域和HNH結構域,所述兩個結構域中的至少一者缺少核酸內切酶活性。
32.根據權利要求10至31中任一項所述的方法,其中所述第一核酸、所述第二核酸或這兩個核酸衍生自細菌人工染色體。
33.根據權利要求10至32中任一項所述的方法,其中所述第一核酸、所述第二核酸或這兩個核酸包含人DNA、嚙齒動物DNA、合成DNA或它們的組合。
34.根據權利要求10至33中任一項所述的方法,其中所述第一核酸、所述第二核酸或這兩個核酸為至少10kb。
35.根據權利要求16至34中任一項所述的方法,其中所述接合寡核苷酸包含線性雙鏈DNA片段。
36.根據權利要求35所述的方法,其中所述線性雙鏈DNA片段不包含選擇盒。
37.一種用于組裝兩個或更多個核酸的方法,包括:
(a)使第一核酸與至少一種核酸酶試劑接觸以生成第一經酶切的核酸;
(b)使第二核酸與第二核酸酶試劑接觸以生成第二經酶切的核酸;
(c)使所述第一經酶切的核酸和所述第二經酶切的核酸與接合寡核苷酸和核酸外切酶接觸,
其中所述接合寡核苷酸包含:
(i)與所述第一經酶切的核酸互補的第一互補序列;
(ii)間區序列;以及
(iii)與所述第二經酶切的核酸互補的第二互補序列;
其中所述核酸外切酶使所述第一互補序列和所述第二互補序列暴露;以及
(d)將所述接合寡核苷酸與所述第一經酶切的核酸和所述第二經酶切的核酸組裝在一起。