基本無偏差的基因組擴增的制作方法
【專利說明】基本無偏差的基因組擴増
[0001] 相關申請的交叉引用
[0002] 本申請要求2013年5月30日提交的美國臨時申請No.61/829193的權益,在此將其 以引用的方式整體并入。
[0003] 關于聯邦贊助R&D的聲明
[0004] 本研究由美國國立衛生研究院R01HG004876資助支持。政府對本發明擁有一定的 權利。
[0005] 背景
[0006] 通過全基因組擴增,單細胞中的遺傳物質可通過DNA聚合酶擴增為許多克隆拷貝, 并且可通過鳥槍法測序描述其特征。已經在微生物和哺乳動物細胞中成功示范了單細胞的 基因組測序M,并應用于描繪海洋微生物基因組的多樣性 7、癌癥中的體細胞突變8,9以及精 子中的減數分裂重組和突變 3,1()。
[0007] 領域
[0008] 本文的實施方案通常涉及全基因組擴增。本文的一些實施方案通常涉及無偏差的 基因組擴增。
[0009] 概述
[0010] 根據一些方面,提供產生基本無偏差的單細胞的基因組擴增文庫的方法。該方法 可包括在配置以用于基本無偏差的基因組擴增的納升級反應環境中擴增單細胞的基因組, 以及構建包含基本無偏差的基因組擴增的多個擴增子的文庫。在一些實施方案中,擴增單 細胞的基因組包括多鏈置換擴增(MDA),所述多鏈置換擴增包含使反應環境與(a)鏈置換聚 合酶和(b)多個隨機的DNA多聚物相接觸,并因此產生基本無偏差的單細胞的基因組擴增。 在一些實施方案中,基因組核酸的量與納升級反應環境的體積的比率為至少約0.03百萬個 堿基對/納升。在一些實施方案中,基因組核酸的量與納升級反應環境的體積的比率為至少 約200百萬個堿基對/納升。在一些實施方案中,配置納升級反應環境以用于以大于1 X的覆 蓋度擴增至少約90%的基因組。在一些實施方案中,納升級反應環境包括不大于約20nL的 體積。在一些實施方案中,納升級反應環境包括不大于約12nL的體積。在一些實施方案中, 該方法還包括在單基板上的多個納升級反應環境中擴增多個單細胞的基因組,其中至少 95%的反應環境不包含除單細胞的基因組外的任何基因組。在一些實施方案中,至少99% 的反應環境不包含除單細胞的基因組外的任何基因組。在一些實施方案中,配置基板以用 于單移液操作,從而將單細胞的基因組分配于反應環境中。在一些實施方案中,該方法還包 括選擇期望數量的反應環境;以及僅在期望數量的反應環境中擴增多個單細胞的基因組。 在一些實施方案中,該方法還包括鑒定實現期望水平的擴增的反應環境,其中從實現期望 水平的擴增的反應環境中構建文庫。在一些實施方案中,該方法還包括從多個反應環境中 構建多個文庫,其中多個文庫的數量與多個反應環境的數量相同或不同。在一些實施方案 中,在納升級反應環境中擴增單細胞的基因組包括在擴增-檢測部分存在的情況下擴增。在 一些實施方案中,所述擴增-檢測部分包含花青染料。在一些實施方案中,所述擴增-檢測部 分包含SYBR?綠染料。在一些實施方案中,來自擴增-檢測部分的信號鑒定了已經實現期望 水平的擴增的反應環境。在一些實施方案中,反應環境不包含除單細胞之外的任何細胞。在 一些實施方案中,所述反應環境不包含除單細胞的基因組之外的任何基因組。在一些實施 方案中,所述隨機多聚物選自:五聚物、六聚物、七聚物、八聚物、九聚物以及十聚物。在一些 實施方案中,所述隨機多聚物為六聚物。在一些實施方案中,基本上所有的多個擴增子是無 支鏈的。在一些實施方案中,該方法還包括在構建文庫之前,從反應環境中移出多個擴增子 中的至少一些。在一些實施方案中,移出多個擴增子中的至少一些包括顯微操作。在一些實 施方案中,所述多個擴增子包含不多于約100皮克-約10納克的DNA。在一些實施方案中,所 述文庫包括基于轉座酶的文庫。在一些實施方案中,所述文庫包括基于Tn5轉座酶的文庫。 在一些實施方案中,所述文庫包括隨機斷裂和連接文庫。在一些實施方案中,所述單細胞為 一個人細胞或微生物細胞。在一些實施方案中,所述單細胞包括不可培養或基本不可培養 的細菌細胞。在一些實施方案中,MDA包括實時MDA。在一些實施方案中,對兩個或更多個單 細胞的兩個或更多個基因組并行實施該方法,并因此并行產生兩個或更多個無偏差的擴增 文庫。在一些實施方案中,該方法還包括下述中的至少一項:人腸道內不可培養的細菌的從 頭組裝,異質環境(如海水)中不可培養的細菌的從頭組裝、單神經元的拷貝數變異檢出、單 癌細胞或循環腫瘤細胞的拷貝數變異檢出、或者人類單體型分析。在一些實施方案中,鏈置 換聚合酶包括高保真聚合酶。在一些實施方案中,所述鏈置換聚合酶包括phi29聚合酶。 [0011]根據一些方面,提供通過多鏈置換擴增(MDA)產生基本無偏差的基因組擴增的方 法。該方法可包括提供納升級反應環境中的基因組,以及使所述納升級反應環境與(a)鏈置 換聚合酶以及(b)多個隨機DNA多聚物相接觸,并因此產生基本無偏差的基因組擴增。在一 些實施方案中,該方法還包括構建包含基本無偏差的基因組擴增的多個擴增子的文庫。在 一些實施方案中,配置納升級反應環境以用于以大于1 X的覆蓋度擴增至少90%的基因組。 在一些實施方案中,基因組核酸的量與納升級反應環境的體積的比率為至少約0.3百萬個 堿基對/納升。在一些實施方案中,基因組核酸的量與反應環境的體積的比率為至少約200 百萬個堿基對/納升。在一些實施方案中,隨機多聚物選自:五聚物、六聚物、七聚物、八聚 物、九聚物以及十聚物。在一些實施方案中,所述隨機多聚物包括六聚物。在一些實施方案 中,基本上所有的多個擴增子都是無支鏈的。在一些實施方案中,納升級反應環境包括促進 基本無偏差的單細胞擴增的納升級反應環境。在一些實施方案中,所述納升級反應環境包 括不大于約20nL的體積。在一些實施方案中,所述納升級反應環境包括不大于約12nL的體 積。在一些實施方案中,所述反應環境包含不多于一種基因組的可能性為至少99%。在一些 實施方案中,該方法還包括下述中的至少一項:人腸道中不可培養的細菌的基因組的從頭 組裝、異質環境中不可培養的細菌的從頭組裝、單神經元的拷貝數變異檢出、單癌細胞或循 環腫瘤細胞的拷貝數變異檢出、或者人類單體型分析。在一些實施方案中,鏈置換聚合酶包 括高保真聚合酶。在一些實施方案中,所述鏈置換聚合酶包括phi29聚合酶。
[0012]根據一些方面,提供用于基本無偏差的至少一種單細胞的基因組擴增的基板。所 述基板可包括多個上樣區,其中配置每個上樣區以接收液體樣品。每個上樣區可包含促進 基本無偏差的單細胞擴增的多個納升級反應環境。在一些實施方案中,配置多個納升級反 應環境以并行實施期望數量的擴增反應,其中在不同的納升級反應環境中進行每個擴增反 應。在一些實施方案中,配置多個納升級反應環境,以在不對所述基板進行進一步修飾的情 況下并行實施期望數量的擴增反應。在一些實施方案中,所述多個納升級反應環境不與任 何微流體通道或納流體通道流體連通。在一些實施方案中,每個納升級反應環境的體積不 大于約12nL。在一些實施方案中,每個納升級反應環境的體積不大于20nL。在一些實施方案 中,配置每個上樣區,以將包含稀釋的細胞的溶液經由單移液操作上樣進多個納升級反應 環境。在一些實施方案中,每個反應環境包含多種隨機多聚物和鏈置換聚合酶。在一些實施 方案中,所述多個多聚物包括六聚物。在一些實施方案中,基板包含至少三個上樣區。在一 些實施方案中,每個上樣區包含至少十個納升級反應環境。在一些實施方案中,每個上樣區 包含至少一百個納升級反應環境。在一些實施方案中,基板還包含檢測器,配置檢測器以檢 測每個反應環境中的擴增-檢測部分。在一些實施方案中,基板還包括配置以從單一反應環 境中回收擴增的核酸的納升級移液器。在一些實施方案中,配置納升級反應環境以使在將 包含單細胞或其部分的溶液上樣至上樣區之后,至少99%的反應環境包含不多于一種細胞 的基因組。在一些實施方案中,基本上每個反應環境都包含不多于一種細胞的基因組,并且 其中基本上包含基因組的每個反應環境還包含基因組的多個擴增子。在一些實施方案中, 所述多個擴增子包含基本無偏差的基因組覆蓋度。在一些實施方案中,所述多個擴增子包 含不多于約100皮克-約10納克的DNA。在一些實施方案中,鏈置換聚合酶包括高保真聚合 酶。在一些實施方案中,所述鏈置換聚合酶包括phi29聚合酶。
[0013] 附圖簡要說明
[0014] 圖1為一系列顯示根據本文的一些實施方案的基本無偏差的基因組擴增的原理 圖。圖1A為在根據本文的一些實施方案的基本無偏差的基因組擴增方法的背景下,顯示根 據本文的一些實施方案的基板100的原理圖。每個基板100可包含16個單獨的上樣區12,每 個上樣區14包含255個納升級反應環境,例如12nl微孔。可利用單移液栗將細胞、裂解液、變 性緩沖液、中和緩沖液以及包含擴增-檢測部分的MDA預混液中的每一種添加至微孔中。然 后可以使用熒光顯微鏡,利用實時MDA系統來使擴增子生長可視化。隨時間顯示熒光漸增的 微孔為陽性擴增子。利用與顯微操作系統相連的精細玻璃移液器提取擴增子。圖1B為不同 放大率的單大腸桿菌(E.coli)細胞的一系列掃描電子顯微鏡(SEM)圖像。該特定孔僅包含 一個細胞,并且觀察到的大多數孔也包含不多于1個細胞。圖1C為顯示可用于根據本文的一 些實施方案的實時MDA的定制顯微鏡培養室的照片。該培養室是溫度和濕度受控的,以減緩 試劑的蒸發。此外,它通過自身包含的顯微操作系統而防止擴增子提取過程中的污染。還顯 示了整個微孔陣列的圖像,以及探入孔中的微量移液管。圖1D為顯示根據本文的一些實施 方案,利用DNA聚合酶I以及Ampligase將復雜的3維MDA擴增子簡化為線性DNA的原理圖。該 過程可顯著改善標簽化后的文庫復雜性。
[0015] 圖2為根據本文的一些實施方案,通過MIDAS產生的組裝的大腸桿菌基因組圖。利 用MIDAS分析三個單大腸桿菌細胞。用極少的測序投入(2-8M PElOObp讀取)組裝了88%-94%之間的基因組。該直方圖顯示該三個細胞中每一個的每個組裝區域覆蓋的平均深度的 l〇g2。缺口用有顏色的重疊群之間的空白表示。覆蓋的深度在整個基因組中十分一致,并且 存在很少的缺口。
[0016] 圖3為一系列顯示根據本文的一些實施方案進行MDA和MIDAS之后,單細菌細胞以 及哺乳動物細胞基因組覆蓋度的圖。圖3A為顯示根據本文的一些實施方案,在PCT管中擴增 10小時(上部)、2小時(中部)以及在微孔中(MIDAS)擴增10小時(底部)的單大腸桿菌細胞之 間的比較的圖。Log 1Q比率(y軸)代表標準化的覆蓋度。隨著MDA受限,偏差得到改善,其中 MIDAS方法顯示出最高的統一性。圖3B為顯示根據本文的一些實施方案,利用傳統的MDA與 MIDAS擴增的單一人細胞之間的比較的圖。與通過MIDAS擴增的單神經元核(底部)相比,單 淋巴細胞的10小時MDA(上部)顯示出更大的覆蓋度偏差。圖3C為顯示根據本文的一些實施 方案擴增的單細菌細胞的覆蓋度分布的圖。X軸代表分成100個總的庫的基因組覆蓋度的 l〇g1Q<3MIDAS(30)顯示緊密的覆蓋度,表示該文庫中有限的偏差。正常的(32)以及受限的 (34)管內MDA文庫顯示出大范圍的覆蓋度。圖3D為顯示根據本文的一些實施方案擴增的單 哺乳動物細胞的覆蓋度分布的圖。MIDAS(36)比管內MDA文庫(38)顯示出更緊密的覆蓋度分 布。
[0017]圖4為一系列顯示根據本文的一些實施方案,利用MIDAS檢測拷貝數變異的圖。圖 4A為顯示根據本文的一些實施方案,用MIDAS分析的唐氏綜合征單細胞的拷貝數變異的散 點圖的圖。X軸顯示基因組位點,y軸顯示(以log 2水平)估計的拷貝數。在該單細胞中可清楚 地觀察到三體性21,以及一些其它更小的CNV檢出。圖4B為根據本文的一些實施方案,具有 三體性21"加標"的唐氏綜合征單細胞中拷貝數變異的散點圖。X軸顯示基因組位點,y軸顯 示(以l〇g 2水平)估計的拷貝數。在每個箭頭處,將染色體21的2Mb的部分通過計算插入基因 組。在每個位點,檢出了拷貝數變異,顯示MIDAS可以準確地檢測2Mb的拷貝數變異。
[0018]圖5為一系列描述根據本文的一些實施方案的實時MDA的顯微鏡圖片。利用488nm 的濾光片每小時拍攝圖片。顯示的是1小時(圖5A)、2小時(圖5B)、3小時(圖5C)、4小時(圖 5D)、5小時(圖5E)、6小時(圖5F)、7小時(圖5G)以及8小時(圖5H)。觀察到擴增子在1小時開 始生長,并繼續生長直至它們由于微孔內有限的空間而不能擴增。該飽和通常發生在5-6小 時之內。擴增子的隨機分布顯示細胞接種是隨機的,并且相鄰的孔中不存在擴增子。
[0019] 圖6為一系列描述根據本文的一些實施方案的擴增子提取的顯微鏡圖片。基因組 DNA充滿微孔,并且實施MDA以使每個孔都包含MDA擴增子。圖6A中的熒光顯示擴增成功。擴 增之后,微量移液管降低至單孔,由箭頭指出,并提取擴增子。圖6B顯示在不干擾鄰近微孔 的內容物的情況下,成功移出擴增子,因為熒光喪失。
[0020] 圖7為描述根據本文的一些實施方案,組裝的基因組與定位于整個基因組的讀取 之間的比較的原理圖。外側的圈顯示定位于大腸桿菌的組裝的重疊群。中間的圈顯示定位 于大腸桿菌的未經處理的讀取。內側的圈代表讀取的覆蓋度。在重疊群未被組裝的定位區 域中,覆蓋度較低。
[0021] 圖8為一系列描述根據本文的一些實施方案,利用基于傳統MDA的單細胞測序檢測 拷貝數變異的圖。圖8A為描述用傳統的MDA分析的唐氏綜合征單細胞中拷貝數變異的散點 圖的圖。X軸顯示基因組位點,y軸顯示(以log2水平)估計的拷貝數。在該單細胞中觀察不到 三體性21,并檢出了遍布整個基因組的一些其它的大的CNV。圖8B為描述具有三體性21"加 標"的唐氏綜合征單細胞中拷貝數變異的散點圖的圖。X軸顯示基因組位點,y軸顯示(以 log2水平)估計的拷貝數。在每個箭頭處,將染色體21的2Mb部分通過計算插入基因組。在任 何位點都未檢出拷貝數變異,顯示基于傳統的MDA的方法不能準確地檢測CNV。
[0022]圖9A-9B為一系列描述根據本文的一些實施方案的MIDAS擴增與MALBAC(不同的擴 增核酸的方法)的比較的圖。圖9A為描述MALBAC(上部)與MIDAS(底部)的一對圖,其中MIDAS 與MALBAC顯示出貫穿基因組的類似的無偏差覆蓋度。圖9B為描述,與MALBAC 92相比,MIDAS 90顯示出稍好的覆蓋度分布的一對圖。
[0023] 圖10A-10C為一系列描述根據本文的一些實施方案的MIDAS擴增與下述數據的比 較的圖:之前公開的兩種精細胞池的二倍體區域的管內MDA數據 43、微流體MDA1()數據和 MALBAC44數據以及用MALBAC32處理的單SW480癌細胞的二倍體區域的數據。基因組位點被合 并至預先確定的大小為~60kb的可變庫,以包含類似的讀取數 3(),并且繪制為針對基因組覆 蓋度(用平均數進行標準化)的loglO比率(y軸)的圖。對于癌細胞數據,非二倍體區域已經 被掩蓋(粉色之間的白色空白),以移除通過將高度非整倍性細胞與原代二倍體細胞進行比 較而產生的偏差。圖10A描述了精子池1的管內MDA結果;精子池2的管內MDA結果;以及精子 池1的微流體MDA結果。圖10B描述了精子池2的微流體MDA結果;精子池1的mALBAC結果;以及 精子池2的mALBAC結果。圖10C描述了 SW480癌細胞的結果(二倍體區域,MALBAC)、神經元核1 的MIDAS結果;以及神經元核2的MIDAS結果。
[0024] 詳細描述
[0025]亞納克量的核酸(例如單細胞的基因組)的擴增可用于多種應用。根據本文的一些 實施方案,提供用于基本無偏差的核酸擴增的方法和制成品。在一些實施方案中,以納升級 的體積擴增少量的核酸,例如單細胞的基因組材料。納升級的體積可提供高濃度反應物用 于擴增。所述擴增可包括多鏈置換擴增(MDA)。在一些實施方案中,在單一反應空間(如孔) 實施所述擴增,因此將移動部分最小化。在一些實施