大規模平行鄰接作圖的制作方法
【專利摘要】本發明公開了鄰接信息對于實現哺乳動物基因組的高質量從頭裝配和人基因組的單元型分辨的重測序是重要的。本發明描述的方法尋求在不同規模上的鄰接信息的成本有效的、大規模平行捕獲。
【專利說明】大規模平行鄰接作圖
[0001]優先權聲明
[0002]本申請要求于2011年2月2日提交的美國臨時專利申請號61/438,935和于2011年4月7日提交的美國臨時專利申請號61/473,083的優先權,所述兩個美國臨時專利申請的主題在此通過引用合并,如同它在本文中完全闡述一樣。
[0003]政府支持的聲明
[0004]本發明在由美國國立衛生研究院(National Institutes of Health)授予的授權號3U54A1057141-06S1880509和1R01HG006283-01下由政府支持進行。政府擁有本發明中的一定權利。
【背景技術】
[0005]經過過去幾年,大規模平行測序平臺已使DNA測序的成本/堿基減少了幾個數量級(Shendureh和Ji2008)。在商購可得的“下一代”技術中,幾乎全部都依賴測序特征的致密陣列的生物化學和成像的迭代循環,以生成相對短的讀數,即“循環陣列”法(Shendure等人 2005 ;Margulies 等人 2005 ;Drmanac 等人 2009 ;Braslavsky 等人 2003 ;Bentley 等人2008)。這些平臺的廣泛散布代表開發電泳測序的實際替代物的數十年努力的巔峰(Shendure 等人 2004)。
[0006]在這個成功的背景下,許多開發中的技術具有改善當今已可行的那種的技術能力的潛力。此類改善可通過循環陣列法的進一步開發,或通過其他有希望的策略的成熟來實現,所述策略例如納米孔測序(Branton等人2008)、DNA合成的實時觀察(Eid等人2009)和通過電子顯微鏡檢查的測序。大規模平行測序平臺也已產生幾個類型的測序應用,包括重測序、從頭裝配、外顯子組(.exome)測序(Ng等人2009)、RNA-Seq (Mortazavi等人2008)、ChIP-Seq (Johnson等人2007)、和全基因組染色質相互作用作圖(Lieberman-Aiden等人2009 ;Duan 等人 2010)。
[0007]盡管DNA測序技術平臺已快速改善,但DNA測序的成本對于一些目標仍是價格高得驚人的。因此,期望產生與DNA測序技術相關的方法,其不僅改善現有和開發中的技術的應用,還減少成本。
【發明內容】
[0008]短讀測序限制于區段重復和結構上復雜的基因組區域的重測序、單元型信息的分辨、和哺乳動物尺寸的基因組的從頭裝配。此外,測序的成本/堿基中的更多減少對解決這些局限性幫助很少。即使隨著DNA測序的新方法成熟且優于目前技術,技術仍可能繼續在它們生成的鄰接信息方面是有限的。因此,本文提供了用于獲得在不同規模上的鄰接信息的低成本方法。
[0009]在一些實施例中,本文提供了用于捕獲包含的鄰接信息的方法。此類方法可包括用轉座酶處理靶DNA序列,從而導致一個或多個斷裂或插入事件;(i)在轉座酶處理過程中或(ii)在后續擴增過程中,將一個或多個識別序列加入或插入靶DNA序列;將所述經處理的DNA測序;和通過鑒定具有共享性質的靶DNA序列或識別序列來捕獲鄰接信息。
[0010]在一個實施例中,一個或多個斷裂或插入事件導致源自靶DNA的靶核酸分子文庫的生成。在此類方法中,一個或多個識別序列是一個或多個條形碼,其被對稱地標記至與每個斷裂或插入事件鄰近的序列,并且一個或多個條形碼的共享性質是等同或互補的條形碼序列。
[0011]在另一個實施例中,靶DNA序列包含一組靶DNA片段。此類實施例還可包括用乳狀液或稀釋物(dilution)區室化靶DNA片段,從而在用轉座酶處理前或后生成靶DNA片段的兩個或更多個區室。在這個實施例中,一個或多個識別序列是一個或多個區室特異性條形碼,其每一個均對應于在區室化步驟中生成的一個或多個區室,并且一個或多個引物序列的共享性質是等同的區室特異性條形碼。
[0012]在另一個實施例中,一個或多個識別序列是一個或多個銜接子序列,其修飾靶DNA序列的末端或在靶DNA序列內插入。在此類實施例中,一個或多個銜接子序列可與一個或多個表面結合的引物互補。在一些方面,轉座酶與核酸結合,所述核酸與第二表面結合的引物互補。進一步地,此 類方法可包括使一個或多個銜接子序列與一個或多個表面結合的引物雜交。在一些實施例中,共享性質是受約束的物理位置,其可通過流動池上的X,y坐標指示,并且轉座酶與表面結合的識別序列結合,以形成表面結合的轉座酶復合物。在一些實施例中,處理靶DNA序列包括使多個表面結合的轉座酶復合物暴露于靶DNA序列。
[0013]在一些實施例中,提供了亞硫酸氫鹽測序的方法。此類方法可包括用轉座酶復合物執行體外轉座到靶DNA分子內,每個轉座酶復合物包含雙鏈DNA轉座酶識別序列和具有甲基化胞嘧啶(C)殘基的單鏈DNA銜接子突出端;使轉座的靶DNA分子進行亞硫酸氫鹽處理;執行核酸擴增;和將所得的核酸文庫測序。
[0014]在其他實施例中,提供了用于推導染色體構象的方法。此類方法可包括使細胞內的DNA交聯;從細胞中分離交聯DNA ;將交聯DNA斷裂;用銜接子末端修飾斷裂的交聯DNA分子,所述銜接子與第一表面結合的引物互補或對應于第一表面結合的引物;e)使斷裂的、末端修飾的靶DNA分子的末端與第一表面結合的引物雜交;f)用非表面結合的轉座酶復合物執行轉座,每個非表面結合的轉座酶復合物包含DNA轉座酶和對應于第二表面結合的引物的一個或多個序列;g)執行簇擴增,以產生以克隆方式得到的(clonally derived)核酸的簇;h)將以克隆方式得到的核酸的簇測序;和i)通過一起消減鄰近的簇來測定在染色體位置之間的物理相互作用。
【專利附圖】
【附圖說明】
[0015]圖1示出不連續寡核苷酸的高密度、隨機、體外轉座使得基因組DNA能夠高效率轉換成銜接子側接的、鳥槍法片段。淡灰色區域(I) =轉座酶;深灰色條(2) =鑲嵌式末端(ME);黃色和紅色(3a,3b)=不對稱的5’突出端;藍色(4) =基因組DNA。
[0016]圖2是通過標準方法(‘超聲處理’)相對于轉座組(transposome)方法(‘轉座酶’),生成的來自男性人類的文庫的全基因組測序的覆蓋倍數直方圖(X軸=覆蓋倍數;y軸=基因組%),其中分別標繪常染色體(‘Aut.’ )和性染色體(‘Sex’)。
[0017]圖3是起因于用合成、不連續轉座子的高密度、體外斷裂的片段大小(X軸=堿基對;y軸=計數)的直方圖。插圖顯示對于在?35bp處的暴跌與空間阻礙模型一致的關于轉座組占據的模型。
[0018]圖4顯示了具有簡并的、單鏈“泡”(A/B)的轉座組對基因組DNA的體外、高密度插入(深灰色,(I))隨后為全基因組擴增(WGA),以分辨簡并段的每條鏈(至A/A或B/B)。產生切口(在中灰色位點處,(2))和鏈置換聚合完成斷裂,還留下用相同條形碼(A/A (顯示的)或B/B)對稱地標記的連接點。
[0019]圖5顯示了源自基于轉座酶的鳥槍法文庫的限制性測序的獨立讀數顯示關于以9bp間隔作圖的富集。這個現象相對于低輸入(50ng,無箭頭)對于超低輸入(IOpg,箭頭)顯著得多,從而反映較低數目的不連續斷裂事件的更大取樣。
[0020]圖6是基于實際數據中觀察到的例子的示意圖,顯示對具有9bp重疊的鄰近位置作圖的讀數對可能是自鄰近斷裂事件得到。在基于源自‘超低輸入’樣品的文庫的復雜性有限的數據中,可鑒定總共跨越?IKb至?2Kb的4-6個局部得到的讀數對的鏈。
[0021]圖7是顯示根據鑒定各個‘連接點(join)’的效率(X軸,百分比;注明以99%在比例中的躍遷),讀數對的鏈的總跨度(y軸)的預期N10、N50、N90長度的圖,所述讀數對鑒定為起因于沿著相同基因組DNA分子的連續系列的斷裂事件。
[0022]圖8是顯示由側接簡并區㈧的共有區((1),(2))組成的模板的乳滴PCR生成以克隆方式加條形碼的珠子的示意圖。珠子拴系的鏈(2)的共有3’末端自身可充當后續乳滴PCR反應中的引物。
[0023]圖9是顯示HMW基因組DNA分子(藍色)的示意圖,使所述HMW基因組DNA分子進行用具有銜接子((1),(2))的轉座組的體外斷裂,所述銜接子通過互補子序列(褐色)的雜交進行連接。由這些連接的銜接子密集點綴的DNA隨后經由微流體乳化,然后進行用具有小滴特異性條形碼㈧的引物的乳滴PCR。來自相同HMW基因組DNA片段的序列讀數可與最終文庫中的相同條形碼相關。
[0024]圖10是顯示 可用于支持HMW DNA⑴的克隆、等溫、多重置換擴增的乳滴(emulsion)的示意圖。這些與含有用于轉座組斷裂和乳滴PCR的試劑的小滴融合(色彩設計等同于圖8和9),所述乳滴PCR使用含有小滴特異性條形碼的引物。
[0025]圖11的圖顯示,對于相同個體,針對多個LD值,實驗定相(phased)裝配與通過HapMap的基于群體的HapMap預測的比較。與HapMap推導形成對比,實驗定相的單元型通過LD不依賴性方法得到,使得差異主要反映基于推導的單元型中的誤差。
[0026]圖12示出了促進與光學測序相關的方法的原位轉座的使用。(A)單個模板在流動池上伸展且斷裂,以生成在與其基因組距離成比例的物理距離處在空間上分離的簇。(B)不規則卷曲的DNA在其末端處斷裂,以生成在空間上約束于卷曲下的區域的簇。來自任一末端的讀數可通過使用兩種不同的測序引物去卷積。
[0027]圖13示出了以下的代表性圖像:經過四個測序循環關于“簇對”的原始圖像在空間上分離的“簇對”(A);和經過四個循環兩個模板的原始整合的堿基讀出(basecalling)強度⑶。
[0028]圖14顯示了以下的代表性圖像:(A) 48.5Kb λ基因組,其用J0J0-1染色,拴系至經修飾的Illumina流動池,并且用15V/cm電場拉伸,和⑶如(A)中那種的拉伸DNA,其在55 0P用轉座組處理5分鐘并且再次成像。成像在Illumina GA2x上執行。比例尺=20 μ m。
[0029]圖15是示出文庫預處理的示意圖,所述文庫預處理插入流動池相容銜接子,而無需斷裂,從而允許沿著拉伸分子的軸生成多個讀數對。
[0030]圖16示出了含有單鏈泡的合成轉座子的高密度插入基因組DNA內。泳道1=梯子(kb);泳道2=未斷裂的基因組DNA ;泳道3=插入后、PCR后材料。
[0031]圖17示出了對稱標記的、5’至5’連接的轉座子試劑的構建。
[0032]圖18顯示了對稱標記的、5’ -5’銜接子的物種匹配的預期大小(194bp) (a),并且轉座后、PCR后片段擴增子的大小分布與?100-200bp基因組DNA和?200bp總銜接子/條形碼一致(b)。
[0033]圖19示出了無需介入操作在單個反應容積中的轉座和聚合酶延伸。轉座酶驅動斷裂。聚合酶驅動經由切口平移的缺口關閉和引物延伸的有效循環,以附加具有條形碼(A)的銜接子。
[0034]圖20示出了無需介入操作在單個反應容積中的轉座和聚合酶延伸獲得可在柱子凈化后通過PCR回收的產物。在PCR中使用的引物對應于在延伸步驟過程中加入的序列。泳道I=IOObp梯子;泳道2=無基因組DNA(gDNA)對照;泳道3=50gDNA輸入。
[0035]圖21示出了生成鳥槍法HMW基因組DNA片段的兩種方法,所述DNA片段具有合適的銜接子和對應于流動池序列的3’ ssDNA尾。
[0036]圖22顯示了由源自原位轉座方法的讀數的大腸桿菌(E.coli)基因組的覆蓋。X軸=基因組坐標。Y軸=讀數數目(IOKb框)。
[0037]圖23示出了根據一些實施例用于文庫制備的Y銜接子方法。
[0038]圖24示出了根據一些實施例的多重置換分支滾環擴增的產生和聚合酶克隆(polony)(即聚合酶集落(colony))形成。
`[0039]圖25示出了根據一些實施例用于含有流動池引物的轉座子泡的直接測序的方法。
[0040]圖26示出了根據一些實施例使用處于相反取向的兩個相同銜接子的轉座子插入方法,以維持所得的“泡”結構,隨后為乳化和擴增。
[0041]圖27示出了根據一些實施例通過使用在重復區內的獨特條形碼或插入位點的轉座子修飾的F粘粒文庫集合測序方法。
[0042]圖28示出了用于在流動池上生成簇的方法:四個臂的任何組合均可與流動池雜交且生成文庫。在這種情況下,僅兩個臂如此。
[0043]圖29示出了使用“infinipair”鑒定在轉錄因子結合位點之間的相互作用的方法。細胞可用甲醛交聯進行Chip,以破壞DNA:蛋白質復合物。經修飾的測序銜接子可連接到復合物上且用于生成infinipair簇。讀數可使用“infinipair”技術聚集且用于匹配簇。新順式和反式相互作用的鑒定可使用先前描述的方法進行鑒定(16)。
[0044]圖30示出了使用infinipair對小數目細胞中的染色體構象建模的方法。
[0045]圖31示出了用于原位文庫構建的樣品制備。a)尺寸選擇的HMW基因組DNA進行末端修復且隨后連接至在環區附近含有尿嘧啶核苷酸的發夾銜接子。藍色和紅色指示不同引發序列且每個模板分子具有連接至兩個不同引物序列的50%機會。用核酸外切酶III和VII處理連接產物去除未連接的DNA分子,所述未連接的DNA分子已暴露3’或5’末端。尿嘧啶特異性切除試劑(USER?)處理切除尿嘧啶堿基,以打開發夾且生成具有單鏈3’ -尾的流動池現成文庫。b)將文庫裝載到標準Illumina流動池上且允許兩個末端雜交。極端活躍的轉座酶用于在HMW雜交的文庫中隨機斷裂且插入共有流動池銜接子,以生成LMW簇現成模板。在簇生成后,來自任一末端的讀數可通過使用兩種不同的測序引物(以紅色和藍色顯不)去卷積。
[0046]圖32顯示了在彼此1.5um內的最近鄰對,并且通過比較下述鑒定4,OOObp作圖距離:a)讀數I針對讀數I, b)讀數2針對讀數2, c)讀數I針對讀數2,和d)讀數2針對讀數I。三種顏色代表三個不同尺寸的文庫:藍色=lkb,綠色=2kb,紅色=3kb。累積數目的簇對針對每個對的數字分類作圖距離進行標繪。
[0047]圖33顯示了關于不同最近鄰搜索的1、2和3kb文庫的最近鄰簇對數據。白色條是具有〈1.5 μ m物理分離和<4000bp作圖分離的簇對的總數目。灰色條是在關于那個文庫大小的靶向大小范圍(分別為800-1200、1500-2300和2500_3500bp)內的對的數目。彩色條是在祀向大小范圍內且具有在相反方向上的相反鏈上的讀數的對。
[0048]圖34是根據一個實施例示出在讀數I和2中的簇分離的一系列數據。a)對于三個文庫(藍色=Ikb,綠色=2kb,紅色=3kb)在讀數I內鑒定每個簇,所述每個簇具有在1.5 μ m和4,OOObp作圖分離內的最近鄰。作圖距離針對簇分離距離進行標繪,并且顯示了沿著每個軸的直方圖。注意到,原本的Illumina圖像處理軟件不區分比?0.9 μ m更緊密的兩個簇。b)關于讀數I中的每個簇的最近鄰在讀數2中鑒定且如上標繪。
[0049]圖35顯示了根據一個實施例的拉伸DNA的示例圖像。(a)48.5kb λ基因組用J0J0-1染色,栓系至經修飾的Illumina流動池,并且用15V/cm電場拉伸。成像在IlluminaGA2x上執行。(b)拉伸DNA隨后在55°C下用轉座組處理5分鐘并且再次成像。比例尺=20 μ m0 [0050]圖36顯示了根據一個實施例的tn5mC-Seq方法和所得的甲基化概況。(a)基于標簽化(tagmentation)的DNA_seq文庫構建。由裝載有合成、不連續的寡核苷酸(黃色、紫色)的轉座酶同二聚體攻擊基因組DNA,其允許在單個步驟中的斷裂和銜接子摻入。后續PCR附加外部流動池相容引物(粉色、綠色)。(b)tn5mC_seq文庫構建。裝載的轉座酶攻擊具有單個甲基化銜接子(黃色)的基因組DNA。寡核苷酸替換方法退火第二個甲基化的銜接子(紫色),隨后使所述銜接子進行缺口修復。亞硫酸氫鹽處理隨后將未甲基化的胞嘧啶轉換為尿嘧啶(橙色),隨后為PCR,以附加外部流動池相容引物(粉色、綠色)。甲基化表示為黑色棒棒糖(lollipop)。(c)全基因組的胞嘧啶位置的覆蓋。在所有三個背景下的>96%胞嘧啶(Cs)至少覆蓋一次。CpG覆蓋中的輕微降低是由于在具有高密度甲基化的區域處減少的閱讀比對能力。(d)在染色體12上在IOkb窗中的總胞嘧啶位置上的標準化的甲基化的胞嘧啶(最大設為1.0),黑色框指示著絲粒。(e)在注釋的基因座處的總CpG殘基上的標準化的甲基化的CpG。啟動子定義為TSS上游的2kb區域。(f)與基因間隔區相比較在基因主體(內含子、外顯子)中升高的CpG甲基化水平。
[0051]圖37不出了關于在3kb文庫中所有未作圖的讀數I (a)和由一個大腸桿菌和一個未作圖讀數組成的所有最近鄰(NN)對的平均原始質量評分的分布,關于未作圖讀數的平均原始質量得分顯示于直方圖中。
[0052]圖38示出了在3kb文庫中關于讀數I (A)和讀數2 (B)的所有堿基的平均原始質量得分。讀數是在最近鄰對中發現的那些,所述最近鄰對對大腸桿菌作圖,分離〈1.5 μ m,并且在2500-3500bp之間作圖。[0053]圖39顯示了關于端到端載體F的x、y和z組分的Gsurf的圖,所述端到端載體的 x、y和z組分對于與表面拴系的DNA顯示(a,b)。(c)顯示了在簇形成過程中可發生的事情的圖解。當兩個種子模板在表面上緊密接近定位時,隨著簇擴增前進,存在可獲得的表面引物的局部缺失。這迫使簇彼此遠離生長。在堿基讀出過程中,簇中心在x_y位置處調用, 其與原始種植模板不一致。
[0054]圖40是在本文中描述的原位拉伸過程的示意性圖解(a)。HMW分子的一個末端在電場施加前與表面雜交。當施加該電場時,具有游離末端的分子在電流的方向上拉伸。游離末端隨后能夠雜交并且測序照例前進。(b)顯示了通過選擇離陽極最遠的簇作為參考(r) 測定的在簇之間的角度。隨后計算與另一個簇(OC)的角度。
[0055]圖41是顯示在不存在施加的外部電場的情況下,關于3kb大腸桿菌文庫的作圖距離與物理分離相比較的一組散點圖(a)。對于框中所示的點,在對之間的相對角度(以弧度) 的直方圖顯示于右側。(b)顯示了如在(a)中的圖,但在28V/cm電場的存在下執行下雜交 (under-hybridization)。由至少4.5像素分開的簇對看起來沿著流動池的軸排列且與電場平行(右下)。
【具體實施方式】
[0056]本文提供了捕獲鄰接信息的方法。鄰接信息和用于接受此類信息的實施例可與任何合適的常規或第二代DNA測序技術一起使用,以改善技術及相關用途和應用的效率和準確度;且增加其成本效益。可依照本文描述的方法使用的合適DNA測序技術可包括但不限于“環狀陣列”方法(例如454焦憐酸測序,Illumina Genome Analyzer、AB SOLiD和 HeliScope)、納米孔測序方法、DNA合成的實時觀察、通過電子顯微鏡檢查的測序、雙脫氧終止和電泳、微電泳方法、通過雜交測序、和質譜法。
[0057]這些測序方法中的許多包括長鏈DNA (或“靶DNA序列”)測序的幾個共同程序概念。首先,將靶DNA序列分解為眾多小序列片段(或“DNA片段”)。這可通過用轉座酶處理靶DNA來完成。在一些實施例中,眾多DNA片段可視為DNA片段文庫(或“鳥槍法文庫”)。 接下來,DNA片段可進行擴增或克隆,從而導致克隆拷貝或簇的生成。克隆拷貝或簇隨后通過測序平臺例如上文描述的那些進行測序。在測序后,測序的DNA片段可再裝配,以重構原始序列,或對參考基因組作圖,以鑒定序列變異。
[0058]捕獲鄰接信息
[0059]如上所述,當靶DNA序列用轉座酶處理時,靶DNA可分解為兩個或更多個DNA片段,其在轉座酶處理前(即在斷裂前),經由一種或多種空間關系連接。在一個實施.例中,空間關系是鄰近關系,其中DNA片段直接彼此鄰近(即一個DNA片段的末端與第二個DNA片段的末端連接)。在另一個實施例中,空間關系可以是區室關系,其中靶DNA包含分類為區室的兩個或更多個序列區段。在此類實施例中,在通過轉座酶斷裂前的DNA片段可在靶DNA 的相同區段內,但不一定彼此鄰近。在另一個實施例中,空間關系是距離關系,其中DNA片段在斷裂前不連續且不鄰近,但通過彼此間的特定距離或序列長度相關。這些空間關系可通過使用本文描述的方法捕獲鄰接信息進行測定。
[0060]鄰接信息指基于共享信息在兩個或更多個DNA片段之間的空間關系。信息的共享方面可以是就鄰近、區室和距離空間關系而言。關于這些關系的信息依次促進源自DNA片段的序列讀數的分層裝配或作圖。這種鄰接信息改善此類裝配或作圖的效率和準確度,因為與常規鳥槍法測序結合使用的常規裝配或作圖方法不考慮各個序列讀數的相對基因組起源或坐標,因為它們與由其得到各個序列讀數的兩個或更多個DNA片段之間的空間關系相關。因此,根據本文描述的實施例,捕獲鄰接信息的方法可通過下述來實現:測定鄰近空間關系的小范圍鄰接法,測定區室空間關系的中等范圍鄰接法或測定距離空間關系的大范圍鄰接法。這些方法促進DNA序列裝配或作圖的準確度和質量,并且可與任何測序方法例如上文描述的那些一起使用。
[0061]根據本文描述的實施例,用于捕獲鄰接信息的方法可包括用轉座酶處理靶DNA序列,從而導致一個或多個斷裂或插入事件。在一些實施例中,這個步驟導致源自靶DNA序列的鳥槍法核酸分子文庫的生成。在替代實施例中,斷裂或插入甚至可通過如下所述的Y銜接子方法完成。一個或多個轉座酶分子可以是可溶性游離轉座酶或可與表面結合的識別序列結合。
[0062]在用轉座酶處理后,靶DNA可包含兩個或更多個DNA片段或多個DNA片段(也稱為 “斷裂的靶DNA”)或可包含插入序列(“插入靶DNA”)。
[0063]在一些實施例中,用于捕獲鄰接信息的方法可包括擴增DNA或鳥槍法文庫的步驟,以生成讀數的克隆拷貝或簇。擴增步驟可包括但不限于任何合適的擴增方法,例如聚合酶克隆、乳滴PCR和橋式PCR。
[0064]在一些實施例中,在用轉座酶處理后或在后續擴增后,一個或多個識別序列可加入或插入斷裂或插入靶DNA內。一個或多個識別序列可包括但不限于在斷裂或插入位點處的條形碼、引物或銜接子DNA序列,其將DNA片段標記為就鄰近、區室或距離空間關系而言是獨特的。
[0065]在標記后,鳥槍法核酸分子可使用上文描述的測序平臺進行測序,通過鑒定具有共享性質的識別序列捕獲鄰接信息。在一些實施例中,共享性質是等同或互補的條形碼序列。例如,鄰近起源的讀數序列可經由共享的條形碼序列進行鑒定;或讀數可基于源自相同靶DNA區段的共享區室特異性條形碼而通過區室進行限定。在其他實施例中,共享性質是共享或受約束的物理位置,其可通過流動池上的一個或多個x,y坐標指示。“受約束的”物理位置可指緊密、等同或接近等同的物理位置或一組兩個或更多個物理位置,其相對物理坐標與靶DNA序列上的相對序列坐標關聯,DNA片段由所述靶DNA序列得到。例如,在與大范圍鄰接相關的方法中,使用銜接子序列執行原位轉座到測序流動池表面上的拉伸的、HMW 基因組DNA內,以通過鑒定銜接子序列、雜交DNA片段或其組合的受約束的物理位置(即在該處固定物理連接的測序模板的相對坐標)獲得距離空間關系。關于捕獲小范圍、中等范圍和大范圍鄰接的另外的實施例和細節在下文進一步描述。
[0066]小范圍鄰接。為了捕獲關于小范圍鄰接的信息,提供了用于體外轉座的修飾方案, 其中在合成轉座子內的簡并條形碼在方法中用于對稱且獨特標記源于任何給定斷裂事件的每個側面的鳥槍法文庫分子,使得隨后可指定在獨立、起源鄰近的讀數對之間的計算機 “連接點”。在測序鳥槍法文庫和相應條形碼后,鄰近斷裂事件可經由共享條形碼序列進行鑒定。重要的是,這個策略允許以幾乎完全不依賴一級序列內容的方式測定局部鄰接。
[0067]中等范圍鄰接。即使對于長、高準確度的Sanger讀數,進行BAC克隆測序的分層方法對于達到人基因組的高質量參考裝配也是重要的,特別是在區段復制和結構上復雜的區域中(Lander 等人 2001 ;ffaterston 等人 2003 ;ffaterston 等人 2002)。因此,在一些實施例中,提供了使得源自基因組的相同F粘粒/BAC規模區域(例如20-200Kb)的短(或“鳥槍法”)讀數的分組成為可能的方法,以捕獲關于中等范圍鄰接的信息。這些方法在下文實例2中詳細討論。
[0068]如下文和Kitzman等人(Kitzman等人2011)中所述,這類信息足以廣泛單元型分辨個體人基因組序列。這個中等范圍的鄰接信息也可促進從頭基因組裝配。例如,Gnerre等人(Gnerre等人2010)近期描述了僅使用短讀序列數據將人和小鼠基因組從頭裝配至適當高的質量。正如同由Kitzman等人(Kitzman等人2011)達到的單元型鄰接一樣,這個結果需要使用F粘粒文庫構建,以便將基因組分隔成?40Kb區段。在這些方法中,乳狀液用于區室化高分子量(HMW)基因組DNA片段,隨后為用具有小滴特異性條形碼的引物的乳滴PCR。 在回收后,用限定鳥槍法讀數的組的條形碼標記擴增子,其中每個組源自相同20 - 200Kb 區域。在依賴源自F粘粒克隆的復雜庫的鳥槍法文庫的初步工作中,下文證實了這類信息用下一代測序廣泛單元型分辨個體人基因組的充分性。
[0069]類似于近期報道的“子裝配”策略(Hiatt等人2010),將長片段文庫轉換為嵌套子文庫群體,并且標記序列指導源自相同長片段的短讀數的計算機分組,從而致使長片段序列即“子裝配”讀數的局限性裝配成為可能。子裝配延伸短讀測序平臺對于通常需要或獲益于長讀數的應用的效用,所述應用例如宏基因組學和從頭基因組裝配。然而,根據本文描述的實施例的方法致使超過20 - 200Kb而不是如先前描述的?IKb區域的子裝配成為可能。
[0070]大范圍鄰接。包括大范圍平行、短讀測序技術的高通量方法相對于幾個重要目標固有地受限制,包括人基因組的區段重復和結構上復雜的區域的重測序、在二倍體和多倍體基因組中的單元型信息的分辨、和復雜基因組的從頭裝配。測序的成本/堿基的更多減少對促進這些目標幫助很少。相反,需要的是獲得在不同規模上的鄰接信息的相等平行方法。例如,盡管比基于單獨的短讀數的更低質量裝配更少數量級的序列覆蓋,但人和小鼠基因組的原始從頭裝配達到高質量的這一事實(Lander等人2001 ;MSGC2002),主要是包括鄰接信息的廣譜補充來源的結果,包括:(a)長一級讀數長度,(b)來自質粒、F粘粒和BAC的配對讀數,(C)分層按克隆(clone-by-clone)測序,和(d)基因圖。
[0071]盡管DNA測序的新方法可繼續成熟且優于目前技術,但最成本有效的技術(就成本/堿基而言)可繼續是閱讀長度限制的。因此,鄰接信息可通過用下文描述的其他技術獲得的鄰接信息補充低成本、短讀序列而獲得。用于以這種方式獲得鄰接信息的方法的例子可包括:1)大范圍“配對”方案致使能夠獲得通過控制距離分開的讀數對。然而,所有目前體外方案采用環化步驟,使得該方法僅在幾千堿基的分離方面是有效的。2)克隆稀釋庫(或其體外等價物)的加條形碼和測序可獲得在全基因組規模上的單元型信息。然而,方法的分辨限制于片段類型(例如F粘粒)和可有效加工的庫的數目。3)使用限制性酶的光學作圖已成功生成用于從頭基因組裝配的大范圍鄰接圖(Schwartz等人1993 ;Zhou等人2007 ;Zhou 等人2009)。然而,由于星號活性和無效切割,這個過程受假陽性和陰性切割位點限制,從而迫使來自相同區域的多個光學圖生成共有的圖。此外,限制 性酶識別位點的非一致分布可限制源自重復或低復雜性區域的有用信息的量。4)對拉伸的單個DNA分子(非斷裂的) 的光學測序已獲得沿著相同分子來自多個位置的高達3bp連續序列信息(Ramanathan等人 2004)。因為讀數直接由單個分子生成,所以在很大程度上避免了樣品數量和PCR偏差的問題。
[0072]如下文實例3中所述,在下一代測序儀器的流動池內的原位文庫構建和光學測序代表朝向單個技術的改善和有效途徑,所述單個技術同時捕獲在不同規模上的鄰接信息和一級序列。基本前提是采用DNA的物理性質(通過高分子量(HMW)DNA的不規則卷曲或拉伸)、原位文庫構建(經由在流動池內銜接子對HMW DNA的體外轉座)、和操作實現的下一代測序儀器的充分開發方面(聚合酶克隆擴增、邊合成邊測序、成像和數據處理),以生成多個空間上相關的讀數,所述讀數的物理分離是已知的或可由讀數在該處在流動池上起源的相對坐標推導。在一種方法中,在溶液中由DNA采用的不規則卷曲構型用于在空間上限定末端且生成在受約束的表面區域內的兩個讀數。在相關方法中,還可執行對在天然流動池內的拉伸DNA分子的光學測序。
[0073]這些方法在下文詳細討論,并且根據一些實施例,示出不依賴任何環化步驟用于長距離配對的體外方法。獲得來自未拉伸的2.7Kb分子的成對末端讀數的成功顯示于圖 12b中。簡言之,流動池相容的銜接子(FCAl)末端連接至線性化的雙鏈pucl9。將這個模板引入流動池(Illumina),并且允許單鏈末端與引物包被的表面雜交。模板隨后用預裝載有FCA2銜接子的轉座酶原位處理。接下來,執行標準簇PCR,隨后為邊合成邊測序。基于使用的引物和PUC19的已知序列,前4bp可能是AGCT或CGAG,這依賴于讀數來自分子的哪個末端。圖13A (上)顯示了對于前4個循環在空間上分離的“簇對”的代表性圖像,并且關于兩個模板的原始整合的堿基讀出強度顯示于圖13B中(下)。在否則稀疏的領域中許多此類緊密定位的對的觀察結果與來自相同2.7Kb分子末端的共同來源一致。進一步稀釋模板仍產生簇對,從而強烈暗示這些不源自在附近偶然雜交的兩個不同模板。此外,僅?20%的模板顯示可見的物理簇分離(如圖13中),而剩下80%的成對末端共定位且給出混合讀數。然而,所提議的使用兩種不同的測序引物的方法允許將來自此類立即共定位的簇對的混合讀數去卷積成兩個分開的讀數。
[0074]在其他實施例中,線性化拉伸的48.5Kb DNA分子的原位斷裂也對于轉座組得到證實。簡言之,使用Piranha溶液清潔流動池,用2%3_氨基丙基三乙氧基硅烷(APTES)處理, 且裝載有J0J0-1染色的\ DNA。隨后使流動池裝載有6M KCl,并且在輸入和輸出口施加 15V/cm的電場90秒。表面直接在Illumina GA2測序儀上成像(圖14A),以證實單個48.5Kb 分子的末端可物理拉伸超過?30像素。表面隨后用轉座組原位處理且再成像(圖14B)。各個分子在多個位置中斷裂,從而證實酶即使對表面固定的模板也維持高活性的能力。這些方法還可用于在斷裂前在“鎖定(lock-down) ”橋中摻入流動,使得簇可在長模板末端處生成。
[0075]基于本文描述的小、中`等范圍和大范圍鄰接實施例的方法,下文提供了用于捕獲鄰接的幾個另外實施例。
[0076]根據一些實施例,提供了用于捕獲鄰接信息的方法。在一個實施例中,此類方法可包括構建源自靶DNA的鳥槍法核酸分子的文庫,其中與每個斷裂或插入事件鄰近的序列由條形碼對稱標記,將鳥槍法文庫分子和相應條形碼測序;且經由共享的條形碼序列鑒定鄰近起源的序列。
[0077]在另一個實施例中,用于捕獲鄰接信息的方法可包括用乳狀液或稀釋物區室化靶 DNA片段;在區室化前或后,用轉座酶修飾靶DNA片段,以插入引物序列;使用具有區室特異性條形碼的引物執行核酸擴增;且將所得的源自靶DNA的鳥槍法核酸分子文庫和相應條形碼測序,以限定鳥槍法序列讀數的組。在一個方面,共享條形碼的讀數組源自相同高分子量基因組DNA片段。
[0078]在進一步實施例中,用于捕獲鄰接信息的方法可包括用對應于一個表面結合的引物的銜接子末端修飾靶DNA分子;使末端修飾的靶DNA分子的兩個末端與表面結合的引物雜交,連同或不連同拉伸;用非表面結合的轉座酶復合物執行轉座,所述轉座酶復合物包括 DNA轉座酶和對應于第二表面結合的引物的序列;執行簇擴增以產生以克隆方式得到的核酸的簇;將以克隆方式得到的核酸的簇測序;且測定重疊或緊密定位的簇是否源自相同靶 DNA分子的末端。在一個方面,此類方法包括用對應于一種流動池引物的銜接子末端修飾高分子量DNA分子;使末端修飾的高分子量DNA分子的兩個末端與流動池雜交,連同或不連同拉伸;用裝載有銜接子的轉座酶執行原位轉座,所述銜接子對應于第二流動池引物;執行簇PCR以產生可見重疊或緊密定位的簇;且測定重疊或緊密定位的簇是否源自相同高分子量DNA分子的末端。
[0079]在另一個實施例中,用于捕獲鄰接信息的方法可包括用轉座酶修飾靶DNA分子, 以插入對應于一個或幾個表面結合的引物的核酸序列;使內部修飾的靶DNA分子與表面結合的引物雜交,連同或不連同拉伸;執行簇擴增以產生以克隆方式得到的核酸的簇;將以克隆方式得到的核酸的簇測序;且測定重疊或緊密定位的簇是否源自相同靶DNA分子。在一個方面,此類方法包括用轉座酶修飾高分子量基因組DNA,以插入對應于一個或兩個流動池引物的引物序列;使內部修飾的高分子量DNA分子與流動池雜交,連同或不連同拉伸;執行簇PCR以產生可見重疊或緊密定位的簇;且測定重疊或緊密定位的簇是否源自相同高分子量DNA分子,如圖25中。
[0080]在另一個實施例中,用于捕獲鄰接信息的方法包括步驟:(a)生成核酸序列與之結合的表面,所述核酸序列包括對應于DNA轉座酶的識別序列的雙鏈DNA序列;(b)裝配復合物,所述復合物包含與表面結合的識別序列結合的DNA轉座酶;(c)使復合物暴露于靶DNA,連同或不連同靶DNA的拉伸,且允許通過表面結合的轉座酶復合物內部修飾靶DNA ; (d)執行簇擴增以產生以克隆方式得到的核酸的簇;(e)將以克隆方式得到的核酸的簇測序;和(f)測定重疊或緊密定位的簇是否源自相同靶DNA分子。在一個方面,另外的步驟可包括在步驟(c)前的任何點上,其中靶DNA通過暴露于非表面結合的轉座酶復合物進行修飾,所述轉座酶復合物包括DNA轉座酶和對應于表面結合的引物的序列。在另一個方面,可包括在步驟(c)后和在步驟(d)前的另外的步驟,其中靶DNA通過暴露于非表面結合的轉座酶復合物進一步修飾,所述轉座酶復合物包括DNA轉座酶和對應于表面結合的引物的序列。
[0081]測序技術的應用
[0082]本文描述的捕獲鄰接信息的方法在改善上文描述的測序技術的用途和應用中是有用的。可依照本文描述的方法使用的DNA測序技術的合適應用可包括但不限于用于測.定 DNA甲基化的亞硫酸氫鹽測序、重測序、從頭裝配、外顯子組測序、RNA-Seq, ChIP_Seq、推導染色體構象和全基因組染色質相互作用作圖。在一些實施例中,用于捕獲鄰接信息的方法可與“環狀陣列”法一起使用,用于例如重測序、從頭裝配或兩者的應用,如下文實例中詳細描述的。[0083]重測序。重測序人基因組已變得相對直接了當。例如,Bentley等人(2008)將約魯巴人(Yoruba)男性的基因組測序至?40x覆蓋,以在Illumina GA平臺上鑒定?4百萬 SNPCBranton等人2008),即在無序PCR集落的致密陣列上的大規模平行邊合成邊測序。當今,Illumina HiSeq平臺能夠在8天內在7個測序泳道上生成相同數量的數據(135千兆堿基(gigabase) (Gb)),所述測序泳道各自獲得?100,000, 000可作圖的、成對末端、IOObp讀數(PE100)。對于$3,700/泳道的試樣成本,關于?40x人基因組重測序的估計成本僅超過 $25,000。
[0084]此外,盡管短讀數長度和適度原始準確度與?94%人基因組的高度準確的重測序相容,但這些技術在至少兩個重要方面繼續不合格。首先,約6%的人基因組由易于再現重排的富含基因的區段重復或結構上復雜的區域組成。對在這個空間內的短測序讀數獨特作圖是不太可能的,并且譯解復雜結構變異是非常有挑戰性的。其次,用于基因組重測序的目前技術對于單元型(即沿著單個染色體出現關于其的多態性的相(Phase))幾乎是完全不知情的。單元型信息對于基因疾病關聯的研究以及對于群體遺傳分析是非常有用的。這些缺陷無一可通過用相同技術的更多測序進行補救。相反,這些缺陷反映出短讀測序的基礎局限性。
[0085]從頭裝配。與重測序形成對比,關于使用相同技術生成哺乳動物基因組的高質量的從頭裝配還有很長的路要走。在2002年生成用于裝配2.5Gb小鼠基因組的20Gb,即? 8x覆蓋(Sanger) (Waterston等人2002)目前在單個Illumina HiSeq泳道上是可能的 (PE100, $3,700)。然而,即使對于?90x覆蓋,同樣復雜的人基因組的最佳“下一代”從頭裝配獲得7.4Kb的N50重疊群長度,446Kb的N50支架長度,和僅87%基因組的序列覆蓋 (Li等人2010)。由短讀數據在覆蓋中的更多增加可能僅最低限度改善裝配質量(Li等人 2010)。通過比較,基于超過一個數量級的較少數據,小鼠基因組的最初裝配具有25.9Kb的 N50重疊群長度,18.6兆堿基(Mb)的N50支架長度,和95%基因組的序列覆蓋(Waterston 等人2002)。
[0086]亞硫酸氫鹽測序。本文提供了用于測量DNA甲基化的亞硫酸氫鹽測序的方法。DNA 甲基化是廣泛的后天修飾,其在不同生物的基因組的調節中起關鍵作用。在哺乳動物基因組中最流行和廣泛研究形式的DNA甲基化在胞嘧啶殘基的5碳位置處出現,通常在CpG 二核苷酸的背景下。微陣列和更近期的大規模平行測序已致使在全基因組規模上的胞嘧啶甲基化(5mC)的查詢成為可能(Zilberman和Henikoff2007)。然而,DNA甲基化和其他后天標記例如在特異性細胞類型或解剖結構中的體內研究強烈地受同時代方案所需的相對高量的輸入材料限制。
[0087]用于甲基化模式 的基因組規模查詢的方法包括基因組的限定子集的富集之后的幾個(Meissner等人2005 ;Down等人2008 ;Deng等人2009),例如簡化表達亞硫酸氫鹽測序(RRBS) (Meissner等人2005)和抗甲基胞卩密唳DNA免疫沉淀后測序(MeDIP-seq) (Down 等人2008)。此類方法的優點在于它們可用有限數量的起始DNA執行(Gu等人2011)。然而,它們是受約束的,因為它們并非真實廣泛的。例如,基于消化的RRBS法僅查詢?12%的 CpG,主要在CpG島中(Harris等人2010),具有在基因主體(Ball等人2009)和其他地方中的甲基化的弱覆蓋。此外,RRBS不靶向CHG或CHH(H=A,C,T)背景下的胞嘧啶,所述胞嘧啶已顯示在哺乳動物發育的早期階段以升高水平甲基化(Lister等人2009)。[0088]用于檢測5mC的最廣泛、最高分辨率的方法是全基因組亞硫酸氫鹽測序(WGBS) (Cokus等人2008 ;Lister等人2009 ; Harr is等人2010)。用亞硫酸氫鈉處理基因組DNA 以化學方法使胞嘧啶比5mC快速得多地脫氨基,從而將其優先轉換為尿嘧啶(Clark等人 1994)。對于大規模平行測序,這些可以單堿基對分辨率在全基因組規模上進行檢測。這種方法已揭示復雜和意外的甲基化模式和變異,特別是在CHG和CHH背景下。此外,隨著大規模平行測序的成本繼續下降,全基因組亞硫酸氫鹽測序是越來越能承受的。然而,WGBS是有限的,因為目前的方案要求5微克基因組DNA作為輸入(Cokus等人2008 ;Lister等人 2009 ;Li等人2010),其對于體內獲得的許多樣品基本上是價格聞得驚人的。
[0089]在一些實施例中,用于全基因組亞硫酸氫鹽測序的基于轉座酶的體外鳥槍法文庫構建(“標簽化”)如下所述修改。在本文中稱為tn5mC_seq的這種方法致使相對于常規方案的原材料的>100倍減少,使得高度復雜的亞硫酸氫鹽測序文庫由少至10納克輸入DNA 和來自I納克輸入DNA的豐富有用序列生成。通過對人類淋巴母細胞細胞系的甲基化組 (methylome)測序,證實tn5mC_seq至每條鏈的約8.6X高質量覆蓋。
[0090]進一步地,提供了用于甲基化不連續合成轉座子的方法,其使用Tn5識別序列的雙鏈DNA部分以及含有銜接子序列I或2的單鏈DNA突出端,其中所有胞苷或胞嘧啶殘基均是甲基化的。在一個實施例中,執行切口平移步驟。在切口平移后,所得的轉座生成銜接子側接的DNA片段,其中每條鏈具有兩個銜接子,其中一個是甲基化的。隨后對切口平移的材料執行PCR,其中由切口平移生成的銜接子的未甲基化鏈具有公認的更低效率。
[0091]在另一個實施例中,未執行切口平移步驟,并且如下所述以后加入第二銜接子。隨后使片段文庫進行亞硫酸氫鹽處理,以將所有未甲基化的胞苷轉換為尿嘧啶殘基。隨后以兩種方法之一加入第二銜接子:(I)通過加入A-尾且隨后使用含有聚-T的引物和銜接子突出端,或(2)通過用5’銜接子突出端延伸含有3’封閉的N6的模板(以亞硫酸氫鹽處理的核苷酸比),所述5’銜接子突出端將從片段的3’末端延伸通過。在加入第二銜接子后, 隨后執行PCR和測序。這種方法的一個優點是gDNA轉換為銜接子修飾的片段的高效率允許在構建要進行亞硫酸氫鹽處理的文庫中使用少得多的DNA。
[0092]簡言之,程序如下。首先,使具有含dsDNA轉座酶識別序列的銜接子的轉座酶裝載有ssDNA銜接子突出端,其中所有胞嘧啶(C)殘基均是甲基化的。接下來,執行轉座到基因組DNA內,從而斷裂DNA且附加甲基化的C,5’突出端銜接子。如果執行切口平移,那么銜接子延伸至分子的兩個末端,然而,3’銜接子將不是甲基化的。隨后使該文庫進行亞硫酸氫鹽處理,以將所有未甲基化的C殘基轉換為U殘基。如果在先前步驟中未執行切口平移,那么可通過兩種方法之一加入第二 3’銜接子:(i)DNA片段是有A-尾的,并且使用3’聚-T5’ 銜接子引物將3’銜接子附加至片段,或(ii)允許DNA片段在由3’封閉的N6 (以補充亞硫酸氫鹽處理的核 苷酸組成)和5’銜接子突出端組成的寡核苷酸上延伸。最后,執行PCR,隨后為測序。
[0093]根據其他實施例,亞硫酸氫鹽測序的方法可包括步驟:(a)用轉座酶復合物執行體外轉座到靶DNA分子內,所述轉座酶復合物包括具有含甲基化胞嘧啶殘基的單鏈DNA銜接子突出端的雙鏈DNA轉座酶識別序列;(b)使修飾的靶DNA分子進行亞硫酸氫鹽處理;
(c)執行核酸擴增以產生核酸文庫;和(d)將所得的核酸文庫測序。在一些方面,在步驟(a) 后和在步驟(b)前,可將第二銜接子摻入源自靶DNA的核酸片段,其中所述第二銜接子設計為促進步驟(C)中的核酸擴增。在其他方面,在步驟(b)后和在步驟(C)前,可將第二銜接子摻入源自靶DNA的核酸片段,其中所述第二銜接子設計為促進步驟(C)中的核酸擴增。
[0094]在其他實施例中,亞硫酸氫鹽的方法可包括步驟:(a)用具有含甲基化胞嘧啶殘基的單鏈DNA (ssDNA)銜接子突出端修飾雙鏈DNA (dsDNA)轉座酶識別序列;(b)用裝載有含有修飾的dsDNA轉座酶識別序列的銜接子的轉座酶執行體外轉座,以生成DNA片段的文庫;(c)使DNA片段的文庫進行亞硫酸氫鹽處理;(d)執行PCR方法以擴增靶;和(c)進行靶的測序。在一些實施例中,可在步驟b)后和在步驟(C)前執行另外的切口平移步驟。在其他實施例中,不執行切口平移。在這種情況下,在步驟(c)后和在步驟(d)前加入第二銜接子。第二銜接子可通過下述加入:(i)將腺苷(A)尾加入DNA片段且使用3’聚-T5’銜接子引物將3’銜接子附加至片段;或(ii)允許DNA片段在包含3’封閉的N6和5’銜接子突出端的寡核苷酸上延伸。
[0095]推導染色體構象。根據一些實施例,提供了用于推導染色體構象的方法。這些方法可包括使細胞內的DNA交聯;分離染色質纖維;取出且消化染色質片段;純化染色質DNA 片段;將銜接子連接至染色質DNA片段,從而形成染色質DNA片段復合物;且通過使染色質 DNA片段復合物的鄰近的簇成對來生成染色體位置的三維模型。在一個實施例中,該方法可包括步驟:(a)使細胞內的DNA交聯;(b)從細胞中分離交聯DNA ; (c)將交聯DNA斷裂;
(d)用銜接子末端修飾斷裂的交聯DNA分子,所述銜接子對應于一個表面結合的引物;(e) 使斷裂的、末端修飾的靶DNA分子的末端與表面結合的引物雜交;(f)用非表面結合的轉座酶復合物執行轉座,所述轉座酶復合物包括DNA轉座酶和對應于第二表面結合的引物的序列;(g)執行簇擴增,以產生以克隆方式得到的核酸的簇;(h)將以克隆方式得到的核酸的簇測序;和(i)通過一起消減鄰近的簇來測定在染色體位置之間的物理相互作用。在一些方面,分離的交聯DNA可以是交聯DNA-蛋白質復合物的部分。在這種情況下,用于推導染色體進一步構象的方法可另外包括通過在步驟(c)后和在步驟(d)前的免疫沉淀來富集一種或多種特異性的交聯DNA-蛋白質復合物的步驟。
[0096]在其他實施例中,提供了用于鑒定在轉錄因子結合位點之間的相互作用的方法。 此類方法可包括用激素誘導細胞群;免疫沉淀細胞以分離染色質纖維;通過交聯細胞且破壞染色質纖維產生染色質片段;修復染色質片段的末端且將末端連接至銜接子,從而產生染色質復合物;生成對應于染色質復合物的簇;且通過一起消減鄰近的簇來測定在染色體位置之間的相互作用。
[0097]下述實例預期示出本發明的多個實施例。像這樣,討論的具體實施例不應解釋為對本發明的范圍的限制。對于本領域技術人員顯而易見的是,可作出多個等價物、改變和修飾,而不背離本發明的范圍,并且應當理解此類等價實施例包括在本文中。進一步地,公開內容中引用的所有參考文獻在此通過引用整體合并,如同它們在本文中完全闡述一樣。
[0098]實例
[0099]體外轉座的幾個性質可用于開發超低成本、大規模平行測序法以用于捕獲在不同規模上的鄰接信息。首先,經修飾的Tn5轉座組在體外在催化共有序列的插入的反應中以高效率和高密度攻擊DNA,連同或不連同斷裂,這取決于合成轉座子是連續還是不連續的。 其次,轉座組攻擊的模式關于序列內容是相對隨機的。第三,簡并子序列加上共有銜接子序列可容易地包括在合成轉座子內。第四,體外轉座作為單體積、水相、酶促反應是廉價的。實例1-3涉及大規模平行方法的開發,所述方法采用體外轉座以分別告知小范圍、中等范圍和大范圍鄰接。實例4涉及采用體外甲基化的轉座捕獲鄰接信息的方法的開發。實例5 涉及用于測量較小細胞群內的DNA-DNA和DNA-蛋白質相互作用的方法的開發,所述方法采用infinipair技術以直接測序已交聯的免疫沉淀的DNA的多個片段。實例6涉及整合這些方法以證實高質量的從頭基因組裝配和單元型分辨的基因組重測序。
[0100]一般方法
[0101]鄰接信息是主要目標。下文所述的實例中的方法解決下一代測序領域中的“盲點”。具體地,該方法解決用于測定在更廣泛規模上的鄰接信息的超低成本方法的缺乏問題。
[0102]這些方法及其相關成本依賴它們與之整合的測序技術,因為這是通過其解碼與鄰接信息偶聯的一級序列的方法。下文的方法使用商購可得的、環狀陣列平臺(例如Illumina GA2x或HiSeq)執行。然而,本文描述的所有方法均可與其他DNA測序方法整合,例如納米孔測序、其他環狀陣列平臺。廣泛相容性將確保這些方法可與作為在成本/堿基方面最佳出現的任何技術組合。
[0103]材料與方法
[0104]用于捕獲鄰接信息的體外轉座。盡管實例1-6在技術上不同,但共同思路是它們依賴高密度、隨機、體外轉座作為以創造性方式物理粉碎基因組DNA的新型方法,所述創造性方式促進回收在不同規模上的鄰接信息。這種技術中的最初興趣基于其用于鳥槍法文庫的低成本、低輸入、體外制備的潛在效用。如圖1中所示,經修飾的Tn5轉座酶在單個、5分鐘步驟中催化斷裂和銜接子摻入。在常規體外轉座中,通過轉座酶識別側接轉座子DNA的反向19bp鑲嵌式末端(ME)序列,且所述序列在溶液中形成穩定的同二聚體突觸復合體。這種“轉座組”將轉座子插入靶DNA內。當應用于文庫制備時,轉座組相反由酶和具有銜接子突出端的游離ME序列組成。不連續轉座子的插入導致經由具有不對稱5’銜接子突出端的 ME序列的對稱插入的斷裂。用與銜接子互補的引物的PCR擴增獲得鳥槍法片段文庫。
[0105]為了解決關于插入偏差和文庫復雜性的關注,用體外鳥槍法文庫構建的傳統方法 (Adey等人2010)執行廣泛比較。分析揭示用基于轉座組的方法在斷裂位點處關于序列內容的略微更大的偏差。然而,這在全人基因組重測序過程中的覆蓋分布方面具有可忽略不計的影響(圖2),并且該方法顯示出等價的G+C偏差。關鍵的是,注意到,由少至400納克制成的轉座組文庫的復雜性等價于或大于由量大得多的輸入DNA制成的標準文庫的復雜性。
`[0106]用這種方法觀察到的文庫復雜性暗示基因組DNA大量轉換成銜接子側接的文庫的效率很高,因為斷裂事件可沿著基因組DNA的任何給定段緊密接連出現,以便生成測序相容的幾百個堿基對的片段。事實上,在分析起因于這種方法的片段長度的分布中,我們觀察到可能是來自鄰近、攻擊轉座組的立體阻礙繼發的在?35bp處的暴跌(圖3)。即使對于方案的無PCR版本(為了避免扭曲片段大小分布),數據也暗示大量鄰近轉座組反應(>95%) 通過35-600bp分離。原則上,大量轉換的這種高效率應轉化為低輸入需求。與這一致,即使對于低至100皮克(人基因組的30單倍體當量)的輸入,可獲得復雜文庫。在10皮克(3 單倍體當量時,復雜性開始進入瓶頸,但仍可觀察到數百萬獨特作圖的讀數對。
[0107]實例1:小范圍鄰接
[0108]LA.對稱且獨特標記斷裂事件[0109]基因組DNA斷裂,無論是通過機械還是酶促方法,均導致關于分子成對的信息的完全損失,所述分子源自任何單獨“中斷”的任一側。為了保存這個信息,設計方法以使獨特條形碼與源自通過體外轉座引入的每個中斷的片段的兩個末端結合(圖4)。簡言之,轉座酶可用于催化合成轉座子的體外插入極低量的基因組DNA內,S卩小于5單倍體人基因組當量,所述合成轉座子含有被切口限制性核酸內切酶位點側接的簡并單鏈“泡”。與圖1中所述的方法形成對比,合成轉座子是連續的,含有19bp ME序列連同側接25bp簡并序列的兩個核酸內切酶切口位點。因為簡并區在上和下鏈之間不是互補的,所以存在單鏈泡,從而增加幫助形成具有兩個轉座酶單體的突觸復合體的靈活性。在插入這些合成轉座子至高密度 (每35-600bp)后,經由缺口填充和連接反應修復起因于轉座機制的9bp損傷(lesion)。
[0110]隨后使構建體進行基于引發酶的全基因組擴增(pWGA),其分解在簡并區處的泡, 同時獲得相對均勻的擴增(Li等人2008)。隨后通過兩種切口核酸內切酶將這種材料消化完全,所述切口核酸內切酶在側接簡并區的相反鏈上引入切口。最后,用鏈置換聚合酶的延伸使靶DNA斷裂,從而獲得以等同條形碼序列即對稱標記終止的分子。在這個點上,出于與大規模平行邊合成邊測序的相容性可應用標準方案(有A-尾,銜接子連接,PCR)。分開的讀數可用于獲取在每個文庫分子的每個末端處的條形碼和一級序列。
[0111]本文使用的條形碼應是對每個斷裂事件獨特的,因為它們源自25bp簡并段且可在計算機上用于接連連接源自鄰近轉座組插入的讀數對的串。這些“連接點”基于單獨的條形碼,因此它們完全不依賴一級序列內容。
[0112]為了測試這種方法的可行性,設計含有單鏈泡的合成轉座子(如圖4的第一個步驟中所示,但具有用于A和B而不是簡并序列的固定非互補序列), 所述單鏈泡具有對應于兩個引物的固定、非互補序列。這些合成轉座子裝載至EZ-Tn5轉座酶且在合適條件下與基因組DNA反應。在起因于轉座事件的預期的9堿基對損傷的缺口填充和修復后,用對應于非互補合成泡序列的引物的PCR獲得具有范圍為?0.5至?3Kb的廣泛大小分布的擴增子 (圖16)。這個實驗證實,含有單鏈泡的合成、連續轉座子可以合理效率插入。為了達到插入位點的更致密分布,這種方法應進行最佳化。特別地,可改善轉座酶裝載上合成轉座子的效率。因為鄰近、攻擊轉座酶復合物的立體阻礙對插入密度施加上限(圖3),大摩爾過量的適當裝載的轉座組復合物可能達到更致密的插入分布。
[0113]1.B.鄰近事件是可檢測的證據
[0114]為了評估鄰近斷裂事件是否潛在地可通過測序檢測,從源自10皮克人基因組DNA (3單倍體當量)的轉座組斷裂的鳥槍法文庫的測序挖掘出?2百萬獨特作圖的讀數對。因為9bp重復在每個斷裂事件的每個末端處出現,所以源自每個事件的任一側的分子應以 9bp重疊對基因組作圖。因此,距離其他讀數對的“讀數I”起始位點9bp觀察到在“讀數 2”作圖位置中的明確增加(圖5)。與由更大量的原材料生成的文庫相比較,這個標記在這個超低輸入文庫中明顯更顯著。使用這個9bp重疊作為源于相同斷點的片段的證據,鑒定源自總共跨越?IKb至?2Kb的接連、鄰近片段的4-6個讀數對的鏈(圖6)。
[0115]1.C.方法開發和性能參數
[0116]上文描述的策略(參見LA)是幾種相關方法之一,所述方法已設計為(I)獲得對稱且獨特標記的斷裂事件和(2)通過在分析過程中采用這些標記接連連接源自鄰近轉座組插入的序列讀數對的串。用于對稱標記的替代方法也已得到開發,其中各個轉座酶裝載有對稱標記但形式上不連續的寡核苷酸(oligonucleotide)(或“寡核苷酸(oligo)”),使得標記和斷裂均可在單個步驟中發生。
[0117]基于這種替代方法的方法設計為構建對稱標記的、5’至5’連接的轉座子試劑(圖 17)。為了生成這種試劑,連接兩個引物,其中之一含有5’-5’反向腺嘌呤RNA部分和3’磷酸阻斷基。用T4RNA連接酶執行在末端RNA堿基與另一個寡核苷酸的5’磷酸化DNA堿基之間的單鏈連接。5’ -5’連接的引物隨后與寡核苷酸雜交,所述寡核苷酸含有關于兩個引物的合適互補序列、充當標記的簡并段(例如20個隨機化核苷酸-圖17中以黑色顯示)和由轉座子識別的19bp鑲嵌式末端(ME)序列。延伸5’ -5’對中的第一引物,同時另一個末端被3’磷酸鹽封閉。接下來,T4多核苷酸激酶(T4PNK)用于去除3’阻斷磷酸鹽,并且用鏈置換聚合酶延伸第二引物。所得的物質(species)的每個單一分子包括通過反向腺嘌呤部分5’至5’連接的兩個寡核苷酸,其在整個簡并段上是等同的并且各自以19bp鑲嵌式末端(ME)序列終止。基于凝膠的純化用于去除延伸副產物,并且隨后雜交合適的寡核苷酸以使每個末端處的ME子序列雙鏈化。所得的物質在單一分子水平均對稱地標記,并且可容易裝載至Tn5轉座酶。
[0118]如所述地構建5’ -5’連接的、對稱標記的轉座子物質。在凝膠純化去除延伸副產物前,所述轉座子的全長產物(194bp)顯示于圖18a中。用所述轉座子的基因組DNA的成功斷裂顯示于圖18b中。
[0119]這種方法的成功依賴至少兩個參數:(I)文庫復雜性的維持:當鏈的任一末端上的鄰近片段在測序中無法檢測時,讀數對的鏈接終止。例如,在極端時,如果源自合成轉座的100%片段連同相應標記成功測序,那么原則上可能從整個染色體的端到端鏈接。(2)表示(representation)的均勻度:對來自大部分斷裂事件的兩個末端的標記和一級序列取樣所需的測序程度很大程度上依賴文庫均勻度。相對表示的顯著扭曲可能需要克服相應大量的測序。因此此類扭曲降到最低是重要的。
[0120]通過模擬,基于轉座組斷裂的經驗大小分布(圖3上),并且根據成功測序的源自轉座酶的片段的部分(其依次根據測序深度和上述性能參數),測定鏈接讀數對的N10、N50和 N90跨度。如圖7中所示,鄰接以超過90%的效率驟升。在95%效率時,N50是1.4Kb,并且 NlO是4.7Kb。在99%效率時,N50是8Kb,并且NlO是24Kb。在99.9%效率時,N50是71Kb, 并且NlO是237Kb。
[0121]這種技術的重要方面是在獨立讀數對之間的計算機“連接點”幾乎完全不依賴一級序列內容(如很大程度上對于常規從頭裝配的情況,它不被緊密相關序列的遍在性混淆)。相反,連接點基于共享的條形碼序列,其起因于用于對稱標記斷裂事件的合成轉座子。 注意到,25bp條形碼(相對于PE100運行,其僅需要測序量中的25%增加)不太可能是偶然等同的,即使當將數百萬個獨立標記測序且允許合理編輯距離時。此外,在一級序列之間的預期的9bp重疊可充當關于正確連接點的“驗證密鑰”。因此,導致不正確連接點的一致或誤差的機會極低。
[0122]這種方法可致使“.選通讀數”(即來自單個、長連續片段的多個子讀數(Ritz等人 2010?的等價物成為可能,同時使用短讀技術。當沿著鏈的任何給定基因組片段太長而不能通過單末端或成對末端測序跨越時,產生缺口。缺口的頻率和長度分布根據這種方法與之整合的短讀技術的讀數長度。例如,假定:1)基因組片段通過成對末端、IOObp讀數(PElOO)查詢;2)20bp的末端重疊足以合并從任一末端對相同片段測序的讀數對;3)圖3 中所示的斷裂大小分布保留,隨后模擬顯示0.7缺口 /Kb的平均值,其中缺口大小平均為 53±48bp (小于5%的總體支架長度)。
[0123]1.D.經由轉座酶的LoxP插入隨后為Cre重組
[0124]在另一個實施例中,細菌轉座酶Tn5可用于插入含有被反向鑲嵌式末端(ME)序列側接的34bp定向LoxP位點的轉座子,以及內部生物素化和潛在的替代測序引物。靶標插入密度大致是每10個千堿基一個插入事件。
[0125]所得的分子群體具有以相同次序或反向方式的插入事件。用Cre重組酶的重組切除DNA的IOkb環形段,其中兩個LoxP位點以相同取向串聯插入。當串聯LoxP位點反向時,IOkb區域將是反向的,而DNA將保持線性。最后,鏈間LoxP位點將重組且交換鏈,這也將導致線性DNA。
[0126]線性分子隨后可使用質粒安全的(plasmid safe)核酸外切酶進行消化,留下起因于在處于相同取向的兩個串聯LoxP位點之間的重組的環化DNA。
[0127]環化DNA隨后可用于通過任何方法的文庫制備,并且側接LoxP轉座子的DNA可通過鏈霉抗生物素蛋白珠子下拉富集。PCR隨后為來自LoxP位點內或分子終末端的測序將獲得?IOkb配對讀數。
[0128]1.E.Y-轉座子
[0129]在另一個實施例中,Y-銜接子方法(圖23)可代替常規轉座酶催化的銜接子插入作為用于文庫制備的方法使用,其中所得的物質是A-B (50%) ,A-A (25%)或B-B (25%),其中A 和B是兩個不同銜接子并且僅50%分子對于測序是可行的。
[0130]在這種情況下,Tn5可裝載有對于19bp鑲嵌式末端識別序列互補的寡核苷酸,連同提供更高的解鏈溫度的互補性延伸,隨后為A和B’的非互補單鏈DNA (ssDNA)銜接子突出端。轉座將導致銜接子之一(在3’末端處的ME)經由雜交與保持結合的另一個直接連接。
[0131]非置換聚合和切口 修復可導致其中每個插入事件可導致可行的測序擴增子的分子。
[0132]替代實施例涉及含有U (或用于降解或聚合酶不連續性的其他接頭或可靶向位點) 的發夾轉座子,所述U連接Y-銜接子的末端以阻止由于解鏈造成的另一條鏈的喪失,如圖 23中。
[0133]1.F.雙泡條形碼轉座子
[0134]在另一個實施例中,含有兩個簡并條形碼(在每條鏈上)和兩組引物位點以及幾個限制性位點的合成轉座子可通過高頻率插入基因組DNA內,如下文實例中所示:
[0135]ES - Sbfl/AsiS1- N1/N2 -條形碼-X/Y - Not1- X/Y -條形碼-N1/N2 - SbfI/ AsiS1- ES
[0136]所得的轉座和缺口修復隨后為全基因組擴增(WGA)分辨簡并區。使用最外部的限制性位點(上文實例中的Sbf1、AsiSI)的消化隨后為使用N1/N2和突出端流動池引物的PCR 允許測序運行,以結合在每個插入的轉座子內的兩個簡并條形碼。
[0137]在轉座子中間(上文實例中的NotI)的其他消化以及來自X/Y以及N1/N2的擴增和測序給出外部條形碼序列和間插基因組DNA。
[0138]1.G.用插入條形碼的轉座酶的子裝配[0139]在另一個實施例中,可插入不連續轉座子,其中每個裝載的DNA序列由外部流動池引物、簡并條形碼、內部測序引物和雙鏈轉座酶識別序列組成。靶標插入密度可是每 l-2kb。
[0140]在轉座后,具有測序或流動池引物突出端的簡并序列引物可用于對沿著分子的不同位置退火,且在稀釋模板下,或更可能地在乳化條件下,延伸回到終止轉座酶加入的序列。
[0141]測序允許條形碼與每一個讀數結合,所述讀數來自遍及長分子出現的簡并引物延伸。
[0142]1.H.基于配對(ssDNA環化)轉座酶的文庫制備物
[0143]在另一個實施例中,具有約l_2kb的片段大小的標準、基于加條形碼的轉座酶的文庫制備物可用于形成配對文庫,其中可能需要大小選擇。
[0144]使大片段基于加條形碼的轉座酶的文庫制備物進行使用5’磷酸化流動池(最外部的)引物的PCR,其中還具有內部生物素以及接近5’末端的尿嘧啶。
[0145]將所得的PCR產物環化,隨后為機械剪切。隨后將斷裂DNA變性且以單鏈方式環化。使用鏈霉抗生物素蛋白包被的珠子選擇含有內部環化的末端的片段。環隨后通過在尿嘧啶處的消化成為線性的,所述尿嘧啶翻出分子外。測序允許來自原始文庫末端的配對讀數,也保存條形碼。
[0146]1.1.轉座子修飾的F粘粒或質粒文庫庫測序
[0147]在另一個實施例中,連續、合成轉座子可插入基因組DNA (gDNA)內,隨后為缺口修復。DNA隨后剪切至40kb (或大致5kb)且分別用于制備復雜的F粘粒文庫(或質粒)文庫。 這允許基因組的重復區被轉座子破壞,所述轉座子具有獨特條形碼,或通過其在重復區內的獨特插入位點而鑒定(圖27)。
[0148]簡言之,使用體外轉座法將合成、連續轉座子插入基因組或高分子量DNA至在 100-1000個堿基對(bp)之間的密度。轉座子或者都是相同的,或者含有獨特條形碼。隨后修復起因于轉座機制在長度中9bp的損傷。接下來,將DNA剪切至約?40kb (或?5kb), 并且執行大小選擇,隨后為末端修復。接下來,使用經修飾的、剪切且修復的DNA生成復雜的F粘粒(或質粒)文庫。最后, 將F粘粒(或質粒)文庫庫測序,以提供定相信息以及關于轉座子插入的信息,所述轉座子插入允許使用獨特的條形碼和/或獨特的轉座子插入位點區分基因組的相似區域。
[0149]實例2:中等范圍鄰接
[0150]2.A.用小滴特異性條形碼的乳滴PCR
[0151]乳滴PCR是廣為接受的,但下文的方法要求含有試劑的小滴,所述試劑包括具有小滴特異性條形碼的引物。這些試劑可通過側接簡并子序列的共同序列的乳滴PCR生成, 伴隨產物至微米規模珠子的回收(圖8) (Dressman等人2003)。具體地,大量以克隆方式擴增的珠子(各自具有推測獨特的條形碼)可通過乳滴PCR用有限稀釋生成,隨后為通過雜交富集“擴增的”珠子(Shendure等人2005)。這些珠子可再次乳化以用于在下文方法中使用。單個以克隆方式擴增的珠子/小滴的包括連同共同序列和乳滴PCR引物的合適設計將導致加條形碼的擴增子捕獲至珠子自身以用于方便回收。
[0152]2.B.“預轉座的” HMW基因組DNA的加條形碼[0153]在一個實施例中(圖9),轉座組裝載有含有轉座酶識別序列的銜接子與具有互補末端的兩個不同子序列的5’ssDNA延伸物。這導致由連接的銜接子序列密集點綴的HMW基因組DNA。這些“預轉座的”分子隨后用有限稀釋區室化至乳滴,其中使用微流體以使剪切降到最低且控制大小,同時維持小滴生產的高通量(Zeng等人2010)。用具有小滴特異性條形碼的引物的乳滴PCR (上文2.A)將擴增源自在每個小滴內的相同HMW分子的許多片段。源自相同小滴的序列讀數將與最終文庫中的相同條形碼結合,由此促進每個祖先20 - 200Kb 分子的計算機分組和局限性裝配。
[0154]2.C.“預擴增的”HMW基因組DNA的加條形碼
[0155]在另一個實施例中(圖10),HMW DNA直接區室化至具有試劑的乳滴,其中再次使用微流體以使剪切降到最低,所述試劑支持小滴內的克隆、等溫多重置換擴增(MDAKMazutis 等人2009)。這些小滴隨后與含有標準轉座組以及用于乳滴PCR的試劑的小滴融合(用相對直接了當和成本有效的微流體裝置),其中使用具有小滴特異性條形碼的引物(上文2.A)。 關于上文描述的先前實施例,所得的文庫的回收和測序可查詢在每個分子上的鳥槍法一級序列和條形碼序列,其中預期共享相同條形碼的讀數源自相同祖先20 - 200Kb分子。
[0156]這種方法可用于轉座組斷裂,隨后為在單個乳滴內的PCR。當“單步”法用于生成來自細菌菌落的測序文庫時,可執行轉座隨后為不含清除步驟的PCR。在一些方面,通過加 A PCR試劑稀釋轉座組反應(Adey等人2010)。值得注意的是,在這種方法中是PCR聚合酶促進通過切口平移修復起因于轉座的9bp損傷。最低限度,這些數據示出MDA小滴可與支持轉座組反應的小滴融合,并且這些隨后可與含有PCR試劑和加條形碼引物的較大小滴融合。
[0157]相同有效末端結果可用體外方法唯一地達到。本文描述的每種方法(2.B,2.C)依賴將在每個乳滴小滴內的轉座組斷裂產物捕獲至獨特加條形碼的珠子。為了使這些方法之一(例如,2.C.中所述的方法;“預擴增的”HMW基因組DNA”的“加條形碼”)成功,基于轉座酶的斷裂和基于聚合酶的延伸均必須在相同乳滴區室內即在相同緩沖液內發生。最初實驗已集中于這個具體步驟,并且在非乳滴反應體積中進行,以促進最佳化(圖19中示意性的)。 近來證實了在所選緩沖液中的這種相容性。簡言之,制備反應體積,其含有在Nextera HMW 緩沖液中的50ng基因組DNA、dNTP、銜接子I和2、裝載的轉座酶和PCR聚合酶。銜接子I 和2設計為包括與合成轉座子互補的兩種序列,以及在其5’末端處的獨特序列(Pl和P2)。 轉座酶+延伸反應在55C下執行5:00以促進轉座,隨后立即為單輪熱循環,以促進切口平移且附加銜接子I和2 (72C進行10:00、95C進行0:30、62C進行0:30、72C進行10:00)。 使反應物進行基于柱的清除且隨后將其用作僅使用外部引物P1/P2的PCR中的模板。所得的擴增子大小分布(圖20)與在相同緩沖液中發生的基于轉座酶的斷裂和聚合酶延伸一致, 盡管具有有限的插入密度。在油包水乳劑的背景下,延伸產物或裝載有加條形碼的寡核苷酸的珠子的捕獲,可以證實這種反應。
[0158]中等范圍的鄰接信息可能足以廣泛支持個體人基因組的重測序中的單元型分辨。 為了測試這點,通過對大插入(F粘粒)克隆的復雜庫的加條形碼且測序,實現直接了當的 “捷徑”方案。具體地,從單個個體克隆隨機剪切的人基因組DNA (?35Kb),以獲得復雜的F 粘粒文庫(>2xl0-6個克隆)。隨后將這個文庫轉化至培養的大腸桿菌(E.coli)。將所得的轉化的大腸桿菌培養物分成115個部分,且選擇轉化體。滴定最初轉化,以獲得?5,000個克隆/庫。考慮到?35Kb的均勻插入大小,這對應于二倍體人基因組/庫的?3%物理覆蓋。隨后執行轉座組斷裂,以由115個庫中的每一個生成加條形碼的文庫。對于總共120Gb 的序列(PE76或PElOl+條形碼),在Illumina GA2x上的18個泳道上將這個文庫測序。對于總共86Gb的序列(PE50),或單倍體基因組的28倍覆蓋,還在Illumina HiSeq上的7個泳道上將來自這個相同個體的鳥槍法文庫測序。后面的數據單獨獲得3.6百萬SNP和插入 /缺失調用,但就迄今為止的所有個體人基因組序列,這些調用對單元型是不知情的。
[0159]在去卷積條形碼且對讀數作圖后,通過讀數深度容易地鑒定在每個庫內的各個克隆的大致邊界。鑒定對于二倍體基因組?3x物理覆蓋的總共538,009個克隆(4678± 1229/ 庫)。98.6%的基因組由1+個克隆覆蓋,并且93.6%由3+個克隆覆蓋。避免克隆庫的長期長出,以使生長效應對表示的影響降到最低。這是成功的,因為平均起來82%的克隆/庫具有在一個數量級內的讀數深度。因為每個庫僅稀疏地對整體而言的基因組取樣,但在任何給定庫內的重疊或‘克隆-碰撞’的比率很低。因此,源自每個庫的短讀數壓倒性地代表在任何給定位置處的來自兩個同源染色體中僅一個的等位基因。使用極度節省最大化方法在所有庫上裝配來自克隆的單倍體基因型調用(Bansal和Bafna2008)。所得的單元型裝配覆蓋93%的確定雜合SNPs,具有386Kb的N50。在所有RefSeq基因中,63%完全由單個定相單元型框包含,而75%至少一半由單個框包含。
[0160]將這個定相裝配與關于這個相同個體的HapMap預測相比較(圖11)。在非常高LD 的區域內(D’ >0.90),觀察到與HapMap預測幾乎完美的一致性(>99.5%—致)。因為選擇的樣品不是三個一組(trio)的部分,所以HapMap預測依賴等位基因之間的LD,以預測來自基因型調用的相。相應地,一致性在更高度重組基因的區域(D’〈0.10)中減少至?71%,其包括大多數(66%)成對SNP組合。這個基因組的單元型分辨的重測序是直接和實驗性的, 并且因此對基于群體的測量例如LD和等位基因頻率是完全互不相關的。因此,這個趨勢可能反映關于HapMap定相部分的誤差(Lecy等人2007)。
[0161]與基于群體的推論性方法形成對比,直接單元型分析允許罕見等位基因和結構變體的定相,包括在復雜的重復基因座處(Kidd等人2008)。例如,在這些數據中,觀察到含有在染色體7qll上的共同倒位多態性的克隆以及含有在染色體lp36上的罕見缺失多態性的克隆。類似方法可通過本文描述的方法用于將短序列讀數的明確指定影響至20 - 200Kb區域。無論是依賴克隆還是完全體外的,中等范圍鄰接信息促進個體人基因組的大范圍單元型分辨。進一步地,中等范圍鄰接信息還可促進大的復雜基因組的從頭裝配。
[0162]2.D.用珠子固定的轉座組的乳滴轉座
[0163]在另一個實施例中,可用高分子量基因組DNA和游離轉座酶來乳化珠子,所述珠子在以雙鏈DNA(dsDNA)轉座酶識別序列終止且以流動池引物開始的引物側接的 、簡并、單克隆條形碼寡核苷酸(oligonucleotide)(或“寡核苷酸(oligo)”)中包被。珠子固定的寡核苷酸和攻擊基因組DNA可在乳狀液內裝載轉座酶。所得的片段是PCR現成的且能夠連同其條形碼一起測序。條形碼結合隨后可用于將來自相同祖先分子的讀數分組。
[0164]這種方法包含幾個變體。例如,以鑲嵌式末端序列(ME)終止的加條形碼的寡核苷酸的許多克隆拷貝以其5’末端固定到每個珠子上。這些珠子可通過乳滴PCR用5’生物素化的引物和簡并區生成,或作為另外一種選擇,可合成較小組的加條形碼的寡核苷酸且固定至珠子。包含ME的反向互補體(ME’)的短寡核苷酸存在于乳滴混合物中,以支持轉座酶裝載。作為另外一種選擇,ME’可在乳化前退火且裝載到轉座酶上。可設計具有可酶促切割的部分的珠子結合的寡核苷酸,以允許裝載的轉座組分散在小滴內。
[0165]2.E.乳滴轉座和珠子捕獲
[0166]在另一個實施例中,由具有內部反向堿基的寡核苷酸包被珠子,由此具有兩個3’ 末端。在反向堿基的珠子遠端3’側的是引物位點側接的、簡并、單克隆條形碼和固定的銜接子序列(“NI引發”)。這些用底物(例如HMW gDNA)和預裝載有寡核苷酸5’ -Nl-ME的轉座酶乳化。轉座隨后在每個小滴內進行,從而生成與5’-Nl-ME序列共價連接的片段。隨后將混合物加熱,從而滅活轉座酶且使斷裂的底物變性。在緩慢冷卻后,通過轉座生成的5’-Nl 側接的片段對珠子結合的寡核苷酸的游離末端退火。隨后使用在每個小滴中或在破壞乳滴后存在的耐熱的聚合酶延伸珠子結合的寡核苷酸。條形碼結合隨后用于將源于相同祖先分子的讀數分組。
[0167]在替代方法中,在引物側接的、簡并、單克隆條形碼寡核苷酸中包被珠子。隨后,具有3’ -封閉部分的隨機六聚體(DNA或LNA)的庫通過ssDNA或RNA連接酶附著至每個珠子固定的寡核苷酸的3’末端。隨后將珠子、底物(例如HMW gDNA)和預裝載的轉座組乳化。 轉座導致具有共價附著的5’接頭的片段。將這些片段變性且允許其對珠子結合的寡核苷酸的隨機3’部分退火。隨后通過每個小滴中存在的聚合酶或通過破壞乳滴且加入聚合酶, 將雜交的片段延伸到條形碼內。條形碼結合隨后用于將源于相同祖先分子的讀數分組。
[0168]2.F.使用轉座酶末端捕獲長分子和乳化
[0169]在另一個實施例中,可使具有與末端連接的銜接子B’的長基因組DNA分子進行泡轉座子的轉座子插入,其中反向銜接子A序列構成被轉座子識別序列側接的泡。分子隨后可乳化,其中微量反應物的一部分含有大分子、在以銜接子B終止的單克隆簡并條形碼中包被的珠子、和銜接子A。隨后執行PCR,這導致用在珠子上連接的B銜接子擴增最外部的末端,從而附加獨特條形碼。
[0170]在使用洗滌的珠子執行后續PCR后,可將文庫測序且條形碼可用于結合來自原始長分子的末端中每一個的兩個末端序列,從而有效產生原始長分子無論是何種大小的跳查文庫。
[0171]2.G.經由轉座酶的17啟動子插入
[0172]在另一個實施例中,轉座組裝載有泡結構,被對于一側的17終止子和對于另一側的T7啟動子側接。這個結構通過以至少一個整合/千堿基的密度的大量轉座整合到底物 (例如HMW gDNA)內。所得的材料隨后用I7RNA聚合酶和珠子乳化,所述珠子含有被引發位點側接的單克隆簡并條形碼且以與在17終止子前的整合泡結構部分互補的序列(X)終止。 在每個小滴內執行體外轉錄,并且以X’終止的所得的RNA分子與其珠子結合的互補序列雜交。隨后執行逆轉錄,以在每個小滴內或在破壞乳滴后延伸珠子結合的寡核苷酸。條形碼結合隨后用于將源于相同祖先分子的讀數分組。
[0173]2.H.在銜接子泡插入的高分子量片段上乳滴PCR的延伸,以允許子裝配
[0174]在另一個實施例中,可插入形成“泡”的轉座子,其中在轉座子內的泡包括處于相反取向的兩個相同銜接子。使用處于相反取向的相同銜接子維持“泡”結構。泡可以約 I, OOObp的頻率插入。
[0175]如圖26中所示,隨后將大片段乳化,其中微量反應物的一部分將含有單個長DNA片段,在其5’末端經由生物素結合且由外部引物、簡并條形碼(對于每個珠子單克隆的)和經由轉座插入的針對銜接子的互補體組成的引物中包被的單個珠子。多重置換PCR (MDPCR) 隨后生成從每個銜接子插入位點延伸出的許多拷貝。
[0176]隨后破壞乳滴并且拉出珠子。用在不連續轉座子上的第二銜接子的轉座以對于擴增片段的每個拷貝遠離珠子的隨機距離出現。非珠子結合的產物的去除和擴增將產生其中來自大片段的所有擴增子均可彼此結合的文庫。文庫還保留使用通過來自原始條形碼銜接子的基因組DNA的測序而獲得的序列作為錨以結合讀數的能力,其中關于所有局部結合的讀數的成對讀數可用于子裝配,因為它們起于不同次級(乳滴PCR后)轉座事件。
[0177]2.1.在納升反應器中克隆有條形碼尾、隨機引發的擴增
[0178]在另一個實施例中,在具有對于每個珠子單克隆的簡并條形碼以及非克隆、完全簡并的短k聚體(k=5-9)的引物序列或其模板中包被珠子。通過從珠子中切除固定的DNA 寡核苷酸或替代地通過固定的DNA寡核苷酸體外轉錄成RNA引物而釋放這些引物。設計固定在珠子上的寡核苷酸,使得所得的DNA或RNA引物如下組構:
[0179]5’ 一 [共同I]一 [克隆條形碼]一[共同2]— [隨機_k-聚體]一3’ OH
[0180]可通過將這些完全序列(例如以96個不同條形碼的組)直接固定至珠子或通過乳滴PCR制備珠子固定的寡核苷酸。
[0181]因此制備的珠子用下述乳化:⑴以一個底物片段/小滴的靶濃度的底物DNA (例如高分子量基因組DNA),(ii)用于引物釋放/合成的試劑,包括但不限于I7RNAP和NTP、 任何合適的限制性酶、或尿嘧啶N-糖基化酶和DNA糖基化酶-分解酶,和(iii)支持來自切割/合成的引物的DNA聚合的試劑(例如phi29或Bst DNA聚合酶、dNTP)。
[0182]在其釋放或合成后,引物通過隨機引發對遍及底物分子的位點退火。包括的DNA 聚合酶沿著模板延伸退火的引物,從而導致多個、隨機間隔的dsDNA片段,所述片段含有在 5’末端處對給定小滴克隆的標記和源自沿著底物的多個點的3’末端序列。在一個方面, DNA聚合酶具有強鏈置換活性(例如phi29DNAP)。
[0183]在這個DNA聚合后,破壞乳滴。如果使用RNA引物,那么通過本領域已知的方法將每個引物中編碼的條形碼逆轉錄成DNA。最后,使所得的片段進行標準文庫構建.于相同祖先分子的讀數分組。
[0184]實例3:大范圍鄰接
[0185]使用空間信息(即在該處固定物理連接的測序模板的相對坐標)開發通過原位轉座到測序流動池表面上的非常高分子量(very HMW)基因組DNA內用于大范圍鄰接(例如 IOOKb -1OMb)的方法,與如上所述的將鄰接信息捕獲至條形碼相反。
[0186]此類方法通過下述完成:(I)采用原位轉座,以獲得來自任意大的單個DNA分子的成對末端讀數,和(2)開發相關方法,由此獲得沿著任意大的單個DNA分子的全長的多個讀數。
[0187]在一種方法中(圖12b),HMW DNA分子可用銜接子(FCAl)末端修飾,但隨后與流動池雜交,不連同拉伸。長DNA分子一般在溶液中采用不規則卷曲構型。一個末端雜交,而另一個末端在空間上受約束至與模板伸直長度的平方根成比例的面積。這增加它將在緊密或接近等同的物理位置(或“受約束的”物理位置)處雜交的可能性。隨后使固定的模板進行用轉座組的原位轉座,所述轉座組裝載有對應于第二流動池引物的雜種銜接子(FCA2),但還含有對應于兩個可能的測序引物之一的序列(Pl或P2)。在簇PCR后,約?50%的原始模板將可能產生兩個可見重疊或緊密定位的簇,其各自含有源自與Pl或p2鄰近的非常HMW 分子的一個或另一個末端的鳥槍法序列。源于具有相同或緊密定位的物理坐標的pl/p2的讀數高度可能已自相同非常HMW分子的末端得到。
[0188]對于這種方法(圖12b),分子應具有3’單鏈尾,其與流動池序列(即,簇PCR引物) 之一互補。為了實現這點,流動池銜接子A (或B)可附加至溶液中的HMW DNA分子的末端, 且隨后經由原位轉座插入銜接子B (或A)。在實踐中,對于這些步驟之一需要兩個不同種類的銜接子,即Al和A2 (或BI和B2)。這是因為源自在任何給定HMW DNA分子的任一末端處的片段的簇將緊密接近定位,具有干擾另一個的測序的潛力,除非使用不同測序引物。 這可通過使用兩種不同銜接子(即Al和A2 (或BI和B2))來實現,所述銜接子均含有流動池銜接子序列(A (或B)),但還在其3’末端處含有獨特序列,以促進不同、無法交叉雜交的測序引物的設計。在一個實施例中,將Al和A2加入溶液中的HMW DNA的末端,并且B經由轉座加入。這個方案致使HMW分子末端(與Al和A2鄰近)、而不是轉座連接點(與B鄰近) 的測序成為可能。轉座連接點必須包括19bp鑲嵌式末端(ME)序列,其使具有不同特異性的兩個測序引物的設計復雜化。然而,替代方案(通過19bp ME測序)將是不必要的浪費。
[0189]注意到光學作圖照常規用于分析長達IMb的分子。本文描述的系統可應用于相似長度的分子。
[0190]在另一種方法中,對拉伸的單個DNA分子的光學測序已顯示能夠獲得來自沿著相同分子的多個位置的高達3bp連續序列信息(Ramanathan等人2004)。因為讀數直接由單個分子生成,所以在很大程度上避免了樣品數量和PCR偏差的問題。然而,為了使這種方法在促進從頭基因組裝配中是實用的,讀數長度必須得到顯著改善。
[0191]此處,原位轉座可用于促進與光學測序相關但使用現有的下一代測序硬件、軟件和試劑的方法。在一種方法中(圖12a),非常HMW DNA分子的文庫(105_107bp)用銜接子 (FCAl)末端修飾,與引物包被的流動池的表面雜交,并且使用電場物理拉伸。在仍應用場時,將第二銜接子沖洗到流動池內且允許雜交(類似于(Geiss等人2008))。這鎖定每個模板的游離末端且使其保留在拉伸位置中。隨后可引入預裝載有第二流動池相容銜接子 (FCA2)的轉座組,以隨機斷裂拉伸的分子,同時插入這些銜接子。大多數片段將接受兩個 FCA2銜接子,除了具有FCAl和FCA2的末端外。經由這些銜接子的簇PCR僅在拉伸分子的末端處產生簇。以這種方式,我們獲得空間上共線性的簇,其已知源自相同親本分子且通過簇之間的物理距離相關。
[0192]3.A.光學測序和原位文庫構建
[0193]使用限制性酶的光學作圖已成功生成用于基因組裝配的大范圍鄰接圖(Zhou等人 2009 ;Zhou 等人 2007 ;Lin 等人 1999 ;Lim 等人 2001 ;Lai 等人 1999 ;Schwartz 等人 1993)。然而,由于星號活性和無效切割,這個過程受假陽性和陰性切割位點限制,從而迫使來自相同區域的多個光學圖生成共有的圖。限制性酶識別位點的非一致分布還可限制源自重復或低復雜性區域的有用信息的量。
[0194]如上所述,與最成本有效的DNA測序技術結合的相對短的讀數長度已限制了從頭基因組裝配以及人基因組測序的質量和完全性。目前存在很少或不存在這樣的穩固方法:所述方法以與大規模平行測序的目前規模相稱的通量捕獲中等范圍和大范圍鄰接信息。為了解決這個局限性,構建原位文庫且在目前可獲得的下一代測序平臺的流動池上執行光學測序。通過使用在標準Illumina流動池上的原位文庫構建生成通過1、2和3kb分離的 >30,000大腸桿菌成對末端讀數,這產生用單一技術捕獲鄰接信息和一級序列的有效方法。
[0195]表面介導的橋式PCR對于>=lkb的插入表現不佳,這限制Illumina平臺生成來自高分子量(HMW)DNA的天然長成對末端讀數的能力。為了避免這點,受約束至特定大小范圍的HMW DNA分子用兩種流動池相容的銜接子序列(FCA1和FCA2)末端修飾,所述銜接子序列各自含有兩種可能的引發測序引物之一(Pl或P2)。模板隨后在穩流下與流動池表面雜交,在其過程中它們一般采用不規則卷曲構型。當一個模板末端雜交時,它在空間上約束另一個模板末端,由此增加它將在緊密物理接近中雜交的可能性。隨后使固定的模板進行用轉座組的原位轉座,所述轉座組裝載有對應于第二種流動池銜接子(FCBl)的雜合銜接子。 如果沒有轉座事件,每個模板分子僅含有生成簇所需的兩種所需流動池銜接子之一。對于轉座的模板,這個過程生成兩個低分子量(LMW)模板,其均能夠簇形成且在緊密接近中與表面雜交。在橋式PCR擴增后,50%的模板應產生兩個重疊或緊密定位的簇,其各自含有源自HMW分子的一個或另一個末端的鳥槍法序列。pi隨后連續用于將一個末端測序并且p2 用于將模板的另一個末端測序,并且源于緊密定位的物理坐標的讀數可能已從相同HMW親本分子的末端得到。以這種方式,通過在該處生成簇 的空間坐標提供了信息,以推導大范圍鄰接。以相似方法,在一個末端拴系且使用流或電場拉伸的HMW DNA分子可用合適的銜接子原位轉座,以生成源自相同親本分子的多個共線性簇。
[0196]材料與方法
[0197]文庫合成。來自大腸桿菌B型細胞的基因組DNA得自USB (部分#14380)且在 Bioruptor (Diagenode)上物理剪切30秒。DNA隨后在以I O OV運行2小時的1%瓊脂糖凝膠上進行大小選擇,純化(Qiagen QIAquick Gel Extraction Kit),且末端修復(End-1t, Epicentre)。將發夾銜接子自退火,且隨后使用Fast-Link連接酶(Epicentre)平端連接過夜。通過用核酸外切酶III (NEB)和VII (Epicentre)處理來去除未連接的基因組DNA和銜接子。分子隨后用尿嘧啶特異性切除試劑(USER?) (NEB)處理,以生成單鏈流動池互補3’ 尾。
[0198]轉座組裝載。含有轉座酶鑲嵌式、引物位點和流動池銜接子序列的合成DNA寡核苷酸得自IDT。將銜接子退火且通過混合且在室溫下溫育20分鐘裝載到轉座酶(Tn5, Epicentre)上。
[0199]原位流動池文庫構建和測序。書寫定制簇生成方案以容納在標準Illumina簇站上裝載的模板和轉座組。流動池首先用雜交緩沖液引發且隨后以rc /秒的速率加熱至 96°C。在96°C下,將標準Illumina測序文庫作為對照裝載到分離泳道內,而另外七個泳道接受雜交緩沖液。在2分鐘溫育后,將溫度以0.05°C/秒降低至65°C,以雜交對照文庫。在這個點上,在流動池的輸入和輸出側上去除在用于對照泳道的歧管上的管道系統。將大腸桿菌文庫以15 U L/分鐘加入每個泳道2.5分鐘,隨后以0.020C /秒將流動池緩慢冷卻至 40°C。在5分鐘溫育后,將流動池以1°C /秒加熱至55°C。隨后將裝載的轉座組以15 ii L/ 分鐘加入含有大腸桿菌的泳道。流動池在55°C下溫育5分鐘,以允許轉座發生且隨后冷卻至40°C。隨后將新歧管安裝到簇站上,并且將Illumina洗滌/擴增緩沖液注射到整個流動池上。第一鏈合成在65°C下執行5分鐘和在74°C下執行5分鐘,其中使用文庫特異性 DNA聚合酶。隨后根據制造商的方案,使標準人對照文庫與每個大腸桿菌泳道雜交。用橋式擴增的35個循環生成簇。根據制造商的方案,用RTA1.8和SBS v5在Illumina Genome Analyzer Iix上獲得兩個分離的單個末端36bp (SE36)讀數。
[0200]數據收集和分析。使用定制Perl腳本從fastq文件中提取來自讀數I和讀數2 的每個簇的X-Y坐標。這個數據使用MATLAB中的normxcorr2函數用于計算成像偏移,并且相應地校正關于讀數2的X-Y坐標。讀數隨后使用Burrows-Wheeler Aligner (BffA)分別對大腸桿菌基因組作圖,并且使用定制Perl腳本測定在讀數I和讀數2之間的鄰近的簇的同一性。
[0201]
[0202]體外和原位文庫構建和測序。本文提供了用于生成含有單鏈流動池相容3’尾的 HMW DNA文庫的有效方法。簡言之,將來自大腸桿菌的基因組DNA物理剪切,就1、2或3kb 尺寸分子進行大小選擇,純化且末端修復。將含有接近發夾的環的三個尿嘧啶堿基的發夾銜接子(圖31a)自退火,且隨后平端連接至經大小選擇的文庫。通過用核酸外切酶III和 VII處理來去除未連接的基因組DNA和銜接子,以獲得在兩個末端上均具有發夾銜接子的分子的富集群體。分子隨后用USER?處理,以打開發夾環且釋放單鏈流動池互補3’尾。隨后使用略微修改的熱循環方案,使分子的兩個末端均與標準Illumina流動池表面雜交。將裝載有流動池相容銜接子的Tn5轉座酶加入流動池,以隨機斷裂且將銜接子加入HMW分子, 由此生成LMW測序現成模板(圖31b)。將每個大腸桿菌文庫與人對照文庫合并,裝載到分離的泳道上,并且在Illumina GAIIx上獲得兩個分離的單末端36pb讀數(SE36)。
[0203]重構鄰接信息。下表1示出了關于如上所述構建的1、2和3kb文庫的作圖讀數的分布。
[0204]表1
[0205]
【權利要求】
1.一種用于捕獲鄰接信息的方法,所述方法包括: 用轉座酶處理靶DNA序列,從而導致一個或多個斷裂或插入事件; (i)在所述轉座酶處理過程中或(ii)在后續擴增過程中,將一個或多個識別序列加入或插入所述靶DNA序列; 將經處理的DNA測序;和 通過鑒定具有共享性質的靶DNA序列或識別序列來捕獲鄰接信息。
2.根據權利要求1所述的方法,其中所述一個或多個斷裂或插入事件導致源自所述靶DNA的祀核酸分子文庫的生成。
3.根據權利要求2所述的方法,其中所述一個或多個識別序列是一個或多個條形碼,所述一個或多個條形碼被對稱地標記至與每個斷裂或插入事件鄰近的序列。
4.根據權利要求3所述的方法,其中所述一個或多個條形碼的共享性質是等同或互補的條形碼序列。
5.根據權利要求1所述的方法,其中所述靶DNA序列包含一組靶DNA片段。
6.根據權利要求5所述的方法,其還包括用乳狀液或稀釋物區室化所述靶DNA片段,從而在用所述轉座酶處理前或后生成靶DNA片段的兩個或更多個區室。
7.根據權利要求6所述 的方法,其中所述一個或多個識別序列是一個或多個區室特異性條形碼,所述一個或多個區室特異性條形碼中的每一個對應于在區室化步驟中生成的一個或多個區室。
8.根據權利要求7所述的方法,其中一個或多個引物序列的共享性質是等同的區室特異性條形碼。
9.根據權利要求7所述的方法,其還包括使用具有區室特異性條形碼的引物執行核酸擴增。
10.根據權利要求1所述的方法,其中所述一個或多個識別序列是一個或多個銜接子序列,所述一個或多個銜接子序列修飾所述靶DNA序列的末端或在所述靶DNA序列內插入。
11.根據權利要求10所述的方法,其中所述一個或多個銜接子序列與一個或多個表面結合的引物互補。
12.根據權利要求11所述的方法,其中所述轉座酶與核酸結合,所述核酸與第二表面結合的引物互補。
13.根據權利要求11所述的方法,其還包括使所述一個或多個銜接子序列與所述一個或多個表面結合的引物雜交。
14.根據權利要求13所述的方法,其中所述共享性質是受約束的物理位置。
15.根據權利要求1所述的方法,其中所述轉座酶與表面結合的識別序列結合,以形成表面結合的轉座酶復合物。
16.根據權利要求15所述的方法,其中所述共享性質是受約束的物理位置。
17.根據權利要求15所述的方法,其中處理所述靶DNA序列包括使多個表面結合的轉座酶復合物暴露于所述靶DNA序列。
18.—種亞硫酸氫鹽測序的方法,所述方法包括: a)用轉座酶復合物執行體外轉座到靶DNA分子內,每個轉座酶復合物包含雙鏈DNA轉座酶識別序列和具有甲基化胞嘧啶(C)殘基的單鏈DNA銜接子突出端;b)使轉座的靶DNA分子進行亞硫酸氫鹽處理; c)執行核酸擴增; d)將所得的核酸文庫測序。
19.根據權利要求18所述的方法,其還包括在步驟(a)后和在步驟(b)前,將第二銜接子摻入源自靶DNA的核酸片段,其中所述第二銜接子設計為促進步驟(c)中的核酸擴增。
20.根據權利要求18所述的方法,其還包括在步驟(b)后和在步驟(c)前,將第二銜接子摻入源自靶DNA的核酸片段,其中所述第二銜接子設計為促進步驟(c)中的核酸擴增。
21.一種用于推導染色體構象的方法,所述方法包括: a)使細胞內的DNA交聯; b)從細胞中分離交聯DNA; c)將所述交聯DNA斷 裂; d)用銜接子末端修飾斷裂的交聯DNA分子,所述銜接子與第一表面結合的引物互補或對應于第一表面結合的引物; e)使所述斷裂的、末端修飾的靶DNA分子的末端與所述第一表面結合的引物雜交; f)用非表面結合的轉座酶復合物執行轉座,每個非表面結合的轉座酶復合物包含DNA轉座酶和對應于第二表面結合的引物的一個或多個序列; g)執行簇擴增,以產生以克隆方式得到的核酸的簇; h)將以克隆方式得到的核酸的簇測序;和 i)通過一起消減鄰近的簇來測定在染色體位置之間的物理相互作用。
22.根據權利要求21所述的方法,其中分離的交聯DNA是交聯DNA-蛋白質復合物的部分。
23.根據權利要求22所述的方法,其還包括通過在步驟(c)后和在步驟(d)前的免疫沉淀來富集一種或多種特異性的交聯DNA-蛋白質復合物。
【文檔編號】C40B30/04GK103443338SQ201280012945
【公開日】2013年12月11日 申請日期:2012年2月2日 優先權日:2011年2月2日
【發明者】杰·阿肖克·申杜雷, 杰羅德·約瑟夫·施瓦茲, 安德魯·科林·阿迪, 卓立·李, 約瑟夫·布萊恩·海特, 雅各布·奧托·基茨曼, 阿卡什·庫馬爾 申請人:華盛頓大學商業化中心