用于確定拷貝數變異的系統和方法
【技術領域】
[0001] 本發明總體上涉及包括用于確定拷貝數變異的系統和方法的核酸測序領域。
[0002] 相關申請
[0003] 本申請涉及2013年3月6日提交的美國臨時申請第61/773,584號,其以全文引 用的方式并入本文中。
【背景技術】
[0004] 在完成人類基因組項目(Human Genome Project)后,測序行業的一個焦點已轉移 到發現較高通量和/或較低成本核酸測序技術,有時稱為"下一代"測序(NGS)技術。在使 得測序通量更高和/或更便宜中,目標為使得技術更可獲得。這些目標可以通過使用對具 有顯著復雜度的樣品提供樣品制備、并行地對較大數目的樣品測序(例如通過使用條碼和 多重分析)和/或有效處理大量信息且以及時方式完成分析的測序平臺和方法達到。進化 形成各種方法,如合成測序、雜交測序和連接測序來迎接這些挑戰。
[0005] 并入NGS技術的超高通量核酸測序系統通常產生大量短序列讀數。序列處理方法 應合意地快速且有效地裝配和/或映射大量讀數,以使得使用的計算資源最小化。舉例來 說,由對哺乳動物基因組測序產生的數據可以產生數千萬或數億讀數,所述讀數通常需要 在其可以另外經分析以確定其生物、診斷和/或治療相關性之前經裝配。
[0006] NGS技術的示例性應用包括(但不限于):基因組變異體檢測,如插入/缺失、拷貝 數變異、單核苷酸多態性等;基因組重測序;基因表達分析;和基因組剖析。
[0007] 拷貝數變異(CNV)可以指示大規模染色體重排,如大型插入或缺失,其可以通常 發現于癌組織中。在一些情況下,整個染色體可以損失或復制(非整倍體),其為基因病癥, 如唐氏綜合癥(Down syndrome)(第21對染色體三體癥)、貓眼綜合癥(第22對染色體三 體癥)、威廉姆斯綜合癥(Williams syndrome)(第7對染色體單體癥)和各種其它病癥的 常見病因。鑒別拷貝數變異可以幫助理解和判斷癌癥和非整倍體基因病癥。
[0008] 從前文應了解的是需要可以確定拷貝數變異的系統和方法。
【附圖說明】
[0009] 為了更完整地理解本文所公開的原理和其優點,現在參考下文結合附圖進行的描 述,其中:
[0010] 圖1為說明根據各種實施例的示例性計算機系統的框圖。
[0011] 圖2為根據各種實施例重構核酸序列的例示性系統的示意圖。
[0012] 圖3為根據各種實施例的示例性基因分析系統的示意圖。
[0013] 圖4為說明根據各種實施例的鑒別拷貝數變異的示例性方法的流程圖。
[0014] 應理解,圖式不一定按比例繪制,圖式中的物件也不一定關于彼此按比例繪制。圖 式為打算使得對本文所公開的設備、系統和方法的各種實施例明晰和理解的描繪。在可能 的情況下,將在整個附圖中使用相同的參考數字來指代相同或類似的部分。此外,應了解, 附圖并不打算以任何方式限制本發明教示的范圍。
【具體實施方式】
[0015] 用于檢測低頻變異體的系統和方法的實施例描述于本文中。
[0016] 在各種實施例中,鑒別拷貝數變異讀數的方法可以包括將讀數映射到參考基因 組、對于多個圖像塊計算覆蓋度和基于跨越所述多個圖像塊的覆蓋模式對于圖像塊正規化 覆蓋度。所述方法可以進一步包括對于在多個倍性狀態下的所述多個圖像塊確定評分、跨 越圖像塊和貫通倍性狀態確定最大評分路徑以及基于最大似然路徑提供拷貝數確定值。
[0017] 在各種實施例中,覆蓋模式可以關于GC偏移校正。在各種實施例中,倍性狀態下 的圖像塊的評分可以基于正規化覆蓋度與調整到探索倍性狀態的按比例縮放基線覆蓋度 之間的差異。
[0018] 在各種實施例中,評分可以是似然函數。似然性可以使用方程式L = N(S_C,0, Sd) 確定,其中S為圖像塊的正規化樣品覆蓋度,C為圖像塊的按比例縮放基線覆蓋度,且Sd為 覆蓋度差異的標準差。
[0019] 在各種實施例中,最大評分路徑可以使用動態編程算法確定。在各種實施例中,所 述方法可以進一步包括確定最大評分路徑與預期倍性狀態的評分比率。在各種實施例中, 所述方法可以進一步包括確定最大評分路徑與最可能相鄰狀態的評分比率。
[0020] 在各種實施例中,鑒別重復讀數的系統可以包括映射引擎和拷貝數分析模塊。映 射引擎可以可操作以將讀數映射到參考基因組以確定基因組起始位置和流動終點位置。拷 貝數分析模塊可以包括處理引擎和拷貝數變異體主叫。處理引擎可操作以確定圖像塊的覆 蓋度且基于覆蓋模式和GC含量偏移正規化覆蓋度。拷貝數變異體主叫可操作以確定以多 個倍性狀態存在的圖像塊的評分,且跨越圖像塊、貫通倍性狀態確定最大評分路徑。
[0021] 在各種實施例中,評分可以是似然函數。倍性狀態下的圖像塊的似然性可以基于 正規化覆蓋度與按比例縮放到倍性狀態的按比例縮放基線覆蓋度之間的差異。似然性可以 使用方程式L = N(S_C,0, Sd)確定,其中S為圖像塊的正規化樣品覆蓋度,C為圖像塊的按 比例縮放基線覆蓋度,且Sd為覆蓋度差異的標準差。
[0022] 在各種實施例中,最大評分路徑使用動態編程算法確定。在各種實施例中,拷貝數 分析模塊可以進一步包括可操作以確定最大評分路徑與預期倍性狀態的評分比率的后處 理模塊。在各種實施例中,拷貝數分析模塊可以進一步包括可操作以確定最大評分路徑與 最可能相鄰倍性狀態的評分比率的后處理模塊。
[0023] 在各種實施例中,鑒別拷貝數變異讀數的方法可以包括對樣品進行多個擴增來產 生一組樣品擴增子,和對匹配對照物進行多重擴增來產生一組對照擴增子。所述方法可以 進一步包括將具有第一條碼序列的銜接子接合到樣品擴增子以創建樣品庫,將具有第二條 碼序列的銜接子接合到對照擴增子以創建對照庫,和實質上同時對樣品和對照庫測序以避 免運行內測序變異來產生多個讀數。另外,該方法可包括基于第一或第二條碼序列的存在 將讀數鑒別為樣品讀數或對照讀數,和將樣品讀數和對照讀數映射到參考基因組。另外,該 方法可包括基于映射到圖像塊的樣品讀數對于多個圖像塊計算樣品覆蓋度,基于映射到圖 像塊的對照讀數對于圖像塊計算基線覆蓋度,和基于跨越所述多個圖像塊的樣品覆蓋模式 或對照覆蓋模式對于圖像塊正規化樣品覆蓋度和基線覆蓋度。在各種實施例中,樣品覆蓋 模式和對照覆蓋模式可以關于GC偏移校正。所述方法可以進一步包括基于圖像塊的正規 化樣品覆蓋度和基線覆蓋度確定多個倍性狀態下的所述多個圖像塊的評分,跨越圖像塊和 貫通倍性狀態確定最大似然路徑;和基于最大似然路徑提供拷貝數確定值。
[0024] 在各種實施例中,倍性狀態下的圖像塊的評分是基于正規化覆蓋度與調整到探索 倍性狀態的按比例縮放基線覆蓋度之間的差異。評分為似然函數。似然性使用方程式L= N(S-C,0,Sd)確定,其中S為圖像塊的正規化樣品覆蓋度,C為圖像塊的按比例縮放基線覆 蓋度,且Sd為覆蓋度差異的標準差。
[0025] 在各種實施例中,所述方法可以進一步包括確定最大評分路徑與預期倍性狀態的 評分比率。在各種實施例中,所述方法可以進一步包括確定最大評分路徑與最可能相鄰狀 態的評分比率。
[0026] 本文中所用的章節標題僅用于組織目的并且不應理解為以任何方式限制所描述 的主題。
[0027] 在各種實施例的此詳細描述中,出于解釋的目的,闡述許多特定細節以提供所公 開的實施例的透徹理解。但是,所屬領域的技術人員將了解,這些各種實施例可以在具有或 不具有這些特定細節的情況下實踐。在其它情況下,結構和裝置以框圖形式顯示。此外,所 屬領域的技術人員可以容易地了解的是呈現和進行方法的特定順序為說明性的且預期順 序可以改變且仍保持在本文所公開的各種實施例的精神和范圍內。
[0028] 本申請中引用的所有文獻和類似材料(包括(但不限于)專利、專利申請、文章、 書籍、論文和因特網網頁)出于任何目的明確以全文引用的方式并入。除非另外描述,否則 本文中所用的所有技術和科學術語具有與本文所描述的各種實施例所屬領域的一般技術 人員通常所了解相同的含義。
[0029] 應了解,在本發明教示中論述的溫度、濃度、時間、堿基數目、覆蓋度等之前存在隱 含的"約",使得略微和非實質偏差在本發明教示的范圍內。在本申請中,除非另外明確陳 述,否則單數的使用包括復數。此外,"包含(comprise/comprises/comprising) "、"含有 (contain/contains/containing) ',和''包括(include/includes/including) ',的使用并不 打算是限制性的。應理解,以上一般描述和以下詳細描述均僅是示例性和解釋性的并且并 不限制本發明教示。
[0030] 如本文所用,"一(a/an) "也可指"至少一"或"一或多"。另外,使用的"或(or) " 為包含性的,使得當"A"真實、"B"真實,或"A"和"B"兩者真實時,短語"A或B"真實。
[0031] 此外,除非上下文另外需要,否則單數術語應包括復數并且復數術語應包括單數。 一般來說,本文中所述的與細胞和組織培養、分子生物學以及蛋白質和寡核苷酸或聚核苷 酸化學和雜交結合使用的命名法和技術為所屬領域中眾所周知并常用的命名法和技術。 標準技術用于例如核酸純化和制備、化學分析、重組核酸和寡核苷酸合成。酶促反應和純 化技術根據制造商的說明書或如所屬領域中通常所實現或如本文中所述來執行。本文中 所述的技術和程序通常根據所屬領域中眾所周知以及如本發明的說明書通篇中所引用和 論述的各種一般性和較特定的參考文獻中所述的常規方法來執行。參看例如薩姆布魯克 (Sambrook)等人,《分子克隆實驗指南》(Molecular Cloning:A Laboratory Manual)(第三 版,冷泉港實驗室出版社(Cold Spring Harbor Laboratory Press),紐約州冷泉港(Cold Spring Harbor,N. Y.) 2000)。結合本文中所述的實驗室程序和技術使用的命名法是所屬領 域中眾所周知并且常用的命名法。
[0032] 闡述一組組分的"系統"(真實或抽象)包含一個整體,其中每一組分與整體內的 至少一個其它組分相互作用或與其相關。
[0033] "生物分子"可指通過生物有機體產生的任何分子,包括大聚合分子,如蛋白質、多 糖、脂質和核酸(DNA和RNA)以及小分子,如初級代謝物、次級代謝物和其它天然產物。
[0034] 短語"下一代測序"或NGS是指相比于傳統的基于桑格(Sanger