使用多態計數來解析基因組分數的制作方法
【專利摘要】公開一種從多態性例如小堿基變化或者插入-缺失可靠估計基因組分數(例如,胎兒分數)的方法。來自多基因組源的已測序數據用于確定對于一個或多個多態性等位基因計數。對于一個或多個多態性,接合性是分配的,而基因組分數從接合性和等位基因計數確定。某些實施例使用SNP作為相關多態性。所公開的方法能夠應用作為目標在于已知多態性的故意的、預先設計的重測序研究的組成部分,或者能夠用在從母體血漿產生的重疊序列中巧合發現的變化的回顧性分析中(或者其他任何存在多人DNA的混合物的設定)。
【專利說明】使用多態計數來解析基因組分數
[0001]相關申請的交叉引用
[0002]本申請要求2011年4月12日提交的美國臨時申請序號61/474362的優先權,通過引用將其內容完整地結合到本文中用于所有目的。
【背景技術】
[0003]母體血液中的自由浮動胎兒DNA (有時稱作“游離(cell free) DNA”或“cfDNA”)發現允許從血液樣本來檢測染色體異常、異倍性和畸變的可能性。母體血漿中的胎兒DNA的分數(fraction)豐度不是恒定的,而且隨多種因素-包括樣本處理和孕齡_而變化。
[0004]在使用DNA測序來識別染色體畸變或遺傳缺陷時,重要的是了解DNA總群體中的胎兒DNA的相對豐度。例如,當胎兒分數已知時,能夠通過置換方法或者線性組合的積分或經由從a到無窮大的非中心F分布的卷積來計算統計能力(識別反常情況的概率,或者靈敏度),其中在零假設下的得分群體的重要性(錯誤地稱作反常的最大似然)的a臨界點沒有畸變。
[0005]用于檢測胎兒分數的現有方法的缺點在于,它們依靠性染色體(其只能用于可靠地測量男性胚胎DNA的相對豐度)的豐度的量度或者已知為在懷孕與胚胎組織之間差異表達的基因的mRNA序列(其因孕齡或其它因素而須經表達的可變性)。
[0006]胎兒分數的估計因若干討厭因素而較難,包括:雙親種族差異群體遺傳參數和測序誤差。因此,需要在這些及其它普遍發生的混合因素存在的情況下具有健壯的方法。
【發明內容】
[0007]某些所公開實施例涉及通過對母體血液樣本進行測序來可靠地測量胎兒自由浮動DNA的相對豐度的計算方法。
[0008]在具體實施例中,本發明提供從多態性(例如小堿基變化或者插入-缺失,其相對雙親種族、胚胎性別、孕齡和其它環境因素是健壯的)來可靠地估計胎兒分數的方法。本文所公開的許多示例采用SNP作為相干多態性。本發明能夠作為針對已知多態性的特意預先設計的再測序研究的組成部分來應用,或者能夠用于通過從母體血漿(或者其中存在來自數人的DNA的混合的任何其它設定)所生成的重疊序列的一致性所發現的變化的回顧分析中。
[0009]本文檔提供用于估計母體血液樣本中的胎兒DNA的分數豐度的技術。某些所公開技術使用通過偶然發現或者在設計用于便于估計胎兒分數的預先知道SNP的面板中發現的SNP的所觀測等位基因頻率。
[0010]雖然公開的許多部分涉及估計樣本中的胎兒核酸的分數,但是本發明并不局限于此。本文所述的技術和裝置在許多情況下能夠用于從兩個基因組的混合中的一個基因組-其可以或者可以不是作為父 子基因組來相關的-來估計核酸的分數。
[0011]本公開的某些方面涉及估計從懷孕個體的體液所得到的DNA中的胎兒DNA的分數。這類方法的特征可在于下列操作:(a)接收體液的樣本;(b)在提取體液中存在的母體基因組和胎兒基因組的DNA的條件下從樣本中提取DNA ; (c)在產生包含一個或多個多態性的DNA段序列的條件下采用核酸測序器對所提取DNA進行測序;(d)將從對液體中的DNA進行測序所得出的DNA段序列映射到參考序列上的一個或多個所指定多態性;(e)對于所指定多態性的至少一個來確定映射DNA段序列的等位基因頻率;(f)基于懷孕個體的接合性和胎兒的接合性的組合來分類至少一個所指定多態性;以及(g)使用在(e)所確定的等位基因頻率和來自(f)的接合性的組合來估計從懷孕個體所得到的DNA中的胎兒DNA的分數。
[0012]映射可使用計算裝置來執行,其編程為將核酸序列映射到一個或多個所指定多態性。一般來說,操作(d)-(g)的任一個可在程序指令下在一個或多個處理器上執行。
[0013]在某些實施例中,從懷孕個體的體液所得到的DNA是從懷孕個體的血漿所得到的游離DNA。通常在沒有選擇性地放大一個或多個所指定多態性的任一個的情況下進行測序。
[0014]在某些實施例中,映射從攜帶胎兒的個體的血液所得到的DNA段包括以計算方式將段映射到多態性的數據庫。在某些實施例中,(f)中的分類將至少一個所指定多態性分為下列組合之一:(i)懷孕個體是純合(homozygous)的,并且胎兒是純合的,(ii)懷孕個體是純合的,而胎兒是雜合(heterozygous)的,(iii)懷孕個體是雜合的,而胎兒是純合的,以及(iv)懷孕個體是雜合的,并且胎兒是雜合的。
[0015]可采用各種過濾操作。這些包括例如不予考慮組合(i)或組合(iv)中分類的任何多態性。在另一個示例中,方法還包括過濾至少一個所指定多態性,從而不予考慮具有比所定義閾值要大的未成年(minor)等位基因頻率的任何多態性。在又一個示例中,方法包括如下操作:過濾至少一個所指定多態性,從而不予考慮具有比所定義閾值要小的未成年等位基因頻率的任何多態性。
[0016]分類操作可按照各種方式來實現。例如,它可涉及將閾值應用于(e)中確定的等位基因頻率。在另一個示例中,分類操作涉及把來自(e)、對于多個多態性所得到的等位基因頻率數據應用于混合模型。在一個實現中,混合模型采用階乘矩。
[0017]如本文所述所確定的胎兒分數可用于各種應用。在一些示例中,本文所述的方法包括如下操作:在一個或多個處理器上運行程序指令,以便將(g)中所確定的DNA的胎兒的分數自動記錄在用于懷孕個體的患者病歷中,其存儲在計算機可讀介質上。患者病歷可由實驗室、醫生辦公室、醫院、保健組織、保險公司或者個人病歷網站來保持。在另一個應用
中,胎兒DNA的分數的估計用于規定、發起和/或`改變受檢者(human subject)-從其獲
取母體測試樣本——的治療。在另一個應用中,胎兒DNA的分數的估計用于指示和/或執行一個或多個附加測試。
[0018]本公開的另一方面涉及用于估計從懷孕個體的體液所得到的DNA中的胎兒DNA的分數的裝置。這種裝置的特征可在于下列特征:(a)測序器,配置成(i)接收從包含母體基因組和胎兒基因組的體液的樣本所提取的DNA,并且(ii)在產生包含一個或多個所指定多態性的DNA段序列的條件下對所提取DNA進行測序;以及(b)計算裝置,配置成(例如編程為)指示一個或多個處理器執行各種操作,例如隨本文所述方法操作的兩個或更多所述的那些操作。在一些實施例中,計算裝置配置成:(i)將核酸序列映射到參考序列上的一個或多個所指定多態性,(?)對于所指定多態性的至少一個來確定映射DNA段序列的等位基因頻率,(iii)基于懷孕個體的接合性和胎兒的接合性的組合來分類至少一個所指定多態性,以及(iV)使用等位基因頻率和接合性的組合來估計從懷孕個體所得到的DNA中的胎兒DNA的分數。
[0019]在某些實施例中,該裝置還包括用于在提取母體基因組和胎兒基因組的DNA的條件下從樣本中提取DNA的工具。在一些實施方式中,該裝置包括配置成提取從懷孕個體的血漿所得到的游離DNA以供測序器中測序的模塊。
[0020]在一些示例中,該裝置包括多態性的數據庫。該計算裝置還可配置成指示一個或多個處理器通過在計算上將段映射到多態性的數據庫,來映射從懷有胎兒的個體的血液所得到的DNA段。數據庫中的序列是參考序列的示例。下面提供參考序列的其它示例。
[0021 ] 在某些實施例中,該計算裝置還配置成指示一個或多個處理器將至少一個所指定多態性分類為下列組合之一:(i)懷孕個體是純合的,并且胎兒是純合的,(ii)懷孕個體是純合的,而胎兒是雜合的,(iii)懷孕個體是雜合的,而胎兒是純合的,以及(iv)懷孕個體是雜合的,并且胎兒是雜合的。在一些實施例中,計算裝置還配置成指示一個或多個處理器不予考慮組合(i)或組合(iv)中所分類的任何多態性。
[0022]在某些實施例中,該計算裝置還配置成指示一個或多個處理器不予考慮具有比所定義閾值要大的未成年等位基因頻率的任何多態性。在一些實施例中,該計算裝置還配置成指示一個或多個處理器過濾一個或多個所指定多態性,從而不予考慮具有比所定義閾值要小的未成年等位基因頻率的任何多態性。在某些實施例中,該計算裝置還配置成指示一個或多個處理器通過將閾值應用于等位基因頻率,來分類至少一個所指定多態性。
[0023]在某些實施例中,該計算裝置還配置成指示一個或多個處理器通過將對于多個多態性所得到的等位基因頻率數據應用于混合模型,來分類至少一個所指定多態性。混合模型可采用階乘矩。
[0024]在某些實施例中,該計算裝置還配置成指示一個或多個處理器將DNA的胎兒分數記錄在懷孕個體的患者病因中,其存儲在計算機可讀介質上。患者病歷可由實驗室、醫生辦公室、醫院、保健組織、保險公司或者個人病歷網站來保持。
`[0025]本公開的另一方面涉及按照下列操作來估計從懷孕個體的體液所得到的DNA中的胎兒DNA的分數的方法:(a)將從懷孕個體的體液所得到的DNA段映射到多個多態性序列,其中在識別多個多態性序列的條件下對DNA測序;(b)確定多個多態性序列的每個的映射核酸的等位基因頻率;以及(c)將等位基因頻率應用于混合模型,以便得到從攜帶胎兒的個體的血液所得到的DNA中的胎兒DNA分數的估計。操作(a)-(c)的任何一個或多個可在程序指令下運行的一個或多個處理器上執行。在某些實施例中,操作(c)涉及在一個或多個處理器上運行指令,以用于求解多個多態性序列的每個的等位基因數據的階乘矩的一系列等式。在一些實施例中,混合模型考慮測序誤差。
[0026]在某些實施例中,方法還包括在計算上去除識別為在胎兒和懷孕個體中均是雜合的多態性的等位基因頻率。在一些實施方式中,在(C)之前,方法包括在計算上去除識別為在胎兒和懷孕個體中均是純合的多態性的等位基因頻率的操作。在一些實施方式中,在(C)之前,方法包括在計算上去除識別為在懷孕個體中是雜合的多態性的等位基因頻率的操作。
[0027]從懷孕個體的體液所得到的DNA可以是從懷孕個體的血漿所得到的游離DNA。從液體所得到的核酸的映射可通過將段映射到多態性的數據庫來實現。[0028]本公開的這個方面的方法還可包括在產生包含多態性序列的DNA段序列的條件下、采用核酸測序器對于來自懷孕個體的體液的DNA進行測序。
[0029]在一些實施方式中,(a)中的映射包括識別多個二等位基因多態性序列。在其它實施例中,(a)中的映射包括將DNA段映射到多個預定義多態性序列。
[0030]在一些實施例中,這個方面的方法還包括:在一個或多個處理器上運行程序指令,以便將(c)中所確定的DNA的胎兒的分數自動記錄在懷孕個體的患者病歷中,其存儲在計算機可讀介質上。患者病歷可由實驗室、醫生辦公室、醫院、保健組織、保險公司或者個人病歷網站來保持。
[0031]基于胎兒DNA分數的估計,這個方面的方法還可包括規定、發起和/或改變受檢者(從其獲取母體測試樣本)的治療。基于胎兒DNA分數的估計,這個方面的方法還可包括指示和/或執行一個或多個附加測試。
[0032]按照本公開的又一方面,提供方法以用于使用下列操作來估計從懷孕個體的體液所得到的DNA中的胎兒DNA的分數:(a)接收體液的樣本;(b)在提取體液中存在的母體基因組和胎兒基因組的DNA的條件下從樣本中提取DNA ; (c)在產生DNA段序列的條件下采用核酸測序器對所提取DNA進行測序;(d)比較從液體所得出的DNA段序列,并且由比較來識別一個或多個二等位基因多態性;(e)對于所識別多態性的至少一個來確定DNA段序列的等位基因頻率;(f)基于懷孕個體的接合性和胎兒的接合性的組合來分類至少一個所識別多態性;以及(g)使用在(e)中所確定的等位基因頻率和來自(f)的接合性的組合來估計從懷孕個體所得到的DNA中的胎兒DNA的分數。
[0033]映射可使用計算裝置來執行,其編程為將核酸序列映射到一個或多個所指定多態性。一般來說,操作(d)-(g)的任一個可在程序指令下在一個或多個處理器上執行。
[0034]在這個方面的某些實現中,DNA段序列的長度在大約20個堿基對與大約300個堿基對之間。`
[0035]在這個方面的某些實施例中,(f)中的分類將至少一個所識別多態性分為下列組合之一:(i)懷孕個體是純合的,并且胎兒是純合的,(ii)懷孕個體是純合的,而胎兒是雜合的,(iii)懷孕個體是雜合的,而胎兒是純合的,以及(iv)懷孕個體是雜合的,并且胎兒是雜合的。方法還可包括不予考慮組合(i)或組合(iv)中分類的任何多態性。
[0036]按照各個實施例,這個方面的方法可包括如本文結合其它方面所述的過濾和/或分類操作。例如,這個方面的方法可包括過濾一個或多個所識別多態性,從而不予考慮具有比所定義閾值要大的未成年等位基因頻率的任何多態性。在一些情況下,分類至少一個所識別多態性包括將閾值應用于(e)中所確定的等位基因頻率。如本文所述的混合模型的使用可用于分類所識別多態性。
[0037]本公開的另一方面涉及用于估計胎兒DNA的分數并且包括下列元件的裝置:(a)測序器,配置成(i)接收從包含母體基因組和胎兒基因組的DNA的體液樣本所提取的DNA,并且(ii)對所提取DNA測序,以便產生DNA的序列段;以及(b)計算裝置,配置成指示一個或多個處理器(i)將從懷孕個體的體液所得到的DNA的序列段映射到多個多態性序列,(?)從DNA的已映射序列段確定對于多個多態性序列的每個的等位基因頻率,并且(iii)將等位基因頻率應用于混合模型,以便得到從攜帶胎兒的個體的血液所得到的DNA中的胎兒DNA分數的估計。[0038]用于估計胎兒DNA的分數的又一個裝置包括下列元件:(a)測序器,配置成⑴接收從包含母體基因組和胎兒基因組的DNA的體液的樣本所提取的DNA,并且(ii)在產生DNA段序列的條件下對所提取DNA測序;以及(b)計算裝置,配置成指示一個或多個處理器(i)比較從體液所得出的DNA段序列,并且由比較來識別一個或多個二等位基因多態性,(?)對于所識別多態性的至少一個來確定DNA段序列的等位基因頻率,(iii)基于懷孕個體的接合性和胎兒的接合性的組合來分類至少一個所識別多態性,并且(iv)使用等位基因頻率和接合性的組合來估計從懷孕個體所得到的DNA中的胎兒DNA的分數。
[0039]本文所述裝置方面所采用的指令和/或硬件可提供本文所公開方法方面的計算或算法操作的任一個或多個的執行,而與以上是否明確敘述這類操作無關。
[0040]下面將參照關聯附圖更詳細描述所公開實施例的這些及其它特征和優點。
附圖簡介
[0041]圖1是示出給定基因組位置的胎兒和母體接合性狀態的分類的框圖。
[0042]圖2是用于實現所公開實施例的一部分的示例過程流程。
[0043]圖3提供根據測序堿基位置對于使用Eland以缺省參數與人類基因組HG18對齊的30個通道Illumina GA2數據的誤差估計。
[0044]圖4是對于雜合性情況I至4的未成年等位基因計數A與覆蓋D (假定沒有誤差)的圖表。
[0045]圖5示出情況3數據到情況2的變換。
[0046]圖6提供后旋轉數據,其中Dl選擇成使得情況I和情況2、3沒有重疊。El表示情況I數據的99%上置信區間的上 限。
[0047]圖7示出使用混合模型以及已知胎兒分數和估計胎兒分數的結果的比較。
[0048]圖8示出使用機器誤差率作為已知參數將上偏差降低某個點。
[0049]圖9中示出使用機器誤差率作為已知參數的模擬數據,增強情況I和2誤差模型將上偏差極大地降低到小于低于0.2的胎兒分數的某個點。
[0050]圖10是計算機系統的示意圖示,其在適當配置(例如編程)或設計時能夠用作所公開實施例的分析裝置。
[0051]圖1lA和B示出在如一個示例中產生的染色體I (A)和染色體7的未成年等位基因百分比(A/D)的變異觀測(頻率)的數量的直方圖。
[0052]圖12A和B示出沿染色體I㈧和染色體7的等位基因頻率的分布。
【具體實施方式】
[0053]介紹和概沭
[0054]某些所公開實施例涉及分析從懷孕女性的血液所獲取的DNA,并且使用分析來確定來自胎兒的那個DNA的分數。DNA的胎兒分數則可用于將某個置信等級歸結于基于從母體血液所獲取的DNA的單獨分析的胎兒的另一個度量或表征。例如,從母體血液所獲取的胎兒DNA樣本可經過單獨分析,以便檢測懷孕女性所懷有的胎兒的異倍性。通過這個單獨分析進行的異倍性確定可基于從母體血液所獲取的DNA中存在的胎兒DNA的分數量、通過統計穩固置信等級來給出。DNA的總補體中的胎兒DNA的較低分數表明基于胎兒DNA的任何表征的低置信。
[0055]通常但不一定,母體血液中的被分析DNA是游離DNA,但是在一些實施例中,它可以是聯胞DNA。游離DNA從母體血漿中獲取。從懷孕女性所獲取的游離DNA含量中的胎兒DNA的量根據包括包括胎兒的孕齡在內的多種因素廣泛地改變。對于典型懷孕女性,當前認為游離DNA的大約5-20%是胎兒DNA。但是,胎兒分數顯著更低(例如大約1%或更低)并非不常見。在這類情況下,胎兒DNA的任何獨立表征都固有地是可疑的。另一方面,一些研究人員已經報道具有高達40%或50%的胎兒DNA分數的母體游離DNA樣本。
[0056]在本文所述的某些實現中,母體DNA的胎兒分數的確定依靠在已知為持有一個或多個多態性的序列位點的多個DNA序列讀數。通常但不一定,這類多態性是單核苷酸多態性(SNP)。其它類型的適當多態性包括缺失、STR(短串聯重復)、插入、插入缺失標記(包括微插入缺失)等。下面提供其它示例。在某些實施例中,多態性位點存在于“參考序列”上,如下面所述。在一些實施例中,發現多態性位點,同時將序列標簽相互對齊和/或與參考序列對齊。
[0057]某些所公開方法利用如下事實:在所考慮的多態性位點的胎兒的DNA序列可能與其母體的不對應。例如,在特定SNP的位點的母體DNA可以是純合的,而胎兒的SNP形式將是雜合的。因此,對所述的SNP所獲取的序列樣本的集合將是異質的,其中序列的大多數包含成年(major)等位基因而其余分數包含未成年等位基因。成年和未成年等位基因的相對量通過樣本中的胎兒DNA的分數來確定。
[0058]應當指出,在純合樣本中,給定SNP或其它多態性的兩種副本均包含相同等位基因,而雜合SNP或另一多態性包含成年等位基因的一個副本和未成年等位基因的一個副本。因此知道,從雜合 個體排他獲取的DNA應當包含成年等位基因的50%和未成年等位基因的50%。該知識能夠用于說明胎兒DNA的分數中,如下面所述。如下面更全面所述,本文所公開的各種方法僅考慮多態性,其中在母體和胎兒DNA中共同僅存在兩個等位基因。
[0059]在一些實施方式中,多次讀取從母體血液所獲取的DNA,其中映射到多態性的特定位點的總讀取次數被認為是多態性的“覆蓋”,以及映射到那個多態性的未成年等位基因的讀取次數被認為是未成年等位基因計數。未成年等位基因計數與覆蓋的比率在各種實現中是重要的。
[0060]本文所公開的某些方法識別和表征包括來自母體和胎兒的DNA的DNA樣本中的多態性的四種情況。下面,圖1示出這四種情況。具體來說,在相當不感興趣的第一情況中,母親和胎兒在所考慮的特定多態性均是純合的。在這種情況下,包含所述的多態性的DNA樣本中的每一個序列將包含相同等位基因,并且能夠不收集與來自母親和胎兒的DNA的相對量有關的信息。但是,應當注意,在它允許研究人員或技術人員獲得用于生成所考慮的序列數據的DNA測序裝置的相對誤差率的某個概念的意義上,這種情況可能是感興趣的。
[0061]分析將遇到的第二情況是一種多態性,懷孕女性對其是純合的而胎兒對其是雜合的。在這種情況下,所檢測序列的較小但是顯著的分數將包含未成年等位基因。具體來說,在這第二情況中,未成年等位基因的頻率標稱地由母體血流中的胎兒DNA的分數除以二給出。
[0062]在第三情況中,所考慮的多態性在母體DNA中是雜合的,而在胎兒DNA中是純合的。在這種情況下,未成年等位基因的頻率標稱地通過0.5減去DNA樣本中的胎兒DNA的分數的一半來給出。
[0063]最后,在第四情況中,所考慮的多態性在母體和胎兒中均是雜合的。在這種情況下,預計成年和未成年等位基因的頻率均為0.5。如同第一情況一樣,第四情況對于確定DNA的胎兒分數是比較不感興趣的。
[0064]如果分派有確定樣本中的胎兒DNA的分數的任務的研究人員、技術人員或軟件對于給定多態性知道那個多態性屬于四種情況的哪一種,則可以直接估計胎兒DNA的分數(假定所考慮的多態性落入情況二或者情況三)。但是,實際上,不能先驗地具有該知識。因此,要求計算裝置執行本文所述的操作。
[0065]在本文其它部分所述的某些實施例中,閾值技術用于將單個多態性分類為四種情況之一。一旦多態性經過這樣分類并且被發現駐留在情況2或者3中,可以估計胎兒分數。在其它實施例中,該技術考慮分布于基因組的全部或者一部分的多個多態性。如具體示例所示,跨基因組的多個不同的SNP可用于這個目的。
[0066]在具體實施例中,對于從母體血液樣本所獲取的DNA樣本中的多個不同多態性來確定等位基因頻率。對于這多個多態性,某個分數將對應于接合性情況1,另一個分數將對應于情況2,第三分數將對應于情況3,以及最后分數將對應于情況4。這些分數將合計為值I。混合模型或者相關技術可用于挑出這四個類別的每個中的多態性的一個或多個統計性質。具體來說,混合模型可用于確定從懷孕女性血液所獲取的DNA樣本中遇到的四種情況的每個的均值以及可選的方差。在具體實施例中,這是與相對于所述的多態性的計數總數(覆蓋)的未成年等位基因的頻率關聯的均值和方差。如本文其它部分所述,這四個類別的每個的平均值或者至少第二和第三類別與從母體血液所獲取的DNA中的胎兒分數直接相關。
[0067]在采用混合模型的具體實現中,對于其中考慮多態性的各位置來計算一個或多個階乘矩。例如,階乘矩(或者階乘矩的集合)使用DNA序列中考慮的多個SNP位置來計算。如下式4所示,各種階乘矩的每個是對給定位置的未成年等位基因頻率與覆蓋的比率所考慮的所有各種SNP位置的合計。如下式5所示,這些階乘矩還與關聯上述四種接合性情況的每種的參數相關。具體來說,它們與每種情況的概率以及所考慮的多態性集合中的四種情況的每種的相對量相關。如所述,概率是母體血液的游離DNA中的胎兒DNA的分數的函數。如下面更全面說明,通過計算充分數量的這些階乘矩(其在等式4中示出),該方法提供充分數量的表達式來求解所有未知數。這種情況中的未知數是所考慮的多態性的群體中的四種情況的每種的相對量以及與這四種情況的每種關聯的概率(并且因此還有胎兒DNA分數)。參見等式5。相似結果能夠使用如下式7-12所表示的混合模型的其它形式來得到。這些特定形式僅利用落入情況I和2的多態性,其中情況3和4的多態性通過閾值技術來過濾。
[0068]因此,階乘矩可用作混合模型的組成部分,以便識別接合性的四種情況的任何組合的概率。以及如所述,這些概率或者對于第二和第三情況的至少那些概率與母體血液的總游離DNA中的胎兒DNA的分數直接相關。
[0069]還應當指出,測序誤·差可用于降低必須求解的階乘矩等式的系統的復雜度。在這點上,應當知道,測序誤差實際上能夠具有四個結果(對應于在任何給定多態性位置的四個可能堿基的每個)的任一個。[0070]在某些實施例中,將標簽與參考染色體或基因組對齊,并且識別二等位基因多態性。這些多態性不是預先定義的或者在對齊之前識別的。它們只在對齊期間來識別,然后基于其接合性和未成年等位基因計數來表征,如本文所述。這個信息用于估計基因組分數,如本文所述。
[0071]本文所述實施例中使用的標簽的長度將一般通過用于生成標簽的測序方法來確定。方法跨大范圍標簽長度是健壯的。在某些實現中,標簽的長度在大約20與300個堿基對(或者長度在大約30至100個堿基對)之間。
[0072]用于實現所公開實施例的一部分的示例過程流程在圖2中示出。如其中所示,過程開始于201,其中從母體血液或其它體液收集DNA(游離或聯胞)。由此DNA,多個序列映射到參考序列中的一個或多個多態性。這個映射為每個多態性提供等位基因頻率。參見框203。
[0073]更具體來說,在框203的過程可涉及讀取多個多態性的位置的所收集DNA的序列。在一些情況下,這些可作為用于針對胎兒DNA進行的倍數性確定或其它確定的過程的組成部分來生成。因此,在一些實施例中,獨立序列無需生成。將讀數序列與參考序列對齊,以便使用BLAST或類似工具來使對齊為最大。
[0074]參考序列可作為多態性的數據庫來提供。在一些情況下,這是從所有多態性定義的組合擴充所產生的等位基因搜索參考集合(例如在多態性是SNP的情況下的所有SNP序列)。例如參見附錄。在具體示例中,序列的長度為大約100至150個堿基對。
[0075]回到圖2,該方法對于框203的操作中考慮的多態性的一個或多個來確定母體/胎兒接合性組合。參見框205。在某些實施例中,混合模型可用于此目的。如所述,組合如下:M&F純合,M純合和F雜合,M雜合和F純合,以及M&F雜合。
[0076]最后,如框207所示,該方法使用在多態性的一個或多個的接合性情況等位基因頻率的組合來估計來自母體樣本的DNA中`的胎兒成分的分數量。
[0077]
[0078]提供以下論述作為了解所公開實施例的某些方面和優點的輔助。
[0079]術語“讀數”指的是來自核酸樣本的一部分讀數序列。通常但不一定,讀數表示樣本中的毗連堿基對的短序列。讀數可通過樣本部分的堿基對序列(按照ATCG)以符號表示。它可存儲在存儲器裝置中,并且經過適當處理,以確定它是否匹配參考序列或者滿足其它標準。讀數可直接從測序裝置或者直接從與樣本有關的所存儲序列信息來得到。
[0080]術語“標簽”還指的是來自核酸樣本的短序列。通常,標簽包含關聯信息,例如基因組中的序列的位置。為了某些目的,術語“讀數”和“標簽”在本文是可互換的。但是,序列讀數通常與參考序列對齊,以及僅在參考基因組上的一個位點進行映射的讀數稱作標簽。“段序列”在本文中有時與“標簽”可互換地使用。
[0081]本文中頻繁的“讀數”描述為長度為36個堿基對(36merS)的核酸序列。當然,所公開的實施例并不限于這種大小。在許多應用中,更少和更大的讀數是適當的。對于將讀數與人類基因組對齊的應用,大小30個堿基對或更大的讀數一般被認為充分地將樣本映射到單個染色體。大許多的標簽/讀數適合于某些應用。對于整個基因組測序,可使用大約1000個堿基對或更大的讀數。在某些實施例中,讀數可具有在大約20與10000個堿基對之間、或者大約30與1000個堿基對之間、或者大約30與50個堿基對之間的長度。[0082]“參考序列”是生物分子序列,其頻繁地是核酸、例如染色體或基因組。通常,多個讀數是給定參考序列的成員。在某些實施例中,將讀數或標簽與參考序列進行比較,以便確定參考序列是否包含讀數序列。這個過程有時稱作對齊。
[0083]在多種實施例中,參考序列比與其對齊的讀數明顯要大。例如,它可以是大約至少要大100倍,或者大約至少要大1000倍,或者大約至少要大10000倍,或者大約至少要大IO5倍,或者大約至少要大IO6倍,或者大約至少要大IO7倍。
[0084]在一個示例中,參考序列是全長度人類基因組的序列。這類序列可稱作基因組參考序列。在另一個示例中,參考序列局限于特定人類染色體、例如染色體13。這類序列可稱作染色體參考序列。參考序列的其它示例包括其它種類的基因組以及任何種類的染色體、子染色體區域(例如鏈)等。
[0085]在各個實施例中,參考序列是共有序列或者從多個個體所得出的其它組合。但是,在某些應用中,參考序列可從特定個體來獲取。
[0086]術語“對齊”指的是將讀數或標簽與參考序列進行比較、并且由此確定參考序列是否包含讀數序列的過程。如果參考序列包含讀數,則該讀數可映射到參考序列,或者在某些實施例中映射到參考序列中的特定位置。在一些情況下,對齊只告知讀數是否為特定參考序列的成員(即,讀數在參考序列中是否存在)。例如,讀數與人類染色體13的參考序列的對齊將告知該讀數在染色體13的參考序列中是否存在。提供這個信息的工具可稱作集合關系測試器。在一些情況下,對齊還指明參考序列中的位置(讀數或標簽映射到其中)。例如,如果參考序列是整個人類基因組序列,則對齊可指明讀數存在于染色體13上,并且還可指明讀數處于染色體13的特定鏈上。
[0087]“位點”是與讀數或標簽對應的參考序列中的唯一位置。在某些實施例中,它指定染色體(例如染色體13)的識·別碼、染色體鏈以及染色體中的準確位置。
[0088]“多態位點”是核苷酸序列發散發生的基因座。基因座可以小至一個堿基對。說明性標記具有至少兩個等位基因,各以大于1%、以及更通常大于所選群體的10%或20%的頻率發生。多態位點可以小至一個堿基對。術語“多態基因座”和“多態位點”在本文中可互換地使用。
[0089]本文中的“多態序列”指的是核酸序列、例如DNA序列,其包括一個或多個多態位點,例如一個SNP或串聯SNP。按照本技術的多態序列能夠用于具體區分包含胎兒和母體核酸的混合的母體樣本中的母體和非母體等位基因。
[0090]詳細實施例
[0091]通常,本文所述的過程采用參考序列,其跨越一個或多個多態性,并且與所取樣的DNA關聯。參考序列可以是例如人類基因組、染色體或者染色體中的區域。能夠為了便于估計胎兒DNA分數而指定多態性的一個或多個。被指定以用于確定胎兒分數的多態性是預先知道的多態性。例如,參考、事實和關于預先已知STR的序列信息以及相關群體數據的綜合列表在STRBase中統計,其可經由萬維網在ibm4.carb.nist.gov:8800/dna/home.htm 來訪問。來自常用 STR 基因座的 GenBank? (http: //www2.ncb1.nlm.nih.gov/cg1-bin/genbank)的序列信息也是通過STRBase可訪問的。能夠訪問的預先已知SNP的信息是從公共可訪問數據庫可得到的,包括但不限于在萬維網地址w1.mit.edu的 Human SNP Database、在萬維網地址 ncb1.nlm.nih.gov、萬維網地址 Iifesciences.perkinelmer.com 的 NCBI dbSNP Home Page、在萬維網地址 appliedbiosystems.com 的Applied Biosystems by Life Technologies? (Carlsbad, CA)、在萬維網地址 cel era.com的 Celera Human SNP 數據庫、在萬維網地址 gan.1arc.fr 的 SNP Database of the GenomeAnalysis Group (GAN)。在一個實施例中,為確定胎兒分數所指定的SNP從Pakstis等人(Pakstis 等人,Hum Genetl27:315-324[2010])所述的 92 個個體標識 SNP(IISNP)的組中選取,其示為在跨群體的頻率中具有極小變化(Fst〈0.06),以及在全球是高度信息性,具有平均雜合性>0.4。由本發明的方法包含的SNP包括連鎖和無連鎖SNP。為了指定適當串聯 SNP 序列,能夠搜索 International HapMap Consortium數據庫(International HapMapProject, Nature426:789-796[2003])。數據庫在萬維網的 hapmap.0rg 可得到。
[0092]這樣采用的多態性可以是為確定胎兒DNA分數所指定的預先已知多態性的面板,或者它們可在為了其它目的、例如將樣本DNA標簽映射到染色體的母體DNA的分析中偶然發現。
[0093]在某些實施例中,該方法包括使用基因組的混合來對樣本、例如包括胎兒和母體游離DNA的母體樣本中的DNA進行測序,以便提供多個序列標記,其映射到包括參考基因組上的預先已知多態性位點的序列,并且使用在預先已知位點所映射的標簽來確定胎兒分數,如下面詳細描述。備選地,接著DNA的測試,通過測序技術、例如NGS所得到的序列標簽被映射到參考基因組、例如hgl9,以及映射到位點(多態性在其中偶然發生、即不是預先已知)的序列標簽用于確定胎兒分數。
[0094]參考序列(序列標簽對其映射到預先已知多態性位點)能夠是已發布參考基因組,或者它能夠是所考慮的多態性的序列的人工數據庫或者其它預定義集合。數據庫序列的每個將跨越與多態性關聯的一個或多個核苷酸。作為一個示例,參見下面在“附錄I”中提供的多態性序列的列表。
[0095]在各個實施例中,用于估計胎兒DNA分數的多態性的數量是至少2個多態性,更具體來說是對于至少大約10個多態性的每個,以及更優選地地是對于至少大約100個多態性的每個。`
[0096]在一個示例中,通過將所生成序列與從SNP定義的組合擴充所構成的參考基因組對齊,來確定SNP覆蓋和等位基因頻率。擴增子數據庫包含由例如側面序列的至少大約50個堿基所圍繞的二等位基因變化信息。例如,具有變化信息串“ [g/c] ”(表示交替等位基因“g”和“c”)的擴增子可看來像是:
[0097]atcg.....accg [g/c] ccgt....[0098]在一些情況下,輸入擴增子數據庫和所生成序列以及輸出SNP/等位基因計數的過程如下。
[0099]1.從SNP定義的組合擴充來創建等位基因搜索參考集合。對于擴增子數據庫中的各序列,對于變化信息串中的各等位基因,創建具有由等位基因所替代的變化信息串的等位基因序列。
[0100]a.例如,考慮上述示例擴增子序列,會創建兩個序列:1)atcg.....accgGccgt...以及 2) atcg.....accgCccgt...。
[0101]b.全等位基因搜索參考集合的一個示例能夠見于等位基因搜索數據庫序列列表。
[0102]2.將序列映射到等位基因搜索參考集合,僅保持僅匹配搜索集合中的一個序列的映射。
[0103]3.通過計算匹配其等位基因序列的序列數量,來確定等位基因計數。
[0104]本文所公開的方法假定“正常”妊娠,即,其中母親僅懷有一個胎兒而不是雙胞胎、三胞胎等的妊娠。本領域的技術人員將會理解修改,其考慮非正常妊娠,特別是胎兒數量為已知的那些妊娠。
[0105]如所示,當確定胎兒分數時,該方法對來自母體血液的樣本中的DNA進行測序,并且計數映射到所考慮的多態性的各序列的序列標簽。對于各多態性,該方法記錄(taillies)映射到它的讀數的總數(覆蓋)以及與各等位基因關聯的序列標簽的數量(等位基因計數)。在一個簡單示例中,具有5的覆蓋的多態性可具有等位基因B的3個讀數以及等位基因A的2個讀數。在這個不例中,等位基因A被認為是未成年等位基因,以及等位基因B被認為是成年等位基因。 [0106]在一些實施例中,這個操作利用非常快速的測序工具,例如整體平行DNA測序工具。下面更詳細地描述這類工具的示例。在一些情況下,對于單個樣本讀數數千或者數百萬標簽序列。優選地,測序按照如下方式執行:允許將被測序DNA快速直接指配給持有所考慮的多態性的特定預定義序列。一般來說,在大小30個堿基對或者更多的標簽中存在用于此目的的充分信息。這個大小的標簽能夠明確地映射到感興趣序列。在一個特定實施例中,過程中采用的標簽序列的長度是36個堿基對。
[0107]將標簽映射到參考基因組或者映射到等位基因序列數據庫中的序列(例如,參見如前面所述的附錄I),并且確定這樣映射的標簽數量。這將為所考慮的各多態性提供覆蓋和未成年等位基因計數。在一些情況下,這可與將各標簽映射到23個人類染色體之一并且確定每人染色體的所映射標簽的數量同時地進行。
[0108]如所述,覆蓋是讀數序列的總數,其映射到參考序列中的給定多態性。映射到這種多態性的讀數序列的總數中的等位基因計數具有等位基因。所有等位基因計數的總和必須等于覆蓋。具有最高計數的等位基因是成年等位基因,以及具有最低計數的等位基因是未成年等位基因。在某些實施例中,估計胎兒DNA分數所需的唯一信息是對于多個多態性的每個的覆蓋和未成年等位基因計數。在一些實施例中,還使用DNA測序裝置的堿基識別誤差率。
[0109]有用的是考慮本文所公開的某些方法的數學或符號基礎材料。如所述,在各個示例中,從母體血液所生成的序列與參考基因組或者其它核酸序列對齊(重疊成使得相同堿基為最大)。給定基因組位置j以及與參考對齊的序列集合,設所對齊序列之中的四個DNA堿基(“a”、“t”、“g”和“C”,又稱作“等位基因”)的每個的出現次數分別為w(j,I)、w(j,2)、w(j,3)和w(j,4)。為了便于本論述,可不失一般性地假定所有變化是二等位基因。因此,可使用下列符號:
[0110]色B三Bi三{h}\ = = maxi(時在基因組位置j的成年等位基因,作為
在位置j的計數的一階統計(成年等位基因b是對應argmax。當考慮一個以上SNP時,使用下標。),
[0111]當細4= {?,I =《時在位置j的未成年等位基因計數,作為在位置j的計數的二階統計(即,第二最高等位基因計數),[0112]當D三Dj= {dj =Aj+Bj時在位置j的覆蓋,以及
[0113]測序機器誤差率表示為e。
[0114]當上下文清楚時,為了方便起見,可互換地使用符號;例如,A、Ai或{ai}對于未成年等位基因或者未成年等位基因計數可互換地使用。可以使用或者可以不使用下標,這取決于是否考慮一個以上SNP。(僅為了示例而使用SNP。如本文其它部分所述,可使用其它類型的多態性。)
[0115]圖1中,示出多態性接合性的四種狀態的基礎。如所示,母親在給定多態性可以是純合或雜合的。類似地,嬰兒在相同位置可以是雜合或者純合的。如所示,情況I和2是多態性情況,其中母親是純合的。如果嬰兒和母親均為純合的,則多態性是情況I多態性。如上所述,這種情況通常不是特別感興趣的。如果母親是純合的而嬰兒是雜合的,則胎兒分數f標稱地通過未成年等位基因與覆蓋的比率的兩倍來給出。在母親為雜合而嬰兒為純合的多態性情況(圖1的情況3)中,胎兒分數標稱地為一減去未成年等位基因與覆蓋的比率的兩倍。最后,在母親和胎兒均為雜合的情況下,未成年等位基因分數應當始終為0.5,不包括誤差。對于落入情況4中的多態性無法得出胎兒分數。
[0116]現在將進一步說明四種情況。
[0117]情況1:母親和嬰兒純合
[0118]-在這種情況下,不包括測序誤差或污染,應當沒有觀測到差異。
[0119]-E (最小等位基因頻率)=E (A) =0。
[0120]-實際上,A~(分布為)二項式分布,其通過低np的泊松分布良好地近似計算。二項式或泊松的分布率參數與 測序誤差率e和覆蓋D相關。圖3示出與人類參考基因組對齊的所生成36mer序列的失配頻率。
[0121]-這種情況沒有包含與胎兒分數有關的信息。
[0122]圖3提供根據測序堿基位置對于使用Eland以缺省參數與人類基因組HG18對齊的30個通道Illumina GA2數據的誤差估計。
[0123]情況2:母親純合而嬰兒雜合
[0124]-在這種情況下,對于小胎兒分數(f),所觀測等位基因頻率將顯著不同。其中成年等位基因以比未成年等位基因要多若干倍的頻率發生。
[0125]-不包括誤差,給定單個SNP位置(D,A),E(A) =Df/2,并且f的未偏置估計為2A/D
[0126]-不包括誤差,A~二項式(f/2,D)。均值Df/2,方差(l_f/2)Df/2。[如果D>15,則近似為正態分布]。
[0127]情況3:母親雜合而嬰兒純合
[0128]-在這種情況下,主要和未成年等位基因的所觀測頻率接近,并且A/D剛好在0.5之下。
[0129]-不包括誤差,E(A) =D (1-f)/2,以及 E(1_(2A/D))=f
[0130]-不包括誤差,A~二項式((l_f)/2,D)。均值 0((14)/2),方差0/4(1-疒2)。
[0131]情況4:母親雜合并且嬰兒雜合
[0132]注意,不包括誤差,對此存在兩種子情況。
[0133]情況4.1:來自父親的等位基因與母親的等位基因不同
[0134]這會引入第三等位基因,其是E (A) =Df/2的未成年等位基因。這些情況不應當對f的估計具有影響,因為用于向擴增子指配序列的過程將在參考SNP為二等位基因時濾出這些情況。
[0135]情況4.2:來自父親的等位基因匹配母親的等位基因之一
[0136]-在這種情況下,不包括誤差,兩個等位基因會以1:1比例出現,使得這種情況對于胎兒分數估計不是有用的。
[0137]-不包括誤差,E(A) =0.5,以及A~二項式(0.5,D)以0.5來截取。
[0138]圖4提供對于雜合性情況I至4的未成年等位基因計數A與覆蓋D (假定沒有誤差)的圖表。
[0139]在各個實施例中,該方法廣義地涉及分析在一個或多個SNP (或者其它多態性)的等位基因頻率,以便將多態性分類為在情況2和/或情況3中。與分類結合使用等位基因頻率,該方法能夠估計胎兒分數。
[0140]在一些情況下,給定未成年等位基因計數A和覆蓋D,換言之,對于個體SNP位置,單點(D,A)允許方法進行單點估計。例如,某些方法將具有等位基因計數(D,A)的SNP分類為單個情況,并且得出如下胎兒分數估計:
[0141]ESl.1判定情況的簡單閾值
[0142]給定個體位置(SNP),
[0143]1.采用例如2A/D〈e或者二項式(e,D)或泊松(De)的所定義臨界值,對情況I進行判定。在本發明的范圍之內還可使用備選分布)。沒有胎兒分數(f)估計。
[0144]2.如果2A/D> (0.5_e)或者`二項式(0.5,D)的某個臨界值,(或者其它適當近似分布),則對情況4進行判定。對f的估計不使用位置。
[0145]3.否則,如果2A/D〈0.25 (或者另外某個手動設置或者自動估計閾值),則對情況2進行判定。胎兒分數f估計為2A/D
[0146]4.否則,情況3。使用胎兒分數估計f=(l_2A/D)。
[0147]能夠通過組合來自若干SNP的等位基因計數信息以估計胎兒分數,來獲得精度。
[0148]方法EM1:通過求平均來組合多個SNP。
[0149]取均值、中值、其它中心測量(例如:Tukey 二加權、M估計量等…)。還可使用加權平均。對于可如何定義加權的示例,參見以下EM2.4。另外,可使用中心的健壯量度。
[0150]方法EM2通過變換的來自情況2和情況3的同時估計
[0151]對于f小于X%的情況,情況3的點(D,A)能夠變換為與情況2的點一致。由此線條,公共斜率能夠經由通過原點(參見圖5)的回歸來計算。
[0152]基于變換的方法的一個理論缺點是情況2和3的二項式分布將具有不同形狀。在典型胎兒分數等級(〈10%),情況2數據將具有向右偏斜的接近泊松的分布,以及情況3將具有接近正態的分布。
[0153]圖5示出情況3數據到情況2的變換。現在,單個回歸能夠同時從兩種情況來估計f O
[0154]用于計算EM2.3的方法:
[0155]步驟1:扔掉情況4數據
[0156]對于數據點(D,A),如果A> (0.5D-T1),則排隊(D,A)不進行進一步分析。Tl (D, A),
實值函數。[0157]步驟2:變換情況3數據
[0158]參見圖6。對于沒有劃為4的各數據點(D,A),如果A>T2XD,則將點變換到新坐標(D1,A1)。T2(D,A),實值函數。
[0159]a =2A/D
[0160]Al=-1 (0.5D-A)
[0161]Dl=D
[0162]步驟3:建立閾值DT,以降低來自情況I數據的污染
[0163]丟棄低于T2 (D, A)、即實值函數的所有數據點。
[0164]步驟4:用于剩余變換情況2和3數據的回歸估計。將通過原點的回歸應用于剩余點。胎兒分數估計是回歸狀斜率的兩倍。
[0165]注意,存在許多變換類,其能夠構造成完成情況2和3數據的相同一致。示例包括三角、變換或者旋轉矩陣的使用。這些推導預計包含在本公開的范圍之內。此外,能夠使用許多回歸類(L2,L1,...)或優化。交換優化算法是輕微變化,并且涵蓋在本公開的范圍下。
[0166]圖6提供后旋轉數據。選擇D1,使得情況I和情況2和3沒有重疊。El表示情況I數據的99%上置信區間的上限。
[0167]方法EM3加權最小二乘
[0168]來自EM2.3的回歸方法假定所有所轉化數據點均具有相等方差。更適當的是考慮不同數據源、甚至來自相同雜·合性模式的點的異方差性。
[0169]步驟I至3與EM2.3相同。
[0170]步驟4:回歸
[0171]在來自EM2.3的回歸中,來自情況2數據的點將具有方差v2(f,D) = [0.5*Df-0.25*Df~2],以及來自情況 3 數據的點將具有方差 v3 (f,D) = [0.25D(l_f~2)]。假定我們對每個點給予不同加權《,如同EM2.3中一樣,我們設法使下式為最小
η
[0172]Q = Ydw^a.1 t
[0173]等式I
[0174]將一階導數設置為零,并且求解s:
[0175]
學=?2 mV w 一 mi )(^a?)=ο
< 'S / II
ηB
Σsaf - Σ 2w:a-x,.= O
? I?=1I
and β
ΣηJ
S=—-
,:."? j[0176]其中,Cli是SNP i的覆蓋,以及a i是SNP i的(對情況3變換的)未成年等位基因計數。
[0177]等式2
[0178]這種方法以每個點的方差的倒數進行加權,適當地估計為v2(2A/D,D)或者v3 (2A/D, D)。胎兒分數估計是2 X S。
[0179]在某些實施例中,混合模型可用于將多態性的集合分類為接合性情況的兩個或更多,同時從這些情況的每個的平均等位基因頻率來估計胎兒DNA分數。一般來說,混合模型假定數據的特定集合由不同類型的數據的混合來組成,其各具有自己的預計分布(例如正態分布)。該過程嘗試查找每種類型的數據的均值以及可能的其它特性。在本文所公開的實施例中,存在總共四種不同數據類型(接合性情況),其構成所考慮的多態性的未成年等位基因頻率數據。 [0180]在以下小節中提供混合模型的一個實現。在這個實施例中,次要作功頻率A是如等式3所示的四項之和。每項對應于四個接合性情況之一。每項是多態性分數a和未成年等位基因頻率的二項式分布之積。as是落入四種情況的每種上的多態性的分數。各二項式分布具有關聯概率P和覆蓋d。例如,情況2的未成年等位基因概率通過f/2來給出。
[0181]所公開實施例利用所考慮的等位基因頻率數據的“階乘矩”。如眾所周知,分布的均值是一次矩。它是未成年等位基因頻率的期望值。方差是二次矩。它從平方等位基因頻率的期望值來計算。
[0182]跨所有多態性的等位基因頻率數據可用于計算階乘矩(一次階乘矩、二次階乘矩等),如等式4所示。如這些等式所示,階乘矩是項對于1、數據集中的個體多態性的合計,其中在數據集中存在n個這類多態性。求和項是未成年等位基因計數a i和覆蓋Cli的函數。
[0183]有用地,階乘矩與a ,和^的值具有關系,如等式5所示。從概率Pi,能夠確定胎兒分數f。例如,P2=f/2,以及P3為l-f/2。因此,負責邏輯能夠求解將未知數a s和ps與跨所考慮的多個多態性的未成年等位基因分數的階乘矩表達式相關的等式系統。當然,在本發明的范圍之內存在用于求解混合模型的其它技術。
[0184]有用的是還考慮本文所公開的混合模型實施例的數學或符號基礎材料。以上所述的四種雜合性情況表明點(ai,di)中的ai的分布的以下二項式混合模型:
[0185]A= {aj ~a jBin (P1, (Ii) + a 2Bin (p2, (Ii) + a 3Bin (p3, (Ii) + a 4Bin (p4, (Ii)
[0186]其中
[0187]1= a x+ a 2+ a 3+ a 4
[0188]m=4
[0189]等式3
[0190]下面描述用于將Pi與胎兒分數和測序誤差率相關的各種模型。參數Cii涉及群體特定參數,以及設這些值“浮動”的能力針對例如雙親的種族性和后裔等因素對這些方法給予附加健壯性。
[0191]對于各種雜合性情況,能夠對胎兒分數求解上式。也許,求解胎兒分數的最簡易方法是通過階乘矩方法,其中混合參數能夠根據矩(其能夠易于從所觀測數據來估計)來表達。
[0192]給定n個SNP位置,階乘矩定義如下:
【權利要求】
1.一種估計在從懷孕個體的體液中獲取的DNA中的胎兒DNA分數的方法,所述方法包括: (a)接收體液樣本; (b)在提取體液中存在的母體基因組和胎兒基因組兩者的DNA的條件下從樣本中提取DNA ; (c)在生成包含一個或多個多態性的DNA段序列的條件下利用核算測序器測序已提取DNA ; (d)映射從測序體液中DNA得到的DNA段序列到參考序列上的一個或多個所指定多態性,其中映射利用計算裝置執行,計算裝置編程成映射核酸序列到一個或多個所指定多態性; (e)對至少一個所指定多態性確定所映射DNA段序列的等位基因頻率; (f)基于懷孕個體的接合性和胎兒的接合性的組合分類至少一個所指定多態性;并且 (g)利用(e)中確定的等位基因頻率和來自(f)中的接合性的組合估計從懷孕個體獲得的DNA中的胎兒DNA分數, 其中(e)-(g)在一個或多個處理器上執行,而該一個或多個處理器在用于確定、分類和估計的程序指令下運行。
2.根據權利要求1所述的方法,其中(f)中的分類將至少一個所指定多態性分類成下列組合中的一個: (i)懷孕個體是純合的而胎兒是純合的, (?)懷孕個體是純合的而胎兒是雜合的, (iii)懷孕個體是雜合的而胎兒是純合的,以及 (iv)懷孕個體是雜合的而胎兒是雜合的。
3.根據權利要求2所述的方法,還包括不考慮分類在組合(i)或者組合(iv)中的任意多態性。
4.根據權利要求1所述的方法,還包括過濾至少一個所指定多態性以不考慮具有大于所定義閾值的未成年等位基因頻率的任意多態性。
5.根據權利要求1所述的方法,還包括過濾至少一個所指定多態性以不考慮具有小于所定義閾值的未成年等位基因頻率的任意多態性。
6.根據權利要求1所述的方法,其中分類至少一個所指定多態性包括施加閾值給(e)中確定的等位基因頻率。
7.根據權利要求1所述的方法,其中分類至少一個所指定多態性包括施加來自(e)的等位基因頻率數據到混合模型,該等位基因頻率數據是對多個多態性獲取的。
8.根據權利要求7所述的方法,其中所述混合模型使用階乘矩。
9.根據權利要求1所述的方法,其中從懷孕個體的體液中獲取的DNA是從懷孕個體的血漿獲得的無細胞DNA。
10.根據權利要求1所述的方法,其中映射從懷有胎兒的個體的血液獲得的DNA段包括以計算方式映射所述段到多態性數據庫。
11.根據權利要求1所述的方法,其中測序在沒有選擇性放大一個或多個所指定多態性中的任一個的情況下執行。
12.根據權利要求1所述的方法,還包括執行一個或多個處理器上的程序指令以對于懷孕個體自動地在患者病歷中記錄在(g)中估計的胎兒DNA分數,該患者病歷存儲在計算機可讀介質上。
13.根據權利要求12所述的方法,其中所述患者病歷由實驗室、醫生辦公室、醫院、保健組織、保險公司或者個人病歷網站保持。
14.根據權利要求1所述的方法,還包括,基于胎兒DNA分數的估計,規定、發起和/或改變受檢者的治療,母體檢測樣本從該受檢者獲取。
15.根據權利要求1所述的方法,還包括,基于胎兒DNA分數的估計,命令和/或執行一個或多個附加測試。
16.一種用于估計在從懷孕個體的體液中獲取的DNA中的胎兒DNA分數的裝置,所述裝置包括: (a)測序器,其配置成 (i)接收從包括母體基因組和胎兒基因組的DNA的體液樣本提取的DNA,并且 (?)在生成包含一個或多個所指定多態性的DNA段序列條件下測序已提取的DNA ;和 (b)計算裝置,其配置成指示一個或多個處理器以 映射核酸序列到參考序列上的一個或多個所指定多態性, 對至少一個所指定多態性確定所映射DNA段序列的等位基因頻率, 基于懷孕個體的接合性和胎兒的接合性的組合分類至少一個所指定多態性,并且 利用等位基因頻率和接合性的組合估計從懷孕個體獲得的DNA中的胎兒DNA分數。
17.根據權利要求16所述的裝置,還包括在提取母體基因組和胎兒基因組兩者的DNA條件下用于從樣本中提取DNA的工具。
18.根據權利要求16所述的裝置,其中所述計算裝置還配置成指示一個或多個處理器以分類至少一個所指定多態性到下列組合中的一個中: (i)懷孕個體是純合的而胎兒是純合的, (?)懷孕個體是純合的而胎兒是雜合的, (iii)懷孕個體是雜合的而胎兒是純合的,以及 (iv)懷孕個體是雜合的而胎兒是雜合的。
19.根據權利要求18所述的裝置,其中所述計算裝置還配置成指示一個或多個處理器以不考慮分類在組合(i)或者組合(iv)中的任意多態性。
20.根據權利要求16所述的裝置,其中所述計算裝置還配置成指示一個或多個處理器以不考慮具有大于所定義閾值的未成年等位基因頻率的任意多態性。
21.根據權利要求16所述的裝置,其中所述計算裝置還配置成指示一個或多個處理器以過濾一個或多個所指定多態性,以不考慮具有小于所定義閾值的未成年等位基因頻率的任意多態性。
22.根據權利要求16所述的裝置,其中所述計算裝置還配置成指示一個或多個處理器以通過施加閾值給等位基因頻率分類至少一個所指定多態性。
23.根據權利要求16所述的裝置,其中所述計算裝置還配置成指示一個或多個處理器以通過施加對多個多態性獲取的等位基因頻率數據給混合模型分類至少一個所指定多態性。
24.根據權利要求23所述的裝置,其中所述混合模型使用階乘矩。
25.根據權利要求16所述的裝置,還包括用于提取從懷孕個體的血漿獲得的無細胞DNA的裝置,以用于在測序器中測序。
26.根據權利要求16所述的裝置,還包括多態性數據庫,其中所述計算裝置還配置成指示一個或多個處理器通過以計算方式映射所述段到多態性數據庫以映射從懷有胎兒的個體的血液獲得的DNA段。
27.根據權利要求16所述的裝置,其中所述計算裝置還配置成指示一個或多個處理器以對于懷孕個體自動地在患者病歷中記錄的胎兒DNA分數,該患者病歷存儲在計算機可讀介質上。
28.根據權利要求27所述的裝置,其中所述患者病歷由實驗室、醫生辦公室、醫院、保健組織、保險公司或者個人病歷網站保持。
29.一種估計從懷孕個體的體液中獲取的DNA中的胎兒DNA分數的方法,所述方法包括: (a)映射從懷孕個體體液獲得的DNA段到多個多態性序列,其中DNA在識別多個多態性序列條件下測序; (b)對多個多態性序列中的每個確定所映射核酸的等位基因頻率;并且 (c)施加等位基因 頻率到混合模型以獲得從懷有胎兒的個體的血液獲得的DNA中的胎兒DNA分數的估計, 其中(b)-(c)在一個或多個處理器上執行,該一個或多個處理器在用于確定和施加的程序指令下運行。
30.根據權利要求29所述的方法,其中(c)包括在一個或多個處理器上執行指令用于解出一系列方程,該方程用于對于多個多態性序列中的每個的等位基因頻率數據的階乘矩。
31.根據權利要求29所述的方法,還包括,在(c)之前,以計算方式移除用于在胎兒和懷孕個體兩者中識別為雜合的多態性的等位基因頻率。
32.根據權利要求29所述的方法,還包括,在(c)之前,以計算方式移除用于在胎兒和懷孕個體兩者中識別為純合的多態性的等位基因頻率。
33.根據權利要求29所述的方法,還包括,在(c)之前,以計算方式移除用于在懷孕個體中識別為雜合的多態性的等位基因頻率。
34.根據權利要求29所述的方法,其中所述混合模型對測序誤差負責。
35.根據權利要求29所述的方法,其中從懷孕個體的體液中獲取的DNA是從懷孕個體的血漿獲得的無細胞DNA。
36.根據權利要求29所述的方法,其中映射從懷孕個體的體液獲得的核酸包括映射所述段到多態性數據庫。
37.根據權利要求29所述的方法,還包括獲取懷孕個體的體液樣本。
38.根據權利要求29所述的方法,還包括在生成包含多態性序列的DNA段序列的條件下以核算測序器測序懷孕個體體液的DNA。
39.根據權利要求29所述的方法,其中(a)中的映射包括識別多個二等位基因多態性序列。
40.根據權利要求29所述的方法,其中(a)中的映射包括映射DNA段到多個預定義的多態性序列。
41.根據權利要求29所述的方法,還包括執行一個或多個處理器上的程序指令以對于懷孕個體的自動地在患者病歷中記錄在(c)中估計的胎兒DNA分數,該患者病歷存儲在計算機可讀介質上。
42.根據權利要求41所述的方法,其中所述患者病歷由實驗室、醫生辦公室、醫院、保健組織、保險公司或者個人病歷網站保持。
43.根據權利要求29所述的方法,還包括,基于胎兒DNA分數的估計,規定、發起和/或改變受檢者的治療,母體檢測樣本從該受檢者獲取。
44.根據權利要求29所述的方法,還包括,基于胎兒DNA分數的估計,命令和/或執行一個或多個附加測試。
45.一種估計在從懷孕個體的體液中獲取的DNA中的胎兒DNA分數的方法,所述方法包括: (a)接收體液樣本; (b)在提取體液中存在的母體基因組和胎兒基因組兩者的DNA的條件下從樣本中提取DNA ; (c)在生成DNA段序列條件下利用核算測序器測序已提取DNA; (d)比較來自體液的DNA段序列,并且從比較中識別一個或多個二等位基因多態性,其中比較利用計算裝置執行,該計算裝置編程成比較核酸序列和識別多態性; (e)對至少一個所識別的多態性確定DNA段序列的等位基因頻率; (f)基于懷孕個體的接合性和胎兒的接合性的組合分類至少一個所識別的多態性;并且 (g)利用(e)中確定的等位基因頻率和來自(f)中的接合性的組合估計從懷孕個體獲得的DNA中的胎兒DNA分數, 其中(e)-(g)在一個或多個處理器上執行,而該一個或多個處理器在用于確定、分類和估計的程序指令下運行。
46.根據權利要求45所述的方法,其中(f)中的分類把至少一個所識別的多態性分類到下列組合中的一個: (i)懷孕個體是純合的而胎兒是純合的, (?)懷孕個體是純合的而胎兒是雜合的, (iii)懷孕個體是雜合的而胎兒是純合的,以及 (iv)懷孕個體是雜合的而胎兒是雜合的。
47.根據權利要求46所述的方法,還包括不考慮分類在組合(i)或者組合(iv)中的任意多態性。
48.根據權利要求45所述的方法,還包括過濾一個或多個所識別的多態性以不考慮具有大于所定義閾值的未成年等位基因頻率的任意多態性。
49.根據權利要求45所述的方法,其中所述DNA段序列具有在約20堿基對和約300堿基對之間的長度。
50.根據權利要求45所述的方法,其中分類至少一個所識別的多態性包括施加閾值給在(e)中確定的等位基因頻率。
51.根據權利要求45所述的方法,其中分類至少一個所識別的多態性包括施加來自(e)的等位基因頻率數據到混合模型,該等位基因頻率數據是對多個多態性獲取的。
52.根據權利要求51所述的方法,其中所述混合模型使用階乘矩。
53.根據權利要求45所述的方法,其中從懷孕個體的體液中獲取的DNA是從懷孕個體的血漿獲得的無細胞DNA。
54.一種用于估計從懷孕個體的體液中獲取的DNA中的胎兒DNA分數的裝置,所述裝置包括: (a)測序器,其配置成 (i)接收從包括母體基因組和胎兒基因組的DNA的體液樣本提取的DNA,并且 (?)測序已提取的DNA以生成DNA序列段;以及 (b)計算裝置,其配置成指示一個或多個處理器以 映射從懷孕個體體液獲得的DNA序列段到多個多態性序列, 對多個多態性序列的每個確定等位基因頻率從所映射的DNA序列段,以及施加等位基因頻率給混合模型以獲得從懷有胎兒的個體的血液獲得的DNA中的胎兒DNA分數的估計。
55.一種用于估計在從懷孕個體的體液中獲取的DNA中的胎兒DNA分數的裝置,所述裝置包括: (a)測序器,其配置成 (i)接收從包括母體基因組 和胎兒基因組的DNA的體液樣本提取的DNA,并且 (?)在生成DNA段序列條件下測序已提取的DNA;以及 (b)計算裝置,其配置成指示一個或多個處理器以 比較來自體液的DNA段序列,并且從比較中識別一個或多個二等位基因多態性, 確定DNA段序列的等位基因頻率對至少一個所識別的多態性, 基于懷孕個體的接合性和胎兒的接合性的組合分類至少一個所識別的多態性,并且 利用等位基因頻率和接合性的組合估計從懷孕個體獲得的DNA中的胎兒DNA分數。
【文檔編號】C12Q1/68GK103797129SQ201280028976
【公開日】2014年5月14日 申請日期:2012年4月12日 優先權日:2011年4月12日
【發明者】里查德·P·拉瓦, 布萊恩·K·利思, 約翰·P·伯克 申請人:維里納塔健康公司