專利名稱:等位基因調用和倍性調用的方法
技術領域:
本發明大體上涉及獲得和操縱用于醫療預測目的的高保真基因數據的領域。
背景技術:
2006年,在全球范圍內大約進行了 800,000例體外受精(IVF)周期。其中大約 150,000個周期在美國進行,涉及植入前基因診斷(P⑶)的大約有10,000。目前的植入前基因診斷(PGD)技術不規范、價格昂貴而且非常不可靠篩查疾病相關基因座或非整倍體的錯誤率大約為10 %,每次篩查試驗大約花費5,000美元,并且一對夫婦常常被迫選擇是檢測折磨約50%體外受精(IVF)胚胎的非整倍體,還是篩查單細胞疾病相關的基因座。為了平行篩查非整倍體、單基因疾病例如囊性纖維化,以及對通過全基因組關聯研究已知多個基因標記的復雜疾病表型的敏感性,十分需要一種能可靠測定單細胞基因數據且不太昂貴的技術。今天大多數植入前基因診斷(PGD)的重點是高級別染色體異常,例如非整倍體以及以成功植入和帶回家的嬰兒為主要成果的平衡易位。植入前基因診斷(PGD)的另一個重點是基因疾病的篩查,其主要成果是父母一方或雙方為攜帶者的健康嬰兒不受基因遺傳疾病的折磨。在這兩種情況下,將轉移和植入到母親體內的基因不理想胚胎排除加強了這種期望成果的可能性。體外受精(IVF)過程中的植入前基因診斷(PGD)方法目前包括從早期胚胎的約8 個細胞中提取單細胞用于分析。從人類胚胎中分離單細胞的技術性很強,其目前在體外受精(IVF)診所是常規性的。極體和卵裂球均已被成功分離。最常見的技術是從第3天的胚胎(6或8細胞階段)中除去單卵裂球。將胚胎轉移到特殊的細胞培養基(缺少鈣和鎂的標準培養基)內,并用酸性溶液、激光或機械技術在透明帶中引入一個孔。然后,技術員使用活檢吸管除去具有可見細胞核的單個卵裂球。采用各種技術檢測單個(或偶爾多個)卵裂球的DNA特征。由于一個細胞只能提供單復制的DNA,直接檢測DNA非常容易出錯或者有噪音。十分需要一種可以校正或者使這種有噪音的基因測量更精確的技術。正常人的每個二倍體細胞中有兩組23染色體,有一個復制來自一方父母。具有額外或缺失染色體的細胞狀態的非整倍體,以及具有兩個特定染色體均來源于一方父母的細胞狀態的單親二倍體,被認為是很大比例植入失敗和流產以及一些遺傳疾病的原因。只有當個體的特定細胞是非整倍體時,才說該個體表現為鑲嵌性。除了增加成功懷孕的機會外, 值得一提的是,染色體異常的檢測可以確定個體或胚胎的狀態,例如唐氏綜合征、克氏綜合征和特納綜合征等。染色體異常的測試在潛在母親的年齡增加時尤為重要35至40歲時, 估計有40%至50%的胚胎是不正常的,40歲以上時,超過一半的胚胎可能不正常。非整倍體的主要原因是在減數分裂過程中不分離。母體不分離構成所有不分離的約88%,其中約 65%發生在減數分裂I中,而23%發生在減數分裂II中。人類非整倍體的常見類型包括緣于減數分裂I不分離的三體、單體和單親二體。在減數分裂II不分離中產生的一種特殊類型的三體或者M2三體中,一個額外的染色體與兩個正常染色體中的一個相同。M2三體特別難以檢測。非常需要一種更好的方法,其能以高精確度有效檢測出大部分或全部染色體上許多或所有類型的非整倍體,包括既能區分非整倍體和整倍體,還能區分不同類型的非整倍體之間的方法。傳統用于預測非整倍體和嵌合體的方法——核型分析,正讓位于其它更高流通量、更符合成本效益的方法,例如流式細胞儀(FC)和熒光原位雜交(FISH)。目前,絕大多數的產前診斷使用可以確定大染色體畸變的熒光原位雜交(FISH),以及能夠確定少量單核苷酸多態性(SNP)或其它等位基因調用的聚合酶鏈式反應/電泳。熒光原位雜交(FISH) 的一個優點是它比核型分析便宜,但該技術太過復雜和昂貴,以致通常只能選擇小部分染色體測試(通常是染色體13、18、21、X、Y ;有時也為8、9、15、16、17、22);此外,熒光原位雜交(FISH)的專屬性水平較低。目前大約75%的植入前基因診斷(PGD)使用熒光原位雜交 (FISH)測定高級別的染色體異常,例如非整倍體,其錯誤率約為10-15%。非常需要一種具有較高流通量、較低成本、更準確的用于篩查非整倍體的方法。根據0ΜΙΜ,與已知疾病相關的遺傳等位基因的數目超過380,并且正穩步攀升。因此,分析胚胎DNA上的多位點或與特定表型相關的基因座變得越來越相關。植入前遺傳學診斷對產前診斷的一個明確的優點是,一旦檢測到不期望的表型,它可以避免一些有關可能的選擇行為的倫理問題。需要一種方法,其在植入前階段能對胚胎進行更廣泛的基因分型。有許多改進的技術使得在一個或幾個基因座上的遺傳變異診斷能處于單細胞水平。這些包括分裂間期染色體轉換、對比性基因組雜交、熒光聚合酶鏈式反應、小測序和全基因組擴增。由所有這些技術得到的數據其可靠性依賴于DNA制劑的質量。因此,需要更好的擴增單細胞DNA的制備方法和植入前基因診斷(PGD),并且正在研究中。所有的基因分型技術在用于單細胞、少量細胞或DNA片段時,都面臨著完整性問題,最突出的是等位基因遺漏(ADO)。這在體外受精的情形下加劇,因為雜交反應的效率低,而且該技術必須操作迅速,以便在最大胚胎存活時間范圍內對胚胎進行基因分型。十分需要一種方法,其在測量一個或少量細胞的基因數據,尤其是當存在時間限制時,能減輕高等位基因遺漏(ADO)率的問題。概述在本發明的一個具體實施方式
中,所披露的方法能使用次要的基因數據作為信息源,來重建不完整或有噪音的基因數據,包括確定個人等位基因、單倍體、序列、插入、缺失、 重復的特性,以及確定目標個體的染色體拷貝數,所有都具有高保真性。本文的重點在于來自人類主體的基因數據,更特別的是在于尚未植入的胚胎或發育中的胎兒,以及相關個體。 應當指出,所披露的方法適用于各種情形下一系列生物的基因數據。所述用于整理基因數據的技術與體外授精過程中的植入前診斷、與羊膜穿刺術配合的產前診斷、絨毛膜絨毛活檢、胎兒組織采樣和非侵入性產前診斷的情形最相關,其中少量胎兒遺傳物質被從母體血液中分離。使用該方法可有助于重點診斷遺傳疾病、染色體拷貝數的預測、缺陷或異常增加的可能性,以及預測個體對各種疾病和非疾病表型的易感性,從而強化臨床和生活方式的決定。在本發明的一個具體實施方式
中,用于確定目標個體至少一個染色體倍性態的方法包括從目標個體以及從一個或多個相關個體獲得基因數據;對目標個體的每個染色體
5創立至少一個倍性態假說的集合;使用一種或多種專業技術來確定集合中每個倍性態假說的統計概率,對于所使用的每種專業技術,考慮所獲得的基因數據;對于每個倍性態假說, 組合由一種或多種專業技術測定的統計概率;以及基于每個倍性態假說的組合統計概率, 確定目標個體中每個染色體的倍性態。在本發明的一個具體實施方式
中,用于確定目標個體、目標個體的父母一方或雙方,任選一個或多個相關個體的等位基因集合中等位基因狀態的方法包括從目標個體、父母一方或雙方、任何相關個體獲得基因數據;對目標個體、父母一方或雙方,任選一個或多個相關個體創立至少一個等位基因假說的集合,其中所述假說描述了等位基因集合中可能的等位基因狀態;測定考慮了所得基因數據的假說集合中每個等位基因假說的統計概率; 以及基于每個等位基因假說的統計概率,確定目標個體、父母一方或雙方和任選一個或多個相關個體的等位基因集合中每個等位基因的等位狀態。在本發明的一個具體實施方式
中,用于確定目標個體至少一個染色體倍性態的方法包括從目標個體、目標個體的父母一方或雙方、目標個體的一個或多個同胞獲得基因數據,其中所述的基因數據包括涉及至少一個染色體的數據;通過使用一種或多種專業技術, 確定目標個體和目標個體一個或多個同胞的至少一個染色體的倍性態,其中所述的專業技術均不需要輸入定相的基因數據;使用信息化方法,確定目標個體、目標個體的父母、目標個體一個或多個同胞的定相基因數據,所述由目標個體、目標個體的父母和目標個體一個或多個同胞獲得的基因數據確定為那個染色體上的整倍體;以及使用一種或多種專業技術,再次確定目標個體至少一個染色體的倍性態,所述專業技術至少有一種需要輸入定相的基因數據,和由目標個體、目標個體的父母、目標個體的一個或多個同胞確定的定相基因數據。在本發明的一個具體實施方式
中,該方法利用了目標胚胎的基因數據、來自母親和父親的基因數據例如二倍體組織樣本,以及一種或多種如下的可能性基因數據的信息 來自父親的精子、來自母親的二倍體樣本,或來源于母親和父親配子的相同或其它胚胎的卵裂球,聯合減數分裂機理和目標胚胎DNA缺陷性測定的信息,以便以高度的可信度在關鍵基因座的位置用計算機模擬重建胚胎DNA。在本發明的一方面,來源于其它相關個體例如其它胚胎、兄弟和姐妹、祖父母或其它親戚的基因數據,也可用來增加重建胚胎DNA的保真度。在本發明的一個具體實施方式
中,這些基因數據可用來測定個體一個或多個染色體的倍性態。在本發明的一方面,由一組相關個體測量的每個基因數據集合被用來增加其它基因數據的保真度。重要的是要注意本發明的一方面,父母和其它次要基因數據不僅可以重建測量不佳的單核苷酸多態性(SNP),而且可以重建插入、刪除、重復和根本不能測量的單核苷酸多態性(SNP)或整個DNA區域。在本發明的另一個方面,目標個體的基因數據,連同相關個體的次要基因數據被用來測定個體一個、幾個或所有染色體的倍性態或拷貝數。在本發明的一個具體實施方式
中,使用或未使用相關個體基因數據的胎兒或胚胎的染色體組數據可用來檢測細胞是否為非整倍體,也就是說細胞內錯誤的染色體數目存在的地方,或者細胞中是否存在錯誤數目的性染色體。基因數據還可用來檢測單親源二體——存在兩個特定染色體的狀態,它們均來源于一對父母。這通過創立一組有關DNA潛在狀態的假說來實現,并且測試看哪種假說具有最大的可能性給出真實的測量數據。要注意的是,使用高通量的基因分型數據來篩查非整倍體,既能用來自每個胚胎的單個卵裂球測量多種疾病相關的基因座,又可以篩查非整倍體。在本發明的一個具體實施方式
中,對存在于多個基因座上的擴增或未擴增基因物質數量的直接測量結果,可用于檢測單倍體、單親源二體、匹配的三體、不匹配的三體、四體和其它非整倍體狀態。本發明的一個具體實施方式
利用了這樣的事實,即在某些條件下,擴增的平均水平和測量信號輸出結果不隨染色體變化,從而在一組鄰位基因座上測定的基因物質的平均數量與存在的同源染色體成比例,并且倍性態能以統計顯著的形式被調用。在另一個具體實施方式
中,不同的等位基因具有不同統計學的特性擴增曲線,其給出了特定的親代背景和特定的倍性態;這些特性差異可用來確定染色體的倍性態。在本發明的一個具體實施方式
中,如本發明一方面所確定的倍性態可用于為本發明的等位基因調用實施例選擇適宜的輸入。在本發明的另一方面,來自目標個體和/或一個或多個相關個體的定相的重建基因數據可用作本發明倍數體調用的輸入。在本發明的一個具體實施方式
中,能以重復的方法將來自本發明一方面的輸出結果作為輸入來幫助本發明的其它方面選擇適宜的輸入。所屬領域的普通技術人員將認識到,考慮到本發明的利益,本發明的各個方面和具體實施方式
可組合或單獨實施。附圖詳述當前公開的具體實施方式
將參照附圖做進一步說明,其中在幾個視圖中,相同的結構用相同的數字表示。所示附圖不需要標比例,一般用加重代替來舉例說明本發明公開的具體實施方式
的原理。附
圖1顯示了二體染色體的累積分布函數曲線。所述累積分布函數曲線顯示了每個親代背景。附圖2A-2D顯示了不同倍性態的染色體的累積分布函數曲線。附圖2A顯示了二體染色體的累積分布函數曲線。附圖2B顯示了缺對染色體的累積分布函數曲線。附圖2C 顯示了單體染色體的累積分布函數曲線。附圖2D顯示了母方三體染色體的累積分布函數曲線。不同親代背景的累積分布函數曲線之間的關系隨倍性態而改變。附圖3顯示了使用此處公開的全染色體中間技術(Whole Chromosome Mean)的各種倍性態的假說分布。顯示了單體、二體和三體倍性態。附圖4A和附圖4B顯示了使用此處公開的親代存在技術的每個親代的基因數據分布。附圖4A顯示了來自存在的每個親代的基因數據分布。附圖4B顯示了每個親代不存在時的基因數據分布。附圖5顯示了當使用親代存在技術的基因數據存在或不存在時父方基因測量值分布的變化。附圖6顯示了一組單核苷酸多態性圖。將一個輸出通道的標準強度對其它作圖。附圖7顯示了一組單核苷酸多態性圖。將一個輸出通道的標準強度對其它作圖。附圖8A-8C顯示了不同倍性假說的等位基因數據的曲線擬合。附圖8A顯示了使用此處公開的Kernel法對五種不同倍性假說的等位基因數據的曲線擬合。附圖8B顯示了使用此處公開的高斯擬合的五種不同倍性假說的等位基因數據的曲線擬合。附圖8C顯示了由背景AAI BB-BB IAA測量的等位基因數據的直方圖。附圖9顯示了減數分裂的圖示。
附圖IOA和IOB顯示了對大單元等位基因調用可信度的真實命中率。附圖IOA顯示了對預期可信度作圖的平均真實命中率。附圖IOB顯示了單元的相對群體。附圖IlA和IlB顯示了對小單元等位基因調用可信度的真實命中率。附圖IlA顯示了對預期可信度作圖的平均真實命中率。附圖IlB顯示了單元的相對群體。附圖12A和12B顯示了用于確定轉換位置的隨染色體作圖的等位基因可信度。附圖12A顯示了位于一個染色體上的作為鄰位等位基因集合平均值的等位基因集合的調用可信度。該集合或等位基因使用不同的方法。附圖12B顯示了隨染色體的轉換位置。盡管上述確定的附圖闡明了目前公開的具體實施方式
,但是,如在該討論中所指出的,也可以預料到其它的具體實施方式
。本發明通過描述的方式提供了示例性但沒有限制性的具體實施方式
。許多其它的變型和具體實施方式
可由所屬領域的技術人員設計,并且落入了本發明具體實施方式
的原理范圍和精髓內。詳述在本發明的一個具體實施方式
中,可測定細胞或細胞集合的基因狀態。拷貝數調用是測定特定細胞、細胞組或脫氧核糖核酸(DNA)集合中染色體數目和特征的概念。等位基因調用是測定等位基因集合中特定細胞、細胞組、DNA集合等位基因狀態的概念,包括單核苷酸多態性(SNPs)、插入、缺失、重復、序列或其它堿基對信息。本發明可以測定單細胞或其它DNA小集合的非整倍體和等位基因調用,假設至少父母一方或雙方的基因組是可用的。本發明的一些方面使用了在一組相關個體內有幾乎相同的DNA集合的概念,而且使用基因數據的測量結果結合減數分裂機理的知識,有可能通過推理以比單獨使用個體測量結果更高的精確度來測定相關個體的基因狀態。這通過測定哪些相關個體的染色體片段涉及配子生成來實現,當需要時,在減數分裂過程中可能出現基因轉換,從而預期相關個體的基因組片段與目標基因組部分幾乎相同。這對于植入前基因診斷或產前診斷的情形特別有利,其中有限量的DNA是可用的,并且當測定目標倍性態時,這些情形中的胚胎或胎兒具有高的臨床影響。有許多數學技術可測定來自目標基因數據集合的非整倍體狀態。這些技術中的一部分在本發明中討論,但同樣能很好使用其它的技術。在本發明的一個具體實施方式
中,定性和/或定量數據均可使用。在本發明的一個具體實施方式
中,可使用親代數據來推斷可能測定不充分、不準確或根本沒有測定的目標基因組數據。在一個具體實施方式
中,由一個或多個個體推斷的基因數據可用來增加準確測定倍性態的可能性。在本發明的一個具體實施方式
中,可使用多種技術,其中每一種都能排除特定的倍性態,或測定特定倍性態的相對可能性,并且可將那些預測的概率組合,得到單獨使用一種技術可能有的較高可信度的倍性態預測。可對每種染色體調用計算可信度。無論是由測序技術、基因分型陣列還是任意的其它技術得到,DNA測量都會包含一定程度的錯誤。特定DNA測量的相對可信度受許多因素影響,包括擴增方法、用來測定DNA 的技術、使用的原則、所使用DNA的用量、所使用DNA的完整性、操作者以及試劑的新鮮度, 這僅僅列舉了一小部分。增加測量精確度的一種方法是基于相關個體基因狀態的知識,使用利用了信息的技術推斷目標DNA正確的基因狀態。由于希望相關個體共享它們基因狀態的特定方面,當一起考慮來自多個相關個體的基因數據時,有可能確定測量中的錯誤,并增加所有相關個體基因狀態知識的精確性。此外,可對每個調用進行可信度計算。
在本發明的一些方面,目標個體是胚胎,并且將所公開的方法應用于胚胎基因數據的目的,是允許醫生或其它代理人在體外受精(IVF)過程中應移植哪個胚胎作出有根據的選擇。在本發明的另一方面,目標個體是胎兒,將所公開的方法應用于胎兒基因數據的目的,是允許醫生或其它代理人在對可能的臨床決定或采取其它與胎兒有關的行動時作出有根據的選擇。SNP(單核苷酸多態性)是指能區分同種屬的兩個成員之間基因組的單核苷酸。該術語的使用不應隱含對每種變體出現的頻率有任何限制。調用單核苷酸多態性(SNP)是指在考慮直接和間接證據后對特定堿基對的真實狀態做決定的行為。序列表是指DNA序列或基因序列。其可指個體DNA分子或鏈的初級物理結構。基因座是指個體DNA有利的特定區域,其可指代單核苷酸多態性(SNP)、可能插入或缺失的位點,或者一些其它相關基因變體的位點。疾病相關的單核苷酸多態性(SNPs)也可以指疾病相關的基因座。等位基因是指占據特定基因座的基因。調用等位基因是指確定DNA特定基因座的基因態的行為。這可能涉及調用單核苷酸多態性(SNP)、大多數單核苷酸多態性(SNP),或確定所述基因座上是否存在插入或缺失,或確定所述基因座可能存在的插入的數目,或確定所述基因座是否存在一些其它的基因變體。正確的等位基因調用是指正確反映了個體真實基因物質真實狀態的等位基因調用。整理基因數據是指去掉有缺陷的數據和改正部分或所有錯誤,或填補一個或多個基因座缺失數據的行為。在本發明的上下文中,這可能涉及使用相關個體的基因數據及此處描述的方法。增加等位基因調用的保真度是指整理關于等位基因集合基因數據的行為。有缺陷的基因數據是指下述任意的基因數據等位基因漏失、不確定的堿基對測量結果、不正確的堿基對測量結果、缺失的堿基對測量結果、不確定的插入或缺失測量結果、不確定的染色體片段拷貝數的測量結果、假信號、缺失的測量結果、其它錯誤或其組合。噪音基因數據是指有缺陷的基因數據,又稱為不完全的基因數據。未整理的基因數據是指測量的基因數據,即沒有使用方法校正原始基因數據中存在的噪音或錯誤;又稱為未加工的基因數據。可信度是指被調用的單核苷酸多態性(SNP)、等位基因、等位基因集合或確定的染色體片段拷貝數目正確表示個體真實基因狀態的統計概率。倍性調用又稱“染色體拷貝數調用”或“拷貝數調用”(CNC),是確定細胞內存在的一個或多個染色體的數量和染色體特性的行為。非整倍體是指細胞內存在錯誤數目的染色體的狀態。在人類身體細胞的情形下是指細胞不包含22對常染色體和一對性染色體的情形。在人類配子的情形下是指細胞不含有23對染色體之一的情形。當指代單染色體時,其是指存在的同源染色體多于或少于2的情形。
倍性態是指細胞中一個或多個染色體的數量和染色體特性。染色體特性是指所述染色體數目。正常人有22種有限的常染色體和兩種性染色體。其還可以指染色體的親代。還可以指從父母遺傳的特定染色體。還可以指染色體的其它識別特征。基因物質的狀態或簡述為“基因態”是指DNA上一組單核苷酸多態性(SNP)的識別,其可指代基因物質的定相的單倍型,以及可指代DNA序列,包括插入、缺失、重復和突變。還可以指代一個或多個染色體、染色體片段或染色體片段集合的倍性態。等位基因數據是指涉及一組一個或多個等位基因的一組遺傳型數據。其可指代定相的單倍型數據。其可指代單核苷酸多態性(SNP)特性,以及可指代DNA序列數據,包括插入、缺失、重復和突變。其可包括每個等位基因的親代。等位基因狀態是指基因在一組一個或多個等位基因中的真實狀態。其可指代由等位基因數據描述的基因的真實狀態。匹配的復制錯誤,又稱“匹配染色體非整倍體”或“MCA”,是一個細胞含有兩個相同或幾乎相同的染色體的非整倍體狀態。這種類型的非整倍體會出現在核分裂的配子生成過程中,可被稱為核分裂的不分離錯誤。不匹配的復制錯誤,又稱“獨特的染色體非整倍體”或“UCA”,是一個細胞含有兩個來自相同父母的,以及同源但不相同的染色體的非整倍體狀態。這種類型的非整倍體會出現在減數分裂過程中,并且可被稱為核分裂錯誤。鑲嵌性是指在與其倍性態異種的胚胎或其它個體中的一組細胞。同源染色體是含有在減數分裂過程中能正常配對的基因集合的染色體。相同的染色體是含有同組基因,并且對于每個基因具有相同或幾乎相同的相同等位基因集合的染色體。等位基因遺漏或“ADO”指未檢測到特定等位基因上同源染色體的堿基對集合中的一個堿基對的狀況。基因座漏失或“LD0”指來自特定等位基因上同源染色體的一組堿基對中兩個堿基對均未被檢測到的狀況。同型組合的是指具有相同的等位基因作為相應的染色體基因座。雜合的是指具有不同的等位基因作為相應的染色體基因座。染色體區域是指染色體片段或整個染色體。染色體片段是指尺寸范圍從一個堿基對到整個染色體的染色體部分。染色體既可指代整個染色體,還可以是染色體片段或一部分。復制份數是指染色體片段的拷貝數,可指相同的復制份數,或指染色體片段不同的同源復制份數,其中染色體片段的不同復制份數含有實質上相同集合的基因座集合,并且其中的一個或多個等位基因是不同的。要注意的是,在非整倍體的某些情況中,例如M2 復制錯誤,可能有一些特定染色體片段的復制份數是相同的,并且相同染色體片段的一些復制份數是不同的。單倍型是在相同染色體上一起傳送的多個基因座的等位基因的組合。依賴在特定基因座集合之間出現的重組數目,單倍型可指僅2個基因座或者整個染色體。單倍型還可以指在單染色單體上統計相關的一組單核苷酸多態性(SNPs)。
單倍型數據又稱“定相的數據”或“有序的基因數據”,是指來自二倍體或多倍體基因組上的單染色體的數據,即,分離的母方或父方二倍體基因組中染色體的復制。定相是指測定個人給出的無序的單倍型基因數據、二倍體(或多倍體)基因數據的行為。其可指代對于在一個染色體中發現的一組等位基因,測定等位基因的兩個基因中哪個與個體的兩個同源染色體之一有關聯的行為。定相的數據是指單倍型已確定的基因數據。定相的等位基因調用數據是指等位基因狀態已確定的等位基因數據,包括單倍型數據。在一個具體實施方式
中,使用基于信息學的方法測定的定相親代等位基因調用數據在本發明的倍性調用方面可用作獲得的基因數據。無序的基因數據是指由二倍體或多倍體基因組中的兩個或多個染色體的測量結果得到的混合數據,例如在二倍體基因組中特殊染色體上的母方和父方的復制份數。“在個體中”、“個體的”、“在個體”、“來自個體”或“在個體上”的基因數據是指個體基因組的數據描述方面。其可指代一個或一組基因座,部分或整個序列,部分或整個染色體,或者整個基因組。假說是指在給定的染色體集合上的一組可能的倍性態,或者在給定的基因座集合上的一組可能的等位基因狀態。可能性的集合可含有一個或多個元素。拷貝數假說又稱“倍性態假說”,是指關于個體中有多少特定染色體復制份數的假說。還可以指代關于每條染色體特性的假說,包括每條染色體的親代,以及親代兩條染色體中的哪條存在于個體中。還可以指關于來自相關個體的哪條染色體或染色體片段,如果有的話,與來自個體的特定染色體基因一致的假說。等位基因假說是指對于特定的等位基因集合可能有的等位基因狀態。一組等位基因假說指一起描述等位基因集合中所有可能的等位基因狀態的一組假說。還可以指關于來自相關個體的哪條染色體或染色體片段,如果有的話,與來自個體的特定染色體基因一致的假說。目標個體是指基因數據已測定的個體。在一種情況中,僅僅能得到來自目標個體的有限數量的DNA。在一種情況中,目標個體是胚胎或胎兒。在一些具體實施方式
中,可以有一個以上的目標個體。在一些具體實施方式
中,源于一對父母的每個兒童、胚胎、胎兒或精子可被看做目標個體。相關個體是指基因相關的,從而與目標個體分享單體域的任意個體。在一種情況中,相關個體可以是目標個體的基因父母,或者是由父母得到的任何基因物質,例如精子、 極體、胚胎、胎兒或兒童。其還可以指同胞或祖父母。同胞是指與所考慮個體父母相同的任意個體。在一些具體實施方式
中,其可指已出生的兒童、胚胎,或胎兒,或來源于已出生兒童、胚胎或胎兒的一個或多個細胞。同胞還可以指來源于父母一方的單倍體個體,例如精子、極體或任意其它單倍型基因物質的集合。個體可被看做是自己的同胞。父母是指個體的基因母親或父親。個體典型性的有兩個父母,母親和父親。父母可被看做個體。親代背景是指目標的父母任一方的兩條相關染色體之一上的特定單核苷酸多態性(SNP)的基因狀態。
如希望的發展又稱為“正常發展”,是指成活的胚胎移植到子宮中并導致懷孕。還指繼續懷孕并使得嬰兒安全出生。還可指出生的嬰兒沒有染色體異常。還可指出生的嬰兒沒有其它不希望的基因狀況,例如疾病相關聯的基因。術語“如預期發展”包括任何父母或保健推進者希望的內容。在某些情形下,“如預期發展”指可用于醫學研究或其它目的不能獨立生存的或能生存的胚胎。插入到子宮是指在體外受精的背景下將胚胎轉移到子宮腔的過程。臨床決定是指所采取行動的結果會影響個體健康或生存的任意決定。在體外受精 (IVF)的情形中,臨床決定指移植或不移植一個或多個胚胎的決定。在產前檢查的情形中, 臨床決定指對胎兒流產或不流產的決定。臨床決定可指做進一步測試的決定。平臺響應是指基因測量平臺輸入/輸出特性的數學表征,并且可用作統計預知測量差異的量度。利用信息的方法是指旨在通過統計推斷最可能的狀態,而不是通過直接物理測量狀態,來測定一個或多個等位基因上一個或多個染色體或等位基因狀態的倍性態的方法。 在本發明的一個具體實施方式
中,利用信息的技術是本專利公開的一種。在本發明的一個具體實施方式
中,其可以是親代支持 。專業技術是指用來測定基因狀態的方法。在一個具體實施方式
中,其可指用來測定或幫助測定個體倍性態的方法。其可指算法、定量法、定性法和/或利用計算機的技術。通道強度是指由用來測量基因數據的方法輸出的與特定等位基因、堿基對或其它基因標記相關的熒光強度或其它信號。其可指一組輸出信息。在一個具體實施方式
中,其可指來自基因分型陣列的輸出信息的集合。累積分布函數(CDF)曲線是指變量單調遞增的右連概率分布,其中曲線上各點的 “y”坐標指變量取值小于或等于該點“χ”坐標時的概率。親代背景親代背景是指目標雙親之一的兩個相關染色體每條染色體上的給定單核苷酸多態性(SNP)的基因狀態。要注意的是,在一個具體實施方式
中,親代背景不是指目標的等位基因狀態,而是指父母的等位基因狀態。特定單核苷酸多態性(SNP)的親代背景可由四個堿基對組成,兩個父方的,兩個母方的;它們彼此可以是相同的或不同的。其通常被寫為 "Hi1Hi21 f\f2”,其中Hi1和m2是兩個母方染色體上特定SNP的基因狀態,和f2是兩個父方染色體上特定單核苷酸多態性(SNP)的基因狀態。在一些具體實施方式
中,親代背景可寫為 "If2Im1Hi2”。要注意的是,下標“1”和“2”指第一和第二染色體上特定等位基因的基因型; 還要注意的是,選擇哪條染色體標記為“ 1,,和哪條標記為“2”是任意的。要注意的是,在本發明中,A和B通常用來在屬類上代表堿基對特性;A或B同樣可代表C (胞核嘧啶)、G (鳥嘌呤)、A (腺嘌呤)或T (胸腺嘧啶)。例如,如果在特定等位基因上,母方的基因型是染色體上的T和同源染色體上的G,所述等位基因上的父方基因型在兩條同源染色體上都是G,可以說目標個體的等位基因具有ABlBB的親代背景。要注意的是, 理論上任意的四個等位基因均可能出現在特定的等位基因上,并因此可能例如在特定等位基因上對于母方具有AT基因型,對于父方具有GC基因型。然而,經驗數據表明,大多數情況下在特定等位基因上僅觀察到四個可能堿基對中的兩個。在本發明中,盡管對所屬領域的技術人員應顯而易見的是,在考慮到該假說沒有包括的情形后可以對這里公開的具體實
12施方式進行改進,但該討論中假設在特定等位基因上只能觀察到兩個可能的堿基對。“親代背景”是指具有相同親代背景的目標單核苷酸多態性(SNP)的集合或子集。 例如,如果要測量目標個體特定染色體上的1000個等位基因,則背景AAlBB可指1000個等位基因組中所有等位基因的集合,其中目標母方的基因型為同型組合,目標父方的基因型為同型組合,但在所述基因座上的母方基因型和父方基因型是不同的。如果親代數據沒有被定相,從而AB = BA,那么有9種可能的親代背景:AA|AA、AA|AB、AA|BB、AB|AA、AB|AB、 AB IBB,BB IAA,BB | AB和BB | BB。如果親代數據被定相,從而AB乒BA,那么有16種不同可能的親代背景:AA IAA,AAIAB,AA | BA,AA | BB,AB | AA,AB | AB,AB | BA,AB | BB,BA | AA,BA | AB,BA | BA、 BA|BB、BB|AA、BB|AB、BB|BA和BB|BB。排除性染色體上的一些單核苷酸多態性(SNP)后, 染色體上的每個單核苷酸多態性(SNP)等位基因具有這些親代背景中的一個。親代背景中父母一方為雜合的單核苷酸多態性(SNP)集合被稱為雜合背景。假說假說是指可能的基因狀態。其可指代可能的等位基因狀態。假說的集合是指可能的基因狀態的集合。在一些具體實施方式
中,假說的集合旨在使集合中的一個假說與任何特定個人的真實基因相對應。在一些具體實施方式
中,假說的集合旨在使每個可能的基因狀態可用至少集合中的一個假說描述。在本發明的一些具體實施方式
中,本發明的一方面是測定哪個假說與所考察個體的真實基因狀態相一致。在本發明的另一個具體實施方式
中,一個步驟包括創立假說。在一些具體實施方式
中,其可以是拷貝數假說。在一些具體實施方式
中,其可能涉及關于來自相關個體的哪種染色體片段與其它相關個體的哪些片段,如果有的話,基因相對應的假說。創立假說是指設置變量的極限,使得所有考慮中的可能基因狀態的集合被那些變化包括。“拷貝數假說”,又稱為“倍性假說“或“倍性態假說”,是指關于目標個體的特定染色體或染色體部分可能的倍性態的假說。其還可指個體一個以上的染色體的倍性態。拷貝數假說的集合是指這樣的假說集合,其中每種假說對應于個體不同可能的倍性態。正常個體含有來自每個親代的至少一個染色體。然而,由于減數分裂和有絲分裂的錯誤,個體可能有來自每個親代的0、1、2或更多的特定染色體。事實上,很少見到來自親代的兩個以上的特定染色體。在本發明中,具體實施方式
僅考慮可能的假說,其中有0、1或2個特定染色體的復制份數來自親代。在一些具體實施方式
中,對于特定的染色體,有9種可能的假說涉及母方來源的0、1或2個染色體的三種可能假說,乘以涉及父方來源的0、1或2個染色體的三種可能假說。用(m,f)表示假說,其中m是遺傳自母親特定染色體的數目,f是遺傳自父親特定染色體的數目。因此,這9種假說是(0,0)、(0,1) > (0,2), (1,0), (1,1)、(1,2), (2,0), 0,1),和0,2)。不同的假說對應不同的倍性態。例如,(1,1)指正常的二體染色體,(2,1)指母方的三體,以及(0,1)指父本單體。在一些具體實施方式
中,兩個染色體遺傳自一方父母,一個染色體遺傳自另一方父母的情形可進一步分化為兩種情形一種是兩個染色體是相同的(匹配的復制錯誤),一種是兩個染色體是同源但不同的(不匹配的復制錯誤)。在這些具體實施方式
中,有16種可能的假說。有可能使用其它的假說集合,并且對于所屬領域的技術人員而言,在考慮了不同數量的假說后如何改進所公開的方法是顯而易見的。在本發明的一些具體實施方式
中,倍性假說是指關于來自其它相關個體的哪種染色體對應目標個體基因組中發現的染色體的假說。在一些具體實施方式
中,所述方法的一個關鍵是預期相關個體能分享單體域的事實,使用來自相關個體的測量基因數據,以及利用目標個體和相關個體之間哪種單體域匹配的知識,有可能推斷出與單獨使用目標個體的基因測量結果相比可信度更高的目標個體的正確基因數據。等位基因假說,或稱“等位基因狀態假說”是指關于等位基因集合可能的等位基因狀態的假說。在一些具體實施方式
中,如上所述的,該方法的一個關鍵是相關個體能分享單體域,這可幫助測量缺陷基因數據的重建。等位基因假說還可指關于來自相關個體的哪種染色體或染色體片段與來自個體的特定染色體對應的假說。減數分裂的理論告訴我們,個體中的每種染色體遺傳自父母一方,并且幾乎是與親代染色體相同的副本。因此,如果父母的單倍型是已知的,即定相的父母基因型,那么孩子的基因型也能推斷出。(術語孩子這里是指由兩個配子組成的任意個體,一個配子來自母親,一個配子來自父親。)在本發明的一個具體實施方式
中,等位基因假說描述了在等位基因集合中可能的等位基因狀態,包括單倍型,以及來自相關個體的哪種染色體能與含有等位基因集合的染色體匹配。一旦定義了假說集合,當在輸入基因數據后操作算法時,它們可輸出所考慮的每種假說的測定統計概率。各種假說的概率可通過數學計算測定,對于各種假說中的每一種, 如一個或多個專業技術、算法和/或本發明其它地方所述方法所描述的,概率值使用相關基因數據作為輸入數據。一旦通過多個技術測定并估計了不同假說的概率,可將它們組合。對于每種假說, 這需要乘以由每種技術測定得到的概率。所述假說概率的產物可歸一化。要注意的是,一種倍性假說是指染色體可能的倍性狀態。“組合概率”的過程,又稱為“組合假說”或組合專業技術的結果,是一個對所屬線性代數領域的技術人員而言很熟悉的概念。組合概率一個可能的方式如下當使用專業技術來評估一組提供了一組基因數據的假說時,所述方法的輸出結果是一組以一對一的形式與一組假說中的每個假說相關聯的概率。當一組概率由第一種專業技術測定時,每一個概率與集合中的一種假說相關聯,并與一組由第二種專業技術測定的概率組合,每種概率與相同的假說集合相關聯,然后將兩個概率集合相乘。這意味著,對于集合中的每個假說,由兩種專業方法測定的與該假說相關的兩個概率相乘在一起,然后相應的結果即輸出概率。 該過程可擴展到任何數量的專業技術。如果只使用了一種專業技術,那么輸出概率與輸入概率相同。如果使用了兩種以上的專業技術,那么可將相關概率同時相乘。可將結果歸一化,使得假說集合中的假說概率之和為100%。在一些具體實施方式
中,如果特定假說的組合概率大于其它任意假說的組合概率,那么就可以考慮確定該假說為最具可能性的。在一些具體實施方式
中,如果歸一化概率大于臨界值,則可以將該假說確定為最具可能性的,并且可調用倍性態或其它基因態。在一個具體實施方式
中,這意味著與所述假說相關的染色體的數目和特性可被稱為倍性態。在一個具體實施方式
中,這種可能意味著與所述假說相關的等位基因的特性可被稱為等位基因狀態。在一些具體實施方式
中,臨界值可介于約50%至約80%之間。在一些具體實施方式
中,臨界值可介于約80%至約90%之間。在一些具體實施方式
中,臨界值可介于約90% 至約95%之間。在一些具體實施方式
中,臨界值可介于約95%至約99%之間。在一些具體實施方式
中,臨界值可介于約99%至約99. 9%之間。在一些具體實施方式
中,臨界值可在約99. 9%以上。部分
具體實施例方式在本發明的一種具體實施方式
中,確定目標個體至少一個染色體倍性態的方法包括從目標個體和一個或多個相關個體得到基因數據;對于目標個體的每個染色體創立一組至少一個倍性態的假說;使用一個或多個專業技術來確定組中每個倍性態假說的統計概率,對于每個所使用的專業技術,給出獲得的基因數據;組合由一個或多個專業技術確定的對于每個倍性態假說的統計概率;以及基于組合的每個倍性態假說的統計概率,確定目標個體每個染色體的倍性態。在一個具體實施方式
中,測定目標個體中每個染色體的倍性態可以在體外受精的背景下進行,其中所述的目標個體是胚胎。在一個具體實施方式
中,測定目標個體中每個染色體的倍性態可以在無創性產前診斷的背景下進行,其中所述的目標個體是胎兒。測定目標個體中染色體的倍性態可在篩查染色體狀況的背景下進行,所述的染色體狀況選自包括但不限于整倍體、缺對染色體、單體、單親源二體、三體、匹配的三體、不匹配的三體、四體、 其它非整倍體、不平衡易位、缺失、插入、嵌合體及其組合。在一個具體實施方式
中,測定目標個體中染色體的倍性態可對多個胚胎進行,并可用來選擇至少一種插入到子宮的胚胎。 在測定了目標個體每個染色體的倍性態后可作出臨床決定。在本發明的一些具體實施方式
中,用來測定目標個體一個或多個染色體倍性態的方法可包括下列步驟首先,獲得來自目標個體和來自一個或多個相關個體的基因數據。在一個具體實施方式
中,相關個體包括目標個體的雙親。在一個具體實施方式
中,相關個體包括目標個體的同胞。這種個體的基因數據可通過大量方式獲得,包括但不限于其可以是來自基因分型平臺的輸出測量結果;其可以是測量個體基因物質的序列數據;其可以是計算機模擬的基因數據;其可以是來自用于清除基因數據的信息方法的輸出數據,或者其可以來自其它來源。用于測量的基因物質可以用所屬領域已知的技術來擴增。目標個體的基因數據可使用選自包括但不限于下列組的工具和或技術測量分子倒置探針(MIP)、基因分型微數列、TaqMan單核苷酸多態性(SNP)基因分型分析法、 Illumina基因分型體系、其它基因分型分析法、熒光原位雜交(FISH)、測序、其它高通量基因分型平臺,及其組合。目標個體的基因數據可通過分析選自包括但不限于下列物質的組測量一個或多個來自個體的二倍體細胞、一個或多個來自目標個體的單倍體細胞、一個或多個來自目標個體的卵裂球、在目標個體中發現的額外細胞基因物質、在母方血液中發現的來自目標個體的額外細胞基因物質、在母方血液中發現的來自目標個體的細胞、已知來源于目標個體的基因物質,及其組合。相關個體的基因數據可通過分析選自包括但不限于下述物質的組測量相關個體的大量二倍體組織、一個或多個來自相關個體的二倍體細胞、 一個或多個取自相關個體的單倍體細胞、一個或多個由來自相關個體的配子創造的胚胎、 一個或多個取自例如胚胎的卵裂球、在相關個體中發現的額外細胞基因物質、已知來源于相關個體的基因物質,及其組合。第二,可對目標個體的每個染色體創立至少一個倍性態假說的集合。每個倍性態假說可涉及目標個體染色體一個可能的倍性態。假說的集合可包括目標個體的染色體可預期具有的所有可能的倍性態。
第三,使用一個或多個本發明所討論的專業技術,可對集合中的每個倍性態假說測定統計概率。在一些具體實施方式
中,專業技術可涉及基于所得基因數據操作的算法,并且輸出結果可以是對所考慮每個假說的測定統計概率。在一個具體實施方式
中,至少一種專業技術使用了定相的親代等位基因調用數據,即,其使用了作為輸入數據的來自目標個體父母的等位基因數據,其中等位基因數據的等倍型已被測定。在一個具體實施方式
中,至少一種專業技術對性染色體是特定的。測定概率的集合與假說的集合相對應。在一個具體實施方式
中,每個倍性態假說的統計概率可能涉及對一個或多個親代背景作累積分布函數曲線圖。在一個具體實施方式
中,測定每個假說倍性態的統計概率可能涉及將平均等位基因集合的基因分型輸出數據的強度與預期強度進行比較。各種專業技術所隱含的數學在本發明的其它地方有描述。第四,組合測定概率的集合。對于每種假說而言,這需要將由每個技術測定的概率相乘,并且還可能涉及將假說歸一化。在一些具體實施方式
中,可將概率相組合,并假設它們是相互獨立的。然后,假說集合中的每種假說概率結果的集合作為組合的假說概率被輸
出ο最后,將目標個體的倍性態確定為與概率最大的假說相關聯的倍性態。在某些情況下,一個假說將有大于90 %的歸一化組合概率。每種假說與一個倍性態相關聯,所述的倍性態與歸一化組合概率大于90%或一些可選擇作為確定倍性態的其它臨界值的假說相關聯。在本發明的另一個具體實施方式
中,用來測定來自目標個體、目標個體的父母一方或雙親,以及可能來自一個或多個相關個體的等位基因集合的等位基因狀態的方法包括從目標個體、父母一方或雙親,以及任意的相關個體獲得基因數據;為目標個體、父母一方或雙親,任選地為一個或多個相關個體創立至少一個等位基因假說的集合,其中所述的假說描述了等位基因集合中可能的等位基因狀態;測定給出了所得基因數據的假說集合中每個等位基因假說的統計概率;和基于每個等位基因假說的統計概率,確定目標個體、父母一方或雙親,以及任選地一個或多個相關個體等位基因集合中每個等位基因的等位基因狀態。在一個具體實施方式
中,所述方法考慮了可能在減數分裂過程中出現的DNA基因轉換的概率。在一個具體實施方式
中,所述方法可與測定一個或多個目標個體中存在的特定染色體片段拷貝數的方法同時或聯合進行,其中兩種方法使用來自作為基因數據源的一個或多個目標個體的相同的細胞或細胞組。在一個具體實施方式
中,等位基因狀態的測定可在體外受精的情形下進行,其中至少一種目標個體是胚胎。在一個具體實施方式
中,等位基因狀態的測定可在當至少一個目標個體是胚胎時進行,并且對一個或多個目標個體等位基因集合的等位基因狀態進行測定,以選擇體外受精(IVF)情形中至少一個用于轉移的胚胎,其中所述的目標個體選自包括但不限于一個或多個來自相同父母的胚胎、一個或多個來自父方的精子,及其組合的組。 在一個具體實施方式
中,等位基因狀態的測定可在無創性產前診斷的情形下進行,其中至少一種目標個體是胎兒。在一個具體實施方式
中,測定一個或多個目標個體等位基因組的等位基因狀態可包括那些個體等位基因集合中的定相基因型。在對一個或多個目標個體等位基因集合的等位基因狀態進行測定后,可作出臨床決定。在本發明的一些具體實施方式
中,用于測定一個或多個目標個體、以及目標個體父母一方或雙方等位基因集合中等位基因數據的方法可包括下述步驟首先,獲得來自目標個體、來自父母一方或雙方,以及來自零或多個相關個體的基因數據。這種個體的基因數據可用許多方法得到,包括但不限于基因分型平臺的輸出測量結果;其可以是對個體的基因物質測量的序列數據;其可以是計算機模擬的基因數據;其可以是來自旨在清除基因數據的信息方法的輸出數據,或者其可以來自其它來源。在一個具體實施方式
中,所獲得的基因數據可包括由基因分型陣列測量的單核苷酸多樣性。在一個具體實施方式
中,所獲得的基因數據可包括DNA序列數據,S卩,代表了個體DNA初級結構的測定基因序列。用于測量的基因物質可用所屬領域已知的許多技術放大。在一個具體實施方式
中,目標個體是所有的同胞。在一個具體實施方式
中,對目標個體的一次或多次基因測量在單細胞上進行。在一個具體實施方式
中,可使用平臺響應模型來測定給出了基因分型技術的觀察基因測量結果和典型測量偏差的真實基因型的可能性。目標個體的基因數據可使用選自包括但不限于下列組的工具和或技術測量分子倒置探針(MIP)、基因分型微數列、TaqMan單核苷酸多態性(SNP)基因分型分析法、 Illumina基因分型體系、其它基因分型分析法、熒光原位雜交(FISH)、測序、其它高通量基因分型平臺,及其組合。目標個體的基因數據可通過分析選自包括但不限于下列組的物質測量一個或多個來自目標個體的二倍體細胞、一個或多個來自目標個體的單倍體細胞、一個或多個來自目標個體的卵裂球、在目標個體中發現的額外細胞基因物質、在母方血液中發現的來自目標個體的額外細胞基因物質、在母方血液中發現的來自目標個體的細胞、已知來源于目標個體的基因物質,及其組合。相關個體的基因數據可通過分析選自包括但不限于下述組的物質測量相關個體的大量二倍體組織、一個或多個來自相關個體的二倍體細胞、一個或多個取自相關個體的單倍體細胞、一個或多個由來自相關個體的配子創造的胚胎、一個或多個取自這類胚胎的卵裂球、在相關個體中發現的額外細胞基因物質、已知來源于相關個體的基因物質,及其組合。第二,可對每個個體的等位基因集合創立多個等位基因假說的集合。每個等位基因假說是指所述個體的等位基因集合中的每個等位基因可能的特性。在一個具體實施方式
中,目標個體等位基因的特性包括等位基因的起源,即,等位基因基因起源的父母,以及等位基因基因起源的特定染色體。假說的集合可包括預期目標個體具有的等位基因集合中所有可能的等位基因狀態。最后,每個等位基因假說的統計概率可在考慮所得基因數據后測定。特定假說的概率測定可通過本發明描述的任何算法完成,特別是那些在等位基因調用部分中的算法。 個體的等位基因假說的集合可包括個體等位基因集合中所有可能的等位基因狀態。那些與目標個體有噪音的測量基因數據匹配更緊密的假說更可能被校正。與目標個體的真實基因數據正好對應的假說更可能以非常高的概率被測定。等位基因狀態可確定為與具有最高概率的假說相對應的等位基因狀態。在一些具體實施方式
中,等位基因狀態可對等位基因集合的不同子集測定。親代支持本發明的一些具體實施方式
可使用利用信息的親代支持 (PS)法。在一些具體實施方式
中,親代支持 法是可用來對一個或少量細胞以高準確度測定基因數據的方法的聚集,特別是測定疾病相關聯的等位基因、其它有利的等位基因,和/或細胞的倍性態
親代支持""法利用已知的親代基因數據,即母親和/或父親的單倍體和/或二倍體基因數據,和減數分裂機理的知識,以及目標DNA、可能的一個或多個相關個體有缺陷的測量結果,以高度的可信度經計算機模擬來重建在多個等位基因上的基因型,和/或胚胎或任何目標細胞,以及關鍵基因座位點上的目標DNA的倍性態。親代支持 法不僅可重建測定不充分的單核苷酸多態性,還可以重建根本沒有測量的插入和缺失、單核苷酸多態性 (SNP)或DNA區域整體。此外,親代支持 法即可測量多疾病相關聯的基因座,還可篩查來自單細胞的非整倍體。在一些具體實施方式
中,親代支持 法可用來表征在體外受精(IVF) 周中一個或多個來自胚胎活檢的細胞,以確定一個或多個細胞的基因狀況。親代支持 法允許清除有噪音的基因數據。這可通過使用相關個體(父母)的基因型作為參考推斷目標基因組(胚胎)正確的遺傳等位基因來實現。親代支持""在只有少量的基因物質可用(例如植入前基因診斷(PGD)),以及基因型的直接測量由于有限量的基因物質而具有固有噪音時特別相關。親代支持 法能重建胚胎高度精確有序的二倍體等位基因序列,以及染色體片段的復制數,甚至是常規的、無序的二倍體測量結果也可用高效率的等位基因漏失、降低、易變的擴增偏差及其它錯誤表征。所述方法能同時采用基本的基因模型和測量誤差的基本模型。基因模型可同時測定每個單核苷酸多態性(SNP)的等位基因概率和單核苷酸多態性(SNP)之間的基因轉換概率。等位基因概率可在每個單核苷酸多態性(SNP)上利用由親代得到的數據,以及利用了由HapMap數據庫得到的數據單核苷酸多態性(SNP)之間的模型基因轉換概率,如hternational HapMap Project所開發的。考慮到合適的基本基因模型和測量誤差模型,通過對計算效率調整,可使用最大后驗估計(MAP) 判斷,來評估胚胎中每個單核苷酸多態性(SNP)上正確、有序的等位基因值。親代支持 技術的一個方面是在一些使用親代基因型背景的具體實施方式
中的染色體拷貝數調用算法。為了調用染色體拷貝數,所述算法可結合使用基因座遺漏(LDO) 的現象和預期的胚胎基因型分布。在全基因組擴增過程中,必然會出現基因座遺漏(LDO)。 基因座遺漏(LDO)率與來源的基因物質的拷貝數一致,即,較少的基因復制會導致較高的基因座遺漏(LD0),反之亦然。照這樣,其遵照所述在胚胎中以典型模式表現的具有特定情形親代基因型的基因座,并與等位基因對胚胎貢獻的概率相關。例如,如果父母雙方都具有同型組合BB狀態,那么胚胎應決不會有AB或AA狀態。在該情形中,A檢測通道的測量結果預期具有由背景噪音和各種干擾信號確定的分布,但是沒有有效的基因型。相反,如果父母雙方都具有同型組合AA狀態,那么胚胎應絕不會有AB或BB狀態,并且A通道的測量結果預期具有可能給出特定全基因組擴增中基因座遺漏(LDO)率的最大強度。當胚胎的基礎拷貝數狀態不同于二體時,對應于特殊親代背景的基因座會基于父母一方提供或缺少的額外等位基因內容以預期的模式表現。這允許對每個染色體或染色體片段的倍性態進行測定。 該方法一個具體實施方式
的細節在本發明的其它部分有記載。使用親代背景的拷貝數調用親代背景的概念在拷貝數調用(又稱為“倍性測定”)的情形中很有用。當基因分型時,在對特定的倍性態進行測量時,第一親代背景中的所有單核苷酸多態性(SNP)預期可在統計學上以相同的方式表現。相比之下,在特定情形中,一些來自第二親代背景的單核苷酸多態性(SNP)集合在統計學上預期與在第一親代背景中的那些表現不同,例如對于特定的倍性態,所述表現上的不同可能對于一個或一組特定倍性態而言是特有的。有許多統計技術可用來分析各種親代背景中不同基因座的測量響應。在本發明的一些具體實施方式
中,可對每個假說的輸出概率使用統計技術。在本發明的一些具體實施方式
中,可對每個假說的輸出概率以及對所估計概率的可信度使用統計技術。當應用于個體時,有些技術不足以以特定水平的可信度測定特定染色體的倍性態。本發明一個方面的關鍵是基于這樣的事實有些專門的專業技術特別善于確認或消除特定倍性態或倍性態集合的爭議,但是在單獨使用時不能正確測定倍性態。這與一些專業技術相比能較好區分彼此間大多數或所有的倍性態,但是在區分一個特定的倍性態子集時沒有和一些特殊的專業技術同樣高的可信度。有些方法使用一種普遍的技術來測定倍性態。但是,將適當的一組特殊專業技術結合,可比使用一種普遍的專業技術測定倍性更精確。例如,一種專業技術能以非常高的可信度確定目標是否為單體,第二種專業技術能以非常高的可信度確定目標是否為三體或四體,而第三種技術能以非常高的可信度檢測單親源二體。這些技術單獨不能進行精確的倍性測定,但是當將這三種特殊的專業技術組合使用時,它們能以比使用一種能非常好區分所有倍性態的專業技術更高的精確度確定倍性調用。在本發明的一些具體實施方式
中,可組合多種技術的輸出概率來實現高可信度的倍性態測定。在本發明的一些具體實施方式
中,每種技術對特定假說預測的概率可相乘在一起,所得結果被認為是所述假說的組合概率。與具有最高組合概率的假說相關聯的倍性態可被稱為正確的倍性態。如果能適當地選擇專業技術的集合,那么概率的組合結果可比單個技術更精確地確定倍性態。在逆向的一些具體實施方式
中,來自一個以上技術的假說的概率可相乘,例如使用線性代數并再歸一化,得到組合概率。在一個具體實施方式
中,概率的可信度能以與概率相同的方式組合。在本發明的一個具體實施方式
中,假說的概率可在它們為獨立的假設下組合。在本發明的一些具體實施方式
中,一個或多個技術的輸出結果可作為其它技術的輸入數據。在本發明的一個具體實施方式
中,使用一個或一組專業技術得到的倍性調用可用來確定等位基因調用技術適宜的輸入數據。在本發明的一個具體實施方式
中,來自等位基因調用技術的精準的基因數據輸出結果可用作一個或一組專業倍性調用技術的輸入數據。在本發明的一些具體實施方式
中,各種技術的使用可反復進行。在本發明的一些具體實施方式
中,倍性態能以高于約80%的可信度被調用。在本發明的一些具體實施方式
中,倍性態能以高于約90%的可信度被調用。在本發明的一些具體實施方式
中,倍性態能以高于約95 %的可信度被調用。在本發明的一些具體實施方式
中, 倍性態能以高于約99%的可信度被調用。在本發明的一些具體實施方式
中,倍性態能以高于約99. 9 %的可信度被調用。在本發明的一些具體實施方式
中,一個或一組等位基因可以高于約80 %的可信度被調用。在本發明的一些具體實施方式
中,等位基因可以高于約90 % 的可信度被調用。在本發明的一些具體實施方式
中,等位基因可以高于約95 %的可信度被調用。在本發明的一些具體實施方式
中,等位基因可以高于約99%的可信度被調用。在本發明的一些具體實施方式
中,等位基因可以高于約99. 9 %的可信度被調用。在本發明的一些具體實施方式
中,輸出的等位基因調用數據是定相的,并從兩個同源染色體中區分出基因數據。在本發明的一些具體實施方式
中,定相的等位基因調用數據是所有個體的輸出結果。以下描述了幾種可用來測定倍性態的統計技術。該列表不意欲作為可能的專業技術的窮舉列表。有可能使用能辨認目標倍性態假說集合概率和/或可信度的任意統計技術。任意的下列技術均可組合,或者它們可與本發明未討論的其它技術組合。排列技術基因座遺漏(LDO)率與來源基因物質的拷貝數相一致,即較少的染色體復制會導致較高的基因座遺漏(LDO),反之亦然。其遵照所述在胚胎中以典型模式表現的、具有特定情形親代基因型的基因座,并與等位基因對胚胎貢獻的概率相關。在本發明的一個具體實施方式
中被稱為“排列技術”,其可能在各種親代背景中使用基因座特有的行為來推斷那些基因座的倍性態。特別地,該技術涉及對不同親代背景的等位基因測量數據所觀察分布之間的關系進行比較,以及確定哪種倍性態與分布之間觀察到的關系集合相匹配。該技術在確定樣本中存在的同源染色體時特別有用。通過對每個親代背景作累積分布函數(CDF)曲線圖,可以觀察聚集在一起的各種背景。注意的是,累積分布函數(CDF)僅僅是設想和比較所觀察到的等位基因測量數據分布的一種方式。例如,附圖1顯示了二體染色體的累積分布函數(CDF)曲線。特別地,附圖1顯示了來自親代基因型(母親I父親)特定背景的等位基因測量數據是如何在胚胎中以典型的模式表現的,并與等位基因對胚胎貢獻的概率相關。當所考慮的染色體是二體時,9個親帶背景被分類為5個簇族。在累積分布函數(CDF) 曲線圖中,沿χ軸的獨立變量是通道響應,而沿y軸的獨立變量是在通道響應低于臨界值情形下的等位基因百分比。例如,如果父母雙方具有同型組合BB狀態,那么胚胎應絕不會有AB或AA狀態。在該情形中,A檢測通道的測量結果可能具有由背景噪音和各種干擾信號確定的分布,但是無有效的基因型。相反,如果父母雙方具有同型組合AA狀態,那么胚胎應絕不會有AB或BB 狀態,并且A通道的測量結果預期具有可能給出特定全基因組擴增中基因座遺漏(LDO)率的最大強度。當胚胎的基礎拷貝數狀態不同于二體時,對應于特殊親代背景的基因座會基于父母一方提供或缺少的額外等位基因內容以預期的模式表現。微陣探針強度對檢測通道的累積密度函數圖由親代基因型背景分離,舉例說明了所述概念(見附圖幻。特別地,附圖 2A-2D顯示了累積分布函數(CDF)圖背景曲線之間的關系如何預期地隨染色體拷貝數的變化而變化。附圖2A顯示了二體染色體的累積分布函數曲線,附圖2B顯示了缺對染色體的累積分布函數曲線,附圖2C顯示了單體染色體的累積分布函數曲線,附圖2D顯示了母方三體染色體的累積分布函數曲線。每個背景用M1M2IF1F2表示,其中M1和M2是母方的等位基因,F1和F2是親代等位基因。在二體染色體中,有9種可能的親代背景(參見附圖2A-2D圖例),其中,在累積分布函數(CDF)圖中形成了 5種簇族。在缺對染色體的情形中,所有的親代背景曲線在CDF圖中與背景聚集。在單體的情形中,可以預測只能看到三個背景曲線簇族,因為去除一個親代背景會導致僅三種可能的胚胎結果同型組合AA、雜合AB和同型組合BB。可以預測,三體也具有不同的累積分布函數(CDF)-曲線分布,由于單檢測通道有額外的等位基因以及僅來自父母一方,因此有七個簇族。附圖2A-2D舉例說明了一組預期的最簡潔的圖解,其中倍性態可通過視檢的繪圖調用。在某些情形下,來自樣本的數據不像附圖2A-2D中顯示的數據那樣容易詮釋。許多因素會影響數據的清楚性,包括引起信號具有非常低信號-噪音比率的卵裂球降解DNA ; 經常在體外受精(IVF)過程中遇到的部分倍性錯誤,例如易位;以及可能由細胞核內染色體物理位置或表觀遺傳現象,例如不同的甲基化水平和染色體周圍的蛋白質結構引起的染色體特有的和染色體片段特有的擴增偏差。這些和其它現象的雜合會對同源對中的每個染色體有不同的影響,在該情形下,它們難以與倍性態區分。在本發明的一個具體實施方式
中,為了調解這些不同的影響,可使用統計算法來分析例如附圖2A-2D中舉例說明的數據, 并得到倍性測定連同所述測定準確性的可信度。在本發明的一個具體實施方式
中,為了使一個樣本和另一個樣本之間,或者細胞株樣本和卵裂球之間可能存在的差異更穩定,所述算法可能是非參數的,并且不依賴于在特定樣本中改善并應用于其它樣本的統計學或臨界值的預期值。在本發明的一個具體實施方式
中,所述算法使用分位點-秩統計學(非參數排列法),首先是計算每個背景累積分布函數(CDF)曲線的秩,其強度為背景情況中約80%的密度約為1。在另一個具體實施方式
中,該算法可計算每個背景累積分布函數(CDF)曲線的秩,其強度為背景情況中約90%的密度約為1。在另一個具體實施方式
中,所述算法可計算每個背景累積分布函數(CDF)曲線的秩,其強度為背景情況中約95%的密度約為1。然后,該算法將數據的秩與特定的各種倍性態的預期秩進行對比。例如,如果AB IBB背景和BB IAA背景具有相同的秩,其不同于期望的二體,但是與母方的三體一致。這樣,可以檢查每個樣本的數據分布,來確定兩個累積分布函數(CDF)曲線隨機交換秩的概率,然后,使用該信息結合秩統計學來確定拷貝數調用和計算明確的可信度。結合每個調用明確的可信度,該統計技術的結果對于染色體拷貝數的診斷非常精確。由于排列技術對于特定染色體的拷貝數調用與所有其它染色體之間是獨立的,不失一般性,其可能集中于單個特定染色體。對于特定的母方基因型gM和父方基因型gF,可以使用gM I gF來表示親代背景,例如AB IBB指母親的基因型為AB,而父親的基因型為BB的單核苷酸多態性(SNP)。對于特定的背景gM|gF,用示背景gM|gF中所有單核苷酸多態性(SNP)的 χ-通道響應集合。同樣地,可以使用YgM|gF表示y_通道響應的集合。此外,對于特定的正數 C,可定義Itx丨講(C)= 2Le.XgM:|gF 1{χ<。}和niM:|gP(c) = ^e^eMJsF I {y ^ c}還可使用NgM|gF來表示背景gM|gF中單核苷酸多態性(SNP)的數目。其可定義為FTmisp(C) = (^Igp(C)) / ( NgM|gF)和略丨gF(C) = (n^l6F(c)) /
(NgM|gF)可以將慰M|sP(C),《m@(C)看做χ-通道、y-通道、點c的背景gM| gF響應的經
驗累積分布函數(⑶F)值。可將真實的累積分布函數(⑶F)表示為P;lgIr(c),和P^fgp(C)算法算法背后的主要思想是,對于特定的正整數C,階層PjUAA(C)、
ΡΙΒΙΑΑΟΟ、PSBIAACc)^ PJUIABCc)^ FabiabCc)^ PBBIABCc)^ Prnm^ F^BiraCc)' 和I^b1bb(C),將基于染色體拷貝數變化。y-通道亦然。在本發明的一個具體實施方式
中,可以使用該階層來測定染色體拷貝數。由于χ-通道和y_通道是獨立處理的,接下來的討論將僅集中于χ-通道。
計算第一步是對c取使背景之間分辨率最大的值,即c的值使得兩種極端背景AAlAA 和BBlBB之間的差別最大。更準確地可定義為
權利要求
1.一種確定目標個體中至少一個染色體的倍性態的方法,該方法包含從目標個體以及從一個或多個相關個體獲得基因數據;對目標個體的每個染色體創立至少一個倍性態假說的集合;使用一種或多種專業技術來確定集合中每個倍性態假說的統計概率,對于所使用的每種專業技術,考慮所獲得的基因數據;對于每個倍性態假說,組合由一種或多種專業技術確定的統計概率;以及基于每個倍性態假說的組合統計概率,確定目標個體中每個染色體的倍性態。
2.根據權利要求1中所述的方法,其中相關個體包括目標個體的父母雙方。
3.根據權利要求1中所述的方法,其中相關個體包括目標個體的同胞。
4.根據權利要求1中所述的方法,其中倍性態測定在體外受精的情形下進行,并且目標個體是胚胎。
5.根據權利要求1中所述的方法,其中倍性態測定在無創性產前診斷的情形下進行, 并且目標個體是胎兒。
6.根據權利要求1中所述的方法,其中在確定了目標個體中每個染色體的倍性態后做出臨床決定。
7.根據權利要求1中所述的方法,其中倍性態測定對至少一個胚胎進行,并且如果有胚胎,則用于確定哪個胚胎移入到子宮。
8.根據權利要求1中所述的方法,其中對于至少一種專業技術,每個倍性態假說統計概率的測定包括對多個親代背景比較觀察到的等位基因測量數據分布之間的關系。
9.根據權利要求1中所述的方法,其中對于至少一種專業技術,每個倍性態假說統計概率的測定包括將對等位基因集合取平均值的基因分型輸出數據的強度與預期強度進行對比。
10.根據權利要求1中所述的方法,其中至少一種專業技術使用定相的親代等位基因調用數據。
11.根據權利要求1中所述的方法,其中至少一種專業技術對性染色體是特定的。
12.根據權利要求1中所述的方法,其中目標個體中每個染色體倍性態的確定是在篩查染色體狀態的條件下進行的,所述染色體狀態選自整倍體、缺對染色體、單體、單親源二體、三體、匹配的復制錯誤、不匹配的復制錯誤、四體、其它非整倍體、不平衡易位、刪除、插入、嵌合體及其組合。
13.一種確定目標個體、目標個體的父母一方或雙方,任選一個或多個相關個體的等位基因集合中等位基因狀態的方法,包含從目標個體、父母一方或雙方、任何相關個體獲得基因數據;對目標個體、父母一方或雙方,任選一個或多個相關個體創立至少一個等位基因假說的集合,其中所述假說描述了等位基因集合中可能的等位基因狀態;測定考慮了所得基因數據的假說集合中每個等位基因假說的統計概率;以及基于每個等位基因假說的統計概率,確定目標個體、父母一方或雙方,和任選一個或多個相關個體的等位基因集合中每個等位基因的等位狀態。
14.根據權利要求13中所述的方法,其中相關個體是目標個體的同胞。
15.根據權利要求13中所述的方法,其中等位基因狀態測定在體外受精的情形下進行,并且目標個體是胚胎。
16.根據權利要求13中所述的方法,其中等位基因狀態測定在無創性產前診斷的情形下進行,并且目標個體是胎兒。
17.根據權利要求13中所述的方法,其中在確定了目標個體等位基因集合的等位基因狀態后做出臨床決定。
18.根據權利要求13中所述的方法,其中確定個體等位基因集合中每個等位基因的等位狀態包括確定所述個體的一組等位基因上的定相基因型。
19.根據權利要求13中所述的方法,其中所得的基因數據包括由基因分型陣列和DNA 序列數據測量的單核苷酸多態性。
20.根據權利要求13中所述的方法,其中使用平臺響應模型確定基因分型技術的特性測量偏差。
21.根據權利要求13中所述的方法,其中該方法考慮了可能在減數分裂過程中出現 DNA基因轉換的概率。
22.根據權利要求13中所述的方法,其中目標個體是胚胎,并且確定目標個體等位基因集合中等位基因的狀態,以選擇至少一個在體外受精(IVF)情形中用于轉移的胚胎,其中相關個體選自一個或多個來自相同親代、來自父方的一個或多個精子及其組合的胚胎。
23.根據權利要求13中所述的方法,其中該方法與確定相關個體中存在的特定染色體片段許多復制份數的方法同時進行或聯合進行,并且兩種方法使用來自目標個體的相同細胞或細胞組作為基因數據來源。
24.一種確定目標個體中至少一個染色體的倍性態的方法,該方法包含從目標個體、從目標個體的父母雙方以及從目標個體的一個或多個同胞獲得基因數據,其中基因數據包括關于至少一個染色體的數據;通過使用一種或多種專業技術,確定目標個體以及目標個體一個或多個同胞至少一個染色體的倍性態,其中所述的專業技術均不需要定相的基因數據作為輸入;使用信息化方法,確定目標個體、目標個體的父母、目標個體一個或多個同胞的定相的基因數據,所述由目標個體、目標個體的父母和目標個體一個或多個同胞獲得的基因數據確定為那個染色體上的整倍體;以及使用一種或多種專業技術,再次確定目標個體至少一個染色體的倍性態,所述專業技術至少有一種需要輸入定相的基因數據,和由目標個體、目標個體的父母、目標個體的一個或多個同胞確定的定相的基因數據。
25.根據權利要求M中所述的方法,其中確定的目標個體染色體倍性態被用來對目標個體做臨床決定。
26.根據權利要求M中所述的方法,其中倍性態確定在體外受精的情形下進行,并且目標個體是胚胎。
全文摘要
本發明涉及進行等位基因調用、確定一個或少數細胞或當可用的基因數據數量有限時的倍性態的體系和方法。使用目標基因組之間可預期的相似性以及有關基因相關個體基因組的知識,可重建測量不充分或不準確的堿基對、缺失的等位基因和缺失的區域,以及確定單體型。在一個具體實施方式
中,使用來自父母雙方和可能的一個或多個精子和/或同胞胚胎的基因數據,重建了胚胎細胞多個基因座上不完整的基因數據。在另一個具體實施方式
中,染色體的拷貝數可使用相同的輸入數據確定。在另一個具體實施方式
中,這些測定是為了體外受精(IVF)過程中的胚胎選擇、無創性產前診斷或進行表型預測。
文檔編號G01N33/483GK102171565SQ200980139431
公開日2011年8月31日 申請日期2009年8月4日 優先權日2008年8月4日
發明者A·瑞安, G·杰梅羅斯, J·斯威特凱德-辛格, M·班杰維齊, M·羅比諾威特茨 申請人:吉恩安全網絡公司