專利名稱:用于詢問功能性基因組區域中序列變異的方法,組合物和計算機軟件產品的制作方法
相關申請本申請要求于2002年11月12日提交的美國臨時申請NOs60/425,879和60/425,880的優先權,在此為所有目的引作參考。
背景技術:
本發明涉及基因分析,基因組,生物測定和生物信息學。具體而言,在本發明的一個方面,為了分析功能區中的基因變異,提供方法,組合物和計算機軟件產品。
基因組變異的分析(例如,單核苷酸多態性(SNPs),擴增和缺失)可能是有趣生物學的原因,已集中在將確定患病個體基因組中的這些變異的位置和使這些變異與那些區域(例如,編碼區和調節區)中所列的注解相關組合在一起。由此,對基因型表型相關性的檢索取決于現有的基因組的注解。然而,仍有需要,例如,監控基因組未注解的部分,以便獲得基因組的轉錄活性的無偏覆蓋。
發明概述在本發明的一個方面,為了利于檢索基因組中功能區中的序列變異(SNPs,擴增,缺失等),無需求助于現有注解,提供方法,組合物和計算機軟件產品。
在一些實施方案中,RNA轉錄位點,轉錄因子結合位點,起點,甲基化和染色質修飾位點等確定在生物樣品中。通常,樣品可反映各種不同的生理,病理,毒理或藥理狀態。RNA轉錄位點,轉錄因子結合位點,起點,甲基化和染色質修飾位點等賦予這些基因組區域特定的功能,并且把它們歸因于分析序列變異存在的優先狀態。諸如與具體生物功能相關的區域在本說明書中稱為“功能區”。利用各種方法,包括使用高密度寡核苷酸探針陣列可確定功能區。通常,大規模確定序列變異,例如,至少500,1000,5000,10000,或100000個SNPs。
例如,當結合或連接研究突出基因組的若干區域作為參與確定患病家族或個體的特征的可能位點時,功能區在這些區域中的存在可憑經驗確定,并且縮小進一步分析的可能性。這些區域中的基因組和cDNA序列可憑經驗確定,并且優先于其他區域通過測序或SNP測試或比較基因組雜交(CGH)測試而加以分析,所述其他區域對編碼區域之外的序列變異是重要的(但不是唯一的)。
利用各種不同的方法,包括使用高密度寡核苷酸探針陣列,可對轉錄因子(TF)結合位點進行檢測。在一個實施方案中,受轉錄結合因子保護的DNA片段利用免疫沉淀獲得,并且利用高密度陣列詢問,以確定具有與轉錄結合因子結合的DNA序列的區域。
一旦這類功能上重要位點沿基因組在一些個體中制圖,這將是有用的,不必對每個患者中的每個因子或功能序列進行類似的免疫沉淀試驗。例如,如果若干TFs(例如,cMyc和SP-1)似乎結合于基因組中同樣的位點(即,1kb基因組序列),利用全基因組取樣分析(WGSA)測試該區域的突變將是有益的。然而,如果沿基因組分散有許多這類普通位點,則找到最少的限制性核酸內切酶(REs)使得查看最大可能數目的位點就會變成優先。
WGSA為一種通過獲得代表性限制性片段減少基因組樣品復雜性的分析。詳細描述全基因組取樣分析,參見例如,美國專利申請NOs.10/316,517和10/316,629(在此引作參考)。復雜性降低的基因組樣品可用于雜交高密度寡核苷酸探針陣列以詢問SNPs和進行再測序(序列變異檢測)。
由于參與細胞的各種功能性操作的序列表是限定的,應檢查這些位點是否存在RE位點,所述功能性操作諸如轉錄因子結合,起點,甲基化和染色質修飾位點。對于具體的功能分類序列(例如,TF結合序列)而言的確如此,最少數目的REs可進行鑒定,從而能跨越基因組對最大數目的這類位點查看在這些序列中是否存在可能的序列變異。
因此,本發明涉及一種詢問基因變異的方法,包括獲得多個基因組的功能區,其中功能區包含至少10,000個堿基,以及確定多個個體在基因組的功能區中的序列變異。在具體實施方案中,功能區包括多個轉錄因子結合位點,多個RNA蛋白結合結構域,多個染色質修飾位點,多個復制起點,和/或多個DNA甲基化位點。在一個實施方案中,所述獲得步驟包括利用微陣列,例如高密度寡核苷酸陣列,確定功能區。在一個實施方案中,微陣列包括鋪蓋(tiling)基因組區域的寡核苷酸探針。在另一實施方案中,所述確定步驟包括確定多個個體的功能區的序列。在另一實施方案中,所述確定步驟包括確定多個個體的功能區的基因型,例如SNP基因型。
在另一實施方案中,所述確定步驟包括用至少一種適用于詢問至少一種功能區的限制性酶進行WGSA。在一個實施方案中,所述確定步驟包括確定序列拷貝數的變化。在一個實施方案中,功能區包括至少100000個堿基或至少500000個堿基。
本發明還涉及一種詢問基因變異的方法,包括獲得至少一個目的基因組區段;獲得目的基因組區段內的多個功能區,其中功能區包括至少5,000個堿基;以及確定多個個體在基因組功能區中的序列變異。在一個實施方案中,目的基因組區域通過結合或連接分析加以確定。在一個實施方案中,功能區包括多個轉錄因子結合位點,多個RNA蛋白結合結構域,多個染色質修飾位點,多個復制起點,和/或多個DNA甲基化位點。
在一個實施方案中,所述獲得步驟包括利用微陣列,例如高密度寡核苷酸陣列,確定功能區。在一個實施方案中,微陣列包括鋪蓋基因組區域的寡核苷酸探針。
在另一實施方案中,所述確定步驟包括確定多個個體的功能區的序列。在另一實施方案中,所述確定步驟包括確定多個個體的功能區的基因型。在一個實施方案中,基因型為SNP基因型。
在一個實施方案中,所述確定步驟包括用至少一種適用于詢問至少一種功能區的限制性酶進行WGSA。在一個實施方案中,所述確定步驟包括確定序列拷貝數的變化。
附圖簡述附圖并入本說明書中,并形成說明書的部分,舉例說明本發明的實施方案,以及與說明書一起,用于解釋本發明的原理
圖1示意性表示在基因組中對功能區進行基因定型的典型方法。
圖2示意性表示在由結合或連接分析所鑒定的區域的功能區中確定序列變異的典型方法。
發明詳述本發明優選實施方案的描述如下。
現在請詳細參照本發明的示例性實施方案。盡管本發明結合示例性實施方案加以描述,但應理解,它們并不旨在使本發明的范圍限制在這些實施方案中。相反,本發明理應覆蓋包含在本發明實質和范圍內的替代物,修飾和等同物。
本發明涉及受分子相互作用的性質影響的多種領域,包括化學,生物學,醫學和診斷學。本發明在快速需要大量信息的環境下尤其是有利的,所述環境諸如臨床診斷實驗室,或大規模工作,諸如人類基因組計劃。
本發明有許多優選的實施方案,并且依賴于許多專利,申請和詳情為本領域技術人員所公知的其他參考文獻。因此,當專利,申請或其他參考文獻在下文引用或重復時,應理解的是,為所有目的和引用的命題以其全文引作參考。
I.通則如本申請所用,單數形式包括復數,除非上下文另有清楚地說明。例如,術語“一種試劑”包括多種試劑,也包括其混合物。
個體不限于人類,也可以是其他生物體,包括但不限于哺乳動物,植物,細菌或衍生自任何上述生物體的細胞。
貫穿此公開內容,本發明的各種不同的方面可以范圍形式呈現。應理解的是,范圍形式的描述僅僅為了方便和簡明,不應解釋成對本發明范圍的硬性限制。因此,范圍描述應視為已具體公開了所有可能的子范圍以及在此范圍內的單個數值。例如,對1-6范圍的描述應視為具有具體公開的子范圍,諸如1-3,1-4,1-5,2-4,2-6,3-6等,以及范圍內的各個數值,例如,1,2,3,4,5,和6。無論范圍多寬皆可適用。
除非另有說明,實施本發明可采用本領域專業人員公知的下列學科的常規技術和描述有機化學,聚合物技術,分子生物學(包括重組技術),細胞生物學,生物化學和免疫學。常規技術包括聚合物陣列合成,雜交,連接,和利用標記檢測雜交。合適技術的具體說明可參照下文實施例。然而,其他等同的常規方法當然也可使用。這種常規技術和描述能在標準實驗室手冊找到,諸如基因組分析實驗室手冊系列(Genome AnalysisA Laboratory Manual Series)(Vols.I-IV),利用抗體實驗室手冊(Using AntibodiesA Laboratory Manual),細胞實驗室手冊(CellsA Laboratory Manual),PCR引物實驗室手冊(PCR PrimerA Laboratory Manual),以及分子克隆實驗室手冊(Molecular CloningALaboratory Manual)(全部來自冷泉港實驗室出版社),Stryer,L.(1995)Biochemistry(第4版)Freeman,New York,Gait,“寡核苷酸合成實用方法(Oligonucleotide SynthesisA Practical Approach)”1984,IRLPress,London,Nelson and Cox(2000),Lehninger,生化原理(Principlesof Biochemistry)第3版,W.H.Freeman Pub.,New York,NY和Berg等(2002)Biochemistry,第5版,W.H.Freeman Pub.,New York,NY,所有文獻在此為全部目的以其全文引作參考。
本發明可采用固相基質,包括一些優選的實施方案中的陣列。適用于聚合物(包括蛋白)陣列合成的方法和技術已描述在美國專利No.09/536,841,WO 00/58516,美國專利Nos.5,143,854,5,242,974,5,252,743,5,324,633,5,384,261,5,405,783,5,424,186,5,451,683,5,482,867,5,491,074,5,527,681,5,550,215,5,571,639,5,578,832,5,593,839,5,599,695,5,624,711,5,631,734,5,795,716,5,831,070,5,837,832,5,856,101,5,858,659,5,936,324,5,968,740,5,974,164,5,981,185,5,981,956,6,025,601,6,033,860,6,040,193,6,090,555,6,136,269,6,269,846和6,428,752,PCT申請Nos.PCT/US99/00730(國際公布號WO 99/36760)和PCT/US01/04285(國際公布號WO01/58593),所有文獻在此為全部目的以其全文引作參考。
在具體實施方案中描述合成技術的專利包括美國專利Nos.5,412,087,6,147,205,6,262,216,6,310,189,5,889,165和5,959,098。核酸陣列描述在上述許多專利中,但是同樣技術適用于多肽陣列。
用于本發明中的核酸陣列包括那些以商標名稱為GeneChip、來自Affymetrix(Santa Clara,CA)的可購商品。陣列例子示于網址affymetrix.com上。
本發明也預期附著于固相基質的聚合物的許多應用。這些應用包括基因表達監控,分布,文庫篩選,基因定型和診斷。基因表達監控和分布方法示于美國專利Nos.5,800,992,6,013,449,6,020,135,6,033,860,6,040,138,6,177,248和6,309,822。基因定型和應用示于USSN 60/319,253,10/013,598(美國專利公布號US-2003-0036069-A1),以及美國專利Nos.5,856,092,6,300,063,5,858,659,6,284,460,6,361,947,6,368,799和6,333,179。其他應用也體現在美國專利Nos.5,871,928,5,902,723,6,045,996,5,541,061和6,197,506中。
本發明還在某些優選的實施方案中預期樣品制備方法。在基因定型之前或同時,基因組樣品可通過各種機制擴增,其中有些可采用PCR。參見,例如,PCR技術DNA擴增的原理和應用(PCR TechnologyPrinciples and Applications for DNA Amplification)(H.A.Erlich編,Freeman Press,NY,NY,1992);PCR方案方法和應用指南(PCRProtocolsA Guide to Methods and Applications)(Innis等編,AcademicPress,San Diego,CA,1990);Mattila等,Nucleic Acids Res.19,4967(1991);Eckert等,PCR Methods and Applications 1,17(1991);PCR(McPherson等編,IRL Press,Oxford);以及美國專利Nos.4,683,202,4,683,195,4,800,159,4,965,188和5,333,675,分別在此以其全文為所有目的引作參考。樣品可在陣列上擴增。參見,例如,美國專利No6,300,070和美國專利申請09/513,300,在此引作參考。
其他合適的擴增方法包括連接酶鏈式反應(LCR)(例如,Wu和Wallace,Genomics 4,560(1989),Landegren等,Science 241,1077(1988)和Barringer等,Gene 89117(1990)),轉錄擴增(Kwoh等,Proc.Natl.Acad.Sci.USA 86,1173(1989)和WO 88/10315),自動維持序列擴增(Guatelli等,Proc.Nat.Acad.Sci.USA,87,1874(1990)和WO90/06995),靶多核苷酸序列的選擇性擴增(美國專利No.6,410,276),共有序列引發的聚合酶鏈式反應(CP-PCR)(美國專利No.4,437,975),任意引發的聚合酶鏈式反應(AP-PCR)(美國專利Nos.5,413,909,5,861,245)和基于核酸的序列擴增(NABSA)(參見,美國專利Nos.5,409,818,5,554,517和6,063,603,分別在此引作參考)。其他可用的擴增方法描述在美國專利Nos.5,242,794,5,494,810,4,988,617和在美國專利No.09/854,317(美國專利No.6,582,938)中,分別在此引作參考。
用于降低核酸樣品復雜性的樣品制備和技術的其他方法描述在Dong等,Genome Research 11,1418(2001),美國專利No.6,361,947,6,391,592和美國專利申請Nos.09/916,135,09/920,491(美國專利公布號US-2003-0096235-A1),09/910,292(美國專利No.6,632,611),以及10/013,598(美國專利公布No.US-2003-0036069-A1)。
用于進行多核苷酸雜交分析的方法在本領域已得以充分開發。雜交分析方法和條件會隨應用而變化,并根據公知的通用結合方法選擇,包括在下列文獻中參照的結合方法Maniatis等,分子克隆實驗室手冊(Molecular CloningA Laboratory Manual)(第2版,冷泉港,N.Y,1989);Berger和Kimmel,酶學方法(Methods in Enzymology),Vol.152,分子克隆技術指南(Guide to Molecular Cloning Techniques)(AcademicPress,Inc.,San Diego,CA,1987);Young和Davis,P.N.A.S,801194(1983)。用于實施重復和受控雜交反應的方法和裝置已描述在美國專利5,871,928,5,874,219,6,045,996和6,386,749,6,391,623,分別在此引作參考。
本發明還在某些優選的實施方案中預期配體之間雜交的信號檢測。參見,美國專利Nos.5,143,854,5,578,832;5,631,734;5,834,758;5,936,324;5,981,956;6,025,601;6,141,096;6,185,030;6,201,639;6,218,803;和6,225,625,美國專利申請60/364,731和PCT申請PCT/US99/06097(公布成WO 99/47964),也分別在此為全部目的以其全文引作參考。
用于信號檢測和處理密度數據的方法和裝置公開在例如,美國專利Nos.5,143,854,5,547,839,5,578,832,5,631,734,5,800,992,5,834,758,5,856,092,5,902,723,5,936,324,5,981,956,6,025,601,6,090,555,6,141,096,6,185,030,6,201,639,6,218,803;和6,225,625,美國專利申請60/364,731和PCT申請PCT/US99/06097(公布成WO99/47964),也分別在此為全部目的以其全文引作參考。
實施本發明也可采用常規的生物方法,軟件和體系。本發明的計算機軟件產品通常包括計算機可讀介質,具有計算機可執行指示,用于執行本發明方法的邏輯步驟。合適的計算機可讀介質包括軟盤,CD-ROM/DVD/DVD-ROM,硬盤驅動,閃存,ROM/RAM,磁帶等。計算機可執行指示可以合適的計算機語言或若干語言的組合書寫。基本計算生物方法描述在例如,Setubal和Meidanis等,計算生物學方法導言(Introduction to Computational Biology Methods)(PWS PublishingCompany,Boston,1997);Salzberg,Searles,Kasif(編輯),分子生物學中的計算方法(Computational Methods in Molecular Biology),(Elsevier,Amsterdam,1998);Rashidi和Buehler,生物信息學基礎生物科學和醫藥中的應用(Bioinformatics BasicsApplication in Biological Scienceand Medicine)(CRC Press,London,2000)以及Ouelette和Bzevanis,生物信息學基因和蛋白分析的實用指南(BioinformaticsA PracticalGuide for Analysis of Gene and Proteins)(Wiley & Sons,Inc.,第2版,2001)。也參見美國專利6,420,108。
為各種目的,諸如探針設計,數據管理,分析,和儀器操作,本發明還可利用不同的計算機程序產品和軟件。參見,美國專利Nos.5,593,839,5,795,716,5,733,729,5,974,164,6,066,454,6,090,555,6,185,561,6,188,783,6,223,127,6,229,911和6,308,170。
本發明還可利用一種或多種陣列的若干實施方案和處理方法,所述方法描述在美國專利Nos.5,545,531和5,874,219中。這些專利為所有目的在此以其全文引作參考。
此外,本發明的優選實施方案包括通過網絡,諸如因特網提供基因信息的方法,所述因特網示于美國專利申請10/063,559(美國專利公布No.US-2002-0183936-A1),60/349,546,60/376,003,60/394,574,60/403,381中。
II.定義“陣列”為通過合成或生物合成方法而制備的分子有意創建的集合。陣列中的分子可以彼此相同或不同。陣列能采用各種形式,例如可溶分子的文庫,附著于樹脂珠、硅芯片或其他固相支持物上的化合物的文庫。
“陣列板”或“平板”為具有多個陣列的主體,其中各個陣列通過阻止液體通路的物理障礙與其他陣列分開,并且形成區域或空間,稱為孔。
“核酸文庫”或“陣列”為通過合成或生物合成方法而制備并且以各種不同的形式(例如,可溶分子的文庫;以及附著于樹脂珠、硅芯片或其他固相支持物上的寡聚體的文庫)對生物活性進行篩選的核酸有意創建的集合。此外,術語“陣列”還表示包括核酸的那些文庫,其制備方法是將基本上任何長度的核酸(例如,長度為1到約1000個核苷酸單體)點樣到基質上。本發明所用的術語“核酸”是指任何長度的核苷酸的聚合形式,核糖核酸,脫氧核糖核酸,或肽核酸(PNAs),如美國專利No.6,156,501中所述,包括嘌呤和嘧啶堿基,或其他天然,化學或生化修飾的,非天然或衍生化的核苷酸堿基。多核苷酸的骨架包括正如在RNA或DNA中通常發現的糖和磷酸基,以及修飾或替代的糖或磷酸基。多核苷酸可包含修飾的核苷酸,諸如甲基化的核苷酸和核苷酸類似物。核苷酸序列可被非核苷酸組分打斷。因此,術語核苷,核苷酸,脫氧核苷和脫氧核苷酸一般包括諸如本發明所述的類似物。這些類似物具有一些結構特征,與天然發生的核苷或核苷酸一樣,以致當摻入核酸或寡核苷序列中時,它們能與溶液中的天然發生的核酸序列雜交。通常,通過替換和/或修飾堿基,核糖或磷酸二酯部分,這些類似物衍生自天然發生的核苷和核苷酸。上述變化可進行定制以使雜交體形成穩定或去穩定,或者增強與所需的互補核酸序列雜交的特異性。
“生物聚合物”意在表示生物或化學部分的重復單元。代表性生物聚合物包括但不限于核酸,寡核苷酸,氨基酸,蛋白,肽,激素,寡糖,脂質,糖脂,脂多糖,磷脂,上述聚合物的合成類似物,包括但不限于,反向核苷酸,肽核酸,Meta-DNA,及其組合。“生物聚合物合成”意在包括生物聚合物的合成,無論是有機合成還是無機合成。
與生物聚合物相關的是“生物單體”,其意在表示生物聚合物的單個單元,或者不是生物聚合物部分的單個單元。因此,例如,核苷酸為寡核苷酸生物聚合物內的生物單體,而氨基酸是蛋白或肽生物聚合物內的生物單體,例如,親和素、生物素、抗體、抗體片段等也是生物單體。
“起始生物單體”意在表示通過活性親核試劑與聚合物表面共價連接的第一生物單體,或者連接于接頭或間隔臂的第一生物單體,所述接頭或間隔臂通過活性親核試劑與聚合物相連。
“互補”是指核苷酸或核酸之間的雜交或堿基配對,諸如雙鏈DNA分子的兩條鏈之間,或寡核苷酸引物和待測序或擴增的單鏈核酸上的引物結合位點之間。互補核苷酸一般為A和T(或A和U),或者C和G。當一條鏈的核苷酸,任選比對和比較以及具有合適的插入或缺失,與另一條鏈的核苷酸至少大約80%配對,一般至少大約90%-95%,以及更優選大約98%-100%配對時,則認為兩條單鏈RNA或DNA分子基本互補。此外,當RNA或DNA鏈在選擇性雜交條件下與其互補鏈雜交時,則存在實質上互補。通常,當在至少14-25個核苷酸段上有至少大約65%互補性,優選至少大約75%,更優選至少大約90%互補性時,會發生選擇性雜交。參見,M.Kanehisa,Nucleic Acids Res.12203(1984),在此引作參考。
組合合成路線為平行合成不同聚合物序列的有序路線,通過順序加入由反應物矩陣和轉化矩陣所代表的試劑,它們的乘積為產品矩陣。反應物矩陣為欲加入積木的1列×m行矩陣。轉化矩陣為二元數的全部或子集,優選是有序的,在列中排成1和m之間。“二元路線”中,至少兩個連續步驟照亮部分,通常為基質上目的區域的一半。在二元合成路線中,來自有序集的反應物的所有可能的化合物形成。在最優選的實施方案中,二元合成是指一種也把先前加入步驟化為因子的合成路線。例如,路線中,轉換矩陣用于掩蓋先前被照亮的路線半區,照亮大約一半的先前被照亮的區域,而保護剩余一半(盡管也可保護大約一半的先前被保護的區域和照亮大約一半先前被保護的區域)。會認識到,二元循環可散布有非二元循環,以及只有部分基質可進行二元方案。組合“掩蓋”路線為一種合成,其利用光或其他空間上選擇的去保護劑或活化劑,以便從材料中去除保護基用于加入諸如氨基酸的其他材料。
“有效量”是指足以誘導所需結果的量。
“激發能量”是指用于激發可檢測用標記的能量,例如照亮熒光標記。用于此的裝置包括相干光或非相干光,諸如激光,UV光,光發射二極管,白熾光源,或其他任何光或其他能量的電磁源,具有的波長在可激發標記的激發帶中,或能夠提供可檢測的發射、反射或擴散的輻射。
“基因組”是生物體的染色體中所有基因材料。衍生自特定生物體染色體的基因材料的DNA為基因組DNA。基因組文庫為制自一組隨機生成的重疊DNA片段,代表生物體整個基因組的克隆的集合。
雜交條件通常包括的鹽濃度小于大約1M,更通常小于大約500mM,以及優選小于大約200mM。雜交溫度可低至5℃,但通常大于22℃,更通常大于大約30℃,以及優選超過大約37℃。對具體的雜交而言,更長的片段可能需要更高的雜交溫度。由于其他因素也可能影響雜交的嚴格性,包括堿基組成和互補鏈的長度,有機溶劑的存在,以及堿基錯配的程度,參數組合比任意單獨的絕對測量更為重要。
雜交,例如,等位基因特異探針雜交,一般在嚴格條件下進行。例如,條件為鹽濃度不大于大約1M,和溫度至少25℃,例如,750mMNaCl,50mM磷酸鈉,5mM EDTA,pH 7.4(5×SSPE)和溫度大約25℃到大約30℃。
雜交通常在嚴格條件下進行,例如,鹽濃度不大約1M和溫度至少25℃。例如,條件為5×SSPE(750mM NaCl,50mM磷酸鈉,5mMEDTA,pH 7.4)和溫度25-30℃適用于等位基因特異探針雜交。對于嚴格條件,參見,例如,Sambrook,Fritsche和Maniatis,“分子克隆實驗室手冊(Molecular CloningA laboratory Manual)”,第2版,冷泉港出版(1989),在此為上述所有目的以其全文引作參考。
術語“雜交”是指一種過程,其中兩條單鏈多核苷酸非共價結合成穩定的雙鏈多核苷酸;三鏈雜交理論上也是可能的。所得(通常)雙鏈多核苷酸為“雜交體”。多核苷酸群形成穩定的雜交體的比例在此稱為“雜交度”。
雜交探針為能夠以堿基特異方式結合于核酸互補鏈的寡核苷酸。這類探針包括肽核酸,如下列文獻所述,Nielsen等,Science254,1497-1500(1991),以及其他核酸類似物和核酸模擬物。參見美國專利No.6,156,501。
“特異性雜交于”是指當一種或多種特殊核苷酸序列存在于復合物混合物(例如,總細胞)DNA或RNA中時,在嚴格條件下,分子基本上或僅與該序列結合,轉接,或雜交。
“分離的核酸”是以主要物質存在的本發明的目標種類(即,基于摩爾數,其在組合物中比其他任何單個種類更豐富)。優選地,分離的核酸包含至少大約50,80或90%(以摩爾數為基礎)的所有存在的大分子種類。最優選地,目標種類純化至基本均一性(通過常規檢測方法,污染物種類在組合物中不可被檢測)。
“標記”包括例如,發光標記,光散射標記或放射性標記。熒光標記包括可商購的熒光素亞磷酰胺等,諸如Fluoreprime(Pharmacia),Fluoredite(Millipore)和FAM(ABI)。參見美國專利6,287,778。
“配體”是一種被特殊受體識別的分子。被受體結合或與受體反應的試劑稱為“配體”,這是一種僅根據其對應受體在定義上才有意義的術語。術語“配體”不暗含任何特殊的分子大小或其他結構或組成特征,除了目的物質能夠與受體結合或反應之外。同樣,配體可用作受體結合的天然配體或用作擔當激動劑或拮抗劑的功能性類似物。可通過本發明研究的配體的例子包括但不限于,細胞膜受體的激動劑和拮抗劑,毒素和毒物,病毒表位,激素(例如,麻醉劑,類固醇等),激素受體,肽,酶,酶底物,底物類似物,過渡態類似物,輔因子,藥物,蛋白,和抗體。
連接失衡或等位基因結合表示具體等位基因或基因標記與具體等位基因或基因標記的優先結合在染色體位置附近比群體中任何具體等位基因頻率通過機會預計的更頻繁。例如,如果座位X具有等位基因a和b,它們出現的頻率相等,以及連接的座位Y具有等位基因c和d,它們出現的頻率也相等,則可預計組合ac出現的頻率為0.25。但如果ac出現更頻繁,則等位基因a和c處于連接失衡。連接失衡可能由天然選擇某些組合的等位基因產生,或者因為等位基因已導入群體時間太近以致不能與連接的等位基因達到平衡。
微量滴定板為離散孔的陣列,以標準形式(96,384和1536孔)出現,用于平行檢查一些樣品的物理,化學或生物特征。
混合群體或復合群體是指任何既含有所需核酸又含有不需核酸的樣品。作為非限制性例子,核酸的復合群體可以是總基因組DNA,總基因組RNA,或其組合。此外,核酸的復合群體已對給定群體加以富集,但包括其他不需要的群體。例如,核酸的復合群體可以是已對所需信使RNA(mRNA)序列加以富集,但仍包括一些不需要的核糖體RNA序列(rRNA)的樣品。
“單體”是指可連接在一起形成寡聚體或聚合物的分子集的任何成員。用于本發明中的單體集包括但不限于,對(多)肽合成的例子而言,L-氨基酸,D-氨基酸,或合成氨基酸的集。如本發明所用,“單體”是指用于合成寡聚體的基礎集(basis set)的任何成員。例如,L-氨基酸的二聚體形成用于合成多肽的400“單體”的基礎集。在合成聚合物中可以連續步驟利用單體的不同基礎集。術語“單體”也指化學亞基,其可與不同化學亞基組合形成大于單獨的任意亞基的化合物。
如本發明所用的mRNA或mRNA轉錄本包括但不限于,mRNA轉錄本前體,轉錄本加工中間體,準備用于翻譯和轉錄一種或多種基因的成熟mRNA(s),或衍生自mRNA轉錄本的核酸。轉錄本加工包括剪接,編輯和降解。如本發明所用,衍生自mRNA轉錄本的核酸是指一種核酸,為其合成,mRNA轉錄本或其子序列最終用作模板。因此,反轉錄自mRNA的cDNA,轉錄自cDNA的RNA,擴增自cDNA的DNA,轉錄自擴增的DNA的RNA等,全部衍生自mRNA轉錄本,而這些衍生產物的檢測是原始轉錄本在樣品中存在和/或豐度的指示。因此,衍生自樣品的mRNA包括但不限于,一種或多種基因的mRNA轉錄本,反轉錄自mRNA的cDNA,轉錄自cDNA的cRNA,擴增自基因的DNA,轉錄自擴增的DNA的RNA等。
本發明的核酸包括嘧啶和嘌呤堿基的任何聚合物或寡聚體,所述堿基分別優選胞嘧啶,胸腺嘧啶,和尿嘧啶,以及腺嘌呤和鳥嘌呤。參見Albert L.Lehninger,生化原理(Principles of Biochemistry),第793-800頁(Worth Pub.1982)。事實上,本發明預期任何脫氧核糖核苷酸,核糖核苷酸或肽核酸組分,及其任何化學變體,諸如,這些堿基的甲基化,羥甲基化,或糖基化的形式等等。聚合物或寡聚體在組成上可以是異源或同源的,并且分離自天然發生的來源,或者是人造或合成生產的。此外,核酸可以是DNA或RNA,或其混合物,并且永久或短暫以單鏈或雙鏈形式存在,包括同質雙鏈體,異質雙鏈體,和雜交體。
“寡核苷酸”或“多核苷酸”是一種核酸,長度范圍至少2,優選至少8,以及更優選至少20個核苷酸,或者一種與多核苷酸特異性雜交的化合物。本發明的多核苷酸包括脫氧核糖核酸(DNA)或核糖核酸(RNA)的序列,其可分離自天然來源,重組生產或人工合成的,或其模擬物。本發明多核苷酸的其他例子可以是肽核酸(PNA)。本發明還預期的情形中,有非傳統堿基配對,諸如已在某些tRNA分子中鑒定和假定存在于三螺旋的Hoogsteen堿基配對。“多核苷酸”和“寡核苷酸”在本申請中交互使用。
“探針”為可被特定靶識別的表面固定的分子。可由本發明研究的探針的例子包括但不限于,細胞膜受體的激動劑和拮抗劑,毒素和毒物,病毒表位,激素(例如,麻醉劑,類固醇等),激素受體,肽,酶,酶底物,輔因子,藥物,外源凝集素,糖類,寡核苷酸,核酸,寡糖,蛋白和單克隆抗體。
“引物”為單鏈寡核苷酸,能夠擔當起始點,在合適條件,例如緩沖液和溫度,以及存在4種不同核苷三磷酸和聚合用試劑,諸如,DNA或RNA聚合酶或反轉錄酶下進行模板-導向的DNA合成。引物的長度,在任何給定情形下,取決于例如想用的引物,并且通常為15-20,25,30個核苷酸。短的引物分子一般要求更低的溫度以形成足夠穩定的復合有模板的雜交體。引物不需反映模板的真正序列,但必須足夠互補以與這種模板雜交。引物位點為模板與引物雜交的區域。引物對為一組引物,包括與待擴增序列的5’端雜交的5’上游引物,和與待擴增序列的3’端的互補序列雜交的3’下游引物。
多態性是指在群體中出現的兩種或更多種遺傳上確定的替代序列或等位基因。多態性標記或位點為出現分歧處的座位。優選的標記具有至少兩個等位基因,每個出現頻率大于1%,更優選大于10%或20%的選定群體。多態性可包括一個或多個堿基變化,插入,重復或缺失。多態性座位可小至一個堿基對。多態性標記包括限制性片段長度多態性,同向重復序列可變數(VNTR′s),超變區,小衛星,二核苷酸重復,三核苷酸重復,四核苷酸重復,簡單序列重復,以及插入元件,諸如Alu。第一個鑒定的等位基因形式被任意指定成參照形式,而其他等位基因形式被指定成替代或變異等位基因。在選定的群體中出現最頻繁的等位基因形式有時稱為野生型形式。雙倍體生物體可以是等位基因形式的純合子或雜合子。二等位基因多態性具有兩種形式。三等位基因多態性具有三種形式。單核苷酸多態性(SNPs)包括在多態性中。
“讀數儀”或“平板讀數儀”為一種裝置,其用于鑒定陣列上的雜交事件,諸如陣列上的核酸探針和熒光標記的靶之間的雜交。讀數儀在本領域中是公知的,并可通過Affymetrix,Santa Clara CA和其他公司商購。一般而言,它們包括使用激發能量(諸如激光)以照亮已雜交于探針的熒光標記的靶核酸。然后,再發射的輻射(以不同于激發能量的波長)利用諸如CCD,PMT,光電二極管的裝置,或記錄采集的發射的類似裝置而加以檢測。參見美國專利No.6,225,625。
“受體”為一種對給定配體具有親和性的分子。受體可以是天然發生或人造的分子。同樣,它們可以未變的狀態或作為與其他種類的聚集體使用。受體可直接或經由特定結合物質,以共價或非共價形式連接到結合成員上。本發明采用的受體的例子包括但不限于,抗體,細胞膜受體,單克隆抗體和與特定抗原決定簇(諸如位于病毒,細胞或其他材料上)反應的抗血清,藥物,多核苷酸,核酸,肽,輔因子,外源凝集素,糖類,多糖,細胞,細胞膜,以及細胞器。受體有時在本領域中稱為抗配體。由于本發明使用術語受體,意義上沒有區別。當兩個大分子通過分子識別相結合而形成復合物時,就形成“配體受體對”。可被本發明研究的受體的其他例子包括但不限于那些在美國專利No.5,143,854中顯示的分子,在此以其全文引作參考。
“固相支持物”,“支持物”和“基質”交互使用,是指具有剛性或半剛性表面的材料或材料組。在許多實施方案中,固相支持物的至少一個表面基本上是平的,盡管在有些實施方案中,其可以合意的是對不同化合物在物理上分開合成區域,例如用孔,凸起的區域,針,蝕刻的溝渠等。根據其他實施方案,固相支持物會采用珠,樹脂,凝膠,微球的形式,或其他幾何構型。示例性基質參見美國專利No.5,744,305。
“靶”為一種對給定探針具有親和性的分子。靶可以是天然發生或人造的分子。同樣,它們可以未變的狀態或作為與其他種類的聚集體使用。靶可直接或經由特定結合物質,以共價或非共價形式連接到結合成員上。本發明采用的靶的例子包括但不限于,抗體,細胞膜受體,單克隆抗體和與特定抗原決定簇(諸如位于病毒,細胞或其他材料上)反應的抗血清,藥物,寡核苷酸,核酸,肽,輔因子,外源凝集素,糖類,多糖,細胞,細胞膜,以及細胞器。靶有時在本領域中稱為抗探針。由于本發明使用術語靶,意義上沒有區別。當兩個大分子通過分子識別相結合而形成復合物時,就形成“探針靶對”。
全基因組取樣分析(WGSA)為一種測定,其使得成千上萬個SNPs同時在復合物DNA中進行基因定型,而無需使用座位特異引物。在此技術中,例如,基因組DNA用目的限制性酶消化,并將接頭連接到消化的片段上。對應于接頭序列的單個引物用于擴增所需大小的片段,例如,500-2000bp。處理的靶然后雜交于包括含SNP的片段/探針的核酸陣列。WGSA公開在例如,美國臨時申請Nos.60/319,685,60/453,930,60/454,090和60/456,206,60/470,475,美國專利申請Nos.09/766,212(美國專利公布No.US-2003-0148273-A1),10/316,517(美國專利公布No.US-2003-0186279-A1),10/316,629(美國專利公布No.US-2003-0186280-A1),10/463,991,10/321,741,10/442,021和10/264,945,分別在此為所有目的以其全文引作參考。
III.功能性基因組區域中的序列變異在本發明的一個方面,方法的提供是為了便于研究基因組的功能區中的序列變異(SNPs,擴增,缺失等),而無需求助于注解。在患病和未患病個體的基因組區域中制作RNA和轉錄因子結合位點等的圖在這些基因組區域上賦予特定功能,并且將它們歸因于優先地位,用于分析序列變異的存在。方法對分析基因組的大區,例如分析基因組的至少10,000個堿基,100,000個堿基,1M個堿基或5M個堿基,是尤其有用的。
基因組的功能區可利用各種不同的方法得以確定。優選的方法包括用高密度寡核苷酸探針陣列制圖。對基因組的功能區制圖的方法描述在例如下列美國專利申請和臨時專利申請中60/339,655,“染色體21和22中揭示的人基因組的大規模轉錄活性(Large-ScaleTranscriptional Activity of the Human Genome revealed in Chromosomes21 and 22)”;10/316,518(美國專利公布No.US-2003-0157529-A1),“確定轉錄活性的方法(Methods for Determining Transcriptional Activity)”;60/425,879,“在基因組的潛在功能區中詢問序列變異的方法(Methodof Interrogating for Sequence Variations in Potentially Functional Regionsin the Genome)”;60/425,880,“利用全基因組分析在基因組的潛在功能區中詢問序列變異的方法(Method of Interrogating for SequenceVariations in Potentially Functional Regions in the Genome Using WholeGenome Assay)”;60/426,868,“胚胎癌細胞分化時在染色體21和22的隱藏轉錄體中的動力學變化(Dynamic Changes in the HiddenTranscriptome of the Chromosomes 21and 22Upon the Differentiation ofthe Embryonic Cancer Cell)”;60/431,356,“譯解基因組功能的方法(Methods for Deciphering Functions of a Genome)”;60/438,866,“編碼和非編碼RNA轉錄本,包括低分子量RNA的全程調節的分析方法(Methods for Analyzing Global Regulation of Coding and Non-CodingRNA Transcripts Involving Low Molecular Weight RNAs)”;60/442,045,“轉錄體分析(Transcriptome Analysis)”;60/458,718,“大規模反義轉錄的檢測方法(Methods for Detecting Large Scale AntisenseTranscription)”;60/469,336,“監控轉錄因子結合位點(MonitoringTranscriptional Factor Binding Sites)”;60/469,207,“人基因組陣列板(Human Genome Array Plates)”;60/484,849,“轉錄本結構的分析方法(Methods for Analyzing Transcript Structures)”;60/486,376,“新型轉錄本的差異調節(Differential Regulation of Novel Transcripts)”以及60/514,314,“新型RNAs的鑒定(Identification of Novel RNAs)”,所有這些申請為全部目的在此引作參考。
功能區本質上是動態的。例如,轉錄位點,轉錄因子結合位點可在樣品的不同生理,病理,毒理和藥理狀態中發生改變(參見,例如,美國臨時申請號60/486,376,“新型轉錄本的差異調節(DifferentialRegulation of Novel Transcripts)”,在此引作參考)。功能區也可以是組織特異的。在一些實施方案中,功能區可在各種不同的目的態的樣品中分布,從而對序列變異分析確定功能區分布圖。
有關功能區的信息(諸如功能區分布圖)可存儲在計算機化數據庫中。序列變異檢測分析,諸如WGSA分析,利用這種數據庫可加以設計。
功能區中的基因組和cDNA序列優先于其他區域可通過測序或SNP測試或比較基因組雜交(CGH)測試而加以分析,所述其他區域對編碼區域之外的序列變異是重要的(但不是唯一的)。通常,待分析序列變異的功能區為基因組的至少1000個堿基,10000個堿基,100000個堿基,1M個堿基或5M個堿基。
測序可通過傳統的Sanger測序,雜交測序或基于微陣列的再測序進行。例如,再測序微陣列(Affymetrix,Santa Clara,CA)可用于檢測基因組區域中的序列變異。對于利用微陣列高通量再測序技術的描述,參見,例如,Warrington等,利用高密度微陣列的高通量再測序和變異檢測的新進展(New developments in high-throughput resequencingand variation detection using high density microarrays),Hum Mutat.2002Apr;19(4)402-9和美國專利申請號10/028,482(美國專利公布No.US-2003-0124539-A1),兩者皆在此引作參考。
通過各種不同的方法可進行SNP基因定型(SNP基因定型方法綜述,參見,例如,Pui-Yan Kwok,2001,對單核苷酸多態性進行基因定型的方法,基因組和人類基因的年度綜述(Methods For GenotypingSingle Nucleotide Polymorphisms,Annual Review of Genomics andHuman Genetics),2235-258,以及Tsuchihashi和Dracopoli,2002,高通量SNP基因定型方法的進展(Progress in high throughput SNPgenotyping methods),Pharmacogenomics J.2002;2(2)103-10,所有文獻在此引作參考)。一個特別優選的方法為全基因組取樣分析(WGSA)和高密度寡核苷酸探針陣列。公開WGSA的專利說明書已先前引作參考。該方法還描述在例如,Kennedy等,復合物DNA的大規模基因定型(Large-scale genotyping of complex DNA),Nat Biotechnol.2003Oct;21(10)1233-7,在此引作參考)。通常,大量的SNPs,諸如大于1000,10000或1000000個SNPs被基因定型。
在一個實施方案中,為了設計WGSA分析,提供計算機軟件產品。由于參與細胞的各種功能性操作的序列表是限定的,應通過計算檢查這些位點是否存在限制性核酸內切酶(RE)位點(圖1),所述功能性操作諸如轉錄因子結合,起點,甲基化和染色質修飾位點,從而設計WGSA分析。對于特定的功能分類序列(例如,轉錄因子(TF)結合序列)而言的確如此,最少數目的REs可進行鑒定,從而能跨越基因組對最大數目的這類位點查看在這些序列中是否存在可能的序列變異。計算機軟件產品通常含有計算機可讀介質,其具有的計算機代碼執行下列方法檢索有關功能區的信息,分析適用于詢問功能區的RE位點,以及任選選擇用于詢問區域內SNP的探針。
還提供用于詢問功能區內SNPs的寡核苷酸。通常利用計算機軟件鑒定待詢問的SNPs來設計探針。根據先前公開的鋪蓋路線(參見,例如,Kennedy等,復合物DNA的大規模基因定型(Large-scalegenotyping of complex DNA),Nat Biotechnol.2003Oct;21(10)1233-7,在此引作參考)或其他合適的檢測路線選擇探針。探針一般固定在基質,柱子或光纖上。在優選的實施方案中,探針以高密度固定在基質上,諸如大于1000,100,000,1000000個不同探針/cm2。高密度寡核苷酸探針陣列的制造方法描述在先前引作參考的專利說明書中。
比較基因組雜交(CGH)為分子細胞發生技術,使得貫穿基因組或在基因組的特定區域中以單個雜交檢測DNA序列拷貝數變化。對于CGH描述而言,參見,例如Kallioniemi等,實體瘤的分子細胞發生分析的比較基因組雜交(Comparative genomic hybridization formolecular cytogenetic analysis of solid tumors),Science.1992Oct 30;258(5083)818-21,在此引作參考)。
了解功能基因組區中的序列變異(諸如SNPs)在例如,藥物靶鑒定和診斷中具有實用性。基因結合和連接分析通常用于鑒定涉及目的特征(諸如與疾病有關的位點)的基因組區域。結合分析為一種基因分析方法,其比較患病個體和未患病個體(如本發明所用,個體可以是人,動物,植物等)之間等位基因的頻率。如果在患病的個體中某等位基因以顯著高的頻率出現,則給定的等位基因被視為與目的疾病相關。連接分析通常用于鑒定疾病等位基因是否存在于與密切連接的標記,諸如SNP,共遺傳的座位上。結合和連接分析皆可利用,例如,WGSA進行以鑒定目的基因組區域。在一些實施方案中,當結合或連接研究突出基因組的若干區域成為可能的位點,所述位點或許參與確定患病家族或個體中的特征,功能區在這些區域中的存在憑經驗確定,并且可縮小進一步分析的可能性(圖2)。這些區域中的基因組和cDNA序列可憑經驗加以確定,并且通過測序或SNP測試或比較基因組雜交(CGH)測試,優先于對編碼區之外的序列變異是重要(但不是唯一)的其他區域進行分析。
一旦這種功能上重要的位點沿基因組在數個個體中制圖,有用的是不必對每個患者中的每個因子或功能序列進行類似的免疫沉淀試驗。例如,如果若干TFs(例如,cMyc和SP-1)在基因組中似乎結合于同樣的位點(即,1kb基因組序列),利用全基因組取樣分析(WGSA)測試這個區域的突變會是有益的。然而,如果有許多這樣的普通位點沿基因組分散,則找到最少的限制性核酸內切酶(REs)使得查看最大的可能數目的這些位點變成優先。
結論應理解的是,以上描述是說明性的,而不是限制性的。本發明的許多變化對本領域專業人員而言,在回顧以上描述后是顯而易見的。所有引用的參考文獻,包括專利和非專利文獻,為所有目的以其全文在此引作參考。
權利要求
1.一種詢問基因變異的方法,包括獲得多個基因組的功能區,其中功能區包含至少10,000個堿基;確定多個個體在基因組的功能區中的序列變異。
2.權利要求1的方法,其中功能區包含多個轉錄因子結合位點。
3.權利要求2的方法,其中功能區包含多個RNA:蛋白結合結構域。
4.權利要求3的方法,其中功能區包含多個染色質修飾位點。
5.權利要求4的方法,其中功能區包含多個復制起點。
6.權利要求5的方法,其中功能區包括多個DNA甲基化位點。
7.權利要求1的方法,其中所述獲得步驟包括利用微陣列確定功能區。
8.權利要求7的方法,其中微陣列為高密度寡核苷酸陣列。
9.權利要求8的方法,其中微陣列包含基因組的寡核苷酸探針鋪蓋區。
10.權利要求9的方法,其中所述確定步驟包括確定多個個體的功能區的序列。
11.權利要求9的方法,其中所述確定步驟包括確定多個個體的功能區的基因型。
12.權利要求11的方法,其中基因型為SNP基因型。
13.權利要求12的方法,其中所述確定步驟包括用至少一種適用于詢問至少一種功能區的限制性酶進行WGSA。
14.權利要求9的方法,其中所述確定步驟包括確定序列拷貝數變化。
15.權利要求1的方法,其中功能區包括至少100000個堿基。
16.權利要求15的方法,其中功能區包括至少500000個堿基。
17.一種詢問基因變異的方法,包括獲得至少一個目的基因組區段;在目的基因組區段中獲得多個功能區,其中功能區包括至少5,000個堿基;確定多個個體在基因組的功能區中的序列變異。
18.權利要求17的方法,其中目的基因組區通過結合或連接分析加以確定。
19.權利要求18的方法,其中功能區包括多個轉錄因子結合位點。
20.權利要求18的方法,其中功能區包括多個RNA:蛋白結合結構域。
21.權利要求18的方法,其中功能區包括多個染色質修飾位點。
22.權利要求18的方法,其中功能區包括多個復制起點。
23.權利要求18的方法,其中功能區包括多個DNA甲基化位點。
24.權利要求17的方法,其中所述獲得步驟包括利用微陣列確定功能區。
25.權利要求24的方法,其中微陣列為高密度寡核苷酸陣列。
26.權利要求25的方法,其中微陣列包含基因組的寡核苷酸探針鋪蓋區。
27.權利要求24的方法,其中所述確定步驟包括確定多個個體的功能區的序列。
28.權利要求24的方法,其中所述確定步驟包括確定多個個體的功能區的基因型。
29.權利要求28的方法,其中基因型為SNP基因型。
30.權利要求29的方法,其中所述確定步驟包括用至少一種適用于詢問至少一種功能區的限制性酶進行WGSA。
31.權利要求24的方法,其中所述確定步驟包括確定序列拷貝數變化。
全文摘要
在本發明的一個方面,提供了檢測基因組的功能區中基因變異的方法、組合物和計算機軟件產品。在有些實施方案中,鋪蓋探針陣列的寡核苷酸用于檢測轉錄區,轉錄因子結合區等。這些區域中的基因變異可利用,例如,全基因組取樣分析加以確定。
文檔編號G06F19/22GK1711358SQ200380103082
公開日2005年12月21日 申請日期2003年11月12日 優先權日2002年11月12日
發明者托馬斯·R·金杰拉斯 申請人:阿菲梅特里克斯公司