專利名稱:用于檢測dna甲基化模式的方法
技術領域:
本發明涉及用于檢測與病癥的存在或發生病癥的素因相關的DNA甲基化標簽 (signature )的方法,所述方法包括鑒定一個或多個在靶和參考樣品中展示出差異DNA甲基化的候選基因,以及分別測定在所述差異甲基化的候選基因中核酸位點和DNA結合因子的識別位點,所述DNA結合因子各個識別這種差異甲基化的核酸位點,其中得到的差異甲基化的核酸位點的模式和DNA結合因子識別位點的模式一起表示DNA甲基化標簽,所述標簽指示靶樣品中病癥的存在或發生病癥的素因。在具體應用中,這些DNA甲基化標簽允許對患者樣品分類,區分疾病亞型和/或疾病狀態以及監測對治療的應答性。
背景技術:
DNA甲基化在多種生物(包括原核生物和真核生物)的基因組中被發現。在原核生物中,DNA甲基化發生在胞嘧啶和腺嘌呤堿基上并且包含部分宿主限制性系統。然而, 在多細胞真核生物中,甲基化似乎被限制在胞嘧啶堿基上并與被抑制的染色體狀態和基因表達抑制相關(例如在 Wilson, G.G.和 Murray, N. Ε. (1991) Annu. Rev. Genet. 25, 585 - 627所綜述的)。在哺乳動物細胞中,DNA甲基化主要發生在CpG 二核苷酸上,其不均衡分布并在基因組中被低估(underr印resented)。通常未甲基化的CpG簇(被稱為CpG島)在很多啟動子區域被發現(例如在Li,E. (2002) Nat. Rev. Genet. 3,662-673中所綜述的)。導致異常的基因沉默的DNA甲基化的變化已在幾種人類癌癥中被證明(例如在Robertson,K. D. 和Wolffe, A.P. (2000) Nat. Rev. Genet. 1,11-19中所綜述的)。啟動子的過度甲基化被證明是導致腫瘤抑制基因失活的常見機制(Bird,A. P. (2002) Genes Dev. 16,6_21)。DNA甲基化可通過兩種不同機制的方法導致基因沉默第一種,在CpG 二核苷酸位點的甲基化阻止轉錄因子與其相關(Cognate)DNA識別序列結合;第二種,通過甲基-CpG的結合蛋白(MBD)家族識別甲基-CpG 二核苷酸位點,因此引起甲基化DNA的抑制潛能。存在多種方法用于實驗上確定單個基因的差異甲基化(例如在Rein,Τ.等人. (1998) Nucleic Acids Res. 26,2255-2264中所綜述的)。這些技術尤其包括亞硫酸氫鹽測序、甲基化特異性PCR (MSP)、Methylight和焦磷酸測序(pyro-sequencing)。亞硫酸氫鹽修飾將未甲基化的胞嘧啶殘基轉變為尿嘧啶但甲基化的胞嘧啶殘基保持不受影響。亞硫酸氫鹽測序通常被認為表示最合適的方法以便得到特定基因組序列的甲基化狀態的全貌(overview)。MSP是文獻中最普遍的方法,主要因為其能夠在非常有限的生物材料量中分析DNA甲基化狀態。Methylight和焦磷酸測序是基于定量PCR的方法。迄今幾種基因組范圍的方法學途徑也已被建立,包括限制性標志性基因組掃描(RLGS)、甲基化間位點擴增(AIMS)、差異甲基化雜交(DMH)和甲基化DNA免疫沉淀(甲基-DIP)。然而,所有這些方法結束在基因序列的具體位點甲基化狀態的物理分析上,但不提供此甲基化狀態對具體基因沉默的功能影響的進一步信息。因此,對功能性地連接候選基因甲基化狀態和轉錄基因調節的方法仍有需求。
4
發明目的和概述
本發明的目的之一是提供新方法用于檢測一個或多個候選基因/基因座的DNA甲基化模式和用于功能性地將這些模式和所述候選基因的轉錄沉默相關聯。因此獲得的DNA甲基化標簽可在篩查、診斷、預后和復發監控的靶向診斷測試中被用作分子標簽。具體地,本發明的目的之一是提供用于檢測與病癥的存在或發生病癥的素因相關的DNA甲基化標簽的方法,所述方法基于鑒定一個或多個在靶和參考樣品中展示出差異 DNA甲基化的候選基因/基因座,以及鑒定在所述差異甲基化的候選基因/基因座中各自的核酸位點和DNA結合因子的識別位點,所述DNA結合因子各個識別這種差異甲基化的核酸位點,其中得到的差異甲基化的核酸位點的模式和DNA結合因子識別位點的模式一起表示 DNA甲基化標簽,所述標簽指示靶樣品中病癥的存在或發生病癥的素因。本發明的另一個具體目的是確定在特定的(生物學的)樣品中存在的過度甲基化并因此可參與腫瘤抑制基因沉默的候選基因/基因座的子集,和甲基化不足并因此可與癌基因激活相關的候選基因的子集,以及通過鑒定在差異甲基化位點識別候選基因/基因座轉的錄因子和/或甲基化蛋白結合蛋白來評估各自的候選基因/基因座對基因沉默的潛在影響。這些目的以及其它將從隨后的描述中變得明顯的目的通過獨立權利要求的主題來獲得。一些優選的實施方案通過從屬權利要求的主題來詳細說明。在一個實施方案中,本發明涉及檢測與病癥的存在或發生病癥的素因相關的DNA 甲基化標簽的方法,所述方法包括
(a)提供多個匹配樣品,所述多個包含至少一個靶樣品和至少一個參考樣品;
(b)在至少一個靶樣品中鑒定一個或多個相對于至少一個參考樣品展示出差異DNA甲基化的候選基因/基因座;
(c)確定包含在步驟(b)中獲得的一個或多個差異甲基化的候選基因/基因座中的核酸位點;以及
(d)確定在步驟(b)中獲得的一個或多個候選基因/基因座中DNA結合因子識別位點的存在,其中所述DNA結合因子各個識別在步驟(c)中確定的核酸位點;
其中在步驟(c)中獲得的差異甲基化的核酸位點的模式和在步驟(d)中獲得的DNA結合因子識別位點的模式一起表示DNA甲基化標簽,所述標簽指示在所述至少一個靶樣品中病癥的存在或發生病癥的素因。在所述方法優選的實施方案中,包含在一個或多個差異甲基化的候選基因/基因座中的核酸位點是CpG 二核苷酸位點。差異DNA甲基化優選地通過選自以下的一個或多個方法來確定亞硫酸氫鹽測序、焦磷酸測序、甲基化敏感的單鏈構象分析(MS-SSCA)、高分辨熔解分析(HRM)、甲基化敏感的單核苷酸引物延伸(MS-SnuPE)、堿基特異性切割/ MALDI-T0F,甲基化特異性PCR (MSP)、基于微陣列的方法和ife/71切割。在優選的實施方案中,所述方法的步驟(C)進一步包括將一個或多個差異甲基化的候選基因/基因座分為
-第一子集“m”,其為一個或多個包含在至少一個參考樣品中甲基化和在至少一個靶樣品中非甲基化的核酸位點的候選基因/基因座;和
-第二子集“Π”,其為一個或多個包含在至少一個參考樣品中非甲基化和在至少一個靶樣品中甲基化的核酸位點的候選基因/基因座。在另一個優選的實施方案中,所述方法的步驟(d)進一步包括對于一個或多個 DNA結合因子的第一子集“M”確定和選擇識別位點,其中DNA結合因子的子集“M”的每一個成員選擇性地識別子集“m”的一個或多個候選基因。在還另一個優選的實施方案中,所述方法的步驟(d)進一步包括對于一個或多個 DNA結合因子的第二子集“N”確定和選擇識別位點,其中DNA結合因子的子集“N”的每一個成員選擇性地識別子集“η”的一個或多個候選基因。特別優選地,DNA結合因子的子集“N”表示DNA甲基結合蛋白。在進一步具體的實施方案中,DNA甲基結合蛋白選自MBDl、MBD2、MBD3、MBD4、MIZF、Kaiso和MeCP2。在另一個具體的實施方案中,本發明的方法進一步包括對于選擇的DNA結合因子的子集“M”每一個成員確定被識別的包含在子集“m”中的候選基因,和/或對于選擇的DNA 結合因子的子集“N”每一個成員確定被識別的包含在子集“η”中的候選基因。在還另一個具體的實施方案中,本發明的方法進一步包括步驟(d)的一個或多個重復,其中每一個重復包括在一個或多個候選基因/基因座中確定一個或多個DNA結合因子的識別位點的存在,所述DNA結合因子尚未包括在之前重復的確定中。優選地,鑒定的DNA甲基化標簽包含至少10個候選基因。在另一個優選的實施方案中,一個或多個鑒定的候選基因的DNA甲基化標簽指示在至少一個靶樣品中癌癥的存在或發生癌癥的素因。特別優選地,對于候選基因的子集“ m” 鑒定的DNA甲基化標簽指示一個或多個癌基因的激活和/或對于候選基因的子集“η”鑒定的DNA甲基化標簽指示一個或多個腫瘤抑制基因的失活。在進一步具體的實施方案中,所述方法在計算機上模擬進行(i/7 silica)。在進一步具體的實施方案中,本發明的方法進一步用于預測對在至少一個靶樣品中存在的病癥或傾向發生的病癥的處理的治療應答。在另一個實施方案中,本發明涉及如本文中所定義的DNA甲基化標簽作為用于病癥的篩查、診斷、治療計劃和/或復發監控的患者樣品分類的生物標記的用途。在還另一個實施方案中,本發明涉及所述方法與其它患者數據和臨床參數一起作為基于計算機的臨床決定系統的整體部分的用途。
圖1描述了用于確定包含在候選基因中的差異甲基化核酸位點的基于甲基化依賴的限制性分析的示例性方法的示意性說明。所述方法的原則在實驗部分更詳細地描述。圖2顯示了成簇的樣品(列)對甲基化基因座(行)的示例性分布。獲得的DNA甲基化模式允許區分腫瘤(頂部條的左邊部分)和正常組織(頂部條的右側部分)。圖3表示根據本發明的方法的通常原則的示意性說明。圖4 (A)顯示差異甲基化基因座的列表(使用ifepl切割和MOMA陣列鑒定),其被發現指示區別不同的乳腺癌的亞型,即luminal A型對kisal and Her2型。(B)描述了表格,其包括甲基結合蛋白(MBP)、JfepI片段(MSP)(其中MBP結合位點被鑒定),到最近的基因的距離和所述最近的基因的名稱。發明的具體描述
本發明基于確定DNA甲基化標簽能夠可靠檢測特定樣品中病癥的存在和發生病癥的素因的意外發現,所述DNA甲基化標簽基于包含在一個或多個差異甲基化的候選基因/基因座中的核酸位點的模式和識別所述差異甲基化的核酸位點的DNA結合因子識別位點的模式。在下文中說明性地描述的本發明可適當地在任何要素或多個要素、限制或多個限制缺乏情況下實踐,其不是本文中特別公開的。本發明將關于具體實施方案和參考某些圖片進行描述,但本發明不限于此而只由權利要求限制。描述的圖片只是示意性的并將認為是非限制性的。在術語“包含”(comprising)被用于本描述和權利要求中的情況下,其不排除其它元素和步驟。為了本發明的目的,術語“由……組成”(consisting of)被認為是術語“包含”(comprising of)的優選實施方案。如果在下文中一組被定義為包含至少某個數量的實施方案,也可理解為公開了優選只由這些實施方案組成的組。在使用不定冠詞和定冠詞的情況下,當涉及單數名詞例如“一”和“其”(“a”或 “an”、“the”)時,這包括了該名詞的復數,除非另外特別指出。另外,在說明書和權利要求中術語第一、第二、第三、(a)、(b)、(c)和類似術語用于區別相似的元素而對描述連續的或時間順序是非必要的。應理解的是如此使用的術語在適當的環境中是可互換的,本文中所描述的本發明的實施方案能夠以其它而非本文中描述或舉例的順序進行。術語的進一步定義將在術語應用的上下文中給出。以下術語或定義單獨提供以幫助理解本發明并不解釋為具有小于技術人員所理解的范圍。在第一方面,本發明涉及檢測與病癥的存在或發生病癥的素因相關的DNA甲基化標簽的方法,所述方法包括
(a)提供多個匹配樣品,所述多個包含至少一個靶樣品和至少一個參考樣品;
(b)在至少一個靶樣品中鑒定一個或多個相對于至少一個參考樣品展示出差異DNA甲基化的候選基因/基因座;
(c)確定包含在步驟(b)中獲得的一個或多個差異甲基化的候選基因/基因座中的核酸位點;以及
(d)確定在步驟(b)中獲得的一個或多個候選基因/基因座中DNA結合因子識別位點的存在,其中所述DNA結合因子各個識別在步驟(c)中確定的核酸位點;
其中在步驟(c)中獲得的差異甲基化的核酸位點的模式和在步驟(d)中獲得的DNA結合因子識別位點的模式一起表示DNA甲基化標簽,所述標簽指示在所述至少一個靶樣品中病癥的存在或發生病癥的素因。本發明中所用的各自的靶樣品和參考樣品可以源自原核生物或真核生物來源。通常,所用的樣品是哺乳動物樣品,其可以是人類或非人類來源的,優選人類樣品。本文中所用的術語“樣品”應理解為不僅包括個體細胞還包括組織、器官和生物體。本文中所用的術語“靶樣品”是指至少假定展示或具有發生病癥的素因的樣品,而術語“參考樣品”(也稱為“對照樣品”)通常表示不具有這樣病癥的特征的野生型材料(例
7如健康細胞)。但是,在一些應用中,本發明的方法可用于分析和比較幾種展示病癥特征的樣品(例如,疾病早期和疾病狀態),例如為了監控疾病發展。在這樣的情況中,如果不包括野生型(健康)對照樣品,具有較輕疾病特征的樣品通常作為“參考樣品”。本文中所用的術語“匹配樣品”表示多個至少兩個彼此相關的樣品。例如,被分析的樣品對可包括一個源自患病(例如癌癥)患者的靶樣品和一個源自健康個體的參考樣品。 但是本發明的方法不限于分析樣品對。例如,也可能對比一個參考樣品分析4個不同的靶樣品,例如源自患相同疾病但受不同程度影響的患者的靶樣品(例如3個不同的癌癥前期狀態和一個癌癥樣品)。因此,本文中所用的術語“多個匹配樣品”表示任何偶數或奇數的彡2的樣品(例如2、3、4、5、6、7、8、9、10、11、12等等),只要多個樣品包含至少一個靶樣品和至少一個參考樣品。通常本發明中所用的靶樣品和參考樣品源自從被治療的個體收集來的生物材料。 另外,為了確保獲得的數據,“對比樣品”也可從具有特定已知疾病狀態的個體處收集。生物樣品可包括身體組織(例如活檢或切除)和/或體液,如血液、痰和尿。另外,生物樣品可包含源自對象的細胞群的細胞抽提物或細胞群。任選地,細胞或細胞抽提物可從獲得的身體組織和液體中純化,如果必要然后用作生物樣品。本發明的方法中所用的樣品應通常以臨床可接受的方式收集,優選以核酸或蛋白質被保存的方式。本文中所用的術語“病癥”可最廣義地理解。該術語表示(i)任何類型的醫學情況,即靶樣品(即細胞和/或組織)中相對于未受影響的(野生型)對照樣品展示功能紊亂和 /或異常細胞表型特征的任何形態學和/或生理學改變;和/或(ii)在各自的靶樣品和參考樣品之間任何形態學、生理學和/或藥理學差異。根據(i)的改變的實例可尤其涉及細胞大小和形狀(增大或縮小)、細胞增殖(細胞數量增長)、細胞分化(生理狀態改變)、凋亡(程序化細胞死亡)或細胞存活。根據(ii)的差異的實例包括尤其腫瘤樣品對比健康對照(為了診斷或復發監控的目的)、浸潤性對比非浸潤性腫瘤樣品(即不同腫瘤階段和/或腫瘤亞型;為了預后分析的目的)、相關于治療方案的情況如對特定病癥/醫學情況特殊治療的應答性對比非應答性。因此術語病癥可解釋為兩個或多個樣品之間的基于所述樣品可被區分和/或分類的任何種類差異。在優選的實施方案中,病癥是癌癥,即一類惡性瘤(也稱為癌)包括尤其是結腸癌、 肺癌、肝癌、乳腺癌、卵巢癌和胰腺癌、黑色素瘤、神經細胞瘤(例如成膠質細胞瘤、星形細胞瘤、髓母細胞瘤)及其它。如本文中所用的術語“具有發生病癥的素因”表示任何指示病癥前期狀態的細胞表型,即正常轉化到異常表型的中間狀態。換言之,該術語表示發生病癥的危險狀態。本文中所用的術語“鑒定一個或多個候選基因/基因座”應以從存在于特定樣品中的經歷差異甲基化的基因的組中“選擇”至少一個候選基因的意義解釋。如本文中所用的術語“候選基因”(本文也稱為“候選基因座”)涉及在其核酸序列中包含一個或多個可以甲基化狀態和非甲基化狀態存在的核酸位點的任何基因座。在本發明的上下文中,術語基因不必要限制為編碼蛋白的序列(開放讀碼框)也包括基因間的區域。選擇(即選擇的候選基因/基因座的數量和/或種類)可以改變,例如依賴于待分析的疾病或病癥的治療形式,包括對分析的樣品取自的治療個體的疾病的治療干預、診斷標準如疾病階段和疾病監控和監督。另外術語“鑒定”包含了確定在至少一個靶樣品和至少一個參考樣品中差異DNA甲基化的程度和比較獲得的結果。鑒定的一個或多個候選基因/基因座可單獨地進行進一步分析或其可被聚類到一個或多個候選基因/基因座標簽,其中每個標簽的實體被整體分析(即一起)。如本文中所用的術語“候選基因/基因座標簽”表示至少兩個彼此相關的候選基因/基因座的子集, 例如,編碼功能相等的蛋白或參與相同的信號通路的蛋白或類似情況。本文中所用的術語“DNA甲基化”表示DNA的化學修飾類型,其包括添加甲基基團到DNA上,例如添加到胞嘧啶的嘧啶環的C5碳原子或添加到腺嘌呤的嘌呤環的N6氮原子, 其是本文中特別優選的第一選擇。此修飾可遺傳并隨后不改變原始DNA序列地被移除。如此,其為表觀遺傳學編碼的部分及最佳表征的表觀遺傳學機制。在胞嘧啶C5處的DNA甲基化已在每種檢查的脊椎動物中被發現。在成年的體組織(somatic tissues)中,DNA甲基化通常發生在CpG 二核苷酸的情況中(參看下文)。非 CpG甲基化是普遍的,例如在胚胎干細胞中。DNA甲基化是可逆的DNA甲基轉移酶催化甲基基團從S-腺苷-L-甲硫氨酸轉移到胞嘧啶或腺嘌呤殘基。在復制中DNA聚合酶不復制甲基化狀態(例如在 Robertson, K. D.和 Wolffe, A. P. (2000),如上;Li, Ε. (2002),如上;Bird, A. P. (2002),如上綜述的)。如本文中所用的術語“差異DNA甲基化”表示具體候選基因(包含在其序列中的一個或多個核酸位點上)在至少一個靶樣品中甲基化但在至少參考樣品中非甲基化的情況, 或者反之亦然,具體候選基因(包含在其序列中的一個或多個核酸位點上)在至少一個參考樣品中非甲基化但在至少靶樣品中甲基化的情況。通常地,一個或多個候選基因/基因座的差異DNA甲基化模式的確定可通過本領域已知的任何方法完成。在優選的實施方案中,差異DNA甲基化通過一個或多個選自以下的方法確定亞硫酸氫鹽測序、焦磷酸測序、甲基化敏感的單鏈構象分析(MS-SSCA)、 高分辨熔解分析(HRM)、甲基化敏感的單核苷酸引物延伸(MS-SnuPE)、堿基特異性切割/ MALDI-TOF,甲基化特異性PCR (MSP)、基于微陣列的方法和i&pl切割構成(例如在Rein, Τ.等人.(1998),如上中綜述的)。進一步適合的方法例如在美國專利申請2006/(^92564 Al中被公開。一個或多個候選基因/基因座的差異DNA甲基化模式的確定已包括鑒定如根據本發明的方法的步驟(c)中定義的包含在一個或多個的候選基因中的準確的核酸位點(即序列原件,遺傳位點)。在本方法優選的實施方案中,包含在一個或多個差異甲基化的候選基因/基因座中的核酸位點是CpG 二核苷酸位點。如本文中所使用的術語“CpG 二核苷酸位點”(或者“CpG位點”)是指DNA區域,其中胞嘧啶核苷酸在線性序列上定位直接與鳥嘌呤核苷酸相鄰。“CpG”表示通過磷酸分隔的胞嘧啶和鳥嘌呤(即-C-磷酸-G-)。“CpG”符號用于區分胞嘧啶接著鳥嘌呤和胞嘧啶堿基配對到鳥嘌呤。存在具有較高濃度的CpG位點的DNA區域,被稱為CpG島。哺乳動物基因組中很多基因具有與基因轉錄起始位點(包括啟動子)相關的CpG島。基因啟動子中的CpG位點過度甲基化(即升高的甲基化水平)可引起基因的沉默,其為例如在多種人類癌癥中發現的特征(例如癌癥抑制基因的沉默)。相反,CpG位點的甲基化不足(即降低的甲基化水平)已與癌癥細胞中的癌基因過表達相關(例如在Robertson, K. D.和 Wolffe, A. P. (2000),如上;Li, Ε. (2002),如上;Bird, Α. P. (2002),如上,· Klose, R.J.和 Bird, A. P. (2006) Trends Biochem. Sci. 31,89-97 中綜述的)。在優選的實施方案中,所述方法的步驟(C)進一步包括將一個或多個差異甲基化的候選基因/基因座分為
-第一子集“m”,其為一個或多個包含在至少一個參考樣品中甲基化和在至少一個靶樣品中非甲基化的核酸位點的候選基因/基因座;和
-第二子集“n”,其為一個或多個包含在至少一個參考樣品中非甲基化和在至少一個靶樣品中甲基化的核酸位點的候選基因/基因座。在本發明的上下文中,候選基因/基因座可包含僅單個在至少一個靶樣品和至少一個參考樣品之間差異甲基化的核酸位點。但是,也可能的是具有多于一個這樣的核酸位點的特定的候選基因/基因座,所述核酸位點可以是相同類型(即其全部屬于如上定義的子集“m”或其全部屬于如上定義的子集“η”)或不同類型(即至少其中一個屬于如上定義的子集“m”并且至少一個其它的屬于如上定義的子集“η”)。在多于一個包含在特定的候選基因/基因座中的差異甲基化核酸位點的情況中,隨后的DNA結合因子識別位點分析,如根據本發明的方法的步驟(d)定義的,可對每一個單獨的核酸位點分別進行或對候選基因以其整體進行。因此,術語“候選基因/基因座”和“核酸”可在本文中交替使用,依賴進行分析的的類型。因此,本發明的方法可包括選擇和分析一個或多個候選基因、一個或多個核酸位點或者其組合。類似地,DNA甲基化狀態(或水平)可涉及單獨的核酸位點或包含多于一個核酸位點的候選基因/基因座的整個甲基化水平。如果多個核酸位點是相同類型的(參見上文), 后一種情況表現出不加鑒別的(uncritical)。但是,在多個核酸位點包含不同類型的實體的情況下,如果在至少一個靶樣品中相對于至少一個參考樣品比反之具有更高數量的非甲基化核酸位點變為甲基化,則候選基因/基因座被認為是處于“甲基化”狀態。另一方面, 如果在至少一個靶樣品中相對于至少一個參考樣品比反之具有更高數量的甲基化核酸位點變為非甲基化的,則候選基因/基因座被認為是處于“非甲基化”狀態。如本發明的方法的步驟(d)中定義的,確定在一個或多個候選基因/基因座中DNA 結合因子的識別位點的存在也可通過本領域已知的任何方法來完成。通常,此目標通過將一個或多個DNA結合因子的各自DNA識別(即結合)位點的一致序列(從文獻或從數據庫如 TRANSFAC 中獲得;Wingender, E.等.Nucleic Acids Res. 24,21-25)與一個或多個待分析的候選基因的核酸序列比對來完成。在本發明中,僅考慮那些與差異甲基化位點相同或重疊的識別位點,以這樣的方式,如本文中定義的DNA結合因子對識別位點的識別/結合阻止此位點的甲基化,或反之亦然,位點的甲基化阻止DNA結合因子識別/結合位點。換言之,在包含在候選基因中的特定的核酸位點上存在DNA甲基化和DNA結合因子識別的相互排斥性。如本文中所用的術語“DNA結合因子”表示結合靶DNA分子中特定序列元件的任何蛋白質,因此發揮關于所述DNA分子表達的任何作用,優選在轉錄水平上,即,激活(或增強) 或者抑制(或沉默)基因表達。因此,DNA結合因子通常也稱為“轉錄因子”。這樣的DNA結合因子的實例包括尤其是真核生物通常的參與轉錄預起始復合物組裝的轉錄因子(TFIIA、 TFIIB、TFIID、TFIIE、TFIIF和TFIIH)、上游轉錄因子(結合起始位點上游某處以刺激或抑制轉錄)和可誘導的轉錄因子(類似于上游轉錄因子但需要激活或抑制)。后兩類的具體實例包括例如螺旋-環-螺旋/亮氨酸拉鏈因子、鋅指因子、螺旋-轉角-螺旋因子(例如 homeo結構域因子、叉型頭/翼螺旋因子、熱休克因子)、β _支架因子(例如STAT因子,TATA 結合因子)及甲基化DNA結合蛋白,后者特別優選(參見下文)。如上文概述的,DNA甲基化可通過兩種不同機制導致基因沉默第一,CpG 二核苷酸位點的甲基化阻止具有其同類DNA識別序列的轉錄因子結合到這樣的位點;以及第二, 甲基-CpG結合蛋白(MBD)家族識別甲基-CpG 二核苷酸位點,因此引起甲基化的DNA的抑制潛能。在第一個提到的情況中,識別序列類似候選基因/差異甲基化核酸位點的第一子集“m”,其在至少一個參考樣品中甲基化并在至少一個靶樣品中非甲基化。在第二個情況中,識別序列類似候選基因/差異甲基化核酸位點的第二子集“n”,其在至少一個參考樣品中非甲基化并在至少一個靶樣品中甲基化。因此,DNA結合因子和DNA結合因子的識別位點的不同子集可以分別被定義。在優選的實施方案中,所述方法的步驟(d)進一步包括為一個或多個DNA結合因子的第一子集“M”確定和選擇識別位點,其中DNA結合因子的子集“M”的每一個成員選擇性地識別子集“m”的一個或多個候選基因。在另一個優選的實施方案中,所述方法的步驟(d)進一步包括為一個或多個DNA 結合因子的第二子集“N”確定和選擇識別位點,其中DNA結合因子的子集“N”的每一個成員選擇性地識別子集“η”的一個或多個候選基因。在本發明特別優選的實施方案中,DNA結合因子的子集“N”表示DNA甲基結合蛋白。最優選的,DNA甲基結合蛋白選自MBDl、MBD2、MBD3、MBD4、MIZF、Kaiso和MeCP22。如本文中所用的術語“DNA甲基結合蛋白”表示DNA結合因子的特定家族,其特異性識別甲基化的DNA序列,特別是甲基化的CpG 二核苷酸(mCpG)。DNA甲基結合蛋白在十幾年前被鑒定(例如在 Bird, Α. P.和 Wolffe,Α. P. (1999) Cell 99,451-454; Wade, P. A. (2001) BioEssaysl ,, 1131-1137 ;Hendrich, B.禾口 Tweedie, S. (2003) Trends Genet. 19,269-277中綜述的)。甲基-CpG-結合結構域(MBD)——負責結合甲基化的CpG 二核苷酸的蛋白基序——的特征促進共享此結構域的蛋白家族的生物信息鑒定。除了 MBD3(包含阻止結合到甲基-CpG上的氨基酸取代),哺乳動物的MBD蛋白(命名為MBD1-MBD4)和正在建立的(founding)成員MeCP2均特異性識別甲基_CpG。MIZF表示MBD2相互作用的鋅指,其組成MeCPl組蛋白脫乙酰酶(HDAC)復合物的組分。名為Kaiso的新MBP缺乏MBD, 但通過鋅指結構域識別甲基化的DNA。所有MBP可介導基因表達沉默。這通過將染色質重塑輔阻遏物復合物靶向到包含DNA甲基化的區域來完成。本文中特別提及的所有6個甲基 DNA結合蛋白是本領域眾所周知的。它們的核酸序列及其DNA識別保守基序可從數據庫如 GeneBank中得到。相應的6個人類基因的核苷酸序列保存在GenBank中,其具有以下登記號 MBD1 ΝΜ_015846 (異構體1 ;總共4個異構體)
MBD2: NM_003927 (異構體1 ;總共2個異構體) MBD3: NM 003926MBD4: NM_003925 MIZF NM_015517
MeCP2:NM_004992 (異構體1 ;總共2個異構體) Kaiso: NM_006777o根據本發明,對于確定DNA結合因子的識別位點的存在的以上分析可對包含在差異甲基化的候選基因/基因座中的單獨的核酸位點、對包含在單獨的候選基因/基因座中的2個或更多這樣的位點和對2個或更多候選基因/基因座(每一個基因包含一個或多個差異甲基化位點)分別地進行,其中2個或多個位點可伴隨地或順序地分析。另外,任何這些分析可對于一個或多個DNA結合因子的識別位點進行,其中保守結合序列存在的評估可伴隨地或者順序地進行。在一些實施方案中,本發明的方法進一步在步驟(d)中包含一個或多個分析循環, 每一個循環包含在一個或多個鑒定的候選基因中確定DNA結合因子識別位點和隨后選擇 DNA結合因子識別位點的一個或多個子群,其存在于一個或多個候選基因/基因座中,或反之亦然,其在一個或多個候選基因/基因座中缺乏。隨后僅選擇的一個或多個子群(和因此僅包含各自結合位點的候選基因/基因座)進行另一輪分析。因此,本發明的方法可包括步驟(d)的一個或多個重復,其中每一個重復包括在一個或多個候選基因/基因座中確定一個或多個DNA結合因子的識別位點的存在,其尚未包括在之前重復的確定中。例如,在分析的第一輪中,如上文定義的DNA結合因子的子集N被選擇。因此,只有那些包含對于DNA結合因子該子集N的結合位點的候選基因(即子集“η”的候選基因)將被進一步考慮。隨后假定的是DNA結合因子的子集N包含轉錄因子的一個或多個(結構上和/或功能上相關的)家族,命名為子群Ni、Ν2、Ν3、Ν4、Ν5、Ν6等等。在第二輪,只有子群 Nl (例如甲基DNA結合蛋白)會被分析。因此,僅包含對于m識別位點的候選基因的相應子群“nl”將被選擇并進行第三輪分析。現在,假定子群m包含多個單獨的DNA結合因子, 命名為Ni” Nl2, Nl3、Nl4, Nl5, Nl6等等。在第三輪,只有Nl1和Nl2 (例如MBDl和MBD2)會被分析。因此,在三個選擇循環后,只有那些表達受W1和附2的結合影響的候選基因保留。也可能的是組合分析陽性(存在特異性識別位點)和陰性特征(缺失另一個特異性識別位點)。因此,通過使用這種方法,遺傳網絡可被闡明,例如甲基化依賴表達的候選基因通過單個轉錄因子調節。因此,在具體實施方案中,本發明的方法進一步包括對于選擇的DNA結合因子的子集“M”每一個成員確定被識別的包含在子集“m”中的候選基因,和/或對于選擇的DNA 結合因子的子集“N”每一個成員確定被識別的包含在子集“η”中的候選基因。因此,本發明的方法導致確定包含在一個或多個候選基因/基因座中的差異甲基化核酸位點的模式和對于特異性結合差異甲基化核酸位點的DNA結合因子確定識別位點的模式。相關的這些模式加起來成為獨特的DNA甲基化標簽,其指示在至少一個靶樣品中病癥的存在或發生病癥的素因。如本文中所用的術語“DNA甲基化標簽”(也稱為“生物標簽”)表示一組一個或多個候選基因/基因座,其具有特定DNA甲基化相應的模式,以及存在于其核酸序列中的DNA 結合因子識別位點的相應特定模式。此獨特的組合允許鑒定靶樣品中能夠將靶樣品從參考樣品中區分出的表型狀態(例如病癥)。
換言之,根據本發明,DNA甲基化標簽以其總體(即一個或多個差異甲基化候選基因一起)指示病癥的存在而不是僅僅任何像這樣的單獨的候選基因/基因座的差異甲基化可指示的。在本發明的上下文中,確定DNA結合因子的識別位點的模式也可被認為是“過濾系統”,用于增加DNA甲基化標簽/生物標簽用于具體應用(例如用于診斷特定的腫瘤亞型和將所述亞型從其他可能接近的相關亞型中區分出來)的意義。因此,這樣的過濾器可被用于基于其調節潛力(即基于序列的保守值和其中調節元件的存在)區分包含在這樣的生物標簽中的候選基因/基因座的優先次序。在具體的實施方案中,DNA甲基化標簽包含至少3個或至少5個候選基因。優選地,DNA甲基化標簽包含至少10個候選基因(例如12、15、20、50、100、200、1000或更多個)。在進一步具體的實施方案中,所述方法在計算機中模擬進行。如本文中所用的術語“在計算機中模擬”、“inO可理解為“在計算機上或通過計算機模擬進行”。本發明的方法可通過計算機模擬完整地進行或至少部分地,即通過組合實驗方法和計算機模擬進行。這可依賴于具體應用、待分析的樣品的類型、待檢查或診斷的情況等。用于進行這樣的計算機模擬的方法和軟件是商業上可獲得的并且是本領域眾所周知的。在另一個優選的實施方案中,一個或多個鑒定的候選基因/基因座的DNA甲基化標簽指示在至少一個靶樣品中癌癥的存在或發生癌癥的素因(也參見上文討論的)。特別優選地,對于候選基因/基因座的子集“III”鑒定的DNA甲基化標簽指示一個或多個癌基因的激活和/或對于候選基因/基因座的子集“η”鑒定的DNA甲基化標簽指示一個或多個腫瘤抑制基因的失活。在進一步具體的實施方案中,本發明的方法進一步用于預測對在至少一個靶樣品中存在的病癥或傾向發生的病癥的處理的治療應答。在另一方面,本發明涉及如本文定義的DNA甲基化標簽作為用于病癥的篩查、診斷、治療計劃和/或復發監控的患者樣品分類的生物標記的用途。在還另一個方面,本發明涉及所述方法與其它患者數據和臨床參數一起用作基于計算機的臨床決定系統的整體部分的用途。本發明進一步通過附圖和以下實施例描述,其僅用于闡明本發明的具體實施方案的目的,并不解釋為以任何方式限制本發明的范圍。
實施例1.樣品
患者樣品從挪威奧斯陸挪威Radium醫院獲得。患者同意根據法律規定獲得。2. CpG 島
注釋的CpG島從UCSC基因組瀏覽器中獲得。這些島用Gardiner-Garden定義預測 (Gardiner-Garden, Μ·和Frommer, Μ. (1987) J. Mol. Biol. 196,洸1_82),其包括以下標準長度彡200 bp ;% GC彡50% ;觀測的/預期的CpG彡0.6。在基因組中有在200bp 到2000bp的大小范圍內的約沈219個CpG島。這些島用i&pl限制性片段化良好地覆蓋。陣列由 Roche NimbleGen he. (Madison, WI, USA)生產,對下列說明使用 390K 格式。來自人類基因組構造33(hgl7)的CpG島注釋用于設計50mer的疊瓦式陣列(tiling array)。
13
50mer被轉移到島序列坐標的任意一側以平均分配在島上。390K格式具有367658 個可利用的特征,其不適合所有帶有50mer瓦的島。因此基于大小表示的島的截止值僅用被測定的具有200bp到2000bp大小的CpG島確定。設計對照探針以表示背景信號。樣品制備基本上如之前描述的進行 (Lucito,R.等人Q003) Genome Res. 13,2291-2305), 除了以下修正(i)使用的主要限制性核酸內切酶是i&pl。(ii)在消化后,接頭
和ASPIianer被連接。1 ^iier是非磷酸化的并且不會被連接。(iii)在連接后,材料通過酚 /氯仿抽提純化、沉淀、離心和重懸。然后材料被分成兩等份,一半用限制性核酸內切酶JfcrBC消化,另一半被模擬消化。4個250 μ 1管被用于每一個樣品對的代表的PCR擴增,每一個具有100 μ 體積反應。 循環條件是95°C 1分鐘,72°C 3分鐘,15個循環,隨后72°C延伸10分鐘。然后每一對管中的內容物被集中起來。樣品通過酚/氯仿抽提清潔、沉淀、重懸,DNA濃度被確定。DNA如描述的被標記(Lucito,R.等人O003),之前)除了小量改變。簡要地, 2 μg DNA模板(溶解在TE緩沖液中,pH8.0)置于0.2 ml PCR管。5 μ 1隨機九聚物 (Sigma-Aldrich Co. , St. Louis, MI, USA)被加入,用 dH20調節終體積至 25 μ ,樣品被混勻。管在100°C孵育5分鐘,然后在冰上5分鐘。向每一個樣品中加入5 μ 1 NEB Buffer 2 (New England Biolabs, Ipswich, MA, USA),5 μ 1 dNTPsCO. 6 nM dCTPU. 2 nM dATP、 dTTP、dGTP 的每一種)、5 μ 1 標記物(Cy3_dCTP 或 Cy5_dCTP ;GE Healthcare Bio-Sciences Corp.,Piscataway,NJ,USA)、2 μ 1 NEB Klenow 片段和 2 μ 1 dH20。雜交和洗滌的程序基本上如描述的(Lucito,R.等人0003),之前),除了雜交的烘烤溫度上升至50°C。陣列用 GenePix 4000B 微陣列掃描儀(Molecular Devices, Inc.,Sunnyvale, CA, USA)以 5μπι 的像素大小掃描。GenePix Pro 4. 0軟件用于定量陣列的強度。陣列數據被輸入到S-PLUS統計軟件用于進一步分析。3.數據分析
微陣列圖片在GenePix 4000B微陣列掃描儀上掃描,數據用Nimblescan軟件(Roche NimbleGen Inc.,Madison,WI,USA)提取。對每一個探針,對于每一個實驗和其相關的染料互換(dye swap)計算McrBc和對照處理樣品的比值的幾何平均值(即GeoMeanRatio)。隨后將數據集中所有樣品的各自的幾何平均值用分位數歸一化方法歸一化 (Bolstad, B. M.等.Q003) Bioinformatics 19,185-193)。每一個實驗的歸一化的比值隨后組合以用中位數平滑模型(median polish model)對于在每一個i&pl片段的所有探針得到一個值。因此獲得的數據隨后用于進一步分析。變異分析用于鑒定最顯著的島。為了確定腫瘤和正常樣品間甲基化最一致發生的變化,我們使用t檢驗方法。在對多重檢測校正后使用0.001的P值截止(錯誤發現率; Benjamini, Y.禾口 Hochberg, Y. (1995) J. Roy. Stat. Soc.,Ser. B 57,289—300), 獲得916個差異甲基化的片段的列表。監督式學習監督式機器學習分類器用于鑒定區別腫瘤樣品和正常所需特征的數量。公眾可獲得的支持向量機(SVM)庫(LibSVM Ver 2. 8)用于使用留一法(leave one out method) (Lin, C.J. (2001) Neural Computation 13,307-317)獲得分類精確性。用于分類的甲基化特征首先在單獨的訓練數據中使用t檢驗選擇。SVM然后在前10、50、100個特征中使用徑向基函數(RBF)內核訓練。
對于N個樣品,t檢驗對(N-I)個樣品進行以鑒定帶有甲基化比值顯著差異的片段。對于N個樣品,此分析進行N次,在t檢驗計算中每次省略一個樣品。來自(N-I)個樣品的前10個片段特征的甲基化比值隨后用于訓練SVM。一個未訓練的樣品的比值用作對照。基于至少10個特征,完成94%的分類精確性。有趣地,兩個在此分析中被歸類為正常的來自腫瘤樣組織的樣品也是分別在基因表達和ROMA分析中最接近正常的。4.甲基化位點的檢測
在一個實施方案中,所述方法包括從樣品(如細胞系、組織或血液樣品)中分離基因組 DNA。DNA提取可通過本領域普通技術人員標準方法來完成,包括使用去垢劑裂解、超聲和玻璃珠渦旋。一旦核酸被提取,基因組雙鏈DNA可用于分析。任選地,DNA可在進一步分析前切開。然后,處理基因組DNA樣品以使5’位置未甲基化的胞嘧啶堿基被轉換為尿嘧啶、胸腺嘧啶或另一個在雜交行為方面不像胞嘧啶的堿基。這在下文中將理解為‘預處理,。基因組DNA的處理優選用亞硫酸氫鹽(bisulfite)(亞硫酸鹽(sulfite)、酸式硫酸鹽 (disulfite))和隨后的堿性水解進行,導致未甲基化的胞嘧啶堿基轉換為尿嘧啶。如果亞硫酸氫鹽溶液用于反應,那么親核加成在未甲基化的胞嘧啶上發生。另外變性試劑或溶劑及基團攔截器(radical interc印tor)必須存在。轉變的DNA隨后用于檢測甲基化胞嘧啶殘基(參見圖1)。待分析的各自的DNA片段被擴增。因為統計學和實踐的考慮,優選多于10個具有 100bp-2000bp長度的不同的片段被擴增。幾個DNA片段的擴增可以同時在一個和相同的反應容器中進行。通常,擴增通過聚合酶鏈式反應(PCR)的方法進行。PCR中所用的寡核苷酸引物的設計對本領域普通技術人員是顯而易見的。優選地, 引物不包含任何CpG 二核苷酸。設計所述引物寡核苷酸序列以選擇性地退火到并擴增僅特異性的感興趣的DNA片段,因此最小化背景或非相關DNA的擴增。在具體的實施方案中,在擴增中至少一個引物寡核苷酸結合到固相上。不同的寡核苷酸序列可以矩形或六邊形格子的形式排列在平面的固相上,固相表面尤其由硅、玻璃、 聚苯乙烯、鋁、鋼、鐵、銅、鎳、銀、或金、硝酸纖維素或塑料組成。獲得的片段可攜帶可直接或間接檢測的標記物。優選地,所用標記物是熒光標記物、放射性標記物或具有可被質譜儀檢測的典型質量的可分開的分子片段。隨后,分析核酸擴增子以確定處理前的基因組DNA的甲基化狀態。幾種處理過的核酸的甲基化狀態特異性分析的方法是已知的,其它可選方法對本領域普通技術人員將是顯而易見的。例如,分析可在擴增步驟中進行。在這樣的情況中,在核酸中預先選擇的CpG位置的甲基化狀態可使用甲基化特異性引物寡核苷酸來檢測(參見例如美國專利 6,265, 171)。圖2顯示成簇的樣品(列)對于甲基化基因座(行)的示例性分布。獲得的DNA甲基化模式允許區別腫瘤(頂部的條的左邊部分)和正常組織(頂部的條的右邊部分)。5. DNA甲基化模式的預測
首先,差異甲基化基因(或其他基因座)的數據集必須用低通量測定(如甲基化特異性 PCR(MSP))或高通量測定(例如MOMA、HELP測定、甲基DIP或Illumina’ s甲基化珠陣列技術)產生。在根據本發明的方法下的原理的示意性表示在圖3中描述。用于區分乳腺癌的不同亞型的示例性DNA甲基化標簽/生物標簽在圖4中顯示。如果低通量測定如甲基化特異性PCR被使用,需要關于靶序列的進一步信息。通常,當用BLST基因組數據庫(UCSC基因組生物信息組,SantaCruz, CA, USA)將測定中所用的相對應引物的DNA片段與人類基因組序列比對時,沒有直接擊中(direct hits)。因此, 引物序列需要和從人類基因組中獲得的相應基因的基因組序列相比對。隨意地,代替“濕生物學實驗”計算機模擬PCR可在比對MSP引物和人類基因組之后用獲得的引物進行。高通量方法如產生原始數據用于差異DNA甲基化分析。在一些具體的實施方案中,兩個或多個雜交匹配的樣品可以是浸潤性相對于非浸潤性癌癥,或對治療應答的患者相對于對治療不應答的患者(如化療、免疫治療或組合治療)。差異甲基化基因標簽的自動選擇此目標可通過使用傳統統計學(例如斯氏t檢驗)或機器學習方法(例如SVM)完成。此步驟產生一個或多個候選基因(或一個或多個候選標簽,每一個由一組基因組成)。進一步方法步驟目的在于提供方法用于整合關于通過甲基結合蛋白(和/或通過其它DNA結合因子如轉錄因子)的基因沉默的表觀遺傳學機制的生物學知識。一個或多個候選基因(在每一個標簽中任選地)分成兩組
(a)包含從非甲基化到甲基化狀態改變的那些;在診斷/監控癌癥狀態的情況下,這樣的“過度甲基化”指示腫瘤抑制基因失活(下文中,這些基因因此稱為“T組”);及
(b)包含從甲基化到非甲基化狀態改變的那些;在診斷/監控癌癥狀態的情況下,這樣的“甲基化不足”指示癌基因激活(下文中,這些基因因此稱為“0組”)。對于甲基化水平和DNA結合因子識別位點(轉錄因子結合位點)的存在的后續相關性,以下步驟是需要的
(1)為尋找轉錄因子結合位點(TFBk),T組中差異甲基化候選基因序列用作前景組及0組的那些作為背景組。如果候選位置具有(即差異甲基化位點)TFBS,那么其被包含在分析的下一個階段中。如果基因座將發揮涉及腫瘤抑制基因的表觀遺傳學作用,那么轉錄因子(TF)因為甲基化不能結合這個基因座,所以部分信號網絡被破壞。(2)為尋找TFBS,0組中差異甲基化候選基因序列用作前景組及T組的那些作為背景組。如果候選基因座具有TFBS,那么其被包含在分析的下一個階段中。還必須證實的是各自的TF也未甲基化以便基因座是功能上重要的有更高的機會。在這樣的情況下,未甲基化的基因座和未甲基化的TF被包含在最后的標簽中。(3)對于T組中的每一個基因/基因座,進一步確定的是DNA甲基結合蛋白(如 MBD1、MBD2、MBD3和MBD4、Kaiso和MeCP2,即一類特定類型的TF)的保守結合序列是否存在。然后由單甲基結合蛋白調控的基因網絡被得到。具有甲基蛋白結合位點的候選基因座包含在分析的下一個階段中。下一步,基于以上提到的三個步驟,差異甲基化候選基因被評估成為甲基化標簽的部分。基因/基因座需要參與至少一個分別的網絡/子集。通路信息從通路數據庫中的一個被包含(例如KEGG通路數據庫)。剩余的基因座被放棄。如果如M得分(M_kore )公式中表示的,差異甲基化(M水平(M_Leve 1))、甲基結合蛋白位點(No_MBS)的存在和轉錄因子結合位點(No_TFBS)的存在的組合值高于某閾值, 候選基因在最后的組中M_Score = wl* M_Level + w2* No_MBS + w3*No_TFBS
此評估可確認在基因網絡中現有的和新的從屬(cbpendenc i es )和基因級聯(gene cascades).這也將進一步闡明級聯下的生物標記,其可用作DNA甲基化評估替代。對于所有這些基因/基因座,特異性基因座將在最終組里的更高置信度是需要的。以這種方式,具有更高潛能起表觀遺傳學作用的基因座被包括。當然為證實甲基化位點的功能性作用,應該進行功能性測定例如,細胞可用去甲基化試劑如5-氮雜胞苷處理, 然后通過基因表達方法測定以證實基因座的去甲基化與各自基因的調節相關。本發明可用于候選生物標記/生物標簽的評估和選擇。從此方法中獲得的適當的生物標簽可用于患者分類、篩查、診斷、預后、治療計劃和評估疾病(例如癌癥)的復發。另外,此方法可用作計算機模擬分析途徑的部分以在任何生物體中進行假設用于表觀遺傳學研究。除了此方法用于研究目的的用途,本發明的方法也可與其它患者數據和臨床參數一起用在基于計算機的臨床決定系統中。本文中示意性描述的本發明可適當地在任何要素或多個要素、限制或多個限制缺乏情況下實踐,其不是本文中特別公開的。因此,例如術語“包含”、“包括”、“含有”等將被擴展地理解并且是非限制性的。另外,本文中所用的術語和表達已用作描述的術語并且是非限制性的,沒有意圖使用這樣的術語和表達排除任何顯示和描述的特征的等同物或其部分,但是公認的是在本發明權利要求的范圍內各種修改是可能的。因此,應理解的是盡管本發明已通過實施方案和任選的特征具體公過,但是在其中體現的本發明的修改和變化可被本領域技術人員采用,并且這樣的修改和變化被認為在本發明的范圍中。本發明已在本文中被廣泛地和一般地描述。每一個落入一般性公開中的更窄的種類和亞類分組也形成本發明的部分。這包括本發明的一般性描述,帶有限制性或否定的限制以從該種類中排除任何主題,與排除的材料在本文中是否明確引用無關。其它實施方案在以下的權利要求中。另外,在本發明的特征或方面按照馬庫什組被描述的情況下,本領域的普通技術人員將認為本發明也因此以馬庫什組的任何單獨成員或成員的子群被描述。
權利要求
1.用于檢測與病癥的存在或發生病癥的素因相關的DNA甲基化標簽的方法,所述方法包括(a)提供多個匹配樣品,所述多個包含至少一個靶樣品和至少一個參考樣品;(b)在所述至少一個靶樣品中鑒定一個或多個相對于所述至少一個參考樣品展示出差異DNA甲基化的候選基因/基因座;(c)確定包含在步驟(b)中獲得的所述一個或多個差異甲基化的候選基因/基因座中的核酸位點;以及(d)確定在步驟(b)中獲得的所述一個或多個候選基因/基因座中DNA結合因子識別位點的存在,其中所述DNA結合因子各個識別在步驟(c)中確定的核酸位點;其中在步驟(c)中獲得的差異甲基化的核酸位點的模式和在步驟(d)中獲得的DNA結合因子識別位點的模式一起表示DNA甲基化標簽,所述標簽指示在所述至少一個靶樣品中病癥的存在或發生病癥的素因。
2.權利要求1的方法,其中包含在一個或多個的差異甲基化的候選基因/基因座中核酸位點是CpG 二核苷酸位點。
3.權利要求1或2的方法,其中差異DNA甲基化通過選自以下的一個或多個方法來確定亞硫酸氫鹽測序、焦磷酸測序、甲基化敏感的單鏈構象分析(MS-SSCA)、高分辨熔解分析(HRM)、甲基化敏感的單核苷酸引物延伸(MS-SnuPE)、堿基特異性切割/ MALDI-TOF,甲基化特異性PCR (#5P)、基于微陣列的方法和ife/71切割。
4.權利要求1到3中任意一項的方法,其中步驟(c)進一步包括將一個或多個差異甲基化的候選基因/基因座分為-第一子集“m”,其為一個或多個包含在至少一個參考樣品中甲基化和在至少一個靶樣品中非甲基化的核酸位點的候選基因/基因座;和-第二子集“n”,其為一個或多個包含在至少一個參考樣品中非甲基化和在至少一個靶樣品中甲基化的核酸位點的候選基因/基因座。
5.權利要求4的方法,其中步驟(d)進一步包括對于一個或多個DNA結合因子的第一子集“M”確定和選擇識別位點,其中DNA結合因子的子集“M”的每一個成員選擇性地識別子集“m”的一個或多個候選基因。
6.權利要求4或5的方法,其中步驟(d)進一步包括對于一個或多個DNA結合因子的第二子集“N”確定和選擇識別位點,其中DNA結合因子的子集“N”的每一個成員選擇性地識別子集“η”的一個或多個候選基因。
7.權利要求6的方法,其中所述DNA結合因子的子集“N”表示DNA甲基結合蛋白。
8.權利要求7的方法,其中所述DNA甲基結合蛋白選自MBD1、MBD2、MBD3、MBD4、MIZF、 Kaiso 和 MeCP2。
9.權利要求5到8中任意一項的方法,其進一步包括對于選擇的DNA結合因子的子集 “M”每一個成員確定被識別的包含在子集“m”中的候選基因,和/或對于選擇的DNA結合因子的子集“N”每一個成員確定被識別的包含在子集“η”中的候選基因。
10.權利要求1到9中任意一項的方法,其進一步包括步驟(d)的一個或多個重復,其中每一個重復包括在一個或多個候選基因/基因座中確定一個或多個DNA結合因子的識別位點的存在,所述DNA結合因子尚未包括在之前重復的確定中。
11.權利要求1到10中任意一項的方法,其中鑒定的DNA甲基化標簽包含至少10個候選基因/基因座。
12.權利要求4到11中任意一項的方法,其中一個或多個鑒定的候選基因/基因座的 DNA甲基化標簽指示在至少一個靶樣品中癌癥的存在或發生癌癥的素因。
13.權利要求12的方法,其中對于候選基因/基因座的子集“m”鑒定的DNA甲基化標簽指示一個或多個癌基因的激活。
14.權利要求12或13的方法,其中對于候選基因/基因座的子集“η”鑒定的DNA甲基化標簽指示一個或多個腫瘤抑制基因的失活。
15.權利要求1到14中任意一項的方法,其進一步用于預測對在至少一個靶樣品中存在的病癥或傾向發生的病癥的處理的治療應答。
16.權利要求1到15中任意一項的方法,其中所述方法在計算機中模擬進行。
17.權利要求1到16中任意一項中定義的DNA甲基化標簽作為用于病癥的篩查、診斷、 治療計劃和/或復發監控的患者樣品分類的生物標記的用途。
18.權利要求1到16中任意一項的方法與其它患者數據和臨床參數一起作為基于計算機的臨床決定系統的整體部分的用途。
全文摘要
本發明涉及用于檢測與病癥的存在或發生病癥的素因相關的DNA甲基化標簽的方法,所述方法包括鑒定一個或多個在靶和參考樣品中展示出差異DNA甲基化的候選基因,以及分別測定在所述差異甲基化的候選基因中的核酸位點和DNA結合因子的識別位點,所述DNA結合因子各個識別這種差異甲基化的核酸位點,其中得到的差異甲基化的核酸位點的模式和DNA結合因子識別位點的模式一起表示DNA甲基化標簽,所述標簽指示靶樣品中病癥的存在或發生病癥的素因。
文檔編號C12Q1/68GK102257161SQ200980151020
公開日2011年11月23日 申請日期2009年12月14日 優先權日2008年12月18日
發明者C.米塔爾, N.迪米特羅瓦, S.卡馬拉卡蘭 申請人:皇家飛利浦電子股份有限公司