本發明涉及肝癌的臨床分子診斷的領域。具體地,本發明涉及通過高通量測序檢測肝癌基因標志物的5-羥甲基胞嘧啶含量從而檢測肝癌是否存在的方法和試劑盒。
背景技術:
肝癌是最常見的全球惡性腫瘤之一。據世界衛生組織2008年統計,全球每年新發病748300例,死亡695900例,其中50%以上發生在中國。據統計,我國每年新發肝癌40余萬例,約85%以上的肝癌患者曾感染乙肝病毒。中國現有慢性乙肝感染者占全球的四分之一,肝癌病例占全世界的一半,慢性肝炎感染帶來了的巨大疾病和醫療負.擔。
乙肝病毒感染是誘發肝癌的重要因素。實際上,乙型肝炎感染或者肝硬化不僅被視為腫瘤病因學的危險因素,而且還是腫瘤發展的早期/中期(即“癌前狀態”),其與導致(通常為良性)非侵襲性贅生物的過度增殖性組織生長(隨之可發展為惡性腫瘤如hcc)相關。
目前對于乙肝患者這類肝癌的高危人群,臨床主要通過頻繁篩查的方式,希望能對肝癌早發現、早治療。通常要求乙肝患者每半年做一次超聲檢查,或者檢查血液中的甲胎蛋白(afp)含量,以便了解是否轉化為肝癌。然而,影像學易受操作者經驗影響,并且依賴于設備,費用昂貴,尤其是在醫療資源有限的情況下,其準確率難以保證,難以廣泛和常規應用。甲胎蛋白檢測靈敏度很難超過60%,但afp對早期肝癌的靈敏度和特異性都不高,例如在一些非肝癌的慢性肝病患者,如很多慢性肝炎和肝硬化患者中,血清afp也升高。這使得多數患者一旦確診即為肝癌的晚期,失去了最佳的治療時期。
因此,尋找新的肝癌標志物,尤其是針對乙肝高危人群的肝癌診斷標志物對于提高早期肝癌的診斷率,實現早期干預治療,降低肝癌病死率具有非常重要的意義。
技術實現要素:
發明人通過對乙肝樣品和帶有乙肝的肝癌樣品進行高通量測序,并對其中各基因上的5-羥甲基胞嘧啶(5-hmc)含量進行分析,出乎意料地發現了多個極具信息的可用于檢測肝癌的基因標志物。
因此,本發明的第一個方面涉及針對乙肝患者的用于檢測肝癌的基因標志物,包括一個或多個選自以下的基因:骨形成蛋白3(bmp3)、包含布羅莫結構域和phd指的蛋白3(brpf3)、頂蓋蛋白1(cpne1)、fc受體樣3(fcrl3)、白細胞介素1受體類型2(il1r2)、n-脫乙酰基酶和n-磺基轉移酶4(ndst4)、蛋白磷酸酶2支架亞基α(ppp2r1a)、絲氨酸/蘇氨酸激酶35(stk35)酪氨酸酶相關蛋白1(tyrp1)、尿苷-胞苷激酶2(uck2)和鋅指蛋白254(znf254)。優選的,所述基因標志物包括至少兩個、至少三個、至少四個、至少五個、至少六個、至少七個、至少八個、至少九個、至少十個或至少十一個選自以下的基因:bpm3、brpf3、cpne1、fcrl3、il1r2、ndst4、ppp2r1a、stk35、tyrp1、uck2和znf254。更優選的,所述基因標志物包括bpm3、brpf3、cpne1、fcrl3、il1r2、ndst4、ppp2r1a、stk35、tyrp1、uck2和znf254。
本發明還涉及上述基因標志物在檢測肝癌中的用途。
本發明的第二個方面涉及針對乙肝患者的用于檢測肝癌的方法,包括以下步驟:
(a)測定乙肝樣品和帶有乙肝的受試者樣品中本發明所述的基因標志物的5-hmc的含量;
(b)用乙肝樣品中所述基因標志物的5-hmc含量作為參照,將帶有乙肝的受試者樣品中對應的基因標志物的5-hmc含量標準化;
(c)對經標準化的所述基因標志物的5-hmc含量進行數學關聯,并獲得評分;和
(d)根據所述評分p獲得檢測結果,評分p大于0.5表明所述帶有乙肝的受試者樣品患有肝癌。
在本發明中,“乙肝樣品”是指來自已經確診感染乙肝病毒但沒有患肝癌的患者的樣品。“帶有乙肝的受試者樣品”是指來自已經確認感染乙肝病毒但不知是否患有肝癌的受試者的樣品。
在一個實施方案中,所述樣品是受試者或乙肝患者體液中游離的dna片段,或來源于細胞器、細胞以及組織中的完整基因組dna。其中,體液是血液、尿液、汗液、痰液、糞便、腦脊液、腹水、胸水、膽汁、胰腺液等。
在一個實施方案中,本發明所述的基因標志物的5-hmc含量可通過本領域技術人員已知的任何方法進行測定,例如包括但不限于,葡糖基化法、限制性內切酶法、化學標記法、與高通量測序方法聯用的沉淀法、單分子實時測序法(smrt)、氧化重亞硫酸鹽測序法(oxbs-seq)等。葡糖基化法的原理是采用t4噬菌體β-葡萄糖轉移酶(β-gt),在葡萄糖供體底物尿核苷二磷酸葡萄糖(udp-glu)存在下,將葡萄糖轉移至羥基位置,從而生成β-葡萄糖基-5-羥甲基胞嘧啶(5-ghmc)。同時可采用同位素標記底物進行定量。在葡糖基化法基礎上進一步發展出限制性內切酶法和化學標記法。限制性內切酶法的原理是:葡糖基化反應改變了一些限制性內切酶的酶切特性。甲基化依賴的限制性內切酶mspi和hpaii可識別同樣的序列(ccgg),但它們對甲基化狀態的敏感性是不同:mspi識別并切割5-甲基胞嘧啶(5-mc)和5-hmc,但不能切割5-ghmc;hpaii只切割完全未修飾的位點,胞嘧啶上的任何修飾(5-mc、5-hmc、5-ghmc)均阻礙切割。若cpg位點含有5-hmc,那么糖基化、酶解之后能檢測到條帶,未糖基化對照反應中沒有條帶;同時可采用qpcr進行定量分析。另外,其他限制性內切酶也同樣存在阻礙5-ghmc酶切的情況,可應用于5-hmc檢測(如:gmrsd,mspji,pvurts1i,taqi等)。化學標記法的原理是:將酶反應底物上的葡萄糖進行化學修飾轉變成udp-6-n3-glucose,將6-n3-glucose轉移到羥甲基位置,生成n3-5ghmc。隨后,通過點擊化學方法在每個5-hmc上添加一分子生物素,結合下一代高通量dna測序技術或單分子測序技術,可分析5-hmc在基因組dna中的分布情況。沉淀法是將5-hmc用特殊方式修飾后再將其特異性地從基因組dna中捕獲下來,并進行測序分析。氧化重亞硫酸鹽測序法是首個以單堿基分辨率對5-hmc進行定量測序的方法.首先將5-hmc進行kruo4氧化處理,生成5-甲酰胞嘧啶(5fc),然后采用重亞硫酸鹽測序。在此過程中,5-hmc先氧化為5fc,而后脫氨形成u。通常,同時采用多種檢測方法對5-hmc進行定量檢測。
在本發明的一個實施方案中,利用化學標記法結合高通量測序來測定本發明的基因標志物的5-hmc含量。在該具體的實施方案中,測定本發明的基因標志物的5-hmc含量的方法包括以下步驟:將來自乙肝患者和帶有乙肝的受試者的樣品的dna片段化;將所述片段化的dna末端修復并末端補齊;將末端補齊的dna與測序接頭連接,獲得連接產物;通過標記反應對連接產物中的5-羥甲基胞嘧啶進行標記;富集含有5-羥甲基胞嘧啶標記的dna片段,獲得富集產物;對富集產物進行pcr擴增,獲得測序文庫;對測序文庫進行高通量測序,獲得測序結果;根據測序結果確定5-羥甲基胞嘧啶在基因上的含量。其中,標記反應包括:i)利用糖基轉移酶將帶有修飾基團的糖共價連接到5-羥甲基胞嘧啶的羥甲基上,和ii)將直接或間接連有生物素的點擊化學底物與帶有修飾基團的5-羥甲基胞嘧啶反應。其中,步驟i)和步驟ii)可以按順序進行,也可以在一個反應中同時進行。這種標記方法減少了測序所需的樣本量,且5-羥甲基胞嘧啶上的生物素標簽使其在測序中顯示出更高的動力學信號,提高了核苷酸識別的準確性。在該實施方案中,所述糖基轉移酶包括但不限于:t4噬菌體β-葡糖基轉移酶(β-gt)、t4噬菌體α-葡糖基轉移酶(α-gt)及其具有相同或相似活性的衍生物、類似物、或重組酶;所述帶有修飾基團的糖包括但不限于:帶有疊氮修飾的糖類(例如6-n3-葡萄糖)或帶有其他化學修飾(例如羰基、巰基、羥基、羧基、碳-碳雙鍵、碳-碳三鍵、二硫鍵、胺基、酰胺基、雙烯等)的糖類,其中優選帶有疊氮修飾的糖類;所述用于間接連接生物素和點擊化學底物的化學基團包括但不限于:羰基、巰基、羥基、羧基、碳-碳雙鍵、碳-碳三鍵、二硫鍵、胺基、酰胺基、雙烯。在該實施方案中,優選通過固相材料來富集合有5-hmc標記的dna片段。具體地,可以通過固相親和反應或其他特異性結合反應將含有5-羥甲基胞嘧啶標記的dna片段結合在固相材料上,然后通過多次洗滌去除未結合的dna片段。固相材料包括但不限于帶有表面修飾的硅片或其他芯片,例如人工高分子小球(優選直徑為1nm-100um)、磁性小球(優選直徑為1nm-100um)、瓊脂糖小球等(優選直徑為1nm-100um)。固相富集中所用的洗滌液是本領域技術人員熟知的緩沖液,包括但不限于:含有tris-hcl、mops、hepes(ph=6.0-10.0,濃度在1mm到1m之間)、nacl(0-2m)或表面活性劑如tween20(0.01%-5%)的緩沖液。在該實施方案中,優選直接在固相上進行pcr擴增從而制備測序文庫。如有需要,在固相上進行pcr擴增后,可以回收擴增產物后進行第二輪pcr擴增來制備測序文庫。所述第二輪pcr擴增可用本領域技術人員已知的常規方法進行。任選地,在制備測序文庫的過程中可進一步包括一個或多個純化步驟。本領域技術人員知曉的或可商購的任何純化試劑盒均可用于本發明。純化方法包括但不限于:凝膠電泳切膠回收、硅膠膜離心柱法、磁珠法、乙醇或異丙醇沉淀法或其組合。任選地,在高通量測序之前,對測序文庫進行質量檢查。例如,對文庫進行片段大小分析并使用qpcr方法對文庫的濃度進行絕對定量。通過質量檢查的測序文庫可用于高通量測序。然后將一定數量(1-96個)含有不同barcode的文庫按相同濃度混勻并根據二代測序儀的標準上機方法上機測序,獲得測序結果。本領域已知的各種二代測序平臺及其相關的試劑可用于本發明。
在本發明的一個實施方案中,優選將測序結果與標準人類基因組參考序列進行比對,挑選出其中比對到本發明基因標志物上的序列,即選擇比對位點與基因特征(如組蛋白修飾位點、轉錄因子結合位點、基因外顯子內含子區域以及基因啟動子等)重合區域的讀段數量,以代表5-hmc在該基因上的修飾水平,從而測定5-hmc在該基因標志物上的含量。優選在進行比對前,首先將測序結果清除低質量測序位點,其中衡量測序位點質量的因素包括但不限于:堿基質量、reads質量、gc含量、重復序列和overrepresented序列數量等。該步驟中涉及的各種比對軟件和分析方法是本領域已知的。
在本發明的一個實施方案中,測定基因標志物的5-hmc含量是指測定該基因標志物全長上的5-hmc含量或測定該基因標志物上某一片段的5-hmc含量或其組合。
根據本發明,在測定各基因標志物上5-hmc含量之后,用乙肝樣品中所述基因標志物的5-hmc含量作為參照,將受試者樣品中對應的基因標志物的5-hmc含量標準化。舉例而言,乙肝樣品和受試者樣品中同一基因標志物的5-hmc含量分別為x和y,則受試者樣品中該基因標志物的標準化5-hmc含量為y/x。
根據本發明,在數據標準化后,對各基因標志物的標準化5-hmc含量進行數學關聯以獲得評分,從而根據所述評分獲得檢測結果。如本文所用,“數學關聯”是指將來自生物樣品的基因標志物的5-hmc含量與肝癌診斷結果相關聯的任何計算方法或機器學習方法。本領域普通技術人員理解,可選擇不同的計算方法或工具用于提供本發明的數學關聯,例如彈性網絡正則化、決策樹、廣義線性模型、邏輯回歸、最高分值對、神經網絡、線性和二次判別式分析(lqa和qda)、樸素貝葉斯、隨機森林和支持向量機。
在本發明的一個實施方案中,對各基因標志物的標準化5-hmc含量進行數學關聯并獲得評分的具體步驟如下:將各基因標志物的標準化5-hmc含量乘以加權系數,獲得該基因標志物的預測因子t;將各基因標志物的預測因子t相加,獲得總預測因子t;將總預測因子t經過logistic轉換獲得評分p;若p>0.5,則該受試者樣品患有肝癌;若p≤0.5,則該受試者樣品沒有肝癌。本文所述的加權系數是指在考慮可能影響5-hmc含量的因素(例如受試者地域、年齡、性別、低于、吸煙史、飲酒史、家族史等)的情況下,通過本領域技術人員已知的各種高級統計分析方法獲得的系數。
本發明第三個方面還涉及利用上述基因標志物進行肝癌檢測的試劑盒,其包括用于測定上述基因標志物的5-hmc含量的試劑和說明書。用于測定基因標志物的5-hmc含量的試劑是本領域技術人員已知的,例如t4噬菌體β-葡萄糖轉移酶和同位素標記(對于葡糖基化法)、限制性內切酶(對于限制性內切酶法)、糖基轉移酶和生物素(對于化學標記法)、pcr和測序所用試劑等。
與現有技術相比,本發明中用于檢測肝癌的方法是基于基因標志物上的5-hmc含量,因此可以使用更為廣泛的dna樣品來源。因此,本發明中用于檢測肝癌的方法具有以下幾個優點:(1)安全無創,即使無癥狀人群也對該檢測接受度高;(2)dna來源廣泛,不存在影像學中的檢測盲區;(3)準確性高,對早期肝癌有較高的靈敏度和特異性,適合用于肝癌的早期篩查;(4)操作方便,用戶體驗好,容易進行乙肝高危人群的動態監測。本發明的基因標志物可與其他臨床指標相結合,為肝癌篩查、診斷、治療與預后提供更準確的判斷。
附圖說明
圖1:用本發明的肝癌基因標志物區分乙肝樣品和帶有乙肝的肝癌樣品的結果。
具體實施方式
下面將參考附圖并結合實施例來詳細說明本發明,以使本領域的技術人員可以更好的理解本發明并能予以實施。需要說明的是,本領域的技術人員應該理解本發明的附圖及其實施例僅僅是為了說明的目的,并不能對本發明構成任何限制。在不矛盾的情況下,本申請中的實施例及實施例中的特征可以相互組合。
實施例1.肝癌基因標志物的篩選
(1)抽提血漿dna:
從20個帶有乙肝的肝癌樣品和20個乙肝樣品中分別抽提10ng血漿dna。可利用本領域技術人員所熟知的任何適用于抽提血漿dna的方法、和試劑進行此步驟。
(2)將血漿dna進行末端補齊、懸a并與測序接頭連接:
根據kapahyperperpkit說明書制備含有50ul血漿dna、7ulendrepair&a-tailingbuffer和3ulendrepair&a-tailingenzymemix的反應混合液(總體積為60ul),在20℃溫浴30分鐘,然后在65℃溫浴30分鐘。在1.5ml低吸附ep管中配置以下連接反應混合物:5ulnucleasefreewater,30ulligationbuffer以及10uldnaligase。向45ul連接反應混合物中加入5ul的測序接頭,混合,于20℃加熱20分鐘,然后保持于4℃。使用ampurexpbeads對反應產物進行純化,用20ul含tris-hcl(10mm,ph=8.0)及edta(0.1mm)的緩沖液進行洗脫獲得最終的dna連接樣品。
(3)標記5-羥甲基胞嘧啶:
制備總體積為26ul的標記反應混合液:疊氮修飾的二磷酸尿苷葡萄糖(即udp-n3-glu,終濃度為50um)、β-gt(終濃度為1um)、mg2+(終濃度為25mm)、hepes(ph=8.0,終濃度為50mm)和來自上述步驟的20uldna。將混合液在37℃溫浴1小時。取出混合液,用ampurexpbeads純化,獲得純化的20uldna。
然后在上述純化的20uldna中加入1ul連接有生物素的二苯基環辛炔(dbco-biotin),于37℃反應2小時,接著用ampurexpbeads純化,獲得純化的標記產物。
(4)固相富集含有標記的5-羥甲基胞嘧啶的dna片段:
首先,按以下步驟準備磁珠:取出0.5ulc1streptadvinbeads(lifetechnology)并加入100ul緩沖液(5mmtris,ph=7.5,1mnacl,0.02%tween20),渦旋混合30秒,然后用100ul洗滌液(5mmtris,ph=7.5,1mnacl,0.02%tween20)洗滌磁珠3次,最后加入25ul結合緩沖液(10mmtris,ph=7.5,2mnacl,0.04%tween20或其他表面活性劑),并混合均勻。
然后,在磁珠混合液中加入上述步驟獲得的純化的標記產物,并在旋轉混合器中混合15min使其充分結合。
最后,用100ul洗滌液(5mmtris,ph=7.5,1mnacl,0.02%tween20)洗滌磁珠3次,離心去掉上清液,加入23.75ul不含核酸酶的水。
(5)pcr擴增:
向上述步驟的最終體系中加入25ul的2xpcrmastermix和1.25ulpcr引物(總體積為50ul),按照下述pcr反應循環的溫度和條件進行擴增:
將擴增產物用ampurexpbeads純化,得到最終測序文庫。
(6)對測序文庫進行質檢后進行高通量測序:
將獲得的測序文庫通過qpcr進行濃度測定,并用agilent2100對文庫中dna片段大小含量進行確定。將通過質檢的測序文庫以相同濃度混合,用illuminahiseq4000進行測序。
(7)確定各基因標志物的5-hmc含量和加權系數
將獲得的測序結果進行初步質控評估,清除低質量測序位點后,將達到測序質量標準的讀段利用bowtie2工具與人類標準基因組參考序列進行比較。然后利用featurecounts和htseq-count工具來統計讀段數量以確定各基因標志物的5-hmc含量。同時利用高通量測序結果,將可能影響5-hmc含量的因素作為共變量,通過邏輯回歸和彈性網絡正則化獲得各基因標志物的加權系數。結果如表1所示。
表1:本發明的肝癌基因標志物的平均標準化5-hmc含量和加權系數
如上所述,平均標準化5-hmc含量是指帶乙肝的肝癌樣品中該基因標志物的平均5-hmc含量與乙肝樣品中同一基因標志物的平均5-hmc含量之比。從表1可以看出,本發明的肝癌基因標志物的5-hmc含量在乙肝樣品中和帶乙肝的肝癌樣品中存在顯著差異,并且除bmp3、fcrl3、ndst4和tyrp1之外,其余基因標志物的5-hmc含量相對于正常人均顯著增加。
實施例2.肝癌基因標志物的有效性
本實施例驗證本發明的肝癌基因標志物用于檢測肝癌的有效性。
根據實施例1的方法測定110個樣品(60例帶乙肝的肝癌樣品和50例乙肝樣品)中本發明所述的11個肝癌基因標志物的5-hmc含量,并確定各基因標志物的加權系數。
將各基因標志物的標準化5-hmc含量乘以與其對應的加權系數,獲得該基因標志物的預測因子t后,將各基因標志物的預測因子t相加,獲得總預測因子t,然后將總預測因子t根據以下公式經過logistic轉換獲得評分p:
若p>0.5,則該受試者樣品患有肝癌;若p≤0.5,則該受試者樣品沒有肝癌。
圖1示出了根據本發明的方法區分該批樣品的結果。如圖1所示,本發明的方法能夠達到88%的靈敏度和90%的特異性。