本發明屬于基因組學和生物醫學,是一種基于單細胞轉錄組和反卷積算法的食管鱗癌分型和關鍵基因篩選的方法。
背景技術:
1、食管癌(esophageal?cancer,ec)是世界上最惡性的腫瘤之一,也是癌癥死亡的第六大原因。ec在發病率和流行方面存在顯著的地域差異,最常見于東亞和東非。事實上,全球約53%的新發ec病例發生在中國。ec有兩種主要的組織學類型,即鱗狀細胞癌(esophageal?squamous?carcinoma,escc)和腺癌(esophageal?adenocarcinoma,eac)。在全球范圍內,escc是最常見的類型,約占ec總數的85%。在中國,90%以上的ec患者是escc。盡管治療策略有所進步,但escc的預后并不樂觀,患者的5年生存率仍低于20%。escc預后不良主要與確診較晚和腫瘤異質性有關,因此,早期診斷和對患者進行分層以進行個性化治療非常重要。
2、單細胞rna測序(scrna-seq)技術的最新進展徹底改變了我們對腫瘤異質性的理解,并為癌癥生物學提供了有價值的見解,其優勢在于能夠識別可能驅動腫瘤進展和耐藥的不同亞群和分子譜。escc的異質性已在許多研究中得到證實。在最近的一項研究中,單細胞序列分析揭示了escc中腫瘤浸潤免疫細胞(t細胞和樹突狀細胞)密度的顯著差異及其與三級淋巴結構的密切關系。escc中惡性和非惡性組織之間的細胞-細胞相互作用是不同的,上皮細胞能夠通過下調anxa1-fpr2相互作用來激活成纖維細胞,從而促進escc的發展。escc中細胞亞群及其通訊的復雜性表明,有必要深入探索細胞組成及其在escc發生和發展過程中的作用。
3、單細胞測序加深了研究人員對腫瘤異質性的理解,為escc的精準化治療提供了更多的可能性。但是,值得注意的是,目前單個樣本的scrna-seq測序成本萬元左右,昂貴的測序成本限制了其廣泛應用的可能性。相對而言,常規的批量轉錄組測序(bulkrna-seq)價格便宜,通量高,能一次檢測多個樣本,但其缺點是不能檢測腫瘤內部單細胞群體的異質性。因此,目前的技術難題在于很難兼顧單個細胞群體異質性檢測和保證成本效益。
技術實現思路
1、針對現有技術存在的問題,本發明提供了一種基于單細胞轉錄組和反卷積算法的食管鱗癌(escc)分型和關鍵基因篩選的方法,為escc患者分層、精準治療和臨床標志物篩選提供可行的方案和依據。
2、為了捕捉單個細胞群體的異質性,同時保持可擴展性以及成本效益,整合scrna-seq和批量rna-seq數據分析以全面表征escc是一種很好的選擇。本發明利用從escc的scrna-seq數據中推導出的細胞類型及其標志基因,用cibersort方法估計批量rna-seq數據中各細胞類型的豐度,利用非負矩陣分解(non-negative?matrix?factorization,nmf)對批量rna-seq的數據中的escc進行聚類分型,比較不同亞型患者間預后的差異。基于不同亞型特異性細胞亞群特異性基因表達與患者預后的相關性,構建出escc的預后風險模型,篩選出escc關鍵基因,分析關鍵基因與escc抗癌藥物敏感性之間的關系。
3、本發明是這樣實現的,基于單細胞轉錄組和反卷積算法的食管鱗癌分型和關鍵基因篩選的方法,為食管鱗癌的精準治療和早期診斷提供新的方向。具體包括以下步驟:
4、步驟一,利用geo數據庫篩選合適的escc單細胞轉錄組(scrna-seq)和基因表達譜(bulkrna-seq,批量rna-seq)數據集;
5、步驟二,利用r包seurat和經典細胞類型標記物對escc單細胞進行聚類分群和亞群標志性基因鑒定;
6、步驟三,利用cibersort反卷積算法對escc基因表達譜數據進行單細胞亞群含量推算;
7、步驟四,利用nmf對基于escc組織中單細胞含量矩陣進行聚類分型并評估escc亞型對患者預后的影響;
8、步驟五,基于不同亞型特異性細胞亞群特異性基因表達與患者預后的相關性,構建出escc的預后風險模型,篩選出escc關鍵基因。
9、進一步,所述步驟一在geo數據庫中查找“esophageal?squamous?carcinomaandsingle?cell”,限定搜索條件entry?type為“series”,attribute?name為“tissue”,organism選擇“homo?sapiens”獲取escc的scrna-seq數據集,選取腫瘤樣本量大于50的數據集gse160269,進行后續分析;在geo數據庫中查找“esophageal?squamous?carcinomaandexpression?profiling”,限定搜索條件entry?type為“series”,attribute?name為“tissue”,organism選擇“homo?sapiens”獲取escc的批量rna-seq數據集,選取腫瘤樣本量大于150且帶有預后信息的數據集gse53625,進行后續分析。
10、進一步,所述步驟二利用r包seurat通過r軟件對escc腫瘤組織和配對正常組織中的細胞進行分群,基于cellmarker數據庫中各種細胞的經典標記物對細胞群進行鑒定命名,共鑒定出18種細胞類型/亞型;通過cosg包對亞群的標志性基因進行鑒定,選取每個細胞類型/亞型的前100個基因為細胞類型/亞型標志性基因。
11、進一步,所述步驟三利用單細胞數據分析結果,構建18種細胞類型/亞型相關的細胞類型特征矩陣,基于該矩陣,使用cibersort算法對escc基因表達譜(批量rna-seq)數據gse53625中的細胞類型豐度進行估算,得出各腫瘤組織中每一種細胞類型/亞型的相對含量。
12、進一步,所述步驟四利用nmf對將批量rna-seq衍生出的單細胞豐度數據進行聚類分析,結果顯示escc分成四個亞型;kaplan-meier生存分析顯示各亞型之間存在明顯的預后差異,根據各臨床特征對患者進行分層后各亞型之間的預后差異仍然存在,提示escc亞型的預后價值獨立于患者的年齡、性別、腫瘤分級、腫瘤分期、腫瘤位置、飲酒和吸煙史。
13、進一步,所述步驟五利用cox回歸分析用于研究代表性細胞類型的各標記基因在年齡和性別調整后的預后作用;結合單變量cox回歸的結果進一步把有意義的變量(基因)納入lasso回歸分析,以確定具有獨立預后效應的關鍵標志性基因,構建escc總生存率(os)的風險模型。
14、本發明的另一目的在于提供一組基于單細胞轉錄組和反卷積算法的食管鱗癌分型和關鍵基因篩選的方法。所篩選的escc的關鍵基因包括ccnd1,pkp1,jup和ankrd12。
15、本發明的另一目的在于提供一種關鍵基因表達量與escc抗癌藥物敏感性之間的關系的分析方法,結合癌癥細胞系百科全書(ccle)數據庫中escc細胞系中的基因表達數據和不同細胞系中抗癌藥物的半數最大抑制濃度(ic50)信息推算關鍵基因與escc抗癌藥物敏感性之間的相關性。
16、本發明的另一目的在于提供一種基于關鍵基因表達量與escc抗癌藥物敏感性之間的關系評估相關基因在escc治療和escc治療靶標篩選中的應用潛能的方法。
17、結合上述的技術方案和解決的技術問題,本發明所要保護的技術方案所具備的優點及積極效果為:
18、第一,本發明提供一種基于單細胞轉錄組和反卷積算法對escc進行分型和關鍵基因篩選的方法,通過geo數據庫篩選escc組織單細胞轉錄組和基因表達譜數據集。利用r包seurat把escc中的單細胞分成18個群/亞群;基于cibersort反卷積算法對escc基因表達譜數據單細胞亞群含量推算的結果,通過nmf聚類分析把escc組織聚類分成病理和臨床特征不同的四種亞型;利用cox回歸和lasso回歸篩選出ccnd1,pkp1,jup和ankrd12四種escc預后相關關鍵基因;ccnd1-pkp1-jup-ankrd12組合能有效地把escc患者分成高低風險組;四種關鍵基因均與escc抗癌藥物敏感性有關。本發明為escc患者分層、精準治療和臨床標志物篩選提供可行的方案和依據。
19、第二,本發明旨在提供一種基于單細胞轉錄組和反卷積算法對escc進行分子分型和關鍵基因篩選的流程,對escc進行分子分型,并對escc預后相關關鍵基因進行篩選和鑒定,同時對關鍵基因與escc抗癌藥物敏感性的關系進行推算。在單細胞和分子水平對escc的異質性有更深一步的認識,有效的分子分型可以為escc的個性化精準治療提供新的方案,關鍵基因的鑒定可以為escc的預后評估、診斷和治療提供新的標志物和靶標篩選方向。
20、第三,本發明的技術方案轉化后的預期收益和商業價值為:
21、①本發明的技術方案可以基于少量單細胞轉錄組測序的結果推斷批量轉錄組測序的單細胞組成和異質性。單細胞轉錄組測序一個樣本萬元左右,而普通批量轉錄組測序成本才幾百元,大約是單細胞轉錄組測序的1/20,因此本技術方案可以大大節約測序成本。
22、②本發明鑒定的escc分子亞型具有不同的預后,患者臨床特征和分子特征不同,為escc患者的分層和精準化治療提供了新的方向和參考。
23、③本發明鑒定出的escc預后相關關鍵基因在escc中表達異常且與escc的抗癌藥物敏感性密切相關,可能是escc早期診斷的分子標志物和藥物治療的潛在分子靶標。escc的早期診斷和有效治療將有利于延長患者壽命、減少醫療資源的浪費、減輕相關的社會負擔。
24、第四,本發明實施例通過整合單細胞轉錄組數據與反卷積算法,為食管鱗癌(escc)的分型和關鍵基因篩選提供了一種新的方法,解決了以下現有技術的技術問題,并帶來顯著的技術進步:
25、現有技術的技術問題:
26、1.分型和關鍵基因篩選的局限性:傳統的食管鱗癌分型和關鍵基因篩選主要基于批量rna-seq數據,缺乏細胞水平的分辨率,未能充分揭示腫瘤微環境中的異質性。
27、2.缺乏細胞亞群信息的整合:以往的研究往往忽視了腫瘤組織內部不同細胞亞群的作用,未能細致分析它們對腫瘤生物學行為和患者預后的影響。
28、3.預后風險模型的不精準:現有的預后模型往往沒有考慮到腫瘤內部的細胞亞群異質性,導致預后評估的精準性不足。
29、本發明獲得的顯著技術進步:
30、1.高分辨率的食管鱗癌分型:通過結合單細胞轉錄組數據與反卷積算法,本發明實現了基于細胞亞群組成的食管鱗癌高分辨率分型,為理解食管鱗癌的異質性提供了新的視角。
31、2.深入揭示細胞亞群在腫瘤中的作用:通過鑒定不同食管鱗癌亞型中特定細胞亞群的標志性基因,本發明深入揭示了這些細胞亞群在腫瘤發展和預后中的作用。
32、3.構建精準的預后風險模型:基于關鍵細胞亞群的標志性基因,本發明構建了更精準的食管鱗癌預后風險模型,有助于實現個性化的患者管理和治療決策。
33、4.為食管鱗癌的精準醫療提供支持:通過本發明的方法,可以更好地區分食管鱗癌患者的預后風險,為臨床提供有力支持,促進食管鱗癌的精準醫療實踐。
34、本發明在食管鱗癌分型和關鍵基因篩選領域帶來顯著的技術進步,有望改善食管鱗癌患者的管理和治療效果。