本發明涉及數據分析,更具體地說,本發明涉及一種基于機器學習的宮頸癌病毒甲基化位點分析方法。
背景技術:
1、宮頸癌是女性第四大常見惡性腫瘤,高危型hpv?16病毒持續感染是宮頸癌發病的高危因素,然而,90%以上為一過性感染,可被機體免疫系統清除,僅有10%呈持續感染,而最終真正導致癌變的僅占1%。目前宮頸癌篩查的主要手段為hpv檢測和tct檢查,但是兩種檢查方法均存在一定局限性,無法真正進行甲基化水平分析,并篩出敏感特征及特異特征最佳組合的第二甲基化位點,為了解決上述問題,現提供一種技術方案。
技術實現思路
1、為了克服現有技術的上述缺陷,本發明提供一種基于機器學習的宮頸癌病毒甲基化位點分析方法,通過對hpv病毒感染患者的病例樣本進行分析,并獲取患者的宮頸脫落細胞樣本,對患者的宮頸脫落細胞樣本內感染宮頸癌病毒的甲基化位點,進行甲基化水平分析,篩選出顯著差異甲基化位點;再對篩選出的差異位點進行三三隨機組合,利用機器學習回歸模型綜合考慮多個位點進行預測,結合roc分析篩選出敏感性和特異性最優的最佳組合,以解決上述背景技術中提出的問題。
2、為實現上述目的,本發明提供如下技術方案:
3、一種基于機器學習的宮頸癌病毒甲基化位點分析方法,包括如下步驟:
4、步驟一,樣本準備:依據病理學及分子分型特征將hpv?16病毒感染患者的病例樣本,分類為第一正常對照組、第二高級別病變組以及第三宮頸鱗狀細胞癌組,通過宮頸液基保存液分別獲取患者的宮頸脫落細胞樣本;
5、步驟二,基因提取:利用凱普核酸提取儀hbnp-4801a,核酸提取試劑盒磁珠法(dr-4801-kz型)提取宮頸脫落細胞樣本中的基因組dna;
6、步驟三,捕獲目標片段:通過液相探針雜交捕獲法,捕獲納入分析的dna樣本中hpv16病毒的全基因組,并上機進行甲基化水平檢測;
7、步驟四,hpv?16病毒全基因組甲基化水平分析:利用甲基化捕獲測序原始數據使用fastq軟件進行質控,在去除低質量和adaptor序列后使用bismark(v0.23.1)軟件內置的bowtie與hpv?16基因組比對,使用bismark去除重復序列后,提取hpv胞嘧啶-磷酸-鳥嘌呤(cpg)甲基化位點的信息,使用mtools(v1.15)和mosdepth(v0.3.2)工具對bam文件進行質量評估,統計測序數據與基因組的比對概況和捕獲效率;
8、步驟五,差異甲基化位點篩選:使用methylkit(v1.18.0)讀取甲基化文件后,進行差異分析,提取差異甲基化位點dms和差異甲基化區域dmr,對比正常對照組,分析高級別病變組以及宮頸鱗狀細胞癌組的甲基化位點差異水平,共有31個位點差異有統計學意義(meth.diff>25%且q<0.05);
9、步驟六:甲基化位點組合分析:將對比結果差異顯著的31個甲基化位點,進行三三隨機組合,共有969種組合形式,運用回歸模型結合roc分析和不同位點組合找最大組間差異的嘗試,篩選出敏感性及特異性最優的最佳組合。
10、作為本發明進一步方案,步驟六中,對比結果差異顯著的甲基化位點,進行三三隨機組合,進行三三隨機組合的計算公式為:
11、
12、式中:p為進行三三隨機組合后的組合總數,n為對比結果差異顯著的甲基化位點個數。
13、作為本發明進一步方案,步驟六中,篩選出敏感性及特異性最優的最佳組合,敏感特征及特異特征最佳組合需滿足:auc曲線下面積趨向于1,且顯著性水平小于0.05。
14、作為本發明進一步方案,步驟六中,通過機器學習回歸模型對組合的甲基化位點進行三三組合,結合roc分析評估各組合的模型性能,篩選出敏感性及特異性最優的最佳組合,具體步驟為:
15、步驟a1,基于邏輯回歸模型,通過將給定的n組數據作訓練集訓練模型,并在訓練結束后對給定的一組或多組數據作測試集進行分類,其中每一組數據都是由p個指標構成;
16、步驟a2,應用sigmoid函數進行二分類,其中一類標簽為0,另一類標簽為1,其中,sigmoid函數的公式為:
17、
18、式中:σ(x)為輸入為x時sigmoid函數的輸出值,x為sigmoid函數的輸入值,e為自然對數的底;
19、實現線性回歸到概率的轉化,公式如下:
20、t=β0+β1x;
21、
22、式中:t為輸入數據通過線性回歸模型得到的結果,β0為線性回歸模型的截距項,β1為線性回歸模型的斜率,p(x)為輸入x經過sigmoid函數映射后得到的概率值,σ(t)為輸入為t時sigmoid函數的輸出值;
23、經過sigmod函數的映射,得到的概率為0到1,以α=0.5為閾值,大于閾值定義為1,小于閾值定義為0,進一步轉化為:
24、
25、
26、采用最大似然法對擬合結果進行量化,由于每個樣本是相關獨立的,所以計算總體概率是要相乘,公式如下:
27、
28、式中:l(ω)為總體概率,xi為第i個樣本的量化結果,yi為第i個樣本的閾值定義;
29、進行對數操作后,轉換如下:
30、l(ω)=∑yiln?p(xi)+(1-yi)(1-p(xi));
31、
32、
33、式中:ω為使樣本數據出現概率最大化的參數值;
34、步驟a3,繪制roc曲線,通過將連續變量設定出若干不同的臨界值,從而計算出一系列敏感性和特異性,再以敏感性為縱坐標,1-特異性為橫坐標,繪制成roc曲線;
35、步驟a4,運用logistic回歸和roc曲線綜合評價31個差異位點對宮頸癌病變的診斷價值,存在4個差異位點符合標準為“auc≥0.9且p<0.05,特異性趨向于1,敏感性趨向于0.86”,這4個位點分布于hpv?16的l2和e7區,即這4個位點單個即具有診斷宮頸癌病變的應用價值;將31個差異位點三三組合,共有969種組合形式,再次運用logistic回歸和roc曲線對這969種組合綜合評估,存在8個組合符合標準為“auc趨向于1且p<0.05,特異性和敏感性均趨向于1”,8個組合包含7個位點,分布于hpv?16的l1、l2、e6和e7。
36、作為本發明進一步方案,步驟五甲基化位點篩選中,將對比結果差異顯著的甲基化位點應滿足甲基化水平差異值大于25%,且多重檢驗校正后的顯著性水平小于0.05。
37、本發明一種基于機器學習的宮頸癌病毒甲基化位點分析方法的技術效果和優點:本發明通過對hpv病毒感染患者的病例樣本進行分析,并獲取患者的宮頸脫落細胞樣本,對患者的宮頸脫落細胞樣本內感染宮頸癌病毒的甲基化位點,進行甲基化水平分析,篩選出顯著差異甲基化位點;再對篩選出的差異位點進行三三隨機組合,利用機器學習回歸模型綜合考慮多個位點進行預測,結合roc分析篩選出敏感性和特異性最優的最佳組合。