本發明涉及一種線粒體生物標志物及篩選的方法,具體涉及一種癌細胞線粒體生物標志物及基于機器算法篩選的方法。
背景技術:
1、當身體內細胞發生突變后,它會不斷地分裂,而不受身體控制,最后形成癌癥,它是100多種相關疾病的統稱。而結直腸癌(crc)作為一種世界范圍內病死率均居高位的癌癥,我國crc發病率位居各種惡性腫瘤第2位,死亡率位居各種癌癥第5位,疾病負擔嚴重,威脅人類健康。crc臨床確診多為中晚期,預后欠佳,亟待明確結直腸癌發生、發展的分子機制。
2、線粒體作為細胞氧化磷酸化供能的細胞器,對于維持線粒體的正常功能和數量以及細胞穩定性尤為重要,線粒體通過支持腫瘤細胞在惡劣環境中的生長和存活,如營養枯竭和缺氧,在腫瘤發生中起著至關重要的作用:包括線粒體損傷破壞癌細胞嚴重依賴的過程-氧化糖酵解平衡,導致atp(腺嘌呤核苷三磷酸)產生降低,腫瘤細胞存活能力逐漸喪失;線粒體是調節癌細胞增殖的關鍵靶標,同時dna片段化、線粒體去極化和氧化應激可激活細胞凋亡。活性氧(ros)的動態變化對腫瘤細胞也具有關鍵作用,過量的ros增加細胞凋亡,適量ros水平促進細胞癌細胞增殖。
3、綜上,亟待找到一種高效、全面,且排除了單一分析結果的特異性和誤差性,線粒體生物標志物準確性高的癌細胞線粒體生物標志物及基于機器算法篩選的方法。
技術實現思路
1、本發明所要解決的技術問題是,克服現有技術存在的上述缺陷,提供一種準確性高的癌細胞線粒體生物標志物。
2、本發明所要解決的技術問題是,克服現有技術存在的上述缺陷,提供一種高效、全面,且排除了單一分析結果的特異性和誤差性的基于機器算法篩選癌細胞線粒體生物標志物的方法。
3、本發明解決其技術問題所采用的技術方案如下:癌細胞線粒體生物標志物,當所述癌細胞為結直腸癌時,其線粒體生物標志物包括:oxct1、clpb、slc25a12、mrpl51、sfxn1、gatm和trmt10c基因。本發明揭示了結直腸癌細胞中的特定線粒體生物標志物,這些基因在結直腸癌細胞中顯示出顯著的表達差異,為癌癥的診斷、預后和治療提供了新的生物標記物選項。
4、本發明進一步解決其技術問題所采用的技術方案如下:基于機器算法篩選癌細胞線粒體生物標志物的方法,包括以下步驟:
5、(1)先將待篩選癌細胞的表達數據集進行標準化處理,得癌細胞表達數據,再獲得線粒體相關基因在所述癌細胞表達數據中的表達量,得在癌細胞中表達的線粒體相關基因;
6、(2)對步驟(1)所得在癌細胞中表達的線粒體相關基因進行差異分析,再對所得差異表達的癌細胞線粒體基因或蛋白進行相關性分析,選擇同時滿足差異基因且屬于線粒體相關基因的基因模塊,得與癌細胞相關線粒體基因模塊;
7、(3)對步驟(2)所得與癌細胞相關線粒體基因模塊進行功能富集分析,得按照不同功能分類的基因或蛋白列表;
8、(4)選用至少兩種機器算法分別篩選步驟(3)所得按照不同功能分類的基因或蛋白列表,分別得特征基因或蛋白列表,確定核心交集靶點,得癌細胞線粒體生物標志物。
9、本發明方法的發明思路是:傳統癌癥標志物主要集中在細胞核基因組,而對線粒體基因的研究較少,限制了癌癥診斷和治療的進展。本發明方法專注于癌細胞中的線粒體生物標志物的發現和驗證,通過機器算法篩選方法實現。本發明方法提供了一種包括數據標準化處理、差異分析與相關性分析、功能富集分析和機器算法篩選的方法,這些步驟能夠高效地識別諸如結直腸癌細胞中的線粒體生物標志物,確保其高準確性、可靠性和全面性,為結直腸癌等癌癥的精準診斷和治療提供了新的科學依據和工具。
10、優選地,步驟(1)中,從geo數據庫中下載所述待篩選癌細胞所有癌組織和癌旁組織的表達數據集。
11、優選地,步驟(1)中,通過perl和r語言limma包,用normalizebetweenarrays方法,對所述表達數據集進行標準化處理。通過標準化處理可消除不同樣本和不同基因之間的差異。
12、優選地,步驟(1)中,從mitocarta3.0數據庫中下載所述線粒體相關基因。
13、優選地,步驟(1)中,通過r語言limma包獲得所述線粒體相關基因在所述表達數據中的表達量。用于獲得僅包括線粒體相關差異基因的癌細胞生物標志物。
14、優選地,步驟(2)中,通過r語言limma包和pheatmap包進行差異分析。通過差異性分析區分出的上下調基因用于預測其在腫瘤中的高低表達情況,高表達提示該基因為癌基因,低表達提示該基因為抑癌基因,從而明晰后面實驗驗證的表達趨勢。
15、優選地,步驟(2)中,通過r語言corrplot包進行相關性分析。通過相關性分析后,紅色代表正相關,正相關表明兩者同為癌基因或者抑癌基因;藍色代表負相關,負相關表明當其中一個基因為癌(抑癌)基因時,另一個相關性基因反之為抑癌(癌)基因。
16、優選地,步驟(3)中,用基因本體論通過r語言enrichplot包進行功能富集分析。
17、優選地,步驟(3)中,用京都基因和基因組百科全書通過r語言ggplot2包和clusterprofiler包進行功能富集分析。通過功能富集分析后,得到與分子功能、生物過程和細胞成分相關的基因本體論富集,以及在特定生物學通路中的富集程度,再進一步篩選過程中結合兩者所得結果。
18、優選地,步驟(4)中,所述機器算法包括lasso回歸和/或svm-rfe回歸。本發明方法通過多機器學習算法相結合的生物信息學方法,來識別相關疾病的特征基因,可以發現新的標志物。lasso回歸是指通過尋找分類錯誤最小時的λ來確定變量,主要用于篩選特征變量,構建最佳分類模型;svm-ref是基于支持向量機的機器學習方法,通過刪減svm產生的特征向量來尋找最佳變量;將兩種方法相結合,能獲得更加準確的疾病標志物。因此,通過機器算法探索癌細胞線粒體相關生物標志物,對于明確癌細胞的分子機制,提高癌細胞的診治準確性具有重要價值。
19、優選地,所述lasso回歸的具體篩選方法為:通過r語言glmnet包構建模型,繪制cvfit圖形和lasso回歸圖形,再進一步在cvfit圖形上繪制交叉驗證圖形,找到縱坐標最小值,即交叉驗證誤差最小值,通過r語言glmnet包確定lasso回歸篩選的特征基因。
20、優選地,所述svm-rfe回歸的具體篩選方法為:通過r語言e1071包,設置十折的交叉驗證,對特征基因的重要性進行排序,構建模型繪制準確性圖形,找到準確性最高點,繪制交叉驗證誤差圖形,找到誤差最低點,根據兩者結果通過r語言e1071包確定svm-rfe回歸篩選的特征基因。
21、優選地,步驟(4)中,通過r語言venndiagram包確定不同機器算法篩選所得特征基因的核心交集靶點。
22、優選地,對步驟(4)所得癌細胞線粒體生物標志物進行準確性驗證。
23、優選地,所述準確性驗證的方法一為:將步驟(4)所得癌細胞線粒體生物標志物在癌疾病組織和癌旁組織中進行差異表達分析;方法二為:在hpa數據庫獲得步驟(4)所得癌細胞線粒體生物標志物在人正常組織和人癌變組織中的免疫組化數據表達;方法三為:在人正常細胞和人癌變細胞水平進行mrna表達水平的差異表達分析。
24、優選地,所述在癌疾病組織和癌旁組織中進行差異表達分析是指:從tcga數據庫中下載所述癌疾病組織和癌旁組織所有測序數據,通過r語言limma包、r語言ggplot2包和r語言ggpubr包獲得步驟(4)所得癌細胞線粒體生物標志物在癌疾病組織和癌旁組織中的差異表達情況。
25、優選地,所述免疫組化數據表達即蛋白表達水平差異情況。
26、優選地,所述mrna表達水平的差異表達分析是指:在人正常細胞和人癌變細胞水平,分別通過qrt-pcr水平,驗證步驟(4)所得癌細胞線粒體生物標志物在體外水平mrna的差異表達情況。
27、本發明的有益效果如下:
28、(1)本發明通過tcga數據集和人源細胞實驗驗證,從多維度驗證了本發明所述癌細胞線粒體生物標志物的準確性高,為線粒體相關癌細胞如結直腸癌的精確診治提供了基礎;
29、(2)本發明方法相較傳統的單一機器學習分析方法,通過結合lasso和svm-rfe兩種機器語言分析作為癌細胞線粒體相關的標志物,不僅保留機器語言的高效性和全面性,而且排除了單一分析結果的特異性和誤差性。
30、本發明中的縮寫說明:crc:結直腸癌;geo:基因表達綜合數據庫;hpa:人類蛋白質圖譜;perl:實用報表提取語言;mitocarta:哺乳動物線粒體清單集;go:基因本體論;kegg:京都基因和基因組百科全書;lasso:最小絕對收縮和選擇算子;svm-rfe:特征選擇之支持向量機遞歸特征消除;tcga:癌癥基因組圖譜;bp:生物學過程;cc:細胞組分;mf:分子功能;tca:三羧酸循環;ros:活性氧;qrt-pcr:實時熒光定量反轉錄pcr;oxct1:3-氧代輔酶a轉移酶1;clpb:clp蛋白酶復合物;slc25a12:溶質載體家族25成員12;mrpl51:線粒體核糖體蛋白l51;sfxn1:鐵柔素1;gatm:甘氨酸脒基轉移酶;trmt10c:trna甲基轉移酶10c;hiec細胞來源于人類的腸道組織,是從腸上皮中分離出來,并在實驗室中進行培養的人源性健康腸道細胞;sw480細胞源自于一名結腸腺癌患者的腫瘤組織,為廣泛體外培養使用的人類結腸癌細胞系。