本發明涉及生物信息技術領域。
背景技術:
目前,已有的針對線粒體的二代測序數據分析流程主要是由對測序數據質量控制、將測序得到的大量短序列片段比對到已知人類參考序列、尋找變異、對變異進行基因組學注釋和疾病關聯注釋5步組成。但是,流程中上一步的輸出文件和下一步所需輸入文件格式不同,造成無法實現數據的高自動化分析,且已有的基因組學注釋軟件如適用度和知名度很高的ANNOVAR和SnpEff對核DNA中的變異注釋較為精確,但對線粒體DNA上的變異無法正確注釋變異所位于的基因、氨基酸改變以及變異發生的位置,極易造成錯誤的科研指導和錯誤的臨床解讀;在致病關聯注釋步驟中,已有的軟件只能連接Internet使用,這又極大的限制了使用范圍。
技術實現要素:
本發明為了解決目前線粒體基因組學注釋不準確的問題,提出了一種線粒體高通量測序數據處理方法及系統。
本發明解決上述技術問題的技術方案如下:一種線粒體高通量測序數據處理方法,所述方法包括:
S1、對線粒體高通量測序數據來源進行測序鑒定獲取數據格式并記錄;
S2、對鑒定后的數據進行質控分析判斷測序數據質量是否達標,若測序數據質量不達標,則退出處理流程并報告質控未達標;若測序數據質量達標,則執行S3;
S3、根據測序數據的來源對質量達標的測序數據進行序列比對,若序列對比未成功,則退出處理流程并報告序列對比未成功,若序列對比成功,則執行S4;
S4、將對比成功后的測序數據進行基因組學注釋。
本發明的有益效果是:本發明可以在不連接Internet的情況下對線粒體基因檢測數據進行高自動化批量分析處理,并對基因變異按照臨床檢測和實驗科學研究進行分類展示,方便臨床應用和科學研究。
在上述技術方案的基礎上,本發明還可以做如下改進。
進一步,所述S1的具體實現過程為:
對線粒體高通量測序數據來源進行測序鑒定,若測序數據為fastq格式,則為Illnumina數據,如果為bam格式,則為Ion Torrent數據。
采用上述進一步方案的有益效果是:本發明能夠同時兼容Illnumina和Ion Torrent兩種平臺測序后數據分析的需求,自動化且不需連接Internet便可使用。
進一步,所述S2中若測序數據來源為Illnumina數據,則直接進行質控分析,若測序數據來源為Ion Torrent數據,則將bam格式的文件轉換為fastq格式再進行質控分析。
進一步,所述S3中序列比對過程為:根據測序數據的來源采用不同序列比對軟件將測序后100bp至300bp的測序短片段映射到線粒體基因組上。
為了解決上述技術問題,本發明提出了一種線粒體高通量測序數據處理系統,所述系統包括:
數據來源判斷模塊,用于對線粒體高通量測序數據來源進行測序鑒定獲取數據格式并記錄;
原始數據質量檢測模塊,用于對鑒定后的數據進行質控分析判斷測序數據質量是否達標,若測序數據質量不達標,則退出處理流程并報告質控未達標;若測序數據質量達標,則啟動序列對比模塊;
序列對比模塊,用于根據測序數據的來源對質量達標的測序數據進行序列比對,若序列對比未成功,則退出處理流程并報告序列對比未成功,若序列對比成功,則啟動基因組學注釋模塊;
基因組學注釋模塊,用于將對比成功后的測序數據進行基因組學注釋。
本發明的有益效果是:本發明可以在不連接Internet的情況下對線粒體基因檢測數據進行高自動化批量分析處理,并對基因變異按照臨床檢測和實驗科學研究進行分類展示,方便臨床應用和科學研究。
進一步,所述數據來源判斷模塊中所述的數據格式為Illnumina數據或Ion Torrent數據,若測序數據為fastq格式,則為Illnumina數據,如果為bam格式,則為Ion Torrent數據。
采用上述進一步方案的有益效果是:本發明能夠同時兼容Illnumina和Ion Torrent兩種平臺測序后數據分析的需求,自動化且不需連接Internet便可使用。
進一步,所述原始數據質量檢測模塊中,若測序數據來源為Illnumina數據,則直接進行質控分析,若測序數據來源為Ion Torrent數據,則將bam格式的文件轉換為fastq格式再進行質控分析。
進一步,所述序列對比模塊中,根據測序數據的來源采用不同序列比對軟件將測序后100bp至300bp的測序短片段映射到線粒體基因組上。
附圖說明
圖1為本發明實施例所述的線粒體高通量測序數據處理方法的流程圖;
圖2為本發明實施例所述的線粒體上存在的變異位點的示意圖;
圖3為本發明實施例所述的采用SnpEff軟件的變異的注釋結果;
圖4為本發明實施例所述的采用ANNOVAR軟件的變異的注釋結果;
圖5為本發明實施例所述的采用本發明所述方法的變異的注釋結果;
圖6為本發明實施例所述的線粒體高通量測序數據處理系統的原理示意圖。
具體實施方式
以下結合附圖對本發明的原理和特征進行描述,所舉實例只用于解釋本發明,并非用于限定本發明的范圍。
實施例1
如圖1所示,本實施例提出了一種線粒體高通量測序數據處理方法,所述方法包括:
S1、對線粒體高通量測序數據來源進行測序鑒定獲取數據格式并記錄;若測序數據為fastq格式,則為Illnumina數據,如果為bam格式,則為Ion Torrent數據;
S2、對鑒定后的數據進行質控分析判斷測序數據質量是否達標,若測序數據質量不達標,則退出處理流程并報告質控未達標;若測序數據質量達標,則執行S3;
對數據進行質控分析可采用FastQC軟件實現,該軟件所需輸入文件為fastq格式的問題,因此,如果測序后數據來源為Illnumina,則直接進行質控分析,如果來源為Ion Torrent,則需先將bam格式的文件轉為Illnumina然后再使用FastqQC進行質控分析;
S3、根據測序數據的來源對質量達標的測序數據進行序列比對,若序列對比未成功,則退出處理流程并報告序列對比未成功,若序列對比成功,則執行S4;
序列比對過程為:根據測序數據的來源采用不同序列比對軟件將測序后100bp至300bp的測序短片段映射到線粒體基因組上;Illnumina可使用bwa序列對比軟件,Ion Torrent可使用TMAP序列對比軟件;
S4、將對比成功后的測序數據進行基因組學注釋。
如圖2所示為線粒體上存在的變異位點,圖3、圖4和圖5分別為SnpEff、ANNOVAR和本實施例對圖2中的變異的注釋結果,從結果可以看出對相同變異,ANNOVAR無法注釋出變異所在的基因及氨基酸變異;SnpEff無法正確注釋出第一個變異所在的基因,對第二個變異的注釋雖包含正確基因,但同時給出大量無關基因;本實施例準確注釋出2個變異所在的基因及氨基酸變化。
實施例2
如圖6所示,本實施例提出了一種線粒體高通量測序數據處理系統,所述系統包括:
數據來源判斷模塊,用于對線粒體高通量測序數據來源進行測序鑒定獲取數據格式并記錄;若測序數據為fastq格式,則為Illnumina數據,如果為bam格式,則為Ion Torrent數據;
原始數據質量檢測模塊,用于對鑒定后的數據進行質控分析判斷測序數據質量是否達標,若測序數據質量不達標,則退出處理流程并報告質控未達標;若測序數據質量達標,則啟動序列對比模塊;
對數據進行質控分析可采用FastQC軟件實現,該軟件所需輸入文件為fastq格式的問題,因此,如果測序后數據來源為Illnumina,則直接進行質控分析,如果來源為Ion Torrent,則需先將bam格式的文件轉為Illnumina然后再使用FastqQC進行質控分析;
序列對比模塊,用于根據測序數據的來源對質量達標的測序數據進行序列比對,若序列對比未成功,則退出處理流程并報告序列對比未成功,若序列對比成功,則啟動基因組學注釋模塊;
序列比對過程為:根據測序數據的來源采用不同序列比對軟件將測序后100bp至300bp的測序短片段映射到線粒體基因組上;Illnumina可使用bwa序列對比軟件,Ion Torrent可使用TMAP序列對比軟件;
基因組學注釋模塊,用于將對比成功后的測序數據進行基因組學注釋。
目前用于基因組學注釋的2大主流軟件為ANNOVAR和SnpEff。但是,ANNOVAR的弊端是對同時存在插入和缺失的變異、非編碼區和基因共享區的變異無法準確注釋,且對插入或缺失變異的注釋沒有嚴格采用HGVS的標準,造成氨基酸改變注釋錯誤。SnpEff的優點是注釋采用了HGVS的標準,但缺點是對線粒體上變異注釋不準確,變異定位到的基因不準確。本實施例所述的基因組學注釋模塊對單核苷酸變異、插入、缺失、插入缺失共存類型的變異依據HGVS標準對氨基酸改變和變異隸屬基因進行精確準確注釋。
以上所述僅為本發明的較佳實施例,并不用以限制本發明,凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。