一種dna及蛋白質水平突變分析系統的制作方法
【專利摘要】本發明提供了一種DNA及蛋白質水平突變分析系統,包括讀取及索引判斷模塊,用于讀取基因突變文件,格式化處理成標準名稱;索引轉錄本序列、基因信息和基因轉錄本注釋信息、構建氨基酸密碼子對應關系表;判斷突變發生的水平、突變的模式;判斷突變命名是蛋白質水平突變或是基因組DNA水平突變或是CDS編碼區突變;映射模塊,用于根據讀取及索引判斷模塊的判斷結果,分別進入不同的水平突變映射流程,得到三種突變命名的映射關系。本發明承接文獻挖掘的表型相關基因突變和多態位點,輸出多種突變命名的映射關系,以達到完成注釋文獻挖掘的致病變異與測序識別的基因突變和多態位點間對應等目的。
【專利說明】
一種DNA及蛋白質水平突變分析系統
技術領域
[0001]本發明屬于基因信息數據處理領域,特別是涉及到一種DNA及蛋白質水平突變分析系統。
【背景技術】
[0002]在Watson和Crick發現DNA雙螺旋結構后的50多年里,探索基因變異在研究人類疾病的發生發展及預防治療中扮演了重要角色,人類基因組計劃的完成更為疾病和表型相關基因變異的識別開辟了廣闊的空間。近年來從微陣列芯片、sanger測序到現在的高通量測序,隨著技術的進步,越來越多的基因變異和多態位點被檢測出來。它們從分子水平上揭示疾病和眾多表型的機制,為解開生命奧秘及征服疾病帶來新希望。
[0003]然而,不同研究人員識別的基因突變和多態位點在命名上缺乏統一的表示,如抑癌基因TP53在基因組位置7579553處發生了T到A堿基的突變,有的直接采用基因組位置作為標示加以命名(TP53: g.7579553T>A),有的采用基因編碼區域的變異進行命名(TP53:c.134T>A),還有的采用最終的蛋白水平的變異結果進行命名(TP53:p.L45Q)。即使在同一蛋白水平的突變描述上,識別基因突變或多態時參考基因序列的不同也導致了最終命名不同,甚至混淆以致無法使用,例如僅對TP53基因的L45Q突變,不同研究采用的參考轉錄本就涉及了匪_001126112、匪_000546、匪_001126113和匪_001126114。這種不同水平的命名方式最終導致后來的研究人員很難基于前人的研究成果進行有效且準確地進行統一的分析和注釋。例如在文獻挖掘先前已報道的人類乳腺癌相關的基因突變和多態位點,找到4000多篇PubMed文獻,共挖掘出3600多種基因突變和多態位點,但是缺乏一致的基因命名方式,很難應用這些文獻挖掘的結果到下一步的分析中。
[0004]近年來,下一代測序技術應用的越來越普遍,大量的生物信息分析軟件隨之產生。在此背景之下,研究人員能快速利用現有成熟的生物信息分析軟件及流程對海量的基因組測序數據進行解析,如識別基因突變及多態位點。借助前人的研究,快速準確的進一步解讀注釋這些突變才能加以應用,如應用到精準醫療中,進行疾病的個性化用藥、診斷治療等。由于大量的先前研究對基因突變的命名不存在統一的標準,很難對解析的結果進一步的注釋和解讀。
【發明內容】
[0005]有鑒于此,本發明提出一種DNA及蛋白質水平突變分析系統,承接文獻挖掘的表型相關基因突變和多態位點,輸出多種突變命名的映射關系,以達到完成注釋文獻挖掘的致病變異與測序識別的基因突變和多態位點間對應等目的。
[0006]為達到上述目的,本發明的技術方案是這樣實現的:一種DNA及蛋白質水平突變分析系統,包括:
[0007]讀取及索引判斷模塊,用于讀取基因突變文件,格式化處理成標準名稱;索引轉錄本序列、基因信息和基因轉錄本注釋信息、構建氨基酸密碼子對應關系表;判斷突變發生的水平、突變的模式;判斷突變命名是蛋白質水平突變或是基因組DNA水平突變或是CDS編碼區突變;
[0008]映射模塊,用于根據讀取及索引判斷模塊的判斷結果,分別進入不同的水平突變映射流程,得到三種突變命名的映射關系;
[0009]所述映射模塊連接所述讀取及索引判斷模塊。
[0010]進一步的,所述映射模塊包括蛋白質水平突變映射單元、基因組DNA水平突變映射單元、CDS編碼區突變映射單元;分別控制蛋白質水平突變映射流程、基因組DNA水平突變映射流程、CDS編碼區突變映射流程。
[0011 ] 更進一步的,所述蛋白質水平突變映射單元包括getProtein2amino子單元,用于將蛋白水平的單氨基酸改變映射到⑶S編碼區堿基的改變;還包括getPInDe12pr0tein子單元,用于將蛋白質水平突變中插入缺失突變,映射到CDS編碼區堿基改變模式;還包括getPos子單元,用于將⑶S編碼區突變中的單堿基突變映射出在基因組DNA序列上的位置。
[0012]更進一步的,所述基因組DNA水平突變映射單元包括getGenome2protein子單元、getGInDel2protein-11Jp-^Nfasta2amino-11Jp.^ ; 0fyigetGenome2protein-11Jp-^^^^S因組突變中的單堿基突變映射到⑶S編碼區和蛋白水平突變結果;所述getGInDe12pr0tein子單元用于將基因組水平突變中的插入缺失突變映射到CDS編碼區突變和蛋白水平變異結果;所述fasta2amino子單元用于將DNA序列轉換成氨基酸序列。
[0013]更進一步的,所述〔03編碼區突變映射單元包括861:(]11106 12。1'(^6;[11子單元、getAmino2protein-11Jp-^Naminos2fasta-11Jp.^, jS/fyigetCInDe^protein-pJp-^^^^CDS編碼區突變中的插入缺失突變映射到蛋白水平突變和基因組水平突變結果;所述getAmino2protein子單元用于將CDS編碼區中突變的單堿基突變轉換成蛋白質水平的突變結果;所述aminos2fasta子單元用于將氨基酸序列轉換成DNA堿基序列。
[0014]相對于現有技術,本發明所述的一種DNA及蛋白質水平突變分析系統具有以下優勢:
[0015]本發明以基因突變文件作為輸入,經過自動識別,判斷突變命名是在DNA、RNA還是蛋白質水平,進而通過REFSEQ的基因轉錄本注釋文件和序列注釋文件進行判定突變在各個水平發生的位置和堿基及氨基酸改變。本發明承接文獻挖掘的表型相關基因突變和多態位點,輸出多種突變命名的映射關系,以達到完成注釋文獻挖掘的致病變異與測序識別的基因突變和多態位點間對應等目的。
【附圖說明】
[0016]構成本發明的一部分的附圖用來提供對本發明的進一步理解,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中:
[0017]圖1為本發明的方法流程示意圖。
[0018]圖2為本發明實施例的轉錄本注釋信息文件示例。
[0019]圖3為本發明實施例的轉錄本DNA序列文件示例。
[0020]圖4為本發明實施例的待映射蛋白水平突變文件示例。
[0021]圖5為本發明實施例的蛋白質水平突變映射結果示例。
[0022 ]圖6為本發明實施例的待映射基因組DNA水平突變文件示例。
[0023]圖7為本發明實施例的待映射CDS編碼區突變文件示例。
[0024]圖8為本發明實施例的遺傳病的風險突變位點文件。
[0025]圖9為本發明實施例的映射結果文件。
【具體實施方式】
[0026]需要說明的是,在不沖突的情況下,本發明的實施例及實施例中的特征可以相互組合。
[0027]下面將參考附圖并結合實施例來詳細說明本發明。
[0028]本發明的原理說明:
[0029]不同水平突變的映射,實際上就是不同層面的位置定位和突變結果計算,針對不同水平的突變,需要采取不同的映射方式和步驟。本發明主要針對雜亂的不同層面的突變命名無法直接進行統一應用的情況,把所有層面的突變結果關系映射出來,方便對突變結果的進一步使用。
[0030]如圖1所示,具體步驟如下:
[0031]首先,是基因轉錄本結構和序列以及氨基酸和堿基關系的索引。REFSEQ是一個穩定常用的基因注釋數據庫,采用其提供的基因機構注釋文件和序列文件構建哈希表,達到從快速地從基因定位轉錄本,再到轉錄本結構,如內含子區,外顯子區等。氨基酸和堿基(密碼子)的互相對應關系也用哈希表加以存儲,以便快速的進行氨基酸序列和堿基序列的轉換。
[0032]其次是待映射文件的數據類型判斷。通常,研究人員并未給出標準的基因名稱或轉錄本名稱,這個時候需要對提交的文件進行標化,達到標準注釋的格式以便進行下一步的映射。
[0033]最后是映射關系的計算:
[0034]對于蛋白水平的突變,讀入蛋白質水平突變結果后,根據氨基酸突變的位數,計算出相應CDS編碼區域發生突變的位置。因為氨基酸的簡并性,此過程會列出所有可能的CDS編碼區域突變,最后對這些CDS編碼區突變用參考序列所在位置的堿基來去除不匹配結果。過濾以后得到CDS突變。接下來根據CDS突變發生的位置,使用轉錄本結構注釋信息,找到突變點在基因組上的位點及堿基改變。
[0035]對于CDS編碼區水平的突變,根據CDS突變為位置可以從轉錄本對應的mRNA的序列文件的索引中計算該CDS區域對應的DNA序列,然后轉成把DNA序列通過堿基氨基酸關系表轉成相應的氨基酸序列,把突變前后的氨基酸序列比較,定位出氨基酸發生改變的位置及氨基酸的變化,從而映射出蛋白水平的突變結果,進一步,遍歷該基因結構注釋信息中的CDS區域,計算出發生改變的基因組位置及堿基改變,從而映射出基因組DNA水平的突變情況。
[0036]對于基因組DNA水平的突變結果,根據基因結構注釋文件中該基因的⑶S區域說明,計算出相應CDS編碼區突變發生的位置。然后把該段CDS的DNA序列根據區域注釋也提取出來并轉換成相應的氨基酸序列,最后得到相應的蛋白水平的改變情況。
[0037]映射的結果文件包含了基因組DNA,CDS編碼區(RNA)及蛋白質水平的突變對應關系。用戶可以根據需要將某一層面的突變結果統一應用到下一步的研究中。
[0038]本發明系統軟件設計說明如下:
[0039]運行平臺:Windows,Unix/Linux,MacOS
[0040]編程語言:Per I
[OO41 ]軟件依賴:需預先安裝Perl模塊Getopt:: Long
[0042]本系統軟件主要包含10段子程序:(l)workOnTransMutat1n,(2)getPInDel2protein(3)aminos2fasta,(4)getGInDel2protein,(5)getCInDel2protein,(6)fasta2amino,(7)getGenome2protein(8)getAmino2protein(9)getProtein2amino和
(10)getPos。這些子函數peri調用方式為&+函數名+(參數),其中workOnTransMutat1n,即讀取及索引判斷模塊,其余9個程序為映射模塊中的9個子單元。
[0043]workOnTransMutat1n:讀取基因輸入文件,格式化處理成標準名稱,索引轉錄本fasta序列、基因信息和基因轉錄本注釋信息、構建氨基酸密碼子對應關系表,判斷突變發生的水平,突變的模式,并根據突變模式調用其它子函數。
[0044]getPInDel2protein:將蛋白質水平突變中插入缺失突變,映射到⑶S編碼區堿基改變模式。
[0045]aminos2fasta:將氨基酸序列轉換成DNA堿基序列。
[0046]getGInDel2protein:將基因組水平突變中的插入缺失突變映射到CDS編碼區突變和蛋白水平變異結果。
[0047]getCInDeUprotein:將⑶S編碼區突變中的插入缺失突變映射到蛋白水平突變和基因組水平突變結果。
[0048]fasta2amino:將DNA序列轉換成氨基酸序列
[0049]getGenome2protein:將基因組突變中的單堿基突變映射到CDS編碼區和蛋白水平突變結果。
[0050]getAmin02pr0tein:將⑶S編碼區中突變的單堿基突變轉換成蛋白質水平的突變結果。
[0051 ] getProtein2amino:將蛋白水平的單氨基酸改變映射到⑶S編碼區堿基的改變。
[0052]ge tPo s:將⑶S編碼區突變中的單堿基突變映射出在基因組DNA序列上的位置。
[0053]詳細運行說明:
[0054]1、蛋白質水平突變映射
[0055]workOnTransMutat 1n、getProte in2amino、ge tPInDe 12prote in 主要用來映射蛋白水平的單氨基酸突變及氨基酸的插入缺失突變;對于蛋白水平的單氨基酸突變結果,首先索引該突變發生所在基因的所有轉錄本注釋信息及相應DNA序列信息。索引基因轉錄本注釋信息所用文件如圖2所示。轉錄本對應的mRNA的序列文件如圖3所示。該轉錄本注釋及序列的原始文件需要從REFSEQ數據庫的FTP server中獲取。
[0056]輸入的待映射文件,如圖4所示,應至少含有基因名或轉錄本名(示例第一例),氨基酸突變結果(示例第二列)。
[0057]調用軟件計算映射結果方式為peri+本軟件名.pi+參數列表;在參數列表中:一input為輸入的待映射文件名,一col_gene為該文件中基因或轉錄本名所在列,一col_mut為該文件中蛋白質水平突變結果所在列,一anno為基因或轉錄本注釋文件一fasta為基因或轉錄本相應的mRNA序列文件。讀入蛋白質水平突變結果后,根據氨基酸突變的位數,計算出相應CDS編碼區域發生突變的位置。因為氨基酸的簡并性,此過程會列出所有可能的CDS編碼區域突變,最后對這些CDS編碼區突變用參考序列所在位置的堿基來去除不匹配結果。過濾以后得到CDS突變。接下來根據CDS突變發生的位置,使用轉錄本結構注釋信息,找到突變點在基因組上的位點及堿基改變。輸出結果如圖5所示。
[0058]2、基因組DNA水平突變映射
[0059]workOnTransMutat 1n、getGenome2prote in、getGInDe 12prote in主要用來映射基因組DNA上單堿基突變及小片段插入缺失突變到CDS編碼區突變結果和蛋白水平突變結果。輸入待映射的DNA水平突變文件如圖6所示,應至少含有基因名或轉錄本名(示例第一例),基因組DNA突變結果(示例第二列)。
[0060]映射的過程首先索引該突變發生所在基因的所有轉錄本注釋信息及相應DNA序列信息。索引基因轉錄本注釋信息所用文件如圖2所示。轉錄本對應的mRNA的序列文件如圖3所示。該轉錄本注釋及序列的原始文件需要從REFSEQ數據庫的FTP server中獲取。軟件調用及參數說明如I中映射蛋白水平突變的方式相一致。
[0061]接下來映射的步驟為,首先得到基因組位置后,根據基因結構注釋文件中該基因的CDS區域說明,計算出相應CDS編碼區突變發生的位置。然后把該段CDS的DNA序列根據區域注釋也提取出來并轉換成相應的氨基酸序列,最后得到相應的蛋白水平的改變情況。輸出結果如圖5所不。
[0062]3、⑶S編碼區突變映射
[0063]CD S編碼區突變映射主要由 workOnTransMu tat1n、getCInDel2protein、getAmin02pr0tein完成。映射的突變主要為⑶S編碼區上單堿基突變及小片段插入缺失突變。輸入待映射的CDS編碼區突變文件如圖7所示,應至少含有基因名或轉錄本名(示例第一例),CDS編碼區突變結果(示例第二列)。
[0064]映射的過程首先需要索引該突變發生所在基因的所有轉錄本注釋信息及相應DNA序列信息。索引基因轉錄本注釋信息所用文件如圖2所示。轉錄本對應的mRNA的序列文件如圖3所示。該轉錄本注釋及序列的原始文件需要從REFSEQ數據庫的FTP server中獲取。軟件調用及參數說明如I中映射蛋白水平突變的方式相一致。
[0065]映射的具體步驟為:首先已知CDS突變發生的位置及突變的堿基變化,根據CDS突變為位置可以從轉錄本對應的mRNA的序列文件的索引中計算該CDS區域對應的DNA序列,然后轉成把DNA序列通過堿基氨基酸關系表轉成相應的氨基酸序列,把突變前后的氨基酸序列比較,定位出氨基酸發生改變的位置及氨基酸的變化,從而映射出蛋白水平的突變結果。進一步,遍歷該基因結構注釋信息中的CDS區域,計算出發生改變的基因組位置及堿基改變,從而映射出基因組DNA水平的突變情況。輸出結果如圖5所示。
[0066]實際應用舉例
[0067]1、數據簡介
[0068]從PubMed文章中手工挖掘常見遺傳病的風險突變位點如圖8所示,利用患者的全外顯子測序結果和生物信息突變(單堿基突變和小片段插入缺失)挖掘工具及流程可以到的相應的突變注釋結果,一般為基因DNA水平的突變。而文獻研究人員常采用的突變描述方式為CDS編碼區突變和蛋白水平突變結果。因此這里應用文獻挖掘的結果,需要先對搜集的突變映射到基因DNA水平的突變。
[0069]2、軟件運行結果
[0070]映射的結果文件包含了基因組DNA,CDS編碼區(RNA)及蛋白質水平的突變對應關系,如圖9所示。
[0071]以上所述僅為本發明的較佳實施例而已,并不用以限制本發明,凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。
【主權項】
1.一種DNA及蛋白質水平突變分析系統,其特征在于,包括: 讀取及索引判斷模塊,用于讀取基因突變文件,格式化處理成標準名稱;索引轉錄本序列、基因信息和基因轉錄本注釋信息、構建氨基酸密碼子對應關系表;判斷突變發生的水平、突變的模式;判斷突變命名是蛋白質水平突變或是基因組DNA水平突變或是CDS編碼區突變; 映射模塊,用于根據讀取及索引判斷模塊的判斷結果,分別進入不同的水平突變映射流程,得到三種突變命名的映射關系; 所述映射模塊連接所述讀取及索弓I判斷模塊。2.根據權利要求1所述的一種DNA及蛋白質水平突變分析系統,其特征在于,所述映射模塊包括蛋白質水平突變映射單元、基因組DNA水平突變映射單元、CDS編碼區突變映射單元;分別控制蛋白質水平突變映射流程、基因組DNA水平突變映射流程、CDS編碼區突變映射流程。3.根據權利要求2所述的一種DNA及蛋白質水平突變分析系統,其特征在于,所述蛋白質水平突變映射單元包括getProtein2amino子單元,用于將蛋白水平的單氨基酸改變映射到⑶S編碼區堿基的改變;還包括getPInDel2protein子單元,用于將蛋白質水平突變中插入缺失突變,映射到CDS編碼區堿基改變模式;還包括getPos子單元,用于將CDS編碼區突變中的單堿基突變映射出在基因組DNA序列上的位置。4.根據權利要求2所述的一種DNA及蛋白質水平突變分析系統,其特征在于,所述基因組0嫩水平突變映射單元包括86丨661101116 2。1'0丨6;[11子單元、86丨61110612。1'0丨6;[11子單元、fasta2amino子單元;所述getGenome2protein子單元用于將基因組突變中的單堿基突變映射到⑶S編碼區和蛋白水平突變結果;所述getGInDel2protein子單元用于將基因組水平突變中的插入缺失突變映射到CDS編碼區突變和蛋白水平變異結果;所述fasta2amino子單元用于將DNA序列轉換成氨基酸序列。5.根據權利要求2所述的一種DNA及蛋白質水平突變分析系統,其特征在于,所述CDS編碼區突變映射單元包括getCInDel2protein子單元、getAmino2protein子單元、aminos2fasta子單元,所述getCInDel2protein子單元用于將⑶S編碼區突變中的插入缺失突變映射到蛋白水平突變和基因組水平突變結果;所述getAmino2protein子單元用于將CDS編碼區中突變的單堿基突變轉換成蛋白質水平的突變結果;所述aminos2fasta子單元用于將氨基酸序列轉換成DNA堿基序列。
【文檔編號】G06F19/18GK106021980SQ201610318327
【公開日】2016年10月12日
【申請日】2016年5月13日
【發明人】薛成海, 龔永輝, 劉宇
【申請人】萬康源(天津)基因科技有限公司