一種dna及蛋白質水平突變分析方法
【專利摘要】本發明提供了一種DNA及蛋白質水平突變分析方法,包括以下步驟:1)1)讀取基因突變文件,格式化處理成標準名稱;2)索引轉錄本序列、基因信息和基因轉錄本注釋信息、構建氨基酸密碼子對應關系表;3)判斷突變發生的水平、突變的模式;判斷突變命名是蛋白質水平突變或是基因組DNA水平突變或是CDS編碼區突變;4)根據步驟3)的判斷結果,分別進入不同的水平突變映射流程,得到三種突變命名的映射關系。本發明承接文獻挖掘的表型相關基因突變和多態位點,輸出多種突變命名的映射關系,以達到完成注釋文獻挖掘的致病變異與測序識別的基因突變和多態位點間對應等目的。
【專利說明】
一種DNA及蛋白質水平突變分析方法
技術領域
[0001]本發明屬于基因信息數據處理領域,特別是涉及到一種DNA及蛋白質水平突變分析方法。【背景技術】
[0002]在Watson和Crick發現DNA雙螺旋結構后的50多年里,探索基因變異在研究人類疾病的發生發展及預防治療中扮演了重要角色,人類基因組計劃的完成更為疾病和表型相關基因變異的識別開辟了廣闊的空間。近年來從微陣列芯片、sanger測序到現在的高通量測序,隨著技術的進步,越來越多的基因變異和多態位點被檢測出來。它們從分子水平上揭示疾病和眾多表型的機制,為解開生命奧秘及征服疾病帶來新希望。
[0003]然而,不同研究人員識別的基因突變和多態位點在命名上缺乏統一的表示,如抑癌基因TP53在基因組位置7579553處發生了T到A堿基的突變,有的直接采用基因組位置作為標示加以命名(TP53: g.7579553T>A),有的采用基因編碼區域的變異進行命名(TP53: c.134T>A),還有的采用最終的蛋白水平的變異結果進行命名(TP53:p.L45Q)。即使在同一蛋白水平的突變描述上,識別基因突變或多態時參考基因序列的不同也導致了最終命名不同,甚至混淆以致無法使用,例如僅對TP53基因的L45Q突變,不同研究采用的參考轉錄本就涉及了匪_001126112、匪_000546、匪_001126113和匪_001126114。這種不同水平的命名方式最終導致后來的研究人員很難基于前人的研究成果進行有效且準確地進行統一的分析和注釋。例如在文獻挖掘先前已報道的人類乳腺癌相關的基因突變和多態位點,找到4000 多篇PubMed文獻,共挖掘出3600多種基因突變和多態位點,但是缺乏一致的基因命名方式, 很難應用這些文獻挖掘的結果到下一步的分析中。
[0004]近年來,下一代測序技術應用的越來越普遍,大量的生物信息分析軟件隨之產生。 在此背景之下,研究人員能快速利用現有成熟的生物信息分析軟件及流程對海量的基因組測序數據進行解析,如識別基因突變及多態位點。借助前人的研究,快速準確的進一步解讀注釋這些突變才能加以應用,如應用到精準醫療中,進行疾病的個性化用藥、診斷治療等。 由于大量的先前研究對基因突變的命名不存在統一的標準,很難對解析的結果進一步的注釋和解讀。
【發明內容】
[0005]有鑒于此,本發明提出一種DNA及蛋白質水平突變分析方法,承接文獻挖掘的表型相關基因突變和多態位點,輸出多種突變命名的映射關系,以達到完成注釋文獻挖掘的致病變異與測序識別的基因突變和多態位點間對應等目的。
[0006]為達到上述目的,本發明的技術方案是這樣實現的:一種DNA及蛋白質水平突變分析方法,包括以下步驟:
[0007]1)讀取基因突變文件,格式化處理成標準名稱;
[0008]2)索引轉錄本序列、基因信息和基因轉錄本注釋信息、構建氨基酸密碼子對應關系表;
[0009]3)判斷突變發生的水平、突變的模式;判斷突變命名是蛋白質水平突變或是基因組DNA水平突變或是CDS編碼區突變;
[0010]4)根據步驟3)的判斷結果,分別進入不同的水平突變映射流程,得到三種突變命名的映射關系。
[0011]進一步的,步驟1)所述格式化處理成標準名稱,方法為:
[0012]101)判斷基因突變文件含有的是基因名還是轉錄本名;[〇〇13]102)含有基因名則進入步驟2);
[0014]103)含有轉錄本名則去除轉錄本版本號后轉基因名,進入步驟2)。
[0015]進一步的,步驟2)所述構建氨基酸密碼子對應關系表的步驟為:
[0016]201)構建基因名與轉錄本名之間的映射關系;
[0017]202)提取轉錄本的CDS編碼區位置及堿基序列并映射相應的氨基酸密碼子序列。
[0018]進一步的,步驟4)中,突變命名為蛋白質水平突變的映射流程為:
[0019]401)讀入蛋白質水平突變結果后,根據氨基酸突變的位數,計算出相應CDS編碼區域發生突變的位置;
[0020]402)上一步驟會列出所有可能的⑶S編碼區域突變,對這些⑶S編碼區突變用參考序列所在位置的堿基來去除不匹配結果,過濾以后得到CDS編碼區域突變位置;
[0021]403)根據⑶S突變發生的位置,使用轉錄本結構注釋信息,找到突變點在基因組上的位點及堿基改變。[〇〇22]進一步的,步驟4)中,突變命名為基因組DNA水平突變的映射流程為:[〇〇23]411)對于基因組DNA水平的突變結果,根據基因結構注釋文件中該基因的⑶S區域說明,計算出相應CDS編碼區突變發生的位置;[〇〇24]412)把該段CDS的DNA序列根據區域注釋提取出來并轉換成相應的氨基酸序列,最后得到相應的蛋白質水平的改變情況。
[0025]進一步的,步驟4)中,突變命名為CDS編碼區突變的映射流程為:[〇〇26]421)已知CDS突變發生的位置及突變的堿基變化,根據CDS突變為位置從轉錄本對應的mRNA的序列文件的索引中計算該CDS區域對應的DNA序列;[〇〇27]422)把DNA序列通過堿基氨基酸關系表轉成相應的氨基酸序列,把突變前后的氨基酸序列比較,定位出氨基酸發生改變的位置及氨基酸的變化,從而映射出蛋白水平的突變結果;[〇〇28]423)遍歷該基因結構注釋信息中的⑶S區域,計算出發生改變的基因組位置及堿基改變,從而映射出基因組DNA水平的突變情況。
[0029]相對于現有技術,本發明所述的一種DNA及蛋白質水平突變分析方法具有以下優勢:
[0030]本發明以基因突變文件作為輸入,經過自動識別,判斷突變命名是在DNA、RNA還是蛋白質水平,進而通過REFSEQ的基因轉錄本注釋文件和序列注釋文件進行判定突變在各個水平發生的位置和堿基及氨基酸改變。本發明承接文獻挖掘的表型相關基因突變和多態位點,輸出多種突變命名的映射關系,以達到完成注釋文獻挖掘的致病變異與測序識別的基因突變和多態位點間對應等目的。【附圖說明】
[0031]構成本發明的一部分的附圖用來提供對本發明的進一步理解,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中:[〇〇32]圖1為本發明的方法流程示意圖。
[0033]圖2為本發明實施例的遺傳病的風險突變位點文件。
[0034]圖3為本發明實施例的映射結果文件。【具體實施方式】
[0035]需要說明的是,在不沖突的情況下,本發明的實施例及實施例中的特征可以相互組合。[〇〇36]下面將參考附圖并結合實施例來詳細說明本發明。[〇〇37]本發明的原理說明:
[0038]不同水平突變的映射,實際上就是不同層面的位置定位和突變結果計算,針對不同水平的突變,需要采取不同的映射方式和步驟。本發明主要針對雜亂的不同層面的突變命名無法直接進行統一應用的情況,把所有層面的突變結果關系映射出來,方便對突變結果的進一步使用。[〇〇39]如圖1所示,具體步驟如下:[〇〇4〇]首先,是基因轉錄本結構和序列以及氨基酸和堿基關系的索引。REFSEQ是一個穩定常用的基因注釋數據庫,采用其提供的基因機構注釋文件和序列文件構建哈希表,達到從快速地從基因定位轉錄本,再到轉錄本結構,如內含子區,外顯子區等。氨基酸和堿基(密碼子)的互相對應關系也用哈希表加以存儲,以便快速的進行氨基酸序列和堿基序列的轉換。
[0041]其次是待映射文件的數據類型判斷。通常,研究人員并未給出標準的基因名稱或轉錄本名稱,這個時候需要對提交的文件進行標化,達到標準注釋的格式以便進行下一步的映射。
[0042]最后是映射關系的計算:
[0043]對于蛋白水平的突變,讀入蛋白質水平突變結果后,根據氨基酸突變的位數,計算出相應CDS編碼區域發生突變的位置。因為氨基酸的簡并性,此過程會列出所有可能的CDS 編碼區域突變,最后對這些CDS編碼區突變用參考序列所在位置的堿基來去除不匹配結果。 過濾以后得到CDS突變。接下來根據CDS突變發生的位置,使用轉錄本結構注釋信息,找到突變點在基因組上的位點及堿基改變。
[0044]對于CDS編碼區水平的突變,根據CDS突變為位置可以從轉錄本對應的mRNA的序列文件的索引中計算該CDS區域對應的DNA序列,然后轉成把DNA序列通過堿基氨基酸關系表轉成相應的氨基酸序列,把突變前后的氨基酸序列比較,定位出氨基酸發生改變的位置及氨基酸的變化,從而映射出蛋白水平的突變結果,進一步,遍歷該基因結構注釋信息中的 CDS區域,計算出發生改變的基因組位置及堿基改變,從而映射出基因組DNA水平的突變情況。
[0045]對于基因組DNA水平的突變結果,根據基因結構注釋文件中該基因的⑶S區域說明,計算出相應CDS編碼區突變發生的位置。然后把該段CDS的DNA序列根據區域注釋也提取出來并轉換成相應的氨基酸序列,最后得到相應的蛋白水平的改變情況。[〇〇46]映射的結果文件包含了基因組DNA,CDS編碼區(RNA)及蛋白質水平的突變對應關系。用戶可以根據需要將某一層面的突變結果統一應用到下一步的研究中。[〇〇47]實施上述方法的具體實例如下:[〇〇48]從PubMed文章中手工挖掘常見遺傳病的風險突變位點如圖2所示,利用患者的全外顯子測序結果和生物信息突變(單堿基突變和小片段插入缺失)挖掘工具及流程可以到的相應的突變注釋結果,一般為基因DNA水平的突變。而文獻研究人員常采用的突變描述方式為CDS編碼區突變和蛋白水平突變結果。因此這里應用文獻挖掘的結果,需要先對搜集的突變映射到基因DNA水平的突變。[〇〇49]根據上述方法,得到映射的結果文件包含了基因組DNA,CDS編碼區(RNA)及蛋白質水平的突變對應關系,如圖3所示。
[0050]以上所述僅為本發明的較佳實施例而已,并不用以限制本發明,凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。
【主權項】
1.一種DNA及蛋白質水平突變分析方法,其特征在于,包括以下步驟:1)讀取基因突變文件,格式化處理成標準名稱;2)索引轉錄本序列、基因信息和基因轉錄本注釋信息、構建氨基酸密碼子對應關系表;3)判斷突變發生的水平、突變的模式;判斷突變命名是蛋白質水平突變或是基因組DNA 水平突變或是CDS編碼區突變;4)根據步驟3)的判斷結果,分別進入不同的水平突變映射流程,得到三種突變命名的 映射關系。2.根據權利要求1所述的一種DNA及蛋白質水平突變分析方法,其特征在于,步驟1)所 述格式化處理成標準名稱,方法為:101)判斷基因突變文件含有的是基因名還是轉錄本名;102)含有基因名則進入步驟2);103)含有轉錄本名則去除轉錄本版本號后轉基因名,進入步驟2)。3.根據權利要求1所述的一種DNA及蛋白質水平突變分析方法,其特征在于,步驟2)所 述構建氨基酸密碼子對應關系表的步驟為:201)構建基因名與轉錄本名之間的映射關系;202)提取轉錄本的CDS編碼區位置及堿基序列并映射相應的氨基酸密碼子序列。4.根據權利要求1所述的一種DNA及蛋白質水平突變分析方法,其特征在于,步驟4)中, 突變命名為蛋白質水平突變的映射流程為:401)讀入蛋白質水平突變結果后,根據氨基酸突變的位數,計算出相應CDS編碼區域發 生突變的位置;402)上一步驟會列出所有可能的CDS編碼區域突變,對這些CDS編碼區突變用參考序列 所在位置的堿基來去除不匹配結果,過濾以后得到CDS編碼區域突變位置;403)根據CDS突變發生的位置,使用轉錄本結構注釋信息,找到突變點在基因組上的位 點及堿基改變。5.根據權利要求1所述的一種DNA及蛋白質水平突變分析方法,其特征在于,步驟4)中, 突變命名為基因組DNA水平突變的映射流程為:411)對于基因組DNA水平的突變結果,根據基因結構注釋文件中該基因的CDS區域說 明,計算出相應CDS編碼區突變發生的位置;412)把該段CDS的DNA序列根據區域注釋提取出來并轉換成相應的氨基酸序列,最后得 到相應的蛋白質水平的改變情況。6.根據權利要求1所述的一種DNA及蛋白質水平突變分析方法,其特征在于,步驟4)中, 突變命名為CDS編碼區突變的映射流程為:421)已知CDS突變發生的位置及突變的堿基變化,根據CDS突變為位置從轉錄本對應的 mRNA的序列文件的索引中計算該CDS區域對應的DNA序列;422)把DNA序列通過堿基氨基酸關系表轉成相應的氨基酸序列,把突變前后的氨基酸 序列比較,定位出氨基酸發生改變的位置及氨基酸的變化,從而映射出蛋白水平的突變結 果;423)遍歷該基因結構注釋信息中的CDS區域,計算出發生改變的基因組位置及堿基改 變,從而映射出基因組DNA水平的突變情況。
【文檔編號】G06F19/18GK106021983SQ201610319389
【公開日】2016年10月12日
【申請日】2016年5月13日
【發明人】薛成海, 龔永輝, 王曉君
【申請人】萬康源(天津)基因科技有限公司