數據解析裝置及其方法
【技術領域】
[0001]本發明涉及一種DNA序列的數據解析裝置,尤其涉及一種從大規模并行型DNA序列裝置得到的DNA序列數據的解析技術。
【背景技術】
[0002]對于癌、生活習慣病或遺傳病等,作為所謂的個別化醫療,需要選擇適于患者個人的治療方法,或為了進行恢復后的預測而調查患者個人的遺傳性背景。因此,進行染色體組或轉錄物組(轉寫產物)等的DNA (deoxyribonucleic acid,脫氧核糖核酸)序列解析。在此時所使用的DNA序列裝置中,只能得到被片段化的較短的DNA序列。因此,與較長的參照染色體組序列相比,需要調查得到的片段序列是染色體組的哪個部分,并且進行用于調查這里所包含的單核苷酸變異(SNP,Single Nucleotide Polymorphism)或插入/缺失等變異的數據處理。一般,將這樣的數據處理稱為匹配處理。
[0003]在所謂的被稱為下一代型DNA測序器的大規模并行型DNA測序器中,在I次的測量中能夠得到數億個以上的較短的100堿基程度的較長的片段序列(前導)。此外,人的情況下,參照染色體組序列的長度約為3千兆堿基(30億堿基)。在匹配處理中,將這些前導序列與參照染色體組序列一個一個進行比較來確定對應的位置,確定這里包含的變異。這些需要非常大的計算成本,因此開發并利用專用的高效的算法。代表性的方法是將參照染色體組序列通過 Burrows-Wheeler 變換(BWT, Burrows-Wheeler Transformat1n)(非專利文獻I)進行數據庫化,將前導序列內的較短堿基序列作為檢索關鍵詞進行檢索,在匹配的區域的前后考慮序列錯誤或變異的可能性而進行比對(非專利文獻2)。
[0004]一般,在下一代型DNA測序器中產生I %程度的讀取錯誤,此外,在較大的染色體組區域中,分散存在多個類似的序列。因此,在每一個前導的匹配結果中存在產生錯誤的可能性。例如,對于某前導序列,在參照染色體組序列內沒有完全一致的區域,但假設少數序列錯誤時,有時能夠發現多處對應的染色體組區域。該情況下,選擇哪個區域存在任意性,且該判斷依賴匹配處理的探索方法。因此,為了準確地進行變異解析,在后續的處理,即下游的處理中,進行比較多個前導的匹配結果而采用多數決定的再匹配處理(非專利文獻3)。因此,在進行所有染色體組解析的情況下,通常,對能夠覆蓋染色體組整體數十倍的序列量(數十千兆堿基以上)進行排序。此外,在匹配目的地存在任意性時可能產生依存于匹配處理的偏差,因此比較多個種類的匹配工具的結果,還要確認沒有產生這樣的偏差。另夕卜,作為與以上的技術關聯的專利文獻,例如有專利文獻I。
[0005]現有技術文獻
[0006]專利文獻
[0007]專利文獻1:日本特開2003 - 330934號公報
[0008]非專利文獻
[0009]非專利文獻1:M.Burrows and D.Wheeler:A block-sorting lossless datacompress1n algorithm.Technical Report 124,Digital Equipment Corporat1n, 1994.
[0010]非專利文獻2:Li H.and Durbin R.(2009) Fast and accurate short readalignment with Burrows-WheeIer Transform.B1informatics, 25:1754-60.
[0011]非專利文獻3:McKenna A,Hanna M,Banks Ej Sivachenko A,CibulskisKj Kernytsky A, Garimella Kj Altshuler Dj Gabriel S,Daly Mj DePristo MA(2010).TheGenome Analysis Toolkit:a MapReduce framework for analyzing next-generat1n DNAsequencing data.Genome Res.20:1297-303.
[0012]非專利文獻4:Mantaci,S.,Restivo,A.;Sc1rtino, M: “An extens1n ofthe Burrows Wheeler transform to k words.,,Data Compress1n Conference, 2005.Proceedings.DCC 2005.
[0013]非專利文獻5:Markus J.Bauer, Anthony J.Coxj Gi ovannaRosone: “Light-weight BWT Construct1n for Very Large StringCollect1ns, ^ Combinatorial Pattern Matching, Lecture Notes in ComputerScienceVolume 6661,2011,pp 219-231
[0014]非專利文獻6:Paolo Ferraginaj Travis Gagiej G1vanniManzin1: “Light-weight Data Indexing and Compress1n in ExternalMemory, ^Algorithmicaj July 2012,Volume 63,Issue 3,pp 707-730.
[0015]非專利文獻7:Kimura Kj Suzuki Y,Sugano S,Koike A: “Computat1n of rankand select funct1ns on hierarchical binary string and its applicat1n togenome mapping problems for short-read DNA sequences,,,J Comput B1l.2009Nov ;16(11):1601-13.
[0016]非專利文獻8:Ge Nong ;Sen Zhang ;Wai Hong Chan ;,"Linear Suffix ArrayConstruct1n by Almost Pure Induced-Sortingj〃Data Compress1n Conference, 2009.DCC ^09.,vol.,n0.,pp.193-202,16-18March 2009
【發明內容】
[0017]發明要解決的課題
[0018]在上述的下游處理中,為了得到較高的精度需要較大的計算成本,因此不能一并處理從DNA測序器得到的所有前導。因此,利用采用了高效的算法的匹配處理的結果,在要關注的基因區域選擇出認為區域引起的可能性較高的前導序列,而對這些進行下游解析。
[0019]此外,在另一方面,已知的有:將通過前導長度較長(500堿基程度以上)、前導數量較少的(100個程度)的毛細管型DNA測序器進行多次解析而得到的前導序列數據數據庫化,將染色體組內所關注的基因區域的序列作為查詢進行同源性檢索,對得到的前導序列進行多重比對而進行細菌的識別的方法(專利文獻I)。然而,將人染色體組通過下一代型DNA測序器進行解析時的數據量巨大,達到幾十千兆堿基以上,因此在實際運用所能承受的計算時間內不能進行同源性檢索。
[0020]在進行人的所有染色體組解析的情況下,前導序列數據量多得總序列量達到幾十千兆堿基,因此盡管采用高效的算法,匹配處理的計算成本也較大,從而存在降低該計算成本的問題。
[0021]此外,通過序列錯誤的處理方法在匹配目的地中存在任意性的情況下,在匹配處理中使用探索方法從其中選擇匹配目的地表示產生依存于匹配處理的偏差。存在如下的問題:提供一種避免這樣的探索方法的判斷,無論哪個匹配目的地都能夠等價使用的中立的處理方法。
[0022]當前,人的參照染色體組序列除了人白血球抗原(Human LeukocyteAntigen:HLA)區域等特殊的區域外,只有一種。但是,如果準備多種參照染色體組序列,則能夠從中選擇適于患者所屬的人種群的序列而進行更精密的變異解析。對所有前導序列和參照染色體組序列的組合進行匹配處理,因此變更參照染色體組表示重新進行所有的匹配處理。因此,存在如下的問題:分別獨立處理所有前導序列和參照染色體組序列,能夠抑制變換其組合來進行解析時的計算成本的增加。
[0023]本發明的目的是提供一種至少解決一個上述課題,而能夠降低匹配處理的計算成本或能夠進行中立的處理的數據解析裝置及其方法。
[0024]用于解決問題的手段
[0025]為了實現上述目的,在本發明的具備處理部和存儲部的數據解析裝置中,存儲部存儲將染色體組序列數據數據庫化后的染色體組序列數據庫和將前導序列數據數據庫化后的前導序列數據庫,處理部根據特定的解析對象的染色體組區域的序列來選擇檢索用堿基序列即關鍵序列;求出位于如導序列數據庫中的關鍵序列的株度;提取包含位于如導序列數據庫中的關鍵序列的前導序列數據,比較提取出的前導序列數據與染色體組區域的序列來進行數據解析。
[0026]此外,為了實現上述目的,在本發明的數據解析裝置的處理部的數據解析方法中,使用將染色體組序列數據以能夠檢索的形式數據庫化后的染色體組序列數據庫和將前導序列數據以能夠檢索的形式數據庫化后的前導序列數據庫;根據特定的解析對象的染色體組區域的序列來選擇檢索用堿基序列即關鍵序列;求出位于前導序列數據庫中的關鍵序列的深度;提取包含位于前導序列數據庫中的關鍵序列的前導序列數據,比較提取出的前導序列數據與染色體組區域的序列來進行數據解析。
[0027]發明效果
[0028]根據本發明的解析裝置及其方法,能夠抑制計算成本。此外,不會發生依存于處理方法的偏差,而能夠進行中立的處理。
【附圖說明】
[0029]圖1是表示實施例1的用于進行變異解析的處理順序的流程圖。
[0030]圖2是用于說明實施例1的通過序列比較來判定有無變異的方法的說明圖。
[0031]圖3是表示實施例1的根據MLU和深度來推定有無變異的方法的流程圖。
[0032]圖4是對實施例1的由長度不一的多個前導序列構成的數據定義被一般化的Burrows-Wheeler 變換(BWT)的說明圖。
[0033]圖5 是表不實施例1 的使用 SLCP (sorted list of cyclic permutat1ns,循環序列分類表)來計算字符串w的深度D(w)的方法的說明圖。
[0034]圖6是說明實施例1的利用BWT時所使用的輔助函數的說明圖。
[0035]圖7是實施例1的計算針對檢索關鍵序列的深度的流程圖。
[0036]圖8是表不實施例1的將包含關鍵序列的所有如導序列根據位于關鍵序列的左方的堿基進行分類來求出相應的前導序列的數量的方法的流程圖。
[0037]圖9是表示實施例1的BWT的計算方法的流程圖。
[0038]圖10是表示實施例1的從舊字符串向新字符串的轉記方法的說明圖。
[0039]圖11是表示實施例1的染色體組序列DB和前導序列DB的結構的說明圖。
[0040]圖12是表示實施例1的染色體組坐標X處的MLU值L (x)的計算方法的流程圖。
[0041]圖13是表示實施例2的從所關注的基因區域中,根據MLU和深度來