堿基序列比對系統及方法
【專利摘要】本發明公開一種堿基序列比對系統及方法。根據本發明的一個實施例的堿基序列比對系統,包括:片段序列生成單元,用于由短片段生成多個片段(fragment)序列;篩選單元,用于構成只包含生成的所述多個片段序列當中與參考序列相匹配的片段序列的候選片段序列集合;映射個數計算單元,將所述參考序列劃分為多個區間,并計算所述多個區間各自的所述候選片段序列的總映射個數;比對單元,選擇計算出的所述總映射個數為基準個數以上的區間,并對選擇的區間執行針對所述短片段的全局比對(global?alignment)。
【專利說明】堿基序列比對系統及方法
【技術領域】
[0001]本發明的實施例涉及一種用于分析基因組的堿基序列的技術。
【背景技術】
[0002]用于生產高容量短序列的第二代測序方式(NGS:Next Generation Sequencing)因其低廉的成本和迅速生成數據的能力而正在迅速地替代傳統的桑格(Sanger)測序方式。并且,開發出了多種聚焦于準確度的NGS序列重組程序。然而,近來隨著第二代測序技術的發展,制作片段序列的費用降低為過去的一半以下,隨之可用數據的量增加,因此需要開發一種能夠在短時間內準確地處理高容量短序列的技術。
[0003]序列重組的第一個步驟為通過堿基序列比對(alignment)算法而將短片段映射(mapping)于參考序列的正確位置上。其中的問題在于即使是同種個體,也可能因多種遺傳性變異而導致基因組序列上的差異。而且,測序過程中的誤差也可能導致堿基序列上的差異。因此,堿基序列比對算法必須有效考慮這種差異和變異而提高映射準確度。
[0004]總而言之,為了對基因組信息進行分析,需要盡量多而準確的所有基因組信息數據。而且,為了達到這一目的,首先是要開發出具有很高的準確度和較大處理量的堿基序列比對算法。然而,現有技術中的方法在滿足這些需求條件方面存在局限性。
【發明內容】
[0005]本發明實施例的目的在于提供一種可在確保映射準確度的同時通過改善映射時的復雜度而提高處理速度的堿基序列比對方案。
[0006]為了解決如上所述的技術問題,根據本發明一個實施例的堿基序列比對系統包括:片段序列生成單元,用于由短片段生成多個片段(fragment)序列;篩選單元,用于構成只包含所生成的所述多個片段序列當中與參考序列相匹配的片段序列的候選片段序列集合;映射個數計算單元,將所述參考序列劃分為多個區間,并計算所述多個區間各自的所述候選片段序列的總映射個數;比對單元,選擇計算出的所述總映射個數為基準個數以上的區間,并對所選擇的區間執行針對所述短片段的全局比對(global alignment)。
[0007]另外,為了解決如上所述的技術問題,根據本發明一個實施例的堿基序列比對方法包括如下步驟:在片段序列生成單元中,由短片段生成多個片段(fragment)序列;在篩選單元中,構成只包含所生成的所述多個片段序列當中與參考序列相匹配的片段序列的候選片段序列集合;在映射個數計算單元中,將所述參考序列劃分為多個區間,并按所述多個區間分別計算所述候選片段序列的總映射個數;在比對單元中,選擇計算出的所述總映射個數為基準個數以上的區間,并對所選擇的區間執行針對所述短片段的全局比對(globalalignment)。
[0008]根據本發明的實施例,由于在進行短片段的比對時不再只是考慮短片段的特定區域,而是通過考慮整個短片段而選擇種子序列(片段序列),因此與只考慮短片段的一部分的算法相比,可以提高準確度。[0009]而且,限制各片段序列在參考序列內的重復數,而對于超過該重復數的種子序列則使種子序列的長度擴增,從而具有可提高映射準確度的同時還可以加快速度的效果。
[0010]并且,通過將參考序列劃分為多個區域之后在其中選擇短片段被映射的可能性較高的特定區域,并只在對應區域內執行全局比對(Global Alignment),從而可以大幅度減少全局比對時間。
[0011]而且,省去尋找由短片段導出的片段序列的映射位置與組合的復雜過程,代之以直接對構成組合的可能性較高的片段序列執行全局比對,從而可以進一步提高全局比對速度,并通過存儲全局比對位置而避免在對應位置周圍重復執行全局比對,從而可以減少不必要的全局比對次數。
【專利附圖】
【附圖說明】
[0012]圖1為用于說明根據本發明一個實施例的堿基序列比對方法100的圖。
[0013]圖2為用于舉例說明根據本發明一個實施例的堿基序列比對方法100的步驟108中的最小誤差估計值(MEB) e計算過程的圖。
[0014]圖3為用于說明根據本發明一個實施例的堿基序列比對方法100的步驟112中的片段序列生成過程的圖。
[0015]圖4為用于舉例說明根據本發明一個實施例的參考序列內的映射對象區間選擇過程的圖。
[0016]圖5為用于說明根據本發明一個實施例的用于減少全局比對過程中不必要的全局比對次數的方法的示例圖。
[0017]圖6為示出根據本發明一個實施例的堿基序列比對系統600的模塊圖。
[0018]符號說明:
[0019]600:堿基序列比對系統602:片段序列生成單元
[0020]604:篩選單元606:映射個數計算單元
[0021]608:比對單元610:片段序列擴增單元
【具體實施方式】
[0022]以下,參照【專利附圖】
【附圖說明】本發明的【具體實施方式】。然而這僅僅是示例,本發明并不局限于此。
[0023]在對本發明進行說明時,如果遇到對有關本發明的公知技術的具體說明有可能不必要地干擾本發明的主旨的情況,則省略其詳細說明。并且,后述的術語均為考慮本發明中的功能而進行定義的,其可能因使用者、運用人員的意圖或習慣等而有所不同。因此,要以整個說明書的內容為基礎對其進行定義。
[0024]本發明的技術思想由權利要求書確定,以下的實施例只是為了將本發明的技術思想有效地傳遞給本發明所屬【技術領域】中具有普通知識的人員而采用的一種手段。
[0025]在對本發明的實施例進行具體說明之前,首先對本發明中使用的術語進行如下說明。
[0026]首先,“短片段(read)序列”(或者簡稱“短片段”)是指基因組測序儀(genomesequencer)中輸出的長度較短的堿基序列數據。短片段的長度因基因組測序儀的種類而不同,通常構成為35?500bp(base pair)范圍的多種長度,在DNA堿基的情況下,通常用字母A、C、G、T表示。
[0027]“參考序列(reference sequence)"指可對利用所述短片段形成整個堿基序列提供參考的堿基序列。在堿基序列分析中,通過將基因組測序儀所輸出的大量短片段參照參考序列進行映射而完成整個堿基序列。在本發明中,所述參考序列既可以是堿基序列分析時預先設定的序列(例如人類的整個堿基序列等),或者也可以將基因組測序儀中產生的堿基序列使用為參考序列。
[0028]“堿基(base)”為構成參考序列及短片段的最小單位。如前所述,構成DNA的堿基可由A、C、G、T等四個字母表示的堿基構成,將這些分別稱為堿基。換言之,對于DNA而言,可用四種堿基表示,短片段也是如此。
[0029]“片段序列(fragment sequence)”(或者種子序列(seed))指為了短片段的映射而比較短片段與參考序列時作為單位的序列(Sequence)。理論上講,為了將短片段映射于參考序列,需要把整個短片段從參考序列的最前端部分開始依次比較并計算短片段的映射位置。然而由于這種方法在映射一個短片段時消耗過多的時間并要求過高的計算能力,因此實際上要先把短片段的一部分所構成的片,即片段序列映射于參考序列而找出整個短片段的映射候選位置,然后將整個短片段映射于對應候選位置(Global Alignment)。
[0030]圖1為用于說明根據本發明一個實施例的堿基序列比對方法100的圖。在本發明的實施例中,堿基序列比對方法100指通過將基因組測序儀(genomesequencer)中輸出的短片段與參考序列進行比較而確定短片段在所述參考序列中的映射(或比對)位置的一系列過程。
[0031]首先,如果從基因組測序儀(genome sequencer)接收到短片段(步驟102),則嘗試整個短片段與所述參考序列之間的精確匹配(exact matching)(步驟104)。進行所述嘗試的結果,如果針對整個短片段的精確匹配成功,則不執行后續的比對步驟而判斷為比對成功(步驟106)。將人類的堿基序列作為對象進行實驗的結果顯示,如果將基因組測序儀中輸出的100萬個短片段精確匹配于人類的堿基序列,則在總共200萬次的比對中(正向序列100萬次,反向互補(reverse complement)方向序列100萬次)出現231,564次的精確匹配。因此執行所述步驟104的結果可以減少約11.6%的比對工作量。
[0032]然而,如果與之相反,即在所述步驟106中判斷為對應短片段并不精確匹配的情況下,則是計算用于表示將對應短片段比對到所述參考序列時可能出現的誤差的次數的最小誤差估計值(MEB:Minimum Error Bound) e (步驟 108)。
[0033]圖2為用于舉例說明所述步驟108中的最小誤差估計值(MEB)e計算過程的圖。如圖所示,首先將初始最小誤差估計值設定為O (e=0),并從短片段的第一個堿基向右逐個移動的同時嘗試精確匹配。此時,假定從所述短片段的特定堿基(圖中的左側第一個箭頭)開始無法再實現匹配,則這種情況說明從短片段的匹配起始位置到當前位置之間的區間中的某處出現了誤差。因此,在這種情況下將最小誤差估計值增加I (e=l)之后在下一個位置上重新開始精確匹配。如果在以后又遇到判斷為無法精確匹配的情況,則是說明從重新開始精確匹配的位置到當前位置之間的區間某處又出現了誤差,因此又將最小誤差估計值增加I (e=2)之后在下一個位置上重新開始精確匹配。通過這樣的過程,到達短片段末尾時的最小誤差估計值(圖中為e=3)將成為可能在對應短片段中出現的誤差的個數。其中,之所以將所述e的值作為最小誤差估計值,是因為并沒有對短片段中可能出現誤差的所有誤差數量進行分析,而是通過如果在特定部分中出現誤差便從該部分以后起重新進行精確匹配的方式而只對對象序列的某一位置(position)進行了檢查。即,所述e值可以作為在對應短片段中可能出現的誤差的最小值,而在對象序列的其他位置上可能出現更多的誤差。
[0034]若通過上述過程計算出了短片段的最小誤差估計值,則判斷計算出的最小誤差估計值是否超過預先設定的最大誤差允許值(maxError)(步驟110),判斷結果如果超過,則判斷為對應短片段的比對失敗并終止比對。在前述的將人類的堿基序列作為對象的實驗中,將最大誤差允許值(maxEiror)設定為3而計算剩余短片段的最小誤差估計值的結果顯示,共有844,891次實驗的短片段超過所述最大誤差允許值。即,執行所述步驟108的結果,能減少約42.2%的比對工作量。
[0035]相反地,如果在所述步驟110中判斷的結果,計算出的最小誤差估計值為所述最大誤差允許值以下,則將通過如下過程執行對應短片段的比對。
[0036]首先,由所述短片段生成多個片段(fragment)序列(步驟112),并組成只包含所生成的所述多個片段序列中的與所述參考序列相匹配的片段序列的候選片段序列集合(步驟114)。然后,將所述參考序列劃分為多個區間,并按所述多個區間分別計算所述候選片段序列的總映射個數(步驟116),且根據所述計算的結果而選擇總映射個數為基準個數以上的區間,并對選擇的區間執行針對所述短片段的全局比對(global alignment)(步驟118)。此時,如果進行所述全局比對的結果為短片段的誤差個數超過預先設定的最大誤差允許值CmaxError ),則判斷為比對失敗,否則判斷為比對成功(步驟120 )。
[0037]以下便詳細說明所述步驟112至步驟118的具體過程。
[0038]由短片段生成多個片段序列(步驟112)
[0039]本步驟是為了正式執行短片段的比對而由短片段生成多個小片即片段序列的步驟。在本步驟中,從所述短片段的第一個堿基向最后一個堿基每移動設定的間距(shiftsize),便按照設定大小(fragment size)讀取短片段的值,從而生成所述片段序列。
[0040]圖3為用于說明所述步驟112中的片段序列生成過程的圖。在圖中表示的是短片段的長度為75bp (堿基對,base pair)、短片段的最大誤差允許值為3bp、片段序列的大小(fragment size)為15bp、移動間距(shift size)為4bp的情形的實施例。即,從短片段的第一個堿基開始向右側依次移動4bp的過程中生成片段序列。然而,圖示的實施例僅僅是示例性的,諸如所述移動間距、片段序列大小等為可通過考慮短片段長度、短片段的最大誤差允許值等而適當地確定。換言之,本發明的權利范圍并不局限于特定片段序列的長度及移動間距。
[0041]生成的片段序列的篩選及擴增(步驟114)
[0042]如果通過上述過程生成了片段序列,接著便通過篩選過程除去生成的片段序列當中不與參考序列相匹配的片段序列,從而構成候選片段序列集合(sub-candidate)。S卩,嘗試生成的片段序列與所述參考序列之間的精確匹配(exact matching),然后用不一致的堿基數為預先設定的允許值以下的片段序列(候選片段序列)構成所述候選片段序列集合。此時,如果所述允許值為0,則所述候選片段序列集合中將只包含與所述參考序列精確匹配的片段序列。
[0043]例如假定圖3所示實施例中在所述短片段的第15個、第34個、第61個位置上出現了誤差(在圖中用虛線表示)。在這種情況下,包含所述誤差的片段序列(圖中用灰色表示)將不能與參考序列精確匹配,而只有不受誤差影響的17-31、37-51、41-55、45-59等四個片段序列能夠與參考序列精確匹配。因此在這種情況下,所述候選片段序列集合中只包含所述四個片段序列。
[0044]另外,參考序列(例如人類的基因組)通常包含多個重復序列(repeat sequence)。由于這種重復序列分布于參考序列的多個位置上,且重復包含相同的堿基序列,因此對于一些片段序列而言,當與參考序列進行映射時,將在過多的位置上發生精確匹配。如果這種重復序列導致在一些片段序列中發生過多數量的映射,則會對整個比對算法的復雜度和準確度造成不利影響,因此在這種情況下有必要利用適當的方法來減少映射位置的重復次數。
[0045]為此,本步驟中還可以包括如下步驟:當候選片段序列在所述參考序列中的映射重復數超過預先設定值(例如50個)時,擴增對應片段序列的大小,直到所述映射重復數達到所述設定值以下。
[0046]具體而言,在本步驟中分別計算生成的所述候選片段序列在所述參考序列中的映射位置的個數,并選擇計算出的映射重復數(對應的片段序列在參考序列中的映射位置的個數)超過設定值的片段序列,然后擴增選擇的片段序列的大小,直到在所述參考序列中的映射重復數成為所述設定值以下。此時,可通過在所述選擇的片段序列的起始端或末端上增加對應于相應位置的所述短片段上的堿基而執行所述擴增。
[0047]對此舉例說明如下。假定由短片段生成了如下片段序列。
[0048]短片段:ATTGC CTCAGT
[0049]片段序列:T T G C (短片段中的劃線部分)
[0050]如果對所述片段序列進行映射的結果,參考序列中的映射重復數超過基準值50而達到65個,則按照如下方式將所述片段序列的長度依次擴增lbp,直到所述映射重復數減少到基準值以下。
[0051]T T G C (映射位置65個)
[0052]TTGCC (映射位置54個)
[0053]TTGCCT (映射位置 27 個)
[0054]在上述示例中,由于參考短片段而增加兩個堿基的情況下映射重復數減少為設定值以下,因此最終片段序列將成為相比于初始生成值擴增2bp的T TG C C T。另外,與前述的另一示例相同,所述設定值也是可以根據參考序列、短片段、片段序列的特性等而適當選定的值,本發明的權利范圍并不局限于特定的重復數設定值。
[0055]在將人類的堿基序列作為對象的一個實驗中,從100萬個短片段中以15bp的片段序列長度、4bp的位移間隔生成片段序列之后將生成的片段序列映射于參考序列的情況下,如果以50作為基準值,則顯示在共15,547,856個片段序列中約有77%的片段序列具有50個以下的映射。即,實驗結果表明,如果基準值取50,則有77%的片段序列可直接使用,而剩余的23%的片段序列需要按照上述方法擴增片段序列。
[0056]計算參考序列的各區間映射個數(步驟116)
[0057]當通過上述過程構成候選片段序列集合(sub-candidate)之后,原則上可以利用這些候選片段序列集合在所述參考序列中的映射位置而將短片段映射于參考序列。然而,由于在這種情況下需要考慮候選片段序列的各映射位置的所有組合,因此用于短片段映射的計算的復雜度將很高。例如,當包含于候選片段序列集合的候選片段序列為4個、而各候選片段序列在參考序列中的映射位置的個數分別為3、6、24、49時,要對21,168 (=3X6X24X49)個組合全部進行檢查。本發明中為了降低這種計算的復雜度,將參考序列劃分為多個區間,并只對其中映射可能性較高的區間執行全局比對。
[0058]S卩,在本發明中首先把參考序列劃分為具有相同大小的多個區間,然后對劃分的各區間分別計算以下值。
[0059]A:映射于對應區間的候選片段序列的總個數(映射個數)
[0060]B:映射于對應區間的所述候選片段序列的總映射長度
[0061]例如,在圖3所示的實施例中,如果17-31的片段序列被映射于所劃分的第一個區間,則對應區間的(A,B)值將是(1,15)(其中,I為映射于對應區間的候選片段序列總數,15為被映射的候選片段序列的總映射長度)。通過相同的方式,如果37-51的片段序列被映射于第二個區間,則對應區間的(A,B)值將是(1,15)。然后當41-55的片段序列再次映射于所述第二個區間時,對應區間的(A,B)值將被更新為(2,19),其理由如下。
[0062]第一個值2:映射于對應區間的候選片段序列的總數
[0063]第二個值19:考慮了起先映射的37-51及隨后映射的41_55的重疊區間的總映射長度
[0064]映身寸對象IX間的誅.擇以及全局比對(Global Alignment)(步驟118)
[0065]如果通過如上所述的過程而計算出各區間的映射個數及映射長度,則把其中映射個數為設定基準個數以上的區間選擇為映射對象區間。并且,當所述的映射個數為基準個數以上的區間為多個的情況下,可將所述總映射個數為基準個數以上的區間當中所述總映射長度為設定基準長度以上的區間選擇為映射對象區間。此時,所述基準個數至少為2個,這是因為映射的基本單位是片段序列,所以只映射到一個片段序列的區間上有短片段被映射的可能性很低。對所述基準長度的詳細內容將在后面敘述。
[0066]圖4為用于舉例說明根據本發明一個實施例的映射對象區間選擇過程的圖。如圖所示,參考序列被劃分為區間I至區間4的四個區間,假定各區間的映射個數及映射長度的計算結果如下。
[0067]區間1=(1,15)
[0068]區間2=(0,0)
[0069]區間3= (2,23)
[0070]區間4= (2,27)
[0071]此時,如果將所述基準個數設定為2、將所述基準長度設定為22,則滿足所述基準個數和基準長度的區間為區間3和區間4,因此在本步驟中將會把對應于所述區間3和4的區間選擇為映射對象區間。此時,如果滿足所述基準個數和基準長度的區間為多個,則對應的所有區間都將成為映射對象區間,且將在包含于映射對象區間的多個區間的每一個中執行全局比對。在這種情況下,為了提高比對速度,可將包含于映射對象區間中的各區間的映射個數或映射長度進行比較,并從映射個數較多或映射長度較大的區間開始依次執行全局比對。這是因為映射個數較多或映射長度較大時短片段在對應區間內得到映射的可能性較高。例如,在上述實施例中區間3和區間4的映射個數均為2,然而區間4的映射長度值大于區間3,因此在這種情況下可從區間4開始進行全局比對。
[0072]如此選擇映射對象區間之后,接著便將候選片段序列(sub-candidate)當中被映射于對應映射對象區間的候選片段序列選定為最終候選片段序列(candidate),并在選定的最終候選片段序列各自的映射位置上執行針對短片段的全局比對,從而完成對短片段的比對。
[0073]例如,假定在圖4所示實施例中被映射于區間4的候選片段序列為37-51、41_55、45-59等三個,則上述三個候選片段序列將成為最終候選對象,并將在這些最終候選對象在對應區間內的映射位置上執行短片段的全局比對。
[0074]另外,在對所述最終候選片段序列執行全局比對時,為了減少全局比對所需時間,存儲執行過一次全局比對的參考序列中的位置,并防止以后在附近的位置上重復執行多次全局比對。具體而言,在本步驟中先把所述映射對象區間劃分為多個小區間,并且如果有執行過全局比對的小區間,便留下記錄。當以后對相應小區間進行全局比對時,將利用上述記錄信息而判斷在對應小區間內是否已執行全局比對,并只在判斷出未曾執行全局比對的情況下執行全局比對。
[0075]如果對此舉例說明便如圖5所示。如圖所示,映射對象區間被分為5個小區間,假定在上述三個最終候選對象中37-51、41-55被映射于第二個小區間,而45-59被映射于第四個小區間,則在這種情況下,如果在第二個小區間內對37-51片段序列執行全局比對,則無論結果如何都不會對屬于同一小區間的41-55執行全局比對,且在相反的情況下也如此。因此在圖示的實施例中,全局比對只會針對37-51/45-59或41-55/45-59的組合執行。即使如本發明所述地不在整個參考序列中執行全局比對而只在映射對象區間內執行全局比對,也要將相當多的時間用于全局比對,因此通過這種過程可以減少全局比對所需時間。
[0076]計算基準長度
[0077]在上述實施例中,可通過如下方式計算基準長度。
[0078]當假定f表示片段序列的大小、s表示為了生成片段序列而在短片段內移動的間距、L表示短片段的長度、e表示短片段中允許的最大誤差個數、H表示基準長度時,短片段中不受誤差影響的區域的長度T可用如下數學式求出。
[0079]T=L - f Xe-S
[0080]此時,由于L和e為實行本發明時預先確定的值,因此由f和s的值決定T。即,算法的性能差異取決于f和s的值如何變化。
[0081]首先,在確定H的值時考慮以下兩個條件。其中,必須條件為必須要滿足,而附加條件只在可能的情況下予以考慮。
[0082]必須條件:由于映射的基本單位為片段序列,因此無論基準長度多小,至少要具有能夠包含重疊的兩個以上片段序列的大小。例如圖2所示,在f=15、s=4的情況下,由于重疊的兩個片段序列的最小長度為15+4=19,因此H值至少應為19。而且,由于要將所述H值設定為至少包含兩個片段序列,因此要比f+s更大或相等。如后所述,f值至少應為15,因此將s值假定為其最小值I的情況下,H值至少為16 (=15+1)。
[0083]附加條件:在理想情況下,通過設定H=T并尋找映射了 T以上的序列的區間,便可以找到對應于給定誤差的所有映射。然而如前所述,在參考序列本身包含許多重復的情況下,可能遇到需要擴增片段序列長度的情形。因此,考慮到這一點,在確定H值時使用比T略小的T - s可能有利于映射率。如果假定H=T,則H=L-f.e-S,如果假定其中的e取最小值I (由于e=0的情況為與參考序列精確匹配的情形,因此將在前述步驟104中映射完畢),則有H=L-f-s。該值將是基準長度的最大值。如果假定L=75bp、f=15bp、s=l,H的最大值便成為 75-15-1=59。
[0084]綜上,所述H值應該滿足如下范圍。
[0085]f+s ≤ H ≤L - (f+s)
[0086]然后,在滿足以下兩個條件的值當中選擇較大值作為f值。必須條件仍然要必須滿足,而附加條件只在可能的情況下考慮。
[0087]必須條件:f應該取15以上,這是由于如果片段長度為14以下,則參考序列中的映射位置的個數將急劇增加。
[0088]如下的表1表示根據片段序列長度的人類基因組中的片段序列平均出現頻率。
[0089][表 I]
[0090]
【權利要求】
1.一種堿基序列比對系統,包括: 片段序列生成單元,用于由短片段生成多個片段序列; 篩選單元,用于構成只包含所生成的所述多個片段序列當中與參考序列相匹配的片段序列的候選片段序列集合; 映射個數計算單元,將所述參考序列劃分為多個區間,并計算所述多個區間各自的所述候選片段序列的總映射個數; 比對單元,選擇計算出的所述總映射個數為基準個數以上的區間,并對所選擇的區間執行針對所述短片段的全局比對。
2.如權利要求1所述的堿基序列比對系統,其特征在于,從所述短片段的第一個堿基開始每移動設定的間距,所述片段序列生成單元便讀取與設定大小一樣大的所述短片段的值,從而生成所述片段序列。
3.如權利要求1所述的堿基序列比對系統,其特征在于,與所述參考序列相匹配的片段序列為與所述參考序列進行精確匹配的結果不一致的堿基數為設定個數以下的片段序列。
4.如權利要求1所述的堿基序列比對系統,其特征在于,還包括片段序列擴增單元,用于計算所述候選片段序列各自在所述參考序列中的映射重復數,并選擇計算出的所述映射重復數超過設定值的片段序列,且將所選擇的片段序列的大小擴增,直到所述候選片段序列在所述參考序列中的映射位置個數達到所述設定值以下。
5.如權利要求4所述的堿基序列比對系統,其特征在于,所述片段序列擴增單元用于在所述選擇的片段序列的起始端或末端上增加對應于相應位置的所述短片段上的堿基。
6.如權利要求1所述的`堿基序列比對系統,其特征在于,所述比對單元選擇所述候選片段序列當中映射于所述選擇的區間的候選片段序列,并在所選擇的各候選片段序列的在所述參考序列內的映射位置上執行針對所述短片段的全局比對。
7.如權利要求6所述的堿基序列比對系統,其特征在于,所述比對單元將所述選擇的區間劃分為多個小區間,并判斷待執行所述全局比對的所述參考序列中的位置所屬的小區間內是否已執行全局比對,且進行所述判斷的結果,只在尚未執行全局比對的情況下執行所述全局比對。
8.如權利要求1所述的堿基序列比對系統,其特征在于,所述映射個數計算單元在計算所述總映射個數的同時計算所述多個區間各自的所述候選片段序列的總映射長度,而所述比對單元在所述總映射個數為基準個數以上的區間當中選擇所述總映射長度為設定基準長度以上的區間,并對選擇的區間執行針對所述短片段的全局比對。
9.如權利要求8所述的堿基序列比對系統,其特征在于,在所述選擇的區間為多個的情況下,所述比對單元根據多個區間各自的總映射個數或總映射長度而依次對所述短片段執行全局比對。
10.如權利要求8所述的堿基序列比對系統,其特征在于,所述基準個數至少為2個。
11.如權利要求8所述的堿基序列比對系統,其特征在于,所述基準長度為利用如下兩個數學式計算的值當中較大的值:
H=L - fXe - 2s,以及
H=f+s,其中,H為基準長度,L為短片段的長度,f為片段序列的長度,e為短片段的最大誤差個數,s為各片段序列的移動間距。
12.如權利要求11所述的堿基序列比對系統,其特征在于,所述基準長度滿足如下數學式:
f+s ^ H ^ L- (f+s)。
13.如權利要求8所述的堿基序列比對系統,其特征在于,所述基準長度為16~59。
14.一種堿基序列比對方法,包括如下步驟: 在片段序列生成單元中,由短片段生成多個片段序列; 在篩選單元中,構成只包含所生成的所述多個片段序列當中與參考序列相匹配的片段序列的候選片段序列集合; 在映射個數計算單元中,將所述參考序列劃分為多個區間,并按所述多個區間分別計算所述候選片段序列的總映射個數; 在比對單元中,選擇計算出的所述總映射個數為基準個數以上的區間,并對所選擇的區間執行針對所述短片段的全局比對, 其中,與所述參考序列相匹配的片段序列為與所述參考序列進行精確匹配的結果不一致的堿基數為設定個數以下的片段序列。
15.如權利要求14所述的堿基序列比對方法,其特征在于,在生成所述片段序列的步驟中,從所述短片段的第一個堿基開始每移動設定的間距,便讀取與設定大小一樣大的所述短片段的值,從而生成所述片段序列。``
16.如權利要求14所述的堿基序列比對方法,其特征在于,構成所述候選片段序列集合的步驟中包括如下步驟: 在片段序列擴增單元中,分別計算生成的所述候選片段序列在所述參考序列中的映射重復數; 在所述片段序列擴增單元中,選擇計算出的所述映射重復數超過設定值的片段序列; 在所述片段序列擴增單元中,擴增所選擇的片段序列的大小,直到所述候選片段序列在所述參考序列中的映射重復數成為所述設定值以下, 其中,在擴增所述選擇的片段序列的大小的步驟中,在所述選擇的片段序列的起始端或末端上增加對應于相應位置的所述短片段上的堿基。
17.如權利要求14所述的堿基序列比對方法,其特征在于,在執行所述全局比對的步驟中,選擇所述候選片段序列當中映射于所述選擇的區間的候選片段序列,并在選擇的各候選片段序列在所述參考序列中的映射位置上執行針對所述短片段的全局比對,而且,執行所述全局比對的步驟中還包括如下步驟: 將所述選擇的區間劃分為多個小區間;判斷待執行所述全局比對的所述參考序列中的位置所屬的小區間內是否已執行全局比對, 并且,進行所述判斷的結果,只在尚未執行全局比對的情況下執行所述全局比對。
18.如權利要求14所述的堿基序列比對方法,其特征在于,計算所述總映射個數的步驟還包括按所述多個區間分別計算所述候選片段序列的總映射長度的步驟,而在執行所述全局比對的步驟中,在所述總映射個數為基準個數以上的區間當中選擇所述總映射長度為設定基準長度以上的區間,并對所選擇的區間執行針對所述短片段的全局比對。
19.如權利要求18所述的堿基序列比對方法,其特征在于,在執行所述全局比對的步驟中,當所述選擇的區間為多個時,根據各區間的總映射個數或總映射長度依次執行針對所述短片段的全局比對。
20.如權利要求18所述的堿基序列比對方法,其特征在于,所述基準長度為16~59。
【文檔編號】G06F19/22GK103793627SQ201310368714
【公開日】2014年5月14日 申請日期:2013年8月22日 優先權日:2012年10月29日
【發明者】樸旻胥 申請人:三星Sds株式會社