堿基序列重組系統及方法
【專利摘要】本發明公開一種堿基序列重組系統及方法。根據本發明的一個實施例的堿基序列重組系統包括:映射位置計算單元,從由短片段生成的多個種子序列中選擇一個種子序列,并計算選擇的種子序列在對象堿基序列中的映射位置;全局比對單元,從計算出的所述映射位置計算針對所述選擇的種子序列的重復判斷區域,并判斷在計算出的所述重復判斷區域中是否已執行全局比對,判斷結果如果沒有執行,則在計算出的所述映射位置上執行針對所述短片段的全局比對(Global?Alignment)。
【專利說明】堿基序列重組系統及方法【技術領域】
[0001]本發明的實施例涉及一種用于分析基因組的堿基序列的技術。
【背景技術】
[0002]用于生產高容量短序列的第二代測序方式(NGS:Next Generation Sequencing)因其低廉的成本和迅速生成數據的能力而正在迅速地替代傳統的桑格(Sanger)測序方式。并且,開發出了多種聚焦于準確度的NGS序列重組程序。然而,近來隨著第二代測序技術的發展,制作片段序列的費用降低為過去的一半以下,隨之可用數據的量增加,因此需要開發一種能夠在短時間內準確地處理高容量短序列的技術。
[0003]序列重組的第一個步驟為通過堿基序列比對(alignment)算法而將短片段映射(mapping)于參考序列的正確位置上。其中的問題在于即使是同種個體,也可能因多種遺傳性變異而導致基因組序列上的差異。而且,測序過程中的誤差也可能導致堿基序列上的差異。因此,堿基序列比對算法必須有效考慮這種差異和變異而提高映射準確度。
[0004]總而言之,為了對基因組信息進行分析,需要盡量多而準確的所有基因組信息數據。而且,為了達到這一目的,首先是要開發出具有很高的準確度和較大處理量的堿基序列比對算法。然而,現有技術中的方法在滿足這些需求條件方面存在局限性。
【發明內容】
[0005]本發明實施例的目的在于提供一種可在確保映射準確度的同時通過改善映射時的復雜度而提高處理速度的堿基序列重組方案。
[0006]為了解決如上所述的技術問題,根據本發明一個實施例的堿基序列重組系統包括:映射位置計算單元,從由短片段生成的多個種子序列中選擇一個種子序列,并計算選擇的種子序列在對象堿基序列中的映射位置;全局比對單元,從計算出的所述映射位置計算針對所述選擇的種子序列的重復判斷區域,并判斷在計算出的所述重復判斷區域中是否已執行全局比對,判斷結果如果沒有執行,則在計算出的所述映射位置上執行針對所述短片段的全局比對(Global Alignment)。
[0007]另外,為了解決如上所述的技術問題,根據本發明一個實施例的堿基序列重組方法包括如下步驟:在映射位置計算單元中,從由短片段生成的多個種子序列中選擇一個種子序列,并計算選擇的種子序列在對象堿基序列中的映射位置;在全局比對單元中,從計算出的所述映射位置計算針對所述選擇的種子序列的重復判斷區域;在所述全局比對單元中,判斷在計算出的所述重復判斷區域中是否已執行全局比對,判斷結果如果沒有執行,則在計算出的所述映射位置上執行針對所述短片段的全局比對(Global Alignment)。
[0008]另外,根據本發明一個實施例的裝置包括:一個以上的處理器;存儲器;以及一個以上的程序,而且,構成為所述一個以上的程序被存儲于所述存儲器中,并通過所述一個以上的處理器執行,其中,所述程序中包括用于執行如下步驟的命令:從由短片段生成的多個種子序列中選擇一個種子序列,并計算選擇的種子序列在對象堿基序列中的映射位置;從計算出的所述映射位置計算針對所述選擇的種子序列的重復判斷區域;判斷在計算出的所述重復判斷區域中是否已執行全局比對,判斷結果如果沒有執行,則在計算出的所述映射位置上執行針對所述短片段的全局比對。
[0009]根據本發明的實施例,由于在堿基序列比對時存儲已執行全局比對的位置之后在對應位置的周圍不去執行全局比對,因此可以減少在堿基序列比對過程中造成大量耗時的全局比對執行次數,并可以由此大幅減少堿基序列比對時間。
[0010]而且,通過將如上所述的不去重復執行全局比對的重復區域的大小設定為與短片段的長度成比例,從而不僅可以減少堿基序列比對時間,而且可以保持堿基序列比對的準確度。
【專利附圖】
【附圖說明】
[0011]圖1為用于說明根據本發明一個實施例的堿基序列重組方法的圖。
[0012]圖2為用于舉例說明根據本發明一個實施例的堿基序列比對方法的誤差個數計算過程的圖。
[0013]圖3為用于說明根據本發明一個實施例的全局比對過程的順序圖。
[0014]圖4a至圖4e為用于舉例說明根據本發明一個實施例的全局比對過程的圖。
[0015]圖5為示出根據本發明一個實施例的堿基序列重組系統的模塊圖。
[0016]符號說明:
[0017]500:堿基序列重組系統502:種子序列生成單元
[0018]504:映射位置計算單元506:全局比對單元
【具體實施方式】
[0019]以下,參照【專利附圖】
【附圖說明】本發明的【具體實施方式】。然而這僅僅是示例,本發明并不局限于此。
[0020]在對本發明進行說明時,如果遇到對有關本發明的公知技術的具體說明有可能不必要地干擾本發明的主旨的情況,則省略其詳細說明。并且,后述的術語均為考慮本發明中的功能而進行定義的,其可能因使用者、運用人員的意圖或習慣等而有所不同。因此,要以整個說明書的內容為基礎對其進行定義。
[0021]本發明的技術思想由權利要求書確定,以下的實施例只是為了將本發明的技術思想有效地傳遞給本發明所屬【技術領域】中具有普通知識的人員而采用的一種手段。
[0022]在對本發明的實施例進行具體說明之前,首先對本發明中使用的術語進行如下說明。
[0023]首先,“短片段(read)”是指基因組測序儀(genome sequencer)中輸出的長度較短的堿基序列數據。短片段的長度因基因組測序儀的種類而不同,通常構成為35?500bp (base pair)范圍的多種長度,在DNA堿基的情況下,通常用A、C、G、T等四個字母表
/Jn ο
[0024]“對象堿基序列”指可對利用所述短片段形成整個堿基序列提供參考的堿基序列(reference sequence)。在堿基序列分析中,通過將基因組測序儀所輸出的大量短片段映射于對象堿基序列而完成整個堿基序列。在本發明中,所述對象堿基序列既可以是堿基序列分析時預先設定的序列(例如人類的整個堿基序列等),或者也可以將基因組測序儀中產生的堿基序列使用為對象堿基序列。
[0025]“堿基(base)”為構成對象堿基序列及短片段的最小單位。如前所述,構成DNA的堿基可由A、C、G、T等四個字母表示的堿基構成,將這些分別稱為堿基。換言之,對于DNA而言,可用四種堿基表示,短片段也是如此。
[0026]“種子序列(seed)”指為了短片段的映射而比較短片段與對象堿基序列時作為單位的序列(Sequence)。理論上講,為了將短片段映射于對象堿基序列,需要把整個短片段從對象堿基序列的最前端部分開始依次比較并計算短片段的映射位置。然而,由于這種方法在映射一個短片段時消耗過多的時間并要求過高的計算能力,因此實際上要先把作為由短片段的一部分所構成的片的種子序列映射于對象堿基序列而找出整個短片段的映射候選位置,然后將整個短片段映射于對應候選位置(全局比對=Global Alignment)。
[0027]圖1為用于說明根據本發明一個實施例的堿基序列重組方法100的圖。在本發明的實施例中,堿基序列重組方法100指通過將基因組測序儀(genome sequencer)中輸出的短片段與對象堿基序列進行比較而確定短片段在所述對象堿基序列中的映射(或比對)位置,從而完成整個序列的一系列過程。
[0028]首先,如果從基因組測序儀(genome sequencer)接收到短片段(步驟102),則嘗試整個短片段與所述對象堿基序列之間的精確匹配(exact matching)(步驟104)。進行所述嘗試的結果,如果針對整個短片段的精確匹配成功,則不執行后續的比對步驟而判斷為比對成功(步驟106)。
[0029]將人類的堿基序列作為對象進行實驗的結果顯示,如果將基因組測序儀中輸出的100萬個短片段精確匹配于人類的堿基序列,則在各短片段的長度為755bp的情況下,在總共200萬次的比對中(正向序列100萬次,反向互補(reverse complement)方向序列100萬次)出現231,564次的精確匹配。因此,執行所述步驟104的結果可以減少約11.6%的比對量。
[0030]然而,如果與之相反,即在所述步驟106中判斷為對應短片段并不精確匹配的情況下,則是計算將對應短片段比對到所述對象堿基序列時可能出現的誤差(即不匹配)個數(步驟108)。
[0031]圖2為用于舉例表示所述步驟108中的所述誤差個數計算過程的圖。首先,如圖2的(a)所示,將誤差個數的初始值設定為O (mismatch=。),并從短片段的第一個堿基開始向右側逐個移動而嘗試精確匹配。此時,如圖2的(b)所示,假定在短片段的特定堿基(在圖中以箭頭表示)開始無法再實現精確匹配,則這種情況說明從短片段的匹配起始位置到當前位置之間的區間中的某處出現了誤差。因此,在這種情況下將誤差個數的值增加I(mismatch =0 — >1)之后在下一個位置上重新開始精確匹配(在圖中標記為(C))。如果在以后又遇到判斷為無法精確匹配的情況,則是說明從重新開始精確匹配的位置到當前位置之間的區間某處又出現了誤差,因此又將誤差個數的值增加I Uismatch=I — >2)之后在下一個位置上重新開始精確匹配(在圖中標記為(d))。通過這樣的過程,到達短片段末端時的誤差個數的值將成為對應短片段的可能出現的誤差個數值。即,在圖示的實施例中短片段的誤差個數將是2。
[0032]若通過上述過程計算出了短片段的誤差個數,則判斷計算出的誤差個數值是否超過預先設定的最大誤差允許值(maxError)(步驟110),判斷結果如果超過,則判斷為對應短片段的比對失敗并終止比對。
[0033]在前述的將人類的堿基序列作為對象的實驗中,將最大誤差允許值(maxError)設定為3而計算剩余短片段的誤差個數的結果顯示,共有844,891次實驗的短片段超過所述最大誤差允許值。即,執行所述步驟108的結果,能減少約42.2%的比對量。
[0034]相反地,如果在所述步驟110中判斷的結果,計算出的誤差個數值為所述最大誤差允許值以下,則將通過如下過程執行對應短片段的比對。
[0035]首先,由所述短片段生成多個種子序列(步驟112),并利用生成的所述多個種子序列而執行針對所述短片段的全局比對(global alignment)(步驟114)。此時,如果進行所述全局比對的結果為短片段的誤差個數超過預先設定的最大誤差允許值(maxError),則判斷為比對失敗,否則判斷為比對成功。
[0036]以下便詳細說明所述步驟112及步驟114的具體過程。
[0037]由短片段生成多個種子序列(步驟112)
[0038]本步驟是為了正式執行短片段的比對而由短片段生成多個作為小片的種子序列的步驟。在本步驟中將通過考慮所述短片段的部分或整體而生成多個種子序列。例如,可通過將短片段的整體或特定區間分割為多個片或者將分割的片進行組合而生成種子序列。這種情況下,生成的種子序列可以連續地相連,然而并非一定要如此,也可以用短片段內分離的片的組合構成種子序列。并且,生成的種子序列并非一定要具有相同的長度,在一個短片段內也可以生成多種長度的種子序列。總而言之,本發明中的由短片段生成種子序列的方法并不受到特別的局限,從短片段的一部分或整體中提取種子序列的各種算法均可不受限制地使用。
[0039]全局比)(寸(Global Alignment) (/PM 114)
[0040]如果通過上述過程生成了種子序列,接著便利用生成的種子序列執行所述短片段對所述對象堿基序列的全局比對。具體而言,在本步驟中通過利用所述步驟112中生成的種子序列而在所述對象堿基序列中的各種子序列映射位置上依次執行全局比對,從而將所述短片段映射于所述對象堿基序列。
[0041]圖3為用于說明根據本發明一個實施例的全局比對過程114的順序圖。首先,從由短片段生成的多個種子序列中選擇一個種子序列(步驟302),并計算所選種子序列在對象堿基序列中的映射位置(步驟304)。在本發明的實施例中,如果不加特別限定而只記載為種子序列的“映射位置”,則是表示與對應種子序列的第一個堿基相對應的對象序列的位置,而種子序列的“第k個映射位置”表示與對應種子序列的第k個堿基相對應的對象序列的位置。
[0042]然后,從計算出的所述映射位置計算針對所選種子序列的重復判斷區域(步驟306)。例如,可將所述重復判斷區域設定為與所選種子序列的在所述對象堿基序列上的第k個映射位置(I ^ k ^ N, N為所選種子序列的長度)之間的距離為設定基準值以內的區域。
[0043]并且,所述重復判斷區域還可以通過以下數學式I計算。
[0044][數學式I]
[0045]ma-V≤重復判斷區域≤mb+V
[0046](其中,ma為所選種子序列的第a個映射位置(I≤a≤N),mb為所選種子序列的第b個映射位置(I < b < N),N為所選種子序列的長度,V為基準值)
[0047]如果通過上述方法計算出了重復判斷區域,接著便判斷在計算出的所述重復判斷區域內是否已執行全局比對(步驟308)。此時,可通過判斷先前步驟中進行全局比對時的映射位置(即,執行全局比對的種子序列的第一個映射位置)是否包含在所述重復判斷區域來判斷所述重復判斷區域中是否已執行全局比對。進行所述判斷的結果,如果在所述重復判斷區域內已執行全局比對,則不去執行針對在所述步驟302中所選種子序列的全局比對,在這種情況下,判斷生成的所述種子序列中是否存在尚未執行全局比對而剩余的種子序列(步驟314),判斷結果如果存在,則返回所述步驟302而對剩余種子序列中重新被選擇的種子序列再次進行上述過程。此時,如果在所述步驟314中判斷的結果為不存在剩余的種子序列,則針對所述短片段的比對被判斷為失敗。
[0048]另外,在所述步驟308中判斷的結果,如果在對應區域中尚未執行全局比對,則通過在計算出的所述映射位置上執行針對所述短片段的全局比對(步驟310),從而判斷計算出的誤差個數是否超過預先設定的最大誤差允許值(步驟312)。在所述步驟312中判斷的結果,在對應的映射位置上的誤差個數為所述最大誤差允許值以內的情況下,判斷為短片段的比對成功。但是,在所述誤差個數超過最大誤差允許值的情況下,將接著判斷是否存在剩余種子序列(步驟314),判斷結果如果存在,則返回所述步驟302而對剩余種子序列中重新被選擇的種子序列再次進行上述過程。此時,如果在所述步驟314中判斷的結果為不存在剩余的種子序列,則針對所述短片段的比對被判斷為失敗。
[0049]如果對所述步驟306及步驟308進行更為詳細的說明,則如圖4a至4e所示。在圖示的實施例中假定從短片段中提取了 3個種子序列SEED1、SEED2、SEED3,其在各對象堿基序列中的映射位置分別為2001bp、2101bp、2301bp,用于判斷各種子序列是否已全局比對的基準值為128bp,各種子序列的長度為30bp,且為了短片段的比對以SEED1、SEED2、SEED3的順序執行全局比對。首先,由于對SEEDl而言不存在以前執行過的全局比對,因此正常地在對應位置2001bp上將短片段全局比對于對象堿基序列。然而,對于下一個要被映射的SEED2而言,全局比對的執行與否將根據從SEED2的映射位置計算出的重復判斷區域而決定。
[0050]首先,如圖4a所示,可將所述重復判斷區域定義為與種子序列的第一個映射位置之間的距離為基準值以內的區域。即,在圖示的實施例中,SEED2的重復判斷區域為以SEED2的第一個映射位置2101bp為基準向前后各有128bp長度的區域(在圖中表示為灰色的區域)。在這種情況下,由于已在所述重復判斷區域內執行了針對SEEDl的全局比對,因此不執行SEED2的映射位置上的全局比對。
[0051]其次,如圖4b所示,可將所述重復判斷區域定義為與種子序列的最后一個映射位置之間的距離為基準值以內的區域。即,在圖示的實施例中,SEED2的重復判斷區域為以SEED2的最后一個映射位置2130bp為基準向前后各有128bp長度的區域(在圖中表示為灰色的區域)。在這種情況下,由于已執行全局比對的SEEDl的映射位置2001bp在所述重復判斷區域之外,因此在SEED2的映射位置上執行全局比對。
[0052]圖4c對圖4a及圖4b所示實施例進行了一般化,表示了將重復判斷區域設定為與種子序列的第k個映射位置(I < k < N,其中N為種子序列的長度)之間的距離為基準值以內的區域的實施例。在這種情況下,SEED2的全局比對與否將根據所述k的值而改變。[0053]另外,如圖4d所示,也可將所述重復判斷區域構成為包含從種子序列的第一個映射位置向對象堿基序列的前方移動相當于基準值的距離后的位置到從種子序列的最后一個映射位置向對象堿基序列的后方移動相當于基準值的距離后的位置之間的區域。即,在這種情況下,得到如同將圖4a及圖4b中的重復判斷區域合并的結果。圖4e表示將其一般化而根據前述數學式I設定重復判斷區域的實施例。
[0054]之所以如上所述地在對一個種子序列執行了全局比對的情況下不執行針對其周圍的全局比對,是由于如下原因。由于成為全局比對候選對象的各種子序列是從一個短片段中獲得的,因此各種子序列在對象堿基序列中映射于相近的區間即意味著對應短片段在對應區間內得到映射的可能性很高。因此在這種情況下即使只是對相應區間內得到映射的多個種子序列中的一個種子序列執行全局比對,也完全可以將短片段映射于對應位置上。而且,反過來看,如果對映射于相近區間內的多個種子序列中的一個種子序列進行全局比對的結果沒有使短片段得到映射,則說明其他種子序列也沒有映射于對應區間的可能性較高。因此,在本發明的實施例中通過對各種子序列設定重復判斷區域,并在已在對應區域內執行全局比對的情況下不去重復執行全局比對,從而可以有效地減少需要花費非常多時間的全局比對次數。具體而言,使用本發明的全局比對方法的算法與未使用該方法的算法之間存在約30?35倍的速度差異。
[0055]另外,可將所述基準值設定為與所述短片段的長度成比例,具體而言,可將所述基準值設定為所述短片段長度的100%?170%。所述基準值與短片段的長度成比例是因為全局比對為通過短片段而執行。即,由于與映射位置之間的距離為短片段長度以內的區間已執行全局比對,因此沒有必要重復執行全局比對。而且,所述基準值被提高到短片段長度的170%是因為堿基序列的插入(insertion)或刪除(deletion)等可能導致短片段或對象堿基序列產生誤差,因而要予以考慮。如上所述地使所述基準值與短片段的長度聯動而變化的情況下,具有可以如前所述地提高堿基序列重組算法的速度的同時能夠保持映射準確度的優點。
[0056]圖5為根據本發明一個實施例的堿基序列重組系統500的模塊圖。根據本發明一個實施例的堿基序列重組系統500作為一種用于執行前述的堿基序列重組方法的裝置,包括種子序列生成單元502、映射位置計算單元504、全局比對單元506。
[0057]種子序列生成單元502利用從基因組測序儀獲得的短片段生成多個種子序列。如前所述,在種子序列生成單元502中由短片段生成種子序列的方法并不受到特別的局限,由短片段的一部分或整體提取種子序列的多種算法均可不受限制地使用。
[0058]映射位置計算單元504從由種子序列生成單元502生成的多個種子序列中選擇一個種子序列,并計算針對所選種子序列的對象堿基序列中的映射位置。
[0059]全局比對單元506由映射位置計算單元504所計算出的所述映射位置計算針對所選種子序列的重復判斷區域,并判斷在計算出的所述重復判斷區域內是否已執行全局比對,且在沒有執行的情況下在計算出的所述映射位置上執行針對所述短片段的全局比對(Global Alignment)。在這種情況下,由于已在前面詳述與計算所述重復判斷區域相關的具體內容,因此在此處省略詳細說明。
[0060]另外,本發明的實施例可以包括記錄有用于將本說明書中記載的方法在計算機上執行的程序的計算機可讀記錄介質。所述計算機可讀記錄介質可將程序命令、本地數據文件、本地數據結構等單獨或組合而包括在內。所述介質既可以是為了本發明而特別設計并構成的,也可以是計算機軟件領域中具有普通知識的人員所公知而能夠使用。計算機可讀記錄介質的實例中包括硬盤、軟盤、磁帶等磁介質;只讀光盤(CD-ROM)、DVD等光記錄介質;軟盤等磁光介質;只讀存儲器、隨機存儲器、閃存等為了存儲并執行程序命令而特意構成的硬件裝置。程序命令的實例中不僅包括通過編譯器(Compiler)制作的機器語言代碼,而且還可以包括借助于解釋器(Interpreter)等而能夠在計算機上執行的高級語言代碼。
[0061]以上通過代表性的實施例對本發明進行了詳細說明,然而本發明所屬【技術領域】中具有普通知識的人員即可明白在不脫離本發明范圍的條件下對上述實施例能夠進行多種多樣的變形。
[0062]因此不能局限于上述實施例而確定本發明的權利范圍,本發明的范圍應當由權利要求書及其等價內容確定。
【權利要求】
1.一種喊基序列重組系統,包括: 映射位置計算單元,從由短片段生成的多個種子序列中選擇一個種子序列,并計算選擇的種子序列在對象堿基序列中的映射位置; 全局比對單元,從計算出的所述映射位置計算對應于所述選擇的種子序列的重復判斷區域,并判斷在計算出的所述重復判斷區域中是否已執行全局比對,判斷結果如果沒有執行所述全局比對,則在計算出的所述映射位置上執行針對所述短片段的全局比對。
2.如權利要求1所述的堿基序列重組系統,其特征在于,所述重復判斷區域為與所述選擇的種子序列在所述對象堿基序列中的第k個映射位置之間的距離為設定基準值以內的區域,其中,I ^ k ^ N, N為所述選擇的種子序列的長度。
3.如權利要求2所述的堿基序列重組系統,其特征在于,所述基準值被設定為與所述短片段的長度成比例。
4.如權利要求3所述的堿基序列重組系統,其特征在于,所述基準值被設定為所述短片段的長度的100%~170%。
5.如權利要求1所述的堿基序列重組系統,其特征在于,所述重復判斷區域為根據如下數學式進行計算: Hia-V≤重復判斷區域≤mb+V, 其中,ma為所述選擇的種子序列的第a個映射位置,mb為所述選擇的種子序列的第b個映射位置,N為所述選擇的種子序列的長度,V為基準值,并且,I≤a≤N,I≤b≤N。
6.如權利要求5所述的堿基序列重組系統,其特征在于,所述基準值被設定為與所述短片段的長度成比例。
7.如權利要求6所述的堿基序列重組系統,其特征在于,所述基準值被設定為所述短片段的長度的100%~170%。
8.如權利要求1所述的堿基序列重組系統,其特征在于,當已執行全局比對的種子序列的映射位置被包含于所述重復判斷區域內時,所述全局比對單元將判斷在所述重復判斷區域內已執行全局比對。
9.一種堿基序列重組方法,包括如下步驟: 在映射位置計算單元中,從由短片段生成的多個種子序列中選擇一個種子序列,并計算選擇的種子序列在對象堿基序列中的映射位置; 在全局比對單元中,從計算出的所述映射位置計算針對所述選擇的種子序列的重復判斷區域; 在所述全局比對單元中,判斷在計算出的所述重復判斷區域中是否已執行全局比對,判斷結果如果沒有執行所述全局比對,則在計算出的所述映射位置上執行針對所述短片段的全局比對。
10.如權利要求9所述的堿基序列重組方法,其特征在于,所述重復判斷區域為與所述選擇的種子序列在所述對象堿基序列中的第k個映射位置之間的距離為設定基準值以內的區域,其中,I ^ k ^ N, N為所述選擇的種子序列的長度。
11.如權利要求10所述的堿基序列重組方法,其特征在于,所述基準值被設定為與所述短片段的長度成比例。
12.如權利要求11所述的堿基序列重組方法,其特征在于,所述基準值被設定為所述短片段的長度的100%~170%。
13.如權利要求9所述的堿基序列重組方法,其特征在于,所述重復判斷區域為根據如下數學式進行計算: Hia-V≤重復判斷區域≤mb+V, 其中,ma為所述選擇的種子序列的第a個映射位置,mb為所述選擇的種子序列的第b個映射位置,N為所述選擇的種子序列的長度,V為基準值,并且,I≤a≤N,I≤b≤N。
14.如權利要求13所述的堿基序列重組方法,其特征在于,所述基準值被設定為與所述短片段的長度成比例。
15.如權利要求14所述的堿基序列重組方法,其特征在于,所述基準值被設定為所述短片段的長度的100%~170%。
16.如權利要求9所述的堿基序列重組方法,其特征在于,當已執行全局比對的種子序列的映射位置被包含于所述重復判斷區域內時,所述全局比對單元將判斷在所述重復判斷區域內已執行全局比對。
17.一種裝置,包括: 一個以上的處理器; 存儲器; 一個以上的程序, 而且,構成為所述一個以上的程序被存儲于所述存儲器中,并通過所述一個以上的處理器執行, 其中,所述程序中包括用于執行如下步驟的命令: 從由短片段生成的多個種子序列中選擇一個種子序列,并計算選擇的種子序列在對象堿基序列中的映射位置; 從計算出的所述映射位置計算針對所述選擇的種子序列的重復判斷區域; 判斷在計算出的所述重復判斷區域中是否已執行全局比對,判斷結果如果沒有執行所述全局比對,則在計算出的所述映射位置上執行針對所述短片段的全局比對。
【文檔編號】G06F19/18GK103793623SQ201310369701
【公開日】2014年5月14日 申請日期:2013年8月22日 優先權日:2012年10月29日
【發明者】樸旻 申請人:三星Sds株式會社