堿基序列比對系統及方法
【專利摘要】本發明公開一種堿基序列比對系統及方法。本發明一實施例提供的堿基序列比對系統包括:片段序列生成單元,從短片段序列生成多個片段序列;過濾單元,從所生成的多個片段序列構成候補片段序列集合;片段序列擴張單元,計算各個候補片段序列的在對象序列的映射位置的數量,選擇所計算的映射位置的數量超過設定的值的片段序列,并對所選擇的片段序列的大小進行擴張,直至在對象序列的映射位置的數量變成設定的值以下為止;映射長度計算單元,將對象序列分割為多個區間,并按照各區間分別計算候補片段序列的總映射長度;比對單元,選擇所計算的總映射長度為基準值以上的區間,并對所選擇的區間執行針對短片段序列的全局比對。
【專利說明】堿基序列比對系統及方法
【技術領域】
[0001]本發明的實施例涉及用于分析基因組的堿基序列的技術【背景技術】
[0002]由于低廉的費用和快速的數據生產,生產大容量的短序列的下一代測序(next-generation sequencing ;NGS)正在快速地代替傳統的桑格(sanger)測序方式。而且,多種NGS序列再組合程序是將焦點聚焦到準確度的情形下被開發出來的。但是,最近隨著下一代測序技術的發展,制造片段序列的費用變為以前的一半以下,隨此能夠使用的數據的量變多,因此需要能夠在較快的時間內準確地處理大容量的短序列的技術。
[0003]序列再組合的第一個步驟為通過堿基序列比對(alignment)算法將短片段(read)映射(mapping)到參考序列的準確位置。在此存在的問題是,即使是相同種的個體也會因為各種遺傳變異而有可能在基因組序列上存在差異。而且,由于測序過程中的誤差,堿基序列也可能會產生差異。因此,堿基序列比對算法不得不有效地考慮這種差異和變異,以提高映射準確度。
[0004]得到的結論是,為了進行基因組信息的分析,需要盡可能多的數量的準確的整個基因組信息數據。而且,為此,需要先行開發出具有無比出色的準確度和大處理量的堿基序列比對算法。但是,以往的方法在滿足這種要求條件上存在限制。
【發明內容】
[0005]本發明的實施例的目的在于提供一種在確保映射準確度的同時,改善映射時的復雜度,由此能夠提高處理速度的堿基序列比對手段。
[0006]用于解決上述問題的本發明的一實施例提供的堿基序列比對系統為用于將短片段(read)序列比對到對象序列的系統,包括:片段序列生成單元,從所述短片段序列生成多個片段序列(fragment);過濾單元,從所生成的所述多個片段序列構成候補片段序列集合;片段序列擴張單元,計算各個所述候補片段序列的在所述對象序列的映射位置的數量,選擇所計算的所述映射位置的數量超過設定的值的片段序列,并對所選擇的片段序列的大小進行擴張,直至在所述對象序列的映射位置的數量變成所述設定的值以下為止;映射長度計算單元,將所述對象序列分割為多個區間,并按照所述各區間分別計算所述候補片段序列的總映射長度;比對單元,選擇所計算的所述總映射長度為基準值以上的區間,并對所選擇的區間執行針對所述短片段序列的全局比對(global alignment)。
[0007]用于解決上述問題的本發明的一實施例提供的用于將短片段序列比對到對象序列的方法包括如下步驟:由片段序列生成單元從短片段序列生成多個片段序列;由過濾單元從所生成的所述多個片段序列構成候補片段序列集合;由片段序列擴張單元計算所生成的各個所述候補片段序列的在所述對象序列的映射位置的數量;由所述片段序列擴張單元選擇所計算的所述映射位置的數量超過設定的值的片段序列;由所述片段序列擴張單元對所選擇的片段序列的大小進行擴張,直至在所述對象序列的映射位置的數量變成所述設定的值以下為止;由映射長度計算單元將所述對象序列分割為多個區間,并按照所述各區間分別計算所述候補片段序列的總映射長度;由比對單元選擇所計算的所述總映射長度為基準值以上的區間,并對所選擇的區間執行針對所述短片段序列的全局比對。
[0008]另外,用于解決上述問題的本發明的另一實施例提供的堿基序列比對系統為用于將短片段(read)序列比對到對象序列的系統,包括:片段序列生成單元,從短片段序列生成多個片段序列;過濾單元,從所生成的所述多個片段序列構成候補片段序列集合;映射長度計算單元,將所述對象序列分割為多個區間,并按照所述各區間計算所述候補片段序列的總映射長度;比對單元,選擇所計算的所述總映射長度為基準值以上的區間,并對所選擇的區間執行針對所述短片段序列的全局比對。
[0009]根據本發明的實施例,在對短片段序列進行比對時,并不是僅考慮短片段序列的特定區域,而是考慮整個短片段,由此選在種子片段(片段序列),因此相比于僅考慮短片段的一部分的算法,可提高準確度。
[0010]另外,按照短片段序列分別對在對象堿基序列內的重復數進行限制,對于超過此的種子片段確定種子片段的長度,由此提高映射的準確度,同時還具有能夠提高映射的速度的效果。
[0011]而且,利用映射柱狀圖選擇短片段映射到對象堿基序列內的可能性高的特定區域,并僅在該區域內執行全局比對,由此可大幅度地減少全局比對時間。
[0012]進而,對構成組合的可能性高的片段序列直接執行全局比對,以代替對從短片段導出的片段序列的映射位置和組合進行查找的復雜過程,由此可進一步提高全局比對速度,而且構成為記住全局比對位置之后,不在該位置周邊重復執行全局比對,因此具有能夠減少不必要的全局比對次數的優點。
【專利附圖】
【附圖說明】
[0013]圖1為用于說明本發明一實施例提供的堿基序列比對方法100的圖。
[0014]圖2為用于例示出本發明一實施例提供的堿基序列比對方法100的108步驟中的mEB計算過程的圖。
[0015]圖3為用于說明本發明一實施例提供的堿基序列比對方法100的112步驟中的片段序列生成過程的圖。
[0016]圖4為例示出利用本發明一實施例提供的映射柱狀圖的映射對象區間選擇過程的圖。
[0017]圖5為用于說明本發明的一實施例提供的在進行全局比對時用于減少不必要的全局比對次數的方法的示例圖。
[0018]圖6為示出本發明的一實施例提供的堿基序列比對系統600的方塊圖。
[0019]符號說明
[0020]600:堿基序列比對系統
[0021]602:片段序列生成單元
[0022]604:過濾單元
[0023]606:映射長度計算單元
[0024]608:比對單元[0025]610:片段序列擴張單元【具體實施方式】
[0026]以下,參照【專利附圖】
【附圖說明】本發明的具體的實施方式。但是,這只不過是示例,本發明并不局限于此。
[0027]在說明本發明時,當判斷為對于與本發明相關的公知技術的具體說明有可能混淆本發明的要旨時,省略對其的詳細說明。而且,后述的術語是考慮到在本發明中的功能而進行定義的,其根據用戶、應用者的意圖或慣例等而可能不同。因此,其定義應當以整個本說明中的內容來定義。
[0028]本發明的技術思想由權利要求書來確定,以下的實施例只不過是用于向本發明所屬【技術領域】的具有通常的知識的技術人員有效率地說明本發明的技術思想的一種手段。
[0029]在詳細說明本發明的實施例之前,首先對在本發明中所使用的術語進行說明為如下。
[0030]首先,所謂“短片段(read)序列”(或者簡稱為“短片段”)是從基因組測序儀輸出的長度短的堿基序列數據。短片段序列的長度根據基因組測序儀的種類而通常以35?500bp (堿基對,base pair)左右構成為多種,通常,DNA堿基用A、C、G、T的字母文字表示。
[0031]所謂“對象堿基序列”是指從所述短片段序列生成整個堿基序列時作為參考的堿基序列(reference sequence)。即,在堿基序列分析中,對于從基因組測序儀輸出的大量的短片段,參考對象喊基序列進行映射,由此完成整個喊基序列。在本發明中,所述對象喊基序列可以是在堿基序列分析時預先設定的序列(例如,人類的整個堿基序列等),或者也可以將從基因組測序儀制造的堿基序列作為對象堿基序列而使用。
[0032]“堿基(base) ”是構成對象堿基序列以及短片段的最小單位。如前所述,DNA堿基可由A、C、G以及T四個種類的字母文字構成,這些分別表示為堿基。即,DNA堿基由四個堿基表示,這對于短片段也相同。
[0033]“片段(fragment)序列”(或者種子片段(seed))是為了短片段序列的映射而比較短片段序列和對象堿基序列時作為單位的序列。從理論上來講,為了將短片段映射到對象堿基序列,需要將整個短片段從對象堿基序列的最前面的部分依次進行比較的同時計算短片段的映射位置。但是,在這樣的方法中,映射一個短片段需要非常長的時間和計算功率,因此實際上首先將由短片段的一部分構成的片(即,片段序列)映射到對象間隙序列中,由此找出整個短片段序列的映射候補位置,并在該候補位置映射(Global Alignment)整個短片段序列。
[0034]圖1為用于說明本發明一實施例提供的堿基序列比對方法100的圖。在本發明的實施例中,所謂堿基序列比對方法100是指將從基因組測序儀輸出的短片段序列與對象堿基序列進行比較,以確定短片段序列的在所述對象序列中的映射(或比對)位置的一系列過程。
[0035]首先,當從基因組測序儀輸入短片段序列時102,嘗試整個短片段序列與所述對象堿基序列的精確匹配(exact matching) 104。如果所述嘗試結果為針對整個短片段的精確匹配獲得成功,則不進行之后的比對步驟,判斷為比對成功106。
[0036]將人類的堿基序列作為對象進行試驗的結果表示,當將從基因組測序儀輸出的100萬個短片段序列精確匹配到人類的堿基序列時,在總共200萬次的比對中(正方向序列100萬次,逆向互補(選反向互補序列,Reverse Complement)方向序列100萬次)發生231,564次的精確匹配。因此,執行所述104步驟的結果,能夠減少約11.6%的比對需要量。
[0037]但是,與此不同,在所述106步驟中判斷為該短片段序列沒有精確匹配時,計算在將該短片段序列比對到所述對象序列時可能出現的誤差的最小數量(mEB,最小誤差界(minimum Error Bound))108。
[0038]圖2為用于例示出所述108步驟中的mEB計算過程的圖。首先,如圖2的(a)所不,最初將mEB設定為0,并從短片段序列的最前面第一個堿基開始一個堿基一個堿基地向右側移動的同時嘗試精確匹配。此時,如圖(b)所示,假設從短片段序列的特定堿基(圖中由第二個T標記的部分)開始不能再精確匹配。此時,表示在從短片段序列的匹配開始位置至當前位置之間的區間的某一處發生了誤差,因此,此時將mEB值增加l(mEB = I),并在下一個位置重新開始精確匹配(圖中由(c)標記)。之后,再次判斷為不能精確匹配時,表示在從重新開始精確匹配的位置至當前位置之間的區間的某一處再次發生了誤差,因此將mEB值再次增加I (mEB = 2),并在下一個位置重新開始精確匹配(圖中由(d)標記)。經過這樣的過程,到達至短片段的最末位時的mEB值成為該短片段的mEB。
[0039]當經過上述的過程計算出短片序列的mEB值時,判斷所計算出的mEB值是否超過預設的最大誤差容許值(maxEiror) 110,若超過,則判斷為針對該短片段序列的比對失敗,從而結束比對。
[0040]在前述的將人類的堿基序列作為對象進行的試驗中,在將最大誤差容許值(maxError)設為3的情況下計算剩余的短片段的mEB的結果表示,相當于總供844,891次的短片段超過所述最大誤差容許值。即,執行所述108步驟的結果,能夠減少42.2%的比對
需要量。
[0041]但是,與此不同,在所述110步驟中的判斷結果為計算出的mEB值為所述最大誤差容許值以下時,經過如下的過程執行針對該短片段序列的比對。
[0042]首先,從所述短片序列生成多個片段(fragment)序列112,并構成僅包含所生成的多個片段序列中的與所述對象序列映射的片段序列的候補片段序列集合114。之后,將所述對象序列分割為多個區間,并按照所述各個區間分別計算所述候補片段序列的總映射長度,由此生成映射柱狀圖116,在所生成的映射柱狀圖中選擇所述總映射長度為基準值(柱狀圖切值(Histogram cut))以上的區間,對于被選擇的區間將執行針對所述短片段序列的全局比對(global alignment) 118。此時,當所述全局比對的結果為短片段的誤差數量超過預設的最大誤差容許值時,判斷為比對失敗,反之,則判斷為比對成功120。
[0043]以下,詳細說明所述112步驟至118步驟的具體過程。
[0044]從短片段序列生成多個片段序列112
[0045]本步驟是為了正式地進行短片段序列的比對,從短片段序列生成多個小片(即,片段序列)的步驟。在本步驟中,從所述短片段序列的第一個堿基至最后一個堿基為止,以設定的間隔移動(移動大小,shift size)的同時,以設定的大小(片段大小(fragmentsize))讀取短片段序列的值,由此生成所述片段序列。
[0046]圖3為用于說明所述112步驟中的片段序列生成過程的圖。圖示的實施例示出的是,短片段序列的長度為75bp (堿基對,base pair),短片段的最大誤差容許值為3bp,片段序列的大小(fragment size)為15bp,移動間隔(shiftsize)為4bp的實施例。即,從短片段序列的第一個堿基開始,以4bp為單位向右側移動的同時生成片段序列。然而,圖示的實施例僅為示例性的,對于例如所述移動間隔、片段序列的大小等,可考慮短片段序列的長度、短片段的最大誤差容許值等值來適當地設定。也就是說,需要注意的是,本發明的權利范圍并不局限于特定的片段序列的大小以及移動間隔。
[0047]生成的片段序列的過濾以及擴張114
[0048]經過如上的過程生成了片段序列時,接著經過在所生成的片段序列中去除不與對象序列映射的片段序列的過濾過程,由此構成候補片段序列集合(sub-candidate)。S卩,嘗試所生成的片段序列與所述對象序列之間的精確匹配(exact matching),且由其結果為不匹配的堿基的數量為預設的容許值以下的片段序列(候補片段序列)構成所述候補判斷序列集合。此時,所述容許值為0時,所述候補片段序列集合僅包含與所述對象序列精確匹配的片段序列。
[0049]例如,在圖3所示的實施例中,假設所述種子片段的第15個、第31個以及第47個位置上發生了誤差(圖中用虛線表示)。此時,包含所述誤差的片段序列(圖中用灰色表示)不會與對象序列精確匹配,而只有沒有受到誤差影響的49?63、53?67、57?71、61?75的四個片段序列才與對象序列精確匹配。因此,此時,在所述候補片段序列集合中僅包含上述的四個片段序列。
[0050]另外,通常來說,對象堿基序列(例如,人類的基因組)包含多個重復序列(repeatsequence)。這種重復序列分布于對象序列的多個位置,且重復地包含相同的堿基序列,因此在進行部分片段序列與對象序列之間的映射時,將會在非常多的位置中發生精確匹配。但是,由于這樣的重復序列,在部分片段序列中生成非常多的數量的映射時,對于整個比對算法的復雜度以及準確度產生壞影響,因此,此時需要利用適宜地方法來減小被映射的位置的重復數。
[0051]為此,本步驟還可包括當候補片段序列中在所述對象序列中的映射位置超過預設的值(例如,50個)時,直至所述映射位置的數量變成所述設定的值以下為止,擴張該片段序列的大小的步驟。
[0052]具體來講,在本步驟中,計算出所生成的所述候補片段序列中的每一個的在所述對象序列中的映射位置的數量,并選擇出所計算出的所述映射位置的數量超過設定的值的片段序列之后,直至在所述對象序列中的映射位置的數量變為所述設定值以下為止,擴張所選擇的片段序列的大小。此時,所述選擇的片段序列的大小的擴張可通過在所述選擇的片段序列的第一個或最后一個部分增加對應于該位置的所述短片段序列中的堿基來執行。
[0053]對此舉例說明如下。例如,假設如下地從短片段序列生成了片段序列。
[0054]短片段序列:ATTGCCTCAGT
[0055]片段序列:TTGC(在短片段序列中畫下劃線的部分)
[0056]如果對于所述片段序列的映射的結果,在對象序列中的映射位置的數量為超過作為基準值的50個的65個,則如下所示地將每次以Ibp為單位擴張所述片段序列的長度,直至所述映射位置的數量降低到基準值以下。
[0057]TTGC (65個映射位置)
[0058]TTGCC (54個映射位置)[0059]TTGCCT (27個映射位置)
[0060]在上面的示例中,參考短片段序列增加了兩個堿基時,映射位置的數量降低至預定值以下,因此最終片段序列變為相比最初生成的值擴張2bp的TTGCCT。另外,需要注意的是,與前述的其他示例相同地,所述設定值是可根據對象序列、短片段序列以及片段序列的特性等而適宜地設定的值,本發明的權利范圍并不局限于特定的設定值。
[0061]在將人類的堿基序列作為對象進行的實驗中表現出了如下狀況:在100萬個短片段中以片段序列的長度為15np、移動間隔為4bp生成片段序列之后,將所生成的片段序列映射到對象序列時,當將基準值設為50時,在總共15,547,856個片段序列中有約77%的片段序列具有50個以下的映射。即,實驗結果表示,當基準值設為50時,77%的片段序列能夠直接使用,而剩余的23%的片段序列需要進行基于前述方法的片段序列的擴張。
[0062]映射柱狀圖的生成116
[0063]通過上述的過程構成了候補片段序列集合(sub-candidate)時,原則上來說,可利用這些候補片段序列集合的在所述對象序列內的映射位置將短片段序列映射到對象序列。但是此時,需要考慮候補片段序列的各個映射位置的所有組合,因此用于短片段序列的映射的計算的復雜度變得非常高。例如,當候補片段序列集合中所包含的候補片段序列為4個,且各個候補片段序列的在對象序列的映射位置的數量分別為3、6、24、49個時,需要對21, 168( = 3*6*24*49)個組合全都檢索。本發明為了降低如此的計算復雜度而使用映射柱狀圖。
[0064]在本發明中,映射柱狀圖為具有預定大小的排列(integer array),排列的值對應于將對象序列分割為具有相同大小的多個區間時的各個區間。例如,當將對象序以65536( = 216)bp大小的區間進行分割時,對象序列的0?65535bp為止的區間對應于映射柱狀圖h的第一個值(即,h[0]),65536?131071bp為止的區間對應于映射柱狀圖h的第二個值(即,h[l])。可利用這樣的方式將對象序列的分割的各個區間對應于映射柱狀圖。
[0065]而且,映射柱狀圖的各個值h[i]中存儲有在所對應的對象序列區間的所述候補片段序列的總映射長度A,進一步地,可存儲有映射于該對象序列區間的候補片段序列在短片段序列的位置中的最大的值B。
[0066]例如,圖3所示的實施例中,當53?67的片段序列映射于h[0]區間時,h[0]的柱狀圖值為變為(15,67)(此時,15為映射于h[0]區間的候補片段序列的總映射長度,67為被映射的候補片段序列在短片段序列的最后位置)。以相同的方式,當49?63的片段序列映射于h[l]區間時,h[l]的柱狀圖值變為(15,63)。之后,61?75的片段序列映射于h[0]區間時,h[0]的柱狀圖值更新為(23,75),其理由如下。
[0067]第一個值23:考慮了最初被映射的53?67和之后被映射的61?75的交疊(overlap)的區間的總映射長度。
[0068]第二個值75:相當于被映射的片段序列的最后位置,即61?75的最后位置。
[0069]映身寸對象IX間誅.擇以及全局比對(Global Assignment) 118
[0070]經過如上的過程生成映射柱狀圖時,將映射柱狀圖的柱狀圖值(在該區間的候補片段序列的總映射長度)為預設的基準值(柱狀圖切值(Histogram cut))以上的區間選擇為映射對象區間。
[0071]圖4為例示出利用本發明一實施例提供的映射柱狀圖的映射對象區間選擇過程的圖。如圖所示,假設對象序列被分割為h[0]至h[3]這4個區間,各個區間的柱狀圖值被計算為如下。
[0072]h[0] = 15,h[l] = 0,h[2] = 23,h[3] = 15
[0073]此時,所述柱狀圖切值被設定為22時,大于柱狀圖切值的區間變為相當于h[2]的區間,在本步驟中,將相當于h[2]的區間選擇為映射對象區間。此時,如果柱狀圖值大于柱狀圖切值的區間為多個,則相關的所有區間變為映射對象區間,并在包含于映射對象區間的多個區間上均執行全局比對。此時,為了提高比對速度,可將包含于映射對象區間的各個區間的柱狀圖值相互比較,并從柱狀圖值高的區間開始順序地執行全局比對。柱狀圖值高表示被映射的片段序列的總長度更長,因此在該區間上,短片段序列被映射的可能性高。而且,此時,若各個區間的柱狀圖值相同,則可計算映射到各個區間的候補片段序列的數量,并從片段序列的數量較多的區間開始執行全局比對。
[0074]如此,映射對象區間被選擇時,接著將候補片段序列(sub-candidate)中映射于該映射對象區間的候補片段序列選定為最終候補片段序列(candidate),并在所選定的最終候補片段序列的各自的映射位置上執行針對短片段序列的全局比對,由此完成針對短片段序列的比對。
[0075]例如,在所述圖4的實施例中,假設映射于h[2]區間的候補片段序列為49?63、53?67、61?75這三個,則所述三個候補片段序列成為最后候補,并將在這些的該區間內的映射位置上執行短片段序列的全局比對。
[0076]另外,在執行針對所述最終候補片段序列的全局比對時,為了減少全局比對所需的時間,記住已經執行過一次全局比對的對象序列中的位置,從而不在靠近其的位置上重復多次執行全局比對。具體來講,本步驟構成為,將所述映射對象區間分割為多個小區間之后,如果是執行了全局比對的小區間,則將此記錄下來。然后,在執行針對該小區間的全局比對時,利用所述記錄的信息判斷在該小區間上是否已執行過全局比對,并僅在所述判斷結果為沒有進行過全局比對的情形下才執行全局比對。
[0077]對此舉例說明的話如圖5所示。如圖所示,映射對象區間分為5個小區間,且假設所述三個最終候補中49?63、53?67映射于第二個小區間,61?75映射于第四個小區間。此時,如果對于49?63的片段序列在第二個小區間上執行全局比對時,與其結果無關地,對于所屬于相同的小區間的53?67不會執行全局比對,這對于其相反的情形也相同。因此,對于圖示的實施例的情形而言,全局比對將僅對49?63/61?75或者53?67/61?75的組合實施。如本發明一樣,即使不是在整個對象序列執行全局比對,而是僅在映射對象區間內執行全局比對,為全局比對所消耗的時間也比較多,因此通過如上的過程可減少全局比對所需的時間。
[0078]柱狀圖切值(Histogram Cut)計算
[0079]在上述實施例,柱狀圖切值可通過如下的方式計算。
[0080]首先,f表示片段序列的大小,s表示用于生成片段序列的短片段序列內的移動間隔,L表示短片段序列的長度,e表示在短片段序列中容許的最大誤差的數量,H表示柱狀圖切值時,在短片段序列中不受誤差的影響的區域的長度T可通過如下數學式算出。
[0081]T = L_f*e_s
[0082]此時,L和e為執行本發明時已經確定的值,因此T由f、s值確定。即,算法的性能根據如何改變f和S值而變化。
[0083]首先,在確定H值時,考慮下面兩個條件。其中必要條件必須要充分滿足的,而追加條件在可能的情形下予以考慮。
[0084]-必要條件:由于映射的基本單位為片段序列,因此柱狀圖切值無論多小也必須是至少為能夠包含處于交疊(overlap)的兩個以上的片段序列的大小。如果如圖2—樣,f = 15、s = 4時,交疊的兩個片段序列的最小長度變為15+4 = 19,因此至少H值應當為19以上。而且,所述H值需要設定成至少包含兩個片段序列,因此最小也應當要大于或等于f+s。如將在后面說明的一樣,f值應最小為15以上,因此將s值假設為其最小值I時,H變成最小為 16 ( = 15+1)以上的值。
[0085]-追加條件:當假設為理想的狀況時,若設定為H= T并找出映射有T以上的序列的柱狀圖時,可找到對于給出的誤差的所有的映射。但是,如前所述,當對象序列本身具有較多的重復時,根據狀況可能發生需要擴張片段序列的長度的情形。因此,考慮此情形而設定H值時,使用稍小于T的T-s在映射率方面比較有利。如果假設為H = T,則變為H =L-f*e-s,其中將e假設為最小值I時(若e為0則屬于與對象序列精確匹配的情形,因此在前述的104步驟中,映射將結束),變為H = L-f-s。該值變為柱狀圖值的最大值。如果假設 L = 75bp、f = 15bp、s= 1,則 H 的最大值變為 75-15-1 = 59。
[0086]若進行整理,則所述H值需要滿足如下的范圍。
[0087]f+s ^ H ^ L- (f+s)
[0088]接著,f?值在滿足下面兩個條件的值中選擇較大的值。必要條件依然是必須要充分滿足的,而追加條件在可能的情形下予以考慮。
[0089]-必要條件:f應當為15以上,其理由在于,當片段序列的長度為14以下時,在對象序列內的映射位置的數量將急劇增加。
[0090]下面的表1表示的是基于片段序列長度的在人類基因組內的片段序列的平均出現頻數。
[0091]表1
[0092]
【權利要求】
1.一種堿基序列比對系統,其中,包括: 片段序列生成單元,從短片段序列生成多個片段序列; 過濾單元,從所生成的所述多個片段序列構成候補片段序列集合; 片段序列擴張單元,計算各個所述候補片段序列的在所述對象序列的映射位置的數量,選擇所計算的所述映射位置的數量超過設定的值的片段序列,并對所選擇的片段序列的大小進行擴張,直至在所述對象序列的映射位置的數量變成所述設定的值以下為止; 映射長度計算單元,將所述對象序列分割為多個區間,并按照所述各區間分別計算所述候補片段序列的總映射長度; 比對單元,選擇所計算的所述總映射長度為基準值以上的區間,并對所選擇的區間執行針對所述短片段序列的全局比對。
2.根據權利要求1所述的堿基序列比對系統,其中,所述片段序列生成單元從所述短片段序列的第一個堿基以設定的間隔移動的同時以設定的大小讀取所述短片段序列的值,由此生成所述片段序列。
3.根據權利要求1所述的堿基序列比對系統,其中,所述過濾單元將與所述對象序列的精確匹配的結果為不匹配的堿基的數量達到設定的數量以下的片段序列包含到所述候補片段序列集合。
4.根據權利要求1所述的堿基序列比對系統,其中,所述片段序列擴張單元在所選擇的所述片段序列的第一個或最后一個部分增加對應于該位置的所述短片段序列中的堿基。
5.根據權利要求1所述的堿基序列比對系統,其中,所述比對單元在所述候補片段序列中選擇映射于所選擇的所述區間的候補片段序列,并在所選擇的各個候補片段序列的在所述對象序列內的映射位置執`行針對所述短片段序列的全局比對。
6.根據權利要求5所述的堿基序列比對系統,其中,所述比對單元將所選擇的所述區間分割為多個小區間,并判斷在將要執行全局比對的所述對象序列內的位置所屬的小區間是否已經執行了全局比對,且僅在所述判斷的結果為沒有執行過全局比對時才執行所述全局比對。
7.根據權利要求1所述的堿基序列比對系統,其中,所述基準值為從以下數學式H=L-f*e_2s或者H = f+s中計算出的值中的最大值, 此時,H為基準值,L為短片段序列的長度,f為片段序列的長度,e為短片段序列的最大誤差數量,s為各片段序列的移動間隔。
8.根據權利要求7所述的堿基序列比對系統,其中,所述基準值滿足以下數學式:f+s ^ H ^ L- (f+s)。
9.根據權利要求1所述的堿基序列比對系統,其中,所述基準值為16以上59以下。
10.一種堿基序列比對方法,用于將短片段序列比對于對象序列,其中包括如下步驟: 由片段序列生成單元從短片段序列生成多個片段序列; 由過濾單元從所生成的所述多個片段序列構成候補片段序列集合; 由片段序列擴張單元計算所生成的各個所述候補片段序列的在所述對象序列的映射位置的數量; 由所述片段序列擴張單元選擇所計算的所述映射位置的數量超過設定的值的片段序列;由所述片段序列擴張單元對所選擇的片段序列的大小進行擴張,直至在所述對象序列的映射位置的數量變成所述設定的值以下為止; 由映射長度計算單元將所述對象序列分割為多個區間,并按照所述各區間分別計算所述候補片段序列的總映射長度; 由比對單元選擇所計算的所述總映射長度為基準值以上的區間,并對所選擇的區間執行針對所述短片段序列的全局比對。
11.根據權利要求10所述的堿基序列比對方法,其中,生成所述片段序列的步驟為,從所述短片段序列的第一個堿基以設定的間隔移動的同時以設定的大小讀取所述短片段序列的值,由此生成所述片段序列。
12.根據權利要求10所述的堿基序列比對方法,其中,構成所述候補片段序列集合的步驟為,將與所述對象序列的精確匹配的結果為不匹配的堿基的數量達到設定的數量以下的片段序列包含到所述候補片段序列集合。
13.根據權利要求10所述的堿基序列比對方法,其中,擴張所選擇的所述片段序列的大小的步驟構成為,在所選擇的所述片段序列的第一個或最后一個部分增加對應于該位置的所述短片段序列中的堿基。
14.根據權利要求10所述的堿基序列比對方法,其中執行所述全局比對的步驟為,在所述候補片段序列中選擇映射于所選擇的所述區間的候補片段序列,并在所選擇的各個候補片段序列的在所述對象序列內的映射位置執行針對所述短片段序列的全局比對。
15.根據權利要求14所述的堿基序列比對方法,其中,執行所述全局比對的步驟包括如下步驟:將所選擇的所述區間分割為多個小區間;判斷在將要執行全局比對的所述對象序列內的位置所屬的小區間是否已經執行了全局比對, 而且僅在所述判斷的結果為沒有執行過全局比對時才執行所述全局比對。
16.根據權利要求10所述的堿基序列比對方法,其中,所述基準值為從以下數學式H=L-f*e_2s或者H = f+s中計算出的值中的最大值, 此時,H為基準值,L為短片段序列的長度,f為片段序列的長度,e為短片段序列的最大誤差數量,s為各片段序列的移動間隔。
17.根據權利要求16所述的堿基序列比對方法,其中,所述基準值滿足以下數學式:f+s ^ H ^ L- (f+s)。
18.根據權利要求10所述的堿基序列比對方法,其中,所述基準值為16以上59以下。
19.一種堿基序列比對系統,其中,包括: 片段序列生成單元,從短片段序列生成多個片段序列; 過濾單元,從所生成的所述多個片段序列 構成候補片段序列集合; 映射長度計算單元,將所述對象序列分割為多個區間,并按照所述各區間計算所述候補片段序列的總映射長度; 比對單元,選擇所計算的所述總映射長度為基準值以上的區間,并對所選擇的區間執行針對所述短片段序列的全局比對。
【文檔編號】G06F19/22GK103793625SQ201310064514
【公開日】2014年5月14日 申請日期:2013年2月28日 優先權日:2012年10月29日
【發明者】樸旻胥, 樸商賢, 呂潤九 申請人:三星Sds株式會社, 延世大學校產學協力團