可視化核酸序列的制作方法
【技術領域】
[0001] 本發明要求的優先權是美國臨時專利申請序列號61/757007,申請日2013年1月 25日,其公開的內容在此引用,以其整體并入本文。
[0002] 本發明涉及計算機輔助分析之生物信息數據處理,更具體地,涉及染色體核酸序 列的計算機輔助圖形分析。
【背景技術】
[0003] 脫氧核糖核酸(DNA)分子中含有在生物體的發育和功能中使用的遺傳密碼。這些 指令被編碼在堿基構成的DNA分子的兩個互補平行鏈中。具體地說,所述指令被存儲在核 苷酸鏈中,它們由四種不同的核苷酸構成(腺嘌呤(A),胞嘧啶(C),鳥嘌呤(G)和胸腺嘧啶 (T))。特定的核苷酸序列定義了生物體內的所有生理生化反應。
[0004] 為了更好地了解DNA序列是如何影響生物體,已經開發了一套稱為DNA測序流程, 其中核苷酸序列被讀取并存儲。這些序列可以隨后被分析,以識別核苷酸的某些序列,分析 與之在生物體內產生的生化特性之間的關系。該技術具有廣泛的應用,如在診斷,生物技 術,法醫生物系統學等相關領域。
[0005] 雖然DNA測序已經廣泛應用,將所得序列數據進行全面分析是很困難的,這是由 DNA序列數據性質決定的。例如,對基因學家來說,查看一長串A,T,C和G組成的核苷酸鏈, 從中提取分析有意義的信息是件極困難的事。此外,日益增長的海量DNA序列數據,使序列 分析成為一項繁重的任務。一套完整的人類染色體DNA含有33億個堿基對。這種數據規 模的分析是極為困難和耗時的。更困難的是,目前還沒有有效的方法,在宏觀水平上,對不 同物種,進行染色體序列比對分析。
[0006] 本發明引用的所有參考,都通過引用其整體,并入本發明。
【發明內容】
[0007] 本發明提供的方法(如計算機實現的方法,其中包括軟件系統和處理過程),用于 分析染色體核酸序列的數據;示例性方法包括:給定一條核苷酸序列,序列中的每個堿基 被分配一個數值(賦值);使用這些分配的值,求和可以計算出核苷酸序列中每個堿基位置 的累計值;生成一組累計值序列,然后,在坐標系中以曲線的形式,按分析需要,繪制成不同 的圖形(也稱為"序列圖譜")。
[0008] 本發明提供的方法,允許海量序列數據信息的分析;通過可視化顯示以曲線形式 表達的核苷酸序列數據(序列圖譜),能夠輕而易舉地識別序列曲線的特征圖案或圖形樣 式,(例如峰和/或峰叢)它們都對應于特定核苷酸序列組合;隨例顯示,序列圖示化曲線 上升意味著和A、G優勢含量相關(或是其反映);下降的曲線意味著,和堿基序列內的T、C 優勢含量相關(或是其反映)。因此,在實際應用中,序列圖譜的曲線能從視覺上判斷出,核 苷酸序列中的某些部分內的A、G或T、C相對含量。這些曲線圖形可以進一步被標記或注 釋,展示出富有特征片段的序列圖形"地圖"(如,基因分布圖,tRNA,rRNA,Alu族,重復序 列,SNP,甲基化等等分布圖),這樣,在其上能提供更多的有價值的基因信息內容。本發明 還提供方法命名,例如,在堿基序列中,為便于識別某種具有特征序列圖案或是相關的一部 分或多個部分而進行命名(即命名序列圖譜的部分)。
[0009] 本發明提供的方法,允許(例如不同的染色體間)核苷酸序列進行大片段序列相 似性比對;通過比較不同序列的圖譜或尋找曲線圖案相同或相似的形狀,可以容易地標識 出不同核苷酸序列間它們共通的相似序列;這方法使得比較各類各源的核苷酸序列變得簡 單快速,尤其是大片段的核苷酸序列,例如染色體序列間的比對,并輕而易舉地找出這些序 列之間的相似片段位置。
[0010] 本發明提供的方法,也可用于在一個特定序列中,尋找自身序列中的大片段重復 序列,例如,比對同一條序列譜圖(自相比對)的不同部分,就很容易地識別出序列內的重 復序列。本方法同時提供人們進行序列測序質量控制方法(如在基因測序項目中),涉及大 量序列信息拼接。在單一序列中,通過鑒別人工拼接序列中重復序列發生的位點和出現的 頻率,能直觀地評估合理性以及評價測序數據的質量。
[0011] 因此,在一個方面,本發明提供了一種方法(如計算機實現的方法),用于產生核 苷酸序列的一個可視化表達(例如一個序列圖譜)。在另一個方面,提供了分析核苷酸序列 (例如核苷酸序列至少0.01,0. 1,1,10或100百萬堿基大小范圍)的方法。在另一個方面, 提供了圖示化核苷酸序列(例如,至少0. 〇1,〇. 1,1,10或100百萬堿基大小的范圍的核苷 酸序列)的方法。在另一個方面,提供了識別序列重復的方法在給定的核苷酸序列內(例 如重復序列中的至少0. 〇1,〇. 1,1,10或100百萬堿基大小的范圍)。還提供了用于實施本 申請所描述的計算機實現的方法。
[0012] 因此,例如,在一些實際應用中,提供了一種計算機實現的方法,用于圖示化核酸 序列數據,該方法包括:(a)給定一組核苷酸的序列;(二)賦值該核苷酸序列中的每個堿 基,生成一組核苷酸值序列;(C)使用該核苷酸值序列,求和,計算該組序列的每個位置的 部分累計值,生成一組累計值序列(d)使用該累計值序列數據,圖示表達顯示。在這些實際 應用中,核苷酸序列包含多個核苷酸,包括腺嘌呤,胸腺嘧啶,鳥嘌呤和胞嘧啶。在這些實際 應用中,在該序列中的每個腺嘌呤核苷酸被分配一個相同的值;在該序列中的每個胸腺嘧 啶核苷酸被分配一個相同的值;在該序列中的每個鳥嘌呤核苷酸被分配一個相同的值;在 該序列中的每個胞嘧啶核苷酸被分配一個相同的值;
[0013] 根據上述任一應用在實際應用中,分配給該序列中的胸腺嘧啶核苷酸值和腺嘌呤 核苷酸的值是絕對值相等、符號相反,并分配給該序列中鳥嘌呤核苷酸的值,和分配該序列 中胞嘧啶核苷酸的值是絕對值相等、符號相反。
[0014] 在根據上述任一應用在實際應用中,一組累計值序列數據的可視化顯示包括累計 值序列數據的曲線圖形化表達。
[0015] 根據上述任一應用在實際應用中,一套累計值序列數據是,由該序列每個堿基位 置的部分累加值組成的序列。
[0016] 根據上述任一應用在實際應用中,該方法還包括:從上述第一組累計值序列數據 圖形中,截取復制一段數據圖形,用此數據片段,產生上述第一組數據所示圖示化圖形的一 部分。
[0017] 根據上述任一應用在實際應用中,復制的數據,圖示顯示后(做空間變換),包含 的圖形和上述核苷酸累計值序列所示圖形部分(或全部)是同形的,或是鏡像對稱、或旋轉 對稱。
[0018] 根據上述任一應用在實際應用中,其中,所述方法還包括,在前述核苷酸累計值序 列圖形上,進行特征片段的標注或注釋顯示
[0019] 根據上述任一應用在實際應用中,其中,進一步包括:識別前述核苷酸累計值序列 可視化圖形的相同/相似部分。
[0020] 根據上述任一應用在實際應用中,其中,還包括,在前述核苷酸累計值序列數據可 視化圖形中,識別出對稱結構。
[0021] 在前述核苷酸累計值序列數據中,其中,本發明進一步包括,給定第二組核苷酸序 列,賦值核苷酸,生成第二組核苷酸值序列;利用這第二組核苷酸值序列,產生第二組累計 值序列數據,使用該累計值序列數據,產生一個可視化的數據圖形顯示。
[0022] 在一些實際應用中,第二組序列中的核苷酸被分配的值,和第一組序列中核苷酸 被分配的值相同。
[0023] 在一些實際應用中,該方法還包括,識別所述第一組累計值序列數據圖示圖形中 的一個部分和第二組累計值序列數據的圖示圖形的一個部分之間相似或對稱。
[0024] 在一些實際應用中,提供了一種由上述方法產生的任何一種圖示圖形表達。
[0025] 在一些實際應用中,提供了一種命名核酸數據圖形的方法,其中,圖示化表達是由 以下方法產生(包含):(a)給定一條核苷酸序列;(b)給該核苷酸序列中的每個堿基賦值, 產生一組核苷酸值序列,(C)使用該核苷酸值序列,計算生成一條累計值序列;以及(d)使 用所述累計值序列數據,產生一個可視化的圖形顯示。
【附圖說明】
[0026] 圖1顯示了根據不同樣本,可視化核酸序列數據的處理流程。
[0027] 圖2顯示了可視化核酸序列數據樣本的步驟原理示意圖。
[0028] 圖3顯示了一組核酸序列四個方向讀取所產生的數據圖示,呈對稱圖形,是序列 圖示分析原理所在。
[0029] 圖4顯