用于錯誤校正的序列讀數迭代聚類的制作方法
【專利摘要】示例性實施方式提供了用于錯誤校正的序列讀數的迭代聚類的方法和系統。示例性實施方式的方面包括接收序列讀數的集和相關的質量值;將序列讀數基于序列相似性分組為初始簇的集;生成各初始簇的簇共有區;基于與序列讀數相關的質量值和簇共有區迭代改進聚類;并且生成并輸出各簇的最終簇共有區。
【專利說明】用于錯誤校正的序列讀數迭代聚類
[0001] 相關申請的交叉引用
[0002] 本申請要求2013年12月18日提交的題為"用于從混合群體中生成共有序列的方 法"的美國臨時專利申請系列號61/917,777,和2014年7月24日提交的題為"用于錯誤校正 的序列讀數迭代聚類"的美國臨時專利申請系列號62/028,741的權益,兩者轉讓給本申請 的受讓人,并且通過引用納入本文。
[0003] 發明背景
[0004] 生物分子序列確定的進步,尤其是針對核酸和蛋白質樣品,已經徹底改變了細胞 和分子生物學領域。由自動化測序系統發展促進,現在能夠對樣品核酸的混合群進行測序。 然而,序列信息的質量必須得到仔細監控,并且可被與生物分子本身或使用的測序系統相 關的許多因素削弱,包括生物分子的組成(例如,核酸分子的堿基組成)、實驗和系統雜音、 觀察的信號強度的變化、和反應效率的差異。如此,必須采用方法以分析和改善來自這類測 序技術的數據的質量。
[0005] 除了影響生成的序列讀數的總體準確性以外,這些因素可能使堿基判定為真變異 或者錯判(例如,序列讀數中的插入、刪除或錯配錯誤)的設計復雜化。例如,當序列讀數具 有在同源染色體之間不同的堿基判定時,能夠確定不同的堿基判定是同源物之間的真變異 或者僅僅是測序錯誤是重要的。另外,個體中的病毒群體可能在群體中的個體病毒基因組 之間存在許多變異,尤其是可高度突變的病毒,如HIV。能夠鑒定具有不同來源(例如,不同 染色體或基因組來源)的測序讀數是能夠精確表征核酸混合群體的關鍵。對于生成100%精 確的讀數的理論測序平臺而言,讀數可簡單地用簡單字符串比對算法與另一讀數比較。讀 數之間的任何差異表明真變異,因此表明不同來源。然而,任何現實原始測序數據可能含有 錯誤,因此簡單字符串匹配算法方法是不足的。當對轉錄組進行測序時尤為如此。
[0006] 轉錄組是所有RNA分子的集合,包括一種細胞或細胞群體生成的mRNA、rRNA、tRNA 和其他非編碼RNA。因為該數據包括細胞中的所有mRNA轉錄本,轉錄組反映了在任何給定時 間上正處于主動表達的基因。目前,有兩種推導轉錄組的一般方法。一種方法將序列讀數映 射到轉錄組正受到研究的生物體或緊密相關的物種參照基因組上。另一種方法是轉錄組從 頭組裝,其使用軟件來從短序列讀數直接推導出轉錄本。
[0007] 然而,市售的基因組比對器不能對轉錄組測序中的全長度長序列讀數進行錯誤校 正。例如,在PacBio⑧RS II設備上產生的讀數平均為5-6kb,并且常規生成長達20kb的讀 數。對于這種長讀數能力,可對全長mRNA轉錄本進行測序,例如,在轉化為cDNA之后。這可有 助于研究人員鑒定難以使用短讀數測序技術重構的剪接模式。然而,公共可得的序列比對 器,例如GMAP,和功能性注釋工具幾乎都需要具有接近100%準確性的讀數。PacBio設備從 具有使其難以直接應用這些序列比對工具的錯誤特征的單一模板分子生成讀數。然而,在 測序插入(轉錄本)遠短于聚合酶閱讀長度的情況中,可生成高度準確的共有序列:通過對 單一分子的冗余測序,cDNA模板的長的長度與系統中聚合酶測序引擎的處理能力的組合可 產生充足的冗余以實現這些分析工具所需的準確性。然而,這僅可應用于較短的轉錄本,而 較長的轉錄本仍然在它們實現適合生物分析的準確性水平之前需要額外處理。
[0008] 目前,存在用于在轉錄組測序中對長讀數(例如,PaeBio? cDNA長讀數)進行錯誤 校正公開的2種工具,PacBioToCA和LSC。兩種工具都使用短讀數(例如,Illumina·短讀數), 并且按照以下一般方案:對于各長讀數,將短讀數與長讀數比對仿佛其是基因組"支架",并 且基于短讀數比對生成最佳共有區。這種一般方案有幾個缺陷:(1)由于短讀數僅為50-l〇bp,它們可能非特異性映射并且引入更多的錯誤;(2)所有現有的短讀數技術攜帶它們自 身的系統錯誤,其可能使校正產生偏差;(3)沒有利用相同的轉錄本通常由多個長讀數表示 的事實,其在來自太平洋生物科學公司(Pacific Biosciences)的長讀數的情況沒有系統 系統偏差;(4)沒有使用來自長讀數的質量值(QV);和(5)該方案需要2種不同的測序系統。
[0009] 需要一種解決轉錄組測序中錯誤的問題的算法,并且優選設計為處理從頭合成轉 錄組,即沒有參照基因組的算法。
【發明內容】
[0010] 示例性的實施方式一般涉及用于分析來自核酸的混合群體的序列數據、用于將各 序列讀數分配到特定來源、和用于最終鑒定來自序列信息的一個或多個生物分子目標序列 的一個或多個共有序列的方法。本文提供的方法不僅可應用于幾乎沒有錯誤的序列數據, 也可應用于具有較高頻率的插入、刪除和/或錯配錯誤的序列數據。因此,本發明還涉及進 行這些方法的系統。
[0011]參照以下詳細說明和附圖將更好地理解本發明和各種具體方法及實施方式,其 中,在各種具體方面和實施方式中描述了本發明。提供這些是為清楚起見,并且不用被認為 限制本發明。本發明及其方面可應用于多種類型的本文未具體公開的方法、裝置和系統。在 某些方面中,示例性實施方式提供了用于錯誤校正的序列讀數的迭代聚類的方法和系統, 其通過在至少一個處理器上進行的至少一個軟件組件來進行。在某些實施方式中,這類方 法包括接收序列讀數的集和相關的質量值;將序列讀數基于序列相似性分組為初始簇的 集;生成各初始簇的簇共有區;基于與序列讀數相關的質量值和簇共有區迭代改進聚類; 和,生成并輸出各簇的最終簇共有區。
[0012] 在另一個方面中,迭代改進聚類還包括:使用質量值計算屬于各簇的各序列讀數 的概率;將個體序列讀數從一個簇重分配至具有最高計算概率的另一個簇;和,合并高度相 似的簇。
[0013] 在一個實施方式中,輸入序列讀數包括長度至少0.5kb至長度1、2、3、4、5、7或IOkb 的全長的長讀數,并且使用簇共有區和非全長讀數來生成最終簇共有區,其可用于提供序 列數據的全覆蓋率以提供更高水平的共有區。
[0014] 附圖的一些方面的簡要說明
[0015] 圖1是顯示用于實施使用用于轉錄組測序數據的錯誤校正的測序讀數的迭代聚類 的進程的計算機系統的一個實施方式的圖。
[0016] 圖2是顯示按照示例性實施方式用于錯誤校正的序列讀數的迭代聚類的方法的某 些方面的流程圖。
[0017] 圖3是顯示來自已經比對以產生成對比對的相同同種型的2個讀數的示例性部分 的圖。
[0018]圖4是顯示示例性相似性圖像的圖。
[0019]圖5是顯示一個用于區分比對的讀數之間的真同種型差異與序列錯誤的實施方式 的圖。
[0020]圖6是顯示初始分配至錯誤簇的序列讀數的示例的圖,其中相同填充模式的序列 讀數來自相同同種型。
[0021]圖7是顯示分別針對各簇生成的示例性簇共有區C1、C2、C3和C4的圖。
[0022]圖8是顯示將序列讀數從一個簇重分配至具有最高的成員計算概率的簇的圖。 [0023]圖9是顯示從孤兒產生新簇的示例的圖。
[0024]圖10是顯示2個簇合并的圖。
[0025]發明詳述
[0026]本發明的多個實施方式和組分采用在多個技術領域熟悉的信號和數據分析技術。 為了清楚地說明,本文不提供已知分析技術的詳細內容。這些技術描述于多個可及的參考 文獻中,如:R.B.Ash,《真實分析和概率》(Real Analysis and Probability),學術出版社 (Academic Press),紐約,1972;D.T.Bertsekas和 J.N.Tsitsiklis,《概率介紹》 (Introduct ion to Probabi I i ty),2002 ; K . L. Chung,《固定轉移概率的馬爾科夫鏈》 (Markov Chains with Stationary Transition Probabilities),1967;W.B.Davenport和 W.L Root,《隨機信號和噪音理論介紹》(An Introduction to the Theory of Random Signals and Noise),麥格勞-希爾公司(McGraw-Hill),紐約,1958; S·Μ·Kay,《統計學處理 基礎》(Fundamentals of Statistical Processing),第1-2卷,(精裝-1998) ;Monsoon H.Hayes,《統計學數據信號處理和建模》(Statistical Digital Signal Processing and Modeling),1996 ;R.M.Gray 和L .D .Dav is son 的《統計學信號處理介紹》(Introduction to Statistical Signal Processing) ;Steven M.Kay的《現代光譜估計:理論及應用》(Modern Spectral Estimation:Theory and Application)/書和光盤(Prentice-Hall信號處理叢 書)(精裝-1988年1月);Steven M.Kay的《現代光譜估計:理論及應用》(Modern Spectral Estimation:Theory and Application)(平裝-1999年3月);Burkhard Buttkus的《應用地 球物理中的光譜分析和過濾理論》(Spectral Analysis and Filter Theory in Applied Geophysics)(精裝-2000年5月 11 日);Donald B.Percival和Andrew T.Walden的《物理應用 的光譜分析》(平裝-1993年6月25日);J.L.Starck和F.Murtagh的《天文圖像和數據分析》 (Astronomical Image and Data Analysis)(天文學和天體物理學圖書館)(精裝-2006年9 月25日);Daniel S · Sem的《蛋白質組學中的光譜技術》(Spectral Techniques In Proteomics)(精裝-2007年3月30 日);Dhammika Amaratunga和Javier Cabrera的《DNA微陣 列和蛋白質陣列數據的探索和分析》(Exploration and Analysis of DNA Microarray and Protein Array Data)(概率和統計學Wiley叢書)(精裝-2003年10月21日)。
[0027]轉錄組分析的長讀數錯誤校正與基因組組裝的錯誤校正不同。兩者都可歸結為聚 類問題。在基因組組裝中,僅存在與染色體一樣多的"簇%各染色體彼此非常不同。與整個 染色體尺寸比較,共享的重復區域非常小,并且只要存在跨重復的連續長讀數,相對容易決 定其起點。
[0028]相反,對于轉錄組分析,存在與轉錄本一樣多的簇。在真核生物中,基因可具有許 多不同的剪接形式。在一個極端示例中,轉錄本的一個同種型有額外的20bp外顯子,而其他 同種型則沒有。對于許多生物學問題而言,能夠將2種同種型區分開是重要的。這種詳細差 異的水平很少在基因組規模上發現,因此,現有的方法,例如生成高質量(>99.999%準確) 從頭組裝的分級基因組組裝過程(HGAP)不能直接應用于轉錄組問題(HGAP描述于2013年7 月12日提交的美國專利申請13/941,442)。
[0029] "準種問題"是一般轉錄組聚類問題的具體應用。像轉錄組測序那樣,簇的總量是 未知的并且必須迭代地"猜測"簇和簇共有區。對于HIV基因組而言,該問題更簡單,因為HIV 基因組是已知的并且目前可著眼于預期的突變數量。Zogardi等,(2010) "HIV準物種的可靠 估計和下一代測序數據的錯誤校正(Error correction of next-generation sequencing data and reliable estimation of HIV quasispecies)''Nucl.Acids.Res·doi:10·1093/ nar/gkq655中提供了準物種問題的其他信息,其通過引用全文納入本文用于所有目的。
[0030] 按照示例性實施方式,提供了解決轉錄組測序中的錯誤的問題的算法。然而,與使 用"種子讀數(seed read)"來比對較短讀數以生成高度精確的預組裝讀數的HGAP概念不 同,示例性實施方式的算法采用簇共有區。
[0031] 示例性實施方式一般涉及從混合群體中生成共有序列。更具體地,示例性實施方 式提供了基于主要使用長讀數數據的同種型迭代聚類對讀數進行錯誤校正的方法和系統。 迭代計算各輸入序列讀數屬于各簇的概率,然后將序列重分配至具有更高成員概率的簇。 另外,該進程合并高度相似的簇。按照示例性實施方式,迭代同種型水平聚類去除了轉錄本 冗余并且改進了轉錄組共有區準確性,全部都不需要參照基因組。
[0032]計算機實施
[0033]圖1是顯示用于實施用于錯誤校正的序列數據迭代聚類的進程的計算機系統的一 個實施方式的圖。在【具體實施方式】中,本發明可整體或部分體現在固定介質上記錄的軟件。 計算機100可以是具有至少一個處理器1〇2(例如,CHJ等)、存儲器103、輸入/輸出(1/0) 104,、和數據儲存庫106的任意電子裝置。CPU102、存儲器103、1/0 104以及數據存儲庫106 可通過系統總線,或者使用任意類型的通信連接來連接。雖然未顯示,計算機100也可包括 用于有線和/或無線通信的網絡接口。在一個實施方式中,計算機100可包括個人計算機(例 如,臺式機、筆記本、平板等)、服務器、客戶端計算機,或可穿戴裝置。在另一個實施方式中, 計算機100可包括任意類型的用于與遠程數據應用相互作用的信息電器,并且能夠包括這 類裝置如互聯網功能電視、手機等。
[0034]處理器控制計算機100的運行并且可從存儲器103和/或數據存儲庫106讀取信息 (例如,指令和/或數據)并且相應執行指令以執行示例性實施方式。術語"處理器102"往往 包括一個處理器、多個處理器,或者一個或多個多核處理器。
[0035] 1/0 104可包括任意類型的輸入裝置,如鍵盤、鼠標、麥克風等,以及任意類型的輸 出裝置,例如,監視器和打印機。在計算機100包括服務器的一個實施方式中,輸出裝置可耦 合至本地客戶端計算機。
[0036] 存儲器103可包括任意類型的靜態或動態存儲器,包括閃存、DRAM、SRAM等。存儲器 103可存儲程序和數據,包括序列比對器/重疊器110、簇共有區算法111、迭代簇錯誤校正 (ICE)組件112,和平滑組件114(例如,Quiver)。這些組件/算法可用于本文所述的轉錄組序 列組裝進程。
[0037] 數據存儲庫106可存儲幾個數據庫,包括其存儲序列讀數116、讀數質量值(下文中 QV)118、最大團120、簇122、簇共有區124、概率126,和最終共有序列128的一個或多個數據 庫。造轉錄組測序實施方式中,序列讀數116包括同種型序列讀數,其可包括全長序列讀數 (下文"全長讀數")116-1和非全長序列讀數(下文"非全長讀數")116-2。同樣,在該實施方 式中,簇122可包括同種型水平簇。
[0038]在一個實施方式中,數據存儲器106可位于計算機100內。在另一個實施方式中,數 據存儲器106可通過網絡端口或外部裝置連接至計算機100。數據存儲庫106可包括分離的 服務器或任意類型的存儲裝置(例如,盤型光學或磁性介質、固態動態或靜態存儲器等)。數 據儲存庫106可任選地包括多個輔助存儲裝置,例如,用于分開存儲輸入序列(例如,序列讀 數)、序列信息、計算結果和/或其他信息。計算機100可在此后使用該信息來指導服務器或 客戶端邏輯,如本領域所理解的那樣,以體現本發明的方面。
[0039]操作中,操作者可通過顯示屏(未顯示)上呈現的用戶界面與計算機100相互作用 以指定讀數116和各種軟件程序所需的其他參數。一旦援用,包括序列比對器/重疊器110、 簇共有區算法111、I CE組件112和平滑組件114的存儲器103中的程序由處理器102執行以實 施本發明的方法。
[0040] 序列比對器/重疊器110從數據存儲庫106中讀取選擇的序列讀數116并且在序列 讀數116上進行序列比對以鑒定相似的區域,其可以是結構或功能或其他序列讀數116之間 的關系的結果。在一個實施方式中,全長讀數116-1-般是高準確性讀數,例如,至少約98% 或99%準確,并且可以是來自提供這種高質量讀數的測序技術的原始讀數,或者可以是構 建自較低質量的測序讀數數據的預組裝的高質量讀數,如本文他處所述。比對的序列117在 序列比對期間由序列比對器/重疊器110生成。在某些實施方式中,序列比對器/重疊器110 以C、C++、Java、C#、F#、Python、Peri、Haskell、3〇&1&、1^8卩、?丫1:11〇11/〇混合式和本領域已知 的其他語言執行。
[0041] ICE組件112通過基于相似性和最大團120將序列讀數116分成初始簇的集來生成 類似序列讀數的簇122。簇共有區算法111生成各簇的簇共有區12LICE組件112然后通過基 于簇共有區124和與序列讀數相關的質量值的迭代來迭代改進聚類,其包括將基于計算機 概率126序列讀數116從一個簇重分配至另一個簇,并且合并基本相似的簇。然后,平滑組件 114可按照示例性實施方式生成各簇122的最終簇共有區128,如下文進一步所述。
[0042]該處理的輸出可包括最終共有序列128的列表,其各自代表簇的"共有區"。在一個 實施方式中,各簇122可代表單一、獨特的轉錄本。因此,在一個實施方式中,本發明可提供 使用全長讀數116-1從混合群體中鑒定獨特的全長轉錄本的集的方法和系統。
[0043]在一個實施方式中,處理的結果還可任選地包括質量信息、技術信息(例如,峰特 征、預期的錯誤率)、替代(例如,第二或第三好)共有區確定、置信標準等。在產生初始簇、生 成簇共有區、迭代聚類和生成最終簇共有區的進程期間和之后,這一處理的過程和/或結果 可保存到存儲器103和數據存儲庫106和/或通過I/O 104輸出用于在顯示裝置上顯示和/或 保存到其他存儲裝置(例如,CD、DVD、藍光、閃存卡等),或打印。
[0044]圖2是顯示按照示例性實施方式用于錯誤校正的序列讀數的迭代聚類的進程的某 些方面的流程圖。在一個實施方式中,可使用該進程來校正轉錄組測序期間長讀數中的錯 誤。該進程可通過序列比對器/重疊器110、簇共有區算法111、ICE組件112、和平滑組件114 的組合來進行(圖1 ),其雖然顯示為分開的組件,各自的功能可合并成較少或較大數量的軟 件算法/組件。
[0045]可通過接收一組序列讀數116和相關的質量值118(塊200)來開始該進程。序列讀 數116優選包括但不限于一組全長的長讀數116-1。質量值(QV)IlS是由測序機器生成的對 每個位置堿基判定準確性的估計。
[0046]迭代聚類錯誤校正(ICE)組件112基于序列相似性(塊202)將序列讀數分成初始簇 的集。簇共有區算法111生成各初始簇的簇共有區124(塊204) <JCE組件112基于與序列讀數 相關的質量值118和簇共有區迭代改進聚類(塊206),如下文進一步詳述。
[0047]在其他實施方式中,該進程還包括生成并輸出各簇的最終簇共有區128(塊208)。 在一個實施方式中,最終簇共有區128可包括最終簇共有序列的列表,其各自代表簇的共有 序列(并且因此在一個實施方式中代表轉錄本)。在一個實施方式中,一旦完成了迭代聚類 進程,即可生成最終簇共有區128。在輸入包括全長讀數116-1的另一個實施方式中,可通過 將非全長讀數116-2輸入最終平滑進程,其隨后生成最終簇共有區128來生成最終簇共有 區。如本領域所熟知,最終簇共有區128可保存到,例如,存儲器103和/或數據存儲庫106,或 送至I/O 104用于在監視器上顯示和/或由打印機打印。
[0048]上述步驟的進一步詳細描述見下。
[0049] 序列讀數
[0050] 轉錄本同種型測序的一個目的是使用準確、未組裝的、全長的長讀數理解轉錄組 復雜性。通過測序機器自動捕獲并鑒定全長讀數116-1,但是示例性實施方式通過迭代聚類 提尚準確性。
[0051 ]在示例性實施方式中,輸入序列讀數116包括例如轉錄本的全長的長讀數116-1。 然而,在另一個實施方式中,輸入序列讀數116可包括非全長讀數116-2。序列讀數116可任 選地包括冗余序列信息,例如,其中相同的轉錄本經重復測序以生成包括轉錄本的多個拷 貝的長序列讀數。此外,與序列讀數116相關的其他信息可包括相關的測序技術輸出的特征 (例如,蹤跡特征(積分的每峰計數、峰的形狀/高度/寬度、與相鄰峰的距離、相鄰峰的特 征)、信噪比、功率噪音比、背景標準、信號強度、反應動力學等)等。
[0052]初始聚類
[0053]迭代聚類進程包括2個階段。第一階段包括基于序列相似性將序列讀數116分成初 始簇的集(塊202)。在一個實施方式中,例如,使用初始聚類有助于確定那些序列讀數116來 自相同的轉錄本同種型。聚類的背景想法是對源自相同同種型的多個拷貝的多個序列讀數 的觀察。例如,以下顯示了源自相同同種型的轉錄本讀數的3個拷貝:
[0054] TGGGAGCCTATGCGACAATGAAACCTG..·
[0055] TGGAGCAATATGCGAACAATAAAACCTC..·
[0056] TGGAGCATATGCGAACAATAAAACGGG..·
[0057]其中,加粗的堿基表示主要是插入缺失標記(插入或缺失)的隨機分布錯誤。對這 類源自相同同種型的讀數的聚類可能產生更高準確性的共有序列。
[0058] 比對
[0059]圖2顯示了初始聚類進程的進一步詳細說明(塊202)。在一個實施方式中,初始聚 類進程可通過由序列比對器/重疊器110比對序列讀數116開始產生比對的讀數。可使用許 多已知的序列比對進程,例如,使用基本局部比對與連續細化(Basic LocaI Al ignment with Successive Refinement) (BLASR)算法映射單一分子測序讀數116,進一步描述于美 國專利公開號20120330566,其通過引用全文納入本文用于所有目的。
[0060] 圖3是顯示來自已經使用序列比對器/重疊器110比對以產生比對的讀數300的相 同同種型的2個讀數的示例性部分的圖。在該實施例中,顯示為"查詢"的第一比對的讀數的 長度是l,675bp,并且顯示為"目標"的第二比對的讀數的長度是l,680bp。比對的讀數300之 間的比對("nMatch")是1.6kbp并且相似性百分比("% sim")是99.1677,其包括2個插入和 11個缺失的插入缺失標記(表不為"*")。
[0061] 比對之后,下一個步驟是形成同種型簇。可使用參照基因組并且將讀數與參照基 因組比對并且確定位于特定基因座的讀數代表同種型。然而,每個基因座存在許多尚未確 定的替代性同種型。另外,該方法依賴于比對器并且需要以好的參照基因座開始,這限制了 該方法應用于具有已存在的參照基因組的那些應用。
[0062] 按照一個示例性實施方式,提供了不使用參照基因組鑒定同種型簇,并因此適用 于不存在參照基因組的應用的方法和系統。
[0063]相似性圖像
[0064]再次參考圖2,在比對之后,使用比對的讀數300來構建相似性圖像(塊202-2)。構 建相似性圖像,使得各序列讀數116表示為圖像中的節點,并且序列讀數116之間的比對表 示為節點之間的連接邊緣,以顯示2個序列讀數具有比對命中(即,足夠高的相似性百分 比)。
[0065]圖4是顯示示例性相似性圖像400的圖。用于發現同種型聚類的算法采用成對比 對,其中相似性圖像400中的各節點402表示讀數,并且連接節點對的邊緣404表示存在成對 比對,如圖3所示,其中查詢和目標讀數由于其高的相似性百分比將在圖像中表示為節點 402的對并且通過邊緣404連接。
[0066] 最大團
[0067] 一般而言,類似性圖像進程導致形成多個相似性圖像400。再次參考圖2,之后在相 似性圖像中發現所有最大團(塊202-3)。團(chique)是指包括節點的集的圖像,其中對于每 2個節點402存在連接兩者的邊緣。最大團是不含與其他團重疊的節點402的最大可能尺寸 的團。最大團發現算法非確定性地將相似性圖像400劃分成不重疊的最大團。存在許多發現 所有最大團的方法。在一個實施方式中,可運行最大團發現算法,如貪婪隨機自適應檢索 法,其迭代構建隨機化的、貪婪偏差的解決方案,其然后擴大到局部最優解決方案。參見例 如,Abello等,On maximum clique problems in very large graphs(非常大圖像中最大 團問題的研究),AT&T實驗室研究技術報告(AT&T labs Research Technical Report), 1998,其通過引用全文納入本文用于所有目的。
[0068]將相似性圖像400劃分成非重疊最大團需要比較序列讀數116以檢測同種型比對 差異以確定序列讀數116是否屬于相同的團。一種檢測同種型比對差異的方法是檢測2個比 對的讀數之間的比對中的大間隙。例如,如果考慮2個比對的讀數,其中一個相對另一個有 大插入,則非常可能插入是額外的外顯子,并且因此,可檢測到同種型差異。然而,檢測同種 型比對差異隨著比對中的間隙變得越來越小而變得越來越有問題。例如,2個比對的讀數之 間僅7個堿基的插入差異可能表示聚合物延伸。需要確定的是,這是真同種型差異還是序列 錯誤。
[0069]按照示例性實施方式的一個方面,可通過促使來自包括插入的原始讀數序列116 的各堿基與估計每個位置的準確性并且顯示各堿基是取代錯誤、插入錯誤或缺失錯誤的概 率的質量值(QV)相關的事實改變來從序列錯誤中確定同種型差異。
[0070] 圖5是顯示一個用于區分比對的讀數300之間的同種型差異與序列錯誤的實施方 式的圖。在一個實施方式中,可使用差異陣列500來保持2個比對的讀數300之間的位置差異 的蹤跡。在各堿基位置處有"+"的2個比對的讀數300之上和之下的取代(S)、插入(I)和缺失 (D)的行顯示相關的QV 118表示足夠可能出現錯誤的位置。差異陣列500中的各位置可包括 值,例如,0或1,其中0值表示2個比對的讀數300之間的差異是由于測序錯誤造成的(而不是 真同種型差異),并且1值表示2個比對的讀數300之間的差異不能由測序錯誤解釋。
[0071] 然后確定在差異陣列中是否存在任何足夠大的1值的區域,即從[I,J]中尋找大于 或等于閾值長度T的范圍,并且1值的區域的總和大于閾值百分比C的差異陣列中的區域:
[0072]
[0073]例如,估計閾值長度T設為10個堿基,并且閾值百分比C設為50%。將檢索差異陣列 500中長于10個堿基的其中超過50%的堿基具有1值的區域。如果無法發現這種區域,則2個 比對的讀數300可被認為來自相同同種型。在圖5所示的示例中,差異陣列500中不存在這種 區域,使得2個比對的讀數300被確定為來自相同同種型并且因此置于同一團中。如果,另一 方面,發現這種區域,則將確定2個比對的讀數300來自不同的同種型并且因此不會放在同 一團中。對于其他信息,參見Tseng和Tompa,用于在多個序列比對中定位極端保守的元件的 算法(Algorithms for Locating Extremely Conserved Elements in Multiple Sequence Alignments),BMC Bioinformatics(2009),其通過引用全文納入本文用于所有 目的。
[0074]注意根據定義,團需要各節點402互相連接。按照示例性實施方式,在最大團發現 進程之后,術語"團"將置于更寬的術語"簇"之下,因為在最大團發現進程之后不需要或使 用節點之間的邊緣404。
[0075]在比對之后,構建相似性圖像和最大團發現進程(塊202-1到202-3),如何分組序 列讀數116的問題一般可能仍然存在。即,在形成的第一組簇中可能存在模糊性。例如,在圖 4中,對于節點/讀數402的對,可發現最大團發現進程對節點/讀數402屬于哪個團是模糊 的。最大團發現僅僅是對各團成員的初始估計。因此,在該進程的階段1結束時,一些序列讀 數116可能被分配至不正確的簇,并且一些應該在一起的序列讀數116可能被分配至分開的 簇。
[0076] 圖6是顯示初始分配至錯誤簇112的序列讀數的示例的圖,其中相同填充特征的序 列讀數/節點來自相同同種型。如圖所示,標記1-3的序列讀數已被不正確地放在與序列讀 數4-5不同的簇中,其全部來自相同同種型。另外,序列讀數11和12被不正確地與讀數12分 為一組,并且讀數6已被不正確地與讀數7-9的組分開。
[0077] 再次參考圖2,按照示例性實施方式,在初始聚類202之后進行的進程設計為解決 初始簇122的模糊性。
[0078]簇共有區
[0079]在形成初始簇122之后,簇共有區算法111生成各初始簇的簇共有區124(塊204), 其中各簇共有區124用于表示簇的所有成員的序列。簇共有區生成是本領域熟知的。例如, 簇共有區算法111可基于使用有向非循環圖來編碼多個序列比對,例如,DAGCon(有向非循 環圖共有區)算法。考慮比對的讀數300的集合,DAGCon取了一組成對的比對,其針對其他讀 數所比對的參照或主干/種子進行比對(基因組從頭組裝,最長的序列讀數用作主干/種子) 以生成有向非循環圖,其中各條通過圖的路徑表示比對之一。該圖然后簡化并且確定最可 能的通過圖的路徑,其為共有區。參見Chin等,來自長讀數SMRT測序數據的非混合、精煉微 生物基因組組裝(Nonhybrid,finished microbial genome assemblies from long-read SMRT sequencing data) ,Nature Methods(2013),其通過引用納入本文。
[0080] 圖7是顯示分別針對各簇122生成的示例性簇共有區C1、C2、C3和C4,其中各輸入讀 數序列116精確地屬于一個簇122。
[0081] 再次參考圖2,在簇共有區生成(塊204)之后,援用錯誤校正(ICE)進程的迭代聚類 的第二階段。ICE的第二階段由基于簇共有區124和質量值118迭代改進聚類開始(塊206)。 在該進程中,讀數序列116從一個簇自動"再分配"到另一個簇,或者命名為"?瓜兒"并且用于 生成新簇,如果序列讀數被確定為不屬于任意已有簇,并且合并高度相似的簇,如下所述。 [0082]圖2顯示了用于迭代改進聚類的進程(塊206)的進一步詳細說明。ICE組件112可通 過使用質量值(QV)計算屬于各簇(C)的各序列讀數(S)的概率來開始迭代進程(塊206-1)。 這可通過將各簇122中的各序列讀數116與各簇共有區C比對來完成。更具體地,各讀數Si與 各簇共有區Cu比對,其中"i" = l至序列讀數的總數,并且"u"=l至簇共有區的總數(在圖7 所示的實施例中,i = 12并且u = 4)。
[0083] 如果使用上述的檢測同種型比對差異的進程,現有的序列讀數(S)沒有以足夠高 的相似性百分比與任意簇共有區(C)比對上(即,沒有同種型命中),則由于該序列具有差的 概率而忽略該序列讀數。在一個實施方式中,可使用線性時間算法來濾去具有較大插入缺 失標記的比對。(參見,例如,用于在多重序列比對中定位極端保守的元件的算法 (Algorithms tor locating extremely conserved elements in multiple sequence alignments),Tseng和Tompa,BMC Bioinformatics,2009)〇
[0084] 如果現有的序列讀數不與簇共有區中的一個或多個比對,則ICE組件112考慮現有 讀數的QV和簇共有區計算現有讀數屬于各簇的概率:
[0085] Pr(Si|Cu,QVs(Si))
[0086] 如果QV不可得,則:
[0087] ?1"(3;[|(]11(^8(3;〇) = (9匹配)計數(匹配)(1/3981113)計數(81113)(1/30;[118)計數 (;[118)(1/30(161)計數((161),
[0088] 其中Θ分別是取代(sub)、插入(ins)和缺失(de 1)的匹配概率。
[0089] 參考圖7作為示例,當計算讀數6的概率時,ICE組件112確定讀數6屬于簇共有區C3 的概率大于讀數6(S6)屬于簇共有區C4的概率:
[0090] Pr(S6|C3)>Pr(S6|C4)
[0091] 這可能是由于簇C3含有來自與S6同組的同種型。
[0092] 概率計算的輸出是對各讀數序列屬于各簇122計算的概率的列表。在一個實施方 式中,計算的概率的數量是節點/序列讀數的總數乘以簇的總數,一些概率具有"未知"的 值。
[0093] 再次參考圖2,在計算概率之后,ICE組件112將來個體序列讀數從一個簇重分配至 具有最高計算概率的另一個簇(塊206-2)。
[0094]圖8是顯示將序列讀數從一個簇重分配至具有最高的計算成員概率的簇的圖。該 實施例顯示將讀數6從簇C4重分配至C3。
[0095]應理解如果確定對現有序列讀數有最高計算概率的簇就是該序列讀數已經是成 員的簇,則沒有重分配。
[0096] 再次參考圖2,按照示例性實施方式的另一個方面,如果不存在比對(即任意序列 讀數與簇之間的概率未知)或如果線性時間算法排除了任意序列讀數的所有比對,則序列 讀數可被視為孤兒,然后可從孤兒形成新簇(塊206-3)。新簇可使用與上述初始階段相同的 過程從孤兒形成。
[0097] 圖9是顯示從孤兒序列產生新簇的示例的圖。在該實施例中,確定讀數S12沒有同 種型命中。讀數S12被稱作孤兒并且產生含讀數S12的新簇C6。
[0098] 上述方法存在一個小問題,即當孤兒被分配至新簇,例如C6時,其僅有一個序列讀 數,該讀數是其本身的代表。因此,具有一個序列讀數的簇的計算概率將始終是1,這表示沒 有其他的簇會對該讀數有更高的計算概率并且該讀數不會重分配至另一個簇。僅具有一個 序列讀數的簇可被稱為單現突變(singleton)并且沒有成員以產生多樣性,導致單現突變 從來沒有節點可重分配至的更好的簇,即便這樣的一個簇可能存在。
[0099] 按照一個實施方式,該問題可通過隨機生成各孤兒節點的概率來解決。即,隨機數 生成器可用于生成預定范圍,例如0-1的值(可能是其他范圍)。如果隨機概率小于預定閾值 概率,例如,〇. 30,則孤兒被重分配至對孤兒的成員具有非零計算概率的簇之一。
[0100] 再次參考圖2,簇經處理以確定是否存在基本相同的簇,并且如果存在,將簇合并 成新簇(塊206-4)。基本相同的簇可在處理期間發生,由于大致最大團發現和迭代共有區判 定進程。在一個實施方式中,基于它們的簇共有序列的相似性確定2個簇是否基本相同可能 通過用戶限定的參數,例如相似性百分比= >95%來控制。
[0101] 圖10是顯示2個簇合并的圖。在該實施例中,來自圖9的之前的簇Cl至C4被確定為 同種型命中并且具有大于99.5%的閾值相似性百分比。因此,在圖10中,簇Cl至C4已經合并 成新簇和相應的簇共有區C7。
[0102 ]再次參考圖2,每次簇的數量變化時,相應的簇共有區也可能變化。因此,I CE組件 112更新各變化的簇的簇共有區并且更新所有序列讀數的概率Pr(Si|Cu,QVS(Si))(塊206-5)。這通過經線206-6判定簇共有區算法lll(塊204)來完成,并且因此產生錯誤校正進程的 迭代聚類的第二階段的"迭代環",其第一步驟是重計算各序列讀數的概率(塊206-1)。
[0103] 在一個實施方式中,簇共有區算法111可在每次發生變化時產生簇的簇共有區 124。然而,在一個實施方式中,當基于簇大小判定簇共有區算法111即如果簇大小較大時, 可任選地使用預定閾值來限制,如果特定簇中節點的數量大于預定閾值,判定簇共有區算 法111可跳過塊206-5。在某些實施方式中,簇共有區算法步驟是可并行的。
[0104] 在一個實施方式中,新的額外序列讀數可在第二階段期間的任何時候通過將額外 序列讀數針對所有已有共有序列比對來增加至已有的簇組。如果已有簇C具有最高的在后 概率并且比對不被拒絕,則新的序列分配至簇C。否則,該序列讀數可如上述初始階段那樣 被認為孤兒并且形成新簇。
[0105] 一旦通過重分配序列讀數和/或合并簇無法進一步改進簇,則用于錯誤校正進程 的迭代聚類(塊206)完成。
[0106] 一旦用于錯誤校正進程的迭代聚類完成,則判定平滑組件114使共有區結果平滑 (塊208)。在一個實施方式中,平滑組件114可基于Quiver算法,如2013年7月12日提交的 U.S. 13/941,442中所述,其通過引用納入本文。如上所述,ICE組件112判定簇共有區算法 111生成各簇的簇共有區。在一個實施方式中,這些簇共有區用作全長讀數116-1在迭代聚 類進程期間所比對的"參照"。
[0107]按照示例性實施方式的一個方面,平滑(polishing)步驟的輸入可包括簇共有區 和非全長讀數116-2,其然后比對至各簇共有區用作參照。在平滑期間,非全長讀數116-2用 于向序列讀數施加全覆蓋率以使用上述相同的"同種型命中"標準提供更高水平的共有區。 在一個實施方式中,與全長輸入序列不同,非全長讀數116-2不必排他性地比對并且可屬于 多個簇。同樣,使用線性時間算法來拒絕不利的比對。一旦非全長讀數116-2與簇共有區比 對,則平滑組件114生成各簇的最終共有序列128(圖1)。該進程的輸出可包括最終共有區 128的列表,其各自代表簇的"共有"序列。在一個實施方式中,各簇可用于表示單一、獨特的 轉錄本。
[0108]在另一個實施方式中,最終簇共有區128可映射至基因組,其中去除冗余并且同種 型塌縮,從而生成高質量全長同種型。
[0109]按照示例性實施方式,用于錯誤校正進程的序列讀數的迭代聚類可具有許多應 用。例如,ICE可用于全長cDNA測序、生物信息學分析和生物學應用。
[0110]全長cDNA測序的示例可包括,但不限于,構建全長轉錄本富集的cDNA文庫;使用瓊 脂糖凝膠或BluePippin?系統進行尺寸選擇;對全長達到IOkb的轉錄本進行測序;和對各轉 錄本進行單分子觀察。
[0111] 除了同種型水平聚類以生成高質量轉錄本共有序列,生物信息學分析的示例可包 括,但不限于,鑒定推定的全長轉錄本;和檢測人工嵌合體。
[0112] 最后,生物學應用的示例可包括,但不限于,新轉錄本;替代性剪接;替代性聚腺苷 酸化;保留的內含子;融合基因;和反義轉錄。
[0113] 在一些實施方式中,該系統包括可操作地耦合至處理器的計算機可讀介質,其儲 存由處理器執行的指令。指令可包括下述的一種或多種:接收序列讀數的輸入的指令(和, 任選的,參照序列信息)、構建預組裝的讀數的指令、比對序列讀數的指令、生成字符串圖像 的指令、生成圖像的指令、鑒定字符串束的指令、確定主要重疊群的指令、確定相關重疊群 的指令、校正讀數的指令、生成共有序列的指令、生成單倍型序列的指令、計算/儲存與方法 的各步驟相關的信息的指令(例如,字符串圖像中的邊緣和節點,字符串圖像中的重疊和分 支點、主要和相關重疊群)、和記錄該方法結果的指令。
[0114] 在某些方面中,該方法是計算機實施的方法。在某些方面中,算法和/或結果(例 如,生成的共有序列)在計算機可讀介質上儲存,和/或在屏幕或打印紙張上顯示。在某些方 面中,結果經進一步分析,例如,以鑒定遺傳變異,以鑒定序列信息的一個或多個來源,以鑒 定個體或物種之間保守的基因組區域,以確定2個個體之間的相關性,以提供個體診斷或預 后,或以提供健康護理專業人員可用于確定患者的合適治療策略的信息。
[0115] 此外,本發明的功能性方面在計算機或其他邏輯處理系統或電路上實施,如本領 域普通技術人員所理解,可使用任意合適的實施環境或編程語言如C、C++、C 〇bol、PaScal、 如¥3、拓¥3-8(^1?丨、肌]^、1]^、(1肌]^、匯編或機器代碼編程、1?11等來實施或完成。
[0116] 在某些實施方式中,計算機可讀介質可包括硬盤驅動、輔助存儲器、外部存儲器、 服務器、數據庫、便攜式存儲裝置(⑶-R、DVD、ZIP盤、閃存卡等)等的任意組合。
[0117] 在一些方面中,本發明包括用于多倍體基因組字符串圖像匯編的制品,其包括含 有一個或多個程序的機器可讀介質,該程序在執行時實施本文所述的本發明的步驟。
[0118] 應理解上述說明是示例性的而非限制性的。對本領域的普通技術人員而言,顯而 易見的是,可以對本發明進行各種修改而不會偏離本發明的范圍和精神。因此,本發明的范 圍不應參照以上的說明決定,而應參照所附權利要求及其等同方案的全部范圍決定。在本 發明中,引用多個參考文獻、專利、專利申請和公開。除非另外說明,各自出于所有目的通過 引用納入。出于說明和公開可與本發明關聯使用的試劑、方法和概念的目的引用本文所有 的出版物。本文并不旨在理解為承認這些參考文獻相對于本文所述的發明是現有技術。
【主權項】
1. 一種用于錯誤校正的序列讀數迭代聚類的方法,所述方法在至少一個處理器上執行 的至少一個軟件組件上進行,包括: 接收序列讀數的集和相關的質量值; 將所述序列讀數基于序列相似性分成初始簇的集; 生成各所述初始簇的簇共有區; 基于與所述序列讀數相關的質量值和所述簇共有區迭代改進所述聚類;并且 生成并輸出各所述簇的最終簇共有區。2. 如權利要求1所述的方法,其中迭代改進所述聚類還包括: 使用所述質量值計算各序列讀數屬于各簇的概率; 將個體序列讀數從一個簇重分配至具有最高計算概率的另一個簇;并且 合并高度相似的簇。3. 如權利要求2所述的方法,其中使用所述質量值計算各序列讀數屬于各簇的概率還 包括: 將各所述簇中的各序列讀數與各所述簇共有區比對; 對于沒有以足夠高的相似性百分比與任意簇共有區比對上的現有序列讀數,由于具有 差的概率而忽略所述序列讀數; 對于與簇共有區(C)中的一個或多個比對的現有序列讀數(S),考慮所述現有讀數的質 量值(QV)和簇共有區來計算所述現有序列讀數屬于各所述簇的概率: Pr(Si|Cu,QVs(Si))。4. 如權利要求3所述的方法,其中對于QV不可得,則計算: Pr(Si|Cu QVs(Si)) = (9匹配)計數(匹配)(1/3 0sub)計數(sub)(l/3 0ins)計數 (ins)(l/3 0del)計數(del), 其中Θ分別是取代(sub)、插入(ins)和缺失(del)的匹配概率。5. 如權利要求2所述的方法,還包括: 對于任意所述序列讀數和任意所述簇之間沒有比對,認為所述序列讀數是孤兒,并且 從所述孤兒形成新簇。6. 如權利要求5所述的方法,還包括: 對于僅具有一個序列讀數的新簇,對于各孤兒節點隨機生成隨機概率;并且 對于隨機概率小于預定閾值概率,則將所述孤兒重分配至對所述孤兒的成員具有非零 計算概率的簇之一。7. 如權利要求1所述的方法,其中接收的序列讀數包括全長的長讀數,并且其中所述生 成和輸出最終簇共有區還包括: 將非全長讀數輸入最終平滑進程,其生成最終簇共有區。8. 如權利要求5所述的方法,其中所述讀數包括長度范圍為0.5kb至1、2、3、5、10、15、 20kb的全長的長讀數。9. 如權利要求1所述的方法,其中基于序列相似性將所述序列讀數分成初始簇的集還 包括: 比對所述序列讀數以產生比對的讀數; 使用所述比對的讀數構建相似性圖像;并且 使用所述相似性圖像發現最大團。10. 如權利要求9所述的方法,其中發現最大團包括:非確定性地將所述相似性圖像劃 分成非重疊最大團。11. 一種在計算機可讀介質上存儲的可執行軟件產品,所述產品含有用于錯誤校正的 序列讀數迭代聚類的程序指令,所述程序指令在至少一個處理器上執行,包括: 接收序列讀數的集和相關的質量值; 將所述序列讀數基于序列相似性分成初始簇的集; 生成各所述初始簇的簇共有區; 基于與所述序列讀數相關的質量值和所述簇共有區迭代改進所述聚類;并且 生成并輸出各所述簇的最終簇共有區。12. 如權利要求11所述的可執行軟件產品,其中迭代改進所述聚類還包括: 使用所述質量值計算各序列讀數屬于各簇的概率; 將個體序列讀數從一個簇重分配至具有最高計算概率的另一個簇;并且 合并高度相似的簇。13. 如權利要求12所述的可執行軟件產品,其中使用所述質量值計算各序列讀數屬于 各簇的概率還包括: 將各所述簇中的各序列讀數與各所述簇共有區比對; 對于沒有以足夠高的相似性百分比與任意簇共有區比對上的現有序列讀數,因具有差 的概率而忽略所述序列讀數; 對于與簇共有區(C)中的一個或多個比對的現有序列讀數(S),考慮所述現有讀數的質 量值(QV)和簇共有區來計算所述現有序列讀數屬于各所述簇的概率: Pr(Si|Cu,QVs(Si))。14. 如權利要求13所述的可執行軟件產品,其中對于QV不可得,則計算: Pr(Si|Cu QVs(Si)) = (9匹配)計數(匹配)(1/3 0sub)計數(sub)(l/39 ins)計數 (ins)(l/3 0del)計數(del), 其中Θ分別是取代(sub)、插入(ins)和缺失(del)的匹配概率。15. 如權利要求12所述的可執行軟件產品,還包括: 對于任意所述序列讀數和任意所述簇之間沒有比對,認為所述序列讀數是孤兒,并且 從所述孤兒形成新簇。16. 如權利要求15所述的可執行軟件產品,還包括: 對于僅具有一個序列讀數的新簇,對于各孤兒節點隨機生成隨機概率;并且 對于隨機概率小于預定閾值概率,則將所述孤兒重分配至對所述孤兒的成員具有非零 計算概率的簇之一。17. 如權利要求11所述的可執行軟件產品,其中接收的序列讀數包括全長的長讀數,并 且其中所述生成和輸出最終簇共有區還包括: 將非全長讀數輸入最終平滑進程,其生成最終簇共有區。18. 如權利要求15所述的可執行軟件產品,其中所述讀數包括長度范圍為0.5kb至1、2、 3、5、10、15、20kb的全長的長讀數。19. 如權利要求11所述的可執行軟件產品,其中基于序列相似性將所述序列讀數分成 初始簇的集還包括: 比對所述序列讀數以產生比對的讀數; 使用所述比對的讀數構建相似性圖像;并且 使用所述相似性圖像發現最大團。20. 如權利要求19所述的可執行軟件產品,其中發現最大團包括:非確定性地將所述相 似性圖像劃分成非重疊最大團。21. -種用于錯誤校正的序列讀數迭代聚類的系統,包含: 存儲器;和 與所述存儲器耦合的處理器,其設置成: 接收序列讀數的集和相關的質量值; 將所述序列讀數基于序列相似性分成初始簇的集; 生成各所述初始簇的簇共有區; 基于與所述序列讀數相關的質量值和所述簇共有區迭代改進所述聚類;并且 生成并輸出各所述簇的最終簇共有區。22. 如權利要求21所述的系統,其中迭代改進所述聚類還包括: 使用所述質量值計算各序列讀數屬于各簇的概率; 將個體序列讀數從一個簇重分配至具有最高計算概率的另一個簇;并且 合并高度相似的簇。23. 如權利要求22所述的系統,其中使用所述質量值計算各序列讀數屬于各簇的概率 還包括: 將各所述簇中的各序列讀數與各所述簇共有區比對; 對于沒有以足夠高的相似性百分比與任意簇共有區比對上的現有序列讀數,因具有差 的概率而忽略所述序列讀數; 對于與簇共有區(C)中的一個或多個比對的現有序列讀數(S),考慮所述現有讀數的質 量值(QV)和簇共有區來計算所述現有序列讀數屬于各所述簇的概率: Pr(Si|Cu,QVs(Si))。24. 如權利要求23所述的系統,其中對于QV不可得,則計算: Pr(Si|Cu QVs(Si)) = (9匹配)計數(匹配)(1/3 0sub)計數(sub)(l/3 0ins)計數 (ins)(l/3 0del)計數(del), 其中Θ分別是取代(sub)、插入(ins)和缺失(del)的匹配概率。25. 如權利要求22所述的系統,還包括: 對于任意所述序列讀數和任意所述簇之間沒有比對,認為所述序列讀數是孤兒,并且 從所述孤兒形成新簇。26. 如權利要求25所述的系統,還包括: 對于僅具有一個序列讀數的新簇,對于各孤兒節點隨機生成隨機概率;并且 對于隨機概率小于預定閾值概率,則將所述孤兒重分配至對所述孤兒的成員具有非零 計算概率的簇之一。27. 如權利要求21所述的系統,其中所述接收的序列讀數包括全長的長讀數,并且其中 所述生成和輸出最終簇共有區還包括: 將非全長讀數輸入最終平滑進程,其生成最終簇共有區。28. 如權利要求25所述的系統,其中所述讀數包括長度范圍為0.5kb至1、2、3、5、10、15、 20kb的全長的長讀數。29. 如權利要求21所述的系統,其中基于序列相似性將所述序列讀數分成初始簇的集 還包括: 比對所述序列讀數以產生比對的讀數; 使用所述比對的讀數構建相似性圖像;并且 使用所述相似性圖像發現最大團。30. 如權利要求29所述的系統,其中發現最大團包括:非確定性地將所述相似性圖像劃 分成非重疊最大團。
【文檔編號】G01N33/48GK105849555SQ201480069926
【公開日】2016年8月10日
【申請日】2014年12月10日
【發明人】H-H·曾
【申請人】加利福尼亞太平洋生物科學股份有限公司