處理和呈現(xiàn)基因組序列數(shù)據(jù)中核苷酸變化的基因組瀏覽器系統(tǒng)的制作方法
【專利說(shuō)明】處理和呈現(xiàn)基因組序列數(shù)據(jù)中核巧酸變化的基因組瀏覽器 系統(tǒng) 相關(guān)申請(qǐng)的交叉引用
[0001] 本申請(qǐng)是于2012年10月24日提交的美國(guó)臨時(shí)申請(qǐng)61/717, 773的非臨時(shí)申請(qǐng)并 要求該臨時(shí)申請(qǐng)的優(yōu)先權(quán)。該優(yōu)先申請(qǐng)其全部?jī)?nèi)容并入本文用于所有目的。
技術(shù)領(lǐng)域
[0002] 本公開(kāi)總體設(shè)及基因組序列分析領(lǐng)域。更具體地,描述了提供序列變化的圖形顯 示W(wǎng)及能夠與網(wǎng)絡(luò)整合W促進(jìn)公布和社區(qū)反饋的計(jì)算機(jī)系統(tǒng)和方法。
【背景技術(shù)】
[000引 例如在美國(guó)專利 7, 910, 354(arraysofamplifiedpolynucleotides),美國(guó) 專利 8,278, 039(randomarrayDManalysisbyhybridization);美國(guó) 2009/0318304A1(efficientshotgunsequencingmethods)訊美國(guó) 2011/0033854A1(longfragment readsequencing)中已經(jīng)描述了用于全基因組測(cè)序的方法。用于將DM序列片段組裝到 擴(kuò)大的基因組序列的方法包括(但不限于)在美國(guó)專利8, 053, 191(iterativenucleic acidassemblyusingactivationofvector-encodedtraits);美國(guó) 2011/0004413 A1(callingvariationsinasamplepolynucleotidesequencewithrespecttoa referencepolynucleotidesequence)漢國(guó) 2009/0105961A1(methodsofnucleicacid identificationinlarge-scalesequencing)訊美國(guó) 2008/0221832A1(methodsfor computingpositionalbaseprobabilities)中描述的方法。
[0004] 除了確定基因組W外,能夠W高效和直觀的方式可視化基因組是有益的。
【發(fā)明內(nèi)容】
[0005] 本公開(kāi)提供了用于確定、顯示和討論不同的個(gè)體之間的基因序列中出現(xiàn)的變化的 計(jì)算機(jī)系統(tǒng)和方法。
[0006] 本發(fā)明的一個(gè)方面是用于顯示相同物種的不同的個(gè)體之間的基因組之間的變化, W及其他復(fù)雜序列之間的差異的方法。針對(duì)測(cè)試樣本和參考樣本接收序列數(shù)據(jù),使用計(jì)算 機(jī)系統(tǒng)對(duì)準(zhǔn)樣本,并且識(shí)別序列中的變化。然后在表示變化位于何處的比較基因序列圖譜 上可W顯示所述變化。可W給用戶提供用于控制所述比較基因序列圖譜的顯示的界面。用 戶可W從界面選擇基因序列圖譜內(nèi)區(qū)域(有時(shí)少于整個(gè)比較基因序列圖譜的一半)的選 擇,從而所述顯示被重新配置,使得該區(qū)域被放大,任選與所述區(qū)域尺寸成比例:例如是原 來(lái)的顯示的至少2倍,跨越所述顯示的寬度的至少約一半呈現(xiàn)所述區(qū)域。
[0007] 根據(jù)本發(fā)明的顯示系統(tǒng)可W被配置為W多種格式顯示序列和變體數(shù)據(jù)。所述格式 可包括染色體組型視圖、細(xì)胞基因組視圖、染色體連鎖圖、染色體視圖、線性圖譜、或序列視 圖、典型地利用該些可用格式和用戶可選擇的格式中的若干或所有的任意組合。
[000引基因圖譜可W提供低到單個(gè)堿基的等級(jí)的分辨率。因此,該方法包括確定所述區(qū) 域是否小于規(guī)定的尺寸,如果是的話,則顯示跨越所述區(qū)域的核巧酸序列,和(如果在指定 的尺寸處的所選擇的跨度內(nèi)發(fā)生確定的變化中的至少一個(gè)),則顯示相對(duì)于所述核巧酸序 列的變體的位置。根據(jù)所述方法顯示的基因變化包括但不限于拷貝數(shù)變化(CNV),小核巧酸 變化(SNV),雜合性丟失(LOH),W及在本發(fā)明的其它地方列出的其它變化類(lèi)型。
[0009] 顯示的豐富度可適于提供者和/或使用者的喜好。例如,顯示可W針對(duì)拷貝數(shù)、等 位基因特定拷貝數(shù)和蛋白質(zhì)編碼序列在整個(gè)感興趣的區(qū)域呈現(xiàn)獨(dú)立的圖。用戶可W被給予 選擇染色體組型視圖、跨越一個(gè)或多個(gè)染色體的圓形視圖、或感興趣的區(qū)域的線性視圖的 能力,其中任何一個(gè)表示在復(fù)雜序列中的變化發(fā)生在何處。
[0010] 為了提供對(duì)測(cè)試樣本的復(fù)雜序列的安全訪問(wèn),所述方法可W包括;接收標(biāo)識(shí)用戶 的第一標(biāo)識(shí)符和標(biāo)識(shí)測(cè)試樣本的第二標(biāo)識(shí)符,確定用戶是否有權(quán)訪問(wèn)試驗(yàn)樣本的序列數(shù) 據(jù),并且如果是的話,則從安全數(shù)據(jù)庫(kù)中檢索測(cè)試樣本的復(fù)雜序列,所述安全數(shù)據(jù)庫(kù)包括多 個(gè)不同的樣本的基因組。所述方法還可W包括使用任何合適的方法,諸如那些在本公開(kāi)別 處列出的方法,進(jìn)行包含在測(cè)試樣本中DNA的實(shí)際測(cè)序。參考序列可W任選地從該種序列 的數(shù)據(jù)庫(kù)中選擇,例如,通過(guò)捜索在參考數(shù)據(jù)庫(kù)中的多個(gè)參考樣本中的任何一個(gè)的復(fù)雜序 列的來(lái)源;比較測(cè)試樣本的復(fù)雜序列與參考序列,并且如果參考序列根據(jù)預(yù)先設(shè)定的標(biāo)準(zhǔn) 與測(cè)試樣本相匹配,則選擇所述參考序列。
[0011] 數(shù)據(jù)的過(guò)濾可通過(guò)W下方法來(lái)進(jìn)行:接收指定要顯示的序列變化的特性的過(guò)濾器 的選擇;W及調(diào)整所述顯示W(wǎng)突出具有所述特性的變化和/或移除不具有由所述過(guò)濾器所 指定的特征的變化。所述方法可W包括預(yù)測(cè)序列變化對(duì)蛋白質(zhì)表達(dá)、蛋白質(zhì)功能、臨床表 現(xiàn)、或疾病的風(fēng)險(xiǎn)的一個(gè)或多個(gè)影響,并利用所述基因序列圖譜提供有關(guān)所述影響的信息。 所述方法還包括將所述變化中的至少一些與已知變體相比較,并可選地從外部數(shù)據(jù)庫(kù)利用 所述基因序列圖譜提供有關(guān)所述已知變體的信息。通過(guò)接收DNA序列中的一個(gè)或多個(gè)變化 的選擇,W及指示所述比較基因圖譜上的一個(gè)或多個(gè)變化,某些變體可W由用戶突出顯示 或牽制。所述方法可W包括接收DNA序列中的一個(gè)或多個(gè)所述變化的選擇,確定在所述人 類(lèi)基因組中所選擇的變化中的每個(gè)的所述位置,獲得關(guān)于在至少一些所選擇的變化的位置 處或附近針對(duì)其他樣本觀察到的DNA序列變化的信息,和提供包含所述信息的顯示。
[0012] 本發(fā)明的另一個(gè)方面是包括非臨時(shí)性計(jì)算機(jī)可讀介質(zhì)的計(jì)算機(jī)產(chǎn)品,所述非臨時(shí) 性計(jì)算機(jī)可讀介質(zhì)存儲(chǔ)多個(gè)指令,所述多個(gè)指令當(dāng)被執(zhí)行時(shí)控制計(jì)算機(jī)系統(tǒng)W執(zhí)行前述方 法的任何方面。
[0013] 本發(fā)明的另一個(gè)方面是配置成計(jì)算和提供根據(jù)本文描述的方法的測(cè)試樣本的復(fù) 雜序列數(shù)據(jù)相對(duì)于參考樣本的復(fù)雜序列數(shù)據(jù)的變化的顯示的系統(tǒng)。所述系統(tǒng)可W包括計(jì)算 機(jī)處理器、存儲(chǔ)所述參考DNA序列數(shù)據(jù)的數(shù)據(jù)庫(kù)、和DNA測(cè)序裝置。所述系統(tǒng)被配置為使得 所述用戶可W與他人共享關(guān)于一個(gè)或多個(gè)變化的信息。
[0014] 本發(fā)明的另一個(gè)方面是一種用于在客戶端之間共享復(fù)雜序列中的變化的服務(wù)器 系統(tǒng)。所述系統(tǒng)包括一個(gè)或多個(gè)處理器,所述一個(gè)或多個(gè)處理器被配置為組裝例如示出測(cè) 試樣本的樣本復(fù)雜序列和參考樣本的參考復(fù)雜序列之間的多個(gè)變化的基因序列圖譜之類(lèi) 的顯示。所述處理器提供所述基因序列圖譜給多個(gè)客戶端;提供第一用戶界面給第一客戶 端,其中所述用戶界面被配置成:接收指示W(wǎng)使所述基因序列圖譜能提供給其他的客戶端; W及接收關(guān)于能提供給其他客戶端的一個(gè)或多個(gè)變化的第一信息。所述系統(tǒng)被配置成提供 第二用戶界面給一個(gè)或多個(gè)第二客戶端;從所述一個(gè)或多個(gè)第二客戶端接收關(guān)于能提供的 所述一個(gè)或多個(gè)變化的回復(fù)信息;W及提供所述一個(gè)或多個(gè)變化的所述回復(fù)信息給所述第 一客戶端。
[0015] 所述系統(tǒng)利用從一個(gè)或多個(gè)變化到第一信息和用于相應(yīng)的變化的回復(fù)信息的鏈 接可提供基因序列圖譜給多個(gè)客戶端。利用鏈接到所述基因序列圖譜上的所述一個(gè)或多個(gè) 變化的指示的超鏈接,關(guān)于由第一客戶端用戶提供的一個(gè)或更多的變化的第一信息能提供 給其他客戶端。所述第一信息可W被顯示在提要中作為一個(gè)或多個(gè)條目,所述提要能提供 給多個(gè)用戶,其中每個(gè)條目對(duì)應(yīng)于相應(yīng)的變化。有關(guān)所述一個(gè)或多個(gè)變體的所述第一信息 通過(guò)因特網(wǎng)上的信息網(wǎng)站的方式能提供給其他用戶。所述服務(wù)器可被配置為將來(lái)自其他用 戶的有關(guān)一個(gè)或多個(gè)變化的回復(fù)信息編譯成關(guān)于所述變化是致病性的還是良性的的評(píng)估。
[0016] 從下面的描述本發(fā)明的其他方面將是顯而易見(jiàn)的。 定義
[0017] 如本發(fā)明中所用的術(shù)語(yǔ)"復(fù)雜序列"、"序列匯編"或"祀序列"是指任何物種的個(gè) 體或個(gè)體的組合的核巧酸序列組。序列數(shù)據(jù)可W通過(guò)測(cè)序來(lái)自特定個(gè)體的生物樣本獲得, 或者其可W被構(gòu)造用于人的個(gè)體或群體的人工序列數(shù)據(jù)或共有序列數(shù)據(jù)。復(fù)雜序列可W是 完全或部分的基因組序列數(shù)據(jù),它可W是來(lái)自表達(dá)文庫(kù)的CDNA序列數(shù)據(jù),它可W是序列集 合,如外顯子組或生物群落,或者它可能是用戶感興趣的另一DNA編譯。除非明確說(shuō)明,否 則已經(jīng)從其獲得復(fù)雜序列的合適的個(gè)體可W從人、其它哺乳動(dòng)物、其他脊椎動(dòng)物、其它真核 生物、原核生物,或它們的組合選擇,合適的個(gè)體包括但不限于:來(lái)自特定源或來(lái)自特定人 的亞分類(lèi)的人或其它生物樣本的庫(kù),來(lái)自特定的環(huán)境的單細(xì)胞有機(jī)體,或生物體或其部件 的假設(shè)序列或共有序列的匯編。
[001引如下面所解釋的,如在本公開(kāi)中使用的"參考樣本"是用戶可W將測(cè)試樣本與其比 較的任何樣本。參考樣本可W具有參考復(fù)雜序列,例如,參考基因組。來(lái)自測(cè)試樣本的核酸 分子的序列(因此相應(yīng)于測(cè)試樣本的基因組)可W與參考序列對(duì)準(zhǔn)。
[0019] "比較基因序列圖譜"是其中兩個(gè)或兩個(gè)W上的復(fù)雜序列之間的變化沿DNA結(jié)構(gòu) (如染色體)在遺傳位置指標(biāo)(如堿計(jì)數(shù)或已知標(biāo)記物)之間被圖譜化(mapped)的圖形描 繪。除非另有說(shuō)明,否則提供用于顯示的基因序列圖譜是"可擴(kuò)大的",在該個(gè)意義上,用戶 可W請(qǐng)求非常詳細(xì)的概要(如整個(gè)染色體)或其區(qū)段的描述,最終歸結(jié)到所選擇的區(qū)段中 的序列中的實(shí)際核巧酸。
[0020] 核巧酸序列"變化"包括一個(gè)樣本的復(fù)雜序列(例如,基因組)與另一樣本的復(fù)雜 序列之間的任何差異,如從相應(yīng)樣本的序列讀取中確定的,該在下面說(shuō)明和舉例說(shuō)明。
[0021] "顯示"是I/O裝置(諸如顯示器或觸摸屏設(shè)備)上示出的視覺(jué)描繪,或由裝置所 描繪的框或窗口內(nèi)的視覺(jué)描繪。例如,通過(guò)使項(xiàng)目在可操作地連接到系統(tǒng)的適當(dāng)?shù)妮敵鲅b 置上呈現(xiàn),或者通過(guò)將數(shù)據(jù)集發(fā)送到外部裝置(如客戶端)使該裝置能夠在本地呈現(xiàn)項(xiàng)目, 計(jì)算機(jī)系統(tǒng)可W對(duì)項(xiàng)目"提供顯示"。
【附圖說(shuō)明】
[0022] 圖1A是根據(jù)本發(fā)明的基因?yàn)g覽器系統(tǒng)的示例性配置的框圖。圖1B是顯示用戶通 過(guò)其可W對(duì)系統(tǒng)進(jìn)行分析并顯示序列數(shù)據(jù)的過(guò)程的流程圖。
[0023] 圖2A是示出來(lái)自特定患者的基因組序列數(shù)據(jù)的染色體組型視圖的顯示的屏幕截 圖。圖2B示出了與參考序列進(jìn)行比較的整個(gè)基因組的細(xì)胞基因組視圖。
[0024] 圖3A是示出Circos⑩式圖的形式的患者樣本的整個(gè)基因組序列的概況的顯示, 其示出了序列變化和表觀染色體間結(jié)的分析。圖3B是圖譜化通過(guò)將測(cè)試序列與參考序列 比較來(lái)確定的核巧酸變化的更詳細(xì)的視圖。
[0025] 圖4A是染色體1的線性視圖的顯示,其可通過(guò)移動(dòng)標(biāo)記402到較窄區(qū)域進(jìn)行擴(kuò)