專利名稱:對雙標記序列進行處理和/或基因組定位的方法
技術領域:
本發明是關于一種用于對雙標記序列(ditags叫uence)進行處理的方法 和系統。尤其是關于一種用于建立雙標記序列的數據庫或文件(file)的方 法和系統。本發明還提供了用于對雙標記序列進行基因組定位(genome mapping)的方法和系統。
背景技術:
自人類和幾種其它生物體的基因組序列完成之后,注意力已經被引向對 包括基因編碼轉錄本單位在內的功能元件和調整基因表達水平的調控順式 作用元件進行基因組注釋。主要挑戰之一是鑒定人類和模式生物體內的所有基因和由基因表達的 所有轉錄本。在基因的注釋中,全長cDNA克隆和測序是最決定性的,并且 被看作轉錄本分析的黃金標準(gold standard)。然而,當用于跨越大量物種 和生物條件(biological condition)的大量轉錄本時,這種方法昂貴且緩慢。 有基于短標記(shorttag)的方法,例如基因表達系列分析(serial analysis of gene expression, SAGE)禾口大規豐莫平行湖!j序技術(massively parallel signature sequence, MPSS)。這些基于短標記的方法提取出14-20堿基對(bp)的標 簽(signature)用于代表每個轉錄本。然而,常規的SAGE途徑依賴于例如 NlaIII的限制酶(restriction enzyme, RE)識別位點的存在,并且缺乏限定 基因組中基因分界的能力。而且,標記的特異性通常很差,產生的關于轉錄 本結構的信息經常不完整且很模糊。基因鑒別標簽(Gene Identification Signature, GIS)分析,或者末端成 對的雙標記(Paired-End diTag, PET)分析,是一種新的方法學,其能夠精確鑒別基因組中被表達的基因的轉錄起始位點(transcription start site, TSS) (也稱為轉錄啟動作用位點(transcription initiation site, TIS))和多腺苷酸 化位點(polyadenylation site, PAS),從而有助于基因組范圍內的轉錄子組 布圖(US 2005/0059022)。作為5,長SAGE (5, LongSAGE, 5'LS)禾B 3,長 SAGE (3,LongSAGE, 3'LS)分析方法的改良,開發了 GIS (或PET)分析 (Wei, C-L., Ng, P., Chiu, K.R, Wong, C.H., Ang, C.C., Lipovich, L" Liu, E., and Ruan Y., 2004, 5,LongSAGE and 3'LongSAGE for transcriptome characterization and genome annotation. Proc. Natl. Acad. Sci. USA 101, 11701-11706)。起始于全長cDNA克隆,GIS以同樣的順序和取向將每個全 長cDNA分子的最初 18 bp (5'標記)和最終~18 bp (3'標記)連接,大小 的變化由II型限制酶消化的天然不精確性引起,以這樣的方式保持了鏈、順 序(由5,至3,)和取向。以這樣的方式建立并排序了包括GIS雙標記 (GISditag)(也稱作PET、 GIS ditag或雙標記)的庫(library)。然而,目 前尚未發現有效的方法用于從所述庫中鑒定GIS雙標記以及構建GIS雙標記數據庫。需要對GIS雙標記進行定位以發現它們在基因組中相對應的基因。然 而,還沒有具體公開過對GIS雙標記進行定位的方法。而且尚不存在容易適 用于對基因組的GIS雙標記進行定位的計算算法。過去,SAGE和MPSS標 記匹配于由已知序列得到的病毒數據庫中的標記基因對(tag-gene pair)。使 用該方法,將不能對在病毒數據庫中不存在的新的轉錄本進行定位。兩種最 常用的序列比對工具為基本的局部比對檢索工具(basic local alignment search tool, BLAST)和類似于BLAST的比對工具(BLAST-like alignment tool, BLAT)。然而它們不是為短標記序列設計的。而且,BLAT經常導致 結果很差或不正確,BLAST則要求時間長并且因此不適于大規模定位。因此在該技術領域需要新的方法和系統來組織并分析GIS雙標記數據,以及用于將雙標記序列定位于基因組的有效方法和系統。 發明內容本發明闡述了上述問題,并且提供了對雙標記核苷酸序列進行處理的新 的方法和/或系統。進而本發明提供了將雙標記核苷酸序列定位于基因組的方 法和/或系統。根據第一方面,本發明提供了對雙標記核苷酸序列進行處理的方法,該 雙標記序列包括核酸分子或核酸分子的片段或者基因組片段的5'末端標記 和3'末端標記,該方法包括建立至少包括一種雙標記序列的數據庫或文件。根據具體的方面,所述雙標記序列的數據庫或文件是通過從包括雙標記 的至少一個庫的序列中提取雙標記序列而建立的。所述庫可以為包括至少一種雙標記序列的核酸序列庫。所述庫可以包括至少一種雙標記多聯體(concatemer)。特別地,所述多聯體包括一種或多種 雙標記。更特別地,雙標記的庫的每個雙標記序列以間隔子(spacer)核苷 酸序列為側翼(flank),并且通過輸入所述間隔子核苷酸序列從所述庫中提 取雙標記序列。當所述雙標記的庫包括至少一種兩個或兩個以上雙標記的多 聯體時,所述多聯體在5,-3,方向上包括第一個雙標記上游側翼的間隔子、最 后一個雙標記下游側翼的間隔子,并且其中每兩個相鄰的雙標記被位于它們 之間的間隔子間隔開。在圖19中表示了帶側翼的且被間隔子序列間隔開的 雙標記多聯體的例子。雙標記的庫可以包括一種或多種間隔子序列,每個間 隔子序列的核苷酸序列與其它間隔子序列不同。間隔子序列的大小(以堿基 對計)以及它們的核苷酸序列可以取決于在所述庫的建立中所使用的限制 酶。也可以取決于所使用的實驗條件。進而,不同的間隔子序列可以用于構 建不同的庫、不同的組織、不同的物種、不同的多聯體等。所述庫可以包括任何類型核酸的雙標記序列,例如單鏈和/或雙鏈的DNA和/或RNA。雙標記可以由基因或外顯子的轉錄本制備,或者它們可以 由基因組的部分(或部位)制備。優選地,雙標記由全長cDNA的5'標記和 3'標記制備。對包括雙標記的庫的核酸序列進行測序。 一個或多個雙標記庫 的這些序列可以用作提取雙標記序列以及建立雙標記的數據庫或文件的序 列源。更特別地,本發明的方法包括-由雙標記的庫提供核苷酸序列,其中,所述雙標記庫的每個雙標記序 列以間隔子核苷酸序列為側翼;以及-通過輸入所述間隔子核苷酸序列來提取所述雙標記序列,以建立雙標記的數據庫或文件。更特別地,通過輸入下列參數來提取所述雙標記序列 -至少一種間隔子核苷酸序列;-最小的雙標記堿基對(bp)數目,其中,所述數目為選自32-38范圍內 的數;以及-最大的雙標記堿基對(bp)數目,其中,所述數目為選自36-42范圍內 的數。優選地,所述最小的雙標記堿基對數目為34和/或最大的雙標記堿基對 數目為40。特別地,根據本發明,所述雙標記序列可以包括至少為16個堿基對的5' 末端標記和至少為14個堿基對的3'末端標記。此外,所述雙標記序列可以 包括基因、外顯子、部分基因組、或者它們的片段的轉錄本的5'末端標記和 3'末端標記。更特別地,所述雙標記序列可以包括全長cDNA的5'末端標記 和3'末端標記。根據另一方面,本發明的方法還包括對所述數據庫或文件的雙標記序列 進行質量控制檢查。所述質量控制檢査可以在庫、板(plate)、孔(well)、序列和/或雙標記水平上進行。所述質量控制檢查可以在將雙標記序列定位于 基因組之前執行。通過控制檢查,操作者可以通過考慮來決定除去導致錯誤 并且與雙標記序列不相符的序列。根據任何已知的定位方法,可以進行包括將雙標記定位于基因組的步 驟。特別地,本發明的方法還包括在匹配的至少一個5'末端和至少一個3'末端之間沿著基因組序列鑒定至少一個區段;以及鑒定至少一個染色體位置 (chromosomal location)、基因、它們的片段、或者外顯子位置。根據另一方面,本發明的方法還包括將雙標記定位于基因組的步驟。特 別地,所述定位的步驟包括將至少一種雙標記序列定位于基因組,包括將雙 標記序列的5'和3'末端標記匹配到基因組的至少一部分。更具體地,本發明提供了一種用于將雙標記核苷酸序列定位于基因組的 方法,該方法包括-建立包括至少一種雙標記序列的數據庫或文件,所述雙標記序列包括核酸分子或核酸分子片段的5'末端標記和3'末端標記;-選擇性地,對所述數據庫或文件的雙標記序列進行質量控制檢查;以及-將所述至少一種雙標記序列定位于基因組,包括將雙標記序列的5'和 3'末端標記匹配到基因組的至少一部分。特別地,所述雙標記庫的每個雙標記序列以間隔子核苷酸序列為側翼并 且通過輸入所述間隔子核苷酸序列從所述庫中提取所述雙標記序列。因此,本發明提供了一種將雙標記在基因組定位的方法,其中,在建立 數據庫和/或文件的步驟過程中,通過輸入下列參數來提取所述雙標記序列-至少一種間隔子核苷酸序列;-最小的雙標記堿基對(bp)數目,其中,所述數目為選自32-38范圍內 的數;-最大的雙標記堿基對(bp)數目,其中,所述數目為選自36-42范圍內 的數。優選地,所述最小的雙標記堿基對數目為34和/或最大的雙標記堿基對 數目為40。所述定位步驟還可以包括在匹配的至少一個5'末端和至少一個3'末端 之間沿著基因組序列鑒定至少一個區段;以及鑒定至少一種染色體位置 (chromosomal location)、基因、外顯子位置、或者它們的片段。被鑒定出 來的基因位置可以導致發現新的基因位置。因此,本發明還提供了一種用于發現新基因的方法,該方法包括-建立包括至少一種雙標記序列的數據庫;-將所述至少一種雙標記序列定位于基因組,包括將雙標記序列的5'和 3'末端標記匹配到基因組的至少一部分;以及-將發現的位置或序列與現有的數據庫或數據進行比較,以確定所述發 現的位置或序列是否是新的位置和/或新的基因。特別地,根據本發明的任一方面的方法中,雙標記序列包括至少為16 個堿基對(bp)的5,末端標記和至少為14個堿基對(bp)的3'末端標記。 特別地,16-18 bp。優選地,18bp的5'末端標記和16bp的3,末端標記。根據本發明的任一方面的方法中,雙標記序列的提取和/或基因組定位 可以通過因特網在計算機上執行和/或介質支持(medium support)的因特網 而執行。根據另一方面,本發明提供了一種用于處理雙標記序列的系統。根據另 一方面,本發明還提供了一種對雙標記序列進行基因組定位的系統(雙標記 至基因組的定位系統(ditag-to-genome mapping system))。根據具體的方面, 本發明任一方面的系統也被稱為GIS雙標記工具(GISditagTool)。因此,本發明提供了用于對雙標記核苷酸序列進行處理的系統,該系統包括用于建立包括至少一種雙標記序列的數據庫或文件的至少一個模塊,所 述雙標記序列包括核酸分子或核酸分子的片段或者基因組的片段的5'末端牛示i己禾卩3'^g牛示"i己。特別地,雙標記序列的數據庫和文件是通過從包括雙標記序列的至少一 個庫的序列中提取雙標記序列而建立的。特別地,雙標記的庫的每個雙標記序列以間隔子核苷酸序列為側翼并且 通過輸入所述間隔子核苷酸序列從所述庫中提取雙標記序列。如上所述并具 體如圖19中所示,當所述雙標記的庫包括至少一種兩個或兩個以上雙標記 的多聯體時,所述多聯體在5,-3'方向上包括第一個雙標記上游側翼的間隔 子、最后一個雙標記下游側翼的間隔子,并且每兩個相鄰雙標記被位于它們 之間的間隔子間隔開。特別地,本發明的系統中,操作者選擇至少一種鏈接,該鏈接激活所述 模塊,所述模塊啟動至少一個用戶界面,并且其中所述操作者將以下參數輸 入該用戶界面-至少一種間隔子核苷酸序列;-最小的雙標記堿基對(bp)數目,其中,所述數目是選自32-38范圍內 的數;以及-最大的雙標記堿基對(bp)數目,其中,所述數目是選自36-42范圍內 的數;并且由此產生被提取的雙標記的數據庫或文件。優選地,所述最小的雙標記堿基對數目為34和/或最大的雙標記堿基對 數目為40。所述用戶界面可以為圖形用戶界面。特別地,本發明的系統中,所述雙標記序列包括基因、外顯子、基因組 的部分、或者它們的片段的轉錄本的5'末端標記和3'末端標記。根據另一方面,本發明的系統還包括雙標記序列的數據庫或文件的質量控制模塊。所述用于質量控制的模塊可以在庫、板、孔、序列和/或雙標記水 平上使用。所述質量控制檢查可以在將雙標記序列定位于基因組之前執行。 由于控制檢查,操作者可以通過考慮來決定去除導致錯誤并且與雙標記序列 不相符的序列。根據另一方面,本發明的系統還包括用于將至少一種雙標記序列定位于 基因組的模塊,包括將雙標記序列的5,和3'末端標記匹配到基因組的至少一 部分。因此,本發明還提供了用于對雙標記序列進行基因組定位的系統(雙標 記至基因組的定位系統),該系統包括-用于建立(創建)包括至少一種雙標記序列的數據庫和/或文件的模塊, 所述雙標記序列包括核酸分子或它們的片段的5'末端標記和3'末端標記;-選擇性地包括的用于對雙標記序列的數據庫或文件進行質量控制的模 塊;以及-另外的用于將至少一種雙標記序列定位于基因組的模塊,包括將雙標記序列的5'和3,末端標記匹配到基因組的至少一部分。根據另一方面,本發明的系統至少包括-第一用戶界面,該第一用戶界面至少包括用于提取(提取器)雙標記序列的鏈接和用于將雙標記定位于基因組的鏈接;-第二用戶界面,該第二用戶界面由操作者通過選擇或點擊提取器而被激活,該第二用戶界面包括用于輸入最小雙標記堿基對(bp)數目、最大標 記堿基對(bp)數目、以及至少一種間隔子序列的核苷酸序列的字段(field);-第三用戶界面,該第三用戶界面用于將雙標記序列在基因組或染色體位置中定位;以及-第四用戶界面,該第四用戶界面顯示定位結果,其中,所述雙標記與 基因組比對。本發明任一方面的系統能夠由操作者在電腦上操作,并且所述操作通過 因特網在計算機上執行和/或通過介質支持的因特網執行。根據另一方面,本發明提供了一種包括計算機程序的計算機可讀介質, 該計算機程序在與計算機關聯時為可操作的,并且其中所述計算機程序包括 本發明任一方面的系統。關于定位步驟,如上所述,可以使用任何已知的定位方法。然而,根據具體實施方式
,為了調整雙標記數據,可以使用Suffix Array-based Tag to Genome (SAT2G)算法將雙標記序列在基因組序列中定位,所述基因組序 列在高級數據結構Compressed Suffix Array (CSA)上建立并索引。因此,根據本發明的一方面,本發明的方法或系統還提供了包括以下步驟的定位方法和/或系統-建立包括至少一種雙標記序列的數據庫,所述雙標記序列包括來自核酸分子或核酸分子的片段的5'末端標記和3,末端標記,例如來自基因轉錄 本;-將5,末端標記匹配到基因組序列的至少一部分以由此從基因組序列中 鑒定出至少一個5,位點,至少一個5,位點的每個都具有與5'末端標記匹配的 序列;-將3'末端標記匹配到基因組序列的至少一部分以由此從基因組序列中 鑒定出至少一個3,位點,至少一個3'位點的每個都具有與3'末端標記匹配的 序列;-鑒別至少一段存在的區段,所述至少一段存在的區段的每段為沿著基 因組序列在所述至少一個5'位點之一和至少一個3'位點之一之間的序列 區段,所述至少一段存在的區段的每段都具有序列長度;以及-鑒別至少一個可行的基因位置,所述可行的基因位置的每個為所述至 少一種存在的區段之一,所述區段的序列長度不超過預定的基因長度。根據本發明的另一方面,提供了一種定位系統,該系統包括 -用于通過提取至少一種雙標記而建立數據庫的裝置,所述雙標記包括來自核酸分子或核酸分子的片段的5'末端標記和3'末端標記,例如來自基因轉錄本;-用于將5'末端標記匹配到基因組序列的至少一部分以由此從基因組序 列中鑒定至少一個5'位點的裝置,至少一個5'位點的每個都具有與5'末端標 記匹配的序列;-用于將3'末端標記匹配到基因組序列的至少一部分以由此從基因組序 列中鑒定至少一個3'位點的裝置,至少一個3'位點的每個都具有與3'末端標 記匹配的序列;-用于鑒別至少一段存在的區段的裝置,所述至少一段存在的區段的每 段為在沿著基因組序列所述至少一個5'位點之一和至少一個3'位點之一之間的序列區段,所述至少一段存在的區段的每段都具有序列長度;以及-用于鑒別至少一個可行的基因位置的裝置,所述可行的基因位置的每 個為所述至少一種存在的區段之一,所述區段的序列長度不超過預定的基因 長度。根據本發明的另一方面,提供了一種定位方法,該方法包括下列步驟 -建立雙標記的數據庫,包括提取至少一種雙標記,例如來自雙標記庫或來自現有的雙標記數據庫,所述雙標記序列包括來自核酸分子或核酸分子的片段的5'末端標記和3'末端標記,例如來自基因轉錄本;-將5'末端標記匹配到基因組序列的至少一部分以由此從基因組序列中鑒定出至少一個5,位點,至少一個5,位點的每個都具有與5'末端標記匹配的序列;-將3'末端標記匹配到基因組序列的至少一部分以由此從基因組序列中 鑒定出至少一個3'位點,至少一個3'位點的每個都具有與3'末端標記匹配的序列;-鑒別至少一段存在的區段,所述至少一段存在的區段的每段為在所述至少一個5'位點之一和至少一個3'位點之一之間沿著基因組序列的序列 區段,所述至少一段存在的區段的每段都具有序列長度;以及-從至少一種存在的區段鑒定出至少一種可行的基因位置,每一至少一 種所述可行的基因位置為至少一種序列長度不超過該區段預定的基因長度 的所述至少一種存在的區段之一,它的序列順序以及其中對應的與5'-存在 的區段-3,結構一致的至少一個5'位點之一和至少一個3'位點之一跟基因組 序列相應部分的序列順序相匹配,5'位點與其中對應的至少一個5'位點之一 以及至少一個3'位點之一具有5'-3'取向,并且與每一存在的區段相對應的 至少一個5'位點之一以及至少一個3'位點之一被定位于同一染色體中。
圖l: GIS雙標記的結構和GIS雙標記至基因組的定位。在此圖所示的 例子中,GIS雙標記產生于全長cDNA庫。每個雙標記[SEQ ID N0:1]包括 與全長克隆的末端一致的5'和3'標記(每個約18 bp)。雙標記的直接的GIS 雙標記至基因組的定位確定染色體中相應基因的邊界;圖2顯示了應用于基因組注釋中的GIS雙標記(這里也稱為雙標記)技 術的5'和3'末端標記的示意圖。該圖還顯示了雙標記多聯體的制備;圖3顯示了根據本發明實施方式的轉錄本定位方法的流程圖;圖4顯示了用于實施圖3的轉錄本定位技術的GIS雙標記[SEQ ID N0:1] 的示意圖;圖5顯示了 GIS雙標記[SEQIDNO:2](PET)至基因組的定位。用SAT2G 分兩步進行PET序列的定位。首先,5'標記和3'標記分別與基因組集合 (genome assembly)比對;對于5'標記要求16 bp的正確匹配長度并且對于3'標記要求14 bp。然后,在第二步驟中,在染色體中的靶定位的檢索中將所述5'比對與相應的3'比對配對。如果5'和3'標記都在同一染色體、同一 鏈、同一方向,在5'至3'的順序中,并且在一百萬bp距離內,則所述靶得 以鑒定;圖6顯示了圖3的轉錄本定位方法的偽代碼(pseudo code)"Find—Sites", 用于從基因組序列中正向和反向檢索5'位點和3'位點;圖7顯示了圖3的轉錄本定位方法的偽代碼"Match—sites—1",用于鑒 別存在的區段的序列長度,隨后所述序列長度與預定的長度相比較從而用于 鑒別可行的基因位置;圖8顯示了圖3的轉錄本定位方法的偽代碼"Match—sites—2",用于鑒 別存在的區段,當滿足不同的條件時,隨后從中得到可行的基因位置;圖9: GIS雙標記工具(GISditagTool)的數據管理實體關系圖。所述實 體關系描述了結構化查詢語言(mySQL)表的系統結構(architecture)。所 述系統結構依次由項目(project)、庫、板、孔(各自代表序列)、雙標記和 基因組位置組成。提取歷史(extractHistory)表和定位歷史(mapHistory) 表分別記錄雙標記提取和定位的行為。生物體、組織、狀態、基因組以及序 列中心(s叫uenceCenter)表提供了該過程所需的背景信息;圖10: GISditagTool模塊和mySQL數據庫。根據一種實施方式, GISditagTool包括四個模塊,即項目模塊、提取器模塊、檢查器模塊和定位 模塊。它們中的每一個起到不同的作用。項目用于數據和文件組建;提取器 用于雙標記提取;檢查器用于質量控制;以及定位用于標記至基因組的定位。 mySQL有理數數據庫(DB)管理系統為那些模塊之間的活動提供了從容的 運輸(trafficking);圖11至圖14顯示了根據本發明一個方面的四個GISditagTool模塊的流 程圖。具體地,圖ll顯示了項目模塊流程圖,圖12顯示了提取器模塊流程圖,圖13顯示了檢查器模塊流程圖,以及圖14顯示了定位模塊流程圖;圖15: GISditagTool的提取和質量控制(QC)用戶界面(從A至F)。 可以通過提取器模塊(B)上傳序列讀取,用于雙標記提取。提取參數可以 在此階段得到修改。QC以序列順序進行。最上面的面板(A)顯示所有項 目的統計。當激活檢查器模塊時,用于所有庫的雙標記統計得到展示(C)。 點擊庫、庫中的板,以及接著板中的孔,用戶能分別評估板(D)、孑L (E) 和序列(F)的質量;圖16顯示了圖15的GISditagTool的用戶界面(A)禾卩(B);圖17顯示了圖15的GISditagTool的用戶界面(C)禾Q (D);圖18顯示了圖15的GISditagTool的用戶界面(E);圖19顯示了圖15的GISditagTool的用戶界面(F);圖20: GISditagTool中顯示的定位結果。用戶界面(G)禾Q (H)。定位 模塊比對雙標記和基因組,并通過UCSC瀏覽器提供定位概要(G)以及瀏 覽能力(H)。基于發現于基因組中的靶的數目,雙標記被分組成不同的類(例 如PET0、 PET1、 PET2等)。
具體實施方式
定義-雙標記GIS雙標記,也稱為雙標記,根據US 2005/005卯22定義并制備,在此其全部的內容引入作為參考。-數據以任何形式在電腦程序中運行的信息。這里所用的數據包括任何有關雙標記的信息,特別是有關雙標記的堿基對和雙標記的核苷酸序列。-數據管理系統也被稱為DBMS或dbms,是一種軟件系統,該軟件系 統為用于具體應用或一組相關應用的數據體組建和管理提供便利。-數據庫為了本發明的目的,雙標記數據集合(或一般為信息),在DBMS中至少包括雙標記的核苷酸序列。它還可以包括進一步的信息例如所 用的一個或多個間隔子的堿基對(bp)大小和核苷酸序列、雙標記的方向、庫或序列鑒別(ID)號等。所述數據或信息得到采集、存取和/或存儲在計算機系統和/或計算機可讀介質內。所述數據庫還可以在因特網上獲得。數據 庫的定義還包括信息或數據體,使用數據庫管理系統的設備將所述信息或數 據體容納在計算機系統和/或計算機可讀介質中。-文件(也稱為計算機文件)信息的集合,參考文件名,例如,用戶創 建的文件、程序數據或程序本身。為了本發明的目的,文件定義為至少包括 雙標記的核苷酸序列的雙標記數據集合(或者一般為信息)。它還可以包括 進一步的信息例如所用的一個或多個間隔子的堿基對(bp)大小和核苷酸序列、雙標記的方向、庫或序列鑒別(ID)號、數目(拷貝數)等。數據或信息得到采集、存取和/或存儲在計算機系統和/或計算機可讀介質內。所述文 件還可以在因特網上獲得。雙標記的一個或多個文件可以收集到文件的索引 中。完整基因組注釋依賴于精確地鑒定通過轉錄本起始位點(transcription initiation site, TIS)和多腺苷酸化位點(PAS)結合的轉錄本單位。為此, 開發了一對互補的方法,即5'LongSAGE (基因表達的長系列分析)和 3,LongSAGE (Wei et al., 2004,參見以上)。所述方法基于原始SAGE (基因 表達的系列分析)和LongSAGE方法,所述LongSAGE方法利用典型的全 長cDNA克隆技術以能夠高通量地提取每個轉錄本的最初的20個堿基對 (bp)和最后的20個堿基對(bp)。將5,禾卩3, LongSAGE標記定位于基因 組能夠定位TIS和PAS。然而,使得自基因組序列中同樣轉錄本的5'和3'標記匹配并不總是直截 了當的,有時可以十分模糊。 一種解決方案是通過使5,和3,標記相互連接來 克隆相同轉錄本的5'和3,標記。為了實現上述方案,包括克隆適配體(adapter)和載體的特別設計的裝置將得自相同轉錄本的5'標記和3'標記連 接到雙標記中。使用代表個體轉錄本的每個雙標記,可以將多個雙標記連接來用于克隆 和測序。不像單一的標記序列,當在基因組序列中定位時,可以用精確限定 的轉錄本框將成對的雙標記序列特定地增殖。該方法命名為基因鑒別標簽 (GIS)分析,其可以準確對由基因或基因的核酸分子或它們的片段編碼的 轉錄本單位的5,和3,末端進行定位,在公開號為US 2005/0059022的美國專 利申請中得以描述(其全部內容此處并入作為參考)。圖1和圖2中展示了 GIS分析(也被稱為GIS技術或方法)的例子。根 據GIS分析的具體方面,常規的cap-trapper法應用于富集在cDNA片段的每 一末端具有Mmel限制位點的全長cDNA和合并的適配體序列。然后在克隆 載體中克隆cDNA片段以構建GISflcDNA (全長cDNA)庫。然而,GIS方 法不限于flcDNA,而是可以用于任何核酸分子或其片段,例如用于部分基 因組。從所述庫中制備的質粒被Mmel (II型限制酶)消化并在其結合位點 下游20bp處斷裂。然而,任何識別不對稱限制位點的限制酶可以用在GIS 方法中。特別地,可以使用任何適于GIS方法目的的II型限制酶。消化之后, 用已知的克隆載體,將庫的flcDNA嵌入物從質粒上放出,以留下5,和3,末 端的18bp標簽。載體的再環化將產生GIS單一雙標記庫。然后將所述庫的 雙標記切下來并純化用于多聯體化和克隆以產生最終用于測序分析的GIS 雙標記庫。通常GIS雙標記克隆的每一序列讀取展示15個雙標記。雙標記 序列的每一單位包括至少為16個堿基對(bp)的5'末端標簽和至少為14個 堿基對(bp)的3'末端標簽,具有間隔子以間隔開一個雙標記序列與另一個 雙標記序列。特別地,所述雙標記包括18bp的5'末端標簽和18bp的3'末 端標簽。更特別地,所述雙標記包括18 bp的5'末端標簽和16 bp的3'末端 標簽。間隔子序列的長度取決于所使用的酶或者取決于所使用的實驗條件,例如所述間隔子可以為12bp。因此包括GIS雙標記(也簡略表示為雙標記)的庫可以如以上所述建立。 然后對包括雙標記的所述庫的核酸分子的序列進行測序。所述序列信息可以 在一個或多個數據庫中采集。然而,目前還沒有公開有效的方法用于從所述 庫中選擇雙標記序列,也沒有公開雙標記數據庫的構建。而且,雙標記需要定位以發現它們在基因組上對應的基因。然而沒有具 體公開用于雙標記的定位方法。再者,沒有現成的容易適用于將雙標記序列 定位于基因組的計算機算法。因此,本發明提供了對雙標記序列進行處理的新的方法和/或系統。進 而,本發明提供了用于將雙標記核苷酸序列定位于基因組的方法和/或系統。 根據具體的方面,本發明的方法和系統將用具體的參考得以解釋,但不限于稱為GISditagTool的方法和系統。特別地,GISditagTool將參考圖10至圖 20得到更詳細地解釋。根據第一方面,本發明提供了一種對雙標記核苷酸序列進行處理的方 法,該雙標記序列包括核酸分子或核酸分子的片段或者基因組片段的5'末端 標記和3'末端標記,該方法包括建立至少包括一種雙標記序列的數據庫或文 件。根據具體的方面,所述雙標記序列的數據庫或文件是通過從包括雙標記 的至少一個庫的序列中提取雙標記序列而建立的。所述庫可以為包括至少一種雙標記序列的核酸序列庫。所述庫可以包括 至少一種雙標記多聯體(concatemer)。特別地,所述多聯體包括一種或多種 雙標記。更特別地是,雙標記庫的每個雙標記序列以間隔子核苷酸序列為側 翼,并且通過輸入間隔子核苷酸序列從所述庫中提取雙標記序列。當所述雙 標記庫包括至少一種兩個或兩個以上雙標記的多聯體時,所述多聯體在5'-3'方向上包括第一個雙標記上游側翼的間隔子、最后一個雙標記下游側翼的間隔子,并且其中每兩個相鄰雙標記被位于它們之間的間隔子間隔開。在圖19 中表示了帶側翼的且被間隔子序列間隔開的雙標記多聯體的例子。5'側翼間 隔子和/或3'側翼間隔子的長度可以不同。特別地,它們的長度可以在雙標 記的多聯體之間或者一個庫或者更多庫的雙標記的多聯體內變化。雙標記的 庫可以包括一種或多種間隔子序列,每個間隔子序列的核苷酸序列與其它間 隔子序列不同。間隔子序列的大小(以堿基對計)以及它們的核苷酸序列可 以取決于在所述庫的建立中所使用的限制酶。也取決于所使用的實驗條件。 進而,不同的間隔子序列可以用于構建不同的庫、不同的組織、不同的物種、 不同的多聯體等。在圖19中,提供了雙標記多聯體中雙標記與間隔子的排列例子。特別地,圖19顯示了雙標記以間隔子為側翼并由間隔子間隔。特別地,在圖19 中顯示的所使用的間隔子都具有相同的核苷酸序列和12bp的大小。然而, 也可以使用具有互不相同的核苷酸序列的間隔子。在5,-3'方向上,圖19顯 示了載體部分(58bp),以第一間隔子為側翼。第一間隔子為第一雙標記 (38bp)上游的側翼。第一雙標記(38bp)和第二雙標記(37bp)通過間隔 子間隔開。同樣的情況直至右邊的雙標記。然后第八雙標記(36bp)的下游 接著(為側翼)最末間隔子,其下游以載體(52bp)部分為側翼。對本領域 技術人員很明顯,多聯體可以包括數目可變的雙標記,其并不限于在圖19 中作為例子的8個雙標記。而且,還可以使用一個或多個具有互不相同的核 苷酸序列的間隔子。如上述所解釋的,所述間隔子的大小也可以變化。所述庫可以包括任何類型核酸的雙標記序列,例如單鏈和/或雙鏈的 DNA和/或RNA。雙標記可以由基因或外顯子的轉錄本制備,或者它們可以 由基因組的部分(或部位)制備。優選地,雙標記由全長cDNA的5'標記和 3'標記制備。對包括雙標記的庫的核酸序列進行測序。 一個或多個雙標記庫 的這些序列可以用作提取雙標記序列以及建立雙標記的數據庫或文件的序列源。更特別地,本發明的方法包括-提供雙標記庫的核苷酸序列,其中,所述雙標記的庫的每一雙標記序 列以間隔子核苷酸序列為側翼;以及-通過輸入所述間隔子核苷酸序列來提取雙標記序列,建立雙標記的數 據庫或文件。更特別地,通過輸入下列參數來提取所述雙標記序列 -至少一種間隔子核苷酸序列;-最小的雙標記堿基對(bp)數目,其中,所述數目為選自32-38范圍內 的數;以及-最大的雙標記堿基對(bp)數目,其中,所述數目為選自36-42范圍內 的數。優選地,所述最小的雙標記堿基對數目為34和/或最大的雙標記堿基對 數目為40。特別地,根據本發明,所述雙標記序列可以包括至少為16個堿基對的5' 末端標記和至少為14個堿基對的3'末端標記。進而,所述雙標記序列可以 包括基因、外顯子、部分基因組、或者它們的片段的轉錄本的5'末端標記和 3'末端標記。更特別地,所述雙標記序列可以包括全長cDNA的5'末端標記 和3'末端標記。根據另一方面,本發明的方法還包括對所述數據庫或文件的雙標記序列 進行質量控制檢査。所述質量控制檢査可以在庫、板、孔、序列和/或雙標記 水平上進行。所述質量控制檢查可以在將雙標記序列定位于基因組之前執 行。通過控制檢查,操作者可以經過考慮來決定除去導致錯誤并且與雙標記 序列不相符的序列。根據任何已知的定位方法,可以進行包括將雙標記定位于基因組的步驟。特別地,本發明的方法還包括在匹配的至少一個5'末端和至少一個3' 末端之間沿著基因組序列鑒定至少一個區段;以及鑒定至少一種染色體位置、 一個基因、它們的片段,或者外顯子位置。根據具體方面,本發明提供了稱為SAT2G(基于后綴數組的標記至基因 組)的定位步驟,其將在以下進行更加詳細的描述。根據另一方面,本發明的方法還包括將雙標記定位于基因組的步驟。特 別地,所述定位的步驟包括將至少一種雙標記序列定位于基因組,包括將雙 標記序列的5'和3'末端標記匹配到基因組的至少一部分。更具體地,本發明提供了一種用于將雙標記核苷酸序列定位于基因組的 方法,所述方法包括-建立包括至少一種雙標記序列的數據庫或文件,所述雙標記序列包括核酸分子或核酸分子片段的5'末端標記和3'末端標記;-選擇性地,對所述數據庫或文件的雙標記序列進行質量控制檢查;以及-將至少一種雙標記序列定位于基因組,包括將雙標記序列的5'和3' 末端標記匹配到基因組的至少一部分。特別地,所述雙標記庫的每個雙標記序列以間隔子核苷酸序列為側翼并 且通過輸入所述間隔子核苷酸序列從所述庫中提取雙標記序列。因此,本發明提供了一種將雙標記定位于基因組的方法,其中,在建立數據庫和/或文件的步驟中,通過輸入下列參數來提取所述雙標記序列-至少一種間隔子核苷酸序列;-最小的雙標記堿基對(bp)數目,其中,所述數目為選自32-38范圍內 的數;以及-最大的雙標記堿基對(bp)數目,其中,所述數目為選自36-42范圍內 的數。優選地,所述最小雙標記堿基對數目為34和/或最大雙標記堿基對數目為40。所述定位步驟還可以包括在匹配的至少一個5'末端和至少一個3'末端 之間沿著基因組序列鑒定至少一個區段;以及鑒定至少一種染色體位置、基 因、外顯子位置,或者它們的片段。被鑒定出來的基因位置可以導致發現新 的基因位置。因此,本發明還提供了一種用于發現新基因的方法,該方法包括 -建立包括至少一種雙標記序列的數據庫;-將至少一種雙標記序列定位于基因組,包括將雙標記序列的5'和3' 末端標記匹配到基因組的至少一部分;以及-將發現的位置或序列與現有的數據庫或數據進行比較,以確定發現的 位置或序列是否是新的位置和/或新的基因。特別地,根據本發明的任一方面的方法中,雙標記序列包括至少為16 個堿基對(bp)的5,末端標記和至少為14個堿基對(bp)的3'末端標記。 特別地,16-18 bp。優選18 bp的5'末端標記和16 bp的3'末端標記。根據本發明的任一方面的方法中,雙標記序列的提取和/或基因組定位 可以通過因特網在計算機上執行和/或通過介質支持的因特網執行。根據另一方面,本發明提供了一種用于處理雙標記序列的系統。根據另 一方面,本發明還提供了一種對雙標記序列進行基因組定位的系統(雙標記 至基因組的定位系統)。根據具體的方面,本發明任--方面的系統也被稱為 GIS雙標記工具(GISditagTool)。更特別地,所述GISditagTool為軟件程序 系統。可以在介質支持上提供GISditagTool,安裝到硬驅動盤上,或者通過 因特網獲得。因此,本發明還提供了 GISditagTool軟件程序包(工具包)。因此,本發明提供了用于對雙標記核苷酸序列迸行處理的系統,該系統 包括用于建立包括至少一種雙標記序列的數據庫或文件的至少一個模塊,所述雙標記序列包括核酸分子或核酸分子的片段或者基因組的片段的5'末端才示記禾口 3 '$端木示記。特別地,雙標記序列的數據庫和文件是通過從至少一個包括雙標記序列 的庫的序列中提取雙標記序列而建立的。特別地,所述雙標記庫的每個雙標記序列以間隔子核苷酸序列為側翼并 且通過輸入間隔子核苷酸序列從所述庫中提取雙標記序列。如上所述并具體 如圖19中所示,當所述雙標記庫包括至少一種兩個或兩個以上雙標記的多 聯體時,所述多聯體在5,-3,方向上包括第一個雙標記上游側翼的間隔子、最 后一個雙標記下游側翼的間隔子,并且每兩個相鄰雙標記被位于它們之間的 間隔子間隔開。特別地,本發明的系統中,操作者選擇至少一種鏈接,該鏈接激活所述 模塊,所述模塊啟動至少一個用戶界面,并且其中所述操作者將以下參數輸 入到該用戶界面-至少一種間隔子核苷酸序列;-最小的雙標記堿基對(bp)數目,其中,所述數目為選自32-38范圍內 的數;以及-最大的雙標記堿基對(bp)數目,其中,所述數目為選自36-42范圍內 的數;以及由此產生被提取的雙標記的數據庫或文件。優選地,所述最小的雙標記堿基對數目為34和/或最大的雙標記堿基對 數目為40。所述用戶界面可以為圖形用戶界面。特別地,本發明的系統中,所述雙標記序列包括基因、外顯子、基因組 的一部分、或者它們的片段的轉錄本的5'末端標記和3'末端標記。根據另一方面,本發明的系統還包括雙標記序列的數據庫或文件的質量 控制模塊。用于質量控制的模塊可以在庫、板、孔、序列和/或雙標記水平上使用。所述質量控制檢查可以在將雙標記序列定位于基因組之前執行。由于 控制檢查,操作者可以通過考慮來決定去除導致錯誤并且與雙標記序列不相 符的序列。根據另一方面,本發明的系統還包括用于將至少一種雙標記序列定位于 基因組的模塊,包括將雙標記序列的5'和3'末端標記匹配到基因組的至 少一部分。因此,本發明還提供了用于對雙標記序列進行基因組定位的系統(雙標 記至基因組的定位系統),該系統包括-用于建立(產生)包括至少一種雙標記序列的數據庫和/或文件的模塊, 所述雙標記序列包括核酸分子或核酸分子的片段的5'末端標記和3'末端 標記;-選擇性地包括的用于對雙標記序列的數據庫或文件進行質量控制的模 塊;以及-另外的用于將至少一種雙標記序列定位于基因組的模塊,包括將雙標 記序列的5'和3'末端標記匹配到基因組的至少一部分。 根據另一方面,本發明的系統至少包括-第一用戶界面,該第一用戶界面至少包括用于提取(提取器)雙標記 序列的鏈接以及用于將雙標記定位于基因組的鏈接;-第二用戶界面,該第二用戶界面由操作者通過選擇或點擊提取器而被 激活,第二用戶界面包括用于輸入最小的雙標記堿基對(bp)數目、最大的 標記堿基對(bp)數目、以及至少一種間隔子序列的核苷酸序列的字段 (field);-第三用戶界面,該第三用戶界面用于將雙標記序列定位于基因組或染 色體位置;以及-第四用戶界面,該第四用戶界面顯示定位結果,其中,所述雙標記與基因組比對。根據本發明任一方面的系統可以通過操作者在電腦上操作,并且所述操 作通過因特網在計算機和/或介質支持的計算機上執行。根據另一方面,本發明提供了一種包括計算機程序的計算機可讀介質, 該計算機程序與計算機聯合時是可操作的,并且其中所述計算機程序包括本 發明任一方面的系統。定位步驟將雙標記定位于基因組類似于在基因組序列中檢索模式的發生率(occurrence)。用于模式檢索(pattern searching)的方法包括常規的局部比 對檢索工具(basic local alignment search tool, BLAST)和類似BLAST的比 對工具(BLAST-like alignment tool, BLAT)的方法。BLAST禾卩BLAT方法都很慢,因為它們的每一個都需要通過掃描全部基因組檢索到的模式。而且 如果要求具有小的錯配容限的模式的確切發生率,通常應用常規的全文索引 (full-text indexing)。有效的全文索引的數據結構包括后綴樹和后綴數組。如上所述,可以使用任何已知的定位方法。然而,根據具體實施方式
, 為了調整雙標記數據,基于標記至基因組的后綴數組(SAT2G)算法可以用 于將雙標記序列定位于基因組序列,所述基因組序列在高級數據結構壓縮后 綴數組(Compressed Suffix Array, CSA)上建立并索引。圖5中展示了使用 SAT2G將GIS雙標記(PET)定位于基因組的示意性例子。所述SAT2G系 統在圖6至圖8中更詳細地公開。因此,根據本發明的一個方面,本發明的方法或系統還提供了包括以下 步驟的定位方法和/或系統-建立包括至少一種雙標記序列的數據庫,所述雙標記序列包括來自核 酸分子或其片段的5'末端標記和3'末端標記,例如來自基因轉錄本;-將5'末端標記匹配到基因組序列的至少一部分以由此從基因組序列中鑒定出至少一個5'位點,至少一個5'位點的每個都具有與5'末端標記匹配的序列;-將3'末端標記匹配到基因組序列的至少一部分以由此從基因組序列中 鑒定出至少一個3'位點,至少一個3'位點的每個都具有與3'末端標記匹配的 序列;-鑒別至少一段存在的區段,所述至少一段存在的區段的每段為沿著基 因組序列在所述至少一個5'位點之一和至少一個3'位點之一之間的序列 區段,所述至少一段存在的區段的每段都具有序列長度;以及-鑒別至少一個可行的基因位置,所述可行的基因位置的每個為所述至 少一種存在的區段之一,所述區段的序列長度不超過預定的基因長度。在核酸(例如轉錄本)定位方法中,所述將5'末端標記匹配到基因組 序列的至少一部分的步驟可以包括以下步驟-將5'末端標記匹配到染色體序列。在定位方法中,所述將3'末端標記匹配到基因組序列的至少一部分的 步驟可以包括以下步驟-將3'末端標記匹配到染色體序列。所述轉錄本定位方法還可以包括產生用于索引基因組序列的數據結構 的步驟。所述定位方法還可以包括產生用于索引基因組序列的樹形結構和有序 數組中的至少一種的步驟。所述定位方法還可以包括產生用于索引基因組序列的后綴數組、后綴 樹、二叉樹和壓縮后綴數組中的至少一種的步驟。在所述定位方法中,將5'末端標記匹配到基因組序列的至少一部分的 步驟可以包括以下步驟-正向通過(traversing)或反向通過基因組序列中的至少一種,用于將5'末端標記與基因組序列的至少一部分進行比較以得到至少一個5'位點。在所述轉錄本定位方法中,所述將3'末端標記匹配到基因組序列的至 少一部分的步驟可以包括以下步驟-正向通過(traversing)或反向通過基因組序列中的至少一種,用于將3' 末端標記與基因組序列的至少一部分進行比較以得到至少一個3'位點。在所述轉錄本定位方法中,鑒定至少一種可行的基因位置的步驟可以包 括將至少一段存在的區段的每段以及其相應的至少一個5'位點之一和至少 一個3'位點之一的序列順序與基因組序列的至少一部分進行比較的步驟, 用于從中得到至少一個可行的基因位置。在轉錄本定位方法中,將至少一段存在的區段的每段以及其相應的至少 一個5'位點之一和至少一個3'位點之一的序列順序進行比較的步驟,可 以包括比較至少一段存在的區段的每段以及其相應的至少一個5'位點之一 和至少一個3'位點之一的序列順序,與5'-存在的區段-3'結構一致。在轉錄本定位方法中,所述鑒定至少一種可行的基因位置的步驟可以包 括鑒定至少一段存在的區段的每段的5,-3,方向的步驟,用于從它們中得到至少一個可行的基因位置。在轉錄本定位方法中,所述鑒定5'-3'方向的步驟可以包括鑒定殘基AA 核苷酸(residual AA nucleotide)的步驟,所述殘基AA核苷酸構成了 3'末端標記的一部分。在轉錄本定位方法中,所述鑒定至少一種可行的基因位置的步驟可以包 括以下步驟-鑒定染色體,其中將與存在的每個區段相對應的至少一個5'位點之一 和至少一個3'位點之一中的每一位點進行定位,用于從中鑒定至少一個可 行的基因位置。在轉錄本定位方法中,所述將5'末端標記匹配到基因組序列的至少一部分的步驟可以包括以下步驟-鑒定所述至少一個5'位點的量,以及將3'末端標記匹配到基因組序列的至少一部分的步驟包括以下步驟 -鑒定所述至少一個3'位點的量。在轉錄本定位方法中,所述鑒定至少一段存在的區段的步驟可以包括以 下步驟-從至少一個5'位點的每個朝向兩個末端之一沿著基因組序列往返移動(traverse),用于鑒定至少一個3'位點的至少一個。在轉錄本定位方法中,所述鑒定至少一種可行的基因位置的步驟可以包 括以下步驟-作為對用于至少一個5'位點的每個鑒定到至少一個可行的基因位置之 一的回應,結束沿著基因組序列的往返移動(tmversal)。在轉錄本定位方法中,所述鑒定至少一段存在的區段的步驟可以包括以 下步驟-從至少一個3'位點的每個朝向兩個末端之一沿著基因組序列往返移 動,用于鑒定至少一個5'位點的至少一個。在轉錄本定位方法中,所述鑒定至少一種可行的基因位置的步驟可以包括以下步驟-作為對用于至少一個3'位點的每個鑒定到至少一個可行的基因位置之 一的回應,結束沿著基因組序列的往返移動。根據本發明的另一方面,提供了一種定位系統,該系統包括 -用于通過提取至少一種雙標記而建立數據庫的裝置,所述雙標記包括來自核酸分子或核酸分子片段的5,末端標記和3'末端標記,例如來自基因的 轉錄本;-用于將5'末端標記匹配到基因組序列的至少一部分以由此從中鑒定至少一個5'位點的裝置,所述至少一個5'位點的每個具有與5'末端標記相 匹配的序列;-用于將3'末端標記匹配到基因組序列的至少一部分以由此從中鑒定至 少一個3'位點的裝置,所述至少一個3'位點的每個具有與3'末端標記相 匹配的序列;-用于鑒定至少一段存在的區段的裝置,所述至少一段存在的區段的每 個為沿著基因組序列在至少一個5'位點之一和至少一個3'位點之一之間 的序列區段,所述至少一段存在的區段的每個具有序列長度;以及-用于鑒別至少一個可行的基因位置的裝置,所述可行的基因位置為所 述至少一段存在的區段之一,所述區段的序列長度不超過預定的基因長度。在所述定位系統中,所述用于鑒別5'末端標記和3'末端標記的裝置可以 包括-用于提供具有至少16個堿基對的核苷酸序列的裝置,用于形成5'末端 標記;以及-用于提供具有至少16個堿基對的核苷酸序列的裝置,用于形成3'末端標記。在所述定位系統中,用于將5'末端標記匹配到基因組序列的至少一部分的裝置可以包括-用于將5'末端標記匹配到染色體序列的裝置。在所述定位系統中,用于將3'末端標記匹配到基因組序列的至少一部分的裝置可以包括-用于將3'末端標記匹配到染色體序列的裝置。所述定位系統還可以包括-用于產生數據結構的裝置,用于索引基因組序列。 所述定位系統還可以包括-用于產生樹形結構和有序數組中的至少一種的裝置,用于索引基因組 序列。所述定位系統還可以包括-用于產生后綴數組、后綴樹、二叉樹和壓縮后綴數組至少一種的裝置, 用于索引基因組序列。在所述定位系統中,用于將5'末端標記匹配到基因組序列的至少一部 分的裝置可以包括-用于正向通過和反向通過基因組序列中的至少一種的裝置,用于將5' 末端標記和基因組序列的至少一部分進行比較以得到至少一個5'位點。在所述定位系統中,用于將3'末端標記匹配到基因組序列的至少一部 分的裝置可以包括-用于正向通過和反向通過基因組序列中的至少一種的裝置,用于將3' 末端標記和基因組序列的至少一部分進行比較以得到至少一個3'位點。在所述定位系統中,用于鑒定至少一個可行的基因位置的裝置可以包括-用于將至少一段存在的區段的每段以及其相應的至少一個5'位點之一 和至少一個3'位點之一的序列順序與基因組序列的至少一部分進行比較的 裝置,用于從中得到至少一個可行的基因位置。在所述定位系統中,用于將至少一段存在的區段的每段以及其相應的至少一個5'位點之一和至少一個3'位點之一的序列順序進行比較的裝置可 以包括至少一段存在的區段的每段以及與其相應的至少一個5'位點之一和 至少一個3'位點之一的序列順序進行比較的裝置,與5'-存在的區段-3'結構一致。在所述定位系統中,用于鑒定至少一個可行的基因位置的裝置可以包括-用于鑒定至少一段存在的區段的每個的5'-3'方向的裝置,用于從中得 到至少一種可行的基因位置。在所述定位系統中,用于鑒定至少一段存在的區段的每個的5'-3'方向的 裝置可以包括-用于鑒定殘基AA核苷酸(residual AA nucleotide)的裝置,所述氨基 酸殘基核苷酸構成了 3'末端標記的一部分。在所述定位系統中,用于鑒定至少一個可行的基因位置的裝置可以包括-用于鑒定染色體的裝置,其中與存在的區段的每個相對應的至少一個 5'位點之一和至少一個3'位點之一中的每一位點得到定位,用于從中鑒定 至少一個基因位置。在所述定位系統中,用于將5'末端標記匹配到基因組序列的至少一部 分的裝置可以包括-用于鑒定至少一種5'位點的量的裝置,以及用于將3'末端標記匹配到基因組序列的至少一部分的裝置包括-用于鑒定至少一種3'位點的量的裝置。在所述定位系統中,用于鑒定至少一段存在的區段的裝置可以包括 -用于從至少一個5'位點的每個朝向兩個末端之一沿著基因組序列往返 移動的裝置,用于鑒定所述至少一個3'位點的至少一個。在所述定位系統中,所述鑒定至少一個可行的基因位置的裝置可以包括-用于作為對用于至少一個5'位點的每個鑒定到至少一個可行的基因位置之一的回應,結束沿著基因組序列的往返移動的裝置。在所述定位系統中,所述用于鑒定至少一段存在的區段的裝置可以包括-用于從至少一個3'位點的每個朝向兩個末端之一沿著基因組序列往返移動的裝置,用于鑒定所述至少一個5'位點的至少一個。在所述定位系統中,所述用于鑒定至少一個可行的基因位置的裝置可以 包括-用于作為對用于至少一個3'位點的每個鑒定到至少一個可行的基因位 置之一的回應,結束沿著基因組序列的往返移動的裝置。根據本發明的另一方面,提供了一種定位方法,該方法包括下列步驟-建立雙標記的數據庫,包括提取至少一種雙標記,例如來自雙標記庫 或來自現有的雙標記數據庫,所述雙標記序列包括來自核酸分子或核酸分子 的片段的5'末端標記和3'末端標記,例如來自基因轉錄本;-將5'末端標記匹配到基因組序列的至少一部分以由此從基因組序列中 鑒定出至少一個5'位點,至少一個5,位點的每個都具有與5'末端標記匹配的 序列;-將3'末端標記匹配到基因組序列的至少一部分以由此從基因組序列中 鑒定出至少一個3'位點,至少一個3'位點的每個都具有與3'末端標記匹配的序列;-鑒別至少一段存在的區段,所述至少一段存在的區段的每段為在所述 至少一個5'位點之一和至少一個3'位點之一之間沿著基因組序列的序列 區段,所述至少一段存在的區段的每段都具有序列長度;以及-從至少一種存在的區段鑒定出至少一種可行的基因位置,每-一至少一 種所述可行的基因位置為至少一種序列長度不超過該區段預定的基因長度 的所述至少一種存在的區段之一,它的序列順序以及其中對應的與5'-存在 的區段-3'結構一致的至少一個5'位點之一和至少一個3'位點之一跟基因組 序列相應部分的序列順序相匹配,5'位點與其中對應的至少一個5'位點之一 以及至少一個3,位點之一具有5,-3'取向,并且與每一存在的區段相對應的至少一個5,位點之一以及至少一個3'位點之一被定位于同一染色體中。根據以上所述,有效全正文索引數據-結構包括后綴樹和后綴數組。后 綴樹為樹樣數據結構,具有起源于根的分枝,每個分枝結束于編碼基因組序 列后綴的葉。所述后綴數組是根據字典編輯順序對所有基因組的后綴分類的序列。所述后綴數組表示為數組SA[i],其中i^…n并且SA[i] =j表示j-后綴(j-SuffDC)(從字母j開始的后綴)在字典編輯順序中為第i個最小后綴。后綴樹和后綴數組都允許快速模式檢索。給定長度X的模式(pattern), 對于后綴樹和后綴數組,它在基因組G[l...n]中的存在可以分別在O(x)時間 和O(x log n)時間內得到報告。雖然詢問時間很快,但建立后綴樹和后綴數 組不總是可行的,因為它們需要很大空間。例如,對于小鼠基因組,所述后 綴數和后綴數組分別需要40千兆字節(Gigabytes, GB)禾卩13GB。所述存 儲要求遠遠超過了普通電腦的存儲能力。為了解決存儲空間問題,我們使用 了空間有效的壓縮后綴數組(compressed suffix array, CSA)索引數據結構。 CSA是后綴數組的壓縮形式。其可以得到有效建立而沒有了使用己知算法時 的巨大存儲要求。同時,建立好的CSA非常小。例如鼠基因組(mm3)的 CSA只占大約1.3GB。此外,CSA也能夠支持有效檢索。長度X的檢索方 式只需要O(x logn)時間。本發明的第一種實施方式,參考圖3描述轉錄本定位方法20,圖3顯示 了轉錄本定位方法100的過程流程圖。轉錄本定位方法100用于從基因獲得 轉錄本。從圖4中可以看出,在轉錄本定位方法100的步驟110中,從轉錄 本獲得5'末端標記24和3'末端標記26。結合起來,5'末端標記24和3'末端標記26形成如上所述的GIS雙標記 30并在圖4中得到展示。GIS雙標記30的雙標記長度32為36 bp,具有來 自5,末端標記24的18bp核苷酸序列,以及來自3'末端標記26的另外18bp 核苷酸序列。由于在分子克隆過程中某些酶的變異,GIS雙標記30的雙標記長度32可以在34bp至38bp之間變化。變異經常發生在靠近5'末端標記24和3'末端標記26的末端,而內部的 核苷酸的結構保持不變。3'末端標記26中,兩個殘基核苷酸34 (AA)在從 其中除去聚合A尾的過程中被保留。該AA殘基核苷酸34然后用作取向指 示子(orientation indicator)。因此在GIS雙標記30中,只有16bp的3'末端 標記26可用于定位于基因組序列36。接著步驟110, 5,末端標記24和3'末端標記26的每一個在步驟112中 與基因組序列36匹配。在步驟112中,當5'末端標記24和3'末端標記26 分別與基因組序列36匹配時,5'位點38和3'位點40得到鑒定。每一 5'位 點38和每一 3'位點40是基因組序列36的一部分,具有基本上分別與5,末 端標記24和3'末端標記26匹配的序列。在步驟114中,至少一段存在的區段42從基因組序列36中鑒定出來。 每一至少一段存在的區段42是沿基因組序列36的位于一個5'位點38和一 個3'位點40之間的序列區段。每一至少一段存在的區段42具有序列長度 44。給定GIS雙標記30 (P)用于轉錄本(R),在基因組序列36 (G)中定 位R的計算問題被稱為轉錄本位置鑒定問題。因此給定G[l…n]和P[l…m], 鑒別存在的區段42作為P的可行性基因位置,當序列長度44 (j-i)小于 預定的基因長度(最大長度),對已知基因而言其長度通常小于1百萬堿基 對;5'末端標記24和3'末端標記26分別長于預定的最小長度5和最小長度 3 (其中最小長度5 = 16 bp且最小長度3 = 14 bp);以及R的5'末端標記24 和3,末端標記26分別為?[1...必界5]和?[總界3..工]的子串(其中邁界產19 邁界尸18)。基因組序列36優選使用壓縮的后綴數組(CSA)進行索引。優選通過 將二元檢索(binary search)應用于壓縮的后綴數組,5'末端標記24和3'末端標記26匹配于基因組序列36。用于匹配5'末端標記24和3'末端標記26 的二元檢索取決于兩個主題(lemmas),即主題1用于在壓縮的后綴數組上 執行正向檢索,主題2用于在壓縮的后綴數組上執行反向檢索。主題l (正向檢索)給定用于基因組G[l..n]的CSA以及在G中一組 模式Q的出現,用于任何堿基ce(腺嘌呤(A)、胞嘧啶(C)、鳥嘌呤(G)、胸 腺嘧啶(T)},在0 (logn)時間內可得到一組模式Qc的出現。正向二元檢 索通過改良常規的二元檢索算法來完成,當與在二元檢索中的模式Q比較 時,使用在壓縮后綴數組和后綴數組中的值,取代用于基因組序列36內的 后綴的外在正文。主題2 (反向檢索)給定用于基因組G[l..n]的CSA以及在G中一組 模式Q的出現,用于任何堿基ce(腺嘌呤(A)、胞嘧啶(C)、鳥嘌呤(G)、胸 腺嘧啶(T)},使用O (logn)時間,我們可以發現一組模式cQ的出現。圖6中展示了用于正向和反向檢索的偽代碼(pseudo code)"Find_Sites"。 與在步驟114中先后應用正向檢索和反向檢索不同,可選的途徑是只將主題 l的正向檢索或者主題2的反向檢索應用于基因組序列36以鑒定至少一段存 在的區段42。GIS雙標記30可以正義或反義地出現在基因組序列36中。為說明這個 問題,對每一正義基因組序列和反義基因組序列創設了索引。可以創設反義 GIS雙標記,而不是創設兩個獨立的索引數組。對于每一 5'末端標記24和3' 末端標記26,后綴數組在步驟110中被檢索兩次, 一次使用正義GIS雙標 記30,第二次使用反義GIS雙標記(未標識)。此外,基因組序列36可以被天然地分配到多條染色體中。這使得對于 每一染色體的序列區段創設出壓縮的后綴數組。通過這樣做,對于具體的染 色體而不是整個基因組序列36,可獲得5'位點38和3'位點40。除了壓縮的后綴數組、后綴數組、后綴樹、二元的或者其它,索引數據結構可以用于索引如上所述的基因組序列36。接著步驟114, 5'位點38和3'位點40經歷用于鑒定可行基因位置的系 列檢査。所述檢査包括長度、位置、方向以及順序檢查。在步驟116中,通過將每一至少一段存在的區段42的序列長度44與步 驟116中預定的基因長度進行比較,執行長度檢查。起初,優選以升序對5' 位點38和3'位點40進行分類。然后,序列長度44不超過預先定義的基因 長度(最大長度)的每一至少一段存在的區段42被鑒定為潛在的可行基因 位置。圖7中展示了用于步驟116的偽代碼"Match—sites—1"。在步驟118中,進行定位檢査,由此分析對應于每一至少一段存在的區 段42的5'位點38和3'位點40,以鑒定它們中的每一個定位于哪條染色體 內。只有當存在的區段42的5,位點38和3'位點40屬于同一染色體時,存 在的區段42才鑒定潛在的可行基因位置。步驟120中,通過鑒定相對于每一存在的區段42的5'位點38和3'位點 40的方向,進行方向檢査。5'位點38和3'位點的取向通過確定殘基核苷酸 34的位置可以得到鑒定。優選地,5'位點38和3'位點40對于它們的存在的 區段42具有5,-3'的取向以鑒定潛在的可行基因位置。在步驟122中,通過將每一存在的區段42以及相應的5'位點38和3' 位點40與基因組序列36進行比較,進行順序檢査。優選地,每一存在的區 段42以及相應的5'位點38和3'位點40的排序應遵循用于成為潛在可行位 點的5'-存在的區段-3'結構。轉錄本定位方法的步驟116-122可以聯合地或獨立地發生在任何序列中。在沒有從GIS雙標記30發現可行的基因位置的情況下,當在步驟112 中將3'末端標記26匹配到基因序列36時,放寬限制以允許至少一個錯配。 可選擇地,在步驟112中5'位點38和3'位點40匹配到基因組序列36之前,可以首先獲得5'位點38的量和3'位點40的量。這樣能鑒定5'位點 38和3'位點40之間的量的差異,例如當只存在少于10個的5'位點38和多 于好幾萬的3'位點40時,或者反之亦然。當5'位點38和3'位點40之間存在巨大的量的差異時,所述轉錄本定位 方法20經歷在基因組序列36中過剩定位的多重迭代。因此,當產生巨大的 量的差異時,轉錄本定位方法100需要改進的方法。為了鑒定該量的差異, 差異條件確定如下i^ iifis閾值。閾值5,3— 計數3 其中,計數5為5,位點38的量,計數3為3,位點40的量,并且閾值u為預定的閾值,例如閾值5,產10000,用于限定計數5和計數3之間的定量差異。無需枚舉任何5'位點38或任何3'位點,CSA能夠獲得計數5和計數3二者。在滿足上述差異條件時,應用圖8的偽代碼"Match—sites—2"中描述的 方法。在偽代碼"Match—sites—2"中,在基因組序列36中定位所需要的迭代 的數目由計數5和計數3中較小的一個決定。例如,如果只存在兩個5'位點 38,在基因組序列36中定位或沿著基因組序列36往返移動只迭代兩次以獲 得相應的3,位點40之一,對兩個5'位點38的每一個迭代一次,用于從它 們中獲得存在的區段42。然而,如果不滿足上述差異條件,計數5和計數3之間量的差異不大, 因此轉錄本定位方法100復原成"Match—sites—l"所述的方法用于獲得存在的 區段42。在上述的方式中,描述了根據本發明的一個實施方式的轉錄本定位方 法,用于闡明常規定位方法的前述缺點。雖然本發明只公幵了一種實施方式, 但是本領域技術人員能夠在不背離本發明范圍和精神的情況下很容易進行很多變化和/或改進。現已對本發明進行了一般描述,通過參考有關GISditagTool的具體實施 例,在下列以圖解方式提供的附圖的輔助下本發明將更容易被理解,并且所 述具體實施例和附圖并不是為了限定本發明。GISditagTool-系統和方法1、 數據管理(Data Management)為了滿足大規模數據分析的要求,數據和結果以項目、庫、板和孔的分 級結構進行組織,附上作用(action)記錄和它們對應的參數(圖9)。基于 數據特征,可以使用平面文件系統和關系數據庫管理系統(RDBMS)的雜 交體(hybrid)。上傳的序列讀數可以用記錄在關系數據庫管理系統中的位置 索引存儲為平面文件以支持快速檢索。剩余的信息和處理的結果可以保留在 RDBMS以便咨詢。所述信息和結果包括各種統計結果、處理結果、追蹤屬 性以及定位結果。圖10中展示了 GISditagTool模塊和mySQL數據庫。GISditagTool可以 包括一個或多個模塊。特別地,GISditagTool可以包括兩個或兩個以上模塊, 例如,四個模塊即項目模塊、提取器模塊、檢查器模塊和定位模塊。它們 中的每一個用于不同的目的項目用于組建數據和文件;提取器用于提取雙 標記;檢査器用于質量控制;以及定位用于標記至基因組的定位。mySQL 合理的數據庫(DB)管理系統提供了用于那些模塊之間的活動的從容運輸 (trafficking);2、 GIS雙標記(PET)分析工作流程、方法和系統完整的GIS雙標記分析工作流程包括,例如,五個連續的步驟1)用 戶創建項目,然后在項目中創建一個庫或者多個庫。輸入具體的庫信息包括 提取和定位的參數。2)從局域終端將單一或多個文件中的序列上傳至相應 的庫,并且使用事先定義的參數從所述序列中提取雙標記。3)可以在項目、庫、板、孔/序列、或者雙標記水平上進行質量控制(QC)。 4)然后用UCSC基因組數據庫對雙標記對進行定位,例如通過使用SAT2G,并且定位結果以 UCSC圖像形式展示。5)用定位結果對相應的數據庫的雙標記進行注釋。步驟l-4分別由GISditagTool用項目模塊、提取器模塊、檢査器模塊和 定位模塊進行。步驟5可以并入GISditagTool或者作為補充的獨立的步驟執 行。GISditagTool模塊的流程圖如圖11至圖14所示。具體地,圖11顯示了 項目模塊的流程圖,圖12顯示了提取器模塊的流程圖,圖13顯示了檢査器 模塊的流程圖,以及圖14顯示了定位模塊的流程圖。3、雙標記提取提取器模塊的流程圖如圖11所示。圖15中展示了 GISditagTool的提取 及質量控制窗口和用戶界面。序列讀數可以通過提取器模塊(B)(在圖16 也有顯示)被上傳來用于提取雙標記。提取參數可以在此階段得到修改。QC 依次進行。圖15最上面的面板(A)顯示所有項目的統計(在圖16也有顯 示)。當激活檢查器模塊時,用于所有庫的雙標記統計得到展示(C)。點擊 庫、庫中的板,以及接著板中的孔,用戶能分別評估板(D)、孔(E)和序 列(F)的質量。輸入序列(以fasta格式)用phredPhrap進行堿基命名和評測以保證質 量。所述fasta格式為科學團體在處理科學數據時使用的主要格式 (http:〃ngfnblast.gbf.de/docs/fasta.html)。 Phred禾口 Phrap由Phil Green's小組 在華盛頓大學制出,并不斷提高或改良(http:〃www.phrap.org/phredphrap/ phrap.html)。序列ID —般包括庫、板、孑L、測序引物等信息,以制成唯一 的組合;然而順序和特性可以在不同機構中變化。為了調整不同聯盟的命名 規則,系統為每個聯盟存儲了命名的Perl小片,用于合適的序列ID檢索。 在雙標記提取過程中,新的唯一雙標記用增大的運行序號進行分配,以避免ID與在將來上傳中可以被提取的雙標記沖突。提取算法包括下列選擇標準 或參數最小雙標記長度,34bp;最大雙標記長度,40bp;最大序列長度,1000bp;以及確定的5'、 3'和間隔所述雙標記的內部間隔子序列(圖15-B)。 所有合格的雙標記在3'末端應該具有AA-尾。我們將以"TT"開始的雙標 記倒轉到它們各自的互補鏈,因為它們從相反的鏈進行測序。去除了在'或3' 標記區域內含有多聚腺苷酸(9 bp)或者多聚胸腺嘧啶(9bp)的雙標記,因 為它們或者是污染的序列,或者是真實序列但具有潛在的定位難度。含有"N" 的雙標記也被去除。最后去除AA-尾以防止在定位中的復雜化。4、 質量檢査質量檢査是為了在各種水平上對提取結果進行評估,以提供可以幫助在 濕實驗室材料(wet-labmaterial)、實驗設計或技術中精確地找到問題的線索。 其通過使用"檢査器"模塊執行。在項目水平上(圖15A),其展示了每個 項目的項目開始時間、總的好的讀數(total good read)和總雙標記。在庫水 平上(圖15-C和圖17-C),所述界面展示了有關好的讀數(good read)的總 數、唯一雙標記和每庫己經被提取的總雙標記的信息。快速瀏覽可以確定庫 的狀態和性能以及各種庫之間的差異。為了更深層次的質量檢査,允許用戶 點擊具體的庫以顯示該庫中所有的板(圖15-D和17-D)。這里,統計以板 為基準。如果用戶對質量不滿意,用戶可以刪除任何板并且系統將立即更新 變化。當選擇了具體的板,GISditagTool顯示所有384個孔的生動視圖(代 表相應的序列),其上顯示了被提取雙標記的數目(圖15-E和圖18-E)。點 擊孔,用戶可以更近地觀看5'和3'側翼序列、間隔子以及合格及不合格兩種 雙標記的分布。5、 定位因SAT2G的速度和精度,本發明的發明人采用了 SAT2G用于定位。本 發明的發明人將5,標記的亞序列(subsequence)定義為第一18士lbp,并允許它們起始于位置1、 2或3。雙標記其余的部分形成3'標記的亞序列。這些亞序列獨立地定位于基因組數據庫。然后5'比對與3,比對配對以鑒定可行 的基因組靶(圖5)。成功的配對必須滿足以下標準5'和3'比對必須在同一 染色體、同一鏈、同一方向上,在一百萬bp距離內,并且在5,接著3,的順 序中;5'和3'比對分別需要有至少16和14bp的完全匹配。沒有成功配對的 雙標記收集到PET0中,單一配對的在PET 1中,雙重配對的在PET 2中等 (圖20G)。如所期待的,上述參數設定將把非標準處理(例如反剪接)產 生的雙標記推入PETO類別;然而所述雙標記可以在以后從PETO中回收用 于進一步分析。定位出的位置可以鏈接到局域或遙遠的用于基因注釋和其他相關信息 的UCSC基因組瀏覽器(圖20-H)。可選地,用戶可以用其他數據庫進行進 一步分析。在我們的情況下,這些雙標記使用具有鏡像UCSC注釋數據庫的 T2G流水線進一步與基因或轉錄本聯合。這些聯合可以使用局域化的UCSC 基因組瀏覽器從T2G網址獲得。RDBMS中的雙標記的提取和/或存儲以及用SAT2G的基因組定位與 GISditagTool的功能相關。RDBMS提供了快速有效的數據運輸。SAT2G對 GISditagTool的強大定位能力作出貢獻。對于BLAST (不配對),用常規的 750兆赫的Solaris機器處理100K雙標記將需要大約2個月,而CSA在相同 或詳細的定位標準下運行只花幾個小時。所述速度允許有效數據分析。除此 之外,GISditagTool允許和支持每個雙標記庫對不同基因組組合的定位。用 戶可以使用新近可供的基因組組合,同時保留早期定位用于比較。直接的 PET至基因組的定位途徑不僅繞開對病毒數據庫的需要,它還允許發現新的 基因,因為染色體定位可以被連接到庫中用于進一步挖掘數據。6、結果本發明的發明人具有如此開發的GISditagTool,其為用于大規模雙標記(PET)加工以及基因組定位的多組件、基于網絡、數據庫支持(例如mySQL-支持)的應用程序。其包括兩個或兩個以上的模塊,優選四個模塊用于數 據組建的項目模塊、用于雙標記提取的提取器模塊、用于質量檢查的檢査器 模塊,以及使用定位系統例如SAT2G(基于標記對基因組的后綴數組)的用 于鑒定PET的染色體位置的定位模塊。可以在庫、板、孔、序列和雙標記水 平上評估數據的質量。它有能力提取一百萬個PET并在一天內完成基因定 位。定位結果可以展示在任何已知基因組瀏覽器中,例如,加州大學圣克魯 茲分校(UC Santa Cruz, UCSC)基因瀏覽器。新型GISditagTool技術要求參數形式的用于PET提取的新算法。所述參 數至少包括最小雙標記長度、最大雙標記長度以及間隔子序列。提取后, 我們預期選擇直接的PET至基因組的注釋途徑,并將該算法整合到軟件程序 包中。GISditagTool已經被用于分析超過20個產生自各種生物體的庫。使用小 鼠胚胎肝細胞系作為例子,從37,754個序列讀數中提取總共248,234個雙標 記,相當于135,328個唯一的雙標記。不允許錯配,71.90%的總雙標記已經 成功定位于UCSC小鼠基因組組合(assembly) mm3的位置中,52.29%的總 雙標記具有單一的定位位置。在實踐中已證明,GISditagTool具有超常且可 信的性能,并且是非常用戶友好的。
權利要求
1. 一種處理雙標記核苷酸序列的方法,該雙標記序列包括核酸分子、核酸分子片段、或者基因組片段的5’末端標記和3’末端標記,該方法包括建立包括至少一種雙標記序列的數據庫或文件。
2、 根據權利要求1所述的方法,其中,所述雙標記序列的數據庫或文 件是通過從至少一個包括雙標記的庫的序列中提取雙標記序列而建立的。
3、 根據權利要求1或2所述的方法,其中,雙標記庫的每個雙標記序 列以間隔子核苷酸序列為側翼,并且通過輸入所述間隔子核苷酸序列而從所 述庫中提取雙標記序列。
4、 根據權利要求1-3中任意一項所述的方法,其中,所述雙標記庫包 括至少一種兩個或兩個以上雙標記的多聯體,所述多聯體在5,-3,方向上包括 第一個雙標記上游側翼的間隔子、最后一個雙標記下游側翼的間隔子,并且 其中每兩個相鄰雙標記被位于它們之間的間隔子間隔開。
5、 根據權利要求3或4所述的方法,其中,所述雙標記庫包括一種或 多種間隔子序列,每個間隔子序列具有與其它間隔子序列不同的核苷酸序 列。
6、 根據權利要求1-5中任意一項所述的方法,該方法包括 -由雙標記庫提供核苷酸序列,其中,所述雙標記庫的每個雙標記序列以間隔子核苷酸序列為側翼;以及-通過輸入所述間隔子核苷酸序列來提取所述雙標記序列,以建立雙標 記的數據庫或文件。
7、 根據權利要求1-6中任意一項所述的方法,其中,通過輸入下列參數來提取所述雙標記序列-至少一種間隔子核苷酸序列;-最小的雙標記堿基對數目,其中,該數目為選自32-38范圍內的數;以及-最大的雙標記堿基對數目,其中,該數目為選自36-42范圍內的數。
8、 根據權利要求7所述的方法,其中,所述最小的雙標記堿基對數目 為34和/或所述最大的雙標記堿基對數目為40。
9、 根據權利要求1-8中任意一項所述的方法,其中,所述雙標記序列 包括基因、外顯子、部分基因組、或者它們的片段的轉錄本的5'末端標記和 3'末端標記。
10、 根據權利要求1-9中任意一項所述的方法,其中,所述雙標記序列 包括全長cDNA的5'末端標記和3'末端標記。
11、 根據權利要求1-10中任意一項所述的方法,其中,所述雙標記序 列包括至少為16個堿基對的5'末端標記和至少為14個堿基對的3'末端標 記。
12、 根據權利要求1-11中任意一項所述的方法,其中,該方法還包括 對所述數據庫或文件的雙標記序列進行質量控制檢查。
13、 根據權利要求1-12中任意一項所述的方法,其中,該方法用于將 雙標記核苷酸序列定位于基因組,該方法包括-建立包括至少一種雙標記序列的數據庫或文件;以及-將至少一種雙標記序列定位于基因組,包括將雙標記序列的5'和3'末端標記匹配到基因組的至少一部分。
14、 根據權利要求13所述的方法,其中,雙標記庫的每個雙標記序列 以間隔子核苷酸序列為側翼,并且通過輸入所述間隔子核苷酸序列而從所述 庫中提取所述雙標記序列。
15、 根據權利要求1-14中任意一項所述的方法,其中,通過輸入下列 參數來提取所述雙標記序列-至少一種間隔子核苷酸序列;-最小的雙標記堿基對數目,其中,該數目為選自32-38范圍內的數;以及-最大的雙標記堿基對數目,其中,該數目為選自36-42范圍內的數。
16、 根據權利要求13所述的方法,其中,所述定位的步驟還包括在匹 配的至少一個5'末端和至少一個3'末端之間沿著基因組序列鑒定至少一個 區段;以及鑒定至少一種染色體位置、基因、外顯子位置、或者它們的片段。
17、 根據權利要求16所述的方法,其中,鑒定出的基因位置為新發現 的基因位置。
18、 根據權利要求13所述的方法,其中,所述雙標記序列的提取和/或 基因組定位通過因特網在計算機上執行和/或通過介質支持的因特網執行。
19、 一種用于處理雙標記核苷酸序列的系統,該系統至少包括用于建立包括至少一種雙標記序列的數據庫或文件的模塊,所述雙標記序列包括核酸 分子、核酸分子的片段或基因組的片段的5'末端標記和3'末端標記。
20. 根據權利要求19所述的系統,其中,所述雙標記序列的數據庫或 文件是通過至少一個包括雙標記的庫的序列中提取雙標記序列而建立的。
21. 根據權利要求20所述的系統,其中,雙標記庫的每個雙標記序列 以間隔子核苷酸序列為側翼,并且通過輸入所述間隔子核苷酸序列而從所述 庫中提取所述雙標記序列。
22. 根據權利要求21所述的系統,其中,操作者選擇至少一種鏈接, 該鏈接激活模塊,所述模塊啟動至少一個用戶界面,并且其中所述操作者將 以下參數輸入該用戶界面-至少一種間隔子核苷酸序列;-最小的雙標記堿基對數目,其中,該數目為選自32-38范圍內的數;以及-最大的雙標記堿基對數目,其中,該數目為選自36-42范圍內的數, 由此產生被提取的雙標記的數據庫或文件。
23. 根據權利要求22所述的系統,其中,所述最小的雙標記堿基對數 目為34和/或所述最大的雙標記堿基對數目為40。
24. 根據權利要求19-23中任意一項所述的系統,其中,所述雙標記序 列包括基因、外顯子、部分基因組、或者它們的片段的轉錄本的5'末端標記 和3'末端標記。
25、 根據權利要求19-24中任意一項所述的系統,其中,所述系統還包 括雙標記序列的數據庫或文件的質量控制模塊。
26、 根據權利要求19-25中任意一項所述的系統,其中,所述系統還包 括用于將至少一種雙標記序列定位于基因組的模塊,包括將雙標記的5'和 3'末端標記匹配到基因組的至少一部分。
27、 根據權利要求19-26中任意一項所述的系統,其中,所述系統至少 包括-第一用戶界面,該第一用戶界面包括至少一個用于提取(提取器)雙 標記序列的鏈接、以及用于將雙標記定位于基因組的鏈接;-第二用戶界面,該第二用戶界面由操作者通過選擇或點擊所述提取器 而被激活,該第二用戶界面包括用于輸入最小的雙標記堿基對數目、最大的 標記堿基對數目、以及至少一種間隔子序列的核苷酸序列的字段;-第三用戶界面,該第三用戶界面用于將雙標記序列定位于基因組;以及-第四用戶界面,該第四用戶界面顯示所述定位的結果,其中,所述雙 標記與基因組進行比對。
28、 根據權利要求19-27中任意一項所述的系統,其中,所述系統能夠 由操作者在電腦上操作,并且所述操作通過因特網在計算機上執行和/或通過 介質支持的因特網執行。
29、 一種包括計算機程序的計算機可讀介質,該計算機程序在與計算機 關聯時是可操作的,并且其中所述計算機程序包括權利要求19所述的系統。
全文摘要
本發明提供了用于對雙標記核苷酸序列進行處理和/或基因組定位的方法和系統,所述雙標記序列包括核酸分子、核酸分子的片段或者基因組片段的5’末端標記和3’末端標記。所述處理方法包括建立包括至少一種雙標記序列的數據庫或文件。所述定位的方法包括建立雙標記的數據庫或文件,并將至少一種雙標記序列定位于基因組,包括將雙標記序列的5’和3’末端標記匹配到基因組的至少一部分。
文檔編號G01N33/48GK101233509SQ200680027582
公開日2008年7月30日 申請日期2006年6月12日 優先權日2005年6月14日
發明者衛嘉玲, 邱國平, 阮一駿 申請人:新加坡科技研究局