專利名稱:模塊表達序列標簽制作方法
技術領域:
本發明涉及生物技術,尤其涉及一種模塊表達序列標簽的制作方法。
生物基因組中可轉錄表達的序列(即基因)僅占總序列的3~5%,對這部分序列進行測定,將直接導致新基因的發現,并獲取基因組中與產業化關系最為密切的信息。1992年希克拉(Sikela)和馬特休巴拉(Matsubara)針對獲得大量信使核糖核酸(mRNA)序列的迫切要求,提出大規模互補脫氧核糖核酸(cDNA)測序的研究戰略。隨后,卡雷格·溫特(Craig Venter)創立了表達序列標簽(Expressed Sequence Tag,簡稱EST)技術,其技術特征是以質粒構建完成的互補脫氧核糖核酸文庫中隨機選擇互補脫氧核糖核酸克隆,利用質粒上攜帶的通用引物對互補脫氧核糖核酸兩端進行脫氧核糖核酸(DNA)序列測定,從而獲得兩端幾百個堿基長度的脫氧核糖核酸序列,并富集這些脫氧核糖核酸序列數據構建表達序列標簽數據庫(dbEST)。目前,序列表達標簽技術已被廣泛運用于三個方面克隆基因家族相關基因、基因定位克隆及基因定位圖譜制作。表達序列標簽技術大大促進了生物信息學的發展,而表達序列標簽數據庫又使得傳統基因克隆手段向信息化轉化。通過對數據庫中相關的序列表達標簽進行分類整合和電子拼接,可以獲得部分潛在的全長互補脫氧核糖核酸序列。但是,表達序列標簽技術及其數據庫并不都能解析和包含未知基因本身具有的蛋白序列特征性標志及其所包含的潛在功能作用,同時表達序列標簽制作過程由于隨機挑選互補脫氧核糖核酸文庫克隆測序,造成了巨大數目的重復測序。
本發明的目的是提供一種加快定向克隆特異性基因的速度的模塊表達序列標簽制作方法。
為了達到上述目的本發明采取下列措施基于蛋白模塊分類的表達序列標簽的制作方法,它的步驟為1)收集生物物種多種表型及多種發育階段樣本,提取核酸;2)分離完成的樣本為信使核糖核酸則逆轉錄合成互補脫氧核糖核酸第一鏈;分離完成的樣本是脫氧核糖核酸則直接用于模塊脫氧核糖核酸片段分離;3)通過比較生物種類已知的蛋白模體,選擇目標生物樣本偏愛的蛋白模體組成序列為藍本;4)針對目標生物樣本偏愛的氨基酸三聯核苷酸密碼子設計含保守的蛋白模體序列的聚合酶鏈式反應簡并引物;5)按蛋白模體序列信息分類聚合酶鏈式反應引物,并兩兩組合為一對聚合酶鏈式反應擴增引物對;6)以所述分離合成完成的互補脫氧核糖核酸樣本或脫氧核糖核酸樣本為模板,進行聚合酶鏈式反應擴增,并在反應體系中摻入放射性同位素進行標記;7)以脫氧核糖核酸測序膠分離技術對聚合酶鏈式反應擴增產物進行分離并放射自顯影。利用放射自顯影提供的聚合酶鏈式反應基因表達圖譜從脫氧核糖核酸測序膠中回收特異性擴增的模塊脫氧核糖核酸片段,并對每一回收的脫氧核糖核酸片段進行聚合酶鏈式反應重擴增和瓊脂糖凝膠電泳鑒定;8)對每一重擴增片段,以已知聚合酶鏈式反應引物為測序引物進行脫氧核糖核酸序列分析。所獲序列經生物信息學處理后,建立模塊表達序列標簽庫;9)選擇不同的模體引物組合重復5)~8)過程;10)富集獲得的模塊氧核糖核酸片段構建模體表達序列標簽微陣列形式的基因芯片;11)富集所有模塊的引物序列、每條模塊表達序列標簽的脫氧核糖核酸序列、依模塊信息轉譯的蛋白序列及其功能預報,以建立一個可進行全方位檢索、查詢、電子拼接的數據庫。
本發明的優點1)模塊表達序列標簽能給予較明確的蛋白序列生物信息,并且這種信息是以模塊形式給出,這對利用模塊表達序列標簽克隆新的未知基因提供強有力的信息指導,從而加快定向克隆特異性基因的速度。這一點是現有表達序列標簽系統不能完全做到的。
2)模塊表達序列標簽能支持利用表達序列標簽進行基因圖制作,加快序列標簽位點(STS)的制作過程和新基因的染色體定位。
3)模塊表達序列標簽的富集可以最大限度地利用公開的表達序列標簽數據庫信息,通過電子拼接技術直接獲取潛在的互補脫氧核糖核酸全長,大大縮短克隆新的全長互補脫氧核糖核酸的周期并可減少克隆的成本,加快類似于水稻這樣一種生物信息積累較薄弱的模式生物的基因克隆進度。
4)模塊表達序列標簽以微陣列硬件形式提供的生物芯片可以為克隆差異基因提供“索引”,并且模體表達序列標簽給予“索引”一個較為詳盡的模塊功能描述,這為選擇克隆與生物學表型密切相關的基因提供潛在的針對性強的功能分析。
5)由于模塊表達序列標簽的建立是靠以雙蛋白模體設計的簡并引物兩兩配對為基礎,用測序膠以不同組合結合不同長度來分離每一條模塊表達序列標簽,所以避免了序列表達標簽制作過程中由于隨機挑選互補脫氧核糖核酸文庫克隆而造成的巨大數目的重復測序,極大地降低了獲取每一條模塊表達序列標簽的所需費用。
6)通過模塊表達序列標簽還可進行新基因的遺傳進化關系分析。
下面結合附圖
和實施例對本發明作詳細說明。
附圖是模塊表達序列標簽方法原理圖。
所說的簡并引物長度大于或等于15個堿基。
通過對基因序列、蛋白序列及其模塊結構數據進行分析,結果表明生命體基因組所含的基因數量雖然十分巨大,在人類中達到105個,但是基因編碼蛋白質的高度保守的構件塊或稱“模塊”(Module)的數量是有限的,估計在103個左右。這表明通過數量有限的蛋白編碼區段的倍增、重排和整合,可以產生大量含有多個模塊的復合蛋白序列,從而構成龐大而復雜的編碼序列。這種倍增可以是成串的或分散的倍增,也可是對應于折疊蛋白功能域的結構模塊的倍增,同時,倍增方式的改變會導致基因產物特異性的變化,即識別特征的改變或功能的變更。模塊由單個或多個模體(Motif)組成,所謂的模體是蛋白質家族中的最小序列單位,是蛋白質區段排列對比中高度相似的區域,因此,模體的識別對蛋白質功能或結構的預測非常重要。我們利用蛋白模塊這一基本的蛋白質分類特征標志以及模式生物體中越來越多的蛋白模塊編碼信息的富集,建立模塊表達序列標簽庫。其技術方法是選擇一對基于蛋白模體設計的簡并引物,以聚合酶鏈式反應(PCR)擴增和測序膠分離來定義每一基因特異的表達標簽,并對每一分離的特異擴增片段進行序列測定。當選擇足夠數目的蛋白模體簡并引物并兩兩組合擴增后,可以獲得覆蓋大部分基因群體的模塊表達序列標簽(見附圖)。利用模塊表達序列標簽技術所獲得的全部或部分互補脫氧核糖核酸片段采用微陣列(Microarray)或稱生物芯片(Biochip)或基因芯片(Genechip)形式制成模塊表達序列標簽基因芯片,同時富集所有模塊的引物序列、每條模塊表達序列標簽的脫氧核糖核酸序列、依模塊信息轉譯的蛋白序列及其可能的功能預報,建立一個可進行全方位檢索、查詢、電子拼接的數據庫。
實施例一水稻模塊表達序列標簽的制作方法與步驟1)收集水稻多種品系及多種發育階段樣本,提取信使核糖核酸;
2)逆轉錄合成互補脫氧核糖核酸第一鏈;3)通過比較生物種類已知的蛋白模體,選擇水稻偏愛的蛋白模體組成序列為藍本;4)針對水稻偏愛的氨基酸三聯核苷酸密碼子設計含保守的蛋白模體序列的聚合酶鏈式反應簡并引物;5)按蛋白模體序列信息分類聚合酶鏈式反應引物,并兩兩組合為一對聚合酸鏈式反應擴增引物對;6)以所述分離合成完成的互補脫氧核糖核酸樣本為模板,進行聚合酶鏈式反應擴增,并在反應體系中摻入放射性同位素進行標記;7)以脫氧核糖核酸測序膠分離技術對聚合酶鏈式反應擴增產物進行分離并放射自顯影。利用放射自顯影提供的聚合酶鏈式反應基因表達圖譜從脫氧核糖核酸測序膠中回收特異性擴增的模塊脫氧核糖核酸片段,并對每一回收的脫氧核糖核酸片段進行聚合酶鏈式反應重擴增和瓊脂糖凝膠電泳鑒定;8)對每一重擴增片段,以已知聚合酶鏈反應引物為測序引物進行脫氧核糖核酸序列分析。所獲序列經生物信息學處理后,建立模塊表達序列標簽庫;9)選擇不同的模體引物組合重復5)~8)過程;10)富集獲得的模塊氧核糖核酸片段構建模體表達序列標簽微陣列形式的水稻基因芯片;11)富集所有模塊的引物序列、每條模塊表達序列標簽的脫氧核糖核酸序列、依模塊信息轉譯的蛋白序列及其功能預報,以建立一個可進行全方位檢索、查詢、電子拼接的數據庫。
實施二耐藥細菌模塊表達序列標簽的制作方法與步驟1)大通量收集耐藥細菌樣本,小規模抽提質粒脫氧核糖核酸;2)合并不同來源的質粒脫氧核糖核酸并過柱純化;3)通過比較生物種類已知的蛋白模體,選擇細菌偏愛的蛋白模體組成序列為藍本;4)針對細菌偏愛的氨基酸三聯核苷酸密碼子設計含保守的蛋白模體序列的聚合酶鏈式反應簡并引物;5)按蛋白模體序列信息分類聚合酶鏈式反應引物,并兩兩組合為一對聚合酶鏈式反應擴增引物對;6)以所述分離合成完成的互補脫氧核糖核酸樣本為模板,進行聚合酶鏈式反應擴增,并在反應體系中摻入放射性同位素進行標記;
7)以脫氧核糖核酸測序膠分離技術對聚合酶鏈式反應擴增產物進行分離并放射自顯影。利用放射自顯影提供的聚合酶鏈式反應基因表達圖譜從脫氧核糖核酸測序膠中回收特異性擴增的模塊脫氧核糖核酸片段,并對每一回收的脫氧核糖核酸片段進行聚合酶鏈式反應重擴增和瓊脂糖凝膠電泳鑒定;8)對每一重擴增片段,以已知聚合酶鏈式反應引物為測序引物進行脫氧核糖核酸序列分析。所獲序列經生物信息學處理后,建立模塊表達序列標簽庫;9)選擇不同的模體引物組合重復5)~8)過程;10)富集獲得的模塊氧核糖核酸片段構建模體表達序列標簽微陣列形式的耐藥細菌質粒基因芯片;11)富集所有模塊的引物序列、每條模塊表達序列標簽的脫氧核糖核酸序列、依模塊信息轉譯的蛋白序列及其功能預報,以建立一個可進行全方位檢索、查詢、電子拼接的數據庫。
權利要求
1.一種模塊表達序列標簽的制作方法,其特征在于它的步驟為1)收集生物物種多種表型及多種發育階段樣本,提取核酸;2)分離完成的樣本為信使核糖核酸則逆轉錄合成互補脫氧核糖核酸第一鏈;分離完成的樣本是脫氧核糖核酸則直接用于模塊脫氧核糖核酸片段分離;3)通過比較生物種類已知的蛋白模體,選擇目標生物樣本偏愛的蛋白模體組成序列為藍本;4)針對目標生物樣本偏愛的氨基酸三聯核苷酸密碼子設計含保守的蛋白模體序列的聚合酶鏈式反應簡并引物;5)按蛋白模體序列信息分類聚合酶鏈式反應引物,并兩兩組合為一對聚合酶鏈式反應擴增引物對;6)以所述分離合成完成的互補脫氧核糖核酸樣本或脫氧核糖核酸樣本為模板,進行聚合酶鏈式反應擴增,并在反應體系中摻入放射性同位素進行標記;7)以脫氧核糖核酸測序膠分離技術對聚合酶鏈式反應擴增產物進行分離并放射自顯影。利用放射自顯影提供的聚合酶鏈式反應基因表達圖譜從脫氧核糖核酸測序膠中回收特異性擴增的模塊脫氧核糖核酸片段,并對每一回收的脫氧核糖核酸片段進行聚合酶鏈式反應重擴增和瓊脂糖凝膠電泳鑒定;8)對每一重擴增片段,以已知聚合酶鏈式反應引物為測序引物進行脫氧核糖核酸序列分析。所獲序列經生物信息學處理后,建立模塊表達序列標簽庫;9)選擇不同的模體引物組合重復5)~8)過程;10)富集獲得的模塊氧核糖核酸片段構建模體表達序列標簽微陣列形式的基因芯片;11)富集所有模塊的引物序列、每條模塊表達序列標簽的脫氧核糖核酸序列、依模塊信息轉譯的蛋白序列及其功能預報,以建立一個可進行全方位檢索、查詢、電子拼接的數據庫。
2.按權利要求1所述的一種模塊表達序列標簽的制作方法,其特征在于所說的簡并引物長度大于或等于15個堿基。
全文摘要
本發明公開了一種模塊表達序列標簽的制作方法。選擇蛋白模體氨基酸序列設計特異簡并引物,分離和定義生物樣本基因的模塊表達序列標簽。富集模塊表達序列標簽制成模塊表達序列標簽基因芯片,并構建進行全方位檢索、查詢、電子拼接的模塊表達序列標簽數據庫。本發明能夠為選擇克隆與生物學表型密切相關的基因提供豐富的功能信息,以期作為功能基因組學、疾病診斷和藥物篩選等生物技術領域研究的一種基本技術。
文檔編號C12Q1/68GK1314491SQ0010453
公開日2001年9月26日 申請日期2000年3月21日 優先權日2000年3月21日
發明者董海濤, 李德葆, 董繼新, 吳志宏, 婁沂春, 高其康, 何祖華 申請人:浙江大學