專利名稱:一種基于基因序列表達分析的LncRNA發掘方法
技術領域:
本發明屬于生物技術領域,涉及長非編碼核糖核酸(Longnoncoding RNA)鑒定方面。
背景技術:
本發明是一種適用LncRNA鑒定的新方法。適用于LncRNA的生物醫學研究或基礎生物學研究。現在,越來越多的人開始把焦點放在MicroRNA(微小核糖核酸)上,因為它們具有降解目標信使RNA和抑制翻譯的功能,從而調節基因表達。然而,新近的研究發現,還有一 類序列比較長的非編碼RNA(long noncoding RNA)也具有調節基因表達的功能。例如小鼠中的macroRNA Xist和Air,其大小分別為18和108kb。Xist通過與染色體作用引起失活的X染色體上的大部分基因沉默,而Air與父本的Igf2r/Slc22a2/Slc22a3基因簇的沉默有關。另外,long ncRNA還可能與基因印記和反義轉錄有關。高密度的芯片tiling array和大規模的全長cDNA文庫分析顯示,在哺乳動物體內存在多達數千的ncRNA,通過FANTOM對102,801cDNAs的全長測序和分析顯示,大約有三分之一(34,030)的序列缺少潛在的蛋白編碼區域。而其中的大部分序列的功能仍然不清楚,當然其中可能有假的ncRNA序列,如3’ UTR或5’ UTR片斷及內含子片斷。2006 2007年,有好幾篇文章通過生物信息學的方法預測了小鼠Long ncRNA的序列和潛在數量。由于文章采用的對ncRNA的限制條件不盡相同,得到的long ncRNA的數量也存在差異=PNAS上的文章為1328個,其中849個在腦中有明顯的信號genome Res.上的文章則在小鼠中預測出3122個長的全長ncRNAs (“macroRNAs”)。PLoSGenetics在2006年有一篇文章除了預測小鼠macro ncRNA之外,還用RT-PCR、Northern等方法進行了驗證。在人的基因組中,只有2 喊基用于編碼蛋白,而有72%的喊基是可以轉錄的,因此ncRNA的存在有很大的空間。然而,這些不編碼蛋白的RNA(ncRNA)有什么作用呢?近些年,研究者們主要將目光聚集在短的ncRNA (microRNA)上,已經發現了數百個microRNA,其主要功能是調節基因的表達。但是,我們也不能忽視更長一些的也具有重要功能的LncRNA。全基因組學和大量的轉錄序列分析使我們能夠通過生物信息學方法更快跟準的發現大量的LncRNA。其生物學作用沒有完全明晰,已知作用則包括基因沉默、基因印記和反義抑制。本發明根據基因序列表達和基因預測算法,找到了一種可以直接預測并定量長非編碼RNA的生物信息學方法,可直接針對長非編碼RNA進行鎖定,以便于進一步的實驗驗證。在創新性方面,我們的方法解決了常規方法長非編碼RNA無法確定表達量的問題。通過篩選高表達的長非編碼RNA,大大縮小了實驗驗證的范圍,節省時間與精力。
發明內容
本發明根據基因序列表達和基因預測算法,找到了一種可以直接預測并定量長非編碼RNA的生物信息學方法,可直接針對長非編碼RNA進行鎖定,以便于進一步的實驗驗證。其基本流程如下步驟一收集人的所有全長mRNA序列數據步驟二 去除包含編碼蛋白的外顯子的mRNA序列。步驟三整理大于200bp的長非編碼RNA,形成可檢索數據庫。步驟四搜索已有基因表達序列分析數據,從中鑒定高表達的長非編碼RNA。步驟五、實驗驗證
圖I 一種基于基因序列表達分析的LncRNA發掘方法流程
具體實施例方式本發明將以一癌癥疾病為實例,介紹本發明的具體實施步驟步驟一收集人的所有全長mRNA序列數據。數據來源于NCBI的數據庫(http://www. ncbi. nlm. nih. gov/nuccore)。步驟二 去除包含編碼蛋白的外顯子的mRNA序列。步驟三整理大于200bp的長非編碼RNA,形成可檢索數據庫。步驟四搜索已有基因表達序列分析數據,從中鑒定高表達的長非編碼RNA。我們利用計算機程序,從長非編碼RNA的序列數據庫中生成含有虛擬酶切結果,如果一個酶切沒有返回結果,則自動在序列前面加上酶切位點,保證結果的全面性。程序記錄了整個分析過程中的重要參數,如酶切的結果標簽序列,長非編碼RNA的注釋等。通過與實際標簽序列序列比對,最后是包含的標簽數量,也就是長非編碼RNA的表達豐度值。我們利用計算機程序,從長非編碼RNA的序列數據庫中生成含有虛擬酶切結果,如果一個酶切沒有返回結果,則自動在序列前面加上酶切位點,保證結果的全面性。程序記錄了整個分析過程中的重要參數,如酶切的結果標簽序列,長非編碼RNA的注釋等。通過與實際標簽序列序列比對,最后是包含的標簽數量,也就是長非編碼RNA的表達豐度值。以上是對本發明的描述而非限定,基于本發明思想的其它實施方式,均在本發明的保護范圍之中。
權利要求
1.本發明所述的ー種基于基因序列表達分析的長非編碼RNA發掘方法,本發明根據基因序列表達和基因預測算法,找到了一種可以直接預測并定量長非編碼RNA的生物信息學方法,可直接針對長非編碼RNA進行鎖定,以便于進ー步的實驗驗證,包含如下幾個步驟步驟I :收集人的所有全長cDNA序列數據; 步驟2 :去除包含編碼蛋白的外含子的cDNA序列; 步驟3 :整理大于200bp的長非編碼RNA,形成可檢索數據庫; 步驟4 :搜索已有基因表達序列分析數據,從中鑒定高表達的長非編碼RNA。
步驟5 :實驗驗證。
全文摘要
本發明根據基因序列表達和基因預測算法,找到了一種可以直接預測并定量長非編碼RNA的生物信息學方法,可直接針對長非編碼RNA進行鎖定,以便于進一步的實驗驗證。本發明主要包括如下流程步驟1、收集人的所有全長mRNA序列數據;步驟2、去除包含編碼蛋白的外含子的mRNA序列;步驟3、整理大于200bp的長非編碼RNA,形成可檢索數據庫。步驟4、搜索已有基因表達序列分析數據,從中鑒定高表達的長非編碼RNA。步驟5、實驗驗證。最終,我們預測了在特定細胞組織中高表達的長非編碼RNA。
文檔編號G06F19/20GK102693369SQ20111007194
公開日2012年9月26日 申請日期2011年3月24日 優先權日2011年3月24日
發明者曾華宗 申請人:上海聚類生物科技有限公司