專利名稱:基于cpld堿基片段編碼和蟻群算法的rna序列二級結構預測方法
技術領域:
本發明屬生物信息學研究領域。
背景技術:
研究表明,RNA在基因調控中起到了非常重要的作用,而RNA的功能與結構是密切相關的,因此想要了解RNA序列的功能特性應先從其結構入手。目前已經獲得大量的RNA序列一級結構信息,但一級結構包含的有用信息比較少,因此越來越多的研究人員開始關注RNA序列的二級結構和三級結構,但用生物實驗的方法來確定RNA的三級結構花費高,難度大,而且此方法并不是對所有分子都有效。由于RNA序列的三級結構很難通過一級結構直接得到,而直接面向三級結構的理論預測,進展也不是很順利,因此預測二級結構是獲取三級結構的必經之路。因此將軟件模擬和預測得到的RNA 二級結構,與基于ARM體系的嵌 入式系統結合,形成基于嵌入式的RNA序列二級結構預測方法,從而可以得到一種低成本、高效率且結果具有一定可信度的方式,成為生物信息學的重要手段。
發明內容
本發明的目的在于提供一種能快速、準確、有效地預測RNA序列二級結構(不含假結)并將所得結果以括號法模式輸出的方法。該方法所需要的硬件設備包括處理器、內存、主板、本發明包括下列步驟I. RNA序列的預處理,具體包括下列步驟I)將 RNA 序列輸入 CPLD。2) CPLD通過編碼關聯表將RNA序列以編碼的形式存儲于SRAM中,編碼關聯表存在于系統中,并可實時調用,它將所獲取的RNA序列,轉換為易于系統分析的數字模式。2.進行RNA序列二級結構預測,具體包括下列步驟I)根據匹配表得到長度為η的莖區集合,匹配表存在于系統中,并可實時調用,它將已轉換的RNA序列信息,組合為長度為η的莖區集合。2)對所有長度為η的莖區采用向右延伸的策略,得到所有長度大于η的莖區集合;使用向右延伸的策略,能夠計算出所有長度大于η的莖區集合。3)將得出的相應于RNA序列的所有可能的莖區集合,存儲于SDRAM中等待調用;4)利用ARM控制芯片隨機選取某一莖區,作為蟻群算法的初始結點;5)利用輪盤賭策略選擇下一莖區,直到可選擇的莖區集合為空;6)計算每只螞蟻相應的二級結構的最小自由能,記錄并更新能量最小的二級結構;7)按照給定的規則更新莖區之間的信息素值,并再次選取初始結點進行循環運算;
8)達到給定的迭代步數或滿足循環退出的條件,將RNA序列的二級結構以括號法模式輸出到LCD,迭代步數可以預先在系統中設定。本發明能有效模擬和預測RNA序列不含假結的二級結構。本發明首先將錄入的堿基序列進行重新編碼,進而由編碼關聯表中的對應值得到相應的編碼序列,并根據完全匹配表和不完全匹配表,通過向右延伸功能剔除冗余莖區,得到所有可能的滿足條件的莖區集合,然后根據蟻群算法中二維啟發式信息、初始莖區和下一莖區的選取規則及信息素更新策略,構造所有可能的莖區集合的相容子集。本發明使用并行技術將RNA序列的二級結構以更快速準 確的預測出來,能夠得到自由能最小的相容的莖區集合,本發明還能對國際公共數據庫中隨機選取的序列進行測試與分析,并可將所得結果以括號法模式輸出,使結構表達更為直觀準確,實驗結果表明本發明在敏感性和特異性方面均優于目前主流預測技術。
圖I為基于CPLD堿基片段編碼和蟻群算法的RNA序列二級結構預測方法流程2為基于CPLD堿基片段編碼和蟻群算法的RNA序列二級結構預測系統結構示意圖
具體實施例方式本發明是一種基于CPLD堿基片段編碼和蟻群算法的RNA序列二級結構預測方法,如圖I所示,將所得RNA序列輸入CPLD,通過編碼關聯表把RNA序列進行編碼,使RNA序列以編碼序列的形式存儲于SRAM中,并根據匹配表得到長度為η的莖區集合,對所有長度為η的莖區采用向右延伸的策略得到所有長度大于η的莖區集合,將得出的相應于RNA序列的所有可能的莖區集合存儲于SDRAM中等待調用,然后通過ARM控制芯片隨機選取某一莖區作為蟻群算法的初始結點,并利用輪盤賭的策略選擇下一莖區,直至可選擇的莖區集合為空,最后計算每只螞蟻相應的二級結構的最小自由能,記錄并更新能量最小的二級結構,按照給定的規則更新莖區之間的信息素值,并再次選取初始結點進行循環運算,直至達到給定的迭代步數或滿足循環退出的條件,以括號法的模式輸出RNA序列二級結構到LCD中。
權利要求
1.一種基于CPLD堿基片段編碼和蟻群算法的RNA序列二級結構預測方法,其特征在于包括下列步驟 1)進行RNA序列預處理; 2)進行RNA序列二級結構預測。
2.按權利要求I所述的基于堿基片段編碼和蟻群算法的RNA序列二級結構預測方法,其特征在于步驟I)所述的RNA序列預處理包括下列步驟 1)將RNA序列輸入CPLD; 2)通過編碼關聯表將RNA序列以編碼的形式存儲于SRAM中。
3.按權利要求I所述的基于堿基片段編碼和蟻群算法的RNA序列二級結構預測方法,其特征在于步驟2)所述的RNA序列二級結構預測包括下列步驟 1)根據匹配表得到長度為η的莖區集合; 2)對所有長度為η的莖區采用向右延伸的策略,得到所有長度大于η的莖區集合; 3)將得出的相應于RNA序列的所有可能的莖區集合,存儲于SDRAM中等待調用; 4)利用ARM控制芯片隨機選取某一莖區,作為蟻群算法的初始結點; 5)利用輪盤賭的策略選擇下一莖區,直到可選擇的莖區集合為空; 6)計算每只螞蟻相應的二級結構的最小自由能,記錄并更新能量最小的二級結構; 7)按照給定的規則更新莖區之間的信息素值,并再次選取初始結點進行循環運算; 8)達到給定的迭代步數或滿足循環退出的條件,以括號法模式輸出RNA序列的二級結構到LCD。
4.按權利要求2所述的基于堿基片段編碼和蟻群算法的RNA序列二級結構預測方法,其特征在于步驟2)所述的編碼關聯表存在于系統中,并可實時調用,它將所獲取的RNA序列,轉換為易于系統分析的數字模式。
5.按權利要求3所述的基于堿基片段編碼和蟻群算法的RNA序列二級結構預測方法,其特征在于步驟I)所述的匹配表存在于系統中,并可實時調用,它將已轉換的RNA序列信息,組合為長度為η的莖區集合。
6.按權利要求3所述的基于堿基片段編碼和蟻群算法的RNA序列二級結構預測方法,其特征在于步驟2)所述的向右延伸的策略,能夠計算出所有長度大于η的莖區集合。
7.按權利要求3所述的基于堿基片段編碼和蟻群算法的RNA序列二級結構預測方法,其特征在于步驟8)所述的迭代步數能預先在系統中設置。
全文摘要
基于CPLD堿基片段編碼和蟻群算法的RNA序列二級結構預測方法屬生物信息學研究領域,本發明使用CPLD按照關聯表將RNA序列重新編碼。根據編碼表和編碼關聯表中的對應值得到相應的編碼序列,由完全匹配表和不完全匹配表,并通過“向右延伸”的策略剔除冗余莖區,得到所有可能的莖區集合,然后給出蟻群算法中二維的啟發式信息、初始莖區和下一莖區的選取規則,以及信息素更新策略,構造所有可能的莖區集合的相容子集,最終得到自由能最小的二級結構;本發明能快速、準確、有效地預測不包含假結的RNA序列的二級結構,并將所得結果以括號法模式輸出,在評判RNA序列二級結構預測優劣的兩個參數方面,即敏感性和特異性,均優于目前主流預測技術。
文檔編號G06F19/18GK102880811SQ201210407490
公開日2013年1月16日 申請日期2012年10月24日 優先權日2012年10月24日
發明者劉元寧, 余軍, 張 浩, 段云娜, 張曉旭, 胡名剛 申請人:吉林大學