一種融合粒子群和遺傳算法的基因調控網絡構建方法
【專利摘要】一種融合粒子群和遺傳算法的基因調控網絡構建方法,包括構建樣本集;數據預處理以及參數設置;利用粒子群算法對特征進行選擇,設置每個粒子的個體極值和全局極值;計算特征子集的適應度并排序;對排序在預設概率之前的粒子使用粒子群算法進行位置和速度更新;對排序在預設概率之后的粒子利用遺傳算法的交叉和變異操作進行更新;對粒子的個體極值和全局極值進行更新;判斷是否滿足迭代要求,不滿足則轉向S4,否則輸出全局最優粒子;根據全局最優粒子所選擇的特征對支持向量機進行訓練構建基因調控網絡模型;使用構建的基因調控網絡模型對驗證集進行實驗,得到預測的基因調控網絡。本發明可與現有的優化方法配合使用,具有更廣闊的應用前景。
【專利說明】
-種融合粒子群和遺傳算法的基因調控網絡構建方法
技術領域
[0001] 本發明設及生物信息學和數據挖掘領域。尤其是針對于序列數據的一種融合粒子 群和遺傳算法的基因調控網絡構建方法。
【背景技術】
[0002] MicroRNAs(miRNAs)是一類非常重要的非編碼RNA分子,通過觸發祀基因降解,從 而廣泛地參與到基因的轉錄后調控,或者通過抑制基因的轉錄,對基因在轉錄水平上進行 調控。miRNA通過與祀mRNA匹配結合實現對生物學功能的調控,因此,研究miRNA與其祀基因 的調控關系成為生物界廣泛關注的問題。傳統的實驗驗證方法耗費巨大,利用現有的序列 數據、基因表達數據或其它生物信息學數據,通過統計學模型或機器學習的方法構建基因 調控網絡來發現基因之間的關系,能夠有效的減少實驗花費,對生物學研究者有一定的指 導作用。
[0003] 識別miRNA與其祀基因之間的關系的方法主要有兩類:基于序列的miRNA祀基因識 別和基于機器學習的miRNA祀基因識別。
[0004] 從機器學習的角度來看,基因調控網絡構建可W分為非監督學習和監督學習。非 監督學習不需要已知的調控關系,只是利用一些生物數據來進行調控網絡的構建。監督學 習則需要已知的調控關系,可W看出監督學習需要的數據信息多于非監督學習,具有更強 的發現能力。有研究表明,在網絡推斷方面,監督學習優于非監督學習。
[0005] 監督學習需要利用已有的調控關系數據,通過學習調控關系的判別模型,對未知 的調控關系進行判別,需要處理特征生成和分類器選擇問題。miRNA與其祀基因的交互的特 征包括自由能特征,結構序列特征和基于綁定位置特征,收集運些特征并進行計算,然后使 用分類器進行模型的構建。由于支持向量機(Suppod Vector Machine,SVM)在解決小樣 本、非線性W及高維問題中表現出的優勢,使得它在基因網絡構建方面獨具一格,已成為近 期的研究熱點。
【發明內容】
[0006] 本發明的目的是提供一種能夠有效預測miRNA與其祀基因之間的調控關系的融合 粒子群和遺傳算法的基因調控網絡構建方法。
[0007] 本發明解決現有技術問題所采用的技術方案:一種融合粒子群和遺傳算法的基因 調控網絡構建方法,包括W下步驟:
[000引Sl、構建樣本集:所述樣本集包括正樣本和負樣本,所述正樣本捜集來自文獻中的 具有調控關系的miRNA: mRNA交互信息對;負樣本通過人工生成的假陽性miRNA: mRNA交互信 息對組成,使用祀基因預測工具用來生成假陽性miRNA的祀基因作為訓練集的負樣本;使用 祀基因預測工具對miRNA進行預測,得到的所有miRNA:mRNA交互信息對作為驗證集;提取正 樣本和負樣本的腺隹特征,所述特征包括位點結合特征、結構特征和熱力學特征;
[0009] S2、數據預處理及參數設置:利用SMOTE方法使正樣本與負樣本的比例平衡;對所 提取的特征進行離散化和標準化處理;
[0010] S3、利用粒子群算法對粒子的特征進行選擇,設置粒子群中每個粒子的個體極值 和全局極值:將每一個粒子表示為N維向量,每一維對應一個特征,每一維的值為1或0;1表 示對應的特征被選擇了,0表示對應的特征沒有被選擇;每個粒子所選中的特征構成每個粒 子的特征子集;個體極值為粒子在整個迭代過程中的最優位置,初始化為粒子的初始化 值;全局極值為所有粒子的最優位置,初始化為整個粒子群的最優值;
[0011] S4、計算每個粒子的特征子集的適應度,根據適應度進行排序:包括下面幾個步 驟:
[0012] Al:計算每個粒子的特征子集的等價類:
[0013] T= (U,CUD,V,f)表示一個決策表,其中U是一個非空且有限的樣本集合,稱為論 域;C是條件屬性集合,D是決策屬性集合;如果Q = CUD,任意屬性qEQ是一個全映射fq:U^ Vq,其中Vq表示屬性q所有取值,稱為q的值域,且V= U qeQVq,f = U qeQf q ;每一個屬性子集 SgC,它的不可分辨關系表示為:
[0014]
[001引令XEU,帥所有與X滿足不可分辨關系IND(B)的對象構成X的一個基于屬性集B的 等價類[x]B={y IyGU, (x,y) G IND(B)K
[0016] A2:任意對象子集A臺(/,屬性子集公過二X的上近似集為:
[0017]
[001引 A3:任意條件屬性子集及eC,U/D是由等價關系IND(D)誘導出的所有相異的等價 類的集合:相對干決策屬忡隹D的B正域定義為:
[0019]
[0020] A4: B是一個條件屬性集合,D是決策屬性,D對于B的依賴度定義為:
[0021]
[0022] 通常0《k《l。當k=l,時,稱D完全依賴于B;0<k<l時,D部分依賴于B;當k = 0時,D 完全獨立于B;
[0023] A5:計算每個粒子的適應度,適應度公式如下:
[0024]
[0025] 其中丫 B(D)是條件屬性集B相對于決策屬性集D的依賴度,Icl是總的特征數,Ib 是選擇的特征數。在運里,a的取值為0.9,0的取值為0.1;
[0026] A6:根據適應度的大小對粒子進行排序;
[0027] S5、對排序在預設概率之前的粒子繼續使用粒子群算法進行位置和速度更新:
[002引Al:速度更新公式如下:
[0029] Vid=WX vid+ci XrandQ X (pid-Xid)+C2 XrandO X (Pgd-Xid),
[0030] Al:位置更新公式如下:
[0031] Xid = Xid+Vid,
[0032] 其中第i個粒子表示為Xi= (Xii,Xi2, . . .,xid),它的飛行速度為Vi= (Vii,Vi2,..., Vid ),在每次迭代中,粒子根據兩個極值來對自己進行更新;第一個極值就是粒子本身找到 的最優解Pbest,第i個粒子本身的最優解可W表示為Pi= (Pil,Pi2, ...,pid).第二個極值是整 個種群目前找到的最優解,運個極值是全局極值gbset;
[0033] S6、對排序在預設概率之后的粒子利用遺傳算法的交叉和變異操作進行更新:
[0034] S7、對粒子的個體極值和全局極值進行更新:
[0035] S8、判斷是否滿足迭代要求,不滿足的話轉向S4,否則的話,輸出全局最優粒子:
[0036] S9、根據全局最優粒子所選擇的特征進行對支持向量機進行訓練構建基因調控網 絡模型:
[0037] S10、使用構建的基因調控網絡模型對驗證集進行實驗,得到預測的基因調控網 絡。
[0038] SMOTE算法是通過合成的方法產生新的少數樣本;所述合成的方法是對每一個少 數類樣本a,計算a與少數類樣本之間的歐式距離,選取k個最短的距離作為其最近鄰;然后 從它的最近鄰中隨機選擇樣本b,然后在a和b之間的連線上隨機選一點作為新合成的少數 類樣本M,公式如下所示,其中U是一個介于0和1之間的隨機數;最后將屬性值進行離散化到 [0,1]之間;
[0039] M = a+u ? (b-a)
[0040] 對粒子群算法的種群規模設置為特征個數N,迭代次數為100。
[0041 ] k為5。
[0042] 本發明的有益效果在于:
[0043] 1、發明能夠與現有的優化方法配合使用,具有更廣闊的運用前景;
[0044] 2、采用依賴度和特征個數為關聯準則利用粒子群算法和遺傳算法對特征進行選 擇,依賴度是基于粗糖集進行計算的,從而可W獲得個數較少,分類性能較好的特征;
[0045] 3、利用支持向量機對降維后的樣本進行訓練,本發明的方法能夠比較準確的預測 miRNA與其祀基因之間的調控關系。
【附圖說明】
[0046] 圖1為本方明的總體流程圖。
[0047] 圖2是本發明所預測的部分調控網絡示意圖。
【具體實施方式】
[0048] W下結合附圖及【具體實施方式】對本發明進行說明:
[0049] 如圖1所示,本發明的總體設計思路為:首先捜集來自文獻中的被實驗證實的具有 調控關系的miRNA:mRNA交互信息對作為正樣本,負樣本是通過人工生成的方式進行創建, 提取運些樣本的特征,構建訓練集合,驗證集由祀基因預測工具進行生成,帶有精確的祀位 點;由于樣本存在不平衡問題,會造成假陽性過高,因此需要對樣本進行平衡化處理,在特 征選擇時需要用到粗糖集,需要對特征進行標準歸一化處理;利用粒子群算法隨機選擇一 些特征子集。其中,特征是判斷miRNA與其祀基因是否有關系的一些依據,而將每個粒子所 選擇的特征提取出來作為特征子集即為位點結合特征,結構特征比如A:U,C:G,G:UW及錯 誤匹配的個數,例如20個位點結合特征,24個結構特征和4個熱力學特征;20個位點結合特 征是miRNA前20位與祀基因的4:11,。6,6:1]和錯配,其中4:1],。6屬于完全匹配,賦值分別為 1和2,G: U屬于不完全匹配賦值為3,錯配為4; 24個結構特征是將整個miRNA序列分為種子區 域2-8位,中屯、區域9-11位,其它區域W及整個區域四部分,每個分別計算CG配對,AU配對, CG+AU匹配,GU不完全匹配,錯配,GU+錯配6種,所W有4*6 = 24個特征,另外4個能量相關的 特征使用Vienna RNA包中的RNAup和RNAfold計算獲得選擇的特征子集就是運48維特征中 的一部分。
[0050] 使用適應度函數評價運些特征子集的優劣,對于含有較優的特征子集的粒子繼續 使用粒子群算法進行速度和位置更新,對于不太優的粒子使用遺傳算法的交叉變異算子形 成新的粒子;最后得到最優的特征集合,對運個特征子集使用支持向量機進行構建模型,在 驗證集上進行實驗,最后得到預測的基因調控網絡關系;具體步驟如下;
[0051] 如圖1所示,一種融合粒子群和遺傳算法的基因調控網絡構建方法,包括W下步 驟:
[0052] Sl、構建樣本集:樣本集包括正樣本和負樣本,正樣本捜集來自文獻中的具有調控 關系的miRNA:mRNA交互信息對;負樣本通過人工生成的假陽性miRNA:mRNA交互信息對組 成,使用祀基因預測工具用來生成假陽性miRNA的祀基因作為訓練集的負樣本;在運里,使 用人工生成的方法生成假的miRNA,通過統計擬南芥的miRNA中堿基A、U、C、G的比例,按照比 例生成300個miRNA,使用祀基因預測工具psRNA化巧et用來生成運些miRNA的祀基因作為訓 練集的負樣本;最后,生成1311條負樣本。因為實驗中需要精確的祀位點,因此使用祀基因 預測工具對miRNA進行預測,得到的所有miRNA :mRNA交互信息對作為驗證集;提取正樣本和 負樣本的N維特征,所述特征包括位點結合特征、結構特征和熱力學特征。本發明依次提取 了 48維特征,本發明提取的特征可分為=類:位點結合特征、結構特征和熱力學特征;
[0053] S2、數據預處理及參數設置:實驗中,正負樣本的比例存在不平衡,負樣本的比例 大于正樣本的比例,因此結果會出現較高的假陰性;利用經典的SMOTE方法對樣本的不平衡 進行處理;SMOTE算法是一種過采樣算法,基本思想是通過合成的方法產生新的少數樣本。 合成的方法是對每一個少數類樣本a,計算a與少數類樣本之間的歐式距離,選取k個最短的 距離作為其最近鄰,其中,k值為5;然后從它的最近鄰中隨機選擇樣本b,然后在a和b之間的 連線上隨機選一點作為新合成的少數類樣本M,公式如下所示,其中U是一個介于0和1之間 的隨機數。而不是簡單的進行復制;最后將屬性值進行離散標準化到[0,1]之間;
[0054] M = a+u ? (b-a)
[0055] 對粒子群算法的種群規模設置為特征個數48,迭代次數為100,遺傳算法的概率 〇.2(就是對粒子群算法中排序往后的80%粒子進行遺傳算法的交叉和變異操作,運個是通 過對擬南芥進行實驗,將遺傳概率從0.1到0.9 W步長0.1進行增長,結果最好的是0.2),交 叉速率為0.7,變異速率為0.1;
[0056] S3、利用粒子群算法對特征進行選擇,設置每個粒子的個體極值和全局極值:每 一個粒子是一個48維的向量,每一維對應一個特征,每一維的值為1或者0,; 1代表對應的特 征被選擇了,0代表對應的特征沒有被選擇;個體極值代表的是運個粒子在整個迭代過程中 的最優位置,初始化為運個粒子的初始化值;全局極值是所有粒子的最優位置,初始化為整 個粒子群的最優值;
[0057] S4、計算每個粒子選擇的適應度值,根據運個適應度值對粒子進行排序;包括下面 幾個步驟:
[005引Al:計算特征子集的等價類:
[0059] T= (U,CUD,V,f)表示一個決策表,其中U是一個非空且有限的樣本集合,稱為論 域;C是條件屬性集合,D是決策屬性集合;如果Q = CUD,任意屬性qEQ是一個全映射fq:U^ Vq,其中Vq表示屬性q所有取值,稱為q的值域,且V= U qeQVq,f = U qeQf q ;每一個屬性子集 及cC,它的不可分辨關系表示為:
[0060]
[0061] 令XGU,U中所有與X滿足不可分辨關系IND(B)的對象構成X的一個基于屬性集B的 等價類[x]B={y|yGU,(x,y)ElND(B)};
[0062] A2:任意對象子集義巨隊屬性子集盈臣C,X的上近似集定義為:
[0063]
[0064] A3:任意條件屬性子集及£巴,11/0是由等價關系IND(D)誘導出的所有相異的等價 類的集合;相對于決策屬性集D的B正域定義為:
[00 化]
[0066] A4: B是一個條件屬性集合,D是決策屬性,D對于B的依賴度定義為:
[0067]
[0068] 通常0《k《l;當k=l,時,稱D完全依賴于B;0<k<l時,D部分依賴于B;當k = 0時,D 完全獨立于B;
[0069] A5:計算每個粒子的適應度,適應度公式如下:
[0070]
[0071] 其中丫 B(D)是條件屬性集B相對于決策屬性集D的依賴度,Icl是總的特征數,Ib 是選擇的特征數;在運里,a的取值為0.9,0的取值為0.1;
[0072] A6:根據適應度的大小對粒子進行排序;
[0073] S5、對排序往前的那些粒子(在擬南芥數據集上是20%)繼續使用粒子群算法進行 位置和速度更新;
[0074] Al:速度更新公式如下:
[0075] Vid=WX vid+ci XrandQ X (pid-Xid)+C2 XrandQ X (Pgd-Xid),
[0076] Al:位置更新公式如下:
[0077] Xid = Xid+Vid,
[007引其中第i個粒子表示為Xi=Uil, Xi2, ...,Xid),它的飛行速度為Vi= (Vil,Vi2, ..., Vid),在每次迭代中,粒子會根據兩個極值來對自己進行更新;第一個極值就是粒子本身找 到的最優解Pbest,第i個粒子本身的最優解可W表示為Pi= (Pil,Pi2, ...,pid).第二個極值是 整個種群目前找到的最優解,運個極值是全局極值gbset;
[0079] S6、對排序往后的那些粒子(后80%的粒子)利用遺傳算法的交叉和變異操作進行 更新:
[0080] 隨機產生一個(0,1)之間的隨機數a,當a小于交叉概率時,進行交叉操作;比如運 個粒子的長度是18,生成一個1到18之間的隨機樹作為交叉點,下面粒子的交叉點為8,將父 個體1的8后面的幾位與父個體2進行交換:
[0081] Al:交叉操作:
[0082] 父個體 1 011111110000000000
[0083] 父個體2 000000001111111111
[0084] 如粗體前邊位置為所選擇的交叉點,那么生成的子個體為:
[0085] 子個體 1 011111111111111111 [00化]子個體2 000000000000000000
[0087] Al:變異操作:
[0088] 比如一個粒子用W下碼串表示,碼長是8:
[0089] 10100110
[0090] 隨機產生一個巧化之間的隨機數k,假設k = 5,將第5位的1變成0或將0變成1,得到 碼串:10101110
[0091 ] S7、對粒子的全局極值和個體極值進行更新;
[0092] S8、判斷是否滿足迭代要求,不滿足的話轉向S4,否則的話,輸出全局最優粒子;
[0093] S9、根據全局最優粒子所選擇的特征進行對支持向量機進行訓練構建基因調控網 絡模型;
[0094] S10、使用構建的分類模型對驗證集進行實驗,得到預測的基因調控網絡。
[0095] 將本發明所述方法應用于表1中擬南芥數據集和表2中水稻數據集,本發明的準確 率,F值和ROC面積明顯高于現有方法。構建的調控網絡如圖2所示。
[0096] 表1擬南芥數據集的實驗效果對比表
[0097]
[009引
[0099]
[0100] 實施例
[0101] 為使本發明的目的、技術方案和有益效果更加清晰和更易于實驗,W下結合具體 實施例,并參照附圖,對本發明做進一步詳細說明。
[0102] 為了更好的說明本方法的過程,使用了 W下運份簡單的數據來輔助。
[0103] 表3文獻中捜集的正樣本集合
[0104]
[0105] 運是從文獻中捜集的正樣本的幾個,格式如上面所示,第一列是代表miRNA名稱, 第二列代表的是HiiRNA的祀基因 mRNA名稱,第S列是miRNA作用于mRNA的祀位點,第四列是 miRNA的序列,第五列是祀基因序列,第六列是祀基因序列兩翼序列,第屯列是類標簽,類標 簽為1說明miRNA與對應的mRNA之間有調控作用,0表示沒有調控作用;運個表是文獻中捜集 的具有調控關系的m i RNA: mRNA對,因此運個表中的類標簽都為1;
[0106] 表4數據庫中5個miRNA序列 Tnmvl L0108J 巧日數據巧甲mKM的斤夕y
[0110]
[0111] 表4提取的是miRNA數據庫中5個miRNA的序列,表5摘取了3個mRNA的序列,有了運 些信息,就可W開始下面的實驗了:
[0112] 步驟1、生成樣本集:從文獻中捜集實驗驗證的帶有精確祀位點的(即具有調控關 系的)miRNA: mRNA交互信息對,如表3所示;人工生成的miRNA是根據數據庫中的miRNA中A、 U、C、G所占的比例,例如表4中運些mi RNA的堿基比例,統計出運些序列中A共34個,C共18個, G共27個,U共26個,總共105個,那么A占總個數的大約32%,C占17%,G占26%,U占25%,因 此人工的miRNA序列就按照運種比例進行生成;因為運個實驗中需要miRNA:mRNA結合的祀 位點,所W使用一個祀基因預測工具psRNA化巧et預測運些生成的miRNA祀基因及對應的祀 位點信息,表示成表3運樣的形式,最后的類標簽都改為-1;因為實驗中需要精確的祀位點, 因此使用祀基因預測工具對mi RNA進行預測,得到的所有miRNA: mRNA交互信息對作為驗證 集;提取的特征分別為20個位點結合特征,24個結構特征和4個熱力學特征;20個位點結合 特征是miRNA前20位與祀基因的A:U,C:G,G:U和錯配,其中A:U,C:G屬于完全匹配,賦值分別 為1和2,G:U屬于不完全匹配賦值為3,錯配為4;24個結構特征是將整個miRNA序列分為種子 區域2-8位,中屯、區域9-11位,其它區域W及整個區域四部分,每個分別計算CG配對,AU配 對,CG+AU匹配,GU不完全匹配,錯配,GU+錯配6種,所W有4*6 = 24個特征,另外4個能量相 關的特征使用Vienna RNA包中的RNAup和RNAfold計算獲得;
[0113] 步驟2、數據預處理及參數設置:實驗中,正負樣本的比例存在不平衡,負樣本的比 例大于正樣本的比例,因此結果會出現較高的假陰性。利用經典的SMOTE方法對樣本的不平 衡進行處理。SMOTE算法是一種過采樣算法,基本思想是通過合成的方法產生新的少數樣 本。合成的方法是對每一個少數類樣本a,計算a與少數類樣本之間的歐式距離,選取k個最 短的距離作為其最近鄰,文中的k值為5。然后從它的最近鄰中隨機選擇樣本b,然后在a和b 之間的連線上隨機選一點作為新合成的少數類樣本M,公式如下所示,其中U是一個介于0和 1之間的隨機數,而不是簡單的進行復制。最后將屬性值進行離散化到[0,1]之間;
[0114] M = a+u ? (b-a)
[0115] 對粒子群算法的種群規模設置為特征個數48,迭代次數為100,遺傳算法的概率 〇.2(就是對粒子群算法中排序往后的80%粒子進行遺傳算法的交叉和變異操作,運個是通 過對擬南芥進行實驗,將遺傳概率從0.1到0.9 W步長0.1進行增長,結果最好的是0.2),交 叉速率為0.7,變異速率為0.1。
[0116] 步驟3、利用粒子群算法對特征進行選擇,設置每個粒子的個體極值和全局極值: 每一個粒子是一個48維的向量,每一維對應一個特征,每一維的值要么是1,要么是0。1表示 對應的特征被選擇了,0表示對應的特征沒有被選擇;個體極值代表的是運個粒子在整個迭 代過程中的最優位置,初始化為運個粒子的初始化值。全局極值是所有粒子的最優位置,初 始化為整個粒子群的最優值。
[0117] 步驟4、計算每個粒子選擇的適應度值,根據運個適應度值對粒子進行排序;包括 下面幾個步驟:
[0118] Al:計算特征子集的等價類:
[0119] T= (U,CUD,V,f)表示一個決策表,其中U是一個非空且有限的樣本集合,稱為論 域;C是條件屬性集合,D是決策屬性集合;如果Q = CUD,任意屬性qEQ是一個全映射fq:U^ Vq,其中Vq表示屬性q所有取值,稱為q的值域,且V= U qeQVq,f = U qeQf q ;每一個屬性子集 公cC,它的不可分辨關系表示為:
[0120]
[0121] 令XGU,U中所有與X滿足不可分辨關系IND(B)的對象構成X的一個基于屬性集B的 等價類[x]B={y IyGU, (x,y) G IND(B)K
[0122] A2:任意對象子集乂空1/,屬性子集度£仁,乂的上近似集定義為:
[0123]
[0124] A3:任意條件屬性子集盈cC,U/D是由等價關系IND(D)誘導出的所有相異的等價 類的集合;相對于決策屬性集D的B正域定義為:
[0125]
[0126] A4:B是一個條件屬性集合,D是決策屬性,D對于B的依賴度定義為:
[0127]
[012引通常0《k《l。當k=l,時,稱D完全依賴于B;0<k<l時,D部分依賴于B;當k = 0時,D 完全獨立于B;
[0129] A5:計算每個粒子的適應度,適應度公式如下:
[0130]
[0131] 共T y BW巧巧化牌化采M日刈T決策屬性集D的依賴度,I C I是總的特征數,I B 是選擇的特征數。在運里,a的取值為0.9,0的取值為0.1;
[0132] A6:根據適應度的大小對粒子進行排序;
[0133] 步驟5、對排序往前的那些粒子(在擬南芥數據集上是20%)繼續使用粒子群算法 進行位置和速度更新;
[0134] Al:速度更新公式如下:
[0135] Vid=WX vid+ci XrandQ X (pid-Xid)+C2 XrandQ X (Pgd-Xid),
[0136] Al:位置更新公式如下:
[0137] Xid = Xid+Vid,
[013引其中第i個粒子表示為Xi=Uil, Xi2, ...,Xid),它的飛行速度為Vi= (Vil,Vi2, ..., Vid),在每次迭代中,粒子會根據兩個極值來對自己進行更新;第一個極值就是粒子本身找 到的最優解Pbest,第i個粒子本身的最優解可W表示為Pi=(Pil,Pi2, . . .,Pid).第二個極值是 整個種群目前找到的最優解,運個極值是全局極值gbset。
[0139] 步驟6、對排序往后的那些粒子(后80%的粒子)利用遺傳算法的交叉和變異操作 進行更新:
[0140] 隨機產生一個(0,1)之間的隨機數a,當a小于交叉概率時,進行交叉操作;比如運 個粒子的長度是18,生成一個1到18之間的隨機樹作為交叉點,下面粒子的交叉點為8,將父 個體1的8后面的幾位與父個體2進行交換:
[0141] Al:交叉操作:
[0142] 父個體 1 011111110000000000
[0143] 父個體2 000000001111111111
[0144] 如粗體前邊位置為所選擇的交叉點,那么生成的子個體為:
[0145] 子個體 1 011111111111111111
[0146] 子個體2 000000000000000000
[0147] Al:變異操作:
[0148] 比如一個粒子用下列式子表示,碼長是8:
[0149] 10100110
[0150] 隨機產生一個巧化之間的隨機數k,假設k = 5,將第5位的1變成0或將0變成1,得到 碼串:10101110
[0151 ]步驟7、對粒子的全局極值和個體極值進行更新。
[0152] 步驟8、判斷是否滿足迭代要求,不滿足的話轉向S4,否則的話,輸出全局最優粒 子。
[0153] 步驟9、根據全局最優粒子所選擇的特征進行對支持向量機進行訓練構建基因調 控網絡模型。
[0154] 步驟10、使用構建的分類模型對驗證集進行實驗,得到預測的基因調控網絡。
[0155] W上內容是結合具體的優選技術方案對本發明所作的進一步詳細說明,不能認定 本發明的具體實施只局限于運些說明。對于本發明所屬技術領域的普通技術人員來說,在 不脫離本發明構思的前提下,還可W做出若干簡單推演或替換,都應當視為屬于本發明的 保護化圍。
【主權項】
1. 一種融合粒子群和遺傳算法的基因調控網絡構建方法,其特征在于,包括以下步驟: 51、 構建樣本集:所述樣本集包括正樣本和負樣本,所述正樣本搜集來自文獻中的具有 調控關系的miRNA:mRNA交互信息對;負樣本通過人工生成的假陽性miRNA:mRNA交互信息對 組成,使用靶基因預測工具用來生成假陽性miRNA的靶基因作為訓練集的負樣本;使用靶基 因預測工具對miRNA進行預測,得到的所有miRNA:mRNA交互信息對作為驗證集;提取正樣本 和負樣本的N維特征,所述特征包括位點結合特征、結構特征和熱力學特征; 52、 數據預處理及參數設置:利用SMOTE方法使正樣本與負樣本的比例平衡;對所提取 的特征進行離散化和標準化處理; 53、 利用粒子群算法對粒子的特征進行選擇,設置粒子群中每個粒子的個體極值和全 局極值:將每一個粒子表不為N維向量,每一維對應一個特征,每一維的值為1或0; 1表不對 應的特征被選擇了,〇表示對應的特征沒有被選擇;每個粒子所選中的特征構成每個粒子的 特征子集;個體極值為粒子在整個迭代過程中的最優位置,初始化為粒子的初始化值;全局 極值為所有粒子的最優位置,初始化為整個粒子群的最優值; 54、 計算每個粒子的特征子集的適應度,根據適應度進行排序:包括下面幾個步驟: Al:計算每個粒子的特征子集的等價類: T= (U,CUD,V,f)表示一個決策表,其中U是一個非空且有限的樣本集合,稱為論域;C 是條件屬性集合,D是決策屬性集合;如果Q = C U D,任意屬性q e Q是一個全映射fq: U^Vq,其 中Vq表示屬性q所有取值,稱為q的值域,且V= U qeQVq,f = U qeQfq;每一個屬性子集 它的不可分辨關系表TK為:令xeu,u中所有與X滿足不可分辨關系IND(B)的對象構成X的一個基于屬性集B的等價 類[x]b= {y |yeu,(x,y) e IND(B)}。 A2:任意對象子集屬性子集谷czC-X的上近似集為:A3:任意條件屬性子集谷gC,U/D是由等價關系IND(D)誘導出的所有相異的等價類的集 合.*日姑豐it銪屆.《:隹nfrftRTP+或定義為:A4: B是一個條件屬性集合,D是決策屬性,D對于B的依賴度定義為:通常0彡k彡1。當k=l,時,稱D完全依賴于B;0〈k〈l時,D部分依賴于B;當k = 0時,D完全 獨立于B; A5:計算每個粒子的適應度,適應度公式如下:其中Yb(D)是條仵屬性集B相對t決策屬性集D的依賴度,|C|是總的特征數,|B|是選擇 的特征數。在這里,α的取值為0.9,β的取值為O. I; A6:根據適應度的大小對粒子進行排序; 55、 對排序在預設概率之前的粒子繼續使用粒子群算法進行位置和速度更新: Al:速度更新公式如下: vid = wX vid+ci XrandO X (pid~xid)+C2 Xrand() X (Pgd-Xid), Al:位置更新公式如下: Xid - Xid+Vid , 其中第i個粒子表示為Xi=(Xil,Xi2,…,Xid),它的飛行速度為Vi=(Vil,Vi2,…,Vid), 在每次迭代中,粒子根據兩個極值來對自己進行更新;第一個極值就是粒子本身找到的最 優解Pbest,第i個粒子本身的最優解可以表示為 Pl=(pu,pl2, . . .,pld).第二個極值是整個種 群目前找到的最優解,這個極值是全局極值gbset; 56、 對排序在預設概率之后的粒子利用遺傳算法的交叉和變異操作進行更新: 57、 對粒子的個體極值和全局極值進行更新: 58、 判斷是否滿足迭代要求,不滿足的話轉向S4,否則的話,輸出全局最優粒子: 59、 根據全局最優粒子所選擇的特征進行對支持向量機進行訓練構建基因調控網絡模 型: S10、使用構建的基因調控網絡模型對驗證集進行實驗,得到預測的基因調控網絡。2. 根據權利要求1所述的一種融合粒子群和遺傳算法的基因調控網絡構建方法,其特 征在于,SMOTE算法是通過合成的方法產生新的少數樣本;所述合成的方法是對每一個少數 類樣本a,計算a與少數類樣本之間的歐式距離,選取k個最短的距離作為其最近鄰;然后從 它的最近鄰中隨機選擇樣本b,然后在a和b之間的連線上隨機選一點作為新合成的少數類 樣本M,公式如下所示,其中u是一個介于0和1之間的隨機數;最后將屬性值進行離散化到 [〇,1]之間; M=a+u · (b_a) 〇3. 根據權利要求1所述的一種融合粒子群和遺傳算法的基因調控網絡構建方法,其特 征在于,對粒子群算法的種群規模設置為特征個數N,迭代次數為100。4. 根據權利要求1所述的一種融合粒子群和遺傳算法的基因調控網絡構建方法,其特 征在于,k為5。
【文檔編號】G06K9/62GK106022473SQ201610346242
【公開日】2016年10月12日
【申請日】2016年5月23日
【發明人】孟軍, 郝涵
【申請人】大連理工大學