基于多實例多類標的馬爾可夫鏈注釋蛋白質功能的方法
【技術領域】
[0001] 本發明涉及蛋白質組學技術領域,具體涉及基于多實例多類標的馬爾可夫鏈注釋 蛋白質功能的方法。
【背景技術】
[0002] 隨著人類基因組計劃的完成,生命科學研究進入了后基因組時代,即工作重點從 揭示生命的所有遺傳信息轉移到遺傳信息的功能研究。基因是遺傳信息的載體,而基因的 表達產物一蛋白質執行各種各樣的生物功能。蛋白質的功能注釋是在分子水平上闡明生命 本質,對病理機制研究、臨床診斷、潛在藥物靶標識別以及新醫藥開發等具有重要作用。隨 著高通量測序技術的發展,各種各樣的數據庫已經存儲了海量的蛋白質序列信息,但僅有 很少一部分具有功能注釋。如UniProt全信息蛋白質數據庫中完成蛋白質功能注釋的不足 1%,因此,僅通過人工對蛋白質功能進行注釋是不可能的。使用計算的方法來注釋蛋白質 功能已經成為后基因組時代的重要研究課題之一。
[0003]目前已經有大量的計算方法用于注釋蛋白質的功能,如基于蛋白質序列信息、結 構信息、網絡信息或集成的方法。結構域是蛋白質中的一類結構單元,可以一個獨立完成或 幾個共同完成一項生理功能。通常,幾個結構域共同組成一個具有多種功能的蛋白質。這和 多實例多類標學習框架的結構類似,為使用計算的方法來注釋蛋白質功能提供了一種新的 可能。
【發明內容】
[0004] 本發明的目的是提供一種基于多實例多類標學習框架的注釋蛋白質功能的方法, 本發明的目的可以通過采取如下方案實現。
[0005] 基于多實例多類標的馬爾可夫鏈注釋蛋白質功能的方法,其包括如下步驟:
[0006] S1、從蛋白質全信息數據庫中獲取生物三域系統的蛋白質序列數據,所述的蛋白 質中的每個結構域處理成一個特征向量,所述的蛋白質的功能是指基因本體中的分子功 能;
[0007] S2、計算蛋白質數據集中每兩個蛋白質之間的Hausdorff距離,并使用距離的倒數 作為蛋白質之間的相似性度量;
[0008] S3、使用已經注釋功能的蛋白質數據學習馬爾可夫鏈模型,并根據學習的模型注 釋未知功能的蛋白質。
[0009] 作為一種具體的實施方案,步驟S1中,所述的蛋白質,具體為蛋白質和其結構域分 別被視為多實例多類標學習框架中的對象和實例,蛋白質的功能被視為多實例多類標學習 框架中的類標。
[0010] 作為一種具體的實施方案,步驟S2中,所述的計算蛋白質數據集中每兩個蛋白質 之間的Hausdorff距離,具體計算方法如下:
[0011 ] S21、分別計算每兩個蛋白質之間的最大、最小和平均Hausdorff距離;
[0012] S22、每兩個蛋白質之間的Hausdorff距離取三種距離的均值。
[0013] 作為一種具體的實施方案,步驟S3中,所述的馬爾可夫鏈模型,具體如下式:
[0014] D=(l-a)Pfs(D)+aQ
[0015] 其中,D是蛋白質類標概率分布矩陣,P是類標概率轉移矩陣,Q是已知的類標分布 矩陣,a是初始類標信息的比例參數,fs是類標概率分布矩陣的稀釋函數。
[0016] 與現有技術相比,本發明具有如下優點和技術效果:
[0017] 本發明利用蛋白質中結構域的特征信息度量蛋白質之間的相似性,基于相似的蛋 白質可能具有相同的功能的假想,使用已經注釋功能的蛋白質數據學習馬爾可夫鏈模型, 該模型可以用來注釋未知功能的蛋白質。
【附圖說明】
[0018] 圖1為本發明實施例1的一種基于多實例多類標的馬爾可夫鏈注釋蛋白質功能方 法的流程圖。
[0019] 圖2為本發明實施例1的使用已經注釋功能的蛋白質數據學習馬爾可夫鏈模型的 流程圖。
[0020] 具體設施方式
[0021] 下面結合實施例及附圖對本發明作進一步詳細的描述,但本發明的實施方式不限 于此。
[0022] 實施例1:
[0023] 如圖1所示,本實施例1的一種基于多實例多類標的馬爾科夫鏈注釋蛋白質功能的 方法,包括以下步驟:
[0024] S1、從蛋白質全信息數據庫中獲取生物三域系統的蛋白質序列數據,所述的蛋白 質中的每個結構域處理成一個特征向量,所述的蛋白質的功能是指基因本體中的分子功 能;
[0025] S2、計算蛋白質數據集中每兩個蛋白質之間的Hausdorff距離,并使用距離的倒數 作為蛋白質之間的相似性度量;
[0026] S3、使用已經注釋功能的蛋白質數據學習馬爾可夫鏈模型,并根據學習的模型注 釋未知功能的蛋白質。
[0027]所述的蛋白質,具體為蛋白質和其結構域分別被視為多實例多類標學習框架中的 對象和實例,蛋白質的功能被視為多實例多類標學習框架中的類標。
[0028]所述的計算蛋白質數據集中每兩個蛋白質之間的Hausdorff距離,具體計算方法 如下:
[0029] S21、分別計算每兩個蛋白質之間的最大、最小和平均Hausdorff距離,三種距離的 具體定義如下:
[0030] a、最大 Hausdorff 距離
[0031]
[0032] b、最小 Hausdorff 距離
[0033]
[0036] 其中,Xi是數據集中第i個蛋白質,x(1)是蛋白質的第i個結構域,Μ表示蛋白質中 結構域的個數,mindis(x w,Xi)的定義如下:
[0034]
[0035]
[0037]
[0038]其中,| | . | |表示兩個結構域之間的歐式距離。
[0039] S22、每兩個蛋白質之間的Hausdorff距離取三種距離的均值,均值的計算公式具 體如下:
[0040]
[0041] 所述的使用距離的倒數作為蛋白質之間的相似性度量,具體公式如下:
[0042]
[0043] 如圖2所示,本實施例1的一種基于多實例多類標的馬爾科夫鏈注釋蛋白質功能的 方法,所述的使用已經注釋功能的蛋白質數據學習馬爾可夫鏈模型,具體的學習步驟如下: [0044] S31、十折交叉驗證
[0045] 將已經注釋功能的蛋白質數據集平均分成十份,依次將每份作為測試集,其余作 為訓練集,測試當前參數設置下模型的性能。
[0046] S32、初始化
[0047] 1)類標概率轉移矩陣
[0048]將已經注釋功能的蛋白質數據集中蛋白質之間的Hausdorff相似性矩陣P列歸一 化。
[0049] 2)類標概率分布矩陣
[0050]
[0051]其中,Dtrain和Dtest分別是蛋白質的訓練數據集和測試數據集,(^表示第i個蛋白質 的功能集,L表示蛋白質的功能集,Lj表示第j個功能。
[0052] 3)已知的類標分布矩陣
[0053]
[0054]將已知的類標分布矩陣Q行歸一化。
[0055] S33、稀釋類標概率分布矩陣
[0056] 將類標概率分布矩陣D行歸一化,使用稀釋函數匕稀釋類標概率分布矩陣,具體公 式如下:
[0057]
[0058]其中,Rank(Dij)是蛋白質i具有功能j的概率,m是稀釋參數,表示蛋白質屬于功能 的概率的可信個數。
[0059] S34、學習馬爾可夫鏈模型
[0060] D=(l-a)Pfs(D)+aQ
[0061] 其中,D是蛋白質類標概率分布矩陣,P是類標概率轉移矩陣,Q是已知的類標分布 矩陣,a是初始類標信息的比例參數,fs是類標概率分布矩陣的稀釋函數。
[0062] S35、學習終止條件
[0063] 如果| |Dt-Dt-幻|〈e,學習終止,保存參數a、m和e;否貝ljt = t+l,回到步驟S33。其 中t是計算的第t個類別概率分布矩陣,初始值為0,e是兩個矩陣的偏差。
[0064] S36、模型性能測試
[0065]根據最終計算的類標概率分布矩陣注釋測試集中蛋白質的功能,并和實際的注釋 功能做對比,使用多類標評估函數度量當前參數設置下模型的性能。
[0066] S37、選擇最優模型
[0067]使用參數a、m和e的不同值計算蛋白質的類標概率分布矩陣,選擇模型性能最優 時的參數設置作為最終的注釋蛋白質功能的模型參數值。
[0068]綜上所述,本發明使用多實例多類標學習框架中的計算方法注釋蛋白質的功能, 使用Hausdorff距離計算蛋白質之間的相似性,學習馬爾可夫鏈模型計算蛋白質的類標概 率分布,并根據概率分布注釋未知功能的蛋白質。
[0069]以上所述,僅為本發明專利優選的實施例,但本發明專利的保護范圍并不局限于 此,任何熟悉本技術領域的技術人員在本發明專利所公開的范圍內,根據本發明專利的技 術方案及其發明專利構思加以等同替換或改變,都屬于本發明專利的保護范圍。
【主權項】
1. 基于多實例多類標的馬爾可夫鏈注釋蛋白質功能的方法,其特征在于:包括以下步 驟: 51、 從蛋白質全信息數據庫中獲取生物三域系統的蛋白質序列數據,所述的蛋白質中 的每個結構域處理成一個特征向量,所述的蛋白質的功能是指基因本體中的分子功能; 52、 計算蛋白質數據集中每兩個蛋白質之間的Hausdorff距離,并使用距離的倒數作為 蛋白質之間的相似性度量; 53、 使用已注釋功能的蛋白質數據學習馬爾可夫鏈模型,并根據學習的模型注釋未知 功能的蛋白質。2. 根據權利要求1所述的基于多實例多類標的馬爾可夫鏈注釋蛋白質功能的方法,其 特征在于:步驟S1所述的蛋白質被視為對象,蛋白質的結構域被視為實例,蛋白質的功能被 視為類標。3. 根據權利要求1所述的基于多實例多類標的馬爾可夫鏈注釋蛋白質功能的方法,其 特征在于步驟S2所述的Hausdorff距離,具體計算方法如下: 521、 分別計算每兩個蛋白質之間的最大、最小和平均Hau sdor f f距離; 522、 每兩個蛋白質之間的Hausdorff距離取三種距離的均值。4. 根據權利要求1所述的基于多實例多類標的馬爾可夫鏈注釋蛋白質功能的方法,其 特征在于:步驟S3所述的馬爾可夫鏈模型,如下式: D=(l-a)Pfs(D)+aQ 其中,D是蛋白質類標概率分布矩陣,P是類標概率轉移矩陣,Q是已知的類標分布矩陣, a是初始類標信息的比例參數,fs是類標概率分布矩陣的稀釋函數。
【專利摘要】本發明公開了一種基于多實例多類標的馬爾可夫鏈注釋蛋白質功能的方法,所述方法包括:從蛋白質全信息數據庫中獲取生物三域系統的蛋白質序列數據,所述的蛋白質中的每個結構域處理成一個特征向量,所述的蛋白質的功能是指基因本體中的分子功能;計算蛋白質數據集中每兩個蛋白質之間的Hausdorff距離,并使用距離的倒數作為蛋白質之間的相似性度量;使用已注釋功能的蛋白質數據學習馬爾可夫鏈模型,并根據學習的模型注釋未知功能的蛋白質。本發明使用多實例多類標學習框架中的計算方法注釋蛋白質的功能,使用Hausdorff距離計算蛋白質之間的相似性,學習馬爾可夫鏈模型計算蛋白質的類標概率分布,并根據概率分布注釋未知功能的蛋白質。
【IPC分類】G06F19/00
【公開號】CN105653885
【申請號】
【發明人】吳慶耀, 譚明奎, 陳健, 韓超, 宋恒杰
【申請人】華南理工大學
【公開日】2016年6月8日
【申請日】2016年3月23日