一種基于牽連犯罪原則和網絡拓撲結構特征的藥物-靶標相互作用識別方法
【技術領域】
[0001] 本發明屬于計算機輔助藥物設計技術領域。更具體地,涉及一種基于牽連犯罪原 則和網絡拓撲結構特征的藥物-靶標相互作用識別方法。
【背景技術】
[0002] 新藥研究與開發一直是一個費時、費力的過程。據估計一個新藥上市平均要花費 數十億美元和十多年時間。近年來新藥研發的成功率一直呈下降趨勢,造成這種現象的一 個主要原因是藥物-靶標相互作用信息地缺乏。大部分藥物都是生物活性小分子,主要通 過與靶標蛋白質的相互作用阻斷異常的生物過程發揮療效。因此,識別藥物-靶標相互作 用一直是藥物研發的重要部分,識別藥物-靶標相互作用不僅可以減少研發成本和時間, 而且有助于闡明藥物活性機制。
[0003] 在藥物-靶標相互作用識別模型的構建中,蛋白質與藥物靶標相互作用對的合 理、有效表征是影響模型預測性能的關鍵。采用蛋白質一級結構描述符和藥物分子指紋描 述符表征藥物-靶標相互作用對是一種簡單的方法,通過該方法,藥物-靶標相互作用對可 以表征為一個高維特征向量,但是該方法沒有考慮生物網絡的整體性和魯棒性等特點。因 此,近年來研究人員提出了基于網絡的藥物-靶標相互作用識別方法,但是該方法僅把藥 物-靶標相互作用模擬為二部圖,沒有考慮到蛋白質與蛋白質以及藥物與藥物之間的相互 作用,而且僅把蛋白質和藥物考慮為一個單純的點,忽略了物理化學等性質。因此,提出全 新的藥物-靶標相互作用表征方法,并發展自動、可靠的藥物-靶標相互作用識別方法具有 重大的理論和實際應用意義。
【發明內容】
[0004] 本發明要解決的技術問題是克服現有新藥研發中藥物-靶標相互作用識別技術 的缺陷和不足,提供一種新的簡單、合理、高效的藥物-靶標相互作用標準方法一一網絡拓 撲結構特征,在網絡拓撲結構特征的基礎上,利用隨機森林算法構建模型對藥物-靶標相 互作用進行識別研究,有望應用于新藥研究和計算機輔助藥物設計等領域。該表征方法不 僅包含藥物指紋描述符和蛋白質一級結構描述符信息,而且還包含了網絡拓撲結構信息, 預測結果明顯優于現有文獻報道結果。
[0005] 本發明的目的是提供一種基于牽連犯罪原則和網絡拓撲結構特征的藥物-靶標 相互作用識別方法。
[0006] 本發明另一目的是提供該方法的應用。
[0007] 本發明上述目的通過以下技術方案實現:
[0008] -種基于牽連犯罪原則和網絡拓撲結構特征的藥物-靶標相互作用識別方法,包 括以下步驟:
[0009] SI.構建藥物-靶標相互作用組網絡
[0010] SlL從現有數據庫收集人類蛋白質與蛋白質相互作用數據和藥物-靶標相互作 用數據;
[0011] S12.基于相互作用數據,構建包含蛋白質-蛋白質相互作用子網絡、藥物-靶標相 互作用子網絡和藥物-藥物關系子網絡的綜合藥物-靶標相互作用組網絡;
[0012] S2.表征藥物-靶標相互作用對
[0013] S21.基于蛋白質一級序列信息和藥物小分子結構信息,分別計算其一級結構描述 符和藥物分子指紋描述符,結合相互作用信息,對網絡節點和邊加權;
[0014] S22.基于加權的節點和邊信息,采用牽連犯罪原則和圖論分別計算網絡中蛋白質 和藥物小分子的網絡拓撲結構特征,網絡拓撲結構特征通過下式計算:
[0017] 式中,Dd⑴和Dj⑴分別表示藥物分子d和鄰居藥物分子j的第i個節點權重;
[0018] Ed, j是藥物分子d和j的邊權重;
[0019] Pp⑴和Pj⑴分別是蛋白質p和其鄰居蛋白質j的第i個節點權重;
[0020] Ep,j是蛋白質p和鄰居j的邊權重;
[0021] N是藥物分子d或者蛋白質p的鄰居總數;
[0022] S23.基于蛋白質和藥物小分子的網絡拓撲結構特征,提出藥物d-靶標p的相互作 用對網絡拓撲結構特征,其表示如下:
[0023] DPmhp = DNTFiPPNTFr
[0024] 式中,?表示正交求和;最終,藥物-靶標相互作用對被表征為一個2791維的特 征向量;
[0025] S3.采用隨機森林算法構建預測模型,預測潛在藥物-靶標相互作用,為新藥設計 和病理機制研究提供理論參考。
[0026] 具體地,步驟SI 1所述現有數據庫為DrugBank數據庫和HIPPIE數據庫。
[0027] 步驟S12所述子網絡中,每一個定點表示蛋白質或者藥物小分子;如果兩個蛋白 質或者藥物-靶標具有相互作用,則用一條邊連接這兩個頂點;如果兩個藥物小分子具有 共同的蛋白質靶標,則用一條邊連接。
[0028] 步驟S21所述一級結構描述符是一個1767維特征向量,包括:氨基酸組成、二肽組 成、各種自相關描述符以及組成、轉變和分布描述符;所述分子指紋描述符是一個1024維 的二進制特征向量,"1"表示藥物分子具有某一種特定分子結構,"〇"表示沒有。
[0029] 作為一種具體的可實施方案,步驟Sl構建藥物-靶標相互作用組網絡的具體方法 為:
[0030] (1)從HIPPIE數據庫收集人類蛋白質相互作用信息,去除自相互作用、重復相互 作用以及相互作用得分為〇的相互作用;根據蛋白質獲得號,從UniprotKB/Swiss-Prot數 據庫獲取蛋白質序列信息,計算氨基酸組成、二肽組成、自相關描述符和組成、轉變和分布, 獲得蛋白質一級結構描述符,基于收集的信息,構建節點和邊加權的人類蛋白質-蛋白質 相互作用子網絡;其中,節點權重是蛋白質一級結構描述符,邊權重是蛋白質相互作用得 分;
[0031] (2)從DrugBank數據庫收集藥物-靶標相互作用信息,廢除靶標不屬于人類的 相互作用數據,根據藥物小分子結構信息,采用PaDEL-Descriptor軟件計算分子指紋描述 符,構建藥物-靶標相互作用子網絡;其中,藥物節點權重是分子結構描述符,靶標節點權 重是蛋白質一級結構描述符,如果藥物和靶標分子發生相互作用,則用一條邊連接。
[0032] (3)根據(2)獲得的藥物-靶標相互作用數據,構建藥物-藥物關系子網絡;如果 兩個藥物分子具有相同的靶標蛋白質,則用一條邊連接;根據兩個藥物的靶標蛋白質的數 目和公共蛋白質的數目,計算邊權重,節點權重是分子指紋描述符;
[0033] (4)根據蛋白質的獲得號和藥物分子在DrugBank數據庫中的ID號,合并三個子網 絡,構建融合的藥物-靶標相互作用組網絡。
[0034] 構建得到的藥物-靶標相互作用組網絡包含:240300條邊和17695個節點;其中, 153749條邊表示蛋白質-蛋白質相互作用,77713條邊表示藥物-藥物關系,8838條表示藥 物-靶標相互作用;在所有的節點中,14086個是蛋白質,3609個是藥物小分子。
[0035] 作為一種具體的可實施方案,步驟S2表征藥物-靶標相互作用對的具體方法為:
[0036] (1)對于一個藥物d和靶標蛋白質p的相互作用,通過藥物-靶標相互作用組網絡 查找藥物d的鄰居藥物小分子,考慮鄰居分子的拓撲結構信息,節點權重和邊權重信息,采 用下式計算藥物d的網絡拓撲結構特征:
[0038] (2)查找靶標蛋白質p的鄰居蛋白質分子,考慮靶標蛋白質p的網絡拓撲結構以及 節點和邊權重,采用下式計算靶標蛋白質P的網絡拓撲結構特征:
[0040] (3)同時考慮藥物d和靶標蛋白質p網絡拓撲結構信息,通過下式表征藥物-靶標 相互作用對:
[0041] DPNTFk = DNTF];? PNTFp。
[0042] 本發明的方法在實際應用時,步驟Sll收集具有較高可信度的相互作用信息,根 據收集到的信息,步驟S12構建可靠的蛋白質-蛋白質相互作用子網絡、藥物-靶標相互作 用子網絡和藥物-藥物關系子網絡。
[0043] 進一步地,步驟S2基于有效的蛋白質一級結構描述符和藥物分子指紋描述符,結 合相互作用信息,對網絡節點和邊加權,在此基礎上提出合理、有效的網絡拓撲結構特征用 以表征藥物-靶標相互作用。
[0044] 最后,步驟S3優化隨機森林算法參數、構建高精度預測模型,所述隨機森林算法 的參數如下:森林中樹的數目設置為1〇〇,葉節點選擇變量的數目設置為總變量數目的平 方根。
[0045] 另外,上述基于牽連犯罪原則和網絡拓撲結構特征的藥物-靶標相互作用識別方 法在新藥研發和/或計算機輔助藥物設計中的應用,也在本發明的保護范圍之內。具體是 應用于識別藥物-靶標相互作用。
[0046] 本發明通過大量研究和探索,提出了新的藥物-靶標相互作用表征方法一一網絡 拓撲結構特征,該表征方法不僅包含了蛋白質一級結構和藥物小分子結構信息,而且還包 括了生物網絡拓撲結構信息,將其與隨機森林算法相結合,建立了藥物-靶標相互作用識 別新方法。基于構建的數據集,進行了 10-折交叉驗證實驗,并與現有文獻報道的方法進行 了比較,結果顯示,本發明方法的預測結果顯著優于文獻的方法,表明了本發明方法的有