一種hiv-1整合酶突變株對evg耐藥倍數變化值的預測方法
【技術領域】
[0001] 本發明設及一種基于遺傳算法(GA)和多元逐步回歸算法的整合酶(1腳突變株對 ElvitegraviHEVG)耐藥倍數變化(FC)值的預測方法。屬于生物信息學領域。
【背景技術】
[0002] 近年來,HIV-1IN已成為研發抗AIDS藥物的最具吸引力的祀標,針對IN的藥物開 發成為熱點。IN抑制劑主要分為:膚類抑制劑,核巧類抑制劑,多徑基化的芳香族化合物W 及二酬酸值KAs)類抑制劑。其中,只有DKAs類IN抑制劑及其衍生物在體外抑酶活性測試 及動物模型實驗中均表現出較好的選擇性和抑制活性,因此DKAs及其衍生物成為了最有 前景的IN抑制劑。
[0003]目前進入臨床研究的IN抑制劑及上市的3種抗IN藥物均為DKAs類衍生物。Merk 公司研發的Raltegravi;r(RAL,MK-0518)已于2007年10月獲準上市,成為第一個上市的抗 IN藥物。隨后,GileadSciences公司的ElvitegraviHEVG,GS-9137)和ViiVHealthcare 公司與日本化ionogi公司聯合研制的Dolutegravir值TG,S/GSK-572)也分別于2012年 及2013年被FDA批準上市。然而,由于HIV-1是RNA病毒,其基因組由單鏈RNA逆轉錄為 cDNA的過程由RT催化,而RT對轉錄錯誤無校正功能,因此,轉錄過程中出現的堿基錯配常 導致基因突變,造成了病毒在復制中發生高頻突變,導致HIV-1對作用于運些關鍵酶的抑 制劑不再敏感,產生耐藥性。
[0004]目前,在臨床醫生的診斷服務應用方面,線性回歸被成功用于從HIV-1的IN基因 型來預測IN蛋白可能出現的耐藥突變殘基,方法則是通過建立藥物的敏感性與編碼HIV-1 關鍵酶的基因突變之間的函數。2013年,KoenVanderBor曲t等人對該方法進行進一步 拓展,用線性回歸模型來預測IN基因突變所關聯的耐藥突變W及該耐藥突變會導致IN抑 制劑所產生的耐藥性(用FC表示)。該研究基于試驗所得RAL導致IN產生的眾多耐藥突 變株的IC50值與野生型IC50值相比所得倍數變化(FC)值,得到一個突變殘基與耐藥倍 數變化的多元線性回歸模型,可預測RAL對某耐藥株可能具有的抑制活性。對于上市藥物 EVG而言,預測其可用于哪些耐藥突變株,對新產生的耐藥株會產生怎樣的耐藥性尚未進行 研究。
[0005] 目前,已上市的IN藥物均已出現了高度耐藥性,耐藥性的出現使得藥效顯著降 低,阻礙了AH)s的治療。指導醫生在臨床合理使用已有藥物W及研發新的INI十分迫切。 本發明的目的是提供一種基于GA和多元逐步回歸算法的HIV-1IN突變株對EVG耐藥倍數 變化值的預測方法,用于預測IN突變株的FC值,從而預測IN突變株的耐藥性。表型測試 可W提供有用的附加信息,特別是對于更復雜的突變模式。該方法可預測上市藥物EVG對 其在HIVResistanceDat油ase數據庫中出現的耐藥株是否有效,且會產生怎樣的耐藥性, 運都將為醫生臨床用藥提供指導。
【發明內容】
[0006] 本發明的目的是為了提供一種基于GA和多元逐步回歸算法的HIV-1IN突變株對 EVG耐藥倍數變化值的預測方法,用于預測IN突變株的FC值,從而預測IN突變株的耐藥 性。
[0007] 本發明的目的可W通過如下技術方案解決,包括如下步驟:
[0008] (1)編碼數據集,得到IN對于EVG產生耐藥突變株的倍數變化數據集,并將 數據集進行二進制編碼,發生突變的殘基用1表示,未發生突變的殘基用0表示,例如 1010100011110010101,則一個突變株可由一組基因型表示;FC值統一進行log變換,由此 建立一個突變的基因型如1010100011110010101及其表現型即logFC值--對應的數據 集。
[0009] (2)將步驟(1)數據集分類,根據突變導致殘基側鏈理化性質變化是否一致,將數 據集中的基因型進行了Ξ種不同類型的分類的整合:根據耐藥突變株中同一殘基發生不同 突變,導致IN側鏈理化性質產生的變化是否一致,IN側鏈理化性質產生的變化包括側鏈的 體積變化、電荷性質變化W及綜合考慮體積電荷變化,將數據集中的基因型進行了Ξ種不 同的整合,分類參照表1給出:
[0010] 表1數據集中基因型的Ξ種不同整合
[0011]
[0012] (3)聚類分析除去異常值:將步驟(2)整合后的任一組數據集中相同基因型的大 量表現型1〇評C值用質屯、聚類法進行聚類分析,除去距離最大的一組數值,得到除去異常 值的數據集。本步驟可在SPSS20軟件中的"分析一分類一系統聚類"模塊中實現。
[0013] (4)GA得到優秀種群個體:將步驟(3)得到去除異常值的數據集用基于Matl油 R2014a軟件編寫的GA程序進行篩選,篩選:R2大于等于0. 95或者最大世代數為500的種 群數達到20,去除重復值后,得到優秀種群個體。
[0014] 算法代碼見現有相關技術,具體步驟如下:
[0015] (4-1)設置參數:GA的參數設定為:種群規模為20,交叉概率為0. 70,變異概率為 0. 05,最大世代數為500,收斂條件為R2〉= 0. 95的種群數達到20。
[0016] (4-2)產生初始種群;
[0017] (4-3)計算適應度;
[0018] (4-4)判斷R2是否大于等于0. 95或者最大世代數為500,若是,輸出結果,若否, 則進行選擇,交叉,變異運算,產生新一代種群,繼續判斷,直到產生20組優秀種群或迭代 次數達到500;經過運算最后得到20組優秀種群,去除重復值后,得到優秀種群個體。
[0019] (5)建立多元逐步回歸模型:將步驟(4)中的優秀種群個體,運用基于Matl油 R2014a軟件編寫的多元逐步回歸算法,將數據集進行訓練,得到回歸方程和復相關系數等。
[0020] 將數據集進行訓練,得到回歸方程和復相關系數等的同時并進行顯著性檢驗,多 元逐步回歸算法代碼見現有相關技術,具體步驟優選如下:
[0021] (5-1)計算相關系數矩陣;
[0022] (5-2)初始化設置;
[0023] (5-3)W突變殘基為自變量,1〇評C的值為因變量,計算自變量的貢獻值,用偏回 歸平方和來衡量貢獻大小,其中偏回歸平方和公式為:
[0024] Uj=
[00巧]選出貢獻值即偏回歸平方和最大的某范圍的自變量,對其進行顯著性F引入檢 驗,判斷是否選入該變量,其中闊值Fi= 0. 01,F2= 1. 06 ;對于已選入的變量,選擇出其中 最小貢獻值的變量,并進行顯著性F剔除檢驗,判斷是否剔除該變量,每次引入或剔除都需 要執行F檢驗,保證所有顯著的自變量引入到方程中;F值的公式為:
[002引
,其中η為輸入的數據組數,m為自變量個數。
[0027] 每次引進變量或者剔除變量時,需要對矩陣進行變換,使用的方法是求解求逆緊 湊變換法(又稱消去變換),變換公式:
[0028]
[0029] 變換之前要對原始數據進行標準化處理,計算每列的平均值和離差平方和的方 根:
[0030]
[0031] 經過對矩陣中數據的標準化計算后,可得標準化后的數據矩陣,標準化后矩陣的 協方差矩陣即為相關系數矩陣,相關系數矩陣可表示為:
[0032]
[003引 巧-4)當再無變量引入時,結束運算。輸出回歸方程,復相關系數等。
[0034] (6)將新突變株的基因型按照步驟似整合,然后帶入到回歸方程,便可得到相對 應的預測值。
[003引該發明可從陜速預測出突變型IN對EVG的耐藥性,簡化了預測模型,且提高了預 測精度。
【附圖說明】
[0036] 圖1是本發明的預測方法流程圖。
[0037] 圖2是GA的流程圖。
[0038] 圖3是多兀逐步回歸算法的流程圖。
【具體實施方式】
[0039] 下面結合附圖1和實施例對本發明做進一步的說明,但本發明并不僅限于W下實 施例。
[0040] 實施例1
[0041] 按IN殘基側鏈體積變化是否一致的因素整合基因型為例,來具體說明本發明的 實施過程:
[0042] (1)編碼數據集。得到IN對于EVG產生耐藥突變株的FC數據集,并將數據集進 行二進制編碼,發生突變的殘基用1表示,未發生突變的殘基用0表示。FC值統一進行log 變換。由此建立一個突變的基因型及其表現型logFC值一一對應的數據集。如表2所示。
[0043] 表2主要突變基因型及其對應表現型數據集
[0044]
[0045]
[0046] 表2繼續
[0047]
[0048] 表2繼續
[0049]
[0050] 表2繼續
[0051]
[00閲 表2繼續
[0053] (2)將基因型整合。按照同一殘基突變的體積變化因素,合并相同殘基突變后體積 變化相同的項。如表3所示。由于數據量大,表3只顯示了一部分數據。
[0054]表3同一殘基突變按體積變化因素整合
[00巧]
[0056] (3)聚類分析除去異常值:將步驟(2)整合好的數據集中相同基因型的大量表現 型1〇評C值用質屯、聚類法進行聚類分析,除去距離最大的一組數值,得到除去異常值的數 據集。本步驟可在SPSS20軟件中的"分析一分類一系統聚類"模塊中實現;
[0057] (4)GA得到優秀種群個體。將步驟(3)得到去除異常值的數據集用基于Matl油 R2014a軟件編寫的GA程序進行篩選。GA的參數設定為:種群規模為20,交叉概率為0.70, 變異概率為0. 05,最大世代數為500,收斂條件為R2〉= 0. 95的種群數達到20。
[0058] 經過運算最后得到20組優秀種群,去除重復值后,得到優秀種群個體,共148個。 由于算法的性質,每次運行的結果可能會略有不同。優秀種群個體見表4。由于數據量大, 表4只顯示了一部分數據。
[0059] 表4-體積模型GA部分結果
[0060]
[0061] (5)建立多元逐步回歸模型。將步驟(4)中的數據集按照3:1的比例,分為訓練集 和待預測集。將訓練集進行訓練,得到回歸方程:
[0062]Y=0. 39095+0. 28883Xi+0. 53775X2+0. 79109X3+1. 1135X4+0. 82851Xs+〇. 20262Xe+〇 .7IO6IX7+O. 〇66656Xs+〇. 17636X9+1. 1172Xi〇+0. 6:M23Xii+0. 9615Xi2+L0076X口+0. 9〇473Xi4+ 1. 2623Xi5
[0063]Multiple