氨基酸距離多態性比較蛋白質序列進行物種分類的方法
【技術領域】
[0001] 本發明屬于物種鑒定領域,特別涉及一種氨基酸距離多態性比較蛋白質序列進行 物種分類的方法。
【背景技術】
[0002] 目前,根據進化論原理,兩段蛋白質序列若來自同一祖先,會有一定的同源性,親 緣關系越近的物種同源性就越高,所以可根據蛋白質序列中氨基酸的排列順序進行分類, 建立分子進化的系統樹(phylogenetic tree)。目前廣泛使用的是由Higgins和Sharp于 1988年提出的Clustal算法,先將多個序列兩兩比對構建距離矩陣,反映序列之間兩兩關 系,然后根據距離矩陣計算產生系統進化樹。兩條序列比對時,最簡單的情況就是不考慮空 位,只選擇比對起始點,但這種方法誤差較大,難以反映真實情況。目前最常用的方法是對 位比對,即通過插入間隔的方法使長度不同的序列對齊,但是由于有多種插入間隔的方式, 從而導致了比對的復雜性,使計算量大大增加。
[0003] 因此,本著求好的精神及理念,并由專業的知識、經驗的輔助,以及在多方巧思、試 驗后,方創設出本發明,特再提供一種氨基酸距離多態性比較蛋白質序列進行物種分類的 方法,能夠將序列上氨基酸的差異轉變為氨基酸間距離的差異,既兼顧了空位,又無需插入 間隔,大大簡化了比對的復雜性。
【發明內容】
[0004] 本發明提出一種氨基酸距離多態性比較蛋白質序列進行物種分類的方法,將序列 上氨基酸的差異轉變為氨基酸間距離的差異,既兼顧了空位,又無需插入間隔,計算方法簡 單。
[0005] 本發明的技術方案是這樣實現的:一種氨基酸距離多態性比較蛋白質序列進行物 種分類的方法,包括如下步驟:
[0006] S10:對蛋白質序列上的每個氨基酸進行編號;
[0007] S20:計算蛋白質序列上相鄰同種氨基酸之間的距離;
[0008] S30:統計相鄰同種氨基酸的不同距離在每條蛋白質序列上出現的次數;
[0009] S40:根據統計的每種氨基酸的不同距離在每條蛋白質序列中出現的次數,進行兩 兩對比,構建距離矩陣,根據距離矩陣計算產生系統發育樹,進行物種分類。
[0010] 作為一種優選的實施方式,所述氨基酸的類型包括:丙氨酸、亮氨酸、精氨酸、賴氨 酸、天冬酰胺、甲硫氨酸、苯丙氨酸、半胱氨酸、脯氨酸、谷氨酰胺、絲氨酸、谷氨酸、蘇氨酸、 甘氨酸、色氨酸、組氨酸、酪氨酸、異亮氨酸、纈氨酸、天冬氨酸中的任意一種或多種。
[0011] 作為一種優選的實施方式,所述步驟S20中計算蛋白質序列上相鄰同種氨基酸的 距離采用將序列中各種氨基酸對應的編號分別提取出來,計算相鄰同種氨基酸之間的距 離。
[0012] 作為一種優選的實施方式,所述步驟S40中根據統計的每種氨基酸的不同距離在 每條蛋白質序列中出現的次數,分析蛋白質中同種氨基酸距離的多態性,通過構建距離矩 陣、計算產生系統進化樹進行物種分類。
[0013] 作為一種優選的實施方式,所述步驟S40中分析蛋白質中同種氨基酸距離的多態 性,滿足公式:? = 21^/(1^+%),? = -11^,其中1^為兩段蛋白質序列第一段蛋白質序列中相 鄰同種氨基酸出現的某一距離的數目,ny是兩段蛋白質序列第二段蛋白質序列中相鄰同種 氨基酸出現的某一距離的數目,n xy為兩段蛋白質序列相鄰同種氨基酸之間某一距離出現次 數相同的數目,即nx和ny中的較小值,P為兩段蛋白質序列相鄰同種氨基酸距離的多樣性值。
[0014] 作為一種優選的實施方式,所述步驟S40中計算蛋白質序列上相鄰同種氨基酸距 離的多態性,對所有蛋白質序列兩兩比較計算所有氨基酸全部距離的多個多樣性值后,求 取平均值構建距離矩陣,根據距離矩陣制作進化關系樹。
[0015] 采用了上述技術方案后,本發明的有益效果是:根據蛋白質序列上相鄰的兩個同 種氨基酸距離的差異進行比對,構建距離矩陣,再根據距離矩陣計算產生系統進化樹,本方 法將序列上氨基酸的差異轉變為氨基酸間距離的差異,既兼顧了空位,又無需插入間隔,計 算方法簡單,能夠滿足基本的要求。
【附圖說明】
[0016] 為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可 以根據這些附圖獲得其他的附圖。
[0017]圖1為本發明流程不意圖;
[0018]圖2為本發明構建的系統發育樹;
[0019]圖3為采用Mega 6.0軟件對位比對序列構建的系統發育樹。
【具體實施方式】
[0020]下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于 本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他 實施例,都屬于本發明保護的范圍。
[0021] 如圖1所示,本發明氨基酸距離多態性比較蛋白質序列進行物種分類的方法,包括 如下步驟:
[0022] S10:對蛋白質序列上的每個氨基酸進行編號;
[0023] S20:計算蛋白質序列上相鄰同種氨基酸之間的距離;
[0024] S30:統計相鄰同種氨基酸的不同距離在每條蛋白質序列上出現的次數;
[0025] S40:根據統計的每種氨基酸的不同距離在每條蛋白質序列中出現的次數,進行兩 兩對比,構建距離矩陣,根據距離矩陣計算產生系統發育樹,進行物種分類。
[0026]所述氨基酸的類型包括:丙氨酸、亮氨酸、精氨酸、賴氨酸、天冬酰胺、甲硫氨酸、苯 丙氨酸、半胱氨酸、脯氨酸、谷氨酰胺、絲氨酸、谷氨酸、蘇氨酸、甘氨酸、色氨酸、組氨酸、酪 氨酸、異亮氨酸、纈氨酸、天冬氨酸中的任意一種或多種。
[0027]所述步驟S20中計算蛋白質序列上相鄰同種氨基酸的距離采用將序列中各種氨基 酸對應的編號分別提取出來,計算相鄰同種氨基酸之間的距離。
[0028]所述步驟S40中根據統計的每種氨基酸的不同距離在每條蛋白質序列中出現的次 數,分析蛋白質中同種氨基酸距離的多態性,通過構建距離矩陣、計算產生系統進化樹進行 物種分類。
[0029]所述步驟S40中分析蛋白質中同種氨基酸距離的多態性,滿足公式:F = 2nxy/(nx+ ny),P = -lnF,其中nx為兩段蛋白質序列第一段蛋白質序列中相鄰同種氨基酸出現的某一距 離的數目,ny是兩段蛋白質序列第二段蛋白質序列中相鄰同種氨基酸出現的某一距離的數 目,n xy為兩段蛋白質序列相鄰同種氨基酸之間某一距離出現次數相同的數目,即nx和ny中 的較小值,P為兩段蛋白質序列相鄰同種氨基酸距離的多樣性值。
[0030] 所述步驟S40中計算蛋白質序列上相鄰同種氨基酸距離的多態性,對所有蛋