一種針對多視圖數(shù)據(jù)融合的蛋白質功能模塊挖掘方法
【專利摘要】本發(fā)明屬于數(shù)據(jù)挖掘領域,公開了一種針對多視圖數(shù)據(jù)融合的蛋白質功能模塊挖掘方法。首先,量化多個數(shù)據(jù)源對蛋白質相互作用的強弱描述,形成多視圖數(shù)據(jù);進而,利用本發(fā)明提出的聚合非負矩陣算法對多視圖數(shù)據(jù)進行一致矩陣分解,通過得到對多視圖信息的最優(yōu)近似,確定蛋白質的功能模塊。本發(fā)明提出一種針對多視圖數(shù)據(jù)融合的蛋白質功能模塊挖掘方法,著眼于同時分析多生物數(shù)據(jù),包括基因共表達、GO注釋和PPIN,從多視圖中提取聚合特征最為一致的蛋白質功能模塊。本發(fā)明尤其適用于蛋白質相互作用網(wǎng)絡和生物數(shù)據(jù),同時可應用于社交復雜網(wǎng)絡、通訊網(wǎng)絡的社區(qū)挖掘問題。
【專利說明】一種針對多視圖數(shù)據(jù)融合的蛋白質功能模塊挖掘方法
【技術領域】
[0001]本發(fā)明屬于數(shù)據(jù)挖掘領域,涉及一種融合多種生物數(shù)據(jù)源和蛋白質相互作用網(wǎng)絡(Protein-protein interaction network, PPIN)的蛋白質功能模塊檢測方法。
【背景技術】
[0002]基于蛋白質相互作用網(wǎng)絡分析蛋白質的具體功能是目前生物信息學研究中的一大熱點。蛋白質相互作用(Protein-protein interaction, PPI)描述的是兩個蛋白質間的物理直接連接,或者具有一致功能的兩個蛋白質的間接連系。PPIN以每個蛋白質為結點,兩個蛋白質間的相互關系作為兩結點的邊,形成一無向圖。在生物體內(nèi),多數(shù)蛋白質通過相互作用形成功能意義上緊密聯(lián)系的集合,也就是功能模塊,從而共同執(zhí)行相應的一種或多種生命活動,因此分析PPI功能意義是了解和掌握生命活動的分子機制的基礎。至今,學術各界已提出多種聚類方法用來檢測PPIN中的功能模塊,其中基于非監(jiān)督學習的聚類方法是最常用的PPI模塊挖掘方法。然而,由于PPI數(shù)據(jù)的高噪聲和不完整性,聚類結果大多不能令人滿意。有學者證實酵母雙雜交實驗(Yeast Two-Hybrid)所檢測到的PPI的誤報率(False Positive)可達50%。基于如此大噪聲比例的數(shù)據(jù),單純依據(jù)PPIN的拓撲特征不能保證得到可靠的功能模塊檢測結果。。這也是之前一些傳統(tǒng)功能模塊挖掘方法,如MC0DE, CFinder,馬爾科夫聚類(Markov Clustering, MCL)等方法的一大掣肘。
[0003]近年來生物數(shù)據(jù)收集方法日新月異,結合多種數(shù)據(jù)對PPI進行研究成為可能。首先,基因表達數(shù)據(jù)被用于尋找共表達的基因和基因產(chǎn)物。這一方法的基本假設是,在一段生命過程中表達模式相似的基因(或基因產(chǎn)物)傾向具有相同的功能,同時在PPIN中也更傾向于相互聯(lián)系形成密集功能模塊。Segal等人依據(jù)基因共表達的模式特征來提取功能模塊;Li和Wu將基因共表達作為PPIN權重進行網(wǎng)絡分析。另一方面,Cho等人利用基因本體注釋信息(Gene Ontology, GO)計算蛋白質相似度,并據(jù)此構建了蛋白質功能流在網(wǎng)絡中的傳輸模型,功能流所到之處被劃分為同一功能模塊。這一方法體現(xiàn)了蛋白質功能在網(wǎng)絡中的動態(tài)傳遞概念,并解決了多功能蛋白質的多功能模塊從屬,即功能模塊的重疊問題。
[0004]這些方法均達到一定程度的成功。然而不同的數(shù)據(jù)各有傾向:基因共表達傾向于檢測細胞生命過程中表達模式一致的蛋白質群,而GO則是靜態(tài)描述的功能信息。同時,二者各有弊端:首先,基因表達數(shù)據(jù)在收集過程中,實驗本身引入的噪聲不可避免;其次,由于人類技術所限,還有豐富的基因功能特質依然未知,GO注釋信息也仍在不斷完善。將每個角度所獲得的數(shù)據(jù)看做一個視圖。如何從多視圖中提取出最準確的信息是生物信息學及數(shù)據(jù)挖掘界一直面臨的難題。
【發(fā)明內(nèi)容】
[0005]針對蛋白質相互作用數(shù)據(jù)的高噪聲問題,提出一種針對多視圖數(shù)據(jù)融合的蛋白質功能模塊挖掘方法。本方法著眼于同時分析多生物數(shù)據(jù),包括基因共表達、GO注釋和PPIN,從多視圖中提取聚合特征最為一致的蛋白質功能模塊。該方法尤其適用于蛋白質相互作用網(wǎng)絡和多生物數(shù)據(jù)的融合分析,同時可應用于社交復雜網(wǎng)絡、通訊網(wǎng)絡的社區(qū)挖掘問題。
[0006]本發(fā)明所采取的技術方案是:首先,量化多個數(shù)據(jù)源對蛋白質相互作用的強弱描述,形成多視圖數(shù)據(jù);進而,利用本發(fā)明提出的聚合非負矩陣算法對多視圖數(shù)據(jù)進行一致矩陣分解,通過得到對多視圖信息的最優(yōu)近似,確定蛋白質的功能模塊。
[0007]—種針對多視圖數(shù)據(jù)融合的蛋白質功能模塊挖掘方法,包括以下步驟:
[0008]步驟1:構建蛋白質相互作用網(wǎng)絡的鄰接矩陣A。 [0009]每個結點順序編號并標記為(1,2,…,N) ,N為結點總數(shù)。結點1、j間的邊記為eg,且0〈1〈隊0〈」^;忽略自相關關系,4的對角線元素全部設定為0。由于相互作用無方向指向,因此A為對稱矩陣。 [0010]步驟2:計算基因表達模式的相似程度。
[0011]采用Pearson相關系數(shù)計算基因表達模式的相似程度,并歸一化至[0,I]。
[0012]步驟3:計算基因表達譜上的相似矩陣。
[0013]將基因共表達相關系數(shù)作為eij的權重,與PPIN結合,獲得基因表達譜上的相似矩陣 wCO:
[0014]WCOij = CoExpijXAij
[0015]其中,CoExp為基因共表達相關系數(shù);X代表元素相乘。
[0016]步驟4:提取蛋白質所對應的基因本體標注。
[0017]選擇GO的三個不同知識體系當中的生物過程(Biological Process, BP)體系,并選擇在BP標注體系中每個蛋白質的GO注釋條目,用以計算步驟5、6中基因及基因生成物的相似度。
[0018]步驟5:計算兩注釋條目的功能相似度。
[0019]采用基于信息量(Information Content, IC)的方法,即測量比較任意兩條目間共同的信息量大小,計算兩注釋條目的功能相似度,方法如下:
[0020]給定BP注釋體系中任一個條目(:,Φ為BP中從屬于c的所有子條目的集合,p(C)表示一個基因被Φ中任一條目所注釋的概率,并以負對數(shù)形式表示該條目所包含的信息量,即-log (p (c))。計算兩個條目的功能相似度,即二者最低層的共有父條目結點的信息量大小,公式如下:
【權利要求】
1.一種針對多視圖數(shù)據(jù)融合的蛋白質功能模塊挖掘方法,其特征在于包括以下步驟: 步驟1:構建蛋白質相互作用網(wǎng)絡PPIN的鄰接矩陣A ; 每個結點順序編號并標記為(1,2,…,N),N為結點總數(shù);結點1、j間的邊記為,且.0〈i〈N,0〈j〈N ;忽略自相關關系,A的對角線元素全部設定為O ;相互作用無方向指向,A為對稱矩陣; 步驟2:計算基因表達模式的相似程度; 采用Pearson相關系數(shù)計算基因表達模式的相似程度,并歸一化至[0,I]; 步驟3:計算基因表達譜上的相似矩陣; 將基因共表達相關系數(shù)作為的權重,與PPIN數(shù)據(jù)結合,獲得基因表達譜上的相似矩陣 wCO:
WCOij = CoExpij X Aij 其中,CoExp為基因共表達相關系數(shù);X代表兀素相乘; 步驟4:提取蛋白質所對應的基因本體標注; 選擇基因本體注釋信息GO的三個不同知識體系當中的生物過程體系,并選擇在生物過程標注體系中每個蛋白質的GO注釋條目,用以計算步驟5、6中基因及基因生成物的相似度; 步驟5:計算兩注釋條目的功能相似度; 給定生物過程BP注釋體系中任一個條目C,Φ為BP中從屬于c的所有子條目的集合,P(c)表示一個基因被Φ中任一條目所注釋的概率,并以負對數(shù)形式表示該條目所包含的信息量,即_log(p(C));計算兩個條目的功能相似度,即二者最低層的共有父條目結點的信息量大小,公式如下:
【文檔編號】G06F19/24GK103559426SQ201310545984
【公開日】2014年2月5日 申請日期:2013年11月6日 優(yōu)先權日:2013年11月6日
【發(fā)明者】賈克斌, 張媛 申請人:北京工業(yè)大學