一種基于權重支持率的高通量篩選數據噪聲抑制方法和裝置的制造方法
【技術領域】
[0001] 本發明涉及計算機計算生物學領域,特別涉及計算生物學中,尤其涉及一種基于 權重支持率的高通量篩選數據噪聲抑制方法和裝置。
【背景技術】
[0002] 近年來,組合化學的長足發展使得短時間合成大量化合物成為可能,且遺傳學 研宄,如人類基因組計劃等,使靶蛋白數量以幾何級數增加。傳統小規模實驗方法難以處 理飛速增長的蛋白質分子,無法對其相互作用網絡進行全面探索;導致對高通量篩選(High ThroughputScreening)技術迫切需求。高通量篩選技術,根據待測樣品的合成路線,包括 液相和固相篩選;根據篩選目標物,包括純蛋白受體親合性篩選、酶活性篩選、細胞活性篩 選等。高通量篩選技術主要包括放射性染料篩選、熒光篩選、閃爍接近化驗、酶連接免疫吸 收劑化驗、細胞功能篩選小鼠顯型表型遺傳學等方法。
[0003] 高通量篩選技術具備很高的執行效率,對比小規模實驗方法,能減少篩選單位的 數量,并自動化重復工作,同時還能簡化篩選過程和降低篩選成本。但是,高通量篩選技術 也存在自身的不足,即測定的高通量篩選數據存在較多的噪聲,對數據的參考價值構成影 響。因此,如何對高通量篩選數據中的噪聲數據進行抑制,是計算生物學領域的一個重點研 宄問題。
[0004] 現有高通量篩選數據噪聲抑制方法主要包括基于知識的方法、基于信息整合的方 法、基于重復實驗的方法和基于高通量數據網絡拓撲結構的方法。其中,基于知識的方法和 基于信息整合的方法需要對涉及靶蛋白的性質進行進一步的分析,導致很大的工作量和分 析成本;基于重復試驗的方法則需要重復進行傳統小規模實驗或者高通量篩選實驗,同樣 會耗費巨大的人力物力成本。基于高通量網絡拓撲結構的方法,其主要優勢在于只需要獲 得高通量篩選數據,即可構建蛋白質相互作用網絡,并根據對蛋白質相互作用網絡拓撲結 構的分析結果實現對高通量篩選數據進行噪聲抑制的目的。但是,基于高通量網絡拓撲結 構的方法在處理稀疏的蛋白質相互作用網絡時,其性能會急劇降低。然而,受實際成本限 制,現有的高通量篩選數據,其對應的蛋白質網絡,往往是比較稀疏的。因此,如何對應稀疏 蛋白質相互作用網絡的高通量篩選數據進行噪聲抑制,是計算生物學領域的一個關鍵技術 問題。
【發明內容】
[0005] 本發明旨在至少解決現有技術中存在的技術問題,特別創新地提出了一種基于權 重支持率的高通量篩選數據噪聲抑制方法和裝置。
[0006] 為了實現本發明的上述目的,本發明提供了一種一種基于權重支持率的高通量篩 選數據噪聲抑制方法,其關鍵在于,包括如下步驟:
[0007]S1,數據轉化模塊接收服務器采集的高通量篩選數據,將其轉化為蛋白質相互作 用矩陣,將得到的蛋白質相互作用矩陣存入數據存儲模塊;
[0008] S2,數據存儲模塊存儲由數據轉化模塊轉化的蛋白質相互作用矩陣以及存儲構造 的權重矩陣和權重支持率矩陣;
[0009] S3,執行模塊根據數據存儲模塊所存儲的蛋白質相互作用矩陣,執行權重矩陣構 造過程和權重支持率矩陣構造過程,并將構造完成的權重矩陣和權重支持率矩陣存入數據 存儲模塊;
[0010] S4,噪聲抑制模塊根據數據存儲模塊存儲的蛋白質相互作用矩陣、權重矩陣和權 重支持率矩陣,執行高通量篩選數據抑制過程,并將經過噪聲抑制的高通量篩選數據輸出 至服務器。
[0011] 所述的基于權重支持率的高通量篩選數據噪聲抑制方法,優選的,所述S1包括:
[0012] S1-1,接收服務器采集的高通量篩選數據;
[0013] S1-2,根據高通量篩選數據對應的蛋白質集合P,構造|P|行,|P|列的空白相互作 用矩陣Y;
[0014] S1-3,對蛋白質二元組(a,b),根據高通量篩選數據,對Y中對應元素ya,b和yb,a 進行設置,其中a、b分別為蛋白質二元組數據,對所有蛋白質,進行從1?|P|的編號,然后 對于Y,其行號和列號對應蛋白質編號,所以ya,b和yb,a對應的都是編號為a和b的蛋白質 二元組間的相互作用關系;
[0015] S1-4,判斷是否已處理完所有的蛋白質二元組,若處理完畢,則執行S1-5,否則,執 行S1-3 ;
[0016] S1-5,將得到的蛋白質相互作用矩陣Y存儲至數據存儲模塊的相互作用矩陣存儲 單元。
[0017] 所述的基于權重支持率的高通量篩選數據噪聲抑制方法,優選的,所述S2包括:
[0018] S2-1,相互作用矩陣存儲單元存儲數據轉化模塊轉化的蛋白質相互作用矩陣;
[0019] S2-2,權重存儲單元存儲執行模塊根據蛋白質相互作用矩陣構造的權重矩陣數 據,將存儲的權重矩陣構造數據發送到噪聲抑制模塊;
[0020] S2-3,權重支持率存儲單元存儲根據蛋白質相互作用矩陣構造的權重支持率矩陣 數據,將存儲的權重支持率矩陣構造數據發送到噪聲抑制模塊。
[0021] 所述的基于權重支持率的高通量篩選數據噪聲抑制方法,優選的,所述S3包括:
[0022] S3-1,權重計算單元根據數據存儲模塊的蛋白質相互作用矩陣執行權重矩陣構造 過程,并將構造完成的權重矩陣存入數據存儲模塊的權重矩陣存儲單元;
[0023] S3-2,權重支持率計算單元根據數據存儲模塊的蛋白質相互作用矩陣,執行權重 支持率矩陣構造過程,并將構造完成的權重支持率矩陣存入數據存儲模塊的權重支持率矩 陣存儲單元。
[0024] 所述的基于權重支持率的高通量篩選數據噪聲抑制方法,優選的,所述S3-1還包 括:
[0025] S3-A,從數據存儲模塊的相互作用矩陣存儲單元中取出相互作用矩陣Y;
[0026] S3-B,根據相互作用矩陣Y的蛋白質集合P,構造|P|行,|P|列的空白權重矩陣 W;
[0027] S3-C,根據相互作用矩陣Y,對蛋白質集合P中的每個蛋白質a,以相互作用矩陣Y 的對應行向量ya作為其特征向量;
[0028]S3-D,對蛋白質二元組(a,b),根據其特征向量yJPyb,對權重矩陣W,計算權重 wa,b;
[0029]S3-E,判斷已處理完所有的蛋白質二元組(a,b);
[0030] S3-F,將權重矩陣W存儲至數據存儲模塊的權重矩陣存儲單元。
[0031] 所述的基于權重支持率的高通量篩選數據噪聲抑制方法,優選的,所述S3-2還包 括:
[0032]S3_a,從數據存儲模塊的相互作用矩陣存儲單元中取出相互作用矩陣Y;
[0033]S3_b,根據相互作用矩陣Y的蛋白質集合P,構造|P|行,|P|列的空白權重支持率 矩陣S,和|P|行,|P|列空白支持度矩陣R;
[0034] S3-c,根據相互作用矩陣Y,對蛋白質集合P中的每個蛋白質a,以相互作用矩陣Y 的對應行向量ya中的非零元素對應的蛋白質集合,作為其支持近鄰集合P(a);
[0035]S3_d,對蛋白質二元組(a,b),根據其支持近鄰集合P(a)和P(b),對權重矩陣W,計 算支持度矩陣R中對應的支持度元素ra,b;
[0036]S3_e,判斷是否已處理完畢所有的蛋白質二元組,若處理完畢,則執行步驟S3_f, 否則,執行S3-d;
[0037]S3_f,對于支持度矩陣R中的所有已知元素,計算支持度均值rAV(;;
[0038] S3_g,根據支持度均值!^%,計算支持度均值入;
[0039]S3_h,對蛋白質二元組(a,b),根據支持度矩陣R中的對應支持度元素ra,b和支持 度均值A,對權重支持率矩陣S,計算權重支持率sa,b;
[0040] S3-i,判斷已處理完畢所有的蛋白質二元組,若處理完畢,則執行S3-j,否則,執行 S3-h;
[0041] S3-j,將權重支持率矩陣S存儲至數據存儲模塊的權重支持率矩陣存儲單元。
[0042] 所述的基于權重支持率的高通量篩選數據噪聲抑制方法,優選的,所述S4還包 括:
[0043] S4-A,從數據存儲模塊的相互作用矩陣存儲單元中取出相互作用矩陣Y;
[0044] S4-B,從數據存儲模塊的權重矩陣存儲單元中取出權重矩陣W;
[0045] S4-C,從數據存儲模塊的權重支持率矩陣存儲單元中取出權重支持率矩陣S;
[0046] S4-D,根據相互作用矩陣Y對應的蛋白質集合P,對于Y中的所有元素,初始化均賦 值為〇,初始化|P|行,|P|列的反應