生物學(xué)數(shù)據(jù)分析方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機分析高維度生物學(xué)數(shù)據(jù)的技術(shù)領(lǐng)域,特別是涉及一種生物學(xué)數(shù)據(jù)分析方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著生物學(xué)高通量檢測技術(shù)的飛速發(fā)展,目前可一次性同時檢測幾萬個分子的表達(dá)值。但由于受到資金等情況的限制,往往在實驗中出現(xiàn)樣本數(shù)目遠(yuǎn)遠(yuǎn)小于被檢測的分子數(shù)目的情況。以基因芯片為例,人類mRNA芯片可一次性檢測3萬左右的基因。如何從此類數(shù)據(jù)中合理的挖掘出具有生物學(xué)意義的分子是該領(lǐng)域的重要研究方向之一。常用的方式為利用機器學(xué)習(xí)領(lǐng)域中的特征選擇方法對高維數(shù)據(jù)進(jìn)行降維,去除其中的冗余及噪聲數(shù)據(jù),從而得到原始特征的子集為最終的特征集合。然而,由于生物學(xué)數(shù)據(jù)中往往原始特征數(shù)目過于龐大,導(dǎo)致運算時間過長,且通常將特征作為彼此無關(guān)的個體,這在一定程度上與生物分子彼此間存在關(guān)聯(lián)的特點相沖突。所以,有必要改進(jìn)現(xiàn)有技術(shù)中存在的無法根據(jù)背景知識數(shù)據(jù)的實際特點而分析實際實驗生物學(xué)數(shù)據(jù)的問題。
【發(fā)明內(nèi)容】
[0003]基于此,有必要針對現(xiàn)有技術(shù)中存在的無法根據(jù)背景知識數(shù)據(jù)的實際特點而分析實際實驗生物學(xué)數(shù)據(jù)的問題,提供一種生物學(xué)數(shù)據(jù)分析方法和系統(tǒng)。
[0004]一種生物學(xué)數(shù)據(jù)分析方法,其包括:
[0005]接收原始數(shù)據(jù),并將原始數(shù)據(jù)轉(zhuǎn)換為矩陣形式,行代表特征,列代表樣本;
[0006]根據(jù)原始數(shù)據(jù)的技術(shù)領(lǐng)域查找背景知識數(shù)據(jù);
[0007]依據(jù)所述背景知識數(shù)據(jù)的數(shù)據(jù)特點進(jìn)行分類,構(gòu)建不同類型的本體論知識庫和/或數(shù)據(jù)集;
[0008]判斷所述本體論知識庫和/或數(shù)據(jù)集的所屬類型,根據(jù)所述類型選擇對應(yīng)的特征篩選步驟;
[0009]執(zhí)行選擇的特征篩選步驟,獲得預(yù)篩選的結(jié)果。
[0010]在其中一個實施例中,所述特征篩選步驟從以下步驟中擇一選擇:利用統(tǒng)計學(xué)方法計算所述矩陣形式中特征是否在本體論知識庫或數(shù)據(jù)集中富集以獲取預(yù)篩選結(jié)果的步驟,將所述矩陣形式中的特征映射到相應(yīng)數(shù)據(jù)集中以獲取預(yù)篩選結(jié)果的步驟,在利用統(tǒng)計學(xué)方法計算所述矩陣形式中特征是否在本體論知識庫或數(shù)據(jù)集中富集之后、再利用計算向量相關(guān)性的方法計算特征之間的表達(dá)相關(guān)性以獲取預(yù)篩選結(jié)果的步驟,根據(jù)所述矩陣形式中的特征與數(shù)據(jù)集節(jié)點之間的拓?fù)湫再|(zhì)計算節(jié)點拓?fù)涠炔⑦M(jìn)行排序以獲取預(yù)篩選結(jié)果的步驟。
[0011]在其中一個實施例中,所述依據(jù)所述背景知識的數(shù)據(jù)特點進(jìn)行分類用以構(gòu)建不同類型的本體論知識庫和/或數(shù)據(jù)集的步驟包括:
[0012]判斷所述背景知識數(shù)據(jù)是否是文本類型,若是,則將所述背景知識數(shù)據(jù)構(gòu)建為源自文本型的本體論知識庫;若否,則判斷所述背景知識數(shù)據(jù)的內(nèi)部是否有結(jié)構(gòu)關(guān)系,若否,則將所述背景知識數(shù)據(jù)構(gòu)建為源自獨立背景知識集合的η倍數(shù)據(jù)集,若是,則判定所述背景知識數(shù)據(jù)為非獨立背景知識的數(shù)據(jù)集,所述η為背景知識集合中數(shù)目超過原始數(shù)據(jù)特征數(shù)的倍數(shù)。
[0013]在其中一個實施例中,所述依據(jù)所述背景知識的數(shù)據(jù)特點進(jìn)行分類用以構(gòu)建不同類型的本體論知識庫和/或數(shù)據(jù)集的步驟還包括:
[0014]若所述背景知識數(shù)據(jù)的內(nèi)部有結(jié)構(gòu)關(guān)系,則繼續(xù)判斷所述內(nèi)部結(jié)構(gòu)關(guān)系是否有從屬性,將所述非獨立背景知識的數(shù)據(jù)集中內(nèi)部有從屬結(jié)構(gòu)關(guān)系的背景知識數(shù)據(jù)構(gòu)建為源自非文本型的本體論知識庫。
[0015]在其中一個實施例中,所述依據(jù)所述背景知識的數(shù)據(jù)特點進(jìn)行分類用以構(gòu)建不同類型的本體論知識庫和/或數(shù)據(jù)集的步驟還包括:
[0016]若背景知識數(shù)據(jù)的內(nèi)部有結(jié)構(gòu)關(guān)系,則繼續(xù)判斷所述內(nèi)部結(jié)構(gòu)關(guān)系是否有方向性,若是,則將所述背景知識數(shù)據(jù)中有方向性結(jié)構(gòu)關(guān)系的數(shù)據(jù)構(gòu)建為源自非獨立背景知識集合的有向網(wǎng),若否,則將所述背景知識數(shù)據(jù)中無方向性結(jié)構(gòu)關(guān)系的數(shù)據(jù)構(gòu)建為源自非獨立背景知識集合的無向網(wǎng)。
[0017]在其中一個實施例中,所述源自文本型的本體論知識庫對應(yīng)的特征篩選步驟包括:利用統(tǒng)計學(xué)方法計算所述矩陣形式中特征是否在所述本體論知識庫節(jié)點中富集,選出所有不高于預(yù)設(shè)第一閾值的節(jié)點,選擇可富集于所述節(jié)點的特征,作為預(yù)篩選的結(jié)果;
[0018]所述源自獨立背景知識集合的η倍數(shù)據(jù)集對應(yīng)的特征篩選步驟包括:
[0019]當(dāng)η小于或接近1時,將所述矩陣形式中的特征映射到此數(shù)據(jù)集中,獲取預(yù)篩選的結(jié)果;當(dāng)η遠(yuǎn)大于1時,利用統(tǒng)計學(xué)方法計算所述矩陣形式中特征是否在所述數(shù)據(jù)集中富集,選出所有不高于預(yù)設(shè)第二閾值的數(shù)據(jù)集,選擇可富集于所述數(shù)據(jù)集的特征,作為預(yù)篩選的結(jié)果。
[0020]在其中一個實施例中,所述源自非文本型的本體論知識庫對應(yīng)的特征篩選步驟包括:
[0021]利用統(tǒng)計學(xué)方法計算所述矩陣形式中特征是否在所述本體論知識庫節(jié)點中富集,選出所有不高于預(yù)設(shè)第三閾值的節(jié)點,選擇可富集于所述節(jié)點的特征,再利用計算向量相關(guān)性的方法計算所選擇出的特征之間的表達(dá)相關(guān)性,選出所有滿足預(yù)設(shè)第四閾值的特征,作為預(yù)篩選的結(jié)果。
[0022]在其中一個實施例中,所述源自非獨立背景知識集合的有向網(wǎng)或無向網(wǎng)對應(yīng)的特征篩選步驟包括:將所述矩陣形式中特征與所述有向網(wǎng)或無向網(wǎng)中節(jié)點相對應(yīng),計算節(jié)點的拓?fù)湫再|(zhì),根據(jù)拓?fù)湫再|(zhì)將其排序,設(shè)置第五閾值,選擇排序靠前且不超過第五閾值的特征,作為預(yù)篩選的結(jié)果。
[0023]基于上述方法,本發(fā)明還提供了一種生物學(xué)數(shù)據(jù)分析系統(tǒng),其包括:
[0024]輸入模塊,用于接收原始數(shù)據(jù),并將原始數(shù)據(jù)轉(zhuǎn)換為矩陣形式,行代表特征,列代表樣本;
[0025]查找模塊,用于根據(jù)原始數(shù)據(jù)的技術(shù)領(lǐng)域查找背景知識數(shù)據(jù);
[0026]分類模塊,用于依據(jù)所述背景知識數(shù)據(jù)的數(shù)據(jù)特點進(jìn)行分類,構(gòu)建不同類型的本體論知識庫和/或數(shù)據(jù)集 '及
[0027]特征預(yù)篩選模塊,用于判斷所述本體論知識庫和/或數(shù)據(jù)集的所屬類型,根據(jù)所述類型選擇對應(yīng)的特征篩選步驟,并執(zhí)行選擇的特征篩選步驟,獲得預(yù)篩選的結(jié)果。
[0028]在其中一個實施例中,所述分類模塊包括:
[0029]文本類型判斷單元,用于判斷所述背景知識數(shù)據(jù)是否是文本類型;
[0030]源自文本型的本體論知識庫構(gòu)建單元,用于將文本類型的背景知識數(shù)據(jù)構(gòu)建為源自文本型的本體論知識庫;
[0031]內(nèi)部結(jié)構(gòu)關(guān)系判斷單元,用于判斷所述背景知識數(shù)據(jù)的內(nèi)部是否有結(jié)構(gòu)關(guān)系;
[0032]源自獨立背景知識集合的η倍數(shù)據(jù)集構(gòu)建單元,用于將內(nèi)部沒有結(jié)構(gòu)關(guān)系的背景知識數(shù)據(jù)構(gòu)建為源自獨立背景知識集合的η倍數(shù)據(jù)集;
[0033]從屬性判斷單元,用于判斷所述內(nèi)部結(jié)構(gòu)關(guān)系是否有從屬性;
[0034]源自非文本型的本體論知識庫構(gòu)建單元,用于將所述非獨立背景知識的數(shù)據(jù)集中內(nèi)部有從屬結(jié)構(gòu)關(guān)系的背景知識數(shù)據(jù)構(gòu)建為源自非文本型的本體論知識庫;
[0035]方向性判斷單元,用于判斷所述內(nèi)部結(jié)構(gòu)關(guān)系是否有方向性;
[0036]源自非獨立背景知識集合的有向網(wǎng)構(gòu)建單元,用于將所述背景知識數(shù)據(jù)中有方向性結(jié)構(gòu)關(guān)系的數(shù)據(jù)構(gòu)建為源自非獨立背景知識集合的有向網(wǎng);及
[0037]源自非獨立背景知識集合的無向網(wǎng)構(gòu)建單元,用于將所述背景知識數(shù)據(jù)中無方向性結(jié)構(gòu)關(guān)系的數(shù)據(jù)構(gòu)建為源自非獨立背景知識集合的無向網(wǎng)。
[0038]在其中一個實施例中,所述判斷模塊包括:
[0039]第一單元,用于針對源自文本型的本體論知識庫,利用統(tǒng)計學(xué)方法計算所述矩陣形式中特征是否在所述本體論知識庫節(jié)點中富集,選出所有不高于預(yù)設(shè)第一閾值的節(jié)點,選擇可富集于所述節(jié)點的特征作為預(yù)篩選的結(jié)果的步驟;
[0040]第二單元,用于針對源自獨立背景知識集合的η倍數(shù)據(jù)集,當(dāng)η小于或接近1時,執(zhí)行將所述矩陣形式中的特征映射到此數(shù)據(jù)集中,獲取預(yù)篩選的結(jié)果的步驟;
[0041]第三單元,用于針對源自獨立背景知識集合的η倍數(shù)據(jù)集,當(dāng)η遠(yuǎn)大于1時,執(zhí)行利用統(tǒng)計學(xué)方法計算所述矩陣形式中特征是否在所述數(shù)據(jù)集中富集,選出所有不高于預(yù)設(shè)第二閾值的數(shù)據(jù)集,選擇可富集于所述數(shù)據(jù)集的