用于選擇用于建模上位性效應的標記的信息處理方法和系統的制作方法
【專利摘要】各個實施例選擇用于建模上位性效應的標記。在一個實施例中,處理器接收基因標記集合和表型。針對基因標記集合中的每個來確定關于表型的相關性評分。基于具有最高相關性評分的基因標記的相關性評分來設置閾值。針對基因標記集合中的至少一個基因標記來確定該至少一個基因標記和基因標記集合中的至少一個其他基因標記之間的至少一個交互的相關性評分。基于該至少一個交互的相關性評分滿足閾值,該至少一個交互被添加到最高k特征集。
【專利說明】用于選擇用于建模上位性效應的標記的信息處理方法和系統
【技術領域】
[0001]本發明一般涉及計算生物學領域,且更具體地,涉及選擇用于建模用于表型預測的基因上位性(epistasis)的特征。
【背景技術】
[0002]特征選擇方法對于分類和回歸問題是關鍵的。例如,在大型學習應用中,特別是對于諸如基因表達和表型數據等生物數據(其中變量的數量遠超過樣本數量),這是常見的。“維數災難”(curse of dimensionality)問題不僅影響學習算法的計算效率,而且導致這些算法的低性能。為解決這個問題,可使用各種特征選擇方法,其中,選擇重要特征的子集,并且基于這些特征來訓練學習算法。
【發明內容】
[0003]在一個實施例中,公開了一種用于選擇用于建模上位性效應的標記(marker)的信息處理方法。計算機實施方法包括由處理器接收一組基因標記和表型。針對表型,確定用于該組基因標記的每個的相關性評分。基于該組基因標記中具有最高相關性評分的基因標記的相關性評分設置閾值。針對該組基因標記中的至少一個基因標記,確定用于該至少一個基因標記和該組基因標記中的至少一個其他基因標記之間的至少一次交互的相關性評分。基于該至少一次交互的相關性評分滿足閾值,該至少一次交互被添加到最高k(top-k)特征集。最聞k特征集中的每個特征是各包括最聞k相關性評分的基因標記和交互中的一個。選擇最高k特征集的子集以用于建模對物理特性的上位性效應。
[0004]在另一個實施例中,公開了一種用于選擇用于建模上位性效應的標記的信息處理系統。信息處理系統包括:被配置為由處理器接收一組基因標記和表型的模塊;被配置為為該組基因標記中的每個確定針對表型的相關性評分的模塊;被配置為基于該組基因標記中具有最高相關性評分的基因標記的相關性評分設置閾值的模塊;被配置為為該組基因標記中的至少一個基因標記確定用于該至少一個基因標記和該組基因標記中的至少一個其他基因標記之間的至少一次交互的相關性評分的模塊;以及被配置為基于該至少一次交互的相關性評分滿足閾值,添加該至少一次交互到最高k特征集的模塊,其中最高k特征集中的每個特征是各包括最高k相關性評分的基因標記和交互中的一個。
【專利附圖】
【附圖說明】
[0005]在全部附圖中類似的參考標號指示相同或功能類似的元件,且其與以下的詳細描述結合并形成說明書的一部分,用于進一步描述各種實施例并解釋根據本發明的各種原理和優勢,在附圖中:
[0006]圖1是示出根據本發明的一個實施例的操作環境的一個例子的框圖;且
[0007]圖2是示出根據本發明的一個實施例的用于選擇用于建模上位性效應的標記的 一個例子的操作性流程圖。
【具體實施方式】
[0008]圖1示出了根據本發明的一個實施例的一個操作環境100的概圖。特別地,圖1示出了可被用在本發明的實施例中的信息處理系統102。圖1示出的信息處理系統102僅是合適的系統一個例子,且不旨在限定以上描述的本發明的實施例的使用范圍或功能。圖1的信息處理系統102能夠實施和/或執行上述任何功能。任何被合適配置的處理系統可被用作本發明實施例中的信息處理系統102。
[0009]如圖1所示,信息處理系統102是通用計算設備的形式。信息處理系統102的組件可包括但不限于一個或多個處理器或處理單元104、系統存儲器106和總線108,總線108將包括系統存儲器106的各種系統組件耦合到處理器104。
[0010]總線108表示若干總線結構類型中的任何一個類型的一個或多個,所述總線結構類型包括存儲總線或存儲控制器、外圍總線、加速圖形端口和使用多種總線架構中的任何一個的處理器或本地總線。作為示舉例而不是限制,這樣的架構包括工業標準架構(ISA)總線、微通道架構(MCA)總線,增強的ISA (EISA)總線、視頻電子標準協會(VESA)局部總線和外圍組件互連(PCI)總線。
[0011]在一個實施例中,系統存儲器106包括特征選擇模塊109,其被配置為執行以下描述的一個或多個實施例。例如,在一個實施例中,特征選擇模塊109被配置為基于最大相關性和最小冗余準則執行上位性特征選擇過程。該特征選擇機制在此被稱為“EMRMR”。如以下將更詳細討論的,使用EMRMR,特征選擇模塊109使用最大相關性和最小冗余準則從特征空間選擇一組特征,以用于高效地建模用于表型預測的上位性。應當注意,盡管圖1示出了特征選擇模塊109位于主存儲器中,特征選擇模塊109也可位于處理器104內,是個單獨的硬件組件,且/或分布在多個信息處理系統和/或處理器中。
[0012]系統存儲器106也可包括諸如隨機存取存儲器(RAM) 110和/或緩沖存儲器112的易失性存儲器形式的計算機系統可讀介質。信息處理系統102還可包括其他可移動/不可移動、易失性/非易失性計算機系統存儲介質。作為示例,存儲系統114可被提供用于從不可移動或可移動、非易失性介質讀取或寫入到不可移動或可移動、非易失性介質,諸如一個或多個固態磁盤和/或磁介質(典型地被稱為“硬驅”)。可提供用于從可移動非易失性磁盤(例如“軟盤”)讀取或寫入到其的磁盤驅動器,以及用于從可移動非易失性光盤,諸如⑶-ROM、DVD-ROM或其他光介質,讀取或寫入到其的光盤驅動器。在這樣的情況下,每個可通過一個或多個數據介質接口連接到總線108。存儲器106可包括至少一個程序產品,其具有一組程序模塊,所述程序模塊被配置為執行本發明的實施例的功能。
[0013]作為示例而非限制,具有一組程序模塊118的程序/實用程序116,以及操作系統、一個或多個應用程序、其他程序模塊和程序數據,可被存儲在存儲器106中。操作系統、一個或多個應用程序、其他程序模塊以及程序數據及其某個組合中的每個,可包括聯網環境的實現。程序模塊118通常執行本發明的實施例的功能和/或方法。
[0014]信息處理系統102也可與一個或多個外部裝置120通信,所述外部裝置諸如鍵盤、指針設備、顯示器122等;使用戶能與信息處理系統102交互的一個或多個設備;和/或使計算機系統/服務器102能與一個或多個其他計算設備通信的任何設備(例如網卡、調制解調器等)。這樣的通信可經由I/o接口 124發生。而且,信息處理系統102可經由網絡適配器126與一個或多個網絡通信,所述網絡諸如局域網(LAN)、廣域網(WAN)和/或公共網絡(例如因特網)。如所示出的,網絡適配器126經由總線108與信息處理系統102的其他組件通信。其他硬件和/或軟件組件也可與信息處理系統102結合使用。例子包括但不限于微代碼、設備驅動器、冗余處理單元、外部磁盤驅動器陣列、RAID系統、磁盤驅動器和數據歸檔存儲系統。
[0015]用于特征選擇的一個標準被稱為最大相關性和最小冗余度(MRMR)。MRMR貪婪地選擇與分類(class)值最大相關并且互相之間最小依賴的特征。在MRMR中,最大相關性標準搜索使得單個特征與分類變量之間的所有互信息值的平均值最大化的特征。但是,僅基于最大相關性的特征選擇傾向于選擇具有高冗余度的特征,即被選擇的特征的相關性傾向于很高。如果這些高度相關的特征中的某些被移除,相應的分類辨別力(classdiscriminative power)將不會改變,或者只會有少量改變。因此,最大冗余度標準被用于選擇互相排斥的特征。在Peng等人的“Feature selection based on mutual informationcriteria of max-dependency, max-relevance, and min-redundancy,,,Pattern Analysisand Machine Intelligence, IEEE Transactions on, 27 (8): 1226-1238,2005 中給出了對MRMR的更詳細的討論,該文獻的全部內容通過引用結合于此。
[0016]在表型預測問題中,輸入通常是一組樣本(每個樣本具有表型值)和一組表型值(在這里也被稱為“特征”、“標記”和“基因型”。表型預測中的任務是使用該輸入數據來訓練模型,從而進一步的基因型數據可被用于預測不可用的表型數據。因此,回歸被表示如下:
【權利要求】
1.一種用于選擇用于建模上位性效應的標記的信息處理方法,該計算機實現的方法包括: 由處理器接收基因標記集合和表型; 針對基因標記集合中的每個來確定關于表型的相關性評分; 基于基因標記集合中的具有最高相關性評分的基因標記的相關性評分來設置閾值;針對基因標記集合中的至少一個基因標記來確定該至少一個基因標記和基因標記集合中的至少一個其他基因標記之間的至少一個交互的相關性評分;以及 基于該至少一個交互的相關性評分滿足閾值,將該至少一個交互添加到最高k特征集,其中,最聞k特征集中的每個特征是各包含一個最聞k相關性評分的基因標記和交互中的至少一個。
2.如權利要求1所述的信息處理方法,其中,針對基因標記集合中的每個來確定的相關性評分是基于基因標記集合中的每個和表型之間的互信息。
3.如權利要求1所述的信息處理方法,其中,針對至少一個交互確定的相關性評分是基于該至少一個交互和表型之間的互信息。
4.如權利要求1 所述的信息處理方法,還包括: 從基因標記集合隨機抽樣基因標記的子集;以及 從該基因標記子集中選擇所述至少一個其他基因標記。
5.如權利要求4所述的信息處理方法,其中,確定至少一個交互的相關性評分包括: 確定相關性評分的第一集合,其包括相對于表型的用于所述至少一個基因標記和基因標記子集中的每個之間的第一多個交互中的每個的相關性評分; 基于與所述相關性評分的第一集合關聯的正態分布來確定所述至少一個基因標記與包含大于閾值的相關性評分的交互關聯的概率; 將該概率與概率閾值進行比較;以及 基于滿足概率閾值的概率來確定相關性評分的第二集合,該集合包括所述至少一個基因標記和所述基因標記集合中的剩余基因標記集合之間的第二多個交互中的每個的相關性評分,其中,該第二多個交互包括所述至少一個交互,并且其中,該剩余基因標記集合包括所述至少一個其他基因標記。
6.如權利要求1所述的信息處理方法,還包括: 基于將所述至少一個交互添加到最高k特征集,通過將與最低相關性評分關聯的基因標記和交互中的一個從最高k特征集中移除,來生成更新的最高k特征集。
7.如權利要求1所述的信息處理方法,還包括: 根據與更新的最高k個特征中的基因標記和交互中的一個關聯的最高相關性評分來更新所述閾值。
8.如權利要求7所述的信息處理方法,還包括: 確定所述至少一個基因標記和所述基因標記集合中的至少一個其他基因標記之間的至少一個其他交互的相關性評分; 將該至少一個其他交互的相關性評分與已經更新的閾值進行比較;以及基于該至少一個其他交互的相關性評分滿足已經更新的閾值將該至少一個其他交互添加到最聞k特征集。
9.如權利要求1所述的信息處理方法,其中,所述最高k特征集的子集中的每個特征最大化與表型的相關性并最小化關于其他選中特征的冗余度。
10.一種用于選擇用于建模上位性效應的標記的信息處理系統,該計算機實現的系統包括: 被配置為通過處理器來接收基因標記集合和表型的模塊; 被配置為針對基因標 記集合中的每個來確定關于表型的相關性評分的模塊; 被配置為基于基因標記集合中的具有最高相關性評分的基因標記的相關性評分來設置閾值的模塊; 被配置為針對基因標記集合中的至少一個基因標記來確定該至少一個基因標記和基因標記集合中的至少一個其他基因標記之間的至少一個交互的相關性評分的模塊;以及 被配置為基于該至少一個交互的相關性評分滿足閾值將該至少一個交互添加到最高k特征集的模塊,其中,最高k特征集中的每個特征是各包含一個最高k相關性評分的基因標記和交互中的至少一個。
11.如權利要求10所述的信息處理系統,其中,針對基因標記集合中的每個來確定的相關性評分是基于基因標記集合中的每個和表型之間的互信息。
12.如權利要求10所述的信息處理系統,其中,針對至少一個交互確定的相關性評分基于該至少一個交互和表型之間的互信息。
13.如權利要求10所述的信息處理系統,還包括: 被配置為從基因標記集合隨機抽樣基因標記的子集的模塊;以及 被配置為從該基因標記子集中選擇所述至少一個其他基因標記的模塊。
14.如權利要求10所述的信息處理系統,其中,被配置為確定至少一個交互的相關性評分的模塊包括: 被配置為確定相關性評分的第一集合的模塊,該第一集合包括相對于表型的用于所述至少一個基因標記和基因標記子集中的每個之間的第一多個交互中的每個的相關性評分; 被配置為基于與所述相關性評分的第一集合關聯的正態分布來確定所述至少一個基因標記與包含大于閾值的相關性評分的交互關聯的概率的模塊; 被配置為將該概率與概率閾值進行比較的模塊;以及 被配置為基于滿足概率閾值的概率來確定相關性評分的第二集合的模塊,該集合包括所述至少一個基因標記和所述基因標記集合中的剩余基因標記集合之間的第二多個交互中的每個的相關性評分,其中,該第二多個交互包括所述至少一個交互,并且其中,該剩余基因標記集合包括至少一個其他基因標記。
15.如權利要求10所述的信息處理系統,其中,所述系統還包括: 被配置為基于將所述至少一個交互添加到最高k特征集、通過將與最低相關性評分關聯的基因標記和交互中的一個從最聞k特征集中移除來生成更新的最聞k特征集的|旲塊。
16.如權利要求10所述的信息處理系統,還包括: 被配置為根據與更新的最高k個特征中的基因標記和交互中的一個關聯的最高相關性評分來更新閾值的模塊。
17.如權利要求10所述的信息處理系統,其中,所述系統還包括:被配置為確定所述至少一個基因標記和所述基因標記集合中的至少一個其他基因標記之間的至少一個其他交互的相關性評分的模塊; 被配置為將該至少一個其他交互的相關性評分與已經更新的閾值進行比較的模塊;以及 被配置為基于該至少一個其他交互的相關性評分滿足已經更新的閾值將該至少一個其他交互添加到最高k特征集的模塊。
18.如權利要求10所述的計算機實現的系統,其中,所述最高k特征集的子集中的每個特征最大化與表型 的相關性并最小化關于其他選中特征的冗余度。
【文檔編號】G06F19/18GK103942467SQ201410025013
【公開日】2014年7月23日 申請日期:2014年1月20日 優先權日:2013年1月21日
【發明者】D·霍斯, 何丹, L·P·帕里達 申請人:國際商業機器公司