一種基因表達數據分類方法及分類系統的制作方法
【專利摘要】本申請公開了一種基因表達數據分類方法及分類系統,其中,所述基因表達數據分類方法中在獲得所述基因特征數據集之后,采用聚類算法對所述基因特征數據集進行聚類,獲得第一預設參數個的聚類集合,然后對所述聚類集合進行處理獲得第二樣本矩陣、第二訓練集以及特征索引集以對基因表達數據進行降維,從而降低基因表達數據之間的冗余度,進而在很大程度上降低了在之后對所述第二訓練集進行特征選擇的過程中占用的計算資源以及耗費的計算時間;而采用聚類算法對所述基因特征數據集進行聚類操作所占用的計算資源以及耗費的計算時間都很少,因此采用所述基因表達數據分類方法對待測基因表達數據進行分類占用的計算資源和耗費的計算時間都較少。
【專利說明】
-種基因表達數據分類方法及分類系統
技術領域
[0001] 本申請設及基因分類技術領域,更具體地說,設及一種基因表達數據分類方法及 分類系統。
【背景技術】
[0002] 利用DNA微陣列計數可W同時測定成千上萬維基因的表達數據,運些表達數據能 夠幫助研究人員研究生物的本質。但是在大量的基因表達數據中,只有很少量的基因表達 數據是研究人員的研究客體,W癌癥基因的研究為例,癌癥基因的表達數據樣本通常少于 一百,而在大量的基因表達數據中對癌癥基因與其他基因進行分類就需要耗費大量的計算 資源和計算時間。
[0003] 有研究人員利用支持向量機遞歸特征消除(Suppo;rt Vector Machine Recursive Fea化re Elimination,SVM-RFE)算法可W自動消除大量的基因表達數據中的冗余基因(即 對基因分類沒用貢獻的基因),W實現從大量的基因表達數據中找出目標基因的目的。
[0004] 但是SVM-WE算法仍然需要對大量的基因表達數據進行特征選擇處理,需要占用 大量的計算資源并且耗費大量的計算時間。
【發明內容】
[0005] 為解決上述技術問題,本發明提供了一種基因表達數據分類方法及分類系統,W 解決對基因表達數據進行分類需要占用大量的計算資源并且耗費大量的計算時間的問題。
[0006] 為解決上述技術問題,本發明實施例提供了如下技術方案:
[0007] -種基因表達數據分類方法,包括:
[000引獲取第一訓練集,利用所述第一訓練集生成基因特征數據集,所述第一訓練集中 包含基因表達數據;
[0009] 采用聚類算法對所述基因特征數據集進行聚類,獲得第一預設參數個的聚類集 合,每個所述聚類集合具有一個聚類中屯、;
[0010] 利用所有的所述聚類集合的代表基因生成第二樣本矩陣,其中,所述代表基因為 每個所述聚類集合中的一個基因表達數據;
[0011] 對所述第二樣本矩陣進行處理獲得第二訓練集;
[0012] 生成與所述第二訓練集對應的特征索引集;
[0013] 對所述第二訓練集進行特征排序,獲得與所述排序后的第二訓練集對應的有順序 的特征索引集;
[0014] 在所述有順序的特征索引集中選取前第二預設參數個特征組成第Ξ訓練集;
[0015] 對所述第Ξ訓練集進行建模,獲得模型函數;
[0016] 根據所述特征索引集、有順序的特征索引集和所述模型函數對待測基因表達數據 進行分類,獲得待測基因表達數據的分類結果。
[0017] 優選的,所述第一預設參數的設定方式為:
[0018] 采用N折交叉驗證法對所述基因特征數據集進行處理,將識別率最大時對應的值 作為所述第一預設參數,其中N為5、10或20。
[0019] 優選的,所述采用聚類算法對所述基因特征數據集進行聚類,獲得第一預設參數 個的聚類集合,每個所述聚類集合具有一個聚類中屯、,包括:
[0020] 采用K-means聚類算法對所述基因特征數據集進行聚類,獲得第一預設參數個的 聚類集合,每個所述聚類集合具有一個聚類中屯、。
[0021] 優選的,所述代表基因通過公式
C生成;
[0022] 其中,Gk表示第k個聚類集合點表示所述第k個聚類集合的代表基因,mk表示第k個 聚類中屯、,K表示所述第一預設參數;gi表示所述聚類集合中的基因表達數據;
[0023] 其中,所述第二樣本矩陣為
其中,R表示實數集,N表示所 述第一訓練集中的樣本總個數。
[0024] 優選的,根據所述特征索引集、有順序的特征索引集和所述模型函數對待測基因 表達數據進行分類,獲得待測基因表達數據的診斷結果包括:
[0025] 根據所述特征索引集對所述待測基因的表達數據進行特征選擇,獲得第一次特征 選擇后的樣本;
[0026] 根據所述有順序的特征索引集,選擇所述第一次特征選擇后的樣本中的前第二預 設參數個特征組成第二次特征選擇后的樣本;
[0027] 將所述第二次特征選擇后的樣本輸入所述模型函數中,獲得所述模型函數的輸出 結果,根據所述輸出結果獲得所述待測基因表達數據的分類結果。
[0028] -種基因表達數據分類系統,包括:
[0029] 特征選擇模塊,用于獲取第一訓練集,利用所述第一訓練集生成基因特征數據集, 所述第一訓練集包含基因表達數據;采用聚類算法對所述基因特征數據集進行聚類,獲得 第一預設參數個的聚類集合,每個所述聚類集合具有一個聚類中屯、;利用所有的所述聚類 集合的代表基因生成第二樣本矩陣,其中,所述代表基因為每個所述聚類集合中的一個基 因表達數據;對所述第二樣本矩陣進行處理獲得第二訓練集,生成與所述第二訓練集對應 的特征索引集;對所述第二訓練集進行特征排序,獲得與所述排序后的第二訓練集對應的 有順序的特征索引集;在所述有順序的特征索引集中選取前第二預設參數個特征組成第Ξ 訓練集;
[0030] 訓練模塊,用于對所述第Ξ訓練集進行建模,獲得模型函數;
[0031] 診斷模塊,用于根據所述特征索引集、有順序的特征索引集和所述模型函數對待 測基因表達數據進行分類,獲得待測基因表達數據的分類結果。
[0032] 優選的,所述特征選擇模塊包括:
[0033] 預處理單元,用于獲取基因樣本的第一訓練集,對所述第一訓練集進行預處理,生 成第一樣本矩陣,并根據所述樣本矩陣生成基因特征數據集.
[0034] 第一特征選擇單元,用于采用N折交叉驗證法對所述基因特征數據集進行處理,將 識別率最大時對應的值作為所述第一預設參數,其中N為5或10或20;采用K-means聚類算法 對所述基因特征數據集進行聚類,獲得第一預設參數個的聚類集合,每個所述聚類集合具 有一個聚類中屯、,在每個聚類集合中選取一個基因作為該聚類集合的代表基因,并利用所 有的聚類集合的代表基因生成第二樣本矩陣,并對所述第二樣本矩陣進行處理獲得第二訓 練集,同時生成與所述第二訓練集對應的特征索引集;
[0035] 第二特征選擇單元,用于對所述第二訓練集進行特征排序,獲得有順序的特征索 引集,確定保留的特征個數為第二預設參數,在所述有順序的特征索引集中選取前第二預 設參數個特征組成第Ξ訓練集。
[0036] 優選的,所述第一特征選擇單元用于采用N折交叉驗證法對所述基因特征數據集 進行處理,將識別率最大時對應的值作為所述第一預設參數,其中N為5或10或20;采用K- means聚類算法對所述基因特征數據集進行聚類,獲得第一預設參數個聚類中屯、和第一預 設參數個聚類集合,在每個聚類集合中選取一個基因作為該聚類集合的代表基因,并利用 所有的聚類集合的代表基因生成第二樣本矩陣,并取所述第二樣本矩陣的每一列組成 所述第二訓練集齡片培,其中,X' iERK。
[0037] 優選的,所述代表基因通過公式
生成,其中,Gk表示 第k個聚類集合,豪表示所述第k個聚類集合的代表基因,mk表示第k個聚類中屯、,K表示所述 第一預設參數;gi表示所述聚類集合中的基因表達數據;
[0038] 其中,所述第二樣本矩陣式
其中R表示實數集,N表示生成 所述第一訓練集中的樣本總個數。
[0039] 優選的,所述診斷模塊包括:
[0040] 第一選擇單元,用于根據所述特征索引集對所述待測基因表達數據進行特征選 擇,獲得第一次特征選擇后的樣本;
[0041] 第二選擇單元,用于根據所述有順序的特征索引集選擇所述第一次特征選擇后的 樣本中的前第二預設參數個特征組成第二次特征選擇后的樣本;
[0042] 診斷單元,用于將所述第二次特征選擇后的樣本輸入所述模型函數中,獲得所述 模型函數的輸出結果,根據所述輸出結果獲得所述待測基因表達數據的分類結果。
[0043] 從上述技術方案可W看出,本發明實施例提供了一種基因表達數據分類方法及分 類系統,其中,所述基因表達數據分類方法中在獲得所述基因特征數據集之后,采用聚類算 法對所述基因特征數據集進行聚類,獲得第一預設參數個的聚類集合,然后對所述聚類集 合進行處理獲得第二樣本矩陣、第二訓練集W及特征索引集W對基因表達數據進行降維, 從而降低基因表達數據之間的冗余度,進而在很大程度上降低了在之后對所述第二訓練集 進行特征選擇的過程中占用的計算資源W及耗費的計算時間;而采用聚類算法對所述基因 特征數據集進行聚類操作所占用的計算資源W及耗費的計算時間都很少,因此采用所述基 因表達數據分類方法對待測基因表達數據進行分類占用的計算資源和耗費的計算時間都 較少。
【附圖說明】
[0044] 為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發明的實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可W根據 提供的附圖獲得其他的附圖。
[0045] 圖1為本申請的一個實施例提供的一種基因表達數據分類方法的流程示意圖;
[0046] 圖2為本申請的另一個實施例提供的一種基因表達數據分類方法的流程示意圖;
[0047] 圖3為本申請的一個實施例提供的一種基因表達數據分類系統的結構示意圖;
[0048] 圖4為本申請的一個實施例提供的一種特征選擇模塊的結構示意圖;
[0049] 圖5為本申請的一個實施例提供的一種診斷模塊的結構示意圖。
【具體實施方式】
[0050] 下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于 本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他 實施例,都屬于本發明保護的范圍。
[0051] 本申請的一個實施例提供了一種基因表達數據分類方法,如圖1所示,包括:
[0052] S101:獲取第一訓練集,利用所述第一訓練集生成基因特征數據集,所述第一訓練 集中包含基因表達數據。
[0053] 需要說明的是,所述第一訓練集中的基因表達數據通過DNA微陣列技術獲取。
[0054] 但在本申請的其他實施例中,還可W通過其他技術或者設備獲取基因表達數據, 本申請對獲取基因表達數據所采用的方法或裝置并不做限定,具體視實際情況而定。
[0055] 在本申請的一個具體實施例中,通過DNA微陣列技術獲取基因表達數據構成第一 訓練集戊。如直,其中,XI是所述第一訓練集中的基因表達數據,XiERD,Xi為所述第一訓練 集中的基因表達數據,yi是XI的標簽,表明XI的類別,7把{-1刊},叫戈表所述第一訓練集中 樣本的總個數,D代表所述第一訓練集中樣本的維數,R代表實數集。對所述第一訓練集進行 預處理,生成所述第一樣本矩陣X=[X1,…,…,ΧΝ],···,ΧΝ],該矩陣的每一列為所述第一訓 練集的一個樣本,取所述第一樣本矩陣的每一行,即& = (Xj)T,j = l,···,0,形成所述基因特 征數據集{g,足,
[0056] S102:采用聚類算法對所述基因特征數據集進行聚類,獲得第一預設參數個的聚 類集合,每個所述聚類集合具有一個聚類中屯、。
[0057] 其中,每個聚類集合中包含所述基因特征數據集中相似的基因表達數據,每個聚 類集合都具有一個聚類中屯、,每個聚類集合的聚類中屯、由該聚類集合中的所有基因表達數 據計算得來。在本申請的一個實施例中,每個聚類集合的聚類中屯、為該聚類集合中所有基 因表達數據的平均值。但本申請對此并不做限定,每個聚類集合的聚類中屯、還可W通過其 他方式確定,具體視實際情況而定。
[0058] 需要說明的是,采用聚類算法對所述基因特征數據集進行聚類的目的是對基因表 達數據進行降維,W降低基因表達數據之間的冗余度。
[0059] S103:利用所有的所述聚類集合的代表基因生成第二樣本矩陣,其中,所述代表基 因為每個所述聚類集合中的一個基因表達數據。
[0060] S104:對所述第二樣本矩陣進行處理獲得第二訓練集。
[0061] 其中在獲得所有的所述聚類集合的代表基因后,利用所有的所述聚類集合的代表 基因組成所述第二樣本矩陣,取所述第二樣本矩陣的每一列組成所述第二訓練集。
[0062] S105:生成與所述第二訓練集對應的特征索引集。
[0063] S106:對所述第二訓練集進行特征排序,獲得與所述排序后的第二訓練集對應的 有順序的特征索引集。
[0064] 需要說明的是,在本申請的一個實施例中,采用SVM-RFE算法對所述第二訓練集進 行特征排序,獲得與所述排序后的第二訓練集對應的有順序的特征索引集。
[0065] S107:在所述有順序的特征索引集中選取前第二預設參數個特征組成第Ξ訓練 集。
[0066] 其中,所述第二預設參數的值小于所述第一預設參數的值。
[0067] S108:對所述第Ξ訓練集進行建模,獲得模型函數。
[0068] 在本申請的一個實施例中,采用支持向量機分類器對所述第Ξ訓練集進行建模, 獲得模型函數。
[0069] S109:根據所述特征索引集、有順序的特征索引集和所述模型函數對待測基因表 達數據進行分類,獲得待測基因表達數據的分類結果。
[0070] 需要說明的是,所述待測基因與所述第一訓練集在同一次的基因表達數據的采集 過程中獲得。
[0071] 在上述實施例的基礎上,在本申請的一個優選實施例中,如圖2所示,所述基因表 達數據分類方法包括:
[0072] S201:獲取基因表達數據構成的第一訓練集,對所述第一訓練集進行預處理,生成 所述第一樣本矩陣,取所述第一樣本矩陣的每一行形成所述基因特征數據集。
[0073] S202:采用N折交叉驗證法對所述基因特征數據集進行處理,將識別率最大時對應 的值作為所述第一預設參數,其中N為5或10或20;利用K-means聚類算法對所述基因特征數 據集進行聚類,獲得第一預設參數個的聚類集合,每個所述聚類集合具有一個聚類中屯、。
[0074] 在本實施例中,所述第一預設參數的設定方式為:
[0075] 采用N折交叉驗證法對所述基因特征數據集進行處理,將識別率最大時對應的值 作為所述第一預設參數,其中N為5、10或20。在本申請的一個優選實施例中,N優選為10。
[0076] S203:利用所有的所述聚類集合的代表基因生成第二樣本矩陣,所述代表基因通 過公式
獲得,所述第二樣本矩陣為[島,。
[0077] 其中R表示實數集,N表示所述第一訓練集中的樣本總個數,Gk表示第k個聚類集 合,転表示所述第k個聚類集合的代表基因,II I U表示取范數運算,下標表示范數類型為 歐幾里得范數;mk表示第k個聚類中屯、,K表示所述第一預設參數;gi表示所述聚類集合中的 基因表達數據。
[0078] S204:取所述第二樣本矩陣的每一列組成第二訓練集。
[0079] S205:生成與所述第二訓練集對應的特征索引集。
[0080] S206:選取N折交叉驗證法對所述基因特征數據集進行處理的過程中最高識別率 時特征基因的集合的大小作為所述第二預設參數的值,采用SVM-RFE方法對所述第二訓練 集進行特征排序,得到一個與所述排序后的第二訓練集對應的有順序的特征索引集;
[0081] S207:在所述有順序的特征索引集中選取前第二預設參數個特征組成第Ξ訓練 集。
[0082] S208:采用支持向量機分類器對所述第Ξ訓練集進行建模,獲得模型函數。
[0083] S209:根據所述特征索引集對所述待測基因的表達數據進行特征選擇,獲得第一 次特征選擇后的樣本。
[0084] 其中,所述待測基因與所述第一訓練集中的基因表達數據通過同一次DNA微陣列 技術采集獲得。
[0085] S210:根據所述有順序的特征索引集,選擇所述第一次特征選擇后的樣本中的前 第二預設參數個特征組成第二次特征選擇后的樣本。
[0086] S211:將所述第二次特征選擇后的樣本輸入所述模型函數中,獲得所述模型函數 的輸出結果,根據所述輸出結果獲得所述待測基因表達數據的分類結果。
[0087] 在上述實施例的基礎上,在本申請的一個具體實施例中,在乳腺癌數據集上對本 申請實施例提供的基因表達數據分類方法進行了測試,所述乳腺癌數據集包括97名患者樣 本,屬于兩個類別。每個樣本都有24481個基因表達數據。所述第一訓練集包括78個患者樣 本,其中34個是在至少5年內的癌細胞轉移的患者(標記為"舊病復發"),其余44個樣本是從 患者初步診斷為至少5年后仍健康的患者(標記為"非復發")。相應地,待測基因樣本中包括 12個"舊病復發"患者樣本和7個"非復發"患者樣本。
[0088] 具體測試步驟如下:
[0089] 通過DNA微陣列技術獲取所述乳腺癌數據集中的基因表達數據構成第一訓練集 掉,,乂松,其中,X功構成所述第一訓練集的基因表達數據,XiERD,yi是XI的標簽,表明XI的 類別,yle{-l,+ l},N代表所述第一訓練集中樣本的總個數,D代表所述第一訓練集中樣本 的維數,R代表實數集。運里N=97,D = 24481。
[0090] 對所述第一訓練集進行預處理,生成所述第一樣本矩陣X= [XI,…,XN],該矩陣的 每一列為所述第一訓練集的一個樣本,取所述第一樣本矩陣的每一行,即gj=(Xj)T,j = 1,…,24481,形成所述基因特征數據i
[0091] 確定聚類中屯、數目為第一預設參數K,此處Κ = 80(通過10折交叉驗證法選定),采 用K-means聚類算法對所述基因特征數據集進行聚類,獲得80個聚類中屯、mk和80個 聚類集合Gk,k=l,…,K。
[0092] 在每個聚類集合中選取一個基因表達數據作為該聚類集合的代表基因,所述代表 基因的選取公式為:
;其中,II 1|2表示取范數運算,下標 表示范數類型為歐幾里得范數,Gk表示第k個聚類集合,弦表示所述第k個聚類集合的代表 基因,mk表示第k個聚類中屯、。生成所述樣本矩陣X'=:悟,….忘J £廬1"9%其中N表示訓練集 中訓練樣本的總個數。取所述樣本矩陣X'的每一列島作為x^i,組成所述第二訓練集 齡乂怕,其中x'lER8。,同時生成與所述第二訓練集對應的特征索引集護。{1,…,;M4勘}, F| =80。
[0093] 確定第二預設參數的值d,所述第二預設參數d(d<80)的值為采用10折交叉驗證 法對所述基因特征數據集進行處理的過程中,最高識別率時特征基因的集合的大小。采用 SVM-RFE方法對所述第二訓練集故>',洽進行特征排序,得到一個有順序的特征索引集 護icz^[l,~,24481j,If' I =80。在所述有順序的特征索引集中選取前d個特征組成第S訓練 集?χ;',.V,搭1,其中X" i E Rd,在本實施例中,d = 37。
[0094] 采用支持向量機分類器對所述第Ξ訓練集{<,.1',}豈進行建模,獲得模型函數f (X")。
[0095] 令待測基因表達數據(在本實施例中為癌癥基因表達數據)為X,其中xERMAsi。
[0096] 根據所述特征索引集F對所述待測基因 x(xERD)的表達數據進行特征選擇,獲得 第一次特征選擇后的樣本χ/ (χ/ ERK);
[0097] 根據所述有順序的特征索引集F'選擇所述第一次特征選擇后的樣本χ/中的前第 二預設參數個特征組成第二次特征選擇后的樣本X" (X" ERd);
[0098] 將所述第二次特征選擇后的樣本X"輸入所述模型函數f(x")中,獲得所述模型函 數的輸出結果,根據所述輸出結果獲得所述待測基因表達數據的分類結果。
[0099] 采用相同的上述測試過程對本申請實施例提供的基因表達數據分類方法與5¥1- RFE ( SVM-Re cur S ive Feature Elimination)算法 W 及 MRMR+SVM-RFE (minimal redundancy-maximal relevance+SVM-Recursive Feature Elimination)算法在相同的乳 腺癌數據集上進行對比實驗。隨機選取78個訓練樣本10次,表1給出了上述Ξ種方法各自獲 得的最好平均分類性能時的對比。
[0100] 表1 SVM-RFE,MRMR+SVM-RFE和本申請提供的基因表達數據分類方法最好分類性 能的對比
[0101]
[0102] 通過表1的對比可W發現,本申請實施例提供的基因表達數據分類方法比其他兩 種算法在各項參數上都有較大提升,且大大降低了時間消耗。
[0103] 相應的,本申請實施例還提供了一種基因表達數據分類系統,如圖3所示,包括:
[0104] 特征選擇模塊A10,用于獲取第一訓練集,利用所述第一訓練集生成基因特征數據 集,所述第一訓練集包含基因表達數據;采用聚類算法對所述基因特征數據集進行聚類,獲 得第一預設參數個的聚類集合,每個所述聚類集合具有一個聚類中屯、;利用所有的所述聚 類集合的代表基因生成第二樣本矩陣,其中,所述代表基因為每個所述聚類集合中的一個 基因表達數據;對所述第二樣本矩陣進行處理獲得第二訓練集,生成與所述第二訓練集對 應的特征索引集;對所述第二訓練集進行特征排序,獲得與所述排序后的第二訓練集對應 的有順序的特征索引集;在所述有順序的特征索引集中選取前第二預設參數個特征組成第 Ξ訓練集;
[0105] 訓練模塊A20,用于對所述第Ξ訓練集進行建模,獲得模型函數;
[0106] 診斷模塊Α30,用于根據所述特征索引集、有順序的特征索引集和所述模型函數對 待測基因表達數據進行分類,獲得待測基因表達數據的分類結果。
[0107] 需要說明的是,在本實施例中,所述待測基因表達數據與所述第一訓練集采用生 物微陣列技術在同一次采集中獲得。
[0108] 所述基因表達數據分類系統在獲得所述基因特征數據集之后,采用聚類算法對所 述基因特征數據集進行聚類,獲得第一預設參數個聚類集合,每個所述聚類集合具有一個 聚類中屯、,然后對所述聚類集合進行處理獲得第二樣本矩陣、第二訓練集W及特征索引集 W對基因表達數據進行降維,從而降低基因表達數據之間的冗余度,進而在很大程度上降 低了在之后對所述第二訓練集進行特征選擇的過程中占用的計算資源W及耗費的計算時 間;而采用聚類算法對所述基因特征數據集進行聚類操作所占用的計算資源W及耗費的計 算時間都很少,從而大大降低了對待測基因表達數據進行分類占用的計算資源和耗費的計 算時間。
[0109] 在上述實施例的基礎上,在本申請的一個實施例中,如圖4所示,所述特征選擇模 塊Α10包括:
[0110] 預處理單元All,用于獲取基因樣本的第一訓練集,對所述第一訓練集進行預處 理,生成第一樣本矩陣,并根據所述樣本矩陣生成基因特征數據集;
[0111] 第一特征選擇單元A12,用于采用N折交叉驗證法對所述基因特征數據集進行處 理,將識別率最大時對應的值作為所述第一預設參數,其中N為5或10或20;采用K-means聚 類算法對所述基因特征數據集進行聚類,獲得第一預設參數個的聚類集合,每個所述聚類 集合具有一個聚類中屯、,在每個聚類集合中選取一個基因作為該聚類集合的代表基因,并 利用所有的聚類集合的代表基因生成第二樣本矩陣,并對所述第二樣本矩陣進行處理獲得 第二訓練集,同時生成與所述第二訓練集對應的特征索引集;
[0112] 第二特征選擇單元A13,用于對所述第二訓練集進行特征排序,獲得有順序的特征 索引集,確定保留的特征個數為第二預設參數,在所述有順序的特征索引集中選取前第二 預設參數個特征組成第Ξ訓練集。
[0113] 需要說明的是,在本實施例中,所述預處理單元All通過DNA微陣列技術獲取基因 表達數據的第一訓練集社,,乂悠,其中,X康示所述第一訓練集中的基因表達數據,XiERD, yi是XI的標簽,表明XI的類別,yiE {-1,+1},N代表所述第一訓練集中樣本的總個數,D代表 所述第一訓練集中樣本的維數,R代表實數集。對所述第一訓練集進行預處理,生成所述第 一樣本矩陣X=[X1,…,XN],該矩陣的每一列為所述第一訓練集的一個樣本,取所述第一樣 本矩陣的每一行,即&=(、)了^二1,一,0,形成所述基因特征數據集{8,.;}]"=1,供£護。
[0114] 在本實施例中,采用K-means聚類算法對所述基因特征數據集進行聚類的目的是 對基因表達數據進行降維,W降低基因表達數據之間的冗余度。
[0115] 在上述實施例的基礎上,在本申請的另一個實施例中,所述第一特征選擇單元A12 用于采用N折交叉驗證法對所述基因特征數據集進行處理,將識別率最大時對應的值作為 所述第一預設參數K,其中N為5或10或20;
[0116] 采用K-means聚類算法對所述基因特征數據集進行聚類,獲得K個聚類中屯、mk和K 個聚類集合Gk,k = 1,…,Κ。
[0117] 在每個聚類集合中選取一個基因作為該聚類集合的代表基因,所述代表基因的生 成公式為:京=||g,. -m;.II;,/? = 1,…,Κ ;其中,Gk表示第k個聚類集合,表示所述第k個 聚類集合的代表基因,mk表示第k個聚類中屯、,K表示所述第一預設參數。生成所述樣本矩陣
[島,…,客其中N表示訓練集中訓練樣本的總個數。取所述樣本矩陣X'的每一 列為x'l,組成所述第二訓練集{x;,.V,}二,其中X'iERK,同時生成與所述第二訓練集對應的特 征索引集 i"c{l,...,Z^,|F|=K。
[0118] 需要說明的是,在本申請的一個優選實施例中,采用10折交叉驗證法對所述基因 特征數據集進行處理,將識別率最大時對應的值作為所述第一預設參數。但本申請對此并 不做限定,具體視實際情況而定。
[0119] 在上述實施例的基礎上,在本申請的又一個實施例中,所述第二預設參數d(d<K) 的值為采用10折交叉驗證法對所述基因特征數據集進行處理的過程中,最高識別率時特征 基因的集合的大小。在本申請的一個優選實施例中,采用SVM-RFE方法對所述第二訓練集合 K,乃說進行特征排序,得到一個有順序的特征索引集尸[{1,···,巧.,:If' I =κ。在所述有 序的特征索引集中選取前d個特征組成第立訓練集賠.V,}二,其中X"iERd。
[0120] 在上述實施例的基礎上,在本申請的再一個實施例中,采用支持向量機分類器對 所述第Ξ訓練集進行建模,獲得模型函數f(x")。但本申請對所述第Ξ訓練集進行建模所采 用的具體方法并不做限定,具體視實際情況而定。
[0121] 在上述實施例的基礎上,在本申請的一個具體實施例中,如圖5所示,所述診斷模 塊A30包括:
[0122] 第一選擇單元A31,用于根據所述特征索引集F對所述待測基因 x(xERD)的表達數 據進行特征選擇,獲得第一次特征選擇后的樣本χ/ (χ/ erk);
[0123] 第二選擇單元A32,用于根據所述有順序的特征索引集F'選擇所述第一次特征選 擇后的樣本χ/中的前第二預設參數個特征組成第二次特征選擇后的樣本x"(x"ERd);
[0124] 診斷單元A33,用于將所述第二次特征選擇后的樣本X"輸入所述模型函數f(x") 中,獲得所述模型函數的輸出結果,根據所述輸出結果獲得所述待測基因表達數據的分類 結果。
[0125] 綜上所述,本申請實施例提供了一種基因表達數據分類方法及分類系統,其中,所 述基因表達數據分類方法中在獲得所述基因特征數據集之后,采用聚類算法對所述基因特 征數據集進行聚類,獲得第一預設參數個的聚類集合,然后對所述聚類集合進行處理獲得 第二樣本矩陣、第二訓練集W及特征索引集W對基因表達數據進行降維,從而降低基因表 達數據之間的冗余度,進而在很大程度上降低了在之后對所述第二訓練集進行特征選擇的 過程中占用的計算資源W及耗費的計算時間;而采用聚類算法對所述基因特征數據集進行 聚類操作所占用的計算資源W及耗費的計算時間都很少,因此采用所述基因表達數據分類 方法對待測基因表達數據進行分類占用的計算資源和耗費的計算時間都較少。
[0126] 本說明書中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其他 實施例的不同之處,各個實施例之間相同相似部分互相參見即可。
[0127]對所公開的實施例的上述說明,使本領域專業技術人員能夠實現或使用本發明。 對運些實施例的多種修改對本領域的專業技術人員來說將是顯而易見的,本文中所定義的 一般原理可W在不脫離本發明的精神或范圍的情況下,在其它實施例中實現。因此,本發明 將不會被限制于本文所示的運些實施例,而是要符合與本文所公開的原理和新穎特點相一 致的最寬的范圍。
【主權項】
1. 一種基因表達數據分類方法,其特征在于,包括: 獲取第一訓練集,利用所述第一訓練集生成基因特征數據集,所述第一訓練集中包含 基因表達數據; 采用聚類算法對所述基因特征數據集進行聚類,獲得第一預設參數個的聚類集合,每 個所述聚類集合具有一個聚類中心; 利用所有的所述聚類集合的代表基因生成第二樣本矩陣,其中,所述代表基因為每個 所述聚類集合中的一個基因表達數據; 對所述第二樣本矩陣進行處理獲得第二訓練集; 生成與所述第二訓練集對應的特征索引集; 對所述第二訓練集進行特征排序,獲得與所述排序后的第二訓練集對應的有順序的特 征索引集; 在所述有順序的特征索引集中選取前第二預設參數個特征組成第三訓練集; 對所述第三訓練集進行建模,獲得模型函數; 根據所述特征索引集、有順序的特征索引集和所述模型函數對待測基因表達數據進行 分類,獲得待測基因表達數據的分類結果。2. 根據權利要求1所述的基因表達數據分類方法,其特征在于,所述第一預設參數的設 定方式為: 采用N折交叉驗證法對所述基因特征數據集進行處理,將識別率最大時對應的值作為 所述第一預設參數,其中N為5、10或20。3. 根據權利要求1所述的基因表達數據分類方法,其特征在于,所述采用聚類算法對所 述基因特征數據集進行聚類,獲得第一預設參數個的聚類集合,每個所述聚類集合具有一 個聚類中心,包括: 采用K-means聚類算法對所述基因特征數據集進行聚類,獲得第一預設參數個的聚類 集合,每個所述聚類集合具有一個聚類中心。4. 根據權利要求1所述的基因表達數據分類方法,其特征在于,所述代表基因通過公式其中,Gk表示第k個聚類集合,&表示所述第k個聚類集合的代表基因,mk表示第k個聚類 中心,K表示所述第一預設參數;gl表示所述聚類集合中的基因表達數據; 其中,所述第二樣本矩陣為= ,其中,R表示實數集,N表示所述第 一訓練集中的樣本總個數。5. 根據權利要求1所述的基因表達數據分類方法,其特征在于,根據所述特征索引集、 有順序的特征索引集和所述模型函數對待測基因表達數據進行分類,獲得待測基因表達數 據的診斷結果包括: 根據所述特征索引集對所述待測基因的表達數據進行特征選擇,獲得第一次特征選擇 后的樣本; 根據所述有順序的特征索引集,選擇所述第一次特征選擇后的樣本中的前第二預設參 數個特征組成第二次特征選擇后的樣本; 將所述第二次特征選擇后的樣本輸入所述模型函數中,獲得所述模型函數的輸出結 果,根據所述輸出結果獲得所述待測基因表達數據的分類結果。6. -種基因表達數據分類系統,其特征在于,包括: 特征選擇模塊,用于獲取第一訓練集,利用所述第一訓練集生成基因特征數據集,所述 第一訓練集包含基因表達數據;采用聚類算法對所述基因特征數據集進行聚類,獲得第一 預設參數個的聚類集合,每個所述聚類集合具有一個聚類中心;利用所有的所述聚類集合 的代表基因生成第二樣本矩陣,其中,所述代表基因為每個所述聚類集合中的一個基因表 達數據;對所述第二樣本矩陣進行處理獲得第二訓練集,生成與所述第二訓練集對應的特 征索引集;對所述第二訓練集進行特征排序,獲得與所述排序后的第二訓練集對應的有順 序的特征索引集;在所述有順序的特征索引集中選取前第二預設參數個特征組成第三訓練 集; 訓練模塊,用于對所述第三訓練集進行建模,獲得模型函數; 診斷模塊,用于根據所述特征索引集、有順序的特征索引集和所述模型函數對待測基 因表達數據進行分類,獲得待測基因表達數據的分類結果。7. 根據權利要求6所述的基因表達數據分類系統,其特征在于,所述特征選擇模塊包 括: 預處理單元,用于獲取基因樣本的第一訓練集,對所述第一訓練集進行預處理,生成第 一樣本矩陣,并根據所述樣本矩陣生成基因特征數據集; 第一特征選擇單元,用于采用N折交叉驗證法對所述基因特征數據集進行處理,將識別 率最大時對應的值作為所述第一預設參數,其中N為5或10或20;采用K-means聚類算法對所 述基因特征數據集進行聚類,獲得第一預設參數個的聚類集合,每個所述聚類集合具有一 個聚類中心,在每個聚類集合中選取一個基因作為該聚類集合的代表基因,并利用所有的 聚類集合的代表基因生成第二樣本矩陣,并對所述第二樣本矩陣進行處理獲得第二訓練 集,同時生成與所述第二訓練集對應的特征索引集; 第二特征選擇單元,用于對所述第二訓練集進行特征排序,獲得有順序的特征索引集, 確定保留的特征個數為第二預設參數,在所述有順序的特征索引集中選取前第二預設參數 個特征組成第三訓練集。8. 根據權利要求7所述的基因表達數據分類系統,其特征在于,所述第一特征選擇單元 用于采用N折交叉驗證法對所述基因特征數據集進行處理,將識別率最大時對應的值作為 所述第一預設參數,其中N為5或10或20;采用K-means聚類算法對所述基因特征數據集進行 聚類,獲得第一預設參數個聚類中心和第一預設參數個聚類集合,在每個聚類集合中選取 一個基因作為該聚類集合的代表基因,并利用所有的聚類集合的代表基因生成第二樣本矩 陣,并取所述第二樣本矩陣的每一列A組成所述第二訓練集其中,x'fRK。 r9. 根據權利要求6所述的基因表達數據分類系統,其特征在于,所述代表基因通過公式生成,其中,Gk表示第k個聚類集合,艮表示所述第k個聚類集 合的代表基因,mk表示第k個聚類中心,K表示所述第一預設參數;81表示所述聚類集合中的 基因表達數據; 其中,所述第二樣本矩陣為1' = ^,^;|、#'其中1?表示實數集』表示生成所述 第一訓練集中的樣本總個數。10.根據權利要求6所述的基因表達數據分類系統,其特征在于,所述診斷模塊包括: 第一選擇單元,用于根據所述特征索引集對所述待測基因表達數據進行特征選擇,獲 得第一次特征選擇后的樣本; 第二選擇單元,用于根據所述有順序的特征索引集選擇所述第一次特征選擇后的樣本 中的前第二預設參數個特征組成第二次特征選擇后的樣本; 診斷單元,用于將所述第二次特征選擇后的樣本輸入所述模型函數中,獲得所述模型 函數的輸出結果,根據所述輸出結果獲得所述待測基因表達數據的分類結果。
【文檔編號】G06F19/24GK105825081SQ201610246971
【公開日】2016年8月3日
【申請日】2016年4月20日
【發明人】張莉, 黃曉娟, 王邦軍, 張召, 李凡長
【申請人】蘇州大學