基于基因大數據的小樣本基因表達數據分類方法
【專利摘要】本發明公開了基于基因大數據的小樣本基因表達數據分類方法,其技術步驟為:確定訓練樣本基因表達數據和類標簽,構建矩陣;根據L階頻數統計結果和2階頻數統計結果,計算L+1階估分,去除估分小于閾值的非頻繁集;計算到最大階數Lmax;計算不同類別差異化的缺失情況;對各階評分表進行排序,建立決策表;根據決策表對測試樣本進行判別并輸出類別。本發明基于基因大數據的跨平臺分類器訓練模型,結合基因表達數據公共儲存庫中海量的數據與小規模基因表達樣本混合訓練,有效的提高了分類效果。同時,該方法解決了跨平臺所帶來的缺失值的影響。
【專利說明】
基于基因大數據的小樣本基因表達數據分類方法
技術領域
[0001] 本發明設及機器學習、數據挖掘、生物信息學等領域,特別設及一種根據小規模基 因表達數據樣本改良的分類方法。
【背景技術】
[0002] 目前,隨著基因微陣列技術的出現,通過檢測基因表達可W發現研究基因的功能 或表現和不同基因間的相互關系,很快地成為生物學領域上一種重要的實驗方法。關于基 因的應用研究已經在醫療、農業和環境等各個領域有著不錯的成效,對基因表達譜的研究 具有一定的意義。因成本與技術等原因,基因表達數據往往樣本數量少,但是基因數據的維 度高,運為基因表達數據分析帶來一定的困難,針對基因表達數據的分析在國內外成為了 研究的熱點。
[0003] 針對基因表達數據的研究主要有分類和聚類,運里主要闡述分類。研究人員開始 將經典的分類算法應用到基因表達數據領域。如孔祥增發明一種基于模糊Κ-Γ^Ν算法的腫瘤 基因表達譜分類方法(專利申請號:201010234954.0),采用RFSC算法剔除無關基因,然后采 用模糊Κ-Γ^Ν算法對已剔除無關基因的基因表達譜數據進行分析。王文俊發明一種監督基因 表達數據分類方法(專利申請號:201410817036.9),先采用類別保留投影方法獲得訓練樣 本的鑒別特征向量,再用最近鄰分類器實現測試樣本的分類識別。孫蠢等人發明用于腫瘤 檢測的基因選擇方法(專利申請號:201110319228.3 ),選擇結束后,輸出最優基因集合給分 類器。W上發明不可避免的是數據樣本少,維度高,質量差等問題,都采取了一定的降低維 度的手段如剔除無關基因或提取特征變量等。
[0004] Geman等人提出的The Top Scoring PaiHTSP)分類器(論文Simple decision rules for cl曰ssifying hum曰n cancers from gene expression profiles)是一種基于 排序思想的分類模型,它主要通過比較樣本內兩兩基因大小關系,根據評分選擇最具'差異 化'的基因對進行分類。該方法是一種無參數、數據驅動的機器學習方法,能很好地避免過 擬合。與上文提到的發明不同的是,該方法沒有對數據進行降維,但是在實驗應用部分的數 據維度不高或者樣本量不大。但是該方法采用樣本內的基因比較,在基因表達數據上應用 具有一定的普適性。
[0005] 降維手段會帶來一定程度上的信息丟失,決不是解決基因表達數據樣本少維度高 問題的最佳手段。構建一種通用的解決小規模基因表達樣本分類問題的方法,具有研究的 價值與意義。近年來,檢測實驗已經累積產出了大量的基因表達數據,但由于測序平臺的不 一,暫無國際標準,實驗環境的不同,還有樣本的差異等問題,導致基因數據的可比性差,質 量低。所W,現在的基因表達數儲存庫是大量的小規模基因表達樣本的組合,帶來了一定的 挑戰與風險。
【發明內容】
[0006] 本發明主要研究如何結合基因表達數據公共儲存庫中海量的數據與小規模基因 表達樣本,提出一種基于基因大數據的跨平臺分類方法。
[0007] 為實現上述目的,本發明的技術方案包括W下步驟:
[0008] (S1)構建矩陣:獲取基因樣本數據,并劃分訓練樣本和測試樣本;確定訓練樣本基 因表達數據和其類標簽,給定N個基因表達樣本,每個樣本具有P個基因,構建一個N沖維的 矩陣R,矩陣R的最大階數為Lmax,樣本的類別為C= {C1,C2};
[0009] (S2)2階"全捜索":對整個矩陣R進行捜索,每個訓練樣本的基因表達量兩兩形成 基因對,統計每個基因對的大小關系的頻數,得到2階頻數統計結果,根據不同類別間的基 因大小關系頻數的差值作為評分表的排序依據,得到2階評分表;根據2階評分表計算3階組 合估分,設定闊值Smin,去掉估分小于闊值的非頻繁集;
[0010] (S3)多階"剪枝":統計剩余頻繁的3階基因組合的大小關系的頻數,得到3階頻數 統計結果,根據不同類別間的基因大小關系頻數的差值作為評分表的排序依據,得到3階評 分表;同樣,可根據L階頻數統計結果和2階頻數統計結果計算L+1階估分,去掉估分小于闊 值的非頻繁集;階數每增加1,重復步驟S3直至計算到最大階數Lmax ;
[0011] (S4)計算缺失:對基因表達數據缺失值情況做統計,記錄存在的基因表達量與缺 失的基因表達量的頻數,計算不同類別差異化的缺失情況;
[0012] (S5)構建決策表:對各階評分表按評分進行排序,當評分相同時根據基因對的缺 失情況調整,缺失率越低的基因組排名越靠前;從各階評分表中選擇前Z項不相關的基因有 序組合,加入到決策表;
[0013] (S6)輸出分類:根據決策表對測試樣本進行判別,輸出更接近的類別,如果程度相 等則根據缺失狀態判別,輸出對應的類別。
[0014] 進一步地,步驟S2、S3中估分的計算方法為:
[001引設2階評分表為Prob(Rk<Ri),L階評分表為Pr0MRi<Rj<-'Rk),R功第i個基因在N個 樣本上的向量,日=111;[]1化1'〇13(1?1<扣<..瓜),口1'〇13(1?1<<化)}
[0016]
[0017] 得到:Prob(Ri<Rj<...Rk<Ri)e(a,0)
[0018] 取上界與下界平均值可得到估分S二
[0019] 其中,步驟S3中計算L+1階估分時需在矩陣R上統計L+1階的基因組合的頻數,公式 化定義為:
[0020]
[0021] 計算L+1 階的評分表為:Δ = |p(Ci)-p(C2) I。
[0022] 其中,步驟S4中記錄存在的基因表達量與缺失的基因表達量的頻數,公式化定義 為:
[0023]
[0024] 缺失狀態表的得分為Δ U= |pu(Ci)-pu(C2) I,選擇評分最高為"特殊腫'。
[0025] 其中,步驟S6中根據決策表對測試樣本進行判別,輸出更符合的類別,計算方法如 下:
[00%] Xnew代表輸入的新樣本,Ri,new為輸入的新樣本在第i個基因表達量的值,ynew為最后 的輸出集合,如果C1與C2程度相等則根據缺失值特殊對判別,輸出對應的類別。
[0029] 與現有技術對比,本發明具有W下優點:
[0030] 1)基于基因大數據的跨平臺分類器訓練模型,結合基因表達數據公共儲存庫中海 量的數據與小規模基因表達樣本混合訓練,提高分類器的性能及分類效果。
[0031] 2)本發明通過統計不同類的基因表達組合的差異化表現來進行判別,解決了跨平 臺基因表達數據可比性差的問題。
[0032] 3)能解決跨平臺基因表達數據缺失值多的問題,分類正確識別率高。
【附圖說明】
[0033] 圖1為本發明的實現原理圖;
[0034] 圖2為本發明的流程圖。
【具體實施方式】
[0035] 為了使本領域的技術人員更好地理解本發明的技術方案,下面結合附圖和具體實 施例對本發明作進一步詳細的描述。
[0036] 圖1掲示了本發明的整體實現原理:首先從諸如GE0等基因表達數據公共儲存庫中 獲取樣本數據。對數據進行規整預處理,并統計樣本的類標簽集合,形成"強化集"。同時對 小規模基因表達樣本對齊強化集基因分布序列,缺失的基因記為空值。從含有目標分類標 簽的強化集,按比例與小規模基因樣本測試集混合,加入到跨平臺分類器模型組合訓練,最 終判定輸出分類結果。
[0037] 本發明公開了分類器模型的分類方法,其具體步驟參照圖2所示,詳述如下。
[0038] (S1)構建矩陣:首先獲取基因樣本數據,并劃分訓練樣本和測試樣本。確定訓練樣 本基因表達數據和其類標簽。
[0039] 給定N個基因表達樣本,每個樣本具有P個基因,構成一個N X P維的矩陣R。設Ri代 表第i個基因在N個樣本上的向量,矩陣R的最大階數為Lmax,樣本的類別為C={Cl,C2}。
[0040] (S2)2階"全捜索":本分類方法的目標是獲得"關鍵基因有序組合",運些關鍵性在 于其在不同類間具有顯著性變化。首先,對于計算2階組合,要對整個矩陣集合中R進行捜 索,統計存在基因表達量{Ri<^}的頻數,公式化表示為:
[0041 ] pij(Cm) =P;rob(Ri<Rj I Y = Cm),m= {1,2}, 1辛 j
[0042] 分類器是基于排序思想的方法,依據是類間的差異表示為頻數之間的差,公式化 定義為:
[0043] Λ U = |pij(Ci)-pij(C2) I 4刊
[0044] 得到2階頻數統計結果Prob(化<Ri),,根據不同類別間的基因大小關系頻數的差值 作為評分表的排序依據,得到2階評分表。根據2階評分表計算3階組合估分,設定闊值Smin (闊值的設置為多次實驗獲得的經驗值)。去掉估分小于闊值的非頻繁集。
[0045] (S3)多階"剪枝":計多項基因表達量大小關系,在動輒上萬維度的基因表達數據 之上算法的時間復雜度和空間復雜度都會很高。因此,必須對所有可能組合進行剪枝,計算 "估分"去掉非頻繁集,再統計剩余基因組的頻數,可W大大減少統計時間,隨著階數提高下 降很快。設L階頻數統計結果為?'〇6化化<。瓜<叫,還有2階的?'〇6嘶<虹),設:
[0046] a=min{Prob(Ri<Rj<...Rk),Prob(化<Ri)}
[0047]
[004引容易得到:
[0049] Prob(Ri<Rj<...I?k<Ri)e(a,e)
[0050] 取上界與下界平均值可得到估分S:
[0化1 ]
[0052] 可根據L階頻數統計結果和2階頻數統計結果計算L+1階估分。根據組合表剩余的 組合可能,在矩陣R上統計L+1階的有序組合的頻數,公式化定義為:
[0053] pi..i+i(Cm) =Prob(Ri<Rj---<Ri<Ri+i I Y = Cm) ,m= {1,2}
[0化4]同樣地,計算L+1階的評分表:
[0055] Δ = |p(Ci)-p(C2)
[0056] 去掉估分小于闊值的非頻繁集;重復步驟S3直至計算到最大階數Lmax;
[0057] (S4)計算缺失:為了統計缺失值情況,可W引入一個新的狀態來表示成對的缺失 值與存在值,稱"存在&缺失"。記錄存在的基因表達量與缺失的基因表達量的頻數,計算不 同類別差異化的缺失情況。公式化定義為:斬佑7;) = Pro0(R,' it 0,/?; = 0 .|F = Cn),m =化巧。 [005引同樣地,缺失狀態表的得分為Aij= |pu(Ci)-pu(C2)|,選擇評分最高為"特殊 腫'。
[0059] (S5)構建決策表:對各階評分表按評分排序,顯然評分有可能出現同分情況。由于 數據特性問題,每個基因缺失情況不一,頻率不能體現數量上的對比。所W當同分時,選擇 缺失較為不嚴重的基因組合靠前。從每個有序的評分表中,選取前Z項不相關的基因加入到 決策表中。每次把各階評分表的頂端加入之后,將跳過與之相關的基因組合,直到加入Z項。
[0060] (S6)輸出分類:根據決策表輸入測試樣本,輸出更符合的類,公式化定義如下:
[0063] 如果C1與C2程度相等則根據缺失值特殊對判別,輸出對應的類別。
[0064] Ri,new代表了輸入的新樣本在第i個基因表達量的值,Xnew代表輸入的新樣本,h (Xnew):如果輸入樣本符合Ri ,new〈民j,new* · ·〈民 1,new, 則輸出c 1,否則輸出C2。ynew,對于每個樣本 中,Z項有序組合判別后,輸入結果中C1項數,C2項數的較大者。
[0065] W下結合一具體的實驗例對本發明進行說明。
[0066] 實例:對跨平臺的基因表達數據進行分類實驗
[0067] 首先從GE0基因表達數據公共儲存庫中獲取樣本數據500個,樣本的維數為20659 維,來自于10個不同的測序平臺,類標簽選為性別,男/女兩類,Lmax為Ξ階;
[0068] (S1)首先按十折交叉驗證方法將其劃分為訓練樣本和測試樣本,即樣本分為10 份,輪流將其中一份作為測試樣本,其余為訓練樣本。可得到一個450x20659維的樣本矩陣。
[0069] (S2)在矩陣上進行全捜索,為統計{Ri<Rj在不同類上的頻數,可得到兩個 20659x20659維頻數矩陣,然后將兩個矩陣作差,加入二階評分表(范圍為0~1);計算有序 組合的估分,闊值設置為0.3,去除估分低于0.3的組合,剩余Ξ階基因有序組合2530條。
[0070] (S3)在矩陣上統計Ξ階有序基因組合的實際頻數矩陣,作差得到Ξ階評分表(范 圍為0~1);達到以3功立階,去掉估分小于闊值0.3的組合。
[0071] (S4)在矩陣R上統計缺失值情況,統計存在的基因表達量與缺失的基因表達量的 頻數,得到"特殊對"。
[0072] (S5)最后在二階與Ξ階評分表上做排序,只取不相關基因表達有序組合前10項加 入到決策表。
[0073] (S6)根據決策表輸入測試樣本進行判別,輸出分類結果。將輸出的分類結果與樣 本真實類別比較,其中有46個樣本分類正確,樣本的分類正確識別率達到92%。
[0074] W上所述,僅為本發明較佳的【具體實施方式】,但本發明的保護范圍并不局限于此, 任何熟悉本技術領域的技術人員在本發明掲露的技術范圍內,可輕易想到的變化或替換, 都應涵蓋在本發明的保護范圍之內。
【主權項】
1. 基于基因大數據的小樣本基因表達分類方法,其特征在于,包括以下步驟: (51) 構建矩陣:獲取基因樣本數據,并劃分訓練樣本和測試樣本;確定訓練樣本基因表 達數據和其類標簽,給定N個基因表達樣本,每個樣本具有P個基因,構建一個N*P維的矩陣 R,矩陣R的最大階數為Lmax,樣本的類別為C={C1,C2}; (52) 2階"全搜索":對整個矩陣R進行搜索,每個訓練樣本的基因表達量兩兩形成基因 對,統計每個基因對的大小關系的頻數,得到2階頻數統計結果,根據不同類別間的基因大 小關系頻數的差值作為評分表的排序依據,得到2階評分表;根據2階評分表計算3階組合估 分,設定閾值S min,去掉估分小于閾值的非頻繁集; (53) 多階"剪枝":統計剩余頻繁的3階基因組合的大小關系的頻數,得到3階頻數統計 結果,根據不同類別間的基因大小關系頻數的差值作為評分表的排序依據,得到3階評分 表;同樣,可根據L階頻數統計結果和2階頻數統計結果計算L+1階估分,去掉估分小于閾值 的非頻繁集;階數每增加1,重復步驟S3直至計算到最大階數L max; (54) 計算缺失:對基因表達數據缺失值情況做統計,記錄存在的基因表達量與缺失的 基因表達量的頻數,計算不同類別差異化的缺失情況; (55) 構建決策表:對各階評分表按評分進行排序,當評分相同時根據基因對的缺失情 況調整,缺失率越低的基因組排名越靠前;從各階評分表中選擇前Z項不相關的基因有序組 合,加入到決策表; (56) 輸出分類:根據決策表對測試樣本進行判別,輸出更接近的類別,如果程度相等則 根據缺失狀態判別,輸出對應的類別。2. 根據權利要求1所述的基于基因大數據的小樣本基因表達分類方法,其特征在于,步 驟S2、S3中估分的計算方法為: 設2階頻數統計結果為Prob(Rk<Ri),L階頻數統計結果為ProMRiaK - Rk),Ri為第i個 基因在N個樣本上的向量,a=min{Prob(Ri〈Rj〈…Rk),Prob(Rk〈Ri)}得到:Prob(Ri〈Rj〈…Rk〈Ri) e (α,β) 取上界與下界平均值可得到估分3. 根據要求1所述的基于基因大數據的小樣本基因表達分類方法,其特征在于,步驟S3 中在矩陣R上統計L+1階的基因組合的頻數,公式化定義為: Pi..1+1 (Cm) =Prob(Ri<Rj---<Ri<Ri+i | Y = Cm) ,m= {1,2} 計算L+1階的評分表為:Δ = |p(Ci)-p(C2) I。4. 根據要求1所述的基于基因大數據的小樣本基因表達分類方法,其特征在于,步驟S4 中記錄存在的基因表達量與缺失的基因表達量的頻數,公式化定義為: Pij(Cm) = Pr〇h{Ri ^ = 0 \Y = Cm),m = 缺失狀態表的得分為Δ ij= |pij(Ci)_pij(C2) I,選擇評分最高為"特殊對"。5. 根據要求1所述的基于基因大數據的小樣本基因表達分類方法,其特征在于,步驟S6 中根據決策表對測試樣本進行判別,輸出更符合的類別,計算方法如下:Xnew代表輸入的新樣本,Ri,η?為輸入的新樣本在第i個基因表達量的值,ynew為最后的輸 出集合,如果C1與C2程度相等則根據缺失值特殊對判別,輸出對應的類別。
【文檔編號】G06F19/20GK105825078SQ201610150049
【公開日】2016年8月3日
【申請日】2016年3月16日
【發明人】郝志峰, 許柏炎, 蔡瑞初, 溫雯, 張小文, 林殷嫻, 王日宇, 陳炳豐
【申請人】廣東工業大學