專利名稱:一種基于通路的特異性組合藥物靶標檢測方法
一種基于通路的特異性組合藥物靶標檢測方法所屬領域本發明涉及一種藥物靶標檢測方法,特別涉及一種基于通路的特異性組合藥物靶標檢測方法。
背景技術:
研制創新藥物增強藥物療效有賴于特異性藥物靶標檢測。由于歷史、 經濟及社會觀念等原因所造成的研發投入的不足,我國創新藥物研制水平相比國外總體比較落后,藥品的來源長期依賴于仿制和進口,比如有關統計表明我國每年需進口藥品達40 億美元以上。更加糟糕的是,在我國加入WTO以后,受低關稅的驅使,大量的國外藥品開始紛紛涌入我國的藥品市場,不僅嚴重影響到了我國人民的健康和用藥安全問題,也對我國醫藥產業的生存和發展提出了嚴峻挑戰。受知識產權的限制,如何檢測出具有較好特異性的藥物靶標嚴重制約著我國制藥業發展。發展高效的藥物靶標檢測方法促進創新藥物的研制已經成為我國醫藥產業發展的面臨的首要問題之一。傳統的藥物靶標檢測方法通常借助具有顯著藥理作用的藥物,通過在分子水平上的藥理學分析,最終篩選出藥物靶標。比如在專利數據庫檢索中,我們就找到一條這樣的藥物靶標檢測方法,它是由同濟大學的儲茂泉發明,被稱作“量子點納米熒光探針聯合生物芯片尋找中藥靶點的方法”(授權專利號為ZL200610024566. 3)。然而,這種基于藥理的藥物靶標方法受現有藥物種類和數量嚴重制約。隨后,人們考慮使用具有藥理作用的化合物替代已知藥物進行基于藥理的藥物靶標檢測。但總的來說,由于受規模、速度和耗費等因素的限制,這種基于藥理的藥物靶標檢測方法很難實現藥物靶標的大規模和高效率檢測。20世紀90年代出現的基因芯片技術使得人類獲得了檢測生物體內成千上萬條基因表達含量的能力。最近幾年,基因芯片技術日臻成熟,已經成為醫學、藥學等學科的基本科研工具和手段,有力地推動了生物科技、醫療等產業發展與創新。特別地,基因芯片技術也使得基于機理的藥物靶標發現成為現實。很多國內外的制藥公司已紛紛投入巨資開展基于基因芯片的藥物靶標檢測方法研究。一個著名的案例是史克公司通過發展一種基于基因芯片的方法發現了一個治療骨質疏松的藥物祀標,即Cathepsin K。早期的,由于認識的不足,人們主要側重于單分子藥物靶標的檢測。近年來,生命現象的復雜性使得人們逐漸認識到一種生物表型的出現往往涉及到多個基因,直至多個具有不同生物功能的通路。作為一種基本生物功能模塊,通路協同工作,共同驅動了生物表型的實現。人們開始采用通路的方式進行特異性組合藥物靶標檢測。當前,基于通路的特異性組合藥物靶標檢測已經成為藥物靶標檢測方法的研究焦點,其主要思路可簡述如下首先利用基因芯片技術獲得生物體內基因表達圖譜;然后通過研究通路的活動行為與表型間關聯關系來進行特異性組合藥物靶標的檢測。在國內、國際論文數據庫中,可以檢索到近100篇相關論文。總的來說,現有的方法可以劃分為下面三種類型(I)基于差異表達基因計數的方法該類方法屬于最早的一類方法,其主要工作過程如下首先對通路中各單個基因隨表型的表達差異顯著性進行判別,統計出通路中的差異表達基因的數目,然后使用 Fisher’ s exact (FE)或x 2等假設檢驗方法估計該數目相對于隨機背景下的統計顯著性。該類方法的主要缺點在于其需要首先人為給定一個基因差異表達的閾值以確定通路中差異表達基因的數目。可想而知,不同閾值的選擇將導致不同的特異性組合藥物靶標檢測結果。這種檢測的不確定性難以從生物學上進行解釋,以至于該類方法實際應用性不強。(2)基于單基因差異性組合的方法該類方法不需要對通路中差異表達基因進行判別,而只是在統計出每個基因的表達差異統計量之后,通過組合這些統計量檢測通路作為特異性組合藥物靶標的特異性信號。因此,該類方法能夠克服第一類方法中單基因閾值難以選擇的缺陷。較早的,Subramanian等人使用通路中基因秩統計量,結合加權KS變換方法檢測通路的特異性信號[Subramanian et al, Gene Set enrichment analysis A knowledge-based approach for interpreting genome-wide expression profiles, PNAS,vol.102, no. 43, pp. 15545-15550, 2005] o Efron等人采用通路基因t-statistics的均值組合方式構建了 maxmean組合差異統計量,實現了同時從Shift和Scale兩個方面對特異性組合藥物革巴標檢測[Efron Bradley and Tibshirani Robert, On testing the significance of sets of genes, The Annals of Applied Statistics, vol. 1,no. 1,pp. 107-129,2007]。特別的,在該類方法中最具代表性的是Oron等人提出的GSEAlm方法[Oron et al. , Gene set enrichment analysis using linear models and diagnostics,Bioinformatics, vol. 24, no. 22, pp. 2586-2591,2008] 0該方法采用了著名的J-G統計量組合方式對通路中每個基因的t-statistics值進行組合,進而建立了更為有效的基于通路的特異性組合藥物靶標檢測方法。上述三個方法有一個共同點是都隱含地將基因劃分為通路內和外兩個組別。最近, Sartor 等人[Sator et al. , LRpath a logistic regression approach for identifying enriched biological groups in gene expression data,Bioinformatics,vol. 25,no. 2, pp. 211-217,2009]提出對這種基因劃分進行顯式地標記,然后在通過建立一種廣義線性回歸模型進行特異性組合藥物靶標檢測。該方法被稱作LRpath方法。(3)基于基因整合效應的方法該類方法強調如何利用基因間的關聯關系信息來刻畫通路的差異表達特性,在建模通路中基因整合效應的基礎上來進行基于通路的特異性組合藥物靶標檢測。比如,Nettleton等人提出的基于非參數多變量分析的檢測方法 [Nettleton et al. ,Identification of differentially expressed gene categories in microarray studies using nonparametric multivariate analysis. Bioinformatics, vol. 24, no. 2,PP. 192-201,2008]。該類方法中最具代表性的是Geoman等人提出的 Globaltest 方法[Goeman et al. , A global test for groups of genes testing association with a clinical outcome, vol. 20, no. I, pp. 93-99, 2004]。該方法首先使用一種廣義線性回歸模型來建模通路中基因的整合效應,然后基于該整合效應定義通路特異性信號,最后根據通路的特異性信號的強度檢測出特異性組合藥物靶標。在以上三類方法中,第一類方法屬于最早的一類方法,簡單直觀,但其檢測效果受很多因素的影響,并且在實際應用中的穩定性和可靠性不好。相比第一類方法,第二類方法不需要預先選擇一個單基因閾值,同時由于能夠進一步考慮基因的差異表達細節,獲得了較第一類方法更好的特異性組合藥物靶標檢測性能。相比第一、二類方法,第三類方法將整個通路中的基因作為一個整體,通過利用基因間廣泛存在的關聯關系建模通路中基因的整合效應,提高了特異性組合藥物靶標的檢測3/10 頁
性能。然而,第三類方法的一個主要缺陷是難以克服通路中少數弱特異性基因所帶來的噪聲問題。從生物學上來看,由于一個基因可能具有多種功能,并參與多個基因通路,因此,即使是同一條特異性基因通路,也并不是其中所有的基因都被具有較強的特異性。另外,每個基因的特異性也受到包括基因表達檢測信號強度以及檢測過程系統性的誤差等多種不可預見因素的影響。第三類方法往往強制假設通路中所有基因都具有顯著的特異性。顯然這種假設是不合理的,忽略了非顯著性基因或檢測誤差等有關因素所引起的噪聲問題,削弱了特異性組合藥物靶標檢測能力。特別針對第三類檢測方法的缺陷,本發明基于通路的特異性組合藥物靶標檢測方法發明并應用一種 gbLR(generalization-based Logistic regression)模型來進行特異性組合藥物靶標的檢測,較好地克服了特異性組合藥物靶標檢測的小樣本問題,具有更好的穩定性和實用性。發明內容本發明的目的是克服現有藥物靶標檢測方法中的不足,通過構建一種基于推廣性反饋的通路特異性信號檢測模型(gbLR),提出了一種新的基于通路的特異性組合藥物靶標檢測方法。本發明的方法不僅具有處理小樣本問題的能力,而且檢測精度也有大幅提高。相比現有方法,該方法提高了藥物靶標檢測的可靠性、實用性和精度。本發明的目的是這樣實現的,一種基于通路的特異性組合藥物靶標檢測方法,包括A、使用基因芯片進行基因表達數據采集用戶使用基因芯片進行組織樣本的基因表達含量檢測,通過對基因芯片上基因雜交信號的掃描,得到進一步處理的基因表達譜數據;基因表達數據包括標準基因表達譜數據和陽性基因表達譜數據,其中,標準基因表達數據為正常組織樣本的基因表達譜數據,相應的組織樣本標簽為O的數值;陽性基因表達譜數據為陽性組織樣本的基因表達譜數據,相應的組織樣本標簽為大于O的數值;B、通路數據庫構建從KEGG、文本文獻等生物知識資源中收集通路信息,建立通路數據庫,其中的每一條通路給出了一個潛在的特異性組合藥物靶標;C、通路表達譜構建從所采集的基因表達譜數據中提取通路中每個基因的表達水平,建立組織樣本的通路表達譜;D、構建特異性組合藥物靶標檢測訓練集和測試集將組織樣本的標簽歸一化為一個分布在
上的變量,并以k(k彡2) I的比例分割所有組織樣本為訓練集和測試集,為了保證不同標簽下的組織樣本在訓練集和測試集中均衡分布,要求具有相同標簽的組織樣本在訓練集和測試集中的比例也為k I ;E、基于gbLR的通路特異性信號檢測模塊通路表達譜對包括陽性組織樣本在內的所有組織樣本標簽的回歸顯著性反映了通路作為特異性組合藥物祀標的特異性。gbLR (generalization-based Logitic Regression)通路特異性模型使用通路表達譜回歸組織樣本標簽并引入回歸推廣性反饋來檢測通路的特異性信號,具有更可靠的檢測性能。gbLR方法描述如下首先,依據IRWLS (Iteratively Reweight Least Square)方法,從通路表達譜中
6隨機抽取P個基因作為預測因子,使用訓練集組織樣本構建L = 100個如下羅切斯特回歸模型,j) = e^/(l + e^),其中,e = 2. 718為數學常數,x為組織樣本的ρ個基因的表達譜,
3為羅切斯特回歸模型的線性回歸系數J為組織樣本的標簽估計;假設訓練樣本的數目為N,通路表達譜中的基因數目為m,在每個羅切斯特回歸模型構建中,隨機抽取通路表達譜中的P個基因作為預測因子,P可取為O. 5Xmin(N,m),其中 min表示取最小值函數。然后,采用下式迭代求解羅切斯特回歸模型的線性回歸系數,
權利要求
1.一種基于通路的特異性組合藥物靶標檢測方法,其特征在于所述方法采用基于 gbLR的通路特異性信號檢測模塊檢測特異性組合藥物靶標,方法的步驟是A、使用基因芯片進行基因表達數據采集使用基因芯片進行組織樣本的基因表達含量檢測,通過掃描基因芯片上基因雜交信號,得到進一步處理的基因表達譜數據,基因表達數據包括標準基因表達譜數據和陽性基因表達譜數據;B、通路數據庫構建從KEGG生物知識資源中收集通路信息,建立通路數據庫,其中的每一條通路給出了一個潛在的特異性組合藥物靶標;C、通路表達譜構建從采集的基因表達譜數據中提取通路中每個基因的表達水平,建立組織樣本的通路表達譜;D、構建特異性組合藥物靶標檢測訓練集和測試集將組織樣本的標簽歸一化為一個分布在
上的變量,并以k I的比例分割所有組織樣本為訓練集和測試集,為了保證不同標簽下的組織樣本在訓練集和測試集中均衡分布,要求具有相同標簽的組織樣本在訓練集和測試集中的比例也為k I ;E、基于gbLR的通路特異性信號檢測模塊使用通路表達譜回歸組織樣本標簽并引入回歸推廣性反饋來檢測通路的特異性信號, 包括基于gbLR的通路特異性信號檢測模塊中,對每一個通路給出一個潛在的特異性組合藥物靶標,循環執行下面例程a、構建組織樣本標簽的羅切斯特回歸模型,從通路中隨機抽取P個基因作為預測因子,在訓練集上建立組織樣本標簽的羅切斯特回歸模型,其中,P取為O. 5Xmin (N, m),N為訓練樣本的數目、m為通路表達譜中的基因數目、min表示取最小值函數,重復L次,構建L 個組織樣本標簽的羅切斯特回歸模型j) = /(I+ ^x),其中,X為組織樣本的P個基因表達譜、#為羅切斯特回歸模型的線性回歸系數、j)為組織樣本的標簽估計、e為數學常數;b、估計所有組織樣本的標簽,基于所建立的組織樣本標簽的羅切斯特回歸模型 j) = ^x/(l + ^x),對所有訓練集和測試集中的組織樣本的標簽進行回歸估計;C、計算羅切斯特回歸模型負對數顯著性,基于訓練集和測試集中組織樣本的標簽真實值與估計值計算羅切斯特回歸模型的P-Value負對數顯著性,是對每一個羅切斯特回歸模型,用所有組織樣本估計其F統計量的p-Value值pV,然后依據pV計算羅切斯特回歸模型的p-Value負對數顯著性為Iv = -IoglO (pV);d、獲取通路特異性信號,L次循環結束后,通過基于L個組織樣本標簽羅切斯特回歸模型的通路特異性檢測,對所獲得L個p-Value負對數顯著性取中值,作為通路的特異性信號;F、特異性組合藥物靶標辨識采用羅切斯特回歸模型p-value負對數顯著性閾值t,將步驟E所得到的通路特異性信號與該閾值t進行比較當通路特異性信號大于閾值t時,則判定通路為特異性組合藥物靶標,否則拒絕作為特異性組合藥物祀標。
2.根據權利要求I所述一種基于通路的特異性組合藥物靶標檢測方法,其特征是A步驟中,所述基因表達數據包括標準基因表達譜數據和陽性基因表達譜數據,其中,標準基因表達譜數據為正常組織樣本的基因表達譜數據,相應的組織樣本標簽為O的數值,陽性基因表達譜數據為陽性組織樣本的基因表達譜數據,相應的組織樣本標簽為大于O的數值。
3.根據權利要求I所述一種基于通路的特異性組合藥物靶標檢測方法,其特征是D步驟中,所述將組織樣本的標簽歸一化為一個分布在
上的變量,并以k I的比例分割所有組織樣本為訓練集和測試集,其中k > 2。
4.根據權利要求I所述的一種基于通路的特異性組合藥物靶標檢測方法,其特征是E 步驟中,所述重復L次,構建L個組織樣本標簽的羅切斯特回歸模型,j) = /(I+ x),是使用IRWLS方法構建,其中的L >50,羅切斯特回歸模型的線性回歸系數^通過反復迭代進行估計,直至赤池信息量不再減少。
5.根據權利要求I所述的一種基于通路的特異性組合藥物靶標檢測方法,其特征是F步驟中,所述采用羅切斯特回歸模型p-value負對數顯著性閾值t,其中的t為.1.3( = -IoglO (O. 05)) O
全文摘要
本發明公開了一種基于通路的特異性組合藥物靶標檢測方法,該方法由五個執行過程和一個核心檢測模塊所組成,即使用基因芯片進行基因表達數據采集、通路數據庫構建、通路表達譜構建、特異性組合藥靶檢測訓練集和測試集構建、基于gbLR的通路特異性信號檢測模塊、以及特異性組合藥靶辨識。在基于gbLR的通路特異性信號檢測模塊中,使用gbLR模型引入回歸推廣性反饋,并融合多次的局部特異性信號檢測結果來避免非顯著特異性噪聲干擾,提高了通路特異性信號檢測精度和可靠性。相比現有方法,本發明方法使用gbLR模型,克服了通路特異性信號檢測中的小樣本問題,并不受現有藥物的限制,提供了一種較為可靠、精確、實用的藥物靶標檢測方法。
文檔編號C12Q1/68GK102586418SQ20111039628
公開日2012年7月18日 申請日期2011年12月2日 優先權日2011年12月2日
發明者王紅強, 鄭春厚, 陳鵬 申請人:中國科學院合肥物質科學研究院