專利名稱:確定差異表達基因的混合線性模型兩步篩選法的制作方法
技術領域:
本發明屬于大規模基因表達數據處理技術領域,特別涉及一種高效準確鑒別差異表達基因的方法。
背景技術:
在患病人群中,某些基因發生突變和功能失調等原因會導致其本身基因表達水平的變異,這樣,通過基因芯片技術分析和比較患病人群和正常人群中基因表達譜,就有可能發現在兩種人群中一些表達不一致(即有差異)的基因。這些基因可能與某特定疾病有關,因此,可用來做進一步功能分析、藥物設計和臨床診斷等應用。同樣,也可通過基因芯片技術分析和比較服藥人群和正常人群以鑒別某特定藥物的藥效等等。
隨著基因芯片制作技術的提高和基因芯片價格的下降,該技術在基因功能分析、致病機制研究、藥物毒性分析、中藥藥理機制和藥效成分研究及醫療診斷等方面得到了廣泛應用。準確分析基因芯片測定結果的需求大增。然而,現有的分析基因芯片測定結果的數據處理方法所獲得的結果不很可靠,因為基于基因芯片技術的大規模基因表達譜測定過程中存在多種誤差來源,如芯片制作點樣差異,探針標記雜交溫度和濕度變化,不能準確地鑒別真正由于考察因素如藥物處理或疾病等引起差異表達的基因,難以辨別真實的基因表達變化和隨機的實驗誤差,容易導致假陰性和假陽性。根據包含大量假陰性和假陽性的基因得到的聚類分析難以得到具有實際生物學意義的科學結論。
因此,本領域中迫切需要開發出一種能克服上述缺陷,降低分析結果的假陽性概率的方法。
發明內容
為解決上述問題,本發明提供了一種鑒別差異表達基因的方法,其特征在于,該方法通過兩個步驟鑒定差異表達基因先將芯片數據通過噪音過濾消除大的試驗系統誤差,然后通過單基因模型初步判斷符合顯著性標準A的差異表達基因;其次,用多基因模型分析這些初定的差異表達基因,選出符合顯著性標準B的基因;其中顯著性標準A和B之間的關系是A/B≥5,以便控制假陽性。
在一個較佳的實施方案中,在所述用多基因模型分析差異表達基因的步驟中,剖分出基因主效應及基因與各項考察因素的互作效應,用MINQUE法估計各項效應的方差和協方差分量,用AUP法預測隨機效應,在較嚴格的標準下鑒定差異表達基因控制假陽性。
在另一方案中,在單基因模型分析步驟中,用MINQUE法估計各項變異來源的方差分量σu(l)2,用Jackknife抽樣法估算方差分量估計值的抽樣方差;針對每個基因檢驗該基因的處理效應的方差是否為0;如果拒絕第l基因的H0,則該基因被初步判定為可能的差異表達基因,對應的該基因的觀察值將進入多基因模型進一步分析。
在另一方案中,在多基因模型中用MINQUE法估計模型的各項方差分量,用AUP法預測隨機效應大小;Jackknife抽樣技術結合t檢驗用來檢驗多基因模型包括的可能的差異表達基因是否真正為處理引起的差異表達,也就是基因與處理的互作效應是否與0有顯著差異;對于第l個基因至少有一個基因與處理互作效應不為0,則將基因l作為差異表達基因。
具體而言,本發明的方法包括以下步驟1)通過噪音過濾消除大的試驗系統誤差;2)通過單基因模型檢測考察因素方差變異的大小在一個比較寬松的標準下初步篩選差異表達基因;3)用多基因模型分析這些數目相對較少的初定的差異表達基因,可以剖分出基因主效應及基因與各項考察因素的互作效應,用MINQUE法估計各項效應的方差和協方差分量,用AUP法預測隨機效應,在較嚴格的標準下鑒定差異表達基因控制假陽性;4)采用Jacknife重復抽樣技術估算檢驗統計量的顯著性;5)將基因和考察因素的互作效作為鑒定差異表達基因的具體指標;6)對基因主效應的無偏估計值和基因與處理因素互作效應的無偏預測值進行進一步的聚類分析,得到相對真實的具有生物學意義的科學結論。
本發明通過對大規模基因芯片表達譜數據,首先應用本發明所提出的單基因模型完成差異表達基因鑒別的初篩選,然后再對初選到的基因用多基因模型進行分析,根據基因和考察因素的互作效應這個指標判定差異表達基因。實驗證明,該方法的分析結果非常可靠,能大大降低分析結果的假陽性概率,大幅度提高大規模基因表達數據分析的效率。
本發明的經濟效益和社會效益分析,基因芯片分析發現的差異表達基因可進一步用于基因功能分析和藥物設計等領域,經濟效益和社會效益非常顯著。在實際應用過程中,必須盡量確保這些發現的基因是具有真實的差異表達(即不是假陽性的基因)。對假陽性的基因進行功能分析會造成資源的浪費,同樣也會導致藥物設計的失敗和臨床診斷的錯誤等。在一般基因芯片試驗中,通常能發現與研究目標(如尋找某種癌癥致病機理或某種藥物藥效等)有關的差異表達基因約200個,本發明能在大多情形下有效降低假陽性的基因至少5%至10%(即10至20個基因),這樣一次應用試驗可節省費用=10~20個×10萬元/基因=100~200萬元。同時,本發明能更有效地發現新的傳統方法未能發現的基因2~5%(即4至10個基因),這樣一次應用試驗可增加經濟效益=4~10×20萬元/基因=80~200萬元。累計節省費用和經濟效益隨著基因芯片技術的推廣和應用而不斷增加。
附圖簡述
圖1.三種方法鑒定差異表達基因的判錯率(FDR)及功效(power)比較,圖中虛線表示判錯率,實線表示功效,三種方法為混合線性模型(圓圈),無過濾的t-檢驗(三角)及變異倍數過濾加t-檢驗(方塊)。VGT/VP為基因與處理的互作方差占總表型變異的比例,其值從0.1變化到0.9。EQUAL為效應A,D,T,GA,GD和ε的方差相同,即VA∶VD∶VT∶VGA∶VGD∶Vε=1∶1∶1∶1∶1∶1;ARRAYDOM表示效應A和GA在剩余的表型變異中占絕對優勢,即(VA+VGA)/(VP-VGT)=0.9,VD∶VT∶VGD∶Vε=1∶1∶1∶1;DYEDOM表示效應D和GD在剩余的表型變異中占絕對優勢,即(VD+VGD)/(VP-VGT)=0.9,VA∶VT∶VGA∶Vε=1∶1∶1∶1;TREATDOM表示效應T在剩余的表型變異中占絕對優勢,即VT/(VP-VGT)=0.9,VA∶VD∶VGA∶VGD∶Vε=1∶1∶1∶1∶1。
圖2顯示了三種方法鑒定差異表達基因的判錯的基因個數(FN)比較。圖中三種方法為混合線性模型(圓圈),無過濾的t-檢驗(三角)及變異倍數過濾加t-檢驗(方塊)。
圖3示意性地顯示了本發明整個方法的分析流程。
具體實施例方式
本發明克服了現有分析數據處理方法的缺點,設計了一種基于混合線性模型的兩步法分析基因芯片數據的方法。該方法可以有效地將基因表達水平根據變異來源的不同剖分為幾個組成部分。其中根據不同的研究試驗設計,模型可以做適當的調整。通過兩個步驟鑒定差異表達基因首先,將經過數據標準化的芯片數據通過噪音過濾消除大的試驗系統誤差,然后在一個比較寬松的標準下通過單基因模型初步判斷差異表達基因;其次,用多基因模型分析這些初定的差異表達基因以便在較嚴的標準下控制假陽性。用最小范數二次無偏估計方法(MINQUE法)估計各項效應的方差和協方差分量,用調整預測方法(AUP法)預測隨機效應。例如對于一個不同藥物處理對基因表達影響的研究,噪音過濾模型為yijkl=μ+Ai+Tj+Dk+εijkl,其中yijkl是實驗獲得的第i張芯片上的第j種藥物處理的標記為第k種熒光的第l個基因的表達量;μ是所有基因的平均表達量;Ai是芯片效應,Ai~(0,σA2);Tj是處理效應,Tj~(0,σT2);Dk是熒光標記效應,Dk~(0,σD2);εijkl是隨機誤差,εijkl~(0,σε2)。通過最小二乘估計法可獲得以上幾個參數的估計值 和 由公式rijkl=yijkl-(μ^+A^i+T^j+D^k)]]>計算得到該模型的殘差可作為單基因模型的觀察值。對於第l個基因的單基因模型可以表示為rijkl=μl+Ail+Tjl+Dkl+γijkl,其中μi、Ail、Tjl、Dkl和γijkl分別是第l個基因的平均表達量、芯片效應、處理效應、熒光標記效應和隨機誤差。用MINQUE(1)法可估計各項方差分量σu(l)2。用Jackknife抽樣法估算方差分量估計值的抽樣方差。針對每個基因檢驗該基因的藥物處理效應的方差是否為0即H0:σT(l)2=0,]]>H1:σT(l)2≠0.]]>如果拒絕第l基因的H0,則該基因被初步判定為可能的差異表達基因,對應的該基因的觀察值將進入多基因模型進一步分析。多基因模型可以表述為yijkl=μ+Gl+Ai+Tj+Dk+GAli+GTlj+GDlk+εijkl,其中Gl是第l個基因的平均表達量,GAli是第l個基因與第i張芯片的互作效應,GTlj是第l個基因與第j種藥物處理的互作效應,GDlk是第l個基因與第k種熒光標記的互作效應,其他參數定義如同噪音過濾模型。用MINQUE(1)法可估計模型的各項方差分量。用AUP(Adjusted UnbiasedPrediction)法預測隨機效應大小。Jackknife抽樣技術結合t檢驗用來檢驗多基因模型包括的可能的差異表達基因是否真正為藥物處理引起的差異表達,也就是基因與藥物處理的互作效應是否與0有顯著差異。對于第l個基因至少有一個基因與處理互作效應不為0,則基因l為差異表達基因。兩個步驟中的篩選標準可以根據用戶的具體追求目標來確定如果用戶追求低假陽性,則采用嚴格的篩選標準(即較小的顯著性測驗水平);如果用戶追求低假陰性,則采用寬松的篩選標準(即較大的顯著性測驗水平)。在我們為用戶提供的與本發明配套的軟件中可供用戶選擇的顯著性水平有0.05,0.01,0.005,0.001,0.0005,0.0001和0.00005。在下面的實例數據分析中兩個步驟采用的顯著性水平分別為0.0005和0.0001。
蒙特卡羅模擬結果表明混合線性模型兩步法在絕大多數情況下優于傳統的t檢驗方法(圖1和2)。當A,D,T,GA,GD和ε的方差相等(EQUAL)時,混合線性模型兩步法檢驗差異表達基因的功效比t檢驗法高,同時判錯率也比t檢驗法低。當A和GA效應的方差在除GT效應外的剩余表型變異中占絕對優勢(ARRAYDOM)時,混合線性模型兩步法獲得比t檢驗法顯著高的功效,同時判錯率與t檢驗法相當或比其低。當D和GD效應方差占絕對優勢(DYEDOM)時,混合線性模型兩步法仍可獲得比t檢驗法顯著高的功效;當VGT/VP大于0.3,判錯率比t檢驗法略高。當T效應的方差在除GT效應外的剩余表型變異中占絕對優勢(TREATDOM)時,t檢驗法的功效比混合線性模型兩步法高,但其付出的代價是異常高的判錯率。在上述四種情況下,混合線性模型兩步法鑒定差異表達基因時判錯的基因個數總是比t檢驗法少,尤其是當T效應的方差在除GT效應外的剩余表型變異中占絕對優勢的情況,t檢驗法鑒定出的差異表達基因中大約2500到3000個是假陽性或假陰性,而混合線性模型兩步法鑒定出的差異表達基因中只有4到40個是假陽性或假陰性。
采用基因和處理因素的互作效應作為鑒定差異表達基因的具體指標,大大降低了傳統的基於比值法或t測驗法的假陰性和假陽性。對基因主效應的無偏估計值和基因與處理因素互作效應的無偏預測值進行聚類可以獲得具有統計學和生物學意義的結果。發明人同時用實例數據檢驗該方法的有效性和實用性。采用的實例數據來源于斯坦福大學的DNA芯片開放數據庫(Stanford Microarray Database;http://genome-www5.stanford.edu/;芯片編號為11374、11333、11339、11323、11375和11342)。該實例是用來研究模式生物擬南芥的信使RNA的降解模式。采用本發明提出的方法找到了一些用傳統的數據處理方法不能發現的新基因。本發明可以供廣大生物醫學科研機構和基因芯片公司及制藥企業分析基因芯片實驗數據,準確可靠地鑒定差異表達基因。
下面將根據具體實施例來進一步描述本發明。然而,應當理解,本發明的方法并不僅限于該實施例。
數據來源于斯坦福大學的DNA芯片開放數據庫(Stanford Microarray Database;http//genome-www5.stanford.edu/;芯片編號為11374、11333、11339、11323、11375和11342)。該實例目的是研究模式生物擬南芥的信使RNA的降解模式,共有11521個克隆。試驗者做了三次獨立的3’-脫氧腺苷處理試驗,每個試驗樣本分別在兩張芯片雜交,其中一張芯片上紅色熒光標記未處理的樣品,綠色熒光標記3’-脫氧腺苷處理了120分鐘的樣品,另外一張芯片正好相反,綠色熒光標記未處理的樣品,紅色熒光標記3’-脫氧腺苷處理了120分鐘的樣品。原文采用t檢驗法鑒定差異表達基因,即信使RNA不穩定的基因。在顯著性水平為0.0001,共檢測到100個基因的信使RNA不穩定。
采用本發明提出的方法我們找到了一些用傳統的數據處理方法不能發現的新基因。具體過程如下
針對這批數據,我們所用的噪音過濾模型為yijkl=μ+Ai+Tj+Dk+εijkl,其中yijkl是實驗獲得的第i張芯片上的第j種處理的標記為第k種熒光的第l個基因的表達量;μ是所有基因的平均表達量;Ai是芯片效應,Ai~(0,σA2);Tj是處理效應,Tj~(0,σT2);Dk是熒光標記效應,Dk~(0,σD2);εijkl是隨機誤差,εijkl~(0,σε2);i為1,2,3,4,5或6,即芯片編號;j為1或2,分別代表未處理或3’-脫氧腺苷處理了120分鐘的樣品;k為1或2,分別代表紅色熒光標記或綠色熒光標記;l為基因編號,從1到11521。通過最小二乘估計法獲得以上幾個參數的估計值 和 由公式rijkl=yijkl-(μ^+A^i+T^j+D^k)]]>計算得到該模型的殘差作為單基因模型的觀察值。對於第l個基因的單基因模型為rijkl=μl+Ail+Tjl+Dkl+γijkl,其中μl、Ail、Tjl、Dkl和γijkl分別是第l個基因的平均表達量、芯片效應、處理效應、熒光標記效應和隨機誤差。用MINQUE(1)法估計各項方差分量σu(l)2。用Jackknife抽樣法估算方差分量估計值的抽樣方差。針對每個基因檢驗該基因的處理效應的方差是否為0即H0:σT(l)2=0,]]>H1:σT(l)2≠0.]]>如果拒絕第l基因的H0,則該基因被初步判定為可能的差異表達基因,對應的該基因的觀察值進入多基因模型進一步分析。我們采用的多基因模型為yijkl=μ+Gl+Ai+Tj+Dk+GAli+GTlj+GDlk+εijkl,其中Gl是第l個基因的平均表達量,GAli是第l個基因與第i張芯片的互作效應,GTlj是第l個基因與第j種藥物處理的互作效應,GDlk是第l個基因與第k種熒光標記的互作效應,其他參數定義如同噪音過濾模型。用MINQUE(1)法估計模型的各項方差分量。用AUP(Adjusted UnbiasedPrediction)法預測隨機效應大小。用Jackknife抽樣技術結合t檢驗檢驗多基因模型包括的可能的差異表達基因是否真正為3’-脫氧腺苷處理引起的差異表達,也就是基因與處理的互作效應是否與0有顯著差異。對于第l個基因至少有一個基因與處理互作效應不為0,則基因l為差異表達基因。為了與原作者的分析結果比較,我們在單基因模型和多基因模型中采用的顯著性水平分別為0.0005和0.0001。
運用混合線性模型兩步法,共檢測出90個基因在3’-脫氧腺苷處理了120分鐘后有明顯的信使RNA降解現象,其中的51個基因用t檢驗法也檢測到了,另外的39個基因僅用混合線性模型兩步法檢測出了(見表1)。AA395830和N37328是位點At1g13260上的DNA結合蛋白基因RAV1的兩個表達序列標簽(ESTs),H77088和T04337是位點At2g22430上的同源異形域轉錄因子基因(ATHB-6)的兩個EST。混合線性模型兩步法檢測出這4個EST在3’-脫氧腺苷處理后都發生了降解,而t檢驗法只鑒別出N37328和T04337。AA720100,AA720105和T76004都來自于位點At4g30440的核苷糖差向異構酶基因;T20600,N65459和T75944都來自于位點At4g31500的細胞色素P450單氧酶基因。t檢驗法只鑒別出AA720100和T20600是不穩定的,混合線性模型兩步法檢測出AA720105,T76004,N65459和T75944是容易降解的基因。T20543,AA720239和AA720240這3個ESTs都來自于位點At5g64260上的基因,它們僅被混合線性模型兩步法檢測出是不穩定基因AA067525和AA067498來自于位點At5g37770的鈣調蛋白2基因;AA597715和H36178來自于位點At5g61590上的似乙烯響應元素組合因子基因;AA597849和T46143來自于位點At1g72450上的基因。兩種方法分別在每個基因上找到一個轉錄物。但是t檢驗法沒有象混合線性模型兩步法那樣找到來自于同一個基因的多個轉錄物。因為同一個基因編碼的探針應該具有相似的表達模式,所以顯而易見在同一個基因中同時發現多個不穩定的轉錄物是非常可能的。從這一點來說,混合線性模型兩步法鑒定出了較多的合理的不穩定轉錄物。
另外,在信使RNA翻譯過程中,polyA尾巴對于增強信使RNA的穩定性和保證信使RNA的正常功能具有重要作用。研究表明缺少polyA尾巴的組蛋白信使RNA的半衰期少于30分鐘。混合線性模型兩步法發現了兩個與組蛋白有關的ESTs(H76940和AA720291),但t檢驗法沒有鑒定出來。
表1.用混合模型方法鑒別具有不穩定轉錄本的擬南芥(Arabidopsis thaliana)基因(AtGUTs)
*混合模型方法和t-檢驗方法將ESTs鑒別成差異表達的基因
權利要求
1.一種鑒別差異表達基因的方法,其特征在于,該方法包括先將芯片數據通過噪音過濾消除大的試驗系統誤差,然后通過單基因模型初步判斷符合顯著性標準A的差異表達基因;其次,用多基因模型分析這些初定的差異表達基因,選出符合顯著性標準B的基因;其中顯著性標準A和B之間的關系是A/B≥5,以便控制假陽性;采用Jackknife重復抽樣技術估算檢驗統計量的顯著性,在單基因模型中將處理考察因素的方差作為初定差異表達基因的具體指標,在多基因模型中將基因和考察因素的互作效應作為具體指標來鑒定差異表達基因。
2.根據權利要求1所述的方法,其特征在于,在用多基因模型分析差異表達基因的步驟中,剖分出基因主效應及基因與各項考察因素的互作效應,用MINQUE法估計各項效應的方差和協方差分量,用AUP法預測隨機效應,在較嚴格的標準下鑒定差異表達基因控制假陽性。
3.根據權利要求1所述的方法,其特征在于,在單基因模型分析步驟中,用MINQUE法估計各項變異來源的方差分量σu(l)2,用Jackknife抽樣法估算方差分量估計值的抽樣方差;針對每個基因檢驗該基因的處理效應的方差是否為0;如果拒絕第l基因的H0,則該基因被初步判定為可能的差異表達基因,對應的該基因的觀察值將進入多基因模型進一步分析。
4.根據權利要求1所述的方法,其特征在于,在多基因模型中用MINQUE法估計模型的各項方差分量,用AUP法預測隨機效應大小;Jackknife抽樣技術結合t檢驗用來檢驗多基因模型包括的可能的差異表達基因是否真正為處理引起的差異表達,也就是基因與處理的互作效應是否與0有顯著差異;對于第l個基因至少有一個基因與處理互作效應不為0,則將基因l作為差異表達基因。
5.根據權利要求1所述的方法,其特征在于,該方法包括以下步驟1)通過噪音過濾消除大的試驗系統誤差;2)通過單基因模型檢測考察因素方差變異的大小在一個比較寬松的標準下初步篩選差異表達基因;3)用多基因模型分析這些數目相對較少的初定的差異表達基因,可以剖分出基因主效應及基因與各項考察因素的互作效應,用MINQUE法估計各項效應的方差和協方差分量,用AUP法預測隨機效應,在較嚴格的標準下鑒定差異表達基因控制假陽性;4)采用Jacknife重復抽樣技術估算檢驗統計量的顯著性;5)將基因和考察因素的互作效應作為鑒定差異表達基因的具體指標;6)對基因主效應的無偏估計值和基因與處理因素互作效應的無偏預測值進行進一步的聚類分析,得到相對真實的具有生物學意義的科學結論。
全文摘要
一種鑒別差異表達基因的方法,其特征在于,該方法通過兩個步驟鑒定差異表達基因先將芯片數據通過噪音過濾消除大的試驗系統誤差,然后通過單基因模型初步判斷符合顯著性標準A的差異表達基因;其次,用多基因模型分析這些初定的差異表達基因,選出符合顯著性標準B的基因;其中顯著性標準A和B之間的關系是A/B≥5,以便控制假陽性。采用Jackknife重復抽樣技術估算檢驗統計量的顯著性,在單基因模型中將處理考察因素的方差作為初定差異表達基因的具體指標,在多基因模型中將基因和考察因素的互作效應作為鑒定差異表達基因的具體指標。本發明的方法能夠提供可靠的分析結果,大大降低分析結果的假陽性概率,并大幅度提高大規模基因表達數據分析的效率。
文檔編號C12Q1/68GK1786192SQ20041008920
公開日2006年6月14日 申請日期2004年12月8日 優先權日2004年12月8日
發明者朱軍, 陸燕, 李亦學 申請人:李亦學, 朱軍, 陸燕