專利名稱:一種篩選基因芯片差異表達(dá)基因的方法
一種篩選基因芯片差異表達(dá)基因的方法技術(shù)領(lǐng)域本專利涉及一種基因芯片數(shù)據(jù)分析中差異表達(dá)基因篩選的 一種 算法。該算法適用于缺乏重復(fù)的小樣本的基因芯片實(shí)驗(yàn)設(shè)計(jì)。
背景技術(shù):
基因芯片,又稱基因微陣列(microarray),是指將許多已知序列 寡核苷酸或cDNA片段有規(guī)律地排列在基片上,將待測(cè)的樣品標(biāo)記后 與芯片上的核酸序列按堿基互補(bǔ)配對(duì)原則進(jìn)行雜交。通過(guò)焚光檢測(cè)系 統(tǒng)對(duì)芯片進(jìn)行掃描,并配以計(jì)算機(jī)系統(tǒng)對(duì)每一探針上的熒光信號(hào)做出 檢測(cè)和比較,可以迅速得出實(shí)驗(yàn)結(jié)果。利用基因芯片可以在一次實(shí)驗(yàn) 中對(duì)上萬(wàn)種基因的表達(dá)水平進(jìn)行快速、準(zhǔn)確、高效地檢測(cè),并且樣本 的需要量可以大大減少?;蛐酒夹g(shù)是目前基因研究方面最先進(jìn)、 也是最有效的方法之一,在生命科學(xué)研究及實(shí)踐、醫(yī)學(xué)科研及臨床、 藥物設(shè)計(jì)、環(huán)境保護(hù)、農(nóng)業(yè)、軍事等各個(gè)領(lǐng)域有著廣泛的應(yīng)用。差異表達(dá)基因的篩選A&因芯片分析最為關(guān)鍵的一步。對(duì)于兩樣 本的無(wú)重復(fù)的芯片數(shù)據(jù),可以使用倍數(shù)法(Gerhold D, Lu M, Xu J, Austin C, Caskey CT, Rushmore T. Monitoring expression of genes involved in drug metabolism and toxicology using DM microarrays. Physiol Genomics 2001; 5:161-170) 或 z-score (Cheadle C, Vawter MP, Freed WJ and Becker KG. Analysis of microarray data using z score transformation. J Mol Diagn 2003: 5, 73-81)的方法;對(duì)于兩樣本的有重復(fù)的芯片數(shù)據(jù)則可以使用 倍數(shù)法或t檢驗(yàn)(Baldi P, Long AD. A Bayesian framework for the analysis of microarray expression data: regularized t -test and statistical inferences of gene changes. Bioinformatics 2001; 17: 509-519 )等方法。對(duì)于多個(gè)分組的有重復(fù)的芯片數(shù)據(jù)則 可以使用方差 分析(Pavlidis P. Using A麗A for gene selection from microarray studies of the nervous system. Methods 2003: 31 (4): 282-9 )。對(duì)于長(zhǎng)的時(shí)間序列一般會(huì)使用曲線擬合(StoreyJD, Xiao W, Leek JT, Tompkins RG, Davis RW. Significance analysis of time course microarray experiments. Proc Natl Acad Sci USA. 2005, 102 (36): 12837-4 )的方法。但是在實(shí)際應(yīng)用中,由于基因芯片的費(fèi)用昂貴,研究者往往只能 負(fù)擔(dān)少量樣本的芯片設(shè)計(jì)(樣本量<6),并且每個(gè)樣本的也只是進(jìn)行 單次或兩次技術(shù)重復(fù),這種缺乏重復(fù)的小樣本基因芯片實(shí)驗(yàn)i殳計(jì)目前 非常很普遍。這類芯片數(shù)據(jù)目前并沒(méi)有很好的分析方法,主要是采用 倍數(shù)法,而倍數(shù)法是一種經(jīng)驗(yàn)算法,算法本身的敏感性與特異性是很 難估計(jì)的,會(huì)引起較大的實(shí)驗(yàn)誤差。為了彌補(bǔ)這一技術(shù)空白,本專利 我們提出一種基于統(tǒng)計(jì)模型的新算法,來(lái)對(duì)小樣本,無(wú)重復(fù)的基因芯 片產(chǎn)生的差異基因進(jìn)行篩選。發(fā)明內(nèi)容本發(fā)明提供一種通過(guò)建立統(tǒng)計(jì)模型來(lái)篩選基因的方法。 本發(fā)明是這樣實(shí)現(xiàn)的,主要包括如下流程步驟l,對(duì)芯片數(shù)據(jù) 進(jìn)行歸一化處理;步驟2,建立對(duì)數(shù)比值x,^戸+ A+f線性模型;步 驟3,計(jì)算出全局均值;/,列效應(yīng)A和方差cT的值;步驟4,利用^、 A和a,計(jì)算每個(gè)基因的2xlnOWm"o);步驟5,設(shè)定域值 , 當(dāng)步驟4中的2xln(oWra,/o)值大于;r2—, 的基因定為差異表達(dá)基因。注ln(.)為以e為底的自然對(duì)數(shù)。本發(fā)明的優(yōu)點(diǎn)在于通過(guò)建立統(tǒng)計(jì)模型,設(shè)計(jì)適當(dāng)?shù)慕y(tǒng)計(jì)量,最 后使用假設(shè)檢驗(yàn)的方法賦予每個(gè)基因一個(gè)顯著性的概率數(shù)值,作為篩 選基因的標(biāo)準(zhǔn)。該方法克服了常規(guī)的倍數(shù)法缺乏統(tǒng)計(jì)學(xué)基礎(chǔ)和對(duì)算法 本身敏感性與特異性難以估計(jì)的弱點(diǎn)。
圖l是本發(fā)明所述篩選基因芯片差異表達(dá)基因的方法的流程圖。
具體實(shí)施方式
具體方法描述如下首先使用芯片掃描圖像處理軟件(例如GenePix pro 4.0)獲得 基因水平的表達(dá)值數(shù)據(jù)。接著對(duì)芯片數(shù)據(jù)進(jìn)行芯片間的歸一化處理。 然后將芯片結(jié)果的信號(hào)值轉(zhuǎn)換成相對(duì)于對(duì)照實(shí)驗(yàn)的比值。取比值的對(duì) 數(shù)(取以e為底為佳)。我們將此對(duì)數(shù)比值(In ratio)作為分析的 基礎(chǔ)。假設(shè)我們有"張基因芯片(對(duì)應(yīng)M個(gè)樣本,典型的,1<"5),每張芯片有w個(gè)基因。這樣我們獲得一個(gè)數(shù)值矩陣<formula>formula see original document page 5</formula>①其中、為第/(1^/《^)個(gè)基因在第7(1"")張芯片中的In ratio 數(shù)值。接著我們建立一個(gè)線性模型其中z/為全局的均值,為列效應(yīng),s為殘差。我們假設(shè)s W(0,a2)。即假設(shè)在不同的芯片中殘差s符合均值為0,方差為cr的正態(tài)分布。作為方差a,它體現(xiàn)的是所有芯片"芯片內(nèi)"方差的平均。 A作為列效應(yīng),表示的是不同芯片之間差異的參數(shù)。//是全局的均值, 由于一般情況下芯片中大部分基因的表達(dá)值是不變的,所以/z是接近 于0的。該模型即是將一個(gè)基因在一張芯片上的表達(dá)值分解為全局效 應(yīng),列(芯片)效應(yīng)和殘差。對(duì)模型的參數(shù)進(jìn)行估計(jì)利用最大似然估計(jì),々的估計(jì)值為全局的均值,即細(xì)A為列效應(yīng),即每列(即每張芯片)的平均值(上式中/i接近于0<formula>formula see original document page 6</formula>④
附 附w a的估計(jì)值取"組內(nèi)"方差:
<formula>formula see original document page 6</formula> 5
建立檢驗(yàn)假設(shè):對(duì)于每個(gè)基因z,<formula>formula see original document page 6</formula>是上述線性模型的 一個(gè)實(shí)例。 <formula>formula see original document page 6</formula>與上述線性模型完全獨(dú)立。我們用<formula>formula see original document page 6</formula>表示基因/是該線性模型(即總體分布)的 一個(gè)實(shí)例的概率,用<formula>formula see original document page 6</formula>表示基因,'不是來(lái)自于該線性模型,而是來(lái)自于任何一種其它模型(分布)的概率。 習(xí)慣上,我們用優(yōu)勢(shì)比odd ratio來(lái)表示數(shù)據(jù)對(duì)模型的偏離程度,<formula>formula see original document page 6</formula>可見(jiàn)優(yōu)勢(shì)比odd ratio的值越大,說(shuō)明基因/偏離總體分布越明 顯,越有可能是我們要尋找的差異基因。對(duì)于基因<formula>formula see original document page 6</formula>則可以寫作上面的公式中,使用聯(lián)合概率計(jì)算優(yōu)勢(shì)比odd ratio的值。從最 終的結(jié)果我們可以看出統(tǒng)計(jì)量0《符合自由度為"的;r2分布。因此,用2x ln(oW r加'o)來(lái)作為基因的差異表達(dá)的度量是合理的,其顯著性結(jié) 果可以使用f檢驗(yàn)來(lái)給出,即設(shè)定一定的閾值(cutoff), cutoff最優(yōu)值為0.01,若 潔,>/— ,即P〈0. 01,那么則可以認(rèn)為第冷基因是差異表達(dá)基因。通過(guò)計(jì)算每個(gè)基因的0《值,與?分布的閾值;^,"相比較,即可篩選出所有的差異表達(dá)基因。一,以無(wú)重復(fù)4個(gè)樣本的Affymetrix公司的表達(dá)譜基因芯片數(shù) 據(jù)為例獲得基因水平表達(dá)數(shù)據(jù)。將芯片結(jié)果的信號(hào)值轉(zhuǎn)換成相對(duì)于對(duì)照 實(shí)驗(yàn)的比值。取比值的對(duì)數(shù)。建立線性才莫型x,, + j=1...4。
A為全局的均值,//,為列效應(yīng),s為殘差,f ,,o"2)。計(jì)算出上述線性模型參數(shù)//,A和CT的估計(jì)值/i,A和6。這些估計(jì)值將用于統(tǒng)計(jì)量2xln(o必rato)的計(jì)算。對(duì)于每一個(gè)基因/,利用公式力卜—"'丫,計(jì)算每個(gè)基因的2 x ln(。W 值。該值反映了基因/表達(dá)數(shù)據(jù)與總體分布的偏離程度, 同時(shí)該值符合自由度為"=4的/分布。<formula>formula see original document page 7</formula>設(shè)定cutoff-O. 01,查f分布表,得到義2, 4=13. 28。即當(dāng)統(tǒng)計(jì) 量大于13. 28時(shí),p<o.01。篩選2xln(o必raf/。)值大于13. 28 (相當(dāng)于/ <0.01)的基因,即為差異表達(dá)基因。二、以2次重復(fù)5個(gè)樣本的基因芯片數(shù)據(jù)為例獲得基因水平表達(dá)數(shù)據(jù)。將芯片結(jié)果的信號(hào)值轉(zhuǎn)換成相對(duì)于對(duì)照 實(shí)驗(yàn)的比值。取比值的對(duì)數(shù)。 建立線性模型計(jì)算出上述線性模型參數(shù)一,A和CT的估計(jì)值。對(duì)于每一個(gè)基因/,利用公式tP"1 — A丫,計(jì)算每個(gè)基因的產(chǎn)l 、 °" J<formula>formula see original document page 8</formula>值。設(shè)定cutoff=0.01,查f分布表,得到^。。, ,。=23. 21。篩選2xln(o必ra^)值大于23. 21的基因,即為差異表達(dá)基因。以上是對(duì)本發(fā)明的描述而非限定,基于本發(fā)明思想的其它實(shí)施方 式,均在本發(fā)明的保護(hù)范圍之中。
權(quán)利要求
1.一種篩選基因芯片差異表達(dá)基因的方法,其特征在于該方法包括有如下步驟步驟1,對(duì)芯片數(shù)據(jù)進(jìn)行歸一化處理;步驟2,建立對(duì)數(shù)比值xij=μ+μj+ε線性模型;步驟3,計(jì)算出全局均值μ,列效應(yīng)μj和方差σ的值;步驟4,利用μ、μj和σ,計(jì)算每個(gè)基因的2×ln(odd ratio);步驟5,設(shè)定域值χ2cutoff,n,當(dāng)步驟4中的2×ln(odd ratio)值大于χ2cutoff,n的基因定為差異表達(dá)基因。
2. 根據(jù)權(quán)利要求1所述的一種篩選基因芯片差異表達(dá)基因的方 法,其特征在于在步驟l中,進(jìn)行基因芯片數(shù)據(jù)的歸一化處理時(shí)的 樣本數(shù),在1 ~ 5例之間。
3. 根據(jù)權(quán)利要求1所述的一種篩選基因芯片差異表達(dá)基因的方 法,其特征在于在步驟3或步驟4中,o必ra加=--。
全文摘要
本發(fā)明提供一種篩選基因芯片差異表達(dá)基因的方法,涉及一種基因芯片數(shù)據(jù)分析中差異表達(dá)基因篩選的一種算法。本發(fā)明實(shí)施起來(lái),包括如下步驟步驟1,芯片數(shù)據(jù)的歸一化處理;步驟2,建立對(duì)數(shù)比值x<sub>ij</sub>=μ+μ<sub>j</sub>+ε線性模型;步驟3,計(jì)算出全局均值μ,列效應(yīng)μ<sub>j</sub>和方差σ的值;步驟4,利用μ、μ<sub>j</sub>和σ,計(jì)算每個(gè)基因的2×ln(odd ratio);步驟5,設(shè)定域值x<sup>2</sup> <sub>cutoff,n</sub>,當(dāng)步驟4中的2×ln(odd ratio)值大于x<sup>2</sup> <sub>cutoff,n</sub>的基因定為差異表達(dá)基因。本發(fā)明通過(guò)建立統(tǒng)計(jì)模型,設(shè)計(jì)適當(dāng)?shù)慕y(tǒng)計(jì)量,最后使用假設(shè)檢驗(yàn)的方法賦予每個(gè)基因一個(gè)顯著性的概率數(shù)值,作為篩選基因的標(biāo)準(zhǔn)。該方法克服了常規(guī)的倍數(shù)法缺乏統(tǒng)計(jì)學(xué)基礎(chǔ)和對(duì)算法本身敏感性與特異性難以估計(jì)的弱點(diǎn)。
文檔編號(hào)C12Q1/68GK101215602SQ20071017358
公開日2008年7月9日 申請(qǐng)日期2007年12月28日 優(yōu)先權(quán)日2007年12月28日
發(fā)明者劉極龍, 曾華宗 申請(qǐng)人:上海敏芯信息科技有限公司