專利名稱::有關乳癌分類的材料和方法有關乳癌分類的材料和方法發明領域本發明涉及有關乳癌分類的材料和方法。具體而言,本發明涉及乳癌預后的確定。
背景技術:
:人們對基因表達數據在生物學分類中的用途存在濃厚興趣,特別是腫瘤學和醫學領域。這種方法的一個令人興奮的方面是它確定癌的臨床相關亞型的能力,而這些亞型先前逃過了更傳統的光學顯微鏡術方法。盡管具有這種潛力,然而在基因表達數據用于臨床診斷成為現實之前,還必需解決許多問題。例如,需要提供這樣的算法,它既能進行正確的分類,又能精確的確定預測的置信度。如果分類影響后續治療過程的話,那么這將是特別重要的---旦獲得了這些信息,主治醫師就能夠權衡預測的置信度與特定干預的潛在發病率,從而做出明智的臨床選擇。諾丁漢預后指數(NottinghamPrognosticIndex,NPI)是以腫瘤大小、組織學等級和淋巴結狀態為基礎的一種分類系統,在歐洲和英國廣泛用于判定乳瘤的預后(1-5)。盡管具有這種效用,然而公認常規組織病理學參數諸如腫瘤等級和細胞形態的使用還與某些限制有關。這些變量中的許多(例如等級)受到觀察員間顯著變化性的影響,甚至在嘗試標準化之后(6)。NPI等級由2至8。當在一段連續范圍的數值上給測量的參數評分時(7),諸如NPI,常常難以規定恰當的截止點(cut-offpoint)。因此,該指數依賴一系列主觀標準,可能導致在判定預后時觀察員間的差異。NPI是一個數值范圍;具有比另一患者低的NPI值的患者通常具有比其它患者好的預后。預后通常使用諸如下面的因素來確定,即特定不必相同)。因此,一般而言,患者的前景隨NPI值的升高而降低。確定患者的預后是為患者決定治療的類型和程度時的一項重要因素。因為將來的治療程序可能與預后有關,所以判定預后的精確度至關重要。例如,van'tVeer等(10)鑒定了包含70種基因的預后表達特征(prognosisexpressionsignature,PES),用于預測乳瘤的無病存活(DiseaseFreeSurvival,DFS)狀態。發明概迷本發明人研究了一組乳瘤的表達數據,但是最初未能鑒定出其表達與NPI相關的一組基因。發明人假設基因表達在各種亞型之間可能存在顯著差異("亞型間差異,,),從而可能掩蓋了更加微妙的亞型內變異型式("亞型內差異,,)。有人提出乳癌中顯著比例的內在基因表達變異可能導致了屬于不同"分子亞型"的不同腫瘤,諸如ER+和ER-(其中ER指雌激素受體)(8-9,14)。使用無監督聚類技術(unsupervisedclusteringtechniques)將數據集分成各個分子亞類(ER+、ER-、ERBB2+)。將每個分子亞型視為獨立的數據集。獨立分析每個亞型內的腫瘤以鑒定其表達水平與NPI有關的一組基因。臨床醫師一般將NPI等級分成三類"好的"預后,"中等,,預后,和"差的,,預后。界定各個類型的數值隨臨床醫師而變化。典型的一套分界點是好的預后NPI〈3.4;中等預后3.化NPI《5.4;而差的預后NPI>5.4。本領域技術人員將認識到這些分界點可以變化。本發明人鑒定出一組62種基因,它們在不同預后的腫瘤中差異表達,例如在高NPI(即差的預后)和低NPI(即好的預后)的腫瘤之間差異表達。盡管這組基因是在將樣品根據它們的NPI進行分類后鑒定的,然而還發現根據這些基因的表達水平將腫瘤樣品分類與預后的其它度量(例如無病存活)有關。因此,這些基因在胂瘤樣品中的表達水平對于獲取該樣品的患者的預后和治療具有重要的醫學意義。具體而言,它們可用于將腫瘤樣品分類,作為患者預后的一項指標。將NPI等級的數值范圍3.8-4.6用作"好的"和"差的,,預后之間的截止點,并且使用每個截止值鑒定了同一組62種差異表達的基因。這指示,雖然NPI覆蓋連續的數值范圍2-8,但是這組62種基因的表達水平能夠將腫瘤樣品歸入獨立的類別。由此,可以將根據組織病理學參數具有連續NPI值的樣品在分子水平分成獨立的類別。此外,使用(i)本發明的方法和(ii)臨床技術(通常是組織病理學技術)判定的乳瘤患者預后的比較指示,根據患者的資料,諸如DFS和Kaplan-Meier存活曲線,本發明的方法可提供比組織病理學技術更加精確的預后。這62種基因示于表S6。下面的描述將使用術語"表達鐠",它指一組基因在樣品中的表達水平。除非另有要求,該組基因將包含表S6中所示的一些或所有62種基因。本文鑒定的62種基因與van'tVeer等(10)鑒定的基因只有一種基因重疊(DC13或Hs.6879)。PES是231種Rosetta基因(10)的擴充基因組(geneset)中的前70種基因(在顯示不同無病存活率的組之間展示最顯著差異表達的基因)。表S6的62種基因和231種RosetU基因之間有8種基因是共有的,它們列于表S13。表S6中有兩種基因在低NPI腫瘤中高度表達("陰性基因"),而60種基因在高NPI腫瘤中高度表達("陽性基因")。因此,最一般的說,本發明提供了用于獲得一組差異表達基因的方法。本發明還提供了用于乳瘤樣品分類和/或判定預后的方法和測定法。本發明鑒定了一組基因并提供了這些基因中的一些或全部在乳瘤樣品中的表達水平用于對獲取該乳瘤的患者確定預后的用途。在笫一個方面,本發明提供了用于確定乳癌患者預后的方法,其包括根據一組基因(下文稱為"預后組")在患者乳瘤中的表達水平來確定所述惠者的預后,其中預后組包含表S6的多種基因。本發明還提供了預后組在確定乳癌患者預后中的用途。優選的是,本發明提供了表達鐠在確定乳瘤患者預后中的用途,所述表達謙體現了預后組基因在肺瘤中的表達水平。"預后"意指其最一般的意義,而且可以是定量的或定性的。它可以概括的表述,諸如"好的"或"差的"預后,和/或表述為可能的臨床后果,諸如無病存活(DFS)的持續時間、在確定時間內存活的可能性、和/或在確定時間內遠程轉移的概率。預后的定量度量通常是概率性的。另外/或者,尤其是在向醫學從業人員表述預后時或在醫學從業人員之間表述預后時,預后可以表述成預后的另一項指標,諸如NPI等級。一般而言,具有"好的預后"腫瘤的患者很可能將用常規治療方法進行治療。具有"差的預后"腫瘤的患者可能用另外的或更具攻擊性的方法進行治療。"差的預后"患者通常不必等到常規治療方法失敗后再換成更具攻擊性的方法。另外,對疾病可能的臨床病程的了解容許患者為未來制定現實的計劃,這在癌癥治療中是一個重要的社會'l"生方面。為了避免疑惑,術語"確定"無需意味著絕對確定的預后。而是說,預后組在腫瘤中的表達水平通常指示患者可能的預后。表達水平通常以數值表述。因此,表達鐠通常包括一組數值,每個數值代表預后組中一種基因的表達水平。依照本發明第一個方面的方法可包括步驟提供代表預后組基因在腫瘤中的表達水平的表達語,并根據表達鐠確定患者的預后。提供表達謙的步驟可包括由預先存在的數據集提取關于預后組基因表達水平的信息,所述數據集還可以包含其它表達水平(例如代表其它基因在腫瘤中的表達水平的數據)。或者,它可以包括通過實驗確定表達水平。確定步驟可包括步驟(a)由患者獲得乳瘤樣品;(b)測量預后組基因在樣品中的表達水平。基因表達水平的測量,特別是它在表達i普中的表示,可以是絕對的,或者是相對于某些其它因素,諸如但不限于另一種基因的表達,或是一組基因(優選預后組以外的基因,但是可能包括預后組的基因)在樣品中或一組樣品間的表達水平的平均值、中值或模式。例如,可以作為多種基因在樣品中的平均表達的倍數或分數來測量或表述基因的表達。優選的是,將表達在表達鐠中表述成正數或負數,指示表達相對于平均值的升高或降低。在一個非優選實施方案中,將一組數值形式的表達譜信息轉換成預后組基因的排序表,其中將基因按照表達水平的順序排序,然后將各種基因的排序作為分析參數(代替基因的表達值)。優選的是,步驟(b)包括使由樣品獲得的所述表達產物接觸能夠與表達產物相結合的多種結合成員,其指示預后組基因表達,其中這種結合可以被測量。一般而言,該結合成員不僅能夠檢測表達產物的存在與否,而且能夠檢測其相對豐度(即可利用產物的量)。可以使用能夠與預后組表達產物(例如mRNA、相應的cDNA或cRNA或表達的多肽)相結合的結合成員來確定表達鐠。通過標記表達產物或結合成員,有可能確定表達產物的相對數量或比例,并確定預后組的表達譜。該結合成員可以是互補核酸序列或特異抗體。確定預后的步驟可通過將所測試表達譜與其它先前獲得的與已知預后有關的鐠和/或先前確定的特定預后的特征性"標準"譜進行比較來進行。特定預后的標準諳可由該預后的多個腫瘤的表達譜生成。比較將通常使用或借助計算機來進行。優選的是,將表達譜與不同的已知預后的已知或標準譜(優選標準譜)進行比較。對患者確定的預后即所測試表達譜與之最相似的已知或標準譜的預后。優選的是,與歸入兩種不同預后(例如"好的"和"差的")或是高和低NPI(優選截止點為3.8-4.6)的已知或標準語(優選標準i普)進行比較。已知或標準謙通常是由已知預后的樣品生成的,這可以是通過任何方便的方法確定的-或是由患者移除樣品后的實際臨床結果,或是其它預后技術,例如組織病理學技術,例如使用NPI等級。比較可能牽涉通過統計技術評估預后的置信度水平。標準鐠常常是對于產生它的特定材料和方法(例如微陣列)特異的。如果采用新的材料和/或方法(例如新型微陣列),那么優選使用預后組再次獲得已知預后的標準鐠。依照本發明第一個方面的方法可能包括將乳瘤樣品分類,例如分為高NPI或低NPI,或是分為好的或差的預后。如上所述,確定預后的步驟可通過將所測試乳瘤樣品的表達語與先前獲得的i普和/或先前確定的特定預后(例如"好的"和/或"差的"預后和/或至少一個NPI值和/或至少一個NPI值范圍)的特征性"標準"語進行比較來進行。先前獲得的鐠可以保存為i普的數據庫。優選的是,數據庫包含特定預后的特征性基因表達譜。優選由與本發明第一個方面的預后組相同的預后組(表S6的基因子集)或是與第一個方面的預后組充分重疊的預后組(可能是來自上文的不同子集)的表達水平來生成基因表達譜,從而提供表達水平比較的統計學顯著基礎。可以將計算機編程,使之報告所測試諉與標準i普之間的統計學相似性,從而可確定預后。有利的是,基因表達譜在確定預后中的使用可能降低或可能甚至消除用于對腫瘤樣品確定預后的臨床程序的主觀性。由于該方法要求在分子水平評估表達產物,優選定量地,該方法提供了更加客觀因而可能更加可靠的確定預后的方法。如上所述,預后組能夠將乳瘤樣品分成獨立的類別,從而降低或甚至消除臨床預后確定中的主觀分析。此外,可以對預測確定置信度,從而可以根據預后的"強度"對患者的治療做出明智的臨床選擇。預后組的表達語在相似預后的獨立樣品之間可能略有不同。然而,發明人認識到,構成預后組的特定基因的表達鐠在聯合使用時提供了腫瘤樣品中的表達模式(表達語),它是對于腫瘤的預后而言是特征性的。發明人發現,預后組能夠將腫瘤樣品辨別為高NPI和低NPI類別。高NPI意指優選至少3.4、優選至少3.5、更優選至少3.6、更優選至少3.7、更優選至少3.8、更優選至少3.9、最優選至少4.0。高NPI可能是至少4.1、至少4.2、至少4.3、至少4.4、至少4.5、或至少4.6。高和低NPI之間的優選截止值是3.8-4.6。在歷史上,"好的,,、"中等"和"差的"NPI類別是使用大量臨床研究確定的,其中屬于這些不同組的患者的總體存活具有統計學顯著差異。例如,具有好的預后的患者可能具有約83%的十年存活率,具有"中等"預后的患者可能具有約52%的十年存活率,而具有"差的"預后的患者可能具有約13%的十年存活率(4)。具體而言,預后組似乎與雌激素受體陽性腫瘤(ER+)的肺瘤預后(由NPI反映)具有最強烈的關聯。將乳瘤分為雌激素受體陽性(ER+)和陰性(ER-)亞型是乳癌治療中的一項重要鑒別項目。ER-腫瘤通常比它們的ER+對應物在臨床上更具攻擊性,而ER+腫瘤常規使用抗激素療法進行治療,諸如三苯氧胺(21)。可以使用組織學技術(例如使用對受體特異的抗體)或使用基因表達技術將乳瘤分為ER+或ER-。目前,常規使用ER抗體通過免疫組化(IHC)或免疫印跡來確定腫瘤的ER狀態。本發明的第一個方面優選包括測定腫瘤樣品的ER狀態的步驟。可以使用基因表達分析或組織病理學技術來確定ER狀態。優選的是,本發明的第一個方面還包括確定腫瘤樣品的ER狀態的開始步驟,而且只在狀態是ER+時繼續進行。優選的是,如我們共同懸而未決的申請PCT/GB03/000755中所述使用基因表達描繪(profiling)來確定乳瘤樣品的ER狀態。基因表達描繪能夠以高置信度將乳瘤分為ER+或ER-。然而,還存在不能以顯著統計學確定性分為ER+或ER-的第三類腫瘤("低置信度,,腫瘤)。ERBB2+的上調常常與低置信度腫瘤有關。優選的是,只對以高置信度鑒定為ER+的腫瘤(優選才艮據PCT/GB03/000755的方法的測定以量級大于0.4的預測強度分類為ER+),使用依照本發明第一個方面的方法進行評估。對乳瘤樣品確定預后的步驟可包括使用統計學和/或概率技術,諸如加權表決(WeightedVoting,WV)(13),即一種監督學習技術。在WV中,可以進行二元分類。即該技術可用于將樣品確定為兩種類型之一。將預后組中每種基因在乳瘤樣品中的表達水平與該基因在不同類型間的平均表達水平平均值進行比較。例如,可由具有確定的預后的表達譜(例如"已知,,預后的表達譜的數據庫)計算該平均值。將表達水平和類型間平均基因表達之間的差異加權,并對應該基因對該類型的"選票"和該基因對其它類型的相等但否定的投票。對于特定腫瘤,將所有基因對每一類的投票(肯定的和否定的)加到一起,產生每一類的總數。將腫瘤確定為具有最高(肯定的)總數的類型。然后可以將獲勝類型的勝利幅度表述成預測強度。表達水平的差異是使用包括兩種類型中每一個的基因表達水平的平均值和標準偏差在內的公式加權的。一般而言,每一種類型的平均值和標準偏差是由具有或代表特定預后(例如高NPI和低NPI)的表達譜計算的。另外/或者,確定預后的步驟可以包括使用分級聚類(hierarchicalclustering),特別是在與確定與樣品表達傳進行比較的具有"已知"預后的表達譜或標準譜使用不同的材料和/或方法來確定腫瘤樣品中的表達水平的時候。可以使用已經建立的排除一項交叉驗證(LOOCV)(leave-one-outcrossvalidation)檢驗法(見實施例)來驗證確定的預后。步驟(c)可使用計算機來進行。在分級聚類中,每個表達i瞽可以表示由n個基因組成的矢量(vector),其中(gl,g2...gn)代表基因的表達水平。然后,將每個矢量與分析中的每一個其它譜的矢量進行比較,并將兩個彼此具有最高關聯的矢量配成對,直至盡可能多的將分析中的語配成對。本領域知道許多方法可以計算關聯度,諸如Pearson的相關系數(22)。在下一步中,由每一對衍生一個合成矢量(在平均連接聚類(average-1inkageclustering)中,這通常是兩個謙的平均值),然后重復配對過程。繼續,直至將所有矢量配成對,聚集成代表所有譜的"樹"。這個過程就是"分級",因為是由底部(各個i瞽)開始并向上升。在本發明中,優選由各個語建成兩個合成矢量,每個矢量代表一種類型(即好的和差的預后)。對于未知類型的一個新樣品,將樣品與標準譜/樣品進行聚類(clustered)。根據樣品在反復配對結束時所屬的簇/矢量來確定"未知"樣品的類型。具有"已知"或確定預后的表達譜指已經確定或獲得了預后的表達譜。預后可以是由基因表達數據計算得到的;由對來源樣品執行的臨床技術(例如組織病理學技術)獲得的;或者通過回顧獲取該表達譜的患者的實際疾病進展/結果而確定的。第三個選項是最優選的,因為可以由患者的醫學記錄根據后續結果(為了在獲得樣品時及時)確定精確的預后。在這種回顧判定中,后見之明的使用提供了精確性。本發明的方法可用于評估治療乳癌患者的功效。可以在治療前或治療早期確定患者的預后,并與治療后(或治療晚期)對患者確定的預后進行比較。優選使用依照本發明的方法來確定治療前后的預后。如果治療包括幾個階段,那么可以在每個階段后確定表達譜,從而將治療的進展制圖。在治療后預后的改善指示治療是成功的或至少部分成功的。治療可以是化療。本發明的方法可包括比較預后組在治療前后在乳瘤樣品中的表達水平以檢測表達譜的變化,它是預后改善或惡化的指示。該方法可包括檢測表S6中指出是"上調的"預后組基因的下調和/或表S6中指出是"下調的"預后組基因的上調。所述基因與標準值(例如一批不同預后樣品間的平均表達水平)相比和/或與先前值(例如"差的"預后的指示性或特征性標準譜)相比可能是下調的/上調的。"上調的"基因的下調和/或"下調的"基因的上調指示好的或中等預后。調控的變化程度可能指示治療的功效。發明人發現,朝著預后好的腫瘤表達謙變化指示治療是成功的。具有這種表達鐠變化的腫瘤具有最好的預后(例如最好的存活率、最好的無病存活率)。可以將治療前后階段腫瘤的表達鐠與已知預后的標準譜進行比較。因此,該方法可包括將乳瘤的表達譜確定為好的或差的預后類型(或者高或低NPI類型),將在治療晚期由所述腫瘤確定的第二個表達譜確定為好的或差的預后類型(或者高的或低的NPI類型),并檢測類型的變化,其中由差的預后變成好的預后(或者由高NPI變成低NPI)指示治療是有效的。另外/或者,確定好的或差的預后類型(或者高或低NPI類型)的統計學置信度水平變化可能指示治療的功效。確定為差的預后類型的置信度降低可能說明治療是成功的或至少部分成功的。評估治療功效的方法可以包括測定腫瘤ER狀態的步驟。然而,評估功效的所述方法對于評估ER+、ER-和ERBB2+腫瘤的治療功效是有效的,即不管腫瘤的ER狀態。表達譜代表了一組基因在腫瘤中的表達水平。每個表達譜的基因不必是相同的,但是每個表達譜的基因之間應當充分重疊,從而能夠比較表達譜并將其分組。出于檢測目的,可以使用本領域已知的標準方法標記結合成員。或者,可以在由所測試樣品分離表達產物后將其標記。優選的檢測手段是使用可以由光度計檢測的熒光標記物。另外的檢測手段包括電信號。例如,Motorola(Pasadena,California)的e傳感器系統具有兩個探針,一個是自由漂浮的"捕獲探針",另一個是附著在固體表面上的"信號探針",所述固體表面又為電極表面。兩個探針都作為表達產物的結合成員。當發生結合時,兩個探針彼此靠攏,產生可以檢測的電信號。然而,最近出現了利用"無標記物"技術來進行定量的許多新技術,例i口由Xagros(MountainView,California)開發的4支術。引物和/或擴增的核酸可以不含任何標記物。可以通過測量由兩種引物錨如上所述,結合成員可以是用于在PCR(例如多重PCR)中特異擴增基因鑒別物的表達產物數目的寡核苷酸引物。然后可以在凝膠上分析產物。然而,優選的是,結合成員是固定在固體支持物上的單一核酸探針或抗體。然后可以讓表達產物經過固體支持物,使得它們與結合成員相接觸。固體支持物可以是玻璃表面,例如顯微鏡栽玻片;珠(Lynx);或光纖。在珠的情況中,可以將每種結合成員固定在各個珠上,然后讓它們在溶液中接觸表達產物。本領域存在多種方法可用于確定特定的基因組(geneset)的表達譜,這些方法都可應用于本發明。例如,基于珠的方法(Lynx)或分子條形碼(Surromed)就是已知的技術。在這些情況中,將每種結合成員附著在單個可讀且自由漂浮的珠或"條形碼"上,以易于與表達產物的接觸。結合成員與表達產物(靶)的結合是在溶液中完成的,然后讓打上標簽的珠或條形碼經過某種裝置(例如流式細胞儀)并讀數。確定表達鐠的另一種已知方法是由Illumina(SanDiego,California)開發的儀器,即光纖。在這種情況中,將每種結合成員附著在光纖纜末端的特定"地址,,上。表達產物與結合成員的結合可以誘導熒光變化,它可以通過光纖纜另一端的裝置讀出。本發明人成功的使用了包含固定在固體支持物上的多種核酸序列的核酸微陣列。通過讓代表所表達基因的核酸序列(例如cDM)經過微陣列,它們能夠產生來自具有特定預后的腫瘤樣品(具體而言就是具有好的預后的腫瘤樣品或具有差的預后的腫瘤樣品或者是具有高NPI的腫瘤樣品或具有低NPI的腫瘤樣品)的表達產物的特征性結合i瞽。在第二個方面,本發明提供了用于確定乳瘤樣品預后的裝置,優選微陣列,該裝置包含附著了多種結合成員的固體支持物,每種結合成員能夠與預后組基因的表達產物特異結合。優選的是,附著在固體支持物上的結合成員能夠與表S6中所示的至少5種基因,更優選至少IO種基因或至少15種基因,且最優選至少20種或30種基因的表達產物特異且獨立結合。附著在固體支持物上的結合成員可能能夠與表S6中所示的20-30種基因的表達產物特異結合。在一個實施方案中,將能夠與表S6中所示的所有基因的表達產物特異且獨立結合的結合成員附著在固體支持物上。支持物上可以只附的結合成;。土口該裝置優選包含能夠與預后組的表達產物或其多種基因特異結合的結合成員,而且可以包含能夠與U133A微陣列上體現的不完整基因子集的表達產物特異結合的結合成員(盡管它還可能包含U133A微陣列上未體現的其它基因的結合成員)。認為U133A微陣列體現了約14397種不同基因。因此,該裝置優選包含不超過U133A微陣列上14396種基因的結合成員。該裝置可包含能夠與U133A微陣列上不超過9(r/。基因的表達產物特異結合的結合成員。該裝置可包含能夠與U133A微陣列上不超過80%、或70%、或50%、或40%、或30%、或20%、或10%、或5%基因的表達產物特異結合的結合成員。另外/或者,固體支持物可以容納不超過14000種、或不超過IOOOO種、或不超過5000種、或不超過3000種、或不超過1000種、或不超過500種、或不超過400種、或不超過300種、或不超過200種、或不超過IOO種、或不超過90種、或不超過80種、或不超過70種、或不超過60種、或不超過50種、或不超過40種、或不超過30種、或不超過20種、或不超過10種或不超過5種不同基因的結合成員。優選的是,結合成員是核酸序列,且裝置是核酸微陣列。表S6的基因列出了它們對應于Unigene數據庫Build160的Unigene編號。因此,可以由NationalInstituteofHealth(訓)(http://www.ncbi.nlm.nih.gov/entrez/query.fcgidb=unigene)的Unigene數據庫檢索每種基因的序列。另外,對于所有基因,Affymetrix(SantaClara,California)(www.affymetrix.com)提供了在用于固體支持物時能夠檢測基因表達的探針組的實例,包括探針的序列(即寡核苷酸序列形式的結合成員)。關于探針的詳情可以由Affymetrix網站的U133A部分使用靶基因的UnigeneID獲取。將來如果在表中所列的一個UnigeneID以新ID出現、分裂成兩個或多個ID(例如在數據庫的新build中)、或完全刪除,那么本發明人預期的基因序列可以通過訪問Unigene的Build160來檢索。通常,將高密度核酸序列(通常是cDNA或寡核苷酸)固定在固體支持物上很小的離散區域或點上。固體支持物常常是用某種基質包被的顯微鏡載玻片或濾膜(即芯片)。通常通過機械自動化系統將核酸序列投遞(或印制)到經過包被的固體支持物上,然后固定在支持物上。在一個優選的實施方案中,將由樣品產生的表達產物進行標記,通常使用熒光標記物,然后與固定好的核酸序列接觸。雜交后,使用檢測儀檢測熒光標記物,諸如高清晰度激光掃描儀。在另一種方法中,可以用非熒光標記物給表達產物打上標簽,例如生物素。雜交后,用與第一種非熒光標記物結合/鍵合的熒光染料給微陣列"染色",例如熒光標記的與生物素結合的鏈霉親和素。然而,如上所述,表達產物可以不進4亍標記。通過用數字成像軟件分析每個離散點發出的信號得到指示基因表達模式的結合譜(表達模式或譜)。然后,可以將實驗樣品的基因表達模式與標準譜(即具有例如已知的好的或差的預后或者已知的NPI值或已知的NPI值范圍的組織樣品的表達譜)進行比較從而進行差異分析。所述的標準可以是來自先前判定為特定預后(例如"差的"或"好的"預后)和/或特定NPI范圍(諸如高和/或低NPI)特征性的和/或一個或多個NPI值或一個或多個數值范圍特征性的一個或多個表達鐠。該標準可以是來自先前判定為特定NPI值或數值范圍(或是其它預后等級的限定值)特征性的一個或多個表達譜。該標準可以包括正常樣品的特征性表達鐠。這些/這個標準表達謙可以以可獲取的方式保存在數據載體上作為數據庫的一部分。大多數微陣列利用一種或兩種熒光團。對于雙色陣列,最常用的熒光團是Cy3(綠色通道激發)和Cy5(紅色通道激發)。微陣列圖像分析的目的是提取每種表達產物的雜交信號。對于單色陣列,對指定的靶(基本上是與單一樣品雜交的陣列)測量絕對強度作為信號。對于雙色陣列,測量具有不同熒光標記物的兩份表達產物(例如樣品和對照,對照在其它方面也稱為參照)的比率作為信號。依照本發明的裝置優選包含多個離散點,每個點含有一種或多種寡核苷酸且每個點代表選自表S6的基因的表達產物的不同結合成員。在一個實施方案中,微陣列將包含針對表S6中提供的每一種基因的點。每個點將包含多個相同寡核苷酸,每個都能夠與它所代表的表S6基因的表達產物(例如mRM或cDNA)結合。每一種基因優選由多種不同的寡核苷酸來體現,優選針對基因的AffymetrixU133A探針組。在本發明的第三個方面,提供了用于對乳癌患者確定預后的試劑盒,其包含能夠與預后組基因的表達產物特異結合的多種結合成員和檢測劑。該試劑盒可以包含數據分析工具,優選計算機程序的形式。數據分析工具優選包含適于區別不同預后腫瘤的表達謙的算法。優選的是,該算法適于區別"好的"預后和"差的"預后,最優選適于區別高NPI和低NPI腫瘤。該算法優選是上文描述的加權表決算法。在一個實施方案中,該試劑盒包含本發明第二個方面的裝置。該試劑盒可以包含具有已知預后的乳瘤樣品的表達譜(如上所述)和/或特定預后的特征性基因表達譜(如上所述),優選保存在數據載體或其它存儲裝置上。所述譜可以是已經進行了統計學分析或分組的,例如計算了平均表達水平平均值和/或基因權重。優選的是,將試劑盒中的一種或多種結合成員(抗體結合結構域或核酸序列,例如寡核苷酸)固定在一種或多種固體支持物上,例如用于微陣列或光纖測定法的單一支持物,或諸如珠等多個支持物。檢測手段優選用于標記所測試樣品的表達產物的標記物(放射性或染料,例如熒光)。試劑盒還可以包含用于檢測和分析所測試表達產物的結合譜的試劑。或者,結合成員可以是能夠與表S6中所示的基因的表達產物相結合并因此能在PCR中擴增它們的核苷酸引物。引物還可以包含檢測手段,即可用于鑒定擴增序列及其相對于其它擴增序列的豐度的標記物。乳瘤樣品可以通過切除的乳房活組織檢查物或細針吸取物來獲得。通過由許多腫瘤樣品生成預后組的許多表達譜,其中每個樣品都具有確定的預后,且優選根據預后等級,有可能為好的和差的預后生成謙庫。表達鐠的數目越多,生成可以在預后測定中用作標準的可靠特征性表達鐠標準(即包括統計變差)越容易。由此,標準鐠可以是由多種個體表達鐠且在統計變差內設計出來的以代表例如"好的"或"差的,,預后或者高NPI或低NPI的鐠。在第四個方面,提供了用于為乳瘤樣品生成核酸表達譜的方法,包括步驟(a)由所述乳瘤樣品分離表達產物;(b)鑒定預后組基因的表達水平;并(c)為所述乳瘤樣品由表達水平生成表達譜。可以將該表達譜加入基因表達譜數據庫。該方法還可以包括將該表達譜與另一個表達譜(或多個另一個表達譜)進行比較的步驟。該另一個(或多個)表達譜可以是使用實質相同的預后組由另一個(或多個)乳瘤樣品生成的,其中已經確定了該另一個(或多個)樣品的預后。該另一個(或多個)表達譜可以是特定預后的特征性標準譜,例如"好的,,預后或"差的,,預后,或者高NPI或低NPI,或者至少一個特定NPI值或至少一個NPI數值范圍。優選的是,預后采取預后度量(prognosticmeasure)的形式,優選臨床可接受的預后分類系統,諸如NPI。同樣,預后可以是由基因表達數據預測的,由臨床技術(諸如組織病理學技術)產生的,或根據提供樣品的患者的疾病結果對第二個表達謙回顧性確定的,由所述樣品產生所述第二個表達譜。憑借預后組的知識,有可能設計出用于測定基因在特定測試樣品中的表達模式或譜的許多方法。例如,可以使用標準分子生物學技術由樣品分離表達的核酸(RNA、mRNA)。然后,可以在PCR中使用對表員的表達核酸序列。如果分離的表達核酸是fliRNA,那么可以使用標準方法將它轉變成cDNA從而用于PCR反應。引物可以方便的將標記物導入擴增的核酸,從而可以對它進行鑒定。理想的是,標記物能夠指示擴增事件后存在的核酸序列的相對數量或比例,它反映了原始測試樣品中存在的相對數量或比例。例如,如果標記物是熒光或放射性的,那么信號強度將指示表達序列的相對數量/比例或甚至絕對數量。每一種基因鑒別物的表達產物的相對數量或比例將構成測試樣品的獨特表達語。依照本發明第四個方面的方法可以包括步驟(a)由第一個乳瘤樣品分離表達產物,使所述表達產物接觸能夠與預后組的表達產物特異且獨立結合的多種結合成員,并由預后組在腫瘤樣品中的表達水平生成第一個表達傳;(b)由預后已知的第二個乳瘤樣品分離表達產物(正如上文定義的),使所述表達產物接觸能夠與步驟(a)的預后組的表達產物特異且獨立結合的多種結合成員,從而生成相當的第二個乳瘤樣表達譜;(c)將第一個和第二個表達譜進行比較,以確定第一個乳瘤。樣品的預后在本發明的第五個方面,提供了包含多個乳瘤樣品基因表達譜的表達譜數據庫,其中基因表達譜來自預后組基因的表達水平,該數據庫以可獲取的方式保存在數據載體上。該數據庫優選是通過依照本發明第四個方面的方法生成的。所逸表達鐠優選是核酸表達謙。核酸表達譜的確定可以計算機化,而且可以在先前設定的某些參數內進行,以避免假陽性和假陰性。數據庫可以包含特定預后的特征性表達鐠,諸如好的或差的預后,或者特定預后值,優選NPI值(例如高NPI、低NPI、或特定定性數值或數值范圍)的特征性表達鐠。可以根據來源腫瘤的ER狀態(即ER+或ER-)將表達譜分類。然后可以加工并分析數據庫,使之最終包含(i)對應于數據庫中每個表達語的數值數據;(U)作為特定預后確定(例如好的或差的預后,或者數值或數值范圍,優選NPI)的規范謙的"標準"i瞽;和(iii)代表各個譜相對于"標準"語的觀測統計變差的數據。然后,計算機可能能夠提供具有特定預后的乳瘤樣品的特征性表達諳標準,例如好的預后和/或差的預后和/或高NPI和/或低NPI。如上所述,確定的表達傳然后可用于確定乳房組織樣品的預后,優選使用區別算法,最優選上文所述加權表決算法。所測試基因表達水平的數目越多,表達語的分類越可靠。已知的微陣列和基因芯片技術容許采用大量的結合成員。因此,更優選的方法將是使用代表表S6中所有基因的結合成員。然而,技術人員將領會,可以省略這些基因中的一定比例,而仍然以可靠且統計上精確的方式執行該方法。因、所有或基本上所有陽性基因和/或所有陰性基因或由其組成。預后組基因的內容和數目可以在本發明的各個方面之間獨立變化。預后組可以包含表S6的至少5、10、20、30、40、50、60種或所有基因。優選的是,所述預后組包含表S6的約60種、或約50種、或約40種、或約30種、或約20種、或約10種、或約5種陽性基因或由其組成。表S6的陽性基因優選選自表S6中陽性基因表的上部,優選上半部,因為所述基因是按照顯著性排序的。預后組可以包含表S6中兩種陰性基因中的一種或兩種,或者可以由二者組成。可以選擇基因的數目和基因以提供預后組,其至少能夠區別具有好的預后的腫瘤和具有差的預后的腫瘤(或者具有高NPI的腫瘤和具有低NPI的腫瘤)。預后組可以包含不超過60種表S6的基因。預后組可以包含不超過50種表S6的基因。預后組可以包含不超過40種表S6的基因。預后組可以包含不超過30種表S6的基因。預后組可以包含不超過20種表S6的基因。預后組可以包含不超過10種表S6的基因。預后組可以包含不超過5種表S6的基因。預后組可以包含表S6的5-60種基因或基本上由其組成。預后組可以包含表S6的10-40種基因或基本上由其組成。預后組可以包含表S6的IO-30種基因或基本上由其組成。預后組可以包含表S6的10-20種、或20-30種或優選30-40種基因或基本上由其組成。預后組(優選約10種或約20種或約30種基因)可以選自表S6的前約40種、或前約30種、或前約20種基因。約10種基因可以選自表S6的前約15種基因。該約10種基因可以是表S6的前10種基因。預后組可以包含選自表S6的前約40種、或前約30種、或前約20種、或前約10種陽性基因的約40種、或約30種、或約20種或約10種基因以及任選的表S6的兩種陰性基因中的一種或兩種或基本上由其組成。預后組可以包含選自表S6的前約30種或前約40種陽性基因的約30種基因以及任選的表S6的兩種陰性基因中的一種或兩種或由其組成。優選如上所述限制預后組中與U133A微陣列之間共有的基因數目。術語"約"優選意味著所述基因數目加上或減去如下二者中的較大者所述基因數目的10%或一種基因。提供預后組容許定制診斷工具(例如核酸微陣列)并用于腫瘤的預測、診斷和分型。另外,這些診斷工具可以與計算機聯合使用,所述計算機被編程來確定使用診斷工具(例如微陣列)得到的表達譜并如上所述將它與預后"已知"的"標準"表達譜或表達譜數據庫進行比較。從而計算機不僅為用戶提供了可用于診斷患者腫瘤的存在或類型的信息,同時計算機還獲得了另一個表達譜,由此確定"標準"表達譜,從而能夠更新其自身數據庫。由此,本發明首次容許制作包含與預后組對應的探針的專用芯片(微陣列)。陣列的實際物理結構可以變化,從附著在二維固體基質上的寡核苷酸探針至自由漂浮的用獨特標記物(例如"條形碼")個自"打上標簽"的探針。查詢預后已知的表達語的數據庫可以以直接或間接的方式進行。"直接"方式指將患者的表達谞與數據庫中的其它各個表達諳直接進行比較,以確定哪個語(及由此哪種預后)給出最佳匹配。或者,可以更"間接"的進行查詢,例如,可以將患者的表達鐠僅僅與數據庫中特定預后確定(例如"差的")或預后值或數值范圍(優選NPI,例如高NPI)的"標準"譜進行比較。間接法的優勢在于"標準"語(因為它們代表了許多個別諳的集合)的數據強度低得多,而且可以保存在較為便宜的數據載體或其它存儲裝置(例如計算機系統)上,而它可能構成依照本發明的試劑盒的一部分(即與微陣列相關)。在直接法中,有可能的是數據載體的規模將大得多(例如計算機服務器),因為將要保存很多個別語。通過將患者的表達譜與標準譜(間接法)和預先測定的群體統計變異進行比較,還將可能給出有關患者的表達i普與上文所述"標準"規范譜是多么緊密匹配的"置信度數值(confidencevalue)"。該數值將為臨床醫師提供關于預后可信度和例如是否應當重復分析的有價值信息。如上所述還可能將患者的表達鐠保存在數據庫中,而且它們可以在任何時間用于更新數據庫。在第六個方面,本發明提供了用于鑒定在一組腫瘤中差異表達的一組基因的方法,其包括由這組多個腫瘤提供表達譜,將該譜根據腫瘤的分子亞型分類,并在亞型內分析表達譜以鑒定出在該亞型內差異表達的該組基因。該方法與van'tVeer等(10)的方法不同在于van'tVeer等方法中散發淋巴結陰性乳瘤的初步選擇涉及通過臨床評估的分型,而非分子水平的分型。當然,本發明的這個方面和下述方面與上述方面密切相關。因此,文中另有明確要求。在本發明笫六個、第七個、和第八個方面的內容中,術語"表達語"不限于預后組的基因。而它一般指基因在所迷組的胂瘤中的表達水平,包括(但不必只是)在分子亞型內差異表達的基因的表達水平。由本發明第六個方面產生的差異表達組基因(下文稱為"區別組")可能對于所述組的腫瘤的特定表型或基因型是指示性的或特征性的。該方法優選包括將區別組的差異表達與特定表型和/或基因型關聯起來的步驟。可以確定區別組在許多不同的但表型和/或基因型已知的樣品中的表達譜,以建立區別組的特定基因表達語與特定表型和/或基因型之間的關聯。差異表達對于作為肺瘤患者的治療或診斷的一部分的腫瘤的臨床參數或確定的醫學類型(例如預后的度量,諸如NPI值或NPI類型)可能是特征性的。區別組的差異表達可能容許將腫瘤樣品確定為至少兩種不同基因型或表型類別中的一種。本發明第六個方面的方法還可以包括確定來自患者的腫瘤樣品的類型的步驟,其中區別組基因的差異表達對于該類型是特征性的,所述步驟包括提供區別組在樣品中的表達水平,并根據該表達水平確定腫瘤類型。確定類型的步驟可以包括使用統計技術,諸如但不限于加權表決(WeightedVoting)、支持矢量系統(SupportVectorMachines)、或分級聚類(HierarchicalClustering),正如上文所述。優選的是,該方法包括使用亞型特異的區別組來鑒定腫瘤樣品的分子亞型的步驟。另外/或者,本發明第六個方面的方法可以包括確定區別組在腫瘤樣品中的表達水平,由該表達水平確定表達語,并將語加入數據庫的步驟。優選的是,還鑒定了腫瘤樣品的分子亞型,并優選加入數據庫。特定類型特征性的標準譜可以是來自已知類型的至少兩個表達譜,其中所述表達譜來自區別組的基因。該標準語優選是對類型和分子亞型特異的。另外/或者,將已知類型(以及任選亞型)的表達傳加入數據庫。另外/或者,第六個方面的方法還可以包括在治療過程中檢查胂瘤類型變化的步驟。在一個實施方案中,提供了治療不同階段(例如治療開始時和治療結束時)的表達鐠,并進行比較以測定類型的變化,其中表達譜來自區別組基因的表達水平。優選將該表達傳與標準和/或已知譜進行比較以確定類型。根據分子亞型的分類優選是使用諸如組織病理學(例如免疫學)技術或直接測量腫瘤樣品中的基因表達產物水平的基因表達技術等技術進行的。最優選基因表達技術。然而,也可以采用能夠精確區別分子亞型的臨床技術。腫瘤優選是乳瘤,且分子亞型優選對應于腫瘤的ER(雌激素受體)狀態(例如ER+)。然而,該方法可以應用于其它腫瘤組(例如肺部腫瘤、卵巢腫瘤和淋巴瘤)和/或其它分子亞型(例如彌漫性大型B細胞淋巴瘤中的生發中樞樣和活化B細胞樣)。優選的是,為了確定差異表達基因而對表達鐠類型的分析包括微陣列顯著性分析(significantanalysisofmicroarrays,SAM)(12),它鑒定其表達水平在所比較樣品之間顯著變化的基因。優選的是,該分析涉及統計分析,例如使用加權表決、支持矢量系統和/或分級聚類(見下文關于這些技術的解釋)。在本發明的第七個方面,提供了通過本發明的第六個方面產生的一組基因。在本發明的第八個方面,提供了區別組在確定腫瘤樣品為特定類型中的用途。下面將參照附圖例示本發明的各個方面和實施方案。其它方面和實施方案對于本領域技術人員將是顯而易見的。將本文中提到的所有文件收入本文作為參考。圖l顯示了散發性乳瘤根據總體表達譜的聚類。a)使用展示最高基因表達差異的前376種基因對98個乳瘤的無監督分級聚類;b)使用376種基因組(geneset)的主成分分析(Principalcomponentanalysis,PCA)。觀察到與a)相似的分子分組;c)使用SAM-409基因組(geneset)的樣品分級聚類,SAM-409基因組由在腫瘤亞型之間受到顯著調控的基因組成。在SAM-409基因組中大約三分之二的基因在ER+腫瘤中顯示表達升高。圖2顯示了與NPI相關的表達特征(NPI-ES)的鑒定a)使用移動NPI閾值確定差異表達基因。在每個閾值(x軸)鑒定了顯示顯著差異表達的基因(y軸)。使用閾值4,給出了最高數目的差異調控基因;b)使用NPI-ES的ER+樣品的分級聚類。紅條指示低NPI的樣品(<4),藍條指示高NPI的樣品;c)使用NPI-ES的ER+腫瘤樣品的分類和預測置信度。將樣品根據它們的NPI值(X軸)分類。使用加權表決將樣品分類,并根據Golub等(13)計算每個樣品的預測強度(Y軸)。認為預測強度〈0.3的樣品分類是"不確定的"或"低置信度的"(灰色區域)。圖3顯示了比較不同分類方案對ER+肺瘤的預后強度的KM存活分析。綠線代表(a)低NPI、(b)低NPIES表達水平、或(c)低"預后,,特征(PES)表達水平,而粉紅線代表高水平。(a)49個RosettaER+肺瘤,通過經典NPI分成"好的,,預后(NPI<3.4)(35個腫瘤)和"中等"預后(NPI〉3.4)(14個腫瘤)組的;(b)相同的49個RosettaER+腫瘤,通過NPI-ES分成表達高(24個胂瘤)和低(25個腫瘤)水平NPI-ES的組;(c)相同的49個RosettaER+腫瘤,通過70種基因"預后,,特征分成"好的預后"組(27個腫瘤)和"差的預后"組(22個腫瘤);(d)46個StanfordER+腫瘤,通過NPI-ES分成表達高(13個腫瘤)和低(33個腫瘤)水平NPI-ES的組。圖S3顯示了基于所有腫瘤且不管亞型使用44種基因組對肺瘸沖早品的分類和預測置信度。圖S8顯示了Rosetta數據集的基因表達數據的分級聚類。頂部)展示腫瘤間相似性的樹形圖。彩色編碼條指示相應基因特征的亞型。左邊)276種基因的完整簇,含3個不同的基因簇。注意,有些ERBB2腫瘤表現與ER+腫瘤分離(紅條),但是在嚴格檢查ERBB2+相關基因(密集圖的放大)的表達后鑒定為£1^82+。這是因為11086"&微陣列具有的811+亞型相關基因的數目比ERBB2亞型多得多。圖S9顯示了RosettaER+樣品(49)才艮據NPI-ES表達水平的的分級聚類(在Rosetta的62種基因的數據中找到46個匹配)。彩色條的定義見圖2b。圖S10顯示了Stanford乳瘤的分級聚類。頂部)展示腫瘤間相似性的樹形圖。彩色編碼條指示相應基因特征的亞型。左邊)136種基因的完整簇,含3個不同的基因簇。圖Sll顯示了使用NPI-ES的Stanford46個ER+樣品的分級聚類(62種基因中有31個匹配)。彩色條的定義見圖2b。圖S12顯示了ER-和ERBB2+分子亞型中NPI-ES表達與NPI狀態的關系。ER-和ERBB2腫瘤的NPI狀態通常高于ER+肺瘤。與ER+腫瘤的情況不同,我們未能對ER-和ERBB2+亞型鑒定出在高和低NPI腫瘤中受到差異調控的SAM基因。還有,NPI-ES似乎與NPI值也沒有關聯,而NPI值與其它分子亞型是相關的。圖S13顯示了阿霉素治療(Perou等,2000)"之前,,和"之后"14周獲得的20對樣品。在20個"治療前"樣品中,10個樣品展示高水平的NPI-ES表達(H),IO個展示低水平的表達(L)。在前10個樣品中,6個在化療后維持高水平的表達(H->H,以紅色描繪),4個在治療后展示低水平的表達(H-〉L,以黃色描繪)。圖S14顯示了使用貢獻圖S13中20個樣品的患者制作的Kaplan-Meier無復發存活分析曲線。材料和方法乳房組織和臨床信息人乳房組織是在由NCCRepository和道德委員會得到相應的批準后由NCC組織庫獲得的。腫瘤狀態的組織學信息和雌激素受體(ER)和ERBB2免疫組化狀態是由新加坡綜合醫院病理科提供的(見臨床信息的補充信息)。樣品含有至少50%的腫瘤含量。如下計算NPI狀態腫瘤大小(cm)*0.2+級別+淋巴結點數(陰性淋巴結-l點;l-3個陽性淋巴結=2點;4個或更多陽性淋巴結=3點)。因為Stanford數據集中的腫瘤大小是使用CAT系統定義的,所以我們給每個CAT級別指派了一個近似值(即<formula>formulaseeoriginaldocumentpage29</formula>)。樣品制備和微陣列雜交使用Trizol試劑由組織提取RM,并且為了使用U133A基因芯片進行Affymetrix基因芯片雜交依照制造商的指示進行加工。數據加工和分析使用GenedataRefiner對原始的芯片掃描結果進行質量控制,并通過清除其表達在所有樣品中不存在的基因(即"A"call)進行過濾。將表達值進行log2轉化,并通過將每個樣品的所有剩余基因進行中值集中(mediancentering)而進行標準化。數據分析是使用GenedataExpressionist或常規電子數據表應用軟件進行的。無監督數據集(圖1,a-b)包含在所有精確測量的樣品間顯示〉1.5的標準偏差(SD)的基因。用于基因選擇的變異濾器(variationfilter)的微弱變異也產生非常相似的結果(P.Tan,未發表的數據)。清除分析中用于相同基因的探針副本,保留每種基因一種探針。使用CLUSTER進行平均連鎖分級聚類(average-linkagehierarchicalclustering),并使用TREEVIEW顯示。執行微陣列顯著性分析(SAM)(12)以鑒定受到差異調控的基因。圖lc的"假發現率"是O.1%,圖2的是15%。如Golub等(13)所述計算加權表決(WV)、排除一項檢查驗證(L00CV)測定法和預測強度(PS)(補充信息)。使用SPSS生成Kaplan-Meier存活曲線,并使用對數-排序(log-rank)測試計算存活曲線差異的統計學顯著性。通過卡方分析(chi-squareanalysis)測定基因表達與臨床變量之間的統計學相關性。加權表決(WV)和排除一項交叉驗證(L00CV)測定法的描述^農^t^(^〃;加權表決算法采用信噪比(S2N)度量來進行二元分類。給屬于預測物組的每種基因分派"選票",表述為待分類樣品中的基因表達水平與平均類型平均表達水平之間的加權差異。權重是使用如下相關度量確定的P(g,C)-------(n和cy表示基因在兩種類型的每一種中的表達水平的平均值和標準偏差)。確定特定類型的最終表決是通過將類型區別中所使用的每種基因的所有加權選票求和而計算出來的。"預測強度"(PS)定義為V勝—V敗PS=---------,v勝+v敗其中V勝和V敗分別指獲勝或失敗類型的總票數。PS反映了獲勝的相對幅度,從而定量反映了預測的確定性。橫/^一資it義發證"MCT入'我們使用標準的排除一項交叉驗證(L00CV)方法來評估練習組(trainingset)的分類精確度。在L00CV中,首先將練習組的一個樣品"排除在外",并對剩余樣品進行分類操作(例如基因選擇和分類練習)。然后使用經過訓練的(trained)算法將"排除"的樣品分類,并對練習組的所有樣品重復這個過程。結果和討論使用無監督聚類定義乳癌的分子亞型有人提出乳癌中顯著比例的內在基因表達變異可能促成了屬于不同"分子亞型"的不同腫瘤(例如ER+和ER-腫瘤)(8-9,14)。在不管亞型處理腫瘤的最初分析中,我們未能信服的鑒定出與NPI有關的表達特征。我們假設這可能是因為亞型間基因表達的顯著差異(亞型間差異)可能掩蓋了更加微妙的亞型內變異(亞型內差異)。為了繞開這個問題,我們執行了這樣一種方法學,其中作為獨立的數據集對待每種分子亞型。簡而言之,首先使用多個無監督聚類技術廣泛的將一組乳瘤表達鐠根據它們各自的"分子亞型"類別分開。然后,獨立分析每個亞型內的腫瘤以確定可能與NPI或其組成元素有關的表達特征。我們使用AffymetrixUl33A基因芯片對來自我們當地主要中國患者群的98個散發乳瘤生成了表達譜。將數據標準化和預加工后,我們使用標準偏差濾器(filter)鑒定出在腫瘤系列間顯示高度基因表達變異的367種基因組,并使用該基因組通過無監督分級聚類將肺瘤表達譜根據它們的總體相似性分組。乳瘤自我分成三個主要的亞組,分別稱為ER+、£11-和£1(882+(圖la)。這種分開型式通過主成分分析(PCA)得到了確認,PCA是一種獨立的分析技術(圖lb),它給出了高度相似的結果。為了有力的鑒定這些分組,我們使用SAM(12)來鑒定在亞型間差異表達的基因。在FDR("假發現率,,)為0.1%時,我們鑒定出以亞型特異方式受到顯著調控的409種基因(圖lc)。表S5列出了通過SAM鑒定為在每種分子亞型(ER+、ER-、ERBB2+)中顯著調控的前50種基因。基因按照它們的S2N相關比排序,這反映了在不同組間觀察到的表達擾動的程度。這些基因與其它研究(8-ll)報告的相似列表之間具有很好的重疊。409種基因組中的大約69%在ER+亞組中顯示表達升高,包括雌激素受體基因ESR1和受雌激素調控的基因,諸如LIV1、TFF1和MYB(補充信息)。與其它研究一致的是,在這種亞型中也觀察到GATA3、HNF3a、膜聯蛋白A9和XBP1的高表達水平(8-9,11)。ER-亞組與基底乳房上皮標志物(角蛋白5和17)、基底膜蛋白ladinin1、絲氨酸蛋白酶KLK5(已經將其與差的疾病預后聯系起來(15))、和絲氨酸蛋白酶抑制物maspin(先前報告以ER相反方式表達的三苯氧胺可謙導的一種基因(16))的高表達有關。最后,ERBB2+亞型與ERBB2受體和與17q基因座物理連鎖的其它基因諸如GRB7和PMNT(14)的高表達水平有關,說明存在DNA擴增。然而,大多數在ERBB2+亞型中特異顯示表達升高的基團未能限制于17q基因座,而是發現遍布基因組,諸如S100鈣結合家族的成員(S100A8、A9)。總之,我們的結果驗證和確認了先前關于大多數乳瘤確實可以根據它們的總體基因表達譜細分成不同分子亞型的報告。ER+腫瘤中與NPI有關的預后組的鑒定我們把焦點集中在屬于ER+分子亞型的34個腫瘤,并試圖在該亞型內鑒定出其表達可能與NPI狀態有關的基因。經典的是,通常將乳癌患者根據NPI分成3個主要的組"好的"預后(NPI<3.4),"中等"預后(NPI3.4-5.4),和"差的"預后(NPD5.4)(2)。可能反映了不同評分病理學家間可變性的影響,其它研究提出了定義這些組的截止值的略微不同數值(17)。為了在確定適當的NPI截止值時避免任何潛在偏差,我們進行了移動閾值分析,其中將ER+腫瘤根據NPI閾值分成一系列二元組,而NPI閾值由2.3穩步升高至7.8。在每個閾值,鑒定在兩個組之間顯示顯著表達變異的基因。我們發現,使用NPI截止值3.8-4.6得到了62種差異表達基因的基因組(圖2a),其中大多數在高肝1的£11+樣品中顯示升高的表達(圖2b)。我們將這62個成員的基因組稱為"NPI表達特征,,或NPI-ES,并顯示于表S6。屬于NPI表達特征的基因與牽涉瘤發生的廣泛細胞功能有關,包括DNA復制和細胞分裂(APRT、MCM4、KNSL1、CDC2)、細胞信號(趨化因子配體l、Met、ShC)、凋亡(生存蛋白(survivin)、CD27結合蛋白)、和細胞粘附(復盤,大同系物7、tetraspanl)。在個別NPI成分(腫瘤大小、腫瘤等級、淋巴結狀態)中,腫瘤等級似乎代表了NPI-ES的分子組成的主要貢獻者(補充信息)。腫瘤通過NPI-ES的分類限定了兩個獨立(discrete)的分子組有人提出分子謙用于腫瘤分類的一項優勢是將分類的置信度水平在數學上量化的能力(11),這在分類影響后續治療過程的情況中特別重要。在這種情況中,主治醫師就能夠針對特定干預的潛在發病率權衡預測的置信度。注意,雖然在我們的數據集中ER+樣品與連續的經典NPI數值范圍(2-8)有關,但是使用NPI-£3進行的聚類分析似乎將£1(+腫瘤分成兩個獨立的組(圖2b),這提出了根據組織病理學參數顯示連續數值的樣品可能在分子水平分成獨立類別的可能性。為了更好的確定NPI-ES信服的區別顯兩種類型的能力,我們使用加權表決(13),即一種監督學習算法來鑒別展示高和低表達的NPI-ES的腫瘤,并使用已經建立的排除一項交叉驗證(L00CV)測定法測試練習后的算法的分類精確度。除了分類精確度以外,還如Golub等(13)所述計算了定量度量(預測強度,PS)以提供預測置信度的評估(圖2c)。WV分析揭示了NPI-ES給出的L00CV分類精確度是91。/。,有3個錯誤分類。在錯誤分類的這3個樣品中,2個與低預測強度(PS<0.3)有關,從而代表"低置信度"或"不確定"分類。事實上,在與"高置信度,,(PS>0.3)分類有關的29個(總數"個)ER+腫瘤中,只有一個樣品是錯誤分類的。這些結果說明NPI-ES可用于將我們數據集中大多數ER+腫瘤以高置信度分成獨立的組。使用所有腫瘤不管亞型產生NPI表達特征我們使用兩步法限定了NPI-ES。首先,使用無監督聚類將腫瘤依照它們各自的"分子亞型,,(即ER+、ER-、ERBB2+)聚簇。對每個亞型內的肺瘤分析可能與NPI有關的表達特征。在這里,我們顯示了進行第一步(定義截然不同的分子亞型)在鑒定NPI-ES中是重要的。不管分子亞型我們收集了由所有79個腫瘤組成的數據集,并如上所述進行移動NPI閾值分析以定義"恰當"的NPI閾值(見圖2a)。我們發現使用NPI閾值4得到了總共44種差異表達的基因。在這44種基因組中,16種(35%)也屬于NPI-ES(它們衍生自ER+樣品)。我們使用加權表決(WV)和排除一項交叉驗證(L00CV)測定法評估了這44種基因組信服的將腫瘤樣品分為獨立組的能力。由圖S3可以看出,低置信度(PS〈0.3,紅色區域)樣品的數目以及錯誤分類率(對于44種基因組是9%)與圖2c相比都顯著升高。這一結果指示基于所有79個腫瘤,該44種基因組在預測腫瘤NPI狀態時不如NPI-ES對ER+腫瘤有效。在圖S3,將樣品根據它們的NPI值(X軸)分類。使用加權表決進行樣品分類,并根據Golub等(13)計算每個樣品的預測強度(Y軸)。認為預測強度〈0.3的樣品分類是"不確定的"或"低置信度的"(灰色區域)。與圖2c相比觀察到了更大數目的"不確定"(低PS)樣品和錯誤分類。不管亞型由所有腫瘤衍生的44種基因組不如NPI-ES在對獨立數據集預測NPI狀態時有效。使用Rosetta數據集作為盲測集,我們對在Rosetta數據集中的49個ER+腫瘤運用44基因組,并使用Student'st檢驗來確定表達高水平的44種基因組和具有高NPI的ER+腫瘤之間的關聯顯著性。我們對44種基因組得到的p值是0.29,其顯著性比NPI-ES的p值O.0004低得多。有趣的是,盡管衍生自對ER+腫瘤的分析,NPI-ES要優于44種基因組,甚至在應用于Rosetta數據集中的所有78個腫瘤時。為了證明這一點,將78個Rosetta腫瘤分成NPK3.4(好的預后)和NPI〉3.4(中等預后)的兩組。然后使用加權表決將Rosetta腫瘤根據NPI-ES或44種基因組分類。由表S3可以看出,NPI-ES給出的分類精確度是80。/。,與之相比44種基因組給出的分類精確度是70%。與組織學等級(1和2對3)有關的基因因為經典的NPI是由腫瘤等級、腫瘤大小、和淋巴結狀態衍生的復合度量,所以我們定義了這些元素中每一個對NPI-ES分子組成的貢獻。在使用SAM鑒定與三個組織病理學變量有關的基因時,我們未能信服的鑒定出其表達與腫瘤大小或淋巴結狀態顯著相關的基因。相反,在組織學等級的情況中,發現大量的基因在1或2級與3級腫瘤之間差異表達,而且這個等級相關基因組中的基因與NPI-ES充分重疊(66。/。)(表S6)。這些結杲說明顯示不同組織學等級的腫瘤可能在生物學上是不同的,而且腫瘤等級是NPI表達特征的關鍵貢獻者,而其余兩個參數(腫瘤大小和淋巴結狀態)給出相對較低的貢獻。NPI-ES在多個獨立乳癌表達數據集間的應用為了測試NPI-ES在一系列盲"測試組"中預測NPI狀態和疾病預后二者的能力,我們使用公眾可獲得的兩個獨立乳癌數據集。第一個數據集(稱為Stanford數據集)由使用基于寡核苷酸的微陣列描繪(profiled)的78個淋巴結陰性乳瘤組成,而且還包含每位患者的"無病存活"(DFS)持續時間(由最初診斷出腫瘤至出現新的遠程轉移的時間)(10)。重要的是,先前的幾項研究顯示NPI甚至在淋巴結陰性乳癌中也是預后值(18,19)。第二個數據集由使用cDNA微陣列描繪(profiled)的78個乳癌組成,還包含總體患者存活信息(稱為Stanford數據集)(14)。獲得了這些數據集容許我們獨立測試NPI-ES的預測能力,因為Rosetta和Stanford數據集在多個方面與我們的數據集有所不同,包括I)患者群;II)樣品操作方案;III)評分的病理學家;和IV)陣列技術和探針組的選擇(Rosetta和Stanford數據集中是雙色,而我們的數據集中是單色)。^"〃3#乙痛炎拔桌,在通過SAM分析鑒定出的限定ER+、ER-、和ERBB2+亞型的409種基因中,276種基因(67。/。)也存在于Rosetta微陣列中。我們將此基因組應用于78個Rosetta腫瘤譜,并鑒定出屬于£11+分子亞型的"個腫瘤,確定了在屬于NPIES的62種基因中有46種也存在于Rosetta微陣列中。因為Rosetta數據集是以與我們不同的陣列技術為基礎的,所以不可能直接將訓練后的以我們的數據集開發的加權表決模型直接用于將Rosetta腫瘤分類。然而,依照Ramaswamy等(20)中描述的用于比較不同陣列技術間基因組的策略,我們使用重疊NPI-ES集的46種基因通過分級聚類將49個ER+Rosetta腫瘤分組。聚類分析將49個£11+Rosetta腫瘤分成2組,分別由24個和25個顯示"高"和"低"表達水平的NPI-ES的腫瘤組成(見圖S9)。我們比較了這兩個亞組中的腫瘤以確定它們是否與它們的NPI值差異有關。使用兩種不同的統計方法,或是將腫瘤NPI值看作一個連續梯度(Student'st檢驗)或是將其看作兩個獨立的組(卡方分析,使用經典的NPI截止值3.4),與表達低水平NPI-ES的腫瘤相比,顯示高表達NPI-ES的腫瘤一致展示顯著更高的NPI值(連續分析的p—.0004,二元分析的P-O.0087)(表la)。這項分析指示甚至在通過不同陣列技術產生的獨立數據集中,NPI-ES的表達在ER+腫瘤中與經典NPI狀態顯著相關。為了比較NPI-ES和經典NPI分段系統的預后能力,進行了優勢比(odds-ratio)計算(表lb)。與表達低水平NPI-ES的ER+腫瘤相比,具有表達高水平NPI-ES的ER+腫瘤的患者在五年內遠程轉移的優勢比是10.3(95%CI2.4-44.0,p<0.001)。比較而言,與NPI指數〈3.4("好的"預后)的ER+腫瘤相比,具有經典NPI指數〉3.4("中等"預后)的ER+肺瘤的患者具有較低的遠程轉移優勢比6.1(95%CI1.6_23.4,p=0.06)。我們還使用Kaplan-Meier存活分析比較了NPI-ES和NPI的預后性能(圖3)。與其它研究一致,與具有較高NPI(>3.O的患者相比,具有低NPI(〈3.4)腫瘤的患者展示更好的DFS(p-0.007,圖3a)。在通過NPI-ES將相同群體分組時,與具有低水平表達NPI-ES的腫瘤的患者相比,具有顯示高表達NPI-ES的腫瘤的患者顯示更好的無復發存活(p=0.0007)。總之,這些數據說明對于ER+腫瘤而言,NPI表達特征的預后能力可能優于經典NPI分段系統。5Yai7/orcT炎^桌;使用相似方法以Stanford數據集測試NPI-ES(見圖SIO)。在用于限定ER+、ER-、和ERBB2+亞型的SAM-409基因組中,136種基因存在于Stanford微陣列上(http:〃genome-www5.Stanford.edu/MicroArray/SMD/),而且使用這些基因將Stanford腫瘤聚類,鑒定出屬于ER+分子亞型的46個腫瘤(由棄掉正常樣腫瘤亞組的6個腫瘤后的72個腫瘤,所述亞組可能是由于存在污染性非惡性組織)。然后使用NPI-ES(在Stanford微陣列上31個匹配)將這46個腫瘤聚類(見圖S11)成"高NPI-ES"(13個胂瘤)和"低NPI-ES"組(33個腫瘤)。Student'st檢驗再次揭示了高和低表達NPI-ES亞組與經典NPI狀態之間的顯著關聯(P=0.001)(表la)。另外,KM存活分析也證明了具有低NPI-ES表達腫瘤的患者相對于具有高NPI-ES表達腫瘤的患者的顯著(p=0.0493)總體存活優勢(圖3d)。有趣的是,表達高水平NPI-ES的ER+腫瘤與Sorlie等(14)中鑒定的"LuminalC"分子亞型之間似乎存在強大相關性,盡管屬于NPI-ES的62種基因都沒有報告在后者中表達。有趣的是,Sorlie等(14)先前報告了根據500種基因的"內在,,集鑒定"LuminalC"亞型。"LuminalC,,肺瘤與表達高水平NPI-ES的腫瘤之間似乎存在強大重疊(96%),盡管如上所述沒有在此"內在"集中發現屬于NPI-ES的所有62種基因。這列于Sll。NPI-ES的預后能力與先前描迷的關于乳癌"預后特征"相當在VanVeer等(10)的相同研究中,作者還鑒定了預測乳瘤DFS狀態的70種基因的"預后,,表達特征(PES)。有趣的是,屬于NPI-ES和PES的基因存在極小重疊,在兩組基因間只發現一種共有基因。為了比較NPI-ES和PES對RosettaER+腫瘤的預后性能,我們使用KM存活分析來比較通過NPI-ES(圖3b)或PES(圖3c)分類的患者的DFS。在PES(p=0.0001)中觀察到比NPI-ES(p=0.0007)略好的性能。然而,與PES有關的稍微的改善并未出乎意料,因為PES的鑒定是直接以這些相同腫瘤的表達謙和臨床信息為基礎的。因此,Rosetta腫瘤對PES而言不是"盲"的,而在NPI-ES的情況中,Rosetta腫瘤代表了完全獨立的測試組。事實上,在將PES和NPI-ES應用于StanfordER+腫瘤時,兩種分子特征對5年內復發給出了高度相似的優勢比(PES的3.9對NPI-ES的4.17)(表lc)。由此,這些結果說明NPI-ES和PES的預后能力比較相當。NPI-ES分子特征的表達預測化療響應在這些分析中,我們檢驗了化療前后成對乳瘤樣品的NPI-ES分子特征的表達,并將這種特征的表達與最終的臨床響應聯系起來。采用的是公眾可獲得的乳癌數據集("Stanford"),由阿霉素治療"之前"和"之后"14周獲得的20對樣品組成(8)。在NPI-ES的62種基因中,31種基因也存在于Stanford微陣列上,并且檢驗了這31種基因組在成對樣品中的表達。在20個"治療前"樣品中,10個樣品顯示高水平的NPI-ES表達(H),IO個顯示低水平的表達(L)。如圖S13所示,在前10個樣品中,6個在化療后維持高水平的表達(H-〉H,以紅色描繪),4個在治療后展示低水平的表達(H-〉L,以黃色描繪)。然后將每個組的死亡數目(5年后)列表,正如表S12所示。然后進行了Kaplan-Meier無復發存活分析,并顯示于圖S14。我們發現,與其它組相比,"H->L"腫瘤具有最好的存活結果(p=0.022),而"H->H"肺瘤具有較差的預后。這個結果說明NPI-ES在高表達NPI-ES腫瘤中的下調可以看作是化療響應的標志。總之,我們鑒定出62種基因的表達特征,可以潛在發揮NPI分子替代品的功能。通過顯示NPI-ES能夠對由不同中心生成的兩個獨立腫瘤組預測NPI狀態和疾病預后,得到了它的可靠性的置信度。由這項研究顯現的一個有趣的概念是,在組織病理學水平顯示表觀連續變量的樣品卻可能可以在分子水平分成獨立類別。這可能解決了癌癥組織病理學中的一個主要挑戰,即當評估的參數具有連續特性時難以限定臨床上恰當的截止值。我們承認在充分評估NPI-ES的臨床效用前還有較多工作需要做。首先,NPI-ES的預測能力顯然需要對更大的腫瘤組進行檢驗。其次,盡管我們已經證明了NPI-ES在ER+分子亞型中的適用性,然而NPI-ES的表達與其它分子亞型(ER-、ERBB2+)有關的NPI值似乎沒有同樣的相關性(補充信息)。樣品數據表S14顯示了不同NPI值樣品間預后組(或NPI-ES)基因的表達數據。該數據對于AffymetrixUl33A基因芯片是特異的,而且已經進行了數據預加工。預后組的基因表達語可以作為練習數據用于構建預測模型(例如WV和SVM),然后可以確定未知腫瘤的NPI類型。數據以制表符為界,而且具有如下格式列第1列預后組基因的探針ID第2列基因名稱第3列和其它列基因表達數據行第1行樣品Id(35份樣品)第2行NPI指數第3行和其它行基因表達數據基因表達數據是如"樣品制備和微陣列雜交,,和"數據預加工"(見材料和方法部分)中所述產生的。具體而言,使用用于測量微陣列的儀器(通常是微陣列掃描儀,例如Affymetrix)計算原始基因表達數據數值。表S15顯示了每種類型的每種預后組基因在進行加權表決算法時所使用的平均值(ja)和標準偏差((J)參數。給予一組預后組中基因的表達水平,這些數據可用于確定未知乳瘤樣品的預后。該數據對于加權表決技術特異,這種技術應用于來自AffymetrixU133A基因芯片的表達數據。參考文獻1.Elston,C.W.andI.0.Ellis.Pathologicalprognosticfactorsinbreastcancer:I.Thevalueofhistologicalgradeinbreast.cancer-Experiencefromalargestudywithlong-termfollow-up-Histopathology19,403-410,1991-2.Galea,M.H.,R.W.Blarney,C.W.Elston,andI.O.Ellis.TheMottinghamPrognosticIndexinprimarybreastcancer.BreastCancerResTreat.22,207-219,1992.3..Ellis,I.O.,.M.Galea,N.Broughton,A.Lockei:,R.W.Blarney,andC.W.Elston.Pathologicalprognosticfactorsinbreastcancer.II.Histologicaltype.Relationshipwithsurvivalinalargestudywithlong-termfollow-up.Histopathology479-489,1992.4.Balslev,I.,K.Axelsson,K.Zedeler,B.B.Ramussen,B.Cars仁ensen,andH.T.Mouridsen.TheNottinghamPrognosticIndexappliedto9,419patientsfromthestudiesoftheDanishBreastCancerCooperativeGroup(DBCG).BreastCancerRes.Treat.32,281-290,1994.5.Sauerbrei,W.,K.Hubner,C.Schmoor,andM.Schumacher.Validationofexistinganddevelopmentofnewprognosticclassificationschemesinnodenegativebreastcancer.BreastCancerRes.Treat.42,149-163,1997.G,Gilchrist,K.W.,L.Kalish,V.E.Gould,S.Hirschl,J.E.Imbriglia,W.M.Levy,A.S.Patchefsky,D.W.Penner,J.Pickren,J.A.Roth,ande.al.InterobserverreproducibilityofhistopathologicalfeaturesinstageIIbreastcancer.AnECOGstudy.BreastCancerRes.Treat-5,3-10,198S.7.Buettner,P.,C.Garbe,andGuggenmoos-Holzmann.Problemsindefiningcutoffpointsofcontinuousprognosticfactors:Exampleoftumourthicknessinprimarycutaneousmelanoma.JClin.Epidemiology50,1201-1210,1997.8.Perou,C.M.,T.Sorlie,M.B.Eisen,v.d.R.M.,S.S.Jeffrey,C.A.Rees,J.R.Pollack,D.T.Ross,H.Johnsen,L.A.Akslen,O.Fluge,A.Pergamenschikov,C.Williams,S.X.Zhu,P.E.Lonning,A.L.Borresen-Dale,P.Q-Brown,andD.Botstein.MolecularPortraitsofHumanBreastTumours.Nature406,747-752,2000.9.Gruvberger,S.,M.Ringner,Y.Chen,S.Panavally,L.H.Saal,A.Borg,M.Ferno,C.Peterson,andP.Meltzer.EstrogenReceptorStatusinBreastCancerisAssociatedwithRemarkablyDistinctGeneExpressionPatterns.CancerResearch61,5979-5984,2001.10.van'tVeer,L.J.,H.Dai,M.J.vandeVijver,Y.D.He,A.A.M.Hart,M.Mao,H.L.Peterse,K.vanderKooy,M-J.Mar.ton,A.T.Witteveen,G.J.Schreiber,R.M.Kerkhoven,C.Roberts,P.S.Liinsley,R.Bernards,andS.H.Friend.Geneexpressionprofilingpredictsclinicaloutcomeofbreastcancer.Nature415,530-536,2002.11.West,M.,C.Blanchette,H.Dressman,E.Huang,S-Ishida,R.Spang,H..Zuzan,J.A.J.Olson,J.R.Marks,andJ.R.Nevins.Predictingtheclinicalstatusofhumanbreastcancerbyusinggeneexpressionprofiles.ProcNatlAcadSci98,11462-11467,2001.12.Tusher,V.G.,R.Tibshirani,andG.Chu.Significanceanalysisofmicroarraysappliedtotheionizingradiationresponse.ProcNatlAcadSci98,5116-5121,2001.13.Golub,T.R.,D.K.Slonim,P.Tamayo,C.Huard,J.P.Gaasenbeek,H.Coller,M.L.Loh,J.R.Downling,M.A.Caligiuri,C.D.Bloornfield,andE.S.MolecularClassificationofCancer:ClassDiscoveryandClassPredictionbyGeneExpressionMonitoring.Science286,531-537,r999.14.Sorlie,T.,C.M.Perou,R.Tibshirani,T.Aas,S.Geisler,H.Johnsen,T.Hastie,M.B.Eisen,.M.vandeRijn,S.S.Jeffrey,T.Thorsen,H.Quist,J.C.Matese,P.O.Brown,D.Botsteiri,P.E.Lonning,andA.Borresen-Dale.GeneExpressionPatternsofBreastCaxcinotnasDistinguishTumourSubclasseswithClinicalImplications.Proc.Natl.Acad.Sci.98,10879-10874,2001.15.Yousef,G.M.,A.Scorilas,L.G.Kyxiakopoulou,L..Rendl,M.Diamandis,R.Ponzone,N.Biglia,M.Giai,R.,Roagna,P.Sismondi,andE.P.Diamandis.Humankallikreingene5(KliK5).expressionbyquantitativePCR:anindependentindicatorofpoorprognosisinbrreastcancer.ClinChem48,1241-12S0,2002.16.Martin,K.J.,B.M.Kritzman,L.M.Price,B.Koh,C.P-Kwan,X.Zhang,A.Mackay,M.J.O'Hare,C.Kaelin,G.L.Mutter,A.B.Pardee,andR.Sager.Linkinggeneexpressionpatteirristotherapeuticgroupsinbreast,cancer.CancerRes.,60,2232-223B,2000.17.Sundquist,M.,S.Thorstenson,L.Brudin,andB.■Nordenskjold.ApplyingtheNottinghamPrognosticIndextoaSwedishbreastcancerpopulation.BreastCancerResTreat53,1-8,1999.18.Barbareschi,M.,O.Caffo,S.Veronese,R.D.Leek,P.Fina,S.Fox,M.Bonzanini,S.Girlando,L-Morelli,C.Eccher,F.Pezzella,C.Doglioni,P-DallaPalma,andA.Harris.Bcl、2andp53expressioninnode-negativebreastcarcinoma:astudywithlong-termfollow-up.Hum.Pathol.27,1149-1155,1996.19.Frkovic-Grazio,S.andM.Bracko.LongtermprognosticvalueofNottinghamhistologicalgradeanditscomponentsinearly(pTINOMO)breastcarcinoma.JClinPathol55,88-92,2002.20.Raoiaswamy,S.,K.N.Ross,E.S.Lander,andT.R.Golub.Amolecularsignatureofmetastasisinprimarysolidtumours.NatGenet33,49-54,2003.21.Travassoli,#.A.andSchnittS.J.(1992)Pathologyof.theBreastIia.(Elsevier)22.EisenMB,SpelltnanPT,BrownPO,BotsteinD.(1998)Clusteranalysisanddisplayofgenome-wideexpressionpatterns.ProcNatlAcadSciUSA.95(25),"863-14868.表la)<table>tableseeoriginaldocumentpage44</column></row><table>*括號中的數值代表樣品數目。表lb)根據經典NPI分段和NPI-ES表達得出的RosettaER+腫瘤五年內遠程轉移作為首次事件的優勢比(oddsratio)<table>tableseeoriginaldocumentpage44</column></row><table>*優勢比是使用標準2x2表計算的。CI代表"置信區間"。表lc)才艮據PES表達和NPI-ES表達得出的StanfordER+胂瘸五年內復發作為首次事件的優勢比。有一個樣品沒有復發信息,因而排除在分析之外(剩下45個ER+腫瘤)。<table>tableseeoriginaldocumentpage45</column></row><table>表S1:乳瘤的組織病理學年齡大小等級結NPIERPR亞型LVIDCIS(mm)ER+200022052609802786440200059757402000609627020020071582820020160861202000787576020008185210200200513850200200567120980197553098026160159803915620200076839402000779485599012354552000422516320006837235200077551252000804394098034652209803836430990082493498017775269801786932980403733098043473309900756625990113709099010750409802084225980220403798022133659903753815ER_9801934925980216654598025646369802854940980338553098035358459804116930980441663099017455452000320672020005004475334個中的30個320個中的14個212個中的0個217個中的17個316個中的0個310個中的0個39個中的0個211個中的0個325個中的1個117個中的2個34個中的2個29個中的0個27個中的0個317個中的0個314個中的0個311個中的7個37個中的3個217個中的0個212個中的0個321個中的5個34個中的0個216個中的0個216個中的3個213個中的6個315個中的2個39個中的0個316個中的0個321個中的5個315個中的11個118個中的1個320個中的5個25個中的0個313個中的1個110個中的0個323個中的3個220個中的5個312個中的1個37個中的1個37個中的0個325個中的0個29個中的0個314個中的4個224個中的3個321個中的20個36個中的6個7.2陽性陰性6.8陽性陰性3.8陽性陰性6.4陽性陽性4.56陽性陽性6.4陽性陽性5.2陽性陽性3.2陽性陰性6陽性陽性3.4陽性陰性5.6陽性陽性3.3陽性陰性3.4陽性陽性4.8陽性陽性5.1陽性陰性7.1陽性陽性6.26陽性陽性3.7陽性陽性3.5陽性陰性6.8陽性陽性4.4陽性陽性3.6陽性陽性4.68陽性陽性5.52陽性陽性5.74陽性陰性4.6陽性陽性4.6陽性陽性6.5陽性陽性7.8陽性陽性3.8陽性陰性6.5陽性陽性3.74陽性陽性6.3陽性陽性2.3陽性陰性5.5陰性陰性5.9陰性陰性5.72陰性陰性5.8陰性陰性4.6陰性陰性4.9陰性陰性3.6陰性陰性6.6陰性陰性5.9陰性陰性6.4陰性陰性7.5陰性陰性5^i無無無無l無i.^.i無.^無無^i.^^.^.i^無.^^.^無ll無l無r能6;c.ft"是是可是否否是否否否是否否否否否否否否是可否否是否可否是否是否是否否極無無極無無無無極無無否否否是否否否是是是是的混葉移管h管管管小管管管管管管管管管管管管管管管管管管管管管管管5管管管管管管管管管轉管管管管*這個表包含這項研究中所使用的98個腫瘤中79個的臨床信息。其余19個腫瘤的臨床信息是不完整的,沒有包含在這個表中。只將具有完整臨床信息的79個腫瘤用于隨后NPI-ES分析。<table>tableseeoriginaldocumentpage47</column></row><table>表S3,NPI-ES給出的分類精確度是80。/。,與之相比,44種基因組給出的分類精確度是70%。表S3:NPI-ES或44種基因組對78個RoseUa胂瘤的分類精確度NPI分類(<3.4或>3.4)錯誤分類的數目(精確度)44種基因23(70%)NPI-ES15(80%)表S5:在ER+、ER-和ERBB2+分子亞型中受到顯著調控的前50種基因的列表此表代表了通過SAM鑒定的在各個分子亞型(ER+、ER-、ERBBH)中受到顯著調控的前50種基因。基因以它們的SM相關比排序,這反映了在不同組中觀察到的表達擾動的程度。這些基因與其它研究(8-11)報告的類似列表之間存在較好的重疊(正文)。_基因描述Unigene染色體ER+分子亞型雌激素受體1GATA結合蛋白3膜聯蛋白A9K1AA0882蛋白碳酸Sf酶XII細胞色素P450,亞家族IIB(苯巴比妥可誘導的)肽6動力蛋白、軸絲(axonemal)、光中間多肽lHs.1657Hs.169946Hs.279928Hs細19Hs.5338Hs.1360多Hs.406050Hs.82222seraa結構域,,免疫球蛋白結構域(Ig),短基本結構域,Hs.155956分泌的,(semaphorin)3BN-乙酰基轉移酶l(芳基胺N-乙酰基轉移酶)絲氨酸(或半胱氨酸)蛋白酶抑制物,進化枝A(ct-lChr:6q25.1Chr:10p15Chr:1q21Chr:4q31.1Chr:15q22Chr:19q13.2Chr:1p35.1Chr:3p21.3Chr:8p23.卜p21抗蛋白酶、抗胰蛋白酶),成員5細胞色素c氧化酶亞基Vlc人類mRNA;cDMDKFZp564F053DKFZp564F053),mRNA序列LIV-1蛋白,受雌激素調控的(來自克Hs.76353Hs.351875Hs:71968Hs.79136Crir:14q32.1Chr:8q22-q23Chr:18q12.1肌釣蛋白Tl,骨骼的,緩慢的Hs.73980Chr:19ql3:4假定蛋白FU20151HS.279916Chr:15q21.3calsyntenin2Hs.12079Chr:3q23-q24B細胞CLL/淋巴瘤2Hs.79241Chr:18q21.3醋酸胍N-甲基轉移酶Hs.8"31Chr:19p13.3微管相關蛋白THs.101174Chr:17q21.1假定蛋白FU12910Hs.15929C"r:6q25.1含WW結構域蛋白1Hs.355977Chr:8q21UDP-葡萄糖神經酰胺葡萄糖基轉移酶Hs.432605Chr:9q31G醒l蛋白Hs.193914Chr:2p25.1R腿Hs,241471Chr:14q32.32人胰島素樣生長因子1受體mRNA,3'序列'mRM序歹ilHs.405998---白介素6信號轉導物(gpl30,制瘤素M受體)Hs,82065LAG1長壽確保同系物2(釀酒酵母)Hs,285976cadherin,EGFLAGseven—passG型受體2(火烈鳥同Hs.57652系物,果蠅)配對堿性氨基酸切除系統4G蛋白信號調控物11UDP-葡萄糖神經酰胺葡萄糖基轉移酶NPD009蛋白v-myb成髓細胞病病毒癌基因同系物(禽類)白介素6信號轉導物(gpl30,制瘤素M受體)復盤,大(果蠅)同系物5人類mRNA;cDNADKFZp434E082(來自克DKFZp434E082),mRNA序列細胞色素P450,亞家族IIB(笨巴比妥可誘導的),肽7HSPC009蛋白KIAA1025蛋白蛋白質酪氨酸磷酸酶IVA型,成員2CGI-49蛋白染色體20開放讀碼框35佛波醇-12-肉豆蔻酸-13-乙酸酯誘導的蛋白質1KIAA0876蛋白假定蛋白FLJ20152假定蛋白FLJ22318三葉因子1(在乳癌中表達的雌激素可誘導的序列)Hs.350470Hs.170414Hs.65756Hs.432605Hs.283675Hs.1334Hs.82065Hs.170290隆Hs.432587多Hs.330780Hs.16059Hs.4084Hs.82911Hs.238126Hs.256086Hs.96Hs.301011Hs.82273Hs.22753Chr:5q"Chr:1q21.2Cl、r:1p21Chr:15q26Chr:16p13.3Chr:9q31Chr:16p13.2Chr:6q22-q23Chr:5q"Chr:10q23Chr:19q13.2Chr:17q21Chr:12q24.22Chr:1p35Chr:1q44Chr:20q13.11Chr:18q21.31Chr:19p13.3Chr:5p15.1Chr:5q35.3Chr:21q22.3聚合酶(DNA指導的)假定脯氨酸4-羥化酶GDNF家族受體a1S4Hs.82520Chr:11q13Hs.348198Chr:3p21.31Hs.105445Chr:10q26ERBB2+分子亞型氯化物通道,4丐激活的,家族成員2v-erb-b2成紅細胞白血病病毒癌基因同系物2,細胞/神經膠質瘤衍生的癌基因同系物(禽類)生長因子受體結合蛋白7雙特異性磷酸酶6含START結構域3瞬時受體潛在陽離子通道,亞家族V,成員6S10(H丐結合蛋白A8(calgranulinA)蛋白質磷酸酶l,調控(抑制物)亞基1A成纖維細胞生長因子受體4SRY(性別決定區Y)盒11未知蛋白(人類),mRNA序列split的transducin才羊增強子1(E(spl)同系物假定基因MGC9753促分裂原激活的蛋白激酶激酶5KIAA1102蛋白脂肪酸羥化酶轉錄因子AP-2P(激活增強子結合蛋白)Hs.2"551Chr:1p31-p22成神經Chr:17q11.2.Hs.323910q12Hs.86859Chr:17q21.1Hs.180383Chr:12q22-q23Hs.77628Chr:17q"-q12Hs.302740Chr:7q33-q34Hs.100000Chr:1q21Hs.76780Chr:12q13.13Hs.165950Chr:5q35.1-qterHs.32964Chr:2p25Hs.106642—'果錄)Hs.28935Chr:9q21.32Hs.91668Chr:17q21.1Hs.151988Chr:6q22.33Hs.202949Chr:4p13Hs.249163Chr:16q23Hs.33102Chr:6p12S100鉤結合蛋白A9(calgranulinB)脂肪酸-輔酶A連接酶,長鏈2假定蛋白FLJ22671犬尿氨酸3-單加氧酶(犬尿氨酸3-羥化酶)KUA0644基因產物天冬氨酸P-羥化酶電子轉移黃素蛋白,cc多肽(戊二酸尿II)分泌性白細胞蛋白酶抑制物(抗白細胞蛋白酶)異檸檬酸脫氫酶l(NADP+),可溶的苯乙醇胺N-甲基轉移酶假定蛋白FLJ14146巖藻糖轉移酶3(半乳糖苷3(4)-L-巖藻糖轉移酶,Lewis血型的)Hs.112405Hs.154的0Hs.193745Hs.107318Hs.21572Hs.283664Hs.169919Hs.251754Hs.11223Hs.1892Hs.103395包含Hs.169238Chr:1q21Chr:4q34-q35Chr:2q37.3Chr:1q42-q44Chr:7p15.1Chr:8q12.1Chr:15q23-q25Chr:20q12Chr:2q33.3Chr:17q21-q22Chr:1q42.11Chr:19p13.3角蛋白,毛發,堿性,1Hs.32952Chr:12q13含PDZ結構域2Hs.173035Chn5p13.3精氨基琥珀酸合成酶Hs.160786Chr:9q34.1特異顆粒蛋白(28kDa)Hs.54431Chr:6p12.3人類cDNA:FLJ21521fis,克隆COL05880,mRNA序列Hs.306777犬尿氨酸酶(L-犬尿氨酸水解酶)Hs.169139Chr:2q22.1假定蛋白FLJ20539Hs.118552Chr:11q12.1脯氨酸脫氫酶(氧化酶)1Hs.343874Chr:22q11.21v-myc髄細胞瘤病病毒相關癌基因,由成神經細胞瘤衍生的(禽類)Hs.25960Chr:2p24.1整合素,P6Hs.57664Ghr:2q24.2假定蛋白MGC3077Hs.433404Chr:7p15-p14未偶聯蛋白2(線粒體,質子栽體)Hs.80658Chr:11q13肌球蛋白XHs.61638Chr:5p15.1-p14.3角蛋白7Hs.23881Chr:12q12-q21類固醇硫酸酯酶(微粒體),芳基硫酸酯酶c,同工酶SHs.79876Chr:Xp22.32含形成素同系物2結構域1Hs,95231Chr:16q22ATP結合盒,亞家族C(CFTR/MRP),成員3Hs.90786Chr:.17q22軟骨素P1,4N-乙酰半乳糖胺轉移酶Hs.11260Chr:8p21.3KIAA0485蛋白Hs.89121…ki:aken樣Hs.301947Chr:22q13膠原,XIII型,cc1Hs.211933Chr:10q22ER-分子亞型Hs.432448Clir:17q12-q21角蛋白16(病灶非表皮松懈性掌跖角化病)Hs.70725Chr:5q33-q34Y-氨基丁酸(GABA)A受體,ttTO腦Hs細OChr:Xq26.3角蛋白6BHs.432677Chr:12q12-q13絲氨酸(或半胱氨酸)蛋白酶抑制物,進化枝B(卵清蛋—白),成員5Hs.55279Chr:18q21.3角蛋白5(單純性大皰性表皮松懈,Dowling-Meara/Kobner/Weber-Cockayne型)Hs.433845Chr:12q12-q13SRY(性別決定區Y)盒10Hs.44317Chr:22q13.1Chr:19q13.32.黑素瘤抑制活性Hs.279651q13.33基質金屬蛋白酶7(matrilysin,子宮)Hs.2256Chr:11q2仁q22分泌的巻曲相關蛋白lHs.7306Chr:8p12-p11.1B細胞CLL/淋巴瘤11A(鋅指蛋白)Hs.130881Chr:2p15人類cDNAFU11796Hs,克隆HEMBA1006158,與人類Hs,284186-"轉錄因子叉頭樣7(FKHL7)基因高度相似,mRM序列Hs.162211Chr:Xq23-q24溶質栽體家族6(神經遞質轉運蛋白),成員14Hs,10587Chr:15q26,3d,slinHs.271977Chr:2q13-q21engrailed同系物1Chr:11p15.5-核糖體蛋白,大P2含三元基序29鈣調蛋白樣皮膚蛋白質desmocolli'n2■ropporin,rhophiUti相關蛋白晶體蛋白,cxB含三元基序2表皮生長因子受體(成紅細胞性白血病病毒(v-erb-b)癌基因同系物,禽類)富含亮氨酸酸性核蛋白樣鉀通道,亞家族K,成員5激肽釋放酶5前膠原C-內肽酶增強子2假定蛋白(人類),mRNA序列只含LIM結構域4角蛋白17Hs.153179p15.4Hs.82237Chr:"q22-q23Hs.180142Chr:10p15.1Hs.239727Chr:18q12.1Hs.194093Chr:3q21,1Chr:11q22.3-Hs.391270q23.1Hs.12372Chr:4q31.23Hs.77432Chr:7p12Hs.71331Chr:1q21.2Hs.127007Chr:6p21Chr:19q13.3-q13.4Chr:3q21-q24Hs.50915Hs.8944Hs.66762Hs.3844Hs.2785Hs.1925Chr:1p22.3Chr:17q12-q21Chr:18q12.1-q12.2Hs.367762Chr:12q12-q13Chr一12p-12,1..pi1.2Chr:13q21.32desmoglein3(尋常天皰疳抗原)角蛋白6A唾液酸轉移酶8A(a-N-乙酰基神經氨酸cx-2,8-唾液酸Hs.82527轉移酶,GD3合酶)"Hs.84728Kruppel樣因子5(腸)p鳥嘌呤核苷酸交換因子(GEF)4Hs.6066激肽釋放酶6(謂rosin,酶)Hs.79361前列腺素-內過氧化物合酶2(前列腺素G/H合酶和環加氧酶)Hs.196384Chr:1q25.2-q25.3染色體20開放讀碼框42Hs.180479Chr:20p12.3糖蛋白M6BHs.5422Chr:Xp22.2尿苷磷酸化酶Hs.77573Chr:7Chr:2q22Chr:19q13.3ladi由1Hs.18141pl;U',omorphic腺瘤基因樣1Hs.75825ddsmocollin3Hs.41690人類cDNAFLJ30869fis,克隆FEBRA2004224,mRNA序列Hs.349611HRAS樣抑制物HS.36761富含半胱氨酸和甘氨酸的蛋白質2Hs.10526癢病響應蛋白lHs.7122淀粉狀蛋白P(A4)前體蛋白結合家族A,成員2(xil樣)Hs.26468Chr:15q11-q12jdYky同系物樣(小鼠)Hs.105940Chr:11q21轉化生長因子,aHs,170009Chr:2p13Chr:1q25.1-q32.2Chr:6q24-q25Ghr:18q12.1Chr:3q29Chr:12q21.1Chr:4q31-q32表S6:屬于NPI-ES的基因(62種基因)DC13蛋白是能夠在Rosetta70種基因"預后"特征(PES,見正文)中匹配的唯——種NPI-ES基因,之外AffymetrixU133A芯片中存在42種。基因描述Unigene生物學過程(GO)陽性基因(60種)(在高NPI腫瘤中高表達)腺嘌呤磷酸核糖基轉移酶Hs.28914MCM4微型染色體維持缺陷4(釀酒酵母)Hs.154443核酸外切酶1Hs.47504金屬硫蛋白1H樣蛋白(人類),mRNAHs.367850序列人類,克隆雇GE:5270727,m飄,mRNAHs.319215序列DC13蛋白Hs.6879HSPC037蛋白Hs.433180H2A組蛋白家族,成員ZHs.119192復盤,大同系物7(果蠅)Hs.77695RNA解旋酶相關蛋白(人類),mRNA序Hs.381097列驅動蛋白樣lHs.8878染色體20開放讀碼框1KIAA0095基因產物解旋酶,淋巴樣特異的同源框HB9Hs.9329Hs.155314Hs.203963Hs.370359116〃核苷代謝〃延伸由電子注釋推斷;Pribosyltran;5e-446260〃DM復制〃預測的/計算的6310〃DNA重組//實驗證據〃/6281〃DM修復〃實驗證據〃/6298〃錯配修復〃預測的/計算的7267〃細胞-細胞信號〃延伸未知;GKAP;2.le-057067〃有絲分裂〃實驗證據〃/7052〃有絲分裂紡錘體裝配〃實驗證據7067//有絲分裂〃預測的/計算的〃/8283〃細胞增殖〃預測的/計算的6959〃體液免疫應答〃實驗證據〃6357〃來自染色體X(唯一的)9879表達序列上的Hs.18212DM區段MAD2有絲分裂停滯缺陷樣1(酵母)Hs.79078真核翻譯起始因子4E結合蛋白1組織蛋白酶CH2B組蛋白家族,成員J蛋白酶體(prosome,macropain)亞基,P型,8(大的多功能蛋白酶7)假定蛋白FLJ20105染色體10開放讀碼框3未鑒定的骨髄蛋白BM039可能是小鼠富含基因簇的直向同源物,C8基因細胞分裂周期2,Gl至S和G2至MHs.433317Hs.10029Hs.249216Hs.180062Hs.89306Hs.14559Hs.283532Hs.30114Hs.334562金屬硫蛋白2Ageminin,DNA復制抑制物Hs.118786Hs.234896低密度脂蛋白受體相關蛋白8,栽脂蛋Hs.54481白e受體PolII啟動子的轉錄的調控〃預測的/計算的〃/7345〃胚胎發生和形態發生〃實驗證據7067〃有絲分裂〃預測的/計算的〃/7093〃有絲分裂檢查點〃實驗證據6445〃翻譯調控〃預測的/計算的6508〃蛋白水解和肽水解〃沒有記錄〃/6955//免疫應答//實驗證據6508〃蛋白水解和肽水解〃沒有記錄74〃細胞周期的調控〃沒有記錄〃/7089〃有絲分裂細胞周期的起始控制點〃沒有記錄6878〃銅內環境平衡〃預測的/計算的7050〃細胞周期停滯//預測的/計算的〃/8156〃腿復制的負調控〃預測的/計算的7165〃信號轉導〃預測的/計算的〃/6629〃脂質代謝〃預測的/計算的血液學和神經學表達的1Hl組蛋白家族,成員2Hs.109706Hs.7644nudix(二磷酸核苷相連部分X)型基序1金屬硫蛋白IXH2B組蛋白家族,成員TtetraspanlHs.388Hs.374950Hs.247817Hs.38972金屬硫蛋白1HH3組蛋白家族,成員K核糖核苷酸還原酶M2多肽桿狀病毒含IAP重復5(生存蛋白)Hs.2667Hs.70937Hs.75319Hs.1578只含F盒蛋白5絲氨酸(或半胱氨酸)蛋白酶抑制物,進化枝A(oc-l抗蛋白酶、抗胰蛋白酶),成員1溶酶體相關蛋白跨膜4P趨化因子(C-X3-C基序)配體1Hs.272027Hs.296398Hs.804206979//對氧4匕壓力響應〃預測的/計算的〃/6281〃DNA修復〃沒有記錄8283//細胞增殖〃未記錄〃/8583〃神秘的細胞命運分化(SensuDrosophila)//預效寸的/計算的〃/7155〃細胞粘附〃未記錄〃/6928〃細胞運動性/未記錄CD27結合(Siva)蛋白Hs.11205886〃有絲分裂細胞周期的G2/M轉換//實驗證據〃/7048〃瘤發生〃預測的/計算的〃/6916〃抗凋亡〃實驗證據6508//蛋白水解和肽水解〃預測的/計算的Hs.297681———7165//信號轉導〃實驗證據〃/6954〃炎癥應答〃沒有記錄/〃6935〃趨化性〃實驗證據〃6955〃免疫應答〃沒有記錄〃/7155〃細胞粘附〃實驗證據〃/7267〃細胞-細胞信號〃實驗證據8624〃通過胞外信號誘導凋亡〃預測的/計算的LNG蛋白小鼠乳瘤病毒受體同系物1叉頭盒M1Hs.278338Hs.18686Hs.239met原癌基因(肝細胞生長因子受體)Hs.316752butyrophilin,亞家族3,成員A2Hs.87497SBB126蛋白Hs.26481有可能是小鼠SheSH2結構域結合蛋白Hs.1232531的直向同源物H3組蛋白家族,成員BHs.143042三葉因子3(腸)Hs.82961免疫球蛋白A基因座Hs.405944DNA復制因子Hs.122908人類cDNAFLJ30781fis,克隆Hs.301663FEBRA2000874,mRNA序列趨化因子(C-C基序)配體l8(肺部和Hs.16530受激活調控的)〃/6952〃防御應答〃預測的/計算的7186〃G蛋白偶聯受體蛋白信號途徑〃預測的/計算的6366〃自PolII啟動子的轉錄〃實驗證據/〃6979〃對氧化壓力的應答〃實驗證據7048〃瘤發生〃實驗證據〃/8283〃細胞增殖//預測的/計算的/〃7165〃信號轉導〃預測的/計算的6952〃防御應答〃預測的/計算的〃/7586〃消化〃預測的/計算的7165〃信號轉導〃實驗證據〃/7154〃細胞通訊〃預測的/計算的〃/6935〃趨化性〃實驗證據/〃6955〃免疫應答〃預測的/計算的〃/6960〃抗微生物體液應答(sensuInvertebrata)〃預測的/計算的〃/9607〃響應生物刺激〃預測的/計算的〃/7267〃細胞-細胞信號〃實驗證據免疫球蛋白K恒定區Ty4同系物1的抑制物(釀酒酵母)Hs.Hs.40656579058父系表達的106355〃轉錄的調控,DNA依賴性〃預測的/計算的〃/6357//自FolII啟動子的轉錄的調控〃預測的/計算的〃/6338〃染色質模建〃預測的/計算的Hs.137476—-陰性基因(2種)(在低NPI腫瘤中高表達)BTG家族,成員2Hs.754628285〃細胞增殖的負調控〃預測的/計算的〃/6281〃DM修復〃預測的/計算的/〃6976〃DNA損傷應答,p53激活〃預測的/計算的細胞色素P450,亞家族IVF,多肽8Hs.2685546118〃電子運輸〃延伸未知;p450;1.9e-142〃/6m〃前列腺素代謝〃預測的/計算的表S7:進行SAM以鑒定與等級顯著相關的68種基因(FDR為14%,變化^2倍)。在這些基因中45種(66%)也屬于NPI分類物,在NPI-ES列中標以"是"。_基因名稱NPI-ES在3級腫瘤中上調的基因RAD51相互作用蛋白DC13蛋白HSPC037蛋白同源框HB9細胞周期蛋白B2胞質分裂的蛋白調控物1有可能是小鼠富含基因簇1的直向同源物,C8基因驅動蛋白樣1H2A組蛋白家族,成員ZDM復制因子MCM4微型染色體維持缺陷4(釀酒酵母)復盤,大同系物7(果蠅)ZW10相互作用物MAD2有絲分裂停滯缺陷樣1(酵母)金屬硫蛋白1H樣蛋白(人類),mRM序列染色體10開放讀碼框3核糖核苷酸還原酶M2多肽細胞分裂周期2,G1至S和G2至M叉頭盒M1未鑒定的骨髄蛋白BM039解旋酶,淋巴特異的RNA解旋酶相關細胞(人類),mRM序列金屬硫蛋白IX人類,克隆IMAGE:5270727,mRNA,mRNA序列金屬硫蛋白2A金屬硫蛋白1HKIAA0095基因產物桿狀病毒含IAP重復5(生存蛋白)geminin,DM復制抑制物zeste同系物2的增強子(果蠅)組織蛋白酶Cnudix(二磷酸核普相連部分X)型基序1假定蛋白FU10719趨化因子(C-X3-C基序)配體1tetraspan1促凋亡caspase銜接物蛋白免疫球蛋白人基因座是是是是是是是是是是是是是是是是是是是是是是是是是是是是H2B組蛋白家族,成員J三葉因子3(腸)CD27結合(Siva)蛋白拓樸異構酶(DNA)1Iccl70kDa免疫球蛋白A連接區3真核翻譯起始因子4E結合蛋白1H3組蛋白家族,成員K趨化因子(C-C基序)配體18(肺部和激活調控的)溶酶體相關蛋白跨膜4P小鼠乳瘤病毒受體同系物1LGN蛋白免疫球蛋白k恒定區羧肽酶Bl(組織)met原癌基因(肝細胞生長因子受體)H2B組蛋白家族,成員TRAB38,成員RAS癌基因家族Hl組蛋白家族,成員2來自EUROIMAGE2021883的假定蛋白載脂蛋白BmRNA編輯酶,催化多肽樣3BH3組蛋白家族,成員B免疫球蛋白重鏈恒定區Y3(G3m標志物)與bK246H3.1相似(免疫球蛋白入樣多肽1,前B細胞特異的)免疫球蛋白A輕鏈(人類),mRNA序列免疫球蛋白k輕鏈可變區(人類),mRNA序列絲氨酸(或半胱氨酸)蛋白酶抑制物,進化枝A(cc-l抗蛋白酶、抗胰蛋白酶),成員1蛋白脂蛋白1(Pelizaeus-Merzbacher病,痙攣性截癱2,不復雜的)鈉通道,非電壓門控l,P(Liddle綜合征)H4組蛋白家族,成員Hsyndecan2(硫酸類肝素l,細胞表面相關的,纖維聚糖)neuropilin(NRP)和tolloid(TIX)樣2在3級腫瘤中下調的基因假定蛋白FLJ22418是是是是是是是是是是是是是是是表S11:LuminalA和LuminalC腫瘤與高和低NPI-ES表達的相關性(Luminal腫瘤是根據Sorlie等(2001)的結果鑒定的)<table>tableseeoriginaldocumentpage61</column></row><table>表S12:然后將每個組的死亡數目(5年后)列表如下:<table>tableseeoriginaldocumentpage61</column></row><table>*AWD:有病存活表S13:預后組與Rosetta231種基因之間重疊的基因<table>tableseeoriginaldocumentpage61</column></row><table>圖S14:預后組(或NPI-ES)基因在不同NPI值樣品間的表達數據UID8980197980403NPI5.65.14.S5.5200853—at0.397S—-1.025-0.72131.3950.3702-0.10241.68420123S一s一at—:0-3218-0.27781.7470.88670.S4721.158201483—S—at1.818—"5".92570.40990.7S8S21-S-1.6841.39670.01991201487—at3—0.9838-1.244-0.87041.502-0.65521.012201890—at0.8083—0.7456名稱20002209802782000S9720P0S092002007120O201S0200G78720020051200200SS98026198039120007S8200077999012320004222OO0S83200077520008049803469900829801779801789804349900759901139901079802089802209802219903757.26.83.86.44.56S.45.23.2S3.33.44.87.16.2S3.73.5S.84.4-3.64.685.525.746.57.83.83.74S.32.3149"H2A組蛋白家族,成員Z"0.-0.5183-0.14541.481-0.780.75020.49S90.5195-0.319"BTG家族,成員2"0.9-0.48932.1261.9550.1703-0.0S2970.52630.2780.1387-O..097490丄5S同系物1的抑制物(釀酒酵母)0.2263-0.1740.603-0.80210.4711-1.372-0.8661;0.48931.347-0.3128'0.1454■.102O.ilSS0.788S-O'.006272.0.8116..328組織蛋白酶C-0.77590.28442.8S4-1.2011.2850.43090.9151-0.S7S3-1.6241.4S核糖核香酸還原酶M2多肽0.81511.052-0'.5101-0.09044-0..138-0.7108-0.2718'0JS46-0.92241.085-0'.292-0.01074-0.73991.291.105-0.0023540.503200.28031.0.44341,0,0.0.0.0.-0.2888-0.1469.0.9016-0.2015.9142,573355S0978867431867031034-0.2923-0.13290.33890.6147-0.07260.7774-0.45710.25529803833.44.61.2740.93510.27170.52440.34731.4820.66192.9041.105-0.26430.86'S-0.08741.187-0.7083-0.6520.447S-0.3910.92.86-0.274-1.447-1.158-0.6880.9706''0.38130.15770.621200480031548.7轉溢*被57/71到<table>tableseeoriginaldocumentpage63</column></row><table><formula>formulaseeoriginaldocumentpage64</formula><table>tableseeoriginaldocumentpage65</column></row><table>-3.SS90.3421.331.492-3.3S1■-0..ISSS0.0934-l.0520.56834.2S9-0.43441-0.7721.8440.7642-0.7S781.3440.8970.S398-2."9.-0.78381.8141.4Sl0.0.57181-51100.40532.27S0.94340.5052-1.327209114—attetraspan10.8555-O:.07S84-2.8880.7271.2870.6181-0.448-0.4048-0.054171.S870.3291-0.4002-0.43012.4941.8252.191.30S-l.0280.923-0.1.-1.031.3441.1580.93833.609-0.40170.'3422-0.61320.|72480.58052.243-1.668209398—at"H1組蛋白家族,成員2"0.65751.078-l.2112027-2.6683.0.775一-0.028422.1470,88040.3597-1.194-0-71883.0473.'613-0.5534-0.2921-O.71S314590.11812.-1.0251.1941.3321.659-0.S7191.7290.18070.58(31.7173.;7170.90741.7420.58492'098063t"H2B組蛋白家族,成員T"0.044951.14S-1.8950.590S1.6851.-0.007^870.059951.352.b85-0.46761.172-0.5088-1.8771.592-0.9202-1.274-0.35331.3340,18051.-1-0490*S90S0.37211.173-0.00397S0.04341-0.433S0.0039750.43991.9550.20450.4444-0.08685209832s—atDNA復制因子-O:.20930.43S8-0.6791-3.9061.280.0.-2.259_-0.7840.785-0-3879-0.2S830.7921.16S0.87990,!9S3-0.43510.27431.2481.03-0.5027-l0.5995-0.50541.063-0.00959S-0.244-0.3794-0.17920.;2804-1.287-0.2545-0.2157209924at趨化因子(C-C基序)配體18(肺部和激活調控的)0.48一-2.039-0.S577-3.44S-0.2178-0.84631.;3S9-l.2330.7177-O.5422-l.2560.8261-o30.86210.746-0.072440.17750.7399-0.003248'-3.22685530.7689-0.29680.6344-l.8330.8S85_2-3.9670.8904-1.524-0.7571-0.87S7210052_s—at染色體20開放讀碼框10.034230.72860.488S-0.35750.7S62_"5".7948-1.8941.S71-1.204-0.178S-0.3447-0.03SS0.713S0.:97"1.2821.064-l.092-o.12381.5480.3170.244.4"1.214200480031548.7勢溢1被61/713<table>tableseeoriginaldocumentpage67</column></row><table>21218S—x一at—:1.558-0.6833-0.213-1.320.42450.2713212484—at—1.07S-3.237-1.78S940.7631-2.427-0.22571..212613_at0.S323一-3.472-0.948-2.IS-1.8S90.4147213245_0.29314-0.2282.159金屬硫蛋白2A-0.8231-1.3S9-0.4286.0.81SS0.5282-0.84570.080541.222-1.085-0.3S12-0.3473小鼠乳瘤病毒受體同系物11.051-0.5181-0.22260.05274-2.9790.42430.17131.8350.2063-1.209"butyrophilin,亞家族3,-2.94-0.9575-2.136-3.444-0.538S-0.051450.81420.037351.204-0.349S0.1074-0.1S931.70S0.;78460.011851.|064成員A2"'0.:9747-O'.5544-1.298-2.0720.18730.5453-0.4493.160.17710.2709-0:.44450.1SS1-0i.l097-0.090171.095at"人類cDNAFLJ30781fis,克隆FEBRA2000874,mRNA序歹'J-0.2SS4-0.09124-0.01804-0.01S140.38651.S772.261-0.01159-0.78411.316-0.02205腺噪呤磷酸核糖轉移酶-0.S7290.98850.2662-0.3091-0.72730.040121.1210.3821-0.369S"H3組蛋白家族,成員B"1.9641.030.69221.271-0.1162l-.411-0.9481.5850.251同源框HB90.3303-3.8710.93361.5531.153.1.157213832—s—a仁0.4337—5-"280.1435-0.8SS490.59741.0281.872214472—at0.3387—0.12350.2118-3.12831.020.07530.02653214S14_at""2.021-0.2894-1.3610.:342-0.2670.80981.251-0.4576-0:.3823-2.6362.8400.02776-4.35-0.58990.52610.07240.9796-l.030.063180.4488-0.85110.74380.6982-1.544'0.1S3S-0.08S3S0-37550.37710.2132-0.051720.3185-0.415S-0.1155-1.284-2.6270.0.S024-3.738-2.642-O.81630.31272.640.8580.37010.7799-3.750.443S0.6362-0.9459-1-996-2.477-1.9150.4707-0-38S2-0.0220.3308'-0.9S250.3044'5630.17SS1357-0.31871.2380.42540-5S0S-0.9554-1.1770-0S1830.3379-0.3901.7190-02252*535-1.0570-174S1-372-0.958S-0.2;S890.01S1-0.41390.12322.512.872.0950.8&44-0.1420.'0085030.27570.05505-2.6SS-2.756-0..26230,4,0,2.761-3.05<formula>formulaseeoriginaldocumentpage69</formula><table>tableseeoriginaldocumentpage70</column></row><table><table>tableseeoriginaldocumentpage71</column></row><table><table>tableseeoriginaldocumentpage72</column></row><table><table>tableseeoriginaldocumentpage73</column></row><table><table>tableseeoriginaldocumentpage74</column></row><table>表L1:預后組基因ID的查閱表NPI-ES<table>tableseeoriginaldocumentpage75</column></row><table>218447_atNM—020188.1Hs.68792化542一atNM—018131.1Hs.14559218875—s一a幽一012177.1Hs.272027219061_s—atNM—006014.1Hs.18212219493—atNM—024745.1Hs.123253219555—s一a圓一018455.1Hs.283532219650—atNM—017669.1Hs.89306220085—atNM—018063.1Hs.203963220238—s_atNM—018846.1Hs.26481221436一s一a畫一031299.1Hs.30114221521一s一atBC003186.1Hs.433180221539—atAB044548.1—Hs.433317222037—atA舊59865Hs.319215201236—s_atNM—006763.1Hs.75462210576—atAF133298.1Hs-26855權利要求1.用于確定乳癌患者預后的方法,其包括根據預后組基因在所述患者乳瘤中的表達水平來確定患者的預后,其中所述預后組包含表S6的至少5種基因。2.依照權利要求1的方法,其中該預后組包含表S6的至少10、20、30、40、50、60種或所有基因。3.依照權利要求1或2的方法,還包括確定肺瘤樣品的雌激素受體(ER)狀態的步驟。4.依照權利要求3的方法,還包括確定肺瘤樣品的ErbB2狀態。5.依照權利要求1-4任一項的方法,包括步驟(a)由患者獲得乳瘤樣品;并(b)測量預后組基因在樣品中的表達水平。6.依照權利要求5的方法,其中步驟(b)包括使由樣品獲得的所述表達產物接觸能夠與表達產物結合的多種結合成員,其指示預后組基因表達,其中可以測量這種結合。7.依照權利要求6的方法,其中結合成員是互補核酸序列或特異抗體。8.依照權利要求l-7任一項的方法,包括將乳瘤樣品分類為高NPI或低NPI或者預后好或預后差。9.依照權利要求l-8任一項的方法,其中確定預后的步驟是通過將所測試乳瘤樣品的表達語與先前獲得的譜和/或先前確定的特定預后特征性標準鐠進行比較而進行的。10.依照權利要求9的方法,其中將先前獲得的鐠保存為語的數據庫。11.依照權利要求1-10任一項的方法,還包括比較預后組在治療前后在乳瘤樣品中的表達水平以檢測表達譜的變化,其是預后改善或惡化的指示。12.用于確定乳瘤樣品預后的裝置,其包含附著了多種結合成員的固體支持物,每種結合成員能夠與預后組基因之一的表達產物特異且獨立結合,其中預后組包含表S6的至少5種基因。13.依照權利要求12的裝置,其中預后組包含表S6的至少5、10、20、30、40、50、60種或所有基因。14.依照權利要求12或13的裝置,其中固體支持物上只附著了能夠與表S6中所示的基因的表達產物特異且獨立結合的結合成員。15.依照權利要求12-14任一項的裝置,包括核酸微陣列,其中結合成員是核酸序列。16.用于確定乳癌患者預后的試劑盒,其包含能夠與預后組基因的表達產物特異結合的結合成員和檢測試劑,其中預后組包含表S6的至少5種基因。17.依照權利要求16的試劑盒,其中預后組包含表S6的至少10、20、30、40、50、60種或所有基因。18.依照權利要求16或17的試劑盒,還包含數據分析工具,其中數據分析工具是計算機程序。19.依照權利要求18的試劑盒,其中數據分析工具包括適于區別不同預后的腫瘤的表達i瞽的算法。20.依照權利要求16-19任一項的試劑盒,包含來自具有已知預后的乳瘤樣品的表達鐠和/或特定預后特征性的表達譜。21.依照權利要求16-20任一項的試劑盒,包含依照權利要求12-15任一項的裝置。22.依照權利要求16-20任一項的試劑盒,包含能夠與預后組基因的表達產物結合從而能夠在PCR中擴增它們的核苷酸引物。23.為乳瘤樣品生成核酸表達譜的方法,包括步驟(a)由所述乳瘤樣品分離表達產物;(b)鑒定預后組基因的表達水平,其中預后組基因包含表S6的至少5種基因;并(C)由表達水平生成所述乳瘤樣品的表達譜。24.依照權利要求23的方法,其中預后組包含表S6的至少10、20、30、40、50、60種或所有基因。25.依照權利要求23或24的方法,包括將表達譜加入基因表達鐠數據庫。26.依照權利要求23-25任一項的方法,還包括將表達語與特定預后特征性的第二表達語或多個第二表達語進行比較。27.依照權利要求26的方法,包括步驟(a)由第一乳瘤樣品分離表達產物,使所述表達產物接觸能夠與預后組的表達產物特異且獨立結合的多種結合成員,并由預后組在腫瘤樣品中的表達水平生成第一表達譜;(b)由已知預后的第二乳瘤樣品分離表達產物,使所述表達產物接觸能夠與步驟(a)的預后組的表達產物特異且獨立結合的多種結合成員,以生成相當的第二乳瘤樣品表達鐠;(c)將第一和第二表達譜進行比較以確定第一乳瘤樣品的預后。28.包含多個乳瘤樣品基因表達譜的表達譜數據庫,其中基因表達譜衍生自預后組基因的表達水平,其中預后組基因包含表S6的至少5種基因,所述數據庫以可獲取的方式保存在數據載體上。29.依照權利要求28的表達譜數據庫,其中預后組包含表S6的至少IO、20、30、40、50、60種或所有基因。30.依照權利要求28或29的表達語數據庫,其中表達譜是核酸表達譜。31.依照權利要求28-30任一項的表達譜數據庫,其中表達譜按照來源腫瘤的ER狀態分類。32.用于鑒定在一組腫瘤中差異表達的一組基因的方法,其包括提供該組的多個肺瘤的每一個的表達譜,將譜根據腫瘤的分子亞型分類,并在亞型內分析表達譜以鑒定區別組基因,其中區別組的基因在該亞型內差異表達。33.依照權利要求32的方法,還包括步驟確定患者的腫瘤樣品的類型,其中區別組基因的差異表達是該類型特征性的,該步驟包括提供區別組在樣品中的表達水平,并根據該表達水平確定腫瘤類型。34.依照權利要求32或33的方法,包括步驟測定區別組基因在腫瘤樣品中的表達水平,由表達水平確定表達i普,并將諳加入數據庫。35.依照權利要求32-34任一項的方法,其中還鑒定了腫瘤樣品的分子亞型并將其加入數據庫。36.依照權利要求32-35任一項的方法,包括提供腫瘤在不同治療階段的表達i普,并比較所述表達鐠以確定預后類型的變化,其中表達i普產生自區別組基因的表達水平。37.依照權利要求32-36任一項的方法,其中腫瘤是乳瘤且分子亞型對應于腫瘤的ER狀態。全文摘要發明人著手鑒定一組基因,它們可以用作與諾丁漢預后指數(NottinghamPrognosticIndex,NPI)相關的乳瘤預后標志。最初,他們未能鑒定出其表達與NPI相關的單組基因。但是,在將數據集分割成分子亞類(雌激素受體陽性、雌激素受體陰性和ErbB2陽性)后,他們鑒定出在不同預后的腫瘤中差異表達的一組62種基因。提供了用于判定預后的方法和裝置。還提供了用于確定腫瘤對化療的響應的方法,包括比較預測基因組在治療前后的表達水平。文檔編號G01N33/574GK101194166SQ200480031548公開日2008年6月4日申請日期2004年10月1日優先權日2003年10月3日發明者K·余,P·譚申請人:Ncc技術投資私人有限公司