技術領域
本發明的領域是來自組織樣本和病毒基因組(特別是病毒相關的腫瘤和腫瘤相關的病毒)的遺傳信息的計算機分析。
背景技術:
背景描述包括可以用于理解本發明的信息。其并非承認本文提供的任何信息是目前所主張發明的現有技術或與其相關,或者并非承認明確引用的或隱含引用的任何出版公開是現有技術。
在全世界的婦女中,宮頸癌是第三常見的癌癥,2008年大約530,000例被診斷為宮頸癌,并且275,000例死亡。由于大部分宮頸癌的起源,普遍認為其是可預防的疾病。單就2004-2008的美國而言,平均11,967例宮頸癌,其中11,500例可歸因于HPV感染(Gillison ML,et al.Cancer.2008;113:3036-3046)。本文確認的所有公開均以引用方式并入本文,如同表示每份單獨的公開或專利申請明確地且單獨地以引用方式并入本文。在所引用參考文獻中術語的定義或用途與本文所提供術語的定義不一致或矛盾的情況下,采用本文所提供術語的定義,而不采用參考文獻中的術語定義。除了Pap涂片,針對大部分HPV致癌病毒株的免疫(Gardasil和Cervarix)將是更加可用的,其提供早期診斷以及由此提供更好的治療結果。
目前,已知超過120種人類乳頭瘤病毒(HPV)亞型;這些亞型進一步分成低風險和高風險類型。目前有15種高風險類型,其中HPV 16、18、45、31、33、52和58是最普遍的。超過70%的高度上皮內瘤樣變和浸潤 性宮頸癌為HPV 16+或HPV 18+(Schiller JT,et al.Gynecol Oncol.2010 Jun;118(1Suppl):S12-17)。在超過12個月的一項研究中,75%的女性能夠自發地清除其高風險HPV感染,并且在額外的6個月中,另外的22%女性能夠自身清除感染(Steben,M.et al.Gynecologic Oncology 107(2):S2–S5)。但是,自身不能清除感染的那些人(例如由于免疫受損狀態或未知原因)通常發展成宮頸癌。盡管新的感染可以通過疫苗來預防(例如Gardasil和Cervarix),但是對于已經感染的患者,疫苗是無效的。用于已經發展成宮頸癌的患者,目前的標準治療方法是基于順鉑的化療,其不能治愈至少15%至45%的巨塊型(bulky)IB至IIIB期患者(A,et al.Cancer Treat Rev 2003,29:389-399)。不幸地,在市場上不具有新的且更有效的針對HPV的治療。
值得注意地,已知HPV將其DNA整合至宿主基因組中,并且已經報道了HPV整合的優選位點(例如Popescu et al.Cancer Genet Cytogenet 42:157-171.1989)。如別處所報道,HPV已經顯示整合至N-Myc基因(2p24)和c-Myc基因(8q24.1)的附近(Couturier et al.,J Virol 65:4534-4538.1991),這可以導致Myc蛋白的表達下調。在新建立的宮頸癌細胞系中,還觀察到HPV與c-Myc的共同擴增(Gotoh et al.,Jpn.J.Cancer Res.82:1252-1257.1991)。在進一步的研究中,通過定量熒光免疫組織化學來測定宮頸活檢中c-Myc蛋白的水平,并且數據表明c-Myc蛋白的水平在早期和晚期宮頸病變中發揮作用。認為早期病變中c-Myc延長的過表達允許DHFR穩定擴增,這在一定的時間內顯示增加的基因擴增,并且持續指示腫瘤進展。在其他的報道中,認為高危型HPV中腫瘤蛋白E6和E7的表達分別使TP53和RB1失活,并因此控制細胞周期和細胞凋亡,同時鱗狀上皮內病變中MDM2被上調(Arvanitis et al.,Oncol Rep.2008Oct;20(4):751-60)。
宮頸癌中不普遍但是與治療更加相關的是ERBB2(紅細胞白血病病毒癌基因同源物2)(更常稱為HER2/neu)的擴增或過表達。ERBB2是定位于染色體17q12上的原癌基因。ERBB2的過表達最通常地與侵入性乳腺癌相關,但是近年來,作為用于其他癌癥的生物標志物而開始引起注意。在大部分情況下,ERBB2在宮頸癌中具有相對低的表達,并且根據研究位點 和癌癥嚴重性,大幅改變的結果使得宮頸癌中ERBB2的表達范圍為1%-42%(Rosty C,et al.Int J Gynecol Pathol 2004;23:13–7)。無論普遍性如何,ERBB2的表達與通常導致較低生存率的大部分侵入性癌癥類型中的一些相關(Berchuck A.et al.Cancer Res.1990Jul 1;50(13):4087-91),并且其他處描述了稀少的過表達ERBB2的宮頸腺癌(Fadare,et al.International Journal of Gynecological Pathology Volume 23,Issue 4Oct 2004)。使用人源化單克隆抗體曲妥單抗(trastuzumab)治療宮頸癌患者目前在ERBB2+宮頸癌患者中進行審核。
因此,盡管用于多種癌癥的許多治療選擇是可利用的,并且盡管患者和病原體基因組的分子特征變得越來越常規,但是仍需要更好地了解病毒相關的疾病中,特別是病毒相關的宮頸癌中病原體和患者基因組中發生的分子事件,從而有助于對個體疾病的定制治療。
發明概述
本發明的主題涉及用于病毒相關腫瘤的系統、方法和裝置,其有助于更好地了解病原體和患者基因組之間的相互作用和/或變化。除了其他之外,特別涉及指示基因組交換的相互作用的鑒定和表征,其可以基于基因組交換的特定類型而提供獨特的治療選擇。
例如在本發明的主題的一個方面中,涉及一種方法,其包括將分析儀與序列數據庫進行信息偶聯的步驟,其中所述序列數據庫儲存了來自病毒相關腫瘤的核酸序列和嵌合參照核酸序列。最通常地,嵌合參照核酸序列包含一種或多種病毒核酸序列和哺乳動物核酸序列。在所涉及方法的另一個步驟中,分析儀用于鑒定嵌合參照核酸序列中至少一些病毒核酸序列與來自病毒相關腫瘤的核酸序列中的等位基因(例如致癌基因)的整合。在另一個步驟中,分析儀用于鑒定等位基因和病毒核酸序列的共同擴增,在另一個步驟中,一旦共同擴增達到閾值(例如高于10倍的擴增),則更新病毒相關腫瘤的治療建議記錄。
對于來自病毒相關腫瘤的核酸序列而言,涉及此類序列包含病毒相關腫瘤的至少一條或多條染色體的核酸序列、病毒相關腫瘤外顯子組的至少 50%和/或病毒相關腫瘤完整基因組的至少50%。
在另一些所涉及的方面中,病毒相關腫瘤與HTLV-1(人類T細胞白血病病毒)、HPV病毒(人類乳頭狀瘤病毒)、HHV-8(人類皰疹病毒8)、EBV(EB病毒)、HBV(乙型肝炎病毒)、HCV(丙型肝炎病毒)、SV40(猿猴皰疹病毒40)、BKV(BK病毒)、JCV(JC病毒)、HERV(人類內源性逆轉錄病毒)、HMTV(人類乳腺腫瘤病毒)、KSHV(卡波氏肉瘤相關皰疹病毒)和/或TTV(細環病毒)相關。當然,在此類病毒具有不同的風險類型、基因型和/或血清型的情況下,還考慮了其他的亞類。例如病毒相關腫瘤可以與16、18、31、33、35、39、45、51、52、56、58、59、68、69、73或82型高風險HPV病毒相關。因此,涉及嵌合參照核酸序列可以包含來自多種不同病毒的多種病毒核酸序列。
最通常的但不是必須的,嵌合參照核酸序列中的哺乳動物核酸序列為匹配的正常的哺乳動物核酸序列。進一步優選來自病毒相關腫瘤的核酸序列和嵌合參照核酸序列為BAM/SAM/FASTA或FASTA索引格式。
在本發明的主題的其他方面中,涉及鑒定整合的步驟包括整合位點的鑒定,并且所涉及方法可以進一步包括確定用于包含共同擴增序列(的基因組排布的解決方法(例如環狀或串聯重復)的步驟。
因此,從不同的觀點來看,本發明人還涉及一種方法,其中分析儀與序列數據庫是信息偶聯的,其中所述序列數據庫儲存了來自哺乳動物組織的核酸序列和嵌合參照核酸序列的核酸序列。最通常地,嵌合參照核酸序列包含至少一種病毒核酸序列和可任選地哺乳動物核酸序列。在另一個步驟中,分析儀鑒定來自哺乳動物組織的至少一些核酸序列在病毒核酸序列中的整合,以及來自哺乳動物組織的核酸序列的等位基因(例如致癌基因)與至少一些病毒核酸序列的共同擴增。在另一個步驟中,一旦共同擴增達到閾值(例如高于10倍的擴增),則更新哺乳動物的治療建議記錄。
最通常地,嵌合組織為疾病組織,并且最通常地為腫瘤的癌組織(例如病毒相關腫瘤的腫瘤組織)。還涉及來自哺乳動物組織的核酸序列包含哺乳動物組織的至少一條染色體核酸序列,哺乳動物組織外顯子組的至少50%和/或哺乳動物組織完整基因組的至少50%。
類似地,通常優選嵌合參照核酸序列包含多種不同病毒的核酸序列, 并且最通常地包含一種或多種腫瘤相關病毒的核酸序列。例如所涉及的腫瘤相關病毒包括HTLV-1(人類T細胞白血病病毒)、HPV病毒(人類乳頭狀瘤病毒)、HHV-8(人類皰疹病毒8)、EBV(EB病毒)、HBV(乙型肝炎病毒)、HCV(丙型肝炎病毒)、SV40(猿猴皰疹病毒40)、BKV(BK病毒)、JCV(JC病毒)、HERV(人類內源性逆轉錄病毒)、HMTV(人類乳腺腫瘤病毒)、KSHV(卡波氏肉瘤相關皰疹病毒)和/或TTV(細環病毒)。此類病毒可以如上文所述進一步分成亞類。例如腫瘤相關病毒可以為16、18、31、33、35、39、45、51、52、56、58、59、68、69、73或82型高風險HPV病毒。盡管不限于此類方法的本發明的主題,通常優選嵌合參照核酸序列包含哺乳動物核酸序列。
在本發明的主題的其他方面中,哺乳動物核酸序列為匹配的正常的哺乳動物核酸序列,并且通常涉及本文提出的方法可以包括確定用于包含共同擴增序列的基因組排布的解決方法(例如環狀方法或串聯重復)的步驟。
因此,本發明人還涉及一種方法,其包括將分析儀與序列數據庫進行信息偶聯的步驟,其中所述序列數據庫儲存了來自患者宮頸腫瘤的核酸序列和嵌合參照核酸序列。如上文所述,在此類方法中通常優選嵌合參照核酸序列包含來自患者的匹配的正常核酸序列和HPV病毒的病毒核酸序列。在所涉及方法的另一個步驟中,分析儀用于鑒定嵌合參照核酸序列中至少一些病毒核酸序列與宮頸腫瘤核酸序列中致癌基因的等位基因的整合,所述分析儀進一步用于鑒定等位基因和病毒核酸序列(多種)的共同擴增。一旦達到預定的閾值,則更新或生成病毒相關腫瘤的治療建議記錄(例如施用靶向致癌基因的藥品)。
在所涉及方法的一個典型方面中,來自宮頸腫瘤的核酸序列包含宮頸腫瘤的至少一條染色體核酸序列、宮頸腫瘤外顯子組的至少50%和/或宮頸腫瘤完整基因組的至少50%。此外,對于嵌合參照核酸序列而言,涉及所述序列包含16、18、31、33、35、39、45、51、52、56、58、59、68、69、73和82型HPV病毒的至少2種核酸序列。此類序列優選地涵蓋HPV病毒的完整基因組。
在其他所涉及的方面中,致癌基因可以為編碼生長因子受體的基因,特別是ERBB2,并且進一步涉及所述的等位基因為純合等位基因。如上文 所述,還涉及所述方法進一步包括確定用于包含共同擴增序列的基因組排布的解決方法(例如環狀方法或串聯重復)的步驟。
在本發明的主題的其他方面中,涉及一種方法,其包括將編輯儀與序列數據庫進行信息偶聯的步驟,其中所述序列數據庫儲存了來自哺乳動物組織的核酸序列(例如與哺乳動物匹配的正常序列)和來自多種不同病毒的多種病毒核酸序列。編輯儀則用于將來自哺乳動物組織的核酸序列與多種病毒核酸序列合并成單個嵌合核酸序列文件,其中來自哺乳動物組織的核酸序列根據染色體結構在單個嵌合核酸序列文件中被組織,并且其中多種病毒核酸序列的每一種作為單個染色體在單個嵌合核酸序列中被組織。在所涉及方法的其他步驟中,接著用單個嵌合基因組文件對序列數據庫進行更新。
如上所述,涉及來自哺乳動物組織的核酸序列包含哺乳動物組織至少一條染色體的核酸序列、哺乳動物組織外顯子組的至少50%,和/或哺乳動物組織完整基因組的至少50%。此外,涉及不同的病毒為腫瘤相關病毒,其可以包括HTLV-1(人類T細胞白血病病毒)、HPV病毒(人類乳頭狀瘤病毒)、HHV-8(人類皰疹病毒8)、EBV(EB病毒)、HBV(乙型肝炎病毒)、HCV(丙型肝炎病毒)、SV40(猿猴皰疹病毒40)、BKV(BK病毒)、JCV(JC病毒)、HERV(人類內源性逆轉錄病毒)、HMTV(人類乳腺腫瘤病毒)、KSHV(卡波氏肉瘤相關皰疹病毒)和/或TTV(細環病毒)。在所述病毒為HPV病毒的情況下,特別涉及的病毒包括16、18、31、33、35、39、45、51、52、56、58、59、68、69、73或82型HPV病毒。
盡管不限于本發明的主題,通常優選合并步驟包括將多種病毒核酸序列附加至來自哺乳動物組織的核酸序列上,和/或來自哺乳動物組織的至少一種(和最通常地所有的)核酸序列、多種病毒核酸序列和單個嵌合核酸序列文件為BAM/SAM/FASTA或FASTA索引格式。
通過下文中優選實施方案的詳述以及附圖(其中相同的數字代表相同的元件),本發明主題的多種目的、特征、方面和優點將更加顯而易見。
附圖簡述
圖1為腫瘤DNA分析的示例性結果的詳細視圖,其中描繪了腫瘤相關HPV-18DNA(NC_001357.1)在人類染色體17中的整合和共同擴增。僅描繪了染色體17的一部分。
圖2為嵌合參照DNA分析的示例性結果的詳細視圖,其中描繪了人類DNA(17)在HPV-18的基因組中的整合和共同擴增。僅描繪了HPV-18病毒的病毒基因組。
圖3為圖1和2中所示共同擴增的HPV-18序列(v1、v2、v4)與人類序列(h1、h2、h4)之間基因組排布的環狀解決方法的示例性圖示。
圖4為圖3環狀解決方法的示例性圖表,其顯示為HPV-18的嵌合重組病毒基因組。
發明詳述
本發明人發現某些腫瘤可以是病毒核酸的宿主,特別是在已知腫瘤與現有的病毒感染有關(即病毒相關腫瘤)的情況下。相反地,本發明人還發現病毒可以獲得宿主基因組的一部分。一旦獲得,本發明人進一步發現腫瘤相關病毒核酸序列和宿主核酸序列在病毒復制的過程中共同擴增。在復制的病毒核酸包含來自宿主的致癌基因的情況下,共同擴增可以呈現不利的結果,還可以展示用于宿主的新的治療選擇。因此,本發明人考慮可以通過對患者和/或來自患者的病毒樣品進行基因組分析而提供診斷、療法和其他治療選擇,其中分析包括鑒定基因組內容物的(通常為相互的)交換和/或共同擴增。
例如并且如下文中更詳細討論,本發明人通過低分化宮頸腺癌患者樣品的基因組分析發現患者基因組與HPV-18病毒的病毒基因組之間的基因組交換/融合。盡管之前報道過HPV-18整合入宿主基因組中,并且盡管之前表明宿主中的癌癥歸因于宿主基因組上病毒E6/E7基因的調節影響,本發明人現在發現完全不同的潛在作用模式。更具體而言,本發明人發現HPV與宿主基因組的病毒整合伴隨著宿主致癌基因(在此為:ERBB2基因)與大部分病毒基因組的的基本上共同擴增。如本文所用,第一基因和第二基因的術語“共同擴增”是指第一基因和第二基因以相同的拷貝數擴 增。在大部分情況下以及如下文中更詳細的進一步討論,觀察到共同擴增僅與單個等位基因相關。此類基因組融合可以以病毒序列與患者基因組的整合(通常為串聯重復)和/或以染色體外結構(例如環狀的病毒基因組)或者甚至病毒顆粒的形式存在。但是,例如在第一等位基因的獨立擴增之后發生共同擴增的情況下,就第一等位基因和第二等位基因的拷貝數而言,共同擴增的結果還可以是不對稱的。
因此,在共同擴增的宿主核酸包含致癌基因、腫瘤抑制基因、參與細胞周期調節的基因和/或參與細胞分裂的基因的情況下,檢測此類宿主核酸(例如ERBB2)的病毒相關擴增可以影響/指導使用靶向宿主核酸的藥品對病毒相關腫瘤的藥品治療。從另一種觀點來看,應該領會的是,靶向擴增的宿主核酸的功能可以作為病毒相關腫瘤的新的治療模式。
應該特別領會的是,所涉及的系統和方法在患者被診斷或疑似患有病毒相關癌癥的情況下是特別有利的。由于在此類患者群體中,對病毒與宿主基因組之間潛在相互作用的了解可以重要地指示治療選擇,本文所涉及的系統和方法將基于對病毒與宿主基因組序列的基因組整合和/或病毒與宿主基因組序列的共同擴增進行快速鑒定和表征。本發明人現在發現這種快速分析可以通過以計算機模擬(in silico)方式對參照基因組(其可以得自健康宿主組織或得自非宿主組織)進行修飾來實現,其中一種或多種病毒基因組序列(以及最優選完整的病毒基因組)與參照基因組合并,從而形成嵌合參照核酸序列。
用于嵌合參照核酸序列中的合適的參照基因組包括相同患者的完整基因組核酸序列,并且通常得自未患病的組織。例如參照基因組核酸可以得自全血,得自與癌組織相鄰的組織,或者得自頰粘膜拭子或活檢。備選地,參照基因組還可以得自早期從患者采集的樣品,或得自之前完整基因組測序嘗試。在其他備選的方面中,參照基因組還可以為來自相同物種(例如人類或其他哺乳動物)的基因組序列,優選通過性別或者平均的或一致的序列對相同物種進行分層。最通常地,參照基因組為或涵蓋完整的基因組。然而,還涉及更小部分的基因組,其包括至少一條染色體、或2-5條染色體、或5-10條染色體、或者多于10條染色體。備選地,參照基因組還可以僅代表完整外顯子組或完整轉錄子組的一部分(例如1-10%、 10-30%、30-60%或60-90%)。因此并且從另一種觀點來看,參照基因組通常包含人類(或其他物種)完整基因組的至少10%、至少30%、至少50%或至少70%。
用于嵌合參照核酸序列中的合適的病毒基因組包括至少一種病毒的完整基因組核酸序列,并且更通常地為已知與疾病相關的一組病毒,特別是腫瘤相關病毒(即已知與癌癥疾病相關的病毒)。例如認為適用于本文的病毒基因組序列包括得自以下的那些:HTLV-1(與成人T細胞白血病相關)、HPV病毒(與宮頸癌、皮膚癌、頭部和頸部癌癥以及肛門生殖器癌癥相關)、HHV-8(與Kaposi肉瘤、原發性滲出性淋巴瘤、Castleman疾病相關)、EBV(與Burkitt淋巴瘤、鼻咽癌、移植后淋巴瘤和Hodgkin疾病相關)、HBV和HCV(與肝細胞癌相關的)、SV40(與腦部癌癥、骨癌、間皮瘤相關)、BKV(與前列腺癌相關的)、JCV(與腦部癌癥相關)、HERV(與生殖細胞瘤、乳腺癌、卵巢癌和黑素瘤相關)、HMTV(與乳腺癌相關)、KSHV(與Kaposi肉瘤相關)和/或TTV(與胃腸癌、肺癌、乳腺癌和骨髓瘤相關)。但是,應該領會的是,合適的病毒還包括對于特定疾病的關聯目前未知的那些。
另一方面,適用于在本文的病毒序列還可以通過一種或多種普通分類器進行分層,其可以包括一組病毒中的器官特異性(例如HBV、HCV)、癌癥類型特異性或風險類型。例如在病毒為HPV病毒的情況下,合適的病毒基因組序列可以包括與高風險宮頸癌或其他泌尿生殖系統癌癥相關的那些,包括16、18、31、33、35、39、45、51、52、56、58、59、68、69、73和/或82型HPV。最通常地,病毒基因組為或涵蓋完整的基因組。然而,還涉及更小部分的基因組,其包括病毒基因組部分,例如一個或多個單一的病毒基因或轉錄單元,或者病毒的完整基因組的至少10%、至少30%、至少50%或至少70%。
特別優選嵌合參照核酸序列將包括病毒核酸序列作為附加于參照基因組核酸序列上的一個或多個個體單元。最通常地,用于各個病毒核酸序列的個體單元被組織/標記為個體染色體。在其他的優點中,應該注意使用這種排布(特別是在序列比較是使用增量同步比對(incremental synchronized alignment)來進行的情況下)允許對基因組整合位點、拷貝 數測定和受影響的等位基因進行快速鑒定。因此,還涉及病毒核酸序列以與參照基因組核酸序列相同的格式(例如BAM、SAM、FASTA或FASTA索引)被組織,然而不特意排除備選格式。就上文的觀點而言,因此應該認為用于哺乳動物的嵌合參照核酸序列的染色體總數可以顯著地超過來自病毒相關腫瘤的核酸序列的染色體總數。例如嵌合參照核酸序列的染色體總數可以超過來自病毒相關腫瘤的核酸序列的染色體總數至少1條、至少5條、至少10條、至少20條、至少50條以及甚至更多。事實上,確切的染色體總數將由所包含病毒基因組序列的數量而確定。
就此而言,本發明人涉及一種方法,其中通過將編輯儀與序列數據庫進行信息偶聯,對用于基因組分析的參照序列進行修飾,其中所述序列數據庫儲存了來自哺乳動物組織的一種或多種核酸序列,以及來自各種不同病毒的一種或多種病毒核酸序列。編輯儀接著用于將來自哺乳動物組織的核酸序列與多種病毒核酸序列合并成單個嵌合核酸序列文件。當然,應該領會的是,此類編輯可以使用相對少量的所選病毒基因組序列以人工方式實施,或者以自動化方式實施,其中病毒集合相對較大。此外,應該領會的是,編輯儀可以將任何格式的病毒序列合并至(例如哺乳動物/人類)參照序列中,并且病毒序列可以轉化為所需最終格式(例如BAM、SAM、FASTA或FASTA索引格式)。然而,通常優選病毒序列已經為所需的最終格式(例如BAM、SAM、FASTA或FASTA索引格式)。例如,參照序列或多個參照序列可以以具有相關FASTA索引的FASTA文件儲存,并且所述文件接著可以如上文所述與一種或多種病毒基因組序列合并。如果需要/必須,可以進一步轉化為BAM格式。此外,來自患者腫瘤的測序數據(包含病毒序列)還可以以BAM文件儲存。
此外,對于嵌合核酸序列的結構而言,特別優選來自哺乳動物組織的核酸序列根據染色體結構(例如在BAM格式的情況下)在單個嵌合核酸序列文件被組織,而病毒核酸序列作為各個單個染色體在單個嵌合核酸序列文件中被組織。一旦嵌合核酸序列文件被組裝,優選接著用如此產生的嵌合核酸序列文件對序列數據庫進行更新。當然,還應該認識到編輯儀還可以用于使來自哺乳動物組織的核酸序列在傳輸過程中與來自病毒基因組序列文庫的一種或多種病毒核酸序列快速(on-the-fly)合并,這樣可以 進行增量同步比對,如下文進一步討論的那樣。對于合適的序列及其部分,采取上文已經提供的相同考慮。
對于用于與嵌合核酸序列比較的合適的患者樣品而言,通常優選患者樣品得自被診斷或疑似患有癌癥(特別是病毒相關癌癥)的患者。具有多種獲得此類樣品的方式,并且通常優選樣品包含癌癥組織。接著以公知的方式對樣品進行處理,從而由患病組織(例如病毒相關腫瘤)獲得核酸序列。在本發明主題的特別優選的方面中,整個基因組的覆蓋度為至少20倍,更多為至少30倍。因此,通常優選的是來自病毒相關腫瘤的核酸序列覆蓋腫瘤的完整基因組。然而,還應該領會的是,病毒相關腫瘤的較小核酸部分也被認為是合適的,特別是在已經猜測整合事件的位點的情況下。因此,涉及來自病毒相關腫瘤的核酸序列包含病毒相關腫瘤至少1條染色體、3條染色體、5條染色體或10條染色體的核酸序列。從另一種觀點來看,還涉及來自病毒相關腫瘤的核酸序列包含病毒相關腫瘤外顯子組的至少一部分(例如至少10%或者10-30%之間,至少13%或者30-50%之間,至少50%或者50-80%之間)。因此,來自病毒相關腫瘤的核酸序列可以包含病毒相關腫瘤完整基因組的至少10%(例如10-30%之間或更高)、至少30%(例如30-50%之間或更高)、至少50%(例如50-80%之間或更高)。
就此而言,應該注意的是,由患病組織得到的所有樣品均被認為是適用于本文的,無論此類組織是癌癥或者甚至癌前組織與否。事實上,認為所有患病組織和疑似患病組織均適于本文。然而,特別優選組織包括由病毒相關腫瘤得到的那些。例如用于病毒相關腫瘤的示例性病毒包括與以下相關的那些:HTLV-1(人類T細胞白血病病毒)、HPV病毒(人類乳頭狀瘤病毒,特別是16、18、31、33、35、39、45、51、52、56、58、59、68、69、73和/或82高風險型)、HHV-8(人類皰疹病毒8)、EBV(EB病毒)、HBV(乙型肝炎病毒)、HCV(丙型肝炎病毒)、SV40(猿猴皰疹病毒40)、BKV(BK病毒)、JCV(JC病毒)、HERV(人類內源性逆轉錄病毒)、HMTV(人類乳腺腫瘤病毒)、KSHV(卡波氏肉瘤相關皰疹病毒)和/或TTV(細環病毒)。
如上文已經敘述的那樣,多種數據格式適用于本文,然而,用于來自 病毒相關腫瘤的核酸序列的特別優選的數據格式包括BAM、SAM、FASTA或FASTA索引格式。此外,應該注意的是,用于來自病毒相關腫瘤的核酸序列和嵌合參照核酸序列的格式是相同的,從而允許快速進行增量同步比對。
在本發明主題的其他特別優選的方面中,使用增量同步比對處理嵌合參照核酸序列和來自病毒相關腫瘤的核酸序列,以快速鑒定整合、共同擴增和基因組交換的位點。例如并且并非限定本發明的主題,通常優選使用軟件工具進行基因組分析,其中嵌合參照核酸序列(其包含來自健康或參照組織的基因組核酸序列)被同步化,并且與來自病毒相關腫瘤(或者其他患病組織)的核酸序列進行增量比較。一種特別優選的工具包括之前描述于WO2013/074058A1(其以引用方式并入本文)中的BAMBAM。
使用此類方法,應該特別領會的是,不僅可以在各種樣品(例如病毒和患者)中發現存在種間交叉整合的序列,還可以發現位點、拷貝數、突變等,所有這些均可以對疾病的存在、進展和/或結果產生顯著的影響。因此,本發明人不僅涉及檢測一種或多種種間交叉整合事件的方法,還涉及此類事件的特征,其隨后用作治療和預后評估的基礎。
還應該注意的是,所涉及的分析不必僅限于對患者腫瘤樣品進行基因組分析的那些,還涉及多種檢驗和方法,其中使用原樣的或者經過處理以富集病毒核酸內容物中的樣品的患者樣品(例如靜脈抽血或其他生物體液(例如尿液、淚液、唾液、腦脊液等)的獲取)。然后可以分析如此獲得的樣品,從而鑒定至少一部分病毒基因組的存在情況,其中所述部分還包含至少一部分宿主基因組。因此,所涉及的系統和方法還擴展至利用由樣品獲得的病毒基因組核酸序列與人類(或其他哺乳動物)參照基因組之間的增量同步比對來進行分析,其中所述人類(或其他哺乳動物)參照基因組可以是或者不是上文已經描述的嵌合參照核酸序列。
因此,所涉及的系統和方法還包括診斷檢驗,從而證明或排除目前或之前患者中病毒特別是腫瘤相關病毒的病毒感染。因此,所涉及的診斷方法將還包括查明腫瘤與之前(或目前)的病毒感染相關的步驟。可以通過檢測病毒抗原、抗病毒抗原的抗體存在情況以及檢測病毒核酸、表位和/或酶的分子生物學方法等,對病毒存在情況進行審核。一旦證明或疑似存 在,可以基于所檢測病毒選擇合適的病毒基因組序列(例如選擇病毒的種類或類型,包括肝炎病毒或HPV分型)。
無論特定序列的性質如何,通常涉及核酸序列儲存于數據庫中,以由分析儀和/或編輯儀進行檢索,并且此類數據庫可以是單個式或分布式數據庫。因此,術語“數據庫”應該理解為不限于單個物理裝置,而是包括彼此信息偶聯的多個不同的儲存裝置。應該進一步注意的是,應該讀取針對計算機的任何語言,從而包括計算裝置的任何合適的組合,包括服務器、界面、系統、數據庫、代理、對等機、發動機、控制器或者單獨或共同運行的其他類型的計算裝置。人們應該領會,計算裝置包括處理器,其被配置為執行儲存在有形非暫時性計算機可讀儲存介質(例如硬盤驅動器、固態硬盤、RAM、閃存、ROM等)上的軟件指令。優選軟件指令將計算裝置配置為提供下文討論的關于所公開儀器的作用、職責或其他功能性。在特別優選的實施方案中,多種服務器、系統、數據庫或界面交換數據使用了標準的協議或算法(其可能基于HTTP、HTTPS、AES、公鑰-私鑰交換、網絡服務API、已知的金融交易協議或其他電子信息交換方法)。優選數據交換在分組交換網絡、因特網、LAN、WAN、VPN或其他類型的分組交換網絡之間進行。
因此,本發明人涉及一種方法,其中分析儀與序列數據庫信息偶聯,其中所述序列數據庫儲存了來自病毒相關腫瘤的核酸序列和嵌合參照核酸序列,其中所述嵌合參照核酸序列包含至少一種病毒核酸序列和哺乳動物核酸序列。分析儀接著用于(a)鑒定嵌合參照核酸序列中的至少一些病毒核酸序列與來自病毒相關腫瘤的核酸序列中的等位基因的整合;和(b)鑒定等位基因與至少一些病毒核酸序列的共同擴增。在分析結束時,一旦共同擴增達到閾值(例如閾值為至少2倍擴增、至少3倍擴增、至少5倍擴增、至少10倍擴增或更高),則更新病毒相關腫瘤的治療建議記錄。最通常地,此類記錄為電子形式,并且可以儲存在與分析儀信息偶聯的任何裝置(例如患者或醫護人員的移動裝置、醫學實踐或醫療保健提供者的本地服務器等)上。
從不同的觀點來看,本發明人還涉及一種方法,其中分析儀與序列數據庫信息偶聯,其中所述數據庫儲存了來自哺乳動物組織的核酸序列和嵌 合參照核酸序列。在此類方法中,嵌合參照核酸序列將包含至少一種病毒核酸序列(更通常地,至少2種、至少5種、至少10種和更多),并且還可以進一步包含哺乳動物(例如人類)核酸序列。分析儀接著用于鑒定來自哺乳動物組織的至少一些核酸序列在病毒核酸序列中的整合,并且進一步用于鑒定來自哺乳動物組織的核酸序列的等位基因與至少一些病毒核酸序列的共同擴增。如之前所述,一旦共同擴增達到閾值,則更新哺乳動物的治療建議記錄,此類記錄將為電子形式,并且可以儲存在與分析儀信息偶聯的任何裝置上。
同樣地并且進一步針對下文所述的實施例,本發明人涉及一種方法,其中分析儀與序列數據庫信息偶聯,其中所述序列數據庫儲存了來自患者宮頸腫瘤的核酸序列和嵌合參照核酸序列,其中所述嵌合參照核酸序列包含來自患者的參照序列(優選地為匹配的正常的核酸序列)以及HPV病毒的一種或多種病毒核酸序列。分析儀接著用于鑒定嵌合參照核酸序列中至少一些病毒核酸序列與來自宮頸腫瘤的核酸序列中致癌基因(例如編碼生長因子受體的基因(包括ERBB2)、腫瘤抑制基因、參與細胞周期調節的基因和/或參與細胞分裂的基因)的至少一個等位基因的整合。在另一個步驟中,分析儀還用于識別等位基因與至少一些病毒核酸序列的共同擴增,并且一旦共同擴增達到閾值,則更新病毒相關的腫瘤的治療建議記錄。
應該認識到同步增量分析和龐大的序列文件使得所述的此類方法完全不適用于人類實踐,這是因為即使人們每天分析10000個堿基,此類文件分析也容易超過人類的生命周期。此外,用于基因組排布的解決方法的計算將進一步增加人類行為的不可能性。此外,應該指出的是,嵌合參照核酸(即合并的病毒核酸序列和哺乳動物核酸序列,其中病毒序列作為個體染色體被組織/索引)的特定文件結構將具有極大改善分析時間的技術作用,這是因為這種文件結構(a)與將整個序列加載至存儲器中相比,可以快速地處理而無需太多的存儲要求;和(b)允許基因組整合的快速分析和共同擴增的鑒定,這是由于此類方法僅需要分析2個序列文件,而不是分析3個或多個序列文件(其另外由病毒數量決定)。
此外,除非在本文中另外說明,或者上下文另外清楚地反駁,本文所述的所有方法均可以以任何合適的順序實施。針對本文某些實施方案而提 供的任何和所有實例或示例性語言(如“例如”)的使用僅僅意在更好地說明本發明,并非對另外主張的本發明的范圍進行限定。說明書中的語言均不應該解釋為表明實踐本發明所必需的任何未主張的要素。
在其他所涉及的方法中,應該認識到一旦鑒定出來自病毒宿主的基因(例如致癌基因、腫瘤抑制基因、參與細胞周期調節的基因和/或參與細胞分裂的基因)的共同擴增,所獲得的結果可以以計算機模擬的方式建立宿主基因組被擴增部分的潛在影響的模型,由此鑒定其他的治療選擇和靶標。在其他建模系統中,特別優選的建模系統包括途徑分析模型,特別是PARADIGM,其在WO2011/139345和WO/2013/062505中有所描述,這兩份文獻均以引用方式并入本文。例如在發現ERBB2被擴增的情況下,此類信息可以用于途徑識別算法中,從而研究不同于或除了抑制ERBB2的基因產物以外的治療方法。
實施例
患者病史:2012年3月,發現1名44歲女性患有宮頸息肉。對息肉進行活檢,發現其為低分化的宮頸腺癌。該女性之前的帕氏涂片均是正常的,最后一次涂片是在2011年9月進行的。2012年4月,該女性進行廣泛性子宮切除術,包括雙側輸卵管切除術和淋巴結切除術。該患者選擇保留其卵巢。外科病理學證明壁浸潤至宮頸外部三分之一處。水平擴散至2.7cm。未見淋巴、血管或子宮浸潤。淋巴結為陰性。患者未接受任何術后化療或放射治療。該患者的術后期并發盆腔膿腫和全身性感染,隨后恢復。患者在8周內返回工作,并且其他是正常的。
2012年7月,患者發展成盆腔不適和排尿困難。病情檢查(包括超聲、CT掃描和PET掃描)顯示多個盆腔腫塊,其中最大SUV為43.9。針吸活檢證實為低分化腺癌,與最初的活檢一致。患者開始進行卡波鉑和吉西他濱治療,但是由于在別處實施的體外檢驗結果,2012年8月改為長春瑞濱、他莫昔芬和吉非替尼。在4周劑量后,CT/PET復查中發現腫瘤發生進展,患者恢復為卡波鉑和吉西他濱治療,并接受1個劑量。隨后,患者選擇進行“替代性治療”。疾病持續進展,并且在2012年9月末發展成阻 塞性腎衰竭,使用輸尿管支架進行治療。
2012年11月末,患者進行其轉移性腫瘤的腹腔鏡活檢,用于多種檢驗,包括全基因組測序、癌癥基因窗(cancer gene panel)測序、RNA表達譜、免疫組織學和FISH,并異種移植至免疫缺陷型小鼠中。這些檢驗均證實HER2(ERBB2)基因擴增并且蛋白過表達。2012年12月,使用曲妥單抗和拉帕替尼對患者進行治療,應答較佳。其腹部疼痛消除,減少了30磅腹水,并且其左下肢體淋巴水腫在3周內均消除。2013年2月的CT/PET掃描證實其腫瘤產生明顯應答。
患者表現良好,直至2013年4月,其發展出運動性呼吸困難和疼痛。CT/PET掃描顯示具有胸腔積液和重度腎積水的疾病進展。放置腎盂引流管。終止曲妥單抗,并且開始用曲妥珠單抗(ado-trastuzumab emtansine)治療q3wks,以及帕妥珠單抗和拉帕替尼。2013年6月的CT/PET掃描復查顯示持續的進展。實施針吸活檢從而檢測腫瘤是否保持HER陽性。基因分析和對FFPE切片的FISH檢驗證實HER2擴增和過表達,與之前于2012年11月進行的活檢具有最小的基因變化。在4周的過程中,使用曲妥單抗、拉帕替尼、長春瑞濱和高劑量他莫昔芬治療患者,但是骨盆疼痛、惡心和腹部氣脹的癥狀加重,并且根據小鼠異種移植物研究的結果,用卡波鉑替代長春瑞濱和他莫昔芬。目前,患者繼續使用這種卡波鉑、曲妥單抗和拉帕替尼的方案。9月3日的CT/PET掃描顯示疾病的進展。
在使用卡波鉑/吉西他濱、長春瑞濱/他莫昔芬/吉非替尼治療后復發,并且對另外幾輪卡波鉑/吉西他濱無應答之后,在患者中實施全基因組測序和定量蛋白質組學分析。全基因組序列分析顯示患者的腫瘤樣品除了包含大量的體細胞突變、幾種體細胞重排和染色體22的雜合性丟失(數據未示出)以外,還包含大量的映射18型HPV的讀值。注意到了ERBB2、CDH1、CLTCL1和PTPRK中的突變,所有這些突變在乳腺癌中常見。患者的腫瘤基因組分析揭示了患者腫瘤樣品中存在HPV-18的證據,包括導致ERBB2基因顯著擴增的基因組整合。通過質譜對福爾馬林固定的組織的蛋白質組學分析確認并定量了由于ERBB2擴增所導致的患者腫瘤細胞中HER2蛋白的過表達。在該患者中所見的過表達水平與FISH陽性擴增和曲妥珠單抗的臨床效力有關。
根據這些綜合的omic(基因組學加蛋白質組學)發現,在先前經過四線化療后復發之后施用曲妥單抗(針對乳腺和胃癌的批準的治療),幾個月內患者產生明顯應答,使疾病穩定。隨后的CT/PET掃描證實作為對曲妥珠單抗的應答,患者的腫瘤明顯收縮。因此并且從不同的觀點來看,應該領會的是,癌癥患者的分子標志與結構上的腫瘤類型無關,其需要使用全基因組測序來測定可以與生存結果直接相關的染色體重排。
方法:由Illumina Clinical Services Laboratory對活檢組織進行全基因組測序,并且與正常產生的大約25億讀值進行匹配,使得測序深度分別為45.85×和30.69×。使用BWA(Burrows-Wheeler Aligner,例如參見http://bio-bwa.sourceforge.net/)將所有讀值與經修正的UCSC人類參照HG19比對,其中所述經修正的UCSC人類參照HG19包含2013年3月5日NCBI中可利用的所有已知的病毒序列,其中每個病毒序列在參照文件中作為分開的染色體處理。使用Five3Genomics序列處理平臺,從而產生拷貝數估值、體細胞變體和重排,如WO2013/074058A1、WO2011/149534A2和WO2013/086424A1中所述,所有上述文獻以引用方式并入本文。
結果:基因組序列分析顯示患者腫瘤樣品除了包含48個體細胞突變、4個體細胞重排、染色體22的雜合性(LOH)丟失以外,還包含大量映射18型HPV的讀值,這些改變中的2種(ERBB2和CDH1)以及HPV-18+狀態均已知與癌癥有關(如在the Sanger Cancer Gene Census中所述),由此被認為與患者的宮頸癌診斷有關。在文獻綜述揭示了XAB2在基因組穩定性和對PARP抑制劑的敏感性中的作用之后,XAB2中的錯義突變還被鑒定為臨床上相關。此外,染色體22經歷了雜合性)LOH)丟失事件,其包括單個拷貝的已知癌癥基因CLTCL1、SMARCB1、EP300和NF2的缺失。
ERBB2為原癌基因受體酪氨酸激酶,其編碼蛋白質ErbB2生長因子受體(HER-2/neu);HER2與其他EGF受體結合,從而形成異源二聚體,該異源二聚體使配體的結合穩定,并促進激酶介導的下游途徑,其中一些途徑促進細胞生長并抑制細胞凋亡。已知HER2在乳腺、卵巢、胃和侵入性子宮癌中過表達,并且通常與較低的生存率有關。在該患者中,ERBB2表現為被擴增并且以可以直接映射HPV18序列的重排作為側翼,如圖1 中所示。更具體而言,圖1描繪了患者染色體17的一部分的圖示,其位于大約位置37.85mb和下游區域,如圖表上方所示。在圖表底部附近的箭頭和箭頭內的方框示意性地表示基因,其中ERBB2基因完全顯示,方框表示各個基因的外顯子。基因上方的方框以線性圖的形式顯示了特定區域序列的拷貝數。由線性圖易于顯而易見的是,染色體17上的大部分人類序列以基本相同的拷貝數擴增,之間具有一些小的缺口。缺口上方的半圓形圖標表示基因組重排,其連接彼此面對的擴增序列的各個末端,而上方區段中的四分之一環形圖標表示chr.17的人類序列與chr.17外部另一個序列的連接。在這種情況下,其他序列為NC_001357.1,其為HPV-18。因此,應該容易顯而易見的是發生了chr.17和HPV-18序列的基因組重排。為了便于參考,來自chr.17的人類相鄰的序列示意性地描繪成標記為h1,h2,h3和h3的方塊。
圖2示出了當查看嵌合參照核酸序列中的HPV-18病毒基因組序列時,由相同的患者得到的結果(此外僅示出針對HPV-18的“染色體”)。在此,再次以線形圖示出擴增,而相應的病毒基因E1、E2,、E4、E5-7、L1和L2在線性圖的下方以方框示出。由線性圖上方的伸出的半環可見,存在連接病毒基因組末端的讀值,其表示環狀基因組。由半環上方的四分之一環形還易于顯而易見的是,存在連接HPV-18序列和人類chr.17中的序列的讀值。值得注意的是,病毒L1基因的一部分在HPV-18中缺失。再次,為了便于參考,相鄰的病毒序列標記為v1、v2、v3和v4。
綜上,由此應該易于顯而易見的是,病毒HPV-18和人類chr.17的一部分共享了相鄰的讀值,代表發生了相互的基因組重排,其中HPV-18基因組的一部分整合至人類基因組中,而且其中人類基因組的一部分整合至病毒基因組中。圖3示出了與圖1和2中可見信息一致的圖表式排布。由圖3可見,擴增的人類區段h1的左端與擴增的病毒區段v4的左端連接(還參見圖1中左側的第一個四分之一環形和圖2中右側的最后一個四分之一環形),擴增的病毒區段v4的右端則連接擴增的病毒區段v1的左端(還參見圖2中伸出的半環的末端)。可以對重排點進行分析,從而獲得圖4中示意性示出的環形方法,其中示出了包含大部分ERBB2的環形HVP-18病毒基因組(注意缺少h3不影響ERBB2中的任何外顯子)。
擴增顯示得到大約總共18個拷貝,其中最小的等位基因數量為1。這表明擴增事件僅涉及ERBB2的2個等位基因中的1個。在小部分的讀值中,存在有效地刪除外顯子16的重排,盡管該重排的深度表明其可能是晚期事件。這種晚期重排的功能含義尚不清楚。來自該患者的活檢組織的免疫組織化學證明其腫瘤細胞中HER2的過表達。
通過在患者基因組中發現HPV-18標志基因組以及通過活檢樣品的熒光原位雜交(FISH),發現該患者為HPV-18+。數據(參見圖1-4,其描繪了具有明顯拷貝數改變的患者染色體17q12,以及L1缺失的18型HPV)明確地顯示了由HPV-18基因組至染色體17上HER2側翼區域的清楚的重排,其中拷貝數直接支持HER2和HPV-18具有相等的拷貝數。這表明HPV基因組在L1(衣殼蛋白)位置處將HER2直接整合至其序列中,或者HPV-18整合至患者基因組中使得包含HER2的序列串聯重復被多次拷貝入染色體17中。無論整合方式如何,應該理解的是,ERBB2的擴增強烈地表明患者中發現過表達的Her2是由于基因組整合和ERBB2基因的共同擴增,這本身提出了通過給予Her2抑制劑而觀察到有效的新的治療靶標。
患者呈現宮頸癌,但是基于測序的檢驗指向獨特的顯示—更通常地在乳腺癌中發現的突變;在該患者中,我們觀察到ERBB2、CDH1、CLTCL1,所有這些均可以在乳腺癌中發現。患者的HPV-18+狀態也值得注意,其中其L1衣殼蛋白基因缺失,這表明腫瘤的進展。
認為HPV-16和18為高風險HPV病毒株。由圖4還可見,稱為L1的HPV衣殼蛋白(發現其在該患者中缺失)通常在最初感染和生產階段中存在,但是在癌前病變過程中缺失或不表達。L1表達的減少與宮頸上皮內瘤樣病變進展成浸潤性宮頸癌有關。癌癥中值得注意的兩個其他的HPV蛋白為E6和E7,其分別結合并使腫瘤抑制因子P53和pRb失活(關于人類乳頭瘤病毒(HPV)和宮頸癌的WHO/ICO信息中心,www.who.int/hpvcentre)。
缺少L1衣殼蛋白基因的HPV-18基因組的存在以及CLTCL1籠形蛋白基因的缺失是潛在引人關注的巧合發現。HPV L1通過結合上皮細胞表面上的硫酸乙酰肝素蛋白多糖而介導籠形蛋白依賴性細胞進入。籠形蛋白質非依賴性內吞作用可以由小型衣殼蛋白L2通過模聯蛋白(annexin)A2來 介導。CLTCL1是籠形蛋白介導的登革熱病毒和人類腸道病毒71感染性的必需成分。
對于本領域技術人員應該顯而易見的是,在不脫離本文所述的本發明理念的情況下,除了已經描述的那些以外,更多的修改是可行的。因此,除了所附的權利要求書的精神以外,本發明的主題不能被限定。此外,在理解說明書和權利要求書的過程中,所有的術語均應該以與上下文一致的最廣泛可行的方式來理解。具體而言,術語“包含”(動詞)和“包含”(動名詞)應該解釋為以非排除方式用于要素、組分或步驟,從而表明所涉及的要素、組分或步驟可以與未明確涉及的其他要素、組分或步驟一起存在、使用或結合。在本說明書的權利要求書涉及選自A、B、C……和N中的至少一種事物的情況下,該內容應該解釋為僅需要選自上述的一種要素,既不是A加N,也不是B加N,等等。此外,如在本說明書及其后的整篇權利要求書中所用,“a”、“an”和“the”的含義包括復數指代,除非上下文另外清楚地說明。此外,如本說明書中所用,“在……里”的含義包括“在……里”和“在……上”的含義,除非上下文另外清楚地說明。