使用全基因組序列的生物細胞評估以及使用所述全基因組序列的腫瘤學治療規劃的制作方法
【專利摘要】一種癌癥測試,包括:處理從對象(6)采集的可疑組織樣本(10),以生成可疑全基因組序列(WGS)(20);處理從所述對象采集的正常組織樣本(12),以生成正常WGS(22);計算將所述可疑WGS與所述正常WGS進行比較的WGS比較度量;以及基于計算出的所述WGS比較度量來識別所述可疑組織樣本是否包括癌癥組織。一種腫瘤勾勒方法,包括:在腫瘤(100)中或腫瘤附近采集來自對象(6)的多個檢驗組織樣本(104);記錄所述檢驗組織樣本的采樣位置;基于所述檢驗組織樣本的基因測試將對應于癌癥的每個檢驗組織樣本進行分類;以及,基于所述檢驗組織樣本的所述分類和所記錄的采樣位置來勾勒所述腫瘤的邊界(110)。
【專利說明】使用全基因組序列的生物細胞評估以及使用所述全基因組 序列的腫瘤學治療規劃
【技術領域】
[0001] 以下涉及醫療領域、腫瘤學領域、基因組領域以及有關領域。具體參考腫瘤學的腫 瘤勾勒應用描述了本發明;然而,以下更普遍地可應用于醫學或獸醫的研究和開發、篩選、 診斷、轉移的臨床監測或其他狀況、介入規劃以及針對腫瘤學狀況和其他不利狀況的其他 醫學或獸醫的應用。
【背景技術】
[0002] 當正常的身體細胞突變或以其他方式轉變成以不受控制的方式分裂并且繁殖的 癌細胞時,出現癌癥。在一些癌癥中,癌細胞至少初始時保持受位置限制,以便形成惡性腫 瘤,其常常利用微滲透侵入周圍的組織。此時,有時能夠通過移除腫瘤來處置癌癥;然而, 這樣的移除應當是完全的,否則剩余的癌細胞能夠繼續繁殖并且導致癌癥的復發。除了手 術移除之外,還可以應用輔助治療和/或新輔助治療,諸如,輻射治療、化學治療等,這可以 解決惡性組織移除的任何不完全性。當癌癥變得不受位置限制并且通過血流或通過淋巴系 統擴散到身體的大部分時,它就發生了轉移。通常通過給予藥物(化學治療)或以輻射性 植入物形式的輻射(近距離放射治療)或者直接施加電離輻射(輻射治療)來處置轉移癌 癥。也可以在轉移之前使用這些技術,在手術移除惡性腫瘤禁忌的情況下替代手術腫瘤移 除,或者作為手術腫瘤移除的補充,以剔除腫瘤移除之后剩余的任何癌細胞。
[0003] 用于癌癥識別的已知工具是基因分析。通常,這必需執行基因分型,以識別可疑細 胞是否包括臨床研究中已表明與癌癥的類型相關的具體基因變異體或變異體的組合。正在 進行的腫瘤學研究在持續擴展這樣的基因簽名的數據庫,以識別癌癥的各種類型。
[0004] 這些基因途徑的有效性根據如下條件而定:對于調查中的對象(例如,人類腫瘤 學患者或獸醫腫瘤學對象)的具體癌癥狀況,存在已知的基因簽名。可能并非始終都是這 種情況。實際與癌癥有關的一些變異體可以是新的(例如,對具體對象具有特異性,并且在 患有該癌癥的患者池中通常不被觀察到),或者可以具有群體特異性(例如,對具體種族、 性別、地理區域等具有特異性)。
[0005] 盡管在腫瘤學文獻中識別的變異體-癌癥相關性的數量一直在擴展,在原則上, 這應當會提高用于癌癥診斷的基因分析的有效性,但是在實踐上有局限性。采用新公布的 變異體以進行臨床診斷和監測能夠由于驗證的憂慮和/或由于政府監管滯后而被推遲。此 夕卜,由于必須采集和測試越來越多的變異體,越大的變異體數據庫轉化為越長的處理時間。 使用先進的測序技術通過采集全基因組序列(WGS)能夠減少采集延遲。然而,通過WGS采 集沒有減少下游處理延遲。
[0006] 此外,變異體數據庫不能夠涵蓋發生在癌癥池中太小以至于在臨床研究中統計上 不可檢測的部分中的唯一(或接近唯一)的變異體。較大的變異體數據庫還增大了引起歧 義或不可調和的數據的可能性,諸如研究對具體變異體與具體癌癥之間的相關性(或缺乏 相關性)得出矛盾的結論。在這種情況下,現有的基因分析不太可能得出臨床上有用的結 果。
[0007] 下文預期了克服前述局限性和其他局限性的改進的裝置和方法。
【發明內容】
[0008] 根據一個方面,一種方法包括:處理從對象采集的可疑組織樣本,以生成可疑全基 因組序列;處理從對象采集的正常組織樣本,以生成正常全基因組序列;計算對可疑全基 因組序列與正常全基因組序列進行比較的全基因組序列比較度量(comparison metric); 以及,基于計算出的全基因組序列比較度量來識別可疑組織樣本是否包括癌癥組織。
[0009] 根據另一方面,一種存儲指令的非暫態存儲介質,所述指令可由電子數據處理設 備執行,以執行在前一段中闡述的方法。根據另一方面,一種裝置包括電子數據處理設備, 所述電子數據處理設備被配置為執行在前一段中闡述的方法。根據另一方面,前一段中闡 述的方法還包括:在腫瘤中或腫瘤附近的多個采樣位置處采集來自對象的組織樣本;記錄 采樣位置;針對每個組織樣本執行處理、計算和識別;以及,基于所述識別和所記錄的采樣 位置來勾勒腫瘤的邊界。
[0010] 根據另一方面,一種方法包括:基于組織樣本的基因測試對在對應于癌癥的腫瘤 中或腫瘤附近的采樣位置處從對象采集的組織樣本進行分類;以及,基于分類和對樣本被 采集的采樣位置的了解來勾勒腫瘤的邊界。
[0011] 根據另一方面,一種方法包括:在腫瘤中或腫瘤附近從對象采集多個檢驗組織樣 本;記錄檢驗組織樣本的采樣位置;基于檢驗組織樣本的基因測試將對應于癌癥的每個檢 驗組織樣本進行分類;以及,基于檢驗組織樣本的分類和所記錄的采樣位置來勾勒腫瘤的 邊界。
[0012] 一個優點在于提供了基于具有足夠快的用于時間要求苛刻的臨床應用(諸如,為 介入腫瘤學過程做準備的腫瘤勾勒)的WGS數據的癌細胞識別。
[0013] 另一優點在于提供了基于不依賴于調用特異性癌癥相關變異體的WGS的癌細胞 識別。
[0014] 另一優點在于提供了不限于具有已識別的相關基因變異體的特異性已知癌癥類 型的廣泛基礎的癌細胞識別。
[0015] 另一優點在于提供了不依靠表現出有區別的形態或染色特征的癌細胞的腫瘤勾 勒。
[0016] 在閱讀以下的詳細描述之后,對于本領域的普通技術人員而言,眾多額外的優點 和益處將變得顯而易見。
【專利附圖】
【附圖說明】
[0017] 本發明可以采用各種部件和部件的布置,以及各種處理操作和處理操作的布置的 形式。附圖僅僅用于圖示優選實施例的目的,并且不應被解讀為對本發明的限制。
[0018] 圖1圖解地示出了樣本提取實驗室和基因組實驗室,其被適當地配置為如本文公 開的基于全基因組序列(WGS)信息來執行癌細胞識別。
[0019] 圖2-圖5圖解地示出了 WGS比較度量計算和使用所述WGS比較度量計算的癌細 胞識別方法學的各種實施例。
[0020] 圖6圖解地示出了如本文公開的用于介入過程規劃的在腫瘤中或腫瘤附近的采 樣位置處的來自對象的檢驗組織樣本的采集。
【具體實施方式】
[0021] 現有的基因分析將可觀察到的基因變異體與癌癥的特異性類型相關聯。這種途 徑假設癌癥落在明確定義的類型中,并且給定類型的癌癥能夠通過患有該類型癌癥的患者 (或在獸醫背景中的獸醫對象)共有的相關基因變異體來表征。
[0022] 然而,本文認識到,在很多情況下可能不會滿足這些假設。例如,在雌激素受 體-陽性乳腺癌和雌激素受體-陰性乳腺癌二者的報道研究已經表明,在來自具有相同乳 腺癌組織病理學表型(腫瘤間異質性)的不同患者的癌癥基因組之間實際觀察到了實質的 復雜性和異質性。參見Shah等人的"Mutational evolution in a lobular breast tumour profiled at single nucleotide resolution",Nature vol. 461,第 809-813 頁(2009); Stephens 等人的 "Complex landscapes of somatic rearrangement in human breast cancer genomes",Nature vol. 462,第 1005-1010 頁(2009);以及 Ding 等人的 "Genome remodelling in a basal-like breast cancer metastasis and xenograft,',Nature vol. 464,第999-1005頁(2010)。例如,由St印hens等人識別的新融合基因沒有超過一次 地存在于被研究的二十四種癌癥中的任一種中,并且選擇用于追蹤的三個被表達的框內融 合基因不存在于如Shah等人報道研究的額外的288例乳腺癌中。另一研究已經描述了在個 體乳腺腫瘤之內的實質的異質性(腫瘤內異質性),其中已經識別了多個腫瘤亞群,每個腫 瘤亞群都具有有區別的基因組譜(genomic profile)。參見Navin等人的"Inferring tumor progression from genomic heterogeneity,',Genome Res. Vol. 20,第 68-80 頁(2010) 〇
[0023] 此外,已知在群體之間能夠發生變異體-癌癥相關性的差異,使得文獻中針對 具體群體報道的基因組簽名(例如突變、單核甘酸多態性(即,SNP)、插入或缺失(即, indels)等)可能不適于用在另一群體中。例如,在被標記為疾病突變的序列變異體的一項 研究中,發現74%的被研究的變異體是多態性的。再進一步,即使在文獻中引用突變為與某 種類型的癌癥相關,但這并不保證其的確是致病突變。實際上,發現27%被引用的疾病突變 可能是多態性的或者在相同的研究中被錯誤注釋。
[0024] 實際上,針對致癌作用的常規模型(S卩,個體的相對離散的基因突變逐漸積累, 使正常細胞轉變成癌細胞)已經受到挑戰。例如,近來針對致癌作用的一些實例而開發 的模型是染色體碎裂(chromothripsis)。在該模型中,染色體經歷大規模的碎裂,接著是 不準確的重新組裝。Stephens 等人的"Massive Genomic Rearrangement Acquired in a Single Catastrophic Event during Cancer Development,',Cell vol. 144, no. 1,第 27-40頁(2011年1月)。染色體碎裂模型不預測具體類型的癌癥可能與相關離散基因變 異體相關聯。另一變得普及的模型假定司機和乘客突變。該模型基于如下觀察發現:很多 癌癥基因組充斥著突變。在該模型中,這些突變的絕大多數可能是乘客,亦即,對癌癥的發 展沒有貢獻,而是在癌癥生長期間已經發生的突變。參見http://www. news-medical, net/ news/20100219/Cancer-genomes-Distinguishing-between-driver-and-passenger-muta tions. aspx(最后訪問于2011年10月27日)。根據該模型,生物學數據庫中的大多數突 變將是乘客突變。
[0025] 本文公開的癌癥識別技術減少或消除了對基于文獻的癌癥相關的基因變異體的 依賴。公開的技術不依賴于不論致癌作用機制如何而預計對所有癌癥都有效的首要原則考 慮。公開的技術還利用了由一些現有的市售可用的基因組測序儀或測序服務提供的全基因 組序列(WGS)的可用性(例如,合適的測序儀或測序服務是從IlluminaK,San Diego, CA, USA ; Kn〇meK,Cambridge,MA,USA ;Roche 454(從 Roche,Basel,Switzerland 可獲得); 以及 Ion Torrent,Guilford,Connecticut,USA 可獲得的)。
[0026] 本文公開的技術的前提為以下觀察發現:所有的癌癥都與基因組的異常變化相關 聯。不論致癌作用的具體機制如何,并且不論癌癥的具體類型如何,這都是正確的。基于該 觀察發現,公開的技術依賴于來自相同個體的可疑細胞的WGS與正常細胞的WGS的比較。 如果可疑細胞確實是癌細胞,則其WGS與來自相同個體的正常細胞的WGS之間的差異預計 大于來自相同個體的兩個不同正常細胞的WGS之間的差異。于是,通過將從對象(例如, 人類醫學對象,或獸醫對象)獲取的可疑組織樣本的WGS與從相同對象獲取的正常組織樣 本的WGS進行比較,易于評估可疑組織樣本實際包括癌癥組織的可能性。采用正常組織的 WGS作為過濾器,以移除基因組與癌癥無關的部分,僅留下能夠檢驗可疑組織是否實際是癌 癥組織的特定變異體。
[0027] 這種途徑具有明顯的優點。它大量減少了將良性(S卩,不是癌癥有關的)變異體 誤解為癌癥簽名的可能性,因為通過與相同對象的正常WGS比較,將會過濾掉這樣的良性 變異體。另一方面,使用公開的途徑易于檢測出通過與來自文獻的變異體-癌癥相關性的 比較不會檢測出的特定的癌癥有關的變異體。
[0028] 公開的途徑確定可疑組織樣本是否包括癌癥;然而,它并不識別是哪種類型的癌 癥。技術人員可以將此視為針對癌癥診斷和監測的明顯的缺點。然而,本文認識到,該潛在 覺察到的缺點不像一開始可能想得那樣明顯。首先,由于公開的途徑不依賴于基因材料與 變異體的參考數據庫的詳盡的比較,因此它們比常規的基于變異體的癌癥識別明顯更快。 于是,它們能夠用于初始癌癥篩選(在公開的途徑指示有癌癥可能的情況下,以常規的基 于變異體的癌癥識別的形式進行追蹤)。公開的途徑在癌癥監測中也是有用的,因為在那種 情況下,癌癥的類型(通常)是已經知道的,并且正在尋找的信息是癌癥的進展。如本文進 一步公開的,公開的途徑的速度甚至使它們成為用于在規劃介入流程(諸如,手術移除或 輻射治療)期間勾勒腫瘤的切實可行的技術。
[0029] 參考圖1,由基因組實驗室4適當地執行公開的癌癥測試技術,所述實驗室4在從 樣本提取實驗室8中患者6提取的一個或多個組織樣本上執行公開的癌癥測試。應當認識 至IJ,實驗室4、8可以具有各種關系。例如,在一些實施例中,兩個實驗室4、8是相同的實驗 室,例如,也執行其自己的組織采樣的內部基因組實驗室。在其他實施例中,兩個實驗室4、 8可以是位于相同的醫院或其他公共醫療設施處的不同的內部實驗室。在其他實施例中,兩 個實驗室4、8可以在組織上和/或地理上是不同的。例如,采樣實驗室8可以是位于醫院 的內部實驗室,而基因組實驗室4可以是商業服務提供者,所述商業服務提供者經由郵件 或其他遞送路徑來接收經提取的組織樣本,并且經由互聯網或另一電子通信路徑向醫院傳 送回測試結果。
[0030] 在這些實施例中的任一實施例中,采樣實驗室8提取來自對象6的至少兩個組織 樣本,g卩,"可疑"組織樣本10和"正常"組織樣本12。可疑組織樣本10是從對象6被懷疑 包括癌癥組織的位置或區域采集的組織樣本。例如,可以從懷疑或已知是惡性的腫瘤(應 當理解,本文使用的"懷疑"涵蓋"已知"),或從懷疑患有肺癌的肺,或從已知或懷疑是惡性 的乳腺癌病灶等等采集可疑組織樣本10。正常組織樣本12是從相同的對象6采集的,但是 從對象6的有效確保正常組織樣本12不包括癌癥組織的區域或位置采集。可以基于各種 類型的信息,識別可以提取正常組織樣本12的這種"正常"區域。例如,對還沒有(尚未) 轉移的惡性腫瘤而言,能夠從足夠遠離腫瘤的相同類型的組織的位置處安全地取出正常組 織樣本12,所述腫瘤不太可能包含不可忽略的數量的癌細胞。對轉移性癌癥而言,可以從不 太可能包含不可忽略的數量的轉移的癌細胞的類型的組織中取出正常組織樣本12。例如, 如果癌癥不太可能已經擴散到口腔組織,則正常組織樣本12可以是口腔樣本。通常,可疑 組織樣本10和正常組織樣本12可以是或不是相同的組織類型。
[0031] 應當注意,在圖示的圖1中,由小瓶表示樣本10、12 ;然而,應當理解,樣本10、12 通常可以采用適合用于已經被采樣的組織類型的任何形式,并且可以由針對該組織類型的 任何適當的容器或支持器來包含或支持。例如,樣本1〇、12可以是使用皮下注射針或其他 液體收集裝置采集的液體樣本(例如,血液)、表面樣本(例如,通過口腔棉簽獲得并且被 設置在無菌玻片或其他適當表面上)、使用活檢針或其他介入器械采集的活檢樣本,等等。 (如附圖中旁邊所示,為了實現視覺增強,使用虛線繪制正常組織樣本12和僅利用該正常 組織樣本12的處理。)再進一步,盡管圖示的可疑組織樣本10被表示為單個樣本,并且圖 示的正常組織樣本12被表示為單個樣本,應當理解,兩個樣本之一或兩者實際上可以包括 兩個或更多樣本的集合,對其結果取平均值被或以其他方式組合。
[0032] 組織樣本10、12被從采樣實驗室8運送到基因組實驗室4(除非實驗室4、8是 相同的物理機構)。在基因組實驗室4處,使用基因測序設備14適當地制備并且處理每 個樣本10、12,以生成分別對應于可疑組織樣本10和正常組織樣本12的可疑全基因組 序列(可疑WGS) 20和正常全基因組序列(正常WGS) 22。基因測序裝置14基本上能夠 采用能夠生成全基因組序列(WGS)的任何測序儀。從Illumina% San Diego, CA,USA; Knome% Cambridge,MA,USA;Roche 454(從 Roche,Basel,Switzerland 可獲得);以及, Ion Torrent,Guilford,Connecticut,USA 可獲得一些適當的測序裝置。
[0033] 如本文使用的,"全基因組序列"或WGS (在本領域中也被稱為"完整"、"全部"或 "整個"基因組序列),或類似的措辭要被理解為涵蓋對象的基本的但未必全部的基因組。在 本領域中,使用術語"全基因組序列"或WGS用于指代對象的接近全部的基因組,諸如在一 些用法中至少95%的全部。本文使用的術語"全基因組序列"或WGS不涵蓋針對基因特異 性技術(諸如單核苷酸多態性(SNP)基因分型)采用的"序列",對于所述單核苷酸多態性 (SNP)基因分型,通常不到0.1%的基因組被覆蓋。本文使用的術語"全基因組序列"或WGS 不要求基因組與任何參考序列比對,并且不要求對變異體或其他特征進行注釋。
[0034] WGS 10、12由電子數據處理設備24處理,在圖示的圖1中,所述電子數據處理設備 24被示為代表性的計算機24。更一般地,電子數據處理設備24可以是臺式計算機、筆記本 計算機、電子平板電腦、網絡服務器等。此外,盡管圖示的計算機24被示為駐留在基因組實 驗室4的內部,也預期電子數據處理設備位于基因組實驗室4的外部,并經由有線或無線局 域網和/或經由因特網等與實驗室4通信。例如,電子數據處理設備24可以是實驗室4經 由電子醫院網絡進行訪問的網絡服務器。由電子數據處理設備24執行的對WGS 10、12的 處理有時被稱為計算機處理(in silico processing)。應當認識到,本文公開的各種實施 例可以被物理地實施為被編程為或以其他方式被配置為執行公開的計算機處理的電子數 據處理設備24。而且,本文公開的各種實施例可以被物理地實施為非暫態存儲介質(未示 出),所述非暫態存儲介質存儲由電子數據處理設備24可執行的指令,以執行公開的計算 機處理。例如,這樣的非暫態存儲介質可以包括硬盤或其他磁存儲介質、或光盤或其他光存 儲介質、或閃速存儲器、隨機存取存儲器(RAM)、只讀存儲器(ROM)或其他電子存儲介質等。
[0035] 公開的癌癥識別測試是基于可疑全基因組序列20與正常全基因組序列22的比 較,總的前提是這些WGS 20、22之間的差異越大,可疑WGS 20越可能是癌癥組織。對癌細 胞而言,基因組的變化變得更加顯著,具有大的indels (插入/缺失)、寬的復制數變異體 (CNV' s)、染色體畸變和重排以及高度惡性和未分化腫瘤的極端情況下的非整倍體性。同樣 地,不論致癌作用的機制如何,這都是正確的。這些基因組變化誘發全基因組中顯著的更改 或誤差,導致癌細胞的WGS明顯偏離正常細胞的WGS。通常,這是程度的問題。甚至正常細 胞的WGS也被預計存在彼此偏離。預計這些偏離基本上對于癌細胞會更大。該前提也能夠 應用于監測從一個癌癥階段到下一個癌癥階段的癌癥進展,因為預計較晚的癌癥階段會表 現出對應于正常細胞WGS的更大分化(與較早階段的癌細胞相比)。實際上,與較早階段癌 細胞的WGS比較,預計較晚階段癌細胞的WGS在分化方面表現出可量化的增加。有益地,甚 至在使可疑組織樣本的WGS經歷詳細分析流水線(例如,包括完全比對/組裝、變異體調用 和注釋以及與文獻的變異體-癌癥相關性數據庫比較)之前能夠確定這些變化。
[0036] 為此目的,操作30計算WGS比較度量,所述WGS比較度量提供可疑全基因組序列 20與正常全基因組序列22之間的定量比較。判定操作32確定定量WGS比較度量是否滿足 癌癥標準。根據在判定操作32處做出的判定,可疑組織樣本10被分類成正常組織(操作 34)或被分類成癌癥組織(操作36)。在這點上,判定操作32也能夠被視為分類器或分類 操作。
[0037] 應當注意,盡管在圖1的圖示的分類器32中采用了二元(S卩,癌癥或正常)分類, 但更一般地,分類能夠采用軟分類或隨機分類(例如,存在70%的樣本10是癌癥的可能 性)。在該情況下,可以將百分比多方面地解讀為樣本10包含癌癥的概率或樣本中包含的 癌癥的"量"。例如,可疑樣本10實際上可以包含一些癌細胞和一些正常細胞。在這種情況 下,由分類器32輸出的低概率可以指示細胞為癌細胞的低份額。
[0038] 分類器32不對癌癥的類型發表意見,而是僅對可疑樣本10是否包括癌癥發表意 見。可以以各種方式解讀和/或利用輸出34、36。在圖1的圖示范例中,由操作30、32、34、 36實施的癌癥測試用作癌癥篩選試驗。在本申請中,如果獲得了指示可疑組織樣本10是正 常組織的輸出34,則通常不采取進一步動作。另一方面,如果獲得指示可能有癌癥的輸出 36,則通常在醫生的指導下執行額外的診斷。
[0039] 在圖1的圖示范例中,額外的診斷包括執行常規的基因變異體-癌癥相關性分析。 有益地,該分析能夠"重復使用"可疑WGS 20。為此目的,輸出36充當調取操作38,所述調 取操作38基于操作40、42、44調取基因組比對/組裝40、變異體調用42和注釋/識別44 以及癌癥類型的輸出46的操作,所述操作40、42、44識別臨床研究中已經表明與該類型的 癌癥相關的基因變異體。在該實施例中,額外的基因測試40、42、44、46既充當癌癥測試30、 32、34、36的驗證,還通過識別癌癥的類型來提供額外的信息。
[0040] 參考圖1,已經提供了本文公開的癌癥測試技術的概要,參考圖2-圖5描述了 WGS 比較度量計算操作30和分類器操作32的一些具體實施例。
[0041] 參考圖2,描述了 WGS比較度量計算操作30的第一實施例3〇i和分類器操作32 的第一實施例32i。通過單獨對所有樣本(如果超過一個)進行測序,將可疑WGS 20創建 為用于基礎質量的相同的覆蓋度和相同的閾值,所述基礎質量應用于選擇針對相等數量的 組織樣本的讀數。每個組織樣本的讀數被存儲在概率數據結構中,如布隆過濾器(Bloom filters)。在操作50中,從可疑WGS 20中移除重復的讀數,并且在相似的操作52中,從正常 WGS 22移除中重復的讀數。預計來自正常細胞的讀數不像來自癌細胞的讀數那樣多的重 復,這反映出與正常細胞相比,預計癌細胞有更高數量的插入。因此,在重復讀數移除操作 50、52中,由適當的度量量化被移除的重復讀數的量,諸如,在可疑WGS 20情況下重復的讀 數的百分比54,以及在正常WGS 22情況下重復的讀數的百分比56。基于針對正常樣本的百 分比56 (這里假設存在多個正常組織樣本,其中每個正常組織樣本均已經被獨立測序),為 正常細胞找到閾值。在一些實施例中,盡管基于經測量的重復值56預期更高或更低的值, 但是針對正常細胞預計閾值為重復讀數的10-15%。在操作58處,計算百分比54、56的比 率。可以將高于(比如,超過20%,對應于主要包括重復插入的致癌作用)或低于(比如, 小于10%,對應于主要包括缺失的致癌作用)"正常"百分比56的任何截止點與癌癥相關 聯。分類器32i然后確定操作58中計算的比率是否滿足定義的癌癥標準,所述癌癥標準在 本文中由前述的截止值勾勒。
[0042] 參考圖2描述的WGS比較度量計算操作3〇i能夠充當針對不要求事先比對基因組 的癌癥的快速計算機篩選測試。有效地實施重復讀數檢測的一種方式是通過使用布隆過濾 器。布隆過濾器包括被初始化為0的位的陣列,以及將測序讀數映射到陣列位中的一個的 散列函數的集合。為了向布隆過濾器添加讀數,由所有的散列函數對讀數進行散列化并且 設置輸出位。為了檢查是否已經向布隆過濾器添加了給定讀數(亦即,執行查詢),使用相 同的處理,除了檢查每個輸出位,以看其是否是1或0,如果任何被檢查的位被設置為0,則 已知讀數還未(尚未)被添加到布隆過濾器,并且在檢查之后合適地添加操作,以向濾波器 添加讀數。參見"Bloom Filter",http://en. wikipedia. org/wiki/Bloom_filter(最后訪 問于2011年9月23日)。
[0043] 布隆過濾器的屬性是其絕不會在讀數實際上在布隆過濾器中時錯誤地指示讀數 不在布隆過濾器中;然而,當布隆過濾器中沒有讀數時,存在布隆過濾器指示讀數在濾波器 中的可能性。Id。如果其他添加操作已經設置應當已經通過添加查詢的讀數而被設置的所 有位,使得即使查詢的讀數實際未被添加到布隆過濾器,查詢返回全部1,會發生這種情況。 然而,對于本申請而言,這樣的誤差不是特別顯著,這是因為這將僅僅導致重復讀數的數目 被高估(由于在第一次檢查讀數時,在讀數不重復時將顯示為重復;其后,該讀數檢查的任 何重復將實際是重復,并且將這樣被正確地認出)。此外,通過調節陣列中的位的數目和散 列函數的數目,能夠對布隆過濾器進行精細調諧,以獲得需要的準確度和報告花費的時間。
[0044] 圖2的WGS比較度量3〇i計算快速,但是不使用來自WGS 20、22的很多信息。
[0045] 參考圖3,描述了 WGS比較度量計算操作30的第二實施例302和分類器操作32的 第二實施例3?,它們更多地使用了可獲得的信息。如在圖2的實施例中那樣執行操作50, 以便從可疑WGS中移除重復讀數。在正常WGS側,在操作60中,讀數被鍵入到布隆過濾器 中,以創建表示正常WGS22的讀數的布隆過濾器62。如前所述,這具有從正常WGS中移除所 有重復的效果。在操作64中,對照布隆過濾器62查詢可疑WGS的每個讀數,以便確定讀數 是否是正常WGS 22的一部分。累積特定讀數,亦即,對可疑WGS 20而言是特定的并且不包 括在正常WGS 22中的讀數,作為對可疑WGS而言是特定的讀數66的集合。
[0046] 在執行操作64時,布隆過濾器絕不會在讀數實際上在濾波器中時錯誤地指示讀 數不在濾波器中的性質確保了,特定讀數66的集合不包括作為正常WGS的一部分的任何讀 數。然而,有可能由于布隆過濾器62能夠在讀數不在濾波器中時錯誤地指出讀數在濾波器 中,通過操作64會錯誤地過濾掉一些特定讀數。由此,能夠確信,讀數66全部對可疑WGS 20而言是特定的,盡管可能已經丟失了一些特定讀數。
[0047] 特定讀數66的集合能夠被看作WGS比較度量,或者備選地,能夠從集合66導出 WGS比較度量。在圖3的圖示實施例中,從集合66導出WGS比較度量,作為充當分類器322 的輸入的特定讀數的量(優選地,由可疑WGS 20中的讀數的總數或由經由操作50在移除 重復之后的可疑WGS 20中的讀數的總數對特定讀數的量進行歸一化)。另一適當的WGS比 較度量是對可疑WGS 20而言特定的讀數66的總比對長度與可疑WGS 20的總基因組長度 的比率(任選地,在按照操作50移除重復之后)。該WGS比較度量是癌癥基因組中經受的 總變化的有效度量(假設可疑組織確實是癌癥),并且能夠由分類器32 2應用,以取代特定 讀數量。
[0048] 備選地,還是如圖3所示,作為備選的決策操作3222,能夠將特定讀數66進行比對 并且與已知的癌癥變異體比較。在該途徑中,在布隆過濾器62中收集正常WGS 22的特定 讀數(重復已被移除)。如果存在多個正常組織樣本,能夠按照操作60通過將來自所有樣 本的所有正常WGS讀數鍵入布隆過濾器62中,在布隆過濾器62中蓄存它們。由此,布隆過 濾器62表示讀數的"正常集合"。將該"正常集合"與作為可疑WGS 20的特定讀數(按照 操作50)獲得的讀數的"癌癥集合"進行比較。同樣地,如果對多個可疑組織樣本進行測序, 則能夠蓄存來自這些多個樣本的讀數。(這里,布隆過濾器是不合適的,這是因為不存在從 布隆過濾器重新調用讀數的方式--僅可能查詢給定的讀數是否在布隆過濾器中)。也發 生在"正常集合"中的"癌癥集合"的讀數(亦即,與來自多個可疑組織樣本(如果提供的 話)的讀數的蓄存一起的操作50的輸出)被丟棄(再次地,這是在操作64中通過對照布 隆過濾器62進行查詢來實施的)。預計剩余的特定讀數66是"原因集合",這是因為它們包 含與癌癥特異性關聯的變異體。在備選分類器3 222中,使這些特定讀數66經受重新比對, 以便識別單核甘酸多態性(SNP)、Indels (插入或缺失)或其他基因變異體,并且將經識別 的變異體與文獻中已知的癌癥相關的變異體進行比較。在該實施例中,使用WGS比較度量 (在該實施例中是特定讀數66的實際集合)能夠實現顯著更快地處理,這是因為大多數基 因組沒有被比對并搜索檢驗變異體。相反地,僅有那些不是標準參考序列的部分并且不是 經歷試驗的特異性對象6的正常基因組的變異體的讀數66被比對并搜索。
[0049] 在圖3的途徑中,僅對特定讀數66的集合執行比對。然而,即使執行可疑WGS 20 和正常WGS 22的比對,通過采用WGS比較度量也能夠實現相當大的效益增益,所述WGS比 較度量包括對可疑WGS 20來說特定的變異體集合或是從其計算得到的。
[0050] 參考圖4,在操作70中,將可疑WGS 20與標準參考序列進行比對,以產生具有被標 記的變異體的比對可疑WGS 72。類似地,在操作74中,將正常WGS 22與標準參考序列進行 比對,以產生具有被標記的變異體的經比對的正常WGS 76。比對70優選是"松散"比對,亦 艮P,以較不嚴格的方式執行比對,以免拒絕新的變異體作為誤差,如果可疑組織樣本10實 際上是癌癥樣本,則預計會存在新的變異體。在操作78中,對照經比對的正常WGS 76的變 異體過濾經比對的可疑WGS 72的變異體,以識別對可疑WGS 20來說特定的變異體的集合。 WGS比較度量包括特定變異體的該集合或是基于特定變異體的該集合來計算的。
[0051] 在一種途徑中,WGS比較度量包括僅在可疑WGS中發現的特定變異體的量(同樣 地,任選地由經比對的可疑WGS 72中的變異體的總數或由另一歸一化因子進行歸一化)。 在圖示的范例中,該WGS比較度量充當到分類器323的輸入,所述分類器32 3將僅在可疑WGS 中發現的特定變異體的量與適當的癌癥標準進行比較。通常,可疑WGS 20中的更大數量的 特定變異體趨向于暗示癌癥,并且因此分類器323采用的癌癥標準合適地是閾值,超過該閾 值,則可疑組織樣本20被標記為癌癥。
[0052] 在也被描繪為圖4中備選的分類器3 2 33的另一途徑中,根據基于文獻評估的影響 水平對僅在可疑WGS 20中發現的特定變異體進行排序。例如,將致癌基因和腫瘤抑制基因 處或附近的畸變評估為具有高度影響,它們增加了端粒的長度。對三等位基因和四等位基 因的單核甘酸變異體(SNV)進行適當地制表,以識別暗示局部多個腫瘤細胞群體的模式。
[0053] 參考圖5,描述了 WGS比較度量計算操作30的第四實施例304。該實施例同樣采 用比對操作70、74,以生成經比對的可疑WGS和正常WGS 72、76。在該實施例中,在操作80 中,將通過比對操作70、74生成的比對統計數據用公式表示為WGS比較度量。預計各種比 對統計數據會有效地區分癌癥WGS與正常WGS。發明人已經觀察到,與正常WGS相比,表1 的四個特征在癌癥WGS中通常是顯著不同的。預期的有效用于辨別這些細胞類型的其他參 數包括斷開的對末端、未發現的對、對取向等。
[0054] 繼續參考圖4和圖5并且進一步返回參考圖1,值得注意的是,具有被標記的變異 體(相對應標準參考基因組)的經比對的可疑WGS 72對應于圖1中示出的操作40的輸 出。因此,如果有條件地根據輸出癌癥36的結果的測試30、32執行基于變異體的分析40、 42、44、46,則能夠省略操作40,并且經比對的可疑WGS 72能夠被直接輸入到操作42。
[0055] 表1 :正常讀數和癌癥讀數中觀察到的讀數參數
[0056]
【權利要求】
1. 一種方法,包括: 處理從對象(6)采集的可疑組織樣本(10),以生成可疑全基因組序列(20); 處理從所述對象采集的正常組織樣本(12),以生成正常全基因組序列(22); 計算(30)將所述可疑全基因組序列與所述正常全基因組序列進行比較的全基因組序 列比較度量;以及 基于經計算的全基因組序列比較度量來識別(32)所述可疑組織樣本是否包括癌癥組 織。
2. 如權利要求1所述的方法,其中,所述識別(32)不包括識別所述組織樣本是否包括 任何具體類型的癌癥組織。
3. 如權利要求1所述的方法,其中,所述識別(32)不包括識別所述可疑全基因組序列 中的任何特異性基因變異體。
4. 如權利要求1-3中的任一項所述的方法,其中,所述識別(32)包括: 基于所述經計算的全基因組序列比較度量將所述組織樣本標記為癌癥組織或正常組 織。
5. 如權利要求1-4中的任一項所述的方法,其中,所述計算(30J包括: 計算所述可疑全基因組序列(20)中的重復讀數的度量(54); 計算所述正常全基因組序列(22)中的重復讀數的度量(56);以及 基于所述可疑全基因組序列中的重復讀數的所述度量和所述正常全基因組序列中的 重復讀數的所述度量來計算所述全基因組序列比較度量。
6. 如權利要求1-4中的任一項所述的方法,其中,所述計算(302)包括: 確定可疑基因組特異性讀數的集合(66),所述可疑基因組特異性讀數(i)被包含在所 述可疑全基因組序列(20)中,并且(ii)不被包含在所述正常全基因組序列(22)中; 其中,所述全基因組序列比較度量包括可疑基因組特異性讀數的所述集合(66),或基 于可疑基因組特異性讀數的所述集合(66)來計算所述全基因組序列比較度量。
7. 如權利要求1-4中的任一項所述的方法,其中,所述計算(303)包括: 通過將所述可疑全基因組序列(20)與參考序列進行比對(70)來識別可疑基因組變異 體的集合; 通過將所述正常全基因組序列(22)與所述參考序列進行比對(74)來識別正常基因組 變異體的集合;以及 識別(78)變異體的集合,所述變異體(i)被包含在可疑基因組變異體的所述集合中, 并且(ii)不被包含在正常基因組變異體的所述集合中。
8. 如權利要求1-4中的任一項所述的方法,其中,所述計算(304)包括: 將所述可疑全基因組序列(20)與參考序列進行比對(70); 將所述正常全基因組序列(22)與所述參考序列進行比對(74);以及 基于用于比對所述可疑全基因組序列的比對統計數據與用于比對所述全基因組序列 的比對統計數據的比較來計算所述全基因組序列比較度量(80)。
9. 一種存儲指令的非暫態存儲介質,所述指令可由電子數據處理設備(24)執行以執 行如權利要求1-8中的任一項所述的方法。
10. -種裝置,包括: 電子數據處理設備(24),其被配置為執行如權利要求1-8中的任一項所述的方法。
11. 如權利要求1-8中的任一項所述的方法,還包括: 在腫瘤(100)中或腫瘤(100)附近的多個采樣位置處采集來自所述對象(6)的組織樣 本(104); 記錄所述采樣位置; 針對每個組織樣本執行所述處理、計算和識別;以及 基于所述識別和所記錄的采樣位置來勾勒所述腫瘤的邊界(110)。
12. -種方法,包括: 基于所述組織樣本的基因測試,將在對應于癌癥的腫瘤(100)中或腫瘤(100)附近的 采樣位置處從對象(6)采集的組織樣本(104)進行分類;以及 基于所述分類和對采集所述樣本的所述采樣位置的了解,勾勒所述腫瘤的邊界(110)。
13. 如權利要求12所述的方法,其中,所述分類包括: 將所述組織樣本(104)的基因內容與所述對象的正常組織(108)的基因內容進行比 較,其中,所述分類不包括將所述組織樣本(104)的基因內容與臨床研究中已經表明與癌 癥的類型相關的基因變異體進行比較。
14. 一種方法,包括: 在腫瘤(100)中或腫瘤(100)附近采集來自對象¢)的多個檢驗組織樣本(104); 記錄所述檢驗組織樣本的所述采樣位置; 基于所述檢驗組織樣本的基因測試,將對應于癌癥的每個檢驗組織樣本進行分類;以 及 基于所述檢驗組織樣本的分類和所記錄的采樣位置,勾勒所述腫瘤的邊界(110)。
15. 如權利要求14所述的方法,還包括: 在有效確保所述正常組織樣本不包括癌癥組織的位置處采集來自所述對象(6)的正 常組織樣本(108); 其中,每個檢驗組織樣本(104)的所述分類包括將所述檢驗組織樣本的基因內容與所 述正常組織樣本的基因內容進行比較。
【文檔編號】G06F19/18GK104106072SQ201280069231
【公開日】2014年10月15日 申請日期:2012年11月29日 優先權日:2011年12月8日
【發明者】B·查克拉巴蒂, R·辛格, S·庫馬爾 申請人:皇家飛利浦有限公司