核酸重復序列計數的自動調用方法
【專利摘要】本公開涉及用于測定包含核酸重復序列區的DNA片段中核酸重復序列數目的方法。一個示例方法可以包括:接收通過解析DNA擴增產物生成的DNA大小和豐度數據。可以通過將低通濾波器應用于DNA大小和豐度數據來生成一組低通數據,可以通過將帶通濾波器應用于DNA大小和豐度數據來生成一組帶通數據。可以基于從低通數據和帶通數據鑒別的峰來鑒別代表DNA中核酸重復序列數目的DNA大小和豐度數據中的峰。
【專利說明】核酸重復序列計數的自動調用方法
[0001] 相關申請的交叉引用
[0002] 本申請要求于2013年11月13日提交的題為"核酸重復序列計數的自動調用方法" 的美國臨時序列號61/903847和于2013年11月14日提交的題為"核酸重復序列計數的自動 調用方法"的美國臨時序列號61/904439的優先權,其全部內容通過引用并入本文用于所有 目的。
[0003] 領域
[0004] 下面的公開一般涉及確定基因型,更具體地涉及確定與核酸重復序列相關的基因 型。
[0005] 背景
[0006] 核酸重復序列與各種疾病相關。例如,在FMR1基因(0ΜΠ #309550)的5'UTR中CGG三 聯體重復序列的擴展與智力遲鈍最常見的遺傳形式脆性X綜合征(FXS,0M頂#300624)相關。 這種重復序列擴展到全突變范圍(>200個重復序列)引發FMR1的甲基化和轉錄沉默,導致 FXS。在"正常"范圍(5-44個重復序列)內,重復序列在幾代之間是穩定的;中間的等位基因 (45-54個重復序列)需要至少兩代擴展到全突變;前突變等位基因(55-200個重復序列)當 從母親傳給她的孩子時可以擴展到全突變。由于擴增長的三聯體重復序列的難度,對于FXS 攜帶者狀態的傳統測試依賴于Southern印跡法來檢測擴展的CGG重復序列。聚合酶鏈式反 應(PCR)方法的最新進展允許以相當于Southern印跡法的精度和靈敏度來檢測這些重復序 列。PCR產物的毛細管電泳使得量化CGG重復序列計數成為可能,但需要費力的峰調用和計 數。
[0007] 概述
[0008] 本公開涉及用于測定包含核酸重復序列區(例如,CGG富集區)的DNA片段中核酸重 復序列(例如,CGG重復序列)數目的方法。一個實例方法可以包括:接收通過解析DNA擴增產 物生成的DNA大小和豐度數據。可以通過將低通濾波器應用于DNA大小和豐度數據來生成一 組低通數據,可以通過將帶通濾波器應用于DNA大小和豐度數據來生成一組帶通數據。可以 基于從低通數據和帶通數據鑒別的峰來鑒別代表DNA中核酸重復序列數目的DNA大小和豐 度數據中的一個或多個峰。
[0009] 因此,在一個方面,本公開提供了測定包含核酸重復序列區的DNA片段中核酸重復 序列數目的方法。這些方法可以包括將DNA序列的高頻信號與低頻信號分離,以使混合的引 物ig號去卷積。
[0010] 在另一個方面,提供了確定與涉及個體中核酸重復序列的疾病相關的基因型的方 法。這種方法有利于例如評估個體作為疾病等位基因攜帶者的風險,以及個體有患有這種 疾病的兒童的概率。
[0011]還提供了用于執行這些方法的系統和非臨時性計算機可讀存儲介質。
[0012] 本文描述的所有參考文獻通過引用整體并入本文。
[0013] 附圖簡要說明
[0014] 圖1示出用于測定根據各種實施例的基因中核苷酸序列的重復序列數目的示例性 方法。
[0015] 圖2示出顯示通過對示例性電泳痕跡采樣而生成的信號或一組數據的曲線圖,其 中X軸標準化為CGG重復序列計數。
[0016] 圖3示出顯示低通和帶通過濾圖2所示的信號或一組數據的結果的曲線圖。
[0017] 圖4示出用于確定根據各種實施例的基因中核苷酸序列的重復序列數目的示例計 算系統。
[0018] 圖5示出60個表征的Coriell樣本的驗證和性能。
[0019] 圖6示出通過自報種族劃分的等位基因大小分布的對數級直方圖。
[0020] 圖7示出通過種族劃分的等位基因大小的累積分布。
[0021] 圖8示出大等位基因的分布。
[0022] 詳述
[0023]計算核酸重復序列的方法
[0024]在一個方面,本公開提供了測定包含核酸重復序列區的DNA片段中的核酸重復序 列數目的計算機實現方法。在一些實施方案中,提供了一種測定包含核酸重復序列區的DNA 片段中核酸重復序列數目的計算機實現方法,該方法包括:a)將低通濾波器和帶通濾波器 應用于DNA擴增產物的DNA大小和豐度數據以生成一組低通數據和一組帶通數據,該DNA擴 增產物是通過使用引物組由包含核酸重復序列區的DNA片段生成,該引物組包括識別核酸 重復序列區的第一引物和識別核酸重復序列區外部的區域的第二引物;b)基于低通數據和 帶通數據鑒別一個或多個終峰,其中該一個或多個終峰代表核酸重復序列區中的核酸重復 序列的數目。在一些實施方案中,該引物組還包括識別核酸重復序列區外部的區域(其位于 第二引物所識別的區域的對側)的第三引物,其中第二引物和第三引物允許包含整個核酸 重復序列區的區域的擴增。在一些實施方案中,核酸重復序列為2、3、4、5、6、7、8、9、10或更 多個核苷酸的重復序列。在一些實施方案中,核酸重復序列是三核苷酸重復序列,包括但不 限于 CGG、GCC、GAA、CTG 和 CAG。
[0025]在一些實施方案中,提供了一種用于測定包含核酸重復序列區的DNA片段中的核 酸重復序列數目的計算機實現方法,該方法包括:a)由一個或多個處理器接收DNA擴增產物 的DNA大小和豐度數據,該DNA擴增產物是通過使用引物組由包含核酸重復序列區的DNA片 段生成,該引物組包括識別核酸重復序列區的第一引物和識別核酸重復序列區外部的區域 的第二引物;b)由一個或多個處理器通過以采樣頻率對DNA大小和豐度數據進行采樣而生 成一組樣本數據;c)由一個或多個處理器通過將低通濾波器應用于該組樣本數據而生成一 組低通數據;d)由一個或多個處理器通過將帶通濾波器應用于該組樣本數據而生成一組帶 通數據;e)由一個或多個處理器鑒別低通數據中的一個或多個峰;f)由一個或多個處理器 鑒別帶通數據中的一個或多個峰;和g)基于低通數據中的一個或多個峰和帶通數據中的一 個或多個峰,由一個或多個處理器鑒別代表核酸重復序列數目的最終峰。在一些實施方案 中,該引物組還包括識別核酸重復序列區外部的區域(其位于第二引物所識別的區域的對 偵U的第三引物,其中第二引物和第三引物允許包含整個核酸重復序列區的區域的擴增。 [0026]在一些實施方案中,提供了一種用于確定包含CGG富集區的DNA片段中CGG重復序 列數目的計算機實現方法,該方法包括:a)由一個或多個處理器接收DNA擴增產物的DNA大 小和豐度數據,該DNA擴增產物是通過使用引物組由包含CGG富集區的DNA片段生成,該引物 組包括識別CGG富集區的第一引物和識別CGG富集區外部的區域的第二引物;b)由一個或多 個處理器通過以采樣頻率對DNA大小和豐度數據進行采樣而生成一組樣本數據;c)由一個 或多個處理器通過將低通濾波器應用于該組樣本數據而生成一組低通數據;d)由一個或多 個處理器通過將帶通濾波器應用于該組樣本數據而生成一組帶通數據;e)由一個或多個處 理器鑒別低通數據中的一個或多個峰;f)由一個或多個處理器鑒別帶通數據中的一個或多 個峰;和g)基于低通數據中的一個或多個峰和帶通數據中的一個或多個峰,由一個或多個 處理器鑒別代表包含CGG富集區的DNA片段中CGG重復序列數目的最終峰。在一些實施方案 中,該引物組還包括識別CGG富集區外部的區域(其位于第二引物所識別的區域的對側)的 第三引物,其中第二引物和第三引物允許包含整個核酸重復序列區的區域的擴增。
[0027] 在根據上述任何方法的一些實施方案中,該方法還包括在步驟a)之前解析DNA擴 增產物以生成DNA大小和豐度數據。解析可通過例如毛細管電泳進行。在一些實施方案中, 電泳圖是通過毛細管電泳生成的。
[0028] 在根據上述任何方法的一些實施方案中,該方法還包括在步驟b)之前由一個或多 個處理器將DNA大小和豐度數據從采樣(例如,時間)域轉換為堿基對長度域。在一些實施方 案中,使用DNA梯帶將DNA大小和豐度數據從時域轉換到堿基對長度域。
[0029] 在一些實施方案中,采樣頻率相當于每個堿基對2、3、4、5、6或更多樣本的任一個。
[0030] 在根據上述任何方法的一些實施方案中,通過以采樣頻率對DNA大小和豐度數據 采樣而生成一組樣本數據,包括:生成DNA大小和豐度數據的線性內插;和以采樣頻率對DNA 大小和豐度數據的線性內插進行采樣。在其他實施方案中,通過以采樣頻率對DNA大小和豐 度數據采樣而生成一組樣本數據,包括:生成DNA大小和豐度數據的三次樣條內插;和以采 樣頻率對DNA大小和豐度數據的三次樣條內插進行采樣。在其他實施方案中,通過以采樣頻 率對DNA大小和豐度數據采樣而生成一組樣本數據,包括:生成DNA大小和豐度數據的零階 保持/最鄰近內插;和以采樣頻率對DNA大小和豐度數據的零階保持/最鄰近內插進行采樣。 [0031 ]在根據上述任何方法的一些實施方案中,帶通濾波器具有為奈奎斯特頻率的1/13 的低截止頻率(例如,兩倍采樣頻率)和為奈奎斯特頻率的1/11的高截止頻率。在根據上述 任何方法的其他實施方案中,帶通濾波器可以具有為奈奎斯特頻率的1/14、1/15、1/16或1/ 17的任一個的低截止頻率和為奈奎斯特頻率的1/10、1/9、1/8或1/7的任一個的高截止頻 率。根據采樣頻率和核酸重復序列的周期可使用其他頻率。
[0032]在根據上述任何方法的一些實施方案中,低通濾波器具有奈奎斯特頻率乘以5.0* 10-6的截止頻率。在根據上述任何方法的其他實施方案中,低通濾波器可具有奈奎斯特頻率 乘以8.0X10- 6至2.0X10-6之間的截止頻率,如奈奎斯特頻率乘以8.0*10-6、7.0*10- 6、6.0* 10-6、4· 0*10-6、3.0*10-6或 2.0*10-6 的任一個。
[0033] 在根據上述任何方法的一些實施方案中,低通濾波器和帶通濾波器是使用漢明窗 口實現的零相位有限脈沖響應(FIR)濾波器。
[0034] 在根據上述任何方法的一些實施方案中,該組樣本數據包括代表核酸重復序列區 (如CGG富集區)的核酸重復系列(如CGG系列)和包含核酸重復序列區(如CGG富集區)的DNA 片段的全長擴增子的組合的信號,該組帶通數據包括代表核酸重復序列區(如CGG富集區) 的核酸重復系列(如CGG系列)的信號,該組低通數據包括代表包含核酸重復序列區(如CGG 富集區)的DNA片段的全長擴增子的信號。
[0035]在根據上述任何方法的一些實施方案中,確定代表包含核酸重復序列區(如CGG富 集區)的DNA片段中的核酸重復序列(如CGG重復序列)數目的最終峰,包括一個或多個步驟: 從在低通數據中的一個或多個峰中除去寬度小于4.5個堿基對且高度小于閾值的峰;從帶 通數據中的一個或多個峰中除去寬度小于4.5個堿基對且高度小于閾值的峰;從帶通數據 中的一個或多個峰中除去高度小于具有較大堿基對長度的相鄰峰的高度的峰;響應于低通 數據中的一個或多個峰中的某一峰,其高度小于帶通數據中的一個或多個峰中的某一峰的 高度,且其在低通數據的一個或多個峰的3個堿基對內,將低通數據中的一個或多個峰的某 一峰的中心設定為帶通數據中的一個或多個峰的某一峰的中心,將低通數據中的一個或多 個峰的某一峰的邊界設定為低通數據中的一個或多個峰的某一峰和帶通數據中的一個或 多個峰的某一峰的并集(union);將低通數據中的一個或多個峰中和帶通數據中的一個或 多個峰中堿基對長度大于165個堿基對且在彼此的30個堿基對內的峰合并;并將低通數據 中的一個或多個峰中和帶通數據中的一個或多個峰中堿基對在15個內且其高度相差大于 兩倍的峰合并;其中低通數據中的一個或多個峰的其余峰是最終峰。
[0036]在一些實施方案中,該DNA片段包含CGG富集區。在一些實施方案中,包含CGG富集 區的DNA片段是脆性X智力遲鈍1基因(FMR1)的5'-UTR。在一些實施方案中,包含CGG富集區 的DNA片段是脆性X智力遲鈍2基因(FMR2)的5 '-UTR。在一些實施方案中,第一引物包含至少 1、2、3、4、5、6、7或8個CGG或CCG重復序列。
[0037]在一些實施方案中,該DNA片段包含CAG富集區。在一些實施方案中,包括CAG富集 區的DNA片段在蛋白質的編碼區中。在一些實施方案中,第一引物包含至少1、2、3、4、5、6、7 或8個CAG或CTG重復序列。
[0038] 測定與疾病相關的基因型的方法
[0039] 在一些實施方案中,提供了一種用于測定與涉及個體中的核酸重復序列的疾病 (如遺傳病)相關的基因型的計算機實現方法,該方法包括:a)使用引物組執行DNA擴增反 應,該引物組包括識別疾病基因上核酸重復序列區的第一引物和識別疾病基因上核酸重復 序列區外部的區域的第二引物;b)解析DNA擴增產物以獲得DNA大小和豐度數據;c)將低通 濾波器和帶通濾波器應用于DNA大小和豐度數據,以鑒別代表疾病基因上含有核酸重復序 列區中的核酸重復序列數目的峰;以及d)基于所鑒別的峰測定該個體的基因型。在一些實 施方案中,該引物組還包括識別核酸重復序列區外部的區域(其位于第二引物所識別的區 域的對側)的第三引物,其中第二引物和第三引物允許包含整個核酸重復序列區的區域的 擴增。
[0040] 在一些實施方案中,提供了一種用于測定與個體脆性X綜合征相關的基因型的計 算機實現方法,該方法包括:a)使用引物組執行DNA擴增反應,該引物組包括識別FMR1基因 的5 ' UTR上的CGG富集區的第一引物和識別FMR1基因的5 ' UTR上的CGG富集區外部的區域的 第二引物;b)解析DNA擴增產物以獲得DNA大小和豐度數據;c)將低通濾波器和帶通濾波器 應用于DNA大小和豐度數據,以鑒別代表FMR1基因的5 'UTR上的CGG富集區中的CGG重復序列 數目的峰;以及d)基于所鑒別的峰確定該個體的基因型。在一些實施方案中,該引物組還包 括識別CGG富集區重復序列外部的區域(其位于第二引物所識別的區域的對側)的第三引 物,其中第二引物和第三引物允許包含整個CGG富集區的區域的擴增。
[0041] 在根據上述任何方法的一些實施方案中,解析可通過毛細管電泳進行并可以產生 電泳圖。
[0042]在根據上述任何方法的一些實施方案中,該方法還包括在步驟c)之前由一個或多 個處理器將DNA大小和豐度數據從采樣(例如,時間)域轉換為堿基對長度域。
[0043]在根據上述任何方法的一些實施方案中,使用DNA梯帶將DNA大小和豐度數據從時 間域轉換到堿基對長度域。
[0044] 在根據上述任何方法的一些實施方案中,該方法還包括以采樣頻率對DNA大小和 豐度數據進行采樣,并且其中將低通濾波器和帶通濾波器應用于DNA大小和豐度數據包括 將低通濾波器和帶通濾波器應用于采樣的DNA大小和豐度數據。
[0045] 在根據上述任何方法的一些實施方案中,采樣頻率相當于每個堿基對2、3、4、5、6 或更多樣本的任一個。
[0046] 在根據上述任何方法的一些實施方案中,通過以采樣頻率對DNA大小和豐度數據 采樣而生成一組樣本數據,包括:生成DNA大小和豐度數據的線性內插;和以采樣頻率對DNA 大小和豐度數據的線性內插進行采樣。在其他實施方案中,通過以采樣頻率對DNA大小和豐 度數據采樣而生成一組樣本數據,包括:生成DNA大小和豐度數據的三次樣條內插;和以采 樣頻率對DNA大小和豐度數據的三次樣條內插進行采樣。在其他實施方案中,通過以采樣頻 率對DNA大小和豐度數據采樣而生成一組樣本數據,包括:生成DNA大小和豐度數據的零階 保持/最鄰近內插;和以采樣頻率對DNA大小和豐度數據的零階保持/最鄰近內插進行采樣。
[0047] 在根據上述任何方法的一些實施方案中,帶通濾波器具有為奈奎斯特頻率的1/13 的低截止頻率(例如,兩倍采樣頻率)和為奈奎斯特頻率的1/11的高截止頻率。在根據上述 任何方法的其他實施方案中,帶通濾波器可以具有為奈奎斯特頻率的1/14、1/15、1/16或1/ 17中任一個的低截止頻率和為奈奎斯特頻率的1/10、1/9、1/8或1/7中任一個的高截止頻 率。根據采樣頻率和核酸重復序列的周期可使用其他頻率。
[0048]在根據上述任何方法的一些實施方案中,低通濾波器具有奈奎斯特頻率乘以5.0* 10-6的截止頻率。在根據上述任何方法的其他實施方案中,低通濾波器可具有奈奎斯特頻率 乘以8.0X10- 6至2.0X10-6之間的截止頻率,如奈奎斯特頻率乘以8.0*10-6、7.0*10- 6、6.0* 10-6、4 · 0*10-6、3 · 0*10-6或 2 · 0*10-6 中的任一個。
[0049] 在根據上述任何方法的一些實施方案中,低通濾波器和帶通濾波器是使用漢明窗 口實現的零相位有限脈沖響應(FIR)濾波器。
[0050] 在根據上述任何方法的一些實施方案中,DNA大小和豐度數據包括代表FMR1基因 的CGG系列和FMR1基因的5'UTR的全長擴增子的組合的信號,該組帶通數據包括代表FMR1基 因的CGG系列的信號,該組低通數據包括代表FMR1基因的5'UTR的全長擴增子的信號。
[00511在根據上述任何方法的一些實施方案中,鑒別代表FMR1基因的5'UTR上的CGG富集 區中的CGG重復序列數目的峰,包括:從在低通濾波器輸出中的一個或多個峰中除去寬度小 于4.5個堿基對且高度小于閾值的峰;從帶通濾波器數據輸出中的一個或多個峰中除去寬 度小于4.5個堿基對且高度小于閾值的峰;從帶通濾波器輸出中的一個或多個峰中除去高 度小于具有較大堿基對長度的相鄰峰的高度的峰;響應于低通濾波器輸出中的一個或多個 峰中的某一峰,其高度小于帶通濾波器輸出中的一個或多個峰中的某一峰的高度,且其在 低通濾波器輸出的一個或多個峰的3個堿基對內,將低通濾波器輸出中的一個或多個峰的 某一峰的中心設定為帶通濾波器輸出中的一個或多個峰的某一峰的中心,將低通濾波器輸 出中的一個或多個峰的某一峰的邊界設定為低通濾波器輸出中的一個或多個峰的某一峰 和帶通濾波器輸出中的一個或多個峰的某一峰的并集;將低通濾波器輸出中的一個或多個 峰中和帶通濾波器輸出中的一個或多個峰中堿基對長度大于165個堿基對且在彼此的30個 堿基對內的峰合并;和將低通濾波器輸出中的一個或多個峰中和帶通濾波器輸出中的一個 或多個峰中堿基對在15個內且其高度相差大于兩倍的峰合并;其中低通濾波器輸出中的一 個或多個峰的其余峰是最終峰。
[0052]核酸重復序列病癥攜帶者的確定
[0053]上面描述的方法可用于確定個體是否為涉及核酸重復序列(本文稱為"核酸重復 序列病癥")的疾病(如遺傳病)的攜帶者。
[0054]在一些實施方案中,核酸重復序列病癥選自下組:脆性X、弗里德賴希共濟失調、肌 強直性營養不良、DRPLA(齒狀核紅核蒼白球路易體萎縮)、HD(亨廷頓氏病)、SBMA(脊延髓肌 萎縮癥或肯尼迪病)、SCA1(脊髓小腦性共濟失調1型)、SCA2(脊髓小腦性共濟失調2型)、 SCA3(脊髓小腦性共濟失調3型或馬查多-約瑟夫病)、SCA6(脊髓小腦性共濟失調6型)、SCA7 (脊髓小腦性共濟失調7型)、SCA17(脊髓小腦性共濟失調17型)和脊髓小腦性共濟失調。 [0055]在一些實施方案中,核酸重復序列病癥是三核苷酸重復序列病癥。三核苷酸重復 序列病癥(也稱為三核苷酸重復序列擴展病癥,三聯體重復序列擴展病癥或密碼子重復序 列病癥)是一組由三核苷酸重復序列擴展引起的遺傳性疾病,一種其中某些基因中的三核 苷酸重復序列超過正常穩定的閾值的突變,其每個基因不同。該突變是在所有基因組序列 中發生的不穩定的微衛星重復序列的子集。如果重復序列存在于健康基因中,則動態突變 會增加重復序列計數,并導致有缺陷的基因。在一些實施方案中,三核苷酸重復序列病癥涉 及CAG重復序列,例如聚谷氨酰胺(polyQ疾病)。目前,已知有至少九種神經系統疾病是由 CAG重復序列數目增加導致的,通常位于其他不相關蛋白質的編碼區中。在蛋白質合成期 間,擴展的CAG重復序列被翻譯成一系列不間斷的谷氨酰胺殘基,形成所謂的多聚谷氨酰胺 尾巴("polyQ")。該多聚谷氨酰胺尾巴可以經受聚集的增加。表1中提供了各種polyQ疾病和 致病重復序列閾值。
[0056]表1.多聚谷氨酰胺(PolyQ)疾病
[0057]
[0058] 在一些實施方案中,三核苷酸重復序列病癥涉及CGG重復序列,例如脆性X綜合征 和脆性X相關的震顫/共濟失調綜合征。在一些實施方案中,三核苷酸重復序列病癥涉及GCC 病癥,例如脆性XE智力遲鈍。在一些實施方案中,三核苷酸重復序列病癥涉及GAA重復序列, 例如弗里德賴希共濟失調。在一些實施方案中,三核苷酸重復序列病癥涉及CTG重復序列, 例如肌強直性營養不良或脊髓小腦性共濟失調8型。在一些實施方案中,三核苷酸重復序列 病癥涉及在5 '末端的三個核苷酸,如脊髓小腦性共濟失調12型。表2中提供各種疾病和致病 重復序列閾值。
[0059] 表2.
[0060]
[0061]
[0062] 在一些實施方案中,該方法包括基于個體的基因型確定個體是否為脆性X綜合征 的攜帶者,其中FMR1基因的5'UTR上CGG富集區中5-44個重復序列之間的CGG重復序列數目 指示正常等位基因,FMR1基因的5'UTR上CGG富集區中45-54個重復序列之間的CGG重復序列 數目指示中間等位基因,FMR1基因的5 'UTR上CGG富集區中55-200個重復序列之間的CGG重 復序列數目指示前突變等位基因,并且其中FMR1基因的5'UTR上CGG富集區中大于200個重 復序列的CGG重復序列數目指示全突變等位基因。
[0063] 在一些實施方案中,該方法包括基于個體的基因型確定個體是否為亨廷頓氏病的 攜帶者,其中HTT基因的編碼區上的CAG富集區中少于約35個重復序列的CAG重復序列數目 指示正常等位基因,HTT基因的編碼區上的CAG富集區中30-60個重復序列之間的CAG重復序 列數目指示不完全外顯等位基因,HTT基因的編碼區上的CAG富集區中超過約40個重復序列 的CAG重復序列數目指不完全外顯等位基因。
[0064] 診斷涉及核酸重復序列的疾病的方法
[0065] 在一些實施方案中,提供了通過使用本文描述的任何一種方法診斷涉及核酸重復 序列的疾病的方法。
[0066]從包含核酸重復序列區的DNA擴增DNA的方法
[0067]本領域中公知從包含核酸重復序列區的DNA擴增DNA的方法,并已報道于以下文獻 中:例如Chen等,重復序列An Information-Rich CGG Repeat Primed PCR That Detects the Full Range of Fragile X Expanded Alleles and Minimizes the Need for Southern Blot Analysis,Journal of Molecular Diagnostics(2010)第12(5)卷,第589- 600頁;Alessandro Saluto等,An Enhanced Polymerase Chain Reaction Assay to Detect Pre-and Full Mutation Alleles of the Fragile X Mental Retardation lGene,Journal of Molecular Diagnostics(2005)第7(5)卷,第605-612頁;Feras M.Hantash等,重復序列Qualitative assessment of FMRl(CGG)n triplet repeat status in normal, intermediate ,permutation,full mutation,and mosaic carriers in both sexes:Implications for fragile X syndrome carrier and newborn screening,Genetics in Medicine(2010)12:162-173;Stela Flilipovic-Sadic等,A Novel FMR1PCR Method for the Routine Detection of Low Abundance Expanded Alleles and Full Mutations in Fragile X Syndrome,Clinical Chemistry(2010),% 56(3)卷,第399_4〇8頁;和Flora Tassone等,A rapid polymerase chain reation-based screening method for identification of all expanded alleles of the fragile X (FMRl)gene in newborn and high-risk populations,Journal of Molecular Diagn〇stiCS(2008)第10(1)卷,第43-49頁;其每一篇的內容均通過引用整體并入本文。擴 增核酸重復序列區的方法也描述在例如美國專利號7855053、美國專利號8409805和美國專 利公開號2010/0243451中,其每個的內容均通過引用整體并入本文。
[0068] 在一些實施方案中,第一引物包括至少1、2、3、4、5、6、7或8個CGG或CCG重復序列。 在一些實施方案中,第一引物還包括位于CCG區的5'的非CGG重復序列殘基。在一些實施方 案中,第一引物還包括位于CCG區的3'的非CGG重復序列殘基。
[0069]示例性方法
[0070] 在本公開的以下描述和實施例中,參考其中通過可以實施的說明性具體實施例顯 示的附圖。應該理解,在不背離本公開的范圍的情況下可以實施其他實施例并且可以進行 結構變化。
[0071] 本公開涉及用于測定包含CGG富集區的DNA中CGG重復序列數目的方法。一個示例 方法可以包括:接收通過解析DNA擴增產物生成的DNA大小和豐度數據。可通過將低通濾波 器應用于DNA大小和豐度數據生成一組低通數據,可通過將帶通濾波器應用于DNA大小和豐 度數據生成一組帶通數據。基于從低通數據和帶通數據鑒別的峰,可以鑒別代表DNA中CGG 重復序列數目的DNA大小和豐度數據的峰。
[0072] 圖1示出了用于測定根據各實施例的基因中核苷酸重復序列數目的示范性方法 100。本文的方法100被描述為測定包含CGG富集區的脫氧核糖核酸(DNA)中CGG的重復序列 數目。然而,應理解方法100同樣可以用于確定任何期望的基因中任何期望的核苷酸序列的 數目,以鑒定任何類型的核酸重復序列病癥。
[0073]在框102中,可以由計算設備的一個或多個處理器接收DNA大小和豐度數據。可通 過利用毛細管電泳(例如,生成電泳圖)等解析DNA擴增產物來生成大小和豐度數據。可以使 用引物組從DNA生成DNA擴增產物,該引物組包括識別CGG富集區的第一引物,識別CGG富集 區外部的區域的第二引物,以及識別CGG富集區外部的位于由第二引物識別的區域對側的 區域的第三引物。第一引物可以包括四個或更多個CGG或CCG重復序列,可進一步包括CGG富 集區外部的序列(如駐留在對CGG重復序列退火的引物部分的內部或端部的A或T)。在一些 實例中,包含CGG富集區的DNA可以包括脆性X智力遲鈍1基因(FMR1)的5 '-UTR。在這些實施 例中,第一引物可識別FMR1基因的5 ' -UTR上的CGG富集區,第二引物和第三引物可以識別 FMR1基因的5'-UTR上的CGG富集區外部及相對側的區域。在其他實例中,包含CGG富集區的 DNA可以包括脆性X智力遲鈍2基因(FMR2)的5 ' -UTR。在這些實施例中,第一引物可識別FMR2 基因的5 ' -UTR上的CGG富集區,第二引物和第三引物可以識別FMR2基因的5 ' -UTR上的CGG富 集區的外部及相對側的區域。應當理解,其他基因可以由DNA大小和豐度數據表示。
[0074]在一些實施例中,DNA大小和豐度數據可以包括具有熒光值的多個數據點以及該 數據點采樣的相關時間。在這些實施例中,DNA大小和豐度數據可以從時間域變換到堿基對 長度域。這可以使用具有已知長度的片段的DNA梯帶并通過將DNA大小和豐度數據的X值從 機器采樣時間轉換到堿基對長度來完成。在一些實施例中,與個體的DNA對應的DNA片段可 以用熒光染料例如FAM進行標記,與DNA梯帶對應的片段可以用不同的熒光染料例如R0X進 行標記。在一些實施例中,高FAM信號強度可能會在熒光檢測通道之間產生串擾,添加假峰 或移除真峰,阻礙R0X梯帶峰的自動檢測。在這些情況下,梯帶峰的預期位置上的先驗分布 可用于將觀察到的峰與先前使用的動態編程匹配,以同時分配峰和使用以下公式最小化峰 位置的方差:
[0076]在一些實施例中,用于生成DNA大小和豐度數據的機器的采樣間隔在堿基對長度 上可能不是線性的。在這些實施例中,一旦DNA大小和豐度數據被轉換成堿基對長度域,即 可使用線性內插、三次樣條內插或零階保持/最鄰近內插對DNA大小和豐度數據進行內插, 并采樣到恒定的分辨率。在一個實施例中,可以使用任何期望的分辨率,并且可以使用每個 堿基對四個樣本的采樣頻率。采樣的結果可以是一組數據或信號,其具有代表CGG富集區 (例如,FMR1基因的5 ' UTR)的CGG系列的第一組分和代表全長擴增子(例如,FMR1基因的5 ' UTR)的第二基因特異性組分。由于第一組分代表CGG系列,預計其具有3個堿基對或12個樣 本的周期。但是,預計第二組分將具有較長的周期或可能完全不是周期性的,因為預計該 DNA大小和豐度數據僅包括一個或少量全長擴增子,這取決于樣本接合性,這不太可能僅被 一個重復序列隔開。
[0077]圖2示出顯示通過對樣本電泳痕跡采樣而生成的信號或一組數據的曲線圖200,其 中X軸被標準化為CGG重復序列計數。如圖所示,該組數據或信號包括歸屬于該組數據或信 號的第一組分的第一部分202,該組數據或信號代表具有與連續較長的CGG重復序列對應的 遞減的一系列周期峰的CGG富集區的CGG系列。例如,初始峰(在最左邊)可對應于CGG 5重復 序列,在右邊的下一個峰可對應于CGG6重復序列等。由于擴增效率降低,第一部分202中的 峰的峰振幅會隨著部分復制子的重復序列長度的增加而降低。曲線圖200還示出具有第二 部分204的一組數據或信號,第二部分204歸屬于代表全長擴增子的該組數據或信號的第二 組分。
[0078] 返回參考圖1所示的方法100,在框104中,可將低通濾波器應用于DNA大小和豐度 數據,以生成與代表全長擴增子的DNA大小和豐度數據的第二組分對應的一組低通數據。如 上所述,DNA大小和豐度數據的第二組分的周期可以比第一組分的周期更長或可以完全不 是周期性的。因此,截止頻率高于第二組分的頻率的低通濾波器可用于將第二組分從整組 DNA大小和豐度數據中分離。在一些實施例中,可以采用用漢明窗口實現的且具有1.0*10-5 乘以采樣頻率的截止頻率的24抽頭零相位有限脈沖響應(FIR)濾波器。然而應理解,可以使 用具有憑經驗測定或通過計算測定的截止頻率的其他類型的低通濾波器。圖3示出顯示低 通和帶通(如下討論)過濾圖2所示的信號或一組數據的結果的曲線圖300。具體地,曲線圖 300示出了代表低通過濾圖2所示的信號或一組數據的結果的線304。如圖所示,線304包括 在隨CGG重復序列計數增加而逐漸降低的強度的第一個小的初始增加,和集中于45.6個CGG 重復序列計數,并在43.0和46.3個重復序列計數具有邊界的第二大峰。這個較大峰可以是 代表性的并歸屬于全長擴增子。
[0079] 返回參考圖1所示的方法100,在框106中,可將帶通濾波器應用于DNA大小和豐度 數據,以生成與代表CGG富集區的CGG系列的DNA大小和豐度數據的第一組分對應的一組帶 通數據。如上所述,DNA大小和豐度數據的第一組分的周期可以是三個堿基對或12個樣本。 因此,預計發生該CGG重復序列信號的頻率是每個堿基對1/3。因此,具有包括該頻率的截止 頻率的帶通濾波器可用于將第一組分從整組DNA大小和豐度數據中分離。在一些實施例中, 可以采用用漢明窗口實現的且具有下截止頻率(1/13M2M在框102中使用的采樣頻率) 和上截止頻率(1/11)*(2)*(在框102中使用的采樣頻率)的24抽頭零相位FIR濾波器。然而 應理解,可以使用具有憑經驗測定或通過計算測定的截止頻率的其他類型的帶通濾波器。 圖3示出的曲線圖300的線302表示帶通過濾圖2所示的信號或一組數據的結果。如圖所示, 線302包括小的遞減周期信號,之后是CGG重復序列計數中對應的一組較大峰和線304的大 峰。
[0080] 返回參考圖1所示的方法100,在框108中,可以鑒別代表DNA中核苷酸重復序列數 目的DNA大小和豐度數據中的一個或多個峰。在一些實施例中,這可以包括鑒別在框104中 生成的低通數據中的峰和在框106中生成的帶通數據中的峰。為了鑒別這些峰,可以使用三 次樣條內插由函數f表示的每個信號或每組數據(例如,低通數據和帶通數據),內插的數據 可用于近似信號或該組數據f的一階導數f'和二階導數f"。接著,可以鑒別也滿足C處的二 階導數f"(C)〈0的條件的一階導數f'的根C。該根C可被指定為相應峰的中心。值L和R可以是 分別鄰近(例如,具有更高和更低的CGG重復序列計數的f'的最接近的根)根C的左邊和右邊 的f'的根的位置。為了計算C為中心的峰的峰邊界L'和R',可以使用以下等式:
[0081] L7 =min xe [L,C]s. t. | f7 (x) | >D
[0082] R'=max xe [C,R]s · t · | f'(x) | >D〇
[0083] 換言之,左峰邊界L'可以是相鄰的根L和中心C之間的最小的X軸值(例如,CGG重復 序列計數),其具有絕對值大于截止D的一階導數f'd值可以取決于DNA大小和豐度數據的 動態范圍(并因此,在樣本協議和硬件上),并且可以被選擇為與人將鑒定為峰邊界的位置 對應的值。同樣,右峰邊界R'可以是中心C和相鄰的根R之間的最大X軸值(例如,CGG重復序 列計數),其具有絕對值大于截止D的一階導數f'。可以對滿足C處的二階導數f'(C)〈0的條 件的每個信號或每組數據(例如,低通數據和帶通數據)的一階導數f'的每個根C執行該峰 鑒別過程。以這種方式,可以鑒別低通數據的每個峰和高通數據的每個峰。雖然以上描述了 具體的峰檢測算法,但應當理解,可以使用其他的峰檢測算法。
[0084] 一旦鑒別低通數據中的一組峰和帶通數據中的一組峰,各組中的峰可被過濾以除 去具有高噪聲可能性的峰,而不是準確地反映 CGG富集區的CGG系列或全長擴增子的那些。 在一些實施例中,峰過濾可以包括鑒別寬度小于CGG重復序列的第一閾值數(例如,1.5)和 高度小于機器依賴性第二閾值的薄峰。可憑經驗或通過計算測定并設定這些第一閾值和第 二閾值的確切值,以除去由噪聲產生的峰。所鑒別的薄峰可以從它們各自組的峰(例如,從 低通數據的該組峰或從帶通數據的該組峰)中除去,或可以以其他方式鑒別(例如,使用標 志)為噪音。高度小于在同一組數據內(例如,低通數據內或帶通數據內)緊鄰其右邊的峰 (例如,具有較大CGG重復序列計數)高度的峰也可以從它們各自組的峰中除去或可以其他 方式鑒別為噪聲,因為隨著長度增加擴增的效率降低,預期每個峰的高度將小于前面的峰 (例如左邊)。
[0085] 在一些實施例中,低通濾波器可能會錯誤地排除全長峰。這種排除的峰在帶通數 據中可具有遠大于帶通數據的其他峰(代表CGG富集區的CGG系列)的對應的大峰。因此,來 自帶通數據的峰可用于調節低通峰。具體地,如果來自低通數據的峰Pl在來自帶通數據的 峰Pb(其大于峰Pl)的CGG重復序列的閾值數內(例如,一個重復序列),低通峰Pl峰的中心可 被設定為帶通峰Pb的中心。低通峰Pl的峰邊界也可被設定成低通峰Pl及帶通Pb的并集。
[0086] 在一些實施例中,如果確定一個或多個峰歸于噪聲,則可合并某些峰。峰的合并可 以包括將兩個或更多個合并的峰處理為單峰,這意味著該合并峰的最大峰可視為真峰。在 一些實施例中,可以合并具有高于閾值數(例如55)的峰的每組數據內(例如,低通數據內或 帶通數據內)的峰,如果它們位于彼此的重復序列的閾值數(例如10)內。無論重復序列計數 如何,可以合并該同一組數據(例如,低通數據內或帶通數據內)的所有峰,如果它們位于重 復序列的閾值數(例如5)內且振幅相差超過2倍。
[0087] 低通數據中產生的峰可以以對應于DNA中CGG重復序列數目的CGG重復值為中心。 在一些實施例中,返回參考圖1的方法100,基于在框108中鑒別的一個或多個峰,在框110中 可以測定與DNA大小和豐度數據相關的個體基因型。例如,如果包含CGG富集區的DNA包括 FMR1基因的5'-UTR,則與在框108中鑒別的峰相關的CGG重復序列值可用于確定該個體是否 為FXS的攜帶者。在這個實施例中,如果在框108中鑒別的峰以5-44之間的CGG重復值為中 心,則它可以指示正常等位基因。如果在框108中鑒別的CGG峰以45-54之間的CGG重復值為 中心,則它可以指示中間等位基因。如果在框108中鑒別的CGG峰以55-200之間的CGG重復值 為中心,則它可以指示前突變等位基因。如果在框108中鑒別的CGG峰以大于200的CGG重復 值為中心,則它可以指示全突變等位基因。在一些實施例中,測定個體的基因型時可考慮個 體的性別、種族等。例如,可以使用特定的性別、種族等的已知分布來修改用于鑒別不同基 因型的CGG重復序列計數的范圍。
[0088]有關確定CGG重復序列計數的一個或多個功能可通過與圖4所示的系統400類似或 相同的系統來執行。系統400可以包括儲存在非臨時性計算機可讀存儲介質諸如存儲器404 或存儲設備402中并由處理器406執行的指令。指令可以在專用于指令執行系統、裝置或設 備,例如基于計算機的系統,包含處理器的系統,或可以從指令執行系統、裝置或設備提取 指令并執行指令的其他系統或與其有關的系統的任何非暫時性計算機可讀存儲介質內存 儲和/或傳輸。在該文件的上下文中,"非臨時性計算機可讀存儲介質"可以是可以含有或存 儲專用于指令執行系統、裝置或設備或與其有關的程序的任何介質。非臨時性計算機可讀 存儲介質可以包括但不限于:電、磁、光、電磁、紅外或半導體系統、裝置或設備,便攜式計算 機磁盤(磁的),隨機存取存儲器(RAM),只讀存儲器(ROM),可擦除可編程只讀存儲器 (EPROM)(磁的),便攜式光盤諸如〇)、00-1?、〇)-1^、0¥0、0¥0-1?或0¥0-1^,或閃存存儲器如小 型閃存卡,安全數字卡,USB存儲設備,記憶棒等。
[0089] 指令還可以在專用于指令執行系統、裝置或設備,諸如基于計算機的系統,包含處 理器的系統,或可以從指令執行系統、裝置或設備提取指令并執行指令的其他系統或與其 連接的任何傳輸介質內傳播。在該文本的上下文中,"傳輸介質"可以是專用于指令執行系 統、裝置或設備或與其連接的可通訊、傳播或傳輸程序的任何介質。傳輸介質可以包括但不 限于:電、磁、光、電磁或紅外有線或無線傳播介質。
[0090] 在一些實施例中,系統400可被配置成執行方法100的各框,如上所述。應理解,系 統并不限于圖4的組件和結構,但可以根據不同實施例包括多種配置的其他或附加組件。 實施例
[0091 ]實施例1.對患者樣本的脆性X驗證和經驗進行自動群體大規模篩選 [0092] 使用AmplideX FMR1PCR試劑盒(Asuragen)運行CGG重復序列引發的PCR,在3500/ 3500x1/3730x1遺傳分析儀(Applied Biosystems)上對樣本進行分析。我們檢查了指示常 規攜帶者篩選(即,沒有指出家族史和不孕癥)的76421個樣本。具有明顯鑲嵌性(>2個峰)的 298個樣本被排除在群體分析外。183個樣本來自男性;另外76238個均來自女性。
[0093]我們在來自Coriell的60個外部表征樣本上驗證了調用算法,并通過對人工審查 臨床樣本庫的性能進一步評估其準確性。通過檢查結果審查過程中人工干預的量由實驗室 主任測定算法性能。測定峰調用方面的性能。
[0094]三聯體重復序列引發的PCR中的重復"殘跡(stutter)"信號擊敗了現成的峰調用 軟件,因為它在每個CGG重復序列處生成單獨的峰。對在bp-空間中為線性的CE數據(而不是 CE掃描數)重新采樣后,使用零相位FIR濾波器除去高頻殘跡;使用在這個低通信號上操作 的一階/二階導數閾值的峰調用,并使用合并殘跡數據的帶通組分調節精確的峰位置。 [0095]在一些樣本中,高(FAM)信號強度阻礙了分級所需的(R0X)梯峰的自動檢測;串擾 可能會增加假峰或除去真峰。我們在梯峰的預期位置上進行了先驗分布并將觀察到的峰與 先前使用的動態編程匹配,以同時分配峰和最小化峰位置的方差:
[0097] 如圖5所示,在60個表征的Coriell樣本中,自動調用者獲得了0.71個CGG重復序列 的平均誤差,2.12個CGG重復序列的RMS誤差,和臨床分型的100%的準確度。在針對人工審 查臨床樣本的驗證中,調用者顯示〇. 18 %假陽性率的99.38 %的靈敏度。
[0098]在患者樣本中,自動算法調用96906個峰,有204假峰和702個錯峰,總靈敏度為 99.3%。在一個CPU上,自動調用比人工調用快23倍。我們發現等位基因大小分布中存在顯 著(P〈0.01)的群體結構。東亞人有中間或更大的等位基因的概率較低,而中東人有其的概 率較高。歐洲和德系猶太人的等位基因大小群集在一起;南亞裔、非裔美國人、中東人、西班 牙人形成第二群集;東亞人和東南亞人形成鮮明的第三群集。
[0099] 我們的自動算法能夠使用CGG重復序列引發的PCR對脆性X群體進行準確的高通量 篩選。自動化使得實驗室主任在90秒內即可審查一批,而不是手動調用所需的半小時。
[0100] 圖6示出自報種族劃分的等位基因大小分布的對數級直方圖。N表示等位基因的數 目。僅示出〈80個重復序列的等位基因。在所有的群體中,30是最常見的重復序列計數。東亞 人和東南亞人在30個重復序列前具有小于通常的峰,在37個重復序列處具有較大的峰。西 北歐洲人具有N = 35338,南歐人具有N = 5974,其他白種人具有N = 37848,未知的具有N = 17574,德系猶太人具有N=9062,中東人具有N=3506,西班牙人具有N=14132,非裔美國人 具有N=9280,南亞人具有N=6586,東南亞人具有N=3302,東亞人具有N=8294。
[0101] 如圖7所示,我們還示出了脆性X等位基因大小的首個世界范圍內的目錄。我們發 現,東亞人往往有較短的等位基因,中東人的較長,但其他群體似乎在中間或更大的等位基 因上并無顯著區別。對脆性X綜合征的三聯體重復序列引發的PCR+基于CE的試驗的自動信 號處理是高效可靠的,允許進行成本效益高的群體規模攜帶者篩查。FMR1重復序列長度根 據種族而顯著變化:東亞人和東南亞人有小(〈30)和大(>45)等位基因的概率非常低。東亞 人和東南亞人有大量CGG-37等位基因。白種人有小等位基因(20%〈 = 28CGG)的頻率最高。 有報道中東或德系猶太人血統的樣本顯示等位基因>45個重復序列的概率較高。
[0102] 圖8顯示東亞人、東南亞人、南亞人、非裔美國人、西班牙人、中東人、德系猶太人、 未知、其他的白種人、南歐人和西北歐洲人的大等位基因的分布。用貝葉斯二項式等式測試 P值的-loglO以比較種族之間具有中間或更大等位基因的個體的概率。最淺的顏色表示"無 顯著差異",為? = 0.01(8〇11&^〇1^校正)。不同的白人群體顯示無顯著差異。東亞人與除其 他亞洲人外的所有其他組的大等位基因的概率顯著不同。
[0103] 盡管已參照附圖對本公開和實施例作了充分的說明,但應注意,各種變化和修改 對本領域技術人員將是顯而易見的。這些變化和修改將被理解為包括在由所附權利要求限 定的本公開和實施例的范圍內。
【主權項】
1. 一種用于測定包含CGG富集區的DNA中CGG重復序列數目的計算機實現方法,所述方 法包括: a) 由一個或多個處理器接收DNA擴增產物的DNA大小和豐度數據,所述DNA擴增產物通 過使用引物組由包含CGG富集區的DNA生成,所述引物組包括識別CGG富集區的第一引物和 識別CGG富集區外部的區域的第二引物; b) 由一個或多個處理器通過以采樣頻率對DNA大小和豐度數據進行采樣而生成一組樣 本數據; c) 由一個或多個處理器通過將低通濾波器應用于該組樣本數據而生成一組低通數據; d) 由一個或多個處理器通過將帶通濾波器應用于該組樣本數據而生成一組帶通數據; e) 由一個或多個處理器鑒別低通數據中的一個或多個峰; f) 由一個或多個處理器鑒別帶通數據中的一個或多個峰;和 g) 基于低通數據中的一個或多個峰和帶通數據中的一個或多個峰,由一個或多個處理 器鑒別代表CGG富集區中CGG重復序列數目的最終峰。2. 根據權利要求1所述的計算機實現方法,還包括在步驟a)之前解析DNA擴增產物以生 成DNA大小和豐度數據。3. 根據權利要求2所述的計算機實現方法,其中所述解析是通過毛細管電泳進行。4. 根據權利要求1-3任一項所述的計算機實現方法,還包括在步驟b)之前由一個或多 個處理器將DNA大小和豐度數據從時間域轉換為堿基對長度域。5. 根據權利要求4所述的計算機實現方法,其中使用DNA梯帶將DNA大小和豐度數據從 時間域轉換到堿基對長度域。6. 根據權利要求1-5任一項所述的計算機實現方法,其中所述采樣頻率等于每個堿基 對4個樣本。7. 根據權利要求1-6任一項所述的計算機實現方法,其中所述帶通濾波器具有為采樣 頻率的2/13的低截止頻率和為采樣頻率的2/11的高截止頻率。8. 根據權利要求1-7任一項所述的計算機實現方法,其中所述低通濾波器具有采樣頻 率乘以1.0*10_5的截止頻率。9. 根據權利要求1-8任一項所述的計算機實現方法,其中所述低通濾波器和所述帶通 濾波器是使用漢明窗口實現的零相位有限脈沖響應(FIR)濾波器。10. 根據權利要求1-9任一項所述的計算機實現方法,其中通過以所述采樣頻率對DNA 大小和豐度數據采樣而生成樣本數據組包括: 生成DNA大小和豐度數據的線性內插;和 以所述采樣頻率對DNA大小和豐度數據的線性內插進行采樣。11. 根據權利要求1-10任一項所述的計算機實現方法,其中該組樣本數據包括代表CGG 富集區的CGG系列和包含CGG富集區的DNA的全長擴增子的組合的信號,該組帶通數據包括 代表CGG富集區的CGG系列的信號,該組低通數據包括代表包含CGG富集區的DNA的全長擴增 子的信號。12. 根據權利要求1-11任一項所述的計算機實現方法,其中鑒別代表包含CGG富集區的 DNA中的CGG重復序列數目的最終峰包括: 從低通數據中的一個或多個峰中除去寬度小于4.5個堿基對且高度小于閾值的峰; 從帶通數據中的一個或多個峰中除去寬度小于4.5個堿基對且高度小于閾值的峰; 從帶通數據中的一個或多個峰中除去高度小于具有較大堿基對長度的相鄰峰的高度 的峰; 響應于低通數據中的一個或多個峰中的某一峰,其高度小于帶通數據中的一個或多個 峰中的某一峰的高度,且其在低通數據的一個或多個峰的峰的3個堿基對內,將低通數據中 的一個或多個峰的某一峰的中心設定為帶通數據中的一個或多個峰的某一峰的中心,將低 通數據中的一個或多個峰的某一峰的邊界設定為低通數據中的一個或多個峰的某一峰和 帶通數據中的一個或多個峰的某一峰的并集; 將低通數據中的一個或多個峰中和帶通數據中的一個或多個峰中堿基對長度大于165 個堿基對且在彼此的30個堿基對內的峰合并;和 將低通數據中的一個或多個峰中和帶通數據中的一個或多個峰中堿基對在15個內且 其高度相差大于兩倍的峰合并;其中低通數據中的一個或多個峰的其余峰是最終峰。13. 根據權利要求1-12任一項所述的計算機實現方法,其中所述含CGG富集區的DNA是 脆性X智力遲鈍1基因(FMR1)的5 ' -UTR。14. 根據權利要求1-13任一項所述的計算機實現方法,其中所述包含CGG富集區的DNA 是脆性X智力遲鈍2基因(FMR2)的5 ' -UTR。15. 根據權利要求1-14任一項所述的計算機實現方法,其中所述第一引物包含至少4個 CGG或CCG重復序列。16. 根據權利要求1-15任一項所述的計算機實現方法,其中所述引物組還包括識別CGG 富集區外部的且位于第二引物所識別的區域對側的區域的第三引物。17. -種用于測定與個體脆性X綜合征相關的基因型的計算機實現方法,所述方法包 括: a) 使用引物組執行DNA擴增反應,所述引物組包括識別FMR1基因的5 ' UTR上的CGG富集 區的第一引物和識別FMRl基因的5'UTR上的CGG富集區外部的區域的第二引物; b) 解析DNA擴增產物以獲得DNA大小和豐度數據; c) 將低通濾波器和帶通濾波器應用于DNA大小和豐度數據,以鑒別代表FMRl基因的5' UTR上的CGG富集區中的CGG重復序列數目的峰;和 d) 基于所鑒別的峰測定所述個體的基因型。18. 根據權利要求17所述的計算機實現方法,其中所述解析是通過毛細管電泳進行。19. 根據權利要求17或18所述的計算機實現方法,還包括在步驟c)之前由一個或多個 處理器將DNA大小和豐度數據從時間域轉換為堿基對長度域。20. 根據權利要求19所述的計算機實現方法,其中使用DNA梯帶將DNA大小和豐度數據 從時間域轉換到堿基對長度域。21. 根據權利要求17-20任一項所述的計算機實現方法,其中所述方法還包括以采樣頻 率對DNA大小和豐度數據進行采樣,其中將低通濾波器和帶通濾波器應用于DNA大小和豐度 數據包括將低通濾波器和帶通濾波器應用于采樣的DNA大小和豐度數據。22. 根據權利要求21所述的計算機實現方法,其中所述采樣頻率等于每個堿基對4個樣 本。23. 根據權利要求21-22任一項所述的計算機實現方法,其中所述帶通濾波器具有為采 樣頻率的2/13的低截止頻率和為采樣頻率的2/11的高截止頻率。24. 根據權利要求21-23任一項所述的計算機實現方法,其中所述低通濾波器具有采樣 頻率乘以1.0* HT5的截止頻率。25. 根據權利要求21-24任一項所述的計算機實現方法,其中以所述采樣頻率對DNA大 小和豐度數據采樣包括: 生成所述DNA大小和豐度數據的線性內插;和 以所述采樣頻率對所述DNA大小和豐度數據的線性內插進行采樣。26. 根據權利要求17-25任一項所述的計算機實現方法,其中所述低通濾波器和所述帶 通濾波器是使用漢明窗口實現的零相位有限脈沖響應(FIR)濾波器。27. 根據權利要求17-26任一項所述的計算機實現方法,其中所述DNA大小和豐度數據 包括代表FMRl基因的CGG系列和FMRl基因的5 'UTR的全長擴增子的組合的信號,該組帶通數 據包括代表FMRl基因的CGG系列的信號,該組低通數據包括代表FMRl基因的5 ' UTR的全長擴 增子的信號。28. 根據權利要求17-27任一項所述的計算機實現方法,其中鑒別代表FMRl基因的5' UTR上的CGG富集區中的CGG重復序列數目的峰包括: 從低通濾波器輸出中的一個或多個峰中除去寬度小于4.5個堿基對且高度小于閾值的 峰; 從帶通濾波器數據輸出中的一個或多個峰中除去寬度小于4.5個堿基對且高度小于閾 值的峰; 從帶通濾波器數據輸出中的一個或多個峰中除去高度小于具有較大堿基對長度的相 鄰峰的高度的峰; 響應于低通濾波器輸出中的一個或多個峰中的某一峰,其高度小于帶通濾波器輸出中 的一個或多個峰中的某一峰的高度,且其在低通濾波器輸出的一個或多個峰的峰的3個堿 基對內,將低通濾波器輸出中的一個或多個峰的某一峰的中心設定為帶通濾波器輸出中的 一個或多個峰的某一峰的中心,將低通濾波器輸出中的一個或多個峰的某一峰的邊界設定 為低通濾波器輸出中的一個或多個峰的某一峰和帶通濾波器輸出中的一個或多個峰的某 一峰的并集; 將低通濾波器輸出中的一個或多個峰中和帶通濾波器輸出中的一個或多個峰中堿基 對長度大于165個堿基對且在彼此的30個堿基對內的峰合并;和 將低通濾波器輸出中的一個或多個峰中和帶通濾波器輸出中的一個或多個峰中堿基 對在15個內且其高度相差大于兩倍的峰合并;其中低通濾波器輸出中的一個或多個峰的其 余峰是最終峰。29. 根據權利要求17-28任一項所述的計算機實現方法,還包括基于個體的基因型確定 個體是否為脆性X綜合征的攜帶者,其中FMRl基因的5'UTR上CGG富集區中5-44個重復序列 之間的CGG重復序列數目指示正常等位基因,FMRl基因的5 ' UTR上CGG富集區中45-54個重復 序列之間的CGG重復序列數目指示中間等位基因,FMRl基因的5'UTR上CGG富集區中55-200 個重復序列之間的CGG重復序列數目指示前突變等位基因,并且其中FMRl基因的5'UTR上 CGG富集區中大于200個重復序列的CGG重復序列數目指示全突變等位基因。30. -種用于測定包含核酸重復序列區的DNA中的核酸重復序列數目的計算機實現方 法,所述方法包括: a) 由一個或多個處理器接收DNA擴增產物的DNA大小和豐度數據,所述DNA擴增產物是 通過使用引物組由包含核酸重復序列區的DNA生成,所述引物組包括識別核酸重復序列區 的第一引物和識別核酸重復序列區外部的區域的第二引物; b) 由一個或多個處理器通過以采樣頻率對DNA大小和豐度數據進行采樣而生成一組樣 本數據; c) 由一個或多個處理器通過將低通濾波器應用于該組樣本數據而生成一組低通數據; d) 由一個或多個處理器通過將帶通濾波器應用于該組樣本數據而生成一組帶通數據; e) 由一個或多個處理器鑒別低通數據中的一個或多個峰; f) 由一個或多個處理器鑒別帶通數據中的一個或多個峰;和 g) 基于低通數據中的一個或多個峰和帶通數據中的一個或多個峰,由一個或多個處理 器鑒別代表核酸重復序列數目的最終峰。31. -種非臨時性計算機可讀存儲介質,其包含用于執行權利要求1-30任一項所述的 計算機實現方法的計算機可執行指令。32. -種系統,其包含被配置為執行權利要求1-30任一項所述的計算機實現方法的處 理器。
【文檔編號】A61K31/12GK105916508SQ201480068327
【公開日】2016年8月31日
【申請日】2014年11月13日
【發明人】A·S·帕特森, I·S·哈奎, E·A·伊萬斯, C·查
【申請人】康希爾公司