專利名稱::基于IlluminaGA測序技術的HLA基因高分辨率分型方法
技術領域:
:本發明涉及核酸測序
技術領域:
,特別是PCR測序
技術領域:
。另外,本發明還涉及DNA分子標簽技術和DNA不完全打斷策略。本發明的方法特別適用于第二代測序技術。本發明的方法涉及DNA序列的分型方法,特別是HLA基因高分辨率分型方法。
背景技術:
:人類白細胞抗原,S卩HLA(humanleukocyteantigen,HLA),是迄今為止發現的多態性最高的基因系統之一,它是調控人體特異性免疫應答和決定疾病易感性個體差異的主要基因系統,與同種異體器官移植的排斥反應密切相關。研究發現,移植時,供受雙方的HLA相關基因匹配程度越高,分辨率越高,移植物的存活時間越長。HLA-SBT(SequenceBasedTyping,基于DNA序列的分型方法)是當前HLA高分辨率分型的主要方法。該方法通過PCR擴增相應HLA的基因區域,對擴增產物測序,測序結果經過專業的分型軟件分型,最終得到樣本的HLA基因型別信息。其具有直觀、高分辨且能檢測新的等位基因的特點。當前的HLA-SBT方法主要是基于Sanger測序法,該測序方法不能直接得到樣本中單體型(父本或者母本單獨的序列信息)的序列信息,而只能得到二倍體型序列信息,這給HLA分型結果帶來了不確定性(Ambiguity),為了得到確定的分型結果,需要加測GSSP(組特異性測序引物,(iroupSepecificSequencingPrimer)或者通過克隆測序來解決上述問題基于Sanger測序法的測序通量小,以ABI公司的3730測序儀一天4000個測序反應的飽和通量為例,單份樣本的HLA-A/B/DRB1三個位點的SBT分型大概需要17個測序反應,一臺3730測序儀整天不停運轉也只能產出約240份樣本的數據量。目前!M-SBT主要通過專業分型軟件來分型,導入測序峰圖質量的好壞對分型軟件的峰圖識別能力影響很大,當軟件識別錯誤時,需要分型人員能及時發現錯誤,改正錯誤。同時,為了避免人為錯誤,同一批次樣本的分型工作往往要由兩人以上獨立完成,核對無誤后,才能確認結果。如果能夠實現軟件分型的自動化那將大大減少錯誤的發生率,并且降低人力成本。基于Sanger測序法的fflJV_SBT實驗步驟包括:PCR擴增、PCR產物電泳、PCR產物純化、測序反應、測序反應產物純化、測序儀測序、測序結果分型以及后繼的加測GSSP等,整個實驗流程復雜,且實驗過程中,不同PCR產物不能混合在一起操作,大大地加大了實驗工作量。HLA-SBT整個實驗流程復雜、通量低和成本高等缺點使其很難應用于大規模HLA高分辨分型項目。
發明內容IlluminaGA測序(Illumina公司的GenomeAnalyzer測序儀,簡稱IlluminaGA)是利用邊合成邊測序的原理進行DNA序列分析,可以檢測單體型,其最終產出的數據是一系列的堿基序列,可直接用于與HLA數據庫中的參考序列直接比對,不存在傳統分型軟件峰圖誤判的問題,有利于軟件分型的自動化。IlluminaGA的測序通量大,目前一個實驗流程下來可以產生50G(500億)堿基的數據,平均每天產生50億堿基的數據。高的數據通量可以在測序序列數確定的情況下,使得每條序列獲得高的測序深度,確保測序結果的可靠性。目前還未有將IlluminaGA應用于HLA分型領域的研究,本發明首次將IlluminaGA測序應用于HLA分型領域,結合DNA分子標簽技術、DNA不完全打斷及PCR-FREE建庫的PCR測序技術,實現HLA的低成本,高通量、高準確率、高分辨率的分型。基于DNA分子標簽技術,實現了對多樣本PCR產物的分別標記,使Illumina測序文庫構建實驗環節可把多個樣本混合(pooling)成一個文庫同時處理,大大簡化了實驗操作,最終,每個樣本的檢測結果可以通過其獨特的標簽(index)序列找回。DNA不完全打斷技術使IlluminaGA實際可測通的PCR產物長度超過測序儀的測序最大長度,在當前IlluminaGA測序最大長度200bp的情況下,實際可測通的PCR產物長度達到200bp以上。“接頭(adapter)”或“文庫接頭(libraryadapter)”標簽技術是指通過對多個測序文庫添加不同文庫接頭(不同文庫接頭的組成序列不同,序列不同的部分稱為接頭標簽(adapterindex),構建標簽測序文庫,從而可實現多個不同標簽測序文庫混合測序,且最終各個標簽測序文庫的測序結果可相互區分的一種文庫標簽技術。基于DNA分子標簽技術和DNA不完全打斷策略的PCR測序方法的使用可在減少引物標簽數目的情況下,大大提高可唯一標記的樣本數目(圖1)。結合文庫接頭標簽技術的PCR-FREE的文庫構建方法,是指將文庫接頭直接連接至測序文庫中的DNA片段兩端,文庫接頭的導入過程因為沒有PCR的參與,因此稱作PCR-Free文庫構建。其中接入方法可以采用DNA連接酶進行連接。其整個文庫構建過程中無PCR的參與,避免了在高序列相似度的PCR產物混合(pooling)文庫的構建過程中,由PCR引入錯誤而導致最后結果的不準確性。本發明,采用基于DNA分子標簽技術、DNA不完全打斷及PCR-FREE建庫的PCR測序技術,通過對待分析樣本分組,再對每組樣本通過雙向引物標簽標記的引物,對HLA基因目的片段擴增(PCR產物的最大長度取決于測序儀可結合的最大DNA長度,當前IlluminaGA適用的最大DNA長度為700bp,此長度為原始DNA長度,沒有包括文庫接頭序列長度),所得PCR產物等量混合,經DNA不完全打斷處理,構建PCR-Free標簽測序文庫。把各樣本組得到的不同標簽測序文庫等摩爾混合,選擇性回收片段長度大于測序儀最大測序長度以上的所有DNA片段,隨后用IlluminaGA測序儀測序。通過對測序結果中接頭標簽(adapterindex)、弓I物標簽以及PCR弓I物的序列信息篩選,可獲得每個樣本的DNA序列信息,所得DNA序列經過組裝與頂GT!M專業數據庫中對應數據庫的比對,最終可得到樣本的!M基因型別。在本發明的一個方面中,提供了一組引物標簽(primerindex),其包括表1所示95對引物標簽中的至少10對,或至少20對,或至少30對,或至少40對,或至少50對,至少60對,或至少70對,或至少80對,或至少90對,或95對(或者所述一組引物標簽由表1所示95對引物標簽中的10-95對(例如10-95對,20-95對,30-95對,40-95對,50-95對,60-95對,70-95對,80-95對,90-95對,或95對)組成),并且所述一組引物標簽優選地至少包括表1所示95對引物標簽中的PI-I至PI-10,或PI-Il至PI-20,或PI-21至PI-30,或PI-31至PI-40,或PI-41至PI-50,或PI-51至PI-60,或PI-61至PI-70,或PI—71至PI—80,或PI—81至PI—90,或PI—91至PI-95,或者它們任何兩個或者多個的組合。根據本發明另一方面,還提供了所述的引物標簽用于PCR測序方法的用途,其中特別是,每一對引物標簽與用于擴增待測目的序列的PCR引物對組合成一對標簽引物,正反PCR引物的5’端分別具有(或者任選通過連接序列連接)正向引物標簽和反向引物標簽。在本發明的一個具體實施方式中,所述PCR引物是用于擴增HLA的特定基因的PCR引物,優選是用于擴增HLA-A/B2,3,4號外顯子和HLA-DRB12號外顯子的PCR引物,優選的所述PCR引物如表2所示。本發明另一方面中,提供了上文所述一組引物標簽與用于擴增待測目的序列的PCR引物對組合成的一組標簽引物,其中每一對引物標簽與PCR引物對組合成一對標簽引物,正反PCR引物的5’端分別具有(或者任選通過連接序列連接)正向引物標簽和反向引物標簽。在本發明的一個具體實施方式中,上文所述標簽引物中的PCR引物是用于擴增HLA的特定基因的PCR引物,優選是用于擴增HLA-A/B2,3,4號外顯子和HLA-DRB12號外顯子的PCR引物,優選的所述PCR引物如表2所示。在本發明的另一個具體實施方式中,所述的標簽引物用于PCR測序方法。本發明另一方面中,提供了一種HLA分型的方法,其包括1)提供η個樣品,η為大于等于1的整數,所述樣品優選地來自哺乳動物,更優選是人,特別是人的血樣;2)將待分析的η個樣品分成m個小組,m為整數且η彡m彡1;3)擴增對于每一個樣品,使用一對標簽引物,在存在來自該樣品的模板時,在適于擴增目的核酸的條件下進行PCR擴增,其中,每一對標簽引物由包含引物標簽的正向標簽引物和反向標簽引物(均可以是簡并引物)構成,其中正向標簽引物和反向標簽引物所包含的引物標簽可以相同或者不同;不同樣品所用標簽引物對中的引物標簽彼此不同;4)混合將各樣品的PCR擴增產物混合在一起,獲得PCR產物文庫;5)打斷將所得的PCR產物文庫進行不完全打斷;6)建庫結合文庫接頭標簽技術,將打斷后的PCR產物文庫構建PCR-Free測序文庫,回收位于所用測序儀最大讀長長度到所用測序儀適用的最長DNA長度范圍之間的所有DNA條帶,可以對文庫添加不同的文庫接頭(adapter)以區分不同的PCR-Free測序文庫;7)測序將回收的DNA混合物利用二代測序技術,優選的是Pair-End技術(例如IlluminaGA,IlluminaHiseq2000)進行測序,獲得打斷后的DNA的序列;8)拼接基于各個文庫不同的文庫接頭序列和每個樣品獨特的引物標簽將獲得的測序結果與樣品一一對應,利用比對程序(例如Blast,BWA程序)把各個測序序列定位到PCR產物的相應DNA參考序列上,通過序列重疊和連鎖關系,從打斷后的DNA的序列拼接出完整的目的核酸。在本發明的一個具體實施方式中,在上文所述的方法中,所述結合文庫接頭標簽技術,將打斷后的PCR產物文庫構建PCR-Free測序文庫是指使用m種文庫接頭給4)中得到的m個PCR產物文庫加上接頭,其中每一個PCR產物文庫使用一種不同的文庫接頭,從而構建m個接頭標簽測序文庫;將m個接頭標簽測序文庫等摩爾混合在一起構建混合接頭標簽測序文庫。其中連接文庫接頭的方法是指不通過PCR程序直接采用DNA連接酶進行連接。在本發明的一個具體實施方式中,在上文所述的方法中,每一對引物標簽與PCR引物對組合成一對標簽引物,正反PCR引物的5’端分別具有(或者任選通過連接序列連接)正向引物標簽和反向引物標簽。在本發明的一個具體實施方式中,在上文所述的方法中,所述PCR引物是用于擴增HLA的特定基因的PCR引物,優選是用于擴增HLA-A/B2,3,4號外顯子和HLA-DRB12號外顯子的PCR引物,優選的所述PCR引物如表2所示。在本發明的一個具體實施方式中,在上文所述的方法中,所述引物標簽針對PCR引物進行設計,優選針對用于擴增IM的特定基因的PCR引物進行設計,更優選針對用于擴增fflJV-A\B2,3,4號外顯子和!M-DRB12號外顯子的PCR引物,特別是如表2所示的PCR引物進行設計,所述引物標簽特別是包括表1所示95對引物標簽中的至少10對,或至少20對,或至少30對,或至少40對,或至少50對,至少60對,或至少70對,或至少80對,或至少90對,或95對(或者所述一組引物標簽由表1所示95對引物標簽中的10-95對(例如10-95對,20-95對,30-95對,40-95對,50-95對,60-95對,70-95對,80-95對,90-95對,或95對)組成),并且所述一組引物標簽優選地至少包括表1所示95對引物標簽中的PI-I至PI-10,或PI-Il至PI-20,或PI-21至PI-30,或PI-31至PI-40,或PI-41至PI-50,或PI-51至PI-60,或PI-61至PI-70,或PI-71至PI-80,或PI-81至PI-90,或PI-91至PI-95,或者它們任何兩個或者多個的組合。在本發明的一個具體實施方式中,在上文所述的方法中,所述DNA打斷包括化學打斷方法和物理打斷方法,其中所述化學方法包括酶切方法,所述物理打斷方法包括超聲波打斷方法或機械打斷方法。所述DNA打斷后,純化回收450-750bp長度的片段。所述純化回收純化回收方法包括但不限于電泳割膠回收,也可以是磁珠回收。在本發明的一個具體實施方式中,在上文所述的方法中,所述DNA打斷后,在構建PCR-Free標簽文庫的過程中,對不同組樣品的DNA用不同的文庫接頭連接,從而在其后的分型步驟中,基于每個樣品所用的引物標簽和接頭標簽,將獲得的測序結果與樣本一一對應。利用比對程序把各個樣本測序序列定位到其PCR產物已知相應的DNA參考序列(ReferenceSequence)上,通過序列重疊和連鎖關系,從打斷后的DNA的序列拼接出完整的PCR產物序列。本發明另一方面中,提供了一種HLA分型方法,包括使用上文所述的測序方法對來自患者的樣品(特別是血樣)進行測序和拼接,以及將拼接好的序列與HLA數據庫(如IMGTHLA專業數據庫)中HLA相關序列數據比對,序列比對結果100%匹配的即為對應樣本的HLA-DRBl基因型別。發明的有益效果本發明提供了基于illuminaGA測序技術的HLA基因高分辨率分型方法,從而實現單體型測序、軟件分型自動化,提高HLA基因分型的通量,降低成本。圖1為引物標簽和接頭標簽(adaptorindex)標記后的PCR產物示意圖。實驗時,通過PCR在每個樣本的PCR產物兩端同時引入引物標簽;把多個帶有不同引物標簽的PCR產物混合在一起,用于構建測序文庫。測序文庫構建過程中,當需要構建多個測序文庫時,可通過添加帶有不同接頭標簽的文庫接頭,來標記各個測序文庫。文庫構建完畢后,帶有不同接頭標簽標記的多個測序文庫可以混合在一起同時用IlluminaGA測序(不同接頭標簽標記的測序文庫之間的引物標簽可以相同)。測序結果出來后,通過對測序結果中接頭標簽和引物標簽序列信息的篩選,可獲得每個樣本的DNA序列信息。圖2為1號樣本HLA-A/B/DRB1相應外顯子PCR產物電泳結果,從電泳圖上看,PCR產物為一系列片段大小300bp-500bp的單一條帶,其中泳道M是分子量標記物(DL2000,Takara公司),泳道1-7為1號樣本的HLA-A/B/DRB1各外顯子(A2、A3、A4、B2、B3、B4、DRB1-2)PCR擴增產物,陰性對照(N)無擴增條帶。其它樣品的結果與此類似。圖3為HLA-Mix打斷后DNA電泳情況(割膠前后),割膠區域為450_750bp區域。其中泳道M是分子量標記物(NEB-50bpDNALadder),泳道1是割膠前HLA-Mix的電泳情況,泳道2是割膠后HLA-Mix的膠圖。圖4:1號樣本一致性(consensus)序列構建程序截圖,示例說明了根據引物標簽和DNA片段之間的重疊關系拼接出PCR產物的完整序列。具體實施例方式下面將結合實施例對本發明的實施方案進行詳細描述,但是本領域技術人員將會理解,下列實施例僅用于說明本發明,而不應視為限定本發明的范圍。在本發明的實施例中,采用基于引物標簽、DNA不完全打斷、文庫標簽及PCR-FREE建庫的PCR測序方法,對950個樣本的HLA-A/B2,3,4號外顯子以及HLA-DRB12號外顯子(PCR產物長度大小處于290bp-500bp之間)的基因分型,證明該發明能夠實現低成本、高通量、高準確率和高分辨率的HLA基因分型。原理將待分析的樣本均分成10組,對每組樣本通過PCR反應在HLA-A/B2,3,4號外顯子以及HLA-DRB12號外顯子的PCR產物兩端引入引物標簽,使其特異的標記PCR產物的樣本信息。將各組內樣品的HLA-A/B/DRB1三個位點的PCR擴增產物等體積混合在一起,獲得PCR產物文庫;所得PCR產物文庫經過超聲不完全打斷后,構建不同的PCR-Free標簽測序文庫(其中每一個PCR產物文庫使用一種不同的接頭,從而構建10個標簽測序文庫);將10個標簽測序文庫等摩爾混合在一起構建混合標簽測序文庫,混合標簽測序文庫經2%低熔點瓊脂糖電泳,割膠純化回收位于450-750p長度范圍之間的所有DNA條帶。回收的DNA經IlluminaGAPE-100測序。通過文庫標簽和引物標簽序列可以找到所有所測樣本的序列信息,再通過已知DNA片段的參考序列信息和DNA片段序列之間的重疊和連鎖關系組裝出整個PCR產物的序列,再通過與HLA-A/B/DRB1相應外顯子的標準數據庫的比對結果可組裝出原PCR產物的全序列,實現HLA-A/B/DRB1的基因分型。實施例1樣本提取使用KingFisher自動提取儀(請提供供貨商信息)(美國Thermo公司)從950份已知HLA-SBT分型結果的血樣(中國造血干細胞捐獻者資料庫(以下稱“中華骨髓庫”))中提取DNA。主要步驟如下取出6個Kingfisher自動提取儀配套的深孔板及1個淺孔板,根據說明書分別加入一定量配套的試劑并作好標記,將所有已加好試劑的孔板按要求置于相應的位置,選定程序“BioeaSy_200ulBloodDNA_KF.msz”程序,按下“star”執行該程序進行核酸提取。程序結束后收集plateElution中的IOOul左右的洗脫產物即為提取的DNA,準備做下一步PCR中的模板用。實施例2PCR擴增把樣本提取步驟中所得的950份DNA依次編號1_950,均分成10組,每組95份DNA,分別標記為HLA-1、HLA-2、HLA-3、HLA-4、HLA-5、HLA-6、HLA-7、HLA-8、HLA-9、HLA-10。對每組樣本分別以95套帶有雙向引物標簽(表1)用于擴增HLA-A/B2,3,4號外顯子和HLA-DRB12號外顯子的PCR引物(表2)來分別擴增95份DNA樣本。PCR反應在96孔板中進行,共7板,編號分別為HLA-X-P-A2、HLA-X-P-A3、HLA-X-P-A4、HLA-X-P-B2、HLA-X-P-B3、HLA-X-P-B4以及HLA-X-P-DRB1-2(“X”表示樣本組號信息1/2/3/4/5/6/7/8/9/10,“A2/3/4,B2/3/4,DRBl-2”表示擴增的位點),每板內設置一個不添加模板的陰性對照,陰性對照所用引物為PI-I(表1)標記的引物。實驗的同時,記錄下每個樣本對應的樣本組號信息和引物標簽信息。表1,引物標簽的相關信息表2,未添加引物標簽前用于擴增HLA-A/B/DRB1相應外顯子的PCR引物D2-F1,D2-F2,D2-F3,D2-F4,D2-F5,D2-F6,D2-F7為擴增HLA-DRB12號外顯子的正向引物,D2-R為擴增HLA-DRB12號外顯子的反向引物。HLA-A/B/DRB1的PCR程序如下96"C2min95°C30s—60°C30s—72°C20s(32cycles)15°C⑴HLA-A/B的PCR反應體系如下HLA-DRBl的PCR反應體系如下其中PInf-A/B/D2-F1/2/3/4/5/6/7表示引物5’末端帶有第η號正向引物標簽序列(表1)的HLA-A/B/DRB1的F引物,PInf-A/B/D2-R2/3/4表示引物5’末端帶有第η號反向引物標簽序列的HLA-A/B/DRB1的R引物(此處η<95),其它依次類推。且每個樣本對應特定的一套PCR引物(PInf-A/B/D2-F1/2/3/4/5/6/7,PInf_A/B/D2_R2鋪)。PCR反應在Bio-Rad公司的PTC-200PCR儀上運行。PCR完成后,取2ulPCR產物經的瓊脂糖凝膠電泳檢測。圖2顯示了1號樣本HLA-A/B/DRB1相應外顯子PCR產物電泳結果,DNA分子標記為DL2000(Takara公司),膠圖上有一系列片段大小為300bp_500bp單一條帶,表明1號樣本的HLA-A/B/DRB1各外顯子(A2、A3、A4、B2、B3、B4、DRB1-2)PCR擴增成功,陰性對照(N)無擴增條帶。其它樣品的結果與此類似實施例3PCR產物混合和純化對第“X“組(“X”為1/2/3/4/5/6/7/8/9/10)樣本,從96孔板HLA-X-P-A2剩余的PCR產物中(陰性對照除外)各取20ul混合在一個3ml的EP管中,標記為HLA-X-A2_Mix,對第“X”組樣本的其它6個96孔板進行同樣的操作,分別標記為HLA-X-A3-MiX、HLA-X-A4-MiX、HLA-X-B2-Mix、HLA_X-B3_Mix、HLA_X-B4_Mix和HLA_X-D2_Mix,震蕩混勻,從HLA_X-A2_Mix、HLA-X-A3-Mix、HLA-X-A4_Mix、HLA-X-B2_Mix、HLA-X-B3_Mix、HLA-X-B4_Mix和HLA-X-D2_Mix中各取200ul混合在一個3ml的EP管中,標記為HLA_X_Mix。從中各取500ulDNA混合物經QiagenDNAPurificationkit過柱純化(具體純化步驟詳見說明書),純化所得的200ulDNA,經Nanodrop8000(ThermoFisherScientific公司)測定的DNA濃度分別為實施例4IlluminaGA測序文庫構建1.DNA打斷從純化后的HLA-X-Mix中各取總量5ug的DNA用帶AFA纖維扣蓋的Covaris微管在CovarisS2(Covaris公司)上打斷。打斷條件如下頻率掃描(frequencysweeping)2.打斷后純化將HLA-X-Mix的所有打斷產物用QIAquickPCRPurificationKit(QIAGEN公司)回收純化,分別溶于37.5ul的EB(QIAGENElutionBuffer)中;3.末端修復反應對打斷后純化的HLA-X-Mix進行DNA末端修復反應,體系如下(試劑均購自Enzymatics公司)反應條件為恒溫混勻器(Thermomixer,Eppendorf公司)20°C溫浴30min。反應產物經QIAquickPCRPurificationKit回收純化,溶于34μ1的冊(QIAGENElutionBuffer)中。4.3’末端加A反應上一步回收DNA的3’末端加A反應,體系如下(試劑均購自Enzymatics公司)反應條件為恒溫混勻器(Thermomixer,Eppendorf公司)37°C溫浴30min。反應產物經MiniElutePCRPurificationKit(QIAGEN公司)回收純化,溶于13μ1的EB溶液(QIAGENElutionBuffer)中。5.連接IlluminaGAPCR-Free文庫接頭(adapter)術語“PCR-Free文庫接頭(adapter)”是指經設計的一段堿基,其主要作用是輔助固定DNA分子在測序芯片上以及提供通用測序引物的結合位點,PCR-Free文庫接頭可以通過DNA連接酶將其直接連接至測序文庫中的DNA片段兩端,接頭的導入過程因為沒有PCR的參與,因此稱作PCR-Free文庫接頭。加A后的產物分別連接不同的IlluminaGAPCR-Freeindex文庫接頭,體系如下(試劑均購自Illumina公司)反應條件為恒溫混勻器(Thermomixer,Eppendorf公司)20°C溫浴15min。樣本組與文庫接頭的對應關系如下反應產物經AmpureBeads(BeckmanCoulterGenomics)純化后溶于50ul去離子水,經熒光定量PCR(QPCR)檢測到DNA摩爾濃度結果如下6.割膠回收HLA-I-Mix,HLA-2-Mix,HLA-3-Mix,HLA-4-Mix,HLA-5-Mix,HLA-6-Mix,HLA-7-Mix、HLA-8-Mix、HLA-9-Mix和HLA-10-Mix等摩爾混合(終濃度72.13nM/ul),標記為HLA-Mix-IO,取30μLHLA-Mix-IO用2%低熔點瓊脂糖膠進行回收。電泳條件為100V,lOOmin。DNAmarker為NEB公司的50bpDNAmarker。割膠回收450_750bp長度范圍的DNA片段(附圖3)。膠回收產物經QIAquickPCRPurificationKit(QIAGEN公司)回收純化,純化后體積為32ul,經熒光定量PCR(QPCR)檢測到DNA濃度結果為9.96nM。實施例5IlluminaGA測序根據QPCR檢測結果,取IOpmolDNA用IlluminaGAPE-100程序測序,具體操作流程詳見IlluminaGA操作說明書(IlluminaGAIIχ)。實施例6結果分析IlluminaGA產出的測序結果是一系列DNA序列,通過查找測序結果中的接頭標簽序列、正反弓丨物標簽序列和引物序列,建立各個引物標簽對應樣本IM-A/B/DRB1各外顯子PCR產物測序結果的數據庫。通過BWA(Burrows-WheelerAligner)把各外顯子的測序結果定位在相應外顯子的參考序列上(參考序列來源:http://www.ebi.ac.uk/imgt/hla/)同時,構建各個數據庫的一致性(consensus)序列,再對數據庫中DNA序列進行篩選和測序錯誤校正。校正后的DNA序列通過序列重疊(overlap)和連鎖(Pair-End連鎖)關系可組裝成fflJV-A/B/DRBl各外顯子相應的序列。所得DNA序列利用與IMGTKA專業數據庫中fflJV-A/B/DRBl相應各外顯子的序列數據庫比對,序列比對結果100%匹配的即為對應樣本的fflJV-A/B/DRBl基因型別。可參考圖4示例說明的1號樣品的IM-A位點的2號外顯子一致性序列構建程序的截圖。所有950個樣本,得到的分型結果與原已知分型結果完全相符,其中1-32號樣本的具體結果如下樣本編號原HLA-A/B/DRB1型別0117]1A-k0203Ak1101B-k3802B-k4801DRBl-k1454DRBl-k15010118]2A-k0101A-k3001B-k0801B-k1302DRBl-k0301DRBl-k07010119]3A-k0101A-k0201B-k1511B-k4701DRBl-k1302DRBl-k15010120]4A-k2408A-k2601B-k4001B-k5101DRBl-k0404DRBl-k09010121]5A-k0101A-k2402B-k5401B-k5502DRBl-k0405DRBl-k09010122]6A-k0101A-k0302B-k1511B-k3701DRBl-k1001DRBl-k14540123]7A-k1101A-k3001B-k1302B-k1518DRBl-k0404DRBl-k07010124]8A-k0101A-k0201B-k3503B-k8101DRBl-k1101DRBl-k15010125]9A-k0206A-k3101B-k2707B-k4002DRBl-k0301DRBl-k13020126]10A-k0101A-k6601B-k3701B-k4901DRBl-k1001DRBl-k13020127]11A-k0101A-k0301B-k3501B-k5201DRBl-k0101DRBl-k15020128]12A-k1101A-k1101B-k1501B-k1505DRBl-k0406DRBl-k15010129]13A-k0101A-k1102B-k0702B-k1502DRBl-k0901DRBl-k15010130]14A-k0101A-k0201B-k5201B-k6701DRBl-k1502DRBl-k16020131]15A-k0101A-k0205B-k1517B-k5001DRBl-k0701DRBl-k15010132]16A-k0101A-k1101B-k3701B-k4002DRBl-k1001DRBl-k12020133]17A-k2407A-k3201B-k3505B-k4001DRBl-k0301DRBl-k04050134]18A-k1101A-k2402B-k1301B-k3501DRBl-k1602DRBl-k16020135]19A-k1101A-k1101B-k4002B-k5512DRBl-k0405DRBl-k15010136]20A-k0211A-k2402B-k4001B-k4006DRBl-k1101DRBl-k15010137]21A-k0101A-k0206B-k5101B-k5701DRBl-k0701DRBl-k12010138]22A-k0101A-k2901B-k0705B-k1501DRBl-k0405DRBl-k07010139]23A-k0101A-k0207B-k3701B-k4601DRBl-k0403DRBl-k10010140]24A-k2485A-k3001B-k1302B-k5502DRBl-k0701DRBl-k150125A1101Ak3101Bk0706Bk5101DRBlk1202DRBlk140526Ak0101Ak1101Bk4601Bk5701DRBlk0701DRBlk080327Ak0101Ak0201Bk1518Bk3701DRBlk0401DRBlk150128Ak0101Ak2402Bk3701Bk4601DRBlk0901DRBlk100129Ak2601Ak6601Bk4040Bk4102DRBlk1201DRBlk150130Ak0201Ak2902Bk1302Bk4501DRBlk0301DRBlk120231Ak0101Ak1103Bk1501Bk5701DRBlk0701DRBlk150132Ak1101Ak2601Bk3503Bk3801DRBlk1103DRBlk1404樣本編號測得的HLA-A/B/DRB1型別1Ak0203Ak1101Bk3802Bk4801DRBlk1454DRBlk15012Ak0101Ak3001Bk0801Bk1302DRBlk0301DRBlk07013Ak0101Ak0201Bk1511Bk4701DRBlk1302DRBlk15014Ak2408Ak2601Bk4001Bk5101DRBlk0404DRBlk09015Ak0101Ak2402Bk5401Bk5502DRBlk0405DRBlk09016Ak0101Ak0302Bk1511Bk3701DRBlk1001DRBlk14547Ak1101Ak3001Bk1302Bk1518DRBlk0404DRBlk07018Ak0101Ak0201Bk3503Bk8101DRBlk1101DRBlk15019Ak0206Ak3101Bk2707Bk4002DRBlk0301DRBlk130210Ak0101Ak6601Bk3701Bk4901DRBlk1001DRBlk130211Ak0101Ak0301Bk3501Bk5201DRBlk0101DRBlk150212Ak1101Ak1101Bk1501Bk1505DRBlk0406DRBlk150113Ak0101Ak1102Bk0702Bk1502DRBlk0901DRBlk150114Ak0101Ak0201Bk5201Bk6701DRBlk1502DRBlk160215Ak0101Ak0205Bk1517Bk5001DRBlk0701DRBlk150116Ak0101Ak1101Bk3701Bk4002DRBlk1001DRBlk120217Ak2407Ak3201Bk3505Bk4001DRBlk0301DRBlk040518Ak1101Ak2402Bk1301Bk3501DRBlk1602DRBlk160219Ak1101Ak1101Bk4002Bk5512DRBlk0405DRBlk150120Ak0211Ak2402Bk4001Bk4006DRBlk1101DRBlk150121Ak0101Ak0206Bk5101Bk5701DRBlk0701DRBlk120122Ak0101Ak2901Bk0705Bk1501DRBlk0405DRBlk070123Ak0101Ak0207Bk3701Bk4601DRBlk0403DRBlk100124Ak2485Ak3001Bk1302Bk5502DRBlk0701DRBlk150125Ak1101Ak3101Bk0706Bk5101DRBlk1202DRBlk140526Ak0101Ak1101Bk4601Bk5701DRBlk0701DRBlk080327Ak0101Ak0201Bk1518Bk3701DRBlk0401DRBlk150128Ak0101Ak2402Bk3701Bk4601DRBlk0901DRBlk100129Ak2601Ak6601Bk4040Bk4102DRBlk1201DRBlk150130Ak0201Ak2902Bk1302Bk4501DRBlk0301DRBlk120231A女01:01A女11:03B女15:01B女57:01DRBl女07:01DRBl女15:0132A女11:01A女26:01B女35:03B女38:01DRBl女11:03DRBl女14:04注HLA-DRBl型別中的DRBl*1201不排除DRBl*1206/1210/1217的可能性,DRBl女1454不排除DRBl女1401的可能性,因為上述等位基因在2號外顯子的序列完全相同。同理對于HLA-A/B位點中2、3、4號外顯子序列完全相同的結果取常見型。采用本發明的技術路線,對950份已知HLA-SBT分型結果的樣本進行HLA-A/B/DRBl位點的基因分型,結果發現采用本發明的技術路線所得的分型結果與原結果完全一致。盡管本發明的具體實施方式已經得到詳細的描述,本領域技術人員將會理解。根據已經公開的所有教導,可以對那些細節進行各種修改和替換,這些改變均在本發明的保護范圍之內。本發明的全部范圍由所附權利要求及其任何等同物給出。參考文獻[1].http//www.ebi.ac.uk/imgt/hla/stats,html[2].TiercyJΜ.MolecularbasisofHLApolymorphismamplicationsinclinicaltransplantation.[J].TransplImmunol,2002,9:173-180.[3].C.Antoine,S.Miiller,A.Cant,etal.Long-termsurvivalandtransplantationofhaemopoieticstemcellsforimmunodeficiencies:reportoftheEuropeanexperience.1968-99.[J].TheLancet,2003,9357:553_560.[4].H.A.Erlich,G.Opelz,J.Hansen,etal.HLADNATypingandTransplantation.[J].Immunity,2001,14:347-356.[5],LilloR,BalasA,VicarioJL,etal.TwonewHLAclassallele,DPBl^02014,bysequence-basedtyping.[J].TissueAntigens,2002,59:47_48.[6].A.Dormoy,N.Froelich.Leisenbach,etal.Mono-allelicamplificationofexons2~4usingallelegroup-specificprimersforsequence-basedtyping(SBT)oftheHLA-A,-Band-CgenesPreparationandvalidationofready-to-usepre-SBTmini-kits.[J],TissueAntigens,2003,62:201_216.[7].ElaineR.Mardis.Theimpactofnext-generationsequencingtechnologyongenetics.[J].TrendsinGenetics.2008,24:133_141.[8].ChristianHoffmannl,NanaMinkah1,JeremyLeipzig.DNAbarcodingandpyrosequencingtoidentifyrareHIVdrugresistancemutations.[J].NucleicAcidsResearch,2007,1-8.[9].ShannonJ.Odelberg,RobertB.Weiss,AkiraHata.Template-switchingduringDNAsynthesisbyThermusaquaticusDNApolymeraseI.[J].NucleicAcidsResearch.1995,23:2049_2057.[10].SayerD,WhidborneR,BrestovacB.HLA-DRBlDNAsequencingbasedtyping:anapproachsuitableforhighthroughputtypingincludingunrelatedbonemarrowregistrydonors.[J].TissueAntigens.2001,57(1):46_54。權利要求一種HLA分型方法,其包括1)提供n個樣品,n為大于等于1的整數,所述樣品優選地來自哺乳動物,更優選是人,特別是人的血樣;2)將待分析的n個樣品分成m個小組,m為整數且n≥m≥1;3)擴增對于每一個樣品,使用一對標簽引物,在存在來自該樣品的模板時,在適于擴增目的核酸的條件下進行PCR擴增,其中,每一對標簽引物由包含引物標簽的正向標簽引物和反向標簽引物(均可以是簡并引物)構成,其中正向標簽引物和反向標簽引物所包含的引物標簽可以相同或者不同;不同樣品所用標簽引物對中的引物標簽彼此不同;4)混合將各樣品的PCR擴增產物混合在一起,獲得PCR產物文庫;5)打斷將所得的PCR產物文庫進行不完全打斷;6)建庫結合文庫接頭標簽技術,將打斷后的PCR產物文庫構建PCRFree測序文庫,可以對文庫添加不同的文庫接頭(adapter)以區分不同的PCRFree測序文庫,回收位于所用測序儀最大讀長長度到所用測序儀適用的最長DNA長度范圍之間的所有DNA條帶,具體而言是450750bp長度范圍的DNA片段;7)測序將回收的DNA混合物利用二代測序技術,優選的是PairEnd技術(例如IlluminaGA、IlluminaHiseq2000)進行測序,獲得打斷后的DNA的序列;8)拼接基于各個文庫不同的文庫接頭序列和每個樣品獨特的引物標簽將獲得的測序結果與樣品一一對應,利用比對程序(例如Blast,BWA程序)把各個測序序列定位到PCR產物的相應DNA參考序列上,通過序列重疊和連鎖關系,從打斷后的DNA的序列拼接出完整的目的核酸;和9)分型將測序結果與HLA數據庫(如IMGTHLA專業數據庫)中HLADRB12號外顯子的序列數據比對,序列比對結果100%匹配的即為對應樣本的HLADRB1基因型別。2.權利要求1所述的方法,其中每一對引物標簽與PCR引物對組合成一對標簽引物,正反PCR引物的5’端分別具有(或者任選通過連接序列連接)正向引物標簽和反向引物標簽。3.權利要求1所述的方法,其中所述PCR引物是用于擴增HLA的特定基因的PCR引物,優選是用于擴增HLA-A/B的2,3,4號外顯子以及HLA-DRB12號外顯子的PCR引物,更優選的所述PCR引物如表2所示。4.權利要求1所述的方法,其中所述引物標簽針對用于擴增HLA的特定基因的PCR引物進行設計,優選針對用于擴增HLA-A/B的2,3,4號外顯子以及HLA-DRB12號外顯子的PCR引物,特別是如表2所示的PCR引物進行設計,特別是所述引物標簽特別是包括表1所示95對引物標簽中的至少10對,或至少20對,或至少30對,或至少40對,或至少50對,至少60對,或至少70對,或至少80對,或至少90對,或95對(或者所述一組引物標簽由表1所示95對引物標簽中的10-95對(例如10-95對,20-95對,30-95對,40-95對,50-95對,60-95對,70-95對,80-95對,90-95對,或95對)組成),并且所述一組引物標簽優選地至少包括表1所示95對引物標簽中的PI-I至PI-10,或PI-Il至PI-20,或PI-21至PI-30,或PI-31至PI-40,或PI-41至PI-50,或PI-51至PI-60,或PI-61至PI-70,或PI-71至PI-80,或PI-81至PI-90,或PI-91至PI-95,或者它們任何兩個或者多個的組合。5.權利要求1所述的測序方法,其中所述DNA打斷包括化學打斷方法和物理打斷方法,其中所述化學方法包括酶切方法,所述物理打斷方法包括超聲波打斷方法或機械打斷方法。6.權利要求1所述的測序方法,其中所述純化回收方法包括但不限于電泳割膠回收,也可以是磁珠回收。7.權利要求1所述的測序方法,所述結合文庫接頭標簽技術,將打斷后的PCR產物文庫構建PCR-Free測序文庫是指使用m種文庫接頭給2)中得到的m個PCR產物文庫加上接頭,其中每一個PCR產物文庫使用一種不同的文庫接頭,從而構建m個接頭標簽測序文庫;將m個接頭標簽測序文庫等摩爾混合在一起構建混合接頭標簽測序文庫。其中連接文庫接頭的方法是指不通過PCR程序直接采用DNA連接酶進行連接。8.一組引物標簽,其包括表1所示95對引物標簽中的至少10對,或至少20對,或至少30對,或至少40對,或至少50對,至少60對,或至少70對,或至少80對,或至少90對,或95對(或者所述一組引物標簽由表1所示95對引物標簽中的10-95對(例如10-95對,20-95對,30-95對,40-95對,50-95對,60-95對,70-95對,80-95對,90-95對,或95對)組成),并且所述一組引物標簽優選地至少包括表1所示95對引物標簽中的PI-I至PI-10,或PI-Il至PI-20,或PI-21至PI-30,或PI-31至PI-40,或PI-41至PI-50,或PI-51至PI-60,或PI-61至PI-70,或PI-71至PI-80,或PI-81至PI-90,或PI-91至PI-95,或者它們任何兩個或者多個的組合。9.權利要求8所述的一組引物標簽用于PCR測序方法的用途,其中特別是,每一對引物標簽與用于擴增待測目的序列的PCR引物對組合成一對標簽引物,正反PCR引物的5’端分別具有(或者任選通過連接序列連接)正向引物標簽和反向引物標簽。10.權利要求9所述的用途,其中PCR引物是用于擴增HLA的特定基因的PCR引物,優選是用于擴增HLA-A/B的2,3,4號外顯子以及HLA-DRB12號外顯子的PCR引物,優選的所述PCR引物如表2所示。11.權利要求8的一組引物標簽與用于擴增待測目的序列的PCR引物對組合成的一組標簽引物,其中每一對引物標簽與PCR引物對組合成一對標簽引物,正反PCR引物的5’端各具有(或者任選通過連接序列連接)一個引物標簽。12.權利要求11所述的標簽引物,其中所述PCR引物是用于擴增HLA的特定基因的PCR引物,優選是用于擴增HLA-A/B的2,3,4號外顯子以及HLA-DRB12號外顯子的PCR引物,優選的所述PCR引物如表2所示。13.權利要求11所述的標簽引物用于PCR測序方法的用途。全文摘要本發明提供了提供了基于illuminaGA測序技術的HLA基因高分辨率分型方法,還提供了用于上述方法的引物標簽。文檔編號C12Q1/68GK101921841SQ201010213719公開日2010年12月22日申請日期2010年6月30日優先權日2010年6月30日發明者李劍,田埂,章文尉,蔣慧申請人:深圳華大基因科技有限公司