基于多核cpu和gpgpu硬件的高通量測序數據質量控制系統的制作方法
【專利摘要】“基于多核CPU和GPGPU硬件的高通量測序數據質量控制系統”是針對傳統計算機無法滿足對海量高通量測序數據進行質量控制的分析要求,根據高通量測序數據處理中海量數據可并行處理的特點,提出一種基于多核CPU和GPGPU(通用并行處理器)硬件的、軟硬件方法相結合的計算分析系統。基于多核CPU和GPGPU硬件的高通量測序數據質量控制系統的主要模塊包括:多核CPU和GPGPU計算機以及統一的軟件平臺。其特點是(1)高性能并行計算和存儲硬件系統,(2)高性能、統一的、可配置的軟件平臺。基于多核CPU和GPGPU硬件的高通量測序數據質量控制處理可以顯著提高高通量測序數據質量控制的分析效率。
【專利說明】基于多核CPU和GPGPU硬件的高通量測序數據質量控制系統
【技術領域】
[0001]本發明專利涉及一種用于生物信息學高通量測序數據質量控制的軟硬件結合的計算機分析系統,尤其是能夠快速的對高通量測序數據進行質量控制。
【背景技術】
[0002]高通量測序技術又稱“下一代”測序技術,是對傳統測序一次革命性的改變,能夠一次對幾十萬到幾百萬條DNA/RNA分子進行序列測定,使得對一個物種的轉錄組,基因組以及微生物群落的元基因組進行細致全貌的分析成為可能,越來越廣泛地應用于生物學及相關研究中。
[0003]與傳統的Sanger測序技術相比,新一代測序技術的通量提高了一到兩個數量級,能夠較經濟地對基因組進行高倍率的序列覆蓋,數據量更多(100MB至數G)。隨著高通量測序儀器性能的逐漸穩定和價格的不斷下降,其應用必然會越來越廣泛,尤其是小型化的測序儀器的廣泛應用,因此基于高通量測序數據的研究將會在數量上和應用領域上呈現井噴式的快速發展趨勢。由于高通量測序技術本身的限制及人為實驗的操作誤差,原始生成的高通量測序數據往往含有部分低質量序列,包括低質量堿基和污染序列等。這些低質量序列的存在將會極大地影響后續數據分析的結果,甚至將導致錯誤結果和結論。因此,質量控制是進行高通量測序數據分析必須的關鍵步驟之一。由于高通量測序數據往往具有上億條序列和幾百G的數據量,所以對應于高通量測序數據的質量控制,必須有具有相當運算能力的超級計算機和相應的分析軟件來實現。采用目前的普通分析方法利用單一的CPU計算機對幾億條序列進行逐條掃描并歸類統計,可能需要數天甚至一個月的時間,使數據分析成為了相關研究中的一大瓶頸。下一代測序技術所產生的高通量數據的質量控制問題給廣大研究人員在基于高通量測序數據的研究方面設置了硬件和技術方面的障礙。
【發明內容】
[0004]為了克服傳統計算機和分析方法無法滿足高通量測序數據分析要求這一不足,本發明根據高通量測序數據處理中數據可并行處理的特點,提出一種基于多核CPU和GPGPU(通用并行處理器)硬件的、軟硬件方法相結合的高通量測序數據質量控制系統。
[0005]本發明采用的技術方案是多核CPU和GPGPU計算機以及構筑于其上的高效、統一的軟件平臺(圖1)。其特點是(I)高性能并行計算和存儲硬件系統;(2)高性能、統一的、可配置的并行化軟件平臺。
[0006](I)高性能并行計算和存儲硬件
[0007]該硬件系統采用多路多核CPU和GPGPU進行大規模并行化計算。圖2是計算服務器的系統結構圖。其重點是:
[0008]首先,多路多核CPU并行化計算,采用4路處理器,處理器之間采用QPI總線連接。每路處理器具有8個獨立計算核心,配備三通道DDR3 RDIMM內存,并且適應于智能化的計算資源配置和負載平衡控制,同時也適應于云計算服務器的計算要求。
[0009]其次,GPGPU協助計算芯片的多尺度并行化計算能力:448個流處理器和高達1.03Tflops的單精度計算峰值,板載6GB存儲器,同時可以在適當的情況下應付交互性和可視化方面的需求。
[0010]第三,高速緩存和高速總線:適應于并發式的測序數據分析任務的調配和協同工作環境在大規模任務分配上的需要。
[0011]最后,RAID磁盤陣列:通過RAID磁盤陣列存儲,不但提高中心服務器的響應速度和穩定性,而且有利于不定期的中心服務器更新。同時可應付云計算服務器的備份和升級需要。
[0012](2)高性能、統一的、可配置的軟件平臺
[0013]高性能的軟件平臺包括低質量數據處理、污染序列的定性鑒定和污染序列的定量鑒定(圖 3)。此系統被命名為 QC-Chain 軟件系統(http://www.computationalbioenergy.0rR/qc-chain.html,自主知識產權),其高性能數據分析步驟是:
[0014]首先,低質量數據處理是基于多核CPU并行計算。將輸入文件分割成小規模子數據,將不同的子數據分配到不同的CPU內核上,然后在眾多CPU內核上同時預測子序列的堿基質量、重復序列和接頭序列,并依次切除序列兩端的低質量堿基,過濾含有一定比例低質量堿基的序列,刪除其中的接頭序列和重復序列,最后將過濾后的數據結果合并到一起。
[0015]其次,污染序列的定性鑒定是基于多核CPU和GPGPU并行計算。利用Parallel-META 軟件(http://www.computationalbioenergy.0rg/parallel-meta.html,自主知識產權),對于16S或ISSrRNA特征序列(一種較短的生物標記序列)進行預測、提取和鑒定,定性地獲得高通量測序數據中所有序列的物種來源信息。首先,將輸入文件分割成小規模子數據,將不同的子數據分配到不同的GPGPU內核上,然后在眾多GPGPU內核上同時預測子序列的16S或18S rRNA特征序列,最后將特征序列預測結果合并到一起;然后,根據特征序列預測結果多次將大規模輸入數據從外存儲器中載入內存并查找提取。將輸入文件分割成小規模的子文件,將不同的子文件分配到不同的線程上,在不同的線程上同時搜索子文件中的rRNA特征序列,最后將搜索結果合并。最后,分別將16S rRNA和18S rRNA特征序列的搜索結果匯總到一起,并生成圖形化的物種結構組成,從而獲得高通量測序數據中所有可能存在的物種信息。
[0016]第三,污染序列的定量鑒定是基于多核CPU并行計算。隨機地提取一定比例的高通量測序數據中的序列,并利用通用的序列比對方法(BLASTn),定量的獲得高通量測序數據中所有序列的物種來源信息及其分布比例。將輸入文件分割成小規模的子文件,將不同的子文件分配到不同的線程上,在不同的線程上同時提取一定比例的序列,最后將提取的序列合并。
[0017]因此本軟件平臺依賴于多核CPU和GPGPU硬件平臺,只有相互配合才能夠發揮高效率高通量測序數據質量控制的功能。
[0018]本發明的有益效果是,QC-Chain軟件系統與基于多核CPU和GPGPU硬件計算機相配合,克服了基于單核CPU硬件計算機的計算瓶頸,可以使高通量測序數據質量控制效率提高10倍以上。本發明的應用將會加快高通量測序數據質量控制的進度,進而提速高通量測序相關的研究。【專利附圖】
【附圖說明】
[0019]圖1、基于多核CPU和GPGPU硬件的高通量測序數據質量控制系統的總體流程。
[0020]圖2、基于多核CPU和GPGPU和硬件的高通量測序數據質量控制系統的硬件架構。其主要部分是:第一,4路多核心CPU的多尺度并行化計算能力,每路CPU具備獨立8個計算核心,并具有三通道內存。第二,GPGPU協助計算芯片具備448個流處理器和高達1.03Tflops的單精度計算峰值,板載6GB存儲器。第三,高速緩存和高速總線。第四,RAID磁盤陣列,不但提高中心服務器的響應速度和穩定性,而且有利于不定期的中心服務器更新。
[0021]圖3、基于多核CPU和GPGPU硬件的高通量測序數據質量控制系統的軟件流程。其流程主要步驟是:首先,使用多核CPU對通量測序數據序列進行處理,依次切除輸入數據序列兩端的低質量堿基,過濾含有一定比例低質量堿基的序列,刪除其中的接頭序列和重復序列,然后將結果合并起來,作為高質量序列數據。然后,對于上一步得到的數據進行污染序列的定性檢測,使用并行化多線程計算工具,提取rRNA序列(16S或18S),并映射到已知基因序列數據庫(如GreenGenes、RDP、SilVa數據庫)上,獲得所有序列的物種來源信息。最后,通過并行化算法隨機提取一定數量的序列,利用blast算法獲得序列比對的結果和,同時統計其中各個物種的相對豐度。綜合上述結果,生成圖形化分析結果和分析報告。
【具體實施方式】
[0022]在圖1中,軟件必須和硬件兼容,因此軟件版本可向下兼容硬件。
[0023]在圖2中,基于多核CPU和GPGPU硬件的高通量測序數據質量控制系統的計算和存儲硬件基本配置是:單路CPU至少具備4個獨立物理計算核心,包含GPGPU(通用并行處理器)運行硬件(至少為G80以上架構),雙通道內存2GB以上,硬盤至少50G以上。CPU、GPGPU和存儲之間高速互聯。
[0024]在圖3中,基于多核CPU和GPGPU硬件的高通量測序數據質量控制系統的軟件平臺基本配置是=Linux操作系統,預裝GCC運行環境、CUDA運行環境(3.0以上)、QC-Chain軟件系統版本1.0以上,Parallel-META軟件版本2.0以上。QC-Chain軟件系統與Parallel-META軟件系統的運行界面為命令行形式,配電子版使用說明。同時官方網站(http://www.computationalbioenergy.0rg/software, html)提供長期軟件更新服務。
【權利要求】
1.一種軟硬件結合的計算機高通量測序數據質量控制系統,其特征是:系統包含計算機硬件和基于其上的軟件系統,輸入是在任何存儲介質上保留的高通量測序數據文件,輸出去除低質量序列和污染序列的定性及定量信息。
2.根據權利要求1所述的計算機高通量測序數據質量控制系統,其特征是:計算機硬件系統包括GPGPU硬件、多核CPU硬件、存儲介質等,是一個完整的計算機硬件系統。
3.根據權利要求1所述的高通量測序數據質量控制系統,其特征是:計算機軟件系統包括與多核CPU以及GPGPU硬件系統兼容的完整的高通量測序數據質量控制分析軟件,是一個完整的計算機軟件分析系統;該軟件系統的運行界面為命令行形式,輸出結果為網頁形式的文檔、圖片以及文本形式,配電子版使用說明。
【文檔編號】G06F19/20GK103838985SQ201210478392
【公開日】2014年6月4日 申請日期:2012年11月22日 優先權日:2012年11月22日
【發明者】周茜, 寧康, 蘇曉泉, 徐健 申請人:中國科學院青島生物能源與過程研究所