一種基于申威平臺的高性能計算作業(yè)管理實現(xiàn)方法
【專利摘要】一種基于申威平臺的高性能計算作業(yè)管理實現(xiàn)方法,通過采用N臺申威計算機構(gòu)建集群,其中1臺申威計算機作為控制節(jié)點;剩余申威計算機作為計算節(jié)點;控制節(jié)點和各個計算節(jié)點通過PCIE總線擴展高速通信設(shè)備接口,并通過光纜與交換機相連,以此構(gòu)建控制節(jié)點與計算節(jié)點間的高速通信網(wǎng)絡(luò);在控制節(jié)點與計算節(jié)點中對MPI庫進行修改編譯,使其能夠應(yīng)用于申威平臺,進而部署MPI并行程序執(zhí)行環(huán)境;在控制節(jié)點與計算節(jié)點中對作業(yè)管理軟件進行修改編譯,使其可以適用于申威平臺;用戶在控制節(jié)點中提交并行作業(yè),通過作業(yè)管理軟件將作業(yè)分發(fā)于各個計算節(jié)點,各個計算節(jié)點執(zhí)行完相關(guān)任務(wù)后,由控制節(jié)點完成相關(guān)的處理。具有設(shè)計科學(xué)、使用方便等優(yōu)點,可在國產(chǎn)化計算機服務(wù)器領(lǐng)域尤其是申威平臺中實現(xiàn),便于推廣使用,并可以應(yīng)用于航空、衛(wèi)星等領(lǐng)域。
【專利說明】
一種基于申威平臺的高性能計算作業(yè)管理實現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機服務(wù)器通信【技術(shù)領(lǐng)域】,具體涉及一種基于申威平臺的高性能計算作業(yè)管理實現(xiàn)方法。
【背景技術(shù)】
[0002]高性能計算(HPC)集群通常是把一個作業(yè)分成若干可以并行執(zhí)行的子任務(wù),使每個子任務(wù)分別在獨立的計算節(jié)點中執(zhí)行,從而提高集群中作業(yè)的執(zhí)行效率。其中,作業(yè)的提交和分配,需要專門的作業(yè)調(diào)度來完成。而目前,在國產(chǎn)化計算機服務(wù)器等自主領(lǐng)域,尤其是申威平臺中,其運算性能還比較低,與國外先進計算機系統(tǒng)相比還具有較大的差距。因此,在申威平臺中,采用高性能計算作業(yè)管理方法來提高其計算效率凸顯重要。
[0003]申威處理器或申威CPU,簡稱“SW處理器”。SW處理器源自于DEC的Alpha 21164,其研制得到了國家“核高基”專項資金支持。在國家“核高基”重大專項支持下、采用自主指令集,具體負責(zé)研發(fā)的單位是江南計算機所屬于軍方研究機構(gòu)(總參56所),且具有完全自主知識產(chǎn)權(quán)的處理器系列。
【發(fā)明內(nèi)容】
[0004]本發(fā)明要解決的技術(shù)問題是:本發(fā)明提供一種基于申威平臺的高性能計算作業(yè)管理實現(xiàn)方法。
[0005]本發(fā)明所采用的技術(shù)方案為:
一種基于申威平臺的高性能計算作業(yè)管理實現(xiàn)方法,通過采用N臺申威計算機構(gòu)建集群,其中I臺申威計算機作為控制節(jié)點;剩余申威計算機作為計算節(jié)點;控制節(jié)點和各個計算節(jié)點通過PCIE總線擴展高速通信設(shè)備接口,并通過光纜與交換機相連,以此構(gòu)建控制節(jié)點與計算節(jié)點間的高速通信網(wǎng)絡(luò);在控制節(jié)點與計算節(jié)點中對MPI庫進行修改編譯,使其能夠應(yīng)用于申威平臺,進而部署MPI并行程序執(zhí)行環(huán)境;在控制節(jié)點與計算節(jié)點中對作業(yè)管理軟件進行修改編譯,使其可以適用于申威平臺;用戶在控制節(jié)點中提交并行作業(yè),通過作業(yè)管理軟件將作業(yè)分發(fā)于各個計算節(jié)點,各個計算節(jié)點執(zhí)行完相關(guān)任務(wù)后,由控制節(jié)點完成相關(guān)的處理。
[0006]所述方法執(zhí)行步驟如下:
1)通過申威計算機的PCIE總線擴展高速通信設(shè)備接口,并且通過光纜與交換機相連,完成數(shù)據(jù)通信網(wǎng)絡(luò)的構(gòu)建;
2)在控制節(jié)點與計算節(jié)點中對MPI庫進行修改編譯,使其能夠應(yīng)用于申威平臺,進而部署MPI并行程序執(zhí)行環(huán)境;
3)在控制節(jié)點中通過修改作業(yè)管理軟件,部署可用于申威平臺的專用戶服務(wù)器(server)、作業(yè)調(diào)度器(sched)、作業(yè)執(zhí)行器(mom);
4)在計算節(jié)點中修改專用作業(yè)管理軟件,部署可用于申威平臺的作業(yè)執(zhí)行器(mom);
5)用戶在控制節(jié)點中通過采用qsub命令將作業(yè)提交,用戶服務(wù)器(server)接收到作業(yè)后,通過作業(yè)調(diào)度器(sched)將作業(yè)通過作業(yè)執(zhí)行器(mom)分發(fā)給各個計算節(jié)點,以此來提聞作業(yè)的運行效率;
6)通過采用qstat命令,查看各個計算節(jié)點中的作業(yè)執(zhí)行情況,進而將新的作業(yè)分配給作業(yè)執(zhí)行較少的計算節(jié)點,進而提高執(zhí)行效率。
[0007]所述高速通信設(shè)備接口為infiniband接口,所述交換機為infiniband交換機。
[0008]注:InfiniBand架構(gòu)是一種支持多并發(fā)鏈接的“轉(zhuǎn)換線纜”技術(shù),在這種技術(shù)中,每種鏈接都可以達到2.5 Gbps的運行速度。這種架構(gòu)在一個鏈接的時候速度是500 MB/秒,四個鏈接的時候速度是2 GB/秒,12個鏈接的時候速度可以達到6 GB /秒。
[0009]MPI是多點接口(Multi Point Interface)的簡稱,是西門子公司開發(fā)的用于PLC之間通訊的保密的協(xié)議。
[0010]本發(fā)明的有益效果為:本發(fā)明一種基于申威平臺的高性能計算作業(yè)管理實現(xiàn)方法,具有設(shè)計科學(xué)、使用方便等優(yōu)點,可在國產(chǎn)化計算機服務(wù)器領(lǐng)域尤其是申威平臺中實現(xiàn),便于推廣使用,并可以應(yīng)用于航空、衛(wèi)星等領(lǐng)域。
【專利附圖】
【附圖說明】
[0011]圖1為本發(fā)明的高性能計算結(jié)構(gòu)框圖;
圖2為本發(fā)明的作業(yè)管理工作流程圖。
【具體實施方式】
[0012]下面參照附圖所示,通過【具體實施方式】對本發(fā)明進一步說明:
一種基于申威平臺的高性能計算作業(yè)管理實現(xiàn)方法,通過采用N臺申威計算機構(gòu)建集群,其中I臺申威計算機作為控制節(jié)點;剩余申威計算機作為計算節(jié)點;控制節(jié)點和各個計算節(jié)點通過PCIE總線擴展高速通信設(shè)備接口,并通過光纜與交換機相連,以此構(gòu)建控制節(jié)點與計算節(jié)點間的高速通信網(wǎng)絡(luò);在控制節(jié)點與計算節(jié)點中對MPI庫進行修改編譯,使其能夠應(yīng)用于申威平臺,進而部署MPI并行程序執(zhí)行環(huán)境;在控制節(jié)點與計算節(jié)點中對作業(yè)管理軟件進行修改編譯,使其可以適用于申威平臺;用戶在控制節(jié)點中提交并行作業(yè),通過作業(yè)管理軟件將作業(yè)分發(fā)于各個計算節(jié)點,各個計算節(jié)點執(zhí)行完相關(guān)任務(wù)后,由控制節(jié)點完成相關(guān)的處理。
[0013]所述方法執(zhí)行步驟如下:
1)如圖1所示,通過申威計算機的PCIE總線擴展高速通信設(shè)備接口,并且通過光纜與交換機相連,完成數(shù)據(jù)通信網(wǎng)絡(luò)的構(gòu)建;
2)在控制節(jié)點與計算節(jié)點中對MPI庫進行修改編譯,使其能夠應(yīng)用于申威平臺,進而部署MPI并行程序執(zhí)行環(huán)境;
3)在控制節(jié)點中通過修改作業(yè)管理軟件,部署可用于申威平臺的專用戶服務(wù)器(server)、作業(yè)調(diào)度器(sched)、作業(yè)執(zhí)行器(mom);
4)在計算節(jié)點中修改專用作業(yè)管理軟件,部署可用于申威平臺的作業(yè)執(zhí)行器(mom);
5)如圖2所示,用戶在控制節(jié)點中通過采用qsub命令將作業(yè)提交,用戶服務(wù)器(server)接收到作業(yè)后,通過作業(yè)調(diào)度器(sched)將作業(yè)通過作業(yè)執(zhí)行器(mom)分發(fā)給各個計算節(jié)點,以此來提高作業(yè)的運行效率; 6)通過采用qstat命令,查看各個計算節(jié)點中的作業(yè)執(zhí)行情況,進而將新的作業(yè)分配給作業(yè)執(zhí)行較少的計算節(jié)點,進而提高執(zhí)行效率。
[0014]所述高速通信設(shè)備接口為infiniband接口,所述交換機為infiniband交換機。
【權(quán)利要求】
1.一種基于申威平臺的高性能計算作業(yè)管理實現(xiàn)方法,其特征在于:通過采用N臺申威計算機構(gòu)建集群,其中I臺申威計算機作為控制節(jié)點;剩余申威計算機作為計算節(jié)點;控制節(jié)點和各個計算節(jié)點通過PCIE總線擴展高速通信設(shè)備接口,并通過光纜與交換機相連,以此構(gòu)建控制節(jié)點與計算節(jié)點間的高速通信網(wǎng)絡(luò);在控制節(jié)點與計算節(jié)點中對MPI庫進行修改編譯,使其能夠應(yīng)用于申威平臺,進而部署MPI并行程序執(zhí)行環(huán)境;在控制節(jié)點與計算節(jié)點中對作業(yè)管理軟件進行修改編譯,使其可以適用于申威平臺;用戶在控制節(jié)點中提交并行作業(yè),通過作業(yè)管理軟件將作業(yè)分發(fā)于各個計算節(jié)點,各個計算節(jié)點執(zhí)行完相關(guān)任務(wù)后,由控制節(jié)點完成相關(guān)的處理。
2.根據(jù)權(quán)利要求1所述的一種基于申威平臺的高性能計算作業(yè)管理實現(xiàn)方法,其特征在于,所述方法執(zhí)行步驟如下: 1)通過申威計算機的PCIE總線擴展高速通信設(shè)備接口,并且通過光纜與交換機相連,完成數(shù)據(jù)通信網(wǎng)絡(luò)的構(gòu)建; 2)在控制節(jié)點與計算節(jié)點中對MPI庫進行修改編譯,使其能夠應(yīng)用于申威平臺,進而部署MPI并行程序執(zhí)行環(huán)境; 3)在控制節(jié)點中通過修改作業(yè)管理軟件,部署可用于申威平臺的專用戶服務(wù)器、作業(yè)調(diào)度器、作業(yè)執(zhí)行器; 4)在計算節(jié)點中修改專用作業(yè)管理軟件,部署可用于申威平臺的作業(yè)執(zhí)行器; 5)用戶在控制節(jié)點中通過采用qsub命令將作業(yè)提交,用戶服務(wù)器接收到作業(yè)后,通過作業(yè)調(diào)度器將作業(yè)通過作業(yè)執(zhí)行器分發(fā)給各個計算節(jié)點,以此來提高作業(yè)的運行效率; 6)通過采用qstat命令,查看各個計算節(jié)點中的作業(yè)執(zhí)行情況,進而將新的作業(yè)分配給作業(yè)執(zhí)行較少的計算節(jié)點,進而提高執(zhí)行效率。
3.根據(jù)權(quán)利要求1或2所述的一種基于申威平臺的高性能計算作業(yè)管理實現(xiàn)方法,其特征在于:所述高速通信設(shè)備接口為infiniband接口,所述交換機為infiniband交換機。
【文檔編號】H04L29/08GK104268014SQ201410555905
【公開日】2015年1月7日 申請日期:2014年10月20日 優(yōu)先權(quán)日:2014年10月20日
【發(fā)明者】陳亮甫, 吳登勇 申請人:山東超越數(shù)控電子有限公司