一種基于網絡的雙機環境下節點自動切換的方法
【技術領域】
[0001]本發明涉及一種節點自動切換的方法,具體地說是一種基于網絡的雙機環境下節點自動切換的方法。
【背景技術】
[0002]當下HPC高性能計算領域,數據量的飛速增長和計算作業對I/O帶寬的要求日益增加,NFS文件系統已經不能滿足網絡文件系統的需求。Lustre作為一款開源的并行文件系統,其強大的擴展性能已經廣泛應用于高性能計算集群環境中。
[0003]但隨著Lustre文件系統對容量和帶寬能夠滿足計算I/O帶寬需求的同時,Lustre服務器的壓力也逐漸增大,尤其是元數據服務器(MDS)。作為存儲Lustre元數據的節點,壓力越大,故障率也越高。高可用性對于集群的重要性不言而喻,不但維護集群硬件架構的穩定,減少故障的發生,而且能確保文件系統的穩定。一旦集群文件系統發生故障,對于集群是災難性的,帶來生產環境的中斷甚至數據的丟失,風險不言而喻。
【發明內容】
[0004]本發明的技術任務是提供一種基于網絡的雙機環境下節點自動切換的方法,來解決如何避免單點元數據服務器宕機導致整個Lustre文件系統的不可用的問題。
[0005]本發明的技術任務是按以下方式實現的,
一種基于網絡的雙機環境下節點自動切換的方法,所涉及到的硬件包括存儲服務器、InfiniBand交換機、以太網交換機、管理節點、備用管理節點、登陸節點、mds節點和oss節點,管理節點、備用管理節點、登陸節點均通過以太網交換機聯機到mdt節點和ost節點,存儲服務器通過以太網交換機分別連接到管理節點、備用管理節點、登陸節點、mdt節點和ost節點;所述方法包括如下步驟:
(1)、在所有mds節點和oss節點部署heartbeat服務;
(2)、根據集群實際環境修改ha.Cf文件代碼;
(3)、開啟heartbeat服務,查看是否所有1節點均運行了該服務;
(4)、不卸載Lustre分區,手動將MDS節點的以太網口down掉,觀察切換過程;
(5)、確認剩余恢復時間,待1:;[1116_代11^;[11;[呢計時完畢后,確認1^181^6分區仍舊正常。
[0006]mds節點包括MDSOl節點和MDS02節點,MDS01節點為mdt主節點,MDS02節點為mdt備用節點。
[0007]oss節點包括0SS01節點、0SS02節點、0SS03節點和0SS04節點;0SS01節點、0SS02節點、0SS03節點和0SS04節點均為ost掛載節點。
[0008]0SS01節點掛載ostOO和08切1;05502節點掛載08切2和08切3;05503節點掛載ost04 和 ost05 ;0SS04 節點掛載 ost06,ost07。
[0009]本發明的一種基于網絡的雙機環境下節點自動切換的方法具有以下優點:
1、通過該方法實時監控網絡心跳,雙機環境下當主節點由于故障失效時,心跳機制自動將主節點故障信號告知備用節點,備用節點自動接管主節點的服務或存儲空間的掛載。通過編寫腳本并部署到如Lustre文件系統中的MDS節點以及OSS節點,將這兩種節點的服務冗余化,實現mdt的不間斷工作,保證Lustre文件系統的正常工作;
2、該部署方式基于腳本部署,通過安裝相關服務在指定目錄下,定時檢測網絡環境,而自身僅占用少量系統資源。且通過對腳本的修改,可應用于多種不同HA環境,多種集群環境;
3、該應用部署后,不影響存儲及文件系統性能,占用存儲服務器資源小,在MDS活動節點切換后,mdt自動恢復可用性,無需手動操作;當OSS單點失效后,互為冗余的另一OSS自動接管失效的ost,自動掛載,并檢查可用性。待檢查完成,恢復原ost的讀寫。
【附圖說明】
[0010]下面結合附圖對本發明進一步說明。
[0011 ]附圖1為一種基于網絡的雙機環境下節點自動切換的方法的硬件結構框圖。
【具體實施方式】
[0012]參照說明書附圖和具體實施例對本發明的一種基于網絡的雙機環境下節點自動切換的方法作以下詳細地說明。
[0013]實施例1:
本發明的一種基于網絡的雙機環境下節點自動切換的方法,所涉及到的硬件包括存儲服務器、Inf iniBand交換機、以太網交換機、管理節點、備用管理節點、登陸節點、mds節點和oss節點,管理節點、備用管理節點、登陸節點均通過以太網交換機聯機到mdt節點和ost節點,存儲服務器通過以太網交換機分別連接到管理節點、備用管理節點、登陸節點、mdt節點和ost節點;所述方法包括如下步驟:
(1)、在所有mds節點和oss節點部署heartbeat服務;
(2)、根據集群實際環境修改ha.Cf文件代碼;
(3)、開啟heartbeat服務,查看是否所有1節點均運行了該服務;
(4)、不卸載Lustre分區,手動將MDS節點的以太網口down掉,觀察切換過程;
(5)、確認剩余恢復時間,待1:;[1116_代11^;[11;[呢計時完畢后,確認1^181^6分區仍舊正常。
[0014]mds節點包括MDSOl節點和MDS02節點,MDS01節點為mdt主節點,MDS02節點為mdt備用節點。
[0015]oss節點包括OSSOl節點、0SS02節點、0SS03節點和0SS04節點;OSSOl節點、0SS02節點、0SS03節點和0SS04節點均為ost掛載節點。
[0016]OSSOl節點掛載ostOO和08切1;05502節點掛載08切2和08切3;05503節點掛載ost04 和 ost05 ;0SS04 節點掛載 ost06,ost07。
[0017]步驟(2)中,ha.cf文件代碼為: keepalive 2
deadtime 30initdead 120
# define different udp port for different pairs #
udpport 694beast ethOuse—1gd offlogfile /var/log/ha-logauto—failback off#
#you must change here
#
node mdsOl mds02
ping 11.11.11.1 11.11.11.2
respawn hacluster /usr/lib64/heartbeat/ipfail#add stonith
#stonith—host md2 external/rackpdu
Sstonith external/rackpdu /etc/ha.d/rackpdu.conf0
[0018]步驟(4)中,觀察切換過程為查看MDS節點或OSS節點的: /proc/fs/lustre/mdt/lustre-MDTOOOO/recovery—status和 /proc/fs/lustre/obdfilter/lustre-OSTOOOO/recovery—status。
[0019]通過上面【具體實施方式】,所述技術領域的技術人員可容易的實現本發明。但是應當理解,本發明并不限于上述【具體實施方式】。在公開的實施方式的基礎上,所述技術領域的技術人員可任意組合不同的技術特征,從而實現不同的技術方案。
[0020]除說明書所述的技術特征外,均為本專業技術人員的已知技術。
【主權項】
1.一種基于網絡的雙機環境下節點自動切換的方法,其特征在于所涉及到的硬件包括存儲服務器、Inf iniBand交換機、以太網交換機、管理節點、備用管理節點、登陸節點、mds節點和oss節點,管理節點、備用管理節點、登陸節點均通過以太網交換機聯機到mdt節點和ost節點,存儲服務器通過以太網交換機分別連接到管理節點、備用管理節點、登陸節點、mdt節點和ost節點;所述方法包括如下步驟: (1)、在所有mds節點和oss節點部署heartbeat服務; (2)、根據集群實際環境修改ha.Cf文件代碼; (3)、開啟heartbeat服務,查看是否所有1節點均運行了該服務; (4)、手動將MDS節點的以太網口down掉,觀察切換過程; (5)、確認剩余恢復時間,待time_remaining計時完畢后,確認Lustre分區仍舊正常。2.根據權利要求1所述的一種基于網絡的雙機環境下節點自動切換的方法,其特征在于mds節點包括MDSOl節點和MDS02節點,MDSOl節點為mdt主節點,MDS02節點為mdt備用節點。3.根據權利要求1所述的一種基于網絡的雙機環境下節點自動切換的方法,其特征在于oss節點包括OSSOl節點、0SS02節點、0SS03節點和0SS04節點;OSSOl節點、0SS02節點、0SS03節點和0SS04節點均為ost掛載節點。4.根據權利要求3所述的一種基于網絡的雙機環境下節點自動切換的方法,其特征在于OSSOI節點掛載οst00和οstOI ; OSSO2節點掛載οst02和os t03 ; OSSO3節點掛載ost04和ost05 ;0SS04 節點掛載 ost06,ost07。
【專利摘要】本發明公開了一種基于網絡的雙機環境下節點自動切換的方法,屬于一種節點自動切換的方法,本發明解決如何避免單點元數據服務器宕機導致整個Lustre文件系統的不可用的問題。采用的技術方案為:管理節點、備用管理節點、登陸節點均通過以太網交換機聯機到mdt節點和ost節點,存儲服務器通過以太網交換機分別連接到管理節點、備用管理節點、登陸節點、mdt節點和ost節點;(1)、在所有mds節點和oss節點部署heartbeat服務;(2)、根據集群實際環境修改ha.cf文件代碼;(3)、開啟heartbeat服務,查看是否所有IO節點均運行了該服務;(4)、手動將MDS節點的以太網口down掉,觀察切換過程;(5)、確認剩余恢復時間,待time_remaining計時完畢后,確認Lustre分區仍舊正常。
【IPC分類】H04L12/24
【公開號】CN105634813
【申請號】CN201610000774
【發明人】宋辰
【申請人】浪潮電子信息產業股份有限公司
【公開日】2016年6月1日
【申請日】2016年1月4日