一種服務器硬盤的維護方法、系統及服務器監控設備的制造方法
【技術領域】
[0001] 本發明涉及計算機技術領域,尤其涉及一種服務器硬盤的維護方法、系統及服務 器監控設備。
【背景技術】
[0002] 硬盤是服務器中相對故障率較高的部件,需要對服務器集群中的硬盤進行維護, 一般來說,對硬盤的維護包括兩方面內容:
[0003] -方面是對硬盤中存儲的數據的維護。
[0004] 為了避免出現硬盤故障導致數據丟失的情況,可通過諸如多副本存儲的方式,將 相同內容的數據分別存儲在多個服務器的硬盤中,即使某一個硬盤出現故障,導致故障硬 盤中存儲的數據丟失,但是丟失的數據在其他硬盤中的存儲仍然能夠保證數據的完整性和 可用性;同時,當服務器集群中的管理設備檢測出故障硬盤(即管理設備將無法讀寫的硬盤 作為故障硬盤)時,可在其他可用的硬盤中重構故障硬盤中丟失的數據,確保服務器集群中 該數據始終有多副本的存儲,保證數據存儲的安全性。
[0005] 另一方面是硬盤的硬件維護。
[0006] 當服務器集群中出現故障的硬盤累計到一定數量后,服務器集群的管理人員將對 故障的硬盤進行批量更換。此時,可能出現在服務器集群中故障硬盤的總量并不多,無需進 行批量更換,但某一服務器中卻有若干個故障硬盤,導致該服務器由于故障硬盤數量多出 現了存儲容量吃緊的問題。
[0007] 由于支持熱插拔的服務器的硬盤密度較低,因此,一般采用不支持熱插拔的服務 器,所謂不支持熱插拔,就是當更換服務器中故障硬盤時,需要將故障硬盤所在的服務器下 電,同時,需對下電的服務器中原本正常運行的硬盤中的數據進行異地重構。按照批量更換 故障硬盤的方式對硬盤進行維護時,如果一次性有多臺服務器下電,就需要在短時間內對 大量的原本正常運行的硬盤中的數據進行異地重構,這會對整個服務器集群和通信網絡造 成強烈沖擊,不利于服務器集群和通信網絡的穩定性。
【發明內容】
[0008] 本發明實施例提供一種服務器硬盤的維護方法、系統及服務器監控設備,用以解 決現有技術中存在的服務器由于故障硬盤數量多出現了存儲容量吃緊,以及短時間內進行 大量異地重構而對整個服務器集群和通信網絡造成強烈沖擊的問題。
[0009] 本發明實施例采用以下技術方案:
[0010] 一種服務器硬盤的維護方法,所述方法包括:
[0011] 獲取服務器集群中各服務器的硬盤狀態信息,所述硬盤狀態信息包括服務器中故 障硬盤的數量和未故障硬盤的運行狀態;
[0012] 根據各服務器的硬盤狀態信息和預設的下電維護條件,確定需要進行下電維護的 服務器;
[0013] 向確定的服務器發送下電指示消息,使接收到下電指示消息的服務器進行下電維 護。
[0014] 在本發明實施例中,避免了當某一服務器的故障硬盤較多但服務器集群的故障硬 盤數不滿足批量更換條件的情況下,不對該服務器進行硬盤維護導致該服務器的容量吃緊 的問題;同時,還將服務器的維護過程變得分散,相較于批量更換硬盤時,避免大量的數據 重構操作對服務器集群和通信網絡造成的沖擊,有利于服務器集群和通信網絡的穩定性。
[0015] 優選地,根據服務器的硬盤狀態信息和預設的下電維護條件,確定需要進行下電 維護的服務器,具體包括:
[0016] 在所述下電維護條件為服務器的硬盤可用率未達到設定門限值時,將可用率未達 到所述設定門限值的服務器確定為需要進行下電維護的服務器;
[0017] 服務器的硬盤可用率通過以下公式確定:
【主權項】
1. 一種服務器硬盤的維護方法,其特征在于,所述方法包括: 獲取服務器集群中各服務器的硬盤狀態信息,所述硬盤狀態信息包括服務器中故障硬 盤的數量和未故障硬盤的運行狀態; 根據各服務器的硬盤狀態信息和預設的下電維護條件,確定需要進行下電維護的服務 器; 向確定的服務器發送下電指示消息,使接收到下電指示消息的服務器進行下電維護。
2. 如權利要求1所述的方法,其特征在于,根據服務器的硬盤狀態信息和預設的下電 維護條件,確定需要進行下電維護的服務器,具體包括: 在所述下電維護條件為服務器的硬盤可用率未達到設定門限值時,將可用率未達到所 述設定門限值的服務器確定為需要進行下電維護的服務器; 服務器的硬盤可用率通過以下公式確定:
其中,AR為服務器的硬盤可用率;Pi%為第i個未故障硬盤出現故障的概率;所述未故 障硬盤出現故障的概率是根據未故障硬盤的運行狀態確定的;M為服務器的硬盤總數;N為 故障硬盤的數量。
3. 如權利要求1所述的方法,其特征在于,根據服務器的硬盤狀態信息和預設的下電 維護條件,確定需要進行下電維護的服務器,具體包括: 判斷服務器中故障硬盤的數量是否達到第一設定閾值,若到達,則確定該服務器需要 進行下電維護; 若未達到,則根據未故障硬盤的運行狀態確定未故障硬盤出現故障的概率,判斷未故 障硬盤出現故障的概率平均值是否達到第二設定閾值,若達到第二設定閾值,則確定該服 務器需要進行下電維護,若未達到第二設定閾值,則確定該服務器無需進行下電維護。
4. 如權利要求1~3任一所述的方法,其特征在于,所述方法還包括: 接收所述服務器返回的響應消息,所述響應消息是服務器將本地的未故障硬盤標記為 故障后返回的; 通過所述服務器的智能平臺管理接口,控制所述服務器下電。
5. 如權利要求1~3任一所述的方法,其特征在于,所述方法還包括: 在所述服務器在下電前,服務器中未故障硬盤中的數據進行異地重構;或者在所述服 務器下電后,服務器中未故障硬盤中的數據進行異地重構。
6. -種服務器硬盤的維護系統,其特征在于,所述系統包括: 服務器監控設備,用于獲取服務器集群中各服務器的硬盤狀態信息,并根據各服務器 的硬盤狀態信息和預設的下電維護條件,確定需要進行下電維護的服務器,以及向確定的 服務器發送下電指示消息,使接收到下電指示消息的服務器進行下電維護,所述硬盤狀態 信息包括服務器中故障硬盤的數量和未故障硬盤的運行狀態; 服務器,用于在接收到的下電指示消息后下電。
7. 如權利要求6所述的系統,其特征在于, 所述服務器監控設備,具體用于在所述下電維護條件為服務器的硬盤可用率未達到 設定門限值時,將可用率未達到所述設定門限值的服務器確定為需要進行下電維護的服務 器; 所述服務器的硬盤可用率通過以下公式確定:
其中,AR為服務器的硬盤可用率;Pi%為第i個未故障硬盤出現故障的概率;所述未故 障硬盤出現故障的概率是根據未故障硬盤的運行狀態確定的;M為服務器的硬盤總數;N為 故障硬盤的數量。
8. 如權利要求6所述的系統,其特征在于, 所述服務器監控設備,具體用于判斷服務器中故障硬盤的數量是否達到第一設定閾 值,若到達,則確定該服務器需要進行下電維護; 若未達到,則根據未故障硬盤的運行狀態確定未故障硬盤出現故障的概率,判斷未故 障硬盤出現故障的概率平均值是否達到第二設定閾值,若達到第二設定閾值,則確定該服 務器需要進行下電維護,若未達到第二設定閾值,則確定該服務器無需進行下電維護。
9. 如權利要求6~8任一所述的系統,其特征在于, 所述服務器,還用于將本地的未故障硬盤標記為故障后,向所述服務器監控設備返回 響應消息; 所述服務器監控設備,還用于在接收到所述服務器返回的響應消息時,通過所述服務 器的智能平臺管理接口,控制所述服務器下電。
10. 如權利要求6~8任一所述的系統,其特征在于,所述系統還包括: 服務器管理設備,用于在所述服務器下電前,針對服務器中未故障硬盤中的數據進行 異地重構;或者在所述服務器下電后,針對服務器中未故障硬盤中的數據進行異地重構。
11. 一種服務器監控設備,其特征在于,所述設備包括: 信息獲取單元,用于獲取服務器集群中各服務器的硬盤狀態信息,所述硬盤狀態信息 包括服務器中故障硬盤的數量和未故障硬盤的運行狀態; 確定單元,用于根據各服務器的硬盤狀態信息和預設的下電維護條件,確定需要進行 下電維護的服務器; 發送單元,用于向確定的服務器發送下電指示消息,使接收到下電指示消息的服務器 進行下電維護。
12. 如權利要求11所述的設備,其特征在于, 所述確定單元,具體用于在所述下電維護條件為服務器的硬盤可用率未達到設定門限 值時,將可用率未達到所述設定門限值的服務器確定為需要進行下電維護的服務器; 所述服務器的硬盤可用率通過以下公式確定:
其中,AR為服務器的硬盤可用率;Pi%為第i個未故障硬盤出現故障的概率;所述未故 障硬盤出現故障的概率是根據未故障硬盤的運行狀態確定的;M為服務器的硬盤總數;N為 故障硬盤的數量。
13. 如權利要求11所述的設備,其特征在于, 所述確定單元,具體用于判斷服務器中故障硬盤的數量是否達到第一設定閾值,若到 達,則確定該服務器需要進行下電維護,若未達到,則根據未故障硬盤的運行狀態確定未故 障硬盤出現故障的概率,判斷未故障硬盤出現故障的概率平均值是否達到第二設定閾值, 若達到第二設定閾值,則確定該服務器需要進行下電維護,若未達到第二設定閾值,則確定 該服務器無需進行下電維護。
14.如權利要求11~13任一所述的設備,其特征在于,所述設備還包括: 接收單元,用于接收所述服務器返回的響應消息,所述響應消息是服務器將本地的未 故障硬盤標記為故障后返回的; 控制單元,用于通過所述服務器的智能平臺管理接口,控制所述服務器下電。
【專利摘要】本發明公開了一種服務器硬盤的維護方法、系統及服務器監控設備,主要內容包括:針對服務器集群中各服務器的硬盤使用狀態來對服務器的硬盤進行計劃內的維護,即:通過采集服務器集群中各服務器的硬盤狀態信息,對服務器的硬盤狀態進行監控,不論當前服務器集群中硬盤的整體狀態如何,都可以在出現硬盤狀態較差的服務器時,根據預設的下電維護條件,對該服務器進行硬盤維護。從而避免了當某一服務器的故障硬盤較多但服務器集群的故障硬盤數不滿足批量更換條件時,不對該服務器進行硬盤維護而導致該服務器的容量吃緊的問題;同時,還將服務器的維護過程變得分散,相較于批量更換硬盤時,避免大量的數據重構操作對服務器集群和通信網絡造成沖擊,有利于服務器集群和通信網絡的穩定性。
【IPC分類】G06F11-22
【公開號】CN104679623
【申請號】CN201310629347
【發明人】唐華斌, 鄧超, 郁志強
【申請人】中國移動通信集團公司
【公開日】2015年6月3日
【申請日】2013年11月29日