本發明公開一種服務器故障監控的方法,涉及服務器管理領域。
背景技術:
服務器,是提供計算服務的設備。由于服務器需要響應服務請求,并進行處理,因此一般來說服務器應具備承擔服務并且保障服務的能力。服務器的構成包括處理器、硬盤、內存、系統總線等,和通用的計算機架構類似,但是由于需要提供高可靠的服務,因此在處理能力、穩定性、可靠性、安全性、可擴展性、可管理性等方面要求較高。而今在競爭日益激烈的服務器市場中,服務器的可靠性成為越來越重要的指標。服務器出現故障后的停機時間是服務器可靠性的重要組成部分,一般服務器出現故障宕機后,往往需要客服人員手動觸發各模塊故障狀態收集,但常常由于多種因素,導致錯誤并發造成服務器故障狀態被破壞,無法獲取有效信息。
為了解決上述問題,本發明提供一種服務器故障監控的方法,使系統的管理模塊能在系統發生故障的瞬間感知故障,并實時收集故障狀態,同時也可以記錄下錯誤發送的順序,對故障定位提供有效的幫助,提高服務器的可靠性。
pch,platformcontrollerhub是intel公司的集成南橋。
gpiogeneralpurposei/o通用輸入/輸出,或總線擴展器,利用工業標準i2c、smbus或spi接口簡化了i/o口的擴展。當微控制器或芯片組沒有足夠的i/o端口,或當系統需要采用遠端串行通信或控制時,gpio產品能夠提供額外的控制和監視功能。
技術實現要素:
本發明針對目前服務器出現故障宕機后,往往需要客服人員手動觸發各模塊故障狀態收集,但常常由于多種因素,導致錯誤并發造成服務器故障狀態被破壞,無法獲取有效信息的問題,提供一種服務器故障監控的方法,對故障定位提供有效的幫助,提高服務器的可靠性。
一種服務器故障監控的方法,將系統元器件的特定管腳連接到系統管理模塊的gpio上,當系統元器件的特定管腳狀態發生變化時,管理模塊通過gpio獲取系統變化信息,判斷系統是否異常,若為系統異常,則收集系統故障狀態數據,并記錄日志。
所述系統元器件為cpu,將cpu的特定管腳連接到系統管理模塊的gpio上,當系統cpu的特定管腳狀態發生變化時,管理模塊通過gpio獲取系統變化信息,判斷系統是否異常,若為系統異常,則收集系統故障狀態數據,并記錄日志。
將cpu的caterr管腳連接到管理模塊的gpio上,當系統cpu的caterr管腳狀態發生變化時,管理模塊通過gpio獲取系統變化信息,判斷系統是否發生致命性錯誤,若為系統發生致命性錯誤,則收集系統故障狀態數據,并記錄日志。
還將cpu的err管腳連接到管理模塊的gpio上,當系統cpu的err管腳狀態發生變化時,管理模塊通過gpio獲取系統變化信息,判斷系統是否發生pcie錯誤,若為系統發生pcie錯誤,則收集系統故障狀態數據,并記錄日志。
所述系統元器件還包括pch,并將pch的warmreset管腳連接到管理模塊的gpio上,當pch的warmreset管腳狀態發生變化時,管理模塊通過與warmreset管腳相連的gpio獲取系統發生重啟信息,判斷系統是否為異常重啟,若是,則收集系統故障狀態數據,并記錄日志。
一種服務器故障監控系統,利用所述的方法對服務器系統進行改造而成,將服務器系統元器件的特定管腳連接到系統管理模塊的gpio上;當系統元器件的特定管腳狀態發生變化時,管理模塊通過gpio獲取系統變化信息,判斷系統是否異常,若為系統異常,則收集系統故障狀態數據,并記錄日志。
所述的元器件為cpu,將cpu的特定管腳連接到系統管理模塊的gpio上。
將系統cpu的caterr管腳和/或err管腳連接到管理模塊的gpio上。
所述的元器件還包括pch,將pch的warmreset管腳連接到管理模塊的gpio上。
本發明與現有技術相比具有的有益效果是:
本發明提供一種服務器故障監控的方法,將系統元器件的特定管腳連接到系統管理模塊的gpio上,當系統元器件的特定管腳狀態發生變化時,管理模塊通過gpio獲取系統變化信息,判斷系統是否異常,若為系統異常,則收集系統故障狀態數據,并記錄日志;使用本發明方法,只對系統做很少改變,卻使系統的管理模塊能在系統發生故障的瞬間感知故障,并實時收集故障狀態,同時還可以記錄下錯誤發送的順序,對故障定位提供有效的幫助,提高服務器的可靠性。
附圖說明
圖1本發明系統管腳連接示意圖;
圖2本發明方法流程示意圖。
圖1中w表示warmreset管腳,e表示err管腳,c表示caterr管腳。
具體實施方式
本發明提供一種服務器故障監控的方法,將系統元器件的特定管腳連接到系統管理模塊的gpio上,當系統元器件的特定管腳狀態發生變化時,管理模塊通過gpio獲取系統變化信息,判斷系統是否異常,若為系統異常,則收集系統故障狀態數據,并記錄日志。
同時提供一種服務器故障監控的系統,利用上述的方法對服務器系統進行改造而成。
為使本發明的目的、技術方案和優點更加清楚明白,以下結合具體實施例,對本發明進一步詳細說明。
利用本發明方法,對服務器系統進行改造,將系統元器件的特定管腳連接到系統管理模塊的gpio上,當系統元器件的特定管腳狀態發生變化時,管理模塊通過gpio可以獲取系統相應的變化信息,然后判斷系統是否異常,若為系統異常,則收集系統故障狀態數據,并記錄日志;
其中參考圖1,將各個cpu的caterr管腳連接到管理模塊的gpio上,當系統caterr管腳狀態發生變化時,即系統發生致命性錯誤時,管理模塊通過gpio感知,則收集cpu等模塊故障狀態,記錄致命錯誤日志;
同時可將各個cpu的err管腳連接到管理模塊的gpio上,當系統err管腳狀態發生變化時,即系統發生pcie錯誤時,管理模塊通過gpio感知,收集cpu等模塊故障狀態并記錄pcie錯誤日志;
除將cpu的特定管腳連接到管理模塊的gpio上外,還可將pch的warmreset管腳連接到管理模塊的gpio上,當系統發生重啟時,管理模塊通過與warmreset管腳相連的gpio感知,并判斷是否為異常重啟,若是,則收集系統cpu等模塊故障狀態并記錄異常重啟日志。
在上述實施例中,在主流錯誤場景下,即系統異常重啟,發生致命錯誤,發生pcie錯誤場景下,系統管理模塊可瞬間感知,自動記錄故障并收集故障狀態,能有效的提高故障定位效率。
除此之外,可根據實際情況選擇元器件的特定管腳連接到管理模塊的gpio上,對系統異常情況進行監控,使系統管理模塊可瞬間感知,自動記錄故障并收集故障狀態,能有效的提高故障定位效率。