專利名稱:一種計算機風扇故障容忍及處置的方法
技術領域:
本發明涉及一種計算機應用技術領域,具體地說是一種計算機風扇故障容忍及處置的方法。
背景技術:
隨著計算機事業的飛速發展,多核心處理器;大容量的內存及存儲單元;高速的 IO擴展設備,越來越廣泛的應用于金融,軍工,科研等各各領域。當然這些高科技的應用會給計算機帶來更高的功耗,與此同時也為系統的散熱增加了壓力。這就要求當前計算機的風扇系統必須足夠穩定可罪。傳統的計算機中,個別風扇一旦損壞,散熱系統立即惡化,計算機通常會遭遇死機或shutdown ;業界也有許多高端計算機產品采用風扇的冗余設計,確實保障了風扇系統的高可靠性,但是其缺點也是顯而易見的。首先冗余設計增加了風扇的使用數量,提高了整機系統功耗,造成一定程度的能源浪費;同時也額外引入了不少噪音。
發明內容
本發明的目的是提供一種計算機風扇故障容忍及處置的方法。本發明的目的是按以下方式實現的,通過采用不同程度的故障容忍策略容忍風扇故障,保證風扇系統的可靠性;具體步驟如下
故障容忍方法監控管理系統利用以下兩種方法降低處理器頻率及核心電壓;
1)是通過IPMI向計算機LegacyIO控制器下發指令,改變當前各處理器的工作狀態;
2)是直接通過GPIO的方式將處理器強制測試管腳設置為有效,強制處理器進入最低工作頻率的測試狀態;
故障容忍策略根據當前系統溫度曲線狀況,利用4種循序漸進的降頻降壓策略實現對風扇故障的容忍;策略分別為1)調整單處理器工作狀態;2)強制單處理器進入測試模式;3)調整全部處理器工作狀態;4)全部處理器進入測試模式。當有風扇出現故障時,監控管理系統會立即響應,根據不同溫度情況,通過底層硬件實現對系統的局部或者全局降頻降壓,保證系統不會因為過熱而導致死機和shutdown, 包括I)強制處理器進入最低工作頻率的測試狀態;2)結合IPMI通過計算機Legacy IO控制器改變處理器工作狀態的方式,采取不同程度的故障容忍策略,實現對系統的局部或者全局降頻降壓。本發明有益效果是無需風扇冗余設計,通過采用不同程度的故障容忍策略,容忍風扇故障,保證了風扇系統可靠性,其創新性及可行性具有極高的商業價值。
圖I是A的發明的邏輯框圖結構示意圖2是風機故障溫度異常曲線圖和風機溫度正常曲線圖。
具體實施例方式參照說明書附圖對本發明的計算機風扇故障容忍及處置的方法作以下詳細地說明。圖2中實線曲線為風機故障異常曲線;虛線是風機正常溫度曲線。本發明的計算機風扇故障容忍及處置的方法,包括故障容忍方法和故障容忍策略,處置步驟如下
故障容忍方法監控管理系統可以利用兩種方法降低處理器頻率及核心電壓。一種是通過IPMI向計算機Legacy IO控制器下發指令,改變當前各處理器的工作狀態(如 performance, Throttle);另一種是直接通過GPIO的方式將處理器強制測試管腳(如 F0RCE_PR)設置為有效,強制處理器進入最低工作頻率的測試狀態。故障容忍策略根據當前系統溫度曲線狀況,利用4種循序漸進的降頻降壓策略實現對風扇故障的容忍。策略分別為調整單處理器工作狀態;強制單處理器進入測試模式;調整全部處理器工作狀態;全部處理器進入測試模式。當有風扇出現故障時,監控管理系統會立即響應,根據不同溫度情況,通過底層硬件實現對系統的局部或者全局降頻降壓,保證系統不會因為過熱而導致死機和shutdown, 包括I)強制處理器進入最低工作頻率的測試狀態;2)結合IPMI通過計算機Legacy IO控制器改變處理器工作狀態的方式,采取不同程度的故障容忍策略,實現對系統的局部或者全局降頻降壓。
實施例如附圖2所示,當個別風扇遭遇故障時,風扇故障溫度曲線急劇攀升(圖2中的實線曲線);當計算機系統中溫度最高的處理器溫度攀升至比其極限承受溫度低8° C時,監控管理系統采用策略I :調整單處理器工作狀態(通過IPMI向計算機Legacy IO控制器下發指令);當溫度繼續攀升至比其極限承受溫度低5° C時,監控管理系統采用策略2 :通過 GPIO強制此處理器進入測試模式;當溫度繼續攀升至比其極限承受溫度低3° C時,監控管理系統采用策略3 :調整全部處理器工作狀態;如果溫度還繼續攀升,那么監控管理系統立即執行終極策略4 :通過GPIO使全部處理器進入測試模式,將整個系統工作頻率及電壓降至最低,以降低系統散熱壓力。當然一般情況下溫度不會攀升至觸發策略3或策略4的溫度點位。除說明書所述的技術特征外,均為本專業技術人員的已知技術。
權利要求
1.一種計算機風扇故障容忍及處置的方法,其特征在于通過采用不同程度的故障容忍策略容忍風扇故障,保證風扇系統的可靠性;具體步驟如下故障容忍方法監控管理系統利用以下兩種方法降低處理器頻率及核心電壓;1)是通過IPMI向計算機LegacyIO控制器下發指令,改變當前各處理器的工作狀態;2)是直接通過GPIO的方式將處理器強制測試管腳設置為有效,強制處理器進入最低工作頻率的測試狀態;故障容忍策略根據當前系統溫度曲線狀況,利用4種循序漸進的降頻降壓策略實現對風扇故障的容忍;策略分別為1)調整單處理器工作狀態;2)強制單處理器進入測試模式;3)調整全部處理器工作狀態;4)全部處理器進入測試模式。
2.根據權利要求I所述的方法,其特征在于當有風扇出現故障時,監控管理系統會立即響應,根據不同溫度情況,通過底層硬件實現對系統的局部或者全局降頻降壓,保證系統不會因為過熱而導致死機和shutdown,包括1)強制處理器進入最低工作頻率的測試狀態;2)結合IPMI通過計算機Legacy IO控制器改變處理器工作狀態的方式,采取不同程度的故障容忍策略,實現對系統的局部或者全局降頻降壓。
全文摘要
本發明提供一種計算機風扇故障容忍及處置的方法是通過采用不同程度的故障容忍策略容忍風扇故障,保證風扇系統的可靠性;具體步驟如下故障容忍方法監控管理系統利用以下兩種方法降低處理器頻率及核心電壓;1)是通過IPMI向計算機LegacyIO控制器下發指令,改變當前各處理器的工作狀態;2)是直接通過GPIO的方式將處理器強制測試管腳設置為有效,強制處理器進入最低工作頻率的測試狀態;故障容忍策略根據當前系統溫度曲線狀況,利用4種循序漸進的降頻降壓策略實現對風扇故障的容忍;策略分別為1)調整單處理器工作狀態;2)強制單處理器進入測試模式;3)調整全部處理器工作狀態;4)全部處理器進入測試模式。
文檔編號G06F11/00GK102609322SQ20121003325
公開日2012年7月25日 申請日期2012年2月15日 優先權日2012年2月15日
發明者李博樂, 林楷智 申請人:浪潮電子信息產業股份有限公司