一種基于系統重構的故障自愈系統及其實現方法
【技術領域】
[0001 ]本發明屬于計算機領域,提供一種故障自愈方法。
【背景技術】
[0002]在一些頻繁使用但維護困難的復雜計算機系統,如民用飛機機載電子系統、衛星星載電子系統中,設計者希望通過系統自愈的設計,達到提高系統的可用性,降低系統的維護周期和成本的目的。
[0003]當前所采用的自愈技術,主要通過針對故障位置的軟件、硬件的重恢復,達到系統功能自愈的目的,一些常見的技術措施有:
[0004](I)在可能發生故障的位置設計多個通道,故障發生后選擇無故障的通道旁路故障通道,實現系統的自愈;
[0005](2)當存儲在永久性存儲器中的軟件代碼、FPGA邏輯遭到破化后,使用正確的代碼或邏輯覆寫故障代碼或邏輯,實現系統的自愈;
[0006]上述自愈技術主要針對系統局部功能的恢復設計,盡管具有較好的效果,但許多硬件故障仍然無法實現功能的自愈。
[0007]本發明從計算機系統的角度考慮,設置通過備份模塊代替故障模塊,利用系統藍圖中的當前配置項控制系統的自愈過程,實現復雜計算機系統的故障自愈,具有自愈策略簡單、自愈過程可控、自愈結果確定的優點。
【發明內容】
[0008]本發明面向頻繁使用的復雜計算機系統,通過在系統中設置備份模塊,利用故障管理、配置管理、系統藍圖等功能模塊,實現系統的故障自愈,從而提高系統的可用性,降低系統的維護周期和成本。
[0009]本發明的具體技術解決方案如下:
[0010]—種基于系統重構的故障自愈系統,其特征在于:包括
[0011]系統藍圖軟件模塊,包含一個無故障配置項和多個故障配置項,其中某一個配置項被設置為當前配置項;每個配置項都完整描述了計算機系統運行所需的各種配置(計算機系統按照配置項的描述運行),并包含故障處理策略;所述故障處理策略包括系統關閉、系統自愈和繼續運行;
[0012]配置管理軟件模塊,用于在系統初始化后加載所述系統藍圖中的當前配置項到計算機系統中,使計算機系統按照當前配置項的描述正常運行或關閉系統;
[0013]故障管理軟件模塊,對計算機系統定期進行故障檢測,對發生的故障實施甄別,濾去偶發的可恢復的故障,確定不可恢復故障的位置和類型,然后查詢系統藍圖,確定故障處理策略,如果要求系統自愈,則更新當前配置項為能夠旁路故障的故障配置項;以及
[0014]硬件備份模塊,用以替代計算機系統中相應硬件功能模塊以支持旁路故障。
[0015]本發明實現故障自愈的方法,包括以下步驟:
[0016]I]系統啟動:在系統啟動過程中完成系統各模塊軟硬件的初始化;
[0017]2]配置加載:加載系統藍圖中所描述的當前配置項到計算機系統中;
[0018]3]系統運行:計算機系統按照當前配置項的描述正常運行或關閉系統;
[0019]4]故障檢測:在正常運行過程中,對組成計算機系統的各軟硬件模塊定期進行故障檢測;
[0020]5]故障記錄:當發現計算機系統發生故障后,對發生的故障進行初步判斷,記錄故障信息;
[0021]6]故障濾波:根據記錄的故障信息,進一步對故障進行甄別,濾去偶發的可恢復的故障,確定不可恢復故障的位置和類型;
[0022]7]策略選擇:根據不可恢復故障的位置和類型,按照系統藍圖的描述確定故障處理策略,如果要求系統自愈,則選擇能夠旁路故障的配置項;
[0023]8]配置更新:設置能夠旁路故障的配置項作為當前配置項,該配置項將會在系統下次啟動時被加載進系統,更新過程不改變當前故障系統的運行狀態;
[0024]9]系統關閉:配置更新完成后,關閉系統的運行,等待下次啟動時加載更新后的配置項。
[0025]以上步驟5]中記錄的故障信息主要包括故障發生的時間、位置以及類型。
[0026]本發明的優點在于:
[0027]該方法通過在系統中設置備份模塊,利用記錄在系統藍圖中的配置和策略,實現復雜計算機系統的故障自愈,具有自愈策略簡單、自愈過程可控、自愈結果確定的優點。
【附圖說明】
[0028]圖1為本發明系統架構圖;圖中,FM:功能模塊,BM:備份模塊;A?J:應用。
[0029]圖2為本發明系統的關鍵自愈過程示意圖;圖中,FM:功能模塊,BM:備份模塊;A?J:應用;CFl:配置項I; CF2:配置項2; Pl?Px:網絡地址(或端口號)。
[0030]圖3為本發明系統藍圖結構圖。
[0031 ]圖4為本發明故障自愈流程圖。
【具體實施方式】
[0032 ]以下結合附圖對本發明進行詳述。
[0033]基于系統重構的故障自愈方法,所應用的計算機系統在硬件上由多個功能模塊和備份模塊組成,在軟件上包括故障管理、配置管理、系統藍圖等模塊組成。
[0034]系統藍圖是系統故障自愈的關鍵設計。它包括系統運行的多個配置項,每個配置項都描述了計算機系統的軟件、硬件、網絡等各種配置,計算機系統能夠按照配置項的描述運行;這些配置項還包括對所有故障處理策略的描述,這些策略包括系統關閉、系統自愈、繼續運行等;配置項包含I個無故障配置項和多個故障配置項,無故障配置項描述了系統在無故障時的配置,而故障配置項利用備份模塊旁路系統的某種不可恢復故障,使系統能夠在該故障下正常運行;所有的配置項中,有I個會被設置為當前配置項,當系統啟動后會加載此配置項。
[0035]備份模塊是系統自愈的必要條件。它能夠在系統中某個模塊發生不可恢復故障時,代替該模塊的工作。
[0036]如圖1所示,整個系統由多個模塊、輸入輸出單元通過通訊網絡互聯而成,通過支持系統自愈的中間件,根據系統配置文件的描述,實現系統的故障自愈。系統的應用運行在處理模塊中,通過輸入輸出單元完成應用的輸入輸出。系統的模塊由多個功能模塊和備份模塊組成,在中間件的作用下,當系統中某個模塊發生不可恢復故障時,備份模塊能夠代替該模塊的工作。
[0037]本發明的關鍵過程如圖2所示。首先,在系統運行過程中,檢測到系統發生故障后,對故障進行定位和濾波,判斷故障類型;其次,根據故障類型選擇自愈的策略,將系統的當前配置項更新為能夠旁路故障的配置項;最后,系統重新啟動后,系統按照新的當前配置項工作,系統功能自愈。
[0038]中間件是系統自愈功能實現的關鍵軟件,包括故障管理、配置管理、系統藍圖等模塊,通過系統啟動、配置加載、故障檢測、故障記錄、故障濾波、策略選擇、配置更新、系統關閉等步驟,實現故障的自愈,如圖4所示。具體說明如下:
[0039]I]系統啟動,在系統啟動過程中完成系統各模塊軟硬件的初始化;
[0040]2]配置加載,配置管理功能加載系統藍圖中所描述的當前配置項到計算機系統中;
[0041]3]系統運行,計算機系統按照當前配置項的描述正常運行或關閉系統;
[0042]4]故障檢測,在正常運行過程中,故障管理功能對組成計算機系統的各模塊定期進行故障檢測;
[0043]5]故障記錄,當發現計算機系統發生故障后,對發生的故障進行初步判斷,記錄故障的時間、位置、類型等供系統維護、故障分析使用;
[0044]6]故障濾波,對發生的故障實施甄別,濾去偶發的可恢復的故障,確定不可恢復故障的位置和類型;
[0045]7]策略選擇,根據不可恢復故障的位置和類型,按照系統藍圖的描述選擇合適的處理方式或重構策略;
[0046]8]配置更新,設置能夠旁路故障的配置項作為當前配置項,該配置項將會在系統下次啟動時被加載進系統,更新過程并不改變當前故障系統的運行狀態;
[0047]9]系統關閉,根據既定的指令關閉系統的運行,等待下次啟動。
【主權項】
1.一種基于系統重構的故障自愈系統,其特征在于:包括 系統藍圖軟件模塊,包含一個無故障配置項和多個故障配置項,其中某一個配置項被設置為當前配置項;每個配置項都完整描述了計算機系統運行所需的各種配置,并包含故障處理策略;所述故障處理策略包括系統關閉、系統自愈和繼續運行; 配置管理軟件模塊,用于在系統初始化后加載所述系統藍圖中的當前配置項到計算機系統中,使計算機系統按照當前配置項的描述正常運行或關閉系統; 故障管理軟件模塊,對計算機系統定期進行故障檢測,對發生的故障實施甄別,濾去偶發的可恢復的故障,確定不可恢復故障的位置和類型,然后查詢系統藍圖,確定故障處理策略,如果要求系統自愈,則更新當前配置項為能夠旁路故障的故障配置項;以及硬件備份模塊,用以替代計算機系統中相應硬件功能模塊以支持旁路故障。2.權利要求1所述基于系統重構的故障自愈系統實現故障自愈的方法,其特征在于,包括以下步驟: 1]系統啟動:在系統啟動過程中完成系統各模塊軟硬件的初始化; 2]配置加載:加載系統藍圖中所描述的當前配置項到計算機系統中; 3]系統運行:計算機系統按照當前配置項的描述正常運行或關閉系統; 4]故障檢測:在正常運行過程中,對組成計算機系統的各軟硬件模塊定期進行故障檢測; 5]故障記錄:當發現計算機系統發生故障后,對發生的故障進行初步判斷,記錄故障信息; 6]故障濾波:根據記錄的故障信息,進一步對故障進行甄別,濾去偶發的可恢復的故障,確定不可恢復故障的位置和類型; 7]策略選擇:根據不可恢復故障的位置和類型,按照系統藍圖的描述確定故障處理策略,如果要求系統自愈,則選擇能夠旁路故障的配置項; 8]配置更新:設置能夠旁路故障的配置項作為當前配置項,該配置項將會在系統下次啟動時被加載進系統,更新過程不改變當前故障系統的運行狀態; 9]系統關閉:配置更新完成后,關閉系統的運行,等待下次啟動時加載更新后的配置項。3.根據權利要求2所述實現故障自愈的方法,其特征在于:步驟5]中記錄的故障信息包括故障發生的時間、位置以及類型。
【專利摘要】本發明提出一種基于系統重構的故障自愈方法,所應用的計算機系統在硬件上由多個功能模塊和備份模塊組成,在軟件上包括故障管理、配置管理、系統藍圖等模塊組成,其步驟依次為系統啟動、配置加載、故障檢測、故障記錄、故障濾波、策略選擇、配置更新、系統關閉。系統藍圖系統故障自愈的關鍵設計。它包括多個系統運行的配置項,每個配置項都描述了計算機系統的軟件、硬件、網絡等各種配置,計算機系統能夠按照配置項的描述運行;這些配置項還包括對所有故障處理策略的描述。備份模塊是系統自愈的必要條件,它能夠在系統中某個模塊發生不可恢復故障時,代替該模塊的工作。本發明具有自愈策略簡單、自愈過程可控、自愈結果確定的優點。
【IPC分類】G06F11/07
【公開號】CN105550056
【申請號】CN201510926572
【發明人】王樂, 郭鵬, 孫允明, 謝建春, 邸海濤, 黃英蘭
【申請人】中國航空工業集團公司西安航空計算技術研究所
【公開日】2016年5月4日
【申請日】2015年12月11日