專利名稱::一種基于專家系統方法的計算機故障管理系統的制作方法
技術領域:
:本發明涉及一種計算機故障管理系統,尤其是涉及一種基于專家系統方法的計算機故障管理系統。
背景技術:
:隨著現代社會的不斷發展,計算機系統已經深入而廣泛地應用于醫療衛生、教育、工業生產、交通運輸、金融、科學研究、軍事等各領域之中。支撐關鍵應用的計算機系統一旦出現故障,往往會造成巨大的經濟損失,甚至可能影響社會的安定與經濟的運行。在此背景下,計算機系統的可靠性越來越多地得到人們的關注和重視。然而與此同時,計算機系統的結構日益復雜,規模不斷增大,使得計算機系統的可靠性面臨愈發嚴峻的困難和挑戰。計算機系統的可靠性由硬件可靠性和軟件可靠性共同決定。將系統在觀測期中正常運行的時間總和記作PT,將觀測期中各次故障發生到相應故障被檢測出的時間總和記作DT,將觀測期中用于等待和準備恢復軟件故障的時間總和記作PreST,將觀測期中用于恢復軟件故障的時間總和記作ST,將觀測期中用于等待和準備恢復硬件故障的時間總和記作PreHT,將觀測期中恢復硬件故障的時間總和記作HT,為說明簡便計,不妨假設PreST、ST、PreHT、HT均無重疊,則有系統可靠性R=PT/(DT+PreST+ST+PreHT+HT)。由此可知,提高計算機系統可靠性的根本方法就是減少系統中軟、硬件故障的發生,以及在故障發生后及早發現并盡快恢復。現有的計算機故障管理方法較好地應用于部件級系統中,但往往缺乏面向整體系統的結構性設計,也未見將故障管理作為完整子系統納入計算機系統的總體設計中,因而多無法對局部的計算機故障施以全局優選的處理;其次,現有的計算機故障管理方法一般過分依賴人工參與,這通常會顯著地增加等待和準備處理故障的時間,并且由于個體技術水平和認知能力的差異,也增大了處理不當甚至是錯誤處理的可能;再者,現有的計算機故障管理方法大多僅關注特定硬件或特定軟件的故障,通用性和可擴展性較差。專家系統是具備專門知識和經驗的計算機智能程序系統,采用人工智能中的知識表示和知識推理技術來實現通常只能由領域專家解決的復雜問題。近年來,專家系統已經應用到眾多領域,數量眾多的專家系統在功能上已達到,甚至超過同領域中人類專家的水平,并在實際應用中產生了巨大的經濟效益和社會效益。
發明內容本發明的目的是提供一種基于專家系統方法的計算機故障管理系統,以彌補現有主流計算機故障管理方法的不足本發明的目的是按以下方式實現的,計算機故障管理系統由數據采集器、故障事件生成模塊、故障診斷引擎、知識庫、知識獲取模塊、故障隔離模塊、故障恢復模塊、故障預警模塊、日志服務模塊、故障管理注冊模塊以及人機交互界面組成。系統的故障處理工作流程如下若干個數據采集器監視目標系統的硬件、操作系統及應用程序的運行并采集其運行狀態關鍵信息,發送至故障事件生成模塊;故障事件生成模塊格式化數據采集器提交的原始數據,輸出故障診斷引擎能夠識別的故障事件;故障診斷引擎根據故障事件生成模塊輸出的故障事件結合知識庫中的故障診斷專家知識,采用數據驅動控制策略推理匹配的故障處理規則,繼而觸發故障隔離模塊、故障恢復模塊、故障預警模塊實施后續的故障處理;故障隔離模塊根據故障診斷模塊輸出的故障處理策略邏輯地隔離指定故障組件,以限制故障擴散范圍并作為后續故障處理的前置條件;故障恢復模塊根據故障診斷模塊輸出的故障處理策略,恢復指定故障組件的功能或運行狀態;故障預警模塊根據故障診斷模塊輸出的故障處理策略,采用閾值算法對目標系統可能產生的故障進行預測并發送預警信息。知識庫包含以規則形式表達的故障診斷知識,診斷規則由規則描述、匹配條件集和方法集構成;知識獲取模塊采用指導注入式的學習策略,通過人機交互界面向領域專家提供智能編輯器,以實現知識庫的擴充。日志服務模塊向故障事件生成模塊、故障診斷引擎、故障隔離模塊、故障恢復模塊以及故障預警模塊提供基于網絡的日志記錄接口。故障事件生成模塊記錄生成格式化故障事件的相關信息;故障診斷引擎記錄推理故障事件處理規則的相關信息;故障隔離模塊記錄隔離指定故障組件的相關信息;故障恢復模塊記錄恢復指定故障組件的相關信息;故障預警模塊記錄預測故障的相關信息。日志信息能夠清楚地反映出故障管理系統自身的運行情況,更準確而完整地記錄著故障管理系統所管理的目標系統中產生故障的詳細信息,是相關人員分析與改進目標計算機系統可靠性的重要依據。故障管理注冊模塊包含注冊與注銷數據采集器、注冊與注銷故障事件類型、注冊與注銷故障隔離方法、注冊與注銷故障恢復方法以及注冊與注銷故障預警方法的功能,這使得動態地增加和刪除數據采集器、故障事件類型、故障隔離方法、故障恢復方法以及故障預警方法成為可能,因而極大地增強了系統的可擴展性。系統管理者通過該系統中人機交互界面對數據采集器、故障事件生成模塊、故障診斷引擎、知識庫、故障隔離模塊、故障恢復模塊、故障預警模塊、日志服務模塊進行監視和管理;領域專家通過上述人機交互界面訪問知識獲取模塊提供的智能編輯器。人機交互界面是所述系統的重要組成。本發明所述的一種基于專家系統方法的計算機故障管理系統與現有的故障管理方法相比,具有以下優點1.本系統將故障管理納入計算機系統的總體設計之中,具備良好的結構化設計,因而能夠綜合考量各種故障處理機制,以及充分利用系統資源,這使得本系統能夠以更合理的策略實施故障處理。2.本系統中故障處理的全過程均由程序驅動和實現,尤其是故障的診斷和相應處理策略的選取由專家系統自動推理完成,因而能夠顯著地縮短故障處理時間,并且避免由于系統管理者個體技術水平和認知能力的差異而造成的不當處理和錯誤處理。3.本系統中知識庫可以通過知識獲取動態擴充;數據采集器、故障事件類型、故障隔離方法、故障恢復方法以及故障預警方法均可以通過故障管理注冊模塊動態地增加和刪除。因而系統具有良好的通用性和可擴展性。圖1為系統結構示意圖;圖2為故障處理流程示意圖;圖3為知識庫管理流程示意圖;圖4為日志服務模塊結構示意圖;圖5故障管理注冊模塊結構示意圖;圖6人機交互界面結構示意圖。具體實施例方式下面結合附圖對本發明所述的一種基于專家系統方法的計算機故障管理系統進行更詳細的說明。參照附圖1,本發明所述系統由數據采集器、故障事件生成模塊、故障診斷引擎、知識庫、知識獲取模塊、故障隔離模塊、故障恢復模塊、故障預警模塊、日志服務模塊、故障管理注冊模塊以及人機交互界面組成。參照附圖2,本發明所述系統的故障處理的主要工作流程如下若干個數據采集器監視目標系統的硬件、操作系統及應用程序的運行并采集其運行狀態關鍵信息,發送至故障事件生成模塊;故障事件生成模塊格式化數據采集器提交的原始數據,輸出故障診斷引擎能夠識別的故障事件;故障診斷引擎根據故障事件生成模塊輸出的故障事件結合知識庫中的故障診斷專家知識,采用數據驅動控制策略推理匹配的故障處理規則,繼而觸發故障隔離模塊、故障恢復模塊、故障預警模塊實施后續的故障處理;故障隔離模塊根據故障診斷模塊輸出的故障處理策略邏輯地隔離指定故障組件,以限制故障擴散范圍并作為后續故障處理的前置條件;故障恢復模塊根據故障診斷模塊輸出的故障處理策略,恢復指定故障組件的功能或運行狀態;故障預警模塊根據故障診斷模塊輸出的故障處理策略,采用閾值算法對目標系統可能產生的故障進行預測并發送預警信息。2.數據采集器本發明所述系統中可以存在多個獨立運行的數據采集器,分別監視目標系統的各主要硬件、操作系統及關鍵應用程序的運行并采集其運行狀態信息,進而通過網絡發送至故障事件生成模塊。在本系統的典型實現中,數據采集器主要通過以下途徑獲取信息>MCA(MachineCheckArchitecture)>S.Μ.Α.R.Τ.(Self-Monitoring,Analysis,andReportingTechnology)>MCH(MemoryControllerHub)>PCI-ExpressAER(AdvancedErrorReporting)>ACPI(AdvancedConfigurationandPowerManagementInterface)>SMBus(SystemManagementBus)>IPMI(IntelligentPlatformManagementInterface)>AMT(ActiveManagementTechnology)>各類傳感器>操作系統內核探針>SysFS文件系統>應用程序日志>PTrace技術>嵌入式子系統>網絡設備3.故障事件生成模塊本發明所述系統中,故障事件生成模塊格式化數據采集器提交的原始數據,輸出故障診斷引擎能夠識別的故障事件。在本系統的典型實現中,故障事件的格式如下[EventSerialNum,DataCollectorID,EventLocation,EventType,Eventlnfo]其中各字段的含義如下所示。<table>tableseeoriginaldocumentpage8</column></row><table>4.故障診斷引擎本發明所述系統中,故障診斷引擎根據故障事件生成模塊輸出的故障事件結合知識庫中的故障診斷專家知識,采用數據驅動控制策略推理得出匹配的故障診斷規則,繼而觸發故障隔離模塊、故障恢復模塊、故障預警模塊實施后續的故障處理。在本系統的典型實現中,故障診斷引擎采用數據驅動控制策略。其主要工作流程如下e)遍歷故障診斷后緩沖區,以故障事件特征匹配故障診斷規則。若匹配成功則轉至步驟e;否則執行步驟bf)遍歷知識庫,以故障事件特征匹配故障診斷規則的條件集g)生成沖突集和求解沖突h)確認故障診斷規則,刷新故障診斷后緩沖區i)向關聯模塊輸出規則的方法集,以驅動后續故障處理5.知識庫本發明所述系統中,知識庫包含以規則形式表達的故障診斷知識。在本系統的典型實現中,故障診斷規則的格式如下[RuleDesc,ConditiohSet,MethodSet]其中各字段的含義如下所示。<table>tableseeoriginaldocumentpage9</column></row><table>6.知識獲取模塊本發明所述系統中,知識獲取模塊采用指導注入式的學習策略,通過人機交互界面向領域專家提供智能編輯器,以實現知識庫的擴充。在本系統的典型實現中,知識獲取模塊的主要工作流程如下e)前置步驟,領域專家通過智能編輯器創建新的故障診斷規則f)規則檢驗。若通過檢驗執行步驟c;否則轉至步驟ag)沖突分析。若未見沖突執行步驟d;否則轉至步驟ah)向知識庫添加新規則7.故障隔離模塊本發明所述系統中,故障隔離模塊根據故障診斷模塊輸出的故障處理策略邏輯地隔離目標系統故障組件,以限制故障擴散范圍并作為后續故障處理的前置條件。在本系統的典型實現中,故障隔離模塊主要以下列技術和措施為基礎對指定故障組件實施隔離>CPU熱移除>內存熱移除>Bad/PoisonedDataContainment>PCI-Express熱移除>Socket熱移除>IOH熱移除>·KVM(Kernel-basedVirtualMachine)>應用容器>停止故障組件運行8.故障恢復模塊本發明所述系統中,故障恢復模塊根據故障診斷模塊輸出的故障處理策略,恢復目標系統故障組件的功能或運行狀態。在本系統的典型實現中,故障恢復模塊主要以下列技術和措施為基礎對指定的故障組件實施恢復>CPU鎖步(Lockst印)>CPU熱添加>ParityProtection>Soft-ErrorHardenedLatches>緩存保護技術(CacheSafeTechnology)>可恢復的MCA>ReplayonCRCError>LaneFailover>ECC(ErrorCheckingandCorrecting)>DDDC(DoubleDeviceDataCorrection)>PatrolScrubbing>DemandScrubbing>DIMMSparing>內存熱添加>MemorySparing>內存鏡像(MemoryMirroring)>內存遷移(MemoryMigration)>PCI-Express熱添力口>QPILinkRecovery>QPILinkSelf-healing>QPIPoisonForwarding>Socket熱添力口>IOH熱添加>操作系統核心多副本>進程遷移>進程檢查點技術>進程對技術>內存遷移(由操作系統實現的)>多路徑1/0>虛擬機動態遷移>應用容器動態遷移>數據回滾>高可用技術9.故障預警模塊該系統中故障預警模塊根據故障診斷模塊輸出的故障處理策略,采用閾值算法對目標系統可能產生的故障進行預測并發送預警信息。在本系統的典型實現中,故障預警模塊的主要工作流程如下e)從故障事件緩沖區取回未決故障事件f)在故障預警對象鏈中查找與當前故障事件類型匹配的項g)執行匹配項的計數方法h)執行匹配項的閾值檢驗方法。若計數達到或大于閾值,則執行步驟e;否則轉至步驟ai)執行匹配項的報警方法10.日志服務模塊參見附圖4,在本發明所述系統中,日志服務模塊向故障事件生成模塊、故障診斷引擎、故障隔離模塊、故障恢復模塊以及故障預警模塊提供基于網絡的日志記錄接口。故障事件生成模塊記錄生成格式化故障事件的相關信息;故障診斷引擎記錄推理故障事件處理規則的相關信息;故障隔離模塊記錄隔離指定故障組件的相關信息;故障恢復模塊記錄恢復指定故障組件的相關信息;故障預警模塊記錄預測故障的相關信息。這些日志信息能夠清楚地反映出故障管理系統自身的運行情況,更準確而完整地記錄著故障管理系統所管理的目標系統中產生故障的詳細信息,是相關人員分析與改進目標計算機系統可靠性的重要依據。在本系統的典型實現中,日志條目的格式如下[Time,Subject,Action,Conclusion,Additional]其中各字段的含義如下所示<table>tableseeoriginaldocumentpage11</column></row><table>11.故障管理注冊模塊參見附圖5,本發明所述系統的故障管理注冊模塊(501)包含注冊與注銷數據采集器(502)、注冊與注銷故障事件類型(503)、注冊與注銷故障隔離方法(504)、注冊與注銷故障恢復方法(505)以及注冊與注銷故障預警方法(506)的功能,這使得動態地增加和刪除數據采集器、故障事件類型、故障隔離方法、故障恢復方法以及故障預警方法成為可能,因而極大地增強了系統的可擴展性。在本系統的典型實現中,故障管理注冊模塊的主要工作流程如下a)創建新的故障管理設施描述符(可以是數據采集器描述符,故障事件類型描述符,或故障隔離/恢復/預警方法描述符)b)根據輸入參數設置上述描述符c)將該描述符加入相應類型的描述符鏈表中待用下面以注冊數據采集器為例,進一步說明故障管理注冊模塊的實施方式。數據采集器描述結構如下所示<table>tableseeoriginaldocumentpage12</column></row><table>因此故障管理注冊模塊增加新的數據采集器的主要工作流程即a)創建新的數據采集器描述符b)根據輸入參數設置上述描述符中id、owner、authority、running_mode、objects、entry_point>talk_manner以及format各項的值c)將該描述符加入數據采集器描述符全局鏈表中12.人機交互界面參見附圖6,在本發明所述系統中,系統管理者通過該系統中人機交互界面對數據采集器、故障事件生成模塊、故障診斷引擎、知識庫、故障隔離模塊、故障恢復模塊、故障預警模塊、日志服務模塊進行監視和管理;領域專家通過上述人機交互界面訪問知識獲取模塊提供的智能編輯器。人機交互界面是所述系統的重要組成。在本系統的典型實現中,人機交互界面支持以下訪問方式>CLI(CommandLineInterface)方式>GUI(GraphicalUserInterface)方式>基于瀏覽器的網絡訪問方式。權利要求一種基于專家系統方法的計算機故障管理系統,其特征在于,該系統包括數據采集器1)、故障事件生成模塊2)、故障診斷引擎3)、知識庫4)、知識獲取模塊5)、故障隔離模塊6)、故障恢復模塊7)、故障預警模塊8)、日志服務模塊9)、故障管理注冊模塊10)以及人機交互界面11),系統管理者通過該系統中人機交互界面11)對數據采集器1)、故障事件生成模塊2)、故障診斷引擎3)、知識庫4)、故障隔離模塊5)、故障恢復模塊6)、故障預警模塊7)、日志服務模塊8)進行監視和管理,并通過人機交互界面11訪問知識獲取模塊5)提供的智能編輯器,其中1)系統中設置若干個獨立運行的數據采集器,分別監視目標系統的各主要硬件、操作系統及關鍵應用程序的運行并采集其運行狀態信息,進而通過網絡發送至故障事件生成模塊;數據采集器通過以下途徑獲取信息MCA;S.M.A.R.T.;MCH;PCI-ExpressAER;ACPI;SMBus;IPMI;AMT;各類傳感器;操作系統內核探針;SysFS文件系統;應用程序日志;PTrace技術;嵌入式子系統;網絡設備;2)故障事件生成模塊,格式化數據采集器提交的原始數據,輸出故障診斷引擎能夠識別的故障事件;故障事件的格式如下[EventSerialNum,DataCollectorID,EventLocation,EventType,EventInfo]3)故障診斷引擎,根據故障事件生成模塊輸出的故障事件結合知識庫中的故障診斷專家知識,采用數據驅動控制策略推理匹配的故障處理規則,繼而觸發故障隔離模塊、故障恢復模塊、故障預警模塊實施后續的故障處理;故障診斷引擎采用數據驅動控制策略工作流程如下a)遍歷故障診斷后緩沖區,以故障事件特征匹配故障診斷規則,若匹配成功則轉至步驟e,否則執行步驟b;b)遍歷知識庫,以故障事件特征匹配故障診斷規則的條件集;c)生成沖突集和求解沖突;d)確認故障診斷規則,刷新故障診斷后緩沖區,向關聯模塊輸出規則的方法集,以驅動后續故障處理;4)知識庫包含以規則形式表達的故障診斷知識,診斷規則由規則描述、匹配條件集和方法集構成,故障診斷規則的格式如下[RuleDesc,ConditionSet,MethodSet];5)知識獲取模塊,采用指導注入式的學習策略,通過人機交互界面向領域專家提供智能編輯器,以實現知識庫的擴充,知識獲取模塊的主要工作流程如下a)前置步驟,領域專家通過智能編輯器創建新的故障診斷規則;b)規則檢驗,若通過檢驗執行步驟c;否則轉至步驟a;c)沖突分析,若未見沖突執行步驟d;否則轉至步驟a;d)向知識庫添加新規則;6)故障隔離模塊,根據故障診斷模塊輸出的故障處理策略邏輯地隔離目標系統故障組件,以限制故障擴散范圍并作為后續故障處理的前置條件;故障隔離模塊以下列技術和措施為基礎對指定故障組件實施隔離CPU熱移除內存熱移除Bad/PoisonedDataContainmentPCI-Express熱移除Socket熱移除IOH熱移除KVM應用容器;停止故障組件運行;7)故障恢復模塊,根據故障診斷模塊輸出的故障處理策略,恢復目標系統故障組件的功能或運行狀態;故障恢復模塊以下列技術和措施為基礎對指定的故障組件實施恢復CPU鎖步;CPU熱添加;ParityProtection;Soft-ErrorHardenedLatches;緩存保護技術;可恢復的MCA;ReplayonCRCError;LaneFailover;ECC;DDDC;PatrolScrubbing;DemandScrubbing;DIMMSparing;內存熱添加;MemorySparing;內存鏡像;內存遷移;PCI-Express熱添加;QPILinkRecovery;QPILinkSelf-healing;QPIPoisonForwarding;Socket熱添加;IOH熱添加;操作系統核心多副本;進程遷移;進程檢查點技術;進程對技術;由操作系統實現的內存遷移;多路徑I/O;虛擬機動態遷移;應用容器動態遷移;數據回滾高可用技術;8)故障預警模塊,根據故障診斷模塊輸出的故障處理策略,采用閾值算法對目標系統可能產生的故障進行預測并發送預警信息;故障預警模塊的主要工作流程如下a)從故障事件緩沖區取回未決故障事件b)在故障預警對象鏈中查找與當前故障事件類型匹配的項c)執行匹配項的計數方法d)執行匹配項的閾值檢驗方法,若計數達到或大于閾值,則執行步驟e;否則轉至步驟a執行匹配項的報警方法;9)日志服務模塊,向故障事件生成模塊、故障診斷引擎、故障隔離模塊、故障恢復模塊以及故障預警模塊提供基于網絡的日志記錄接口;日志條目的格式如下[Time,Subject,Action,Conclusion,Additional];10)故障管理注冊模塊,包含以下功能注冊與注銷數據采集器、注冊與注銷故障事件類型、注冊與注銷故障隔離策略、注冊與注銷故障恢復策略、注冊與注銷故障預警策略;故障管理注冊模塊的主要工作流程如下a)創建新的故障管理設施描述符,包括數據采集器描述符,故障事件類型描述符,或故障隔離/恢復/預警方法描述符;b)根據輸入參數設置上述描述符;c)將該描述符加入相應類型的描述符鏈表中待用;11)人機交互界面是所述系統的重要組成,人機交互界面支持以下訪問方式CLI方式;GUI方式;基于瀏覽器的網絡訪問方式;具體管理步驟如下若干個數據采集器監視目標系統的硬件、操作系統及應用程序的運行并采集其運行狀態關鍵信息,發送至故障事件生成模塊;故障事件生成模塊格式化數據采集器提交的原始數據,輸出故障診斷引擎能夠識別的故障事件;故障診斷引擎根據故障事件生成模塊輸出的故障事件結合知識庫中的故障診斷專家知識,采用數據驅動控制策略推理匹配的故障處理規則,繼而觸發故障隔離模塊、故障恢復模塊、故障預警模塊實施后續的故障處理;故障隔離模塊根據故障診斷模塊輸出的故障處理策略邏輯地隔離指定故障組件,以限制故障擴散范圍并作為后續故障處理的前置條件;故障恢復模塊根據故障診斷模塊輸出的故障處理策略,恢復指定故障組件的功能或運行狀態;故障預警模塊根據故障診斷模塊輸出的故障處理策略,采用閾值算法對目標系統可能產生的故障進行預測并發送預警信息。全文摘要本發明提供一種基于專家系統方法的計算機故障管理系統,該系統包括數據采集器1)、故障事件生成模塊2)、故障診斷引擎3)、知識庫4)、知識獲取模塊5)、故障隔離模塊6)、故障恢復模塊7)、故障預警模塊8)、日志服務模塊9)、故障管理注冊模塊10)以及人機交互界面11),系統管理者通過該系統中人機交互界面11)對數據采集器1)、故障事件生成模塊2)、故障診斷引擎3)、知識庫4)、故障隔離模塊5)、故障恢復模塊6)、故障預警模塊7)、日志服務模塊8)進行監視和管理,并通過人機交互界面11訪問知識獲取模塊5)提供的智能編輯器。文檔編號G06F11/34GK101833497SQ201010135370公開日2010年9月15日申請日期2010年3月30日優先權日2010年3月30日發明者吳楠,張東申請人:山東高效能服務器和存儲研究院