一種基于可視化技術的系統故障應急處置系統及方法
【技術領域】
[0001]本發明涉及信息系統運維管理領域,特別是涉及一種基于可視化技術的系統故障應急處置系統及方法。
【背景技術】
[0002]隨著國網公司信息化建設的不斷推進,信息系統的種類和數量不斷增加,信息系統安全可靠運行要求不斷提高,國網公司統一建設了 MS系統加強對信息系統運行情況的集中監控能力。為了進一步提升信息應用的可靠運行和運維管理水平,提高信息系統安全可靠運行保障能力,有必要結合公司信息調運體系的實際情況,積極研究和應用信息技術對現有信息應用的運行監控分析與應急處置機制進行創新改進。
[0003]國內外研究水平綜述:
1)國外研究水平:
數據中心是一整套復雜的設施,它不僅僅包括信息系統和其它與之配套的服務器、通信、存儲等設備,還包含冗余的數據通信連接、環境控制設備、監控設備以及各種安全裝置。如圖1所示,針對常見的監控需求,通過基本的監控方法,并不能達到最理想的監控效果。
[0004]信息系統運維監控對象主要包括主機和網絡,主機監控可以分為應用層監控、月艮務層監控、服務器層監控和網絡接口層監控。信息系統網絡其實就是不同設備的集合,路由器、交換機、防火墻等可以視為特殊的“服務器”,而它們之間的聯系組成了網絡。因此,網絡監控對象其實就是基于網絡環境的設備。
[0005]目前,國外主流商用IT監控工具產品包括IBM Tivoli,HP Open View,MicrosoftSCCM、BMC Patrol、CA Unicenter等,商用產品價格比較昂貴,一般在幾十萬至數百萬,且功能不易定制擴展。開源的IT監控技術包括Cact1、Nag1s、Zenoss、Zabbix、Hyperic HQ等,以免費的形式提供,能有效監控Windows、Linux和Unix的主機狀態,交換機、路由器等網絡設備等,可以支持 WM1、PerfMon、SNMP、JMX、HTTP、Telnet、SSH、Syslog、ICMP、FTP、SMTP 等協議,但是一般缺乏友好的用戶界面。
[0006]2)國內研究水平
近年來,國內在IT監控理論與技術研究領域發展很快,基于上述開源的IT監控技術,國產商用IT監控工具產品及解決方案得到快速發展,比較成熟的產品包括北塔、東華、神州泰岳、摩卡、泰豪等公司的IT運維監控管理系統。
[0007]現有的信息應用系統故障檢測和處置方法需要運維人員趕赴現場,通過專業操作才能排除故障。對于夜間只有調度員值守的情況,當信息應用系統突發重大故障時,運維人員需要一定的時間才能到達現場排除故障,而在這段時間內信息應用系統將一直處于故障狀態。
【發明內容】
[0008]本發明的目的在于克服現有技術的不足,提供一種基于可視化技術的系統故障應急處置系統及方法,當系統發生故障時,以圖形化的方式告警指示不同故障類型和應急處置,基于部署于服務器中的智能代理,將對信息應用系統重啟等繁瑣的維護管理命令操作封裝于可被智能代理調用執行的服務器腳本程序中,實現故障信息應用系統的一鍵式安全復位,解決夜間調度員值班對信息應用系統故障的應急處置難題,提升信息應用系統安全可靠運行保障能力。
[0009]本發明的目的是通過以下技術方案來實現的:一種基于可視化技術的系統故障應急處置系統,包括基于智能代理的分布式監控模塊、基于SNMP協議的網絡監控模塊、基于智能代理的主機故障診斷模塊、圖形化告警模塊;故障應急處置模塊;
所述基于智能代理的分布式監控模塊包括智能監控代理SMA、監控服務端,用于監控服務器的工作狀態信息及運行狀態;
所述基于SNMP協議的網絡監控模塊用于監視網絡性能、檢測分析網絡差錯和配置網絡設備;
所述基于智能代理的主機故障診斷模塊用于服務器故障的診斷分析;
所述圖形化告警模塊用于當系統發生故障時,以圖形化的方式告警指示不同故障類型;
所述故障應急處置模塊用于當系統發生故障時進行應急處置,實現故障信息系統的一鍵式安全復位。
[0010]一種系統故障應急處置的方法,包括以下步驟:
51:運行基于智能代理的分布式監控模塊;
基于分布式監控結構,在每臺集群服務器上安裝智能監控代理SMA,智能監控代理SMA收集服務器的工作狀態信息,在監控主服務器上安裝運行監控服務端;
智能監控代理SMA與監控服務端之間通過XML格式傳遞監控數據,監控服務端定期輪巡智能監控代理SMA獲取監控信息,監控主服務器使用心跳探測檢測集群內任意服務器的運行狀態;
52:運行基于SNMP協議的網絡監控模塊;
基于SNMP協議的網絡監控模塊用于監視網絡性能、檢測分析網絡差錯和配置網絡設備,在網絡正常工作時,基于SNMP協議的網絡監控模塊實現統計、配置和測試功能;在網絡故障時,基于SNMP協議的網絡監控模塊實現各種差錯監測和恢復功能;
53:運行基于智能代理的主機故障診斷模塊;
將智能監控代理SMA部署于受控主機服務器的操作系統中;智能監控代理SMA通過網絡與監控主服務器建立心跳連接;根據策略對受控主機服務器主機的運行狀態進行實時監控,當服務器硬件故障、網絡中斷或者關鍵進程運行異常時,智能監控代理SMA執行相應的策略動作;
監控主服務器接收到智能監控代理SMA發送的告警或故障消息后,或者智能監控代理SMA心跳連接超時后,監控主服務器將判斷該受控主機發生故障;
54:運行圖形化告警模塊和故障應急處置模塊;
當系統發生故障時,以圖形化的方式告警指示不同故障類型和應急處置,基于部署于服務器中的智能監控代理SMA,將繁瑣的維護管理命令操作封裝于可被智能監控代理SMA調用執行的服務器腳本程序中,實現故障信息應用系統的一鍵式安全復位。
[0011]優選的,所述的受控主機服務器主機包括物理機或虛擬機。
[0012]優選的,所述圖形化告警模塊的實現方法為:運行信息按照不同的分類以不同的形式顯示在一個以運行時間信息為橫坐標,以各故障運行狀態信息為縱坐標的坐標系內;將各故障運行狀態信息以色條和文字標簽組合的形式顯示在坐標系的橫坐標軸的上方;將操作標識信息、告警級別信息以文字標簽的形式顯示在各故障運行狀態信息的上方;將運行時間信息以文字標簽的形式顯示在坐標系的橫坐標軸的下方;將各故障運行狀態信息以折線的形式顯示在坐標系內。
[0013]優選的,步驟S4還包括:
541:根據系統故障信息獲取各服務器、存儲設備、受管交換機、路由器節點的標識信息;
542:根據標識信息,獲取各服務器、存儲設備、受管交換機、路由器節點的運行狀態信息,運行信息用于診斷故障;
543:根據運行狀態信息,生成信息應用系統的圖形化多維度顯示信息。
[0014]優選的,所述圖形化多維度顯示信息包括:網絡接口層顯示信息、服務器層顯示信息、服務層顯示信息和應用層顯示信息。
[0015]優選的,所述網絡接口層顯示信息指主機網絡狀態數據,包括以下至少一種數據:IP地址、MAC地址、路由表、端口存活狀態、上下行流量;
所述服務器層顯示信息指主機B1S與操作系統狀態數據,包括以下至少一種數據:CHJ負載、內存占用率、進程狀態、磁盤I /0 ;
所述服務層顯示信息包括中間件、數據庫平臺軟件的狀態數據;
所述應用層顯示信息包括信息應用系統的可用性、性能狀態數據;
優選的,圖形化多維度顯示信息還包括信息應用系統中各服務器、存儲設備、受管交換機、路由器節點的操作和告警詳細日志信息。
[0016]
【附圖說明】
[0017]圖1為現有技術中監控需求、監控方法與監控效果對比圖;
圖2為本發明一種基于可視化技術的系統故障應急處置系統的結構示意圖;
圖3為本發明一種基于可視化技術的系統故障應急處置方法的流程圖。
【具體實施方式】
[0018]下面結合附圖進一步詳細描述本發明的技術方案,但本發明的保護范圍不局限于以下所述。
[0019]圖1為現有技術中監控需求、監控方法與監控效果對比圖,可以看出現有技術已難以滿足信息系統高效運維監控的需要。
[0020]如圖2、圖3所示,本發明提出一種基于可視化技術的系統故障應急處置系統,包括基于智能代理的分布式監控模塊、基于SNMP協議的網絡監控模塊、基于智能代理的主機故障診斷模塊、圖形化告警模塊;故障應急處置模塊;
所述基于智能代理的分布式監控模塊包括智能監控代理SMA、監控服務端,用于監控服務器的工作狀態信息及運行狀態;
所述基于SNMP協議的網絡監控模塊用于監視網絡性能、檢測分析網絡差錯和配置網絡設備;
所述基于智能代理的主機故障診斷模塊用于服務器故障的診斷分析;
所述圖形化告警模塊用于當系統發生故障時,以圖形化的方式告警指示不同故障類型;
所述故障應急處置模塊用于當系統發生故障時進行應急處置,實現故障信息系統的一鍵