專利名稱:一種故障處理系統及方法
技術領域:
本發明涉及網絡管理技術,尤其涉及一種故障處理系統及方法。
技術背景
隨著通信技術的發展,網絡規模不斷擴大,網絡復雜性也在不斷增加。現代通信網 絡復雜度的增加以及對自動化管理的要求,需要對出現的故障能夠進行高效的管理。
網絡設備(網元設備)在運行過程中,出現軟硬件的故障時,會把相應的故障數據 生成告警消息傳輸到用戶檢測顯示端(網管設備),通知用戶何種網元設備的何種位置出 現了何種問題。若引起該告警的故障已經被修復,則生成相應的告警恢復信息傳輸到用戶 檢測顯示端以通知給用戶。由此可見,告警消息一般分為兩種告警產生和告警恢復。
一般的故障檢測分為兩種方式一種是輪詢的方式,另一種是中斷的方式。輪詢的 方式就是通過中央處理器(Central Processing toit,簡稱CPU)定時讀取故障狀態指示的 標志進行告警;中斷的方式就是當故障發生時,產生告警中斷,CPU則停止正在處理的任務 來響應中斷,進行告警的處理。
在現有技術中,故障檢測和告警輸出一般都在同一個任務中完成,檢測到告警 事件后就進行告警輸出處理。告警輸出一般采用簡單網絡管理協議(Simple Network Management Protocol,簡稱為SNMP)的異常情況(trap)的方式把告警消息輸出到網管設 備。
圖1為現有技術通過SNMP協議通知告警的示意圖。如圖1所示,網元側的任務A 在檢測到告警后,采用SNMP協議向網管側的SNMP協議服務器發送告警。網元側的告警任 務也可以主動檢測告警,在告警任務檢測到告警之后,也采用SNMP協議向網管側的SNMP協 議服務器發送告警。網元側在檢測到告警之后,也可以在網元側直接進行告警處理;如圖1 所示,任務B檢測到告警后,直接對告警進行處理。
SNMP是目前網管系統中常用的標準通訊協議,采用管理者(Manager) /代理 (Agent)架構,其中網管設備作為Manager,網元設備作為Agent。網元設備通過SNMP協議 中定義的trap消息發送網元告警或者告警恢復信息到網管設備。
SNMP協議一般采用UDP協議來發送和接收SNMP消息,由于UDP協議具有不可靠 性,所以有可能存在告警消息無法及時、正確地送到網管設備的情況。現有技術一般采用在 SNMP協議下增加確認機制等方法來解決這個問題。
本發明的發明人在實現本發明的過程中,發現現有技術至少存在如下缺陷
1)告警處理方式不夠靈活;由于故障檢測和告警輸出在同一個任務中完成,檢測 到告警事件就進行相應的告警輸出處理,這種故障檢測和告警輸出綁定在一起的處理方式 不夠靈活;
2)通用性差,資源利用率不高;不同的告警之間無法共用相同的資源,比如利用 軟件實現告警時,增加新的告警時一般需要完整地增加與該告警相應的代碼,代碼改動較 大;而且,如果不同的任務均檢測到告警,也必須各自實現告警輸出;
3)告警的輸出方式比較單一,一般只采用SNMP協議中定義的trap消息輸出告警; 為了保證輸出告警的可靠性,現有技術雖然在SNMP協議中加入了確認機制,能夠一定程度 上可以解決可靠性問題,但是同時喪失了故障告警通用性。
另一方面,由于網絡環境或網元設備不穩定等原因,某種告警可能會頻繁地出現 告警產生-告警恢復-告警產生-告警恢復..,這種問題一般稱之為閃斷告警。閃斷告 警一般會導致網管界面頻繁刷新,顯示大量重復告警消息,給用戶定位故障帶來困難。現有 技術都是不區分地對所有的告警采取某種的處理方法,過濾掉多余的告警消息,以避免告 警閃斷所帶來的弊端。
另外,現有技術對所有告警都將其視為閃斷告警并據此進行針對性處理。實際上, 有的告警不可能成為閃斷告警,因此也就沒有必要將其作為閃斷告警進行處理。
而且,現有技術對于閃斷告警的處理方法,也還存在著各種不同的不足之處。
一種現有技術對告警產生和告警恢復分別進行處理,各自判定重復周期;兩條告 警產生的時間間隔小于預定重復周期,就保留第一條告警產生并且過濾掉第二條告警產 生;兩條告警恢復間的時間小于預定重復周期,就保留第一條告警恢復并且過濾掉第二條 告警恢復。這種技術有可能出現告警已經恢復但是告警狀態仍然是告警產生的情況。例如 告警重復周期設為1秒,兩條告警產生時間點分別為第0秒和第1. 2秒,兩條告警恢復時 間點分別為第0. 8秒(對應于第0秒的告警產生)和第1. 6秒(對應于第1. 2秒的告警 產生),在第0秒和第1. 2秒發送兩條告警產生,但只在第0. 8秒發送1條告警恢復,這樣用 戶得到的信息是第二次告警產生還并沒有恢復,但是實際告警已經恢復了。反過來,可能還 會向用戶發送一條告警產生和兩條甚至更多的告警恢復,導致用戶可能會產生不明所以的 疑問。因此這種現有技術容易漏掉告警產生或者告警恢復,導致用戶所得到的告警狀態并 不準確。
另一種現有技術是通過告警頻率來判斷閃斷告警的開始和結束。但是在實際應用 中,存在著開始和結束的判斷過程中,可能又發送了好幾個重復告警了。因此,這種現有技 術實時性差,效率較為低下,不能滿足實時應用的要求。
還一種現有技術省略閃斷告警的中間狀態,僅在閃斷告警的最后,上報一條告警 產生和一條告警恢復。比如在10分鐘內產生100條告警產生和告警恢復,但是最后只上報 了第100條告警產生和相應的第100條告警恢復,這種技術方案使得用戶無從知曉系統的 “閃斷”狀態及過程,不利于用戶了解故障的實質,而且還一定程度上掩蓋了故障的性質,易 使用戶得出錯誤結論。發明內容
本發明所要解決的技術問題是需要提供一種故障處理系統及方法,克服現有技術 中對故障進行告警時不夠靈活的缺陷。
為了解決上述技術問題,本發明首先提供了一種故障處理系統,包括任務檢測模 塊、故障檢測模塊、事件代理(EB)事件處理模塊、告警輸出模塊以及告警處理模塊,其中
所述任務檢測模塊,用于檢測到網元設備上的任務處理出現故障時,產生EB消 息;
所述故障檢測模塊,用于檢測到所述網元設備上的系統運行出現故障時,產生EB消息;
所述EB事件處理模塊,存儲有各種EB消息的類型,用于接收所述任務檢測模塊發 送的EB消息及所述故障檢測模塊發送的EB消息,將全部EB消息發送給所述告警輸出模 塊,并根據所述告警處理模塊的處理能力將部分EB消息發送給所述告警處理模塊;
所述告警輸出模塊,用于將所述EB事件處理模塊發送過來的EB消息轉換為告警 消息并發送;
所述告警處理模塊,用于處理所述EB事件處理模塊發送過來的EB消息。
優選地,所述任務檢測模塊及所述故障檢測模塊用于向所述EB事件處理模塊注 冊能夠發送的EB消息的類型;所述告警輸出模塊及所述告警處理模塊用于向所述EB事件 處理模塊注冊能夠接收的EB消息的類型。
優選地,所述告警輸出模塊用于以簡單網絡管理協議異常情況輸出方式將所述告 警消息發送給簡單網絡管理協議服務器,或者以系統日志輸出方式將告警消息發送給系統 日志服務器,或者以繼電器輸出方式將告警消息發送給繼電器告警裝置。
優選地,所述任務檢測模塊用于檢測到所述任務處理出現故障時產生一個任務告 警產生,故障恢復時產生一個相應的任務故障恢復;
其中,所述任務檢測模塊產生的EB消息,包括所述任務告警產生以及任務故障恢復。
優選地,所述告警輸出模塊用于在所述任務檢測模塊產生所述任務告警產生時輸 出一個任務告警信號,開始預設的限速周期的計時;并用于在所述任務檢測模塊產生所述 任務告警恢復且直至所述任務告警恢復所屬限速周期結束未再產生任務告警產生時,于所 述任務告警恢復所屬限速周期結束時產生一個任務恢復信號。
優選地,所述故障檢測模塊用于檢測到所述系統運行出現故障時產生一個系統告 警產生,故障恢復時產生一個相應的系統故障恢復;
其中,所述故障檢測模塊產生的EB消息,包括所述系統告警產生以及系統故障恢復。
優選地,所述告警輸出模塊用于在所述故障檢測模塊產生所述故障告警產生時輸 出一個故障告警信號,開始預設的限速周期的計時;并用于在所述故障檢測模塊產生所述 故障告警恢復且直至所述故障告警恢復所屬限速周期結束未再產生故障告警產生時,于所 述故障告警恢復所屬限速周期結束時產生一個故障恢復信號。
為了解決上述技術問題,本發明還提供了一種故障處理方法,用于故障處理系統 處理故障告警,該故障處理系統包括任務檢測模塊、故障檢測模塊、事件代理(EB)事件處 理模塊、告警輸出模塊以及告警處理模塊;
所述方法包括如下步驟
所述任務檢測模塊檢測到網元設備上的任務處理出現故障時,產生EB消息;
所述故障檢測模塊檢測到所述網元設備上的系統運行出現故障時,產生EB消息;
所述EB事件處理模塊接收所述任務檢測模塊發送的EB消息及所述故障檢測模塊 發送的EB消息,將全部EB消息發送給所述告警輸出模塊,并根據所述告警處理模塊的處理 能力將部分EB消息發送給所述告警處理模塊;
所述告警輸出模塊將所述EB事件處理模塊發送過來的EB消息轉換為告警消息并發送;
所述告警處理模塊處理所述EB事件處理模塊發送過來的EB消息。
優選地,所述任務檢測模塊及所述故障檢測模塊向所述EB事件處理模塊注冊能 夠發送的EB消息的類型;所述告警輸出模塊及所述告警處理模塊向所述EB事件處理模塊 注冊能夠接收的EB消息的類型。
優選地,所述告警輸出模塊以簡單網絡管理協議異常情況輸出方式將所述告警消 息發送給簡單網絡管理協議服務器,或者以系統日志輸出方式將告警消息發送給系統日志 服務器,或者以繼電器輸出方式將告警消息發送給繼電器告警裝置。
優選地,所述任務檢測模塊檢測到所述任務處理出現故障時產生一個任務告警產 生,故障恢復時產生一個相應的任務故障恢復;
其中,所述任務檢測模塊產生的EB消息,包括所述任務告警產生以及任務故障恢Μ. ο
優選地,所述告警輸出模塊在所述任務檢測模塊產生所述任務告警產生時輸出一 個任務告警信號,開始預設的限速周期的計時;并在所述任務檢測模塊產生所述任務告警 恢復且直至所述任務告警恢復所屬限速周期結束未再產生任務告警產生時,于所述任務告 警恢復所屬限速周期結束時產生一個任務恢復信號。
優選地,所述故障檢測模塊檢測到所述系統運行出現故障時產生一個系統告警產 生,故障恢復時產生一個相應的系統故障恢復;
其中,所述故障檢測模塊產生的EB消息,包括所述系統告警產生以及系統故障恢Μ. ο
優選地,所述告警輸出模塊在所述故障檢測模塊產生所述故障告警產生時輸出一 個故障告警信號,開始預設的限速周期的計時;并在所述故障檢測模塊產生所述故障告警 恢復且直至所述故障告警恢復所屬限速周期結束未再產生故障告警產生時,于所述故障告 警恢復所屬限速周期結束時產生一個故障恢復信號。
與現有技術相比,本發明技術方案的一個實施例把故障檢測和告警輸出分為兩個 任務,通過EB事件把二者聯系起來,使得故障檢測和告警輸出更加靈活高效。本發明技術 方案的另一個實施例采用限速處理,減少了故障檢測的處理時間和復雜性,且保證用戶能 夠了解網元設備產生閃斷告警的故障性質。本發明的還一個實施例采用三種告警輸出方式 進行告警輸出,豐富了告警的輸出方式,同時也提高了告警消息的可靠性。
圖1是現有技術通過SNMP協議通知告警的示意圖2是本發明實施例的故障處理系統的組成示意圖3是本發明另一實施例的故障處理系統的組成示意圖4、圖5和圖6分別是本發明實施例的告警示意圖7是本發明實施例的故障處理方法的流程示意圖8和圖9分別是本發明實施例的實際應用流程示意圖。
具體實施方式
以下將結合附圖及實施例來詳細說明本發明的實施方式,借此對本發明如何應用 技術手段來解決技術問題,并達成技術效果的實現過程能充分理解并據以實施。
首先,如果不沖突,本發明實施例以及實施例中的各個特征的相互結合,均在本發 明的保護范圍之內。另外,在附圖的流程圖示出的步驟可以在諸如一組計算機可執行指令 的計算機系統中執行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以 不同于此處的順序執行所示出或描述的步驟。
事件代理(Event Broker,簡稱為EB)為系統提供集中的事件通知/被通知服務 機制。EB將事件檢測和事件處理的模塊程序分離(解耦),服務于兩種類型的客戶,包括 用來檢測系統中特定事件(如link up/down)的檢測者(Detector),和用來處理事件(如 link up/down)的接收者(Recipient)。檢測者通過EB向所有感興趣的接收者通知事件的 發生,接收者通過EB接收通知。
為了獲得EB的服務,檢測者和接收者都需要向EB注冊。當接收者被增加、刪除或 者修改時,檢測者的變動非常小。
實施例一、故障處理系統
如圖2所示,本實施例主要包括任務檢測模塊210、故障檢測模塊220、EB事件處 理模塊230、告警輸出模塊MO以及告警處理模塊250,其中
任務檢測模塊210,用于對網元設備上的各種任務進行處理,當檢測到任務處理出 現故障需要上報告警時,即產生EB消息發送給EB事件處理模塊230 ;
故障檢測模塊220,用于對網元設備上各種系統運行環境進行檢測,當檢測到系統 運行出現故障需要上報告警時,即產生EB消息發送給EB事件處理模塊230 ;
EB事件處理模塊230,與任務檢測模塊210及故障檢測模塊220相連,存儲有各種 EB消息的類型,用于接收任務檢測模塊210及故障檢測模塊220發送的EB消息,根據EB消 息的類型發送到相應的接收者;其中,將全部的EB消息發送給告警輸出模塊M0,同時根據 告警處理模塊250的處理能力,選擇性地將部分EB消息發送給告警處理模塊250 ;
告警輸出模塊M0,與EB事件處理模塊230相連,用于將接收的EB消息轉換為告 警消息,并將告警消息發送給SNMP協議服務器300,以向網管設備報告系統運行信息;一般 而言,告警輸出模塊240是將EB消息中的信息完善化而獲得告警消息,為網管設備解決問 題提供幫助;
告警處理模塊250,與EB事件處理模塊230相連,用于根據EB事件處理模塊230 發送過來的EB消息的類型,處理EB事件處理模塊230發送過來的EB消息(系統自身能夠 處理的EB消息);一般而言,EB消息中大多包含了足夠的信息,這部分EB消息可供告警處 理模塊250直接處理。
本實施例中,EB消息發送者向EB事件處理模塊230注冊能夠發送的EB消息類型, EB消息接收者向EB事件處理模塊230注冊能夠接收的EB消息類型。上述的任務檢測模塊 210和故障檢測模塊220,即為EB消息發送者;上述的告警輸出模塊240以及告警處理模塊 250,即為EB消息接收者。EB事件處理模塊230接收到EB消息發送者發送的某類型的EB 消息時,根據EB消息的類型把EB消息發送給所有注冊了該類型的EB消息接收者。
上述告警處理模塊250所處理的EB消息,是系統能力以及告警類型共同決定的。如果EB消息能夠在系統內部(告警處理模塊250)處理,則該EB消息發送給SNMP協議服 務器300的同時,還一并發送給告警處理模塊250進行內部處理。
本實施例中,告警輸出模塊240采用三種告警輸出方式,有效保證了告警消息可 靠性的問題。這三種告警輸出方式具體包括以SNMP trap輸出方式將告警消息發送給SNMP 服務器、以系統日志(System Logging,簡稱為syslog)輸出方式將告警消息發送給系統日 志服務器,以及以繼電器輸出方式將告警消息發送給繼電器告警裝置。當然,告警輸出模塊 240同時將告警消息發送給SNMP服務器、系統日志服務器以及繼電器告警裝置這三者中的 兩者或全部,也是可行的。
如圖3所示,在本發明的其他實施例中,上述實施例中的告警輸出模塊240還將告 警消息輸出到外部的syslog服務器(krVer)400和警報裝置500 ;當然,從技術上來說,也 可以只發送給系統日志服務器400和警報裝置500其中之一。
在遠端網管側,采用SNMP協議服務器300以SNMP trap接收告警消息,以及采用系 統日志服務器400接收告警消息,二者實現了可靠互補,而無需修改SNMP協議來確保SNMP trap 輸出的可靠性。系統日志服務器400以系統日志的形式接收告警輸出模塊240輸出的告警。
在告警輸出模塊240現場,告警輸出模塊240把告警消息經繼電裝置(如繼電器) 輸出到外接的警報裝置500 (如告警燈和/或蜂鳴器等),如此能更及時地通知現場用戶。 這里的繼電器告警輸出并不是針對某一條告警消息的輸出,其中的繼電器屬于全局資源, 作為所有告警事件公用的故障輸出方式,設備上產生任意一個告警消息,繼電器外接的警 報裝置均會進行報警。直到所有告警消息被清除后,繼電器恢復正常輸出,繼電器外接的告 警設備就會停止報警。或者用戶收到報警裝置的報警后手動關閉報警。
發明人研究發現,由于故障檢測的輪詢方式是每隔一定的周期查詢一次監控參 數,每個故障在一個輪詢周期內只會被檢測到一次,因此在一個輪詢周期間隔內不可能會 出現不斷產生告警產生、告警恢復的現象,所以輪詢方式的故障檢測,不會在一個輪詢周期 內產生閃斷告警。
故而,閃斷告警只能是由于中斷方式告警引起的。
通過進一步的分析可以發現,也不是所有的由中斷方式產生的告警都會導致閃斷 告警。因此,對于中斷方式產生的告警可分為兩種一種是不可能產生閃斷告警的中斷式告 警,另一種是可能會產生閃斷告警的中斷式告警。比如端口的up/down告警、由于網線沒有 插好會導致端口出現時斷時續的告警等可能會產生閃斷告警;而網元設備掉電告警,由于 掉電后網元設備會重啟,因此這種告警就不存在告警恢復,也就不會出現閃斷告警的現象。
本發明采用的技術方案,是任務檢測模塊210用于優先采用輪詢方式進行任務處 理的故障檢測,故障檢測模塊220也用于優先采用輪詢方式進行系統運行的故障檢測。對 于既可以采用中斷方式又可以采用輪詢方式進行故障檢測的告警,任務檢測模塊210以 及故障檢測模塊220均使用輪詢方式;對于只能采用中斷方式進行檢測的告警,其中可能 產生閃斷告警的,采取本發明下述的限速處理措施,其中不可能產生閃斷告警的,無需考慮 (不做處理)。需要說明的是,對于只能采用中斷方式進行檢測的告警中,哪些可能產生閃 斷告警,可以根據本領域技術人員的常識性知識來進行分別,本發明對此不做具體限定。
在該限速處理過程中,告警輸出模塊240采用預設的限速周期來確定告警信號和 恢復信號的輸出,其中,任務檢測模塊210檢測到網元設備上的任務處理出現故障時產生某一個任務告警產生,此時告警輸出模塊240輸出一個任務告警信號,表示網元設備上的 任務處理出現了故障,并開始限速周期的計時。故障檢測模塊220檢測到網元設備上的系 統運行出現故障時產生某一個系統告警產生,此時告警輸出模塊240輸出一個系統告警信 號,表示網元設備上的系統運行出現了故障,并開始限速周期的計時。
告警輸出模塊240輸出任務告警信號之后,包括第一個限速周期以及后續的任意 個限速周期在內,任務檢測模塊210檢測到網元設備上的任務處理產生與之前任務告警產 生相應的任務告警恢復,且在直至該任務告警恢復所屬的這個限速周期結束,未再產生新 的任務告警產生的情形下,在該任務告警恢復所屬的限速周期結束時,告警輸出模塊MO 輸出一任務恢復信號,表示網元設備上業務處理的該故障已經恢復。
告警輸出模塊240輸出系統告警信號之后,包括第一個限速周期以及后續的任意 個限速周期在內,故障檢測模塊220檢測到網元設備上的系統運行產生與之前系統告警產 生相應的系統告警恢復,且在直至該系統告警恢復所屬的這個限速周期結束,未再產生新 的系統告警產生的情形下,在該系統告警恢復所屬的限速周期結束時,告警輸出模塊MO 輸出一系統恢復信號,表示網元設備上系統運行的該故障已經恢復。
前述任務檢測模塊210產生的EB消息,包括上述的任務告警產生以及任務告警恢 復。前述的故障檢測模塊220產生的EB消息,包括上述的系統告警產生以及系統告警恢復。
告警輸出模塊240可以通過設置告警狀態變量來記錄告警狀態的變化。告警輸出 模塊240輸出任務告警信號(或者系統告警信號)時,說明任務檢測模塊210檢測任務處 理產生一任務告警產生(或者故障檢測模塊220檢測系統運行產生一系統告警產生),此時 告警輸出模塊240將告警狀態記錄為任務告警產生(或者系統告警產生)(需要說明的是, 告警輸出模塊240對于不同的任務告警產生或系統告警產生,以及相應的任務告警恢復或 系統告警恢復,會維護不同的告警狀態變量)。之后任務檢測模塊210檢測任務處理產生相 應的任務告警恢復(或者故障檢測模塊220檢測系統運行產生相應的系統告警恢復),則告 警輸出模塊240將告警狀態更改為任務告警恢復(或者系統告警恢復)。后續如果任務檢 測模塊210檢測任務處理繼續產生任務告警產生或任務告警恢復(故障檢測模塊220檢測 系統運行繼續產生系統告警產生或系統告警恢復),則告警輸出模塊240相應地變更告警 狀體為任務告警產生(或者系統告警產生)或任務告警恢復(或者系統告警恢復)。
如果在同一個預設的限速周期T內,每一個告警產生(以下如不特殊聲明,統指任 務告警產生或者系統告警產生)(圖4所示第一告警產生41和第二告警產生44)都對應有 相應的告警恢復(以下如不特殊聲明,統指任務告警恢復或者系統告警恢復)(圖4所示 第一告警恢復43和第二告警恢復45),且最后一個告警恢復直至周期結束未再產生新的告 警產生,則在該限速周期T結束時輸出一個恢復信號(圖4所示恢復信號46)。其中,產生 第一個告警產生(圖4所示第一告警產生41)時,會輸出一個告警信號(圖4所示告警信 號42),且將告警狀態變量的值更改為告警產生;在產生最后一個告警恢復(第二告警恢復 45)時,告警狀態變量的值會變更為告警恢復;告警狀態變量的值更改的中間過程,不再贅 述。
如果在一個預設的限速周期T內,有一個告警產生(兩個或兩個以上的告警產生 時為最后一個告警產生)還沒有產生相應的告警恢復,則對后續的周期進行連續記錄,直 至所有的告警產生都產生有相應的告警恢復,且最后一個告警恢復產生直至周期(該最后一個告警恢復所在的周期)結束再沒有產生告警產生,則在該最后一個告警恢復所在的周 期結束時輸出一個恢復信號(圖5所示的恢復信號56,圖6所示的恢復信號68)。在這種情 形中,首尾兩個周期之間,甚至可以包含不產生告警產生并且也不產生告警恢復的“空白” 限速周期,其中的“空白”指的是不產生告警產生和告警恢復的限速周期(以圖6為基礎, 比如第二告警產生64和第二告警恢復65之間還可以包含至少一個未產生告警產生和告警 恢復的周期)。
在圖5所示的示意圖中,分別包含第一告警產生51和第二告警產生54,以及第一 告警恢復53和第二告警恢復55 ;在圖6所示的示意圖中,分別包含第一告警產生61、第二 告警產生64和第三告警產生66,第一告警恢復63、第二告警恢復65和第三告警恢復67。 其中在第一個告警產生(圖5所示的第一告警產生51以及圖6所示的第一告警產生61) 時輸出一個告警信號(圖5所示的告警信號52以及圖6所示的告警信號62),且將告警狀 態變量的值更改為告警產生;在產生最后一個告警恢復(圖5所示的第二告警恢復55,圖 6所示的第三告警恢復67)時,告警狀態變量的值會變更為告警恢復;告警狀態變量的值的 更改的中間過程,不再贅述。
其中,上述限速周期T的起始時刻為產生第一個告警產生(圖4所示的第一告警 產生41、圖5所示的第一告警產生51或者圖6所示的第一告警產生61)的時刻。另外,在 初始運行時一般不會有告警產生,可以認為是處于告警恢復狀態。
需要說明的是,開始限速周期T的計時直至輸出恢復信號,所包含的周期數量時 不特定的,且為不止兩個周期時,除了首尾兩個周期之外,中間的周期甚至可以不產生告警 產生和/或告警恢復。
經過上述的限速處理后,在予以記錄的每個限速周期內,至多僅允許輸出一個告 警信號和/或一個恢復信號。
實施例二、故障處理方法
結合圖2所示故障處理系統,圖7所示的本實施例用于圖2所示故障處理系統處 理故障告警,該故障處理系統主要包括任務檢測模塊210、故障檢測模塊220、EB事件處理 模塊230、告警輸出模塊MO以及告警處理模塊250,該方法主要包括如下步驟
步驟S710,任務檢測模塊210對網元設備上的各種任務進行處理,當檢測到任務 處理出現故障需要上報告警時,即產生EB消息發送給EB事件處理模塊230 ;
步驟S720,故障檢測模塊220對網元設備上的各種系統運行環境進行檢測,當檢 測到系統運行出現故障需要上報告警時,即產生EB消息發送給EB事件處理模塊230 ;
步驟S730,EB事件處理模塊230接收任務檢測模塊210及故障檢測模塊220發送 的EB消息,根據EB消息的類型發送到相應的接收者;其中,將全部的EB消息發送給告警輸 出模塊M0,同時根據告警處理模塊250的處理能力,選擇性地將部分EB消息發送給告警處 理模塊250 ;
步驟S740,告警輸出模塊240將接收的EB消息轉換為告警消息,并將告警消息發 送給SNMP協議服務器300,以向網管設備報告系統運行信息;一般而言,告警輸出模塊240 是將EB消息中的信息完善化而獲得告警消息,為網管設備解決問題提供幫助;
步驟S750,告警處理模塊250根據EB事件處理模塊230發送過來的EB消息的類 型,處理EB事件處理模塊230發送過來的EB消息(系統自身能夠處理的EB消息);一般而言,EB消息中大多包含了足夠的信息,這部分EB消息可供告警處理模塊250直接處理。
在本實施例中,任務檢測模塊210及故障檢測模塊220先向EB事件處理模塊230 注冊能夠發送的EB消息的類型;告警輸出模塊240及告警處理模塊250先向EB事件處理 模塊230注冊能夠接收的EB消息的類型。
上述步驟S740中,告警輸出模塊240可以以SNMP trap輸出方式將告警消息發送 給SNMP服務器,也可以以syslog輸出方式將告警消息發送給系統日志服務器,還可以以繼 電器輸出方式將告警消息發送給繼電器告警裝置。當然,告警輸出模塊MO同時將告警消 息發送給SNMP服務器、系統日志服務器以及繼電器告警裝置這三者中的兩者或全部,也是 可行的。
任務檢測模塊210檢測到任務處理出現故障時產生一個任務告警產生,故障恢復 時產生一個相應的任務故障恢復。告警輸出模塊240在任務檢測模塊210產生任務告警產 生時輸出一個任務告警信號,開始預設的限速周期的計時;并在任務檢測模塊210產生任 務告警恢復且直至任務告警恢復所屬限速周期結束未再產生任務告警產生時,于任務告警 恢復所屬限速周期結束時產生一個任務恢復信號。
故障檢測模塊220檢測到系統運行出現故障時產生一個系統告警產生,故障恢復 時產生一個相應的系統故障恢復。告警輸出模塊240在故障檢測模塊220產生故障告警產 生時輸出一個故障告警信號,開始預設的限速周期的計時;并在故障檢測模塊220產生故 障告警恢復且直至故障告警恢復所屬限速周期結束未再產生故障告警產生時,于故障告警 恢復所屬限速周期結束時產生一個故障恢復信號。
為使上述技術方案能說明得更加清晰,以下以端口 down告警這一實際應用為例 進行具體的闡述,并請繼續參考圖4。
如圖8所示,本實際應用包括如下步驟
步驟S810,網元設備啟動后中斷上報第一告警產生41 (即端口 down告警)時,開 啟一限速定時器用以記錄限速周期;在其他實施例中,也可以是其他任意的一個告警產生 開始時記錄限速周期;
步驟S820,產生一告警信號(即告警信號42)并輸出給網管設備,在一寄存器上將 告警狀態設置為告警產生;
步驟S830,由于限速定時器沒有到時,因此繼續等待中斷上報告警產生或者告警 恢復;
步驟S840,中斷上報第一告警恢復43 (即端口 up),將該寄存器上的告警狀態更改 為告警恢復;
步驟S850,由于限速定時器還沒有到時,因此繼續等待中斷上報告警產生或者告 警恢復;
步驟S860,中斷上報第二告警產生44 (即端口 down告警),將該寄存器上的告警 狀態更改為告警產生;
步驟S870,由于限速定時器還沒有到時,因此繼續等待中斷上報告警產生或者告 警恢復;
步驟S880,中斷上報第二告警恢復45 (及端口 up),將該寄存器上的告警狀態更改 為告警恢復;12
步驟S890,限速定時器到時(一個限速周期結束),寄存器上的狀態為告警恢復,產生一恢復信號輸出給網管設備。
以下繼續以端口 down告警這一實際應用為例進行具體的闡述,并請繼續參考圖 5。如圖9所示,本實際應用包括如下步驟
步驟S910,網元設備啟動后中斷上報第一告警產生51 (即端口 down告警)時,開 啟一限速定時器用以記錄限速周期;
步驟S920,產生一告警信號(即告警信號52)并輸出給網管設備,在一寄存器上將 告警狀態設置為告警產生;
步驟S930,由于限速定時器沒有到時,因此繼續等待中斷上報告警產生或者告警 恢復;
步驟S940,中斷上報第一告警恢復53 (即端口 up),將該寄存器上的告警狀態更改 為告警恢復;
步驟S950,由于限速定時器還沒有到時,因此繼續等待中斷上報告警產生或者告 警恢復;
步驟S960,中斷上報第二告警產生即端口 down告警),將該寄存器上的告警 狀態更改為告警產生;
步驟S970,限速定時器到時(一個限速周期結束)重置,繼續計時(第二個限速 周期開始)并等待中斷上報告警產生或者告警恢復;其中,由于寄存器上的告警狀態保持 為告警產生,表示還有未處于恢復狀態的告警產生存在,因此暫不向網管設備輸出告警信 號;
步驟S980,中斷上報第二告警恢復55 (及端口 up),將該寄存器上的告警狀態更改 為告警恢復;
步驟S990,限速定時器到時(第二個限速周期結束),寄存器上的狀告警態為告警 恢復,由于寄存器上的告警狀態由告警產生更改為告警恢復,且第二告警恢復陽直至第二 個限速周期結束,未在產生新的告警產生,因此產生一恢復信號輸出給網管設備。
由上述內容可知,本發明是在限速周期的開始階段輸出告警信號(第一個告警產 生之后才會開始對限速周期的計時),并僅在同一個或者后續的限速周期結束時刻輸出恢 復信號,同一個限速周期或者若干個連續的限速周期內只會輸出一條告警信號和一條恢復 信號,而且用戶可根據具體告警情況合理配置限速周期的大小。
本發明技術方案并沒有對所有的告警都直接進行閃斷告警的報告和處理,而是只 對有可能產生閃斷告警的告警進行報告并處理,大大減少了故障檢測的處理時間和復雜 性。另外,本發明的技術方案采用限速的方法來處理閃斷告警,既限制了閃斷告警的頻率, 又保證了用戶能夠了解網元設備產生閃斷告警的故障性質。
本發明的技術方案把故障檢測和告警輸出分為兩個任務,通過EB事件把二者聯 系起來,使得故障檢測和告警輸出更加靈活高效,便于其他任務進行告警處理。本發明技術 方案中,采用三種告警輸出方式進行告警輸出,有效解決了告警消息的可靠性問題。
本領域的技術人員應該明白,上述的本發明的各模塊或各步驟可以用通用的計算 裝置來實現,它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網絡 上,可選地,它們可以用計算裝置可執行的程序代碼來實現,從而,可以將它們存儲在存儲裝置中由計算裝置來執行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多 個模塊或步驟制作成單個集成電路模塊來實現。這樣,本發明不限制于任何特定的硬件和 軟件結合。
雖然本發明所揭露的實施方式如上,但所述的內容只是為了便于理解本發明而采 用的實施方式,并非用以限定本發明。任何本發明所屬技術領域內的技術人員,在不脫離本 發明所揭露的精神和范圍的前提下,可以在實施的形式上及細節上作任何的修改與變化, 但本發明的專利保護范圍,仍須以所附的權利要求書所界定的范圍為準。
權利要求
1.一種故障處理系統,其特征在于,包括任務檢測模塊、故障檢測模塊、事件代理(EB) 事件處理模塊、告警輸出模塊以及告警處理模塊,其中所述任務檢測模塊,用于檢測到網元設備上的任務處理出現故障時,產生EB消息;所述故障檢測模塊,用于檢測到所述網元設備上的系統運行出現故障時,產生EB消息;所述EB事件處理模塊,存儲有各種EB消息的類型,用于接收所述任務檢測模塊發送的 EB消息及所述故障檢測模塊發送的EB消息,將全部EB消息發送給所述告警輸出模塊,并根 據所述告警處理模塊的處理能力將部分EB消息發送給所述告警處理模塊;所述告警輸出模塊,用于將所述EB事件處理模塊發送過來的EB消息轉換為告警消息 并發送;所述告警處理模塊,用于處理所述EB事件處理模塊發送過來的EB消息。
2.根據權利要求1所述的系統,其特征在于所述任務檢測模塊及所述故障檢測模塊用于向所述EB事件處理模塊注冊能夠發送的 EB消息的類型;所述告警輸出模塊及所述告警處理模塊用于向所述EB事件處理模塊注冊能夠接收的 EB消息的類型。
3.根據權利要求1所述的系統,其特征在于所述告警輸出模塊用于以簡單網絡管理協議異常情況輸出方式將所述告警消息發送 給簡單網絡管理協議服務器,或者以系統日志輸出方式將告警消息發送給系統日志服務 器,或者以繼電器輸出方式將告警消息發送給繼電器告警裝置。
4.根據權利要求1所述的系統,其特征在于所述任務檢測模塊用于檢測到所述任務處理出現故障時產生一個任務告警產生,故障 恢復時產生一個相應的任務故障恢復;其中,所述任務檢測模塊產生的EB消息,包括所述任務告警產生以及任務故障恢復。
5.根據權利要求4所述的系統,其特征在于所述告警輸出模塊用于在所述任務檢測模塊產生所述任務告警產生時輸出一個任務 告警信號,開始預設的限速周期的計時;并用于在所述任務檢測模塊產生所述任務告警恢 復且直至所述任務告警恢復所屬限速周期結束未再產生任務告警產生時,于所述任務告警 恢復所屬限速周期結束時產生一個任務恢復信號。
6.根據權利要求1所述的系統,其特征在于所述故障檢測模塊用于檢測到所述系統運行出現故障時產生一個系統告警產生,故障 恢復時產生一個相應的系統故障恢復;其中,所述故障檢測模塊產生的EB消息,包括所述系統告警產生以及系統故障恢復。
7.根據權利要求6所述的系統,其特征在于所述告警輸出模塊用于在所述故障檢測模塊產生所述故障告警產生時輸出一個故障 告警信號,開始預設的限速周期的計時;并用于在所述故障檢測模塊產生所述故障告警恢 復且直至所述故障告警恢復所屬限速周期結束未再產生故障告警產生時,于所述故障告警 恢復所屬限速周期結束時產生一個故障恢復信號。
8.一種故障處理方法,用于故障處理系統處理故障告警,其特征在于,該故障處理系統包括任務檢測模塊、故障檢測模塊、事件代理(EB)事件處理模塊、告警輸出模塊以及告警 處理模塊;所述方法包括如下步驟所述任務檢測模塊檢測到網元設備上的任務處理出現故障時,產生EB消息;所述故障檢測模塊檢測到所述網元設備上的系統運行出現故障時,產生EB消息;所述EB事件處理模塊接收所述任務檢測模塊發送的EB消息及所述故障檢測模塊發送 的EB消息,將全部EB消息發送給所述告警輸出模塊,并根據所述告警處理模塊的處理能力 將部分EB消息發送給所述告警處理模塊;所述告警輸出模塊將所述EB事件處理模塊發送過來的EB消息轉換為告警消息并發送;所述告警處理模塊處理所述EB事件處理模塊發送過來的EB消息。
9.根據權利要求8所述的方法,其特征在于所述任務檢測模塊及所述故障檢測模塊向所述EB事件處理模塊注冊能夠發送的EB消 息的類型;所述告警輸出模塊及所述告警處理模塊向所述EB事件處理模塊注冊能夠接收的EB消 息的類型。
10.根據權利要求8所述的方法,其特征在于所述告警輸出模塊以簡單網絡管理協議異常情況輸出方式將所述告警消息發送給簡 單網絡管理協議服務器,或者以系統日志輸出方式將告警消息發送給系統日志服務器,或 者以繼電器輸出方式將告警消息發送給繼電器告警裝置。
11.根據權利要求8所述的方法,其特征在于,所述任務檢測模塊檢測到所述任務處理出現故障時產生一個任務告警產生,故障恢復 時產生一個相應的任務故障恢復;其中,所述任務檢測模塊產生的EB消息,包括所述任務告警產生以及任務故障恢復。
12.根據權利要求11所述的方法,其特征在于所述告警輸出模塊在所述任務檢測模塊產生所述任務告警產生時輸出一個任務告警 信號,開始預設的限速周期的計時;并在所述任務檢測模塊產生所述任務告警恢復且直至 所述任務告警恢復所屬限速周期結束未再產生任務告警產生時,于所述任務告警恢復所屬 限速周期結束時產生一個任務恢復信號。
13.根據權利要求8所述的方法,其特征在于所述故障檢測模塊檢測到所述系統運行出現故障時產生一個系統告警產生,故障恢復 時產生一個相應的系統故障恢復;其中,所述故障檢測模塊產生的EB消息,包括所述系統告警產生以及系統故障恢復。
14.根據權利要求13所述的方法,其特征在于所述告警輸出模塊在所述故障檢測模塊產生所述故障告警產生時輸出一個故障告警 信號,開始預設的限速周期的計時;并在所述故障檢測模塊產生所述故障告警恢復且直至 所述故障告警恢復所屬限速周期結束未再產生故障告警產生時,于所述故障告警恢復所屬 限速周期結束時產生一個故障恢復信號。
全文摘要
本發明公開了一種故障處理系統及方法,克服現有技術中對故障進行告警時不夠靈活的缺陷。該方法包括任務檢測模塊檢測到網元設備上的任務處理出現故障時產生EB消息;故障檢測模塊檢測到網元設備上的系統運行出現故障時產生EB消息;EB事件處理模塊將全部EB消息發送給告警輸出模塊,并根據告警處理模塊的處理能力將部分EB消息發送給告警處理模塊;告警輸出模塊將EB事件處理模塊發送過來的EB消息轉換為告警消息并發送;告警處理模塊處理EB事件處理模塊發送過來的EB消息。本發明的一個實施例把故障檢測和告警輸出分為兩個任務,通過EB事件把二者聯系起來,使得故障檢測和告警輸出更加靈活高效。
文檔編號H04L12/24GK102045204SQ201010617708
公開日2011年5月4日 申請日期2010年12月31日 優先權日2010年12月31日
發明者孫慶堯 申請人:瑞斯康達科技發展股份有限公司