專利名稱:網絡故障實時相關性分析方法及系統的制作方法
技術領域:
本發明屬于計算機網絡通信領域,具體涉及一種網絡管理中基于領域綜合信息對網絡故障事件進行實時相關性分析的方法及系統。
背景技術:
在計算機和通信網絡中,當某個設備或者服務發生故障時,會因為設備、服務和業務之間緊密聯系而引起一系列網絡事件,負責監控該網絡的網絡管理系統通過設備發來的事件通知或者網管系統的輪詢監控,會發現大量的異常事件,并通過SNMP Trap、Syslog或者Indication反映到網絡管理員的管理界面上,從而表現為“網絡故障風暴”。由于這種故障風暴往往在很短的時間內導致大量的事件,淹沒了最根本的故障事件,讓管理員難以從中發現故障發生的真正原因,要解決故障,就需要從中分析出最根本的故障原因,也就是分析這些事件之間的相關性,尋求根源事件。為了進行事件相關性分析,業界發展出幾種典型的方法如基于規則的分析(Rule Based Reasoning)、基于模型的分析(ModelBased Reasoning)、基于狀態轉移圖(State Transition Graph)的分析、基于代碼簿(CodeBook)的分析及基于案例的分析(Case-Based Reasoning),這些方法都能在一定程度上解決故障相關性分析的問題,并且各有優點。但是這些方法均無法完全解決以下問題(1)無法動態的考慮網絡拓撲連結信息;(2)無選擇的處理所有的輸入事件,效率難以提高,資源消耗大;(3)推理過程過于依賴預設規則、特征表或模型,缺乏自動學習能力,缺少對知識庫以外的新情況的適應能力和處理能力;(4)在固定的時間范圍內觀察事件序列,不能動態的改變關聯分析的時間范圍;(5)在分析過程中缺少對條件概率和時間因素的考慮;(6)不能在基于靜態信息的分析過程中結合實時獲取的網絡運行參數。
發明內容
本發明提供一種基于領域綜合信息對網絡故障事件進行實時相關性分析的方法及系統,克服了現有的故障關聯分析方法中忽視動態網絡狀態信息、推理過程過于依賴預設規則和缺乏自動學習能力等不足,可有效的識別故障源頭的關鍵事件并將其在網絡中定位。
本發明的技術內容一種網絡故障實時相關性分析方法,包括(1)事件提取接口采集網絡中產生的各種故障事件,并寫入原始事件列表中;(2)從原始事件列表中讀取一條事件,通過歷史故障情景信息進行事件匹配,對網絡設備、服務運行參數進行實時檢測;(3)如果未有匹配事件,基于信息模型、拓撲依賴關系選取出與當前處理的事件相關的網絡對象進行實時檢測,并將實時檢測的結果作為條件應用回推理過程中;(4)返回原始事件列表繼續查找與當前處理事件相關的事件或者與實時檢測結果吻合的事件,并將該事件加入到工作列表中;(5)在原始事件列表中已經沒有其他可以加入工作列表的事件,則從工作列表中的事件構造一個新的故障情景并加入到歷史故障情景信息中,清空工作列表;(6)從原始事件列表中讀取下一個符合選擇策略的事件,返回到第二步,如果沒有事件在列表中,則掛起等待有事件輸入。
所述的信息模型包括(1)對被管理網絡中的各種被管理對象進行面向對象抽象;(2)按照抽象后的被管理類之間的繼承關系組成一個層次化的信息模型;(3)在信息模型中用關聯類定義被管理類之間的相互關系。所述拓撲依賴關系包括(1)在網絡運行中保持拓撲依賴關系與網絡實際拓撲的一致;(2)將故障相關性分析程序運行的網絡節點設為參考點;(3)通過參考點計算到達其他各個節點的可達性依賴關系。
(4)利用來自設備的拓撲改變的通告觸發拓撲同步程序由最新的拓撲重新計算拓撲依賴關系;
所述推理過程包括(1)為每一步推理賦予一個置信概率,并通過計算每步的概率得出最后分析結果的概率;(2)在故障情景創建中定義時間約束函數來描述事件的時間特性以及相關聯的事件之間的時間關系;(3)用形式化方法進行告警內容的表示和匹配。
將歷史故障情景信息構造為一張便于快速查詢的故障情景表。
所述原始故障事件采集進一步包括(1)在處理不同的事件類型時,按照預定規則動態改變原始事件隊列的長度;(2)按照事件級別和用戶定義規則來決定哪些事件作為相關性分析的起始點;(3)對原始事件進行預處理,針對不同協議的故障事件提供可擴展的事件獲取接口,將它們轉化為統一的內部格式并過濾。
所述構造新的故障情景包括(1)提取故障特征參數;(2)提取故障傳播路徑;(3)利用故障特征參數和傳播路徑構造新的故障解決情景。
一種網絡故障實時相關性分析系統,包括分析控制引擎用于按照分析控制引擎算法調用其他模塊和接口來完成故障相關性分析;事件提取接口用于接收網絡設備發來的各種網絡事件,將事件轉化為統一的格式,寫入原始事件列表,供分析控制引擎調用;實時網絡參數檢測接口用于檢測網絡中各種設備和服務的屬性、性能和可達性等實時信息,被分析控制引擎所調用,接受故障分析引擎的參數以決定對哪個網絡設備進行實時檢測,并將結果返回給分析控制引擎;信息模型描述一系列對應于網絡協議對象和設備對象的管理類,以及它們之間的相互依賴關系;信息模型查詢接口用于從信息模型中查詢管理類、管理類屬性和管理類之間關系的函數,在運行時為分析控制引擎提供來自信息模型的信息;拓撲同步模塊用于被網絡拓撲改變事件觸發運行拓撲依賴關系生成算法,生成正確反映當前網絡拓撲連結關系的拓撲依賴關系并存入拓撲依賴關系庫,拓撲依賴關系庫為分析控制引擎提供相關信息;故障情景表生成模塊用于在已經找到相關性的一組事件上建立一個故障情景,并將此情景存入故障情景表中,通過故障情景表與后續的事件進行匹配。
所述信息模型以散列表文件方式存儲,分析控制引擎在分析過程中通過模型查詢接口提取信息模型的信息。
進一步包括預處理模塊按照預定的預處理規則對接收到的原始事件進行預先處理。
本發明的技術效果充分利用了網絡中各種動態和靜態信息,實時信息和歷史信息,在網絡出現故障時,從復雜的故障現象及其引起的事件風暴中,有效的識別故障源頭的關鍵事件并將其在網絡中定位;此外,因為在分析中應用了與實際網絡拓撲狀況同步的拓撲依賴關系,以及實時獲取的網絡運行參數,提高了故障定位的準確性;通過對原始輸入事件進行預處理(包括協議格式轉換、過濾和選擇),避免了從所有輸入的事件入手進行相關性分析,提高了處理效率;利用構造故障處理歷史情景表,使本方法具有了從歷史經驗中自我學習的能力,而且用情景表對事件進行快速匹配,使得有的事件可以直接在情景表中得到匹配,從而避免了對所有的事件都進行全過程的相關性分析,處理效率得到提高;且由于在分析算法中應用概率邏輯和時間約束函數、正則表達式模糊匹配,能夠更加靈活的處理事件之間的復雜關系,提高了相關性分析的適用能力。
圖1是本發明網絡故障實時相關性分析系統的結構示意圖;圖2是本發明網絡故障實時相關性分析方法的流程圖;圖3是本發明網絡故障實時相關性分析方法的拓撲依賴生成算法流程圖;圖4是本發明網絡故障實時相關性分析方法的一個具體實施例的網絡示意圖;圖5是本發明網絡故障實時相關性分析方法的一個具體實施例中的信息模型的示意圖。
具體實施例方式
參考圖1,本發明以分析控制引擎為控制模塊,通過與信息模型查詢接口,事件提取接口和預處理模塊、實時網絡參數檢測接口、故障情景表生成模塊、拓撲同步模塊的交互來實施網絡故障實時相關性分析。具體步驟為1、事件提取接口以不同的協議(SNMP/SYSLOG等)提取來自各種網絡設備和業務對象的故障事件信息,并將它們的格式轉化為統一的內部格式,然后通過事件預處理模塊,對這些事件信息進行壓縮、過濾(按照預設的過濾器),寫入原始事件列表中;通過對原始事件進行預處理,可有效提高處理效果;2、分析控制引擎從原始事件列表中按照原始事件級別和類型選擇性讀取一條事件進行相關性分析;在分析過程中綜合應用故障情景表、信息模型信息、實時檢測信息和拓撲信息,在分析過程中會按照需要繼續從原始事件列表中讀取事件來構造事件傳播路徑,直到無法再找到下一個可以匹配的事件為止;(1)將歷史故障情景信息構造為一張便于快速查詢的故障情景表。在情景表中可進行事件的快速匹配;(2)構造面向對象的層次化網絡信息模型對網路中的硬件、鏈路、軟件和網絡服務等被管理對象進行面向對象抽象,按照這些抽象后的管理類之間的繼承關系組織成為一個層次化的信息模型。在此模型中同時用關聯類定義了被管理類之間的包含、依賴、連結等相互關系。模型以散列表(Hash)文件方式存儲,可通過模型對象管理接口訪問,利用模型定義的管理類的層次和相互依賴關系來進行推導;在信息模型中描述了一系列對應于網絡協議對象和設備對象的管理類,以及它們之間各種各樣的關系。信息模型中定義的管理類可以分為拓撲子模型、開放服務子模型和網絡通信子模型三個大類。
以下用開放服務系統子模型作為例子來介紹管理類的定義開放服務系統子模型主要用于描述數據通信網絡中的各個節點設備及其內部各個模塊,它將一切提供數據傳輸服務或者數據處理服務的網絡節點抽象為一個開放的服務系統,由軟件、硬件按照一種可擴展和剪裁的方式進行組合構成不同的系統,其中管理類為a、開放服務系統(Open Service System)代表一切在數據通信網絡上提供各層數據服務的系統;包括路由器、交換機或者服務器等;b、軟件(software)開放服務系統中通過軟件實現的功能模塊;c、硬件(hardware)開放服務系統中通過硬件和固件實現的功能模塊;d、應用(application)各種應用程序,如郵件客戶端;e、操作系統(os)各種實時和分時操作系統;如VxWorks,Windows,Unix,Linux等;f、資源(resource)系統中基本的共享對象如內存、磁盤、CPU、中斷等;g、設備(device)組成硬件的各個模塊;h、服務(service)i、協議棧(protocol stack)j、內核(kernel)k、驅動(driver)l、內存(memory)m、硬盤(harddisk)n、中央處理器(cpu)o、總線(bus)p、適配器(adapter)q、網絡適配器(network adapter)u、控制器(controller)在該信息模型中存在管理類之間的各種依賴關系,如協議依賴關系、開發服務依賴關系等。
(3)實時檢測將推理過程和對網絡設備、服務運行參數的實時檢測結合起來。
(4)基于指定參考點進行拓撲依賴關系實時計算將故障相關性分析程序運行的網絡節點設為參考點,在此基礎上計算到達其他各個節點的可達性依賴關系,并在網絡運行中保持與網絡拓撲的同步;拓撲依賴關系描述了節點和節點之間的物理性連結,是協議互通性和服務可用性的基礎。其中參考點,指當我們考慮到拓撲圖中某個節點的可達性時,作為出發點的那一節點,在實際的被管網絡中,往往就是網管平臺所處的節點,或者是網絡探測器(軟件或硬件)所處的節點位置。參考圖3,建立依賴關系是一個遞歸算法,每次拓撲發生改變后,都會觸發自動運行算法,更新依賴依賴關系,保證當前故障定位和關聯的準確性,從而達到下一步需要檢測的可能關聯的網絡實例對象的集合。
(5)在控制分析引擎內部完成相關性分析方法最核心的邏輯,參考圖2,a、從列表中讀取一個事件Ei(i=1~n),在情景表中用該事件進行匹配,看是否有跟該事件相關的故障歷史情景(該故障情景的特征事件與該事件匹配),對每一個符合的情景,按照步驟(b)處理;b、調用實時檢測模塊,對該情境中的相關對象類的相關實例(同時考慮與該事件產生節點相關的拓撲依賴的節點)進行實時狀態檢測,看返回結果是否符合情景描述的特征范圍;然后再到原始事件列表中搜索有沒有相關實例產生的后繼事件,看是否符合情景定義的特征;如果以上檢查通過,則標記這些相關的事件并調用輸出模塊格式化輸出分析結果;c、如果(b)中檢測不符合,則調用模型查詢接口,在網絡信息模型中查詢與產生該事件的對象對應的管理類;同時考慮與該事件產生節點相關的拓撲依賴的節點,得到下一步需要檢測的可能相關的網絡實例對象的集合;d、調用實時檢測模塊檢測這些對象的當前狀態是否符合星系模型中定義的關系所描述的特征范圍,然后檢查在原始事件列表中是否有這些對象發出的相關事件,如果有,則將這些事件加入到工作事件列表,轉步驟(e);如果以上檢測不通過,則檢查工作事件列表是否為空,如果為空轉步驟(e)如果不為空,則調用故障情景構造模塊為這些事件構造新的故障情景并加入到故障情景表中,同時清空工作事件列表;然后再標記和移除這些事件并格式化輸出分析結果,轉步驟(e);e、從原始事件列表中讀取下一個符合選擇策略的事件,然后轉步驟(a),如果沒有事件在列表中,則掛起等待有事件輸入;其中,在上述步驟提及的匹配和實時狀態檢測的推理過程包括基于概率的規則推理為每一步推理賦予一個置信概率,并通過計算每步的概率得出最后分析結果的概率;對時間約束因素的處理在故障情景創建中定義時間約束函數來描述事件的時間特性以及相關聯的事件之間的時間關系;用正則表達式進行告警內容的模糊匹配。
3、當完成一遍相關性分析后(完成對當前事件列表中所有事件的掃描),為本遍分析中關聯到一起的事件構造故障情景并加入到故障情景表,然后將這些事件移出原始事件列表并構造輸出分析結果;4、在與分析控制引擎進行以上工作的同時,事件采集模塊(包括事件采集接口和事件預處理模塊)還在同步的向原始事件列表中寫入新接收到的事件,拓撲同步模塊也同時監控網絡拓撲的變化,隨時刷新網絡拓撲依賴關系庫;如果原始事件列表中沒有事件了,分析控制引擎將掛起,等待有新的事件寫入;事件預處理模塊將新的事件寫入原始事件列表時,如果發現分析控制引擎掛起,將喚醒該進程。
具體采用一個局域網的例子說明,參考圖4,其中A,C,D是局域網中運行Linux操作系統的主機,S是一臺三層交換機,R是一臺連接此局域網與Web服務器的路由器,也是此局域網的網關。A、C直接與S相連,D直接與R相連,RP是一臺運行Windows的PC,也是我們執行相關性分析的參考點,相關性分析系統就運行在這臺主機上。
首先,參考圖5,本實施例采用一個簡化的信息模型,在此網絡中主機A,C,D,RP,路由器R,交換機S都可以被看作是開放服務系統,每個開放服務系統包含了一個協議棧,協議棧負責完成應用與網絡上其他開放服務系統中對等實體間的通信。數據向下流經應用、操作系統、協議、接口,然后進入物理網絡,經過二層轉發和三層路由到達另一個開放服務系統,向上經過接口、協議、操作系統直到另一端的應用。
1)信息模型實例化以上的模型將在實際的網絡環境中生成一些對應于以上模型實體的實例如路由器R上的應用,我們將其命名為Application_R,R上的操作系統,命名為OS_R,與此類推,我們得到其他實例Protocols_R,Interface_R;同樣對于主機A,我們得到Application_A,Service_A,OS_A,Protocols_A,Interface_A;對于主機C,我們得到Application_C,Service_B,OS_C,Protocols_C,Interface_C;
對于主機D,我們得到Application_D,Service_D,OS_D,Protocols_D,Interface_D;而且存在以下依賴關系Application->Service;Service->OS;OS->Protocols;Protocols->Interface;(注意這是一個簡化的模型);假設模型中有定義web_browse_in_url->DNS service;X.interface.fail等價于X.down;2)拓撲依賴關系生成對于圖4所示的網絡,網絡管理平臺將通過自動發現得到其拓撲數據,然后運行拓撲依賴關系生成算法,(以RP為參考點)得到以下拓撲依賴關系集合RD={A->S,C->S,S->R,D->R,Intemet->R,R->RP}其中’X->Y’的含義可以解釋為“要訪問X,必須先經過Y”;R->RP表示R是與參考點RP直接相連的網絡節點;當網絡拓撲或參考點發生改變時,該算法自動更新依賴關系,從而保持依賴關系能夠反映實際的網絡運行狀況。
3)事件提取接口開始接收網絡中產生的各種事件。
假設在主機A上運行了一個DNS服務(可以看作一個服務),而在主機D上有個程序在不斷的訪問Web服務器上的主頁www.harboumetworks.com,可以將其看作一個Applicaion,我們命名為web_browse_in_url。
假設在某個時刻,事件提取接口從各個主機的SNMP代理接收到以下事件,這事件被格式化后表示如下<pre listing-type="program-listing"> { E0=RP.ping.S.failt0,表示t0時刻從RP上無法ping到交換機S, E1=RP.ping.C.failt1,表示t1時刻從RP上無法ping到主機C, E2=RP.ping.C.failt2,表示t2時刻從RP上無法ping到主機C, E3=D.web_browse_in_url.Web_Server.failt3表示t3時刻主機D上無法訪問Web服務器。<!-- SIPO <DP n="9"> --><dp n="d9"/> E4=RP.ping.A.failt4,表示t4時刻從RP上無法ping到主機A, E5=RP.ping.A.failt5,表示t5時刻從RP上無法ping到主機A, E6=R.downt6,表示t6時刻R失效, E7=RP.web_browse_in_url.web_server.failt7表示t7時刻主機RP上無法訪問Web服務器。 E8=R.upt8,表示t8時刻R恢復工作, }</pre>4)E0...E4隨后被送給預處理模塊處理后,得到壓縮后的原始事件集合,注意這里過濾了重復的事件(E2,E5)和故障狀態已經解除的成對事件(E6,E8);{E0=RP.ping.S.failt0,表示t0時刻從RP上無法ping到交換機S,E1=RP.ping.C.failt1,表示t1時刻從RP上無法ping到主機C,E3=D.web_browse_in_url.Web_server.failt3表示t3時刻主機D上無法訪問Web服務器。
E4=RP.ping.A.failt4,表示t4時刻從RP上無法ping到主機A,E7=RP.web_browse_in_url.Web_Server.failt7表示t7時刻主機RP上無法訪問Web服務器。
}5)利用領域綜合信息對通信網絡中的故障事件進行實時相關性分析(a)分析控制引擎從原始事件列表中讀取一條事件E0=RP.ping_S.failt0;從中解析出節點對象源節點RP,目的節點S,應用對象RP.ping,ping屬于Applications;應用對象狀態fail;將E0標記并加入工作事件列表;(b)打開并查詢情景表中有無與RP,S,ping相關的情景,發現情景表為空(系統第一次初始化,還沒有加入新的情景),關閉情景表;(c)調用信息模型查詢接口,查詢ping(Application),得到關系Applications->Services,Services->Protocols,Protocols->Interface;再查詢拓撲依賴關系庫,得到R->RP,S->R;(d)調用網絡狀態實時檢測接口,檢查S.Interface,發現S.Interface狀態為fail,則根據依賴關系可以推斷出以下結果S.Interface.fail==S.down;S.down=>A.down and C.down;A.down==A.Interface.fail=>A.application.fail and A.services.failC.down==C.Interface.fail=>C.application.fail and C.services.fail;A.services.fail=>A.DNS.fail=>*.browse_web_in_url.fail(e)從E1開始檢查原始事件列表。讀取E1E1=RP.ping.C.failt1,從中解析出節點對象源節點RP,目的節點C,應用對象RP.ping,ping屬于Applications;應用對象狀態fail;ping屬于application,要求RP和C,以及拓撲依賴的S,R上的applications,services,protocols,interface均保持正常,則S.down,C.down均可推出E1,所以E1被關聯上,分析引擎將E1標記并加入到工作事件列表中;繼續往下讀取E3E3=D.web_browse_in_url.Web_server.failt3解析得到節點對象D,Web_server;應用對象web_browse_in_url;應用對象狀態fail;根據前面得到的A.services.fail=>A.DNS.fail=>*.browse_web_in_url.fail,可以得出E3也是E1的相關事件,于是E3被標記并加入到工作事件列表中。
同理,可以分析出E4和E7都是E1的相關事件,于是標記該事件被加入到工作列表。
(f)發現原始事件列表中已經沒有未標記的事件,則調用輸出模塊對原始事件列表進行格式化輸出
輸出告警<pre listing-type="program-listing"> Alarm1= { CauseRP.ping.S.failt0 Affects [ RP.ping.C.failt1 D.web_browse_in_url.Web_server.failt3 RP.ping.A.failt4 RP.web_browse_in_url.Web_Server.failt7 ] }</pre>(g)利用故障特征參數和故障傳播路徑為這些事件構造新的故障解決情景ScenelS.down=>{A.down and C.down and*.web_browse_in_url.fail}并加入到故障情景表中。
(h)清空工作事件列表;從原始事件列表中移除這些事件。
(j)如果此時有新的事件加入到原始事件引擎則轉(3),否則掛起,等待新的事件輸入;(k)假設有新的事件來到E9=D.web_browse_in_url.Web_Server.failt9E10=A.downt10;(l)事件分析引擎讀取E9,在事件情景表中查詢,發現在Scene1中有*.web_browse_in_url.fail這個事件特征模式與之匹配,將E9加入到工作事件列表中,繼續查看在原始事件列表中是否有特征事件A.down和C.down,讀取到E10,滿足A.down,將E10加入工作事件列表;這時候列表中沒有其他的事件了,還余下一個特征C.down需要被證實,于是調用實時檢測接口,檢測發現C.down=true;于是情景得到匹配,直接得出結果S.down。以下同(1)描述的步驟。
在上一步中,如果對C的實時檢測結果C.down=false;則上述情景不能完全被置信,可以給予一個置信概率。表示還可能有其他的原因。
通過運用領域綜合信息,包括基于網絡信息模型的管理對象層次信息及相互關系、自動學習的故障處理歷史信息、實時采集的網絡運行參數、網絡動態拓撲信息、事件時間特征等,并在推理過程中運用動態分析方法,較好解決了在復雜網絡環境中的故障相關性分析問題。
參考圖1,本發明網絡故障實時相關性分析系統,包括分析控制引擎分析過程的主要控制邏輯執行者,用于按照分析控制引擎算法調用其他模塊和接口來完成故障相關性分析;信息模型描述了一系列對應于網絡協議對象和設備對象的管理類,以及它們之間各種各樣的關系,信息模型中定義的管理類可以分為拓撲子模型、開放服務子模型和網絡通信子模型三個大類;信息模型查詢接口用于從信息模型中查詢管理類、管理類屬性和管理類之間關系的函數,在運行時為分析控制引擎提供來自信息模型的信息;事件提取接口用于接收網絡設備發來的各種網絡事件,包括SNMPTRAP、SYSLOG、CMIP Event Report等各種協議的事件通告,將該事件轉化為統一的格式,并交給預處理模塊;預處理模塊用于對接收到的原始事件進行簡單的過濾(按照設定的規則去除一些管理人員無需關心的事件)、壓縮(去除重復的事件)、重定義(把一個或多個事件重新定義為一個新的事件)等預先處理,有利于相關性分析;實時網絡參數檢測接口用于檢測網絡中各種設備和服務的屬性、性能和可達性等實時信息,被故障分析引擎所調用,接受故障分析引擎的參數以決定對哪個網絡設備進行實時檢測,并將結果返回給故障分析引擎;故障情景表生成模塊用于在已經找到相關性的一組事件上建立一個故障情景,并將此情景存入故障情景表中,這些建立的故障情景供后續分析快速查找使用,建立的故障情景可供后續分析快速查找并使用;拓撲同步模塊用于被網絡拓撲改變事件觸發運行拓撲依賴關系生成算法,生成正確反映當前網絡拓撲連結關系的拓撲依賴關系并存入拓撲依賴關系庫,供故障相關性分析使用。
權利要求
1.一種網絡故障實時相關性分析方法,包括(1)事件提取接口采集網絡中產生的各種故障事件,并寫入原始事件列表中;(2)從原始事件列表中讀取一條事件,通過歷史故障情景信息進行事件匹配,對網絡設備、服務運行參數進行實時檢測;(3)如果未有匹配事件,基于信息模型、拓撲依賴關系選取出與當前處理的事件相關的網絡對象進行實時檢測,并將實時檢測的結果作為條件應用回推理過程中;(4)返回原始事件列表繼續查找與當前處理事件相關的事件或者與實時檢測結果吻合的事件,并將該事件加入到工作列表中;(5)在原始事件列表中已經沒有其他可以加入工作列表的事件,則從工作列表中的事件構造一個新的故障情景并加入到歷史故障情景信息中,清空工作列表;(6)從原始事件列表中讀取下一個符合選擇策略的事件,返回到第二步,如果沒有事件在列表中,則掛起等待有事件輸入。
2.如權利要求1所述的網絡故障實時相關性分析方法,其特征在于所述的信息模型包括(1)對被管理網絡中的各種被管理對象進行面向對象抽象;(2)按照抽象后的被管理類之間的繼承關系組成一個層次化的信息模型;(3)在信息模型中用關聯類定義被管理類之間的相互關系。
3.如權利要求1或2所述的網絡故障實時相關性分析方法,其特征在于所述拓撲依賴關系包括(1)在網絡運行中保持拓撲依賴關系與網絡實際拓撲的一致;(2)將故障相關性分析程序運行的網絡節點設為參考點;(3)通過參考點計算到達其他各個節點的可達性依賴關系。(4)利用來自設備的拓撲改變的通告觸發拓撲同步程序由最新的拓撲重新計算拓撲依賴關系;
4.如權利要求1所述的網絡故障實時相關性分析方法,其特征在于所述推理過程包括(1)為每一步推理賦予一個置信概率,并通過計算每步的概率得出最后分析結果的概率;(2)在故障情景創建中定義時間約束函數來描述事件的時間特性以及相關聯的事件之間的時間關系;(3)用形式化方法進行告警內容的表示和匹配。
5.如權利要求1所述的網絡故障實時相關性分析方法,其特征在于將歷史故障情景信息構造為一張便于快速查詢的故障情景表。
6.如權利要求1所述的網絡故障實時相關性分析方法,其特征在于所述原始故障事件采集進一步包括(1)在處理不同的事件類型時,按照預定規則動態改變原始事件隊列的長度;(2)按照事件級別和用戶定義規則來決定哪些事件作為相關性分析的起始點;(3)對原始事件進行預處理,針對不同協議的故障事件提供可擴展的事件獲取接口,將它們轉化為統一的內部格式并過濾。
7.如權利要求1所述的網絡故障實時相關性分析方法,其特征在于所述構造新的故障情景包括(1)提取故障特征參數;(2)提取故障傳播路徑;(3)利用故障特征參數和傳播路徑構造新的故障解決情景。
8.一種網絡故障實時相關性分析系統,包括分析控制引擎用于按照分析控制引擎算法調用其他模塊和接口來完成故障相關性分析;事件提取接口用于接收網絡設備發來的各種網絡事件,將事件轉化為統一的格式,寫入原始事件列表,供分析控制引擎調用;實時網絡參數檢測接口用于檢測網絡中各種設備和服務的屬性、性能和可達性等實時信息,被分析控制引擎所調用,接受故障分析引擎的參數以決定對哪個網絡設備進行實時檢測,并將結果返回給分析控制引擎;信息模型描述一系列對應于網絡協議對象和設備對象的管理類,以及它們之間的相互依賴關系;信息模型查詢接口用于從信息模型中查詢管理類、管理類屬性和管理類之間關系的函數,在運行時為分析控制引擎提供來自信息模型的信息;拓撲同步模塊用于被網絡拓撲改變事件觸發運行拓撲依賴關系生成算法,生成正確反映當前網絡拓撲連結關系的拓撲依賴關系并存入拓撲依賴關系庫,拓撲依賴關系庫為分析控制引擎提供相關信息;故障情景表生成模塊用于在已經找到相關性的一組事件上建立一個故障情景,并將此情景存入故障情景表中,通過故障情景表與后續的事件進行匹配。
9.如權利要求8所述的網絡故障實時相關性分析系統,其特征在于所述信息模型以散列表文件方式存儲,分析控制引擎在分析過程中通過模型查詢接口提取信息模型的信息。
10.如權利要求8或9所述的網絡故障實時相關性分析系統,其特征在于進一步包括預處理模塊按照預定的預處理規則對接收到的原始事件進行預先處理。
全文摘要
本發明提供了一種網絡故障實時相關性分析方法及系統,屬于計算機網絡通信領域。來自各種網絡設備和業務對象的故障事件信息寫入原始事件列表中,分析控制引擎從原始事件列表中按照原始事件級別和類型選擇性讀取事件進行相關性分析,在動態的分析算法中綜合運用歷史故障分析情景、網絡動態性能參數、動態拓撲信息和事件時間特征等各種領域信息,克服了現有的故障關聯分析方法中忽視動態網絡狀態信息、推理過程過于依賴預設規則和缺乏自動學習能力等不足,能夠對故障引起的原始事件集合進行有效的相關性分析,較好解決了網絡故障風暴發生時的實時故障原因分析和故障定位問題。
文檔編號H04L12/26GK1529455SQ03134729
公開日2004年9月15日 申請日期2003年9月29日 優先權日2003年9月29日
發明者譚俊, 譚 俊 申請人:港灣網絡有限公司