專利名稱:一種網絡故障探測與定位的方法
技術領域:
本發明涉及計算機網絡技術領域,特別涉及一種網絡故障定位的方法。
背景技術:
隨著通信技術的高速發展,網絡規模的不斷擴大,網絡復雜性的日益提高,為了提高服務質量和降低運行成本,對網絡管理系統的要求越來越高。其中,故障管理是網絡管理中最基本的功能之一。網絡的可靠性是實現網絡系統功能的基礎,而要保證網絡的可靠運行,故障管理是必不可少的內容。故障管理的目的在于確保網絡系統的高穩定性。在網絡出現故障時,故障管理系統必須及時發現故障部位。故障管理的日常工作包含對所有節點動作狀態的監控、故障記錄的追蹤與檢查,以及平常對網絡系統的測試。隨著網絡規模的不斷擴大和網絡復雜度的日益提高,故障管理的重要性和難度也日益加大。而故障定位作為故障管理中的一個核心功能,在現今越來越復雜的網絡中發揮著尤其重要的作用。為保障網絡的正常運作,需要有效可靠的故障定位技術。但是由于網絡中被管設備數量巨大、類型繁多、連接復雜,并且每個設備的告警事件都會上報給網管系統, 所以當網絡中發生故障時,由于告警數據龐大,運維人員無法快速定位故障源,從而影響故障的恢復和業務質量的保障。而且隨著網絡規模的不斷擴大,各類業務量應用的加大,以及故障在不同協議層的出現,對故障定位的要求也越來越高。故障定位不僅僅要能定位協議棧底層的物理故障,同時也要能定位協議棧上層的各類應用業務故障。而網絡的不確定性及網絡中的觀測噪聲,也為故障定位技術提出了新的要求和挑戰。目前,從計算機科學的不同領域中派生出的多種多樣的故障定位方法總的來說可以分為兩類被動收集信息的故障定位方法和主動探測的故障定位方法。采用被動收集信息故障定位方法的網管系統往往需要目標系統具備提供內部消息的能力,并且不可能在用戶感知到故障前檢測和定位故障。且被動收集信息的網管系統已經無法滿足越來越復雜的網絡的需要。現實的情況要求更好的模型,算法和系統來應付更復雜的集成網絡,系統和服務。而基于主動探測的網管系統,使用主動探測的方式對被管設備進行探測并對探測結果進行分析。具有主動、高效及自適應的特性,能以很小的代價盡早地獲得網絡、系統故障、服務失敗及性能衰退等癥狀,從而為根源故障的分析提供依據。但是,主動探測的方式會為網絡帶來額外的配置開銷及流量負載。首先,主動探測的方式要在網絡中配置一定數目的探測站點以保證發出的探測能覆蓋整個網絡,并能有效地定位網絡中發生的所有故障。而這樣特殊節點的存在,就會引入對節點的配置和維護開銷。所以如何設計一個高效且引入最小花銷的探測站點選擇算法就顯得尤為重要了。此外, 從選定的探測站點發出的探測也將給網絡帶來額外的流量負載。這就要求,選擇探測的算法必須能對探測進行分析,找出最優的探測集合(探測數目最少且探測能力最強),使得由主動探測帶給網絡的流量負載最小。并且,探測的選擇算法應該具有自適應的特點,即能根據已經發出的探測反饋的結果,來決定后續的探測選擇,這樣才能最大化的利用網絡提供的信息來幫助探測的選擇從而達到定位故障的目的。專利文獻CN101783749A中提供了一種網絡故障定位方法和裝置,通過將網絡模擬成動態貝葉斯模型和進行概率推理來定位故障,但由于動態網絡的復雜性,傳播概率的不確定性和信度更新的時間復雜度,該發明的實時性較低。專利文獻CN101350739A中提供了一種IP網絡中的故障定位方法,其采用了一種將癥狀集合對應于相應的故障集合的算法。但該算法僅僅提出了一種假設性的推理,建立故障傳播模型,并未與真實的網絡進行交互性處理,因此準確度較低,在真實的網絡中達不到算法的效果。文獻〈〈Active Integrated Fault Localization in Communication Networks)) (Yongning Tmg等,Integrated Network Management,2005. IM 2005. 2005 9th IFIP/IEEE International Symposium on Integrated Network Management)中公幵了一禾中結合主動和被動兩種技術優點的故障定位技術AIR,該技術雖然能達到相對較高的準確度和性能,但由于被動監聽反應滯后的缺陷,嚴重影響該方法網絡實時定位的性能,同時其方法對網絡設備的要求較高。
發明內容
(一)要解決的技術問題針對現有技術的缺點,本發明為了解決現有故障定位技術中探測選擇無法反映網絡真實情況的問題,提出了一種優化的網絡故障探測與定位的方法,根據模型特點和確定的性能門限選擇不同的策略進行故障探測,用來實時發現和定位網絡中的故障,降低了網絡中注入的流量。(二)技術方案為實現上述目的,本發明采用如下技術方案一種網絡故障探測與定位的方法,該方法包括步驟Si,根據網絡拓撲實例選擇探測站點并得到備選探測集合,建立探測依賴模型;S2,進行online選擇,根據備選探測集合算出每個節點的互信息,選擇互信息最大的探測發送到網絡中,根據網絡中探測返回的結果進行更新;S3,判斷是否滿足探測結束條件,若滿足則將已選探測集合發送到網絡中,轉至步驟S6 ;否則繼續執行步驟S4 ;S4,判斷是否滿足offline選擇的觸發條件,若滿足則繼續執行步驟S5,進行 offline選擇;否則轉回步驟S2,繼續選擇下一步的探測;S5,進行offline選擇,計算每個探測當前的互信息,選擇互信息由大到小的N個探測發送到網絡中;S6,根據網絡中的探測返回值分析確定最有可能的故障節點。優選地,在步驟Sl與步驟S2之間,還包括步驟Sl ‘,周期性地選擇一組探測檢測系統中有無故障存在,若存在故障,則進行步驟 S2-S6的故障定位。優選地,所述備選探測集合由從探測站點到剩余所有節點的路徑組成。優選地,步驟S3中,所述判斷是否滿足探測結束條件具體為根據更新后的各探測的互信息,判斷已選探測集合的互信息是否大于預設的結束門限值。優選地,步驟S4中,所述判斷是否滿足offline選擇的觸發條件具體為計算當前已選探測集合的情況下offline選擇的性能值,判斷所述性能值是否小于等于預設的性能門限。優選地,步驟S4中,若不滿足觸發條件,則首先更新備選探測集合并將步驟S2中所述互信息最大的探測加入已選探測集合,再繼續執行online選擇。優選地,步驟S5中,選擇互信息總和正好大于預設的結束門限值的前N個探測。優選地,步驟S6中,根據所述探測依賴模型中探測依賴矩陣的值來排除不可能產生所述探測返回值的情況,從而確定最有可能的故障節點。(三)有益效果本發明的方案根據模型特點和確定的性能門限選擇不同的策略進行故障探測,將 online和offline兩種不同主動探測方式結合起來,發揮兩種技術的優勢,提高了效率并權衡了性能標準。實時地發現和定位網絡中的故障,降低了網絡中注入的流量,從而節約了網絡資源,減少干擾。
圖1為本發明的網絡故障探測與定位方法的實施流程圖;圖2為本發明中online算法具體流程示意圖;圖3為本發明中一個網絡實例的示意圖;圖4為本發明中所述網絡實例的拓撲模型圖;圖5為本發明中所述網絡實例的靜態貝葉斯網絡模型圖。
具體實施例方式下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發明的一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動的前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。首先,參見圖1,本發明中網絡故障定位方法的一般步驟為101)拓撲發現導入實際的網絡拓撲文件,為下面的探測依賴模型做基礎。102)選擇探測站點,并得到備選探測的路徑信息;探測站點指的是經過特殊配置的具有發送探測能力的實體,比如在一個IP網絡中,需要選定一些主機來生成并發送探測到網絡中。從選定的探測站點發出的探測要能覆蓋到被管網絡或系統中所有的待測實體。 但是若只選擇一個節點作為探測站點,在網絡或系統中可能由于某些實體上故障的發生導致其他實體變得局部不可達。針對被管網絡中節點發生故障的情況,特別是多故障同時發生的情況下,探測站點的選擇算法主要是基于k條獨立路徑理論的啟發式算法,在文獻 《Probe station placement for robust monitoring of networks》(Natu Maitreya,Sethi Adarshpal. , Journal of Network and Systems Management 2008 16(4)pages :351-374) 中詳細介紹了該問題。在選定探測站點后,再根據網絡拓撲得到備選探測的路徑信息。具體地,從探測站點到剩余所有節點的路徑組成了備選探測集合。
103)探測依賴模型根據網絡拓撲建立探測依賴矩陣,即矩陣每一行表示一個探測,矩陣的每一列表示網絡中的被測節點。在探測依賴矩陣的基礎上,對網絡所有被測節點和探測之間的對應關系利用靜態貝葉斯網絡進行建模。在貝葉斯網絡模型中有兩類節點, 分別為被測節點Fi和探測Ti。為每一個被測節點指定一個先驗概率P (Fi),先驗概率表示該故障節點初始發生故障的概率。為每一個探測指定一個條件概率表P (Ti I Fi),表示此探測經過的節點i發生故障導致探測結果失敗的概率。104)故障檢測檢測系統中有無故障存在,即組成系統的組件集之中有無故障組件的存在。因此當通過探測來進行故障檢測時,首先要保證所有的組件都被探測到,其次為了提供盡量快的檢測速度并降低給網絡引入的負載流量,選擇的探測數必須盡量的少。本步驟所進行的探測的目標是要選擇一組盡量少的探測來覆蓋整個系統或網絡,這階段的探測選擇問題是一個二分覆蓋問題,即NP完全問題。目前存在的兩種啟發式近似算法貪婪增加算法和貪婪減少算法,兩者都是基于貪婪思想的算法,前者將探測選擇集初始化為空, 不斷地選擇能夠覆蓋最多尚未被覆蓋節點的探測,直到所有的網絡節點都已經被覆蓋;后者將探測選擇集初始化為所有探測的全集,然后不斷地嘗試排除某個探測,如果某個探測的排除并會導致某些節點不被覆蓋,直至探測選擇集中沒有這樣的探測。通過本階段選定的探測對網絡的所有組件進行檢測,以確定系統中有無故障存在,若存在故障,則進行下述步驟105-107的故障定位的探測選擇。105)online算法首先定義一個目標函數,即互信息函數I (X | T)= H(Χ|Τ)-Η(Χ|Τ, Τ*),其中,X表示系統狀態,T表示已經選擇的探測集合,Τ*表示當前探測; Η(Χ|Τ)表示系統在觀測到探測集合T之后的剩余不確定性(即在觀測到探測集合T的返回值后,系統狀態仍然存在的不確定性,是觀測結果的概率值),而H(X|T,T*)表示系統在觀測到探測集合T以及當前探測Τ*后的剩余不確定性,I (X ;τ*IΤ)也就是表示探測Τ*所能夠獲得的信息量。該函數是用來評價一個探測的質量,即能夠減少目標網絡不確定度的大小。在定義互信息函數的同時設置一個探測集合選擇的結束門限值。online算法流程圖如圖2所示,在第一輪選擇探測時,因最初設定的每個節點的先驗概率一致,則循環整個備選探測集合,算出每個探測的互信息,并選擇互信息最大的探測發送到網絡中。在實際的網絡中,簡單的探測比如PING或TRACER0UTE操作工作在網絡層,可以用來檢測鏈路或節點的故障;一些更復雜的探測可以用來檢查網絡的帶寬、流量、 IP包的平均大小以及丟包率等特性等。這些探測的結果成功則為1,失敗則為0。根據返回的探測的結果,更新每個節點的后驗概率,后驗概率的計算方法為
_4] Postprior(PaiTi) | T1) = p{Tt = 1) Π ρ( ] = 0) Π piN=11 7; = 1)
τ盧TIT1NjEN0其中,Ti為當前接收到探測結果的探測,Pa(Ti)為Ti在貝葉斯網中的父節點,T為所有探測集合,N0為Pa(Ti)中包含的節點,T/Ti表示探測集合T減去Ti探測剩下的探測集合,函數ρ ( ·)表示概率分布函數。若此時已選探測集合的互信息大于結束門限值,則停止該過程,輸出已選探測集合作為結果,結束探測選擇;否則,在更新了的網絡模型的基礎上,執行下述步驟106(計算算法的性能值判斷是否轉到offline算法,若不滿足觸發offline算法的條件,則繼續循環備選探測集合,計算每個探測的互信息量,并選出最大信息量的探測作為當前已選探測)。
106)計算算法的性能值本步驟是本系統的核心,下面將詳細說明本發明的目標是通過自適應和強反饋的探測算法來修正網絡的特性以適應被管對象的動態變化,確定合適的性能門限,達到主動探測算法在多性能標準下的最優。盡可能實時的探測和定位故障,同時盡可能的減小向網絡中注入不必要的負載,以減小對網絡本身的干擾并節約能源。可以用下列數學表達式量化表達上述目標
權利要求
1.一種網絡故障探測與定位的方法,其特征在于,該方法包括步驟Si,根據網絡拓撲實例選擇探測站點并得到備選探測集合,建立探測依賴模型;S2,進行online選擇,根據備選探測集合算出每個節點的互信息,選擇互信息最大的探測發送到網絡中,根據網絡中探測返回的結果進行更新;S3,判斷是否滿足探測結束條件,若滿足則將已選探測集合發送到網絡中,轉至步驟 S6 ;否則繼續執行步驟S4 ;S4,判斷是否滿足offline選擇的觸發條件,若滿足則繼續執行步驟S5,進行offline 選擇;否則轉回步驟S2,繼續選擇下一步的探測;S5,進行offline選擇,計算每個探測當前的互信息,選擇互信息由大到小的N個探測發送到網絡中;S6,根據網絡中的探測返回值分析確定最有可能的故障節點。
2.根據權利要求1所述的方法,其特征在于,在步驟Sl與步驟S2之間,還包括步驟Sl ‘,周期性地選擇一組探測檢測系統中有無故障存在,若存在故障,則進行步驟S2-S6的故障定位。
3.根據權利要求1所述的方法,其特征在于,所述備選探測集合由從探測站點到剩余所有節點的路徑組成。
4.根據權利要求1所述的方法,其特征在于,步驟S3中,所述判斷是否滿足探測結束條件具體為根據更新后的各探測的互信息,判斷已選探測集合的互信息是否大于預設的結束門限值。
5.根據權利要求1所述的方法,其特征在于,步驟S4中,所述判斷是否滿足offline選擇的觸發條件具體為計算當前已選探測集合的情況下offline選擇的性能值,判斷所述性能值是否小于等于預設的性能門限。
6.根據權利要求1所述的方法,其特征在于,步驟S4中,若不滿足觸發條件,則首先更新備選探測集合并將步驟S2中所述互信息最大的探測加入已選探測集合,再繼續執行 online 選擇。
7.根據權利要求1所述的方法,其特征在于,步驟S5中,選擇互信息總和正好大于預設的結束門限值的前N個探測。
8.根據權利要求1所述的方法,其特征在于,步驟S6中,根據所述探測依賴模型中探測依賴矩陣的值來排除不可能產生所述探測返回值的情況,從而確定最有可能的故障節點。
全文摘要
本發明涉及計算機網絡技術領域,提出了一種網絡故障探測與定位的方法。具體地,根據模型特點和確定的性能門限選擇不同的策略進行故障探測,將online和offline兩種不同主動探測方式結合起來,發揮兩種技術的優勢,提高了效率并權衡了性能標準。實時地發現和定位網絡中的故障,并予以均衡,降低了網絡中注入的流量,從而節約了網絡資源,減少干擾。
文檔編號H04L12/26GK102299829SQ20111025707
公開日2011年12月28日 申請日期2011年9月1日 優先權日2011年9月1日
發明者劉豐, 杜剛, 杜海, 紀燁, 陳綱, 雷振, 黃睿 申請人:北京市天元網絡技術股份有限公司