專利名稱:數據業務系統退服告警的方法、裝置及系統的制作方法
技術領域:
本發明涉及通信行業數據業務技術領域,尤其涉及一種數據業務系統退服告警的方法、裝置及系統。
背景技術:
隨著移動通信技術的發展和3G(3rf Generation)網絡的建設,手機終端功能也不斷增強,手機通過3G網絡使用的新業務和新應用發展迅猛,包括手機上網、多媒體消息(彩信)、手機游戲、手機閱讀、無線音樂、手機地圖、手機電視等,其中絕大多數都屬于數據新業務。隨著數據新業務的不斷推廣,數據業務系統的作為承載數據業務的關鍵網元,發揮著日益重要的作用和地位,全網數據網絡的設備數量和規模也迅速增加,同時帶來了網絡運營和維護工作量的巨大挑戰。對業務運行質量的監控主要依靠三種手段業務撥測,業務指標監控,網管告警。一、業務指標監控業務指標監控是實現對數據業務系統運行情況和質量監控的重要手段,通過該業務系統的關鍵指標是否異常來判斷業務的運行情況,上述關鍵指標包括業務量指標,接通率指標。由于各數據業務系統的話單量都非常龐大,不能保證實時的話單處理和報表呈現, 無法保證通過業務指標監控發現問題和故障的實時性。二、業務撥測業務撥測是通過撥測系統模擬用戶在不同撥測地點進行業務撥測,可以很方便的了解不同省份的業務質量情況。同時在發生故障的情況下,查看撥測系統統計結果可以了解故障影響范圍,一定程度上可以縮小定位故障網元的時間,保障故障的快速恢復。但是業務撥測實現的成本較高,操作較為繁瑣。三、網管告警網管告警是實現日常業務監控的主要手段,目前的網管告警包括設備自身告警和網管系統探測告警兩類。對于承載話音業務的交換網和信令網,主要通過設備自身告警進行監控。最嚴重需要立即處理的告警種類包括交換機退服告警、基站退服告警、信令點不可達告警等。這些告警都已經在話務網管實現標準化的呈現,通過這些嚴重告警可以快速定位故障設備,并按照標準故障處理流程進行處理。數據業務網絡大部分都屬于新興業務系統,在網管功能方面非常不健全,很多時候都是先有業務應用開展,后接入數據網管系統管理。因此,數據網設備自身告警沒有實現標準化,缺乏業務系統退服的告警信息。在實現本發明過程中,發明人發現現有技術數據業務系統退服告警方式中存在如下問題缺乏實時性業務系統退服的告警信息,從而對數據業務系統的管理和維護造成困難。
發明內容
本發明的目的是解決數據業務系統退服告警方式缺乏實時性業務系統退服的告警信息的問題,提出一種數據業務系統退服告警的方法、裝置及系統,以提高業務系統告警的實時性,提高維護效率。為實現上述目的,根據本發明的一個方面,提供了一種數據業務系統退服告警的方法,包括探測數據業務系統網管采集機的心跳信息;探測數據業務系統操作維護終端的可達性;根據網關采集機的心跳信息和操作維護終端的可達性,確定是否發送數據業務系統退服報警信息。本技術方案中,探測數據業務系統網管采集機的心跳信息的步驟具體包括網管系統與網管采集機協商心跳告警策略;網管采集機向網管系統發送符合心跳告警策略的心跳信息;如果網管系統超時未收到心跳信息,判斷網管采集機出現故障或不可達。本技術方案中,探測數據業務系統操作維護終端的可達性的步驟具體包括網管系統按照預設的時間間隔發送Ping探測協議報文至操作維護終端;如果超時未收到Ping 探測協議報文的回復消息,判斷操作維護終端出現故障或不可達。本技術方案中,根據網關采集機的心跳信息和操作維護終端的可達性,確定是否發送數據業務系統退服報警信息的步驟具體包括如果網管采集機出現故障或不可達,且同時操作維護終端出現故障或不可達,則發送數據業務系統退服報警信息;否則,不發送數據業務系統退服報警信息本技術方案中,當操作維護終端位于數據業務系統網絡內,且網管系統位于數據業務系統網絡外時,數據業務系統開放網管系統至操作維護終端的公網地址訪問權限。為實現上述目的,根據本發明的另一個方面,提供了一種數據業務系統退服告警的網管系統,包括探測模塊,用于探測數據業務系統網管采集機的心跳信息和數據業務系統操作維護終端的可達性;告警模塊,用于根據網關采集機的心跳信息和操作維護終端的可達性,確定是否發送數據業務系統退服報警信息。本技術方案中,探測模塊包括第一探測子模塊和第二探測子模塊,其中第一探測子模塊用于接收符合預設心跳告警策略的心跳信息;第二探測子模塊用于按照預設的時間間隔發送Ping探測協議報文至操作維護終端,并接收操作維護終端對Ping探測協議報文的回復消息,從而判斷操作維護終端的可達性。告警模塊,用于如果超時未收到網管采集機的心跳信息,且同時超時未收到Ping探測協議報文的回復消息,則發送數據業務系統退服報警信息。為實現上述目的,根據本發明的另一個方面,提供了一種數據業務系統退服告警的系統,包括網絡采集機、操作維護終端、網管系統,其中網絡采集機,用于向網管系統按照預設心跳告警策略發送心跳信息;操作維護終端,用于根據網管系統按照預設的時間間隔發送Ping探測協議報文返回回復消息;網管系統,用于根據網關采集機的心跳信息和操作維護終端的可達性,確定是否發送數據業務系統退服報警信息。本發明各實施例的數據業務系統退服告警的方法、裝置及系統,通過對數據網系統關鍵網元的監控,來實現對系統退服故障的監控,從而提高了數據業務系統退服告警實時性,有利于提高維護效率。本發明的其它特征和優點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發明而了解。本發明的目的和其他優點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結構來實現和獲得。下面通過附圖和實施例,對本發明的技術方案做進一步的詳細描述。
附圖用來提供對本發明的進一步理解,并且構成說明書的一部分,與本發明的實施例共同用于解釋本發明,并不構成對本發明的限制。在附圖中圖1為數據業務系統的組網結構圖;圖2為本發明實施例一數據業務系統退服告警方法的流程圖;圖3為本發明實施例二數據業務系統退服告警方法的流程具體實施例方式以下結合附圖對本發明的實施例進行說明,應當理解,此處所描述的實施例僅用于說明和解釋本發明,并不用于限定本發明。實施例一為了更加詳細的描述本實施例,以下將對數據業務系統組網結構和系統退服原因進行分析。一、數據業務系統組網結構數據網管系統主要的告警都通過網管系統自身探測產生的告警來實現對業務系統的運行監控,實現的原理是每套數據業務系統內部都安置了網管采集機設備,在所有業務系統內部主機設備上都安裝網管代理Agent,通過網管代理Agent對該設備運行的性能情況進行監控,如果發現異常就產生告警傳送給網管采集機,網管采集機再傳送告警到數據網管系統進行統一呈現。由于網管代理Agent監控的指標主要是主機性能指標,產生的告警類別有限,包括性能告警(CPU利用率、內存利用率、磁盤利用率)、端口和鏈路down 告警、節點Ping不可達告警、進程down告警等。同時由于每數據業務系統都是由數十臺設備組成的集群主機來共同提供服務,每一臺主機上的網管代理Agent都是單獨工作,產生一臺設備的告警不能代表整體系統的運行情況。目前數據網管產生的告警絕大多數都是這種單臺設備主機性能的告警,無法產生對一套數據業務系統退服或者業務異常的告警信息,影響了日常維護和監控的效率。圖1為數據業務系統的組網結構圖,如圖1所示,從CMNET骨干網交換機往下就是數據業務系統,依次是系統內的主備防火墻,主備四層交換機,主備局域網交換機,然后是業務處理主機的集群,網管采集機,報表服務器,數據庫服務器,操作維護終端。圖1中,數據網系統內部的主機設備的網管代理Agent會定時探測主機性能指標,發現異常就會傳送給網管采集機,然后通過CMNET最終上報到網管系統進行告警呈現,其中虛線標識是網管告警的上報路由途徑。二、系統退服故障的原因分析由于數據業務系統組網已經考慮了在單臺設備故障的情況下的備份和自動切換, 系統內的關鍵設備也都是主備配置的,一般情況下單臺設備故障不會影響整體業務運行。 但在特殊情況下,比如系統bug,路由環路,路由診斷等異常原因引起的故障,則會導致多臺設備中斷服務甚至整套系統和CMNET斷開連接,造成系統脫網的重大故障。在日常維護和監控中,這種故障也是需要重點關注和立即處理的故障,但目前的網管系統沒有類似的系統脫網或者系統退服的告警,就造成了在緊急故障情況下,無法第一時間定位故障網元,進行業務恢復。為了實現對系統退服故障的監控,根據統計在系統脫網引起的退服告警中,大部分都是由于防火墻或者交換機設備端口硬件故障,并由于硬件版本BUG原因,備用設備沒有及時接管服務導致整套業務系統無法訪問,產生系統脫網嚴重故障。很少發生其他情況下的系統退服告警。理論上,可能存在數據庫主備雙機同時故障,或關鍵應用軟件故障引起的業務不可用退服故障,但現網很少發生這種除了系統脫網外引起的系統退服故障。因此, 可以通過實現對系統脫網故障的告警監控來間接實現系統退服故障的告警監控。圖2為本發明實施例一數據業務系統退服告警方法的流程圖。如圖2所示,本實施例包括步驟S102 探測數據業務系統網管采集機的心跳信息;步驟S104 探測數據業務系統操作維護終端的可達性;步驟S106 根據網關采集機的心跳信息和操作維護終端的可達性,確定是否發送數據業務系統退服報警信息。本實施例中,檢測數據業務系統是否正常訪問,是否存在脫網故障,可以通過網管系統從外部進行探測來實現。基于數據業務系統的安全配置要求,每套數據業務系統內部的設備一般都分配的是私網IP地址,保障內部設備和業務與外部隔離。但為了日常操作維護和緊急故障的遠程處理,至少有2臺設備是具有公網IP地址,包括網管采集機和操作操作維護終端,該地址是配置在系統防火墻上的公網IP至私網IP的地址轉換策略,使特定私網IP的設備可以具備公網地址從外網訪問。網管系統需要和網管采集機傳送告警信息,是通過訪問網管采集機的公網地址來進行協議交互的。系統管理員可以通過公網訪問操作維護終端地址來登入系統,并通過該終端作為跳板機,登錄其他設備的私網IP,即可實現對所有設備的日常操作維護。因此,為了實現本實施例的方法,當操作維護終端位于數據業務系統網絡內,且網管系統位于數據業務系統網絡外時,數據業務系統應當開放網管系統至操作維護終端的公網地址訪問權限。本實施例提出的方法通過對數據網系統關鍵網元的監控,來實現對系統退服故障的監控,從而提高告警實時性和全面性,提高維護效率。實施例二由于在系統脫網故障發生的情況下,無法從外網訪問系統,造成業務中斷,同時網管系統將失去對網管采集機的心跳探測,無法從系統網絡內的網管采集機同步告警信息, 另外遠程操作維護終端也將無法從外網登錄訪問。本實施例將在實施例一的基礎上,結合數據業務系統的具體網元,對本發明進行詳細說明。圖3為本發明實施例二數據業務系統退服告警方法的流程圖。如圖3所示,本實施例包括步驟S202 網管系統與網管采集機協商心跳告警策略;步驟S204 網管采集機向網管系統發送符合心跳告警策略的心跳信息;步驟S206 網管系統是否正常收到心跳信息,如果是,執行步驟S208,否則,執行步驟S210 ;
步驟S208 網管采集機運行正常,流程結束;步驟S210 判斷網管采集機出現故障或不可達;步驟S212 網管系統按照預設的時間間隔發送Ping探測協議報文至操作維護終端;步驟S214:網管系統是否按時收到Ping探測協議報文的回復消息,如果是,執行步驟S216,否則,執行步驟S218 ;步驟S216 操作維護終端運行正常,流程結束;步驟S218 判斷操作維護終端出現故障或不可達;步驟S220 如果網管采集機出現故障或不可達,且同時操作維護終端出現故障或不可達,則發送數據業務系統退服報警信息。本實施例中,步驟S202-步驟S210為分支一,為產生網管系統對網管采集機是否能正常訪問的告警,該告警可以通過定制和網管采集機之間的心跳告警來實現。具體來講, 通過網管系統下發策略給網管采集機,讓網管采集機按固定時間間隔(設置默認間隔時間為5分鐘)發送探測協議報文給網管系統,正常情況下網管系統收到該協議報文即回復,表示網管采集機正常工作,并且到網管系統的網絡路由也正常。在采集機自身發生故障的情況下,網管系統收不到采集機的探測報文,即表明采集機端出現問題,于是產生一條告警信息XX系統網管采集機心跳告警。本實施例中,步驟S212-步驟S218為分支二,為數據業務系統內部的操作維護終端可達性探測告警。具體來講,網管系統按固定時間間隔(設置默認間隔時間為5分鐘) 發送Ping探測協議報文給業務系統內的操作維護終端,該業務系統防火墻需要制作相應策略放開網管系統地址到業務系統內該終端公網地址的Ping報文訪問權限。這樣,按照協議要求,該終端收到Ping探測報文后會立即回復R印Iy報文給網管系統,通過收到回復報文的情況可以判斷到業務系統內部主機的可達性。如果超時收不到該Ping報文的回復消息,則產生一條告警XX系統的操作維護終端不可達告警。本實施例中分支一和分支二的順序可以互換,并不影響本技術方案的實施。在上述分支一、二原始告警的基礎上,我們就可以按定制產生系統退服告警的目標進行關聯告警的配置了 如果網管系統同時產生了 XX系統網管采集機心跳告警和XX系統的操作維護終端不可達告警,則不呈現以上2條告警,而合并為一條嚴重級別的關聯告警XX系統退服口目。傳統的監控方式,通過業務撥測和業務指標監控,不能準確的定位故障系統,需要和網管告警等手段來配合,而現有的網管告警能夠探測的告警類別都局限在主機層面,不能產生系統退服告警來方便的進行故障定位和故障恢復,無法滿足日常維護監控需要。本實施例二數據業務系統退服告警方法,可以在現有網管手段下,方便快捷的實現對于數據業務系統退服告警的呈現和監測,從而極大的提高了故障定位和排查的效率,縮短了業務恢復時間,同時也給終端用戶提供了更好的業務服務質量和體驗。實施例三本實施例提供了一種數據業務系統退服告警的網管系統,包括探測模塊,用于探測數據業務系統網管采集機的心跳信息和數據業務系統操作維護終端的可達性;告警模塊,用于根據網關采集機的心跳信息和操作維護終端的可達性,確定是否發送數據業務系統退服報警信息。本實施例中,探測模塊包括第一探測子模塊和第二探測子模塊。第一探測子模塊用于接收符合預設心跳告警策略的心跳信息;第二探測子模塊用于按照預設的時間間隔發送Ping探測協議報文至操作維護終端,并接收操作維護終端對Ping探測協議報文的回復消息,從而判斷操作維護終端的可達性。告警模塊,用于在超時未收到網管采集機的心跳信息,且同時超時未收到Ping探測協議報文的回復消息時,發送數據業務系統退服報警信肩、ο本實施例中,當操作維護終端位于數據業務系統網絡內,且網管系統位于數據業務系統網絡外時,數據業務系統開放網管系統至操作維護終端的公網地址訪問權限。本實施例提供的網管系統具體實現的步驟可以參照實施例一、二的相關說明,并具有上述實施例的全部有益效果,此處不再重述。實施例四本實施例提供了一種數據業務系統退服告警的系統,包括網絡采集機、操作維護終端、網管系統,其中網絡采集機,用于向網管系統按照預設心跳告警策略發送心跳信息; 操作維護終端,用于根據網管系統按照預設的時間間隔發送Ping探測協議報文返回回復消息;網管系統,用于根據網關采集機的心跳信息和操作維護終端的可達性,確定是否發送數據業務系統退服報警信息。本實施例的網管系統,可以為實施例三的網管系統,本實施例具體實現的步驟可以參照實施例一、二的相關說明,并具有上述實施例的全部有益效果,此處不再重述。本領域普通技術人員可以理解實現上述方法實施例的全部或部分步驟可以通過程序指令相關的硬件來完成,前述的程序可以存儲于可讀取存儲介質中,該程序在執行時, 執行包括上述方法實施例的步驟;而前述的存儲介質包括R0M、RAM、磁碟、光盤、網絡節點、調度器等各種可以存儲程序代碼的介質。最后應說明的是以上所述僅為本發明的優選實施例而已,并不用于限制本發明, 盡管參照前述實施例對本發明進行了詳細的說明,對于本領域的技術人員來說,其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換。 凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。
權利要求
1.一種數據業務系統退服告警的方法,其特征在于,包括探測數據業務系統網管采集機的心跳信息;探測數據業務系統操作維護終端的可達性;根據所述網關采集機的心跳信息和所述操作維護終端的可達性,確定是否發送數據業務系統退服報警信息。
2.根據權利要求1所述的方法,其特征在于,所述探測數據業務系統網管采集機的心跳信息的步驟具體包括網管系統與網管采集機協商心跳告警策略;網管采集機向網管系統發送符合所述心跳告警策略的心跳信息;如果網管系統超時未收到所述心跳信息,判斷網管采集機出現故障或不可達。
3.根據權利要求1所述的方法,其特征在于,所述探測數據業務系統操作維護終端的可達性的步驟具體包括網管系統按照預設的時間間隔發送Ping探測協議報文至所述操作維護終端;如果超時未收到所述Ping探測協議報文的回復消息,判斷所述操作維護終端出現故障或不可達。
4.根據權利要求1所述的方法,其特征在于,所述根據網關采集機的心跳信息和操作維護終端的可達性,確定是否發送數據業務系統退服報警信息的步驟具體包括如果網管采集機出現故障或不可達,且同時操作維護終端出現故障或不可達,則發送數據業務系統退服報警信息;否則,不發送數據業務系統退服報警信息。
5.根據權利要求2-4中任一項所述的方法,其特征在于當所述操作維護終端位于數據業務系統網絡內,且所述網管系統位于數據業務系統網絡外時,所述數據業務系統開放所述網管系統至所述操作維護終端的公網地址訪問權限。
6.一種數據業務系統退服告警的網管系統,其特征在于,包括探測模塊,用于探測數據業務系統網管采集機的心跳信息和數據業務系統操作維護終端的可達性;告警模塊,用于根據所述網關采集機的心跳信息和所述操作維護終端的可達性,確定是否發送數據業務系統退服報警信息。
7.根據權利要求6所述的網管系統,其特征在于,所述探測模塊包括第一探測子模塊和第二探測子模塊,其中所述第一探測子模塊用于接收符合預設心跳告警策略的心跳信息;所述第二探測子模塊用于按照預設的時間間隔發送Ping探測協議報文至所述操作維護終端,并接收操作維護終端對所述Ping探測協議報文的回復消息,從而判斷操作維護終端的可達性;所述告警模塊,用于在超時未收到所述網管采集機的心跳信息,且同時超時未收到所述Ping探測協議報文的回復消息時,發送數據業務系統退服報警信息。
8.根據權利要求6或7所述的網管系統,其特征在于當所述操作維護終端位于數據業務系統網絡內,且所述網管系統位于數據業務系統網絡外時,所述數據業務系統開放所述網管系統至所述操作維護終端的公網地址訪問權限。
9.一種數據業務系統退服告警的系統,其特征在于,包括網絡采集機、操作維護終端、網管系統,其中網絡采集機,用于向所述網管系統按照預設心跳告警策略發送心跳信息;操作維護終端,用于根據網管系統按照預設的時間間隔發送Ping探測協議報文返回回復消息;網管系統,用于根據所述網關采集機的心跳信息和所述操作維護終端的可達性,確定是否發送數據業務系統退服報警信息。
10.根據權利要求9所述的系統,其特征在于,所述網管系統包括探測模塊,用于探測數據業務系統網管采集機的心跳信息和數據業務系統操作維護終端的可達性;告警模塊,用于根據所述網關采集機的心跳信息和所述操作維護終端的可達性,確定是否發送數據業務系統退服報警信息。
11.根據權利要求10所述的系統,其特征在于,所述探測模塊包括第一探測子模塊和第二探測子模塊,其中所述第一探測子模塊用于接收符合預設心跳告警策略的心跳信息;所述第二探測子模塊用于按照預設的時間間隔發送Ping探測協議報文至所述操作維護終端,并接收操作維護終端對所述Ping探測協議報文的回復消息,從而判斷操作維護終端的可達性;所述告警模塊,用于在超時未收到所述網管采集機的心跳信息,且同時超時未收到所述Ping探測協議報文的回復消息時,發送數據業務系統退服報警信息。
12.根據權利要求9-11中任一項所述的裝置,其特征在于當所述操作維護終端位于數據業務系統網絡內,且所述網管系統位于數據業務系統網絡外時,所述數據業務系統開放所述網管系統至所述操作維護終端的公網地址訪問權限。
全文摘要
本發明公開了一種數據業務系統退服告警的方法、裝置及系統。該方法包括探測數據業務系統網管采集機的心跳信息;探測數據業務系統操作維護終端的可達性;根據網關采集機的心跳信息和操作維護終端的可達性,確定是否發送數據業務系統退服報警信息。本發明各實施例的數據業務系統退服告警的方法、裝置及系統,通過對數據網系統關鍵網元的監控,來實現對系統退服故障的監控,從而提高了數據業務系統退服告警實時性和全面性,有利于提高維護效率。
文檔編號H04L12/26GK102195824SQ201010119298
公開日2011年9月21日 申請日期2010年3月5日 優先權日2010年3月5日
發明者尤夢, 張慧勇, 楊健 申請人:中國移動通信集團公司