一種告警信息處理方法及服務(wù)子系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及運(yùn)維監(jiān)控領(lǐng)域,特別涉及一種告警信息處理方法及服務(wù)子系統(tǒng)。
【背景技術(shù)】
[0002] 隨著云計(jì)算時(shí)代的到來,服務(wù)子系統(tǒng)中機(jī)器數(shù)量級(jí)至少上十個(gè),服務(wù)子系統(tǒng)由多 種硬件和軟件模塊構(gòu)成,導(dǎo)致系統(tǒng)的運(yùn)維工作復(fù)雜。通常會(huì)有個(gè)運(yùn)維監(jiān)控系統(tǒng),其作為運(yùn)維 服務(wù)端;服務(wù)子系統(tǒng)作為運(yùn)維客戶端,將需要監(jiān)控的信息上報(bào)給運(yùn)維服務(wù)端。
[0003] 隨著服務(wù)子系統(tǒng)的運(yùn)行,硬件和軟件都可能出現(xiàn)較重負(fù)載或異常狀態(tài),如CPU等 過于繁忙、網(wǎng)絡(luò)超時(shí)、某個(gè)模塊進(jìn)程掛掉、操作處理失敗等。在這種系統(tǒng)或服務(wù)異常狀態(tài)下, 服務(wù)子系統(tǒng)需要自動(dòng)向運(yùn)維監(jiān)控系統(tǒng)發(fā)出告警,便于運(yùn)維監(jiān)控系統(tǒng)了解服務(wù)子系統(tǒng)的運(yùn)行 狀態(tài)并通知運(yùn)維人員對(duì)服務(wù)子系統(tǒng)的異常狀況作出相應(yīng)的處理。
[0004] 由于運(yùn)維監(jiān)控系統(tǒng)下可能會(huì)有多個(gè)服務(wù)子系統(tǒng),每個(gè)服務(wù)子系統(tǒng)下會(huì)有多個(gè)硬件 和軟件模塊,服務(wù)子系統(tǒng)的頻繁告警會(huì)給運(yùn)維監(jiān)控系統(tǒng)帶來巨大的壓力,同時(shí)給運(yùn)維人員 帶來困擾和較大工作量,為了防止服務(wù)子系統(tǒng)頻繁上報(bào)告警信息,可以在服務(wù)子系統(tǒng)中首 選對(duì)告警信息進(jìn)行預(yù)處理,具體為:在當(dāng)前告警信息為某告警事件的首條告警信息時(shí),或者 在當(dāng)前告警事件與前一相同的告警事件對(duì)應(yīng)的告警信息不處于同一過濾周期時(shí),向網(wǎng)絡(luò)監(jiān) 控系統(tǒng)上報(bào)該當(dāng)前告警信息,在當(dāng)前告警信息對(duì)應(yīng)的告警事件與前一相同的告警事件對(duì)應(yīng) 的告警信息處于同一過濾周期時(shí),丟棄該當(dāng)前告警信息。
[0005] 本申請(qǐng)發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在以下技術(shù)問題:
[0006] 由于在現(xiàn)有技術(shù)中,僅僅在同一告警事件對(duì)應(yīng)的告警信息位于同一周期時(shí),才會(huì) 刪除冗余的告警信息,而對(duì)應(yīng)同一告警事件位于不同的周期的告警信息仍然會(huì)存在冗余, 故而導(dǎo)致現(xiàn)有技術(shù)中存在著告警信息冗余量大的技術(shù)問題。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明實(shí)施例提供一種告警信息處理方法及服務(wù)子系統(tǒng),以解決現(xiàn)有技術(shù)中服務(wù) 子系統(tǒng)向運(yùn)維監(jiān)控系統(tǒng)上報(bào)的告警信息的冗余量大的技術(shù)問題。
[0008] 本發(fā)明實(shí)施例技術(shù)方案如下:
[0009] 第一方面,本發(fā)明實(shí)施例提供一種告警信息處理方法,包括:獲得告警信息;根據(jù) 所述告警信息對(duì)應(yīng)的告警事件,判斷告警信息緩存區(qū)中是否存儲(chǔ)有基于所述告警事件的告 警信息;若不存在,將所述告警信息存儲(chǔ)到所述告警信息緩存區(qū),并向運(yùn)維監(jiān)控系統(tǒng)上報(bào)所 述告警信息;否則,丟棄獲得的告警信息。
[0010] 由上述方案可知,針對(duì)運(yùn)維監(jiān)控客戶端向運(yùn)維監(jiān)控系統(tǒng)上報(bào)的告警信息的冗余量 大的技術(shù)問題,本發(fā)明實(shí)施例提出在獲得對(duì)應(yīng)告警事件的告警信息之后,需要先判斷告警 事件對(duì)應(yīng)的告警信息是否存儲(chǔ)在告警信息緩存區(qū),只有告警事件對(duì)應(yīng)的告警信息沒有存儲(chǔ) 在告警信息緩存區(qū)時(shí),才需要向運(yùn)維監(jiān)控系統(tǒng)上報(bào)對(duì)應(yīng)的告警信息,故而針對(duì)同一告警事 件存在多次告警信息時(shí),只需要向運(yùn)維監(jiān)控系統(tǒng)上報(bào)一次,從而達(dá)到了降低告警信息冗余 量的技術(shù)效果,并且因?yàn)闇p少了告警信息的條目,從而進(jìn)一步的降低了數(shù)據(jù)傳輸開銷以及 提高了告警信息的處理效率。
[0011] 優(yōu)選的,所述方法還包括:在檢測(cè)到告警信息對(duì)應(yīng)的告警事件的觸發(fā)條件消除之 后,從所述告警信息緩存區(qū)中刪除所述告警事件對(duì)應(yīng)的告警信息;以及向所述運(yùn)維監(jiān)控系 統(tǒng)發(fā)送告警消除消息,所述告警消除消息中攜帶有攜帶有觸發(fā)條件消除的告警事件的標(biāo)識(shí) 信息,所述告警消除消息用于所述運(yùn)維監(jiān)控系統(tǒng)刪除基于所述標(biāo)識(shí)信息所對(duì)應(yīng)的告警事件 的告警信息。從而能夠降低運(yùn)維監(jiān)控系統(tǒng)的負(fù)載,并且由于不再需要運(yùn)維工作員手工確認(rèn), 從而提高了處理效率。
[0012] 優(yōu)選的,所述方法還包括:接收告警刪除指令;根據(jù)所述刪除指令,從所述告警信 息緩存區(qū)中刪除所述刪除指令對(duì)應(yīng)的告警信息。從而能夠防止重復(fù)對(duì)告警信息進(jìn)行處理, 進(jìn)而能夠提商處理效率。
[0013] 優(yōu)選的,在所述判斷告警信息緩存區(qū)中沒有存儲(chǔ)有基于所述告警事件的告警信息 之后,所述方法還包括:判斷所述告警信息為自動(dòng)消除類告警信息還是手動(dòng)消除類告警信 息;在所述告警信息為自動(dòng)消除類告警信息時(shí),將所述告警信息存儲(chǔ)到告警文件。從而能夠 防止因?yàn)橐驗(yàn)榉?wù)子系統(tǒng)出現(xiàn)故障,導(dǎo)致告警信息緩存區(qū)中的告警信息的丟失。
[0014] 優(yōu)選的,所述方法還包括:在初始化之后,向所述運(yùn)維監(jiān)控系統(tǒng)發(fā)送刪除請(qǐng)求消 息,所述刪除請(qǐng)求消息中包含所述告警文件中所存儲(chǔ)的告警信息的標(biāo)識(shí)信息,所述刪除請(qǐng) 求消息用于請(qǐng)求所述運(yùn)維監(jiān)控系統(tǒng)刪除所述標(biāo)識(shí)信息對(duì)應(yīng)的告警信息;以及刪除所述告警 文件中所存儲(chǔ)的告警信息。由于在服務(wù)子系統(tǒng)初始化時(shí),自動(dòng)消除類告警信息已經(jīng)清除,在 這種情況下,在運(yùn)維監(jiān)控系統(tǒng)中刪除告警文件中告警信息的標(biāo)識(shí)信息所對(duì)應(yīng)的告警信息以 及刪除告警文件中的報(bào)警信息能夠避已不存在的歷史遺留問題降低對(duì)告警信息處理的效 率,以及降低運(yùn)維人員的處理負(fù)擔(dān)。
[0015] 第二方面,本發(fā)明實(shí)施例提供一種服務(wù)子系統(tǒng),包括:獲得模塊,用于獲得告警信 息;第一判斷模塊,用于根據(jù)所述告警信息對(duì)應(yīng)的告警事件,判斷告警信息緩存區(qū)中是否存 儲(chǔ)有基于所述告警事件的告警信息;處理模塊,用于若不存在,將所述告警信息存儲(chǔ)到所述 告警信息緩存區(qū),并向運(yùn)維監(jiān)控系統(tǒng)上報(bào)所述告警信息;否則,丟棄獲得的告警信息。
[0016] 由上述方案可知,針對(duì)運(yùn)維監(jiān)控客戶端向運(yùn)維監(jiān)控系統(tǒng)上報(bào)的告警信息的冗余量 大的技術(shù)問題,本發(fā)明實(shí)施例提出在獲得對(duì)應(yīng)告警事件的告警信息之后,需要先判斷告警 事件對(duì)應(yīng)的告警信息是否存儲(chǔ)在告警信息緩存區(qū),只有告警事件對(duì)應(yīng)的告警信息沒有存儲(chǔ) 在告警信息緩存區(qū)時(shí),才需要向運(yùn)維監(jiān)控系統(tǒng)上報(bào)對(duì)應(yīng)的告警信息,故而針對(duì)同一告警事 件存在多次告警信息時(shí),只需要向運(yùn)維監(jiān)控系統(tǒng)上報(bào)一次,從而達(dá)到了降低告警信息冗余 量的技術(shù)效果,并且因?yàn)闇p少了告警信息的條目,從而進(jìn)一步的降低了數(shù)據(jù)傳輸開銷以及 提高了告警信息的處理效率。
[0017] 優(yōu)選的,所述服務(wù)子系統(tǒng)還包括::第一刪除模塊,用于在檢測(cè)到告警信息對(duì)應(yīng)的 告警事件的觸發(fā)條件消除之后,從所述告警信息緩存區(qū)中刪除所述告警事件對(duì)應(yīng)的告警信 息;以及第一發(fā)送模塊,用于向所述運(yùn)維監(jiān)控系統(tǒng)發(fā)送告警消除消息,所述告警消除消息中 攜帶有攜帶有觸發(fā)條件消除的告警事件的標(biāo)識(shí)信息,所述告警消除消息用于所述運(yùn)維監(jiān)控 系統(tǒng)刪除基于所述標(biāo)識(shí)信息所對(duì)應(yīng)的告警事件的告警信息。從而能夠降低運(yùn)維監(jiān)控系統(tǒng)的 負(fù)載,并且由于不再需要運(yùn)維工作員手工確認(rèn),從而提高了處理效率。
[0018] 優(yōu)選的,所述服務(wù)子系統(tǒng)還包括:接收模塊,用于接收告警刪除指令;第二刪除模 塊,用于根據(jù)所述刪除指令,從所述告警信息緩存區(qū)中刪除所述刪除指令對(duì)應(yīng)的告警信息。 從而能夠防止重復(fù)對(duì)告警信息進(jìn)行處理,進(jìn)而能夠提高處理效率。
[0019] 優(yōu)選的,所述服務(wù)子系統(tǒng)還包括:第二判斷模塊,用于在判斷告警信息緩存區(qū)中沒 有存儲(chǔ)有基于所述告警事件的告警信息之后,判斷所述告警信息為自動(dòng)消除類告警信息還 是手動(dòng)消除類告警信息;存儲(chǔ)模塊,用于在所述告警信息為自動(dòng)消除類告警信息時(shí),將所述 告警信息存儲(chǔ)到告警文件。從而能夠防止因?yàn)橐驗(yàn)榉?wù)子系統(tǒng)出現(xiàn)故障,導(dǎo)致告警信息緩 存區(qū)中的告警信息的丟失。
[0020] 優(yōu)選的,所述服務(wù)子系統(tǒng)還包括:第二發(fā)送模塊,用于在初始化之后,向所述運(yùn)維 監(jiān)控系統(tǒng)發(fā)送刪除請(qǐng)求消息,所述刪除請(qǐng)求消息中包含所述告警文件中所存儲(chǔ)的告警信息 的標(biāo)識(shí)信息,所述刪除請(qǐng)求消息用于請(qǐng)求所述運(yùn)維監(jiān)控系統(tǒng)刪除所述標(biāo)識(shí)信息對(duì)應(yīng)的告警 信息;以及第三刪除模塊,用于刪除所述告警文件中所存儲(chǔ)的告警信息。由于在服務(wù)子系統(tǒng) 初始化時(shí),自動(dòng)消除類告警信息已經(jīng)清除,在這種情況