本發明涉及運維監控,尤其涉及一種運維監控方法、裝置、電子設備和存儲介質。
背景技術:
1、為了保障應用系統的穩定性,實現減少中斷和快速修復的兩大目標,及時、準確地發現系統故障成為關鍵。相關技術中通過單一的錯誤預算算法監測系統中的多個活動的錯誤情況,故障監測的準確度和全面度較低,難以快速、準確地定位系統故障,不能很好地滿足運維需求。
技術實現思路
1、本發明提供一種運維監控方法、裝置、電子設備和存儲介質,用以解決現有技術中通過單一的錯誤預算算法監測系統中的多個活動的錯誤情況,難以快速、準確地定位系統故障的缺陷。
2、第一方面,本發明提供一種運維監控方法,包括:
3、確定目標應用系統,識別所述目標應用系統中的多個活動,并確定每一活動對應的活動標簽;
4、獲取所述每一活動對應的服務級別目標(service?level?objective,slo)信息;
5、基于所述每一活動對應的slo信息確定每一活動對應的目標錯誤預算算法,將所述每一活動對應的目標錯誤預算算法發送至目標用戶客戶端,以使目標用戶對所述每一活動對應的目標錯誤預算算法進行確認;
6、在所述目標用戶對所述每一活動對應的目標錯誤預算算法進行確認之后,獲取所述每一活動對應的當前錯誤數據,根據所述每一活動對應的目標錯誤預算算法,對所述每一活動對應的當前錯誤數據進行處理,并判斷是否符合告警條件,若是,則基于所述每一活動對應的活動標簽顯示所述每一活動對應的告警信息。
7、在一些實施例中,所述獲取所述每一活動對應的服務級別目標slo信息,包括:
8、根據所述活動標簽篩選關鍵活動,其中所述活動標簽包括活動等級,所述活動等級用于指示活動的重要程度;
9、針對所述關鍵活動按照組件類型確定服務等級指標(service?level?indicator,sli)規范,所述sli規范用于確定服務等級指標,并提供一致的標準和方法來度量、監控和評估所述目標應用系統的運行狀況;
10、基于所述sli規范,結合考核目標和體驗目標,確定所述每一活動對應的slo信息。
11、在一些實施例中,所述基于所述每一活動對應的slo信息確定每一活動對應的目標錯誤預算算法,包括:
12、對所述每一活動進行特征提取,得到所述每一活動對應的特征向量,將所述每一活動對應的特征向量輸入至算法選擇模型,得到所述算法選擇模型輸出的所述每一活動對應的目標錯誤預算算法;
13、其中,所述每一活動對應的特征向量包括所述每一活動對應的slo信息,以及所述每一活動對應的當前錯誤數據;
14、其中,所述算法選擇模型是基于樣本應用系統中每一樣本活動對應的樣本特征向量,以及所述每一樣本活動對應的目標錯誤預算算法標簽訓練得到初始算法選擇模型,再對所述初始算法選擇模型進行持續迭代優化得到的;
15、其中,所述每一樣本活動對應的樣本特征向量包括所述每一樣本活動對應的slo信息,以及所述每一樣本活動對應的歷史錯誤數據。
16、在一些實施例中,所述基于所述每一活動對應的slo信息確定每一活動對應的目標錯誤預算算法,包括:
17、確定多個錯誤預算算法共同涉及的多個關鍵指標;
18、根據各所述錯誤預算算法的特性,確定各所述錯誤預算算法的關鍵指標對應的范圍區間;
19、基于所述每一活動對應的slo信息,確定所述每一活動對應的關鍵指標的期望值;
20、根據所述每一活動對應的關鍵指標的期望值,從所述多個錯誤預算算法中確定所述每一活動對應的關鍵指標的期望值落入所述范圍區間最多的錯誤預算算法,作為所述每一活動對應的目標錯誤預算算法。
21、在一些實施例中,所述每一活動對應的目標錯誤預算算法包括以下一項:錯誤率大于等于slo閾值的錯誤預算算法、延長統計時間窗的錯誤預算算法、延長告警觸發前持續時間的錯誤預算算法、根據燃燒率發出告警的錯誤預算算法、多長窗燃燒率的錯誤預算算法、長窗與短窗燃燒率結合的錯誤預算算法,其中所述燃燒率是指錯誤預算的消耗速度。
22、在一些實施例中,所述根據所述每一活動對應的目標錯誤預算算法,對所述每一活動對應的當前錯誤數據進行處理,并判斷是否符合告警條件,包括:
23、根據所述每一活動對應的目標錯誤預算算法,對所述每一活動對應的當前錯誤數據進行處理,得到所述每一活動對應的錯誤率;
24、根據所述每一活動對應的slo信息,確定所述每一活動對應的slo閾值和/或燃燒率閾值;
25、基于所述每一活動對應的錯誤率,以及所述每一活動對應的slo閾值和/或燃燒率閾值判斷是否符合告警條件。
26、在一些實施例中,所述獲取所述每一活動對應的當前錯誤數據之前,包括:
27、基于所述每一活動對應的目標錯誤預算算法,確定所述每一活動對應的時間窗口;
28、所述獲取所述每一活動對應的當前錯誤數據,包括:
29、在所述每一活動對應的時間窗口內獲取所述每一活動對應的當前錯誤數據。
30、第二方面,本發明還提供一種運維監控裝置,包括:
31、識別單元,用于確定目標應用系統,識別所述目標應用系統中的多個活動,并確定每一活動對應的活動標簽;
32、獲取單元,用于獲取所述每一活動對應的服務級別目標slo信息;
33、第一確定單元,用于基于所述每一活動對應的slo信息確定每一活動對應的目標錯誤預算算法,將所述每一活動對應的目標錯誤預算算法發送至目標用戶客戶端,以使目標用戶對所述每一活動對應的目標錯誤預算算法進行確認;
34、顯示單元,用于在所述目標用戶對所述每一活動對應的目標錯誤預算算法進行確認之后,獲取所述每一活動對應的當前錯誤數據,根據所述每一活動對應的目標錯誤預算算法,對所述每一活動對應的當前錯誤數據進行處理,并判斷是否符合告警條件,若是,則基于所述每一活動對應的活動標簽顯示所述每一活動對應的告警信息。
35、第三方面,本發明還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如上述任一種所述運維監控方法。
36、第四方面,本發明還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述運維監控方法。
37、本發明提供的一種運維監控方法、裝置、電子設備和存儲介質,通過識別目標應用系統中的多個活動,并確定每一活動對應的活動標簽,便于針對多個活動進行多點監測;通過獲取每一活動對應的服務級別目標slo信息,進而能夠基于每一活動對應的slo信息較準確地確定每一活動對應的目標錯誤預算算法,并將該目標錯誤預算算法轉至下一節點中的目標用戶進行確認;在確認之后,通過獲取每一活動對應的當前錯誤數據,根據每一活動對應的目標錯誤預算算法,對每一活動對應的當前錯誤數據進行處理,并判斷是否符合告警條件,若是,則基于每一活動對應的活動標簽顯示每一活動對應的告警信息,提高了故障監測的準確度和全面,便于快速、準確地定位問題系統故障,從而可以提高故障處理效率。