本申請涉及故障定位,尤其涉及一種故障確定方法、電子設備、存儲介質及計算機產品。
背景技術:
1、相關技術中,分組傳送網(packet?transport?network,ptn)是目前網絡演進的趨勢,目前很多業務由ptn網絡承載。能快速準確的發現ptn網絡中的隱患問題,并能對故障的根因進行定位及處理方案的快速指導,是業務質量優化,用戶感知提升的基礎性和關鍵性保障手段。目前采用的故障根因定位方法主要依靠人力排查和機器學習,其中,人工排查效率可信度較低,而基于機器學習的故障根因定位雖然能夠提高效率,但相關技術中僅考慮了告警之間的關聯關系,定位準確率低。
技術實現思路
1、有鑒于此,本申請實施例提供了一種故障確定方法、電子設備、存儲介質及計算機產品。
2、本申請實施例的技術方案是這樣實現的:
3、本申請實施例提供了一種故障確定方法,所述方法包括:基于第一故障時間窗口內所有告警節點的告警數據,確定每個告警節點的告警傳播信息;所述告警節點表征發生告警的硬件設備和/或業務單元;所述告警傳播信息包括對應的告警節點的告警數據和告警節點之間的連接關系;基于每個告警節點的性能參數,確定每個告警節點的時序信息;所述時序信息包括對應的告警節點在所述第一故障時間窗口內連續多個時間點的性能數據;將所有告警節點的告警傳播信息和時序信息輸入至預訓練好的故障確定模型中,得到所述故障確定模型輸出的故障發生節點和故障類型;所述故障確定模型表征為時序圖神經網絡。
4、上述方案中,所述將所有告警節點的告警傳播信息和時序信息輸入至預訓練好的故障確定模型中,得到所述故障確定模型輸出的故障發生節點和故障類型,包括:將所有告警節點的告警傳播信息輸入所述故障確定模型的圖卷積層,得到拓撲特征;將所有告警節點的時序信息輸入所述故障確定模型的長短記憶網絡層,得到時序特征;將所述拓撲特征和所述時序特征輸入所述故障確定模型的融合層,得到時空特征;將所述時空特征輸入所述故障確定模型的圖注意力層,得到對故障結果的中間表征狀態;將所述故障結果的中間表征狀態輸入至所述故障確定模型的全連接層,得到所述故障發生節點和故障類。在上述方案中,所述將所有告警節點的告警傳播信息輸入所述故障確定模型的圖卷積層,得到拓撲特征,包括:基于第一故障時間窗口內每個告警節點的告警數據,確定每個告警節點的拓撲子圖;所述拓撲子圖包括以對應的告警節點為初始點的預設半徑內的所有節點;對所述拓撲子圖進行編碼處理,得到每個告警節點的告警傳輸矩陣;所述告警傳播矩陣表征為所述告警傳播信息;將每個告警節點的告警傳輸矩陣輸入至所述故障確定模型的圖卷積層,得到所有告警節點的拓撲特征。
5、在上述方案中,在所述基于第一故障時間窗口內所有告警節點的告警數據,確定每個告警節點的告警傳播信息之前,所述方法還包括以下一項或多項:篩除存在空值的告警數據;對所述性能參數中的空值進行均值填充。
6、在上述方案中,在所述將所有告警節點的告警傳播信息和時序信息輸入至預訓練好的故障確定模型中,得到所述故障確定模型輸出的故障發生節點和故障類型之后,所述方法還包括:將所述故障確定模型輸出的故障發生節點和故障類型添加至對應的故障工單中。
7、本申請實施例還提供一種模型訓練方法,用于訓練上述方案中的故障確定模型,所述方法包括:確定訓練數據集;所述訓練數據集中的訓練數據包括第二故障時間窗內的所有告警節點的拓撲信息和時序信息,所述訓練數據的標注為對應的故障發生節點和故障類型;基于所述訓練數據集訓練所述故障確定模型。
8、在上述方案中,所述確定訓練數據集,包括:基于所述第一故障時間窗內的拓撲特征和時序特征生成所述訓練數據集中的第一訓練數據;將對應的故障工單中的故障發生節點和故障類型作為所述第一訓練數據的標簽。
9、本申請實施例還提供一種電子設備,包括:處理器和用于存儲能夠在處理器上運行的計算機程序的存儲器,其中,所述處理器,用于運行計算機程序時,執行上述方法中的步驟。
10、本申請實施例還提供一種計算機存儲介質,所述計算機存儲介質上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時,實現上述方法中的步驟。
11、本申請實施例還提供一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序在被處理器執行時,實現上述故障確定方法的步驟。
12、本申請實施例還提供一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序在被處理器執行時,實現上述模型訓練方法的步驟。
13、本申請實施例提供的技術方案,首先基于第一故障時間窗口內所有告警節點的告警數據,確定每個告警節點的告警傳播信息。其中,告警節點包括發生告警的硬件設備和/或業務單元,告警傳播信息包括對應的告警節點的告警數據和告警節點之間的連接關系。而后,基于每個告警節點的性能參數,確定每個告警節點的時序信息。其中,時序信息包括對應的告警節點在第一故障時間窗口內連續多個時間點的性能數據。最后,將所有告警節點的告警傳播信息和時序信息輸入至預訓練好的故障確定模型中,得到故障確定模型輸出的故障發生節點和故障類型。具體地,故障確定模型表征為時序圖神經網絡。本申請實施例在故障定位時,故障確定模型將多維度的信息(告警信息、拓撲信息和時序信息)進行了融合,根據融合特征輸出故障根因。在進行告警節點的故障根因定位時,本申請實施例結合了告警節點的告警信息、拓撲信息和時序信息,采用多維度信息融合進行故障定位,對于產生的故障定位結果有更多的信息數據支持,準確性和可靠性能夠得到提高。同時,在故障定位過程中不僅考慮到告警節點本身產生的告警信息,還考慮了相鄰告警節點發生的告警信息以及告警節點間的影響關系,將多個節點之間的運行和連接邏輯與告警信息關聯分析,能夠進一步提高故障定位的準確性,也能夠同時對多個告警節點進行分析,實現多故障同時定位,故障定位效率也得到了提高。
1.一種故障確定方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述將所有告警節點的告警傳播信息和時序信息輸入至預訓練好的故障確定模型中,得到所述故障確定模型輸出的故障發生節點和故障類型,包括:
3.根據權利要求2所述的方法,其特征在于,所述將所有告警節點的告警傳播信息輸入所述故障確定模型的圖卷積層,得到拓撲特征,包括:
4.根據權利要求1所述方法,其特征在于,在所述基于第一故障時間窗口內所有告警節點的告警數據,確定每個告警節點的告警傳播信息之前,所述方法還包括以下一項或多項:
5.根據權利要求1所述方法,其特征在于,在所述將所有告警節點的告警傳播信息和時序信息輸入至預訓練好的故障確定模型中,得到所述故障確定模型輸出的故障發生節點和故障類型之后,所述方法還包括:
6.一種模型訓練方法,用于訓練如權利要求1至5任一項所述的故障確定模型,其特征在于,所述方法包括:
7.根據權利要求6所述方法,其特征在于,所述確定訓練數據集,包括:
8.一種電子設備,其特征在于,包括:處理器和用于存儲能夠在處理器上運行的計算機程序的存儲器,其中,
9.一種計算機存儲介質,所述計算機存儲介質上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時,實現權利要求1至5所述的故障確定方法或權利要求6至7所述的模型訓練方法的步驟。
10.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序在被處理器執行時,實現權利要求1-5任一項所述的故障確定方法的步驟。
11.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序在被處理器執行時,實現權利要求6至7所述的模型訓練方法的步驟。