一種故障恢復方法及裝置的制造方法
【技術領域】
[0001]本申請涉及網絡數據處理領域,特別是涉及一種故障恢復方法及裝置。
【背景技術】
[0002]通信系統中,當設備出現故障時,需要采取一定的方法對故障進行恢復,以避免故障長時間無法恢復而對通信系統的性能造成嚴重影響。
[0003]對于故障的恢復方法,可以采用人工方式進行。但是,人工檢測故障,再對故障進行恢復所花費的時間和人工成本通常較高。因此,業內逐漸傾向于通過通信系統中的設備對于通信系統自身的故障進行自動恢復,以此提高故障恢復效率并降低人工成本。
[0004]現有技術中的故障恢復方法,主要是根據設備的心跳消息來判斷設備是否出現故障。具體的,監測設備可以定期向被監測設備發送心跳消息,被監測設備在接收到心跳消息后,可以向監測設備返回響應消息。如果監測設備在發送心跳消息后,在規定時間內未接收到被監測設備返回的響應消息,則判定該被監測設備發生故障,進而對該被監測設備整體進行復位,或者將該被監測設備所承載的功能倒換至另外的設備,以恢復故障。
[0005]然而,監測設備在規定時間內未接收到響應消息的原因,可能有多種。例如,可以是被監測設備用于發送響應消息的接口單元發生故障。此時,可以調用被監測設備的其它接口單元替換前述接口單元,而無需對被監測設備整體進行復位或者功能倒換。對被監測設備整體進行復位或者功能倒換的風險較高,且會造成較多的業務受到影響。
[0006]綜上所述,現有技術中的故障恢復方法,由于根據設備的心跳消息對于故障進行分析和恢復,導致對于故障進行定位的精度較低。
【發明內容】
[0007]本申請的目的是提供一種故障恢復方法及裝置,能夠通過關鍵績效指標信息對于故障進行定位,解決根據設備的心跳消息對于故障進行定位的精度較低問題。
[0008]為實現上述目的,本申請提供了如下方案:
[0009]根據本申請的第一方面的第一種可能的實現方式,本申請提供一種故障恢復方法,包括:
[0010]獲取被監測網元中的各個業務處理單元的關鍵績效指標信息;
[0011 ] 根據所述關鍵績效指標信息,確定故障對象;
[0012]根據所述故障對象,確定故障恢復策略;
[0013]將所述故障恢復策略發送至網絡功能虛擬化系統中的管理單元,以便所述管理單元采用所述故障恢復策略進行故障恢復。
[0014]結合第一方面的第二種可能的實現方式,所述確定故障對象,具體包括:
[0015]確定故障對象為所述被監測網元中的業務處理單元;
[0016]或者確定故障對象為所述業務處理單元之間的通信路徑;
[0017]所述根據所述故障對象,確定故障恢復策略,具體包括:
[0018]當所述故障對象為所述被監測網元中的業務處理單元或者所述業務處理單元之間的通信路徑時,確定網元級的故障恢復策略;所述網元級的故障恢復策略用于在所述被監測網元內部執行故障恢復操作。
[0019]結合第一方面的第三種可能的實現方式,所述確定故障對象,具體包括:
[0020]確定故障對象為所述被監測網元;
[0021]或者,確定故障對象為所述被監測網元與另外的網元之間的通信路徑;
[0022]所述根據所述故障對象,確定故障恢復策略,具體包括:
[0023]當所述故障對象為所述被監測網元或者所述被監測網元與另外的網元之間的通信路徑時,確定網絡級的故障恢復策略;所述網絡級的故障恢復策略用于對所述被監測網元所處網絡中的一個或多個網元執行故障恢復操作。
[0024]結合第一方面的第二種可能的實現方式的第一種具體實現方式,所述確定故障對象為所述被監測網元中的業務處理單元,具體包括:
[0025]根據所述關鍵績效指標信息中的業務處理單元接收到的業務請求數以及所述業務請求數對應的業務的失敗數,計算業務處理單元執行的業務的業務成功率;
[0026]將所述業務成功率與第一參考值進行比較;
[0027]確定所述業務成功率低于第一參考值的業務處理單元為所述故障對象。
[0028]結合第一方面的第二種可能的實現方式的第一種具體實現方式的第一種更具體的實現方式,所述將所述業務成功率與第一參考值進行比較,具體包括:
[0029]將所述業務成功率與預設參考值進行比較;
[0030]或者,確定同質化業務處理單元的平均業務成功率;
[0031]將所述平均業務成功率減去預設數值得到同質化參考值;
[0032]將所述業務成功率與所述同質化參考值進行比較;
[0033]其中,所述同質化業務處理單元為與所述業務處理單元所承載的業務的業務邏輯相同,且所述業務被離散分配的業務處理單元。
[0034]結合第一方面的第二種可能的實現方式的第一種具體實現方式的第二種更具體的實現方式,確定所述業務成功率低于第一參考值的業務處理單元為所述故障對象之前,還包括:
[0035]確定同質化業務處理單元中業務成功率大于第一參考值的第一單元集;
[0036]確定同質化業務處理單元中業務成功率小于第一參考值的第二單元集;
[0037]確定所述第一單元集包含的單元在全體所述同質化業務處理單元中所占的比例大于第一預設比例;
[0038]其中,所述同質化業務處理單元為與所述業務處理單元所承載的業務的業務邏輯相同,且所述業務被離散分配至的業務處理單元。
[0039]結合第一方面的第二種可能的實現方式的第二種具體實現方式,所述確定故障對象為所述業務處理單元之間的通信路徑,具體包括:
[0040]根據所述關鍵績效指標信息中的通信路徑故障導致的業務失敗數,計算通信路徑的業務成功率;
[0041]將所述業務成功率與第三參考值進行比較;
[0042]確定所述業務成功率低于第三參考值的通信路徑為所述故障對象。
[0043]結合第一方面的第三種可能的實現方式的第一種具體實現方式,所述確定故障對象為所述被監測網元,具體包括:
[0044]根據各個業務處理單元的所述關鍵績效指標信息中的各個業務處理單元接收到的業務請求數以及所述業務請求數對應的業務的失敗數,統計所述各個業務處理單元的業務成功率;
[0045]將所述業務成功率與第二參考值進行比較;
[0046]確定所述業務成功率低于第二參考值的業務處理單元的數量;
[0047]根據所述數量確定所述業務成功率低于第二參考值的業務處理單元在所述被監測網元中的全部業務處理單元中所占的比例;
[0048]當所述比例大于第二預設比例時,確定所述被監測網元為所述故障對象。
[0049]結合第一方面的第三種可能的實現方式的第一種具體實現方式的第一種更具體的實現方式,所述將所述業務成功率與第二參考值進行比較,具體包括:
[0050]將所述業務成功率與預設參考值進行比較;
[0051]或者,確定同質化網元的平均業務成功率;
[0052]將所述平均業務成功率減去預設數值得到同質化參考值;
[0053]將所述業務成功率與所述同質化參考值進行比較;
[0054]其中,所述同質化網元為承載的業務的業務邏輯與所述被監測網元相同,且所述業務被離散分配至的被監測網元。
[0055]結合第一方面的第二種可能的實現方式的第三種具體實現方式,所述確定故障對象為所述被監測網元中的業務處理單元之后,或者,確定故障對象為所述業務處理單元之間的通信路徑之后,所述將所述故障恢復策略發送至網絡功能虛擬化系統中的管理單元,具體包括:
[0056]將所述故障恢復策略發送至網絡功能虛擬化系統中所述被監測網元中的的系統管理模塊。
[0057]結合第一方面的第三種可能的實現方式的第二種具體實現方式,所述確定故障對象為所述被監測網元之后,或者,確定故障對象為所述被監測網元與另外的網元之間的通信路徑之后,所述將所述故障恢復策略發送至網絡功能虛擬化系統中的管理單元,具體包括:
[0058]將所述故障恢復策略發送至網絡功能虛擬化系統中的管理和編排MANO單元。
[0059]結合第一方面的第二種可能的實現方式的第四種具體實現方式,所述確定故障對象為所述被監測網元中的業務處理單元之后,還包括:
[0060]確定發生故障的所述業務處理單元的數量達到預設閾值;
[0061]確定網絡級的故障恢復策略;所述網絡級的故障恢復策略用于對所述被監測網元所處網絡中的一個或多個網元執行故障恢復操作。
[0062]結合第一方面的第三種可能的實現方式的第三種具體實現方式,所述確定網絡級的故障恢復策略,具體包括:
[0063]獲取與被確定為故障對象的所述被監測網元相關的冗余網元的狀態信息;
[0064]根據所述狀態信息,確定處于正常工作狀態的冗余網元;
[0065]生成網絡級的故障恢復指示信息,所述故障恢復指示信息用于指示所述管理單元采用所述處于正常工作狀態的冗余網元替換被確定為故障對象的所述被監測網元;
[0066]或者,所述確定網絡級的故障恢復策略,具體包括:獲取被確定為故障對象的所述通信路徑中的后端網元的冗余網元的狀態信息;
[0067]根據所述狀態信息,確定處于正常工作狀態的冗余網元;
[0068]生成網絡級的故障恢復指示信息,所述故障恢復指示信息用于指示所述管理單元將所述通信路徑中的前端網元對應的后端網元切換為所述處于正常工作狀態的冗余網元。
[0069]根據本申請的第二方面的第一種可能的實現方式,本申請提供一種故障恢復裝置,包括:
[0070]獲取單元,用于獲取被監測網元中的各個業務處理單元的關鍵績效指標信息;
[0071]確定單元,用于根據所述關鍵績效指標信息,確定故障對象;
[0072]根據所述故障對象,確定故障恢復策略;
[0073]發送單元,用于將所述故障恢復策略發送至網絡功能虛擬化系統中的管理單元,以便所述管理單元采用所述故障恢復策略進行故障恢復。
[0074]結合第二方面的第二種可能的實現方式,所述確定單元,具體用于:
[0075]確定故障對象為所述被監測網元中的業務處理單元;
[0076]或者確定故障對象為所述業務處理單元之間的通信路徑;
[0077]當所述故障對象為所述被監測網元中的業務處理單元或者所述業務處理單元之間的通信路徑時,確定網元級的故障