專利名稱:堆疊系統可靠性提升方法、監控器及堆疊系統的制作方法
技術領域:
本申請涉及通信領域,特別是涉及堆疊系統可靠性提升方法、監控器及堆疊系統。
背景技術:
堆疊技術將每臺通信設備作為一個堆疊節點,通過以太、高速以太等數據通道將多個堆疊節點拓撲連接起來組建成一個堆疊系統,并選擇其中一個堆疊節點作為堆疊主節點。其中,堆疊節點之間的鏈路稱為堆疊鏈路。堆疊鏈路是整個堆疊系統的通信橋梁,一旦堆疊鏈路發生故障,將可能導致堆疊系統通信的中斷,進而影響堆疊系統可靠性。現有技術提供了一種堆疊系統故障處理方法,例如,對于環形拓撲結構的堆疊系統,當其中兩個堆疊節點之間的鏈路發生故障導致這兩個堆疊節點之間不能進行通信時,這兩個節點會分別感知故障,并報告堆疊主節點,堆疊主節點接收到報告后,重新計算形成新的拓撲圖形,并選擇合適的鏈路使得這兩個堆疊節點能夠重新進行通信。 但是,這種堆疊系統故障處理方法只能在故障發生并導致不能通信時才報告堆疊主節點,具有滯后性,而且,當故障發生后,對故障進行維修需要比較長的時間。
發明內容
本申請主要解決的技術問題是提供堆疊系統可靠性提升方法、監控器及堆疊系統,能夠提升堆疊系統的可靠性。為解決上述技術問題,本申請第一方面提供一種堆疊系統可靠性提升方法,包括如下步驟監控指定節點與相鄰節點之間的堆疊鏈路的鏈路指標,其中,所述相鄰節點為與所述指定節點直接連接的堆疊節點;根據所述鏈路指標對所述堆疊鏈路進行評估以獲得評估結果;向所述指定節點或堆疊主節點提供所述評估結果,以使所述指定節點或所述堆疊主節點分別根據所述評估結果和各自的調度策略進行調度。其中,所述監控指定節點與相鄰節點之間的堆疊鏈路的鏈路指標步驟包括根據介質監控得分、芯片監控得分、報文監控得分以及流量監控得分中的至少一項得分進行評估以獲得評估結果。其中,所述根據介質監控得分、芯片監控得分、報文監控得分以及流量監控得分中的至少一項得分進行評估以獲得評估結果的步驟包括如果所述介質監控得分大于或等于第一閾值,且所述芯片監控得分大于或等于第一閾值,且所述報文監控得分大于或等于第一閾值,且流量監控得分大于或等于第一閾值,則將所述堆疊鏈路評估為5級;如果所述介質監控得分大于或等于第一閾值,且所述芯片監控得分大于或等于第一閾值,且所述報文監控得分大于或等于第一閾值,且所述流量監控得分小于第一閾值,則將所述堆疊鏈路評估為4級;如果所述介質監控得分大于或等于第一閾值,且所述芯片監控得分大于或等于第一閾值,且所述報文監控得分小于第一閾值,則將所述堆疊鏈路評估為3級;如果所述介質監控得分大于或等于第二閾值并小于第一閾值,或所述芯片監控得分大于或等于第二閾值并小于第一閾值,則將所述堆疊鏈路評估為2級;如果所述介質監控得分小于第二閾值,或所述芯片監控得分小于第二閾值,則將所述堆疊鏈路評估為I級。其中,所述根據介質監控得分、芯片監控得分、報文監控得分以及流量監控得分中的至少一項得分進行評估以獲得評估結果步驟之前包括根據工作溫度、工作電流、工作電壓、工作功率以及接收發送信號計算所述介質監控得分。其中,所述根據介質監控得分、芯片監控得分、報文監控得分以及流量監控得分中的至少一項得分進行評估以獲得評估結果步驟之前包括根據誤碼率、物理層可用性檢查、端口閃斷以及以太網轉發芯片可用性計算所述芯片監控得分。其中,所述根據介質監控得分、芯片監控得分、報文監控得分以及流量監控得分中的至少一項得分進行評估以獲得評估結果步驟之前包括根據收到錯誤報文頻率以及丟棄報文頻率計算所述報文監控得分。本申請第二方面提供一種監控器,所述監控器包括監控模塊、評估模塊以及提供模塊;所述監控模塊用于監控指定節點與相鄰節點之間的堆疊鏈路的鏈路指標,所述監控 模塊將所述鏈路指標向所述評估模塊發送,其中,所述相鄰節點為與所述指定節點直接連接的堆疊節點;所述評估模塊用于接收鏈路指標并根據所述鏈路指標對所述堆疊鏈路進行評估以獲得評估結果,所述評估模塊將所述評估結果向所述提供模塊發送;所述提供模塊用于接收所述評估結果并向所述指定節點或堆疊主節點提供所述評估結果,以使所述指定節點或所述堆疊主節點分別根據所述評估結果和各自的調度策略進行調度。其中,所述評估模塊用于根據介質監控得分、芯片監控得分、報文監控得分以及流量監控得分中的至少一項得分進行評估以獲得評估結果。其中,所述評估模塊用于在所述介質監控得分大于或等于第一閾值,且所述芯片監控得分大于或等于第一閾值,且所述報文監控得分大于或等于第一閾值,且流量監控得分大于或等于第一閾值時,將所述堆疊鏈路評估為5級;在所述介質監控得分大于或等于第一閾值,且所述芯片監控得分大于或等于第一閾值,且所述報文監控得分大于或等于第一閾值,且所述流量監控得分小于第一閾值時,將所述堆疊鏈路評估為4級;在所述介質監控得分大于或等于第一閾值,且所述芯片監控得分大于或等于第一閾值,且所述報文監控得分小于第一閾值時,將所述堆疊鏈路評估為3級;在所述介質監控得分大于或等于第二閾值并小于第一閾值,或所述芯片監控得分大于或等于第二閾值并小于第一閾值時,將所述堆疊鏈路評估為2級;在所述介質監控得分小于第二閾值,或所述芯片監控得分小于第二閾值時,將所述堆疊鏈路評估為I級。其中,所述評估模塊用于根據工作溫度、工作電流、工作電壓、工作功率以及接收發送信號計算所述介質監控得分。其中,所述評估模塊用于根據誤碼率、物理層可用性檢查、端口閃斷以及以太網轉發芯片可用性計算所述芯片監控得分。其中,所述評估模塊用于根據收到錯誤報文頻率以及丟棄報文頻率計算所述報文監控得分。為解決上述技術問題,本申請第一方面提供一種堆疊系統,包括多個監控器、至少一個堆疊節點,以及堆疊主節點,所述堆疊節點與所述堆疊主節點之間拓撲連接,其中,一個監控器監控一個堆疊節點或一個堆疊主節點,所述監控器為如上述第二方面所述的監控器。
其中,所述監控器設置于堆疊節點和堆疊主節點之外,每個監控器分別連接一個堆疊節點或一個堆疊主節點。其中,每個堆疊節點和堆疊主節點內均集成至少一個監控器。上述技術方案能夠在故障尚未發生前,通過監控器對指定節點與相鄰節點之間的堆疊鏈路的鏈路指標進行監控,然后根據鏈路指標進行評估,以使指定節點和堆疊主節點分別根據評估結果和各自的調度策略進行調度,提升堆疊系統的可靠性。
圖I是本發明堆疊系統一實施方式的結構示意圖;圖2是本發明堆疊系統可靠性提升方法一實施方式的流程圖;圖3是本發明堆疊系統可靠性提升方法中工作溫度和得分的曲線圖; 圖4是本發明堆疊系統可靠性提升方法中誤碼率和得分的曲線圖;圖5是本發明堆疊系統可靠性提升方法中收到錯誤報文頻率和得分的曲線圖;圖6是本發明堆疊系統可靠性提升方法中流量速率與流量監控得分的曲線圖;圖7是本發明監控器一實施方式的結構示意圖;圖8是本發明監控器另一實施方式的結構示意圖。
具體實施例方式以下描述中,為了說明而不是為了限定,提出了諸如特定系統結構、接口、技術之類的具體細節,以便透徹理解本申請。然而,本領域的技術人員應當清楚,在沒有這些具體細節的其它實施方式中也可以實現本申請。在其它情況中,省略對眾所周知的裝置、電路以及方法的詳細說明,以免不必要的細節妨礙本申請的描述。參閱圖1,圖I是本發明堆疊系統一實施方式的結構示意圖。本實施方式的堆疊系統包括堆疊主節點Iio以及至少一個堆疊節點120。將多個交換機通過以太網等首尾相連以構成一個環形的拓撲結構,并將其中一個交換機作為堆疊主節點110,其余的交換機作為堆疊節點120。在其它的實施方式中,堆疊系統也可以是總線拓撲、樹形拓撲、混合形拓撲、星形拓撲等等,為了陳述方便,文中僅以環形拓撲結構為例進行陳述。在每個堆疊主節點110和堆疊節點120內均集成至少一個監控器(圖未示)。或者將監控器設置于堆疊主節點110和堆疊節點120之外,每個監控器分別連接一個堆疊主節點110或一個堆疊節點120。參閱圖2,圖2是本發明堆疊系統可靠性提升方法一實施方式的流程圖。本實施方式的堆疊系統可靠性提升方法包括S201 :監控器監控指定節點與相鄰節點之間的堆疊鏈路的鏈路指標。將與監控器直接連接的堆疊節點作為指定節點,并將與指定節點直接連接的堆疊節點作為相鄰節點。監控器監控指定節點與相鄰節點之間的堆疊鏈路的鏈路指標。其中,鏈路指標包括硬件指標以及軟件指標。S202:監控器根據鏈路指標對所述堆疊鏈路進行評估以獲得評估結果。監控器在獲得鏈路指標后,根據鏈路指標對堆疊鏈路從包括硬件指標和軟件指標的綜合指標上進行評估,從而獲得評估結果。
S203 :監控器向指定節點或堆疊主節點提供評估結果,以使指定節點或堆疊主節點分別根據評估結果和各自的調度策略進行調度。在獲得評估結果后,如果監控器設置在指定節點的內部,則監控器可直接向指定節點提供評估結果,指定節點根據評估結果和指定節點的調度策略進行調度;如果監控器設置在指定節點的外部,則監控器通過傳輸載體向指定節點提供評估結果,指定節點再根據評估結果和指定節點的調度策略進行調度。此外,監控器也可以將評估結果通過指定節點和多個堆疊節點轉發,從而向堆疊主節點提供評估結果,堆疊主節點在接收到評估結果后,根據評估結果和堆疊主節點的調度策略進行調度。具體地,對于步驟S202,可以根據介質監控得分、芯片監控得分、報文監控得分以及流量監控得分中的至少一項得分進行評估以獲得評估結果。在本步驟之前,必須獲得介質監控得分、芯片監控得分、報文監控得分以及流量監控得分。首先,根據工作溫度、工作電流、工作電壓、工作功率以及接收發送信號計算介質監控得分。其中,工作溫度、工作電流、工作電壓、工作功率以及接收發送信號每項鏈路指標 的得分范圍都在
,因而,工作溫度、工作電流、工作電壓、工作功率以及接收發送信號五項鏈路指標加起來的最高得分是100分,最低得分是O分。參閱圖3,圖3是本發明堆疊系統可靠性提升方法中工作溫度和得分的曲線圖。若工作溫度低于橫坐標Ml或高于橫坐標NI時,得分為O分;若工作溫度位于在橫坐標[M2,N2]區間內,得分為20分;若工作溫度位于橫坐標(Ml,M2 )或橫坐標(N2,NI)內,得分在(O,20 )區間內,其中,橫坐標Ml〈橫坐標M2〈橫坐標N2〈橫坐標NI。工作電流、工作電壓、工作功率以及接收發送信號和得分的曲線圖皆與工作溫度和得分的曲線圖相近,此處不重復贅述。在分別得到工作溫度、工作電流、工作電壓、工作功率以及接收發送信號所對應的得分后,將得分相加,即可得到介質監控得分。其次,根據誤碼率、物理層可用性檢查、端口閃斷以及以太網轉發芯片可用性計算芯片監控得分。其中,誤碼率、物理層可用性檢查、端口閃斷以及以太網轉發芯片可用性每項鏈路指標的得分范圍都在
,因而,誤碼率、物理層可用性檢查、端口閃斷以及以太網轉發芯片可用性四項鏈路指標加起來的最高得分是100分,最低得分是O分。參閱圖4,圖4是本發明堆疊系統可靠性提升方法中誤碼率和得分的曲線圖。若誤碼率小于橫坐標M,得分為25分;若誤碼率大于橫坐標N,得分為O分;若誤碼率位于橫坐標(M, N)內,得分在(0,25)區間內,其中,橫坐標M〈橫坐標N。可以理解地,如果不能容忍有誤碼,可以令橫坐標M的數值為零。對于物理層可用性檢查存在兩個結果,如果物理層可用性檢查結果為可用,得分為25分,如果物理層可用性檢查結果為不可用,得分為O分。對于端口閃斷,端口閃斷和得分的曲線圖與誤碼率和得分的曲線圖相近,此處不重復贅述。對于以太網轉發芯片可用性,以太網轉發芯片可用性包括控制平面心跳檢測、關鍵表項檢測以及MMU (MemoryManagement Unit)內存故障檢測三項。控制平面心跳檢測通過選擇以太網轉發芯片上一個不影響業務的寄存器進行周期性寫讀操作,如果讀出的值與寫出的值不一致,則控制平面心跳檢測不通過,反之,則控制平面心跳檢測通過;關鍵表項檢測采用奇偶錯誤校驗,如果奇偶錯誤校驗的結果為奇偶錯誤,并向主芯片上報中斷時,則關鍵表項檢測檢測不通過,反之,則關鍵表項檢測通過;MMU內存故障檢測采用奇偶錯誤校驗,如果奇偶錯誤校驗的結果為奇偶錯誤,并向主芯片上報中斷時,則MMU內存故障檢測不通過,反之,則MMU內存故障檢測通過。只有在控制平面心跳檢測、關鍵表項檢測以及MMU內存故障檢測同時通過時,以太網轉發芯片可用性得分為25分,而只要控制平面心跳檢測、關鍵表項檢測以及MMU內存故障檢測任一項不通過時,以太網轉發芯片可用性得分為O分。在分別得到誤碼率、物理層可用性檢查、端口閃斷以及以太網轉發芯片可用性所對應的得分后,將得分相加,即可得到芯片監控得分。然后,根據收到錯誤報文頻率以及丟棄報文頻率計算報文監控得分。其中,收到錯誤報文頻率以及丟棄報文頻率每項鏈路指標的得分范圍都在
,因而,收到錯誤報文頻率以及丟棄報文頻率兩項鏈路指標加起來的最高得分是100分,最低得分是O分。參閱圖5,圖5是本發明堆疊系統可靠性提升方法中收到錯誤報文頻率和得分的曲線圖。若收到錯誤報文頻率小于橫坐標M,得分為50分;若收到錯誤報文頻率大于橫坐標N,得分為O分;若收到錯誤報文頻率位于橫坐標(M,N)內,得分在(0,50)區間內,其中,橫坐標M〈橫坐標N。可以理解地,如果不能容忍收到錯誤報文,可以令橫坐標M的數值為零。對于丟棄報文頻率,丟棄報文頻率和得分的曲線圖與收到錯誤報文頻率和得分的曲線圖相近,此處不重復贅述。在分別得到收到錯誤報文頻率以及丟棄報文頻率所對應的得分后,將得分相加,即可得到報文監控得分。 最后,獲得流量監控得分。參閱圖6,圖6是本發明堆疊系統可靠性提升方法中流量速率與流量監控得分的曲線圖。若流量速率小于橫坐標M,流量監控得分為100分;若流量速率大于橫坐標N,得分為O分;若流量速率位于橫坐標(M, N)內,得分在(O, 100)區間內,其中,橫坐標M〈橫坐標N。在獲得介質監控得分、芯片監控得分、報文監控得分以及流量監控得分后,以100分為第一閾值,70分為第二閾值按照下面的標準進行評估如果介質監控得分大于或等于第一閾值,且芯片監控得分大于或等于第一閾值,且報文監控得分大于或等于第一閾值,且流量監控得分大于或等于第一閾值,則將堆疊鏈路評估為5級;如果介質監控得分大于或等于第一閾值,且芯片監控得分大于或等于第一閾值,且報文監控得分大于或等于第一閾值,且流量監控得分小于第一閾值,則將堆疊鏈路評估為4級;如果介質監控得分大于或等于第一閾值,且芯片監控得分大于或等于第一閾值,且報文監控得分小于第一閾值,則將堆疊鏈路評估為3級;如果介質監控得分大于或等于第二閾值并小于第一閾值,或芯片監控得分大于或等于第二閾值并小于第一閾值,則將堆疊鏈路評估為2級;如果介質監控得分小于第二閾值,或芯片監控得分小于第二閾值,則將堆疊鏈路評估為I級。可以理解的是,以100分為第一閾值,70分為第二閾值僅作為其中的一個例子進行舉例,在實際應用中,可以根據技術指標、客戶的要求等等對第一閾值以及第二閾值進行設置。對于評估為5級的堆疊鏈路,指定節點或堆疊主節點在調度時可以優先選擇該堆疊鏈路;對于評估為2級的堆疊鏈路,指定節點或堆疊主節點在調度時可以將該堆疊鏈路進行隔離,并進行自動診斷,給出故障預警;對于評估為I級的堆疊鏈路,指定節點在調度時可以直接對該堆疊鏈路進行隔離,給出故障預警。對于評估為3級或4級的堆疊鏈路,指定節點或堆疊主節點按照等級的高低選擇堆疊鏈路。上述技術方案能夠在故障尚未發生前,通過監控器對指定節點與相鄰節點之間的堆疊鏈路的鏈路指標進行監控,然后根據鏈路指標進行評估,以使指定節點隔離鏈路指標不良的堆疊鏈路,或將評估結果提供給堆疊主節點,堆疊主節點根據評估結果優先選擇鏈路指標良好的堆置鏈路或隔尚鏈路指標不良的堆置鏈路,從而提如規避風險,進而提聞堆疊系統的可靠性。參閱圖7,圖7是本發明監控器一實施方式的結構示意圖。本實施方式的監控器包括監控模塊710、評估模塊720以及提供模塊730。監控模塊710用于監控指定節點與相鄰節點之間的堆疊鏈路的鏈路指標。監控模塊710將鏈路指標向評估模塊720發送,其中,相鄰節點為與指定節點直接連接的堆疊節點。比如,將與監控器直接連接的堆疊節點作為指定節點,并將與指定節點直接連接的堆疊節點作為相鄰節點。監控模塊710監控指定節點與相鄰節點之間的堆疊鏈路的鏈路指標。 其中,鏈路指標包括硬件指標以及軟件指標。評估模塊720用于接收鏈路指標并根據鏈路指標對堆疊鏈路進行評估以獲得評估結果,評估模塊720將評估結果向提供模塊730發送。比如,在獲得鏈路指標后,評估模塊720根據鏈路指標對堆疊鏈路從包括硬件指標和軟件指標的綜合指標上進行評估,從而獲得評估結果。提供模塊730用于接收評估結果并向指定節點或堆疊主節點提供評估結果,以使指定節點或堆疊主節點分別根據評估結果和各自的調度策略進行調度。比如,在獲得評估結果后,如果監控器設置在指定節點的內部,則提供模塊730可直接向指定節點提供評估結果,指定節點根據評估結果和指定節點的調度策略進行調度;如果監控器設置在指定節點的外部,則提供模塊730首先通過傳輸載體向指定節點提供評估結果,指定節點再根據評估結果和指定節點的調度策略進行調度。此外,提供模塊730也可以將評估結果通過指定節點和多個堆疊節點轉發,從而向堆疊主節點提供評估結果,堆疊主節點在接收到評估結果后,根據評估結果和堆疊主節點的調度策略進行調度。具體地,評估模塊720還用于根據介質監控得分、芯片監控得分、報文監控得分以及流量監控得分中的至少一項得分進行評估以獲得評估結果。比如評估模塊720根據工作溫度、工作電流、工作電壓、工作功率以及接收發送信號計算介質監控得分。其中,工作溫度、工作電流、工作電壓、工作功率以及接收發送信號每項鏈路指標的得分范圍都在
,因而,工作溫度、工作電流、工作電壓、工作功率以及接收發送信號五項鏈路指標加起來的最高得分是100分,最低得分是O分。請再次參閱圖3,若工作溫度低于橫坐標Ml或高于橫坐標NI時,評估模塊720評估得分為O分;若工作溫度位于在橫坐標[M2,N2]區間內,評估模塊720評估得分為20分;若工作溫度位于橫坐標(M1,M2)或橫坐標(N2,N1)內,評估模塊720評估得分在(0,20)區間內,其中,橫坐標Ml〈橫坐標M2〈橫坐標N2〈橫坐標NI。工作電流、工作電壓、工作功率以及接收發送信號和得分的曲線圖皆與工作溫度和得分的曲線圖相近,此處不重復贅述。評估模塊720在分別得到工作溫度、工作電流、工作電壓、工作功率以及接收發送信號所對應的得分后,將得分相加,得到介質監控得分。其次,評估模塊720根據誤碼率、物理層可用性檢查、端口閃斷以及以太網轉發芯片可用性計算芯片監控得分。其中,誤碼率、物理層可用性檢查、端口閃斷以及以太網轉發芯片可用性每項鏈路指標的得分范圍都在[O,25],因而,誤碼率、物理層可用性檢查、端口閃斷以及以太網轉發芯片可用性四項鏈路指標加起來的最高得分是100分,最低得分是O分。請再次參閱圖4,若誤碼率小于橫坐標M,評估模塊720評估得分為25分;若誤碼率大于橫坐標N,評估模塊720評估得分為O分;若誤碼率位于橫坐標(M,N)內,評估模塊720評估得分在(0,25)區間內,其中,橫坐標M〈橫坐標N。可以理解地,如果不能容忍有誤碼,可以令橫坐標M的數值為零。對于物理層可用性檢查存在兩個結果,如果物理層可用性檢查結果為可用,評估模塊720評估得分為25分,如果物理層可用性檢查結果為不可用,評估模塊720評估得分為O分。對于端口閃斷,端口閃斷和得分的曲線圖與誤碼率和得分的曲線圖相近,此處不重復贅述。對于以太網轉發芯片可用性,以太網轉發芯片可用性包括控制平面心跳檢測、關鍵表項檢測以及MMU內存故障檢測三項。控制平面心跳檢測通過選擇以太網轉發芯片上一個不影響業務的寄存器進行周期性寫讀操作,如果讀出的值與寫出的值不一致,則控制平面心跳檢測不通過,反之,則控制平面心跳檢測通過;關鍵表項檢測采用奇偶錯誤校驗,如果奇偶錯誤校驗的結果為奇偶錯誤,并向主芯片上報中斷時,則關鍵表項檢測檢測不通過,反之,則關鍵表項檢測通過;MMU內存故障檢測采用奇偶錯誤校驗,如果奇偶錯誤校驗的結果為奇偶錯誤,并向主芯片上報中斷時,則MMU內存故障檢測不通過,反 之,則MMU內存故障檢測通過。只有在控制平面心跳檢測、關鍵表項檢測以及MMU內存故障檢測同時通過時,評估模塊720評估以太網轉發芯片可用性得分為25分,而只要控制平面心跳檢測、關鍵表項檢測以及MMU內存故障檢測任一項不通過時,評估模塊720評估以太網轉發芯片可用性得分為O分。評估模塊720在分別得到誤碼率、物理層可用性檢查、端口閃斷以及以太網轉發芯片可用性所對應的得分后,將得分相加,得到芯片監控得分。然后,評估模塊720根據收到錯誤報文頻率以及丟棄報文頻率計算報文監控得分。其中,收到錯誤報文頻率以及丟棄報文頻率每項鏈路指標的得分范圍都在
,因而,收到錯誤報文頻率以及丟棄報文頻率兩項鏈路指標加起來的最高得分是100分,最低得分是O分。請再次參閱圖5,若收到錯誤報文頻率小于橫坐標M,得分為50分;若收到錯誤報文頻率大于橫坐標N,得分為O分;若收到錯誤報文頻率位于橫坐標(M,N)內,得分在(0,50)區間內,其中,橫坐標M〈橫坐標N。可以理解地,如果不能容忍收到錯誤報文,可以令橫坐標M的數值為零。對于丟棄報文頻率,丟棄報文頻率和得分的曲線圖與收到錯誤報文頻率和得分的曲線圖相近,此處不重復贅述。評估模塊720在分別得到收到錯誤報文頻率以及丟棄報文頻率所對應的得分后,將得分相加,得到報文監控得分。最后,獲得流量監控得分。請再次參閱圖6,若流量速率小于橫坐標M,評估模塊720評估流量監控得分為100分;若流量速率大于橫坐標N,評估模塊720評估得分為O分;若流量速率位于橫坐標(M,N)內,評估模塊720評估得分在(0,100)區間內,其中,橫坐標M<橫坐標N。評估模塊720在獲得介質監控得分、芯片監控得分、報文監控得分以及流量監控得分后,以100分為第一閾值,70分為第二閾值按照下面的標準進行評估在介質監控得分大于或等于第一閾值,且芯片監控得分大于或等于第一閾值,且報文監控得分大于或等于第一閾值,且流量監控得分大于或等于第一閾值時,將堆疊鏈路評估為5級;
在介質監控得分大于或等于第一閾值,且芯片監控得分大于或等于第一閾值,且報文監控得分大于或等于第一閾值,且流量監控得分小于第一閾值時,將堆疊鏈路評估為4級;在介質監控得分大于或等于第一閾值,且芯片監控得分大于或等于第一閾值,且報文監控得分小于第一閾值時,將堆疊鏈路評估為3級;在介質監控得分大于或等于第二閾值并小于第一閾值,或芯片監控得分大于或等于第二閾值并小于第一閾值時,將堆疊鏈路評估為2級;在介質監控得分小于第二閾值,或芯片監控得分小于第二閾值時,將堆疊鏈路評估為I級。可以理解的是,以100分為第一閾值,70分為第二閾值僅作為其中的一個例子進行舉例,在實際應用中,可以根據技術指標、客戶的要求等等對第一閾值以及第二閾值進行 設置。上述技術方案能夠在故障尚未發生前,通過監控器對指定節點與相鄰節點之間的堆疊鏈路的鏈路指標進行監控,然后根據鏈路指標進行評估,以使指定節點隔離鏈路指標不良的堆疊鏈路,或將評估結果提供給堆疊主節點,堆疊主節點根據評估結果優先選擇鏈路指標良好的堆置鏈路或隔尚鏈路指標不良的堆置鏈路,從而提如規避風險,進而提聞堆疊系統的可靠性。參閱圖8,圖8是本發明監控器另一實施方式的結構示意圖。本實施方式的監控器包括處理器810、發送機820以及存儲器830。其中,處理器810分別與發送機820以及存儲器830耦接。處理器810用于監控指定節點與相鄰節點之間的堆疊鏈路的鏈路指標,并根據鏈路指標對堆疊鏈路進行評估以獲得評估結果。處理器810塊將評估結果向發送機820發送。比如,將與監控器直接連接的堆疊節點作為指定節點,并將與指定節點直接連接的堆疊節點作為相鄰節點。處理器810監控指定節點與相鄰節點之間的堆疊鏈路的鏈路指標。其中,鏈路指標包括硬件指標以及軟件指標。處理器810根據介質監控得分、芯片監控得分、報文監控得分以及流量監控得分中的至少一項得分進行評估以獲得評估結果。首先,處理器810根據工作溫度、工作電流、工作電壓、工作功率以及接收發送信號計算介質監控得分。其中,工作溫度、工作電流、工作電壓、工作功率以及接收發送信號每項鏈路指標的得分范圍都在
,因而,工作溫度、工作電流、工作電壓、工作功率以及接收發送信號五項鏈路指標加起來的最高得分是100分,最低得分是O分。請再次參閱圖3,若工作溫度低于橫坐標Ml或高于橫坐標NI時,處理器810評估得分為O分;若工作溫度位于在橫坐標[M2,N2]區間內,處理器810評估得分為20分;若工作溫度位于橫坐標(Ml,M2)或橫坐標(N2,NI)內,處理器810評估得分在(O,20 )區間內,其中,橫坐標Ml〈橫坐標M2〈橫坐標N2〈橫坐標NI。工作電流、工作電壓、工作功率以及接收發送信號和得分的曲線圖皆與工作溫度和得分的曲線圖相近,此處不重復贅述。處理器810在分別得到工作溫度、工作電流、工作電壓、工作功率以及接收發送信號所對應的得分后,將得分相加,得到介質監控得分。其次,處理器810根據誤碼率、物理層可用性檢查、端口閃斷以及以太網轉發芯片可用性計算芯片監控得分。其中,誤碼率、物理層可用性檢查、端口閃斷以及以太網轉發芯片可用性每項鏈路指標的得分范圍都在
,因而,誤碼率、物理層可用性檢查、端口閃斷以及以太網轉發芯片可用性四項鏈路指標加起來的最高得分是100分,最低得分是O分。請再次參閱圖4,若誤碼率小于橫坐標M,處理器810評估得分為25分;若誤碼率大于橫坐標N,處理器810評估得分為O分;若誤碼率位于橫坐標(M,N)內,處理器810評估得分在(0,25)區間內,其中,橫坐標M〈橫坐標N。可以理解地,如果不能容忍有誤碼,可以令橫坐標M的數值為零。對于物理層可用性檢查存在兩個結果,如果物理層可用性檢查結果為可用,處理器810評估得分為25分,如果物理層可用性檢查結果為不可用,處理器810評估得分為O分。對于端口閃斷,端口閃斷和得分的曲線圖與誤碼率和得分的曲線圖相近,此處不重復贅述。對于以太網轉發芯片可用性,以太網轉發芯片可用性包括控制平面心跳檢測、關鍵表項檢測以及MMU內存故障檢測三項。控制平面心跳檢測通過選擇以太網轉發芯片上一個不影響業務的寄存器進行周期性寫讀操作,如果讀出的值與寫出的值不一致,則控制平面心跳檢測不通過,反之,則控制平面心跳檢測通過;關鍵表項檢測采用奇偶錯誤校驗,如果奇偶錯誤校驗的結果為奇偶錯誤,并向主芯片上報中斷時,則關鍵表項檢測檢測不通過,反之,則關鍵表項檢測通過;MMU內存故障檢測采用奇偶錯誤校驗,如果奇偶錯誤校驗的結果為奇偶錯誤,并向主芯片上報中斷時,則MMU內存故障檢測不通過,反之,則MMU內存故障檢測通過。只有在控制平面心跳檢測、關鍵表項檢測以及MMU內存故障檢測同時通過時,處理器810評估以太網轉發芯片可用性得分為25分,而只要控制平面心跳檢測、關鍵表項檢 測以及MMU內存故障檢測任一項不通過時,處理器810評估以太網轉發芯片可用性得分為O分。處理器810在分別得到誤碼率、物理層可用性檢查、端口閃斷以及以太網轉發芯片可用性所對應的得分后,將得分相加,得到芯片監控得分。然后,處理器810根據收到錯誤報文頻率以及丟棄報文頻率計算報文監控得分。其中,收到錯誤報文頻率以及丟棄報文頻率每項鏈路指標的得分范圍都在
,因而,收到錯誤報文頻率以及丟棄報文頻率兩項鏈路指標加起來的最高得分是100分,最低得分是O分。請再次參閱圖5,若收到錯誤報文頻率小于橫坐標M,得分為50分;若收到錯誤報文頻率大于橫坐標N,得分為O分;若收到錯誤報文頻率位于橫坐標(M,N)內,得分在(0,50)區間內,其中,橫坐標M〈橫坐標N。可以理解地,如果不能容忍收到錯誤報文,可以令橫坐標M的數值為零。對于丟棄報文頻率,丟棄報文頻率和得分的曲線圖與收到錯誤報文頻率和得分的曲線圖相近,此處不重復贅述。處理器810在分別得到收到錯誤報文頻率以及丟棄報文頻率所對應的得分后,將得分相加,得到報文監控得分。最后,獲得流量監控得分。請再次參閱圖6,若流量速率小于橫坐標M,處理器810評估流量監控得分為100分;若流量速率大于橫坐標N,處理器810評估得分為O分;若流量速率位于橫坐標(M,N)內,處理器810評估得分在(0,100)區間內,其中,橫坐標M〈橫坐標N。處理器810在獲得介質監控得分、芯片監控得分、報文監控得分以及流量監控得分后,以100分為第一閾值,70分為第二閾值按照下面的標準進行評估在介質監控得分大于或等于第一閾值,且芯片監控得分大于或等于第一閾值,且報文監控得分大于或等于第一閾值,且流量監控得分大于或等于第一閾值時,將堆疊鏈路評估為5級;在介質監控得分大于或等于第一閾值,且芯片監控得分大于或等于第一閾值,且報文監控得分大于或等于第一閾值,且流量監控得分小于第一閾值時,將堆疊鏈路評估為4級;在介質監控得分大于或等于第一閾值,且芯片監控得分大于或等于第一閾值,且報文監控得分小于第一閾值時,將堆疊鏈路評估為3級;在介質監控得分大于或等于第二閾值并小于第一閾值,或芯片監控得分大于或等于第二閾值并小于第一閾值時,將堆疊鏈路評估為2級;在介質監控得分小于第二閾值,或芯片監控得分小于第二閾值時,將堆疊鏈路評估為I級。可以理解的是,以100分為第一閾值,70分為第二閾值僅作為其中的一個例子進行舉例,在實際應用中,可以根據技術指標、客戶的要求等等對第一閾值以及第二閾值進行 設置。發送機820用于接收評估結果并向指定節點或堆疊主節點提供評估結果,以使指定節點或堆疊主節點分別根據評估結果和各自的調度策略進行調度。比如,在獲得評估結果后,如果監控器設置在指定節點的內部,則發送機820可直接向指定節點提供評估結果,指定節點根據評估結果和指定節點的調度策略進行調度;如果監控器設置在指定節點的外部,則發送機820首先通過傳輸載體向指定節點提供評估結果,指定節點再根據評估結果和指定節點的調度策略進行調度。此外,發送機820也可以將評估結果通過指定節點和多個堆疊節點轉發,從而向堆疊主節點提供評估結果,堆疊主節點在接收到評估結果后,根據評估結果和堆疊主節點的調度策略進行調度。對于評估為5級的堆疊鏈路,指定節點或堆疊主節點在調度時可以優先選擇該堆疊鏈路;對于評估為2級的堆疊鏈路,指定節點或堆疊主節點在調度時可以將該堆疊鏈路進行隔離,并進行自動診斷,給出故障預警;對于評估為I級的堆疊鏈路,指定節點在調度時可以直接對該堆疊鏈路進行隔離,給出故障預警。對于評估為3級或4級的堆疊鏈路,指定節點或堆疊主節點按照等級的高低選擇堆疊鏈路。存儲器830用于存儲相關的例程以及數據。上述技術方案能夠在故障尚未發生前,通過監控器對指定節點與相鄰節點之間的堆疊鏈路的鏈路指標進行監控,然后根據鏈路指標進行評估,以使指定節點隔離鏈路指標不良的堆疊鏈路,或將評估結果提供給堆疊主節點,堆疊主節點根據評估結果優先選擇鏈路指標良好的堆置鏈路或隔尚鏈路指標不良的堆置鏈路,從而提如規避風險,進而提聞堆疊系統的可靠性。基于上述的監控器,本申請還提出了一種堆疊系統,包括多個監控器、多個堆疊節點與至少一個堆疊主節點,堆疊節點與堆疊主節點之間拓撲連接,其中,一個監控器監控一個堆疊節點或一個堆疊主節點。所述堆疊系統的具體結構見圖I及相關描述,此處不重復贅述。在本申請所提供的幾個實施方式中,應該理解到,所揭露的系統,裝置和方法,可以通過其它的方式實現。例如,以上所描述的裝置實施方式僅僅是示意性的,例如,所述模塊或單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特征可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施方式方案的目的。另外,在本申請各個實施方式中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現,也可以采用軟件功能單元的形式實現。所述集成的單元如果以軟件功能單元的形式實現并作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中。基于這樣的理解,本申請的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)或處理器(processor)執行本申請各個實施方式所述方法的全部或部分步驟。而前述的存儲介質包括U盤、移動硬盤、只讀存儲器(ROM, Read-Only Memory)、隨機存取存儲器(RAM, Random Access Memory)、磁碟或者光 盤等各種可以存儲程序代碼的介質。
權利要求
1.一種堆疊系統可靠性提升方法,其特征在于,包括如下步驟 監控指定節點與相鄰節點之間的堆疊鏈路的鏈路指標,其中,所述相鄰節點為與所述指定節點直接連接的堆疊節點; 根據所述鏈路指標對所述堆疊鏈路進行評估以獲得評估結果; 向所述指定節點或堆疊主節點提供所述評估結果,以使所述指定節點或所述堆疊主節點分別根據所述評估結果和各自的調度策略進行調度。
2.根據權利要求I所述的方法,其特征在于,所述根據鏈路指標對堆疊鏈路進行評估以獲得評估結果的步驟包括根據介質監控得分、芯片監控得分、報文監控得分以及流量監控得分中的至少一項得分進行評估以獲得評估結果。
3.根據權利要求2所述的方法,其特征在于,所述根據介質監控得分、芯片監控得分、報文監控得分以及流量監控得分中的至少一項得分進行評估以獲得評估結果的步驟包括 如果所述介質監控得分大于或等于第一閾值,且所述芯片監控得分大于或等于第一閾值,且所述報文監控得分大于或等于第一閾值,且流量監控得分大于或等于第一閾值,則將所述堆疊鏈路評估為5級; 如果所述介質監控得分大于或等于第一閾值,且所述芯片監控得分大于或等于第一閾值,且所述報文監控得分大于或等于第一閾值,且所述流量監控得分小于第一閾值,則將所述堆疊鏈路評估為4級; 如果所述介質監控得分大于或等于第一閾值,且所述芯片監控得分大于或等于第一閾值,且所述報文監控得分小于第一閾值,則將所述堆疊鏈路評估為3級; 如果所述介質監控得分大于或等于第二閾值并小于第一閾值,或所述芯片監控得分大于或等于第二閾值并小于第一閾值,則將所述堆疊鏈路評估為2級; 如果所述介質監控得分小于第二閾值,或所述芯片監控得分小于第二閾值,則將所述堆疊鏈路評估為I級。
4.根據權利要求2或3所述的方法,其特征在于,所述根據介質監控得分、芯片監控得分、報文監控得分以及流量監控得分中的至少一項得分進行評估以獲得評估結果步驟之前包括 根據工作溫度、工作電流、工作電壓、工作功率以及接收發送信號計算所述介質監控得分。
5.根據權利要求2或3所述的方法,其特征在于,所述根據介質監控得分、芯片監控得分、報文監控得分以及流量監控得分中的至少一項得分進行評估以獲得評估結果步驟之前包括 根據誤碼率、物理層可用性檢查、端口閃斷以及以太網轉發芯片可用性計算所述芯片監控得分。
6.根據權利要求2或3所述的方法,其特征在于,所述根據介質監控得分、芯片監控得分、報文監控得分以及流量監控得分中的至少一項得分進行評估以獲得評估結果步驟之前包括 根據收到錯誤報文頻率以及丟棄報文頻率計算所述報文監控得分。
7.—種監控器,其特征在于,所述監控器包括監控模塊、評估模塊以及提供模塊;所述監控模塊用于監控指定節點與相鄰節點之間的堆疊鏈路的鏈路指標,所述監控模塊將所述鏈路指標向所述評估模塊發送,其中,所述相鄰節點為與所述指定節點直接連接的堆疊節點; 所述評估模塊用于接收鏈路指標并根據所述鏈路指標對所述堆疊鏈路進行評估以獲得評估結果,所述評估模塊將所述評估結果向所述提供模塊發送; 所述提供模塊用于接收所述評估結果并向所述指定節點或堆疊主節點提供所述評估結果,以使所述指定節點或所述堆疊主節點分別根據所述評估結果和各自的調度策略進行調度。
8.根據權利要求7所述的監控器,其特征在于,所述評估模塊用于根據介質監控得分、芯片監控得分、報文監控得分以及流量監控得分中的至少一項得分進行評估以獲得評估結果O
9.根據權利要求8所述的監控器,其特征在于,所述評估模塊用于在所述介質監控得分大于或等于第一閾值,且所述芯片監控得分大于或等于第一閾值,且所述報文監控得分大于或等于第一閾值,且流量監控得分大于或等于第一閾值時,將所述堆疊鏈路評估為5級;在所述介質監控得分大于或等于第一閾值,且所述芯片監控得分大于或等于第一閾值,且所述報文監控得分大于或等于第一閾值,且所述流量監控得分小于第一閾值時,將所述堆疊鏈路評估為4級;在所述介質監控得分大于或等于第一閾值,且所述芯片監控得分大于或等于第一閾值,且所述報文監控得分小于第一閾值時,將所述堆疊鏈路評估為3級;在所述介質監控得分大于或等于第二閾值并小于第一閾值,或所述芯片監控得分大于或等于第二閾值并小于第一閾值時,將所述堆疊鏈路評估為2級;在所述介質監控得分小于第二閾值,或所述芯片監控得分小于第二閾值時,將所述堆疊鏈路評估為I級。
10.根據權利要求8或9所述的監控器,其特征在于,所述評估模塊用于根據工作溫度、工作電流、工作電壓、工作功率以及接收發送信號計算所述介質監控得分。
11.根據權利要求8或9所述的監控器,其特征在于,所述評估模塊用于根據誤碼率、物理層可用性檢查、端口閃斷以及以太網轉發芯片可用性計算所述芯片監控得分。
12.根據權利要求8或9所述的監控器,其特征在于,所述評估模塊用于根據收到錯誤報文頻率以及丟棄報文頻率計算所述報文監控得分。
13.一種堆疊系統,其特征在于,包括多個監控器、至少一個堆疊節點,以及堆疊主節點,所述堆疊節點與所述堆疊主節點之間拓撲連接,其中,一個監控器監控一個堆疊節點或一個堆疊主節點,所述監控器為如權利要求7-12任一權利要求所述的監控器。
全文摘要
本申請公開了一種堆疊系統可靠性提升方法,包括如下步驟監控器監控指定節點與相鄰節點之間的堆疊鏈路的鏈路指標,其中,相鄰節點為與指定節點直接連接的堆疊節點;根據鏈路指標對堆疊鏈路進行評估以獲得評估結果;向指定節點或堆疊主節點提供評估結果,以使指定節點或堆疊主節點分別根據所述評估結果和各自的調度策略進行調度。上述技術方案能夠在故障尚未發生前,通過監控器對指定節點與相鄰節點之間的堆疊鏈路的鏈路指標進行監控,然后根據鏈路指標進行評估,以使指定節點和堆疊主節點分別根據評估結果和各自的調度策略進行調度,提升堆疊系統的可靠性。
文檔編號H04L12/861GK102904778SQ20121041753
公開日2013年1月30日 申請日期2012年10月26日 優先權日2012年10月26日
發明者劉建國, 曹同強, 龔建新, 羅楓, 張鵬飛, 高紅彥, 付金成 申請人:華為技術有限公司