一種檢測線卡故障重起的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種檢測線卡故障重起的方法及系統(tǒng),該方法主要包括:線卡物理插入后,主控卡周期的向線卡發(fā)送第一?;顖笪?,所述線卡啟動后,能夠接收到主控卡向所述線卡發(fā)送的第一?;顖笪暮?,所述線卡向主控卡發(fā)送第二?;顖笪模凰鲋骺乜ń邮站€卡發(fā)送的第二?;顖笪?,并對第二?;顖笪倪M行處理,判斷線卡是否故障重起;若主控卡判斷線卡故障重起,則主控卡對線卡進行重新配置。該方法及系統(tǒng)實現(xiàn)過程簡單易于在實際應用中進行操作,而且能夠適用于一張主控卡與多張線卡組成的分布式數(shù)據(jù)通信設備,可以提高分布式設備的可靠性;并且該方法及系統(tǒng)也能夠應用于堆疊、集群等計算機系統(tǒng)。
【專利說明】一種檢測線卡故障重起的方法及系統(tǒng)
【技術領域】
[0001]本發(fā)明屬于分布式計算機系統(tǒng)中線卡故障檢測【技術領域】,具體是一種檢測線卡故障重起的方法及系統(tǒng)設計。
【背景技術】
[0002]分布式計算機系統(tǒng)中,具有相互配合的多個用于線路處理的線卡,它們均由主控卡進行控制,對于數(shù)據(jù)通信設備而言,線卡就是處理鏈路層、網(wǎng)絡層、路由協(xié)議和轉(zhuǎn)發(fā)功能的處理單元。在分布式路由交換設備中,如果線卡由于自身軟硬件故障重起,而主控卡沒有檢測到該故障,則線卡重起后由于沒有轉(zhuǎn)發(fā)表等資源,導致網(wǎng)絡通信中斷,對于這樣的故障,主控卡必須重新加載該線卡才能恢復通信。
[0003]在現(xiàn)有技術中,一般使用?;畋N臋z測線卡故障,其判斷線卡故障的方法為:若主控卡接收線卡的?;顖笪某瑫r,則認為線卡發(fā)生故障。在實際使用環(huán)境中,如果主控卡和線卡之間的通信通道出現(xiàn)故障,則主控卡接收線卡的?;顖笪目赡艹瑫r,此時需要對通信通道進行修復;如果線卡上的CPU —段時間比較忙,以后又恢復正常,則主控卡接收線卡保活報文也可能超時,此類故障不需要修復通信通道,也不需要重新加載線卡。因此,超時的方法檢測到的不僅僅是主控卡和線卡之間的通信通道故障,還包括CPU自動重起的故障。另夕卜,如果線卡在主控卡接收?;顖笪奈闯瑫r就故障重起完成,則?;顖笪某瑫r的方法就不能檢測到線卡故障重起的這類故障。
【發(fā)明內(nèi)容】
[0004]本發(fā)明所要解決的技術問題是為了解決現(xiàn)有技術中檢測線卡故障重起不準確的問題而提出一種檢測線卡故障重起的方法及系統(tǒng)。
[0005]本發(fā)明解決其技術問題采用的技術方案是:一種檢測線卡故障重起的方法,包括如下步驟:
[0006]S1、線卡物理插入后,主控卡周期的向線卡發(fā)送第一?;顖笪模?br>
[0007]S2、所述線卡啟動后,接收到主控卡發(fā)送的第一保活報文后,向所述主控卡發(fā)送第二?;顖笪?;
[0008]S3、所述主控卡接收到線卡發(fā)送的第二保活報文后,對所述第二?;顖笪倪M行處理,以判斷所述線卡是否故障重起,若判斷所述線卡故障重起,則對所述線卡進行重新配置。
[0009]進一步的,主控卡根據(jù)保存的線卡狀態(tài)參數(shù)、第二保活報文的數(shù)量以及所述第二?;顖笪闹芯€卡啟動狀態(tài)參數(shù)來判斷對應的線卡是否故障重起。
[0010]進一步的,所述主控卡中設置一個線卡狀態(tài)參數(shù),用于記錄線卡的在位狀態(tài);當線卡處于不在位狀態(tài)時,設置線卡狀態(tài)參數(shù)為第一參數(shù)值;當線卡處于在位狀態(tài)時,設置線卡狀態(tài)參數(shù)為第二參數(shù)值。
[0011]更進一步的,在步驟S2中,所述線卡啟動后,主控卡中設置一個對應的保活報文計數(shù)器,用于記錄主控卡接收到的該線卡發(fā)出的第二保活報文的數(shù)量;當所述線卡處于不在位狀態(tài)時,設置對應的保活報文計數(shù)器的值為O ;當所述線卡處于在位狀態(tài)時,主控卡每接收到線卡發(fā)送的一個第二保活報文,所述?;顖笪挠嫈?shù)器的值加I。
[0012]更進一步的,所述第二保活報文中包括一個線卡啟動狀態(tài)參數(shù),當所述線卡啟動未完成時,設置線卡啟動狀態(tài)參數(shù)為第三參數(shù)值;當所述線卡啟動完成時,設置線卡啟動狀態(tài)參數(shù)為第四參數(shù)值。
[0013]進一步的,所述步驟S3具體為:所述主控卡接收線卡發(fā)送的第二?;顖笪模崛〉诙;顖笪闹械木€卡啟動狀態(tài)參數(shù),若提取出的線卡啟動狀態(tài)參數(shù)為第三參數(shù)值,且主控卡中對應的線卡狀態(tài)參數(shù)為第二參數(shù)值,并且?;顖笪挠嫈?shù)器的值大于預設值N,則判斷線卡為故障重起。
[0014]進一步的,所述步驟S3中,若主控卡判斷線卡故障重起,則主控卡按照其保存的線卡配置對線卡進行重新配置。
[0015]本發(fā)明為解決技術問題還提供了一種檢測線卡故障重起的系統(tǒng),具體包括:具體包括主控卡和至少一個線卡,所述主控卡包括第一?;顖笪氖瞻l(fā)單元和故障重起判斷單元;所述至少一個線卡包括第二?;顖笪氖瞻l(fā)單元;
[0016]所述第一保活收發(fā)單元,用于在檢測到某一線卡物理插入后,周期的向所述線卡發(fā)送第一保活報文;并用于接收線卡發(fā)送至主控卡的第二保活報文并對接收的第二保活報文進行處理,
[0017]所述第二保活報文收發(fā)單元,用于在所述線卡啟動后,接收主控卡發(fā)送的第一保活報文,并在接收到主控卡發(fā)送的第一?;顖笪暮螅蛩鲋骺乜òl(fā)送第二保活報文,
[0018]所述故障重起判斷單元,用于判斷線卡是否故障重起。
[0019]進一步的,所述故障重起判斷單元,還用于通過主控卡中保存的線卡狀態(tài)參數(shù)、保活報文的數(shù)量以及所述保活報文中線卡啟動狀態(tài)參數(shù)判斷線卡是否故障重起。
[0020]進一步的,所述主控卡還包括一個?;顖笪挠嫈?shù)單元,所述?;顖笪挠嫈?shù)單元中設置一個保活報文計數(shù)器,用于記錄主控卡接收到的第二保活報文的數(shù)量;當所述線卡處于不在位狀態(tài)時,設置對應的保活報文計數(shù)器的值為O ;當所述線卡處于在位狀態(tài)時,主控卡每接收到線卡發(fā)送的一個第二?;顖笪模瑢⑺鰧谋;顖笪挠嫈?shù)器的值加I。
[0021]本發(fā)明的有益效果:本發(fā)明提供一種使用?;顖笪臋z測線卡故障重起的方法及系統(tǒng)通過發(fā)送保活報文,并且在主控卡一端對?;顖笪陌l(fā)送數(shù)量進行記錄及提取保活報文中攜帶的線卡啟動狀態(tài),從而可以準確判斷出線卡是否出現(xiàn)故障重起的問題,其實現(xiàn)過程簡單易于在實際應用中進行操作,而且能夠適用于一張主控卡與多張線卡組成的分布式數(shù)據(jù)通信設備,可以提高分布式設備的可靠性;并且該方法及系統(tǒng)也能夠應用于堆疊、集群等計算機系統(tǒng)。
【專利附圖】
【附圖說明】
[0022]圖1所示為本發(fā)明實施例的一種檢測線卡故障重起的方法的流程框圖;
[0023]圖2所示為本發(fā)明實施例的一種檢測線卡故障重起的系統(tǒng)的結構框圖。
【具體實施方式】[0024]下面結合附圖和具體的實施例對本發(fā)明作進一步的闡述。
[0025]如圖1所示為本發(fā)明實施例的一種檢測線卡故障重起的方法的流程框圖,包括如下步驟:
[0026]S1、線卡物理插入后,主控卡周期的向線卡發(fā)送第一?;顖笪?;
[0027]S2、所述線卡啟動后,接收到主控卡發(fā)送的第一?;顖笪暮?,向所述主控卡發(fā)送第二保活報文;
[0028]S3、所述主控卡接收到線卡發(fā)送的第二?;顖笪暮螅瑢λ龅诙;顖笪倪M行處理,以判斷所述線卡是否故障重起;若判斷所述線卡故障重起,則對所述線卡進行重新配置。
[0029]其中,線卡啟動后,在能夠接收到主控卡的第一?;顖笪牡幕A上,所述線卡通過卡間通信通道向主控卡發(fā)送第二?;顖笪模骺乜ǜ鶕?jù)接收的第二保活報文以及其他狀態(tài)參數(shù)來判斷線卡是否故障重起,本發(fā)明在現(xiàn)有?;顖笪臋z測基礎上進行改進,可以準確檢測出線卡是否故障重起,以保證主控卡能夠及時對線卡進行重新配置,提高了分布式設備的可靠性。為了本領域技術人員能夠理解并且實施本發(fā)明技術方案,下面將對主控卡如何判斷線卡是否故障重起的過程進行詳細描述。
[0030]為了本領域技術人員能夠理解并且實施本發(fā)明技術方案,下面將對主控卡如何判斷線卡故障重起的過程進行詳細闡述:
[0031]所述主控卡根據(jù)主控卡中保存的線卡狀態(tài)參數(shù)、第二?;顖笪牡臄?shù)量以及所述第二保活報文中線卡啟動狀態(tài)參數(shù)判斷線卡是否故障重起。
[0032]其中,所述主控卡中設置一個線卡狀態(tài)參數(shù),用于記錄線卡處于在位狀態(tài)或者不在位狀態(tài);當線卡處于不在位狀態(tài)時,設置線卡狀態(tài)參數(shù)為第一參數(shù)值,所述線卡處于不在位狀態(tài)可以是主控卡初始化或者線卡被拔出時;當線卡處于在位狀態(tài)時,設置線卡狀態(tài)參數(shù)為第二參數(shù)值。所述第一參數(shù)值和第二參數(shù)值在此不作限定,只要可以唯一確定線卡的狀態(tài)即可。
[0033]所述線卡啟動后,主控卡中設置一個?;顖笪挠嫈?shù)器,用于記錄主控卡接收到的第二?;顖笪牡臄?shù)量,該?;顖笪挠嫈?shù)器接收到的?;顖笪牡臄?shù)量采用一變量表示;當所述線卡處于不在位狀態(tài)時,設置保活報文計數(shù)器的值為O ;當所述線卡處于在位狀態(tài)時,主控卡每接收到線卡發(fā)送的一個第二?;顖笪?,?;顖笪挠嫈?shù)器的值加I。
[0034]所述?;顖笪闹邪ㄒ粋€線卡啟動狀態(tài)參數(shù)的字段,當所述線卡啟動未完成時,設置線卡啟動狀態(tài)參數(shù)為第三參數(shù)值;當所述線卡啟動完成時,設置線卡啟動狀態(tài)參數(shù)為第四參數(shù)值。所述第三參數(shù)值和第四參數(shù)值在此不作限定,只要可以唯一確定線卡的啟動狀態(tài)即可。
[0035]所述步驟S3的具體過程為:所述主控卡接收線卡發(fā)送的第二?;顖笪?,提取第二保活報文中的線卡啟動狀態(tài)參數(shù),當主控卡中線卡狀態(tài)參數(shù)為第二參數(shù)值,并且保活報文計數(shù)器的值大于預設值N,以及接收到的第二?;顖笪闹芯€卡啟動狀態(tài)參數(shù)為第三參數(shù)值時,則判斷線卡為故障重起。若主控卡判斷線卡為故障重起,則主控卡根據(jù)其保存的線卡配置對線卡進行重新配置,以使線卡上的配置和主控卡關于該線卡的配置保持一致。
[0036]同時,基于上述方法,本發(fā)明還提供了一種具體包括主控卡和至少一個線卡,所述主控卡包括第一?;顖笪氖瞻l(fā)單元和故障重起判斷單元;所述至少一個線卡包括第二?;顖笪氖瞻l(fā)單元;所述第一?;钍瞻l(fā)單元,用于在檢測到某一線卡物理插入后,周期的向所述線卡發(fā)送第一保活報文;并用于接收線卡發(fā)送至主控卡的第二?;顖笪牟邮盏牡诙;顖笪倪M行處理,所述第二?;顖笪氖瞻l(fā)單元,用于在所述線卡啟動后,接收主控卡發(fā)送的第一保活報文,并在接收到主控卡發(fā)送的第一?;顖笪暮螅蛩鲋骺乜òl(fā)送第二?;顖笪?,所述故障重起判斷單元,用于判斷線卡是否故障重起。
[0037]其中,所述故障重起判斷單元,還用于通過主控卡中保存的線卡狀態(tài)參數(shù)、?;顖笪牡臄?shù)量以及所述保活報文中線卡啟動狀態(tài)參數(shù)判斷線卡是否故障重起。所述主控卡還包括一個保活報文計數(shù)單元,所述?;顖笪挠嫈?shù)單元中設置一個?;顖笪挠嫈?shù)器,用于記錄主控卡接收到的第二?;顖笪牡臄?shù)量;當所述線卡處于不在位狀態(tài)時,設置對應的保活報文計數(shù)器的值為O ;當所述線卡處于在位狀態(tài)時,主控卡每接收到線卡發(fā)送的一個第二保活報文,將所述對應的保活報文計數(shù)器的值加I。
[0038]另外,本發(fā)明一種檢測線卡故障重起的方法除了能夠應用于一張主控卡和一張線卡組成的分布式數(shù)據(jù)通信設備以外,還能夠適用于一張主控卡和多張線卡組成的分布式數(shù)據(jù)通信設備,能夠準確檢測出多張線卡中是否有線卡出現(xiàn)了故障重起的問題,其具體過程與上述過程類似,主控卡通過判斷接收的?;顖笪膩碜阅膫€對應的保活報文通道,即可判斷出對應的線卡是否出現(xiàn)故障重起問題,在本發(fā)明方案中不再作詳細描述。
[0039]本領域的普通技術人員將會意識到,這里所述的實施例是為了幫助讀者理解本發(fā)明的原理,應被理解為本發(fā)明的保護范圍并不局限于這樣的特別陳述和實施例。本領域的普通技術人員可以根據(jù)本發(fā)明公開的這些技術啟示做出各種不脫離本發(fā)明實質(zhì)的其它各種具體變形和組合,這些變形和組合仍然在本發(fā)明的保護范圍內(nèi)。
【權利要求】
1.一種檢測線卡故障重起的方法,其特征在于,包括如下步驟: 51、線卡物理插入后,主控卡周期的向線卡發(fā)送第一?;顖笪?; 52、所述線卡啟動后,接收到主控卡發(fā)送的第一?;顖笪暮?,向所述主控卡發(fā)送第二?;顖笪?; 53、所述主控卡接收到線卡發(fā)送的第二?;顖笪暮?,對所述第二?;顖笪倪M行處理,以判斷所述線卡是否故障重起;若判斷所述線卡故障重起,則對所述線卡進行重新配置。
2.如權利要求1所述的方法,其特征在于,所述步驟S3中,主控卡根據(jù)保存的線卡狀態(tài)參數(shù)、第二保活報文的數(shù)量以及所述第二?;顖笪闹芯€卡啟動狀態(tài)參數(shù)來判斷對應的線卡是否故障重起。
3.如權利要求2所述的方法,其特征在于,所述主控卡中設置一個線卡狀態(tài)參數(shù),用于記錄線卡的在位狀態(tài);當線卡處于不在位狀態(tài)時,設置線卡狀態(tài)參數(shù)為第一參數(shù)值;當線卡處于在位狀態(tài)時,設置線卡狀態(tài)參數(shù)為第二參數(shù)值。
4.如權利要求1-3任一項所述的方法,其特征在于,在步驟S2中,所述線卡啟動后,主控卡中設置一個對應的保活報文計數(shù)器,用于記錄主控卡接收到的該線卡發(fā)出的第二?;顖笪牡臄?shù)量;當所述線卡處于不在位狀態(tài)時,設置對應的保活報文計數(shù)器的值為O ;當所述線卡處于在位狀態(tài)時,主控卡每接收到線卡發(fā)送的一個第二?;顖笪?,所述?;顖笪挠嫈?shù)器的值加I。
5.如權利要求1所述的方法,其特征在于,所述第二?;顖笪闹邪ㄒ粋€線卡啟動狀態(tài)參數(shù),當所述線卡啟動未完成時,設置線卡啟動狀態(tài)參數(shù)為第三參數(shù)值;當所述線卡啟動完成時,設置線卡啟動狀態(tài)參數(shù)為第四參數(shù)值。
6.如權利要求5所述的方法,其特征在于,所述步驟S3具體為:所述主控卡接收線卡發(fā)送的第二?;顖笪?,提取第二?;顖笪闹械木€卡啟動狀態(tài)參數(shù),若提取出的線卡啟動狀態(tài)參數(shù)為第三參數(shù)值,且主控卡中對應的線卡狀態(tài)參數(shù)為第二參數(shù)值,并且?;顖笪挠嫈?shù)器的值大于預設值N,則判斷線卡為故障重起。
7.如權利要求1所述的方法,其特征在于,所述步驟S3中,若主控卡判斷線卡故障重起,則主控卡按照其保存的線卡配置對線卡進行重新配置。
8.—種檢測線卡故障重起的系統(tǒng),其特征在于,具體包括主控卡和至少一個線卡,所述主控卡包括第一?;顖笪氖瞻l(fā)單元和故障重起判斷單元;所述至少一個線卡包括第二?;顖笪氖瞻l(fā)單元; 所述第一?;钍瞻l(fā)單元,用于在檢測到某一線卡物理插入后,周期的向所述線卡發(fā)送第一保活報文;并用于接收線卡發(fā)送至主控卡的第二?;顖笪牟邮盏牡诙;顖笪倪M行處理, 所述第二?;顖笪氖瞻l(fā)單元,用于在所述線卡啟動后,接收主控卡發(fā)送的第一?;顖笪模⒃诮邮盏街骺乜òl(fā)送的第一?;顖笪暮?,向所述主控卡發(fā)送第二保活報文, 所述故障重起判斷單元,用于判斷線卡是否故障重起。
9.如權利要求8所述的系統(tǒng),其特征在于,所述故障重起判斷單元,還用于通過主控卡中保存的線卡狀態(tài)參數(shù)、?;顖笪牡臄?shù)量以及所述保活報文中線卡啟動狀態(tài)參數(shù)判斷線卡是否故障重起。
10.如權利要求9所述的系統(tǒng),其特征在于,所述主控卡還包括一個保活報文計數(shù)單元,所述?;顖笪挠嫈?shù)單元中設置一個?;顖笪挠嫈?shù)器,用于記錄主控卡接收到的第二?;顖笪牡臄?shù)量;當所述線卡處于不在位狀態(tài)時,設置對應的?;顖笪挠嫈?shù)器的值為O ;當所述線卡處于在位狀態(tài) 時,主控卡每接收到線卡發(fā)送的一個第二保活報文,將所述對應的?;顖笪挠嫈?shù)器的值加I。
【文檔編號】H04L12/26GK103746842SQ201310750058
【公開日】2014年4月23日 申請日期:2013年12月31日 優(yōu)先權日:2013年12月31日
【發(fā)明者】何三波 申請人:邁普通信技術股份有限公司