一種提升可用性的監控對容錯系統余度管理方法
【技術領域】
[0001 ]本技術屬高可靠機載容錯計算機技術及應用。
【背景技術】
[0002]長航時無人飛行器有著飛行時間長,可靠性與可用性要求高的特點。通常提高工 作可靠性與可用性通常采用具有容錯能力的多節點容錯計算機實現對核心功能的可靠執 行,如具有一次故障安全的雙節點容錯計算機,一次故障/工作能力的三節點容錯計算機、 二次故障/工作能力的四節點容錯計算機等,容錯是利用冗余的元件或者部件來屏蔽已發 生故障對系統產生的影響,但它需要增加系統內軟件和硬件的資源開銷。所以故障容錯可 定義為:若一個系統在出現運行性故障時,能依靠系統內駐的能力來保持系統連續正確地 執行其預定的流程和輸入輸出功能,這個系統稱作故障容錯系統。
[0003]飛行控制與管理計算機系統的余度管理是容錯關鍵技術之一。余度管理的基本功 能是檢測計算機的故障及隔離故障部件,另外還應負責故障的復位、故障記錄、申報和處理 等功能。余度管理是通過監控和表決余度信號來實現的。在信息正確的基礎上,可使任何已 故障的子系統從系統中隔離。余度管理是建立在容錯構型的基礎上對所有余度通道均采用 相同的工作程序,從而,余度管理均采用了相同的輸入、相同的處理和計算,具有相同的輸 出。
【發明內容】
[0004] 為了解決【背景技術】中所存在的技術問題,本發明提供一種提高系統可用性的余度 管理方法。該方法在基于故障靜默的容錯基礎上結合系統的可用性需求,針對故障靜默容 錯方式系統降級過快的缺點,通過增加容錯層級,增加系統可恢復能力,改進了基于監控對 容錯的多節點故障邏輯,實現新的高可用性余度管理方法。
[0005] 本發明的技術解決方案是:一種提升可用性的監控對容錯系統余度管理方法,其 特征在于:所述方法包括以下步驟:
[0006] 1)節點內表決監控
[0007] 1.1)狀態信號一致性比較監控,對離散量、數字狀態量信號采取一致性監控,A控 制器與B控制器比較一致,選擇A控制器數據進入節點級表決監控;
[0008] 1.2)非狀態信號門限比較監控,對模擬量信號、數字量還原的非狀態信號采取設 置門限方式的比較監控,當A控制器與B控制器的差值絕對值小于門限值,認為節點內比較 一致,選擇A控制器數據進入節點級表決監控;
[0009] 1.3)當步驟1.1)和步驟1.2)出現比較不一致時,記錄為故障狀態,置該節點為問 題節點,分別選擇A控制器數據和B控制器數據進入節點級表決監控;
[0010] 2)節點級表決監控
[0011] 2.1)狀態指示信號,當三節點的狀態指示信號比較一致時,表決值取采樣值;
[0012] 2.2)進行非狀態信號三節點表決;
[0013] 三信號中選擇中值,作為監控的基準值,如果其他兩非中值信號與中值信號之間 的差在門限范圍內,則該非中值信號為正常,否則該非中值信號為故障;
[0014] 若兩個非中值信號與中值信號之差均超過門限,則形成1:1:1的奇異故障,認為信 號均故障;
[0015] 若其中一個非中值信號與中值信號之差超過門限,另外一個非中值信號與中值信 號之差在監控門限之內,形成2:1的情況,判定超出監控門限的為故障,另一個非中值信號 為正常。
[0016] 上述方法還包括
[0017] 3)故障檢測、故障隔離、故障重構策略;
[0018] 3.1)當出現節點內比較不一致時,置為問題節點,使用問題節點A控制器數據參與 節點間的表決監控,監控到該A控制器數據故障時,認為問題節點A控制器故障,進行重構, 問題節點B控制器參與節點間的表決監控;
[0019] 當問題節點A控制器正常,B控制器故障,則置問題節點B控制器故障,由A控制器單 獨參與節點間的表決監控,此時三節點間均正常工作,余度不降級;
[0020] 3.2)當節點內比較一致,節點間三余度監控出現某一節點故障,則判定為該節點 失效,置該節點失效,放棄對系統的控制權,系統余度降級為2節點;
[0021] 3.3)系統降級為兩節點后,節點內比較監控策略不變,節點間比較不一致時,降級 策略為:出現問題節點的首先降級,未出現問題節點的不降級;當無問題節點仍出現節點比 較不一致時,缺省使用當前控制節點,剔除故障節點。
[0022]本發明的優點是:
[0023] 1)本余度管理方法實現基于監控對的容錯三節點、雙節點容錯計算機的冗余管 理;
[0024] 2)本方法能夠確保節點容錯計算機系統系統數據的可信,在飛行控制與管理等領 域的應用有效性;
[0025] 3)本方法比基于故障靜默的監控對容錯減緩了系統的余度降級,通過軟硬件結合 方式,當某一節點內發生一次故障時,實現備份控制器可重構為主控制器,保證了系統的不 降級;
[0026] 4)本方法提高了基于監控對容錯系統的可靠性與可用性,再考慮安全的同時,增 加了容錯方式的靈活性;
[0027] 5)本方法采用節點內監控、節點間監控的兩級監控方式,確保了數據有效可信;
[0028] 6)本方法對故障的檢測準確,可實現對故障的重構隔離;
[0029] 7)本方法實現簡潔,具有較好的擴展應用,可實現對雙節點,四節點的容錯系統使 用。
[0030] 8)本方案具有工程可實現性,可以被廣泛應用。
【附圖說明】
[0031] 圖1為本發明三節點同步硬件電路框圖;
[0032] 圖2為本發明節點內處理器狀態轉換圖;
[0033]圖3為本發明余度管理算法流程圖;
【具體實施方式】
[0034] 本方案建立了三節點的容錯計算機平臺,每個節點由雙處理器的監控對處理單元 和總線接口單元組成。通過實現節點內和節點間的表決監控、故障檢測、故障隔離、故障重 構等策略,將將系統的性能損失降低到最小,達到提升可用性的目的。容錯計算機余度配置 見圖1。
[0035]節點內處理器狀態轉換圖見圖2,
[0036] 1.三節點容錯平臺同時工作,每個節點內包含兩個控制器,A控制器和B控制器,正 常時A控