專利名稱:Atca刀片服務器雙機系統、連接方法及測試方法
技術領域:
本發明涉及通訊技術領域,尤其涉及一種ATCA(Advanced Telecom Computing Architecture,先進的電信計算機架構)刀片服務器雙機系統、連接方法及測試方法。
背景技術:
雙機系統(通常也稱作HA系統,HA是High Available (高可用性)單詞的縮寫) 是指通過集群軟件控制的互為主備的兩個服務器,每個服務器通常稱作節點,其功能是在 其中一個節點出現故障時能夠把發生故障節點上運行的業務進程自動切換到另個正常運 行的節點上,從而達到系統的高可靠性。ATCA是一種高效節能的電信業新一代的環保綠色的服務器設備架構,目前被廣泛 采用,而且在電信業以外的其它領域也逐漸推廣。每個ATCA機框包括若干個交換節點板和 服務器刀片節點板,根據ATCA的相關規范任何元件都必須提供主備結構,所以通常ATCA的 機框采用兩個交換板,刀片服務器一般在12片(服務器單板)左右。而在容量大的系統中, 往往要配置的刀片服務器超過12片,所以要配置兩個或兩個以上的ATCA機框;而在多個機 框中的系統中,需要配置雙機的關鍵部件通常都是配置在同一機框中,這里存在一個很大 的隱患,一旦其中一個布置雙機的機框出現故障或者需要停機維護,則該雙機系統則崩潰 或造成業務中斷,無法發揮雙機的主備切換避免單點故障的功能和系統的可維護性。如電 信業中的增值業務系統中的計費,通常采用一對雙機配置,如果這對雙機配置在同一個機 框中,萬一其中一個機框故障,那就造成計費系統就崩潰,而無法達到雙機預期的起到切換 和保護作用;或者機框需要進行正常維護時,不得不中斷業務,系統的可維護性較差。
發明內容
針對上述現有技術的缺陷,本發明的目的在于提供一種ATCA刀片服務器雙機系 統、連接及測試方法,通過優化雙機配置,在不增加設備和成本的情況下,提高雙機系統的 抗單點故障的能力和可維護性。本發明的基本思想是通過把構成雙機系統的兩個服務器節點分別布置在兩個機 框中,在不增加設備和成本的條件下,從服務器級的主備冗余提高到網絡層面的主備冗余, 提高雙機系統的抗單點故障的能力,從而提高整個系統的可維護性、穩定性和健壯性。為保證上述雙機系統正常運行,進一步采用IP組播技術作為雙機節點健康檢查 (即通常說的雙機心跳)技術,來監控雙機各節點的運行狀態;對ATCA機框的交換板的 交換平面進行合理規劃,把作為雙機健康檢測的交換端口劃分在一個獨立的邏輯區域網中 (即Vlan),作為雙機的專用交換區以同業務交換區相隔離,兩個機框的交換板都做同樣 的劃分,以便兩個在不同交換板的Vlan進行級聯通訊。具體的說,本發明的目的通過以下技術方案實現一種ATCA刀片服務器雙機系統,包括兩個相互連接并互為主備的服務器節點,每 個服務器節點由兩塊交換板和若干塊刀片節點板構成,其特征在于,構成雙機系統的兩個服務器節點分布在兩個機框中;每塊交換板中用于雙機心跳的端口與用于業務數據交換的 端口分別劃分在兩個相互獨立的邏輯區域網中;兩機框交換板的對應端口之間相互連接。本發明技術方案中,兩個機框交換板的雙機健康檢查的端口可以采用兩種方法連 接,一種是采用網線直接把兩個機框交換板的對應端口互連;另一種方法是通過外部配置 的交換機進行連接,即把兩個交換板作為雙機心跳端口通過網線連接到外部交換機,實現 在兩個不同機框交換板的端口進行通信,這種方法建議對交換機上的端口同其他端口進行 隔離,即在交換機上單獨劃分一個Vlan作為雙機的連接使用。其中,采用網線直接連接兩個機框交換板的對應端口的方法十分簡單,此處不再 贅述;通過外部配置的交換機連接具體可按照以下步驟進行A、將每個機框交換板的心跳端口與業務端口分別劃分在兩個相互獨立的邏輯區 域網中;B、分別將兩個外置交換機的端口劃分為心跳端口和業務端口,且心跳端口與業務 端口處于相互獨立的邏輯區域網中;C、通過網線將一臺外置交換機與兩個機框的交換板分別通過相互對應的端口連 接,另一臺的外置交換機與兩個機框通過也分別通過相互對應的端口連接,形成雙網雙平 面結構,即其中一個交換機或交換板出現故障,另一交換機或交換板會保證通訊鏈路正常, 而不會造成通訊中斷。按照上述方法連接好雙機系統后,即可對系統進行正常配置,在正常配置前,建議 按照如下方法測試檢查兩個機框交換板的心跳端口是否正常通訊在準備作為雙機節點刀片上的端口配置臨時IP地址,然后互相ping,檢查是否可 以正常通訊。如采用本方法進行檢查,則在進行系統配置前,一定要刪除為該端口配置的臨 時IP地址,因為雙機配置時心跳的IP地址是雙機自動選擇配置的,以免影響雙機的心跳IP 的自動配置。配置完成后,進行雙機切換測試,檢查兩個分布在不同的兩個框中節點是否能根 據雙機配置的規則進行切換。至少要進行如下三種場景的測試1)在雙機一個節點上啟動相應的進程資源后,在另一個節點上也嘗試啟動相應的 進程,如果雙機一個資源組只能在一個節點上啟動,則系統正常;否則,系統異常;2)在雙機進程資源啟動正常的情況下,進行手工切換,檢查能否正常切換,如可正 常切換,則系統正常;否則,系統異常;3)模擬異常測試,檢查雙機系統能否完成正常切換,如是,則系統正常;如否,則 系統異常。其中,模擬異常測試至少包括以下兩種情況在當前正在運行進程資源的雙機主節點上殺死進程,或者采用其他方法造成進程 異常退出,檢查雙機系統是否能夠自動切換;將進程資源正在運行的雙機主節點從機框中拔出模擬該節點異常故障的情況下, 檢查雙機系統是否能自動切換。如以上三個場景測試全部成功則說明雙機運行正常,當然,也可以根據具體配置 的需要,進行其他更加細致的測試。相比現有技術將雙機系統兩個節點在同一機框布置,本發明對雙機系統進行了優化,將兩個節點分開布置在兩個機框,在不增加設備和成本的條件下,從服務器級的主備冗 余提高到網絡層面的主備冗余,提高了雙機系統的抗單點故障的能力,從而提高了整個系 統的可維護性、穩定性和健壯性。
圖1為ATCA機框內部網絡結構示意圖;圖2為本發明雙機框互連系統的網絡結構示意圖;圖3為本發明具體實施方式
外接交換機的雙機框互連系統的網絡結構示意圖。
具體實施例方式下面結合附圖對本發明的技術方案進行詳細說明首先對ATCA機框內部網絡結構進行簡單介紹如附圖1所示,Switchl/2表示兩個數據交換模塊,通常稱為交換板,為可互為主 備,或負載分擔;Slidel-Slidel2表示刀片服務器中的刀片節點板,每個刀片節點板都跟 兩個交換板相連,構成雙網雙平面結構;雙網雙平面通常分別命名為Fabric平面和Base平 面(以下具體實施方式
也按照這樣的命名方式),根據ATCA規范,Base網絡平面負責管理 維護網絡,Fabric網絡平面提供高速的網絡通信;在默認情況下Base網絡平面與Fabric 網絡平面并沒隔離,通常是互通的。 本具體實施方式
具體按照如下各步驟進行步驟1)如附圖2所示,把兩個機框的兩個網絡平面進行隔離把交換板的網絡端 口劃分為兩個虛擬區域網(Vlan),并分別名為為Base和Fabric,以便雙機心跳和業務網絡 隔離開來,以避免網絡風暴。步驟2)向Base和Fabric網絡平面分配端口,把編號為PI、P2用于雙機心跳的 端口分配在Base Vlan (虛擬區域網),把編號為P3、P4用于業務的端口分配給Fabric Vlan(虛擬區域網)。步驟3)在外部連接的兩個對應的交換機也分別進行相應的網絡設置,分別獨立 劃分出兩個Vlan做為雙機心跳Vlan和業務Vlan,以實現心跳網絡通業務網絡數據交換的 分離,并把用于連接刀片的心跳端口和業務端口分別分配在各自對應的Vlan中,然后通過 網線將一臺外置交換機與兩個機框的交換板通過相互對應的端口連接,剩余的外置交換機 也與兩個機框通過相互對應的端口連接。連接完成的雙機框互連系統的結構如附圖3所
7J\ ο步驟4)對兩個心跳端口配置臨時IP地址,進行測試網絡是否正常通訊。步驟5)如心跳網絡通信正常,則在刪除臨時IP地址后進行雙機配置。步驟6)分別在作為雙機的刀片節點Blade-Nodel和Blade-N0de2上安裝雙機系 統,并把兩個節點上的端口 P1、P2分別設置為雙機心跳的兩個組播成員,即組播1 =Blade-Nodel-Pl, Blade-Node2_Pl組播2 :Blade-Nodel-P2, Blade-Node2_P2步驟7)根據具體業務要求配置雙機資源組,雙機系統的具體配置請則根據所選 擇的雙機軟件和操作手冊進行具體配置。
步驟8)在雙機其它資源等配置好后,進行雙機切換測試,檢查兩個分布在不同的 兩個框中節點是否能根據雙機配置的規則進行切換。至少要進行如下三種場景的測試1)在雙機一個節點上啟動相應的進程資源后,在另一個節點上也嘗試啟動相應的 進程,如果雙機一個資源組只能在一個節點上啟動,則系統正常;否則,系統異常;2)在雙機進程資源啟動正常的情況下,進行手工切換,檢查能否正常切換,如可正 常切換,則系統正常;否則,系統異常;3)模擬異常測試,檢查雙機系統能否完成正常切換,如是,則系統正常;如否,則 系統異常。其中,模擬異常測試至少包括以下兩種情況在當前正在運行進程資源的雙機主節點上殺死進程,或者采用其他方法造成進程 異常退出,檢查雙機系統是否能夠自動切換;將進程資源正在運行的雙機主節點從機框中拔出模擬該節點異常故障的情況下, 檢查雙機系統是否能自動切換。如以上三個場景測試全部成功則說明雙機運行正常,當然,也可以根據具體配置 的需要,進行其他更加細致的測試。
權利要求
一種ATCA刀片服務器雙機系統,包括兩個相互連接并互為主備的服務器節點,每個服務器節點由兩塊交換板和若干塊刀片節點板構成,其特征在于,所述兩個服務器節點分布在兩個機框中。
2.如權利要求1所述的ATCA刀片服務器雙機系統,其特征在于每塊交換板中用于雙 機心跳的端口與用于業務數據交換的端口分別劃分在兩個相互獨立的邏輯區域網中;兩機 框交換板的對應端口之間相互連接。
3.如權利要求2所述的ATCA刀片服務器雙機系統,其特征在于所述兩機框交換板的 對應端口之間相互連接是通過兩臺相互連接的外置交換機實現;所述每一臺外置交換機的 端口均分為心跳端口和業務端口且分別處于兩個相互獨立的邏輯區域網中;每臺外置交換 機的心跳端口和業務端口均通過網線與兩個機框交換板的相應端口分別連接。
4.一種如權利要求1所述ATCA刀片服務器雙機系統的連接方法,其特征在于包括以 下各步驟A、將每個機框交換板的心跳端口與業務端口分別劃分在兩個相互獨立的邏輯區域網中;B、分別將兩個外置交換機的端口劃分為心跳端口和業務端口,且心跳端口與業務端口 處于相互獨立的邏輯區域網中;C、通過網線將一臺外置交換機與兩個機框的交換板分別通過相互對應的端口連接, 另一臺的外置交換機與兩個機框通過也分別通過相互對應的端口連接,形成雙網雙平面結 構,即其中一個交換機或交換板出現故障,另一交換機或交換板會保證通訊鏈路正常,而不 會造成通訊中斷。
5.一種如權利要求1所述ATCA刀片服務器雙機系統的測試方法,其特征在于,至少包 括以下三種場景的測試1)在雙機一個節點上啟動相應的進程資源后,在另一個節點上也嘗試啟動相應的進 程,如果雙機一個資源組只能在一個節點上啟動,則系統正常;否則,系統異常;2)在雙機進程資源啟動正常的情況下,進行手工切換,檢查能否正常切換,如可正常切 換,則系統正常;否則,系統異常;3)模擬異常測試,檢查雙機系統能否完成正常切換,如是,則系統正常;如否,則系統 異常。
6.如權利要求5所述ATCA刀片服務器雙機系統的測試方法,其特征在于所述模擬異 常測試至少包括以下兩種情況在當前正在運行進程資源的雙機主節點上殺死進程,或者采用其他方法造成進程異常 退出,檢查雙機系統是否能夠自動切換;將進程資源正在運行的雙機主節點從機框中拔出模擬該節點異常故障的情況下,檢查 雙機系統是否能自動切換。
全文摘要
本發明公開了一種ATCA刀片服務器雙機系統、連接方法及測試方法,屬于通訊技術領域。構成本發明雙機系統的兩個服務器節點分別布置在兩個機框中,并采用IP組播技術進行雙機節點健康檢查;作為雙機健康檢查的交換端口劃分在一個獨立的邏輯區域網中,作為雙機的專用交換區以同業務交換區相隔離,兩個機框的交換板都做同樣的劃分,以便兩個在不同交換板的Vlan進行級聯通訊。本發明在不增加設備和成本的條件下,從服務器級的主備冗余提高到網絡層面的主備冗余,提高雙機系統的抗單點故障的能力,從而提高了整個系統的可維護性、穩定性和健壯性。本發明還相應地提供了一種刀片服務器雙機系統連接方法及測試方法,以構建本發明的ATCA刀片服務器雙機系統。
文檔編號H04L12/24GK101895444SQ20101023912
公開日2010年11月24日 申請日期2010年7月28日 優先權日2010年7月28日
發明者吳亞娟 申請人:南京信息工程大學