專利名稱::云計算操作系統的控制器服務狀態監控和故障恢復方法
技術領域:
:本發明涉及云計算
技術領域:
,尤其是一種云計算操作系統的控制器服務狀態監控和故障恢復方法。
背景技術:
:云計算作為新一代的網絡資源計算模型,具有超強的計算能力和低成本、高安全性,以用戶為中心等特點。云計算操作系統是云計算的基礎設施管理平臺,通過云控制器服務將大型基礎架構集合(CPU、存儲、網絡)作為一個無縫、靈活和動態的操作環境進行全面管理,將服務器、存儲設備和網絡資源進行虛擬化并聚合資源,最終按需分配給用戶使用。目前國際知名的IT公司如Google、亞馬遜、微軟、Oracle、IBM、SUN等都在積極地研究云計算并開展相關商業應用。云計算操作系統由云控制器、集群控制器、計算節點控制器組成。云控制器管理云系統的集群信息;集群控制器管理云系統的網絡資源信息、計算節點信息、集群虛擬機信息;計算節點提供了硬盤、內存、CPU等物理資源的虛擬化基礎設施,計算節點控制器管理節點虛擬機實例詳細信息。因服務器故障、網絡故障、軟件故障等問題,云計算中心很難保證云系統中控制器隨時隨地提供正常的服務,例如亞馬遜在弗吉尼亞州(Virginia)北部的云計算系統出現過云系統中控制器故障問題。目前一般是研究物理服務器故障問題,而面向云計算操作系統的控制器故障服務技術甚少,而控制器故障恢復在云計算中有重要意義,保證云計算操作系統的高可靠性。
發明內容本發明解決的技術問題之一在于提供一種云計算操作系統的控制器服務狀態監控方法。本發明解決的技術問題之二在于提供一種云計算操作系統的控制器服務故障恢復方法。本發明解決前述技術問題之一的技術方案是包括如下步驟第1步,建立狀態監控模塊,所述的模型包括有集群控制器服務監控模塊和節點控制器服務監控模塊,服務狀態有正常狀態、故障狀態;第2步,狀態監控;所述的集群控制器服務監控模塊添加在云控制器上,云控制器調用集群控制器服務監控模塊,根據返回結果來設定集群控制器的狀態;所述的節點控制器服務監控模塊添加在集群控制器上,根據返回結果來設定節點控制器的狀態。本發明解決前述技術問題之二的技術方案是包括如下步驟第1步,建立云計算操作系統集群控制器服務所需要的網絡資源、計算節點資源信息、虛擬機信息的內存塊,并將內存塊映射到硬盤文件上;節點控制器服務隨著虛擬機的創建并相應構造虛擬機元數據的內存塊,并備份到硬盤文件上;第2步,通過集群控制器或節點控制器服務監控模塊,將故障的集群控制器或節點控制器標識反饋給系統管理員;根據反饋的標識對發生故障的集群控制器服務和/或節點控制器服務進行重啟。集群控制器服務發生故障時,重啟集群控制服務,將包含著網絡資源、計算節點資源信息的硬盤文件重新映射到內存中,恢復集群控制器所管理的網絡資源信息、節點資源信息、虛擬機信息。節點控制器服務發生故障時,重啟節點控制服務,首先掃描虛擬機實例存儲的數據中心,讀取虛擬機元數據的硬盤文件并將其映射到內存中;然后同步虛擬機監視器上的虛擬機狀態信息。節點控制器物理機發生故障時,集群控制器將通過計算節點資源調度算法為故障控制器上的虛擬機分配新的計算節點,新的節點控制器將讀取虛擬機元數據的硬盤文件并將其映射到內存中,最后利用虛擬機的配置文件啟動虛擬機。本發明提出了一種基于云計算服務狀態模型來監控云計算控制器服務是否正常,基于硬盤文件的內存映射機制的云計算控制器服務重啟和跨計算節點啟動虛擬機的故障恢復方法。有效解決了現有服務故障后重新恢復軟件服務,但原先軟件程序使用的內存數據很難恢復的問題。本發明的方法可以確保服務恢復后所有內存數據都可以保留;避免了數據丟失。下面結合附圖對本發明進一步說明圖1是本發明的整體系統示意圖;圖2是本發明的控制器服務狀態轉換圖;圖3是本發明的控制器故障恢復流程具體實施例方式如附圖1-3所示,本發明提出了一種基于云計算服務狀態模型來監控云計算控制器服務是否正常,基于硬盤文件的內存映射機制的云計算控制器服務重啟和跨計算節點啟動虛擬機的故障恢復方法。具體的狀態監控和故障恢復按照如下步驟進行第1步,建立云計算操作系統集群控制器服務所需要的網絡資源、計算節點資源信息、集群虛擬機信息的內存塊,將內存塊的數據結構熱備到硬盤文件上;節點控制器服務隨著虛擬機的創建并相應構造虛擬機元數據的內存塊,同時備份到硬盤文件上。其中硬盤文件保存在數據中心上,保證單集群控制器節點和節點控制器物理機故障時,能夠跨集群控制器節點和計算控制器節點恢復用戶的網絡資源、虛擬機信息。第2步,建立云計算操作系統的云計算控制器服務監控模塊,云計算控制器服務狀態有正常狀態、故障狀態,其模塊屬于動態變遷模型,服務處于故障狀態恢復后服務狀態將變為正常狀態,服務由于異常原因不能提供服務時將標識為故障狀態,可以動態變更集群控制器服務、計算節點控制器服務的狀態。第3步,在云控制節點器和集群控制器上添加服務監控模塊,云控制器上的集群控制器服務監控模塊根據設定的時間間隔定期通過SOAP(簡單對象訪問協議)調用掃描集群信息服務,將返回信息為空的集群節點服務標識為集群控制器服務故障狀態;集群控制器上的節點控制器服務監控模塊根據設定的時間間隔定期通過SOAP(簡單對象訪問協議)調用掃描計算節點服務,將返回信息為空的計算節點服務標識為節點控制器服務故障狀態。第4步,通過集群控制器或節點控制器服務監控模塊,將發生故障的集群控制器或節點控制器反饋給云計算操作系統管理員;集群控制器服務發生故障時,重啟集群控制服務,服務將包含著網絡資源、計算節點資源信息的硬盤文件重新映射到內存中,然后讀取內存中用戶組安全規則和虛擬機網絡地址信息,構造iptable命令集和DHCP服務配置文件,重新生成防火墻規則和虛擬機私有地址,恢復集群控制器所管理的網絡資源信息、節點資源信息、虛擬機信息。集群控制器物理機發生故障不能修復時,將重建根據原有集群控制器的備份硬盤文件備重建集群控制器,具體步驟如前所述;節點控制器服務發生故障時,重啟節點控制服務,服務首先將掃描虛擬機實例存儲的數據中心,讀取虛擬機元數據的硬盤文件并將其映射到內存中,然后同步虛擬機監視器上的虛擬機狀態信息;節點控制器物理機發生故障時,集群控制器將通過計算節點資源調度算法為故障控制器上的虛擬機分配新的計算節點,新的節點控制器將讀取虛擬機元數據的硬盤文件并將其映射到內存中,最后利用虛擬機的配置文件啟動虛擬機。權利要求1.一種云計算操作系統的控制器服務狀態監控方法,其特征在于包括如下步驟第1步,建立狀態監控模塊,所述的模型包括有集群控制器服務監控模塊和節點控制器服務監控模塊,服務狀態有正常狀態、故障狀態;第2步,狀態監控;所述的集群控制器服務監控模塊添加在云控制器上,云控制器調用集群控制器服務監控模塊,根據返回結果來設定集群控制器的狀態;所述的節點控制器服務監控模塊添加在集群控制器上,根據返回結果來設定節點控制器的狀態。2.—種權利要求1所述的控制器服務狀態監控方法的云計算操作系統的控制器服務故障恢復方法,其特征在于包括如下步驟第1步,建立云計算操作系統集群控制器服務所需要的網絡資源、計算節點資源信息、虛擬機信息的內存塊,并將內存塊映射到硬盤文件上;節點控制器服務隨著虛擬機的創建并相應構造虛擬機元數據的內存塊,并備份到硬盤文件上;第2步,通過集群控制器或節點控制器服務監控模塊,將故障的集群控制器或節點控制器標識反饋給系統管理員;根據反饋的標識對發生故障的集群控制器服務和/或節點控制器服務進行重啟。3.根據權利要求2所述的控制器服務故障恢復方法,其特征在于集群控制器服務發生故障時,重啟集群控制服務,將包含著網絡資源、計算節點資源信息的硬盤文件重新映射到內存中,恢復集群控制器所管理的網絡資源信息、節點資源信息、虛擬機信息。4.根據權利要求2或3所述的控制器服務故障恢復方法,其特征在于節點控制器服務發生故障時,重啟節點控制服務,首先掃描虛擬機實例存儲的數據中心,讀取虛擬機元數據的硬盤文件并將其映射到內存中;然后同步虛擬機監視器上的虛擬機狀態信息。節點控制器物理機發生故障時,集群控制器將通過計算節點資源調度算法為故障控制器上的虛擬機分配新的計算節點,新的節點控制器將讀取虛擬機元數據的硬盤文件并將其映射到內存中,最后利用虛擬機的配置文件啟動虛擬機。全文摘要本發明涉及云計算
技術領域:
,尤其是一種云計算操作系統的控制器服務狀態監控和故障恢復方法。本發明在云控制器和集群控制器上分別設置服務監控模塊;集群控制器故障恢復時,重啟集群控制器,恢復集群控制管理的網絡信息、計算節點資源和集群虛擬機信息;節點控制器故障恢復時,重啟節點控制器,恢復計算節點控制器所管理的節點資源和虛擬機信息。本發明有效解決了服務恢復內存數據丟失的問題,保證云計算操作系統服務的高可靠性;可廣泛應用于云計算操作系統中。文檔編號H04L12/24GK102394774SQ20111033908公開日2012年3月28日申請日期2011年10月31日優先權日2011年10月31日發明者季統凱,岳強,羅義兵,莫展鵬,鄧校明申請人:廣東電子工業研究院有限公司