一種基于云數據中心的分層式資源監控方法
【專利摘要】本發明公開了一種基于云數據中心的分層式資源監控方法,其具體實現過程為:設置資源類型管理模塊、資源類型分層模塊、資源監控模塊和資源故障定位模塊,其中資源故障定位模塊按層對監控信息進行分析,采集自上而下、逐層循環的方式查找到最根本的故障原因,實現對云數據中心中的設備資源的細粒度監控、精細化分析和準確的資源故障原因定位。該一種基于云數據中心的分層式資源監控方法與現有技術相比,有效提高了數據中心監控故障定位的效率,實現對云數據中心中的設備資源的細粒度監控、精細化分析和準確的資源故障原因定位,在大規模云數據中心的監控應用中,具有很高的技術價值。
【專利說明】一種基于云數據中心的分層式資源監控方法
【技術領域】
[0001]本發明涉及計算機監控【技術領域】,具體地說是一種實用性強、基于云數據中心的分層式資源監控方法。
【背景技術】
[0002]隨著互聯網的飛速發展,大規模的云數據中心越來越成為現代社會發展的需要。這就為數據中心的監控難度帶來巨大挑戰,一個擁有幾萬資源的云數據中心的監控難度已非常大,更何況目前的發展趨勢下幾十萬資源、甚至幾百萬資源的云數據中心正在逐步產生。現有技術的資源監控系統如附圖1所示,一個具有十萬資源的數據中心的監控,用傳統的資源監控方式已經無法滿足,往往造成管理員每天收到成千上萬條故障告警,但其中大部分為假故障,無法準確地定位到故障原因,浪費了大量的人力物力,也使數據中心管理員一直處于超負荷運轉中。并且,由于監控的設備、機房等資源類型劃分不明確,監控項目無法進行細粒度設計,導致監控不能精細化、細致化和準確化。以上挑戰為大規模云數據中心的監控時故障問題的定位、故障問題原因的分析等均帶來了極大的局限性,嚴重影響大規模云數據中心監控的發展,基于此,現提供一種可解決上述問題、基于云數據中心的分層式資源監控方法,實現對云數據中心中的設備資源的細粒度監控、精細化分析和準確的資源故障原因定位。
【發明內容】
[0003]本發明的技術任務是針對以上不足之處,提供一種實用性強、基于云數據中心的分層式資源監控方法。
[0004]一種基于云數據中心的分層式資源監控方法,其具體實現過程為:
設置資源類型管理模塊、資源類型分層模塊、資源監控模塊、資源故障定位模塊;其中:
資源管理模塊,用于建立基于云數據中心的資源類型分層模塊;
資源類型分層模塊,基于資源類型庫,將不同用途的資源類型進行按層次劃分,生成以資源層級為依據的分層資源類型庫,然后再以分層資源類型的方式去分析、處理資源監控信息,查找資源故障原因的過程;
資源監控模塊設計,將物理設備、虛擬資源和應用系統以資源的角度分成不同的資源類型進行監控,然后以此種角度進行各種類型資源的數據采集,完成監控;
資源故障定位模塊,當資源進行監控時出現了故障后,資源監控模塊采集完成監控信息,按層對監控信息進行分析,當故障所在資源類型層不是最下邊的層時,逐層的進行向下查找,直到找到最根本的故障原因;當故障所在資源類型層向下的各層均運行正常時,則可確定當前層中的故障原因即為此次故障的根本原因。
[0005]所述的分層資源類型庫自上而下劃分為Web服務層、數據庫應用層、操作系統層、虛擬資源層、網絡設備層、硬件資源層和機房環境層,每層負責一個業務應用運行時自上而下的不同部分。
[0006]所述資源故障的逐層故障定位采用自上而下、逐層循環的方式,即當第一層資源監控不正常時,先查找其下各層中是否有不正常的資源存在,若沒有,則直接確定此次故障的根本原因即為第一層資源的問題;若有,則進行第二層資源查找,依此類推,直到定位到故障根本原因。
[0007]本發明的一種基于云數據中心的分層式資源監控方法,具有以下優點:
該發明的一種基于云數據中心的分層式資源監控方法解決了傳統的資源監控方式使管理員每天收到成千上萬條假故障告警,無法準確地定位到故障原因,浪費了大量的人力物力的問題;大大提高了資源監控中故障定位的真實性和準確性,避免了因各資源類型之間相對獨立監控時的故障誤報或監控不到根本故障原因的問題,最終實現了當云數據中心中的資源監控到故障后,可以逐級、逐層的按資源類型層詳細地、明確地查找定位到故障原因,便于故障的分析和解決,實用性強,適用范圍廣泛,易于推廣。
【專利附圖】
【附圖說明】
[0008]附圖1為現有的資源監控原理示意圖。
[0009]附圖2為本發明的資源類型分層模塊示意圖。
[0010]附圖3為本發明的資源故障定位模塊示意圖。
[0011 ] 附圖4為本發明的分層式資源監控示意圖。
【具體實施方式】
[0012]下面結合附圖和具體實施例對本發明作進一步說明。
[0013]本發明提供一種基于云數據中心的分層式資源監控方法,充分發揮資源類型可按層劃分的特點,運用資源故障逐層依賴、自上而下關聯的機制,采用資源類型管理模塊和資源類型分層模塊,以及資源監控模塊和資源故障定位模塊相結合的設計方法,實現資源監控按類型劃分后,再由資源類型分層模塊進行按層劃分,組成自上而下依賴存在的監控體系。當資源進行監控時出現了故障后,資源故障定位模塊先由故障基本信息開始,逐層進行故障定位,直到查找出真正的故障原因。采用這種以資源類型庫為基礎生成分層資源類型庫,然后再按層次分析各資源類型層采集到的監控信息,定位出最根本故障原因,從而大大提高了資源監控中故障定位的真實性和準確性。如附圖2、圖3、圖4所示,其具體實現過程為:
設置資源類型管理模塊、資源類型分層模塊、資源監控模塊、資源故障定位模塊;其中:
資源管理模塊,用于建立基于云數據中心的資源類型分層模塊;
資源類型分層模塊,基于資源類型庫,將不同用途的資源類型進行按層次劃分,生成以資源層級為依據的分層資源類型庫,然后再以分層資源類型的方式去分析、處理資源監控信息,查找資源故障原因的過程;
資源監控模塊設計,將物理設備、虛擬資源和應用系統以資源的角度分成不同的資源類型進行監控,然后以此種角度進行各種類型資源的數據采集,完成監控;比如將一臺Oracle數據庫服務器分為Oracle數據庫、Windows操作系統、網絡交換機、小型機和所在機房運行環境等資源類型,然后以此種角度去進行各種類型資源的數據采集,最終經過靈活的、精細化的分析處理后實現對此Oracle數據庫服務器的完整監控。
[0014]資源故障定位模塊,當資源進行監控時出現了故障后,資源監控模塊采集完成監控信息,按層對監控信息進行分析,當故障所在資源類型層不是最下邊的層時,逐層的進行向下查找,直到找到最根本的故障原因;當故障所在資源類型層向下的各層均運行正常時,則可確定當前層中的故障原因即為此次故障的根本原因。
[0015]所述的分層資源類型庫自上而下劃分為Web服務層、數據庫應用層、操作系統層、虛擬資源層、網絡設備層、硬件資源層和機房環境層,每層負責一個業務應用運行時自上而下的不同部分。
[0016]所述資源故障的逐層故障定位采用自上而下、逐層循環的方式,即當第一層資源監控不正常時,先查找其下各層中是否有不正常的資源存在,若沒有,則直接確定此次故障的根本原因即為第一層資源的問題;若有,則進行第二層資源查找,依此類推,直到定位到故障根本原因。
[0017]下面結合附圖對本發明的內容以分層式監控一個擁有30種資源類型的云數據中心為例,采用30種資源類型劃分為6種資源類型層的方式來描述這一設計方法的實現過程。
[0018]基于云數據中心的分層式資源監控方法設計包括:資源類型管理模塊、資源類型分層模塊、資源監控模塊和資源故障定位模塊,如圖4所示,首先,資源類型管理模塊建立該云數據中心的資源類型庫,其中包括Apache/Tomcat Web服務器、0racle/DB2數據庫應用、Windows/Linux操作系統、Vmware/Xen虛擬資源、Cisco/H3C網絡設備和IBM/ΗΡ服務器等30種資源類型。然后,資源類型分層模塊將這30種資源類型劃分為自上而下的Web服務層、數據庫應用層、操作系統層、虛擬資源層、網絡設備層和硬件資源層共七層資源類型層,組成該云數據中心的分層資源類型庫。由資源監控模塊調動數據中心內各種類型資源完成監控數據采集后,當有問題產生時,便產生相應的資源故障信息,再由資源故障定位模塊按照自上而下、逐層循環查找的原則,對各分層資源進行逐級定位,當硬件資源層資源有故障時,可以直接定位故障原因為硬件資源;當網絡設備層資源有故障時,則需要自上而下查找了網絡設備層和硬件資源層后才能確定最根本的故障原因;當虛擬資源層有故障時,則需要自上而下查找了虛擬資源層、網絡設備層和硬件資源層后才能確定最根本的故障原因;以此類推,該云數據中心中的資源故障信息均可逐層完成故障定位和故障原因分析。
[0019]上述【具體實施方式】僅是本發明的具體個案,本發明的專利保護范圍包括但不限于上述【具體實施方式】,任何符合本發明的一種基于云數據中心的分層式資源監控方法的權利要求書的且任何所述【技術領域】的普通技術人員對其所做的適當變化或替換,皆應落入本發明的專利保護范圍。
【權利要求】
1.一種基于云數據中心的分層式資源監控方法,其特征在于,其具體實現過程為: 設置資源類型管理模塊、資源類型分層模塊、資源監控模塊、資源故障定位模塊;其中: 資源管理模塊,用于建立基于云數據中心的資源類型分層模塊; 資源類型分層模塊,基于資源類型庫,將不同用途的資源類型進行按層次劃分,生成以資源層級為依據的分層資源類型庫,然后再以分層資源類型的方式去分析、處理資源監控信息,查找資源故障原因的過程; 資源監控模塊設計,將物理設備、虛擬資源和應用系統以資源的角度分成不同的資源類型進行監控,然后以此種角度進行各種類型資源的數據采集,完成監控; 資源故障定位模塊,當資源進行監控時出現了故障后,資源監控模塊采集完成監控信息,按層對監控信息進行分析,當故障所在資源類型層不是最下邊的層時,逐層的進行向下查找,直到找到最根本的故障原因;當故障所在資源類型層向下的各層均運行正常時,則可確定當前層中的故障原因即為此次故障的根本原因。
2.根據權利要求1所述的一種基于云數據中心的分層式資源監控方法,其特征在于,所述的分層資源類型庫自上而下劃分為Web服務層、數據庫應用層、操作系統層、虛擬資源層、網絡設備層、硬件資源層和機房環境層,每層負責一個業務應用運行時自上而下的不同部分。
3.根據權利要求1所述的一種基于云數據中心的分層式資源監控方法,其特征在于,所述資源故障的逐層故障定位采用自上而下、逐層循環的方式,即當第一層資源監控不正常時,先查找其下各層中是否有不正常的資源存在,若沒有,則直接確定此次故障的根本原因即為第一層資源的問題;若有,則進行第二層資源查找,依此類推,直到定位到故障根本原因。
【文檔編號】H04L29/08GK104486406SQ201410769643
【公開日】2015年4月1日 申請日期:2014年12月15日 優先權日:2014年12月15日
【發明者】陸峰, 劉成平, 李鋒 申請人:浪潮電子信息產業股份有限公司