一種資源池業務健康的監控方法和系統的制作方法
【技術領域】
[0001] 本發明涉及一種資源池業務健康的監控方法和系統,屬于云計算領域。
【背景技術】
[0002] 近幾年來隨著科技的發展和云計算的出現,云計算作為一種新興的應用模式迅速 發展。云計算是一種基于互聯網的共享基礎架構的方法,面對的是超大規模的分布式環境, 通過將成千上萬臺電腦和服務器連接在一起提供各種IT服務,旨在不斷提高云的處理能 力,進而減少用戶終端的負擔。云計算為用戶完成各類應用服務提供了強大的計算能力,用 戶只需要通過一個簡單的終端就可以享受云服務所帶來的強大的處理能力。
[0003] 在云計算平臺中,高效的資源監控不僅是必需的,而且已經成為企業成功的先決 條件。主機、虛擬機、存儲或軟件的運行情況不好或出現故障,將對企業的整個經營活動產 生巨大影響。傳統的云數據中心,對于不同廠商、類型的云資源,都需要進行單獨的性能監 控,甚至需要人工手動記錄,步驟十分繁瑣復雜。而且不同廠商、不同型號、不同類型的資 源,監控方法截然不同,每次采集性能信息時,運維人員都需要在各個資源上進行采集,操 作過程異常繁瑣,更不要說統一監控管理。專利申請CN 201410806959.4(申請名稱:一種云 資源智能監控告警方法,申請人:浪潮電子信息產業股份有限公司,申請日:2014-12-23)公 開了一種云資源智能監控告警方法,其具體實現過程包括:定義云資源實體,異構資源架 構,性能采集,告警策略,其中:定義云資源實體是該方案實現云資源監控告警的前提;異構 資源架構是該方案兼容各類異構虛擬化平臺的核心環節;性能采集是該方案的數據采集環 節;告警策略是體現本方案智能告警的環節。該技術方案僅涉及到將資源性能數據與相應 資源類型的監控項閾值進行比較,當性能數據符合告警閾值時,記錄最高級別的告警信息, 但并不涉及到對云計算資源池在一段時間內業務整體的運行狀況進行監控和報警。
[0004] 因此,如何對云計算資源池在一段時間內業務整體的運行狀況進行有效監控,已 成為了技術人員急需解決的技術問題。
【發明內容】
[0005] 有鑒于此,本發明的目的是提供一種資源池業務健康的監控方法和系統,能對云 計算資源池在一段時間內業務整體的運行狀況進行有效監控。
[0006] 為了達到上述目的,本發明提供了一種資源池業務健康的監控方法,包括有:
[0007] 步驟一、為資源池中的各項資源設定對應的初始化業務分值,同時還為各項資源 分別構建各自的運行狀態集Y(Z): {yi(z),y2(z),…,yn(z)},其中yi(z)是資源Z的正常運行 狀態,y 2(z)、-_、yn(z)分別是資源Z的各種非正常運行狀態;
[0008] 步驟二、定時采集資源池中各項資源的當前運行參數值,判斷各項資源在其運行 狀態集中所對應的正常或非正常運行狀態,然后根據其正常或非正常運行狀態來分別計算 各項資源的當前業務分值;
[0009] 步驟三、統計資源池中所有資源的當前業務總分值,當所述業務總分值低于健康 閾值時,發出報警信息。
[0010] 為了達到上述目的,本發明還提供了一種資源池業務健康的監控系統,包括有:
[0011] 業務健康初始化裝置,用于為資源池中的各項資源設定對應的初始化業務分值, 同時還為各項資源分別構建各自的運行狀態集Y(z):{ yi(Z),y2(Z),…,yn(z)},其中 yi(z) 是資源z的正常運行狀態,y2(Z)v、y n(Z)分別是資源z的各種非正常運行狀態;
[0012] 業務健康計算裝置,用于定時采集資源池中各項資源的當前運行參數值,判斷各 項資源在其運行狀態集中所對應的正常或非正常運行狀態,然后根據其正常或非正常運行 狀態來分別計算各項資源的當前業務分值;
[0013] 業務健康監控裝置,用于統計資源池中所有資源的當前業務總分值,當所述業務 總分值低于健康閾值時,發出報警信息。
[0014] 與現有技術相比,本發明的有益效果是:本發明實時采集資源池中各項資源的當 前運行參數,并根據每項資源的運行狀態來計算獲得業務整體的當前運行狀況,從而極大 地方便了業務管理員在后續對業務作進一步的優化操作,技術方案簡單易行,并具有很強 的實用性和可操作性;當某項資源包括有多個主機等物理實體時,本發明同時計算了單個 主機以及所有主機兩種情況下的業務分值,從而有效避免了單點超負荷的情況。
【附圖說明】
[0015] 圖1是本發明一種資源池業務健康的監控方法的流程圖。
[0016] 圖2是圖1步驟二中,計算資源池中資源z的當前業務分值的具體計算流程圖。
[0017] 圖3是本發明一種資源池業務健康的監控系統的組成結構示意圖。
【具體實施方式】
[0018] 為使本發明的目的、技術方案和優點更加清楚,下面結合附圖對本發明作進一步 的詳細描述。
[0019] 如圖1所示,本發明一種資源池業務健康的監控方法,包括有:
[0020] 步驟一、為資源池中的各項資源設定對應的初始化業務分值,同時還為各項資源 分別構建各自的運行狀態集Y(Z): {yi(z),y2(z),…,yn(z)},其中yi(z)是資源Z的正常運行 狀態,y 2(z)、-_、yn(z)分別是資源Z的各種非正常運行狀態;
[0021] 步驟二、定時采集資源池中各項資源的當前運行參數值,判斷各項資源在其運行 狀態集中所對應的正常或非正常運行狀態,然后根據其正常或非正常運行狀態來分別計算 各項資源的當前業務分值;
[0022] 步驟三、統計資源池中所有資源的當前業務總分值,當所述業務總分值低于健康 閾值時,發出報警信息。
[0023] 步驟一中,可以首先設定資源池中所有資源的初始化業務總分值,然后根據資源 池中各項資源之間的權重比,再分別為每項資源設定對應的初始化業務分值。例如,如下表 所示,資源池中所有資源的初始化業務總分值設為100,根據各項資源的權重比,將資源池 中的各項資源的初始化業務分值分別設置如下:
[0024]
[0026] 根據各項資源的運行特性,每項資源可以設定多個運行狀態,并構成各自的運行 狀態集,每個運行狀態分別對應一個運行參數的不同區間范圍,即根據資源的運行參數所 在的區間范圍來獲得其對應的運行狀態。例如,對于CHJ來說,其運行狀態集可以設定為 H尤,良,差},當CPU的使用率為60%~70%之間時,其運行狀態為優(即正常運行狀態);當 CHJ的使用率為70 %~90 %、或30 %~60%之間時,其運行狀態為良(即非正常運行狀態1); 當CPU的使用率大于90%、或小于30%時,其運行狀態為差(即非正常運行狀態2)。
[0027] 如圖2所示,圖1步驟二中,計算資源池中資源z的當前業務分值,可以進一步包括 有:
[0028] 步驟21、采集資源z在多個時間點的運行參數值,然后統計資源z在當前時段的運 行參數平均值,并保存在數據庫中;
[0029] 步驟22、根據資源z在當前時段的運行參數平均值,讀取資源z在其運行狀態集中 對應的當前運行狀態,并判斷資源z的當前運行狀態是否是正常運行狀態(SPy 1(Z))?如果 是,則計算資源Z的當前業務分值是:Z = Zo;如果否,則計算資源z的當前業務分值:
其中,Zo是資源z的初始化業務分值,η是資源z的運行狀態集中的所有運 行狀態總數,k是資源ζ的當前運行狀態的非健康等級值,將運行狀態集中的所有非正常運 行狀態按照其嚴重程度由輕到重的次序進行排序,每個非正常運行狀態在運行狀態集的所 有非正常運行狀態中所處的排序位置即是其對應的非健康等級值;
[0030] 步驟23、從數據庫中提取資源ζ在上一時段的運行參數平均值;
[0031] 步驟24、計算資源ζ的運行狀態動態變化值:_
其中,cyt(z)是 資源ζ在當前時段的運行參數平均值,Cyn(Z)是資源ζ在上一時段的運行參數平均值,然后 調整資源ζ的當前業務分值:
當資源池中的某 項資源的運行參數值隨時間發生較大的動態變化時,則說明該項資源呈不穩定狀況。
[0032] 當資源池中的一項資源ζ包括有多個物理實體(例如多個主機)時,為了有效避免 單點超負荷的情況,步驟一還可以包括有: