專利名稱:多計算機系統的制作方法
技術領域:
本發明總體涉及計算機領域,更具體地,涉及一種多計算機系統。
背景技術:
將多臺同構或異構的計算節點通過網絡連接起來,使其呈現出具有單一系統映像的多計算機系統也稱為集群。其具有高性價比、資源共享、高靈活性、高可擴展性,高容錯性等特點。近年來,隨著計算機技術的發展,用集群構造超級計算機或超級服務器成為一種流行的趨勢。集群的規模從過去的數個節點擴充到數百個節點甚至數千個節點,集群系統的管理監控也變得越來越復雜,集群的管理監控越來越成為一項具有挑戰性的工作。同時,如何有效的監控集群系統,使管理員可以通過圖形界面方便的實現對整個系統的管理,監控系統應提供易使用、可擴展的工具,幫助管理員監控整個集群的工作狀體,從而保證集群系統高效、穩定地運行。然而,隨著服務器性能的提升與數量的增加,近年來其消耗的電力資源節節攀升。 在資源緊缺越來越嚴重的今天,對集群功耗進行管理和研究具有很高的社會與經濟價值。 所以,如何從海量的、未經處理的監控信息中提取出有效的數據,同時對監控的信息進行處理和分析,根據負載的情況動態地調控服務器功耗分配,以及如何根據負載情況動態的實現負載的分配成為新的焦點,同時對節省能耗也有需求。
發明內容
為了使管理員從機房中解放,方便管理員對集群的管理,同時,針對服務器隨著性能和數量的增加帶來的電力資源消耗過多等問題,本發明提供了一種多計算機系統,包括 多個工作組,工作組中的每一個均根據預定策略包含多個單機,其中,多個單機中的每一個均以預定采集周期向所屬的工作組上報自身的功耗信息和負載信息,其中,工作組根據功耗信息和負載信息將能量資源分配給其所包含的多個單機,并且,工作組具有動態資源池, 當多個單機中的一個單機發生負載突變時,一個單機使用動態資源池中的能量資源,以及其中,工作組根據功耗信息和負載信息預測下一預定采集周期時的負載,用于進行能量資源分配。其中,預定策略是執行同一業務的單機被分在同一個工作組。其中,負載信息包括CPU利用率、CPU頻率、內存使用率、帶寬利用率、磁盤I/O訪問率。其中,預測包括步驟一,計算連接多計算機系統的網絡的第一輸出誤差;步驟二,進行一次訓練,利用學習率計算網絡的權值、閾值以及訓練后的網絡的第二輸出誤差; 步驟三,當第二輸出誤差與第一輸出誤差的比值大于預定參數時,減少學習率一個步長,反之增加學習率一個步長;步驟四,返回步驟二,直至第二輸出誤差與第一輸出誤差的比值小于預定參數。其中,以如下公式計算權值
權值Wi (tn) = A1XCPU利用率(tn)+A2X內存使用率(tn)+A3X帶寬利用率 (tn)+A4X 磁盤 I/O 訪問率(tn),其中,A1是對應于CPU利用率(tn)的常量系數,A2是對應于內存使用率(tn)的常量系數,A3是對應于帶寬利用率(tn)的常量系數,以及A4是對應于磁盤I/O訪問率(tn)的常量系數。其中,動態資源池中的資源被量化為預定功率,當一個單機使用動態資源池中的能量資源時,一個單機向其所屬的工作組上報使用時間。其中,當使用時間到達時,一個單機所屬的工作組命令一個單機退還能量資源。其中,當使用時間到達時,一個單機所屬的工作組詢問一個單機是否退還能量資源,如果一個單機選擇需要,則繼續使用能量資源,反之退還能量資源。其中,當動態資源池中的能量資源不充足時,工作組鎖定動態資源池。本發明的其它特征和優點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發明而了解。本發明的目的和其他優點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結構來實現和獲得。
此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中圖1是示出了根據本發明的多計算機系統的框具體實施例方式下面將結合附圖來詳細說明本發明的實施例。本發明所提供的系統是基于相關性的多層次分布式控制系統,每層采取的控制策略不同。對集群的CPU利用率、CPU頻率、內存使用率、帶寬利用率、磁盤I/O訪問率、功耗等信息從單機層、工作組、集群等多個級別分別進行監控和調度,實現對歷史數據的采集和存儲,并且根據采集的數據進行處理和分析,并根據負載的情況動態地調控服務器功耗分配以及根據負載情況動態的實現負載的合理分配,找到一種負載對計算機的映射關系,從而提高CPU的利用率,提高資源利用率,獲得高性能資源的有效共享,以降低集群能耗,節省一定的能源。以下將結合圖1對本發明的不唯一的實施例進行描述。單機層101 實時的監測功耗、負載等信息,并且將此信息向上層提供。同時,節點執行上層下達的相關命令。其中負載信息包括CPU利用率、CPU頻率、內存使用率、帶寬利用率、磁盤I/ 0訪問率。工作組層103 將多個節點基于業務組成一個工作組,不同的業務屬于不同的工作組,工作組中的不同節點通過資源共享共同來完成次業務,所以需要工作組對負載的均衡性做判斷。同時,工作組支持2種負載特性,其一,可預知的負載,對于可預知的負載,需要根據負載將此業務均衡的分配到各個節點;其二,不可預知的負載,通過提供動態資源池來滿足單機層負載的突變。通過將此資源池進行量化,如設置每分資源大小為A,量化后的資源池(資源大小,時間),其中資源大小為A,時間為與單機同步的時間。如果單機層負載突變,可以向工作組申請資源以及申請資源使用時間,如果使用時間到,將詢問是否要退還資源,如果需要續接,則可以繼續使用此資源。如果資源不夠,則觸發指令將鎖定動態資源池。集群層105 根據應用或者地域性將多個工作組組織在一起,根據不同業務以及不同業務的優先級將資源進行合理的分配,保證下層工作穩定、合理、有效的運行,同時具有資源異地備份的功能。其中,監控信息是通過如下方式進行處理與負載分配的通過上述對集群的CPU利用率、CPU頻率、內存使用率、帶寬利用率、磁盤I/O訪問率、功耗等信息從單機層、工作組、集群等多個級別分別進行監控,獲得相關數據。接下來, 將對獲得的數據進行處理。首先,根據集群監控的信息,計算集群資源的總利用率,包括CPU、內存、帶寬、磁盤等資源,同時分別統計集群的總CPU計算能力E和單機的CPU計算能力Ei的使用情況。其次,根據上述的處理結果對集群的tn+At時刻的負載進行預測,其中At為監控信息的采集周期。本實施例中采用神經網絡預測法,神經網絡人工神經網絡具有自組織、自適應和自學習的能力,能較好的處理時間序列中多影響因素,具有不確定性和非線性等問題,神經網絡成為最具發展前途的預測技術。對于預測分析問題,適于BP網絡,在確定網絡的類型后,選擇網絡的結構和參數,其需要選擇網絡的層數、每層節點數、初始權值、閾值值、學習算法、學習率等參數,各個參數的選擇大多是靠經驗和試湊。在選擇網絡的節點數的原則是在能正確反映輸入輸出關系的基礎上,選擇較少的隱層節點數,使得網絡盡量簡單。標準的BP算法在實際中應用很廣,但它存在收斂速度慢、存在“局部極小點”問題、網絡的結構參數和運算參數的設定都無公認的理論指導,一般都是根據經驗選取等缺點和問題。在本實施例中對標準BP算法進行了改進,采用基于自適應修改學習率算法來加快網絡收斂。具體過程是首先計算出網絡的輸出誤差;然后在每次訓練結束后,利用此時的學習率計算出網絡的權值和閾值,并且計算出網絡此時的輸出誤差。如果此時的輸出誤差與前一時刻的輸出誤差的比值大于預先定義的參數perfectjnc,減少學習率一個單位步長;反之增加學習率一個單位步長。最后重新計算網絡的權值和閾值,直到輸出誤差小于參數perfectjnc為止。最后,根據預測的負載,以集群消耗的功率最小為目標,合理的分配負載,根據各個節點負載情況合理的分配功耗,從而達到節能的目的。對于負載的分配采取一下策略1.集群的節點在初始投入使用時,系統管理員根據節點的硬件配置情況對每個節點設置一個初始權值Wt5i,一般是節點性能越高其初始權值越高,隨著節點負載的變化,對節點權值不斷進行動態調整。2.將CPU利用率、內存使用率、帶寬利用率、磁盤I/O訪問率作為計算公式的因子。 根據每個節點當前采集的監控信息,計算出新的權值。根據系統運行過程中針對不同的應用對各個參數的比例進行適當的調整,為每個參數設定一個常量系數Ai,且Σ Ai = 1。則每個節點Ni的權值在(tn)時刻可以描述為 Wi (tn) =A1X CPU 利用率(tn) +A2X 內存使用率(tn) +A3X 帶寬利用率(tn) +A4X 磁盤I/O訪問率(tn)3.根據上述各個節點的動態權值及其預測的集群tn+At時刻的負載,可以合理的分配每個節點的負載,從而根據每個節點的負載情況,動態的分配相應的功耗,達到節能的目的。以上所述僅為本發明的優選實施例而已,并不用于限制本發明,對于本領域的技術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。
權利要求
1.一種多計算機系統,其特征在于,包括多個工作組,所述工作組中的每一個均根據預定策略包含多個單機,其中,所述多個單機中的每一個均以預定采集周期向所屬的工作組上報自身的功耗信息和負載信息,其中,所述工作組根據所述功耗信息和所述負載信息將能量資源分配給其所包含的多個單機,并且,所述工作組具有動態資源池,當所述多個單機中的一個單機發生負載突變時,所述一個單機使用所述動態資源池中的能量資源,以及其中,所述工作組根據所述功耗信息和所述負載信息預測下一所述預定采集周期時的負載,用于進行能量資源分配。
2.根據權利要求1所述的系統,其特征在于,所述預定策略是執行同一業務的單機被分在同一個工作組。
3.根據權利要求1所述的系統,其特征在于,所述負載信息包括CPU利用率、CPU頻率、 內存使用率、帶寬利用率、磁盤I/O訪問率。
4.根據權利要求3所述的系統,其特征在于,所述預測包括步驟一,計算連接所述多計算機系統的網絡的第一輸出誤差;步驟二,進行一次訓練,利用學習率計算所述網絡的權值、閾值以及訓練后的所述網絡的第二輸出誤差;步驟三,當所述第二輸出誤差與所述第一輸出誤差的比值大于預定參數時,減少所述學習率一個步長,反之增加所述學習率一個步長;步驟四,返回步驟二,直至所述第二輸出誤差與所述第一輸出誤差的比值小于所述預定參數。
5.根據權利要求4所述的系統,其特征在于,以如下公式計算所述權值權值Wi(tn) =A1XCPU利用率(tn)+A2X內存使用率(tn)+A3X帶寬利用率(tn)+A4X 磁盤I/O訪問率(tn),其中,A1是對應于所述CPU利用率(tn)的常量系數,A2是對應于所述內存使用率(tn) 的常量系數,A3是對應于所述帶寬利用率(tn)的常量系數,以及A4是對應于所述磁盤I/O 訪問率(tn)的常量系數。
6.根據權利要求1所述的系統,其特征在于,所述動態資源池中的資源被量化為預定功率,當所述一個單機使用所述動態資源池中的能量資源時,所述一個單機向其所屬的工作組上報使用時間。
7.根據權利要求6所述的系統,其特征在于,當所述使用時間到達時,所述一個單機所屬的工作組命令所述一個單機退還所述能量資源。
8.根據權利要求6所述的系統,其特征在于,當所述使用時間到達時,所述一個單機所屬的工作組詢問所述一個單機是否退還所述能量資源,如果所述一個單機選擇需要,則繼續使用所述能量資源,反之退還所述能量資源。
9.根據權利要求1所述的系統,其特征在于,當所述動態資源池中的能量資源不充足時,所述工作組鎖定所述動態資源池。
全文摘要
為了使管理員從機房中解放,方便管理員對集群的管理,同時,針對服務器隨著性能和數量的增加帶來的電力資源消耗過多等問題,本發明提供了一種多計算機系統,包括多個工作組,工作組中的每一個均根據預定策略包含多個單機,其中,多個單機中的每一個均以預定采集周期向所屬的工作組上報自身的功耗信息和負載信息,其中,工作組根據功耗信息和負載信息將能量資源分配給其所包含的多個單機,并且,工作組具有動態資源池,當多個單機中的一個單機發生負載突變時,一個單機使用動態資源池中的能量資源,以及其中,工作組根據功耗信息和負載信息預測下一預定采集周期時的負載,用于進行能量資源分配。
文檔編號H04L12/24GK102176696SQ20111004689
公開日2011年9月7日 申請日期2011年2月25日 優先權日2011年2月25日
發明者劉瑞賢, 張晉鋒, 李麟 申請人:曙光信息產業(北京)有限公司