基于平均強化學習和高斯過程回歸的云作業接入控制方法
【專利摘要】本發明公開一種基于平均強化學習和高斯過程回歸的云作業接入控制方法,并針對調度過程中存在的連續狀態?動作空間而導致的最優策略生成過慢問題,采用高斯過程回歸進行平均回報值和最優策略的逼近,大幅度減少了得到最優策略的學習迭代時間,提高了云資源的利用率。
【專利說明】
基于平均強化學習和高斯過程回歸的云作業接入控制方法
技術領域
[0001]本發明涉及云作業調度領域,具體涉及一種基于平均強化學習和高斯過程回歸的云作業接入控制方法。
【背景技術】
[0002]作業調度是工作流研究中的重要問題之一,也一直得到了學術界的深入研究和工業界的廣泛實踐。面向云計算環境的工作流的調度方法與傳統工作流和網格工作流的調度方法存在著很大的區別。
[0003]由于云環境的復雜性和動態性,客觀上要求能夠進行自適應作業調度。而強化學習作為一種重要的機器學習方法,其在云計算環境中的應用得到了廣泛關注,取得了一些重要成果。但在實際應用過程中,不可避免的會遇到連續狀態-動作空間而產生的維數災難問題,最終導致收斂速度慢,自適應性差,這些問題極大限制了強化學習在云計算領域中的應用。
【發明內容】
[0004]本發明的目的是解決現有技術的缺陷,提供一種能夠大幅度減少得到最優策略的學習迭代時間,提高云資源的利用率的云作業接入控制方法,采用的技術方案如下:
[0005]—種基于平均強化學習和高斯過程回歸的云作業接入控制方法,包括:
[0006]準備階段:
[0007]定義狀態空間:將云環境資源池中的虛擬機數量定義為平均強化學習的狀態空間;
[0008]定義動作空間:動作空間中包括2個動作,分別為接受當前被調度作業和拒絕當前被調度作業;
[0009]定義回報函數:將用戶愿意支付的費用定義為回報函數;
[0010]執行階段:
[0011]第一步:初始化P和Q(s,a),其中P表示平均回報,Q(s,a)為二維表格,行s為系統狀態,列a為動作空間;
[0012]第二步:設置更新步長,執行迭代;
[0013]第三步:將變量i設置為O,將s設置為當前狀態;
[0014]第四步:從動作空間a中選擇動作;
[0015]第五步:執行選擇的動作,得到當前狀態的立即回報值r和下一個系統狀態s’;
[0016]第六步:按式Q(s,a)—Q(s,a)+a*[r-p+maxa’Q(s,,a,)-Q(s,a)]更新Q(s,a),其中,a’代表系統狀態s’下的動作空間,ae(0,I)代表學習速率;
[0017]第七步:判斷是否滿足0(8,&)=!^^0(8,&),若是則更新平均回報0然后轉第八步,若否則直接轉第八步;
[0018]第八步:令i = i+l;
[0019]第九步:若i小于更新步長,令s= s’,轉至第二步,若i不小于更新步長,則轉至第十步;
[0020]第十步:將Q(s,a)表格中的數據作為輸入,使用高斯過程進行回歸操作,得到回歸結果;
[0021 ]第^^一步:使用第十步得到的回歸結果修改Q( s,a)表格;
[0022]第十二步:將第七步得到的平均回報P作為輸入,使用高斯過程進行回歸操作,得到回歸結果;
[0023]第十三步:使用第十二步得到的回歸結果修改平均回報P;
[0024]第十四步:轉至第二步。
[0025]將云環境資源池中的虛擬機數量定義為平均強化學習的狀態空間,則本發明中每個決策時刻(云作業調度時刻),下一個狀態僅僅取決于當前狀態,滿足馬爾科夫性。
[0026]本發明中動作空間中包括2個動作,分別為接受當前被調度作業和拒絕當前被調度作業,可用向量(0,I)進行表示,其中O表示拒絕,I表示接受。
[0027]云計算是一種按需付費的使用模式,云服務提供商獲得的收益來自于用戶支付的費用,愿意支付的費用決定了接受的服務的質量是不同的,因此本發明將用戶作業的優先級(取決于用戶愿意支付的費用)定義為回報函數,因此,本發明的優化目標為根據資源池中可用的虛擬機數量,接受或拒絕用戶作業,以使得累計回報最大。
[0028]第一步至第九步的平均強化學習在實際的運行過程中,會由于云環境中數據中心的規模增大,導致狀態空間產生維數災難問題,本發明使用高斯過程回歸加速最優策略的生成,當第九步的條件不滿足,執行第十步及后面的步驟,使用高斯過程回歸加速最優策略的生成。
[0029]作為優選,所述第四步中使用貪心策略從動作集合a中選擇動作。
[°03°] 作為優選,所述第七步中,按照公式P—P+P*[r-p+maxa’Q(s’,a’)_maxaQ(s,a)]更新平均回報p,其中βε[0,1]為累積回報折扣因子。
[0031]作為優選,所述第十一步中,使用第十步得到的回歸結果替換之前的值。
[0032]作為優選,所述第十三步中,使用第十二步得到的回歸結果替換之前的平均回報
Po
[0033]與現有技術相比,本發明的有益效果:
[0034]本發明設計了一種基于平均強化學習的云作業調度方法,并針對調度過程中存在的連續狀態-動作空間而導致的最優策略生成過慢問題,采用高斯過程回歸進行平均回報值和最優策略的逼近,大幅度減少了得到最優策略的學習迭代時間,提高了云資源的利用率。
【附圖說明】
[0035]圖1是本發明的流程圖;
[0036]圖2是經過2000000步后,帶高斯過程回歸的平均強化學習得到的最優策略示意圖;
[0037]圖3是經過2000000步后,不帶高斯過程回歸的平均強化學習得到的最優策略示意圖。
【具體實施方式】
[0038]如圖1所示,一種基于平均強化學習和高斯過程回歸的云作業接入控制方法,包括:
[0039]本發明的目的是解決現有技術的缺陷,提供一種能夠大幅度減少得到最優策略的學習迭代時間,提高云資源的利用率的云作業接入控制方法,采用的技術方案如下:
[0040]一種基于平均強化學習和高斯過程回歸的云作業接入控制方法,包括:
[0041 ] 準備階段:
[0042]定義狀態空間:將云環境資源池中的虛擬機數量定義為平均強化學習的狀態空間;
[0043]定義動作空間:動作空間中包括2個動作,分別為接受當前被調度作業和拒絕當前被調度作業;
[0044]定義回報函數:將用戶愿意支付的費用定義為回報函數;
[0045]執行階段:
[0046]第一步:初始化P和Q(s,a),其中P表示平均回報,Q(s,a)為二維表格,行s為系統狀態,列a為動作空間;
[0047]第二步:設置更新步長,執行迭代;
[0048]第三步:將變量i設置為O,將s設置為當前狀態;
[0049]第四步:從動作空間a中選擇動作;
[0050]第五步:執行選擇的動作,得到當前狀態的立即回報值r和下一個系統狀態s’;
[0051 ]第六步:按式Q(s,a)—Q(s,a)+a*[r-p+maxa,Q(s’,a’)-Q(s,a)]更新Q(s,a),其中,a’代表系統狀態s’下的動作空間,ae(0,I)代表學習速率;
[0052]第七步:判斷是否滿足0(8,&)=!^^0(8,&),若是則更新平均回報0然后轉第八步,若否則直接轉第八步;
[0053]第八步:令i = i+l;
[0054]第九步:若i小于更新步長,令s= s’,轉至第二步,若i不小于更新步長,則轉至第十步;
[0055]第十步:將Q(s,a)表格中的數據作為輸入,使用高斯過程進行回歸操作,得到回歸結果;
[0056]第^^一步:使用第十步得到的回歸結果修改Q(s,a)表格;
[0057]第十二步:將第七步得到的平均回報P作為輸入,使用高斯過程進行回歸操作,得到回歸結果;
[0058]第十三步:使用第十二步得到的回歸結果修改平均回報P;
[0059]第十四步:轉至第二步。
[0060]將云環境資源池中的虛擬機數量定義為平均強化學習的狀態空間,則本發明中每個決策時刻(云作業調度時刻),下一個狀態僅僅取決于當前狀態,滿足馬爾科夫性。
[0061]本發明中動作空間中包括2個動作,分別為接受當前被調度作業和拒絕當前被調度作業,可用向量(0,I)進行表示,其中O表示拒絕,I表示接受。
[0062]云計算是一種按需付費的使用模式,云服務提供商獲得的收益來自于用戶支付的費用,愿意支付的費用決定了接受的服務的質量是不同的,因此本發明將用戶作業的優先級(取決于用戶愿意支付的費用)定義為回報函數,因此,本發明的優化目標為根據資源池中可用的虛擬機數量,接受或拒絕用戶作業,以使得累計回報最大。
[0063]第一步至第九步的平均強化學習在實際的運行過程中,會由于云環境中數據中心的規模增大,導致狀態空間產生維數災難問題,本發明使用高斯過程回歸加速最優策略的生成,當第九步的條件不滿足,執行第十步及后面的步驟,使用高斯過程回歸加速最優策略的生成。
[0064]所述第四步中使用貪心策略從動作集合a中選擇動作。
[0065]所述第七步中,按照公式P—P+0*[r-p+maxa,Q(s’,a’)_maxaQ(s,a)]更新平均回報P,其中βε[0,1]為累積回報折扣因子。
[0066]所述第十一步中,使用第十步得到的回歸結果替換之前的值。
[0067]所述第十三步中,使用第十二步得到的回歸結果替換之前的平均回報P。
[0068]如圖2所示是經過2000000步后,帶高斯過程回歸的平均強化學習得到的最優策略示意圖,圖3所示是經過2000000步后,不帶高斯過程回歸的平均強化學習得到的最優策略示意圖,通過對比可知,本實施例大幅度減少了得到最優策略的學習迭代時間,提高了云資源的利用率。
【主權項】
1.一種基于平均強化學習和高斯過程回歸的云作業接入控制方法,其特征在于,包括: 準備階段: 定義狀態空間:將云環境資源池中的虛擬機數量定義為平均強化學習的狀態空間;定義動作空間:動作空間中包括2個動作,分別為接受當前被調度作業和拒絕當前被調度作業; 定義回報函數:將用戶愿意支付的費用定義為回報函數; 執行階段: 第一步:初始化P和Q( S,a),其中P表示平均回報,Q( s, a)為二維表格,行s為系統狀態,列a為動作空間; 第二步:設置更新步長,執行迭代; 第三步:將變量i設置為O,將s設置為當前狀態; 第四步:從動作空間a中選擇動作; 第五步:執行選擇的動作,得到當前狀態的立即回報值r和下一個系統狀態s ’ ; 第六步:按式Q(s,a)—Q(s,a)+a*[r-p+maxa,Q(s’,a’)-Q(s,a)]更新Q(s,a),其中,a’代表系統狀態s’下的動作空間,ae(0,I)代表學習速率; 第七步:判斷是否滿足(^3)=11^4(8,&),若是則更新平均回報0然后轉第八步,若否則直接轉第八步; 第八步:令i = i+l; 第九步:若i小于更新步長,令s = s’,轉至第二步,若i不小于更新步長,則轉至第十步; 第十步:將Q(s,a)表格中的數據作為輸入,使用高斯過程進行回歸操作,得到回歸結果; 第i^一步:使用第十步得到的回歸結果修改Q (s,a)表格; 第十二步:將第七步得到的平均回報P作為輸入,使用高斯過程進行回歸操作,得到回歸結果; 第十三步:使用第十二步得到的回歸結果修改平均回報P; 第十四步:轉至第二步。2.根據權利要求1所述的一種基于平均強化學習和高斯過程回歸的云作業接入控制方法,其特征在于,所述第四步中使用貪心策略從動作集合a中選擇動作。3.根據權利要求1所述的一種基于平均強化學習和高斯過程回歸的云作業接入控制方法,其特征在于,所述第七步中,按照公式P—ρ+β* [r-p+maxa,Q(s ’,a ’)_maxaQ(s,a)]更新平均回報P,其中陽[0,1]為累積回報折扣因子。
【文檔編號】H04L29/08GK105959353SQ201610261723
【公開日】2016年9月21日
【申請日】2016年4月22日
【發明人】崔得龍, 彭志平, 李啟銳, 許波, 柯文德
【申請人】廣東石油化工學院