專利名稱:基于多智能體強化學習的大規(guī)模服務組合優(yōu)化方法
技術領域:
本發(fā)明屬于人工智能領域,涉及利用計算機對Web服務組合自適應優(yōu)化的方法。
背景技術:
面對復雜多變的市場環(huán)境和激烈的競爭,企業(yè)迫切需要應用的集成和電子商務技術的支持,以便提高自身在市場的競爭力和適應性。由于Web服務所具有的特性,使得它非常適合于當今跨企業(yè)商務應用的集成,工業(yè)界和學術界都希望能夠通過組合現(xiàn)有的Web服務來創(chuàng)造出新的服務功能。為了實現(xiàn)企業(yè)間信息系統(tǒng)的應用互操作和應用集成,可以通過對企業(yè)應用系統(tǒng)進行Web服務封裝,建立面向服務的框架體系,提供Web訪問的接口,將企業(yè)之間的應用系統(tǒng)以Web服務的方式集成起來,實現(xiàn)跨企業(yè)的服務組合與協(xié)作,并通過跨企業(yè)工作流系統(tǒng)實現(xiàn)業(yè)務流程的自動化。Web服務組合技術就是實現(xiàn)上述目標的一個重要途徑。它將多個Web服務按照一定的規(guī)則,發(fā)現(xiàn)并組裝成一個增值的、更大力度的服務,以滿足用戶的復雜需求。但是,由于Internet環(huán)境所特有的復雜性與多變性,組成復合服務的服務組件,在復合服務的執(zhí)行過程中,可能發(fā)生動態(tài)變化,這使得組成復合服務的服務組件很難在設計階段或編譯階段確定下來。因此,需要進行動態(tài)web服務組合,來適應動態(tài)變化的復雜業(yè)務環(huán)境。另外一個問題就是服務的質(zhì)量問題,即QoS屬性問題。因為網(wǎng)絡有上許多提供相同功能的服務,選擇一個具有最優(yōu)QoS屬性的服務也是非常重要的。而且,Web服務在運行過程中其QoS屬性也可能發(fā)生動態(tài)變化。如Web服務經(jīng)過一段時間的運行后,其QoS無法滿足客戶的需求。所以Web服務組合,也需要適應動態(tài)變化的復雜業(yè)務環(huán)境,以維持在一個良好的運行狀態(tài)和具有一定的容錯功能。目前,靜態(tài)服務組合事先·就要確定參與流程的Web服務,要求開發(fā)者手動去執(zhí)行服務組裝和服務執(zhí)行。因此,這個過程是困難,耗時和易出錯的,而且不能適應動態(tài)的環(huán)境。基于馬爾可夫決策過程(Markov Decision Process,MDP)是隨機環(huán)境下序列決策問題的定量化表達框架。隨機環(huán)境下的序列決策問題,是指決策者在每個觀測點上都要做出決策,并且決策時不知道下一個狀態(tài)上的決策信息。一般來講,這種決策問題不僅需要考慮當前決利益,還需要考慮當前決策對未來的影響,使系統(tǒng)的運行達到最優(yōu)。Doshi提出了 MDP在Web服務組合中的應用,用于產(chǎn)生工作流的動態(tài)Web服務組合。但是此方法需要知道狀態(tài)轉移概率和回報值函數(shù)的環(huán)境模型。而這在現(xiàn)實環(huán)境中通常是不可實現(xiàn)的。
發(fā)明內(nèi)容
技術問題:本發(fā)明提供一種在面對不確定和不可預測的環(huán)境時,能夠根據(jù)當時環(huán)境的變化在線制定出相應自適應行為策略的基于多agent強化學習的大規(guī)模服務組合優(yōu)化方法。技術方案:本發(fā)明的基于多智能體強化學習的大規(guī)模服務組合優(yōu)化方法,包括以下步驟:I)把Web服務組合的環(huán)境建模成一個6元組的Web服務組合馬爾可夫決策過程狀態(tài)轉移圖,即WSC-MDP=〈S,s0, st,A(s),P: [piaJ],R: [riaj]>,其中S為一系列原子動作從某個特定的初始狀態(tài)S0開始執(zhí)行的可達到的狀態(tài)集合,S0表示初始狀態(tài),表示動作還沒有發(fā)生時的狀態(tài),也即工作流的初值,St用戶的目標狀態(tài),也即工作流的終態(tài),A(S)表示W(wǎng)eb服務組合智能體在某一狀態(tài)s e S是可執(zhí)行的Web服務集合,P: [piaJ]:為系統(tǒng)在某一狀態(tài)時,調(diào)用該狀態(tài)下的可用的Web服務,系統(tǒng)進入下一狀態(tài)的概率,R: [riaJ]為某個狀態(tài)下調(diào)用服務的綜合評價回報值;2)初始化強化學習中Q學習算法的學習速率、折扣因子、Q值和公共Q值Qp ;3)把進行Web服務組合優(yōu)化的軟件實體作為能夠感知環(huán)境并能夠自主運行滿足設計目標的Web服務組合智能體,Web服務組合智能體感知環(huán)境中的狀態(tài)s ;4) Web服務組合智能體根據(jù)動作選擇策略選擇并執(zhí)行動作A(S),得到新的狀態(tài)s',同時從新的狀態(tài)s'中得到回報值r;5)對Q學習中的Q值進行計算和更新,并將更新后為的Q值作為Web服務組合監(jiān)督智能體的公共Q值,結束本次強化學習過程,Web服務組合監(jiān)督智能體為指導與同步每個Web服務組合智能體學習過程的軟件實體;6)判斷Q值是否收斂,如是,則把本次強化學習的結果作為最優(yōu)Web服務執(zhí)行工作流,否則回到步驟3)。本發(fā)明步驟2)中,智能體利用強化學習進行訓練,把學習過程看成一個試探評價的過程,如果智能體的某個Web服務選擇行為的回報值比其他Web服務要大,那么該智能體選擇該服務的趨勢將會加強;如果智能體的某個行為策略導致較低的回報值,那么智能體產(chǎn)生這個行為策略的趨勢會減弱。多智能體中強化學習就是智能體從環(huán)境到行為映射的學習,以使回報值最大。
本發(fā)明步驟4)中 的動作選擇策略為,按照下列方式之一選擇動作:a.隨機選擇可行的動作,b.選擇使當前Q值最大的動作;其中,有ε概率的可能按照方式a進行選擇,有1-ε概率的可能按照方式b進行選擇;ε選擇0.85較為合適。當按照方式b進行選擇時,由Web服務組合監(jiān)督智能體確定并告知Web服務組合智能體當前Q值最大的動作。公式為:
權利要求
1.一種基于多智能體強化學習的大規(guī)模服務組合優(yōu)化方法,其特征在于,該方法包括以下步驟: 1)把Web服務組合的環(huán)境建模成一個6元組的Web服務組合馬爾可夫決策過程狀態(tài)轉移圖,即WSC-MDP=<S, s0, st,A(s),P: [piaJ],R: [riaj]>,其中S為一系列原子動作從某個特定的初始狀態(tài)Sci開始執(zhí)行的可達到的狀態(tài)集合,S0表示初始狀態(tài),表示動作還沒有發(fā)生時的狀態(tài),也即工作流的初值,St用戶的目標狀態(tài),也即工作流的終態(tài),A(S)表示W(wǎng)eb服務組合智能體在某一狀態(tài)s e S是可執(zhí)行的Web服務集合,P: [piaJ]:為系統(tǒng)在某一狀態(tài)時,調(diào)用該狀態(tài)下的可用的Web服務,系統(tǒng)進入下一狀態(tài)的概率,R: [riaJ]為某個狀態(tài)下調(diào)用服務的綜合評價回報值; 2)初始化強化學習中Q學習算法的學習速率、折扣因子、Q值和公共Q值Qp; 3)把進行Web服務組合優(yōu)化的軟件實體作為能夠感知環(huán)境并能夠自主運行滿足設計目標的Web服務組合智能體,所述Web服務組合智能體感知環(huán)境中的狀態(tài)s ; 4)ffeb服務組合智能體根據(jù)動作選擇策略選擇并執(zhí)行動作A(S),得到新的狀態(tài)s',同時從新的狀態(tài)s'中得到回報值r; 5)對Q學習中的Q值進行計算和更新,并將更新后為的Q值作為Web服務組合監(jiān)督智能體的公共Q值,結束本次強化學習過程,所述Web服務組合監(jiān)督智能體為指導與同步每個Web服務組合智能體學習過程的軟件實體; 6)判斷Q值是否收斂,如是,則把本次強化學習的結果作為最優(yōu)Web服務執(zhí)行工作流,否則令k=k+l后回到步驟3),k為返回步驟3)的迭代次數(shù)。·
2.根據(jù)權利要求1所述的基于多智能體強化學習的大規(guī)模服務組合優(yōu)化方法,其特征在于,所述步驟4)中的動作選擇策略為: 按照下列方式之一選擇動作:a.隨機選擇可行的動作,b.選擇使當前Q值最大的動作; 其中,有e概率的可能按照方式a進行選擇,有1-e概率的可能按照方式b進行選擇; 當按照方式b進行選擇時,由Web服務組合監(jiān)督智能體確定并告知Web服務組合智能體當前Q值最大的動作。
3.根據(jù)權利要求1所述的基于多智能體強化學習的大規(guī)模服務組合優(yōu)化方法,其特征在于,所述步驟4)中回報值r的計算方法為:如果用戶認為服務提供商給出的服務質(zhì)量值越大即表明服務質(zhì)量越好,則按照公式(I)進行標準化,得到標準化值v’, V-min., -,max 本 minV二 j max- minLmax = mm 、(I) 如果用戶認為服務提供商給出的服務質(zhì)量值越小即表明服務質(zhì)量越好,則按照公式(2)進行標準化,得到標準化值V, 「max-V.丨-.max ^ mm i = s max- min[ i’niax 二 rmn其中max和min為該屬性中的最大值和最小值,v為要被標準化的服務屬性值,每次執(zhí)行選擇的Web服務,可得到該服務的屬性值V ; 根據(jù)下式將標準化值聚合成一個單一的回報值:
4.根據(jù)權利要求1所述的基于多智能體強化學習的大規(guī)模服務組合優(yōu)化方法,其特征在于,所述步驟5)中,根據(jù)下列的Q值公式對Q學習中的Q值進行計算和更新:
5.根據(jù)權利要求1所述的基于多智能體強化學習的大規(guī)模服務組合優(yōu)化方法,其特征在于,所述步驟6)中判斷Q值是否收斂的方法為:求取第k次迭代中計算Q值與第k-Ι次迭代中計算Q值的差值,對于k=l,則求取第I次迭代中計算Q值與初始化Q值的差值,如所述差值小于判定值,則判斷Q值收斂,否則判斷Q值未收斂,所述判定值為
全文摘要
本發(fā)明公開了一種基于多智能體強化學習的自適應組合服務優(yōu)化方法,將強化學習與智能體概念相結合,定義強化學習的狀態(tài)集為服務的前置后置條件,動作集為Web服務本身。初始化強化學習中Q學習的參數(shù),包括學習率、折扣因子和Q值。每個智能體執(zhí)行一個組合優(yōu)化任務。智能體可以感知當前狀態(tài),并根據(jù)動作選擇策略選擇當前狀態(tài)下的最優(yōu)動作。根據(jù)Q學習算法計算與更新Q值。一輪學習過程結束則進入下一輪學習,直至Q值收斂,獲得最優(yōu)策略。本發(fā)明根據(jù)當時環(huán)境變化在線制定出相應的自適應行為策略,具有較高的靈活性與自適應性,具有較高的實用價值。
文檔編號H04L29/08GK103248693SQ201310161238
公開日2013年8月14日 申請日期2013年5月3日 優(yōu)先權日2013年5月3日
發(fā)明者王紅兵, 王曉珺 申請人:東南大學