本發明涉及智能系統故障自愈能力測試,具體涉及一種智能群系統故障自愈能力的測試方法、裝置及設備。
背景技術:
1、智能群系統自愈能力指的是當系統中部分智能體發生故障之后,系統能夠保持或恢復任務執行能力。對系統自愈能力的測試通常是采用注入故障的方式通過有意地向系統中注入故障或錯誤來模擬異常情況,來觀測系統故障前后的反應和恢復能力,最終評價系統的自愈能力。現階段,智能群系統協同決策大多基于多智能體強化學習技術,其工作機理具有黑箱性、智能化水平高、運行狀態空間規模龐大,給故障注入機制的設計帶來了很大的挑戰。在此情形下,如何合理地注入故障將是影響自愈能力測試效率和測試效果的關鍵措施。
2、傳統的故障注入方法高度依賴人類經驗且隨機性高,智能系統工作機理具有黑箱性、智能化水平高、運行狀態空間規模龐大,人類經驗難以準確把握故障注入時機,隨機注入故障將會導致難以高效發掘系統的能力缺陷,因此,傳統的故障注入方式測試結果不可靠、測試效率低,難以滿足智能系統自愈能力的測試評價需求。
技術實現思路
1、有鑒于此,本發明提供了一種智能群系統故障自愈能力的測試方法、裝置及設備,以解決采用現有的故障注入方式得到智能系統故障自愈能力的測試結果不可靠、測試效率低,難以滿足智能系統自愈能力的測試評價需求的問題。
2、第一方面,本發明提供了一種智能群系統故障自愈能力的測試方法,所述方法包括:
3、將智能群系統故障自愈能力測試中的故障注入決策過程建模為馬爾可夫決策過程,并設置被測智能群系統的狀態空間、故障注入決策空間和故障注入獎勵機制和策略初始參數;
4、將求解所述馬爾可夫決策過程,建模為被測智能群系統自愈能力測試模型生成故障注入決策的過程;
5、基于所述系統狀態空間、故障注入決策空間和故障注入獎勵機制和策略初始參數,利用預設強化學習算法結合無效動作掩碼機制訓練被測智能群系統自愈能力測試模型,直至模型參數收斂得到故障注入模型;
6、將所述故障注入模型生成的故障注入決策注入被測智能群系統與運行環境中,根據其產生的交互數據得到故障自愈能力的測試結果。
7、本實施例提供的智能群系統故障自愈能力的測試方法,將智能群系統的自愈能力測試問題建模成馬爾可夫決策過程,并采用策略梯度算法實現故障注入決策的設計;并基于故障注入自身約束條件對模型訓練的限制,增加無效動作掩碼的方式解決有約束條件下模型的訓練問題;本實施例提供的測試方法可以根據智能體群任務執行的狀態,自適應決定何時注入哪個智能體的故障,以快速發掘智能群系統的自愈能力缺陷,提升自愈能力測試效率。
8、在一種可選的實施方式中,所述馬爾可夫決策過程定義為:
9、<s,a,p,ρ0,r,γ,t,avalid>,
10、其中,s表示被測智能群系統的狀態空間;a表示故障注入的決策空間,表示在預設狀態下采取的動作受約束條件a_valid限制,p:s×a×s→[0,1]表示狀態轉移概率;ρ0:s→[0,1]表示初始狀態分布;r:s×a→r表示獎勵函數;γ∈[0,1]表示獎勵的衰減因子;t表示一輪馬爾可夫決策過程的最大長度;策略πθ:s×a→[0,1]將為給定的狀態下各個待選的故障注入決策分配一個概率值,策略πθ的參數由θ表示;
11、馬爾可夫決策過程的目標在于最大化策略的期望折扣獎勵:
12、
13、其中,τ表示決策過程的軌跡(s0,a0,r0,...,st-1,at-1,rt-1),s0~ρ0,st~p(·|st-1,at-1),at~πθ(·|st),rt=r(st,at)。
14、本發明實施例將智能群系統的自愈能力測試問題建模成馬爾可夫決策過程,可以設置被測智能群系統的狀態空間、故障注入的決策空間和策略參數,模擬智能體與環境交互過程,進而可引入強化學習理論解決故障注入決策問題。
15、在一種可選的實施方式中,采用策略梯度算法求解所述馬爾可夫決策過程,以構建智能群系統自愈能力測試模型,所述策略梯度算法根據期望折扣獎勵j關于策略參數θ的策略梯度進行梯度上升操作,最終最大化策略πθ的期望折扣獎勵。
16、本發明實施例采用策略梯度算法可以在較大狀態空間和大行為空間的情況下具有較好的計算效率,從而提高訓練的效率。
17、在一種可選的實施方式中,所述無效動作掩碼機制基于被測智能群系統的故障注入決策的約束條件確定。
18、本發明實施例基于故障注入決策的約束條件確定無效動作掩碼機制,以避免采樣出禁止執行的故障注入決策。
19、在一種可選的實施方式中,所述策略πθ用神經網絡進行表征,并輸出未歸一化的各故障注入決策對應的分數,所述無效動作掩碼機制包括:
20、在訓練時,策略神經網絡輸出的各個故障注入決策對應的分數中,將不符合故障注入決策的約束條件的無效故障注入決策對應的分數修改成一個足夠小的負數使故障注入決策被采樣的概率接近0,以滿足所述故障注入決策的約束條件。
21、本發明實施例通過將無效故障注入決策被采樣的概率接近0,以實現避免采樣出禁止執行的動作,滿足故障注入決策的約束條件。
22、在一種可選的實施方式中,所述故障注入決策的約束條件包括:注入時刻、注入次數、注入概率。
23、本發明實施例根據智能體系統具體的行為規則對應設置故障注入決策的約束條件。
24、第二方面,本發明提供了一種智能群系統故障自愈能力的測試裝置,所述裝置包括:
25、第一建模模塊,用于將智能群系統故障自愈能力測試中的故障注入決策過程建模為馬爾可夫決策過程,并設置被測智能群系統的狀態空間、故障注入決策空間和故障注入獎勵機制和策略初始參數;
26、第二建模模塊,用于將求解所述馬爾可夫決策過程,建模為被測智能群系統自愈能力測試模型生成故障注入決策的過程;
27、故障注入決策生成模塊,用于基于所述系統狀態空間、故障注入決策空間和故障注入獎勵機制和策略初始參數,利用預設強化學習算法結合無效動作掩碼機制訓練被測智能群系統自愈能力測試模型,直至模型參數收斂得到故障注入模型;
28、測試模塊,用于將所述故障注入模型生成的故障注入決策注入被測智能群系統與運行環境中,根據其產生的交互數據得到故障自愈能力的測試結果。
29、第三方面,本發明提供了一種計算機設備,包括:存儲器和處理器,存儲器和處理器之間互相通信連接,存儲器中存儲有計算機指令,處理器通過執行計算機指令,從而執行上述第一方面或其對應的任一實施方式的智能群系統故障自愈能力的測試方法。
30、第四方面,本發明提供了一種計算機可讀存儲介質,該計算機可讀存儲介質上存儲有計算機指令,計算機指令用于使計算機執行上述第一方面或其對應的任一實施方式的智能群系統故障自愈能力的測試方法。
31、第五方面,本發明提供了一種計算機程序產品,包括計算機指令,計算機指令用于使計算機執行上述第一方面或其對應的任一實施方式的智能群系統故障自愈能力的測試方法。