本發明涉及深度學習人工智能,尤其涉及一種基于深度強化學習的災后修復性維修決策方法。
背景技術:
1、隨著現代社會的快速發展,集群系統在電力系統、通信網絡、交通網絡等大規模分布式基礎設施中得到了廣泛應用。這些集群系統通常由多個關鍵節點和鏈接組成,以確保系統的穩定運行和高效服務。然而,極端事件如地震、臺風等自然災害的發生,可能導致集群系統中部分節點和鏈接的嚴重損壞,從而顯著降低系統的整體性能,甚至導致系統的局部或完全失效。
2、災后修復性維修是集群系統運維中的一個關鍵問題,尤其在極端事件后如何快速恢復系統的正常運行,對社會和經濟的影響極為重要。傳統的災后修復策略往往依賴于人工經驗或簡單的規則算法,這些方法在應對現代集群系統的復雜性和大規模分布式特性時表現出明顯的不足。具體而言,現有方法難以在有限的時間內處理大量的受損節點和鏈接,同時缺乏有效的優化手段來協調多個維修團隊的協同作業,導致修復過程耗時長、效率低下,系統的恢復速度和效果難以令人滿意。
3、為了克服上述技術難題,近年來,基于人工智能和深度學習的災后修復策略得到了越來越多的關注和研究。其中,深度強化學習(deep?reinforcement?learning,?drl)因其能夠在動態和不確定性環境中通過持續學習獲得最優決策策略,成為災后修復領域的重要研究方向。通過引入深度強化學習算法,可以在極端事件發生后,自動生成多維修團隊的優化調度策略,實時調整修復順序和路徑規劃,從而顯著提高系統的恢復效率和效果。
4、此外,復雜網絡模型作為分析和優化集群系統的一種有效工具,可以用于模擬和評估極端事件對系統的破壞程度,識別出對系統恢復至關重要的關鍵節點和鏈接。通過結合復雜網絡建模和深度強化學習算法,可以實現對災后修復性維修策略的動態優化,確保集群系統在極端事件后的快速恢復。
5、針對集群系統運維中的修復性維修這類典型問題,聚焦該類問題的代表性前沿問題——集群系統“災后搶修”策略問題,對于地震、臺風等極端事件影響下集群系統快速搶修及性能恢復的運維工作具有重要意義,其問題的難點在于地理空間上的大規模分布式集群系統在其災后搶修工作中,需關注集群系統超大規模節點集的破壞狀態以及集群連通性,并且通過復雜網絡建模的方法對集群系統進行抽象進而分析節點間鏈接的破壞狀態,在此基礎上綜合分析集群系統在極端事件影響下的時間動態特征,與此同時,對于負責災后搶修工作的保障系統而言,由于維修人員、備件和保障設備等因素仍然存在一定差異,導致整個災后搶修過程中各個維修團隊在其維修保障業務水平上表現出不盡相同的時空動態特征。因此,對于災后搶修方案而言,需考慮極端事件場景下集群系統大規模分布式節點及其鏈接的破壞狀態,節點及其鏈接的維修時序,關鍵樞紐節點及其鏈接對集群性能恢復的影響程度,并且在此基礎上合理規劃多維修團隊的維修保障任務,從而導致集群系統災后搶修策略問題具有大規模節點鏈接維修時序與多維修團隊路徑規劃的耦合特征。
技術實現思路
1、為了解決上述的技術問題,本發明提出了一種基于深度強化學習的災后修復性維修決策方法,旨在通過復雜網絡模型和深度強化學習算法的結合,為大規模分布式集群系統的災后修復提供一種高效、智能的解決方案。該方法能夠在極端事件后,通過動態調整多維修團隊的修復策略,最小化系統恢復過程中的彈性損失,從而實現系統的快速、高效恢復,確保集群系統在災后能夠盡快恢復正常運行。
2、為了實現上述的目的,本發明采用了以下的技術方案:
3、一種基于深度強化學習的災后修復性維修決策方法,該方法包括以下步驟:
4、1)針對集群系統中的節點和鏈接構建復雜網絡模型,模擬極端事件對該集群系統造成的局部破壞,生成損傷鄰接矩陣和節點狀態向量;
5、2)采用基于actor-critic架構的深度強化學習算法,設計并訓練策略-價值神經網絡(ac-net),用于預測在當前集群系統狀態下的維修動作的策略函數和價值函數;
6、3)基于蒙特卡洛樹搜索算法(mcts),結合策略-價值神經網絡的輸出,執行多維修團隊的修復性維修動作的搜索和優化,生成各維修團隊的最優修復路徑和時序;
7、4)在修復過程中,動態調整各維修團隊的維修策略,根據集群系統的實時恢復狀態和網絡特征,最小化系統恢復的彈性損失,并提高系統整體性能的恢復速度。
8、作為優選,所述復雜網絡模型包括:
9、針對集群系統的節點及其之間的鏈接關系,構建網絡拓撲圖,其中節點表示集群系統中的關鍵單元,鏈接表示節點之間的通信或能量傳輸路徑;
10、通過仿真極端事件,隨機生成破壞中心和破壞半徑,確定受損區域內的節點和鏈接的損壞情況,形成損傷鄰接矩陣。
11、作為優選,在局部攻擊之前,集群系統有一個鄰接矩陣 a,局部破壞在時間τd隨機初始化為破壞中心和破壞半徑;然后生成損傷鄰接矩陣 a d和節點向量sdnodes;
12、(1.1)
13、其中當節點ni被破壞時sinode=0,否則?sinode=1。
14、作為優選,所述策略-價值神經網絡(ac-net)包括:
15、一個用于處理節點和鏈接狀態信息的輸入層;
16、一個深度殘差網絡(resnet)模塊,用于提取集群系統當前狀態的深度特征;
17、一個策略輸出模塊,用于生成下一步維修動作的先驗概率矩陣;
18、一個價值輸出模塊,用于評估當前狀態下的修復策略效果。
19、作為優選,所述蒙特卡洛樹搜索算法包括:
20、在當前集群系統狀態下,基于策略-價值神經網絡輸出的先驗參數,通過蒙特卡洛樹搜索執行維修動作的搜索過程;
21、利用上限置信區間(ucb)策略,在樹搜索過程中平衡維修動作的探索與利用,以生成全局最優的維修策略序列。
22、作為優選,所述多維修團隊的修復時序和路徑規劃包括:
23、針對不同的維修團隊,根據其維修能力、節點位置及鏈接的破壞情況,生成多維修團隊的路徑規劃和修復時序;
24、在規劃過程中,通過actor-critic架構優化多個維修團隊的協同動作,以最小化系統恢復的彈性損失。
25、作為優選,選用集群效能(figure?of?merit,fom)作為性能定量指標,將集群系統的平均效率 e( g)?歸一化如下,以定義時間τ上的fom:
26、(1.2)
27、其中?e*(g)?是局部攻擊事件發生前的平均效率,eτ(g)?是τ時刻的平均效率;
28、假設局部攻擊事件發生在時間τd,并導致集群功能性能急劇下降;然后,集群執行修復性維修動作以從局部攻擊中恢復,之后其功能性能提高,并在時間τd達到fom閾值fomthr下彈性損失 rl來量化集群因局部攻擊而遭受的損失:
29、(1.3)。
30、作為優選,極端事件下的集群災后搶修被視為多維修團隊的修復性維修決策(corrective?maintenance?decision,cmd)問題,為了實現最優恢復,該cmd問題旨在在有限恢復時間和確定恢復水平的情況下最小化 rl,多個維修團隊的cmd問題的模型表示如下:
31、
32、在約束條件(1.5)中, c是維修團隊編號,f={1,2,…, ncre}是由 ncre個維修團隊組成的保障系統集群, t c是維修團隊 c的維修時間步長,tc{1,2,…,?tc}是在其自身維修過程中設置的時間步長,a*tc表示時間步長 t c的維修動作, ω c是維修團隊 c的動作序列集;
33、在約束條件(1.6)中, t是該維修團隊的維修時間步長并且t={1,2,…,t}維修團隊時間步長集,a*t表示時間步長 t的維修動作, ω是維修團隊動作序列集;
34、約束(1.7)表示保障系統集群動作序列集 ω和每個維修團隊動作序列集 ω之間的關系;
35、在約束條件(1.8)中τ(a*tc)表示執行動作a*tc的時間間隔,τthr是恢復時間閾值;
36、約束條件(1.8)強制維修團隊的總修復時間低于閾值恢復時間,而約束條件(1.9)強制集群性能在時間τr達到fom閾值。
37、作為優選,所述方法適用于分布式電力系統集群中的修復性維修,該系統在極端事件下的損壞修復中,通過所述方法能夠有效提高系統恢復速度和性能。
38、進一步,一種計算機可讀存儲介質,其上存儲有計算機程序或指令,該計算機程序或指令被處理器執行時實現所述方法。
39、本發明由于采用了上述的技術方案,提出了一種基于深度強化學習的災后修復性維修決策方法,通過結合復雜網絡模型和深度強化學習算法,有效地解決了傳統災后修復方法在應對集群系統大規模破壞時的效率低、反應慢等問題,取得了顯著的技術效果,具體表現在以下幾個方面:
40、1、提升系統恢復效率:本發明通過深度強化學習算法(drl)優化多維修團隊的調度和路徑規劃,能夠在極端事件后迅速生成最優修復策略。相比于傳統的人工經驗或簡單規則算法,本發明能夠更有效地協調多維修團隊的協同工作,確保關鍵節點和鏈接在最短時間內得到修復,從而顯著提高系統的恢復速度。
41、2、動態調整修復策略:本發明引入了基于actor-critic架構的深度強化學習模型,能夠根據集群系統的實時恢復狀態和損壞情況,動態調整維修團隊的任務分配和修復順序。這種動態調整機制使得修復過程更加靈活,能夠迅速應對突發情況或次生災害,確保修復策略的最優性和適應性。
42、3、最小化系統恢復過程中的彈性損失:通過復雜網絡模型對系統中節點和鏈接的關鍵性進行評估,本發明能夠識別出對系統性能恢復至關重要的節點和鏈接,并優先進行修復。結合深度強化學習算法的優化決策,本發明能夠最小化系統在災后恢復過程中的彈性損失,確保集群系統性能在最短時間內恢復至接近災前水平。
43、4、適應多種分布式集群系統的災后修復:本發明的方法不僅適用于電力系統,還可以廣泛應用于通信網絡、交通網絡等其他類型的大規模分布式集群系統。通過復雜網絡建模和深度強化學習算法的結合,本發明在多種應用場景下均能實現高效、快速的災后修復,具有良好的通用性和擴展性。
44、5、增強系統應對極端事件的彈性:本發明通過持續優化和迭代修復策略,使得集群系統在極端事件后的應對能力和恢復能力顯著增強。該方法不僅能夠應對已知的災害情況,還能夠通過學習新的損壞模式,逐步提高系統的彈性,增強其面對未來可能發生的極端事件的恢復能力。
45、綜上所述,本發明通過將復雜網絡模型與深度強化學習相結合,實現了對災后修復性維修決策的智能化、動態化和最優化,不僅提高了集群系統在極端事件后的恢復速度和效率,還最大限度地減少了恢復過程中的彈性損失,為大規模分布式集群系統的災后修復提供了一種先進的技術手段。