一種基于擬合強化學習的空戰行為建模方法
【專利摘要】本發明提出了一種基于擬合強化學習的空戰行為建模方法,解決了虛擬空戰仿真中戰術動作的智能決策問題。本方法包含:對飛機作戰過程的軌跡進行采樣;在狀態空間中對效用函數進行擬合,通過貝爾曼迭代和最小二乘法擬合對效用函數進行近似計算;作戰決策,通過前瞻測試,在預測過程中采用所擬合的效用函數進行動作決策,根據預測的執行結果確定最終執行的動作。本發明方法可有效提高效用函數的擬合效率以及獲取效率,相對傳統方法,本發明方法能更快地獲取最優行動策略。
【專利說明】一種基于擬合強化學習的空戰行為建模方法
【技術領域】
[0001] 本發明屬于計算機仿真【技術領域】,具體涉及一種用于飛機的空戰智能決策任務的 實現方法。
【背景技術】
[0002] 隨著無人機系統在現代戰場中承擔的任務越來越復雜,對無人機的智能決策水 平的要求也越來越高;空戰決策無疑是其中難度水平最高的任務之一。
[0003] 強化學習技術是由學習對象通過"試錯"的方式與行為環境進行交互,通過即時 回報的累積來獲取自身最優行動策略的一種方法。但在傳統的強化學習過程中,為了使行 動策略能夠有效收斂,一種常用的處理方式是對狀態空間各維度進行離散化,從而獲取"有 限"的基本狀態單元;行動策略就是基于這些基本單元進行不斷嘗試,從而找到叢初始單元 到目標單元的軌跡;最優策略是其中最短的。
[0004] 但是,如果狀態空間的維度較高,即時基本單元的數量是有限的,其數量規模也將 達到很可觀的水平;在這樣的環境中,尋找最優策略的收斂過程將及其漫長。
【發明內容】
[0005] 針對現有問題,本發明提供了一種基于擬合強化學習的空戰行為建模方法,采用 近似擬合的方法對空戰決策問題求解,將近似的擬合方法應用到空戰決策問題,以快速獲 得最優策略。
[0006] 設紅方飛機和藍方飛機進行作戰,本發明的基于擬合強化學習的空戰行為建模方 法,用于紅方飛機,具體實現步驟如下:
[0007] 步驟1 :數據采樣;
[0008] 采用軌跡采樣法,對飛機作戰過程的軌跡進行記錄,獲取采樣點集合X;
[0009] 步驟2:效用函數擬合;
[0010] 采用適于連續狀態空間函數的擬合方法擬合效用函數J(X),X為態勢(或稱狀 態);具體擬合方法為:首先,選取特征量描述空戰狀態空間,所有選取的特征量組成一個 特征向量,用特征向量表示集合X中的每個狀態X;然后,基于采樣點集合X,使用貝爾曼迭 代以及最小二乘法,進行效用函數的擬合;
[0011] 步驟3:作戰決策;
[0012] 對當前的狀態X,采用前瞻測試對紅方飛機的所有動作的執行后果進行預測,選取 預測結果最好的動作執行。所述的前瞻測試是一種虛擬執行的方法,以指定的動作開始虛 擬推進作戰過程,直到完成指定的回合數。前瞻測試的每個回合中紅方飛機均采用步驟2 得到的效用函數進行動作決策。
[0013] 所述的步驟1進行數據采樣的具體過程為:
[0014] ?建立紅方、藍方飛機,給定紅、藍雙方的初始態勢;
[0015] 魯雙方均采用式(1)定義的即時回報函數S(X),進行動作決策,展開空戰。動作 決策時,選取在當前態勢下,使己方即時回報函數值最大、同時使對方即時回報函數值最小 的動作。
[0016]
【權利要求】
1. 一種基于擬合強化學習的空戰行為建模方法,用于作戰的紅方飛機,其特征在于,該 空戰行為建模方法包括如下三個步驟: 步驟1:數據采樣; 采用軌跡采樣法,對飛機作戰過程的軌跡進行記錄,獲取采樣點集合X; 步驟2:效用函數擬合; 首先,選取特征量描述空戰狀態空間,所有選取的特征量組成一個特征向量,用特征向 量表示集合X中的每個狀態x;然后,基于采樣點集合X,使用貝爾曼迭代以及最小二乘法, 進行效用函數的擬合; 設效用函數擬合時的循環次數為N,在第k輪循環中執行下面(2.1)和(2.2),k= 1,2,…,N; (2. 1)獲得藍方飛機對于集合X決策的動作向量Ab; (2. 2)獲得紅方飛機的動作向量Ar,以及當前循環下的優化效用嚴,
對應得到的最大F值為/fc;A為折扣因子,〇〈A〈1 ;嚴-1表示第k-1次循環得到的效用函 數:
為根據集合X得到的即時回報函數值向量;f(X,A,Ab)表示在狀態X 下,紅方飛機動作向量為A、藍方飛機動作向量為Ab的情況下到達的下一個狀態向量;k表 示第k次循環中特征向量〇的擬和系數;根據式(3)得到當前循環下的優化效用尸; 第N次循環輸出的/w為擬合得到的效用函數; 步驟3 :作戰決策; 對當前的狀態X,采用前瞻測試對紅方飛機的所有待選動作的執行后果進行預測,選取 預測結果最好的動作執行;所述的前瞻測試是一種虛擬執行的方法,以指定的動作開始虛 擬推進作戰過程,直到完成指定的回合數;前瞻測試的每個回合中紅方飛機均采用步驟2 得到的效用函數進行動作決策。
2. 根據權利要求1所述的一種基于擬合強化學習的空戰行為建模方法,其特征在于, 所述的數據采樣,具體過程為: (1) 首先,建立紅方、藍方飛機,給定紅、藍雙方的初始狀態; (2) 然后,雙方均采用下面定義的即時回報函數S(x),進行動作決策,展開空戰;在動 作決策時,選取在當前狀態x下,使己方即時回報函數值最大、同時使對方即時回報函數值 最小的動作;
其中,AA表示脫離角,ATA表示進入角;R表示兩架飛機之間的距離,Rd表示兩架飛機 之間的相對最佳距離;k為影響因子,用來調整距離和角度的相對影響; (3)對飛機交戰的軌跡采樣,形成采樣點集合X。
3. 根據權利要求1所述的一種基于擬合強化學習的空戰行為建模方法,其特征在于, 所述的步驟2中選取的特征量包括:兩機之間的歐式距離R,脫離角AA,脫離角的變化率 尤4,脫離角的絕對值IAA|,進入角ATA,進入角的變化率4九4,進入角的絕對值|ATA|,偏航 角的偏差HCA,以及偏航角偏差的絕對值|HCA|。
4. 根據權利要求1或3所述的一種基于擬合強化學習的空戰行為建模方法,其特征在 于,步驟3中所述的前瞻測試,對紅方飛機的每個待選動作根據當前的狀態x和藍方飛 機的決策動作,獲得下一狀態?,然后從狀態?開始,預測NMll個決策步長之后的未來狀 態;cWroH〇
5. 根據權利要求4所述的一種基于擬合強化學習的空戰行為建模方法,其特征在于, 步驟3中所述的前瞻測試,對紅方飛機的每個待選動作預測NMll個決策步長之后的未來 狀態選取使下式J值最大對應的動作作為最佳動作;
【文檔編號】G06F17/50GK104484500SQ201410665956
【公開日】2015年4月1日 申請日期:2014年11月19日 優先權日:2014年9月3日
【發明者】馬耀飛, 馬小樂, 宋曉, 龔光紅 申請人:北京航空航天大學