本發明涉及目標識別,尤其涉及一種基于深度強化學習的戰場目標跨域識別方法及系統。
背景技術:
1、現代戰爭形態的不斷演變,戰場環境日趨復雜多變。
2、準確、實時地識別戰場中的目標對象,對于戰場態勢感知、指揮決策和武器控制等方面具有重要意義。
3、傳統的目標識別方法主要針對特定環境下的目標進行訓練和識別,在面對新的戰場環境時,往往難以直接應用,需要重新采集該環境下的目標數據并進行模型訓練,適應性和泛化能力較差。
4、現有的基于深度學習的跨域目標識別方法仍然存在一些不足,忽略了決策層面的優化,并且需要大量的目標域數據用于訓練,在實際應用中難以滿足。
5、綜上所述,本發明結合深度學習和強化學習的優勢,通過構建馬爾科夫決策過程和設計深度強化學習模型,實現了目標域圖像的自適應識別,不僅考慮了特征層面的對齊,還通過策略優化實現了決策層面的自適應,提高了跨域識別的性能和魯棒性,能夠解決現有技術中的問題。
技術實現思路
1、本發明實施例提供一種基于深度強化學習的戰場目標跨域識別方法及系統,能夠解決現有技術中的問題。
2、本發明實施例的第一方面,
3、提供一種基于深度強化學習的戰場目標跨域識別方法,包括:
4、基于源域戰場環境和目標域戰場環境,分別獲取有標注的源域目標圖像和無標注的目標域目標圖像,通過深度卷積神經網絡模型,提取得到源域圖像特征和目標域圖像特征;
5、基于對抗式域適應網絡,通過對抗訓練,將所述源域圖像特征和所述目標域圖像特征映射到相同的特征空間,學習共同特征表示,通過減小分布差異,得到目標域圖像域適應特征;
6、將所述目標域圖像域適應特征輸入深度強化學習模塊,通過智能體與包含狀態空間、動作空間和獎賞函數的強化學習環境的交互探索,學習針對目標域戰場目標識別任務的最優分類策略,并基于最優分類策略對目標域圖像域適應特征進行分類,輸出戰場目標跨域識別結果。
7、在一種可選的實施例中,
8、所述深度卷積神經網絡模型包括:
9、以resnet-50作為骨干網絡,構建深度可變形卷積神經網絡,通過在初始位置設置附加卷積層學習位置偏移量,并將resnet-50的第三、第四、第五殘差塊中的卷積層替換為可變形卷積層,對卷積采樣的位置進行自適應調整,獲得原始特征圖;
10、在每個所述可變形卷積層之后,并聯空間注意力模塊和通道注意力模塊,其中所述空間注意力模塊通過全局平均池化和全連接層學習原始特征圖各個位置的空間重要度,得到空間注意力權重;所述通道注意力模塊通過全局平均池化、全連接層和sigmoid激活函數學習不同特征通道的通道重要度,得到通道注意力權重,將所述空間注意力權重和所述通道注意力權重與所述原始特征圖相乘,得到加權特征圖;
11、在所述深度可變形卷積神經網絡的第三、第四、第五殘差塊之后,基于所述加權特征圖,提取對應層級的多尺度特征圖,采用自適應上采樣或自適應下采樣,對所述多尺度特征圖的尺寸進行調整,保持尺寸一致,通過逐元素相加,進行多尺度特征融合,獲得圖像特征。
12、在一種可選的實施例中,
13、基于對抗式域適應網絡,通過對抗訓練,將所述源域圖像特征和所述目標域圖像特征映射到相同的特征空間,學習共同特征表示,通過減小分布差異,得到目標域圖像域適應特征包括:
14、所述對抗式域適應網絡通過預先構建的特征映射器,接收源域圖像特征和目標域圖像特征,并分別映射到公共特征空間,得到源域公共空間特征和目標域公共空間特征;
15、通過預先構建的域混淆特征傳播模塊,接收源域公共空間特征和目標域公共空間特征,通過將源域公共空間特征和目標域公共空間特征分別輸入到兩個獨立的全連接層得到源域初始混淆特征和目標域初始混淆特征,并在源域和目標域之間交替傳播,經過多次迭代,得到最終源域混淆特征和最終目標域混淆特征,其中在每次迭代中,通過加權求和并經過激活函數得到每次迭代對應的源域混淆特征和目標域混淆特征;
16、所述源域混淆特征和目標域混淆特征構成混淆特征,輸入預先構建的域判別器,判斷所述混淆特征是源域混淆特征或目標域混淆特征,并通過最大化域判別損失,迭代優化域判別器;
17、通過預先構建的特征分類器,接收源域混淆特征,對所述源域圖像特征進行標注預測,結合源域圖像特征對應的真實標注,通過最小化分類損失對所述特征分類器進行迭代優化;
18、構建域混淆損失,通過最小化源域混淆特征在域判別器中的源域判別損失和目標域混淆特征在域判別器中的目標域判別損失,迭代優化特征生成器;
19、聯合優化所述特征生成器、域混淆特征傳播模塊和域判別器,協同學習域混淆特征表示;固定特征生成器和域混淆特征傳播模塊的參數,基于源域混淆特征訓練特征分類器;交替迭代,直至滿足預設的收斂條件,得到訓練完成的特征生成器和域混淆特征傳播模塊;
20、將目標域圖像特征輸入到訓練完成的特征生成器,得到映射后的目標域特征,經過域混淆特征傳播模塊的多次迭代,得到目標域混淆特征,確定目標域圖像域適應特征。
21、在一種可選的實施例中,
22、所述域判別損失,其公式如下:;
23、其中, l d表示域判別損失函數, e表示期望運算符, f s表示源域混淆特征, p(·)表示對應特征的分布, d(·)表示域判別器輸出結果, f t表示目標域混淆特征, λ gp表示梯度懲罰項權重,表示在源域和目標域混淆特征之間插值的樣本,表示對的梯度;
24、所述域混淆損失,其公式如下:
25、;
26、其中, l c表示域混淆損失函數, x s表示源域圖像特征, g(·)表示特征生成器輸出, x t表示目標域圖像特征, λ ce表示條件熵正則化項的權重參數, x表示源域和目標域圖像特征的聯合表示, p( y| g( x))表示給定特征 g( x)下目標標簽 y的條件概率分布, h(·)表示條件熵輸出結果。
27、在一種可選的實施例中,
28、將所述目標域圖像域適應特征輸入深度強化學習模塊,通過智能體與包含狀態空間、動作空間和獎賞函數的強化學習環境的交互探索,學習針對目標域戰場目標識別任務的最優分類策略,并基于最優分類策略對目標域圖像域適應特征進行分類,輸出戰場目標跨域識別結果包括:
29、構建強化學習環境,將戰場目標跨域識別任務建模為馬爾科夫決策過程,定義狀態空間、動作空間和獎賞函數,所述狀態空間為目標域圖像域適應特征,每個圖像對應一個狀態,狀態維度等于域適應特征維度,所述動作空間為戰場目標類別,每個動作對應一個目標類別,所述獎賞函數基于智能體預測類別標簽與真實標簽的一致性確定,如果預測正確,給予正向獎賞,否則給予負向獎賞或零獎賞;
30、構建深度強化學習模型,確定對應的策略網絡、值函數網絡和目標網絡,所述策略網絡以目標域圖像域適應特征為輸入,輸出對應動作的概率分布,通過隨機采樣選擇動作,所述值函數網絡以目標域圖像域適應特征為輸入,輸出狀態的估計值函數,所述目標網絡由策略網絡和值函數網絡的對應副本構成,計算穩定目標值,并按照預設的周期,將當前網絡參數復制到目標網絡中;
31、開始迭代過程,基于當前決策策略選擇動作,與強化學習環境交互,獲得下一狀態和即時獎賞,重復迭代過程,收集多輪次的交互經驗數據;利用所述交互經驗數據,通過策略梯度算法優化策略網絡參數,以最大化累積獎賞為目標,更新決策策略;同時利用時序差分算法更新值函數網絡參數,使用目標網絡計算值函數目標值;
32、直至達到預設的迭代輪次,得到最優分類策略;
33、利用訓練好的策略網絡對目標域圖像域適應特征進行分類,選擇概率最大的動作作為預測類別標簽,輸出戰場目標跨域識別結果。
34、在一種可選的實施例中,
35、通過策略梯度算法優化策略網絡參數,以最大化累積獎賞為目標,更新決策策略包括:
36、使用策略梯度算法,更新策略網絡參數,其公式如下:
37、;
38、其中, θ表示策略網絡參數, α表示策略梯度算法的學習率,表示策略網絡參數的梯度, e表示期望運算符, a表示動作, u表示狀態,表示當前策略網絡在給定狀態 u下選擇動作 a的概率,表示之前的策略網絡在給定狀態 u下選擇動作 a的概率, a表示優勢函數,clip(·)表示剪切函數,表示剪切范圍閾值。
39、在一種可選的實施例中,
40、利用時序差分算法更新值函數網絡參數,使用目標網絡計算值函數目標值包括:
41、使用時序差分算法,更新值函數網絡參數,其公式如下:
42、;
43、其中, φ表示值函數網絡參數, β表示時序差分算法中的學習率,表示值函數網絡參數的梯度, n表示樣本總數, n表示樣本序號, m表示每個樣本完整序列的最大時間步, m表示完整序列中的一個時間步,表示第 n個樣本在 m時間步的即時獎賞,γ表示折扣因子,表示第 n個樣本在 m+1時間步的狀態,表示目標網絡值函數,表示第 n個樣本在 m時間步的狀態,表示當前網絡值函數。
44、本發明實施例的第二方面,
45、提供一種基于深度強化學習的戰場目標跨域識別系統,包括:
46、第一單元,用于基于源域戰場環境和目標域戰場環境,分別獲取有標注的源域目標圖像和無標注的目標域目標圖像,通過深度卷積神經網絡模型,提取得到源域圖像特征和目標域圖像特征;
47、第二單元,用于基于對抗式域適應網絡,通過對抗訓練,將所述源域圖像特征和所述目標域圖像特征映射到相同的特征空間,學習共同特征表示,通過減小分布差異,得到目標域圖像域適應特征;
48、第三單元,用于將所述目標域圖像域適應特征輸入深度強化學習模塊,通過智能體與包含狀態空間、動作空間和獎賞函數的強化學習環境的交互探索,學習針對目標域戰場目標識別任務的最優分類策略,并基于最優分類策略對目標域圖像域適應特征進行分類,輸出戰場目標跨域識別結果。
49、本發明實施例的第三方面,
50、提供一種電子設備,包括:
51、處理器;
52、用于存儲處理器可執行指令的存儲器;
53、其中,所述處理器被配置為調用所述存儲器存儲的指令,以執行前述所述的方法。
54、本發明實施例的第四方面,
55、提供一種計算機可讀存儲介質,其上存儲有計算機程序指令,所述計算機程序指令被處理器執行時實現前述所述的方法。
56、在本發明實施例中,添加可變形卷積層,使網絡能夠自適應地調整卷積操作的采樣位置,增強網絡對目標形變和位置變化的適應能力,提高特征提取的效果;附加卷積層用于學習卷積核的位置偏移量,使卷積操作可以根據輸入數據自適應調整,使網絡能夠更好地捕捉目標的空間變形特征,提高特征表示的質量;通過特征映射器和域混淆特征傳播模塊,實現將源域和目標域的圖像特征映射到一個共同的特征空間。
57、這種映射能力有助于減小源域和目標域之間的特征分布差異,提升域適應的效果;通過域混淆特征傳播模塊的多次迭代,有效地融合源域和目標域的混淆特征,使最終生成的目標域混淆特征更能夠表示目標域的數據特征,有助于提高目標域數據的表示能力和分類準確性;將目標域圖像的域適應特征作為狀態表示,能夠有效地減少源域和目標域之間的分布差異,有助于提高強化學習模型對目標域的理解和響應能力,提升任務的表現;將戰場目標跨域識別任務建模為馬爾科夫決策過程,明確狀態空間、動作空間和獎賞函數的定義,建模方式能夠有效地引導智能體在復雜環境中學習最優的動作策略,從而提高任務的執行效率和準確性。