本發明涉及強化學習、自抗擾控制,具體為一種基于ddpg的四旋翼無人機自抗擾控制方法。
背景技術:
1、無人機(uav)是指利用無線電遙控飛行或者自主控制飛行的無人駕駛飛行器。近些年,隨著微型電子技術的迅速成長,新型材料的研發成功,微處理器與能源存儲技術的發展,促進小型無人機的研究,因此大量的飛行器被廣泛用于軍事、通訊中繼、偵查、監控、快遞、導航、救災、航拍等各種領域。由于飛行器在航空戰爭和日常生活中有廣泛的應用市場,所以飛行器的研究也成為了國內外研究的重點。
2、近些年越來越多研究者關注多旋翼飛行器中的四旋翼飛行器。目前四旋翼飛行器大多數是小型的,主要由四個旋翼和十字架型的對稱機身組成。對稱的剛體機身的設計使得動力學模型易于建立,模型得到精確和簡化。四旋翼飛行器由四個旋翼提供升力,每個旋翼由一個電機控制,實現六個方向的運動,所以四旋翼飛行器是欠驅動的旋翼式直升機。系統通過控制旋翼的轉速來實現飛行器的運動,運動包括:垂直起降和定點懸停、前進后退,而俯仰、滾轉、偏航是通過協調四個電機的轉速使得旋翼間的合力形成相應運動方向的力矩來實現的。同樣當每個旋翼旋轉時,會產生反扭矩,因為四旋翼是對稱性的,所以四旋翼飛行器可以通過旋翼的旋轉方式不同平衡旋翼造成的反扭矩。
3、實現四旋翼無人機的穩定飛行是其能夠完成指定任務的前提,但是由于四旋翼無人機機身體積小、重量輕,在實際飛行過程中容易受到空氣阻力、自身重力和陀螺效應等物理效應的影響。此外,四旋翼無人機系統是典型的欠驅動系統,通過機架上的四個電機帶動各螺旋槳進行高速旋轉,利用四個螺旋槳所產生不同轉速的差值實現飛行高度和飛行姿態的變換。同時,四旋翼無人機系統具有強耦合、非線性等控制特性,并且在動力學模型中存在多個不確定項。面對復雜的飛行環境,四旋翼無人機能夠保持穩定飛行是該設備的最基本要求。
4、傳統控制方法常采用pid控制策略,該控制方法在工業生產中應用較為普遍,隨著控制方法的不斷更新和發展,人們逐漸將目光轉移到滑模控制理論。滑模控制理論對不精準模型或模型中參數未知等問題極具針對性,并其本質為非線性控制。該控制方法理論不同于其他控制理論的地方在于只要切換函數和變結構控制律設計得當,就能強制系統按照預想的軌跡進行滑動模態運動,且滑模控制理論相較于其他控制方法具有超調量小、跟蹤速度快等的特點。
5、如何針對四旋翼無人機的系統特性來設計一個跟蹤精度高且魯棒性強的控制器是一直以來的研究難點,也是四旋翼無人機走向廣泛應用的進程中亟待解決的問題之一。
6、因此我們提出了一種基于ddpg的自抗擾控制算法來解決上述問題。
技術實現思路
1、(一)解決的技術問題
2、針對現有技術的不足,本發明提供了一種基于ddpg的四旋翼無人機自抗擾控制算法,解決了上述背景技術中所提出的問題。
3、(二)技術方案
4、本發明為了實現上述目的具體采用以下技術方案:
5、一種基于ddpg的四旋翼無人機自抗擾控制方法,包括以下步驟。
6、步驟一:建立四旋翼無人機的數學模型;
7、步驟二:根據建立好的數學模型,設計線性自抗擾控制系統;
8、步驟三:建立ddpg算法框架,設計適合的獎勵函數,經驗池,actor-critic網絡架構等;
9、步驟四:將所設計的ddpg算法與線性自抗擾控制系統相結合,實現四旋翼無人機的姿態控制。
10、進一步地,所述步驟一中,首先分析四旋翼無人機具體飛行原理;其次,采用坐標定義、旋轉矩陣、歐拉動力學和質心運動定理等得到四旋翼無人機的數學模型。
11、進一步地,所述步驟二中,pd環節在ladrc中起到了調節控制器輸出的作用,可以根據系統誤差的大小和變化率來對控制器進行調整,從而提高系統的抗擾能力和動態性能;通過使用線性擴張狀態觀測器實時估計所述四旋翼無人機的狀態變量,得到所述狀態變量的估計值;并通過所述線性擴張狀態觀測器補償所述四旋翼無人機的總擾動。
12、進一步地,所述步驟三中,定義ddpg算法的觀測空間、動作空間以及agent相關參數,并設計適合的actor-critic網絡架構、獎勵函數等,獎勵函數是強化學習中的一個關鍵要素,它監督智能體學習并獲得最優策略,設計如下:
13、r1=-|error|
14、
15、進一步地,在原始ddpg算法基礎上,改進經驗池部分,采用兩個經驗池的設計,其中一個進行正常隨機采樣來保證數據的隨機性,防止陷入局部最優解。另一個使用優先經驗取樣的方法。另外設置兩個經驗池相應的權重值,增加數據樣本的利用率,增加訓練學習效果。
16、進一步地,所述步驟四中,在調節線性自抗擾控制器參數過程中,調整pd環節控制參數難度大,可能會產生跟蹤誤差,導致系統輸出不穩定,因此引入ddpg算法對pd控制環節的控制參數。
17、(三)有益效果
18、與現有技術相比,本發明提供了一種基于ddpg的四旋翼無人機自抗擾控制方法,具備以下有益效果:
19、本發明,通過設計基于ddpg的四旋翼無人機的自抗擾控制器,在ddpg算法中提出適合的獎勵函數,使無人機盡快貼近期望軌跡,提高四旋翼無人機系統的跟蹤性能、抗干擾性、魯棒性等性能。
1.一種基于ddpg的四旋翼無人機自抗擾控制方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于ddpg的四旋翼無人機自抗擾控制方法,其特征在于:所述步驟一中,四旋翼無人機的數學模型為:
3.根據權利要求1所述的一種基于ddpg的四旋翼無人機自抗擾控制方法,其特征在于:所述步驟二中,以俯仰角通道為例;針對二階非線性系統,考慮系統內外擾動,被控對象狀態方程為:
4.根據權利要求1所述的一種基于ddpg的四旋翼無人機自抗擾控制方法,其特征在于:所述步驟三中,ddpg由四個神經網絡組成;actor當前網絡是根據智能體所處狀態st來選擇當前的動作at,而critic當前網絡則是根據當前狀態st和當前動作來計算q值,該q值則是用來評價動作的好壞與否;同樣地,actor目標網絡與critic目標網絡的計算過程也與之相同,區別就在于更新網絡參數的時間是不一樣的,actor目標網絡和critic目標網絡的參數每隔一段時間更新一次,而actor當前網絡和critic當前網絡是實時更新的;
5.根據權利要求1所述的一種基于ddpg的四旋翼無人機自抗擾控制方法,其特征在于:所述所述步驟四中,在調節線性自抗擾控制器參數過程中,調整pd環節控制參數難度大,會產生跟蹤誤差,導致系統輸出不穩定,因此引入ddpg算法對pd控制環節的控制參數進行調整。