本技術(shù)涉及鋼筋綁扎現(xiàn)場的無人機路徑規(guī)劃,具體而言,涉及一種鋼筋綁扎現(xiàn)場的無人機路徑規(guī)劃方法、裝置、存儲介質(zhì)與電子設(shè)備。
背景技術(shù):
1、無人機可以在鋼筋綁扎現(xiàn)場快速、靈活地執(zhí)行綁扎質(zhì)量檢測任務(wù)。通過路徑規(guī)劃,可以確保無人機按照最優(yōu)的路徑完成任務(wù),減少時間和資源浪費。良好的路徑規(guī)劃不僅要全面覆蓋檢測點,還要幫助無人機避開施工現(xiàn)場的障礙物,降低與其他施工設(shè)備或人員的碰撞風(fēng)險,保障施工現(xiàn)場的安全。但是鋼筋綁扎現(xiàn)場通常環(huán)境復(fù)雜,存在大量柱、梁、墻等障礙物和動態(tài)變化的工作條件,這增加了路徑規(guī)劃的難度。
2、無人機的路徑規(guī)劃方法主要分為經(jīng)典算法和智能算法。經(jīng)典算法包括a*算法、人工勢場法、快速探索隨機樹(rrt)和元胞分解法。然而,傳統(tǒng)的全局路徑規(guī)劃算法具有規(guī)劃速度快但缺乏最優(yōu)性的特點。依賴于先前環(huán)境信息的規(guī)劃算法可以解決一般的靜態(tài)場景問題,但在障礙物移動的情況下就存在不足,從而造成局限性。
3、因此,針對復(fù)雜場景下無人機路徑規(guī)劃的挑戰(zhàn),學(xué)者們提出了模擬生物體在動態(tài)環(huán)境中覓食行為的生物啟發(fā)智能算法。這些算法包括遺傳算法、蟻群算法和粒子群算法。隨著任務(wù)環(huán)境的日益復(fù)雜和不確定性,無人機路徑規(guī)劃面臨更大的挑戰(zhàn)。近年來,基于人工智能的無人機路徑規(guī)劃研究顯著增加,進一步拓展了deep?reinforcement?learning(drl)在無人機路徑規(guī)劃上的應(yīng)用?,F(xiàn)有技術(shù)的無人機路徑規(guī)劃方法無法實現(xiàn)在規(guī)劃路徑的同時避開障礙物,且無人機路徑規(guī)劃方法規(guī)劃的路徑長度不是最短最優(yōu)的,且規(guī)劃時間往往需要等待很長時間。
技術(shù)實現(xiàn)思路
1、本技術(shù)的主要目的在于提供一種鋼筋綁扎現(xiàn)場的無人機路徑規(guī)劃方法、裝置、存儲介質(zhì)與電子設(shè)備,以至少解決現(xiàn)有技術(shù)的無人機路徑規(guī)劃方法規(guī)劃的路徑長度不是最短最優(yōu)的,且規(guī)劃時間往往需要等待很長時間的問題。
2、為了實現(xiàn)上述目的,根據(jù)本技術(shù)的一個方面,提供了一種鋼筋綁扎現(xiàn)場的無人機路徑規(guī)劃方法,包括:構(gòu)建具有馬爾可夫性質(zhì)的鋼筋綁扎現(xiàn)場的無人機路徑規(guī)劃環(huán)境,其中,所述無人機路徑規(guī)劃環(huán)境包括:障礙物評估模型、無人機位置模型、無人機運動方向模型、獎勵函數(shù)模型;獲取歷史時間段內(nèi)的歷史初始位置和歷史終止位置,且將所述歷史初始位置、所述歷史終止位置和所述無人機路徑規(guī)劃環(huán)境模型輸入至動作選擇策略模型中運算得到歷史無人機動作策略,且采用歷史無人機動作策略控制無人機移動且在移動的過程中獲取歷史實時運行數(shù)據(jù),將所述歷史實時運行數(shù)據(jù)確定為樣本數(shù)據(jù),所述樣本數(shù)據(jù)包括:無人機當(dāng)前時刻位置信息、無人機當(dāng)前時刻方向信息、無人機下一時刻預(yù)測位置信息、無人機當(dāng)前時刻獎勵數(shù)據(jù)、所述樣本數(shù)據(jù)的優(yōu)先級;獲取對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型,其中,所述對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型是采用所述樣本數(shù)據(jù)訓(xùn)練得到的;將所述無人機的初始位置、終止位置輸入至所述對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型中進行預(yù)測,得到所述無人機在所述鋼筋綁扎現(xiàn)場的飛行路徑。
3、可選地,構(gòu)建具有馬爾可夫性質(zhì)的鋼筋綁扎現(xiàn)場的無人機路徑規(guī)劃環(huán)境模型,包括:根據(jù)所述無人機與障礙物之間的距離、危險區(qū)最大半徑設(shè)定值、所述危險區(qū)內(nèi)所述障礙物的最大半徑設(shè)定值確定所述障礙物評估模型;構(gòu)建所述無人機位置模型和所述無人機運動方向模型,其中,所述無人機位置模型用來確定所述無人機在二維空間內(nèi)的位置,所述無人機運動方向模型用來將所述鋼筋綁扎現(xiàn)場的區(qū)域進行劃分,確定所述無人機的運動方向;構(gòu)建獎勵函數(shù)模型,采用所述獎勵函數(shù)模型對所述無人機的運行狀態(tài)進行獎勵;根據(jù)所述障礙物評估模型、所述無人機位置模型、所述無人機運動方向模型以及所述獎勵函數(shù)模型構(gòu)建具有所述馬爾可夫性質(zhì)的所述鋼筋綁扎現(xiàn)場的所述無人機路徑規(guī)劃環(huán)境。
4、可選地,根據(jù)所述無人機與障礙物之間的距離、危險區(qū)最大半徑設(shè)定值、所述危險區(qū)內(nèi)所述障礙物的最大半徑設(shè)定值確定障礙物評估模型,包括:根據(jù)第一公式:,確定所述無人機被撞毀的概率,式中,為所述無人機被撞毀的概率,d為所述無人機與障礙物之間的距離,表示危險區(qū)最大半徑設(shè)定值,為所述危險區(qū)內(nèi)所述障礙物的最大半徑設(shè)定值,其中,;根據(jù)第二公式:評估所述無人機受損的總體危險度,式中,為所述無人機受損的總體危險度,k表示危險區(qū)域的數(shù)量,是無人機在穿過第i個危險區(qū)時被摧毀的概率;根據(jù)所述第一公式和所述第二公式確定所述障礙物評估模型。
5、可選地,構(gòu)建獎勵函數(shù)模型,采用所述獎勵函數(shù)模型對所述無人機的運行狀態(tài)進行獎勵,包括:采用第五公式:構(gòu)建所述獎勵函數(shù)模型,式中,r為獎勵函數(shù),為所述無人機飛入危險區(qū)的懲罰項,懲罰值,為所述無人機飛到目標(biāo)位置的獎勵項,獎勵a值,為所述無人機飛出所述鋼筋綁扎現(xiàn)場的懲罰項,懲罰b值,為所述無人機的飛行時間超過飛行時間閾值的懲罰項,懲罰c值,為所述無人機在其他設(shè)定狀態(tài)下的懲罰項,懲罰d值;其中,根據(jù)第六公式確定值,其中,為所述無人機受損的總體危險度,為危險度閾值。
6、可選地,將所述歷史初始位置、所述歷史終止位置和所述無人機路徑規(guī)劃環(huán)境模型輸入至動作選擇策略模型中運算得到歷史無人機動作策略,包括:根據(jù)所述歷史初始位置、所述歷史終止位置,采用啟發(fā)式搜索算法對所述無人機運動方向模型進行劃分,得到多個子運行方向;采用貪婪策略算法根據(jù)多個所述子運行方向控制所述無人機動作,生成多個所述歷史無人機動作策略。
7、可選地,在采用歷史無人機動作策略控制無人機移動且在移動的過程中獲取歷史實時運行數(shù)據(jù),將所述歷史實時運行數(shù)據(jù)確定為樣本數(shù)據(jù)之后,所述方法還包括:構(gòu)建優(yōu)先飛行經(jīng)驗存放池,將所述樣本數(shù)據(jù)輸入所述優(yōu)先飛行經(jīng)驗存放池;將所述優(yōu)先飛行經(jīng)驗存放池的所述樣本數(shù)據(jù)按照所述優(yōu)先級從高到低的順序選取預(yù)設(shè)數(shù)量個所述經(jīng)驗樣本數(shù)據(jù)輸入所述初始對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型,生成評估網(wǎng)絡(luò)的預(yù)期q值和目標(biāo)網(wǎng)絡(luò)的目標(biāo)q值,其中,所述初始對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型包括所述評估網(wǎng)絡(luò)和所述目標(biāo)網(wǎng)絡(luò);根據(jù)所述目標(biāo)q值與所述預(yù)期q值,采用第三公式:,確定td目標(biāo)誤差值,其中,表示所述td目標(biāo)誤差值,表示所述目標(biāo)網(wǎng)絡(luò)的參數(shù),為所述目標(biāo)q值,q為所述預(yù)期q值,表示所述評估網(wǎng)絡(luò)的參數(shù),表示折扣因子,用于表示所述無人機對未來獎勵的重視程度,a為所述無人機的運動方向,下標(biāo)j表示第j個所述經(jīng)驗樣本數(shù)據(jù),表示所述無人機獲得的獎勵,表示無人機位置s的特征向量,用于近似狀態(tài)值,函數(shù)表示尋找一個動作使得評估網(wǎng)絡(luò)q的目標(biāo)q值最大;根據(jù)所述td目標(biāo)誤差值與所述評估網(wǎng)絡(luò)的所述預(yù)期q值采用第四公式:,確定所述初始對偶策略學(xué)習(xí)模型的損失函數(shù),其中,為所述損失函數(shù),表示第j個所述經(jīng)驗樣本數(shù)據(jù)的優(yōu)先級權(quán)重,為無人機的位置;根據(jù)所述損失函數(shù)優(yōu)化所述對偶策略學(xué)習(xí)網(wǎng)絡(luò)的所述目標(biāo)網(wǎng)絡(luò)的參數(shù)和所述評估網(wǎng)絡(luò)的參數(shù),得到所述對偶策略學(xué)習(xí)模型。
8、可選地,在根據(jù)所述損失函數(shù)優(yōu)化所述對偶策略學(xué)習(xí)網(wǎng)絡(luò)的所述目標(biāo)網(wǎng)絡(luò)的參數(shù)和所述評估網(wǎng)絡(luò)的參數(shù)之后,所述方法還包括:采用第七公式:,重新計算所述優(yōu)先飛行經(jīng)驗存放池的所述樣本數(shù)據(jù)的優(yōu)先級,式中,表示所述樣本數(shù)據(jù)的優(yōu)先級,表示所述td目標(biāo)誤差值,為所述樣本數(shù)據(jù)j的預(yù)期q值,表示探索率。
9、根據(jù)本技術(shù)的另一方面,提供了一種鋼筋綁扎現(xiàn)場的無人機路徑規(guī)劃裝置,包括:構(gòu)建單元,用于構(gòu)建具有馬爾可夫性質(zhì)的鋼筋綁扎現(xiàn)場的無人機路徑規(guī)劃環(huán)境,其中,所述無人機路徑規(guī)劃環(huán)境包括:障礙物評估模型、無人機位置模型、無人機運動方向模型、獎勵函數(shù)模型;第一獲取單元,用于獲取歷史時間段內(nèi)的歷史初始位置和歷史終止位置,且將所述歷史初始位置、所述歷史終止位置和所述無人機路徑規(guī)劃環(huán)境模型輸入至動作選擇策略模型中運算得到歷史無人機動作策略,且采用歷史無人機動作策略控制無人機移動且在移動的過程中獲取歷史實時運行數(shù)據(jù),將所述歷史實時運行數(shù)據(jù)確定為樣本數(shù)據(jù),所述樣本數(shù)據(jù)包括:無人機當(dāng)前時刻位置信息、無人機當(dāng)前時刻方向信息、無人機下一時刻預(yù)測位置信息、無人機當(dāng)前時刻獎勵數(shù)據(jù)、所述樣本數(shù)據(jù)的優(yōu)先級;第二獲取單元,用于獲取對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型,其中,所述對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型是采用所述樣本數(shù)據(jù)訓(xùn)練得到的;預(yù)測單元,用于將所述無人機的初始位置、終止位置輸入至所述對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型中進行預(yù)測,得到所述無人機在所述鋼筋綁扎現(xiàn)場的飛行路徑。
10、根據(jù)本技術(shù)的再一方面,提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)包括存儲的程序,其中,在所述程序運行時控制所述計算機可讀存儲介質(zhì)所在設(shè)備執(zhí)行任意一種所述的鋼筋綁扎現(xiàn)場的無人機路徑規(guī)劃方法。
11、根據(jù)本技術(shù)的又一方面,提供了一種電子設(shè)備,包括:一個或多個處理器,存儲器,以及一個或多個程序,其中,所述一個或多個程序被存儲在所述存儲器中,并且被配置為由所述一個或多個處理器執(zhí)行,所述一個或多個程序包括用于執(zhí)行任意一種所述的鋼筋綁扎現(xiàn)場的無人機路徑規(guī)劃方法。
12、應(yīng)用本技術(shù)的技術(shù)方案,構(gòu)建具有馬爾可夫性質(zhì)的鋼筋綁扎現(xiàn)場的無人機路徑規(guī)劃環(huán)境,其中,無人機路徑規(guī)劃環(huán)境包括:障礙物評估模型、無人機位置模型、無人機運動方向模型、獎勵函數(shù)模型;獲取歷史時間段內(nèi)的歷史初始位置和歷史終止位置,且將歷史初始位置、歷史終止位置和無人機路徑規(guī)劃環(huán)境模型輸入至動作選擇策略模型中運算得到歷史無人機動作策略,且采用歷史無人機動作策略控制無人機移動且在移動的過程中獲取歷史實時運行數(shù)據(jù),將歷史實時運行數(shù)據(jù)確定為樣本數(shù)據(jù),樣本數(shù)據(jù)包括:無人機當(dāng)前時刻位置信息、無人機當(dāng)前時刻方向信息、無人機下一時刻預(yù)測位置信息、無人機當(dāng)前時刻獎勵數(shù)據(jù)、樣本數(shù)據(jù)的優(yōu)先級;獲取對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型,其中,對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型是采用樣本數(shù)據(jù)訓(xùn)練得到的;將無人機的初始位置、終止位置輸入至對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型中進行預(yù)測,得到無人機在鋼筋綁扎現(xiàn)場的飛行路徑。通過根據(jù)使用無人機進行鋼筋綁扎質(zhì)量檢測任務(wù)建立了具有馬爾可夫性質(zhì)的鋼筋綁扎現(xiàn)場的無人機路徑規(guī)劃環(huán)境,并采用對偶策略學(xué)習(xí)網(wǎng)絡(luò)模型讓無人機智能體更好地選擇一個動作執(zhí)行,能夠使無人機在更短時間內(nèi)做出最優(yōu)策略來規(guī)劃到達目標(biāo)位置的檢測飛行路徑,適合鋼筋綁扎質(zhì)量檢測這類實時任務(wù),同時智能避開鋼筋綁扎現(xiàn)場可能存在的障礙物;解決了現(xiàn)有技術(shù)的無人機路徑規(guī)劃方法規(guī)劃的路徑長度不是最短最優(yōu)的,且規(guī)劃時間往往需要等待很長時間的問題。