本發明屬于水下機器人控制,具體涉及一種無通信環境下基于具身智能的多自主水下機器人導航方法。
背景技術:
1、隨著技術的飛速發展,人工智能從專注于數據集學習的人工智能轉向通過與周圍環境的互動進行學習的具身智能。多自主水下機器人協同導航在復雜和未知的水下環境中仍然是一項挑戰性任務。現有的多自主水下機器人導航策略存在如下缺陷:
2、第一、多自主水下機器人協作模型幾乎都需要一個集中的系統或本地通信系統來交換自主水下機器人之間的信息,進而實現協作。然而,現有的水下通信技術還是一個瓶頸,電磁通信無法在水中進行,聲吶通信延時嚴重,光通信受設備限制,很多情況下自主水下機器人之間無法進行通信,只能在無通信環境下作業。
3、第二、受到攜帶傳感器的限制,自主水下機器人僅靠少數幾類傳感器進行導航。然而,聲吶探測角度過大、方向性差;視覺傳感器受光照影響,觀測距離有限。因此,自主水下機器人感知環境能力有限,難以獲得大量有效的數據集。
4、第三、現有的導航策略通常是通過模仿學習或強化學習等端對端的方式。然而,大規模注釋數據是端到端訓練的基本要求,在許多情況下可能不可行或不實用。此外,將訓練好的知識和技能推廣到新任務或不同機器人平臺的能力在很大程度上仍然是低效的。
5、因此,基于上述難點需要設計出行之有效的導航方法使得多自主水下機器人在無通信的環境中同樣具有更高的導航效率,得到安全保障,使其能夠符合實際工程的需求。
技術實現思路
1、本發明所要解決的技術問題是針對上述現有技術的不足,提供一種無通信環境下基于具身智能的多自主水下機器人導航方法,引入具身智能技術,設計了無通信多自主水下機器人協同導航方案,可實現基于具身智能的自主水下機器人導航。
2、為實現上述技術目的,本發明采取的技術方案為:
3、一種無通信環境下基于具身智能的多自主水下機器人導航方法,包括如下步驟:
4、步驟1:每個自主水下機器人通過自身攜帶的傳感器獲取多模態的局部環境信息;
5、步驟2:對每個自主水下機器人進行相應多模態的局部環境信息的融合;
6、步驟3:每個自主水下機器人對融合后的局部環境信息提取環境特征值和臨近自主水下機器人特征值;
7、步驟4:每個自主水下機器人基于具身智能單元,對環境特征值進行學習,理解環境,并根據臨近自主水下機器人特征值推測臨近自主水下機器人的運動軌跡;
8、步驟5:各自主水下機器人對根據具身智能單元理解的環境和推測的相鄰自主水下機器人的運動軌跡進行協作關系學習,使多自主水下機器人在無通信條件下實現協作,并且修正生成導航決策;
9、步驟6:將生成的導航決策發送給每個自主水下機器人的控制器進行編譯,生成控制指令,實現對自主水下機器人的導航控制。
10、為優化上述技術方案,采取的具體措施還包括:
11、上述的步驟3使用卷積神經網絡cnn從融合后的局部環境信息中提取空間特征,同時,采用長短期記憶lstm網絡從局部觀測中提取不同空間特征對應的時間信息,得到包含空間特征和時間信息的環境特征值。
12、上述的步驟3所述臨近自主水下機器人特征值的提取策略為:
13、首先,采用訓練檢測網絡來標記相鄰自主水下機器人的位置、檢測相對位置;
14、所述訓練檢測網絡由具有殘差結構的細胞神經網絡組成,該殘差結構連接到具有并行架構的mlp,從類似圖像的表示中提取高維特征;
15、一個mlp執行分類任務,以檢測t=0時可見的相鄰n個自主水下機器人的數量(m1,m2,…,mn),不存在的自主水下機器人由(0,…,0)表示;
16、另一個mlp輸出t=0時可見相鄰n個自主水下機器人的相對位置(loc1,loc2,…,locn),不存在的機器人位置也用(0,…,0)表示;
17、其次,通過將相鄰自主水下機器人的數量與相對位置相乘,得到t=0時臨近自主水下機器人的標記位置,即臨近自主水下機器人特征值:(mloc1,mloc2,…,mlocm)=(m1,m2,…,mn)×(loc1,loc2,…,locn)。
18、上述的步驟4所述具身智能單元包括具身決策模塊和多模態存儲模塊,具身決策模塊將輸入的環境特征值通過大預言模型進行理解,將理解的結果結合多模態存儲模塊存儲的過往環境特征、臨近自主水下機器人特征值進行學習,最后利用推理器推算出臨近自主水下機器人的運動軌跡,決策器規劃出每一個自主水下機器人的導航路徑;同時,具身決策模塊將當前的環境特征、自主水下機器人運動特征、軌跡信息發送到多模態存儲模塊;多模態存儲模塊分類存儲具身決策模塊中做出決策以及理解的環境特征、自主水下機器人運動特征、軌跡信息,并將存儲的過往環境特征、自主水下機器人運動特征、軌跡信息提供給具身決策模塊用于下一時刻的決策。
19、上述的具身決策模塊包含llm、學習器、推理器和決策器;
20、llm根據環境特征值,對環境信息和周圍其他的自主水下機器人的行動進行理解,將理解的信息發送至學習器和推理器;
21、學習器利用llm理解的環境特征、自主水下機器人運動特征、軌跡信息和多模態存儲模塊中存儲的過往環境特征、自主水下機器人運動特征、軌跡信息進行學習做出導航規劃;
22、推理器根據導航規劃和llm理解的環境特征、自主水下機器人運動特征、軌跡信息推導臨近其他自主水下機器人進一步的運動;
23、決策器根據推理器推導臨近其他自主水下機器人的運動結果,做出具體的導航決策。
24、上述的多模態存儲模塊采用記憶標記策略進行環境特征、自主水下機器人運動特征、軌跡信息存儲,該記憶標記策略將多模式體驗及其敘述編碼到多模態存儲模塊中,其將多模式情景記憶片段所包括的多方面的數據及其相應的標簽編目在多模式存儲模塊的環境存儲單元內,所述標簽與自主水下機器人運動記憶類型一起存儲在多模態存儲模塊的自主水下機器人運動存儲單元中,以實現高效回憶;在定位多模式情節記錄的標簽之后,標簽及其相關聯的多模式內容被饋送到具身決策模塊。
25、上述的步驟5具體包含以下步驟:
26、步驟5.1:多自主水下機器人協同信息聚合;
27、步驟5.2:基于聚合信息進行多機器人合作策略學習。
28、上述的步驟5.1所述多自主水下機器人協同信息聚合通過利用應用于圖表示的圖注意力網絡來實現,具體的:
29、基于具身智能決策模塊對臨近環境中的空間、時間信息進行的理解以及推導出的臨近區域內自主水下機器人的運動軌跡,根據環境中無法進行通信的特性,單個自主水下機器人根據其他自主水下機器人的位置通過學習實現多自主水下機器人的協作,避免導航過程中發生碰撞,具體將決策自主水下機器人與其相鄰自主水下機器人之間的關系描述為無向圖g,在第k個圖卷積層中,執行以下消息傳遞和信息聚合操作:
30、
31、其中hk具有非線性激活函數的第k層中的圖卷積運算hk-1表示具有非線性激活函數的第k-1層中的圖卷積運算a表示自主水下機器人與相鄰機器人之間的直接關系的連接矩陣,ψk表示第k個圖卷積層的可學習權重矩陣,k表示圖卷積的層數,γk是可訓練偏差,amn表示連接矩陣a第m行n列的值,lr表示泄漏整流線性單元激活函數,δ表示可訓練注意力核,(hkψk)m代表hkψk的第m行,(hkψk)n代表hkψk的第n列,(hkψk)l代表hkψk的第l列,exp(·)表示指數運算。
32、上述的步驟5.2合作策略學習利用的獎勵函數rt為:
33、rt=srt+drt+prt????????????????????????(4)
34、其中srt代表方向獎勵,drt代表碰撞獎勵,prt代表導航獎勵;
35、所述srt的表達式為:
36、srt=βs(dt-dt-1)???????????????????????(5)
37、其中dt表示自主水下機器人的當前位置與其目標在時間t的位置之間的偏航角,dt-1表示自主水下機器人的當前位置與其目標在時間t-1的位置之間的偏航角,βs表示超參數;
38、所述drt的表達式為:
39、
40、其中pt表示自主水下機器人在t時刻的位置,ld和βd分別表示障礙物的位置、安全距離和碰撞懲罰因子,rcollsion表示發生碰撞的懲罰系數,lc表示到達障礙物的距離;
41、所述prt的表達式為:
42、
43、其中g表示目標點的位置,pt表示自主水下機器人在t時刻的位置,pt-1表示自主水下機器人在t-1時刻的位置,βg表示未到達目標點的懲罰因子,rgoal表示到達目標點的獎勵,lg表示到達目標點的距離。
44、本發明具有以下有益效果:
45、(1)本發明提出了無通信環境下多自主水下機器人協同導航方案,首先,每個自主水下機器人利用自身攜帶的傳感器對環境進行信息探測融合,感知周圍的信息。其次,對融合后的信息進行特征值提取。接下來,基于具身智能方法對局部觀測的特征進行學習,根據環境表示中提取空間特征,幫助水下機器人理解環境狀態的變化,并增強其對環境的短期記憶。同時,從觀測局部環境的信息中提取其他自主水下機器人運動的特征,即個體通過自我觀察來推斷其他自主水下機器人的行為。然后,利用圖注意力網絡實現無通信條件下的多自主水下機器人的協作,并做出自主水下機器人控制決策。最后,自主水下機器人控制器根據控制決策生成控制指令,對水下機器人進行控制。可無通信環境下實現多自主水下機器人協同導航。
46、(2)本發明針對自主水下機器人導航提出了具身智能單元,具身智能單元包含兩個部分:具身決策模塊和多模態存儲模塊,將自主水下機器人導航信息存入多模態信息存儲模塊,采用記憶標記策略,簡化了情景多模式記憶的反射和檢索。
47、(3)本發明針對多機器人合作策略學習提出了一種新的連續獎勵函數,該函數集成了專家指導,在考慮潛在碰撞的同時,將機器人引向局部端點,通過平衡環境規避和終點接近度來促進高效行動,從而提高了導航效率。