本發明涉及計算機,尤其涉及一種基于圖強化學習的移動機械臂可達性地圖計算方法。
背景技術:
1、具身智能是一種基于物理身體進行感知或行動的智能系統。通過與環境的監護獲取信息,理解問題,做出決策并實現行動,從而產生智能行為和適應性。具身智能研究的一個前沿領域是智能體與環境之間的交互和聯系,任務要求智能積極的與環境進行交互以完成目標任務。移動操作機器人(mobile?manipulation,?mm)是具身智能應用的典型例子,由于其移動性和靈活等等多種優勢被廣泛應用于家庭室內場景中,以完成各種導航與交互任務。近年來,該領域的相關研究正在迅速增長,許多挑戰賽如habitat?rearrangement、thethreedworld和ai2-thor等挑戰被提出。
2、在機器人執行移動操作任務時,同時需要依賴機器人的底盤和機械臂,而機械臂操作是否能夠成功執行很大程度上依賴于好的基座定位。然而,如何確定好的底盤位置仍然具有挑戰性。在室內環境中存在多種復雜物品,如地面上的障礙物和桌面上的障礙物對于機器人而言是兩種不同類型的障礙物信息,如何能夠更好的對環境進行建模使機器人能夠理解環境中物品之間的關系是目前亟需解決的問題。此外,在室內環境中機器人需要在不同的場景中進行切換。如對于在桌子和抽屜中執行任務時,機器人需要選擇不同的基座位置,因此機器人需要學會策略間的快速遷移以快速適應場景的變換。目前雖然對長時復雜操作任務有了大量的研究,但少有研究如何將可達性地圖用于解決技能之間的hand-off問題,如導航和抓取,或者導航和放置之間的切換問題。
3、目前針對如何對室內場景進行建模不同的學者提出了許多方法,在object?goalnavigation中常采用3d點云建模,但該方法需要消耗大量運算資源而我們的移動操作平臺計算資源有限,且針對可達性地圖生成任務不需要過于細致的建模,而僅僅需要幫助機器人理解物品的空間關系。此外,如何獲取室內場景中移動操作機器人可達性數據前人也進行了大量的研究。在經典的方法中,通過在每個基座位置多次進行逆運動學求解獲取逆可達性地圖,但該方法的計算量過大需要頻繁的計算更新地圖并計算逆可達性;基于強化學習的方法,需要針對每個場景進行訓練,對實際環境中環境發生動態變換的擴展和遷移能力較差。
技術實現思路
1、本發明的目的在于提供一種基于圖強化學習的移動機械臂可達性地圖計算方法。
2、為實現上述發明目的,本發明提供一種基于圖強化學習的移動機械臂可達性地圖計算方法,包括:
3、s1.基于圖注意力網絡捕捉目標環境中移動機械臂與周圍物體之間的相對位置關系,以對所述目標環境進行建模并生成關于所述目標環境的異構節點圖和與所述異構節點圖相對應的特征向量;
4、s2.構建所述移動機械臂的移動操作模型;
5、s3.獲取所述異構節點圖、所述特征向量和所述移動操作模型并采用圖強化學習生成供所述移動機械臂移動操作的可達性地圖;其中,所述可達性地圖包括:所述移動機械臂作用于節點的狀態-動作對;
6、s4.選擇所述可達性地圖中的狀態-動作對并輸入評論家網絡,以評價所述移動機械臂作用于節點的狀態-動作對的 q值,以完成所述可達性地圖的計算。
7、根據本發明的一個方面,步驟s1中,所述異構節點圖表示為:
8、;
9、其中,表示所述異構節點圖中的節點,表示所述異構節點圖中用于連接所述節點的有向邊;
10、所述異構節點圖中的節點分別為:目標物體節點、容器節點、地面障礙節點和桌面障礙物節點;
11、所述節點的有向邊分別為:所述容器節點、所述地面障礙節點和所述桌面障礙物節點分別與所述目標物體節點的有向邊。
12、根據本發明的一個方面,步驟s1中,基于圖注意力網絡捕捉目標環境中移動機械臂與周圍物體之間的相對位置關系,以對所述目標環境進行建模并生成關于所述目標環境的異構節點圖和與所述異構節點圖相對應的特征向量的步驟中,包括:
13、s11.基于機器人本體視覺或者已知環境信息獲取目標環境中所述移動機械臂周圍的物體;其中,所述物體分別為:目標、容器、地面障礙物和桌面障礙物;
14、s12.獲取所述移動機械臂與周圍的所述物體之間的空間位置關系,并獲取各物體之間的同構節點圖;其中,在所述同構節點圖中,與所述容器相對應的容器節點,與所述地面障礙物相對應的地面障礙節點,與所述桌面障礙物相對應的桌面障礙物節點分別在與所述目標相對應的目標節點的周圍;
15、s13.基于所述物體的空間分布,采用獨熱編碼方式對所述同構節點圖的各個所述節點添加維度信息,以生成所述異構節點圖和所述特征向量。
16、根據本發明的一個方面,與所述異構節點圖相對應的特征向量表示為:
17、;
18、其中,表示節點的特征,表示節點在第0層隱藏層的輸出,表示類別信息,是四種類型節點維度的總和,表示節點的初始特征向量,上標用于區分不同的隱藏層,以用于區分不同層的隱藏層,表示節點在第層隱藏層的特征表示,表示帶有權重的多層感知器mlp網絡,表示節點在第層隱藏層的輸出,表示節點在第1層隱藏層的輸出,表示線性變換矩陣,表示節點在隱藏層的特征表示,表示節點的鄰接節點集,表示有向邊的歸一化注意力權重,表示有向邊在隱藏層的歸一化注意力權重,表示目標環境的最終表示,表示第一層的輸出,表示觀測,是一個激活函數。
19、根據本發明的一個方面,步驟s2中,構建所述移動機械臂的移動操作模型的步驟中,所述移動操作模型基于馬爾可夫決策過程的行動者網絡所構建;其中,所述移動操作模型由元組定義,且表示為:
20、;
21、其中,和分別表示狀態和動作空間,表示狀態轉移函數,表示獎勵函數,表示是折扣因子,表示初始狀態分布。
22、根據本發明的一個方面,步驟s3中,獲取所述異構節點圖、所述特征向量和所述移動操作模型并采用圖強化學習生成供所述移動機械臂移動操作的可達性地圖的步驟中,包括:
23、s31.構建所述移動機械臂移動操作的策略,其中,策略表示為:
24、;
25、其中,表示所述移動機械臂移動操作的狀態,表示在狀態下所采取的動作;
26、s32.基于所述異構節點圖、所述特征向量和所述移動操作模型構建所述移動機械臂移動操作的混合動作空間,其中,所述混合動作空間表示為:
27、;
28、;
29、其中,表示離散動作空間,其中,離散動作表示移動機械臂的操作動作,表示連續動作空間,其中,連續動作表示移動機械臂的底座移動動作,和分別表示極坐標中的半徑和角度坐標,表示移動機械臂的當前方位,表示在離散動作空間中定義,表示移動機械臂的開始/停止信號,當時,移動機械臂執行抓取動作;否則,移動機械臂保持不動;
30、s33.基于獲得的所述混合動作空間進行圖強化學習,以生成所述可達性地圖;其中,所述可達性地圖中的狀態-動作對表示為:。
31、根據本發明的一個方面,步驟s4中,選擇所述可達性地圖中的狀態-動作對并輸入評論家網絡,以評價所述移動機械臂作用于節點的狀態-動作對的 q值,以完成所述可達性地圖的計算的步驟中,包括:
32、s41.確定所述異構節點圖中用于評估可達性的區域;
33、s42.確定所述移動機械臂在所述區域中的位置坐標,并獲取關于所述位置坐標的變換矩陣;
34、s43.基于所述變換矩陣將所述區域中的目標物體節點、容器節點、地面障礙節點和桌面障礙物節點的坐標從全局坐標系轉換到所述移動機械臂的坐標系中;
35、s44.以所述移動機械臂面向目標物體的方向作為中心,并確定以為中心的180度范圍,其中,在該范圍內每隔10度取一個點共取19個點;
36、s45.構建所述移動機械臂移動操作的混合動作空間的動作值,以及確定出狀態值,以獲得相應的狀態-動作對;
37、s46.將獲得的所述狀態-動作對輸入至所述評論家網絡,以完成對狀態-動作對的 q值的求解,完成所述可達性地圖的計算。
38、根據本發明的一種方案,本發明采用圖注意力網絡對目標場景建模的方法,能夠有效的對目標場景的空間關系進行建模,且針對室內flexibel場景的變換,使得本發明具有良好的返回性能。
39、根據本發明的一種方案,本發明通過將目標場景中物體進行四種類型分類的方式,使得本發明對建模過程的計算量被有效降低,可充分的提高本發明的生成效率。
40、根據本發明的一種方案,本發明通過采用異構圖對場景建模簡化的方式,可以進一步基于圖注意力網絡與混合動作空間實現圖強化學習,以實現了針對復雜場景中移動機械臂無碰撞且成功的抓取可達性地圖的精確生成。
41、根據本發明的一種方案,本發明通過基于圖強化學習的方式獲取桌面附近的可達性,能夠快速的對場景中的空間關系進行分析,獲取可達性數據,使本發明能夠在實際的應用中保持較好的時效性。
42、根據本發明的一種方案,本發明能夠對于容器附近的可達性進行評估,將可達性區域劃分為五個等級,從而幫助機器人在固定基座的情況下,使本發明能夠在實際應用場景中實現更高的成功率。