本發明涉及汽車智能駕駛領域,尤其是涉及一種基于生成式世界大模型和多步強化學習的自動駕駛決策方法及系統。
背景技術:
1、自動駕駛汽車的目標是使道路運輸更安全、高效。自動駕駛決策系統作為自動駕駛汽車的關鍵模塊之一,可以使自動駕駛汽車在各種駕駛場景下選擇合適的駕駛動作。
2、在汽車智能化的背景下,自動駕駛決策方法已發展為兩大類:1)基于規則的方法,如有限狀態機,依靠人類駕駛經驗和知識手動設計駕駛規則,但隨著駕駛場景復雜程度的提高,狀態數量和狀態轉換參數將呈指數式增長,難以保障其可靠性。2)基于學習的方法,分為基于深度學習和基于強化學習的兩類方法。①基于深度學習的方法,利用深度神經網絡學習駕駛數據樣本以實現車輛的合理決策。該方法針對特定場景的決策精準度高,但由于其依賴高質量的數據集,因此在動態場景下的普適性較差。②基于強化學習的方法,其無需樣本數據集,通過與環境的不斷交互試錯來學習最優策略,能輕松應對復雜多變的交通場景。
3、現實交通具有高度復雜性和不確定性,預測周圍交通參與者未來行為軌跡能夠輔助決策系統輸出更安全高效的駕駛指令。生成式世界大模型是近年來涌現出的處理自動駕駛軌跡預測的有效手段。生成式世界大模型學習真實世界的一般表示和底層運行規律,由一系列駕駛動作產生的未來世界狀態,在駕駛場景中生成高保真的多視圖視頻。mile采用了基于模型的模仿學習方法來學習carla中的動態模型和駕駛行為,驗證了生成式世界大模型在預測未來狀態與動作方面的合理性和多樣性。然而在動態復雜的交通環境中,其預測精度和可靠性仍然受到限制,可能無法準確預見所有潛在風險和情況。此外,現有生成式世界大模型在面對突發交通狀況時可能無法做出合理魯棒的決策,導致自動駕駛系統在實際操作中表現不穩定。綜上,現有生成式世界大模型應用在自動駕駛決策中依然存在預測精度受限和決策穩定性不足的問題。
技術實現思路
1、本發明的目的是為了實現交互場景下自動駕駛決策系統,緩解傳統決策系統中周圍車輛交通意圖不明確而導致的系統建模困難等問題,提供一種基于生成式世界大模型和多步強化學習的自動駕駛決策方法及系統,通過生成式世界大模型預測周圍交通參與者軌跡,將周圍交通參與者的不確定行為轉變為確定行為;再通過多步強化學習引導自動駕駛決策系統向著安全高效的決策方向學習,最終得到高精度行為預測的自動駕駛決策網絡,對于實現自動駕駛精準決策具有重大意義,并且可以泛化到多種自動駕駛交互決策場景應用中,有效提高自動駕駛道路通過效率和安全性。
2、本發明的目的可以通過以下技術方案來實現:
3、一種基于生成式世界大模型和多步強化學習的自動駕駛決策方法,包括以下步驟:
4、步驟1:建立基于生成式世界大模型的駕駛場景推理模型,預測周圍交通參與者的行為,輸出未來駕駛場景信息;
5、步驟2:基于未來駕駛場景信息,利用強化學習算法對智能體進行多步前瞻離線訓練,得到最優價值策略網絡;
6、步驟3:基于未來駕駛場景信息和最優價值策略網絡,利用蒙特卡洛樹搜索在線求解最優決策序列并滾動優化;
7、步驟4:建立智能網聯電動汽車軌跡跟蹤控制器,基于最優決策序列控制自動駕駛汽車進行實時軌跡跟蹤。
8、所述駕駛場景推理模型采用統一的輸入接口集成多個異構輸入,所述接口支持的輸入條件包括:
9、1、圖像輸入:圖像輸入和視頻輸入共用同一接口,接口處理初始上下文框架和參考視圖作為圖像輸入數據,將給定的圖像條件編碼并展平為d維嵌入序列,使用convexnet作為編碼器,在編碼器中提取來自不同圖像的嵌入信息并在n維特征向量中連接;
10、2、布局輸入:所述布局輸入包括3d框、高清地圖和bev分割,將3d框和高清地圖投影到2d透視圖中,利用與圖像條件編碼相同的策略編碼布局條件,產生嵌入序列;
11、3、文本輸入:遵循擴散模型的慣例,采用預訓練的clip作為文本編碼器,得到文本輸入的嵌入信息;
12、4、動作輸入:將時間步中的動作定義為(x,y,v),表示自我車輛在未來時間步長內的移動軌跡,其中,x,y是自我車輛在笛卡爾坐標系下的位置信息,v是自我車輛的速度信息,使用多層感知機將動作映射到d維嵌入。
13、所述駕駛場景推理模型引入時間層編碼層將預訓練的圖像擴散模型提升為時間模型,以逐幀的方式對潛在進行編碼,重新排列潛在的時間維度,并引入空間編碼層將單視點時態模型提升為多視點時態模型,并將潛在空間重新排列以保持視圖維度,提取時空間上駕駛場景的潛在信息,并使用來自3d檢測和分割任務的輔助監督輸出視角不變表示來處理感知的部分可觀察性,預測周圍交通參與者未來的運動軌跡,輸出包含時空信息的圖像塊。
14、所述步驟2中,利用生成式世界大模型推理出的駕駛場景信息作為輸入狀態,定義駕駛決策的狀態空間,即描述駕駛場景內交通參與者的狀態,并定義動作空間,即可供自動駕駛系統采取的各種行動,利用采集的駕駛數據,采用多步強化學習算法進行離線訓練;其中,智能體在訓練過程中,根據當前狀態選擇行動,與環境交互并觀察獎勵,更新策略以最大化長期累積獎勵;在多步前瞻的框架下,智能體考慮未來多個時刻的行動序列,預測未來n步內所有動作及狀態轉移并計算期望回報獎勵,不斷計算環境狀態轉移和動作價值概率分布,最終得到收斂后的價值策略網絡。
15、所述生成式世界大模型采用transformer作為模型的主體,將最后t時間步輸入transformer,總共3*t狀態標記,其中,每個時間步包含三個標記:期望回報、狀態和動作;對于非圖像輸入,學習一個線性層,將原始輸入投影到嵌入維度,然后進行層歸一化,獲得標記嵌入;對于圖像輸入,狀態被送入卷積編碼器,以獲得嵌入;學習每個時間步長的嵌入并將其添加到每個標記中,由transformer模型處理token,通過自回歸建模預測未來的動作價值。
16、所述步驟3中,駕駛決策的集成涉及樹結構的構建和遍歷,樹結構表示自我車輛可采取的可能動作序列以及相關成本;所述樹結構由節點和邊組成,每個節點表示環境的特定狀態,每個邊表示自我車輛所采取的動作,其中,所述節點包括根節點和子節點,根節點表示環境的當前狀態,包括本地路線、自我車輛的狀態以及附近其它車輛的狀態;通過考慮自我車輛從當前狀態可進行的可能的縱向和橫向運動生成子節點,縱向運動包括速度加速、不同加速度的減速和當前速度保持,橫向運動包括車道保持、左車道變換和右車道變換;通過迭代地選擇動作并轉換到對應的子節點來遍歷樹,直到到達終端狀態。
17、所述步驟3中,動作的選擇由置信上限值指導,所述置信上限值的計算方法為:
18、
19、其中,q(v′)由步驟2強化學習訓練得到的狀態動作價值函數給出,n(v′)是子節點v′被訪問的次數,n是父節點vi已被訪問的總次數,const是常數,c(v′)是與子節點v′相關聯的總成本,即動作的當前價值的相反數:
20、
21、其中,cs(t)、cc(t)、cp(t)和co(t)分別是時間t時的安全性、舒適性、被動性和其他因素成本;ωs、ωc、ωp和ωo分別是與安全性、舒適性、被動性和其他因素相關的權重;t是總時間范圍。
22、所述蒙特卡洛樹搜索包括以下過程:
23、1)前瞻過程:自我車輛前瞻預設步數,其中每一步對應于固定的時間間隔t1,在每一步中,蒙特卡洛樹搜索算法從當前節點的可能動作集中選擇一個動作,并過渡到相應的子節點;
24、2)卷展過程:自我車輛的行為以給定的移動概率隨機生成,執行卷展過程,直到達到終端狀態;
25、3)終端狀態:在終端狀態下,計算與自我車輛采取的動作序列相關聯的總成本;
26、4)反向傳播:在模擬到達終端狀態并計算出總成本后,將總成本通過搜索樹反向傳播,從葉節點開始并追溯到根節點,更新在該模擬期間遇到的每個節點的累積成本和訪問計數;
27、5)重復執行過程1)-4),直至達到終止條件。
28、所述步驟4包括以下步驟:
29、步驟41:建立車輛的動力學模型,以描述車輛在不同速度、加速度下的運動特性;
30、步驟42:定義狀態量為實際軌跡與參考軌跡的誤差值,建立對軌跡跟蹤的二次規劃問題,并結合控制李雅普諾夫函數使得軌跡跟蹤誤差之和趨近于0,結合控制障礙函數保證車輛狀態誤差始終保持在一定范圍內;
31、步驟43:求解二次規劃問題,得到車輛控制量,實現自動駕駛軌跡跟蹤。
32、一種基于生成式世界大模型和多步強化學習的自動駕駛決策系統,用于實現如上述所述的方法,該系統包括:
33、駕駛場景推理模塊:用于建立基于生成式世界大模型的駕駛場景推理模型,預測周圍交通參與者的行為,輸出未來駕駛場景信息;
34、強化學習訓練模塊:用于基于未來駕駛場景信息,利用強化學習算法對智能體進行多步前瞻離線訓練,得到最優價值策略網絡;
35、最優決策序列求解模塊:用于基于未來駕駛場景信息和最優價值策略網絡,利用蒙特卡洛樹搜索在線求解最優決策序列并滾動優化;
36、軌跡跟蹤控制模塊:用于建立智能網聯電動汽車軌跡跟蹤控制器,基于最優決策序列控制自動駕駛汽車進行實時軌跡跟蹤。
37、與現有技術相比,本發明具有以下有益效果:
38、1、增強預測精度和可靠性:本技術采用生成式世界大模型,能夠學習和模擬復雜駕駛場景的變化,從而提供精確的場景預測,為決策系統提供可靠的輸入數據。并且與現有方法相比,本技術提出的自動駕駛系統結合生成式世界大模型的預測結果,通過多步前瞻的能力可以對未來多個時刻進行預判,從而更準確地預測潛在風險和情況,提高預測的精度和可靠性。
39、2、提高決策的穩定性和魯棒性:本技術采用滾動優化策略,通過實時調整和優化決策策略,系統能夠在面對突發情況和不確定環境時,依然保持穩定的決策性能,提高系統的魯棒性。此外,本技術結合反饋控制機制設計了智能網聯電動汽車動力學控制器,提供實時反饋和調節機制,確保車輛在實際行駛中的穩定性和安全性。
40、3、計算資源利用效率提升:本技術在車端部署自動駕駛算法過程中優化計算資源分配,通過將復雜的訓練過程轉移到離線階段,減少了在線階段的計算資源需求,提高了系統運行的資源利用效率。由于系統在實際運行時計算負擔較輕,硬件設備的要求相對降低,能夠節省自動駕駛車輛的總體開發成本。