本發明涉及城市交通領域,具體地,涉及一種基于時空patch向量化的交通調度基礎大模型訓練方法及系統。
背景技術:
1、隨著人口增長和城市化的加速,城市交通問題變得日益嚴峻,這不僅影響城市居民的日常出行,也對環境和經濟發展產生了重大影響。城市交通調度是現代城市管理中的一個重要領域,其核心目標是通過高效的交通流控制,減少交通擁堵,提升道路使用效率,并增強整個城市發展的可持續性。
2、交通調度的基本原理是通過監控和管理交通流來優化道路網絡的使用效率。這通常涉及到使用各種交通管理系統和技術,如車輛監控系統、交通信號燈控制以及實時交通信息服務等。這些系統通過實時收集交通數據,分析交通流量和模式,從而為交通管理提供決策支持。
3、當前智能城市交通調度是提升城市交通調度能力的關鍵,它使用大數據、深度學習等技術,根據交通攝像頭、交通卡口和遙感設備等傳感器觀測到的歷史交通流來預測未來的交通狀況(如交通流),并針對將會出現的問題做出交通調度動作如交通信號燈控制,來確保交通狀況的優化改善。
4、深度學習方法被用來處理城市交通的高維時空數據,以便更好地提取時空相關性特征,進行交通流的預測和交通調度。第一類方法是采用長短期記憶網絡(long?short-term?memory,lstm)模型應用于交通流量預測,這樣就有利于捕獲交通流量的長期時間相關性特征以提高交通流量的預測精度。第二類方法是卷積長短期記憶網絡(convolutionallstm,conv-lstm)模型,將卷積與循環神經網絡融合來學習交通流量預測的時空相關性。第三類方法是提出時空殘差網絡(spatio-temporal?res?idual?network,st-resnet)模型,利用不同殘差單元對時間鄰近性、周期性、趨勢性進行建模,預測城市區域的人流量。第四類方法是時空圖卷積網絡(spat?io-temporal?graph?convolut?ional?network,stgcn)模型,使用一維cnn對時間動態相關性進行建模,通過gcn獲取路網的局部空間相關性。
5、上述關于當前基于時空深度學習的調度算法存在的缺陷。首先,基于時空深度學習的調度算法缺乏對城市進行通用建模的基礎模型。當前的調度模型都是針對特定城市的數據進行學習的場景,不具備通識的泛化能力。單個城市的數據學習出來的算法模型因為具有強的地域場景特性,往往導致算法不具備可遷移性。其次,基于時空深度學習的調度算法對時空的建模非常樸素,只是把周邊的<空間信息>+<時間信息>羅列成一維信息,從信息的表達上來看是離散的,很難表達出時空片段的內在關聯和時空片段間的相互關系。第三,現有的算法在時間屬性上往往采用lstm捕獲其時間動態相關性,但是容易發生梯度爆炸,訓練無法充分完成。第四,路網空間相關性強弱會隨時間變化而動態變化,現有的深度學習算法也沒有辦法滿足。
6、以上的缺陷會導致當前交通調度算法的預測準確度受到很大的影響。
7、最近,基礎模型(foundation?model)的出現,包括大型語言模型(llms)如chatgpt,視覺基礎模型(vit)和視頻生成模型sora,已經顯著地重塑了人類對人工智能的研究。這些模型的特點是它們在大規模數據集上的廣泛預訓練(pretraining),使得它們具有了強大的涌現能力,包括上下文推理、復雜問題解決和zero-shot多任務適應能力。這種能力使基礎模型特別適合解決具有時空屬性的城市動態復雜交通問題,包括未來交通流預測、交通信號燈調度和交通組織規劃等。
技術實現思路
1、針對現有技術中的缺陷,本發明的目的是提供一種基于時空patch向量化的交通調度基礎大模型訓練方法及系統。
2、根據本發明提供的一種基于時空patch向量化的交通調度基礎大模型訓練方法,包括:
3、步驟s1:輸入城市交通流數據,形成交通流數據網絡,將交通流數據網絡patch化;
4、步驟s2:patch通過編碼器編碼,轉換為token?group,形成序列token?groups;
5、步驟s3:進行transformer模型的訓練與預測;
6、步驟s4:對預測到的tokens進行解碼,面向預設任務進行調整。
7、優選地,在所述步驟s1中:
8、輸入城市交通流數據,形成具有時空特性的交通流數據網絡;
9、將城市每個時刻的交通數據流按照城市的路網結構進行組織形成為一個快照,交通流快照將按照時間的序列從t0到ti進行排列,形成具有時空信息的交通流數據網絡結構;
10、交通流數據網絡patch化:
11、按照空間(h,w)和時間t對整個交通流數據網絡進行劃分,劃分統一遵循δh,δw,δt方式,分別從高度、寬度和時間維度中進行劃分,城市時空交通流數據被劃分為n塊,過程被稱為patch化。
12、優選地,在所述步驟s2中:
13、patch通過encoding,轉換為token?group,形成序列token?groups:
14、將每個patch通過編碼器encoder編碼,編碼器為堆疊的三維卷積神經網絡,每次卷積縮小輸入的空間時間尺寸,增加通道尺寸,通過全連接轉換為一維的編碼token:
15、
16、其中e()為編碼器,xi為交通數據的第i個patch,為第i個patch的編碼結果,dim為編碼長度,r(dim,1)是token所在的空間r;
17、在原圖中,同一空間平面上的patch為一組,將對應的token組成token?group;
18、
19、其中,nh為交通數據高度劃分次數nh=h/δh,nw為交通數據寬度劃分次數nw=w/δw;
20、token?group具有時空屬性,分別從高度、寬度和時間維度中進行token的提取,所有的patch形成序列化的tokens,提供給模型訓練;
21、按照這種token編碼方式,將具有時空一致性的交通流數據進行統一編碼,提供給生成式模型進行訓練。
22、優選地,在所述步驟s3中:
23、模型的訓練按照transformer架構進行訓練:
24、transformer由歸一化層norm,多頭自注意力層msa和全連接層mlp組成,輸入編碼為輸出編碼為向后傳播的過程為:
25、
26、
27、其中,nt為交通數據時間劃分次數nt=t/δt,為第l個網絡模塊在第i個token位置的輸出,l為transofrmer網絡模塊數量,為第l個網絡模塊在第i個token位置的中間變量,l為網絡模塊序號;
28、transformer架構進行模型的訓練準備訓練數據,根據全國各個城市的地圖,為每個城市構建交通模擬器生成交通流數據。
29、優選地,在所述步驟s4中:
30、對預測到的tokens進行解碼,獲得在某個時空上的交通流量預測、交通調度動作預測以及未來的交通組織優化;
31、解碼器由歸一化層和線性層組成,輸入編碼為輸出值為y,y的尺寸由下游任務決定,具體的解碼過程為:
32、
33、其中,d為解碼器,由歸一化層和線性層組成;
34、有了基于多個城市多樣化的數據訓練的交通基礎大模型,在針對特定的城市或者特定任務時,基于交通基礎大模型,收集相應城市的真實交通流數據進行調整;
35、對于流量預測,將最后若干組token?group解碼得到的結果和未來時刻的車流量計算均方根誤差,優化模型后實現流量預測,對于擁堵識別,將所有token?group解碼得到的結果和當前的擁堵指標計算均方根誤差,優化模型后實現擁堵識別;
36、對于信號燈配時方案以及道路規劃,最后若干組token?group解碼得到的結果當作行為,與外來時刻的觀測值結合現實含義計算得分優化模型,解碼得到下一時刻的和紅綠燈方案,結合下一時刻的路口等待數量,計算出下一時刻路口同行率,通過最大化同行率訓練模型。
37、根據本發明提供的一種基于時空patch向量化的交通調度基礎大模型訓練系統,包括:
38、模塊m1:輸入城市交通流數據,形成交通流數據網絡,將交通流數據網絡patch化;
39、模塊m2:patch通過編碼器編碼,轉換為token?group,形成序列token?groups;
40、模塊m3:進行transformer模型的訓練與預測;
41、模塊m4:對預測到的tokens進行解碼,面向預設任務進行調整。
42、優選地,在所述模塊m1中:
43、輸入城市交通流數據,形成具有時空特性的交通流數據網絡;
44、將城市每個時刻的交通數據流按照城市的路網結構進行組織形成為一個快照,交通流快照將按照時間的序列從t0到ti進行排列,形成具有時空信息的交通流數據網絡結構;
45、交通流數據網絡patch化:
46、按照空間(h,w)和時間t對整個交通流數據網絡進行劃分,劃分統一遵循δh,δw,δt方式,分別從高度、寬度和時間維度中進行劃分,城市時空交通流數據被劃分為n塊,過程被稱為patch化。
47、優選地,在所述模塊m2中:
48、patch通過encoding,轉換為token?group,形成序列token?groups:
49、將每個patch通過編碼器encoder編碼,編碼器為堆疊的三維卷積神經網絡,每次卷積縮小輸入的空間時間尺寸,增加通道尺寸,通過全連接轉換為一維的編碼token:
50、
51、其中e()為編碼器,xi為交通數據的第i個patch,為第i個patch的編碼結果,dim為編碼長度,r(dim,1)是token所在的空間r;
52、在原圖中,同一空間平面上的patch為一組,將對應的token組成token?group;
53、
54、其中,nh為交通數據高度劃分次數nh=h/δh,nw為交通數據寬度劃分次數nw=w/δw;
55、token?group具有時空屬性,分別從高度、寬度和時間維度中進行token的提取,所有的patch形成序列化的tokens,提供給模型訓練;
56、按照這種token編碼方式,將具有時空一致性的交通流數據進行統一編碼,提供給生成式模型進行訓練。
57、優選地,在所述模塊m3中:
58、模型的訓練按照transformer架構進行訓練:
59、transformer由歸一化層norm,多頭自注意力層msa和全連接層mlp組成,輸入編碼為輸出編碼為向后傳播的過程為:
60、
61、
62、其中,nt為交通數據時間劃分次數nt=t/δt,為第l個網絡模塊在第i個token位置的輸出,l為transofrmer網絡模塊數量,為第l個網絡模塊在第i個token位置的中間變量,l為網絡模塊序號;
63、transformer架構進行模型的訓練準備訓練數據,根據全國各個城市的地圖,為每個城市構建交通模擬器生成交通流數據。
64、優選地,在所述模塊m4中:
65、對預測到的tokens進行解碼,獲得在某個時空上的交通流量預測、交通調度動作預測以及未來的交通組織優化;
66、解碼器由歸一化層和線性層組成,輸入編碼為輸出值為y,y的尺寸由下游任務決定,具體的解碼過程為:
67、
68、其中,d為解碼器,由歸一化層和線性層組成;
69、有了基于多個城市多樣化的數據訓練的交通基礎大模型,在針對特定的城市或者特定任務時,基于交通基礎大模型,收集相應城市的真實交通流數據進行調整;
70、對于流量預測,將最后若干組token?group解碼得到的結果和未來時刻的車流量計算均方根誤差,優化模型后實現流量預測,對于擁堵識別,將所有token?group解碼得到的結果和當前的擁堵指標計算均方根誤差,優化模型后實現擁堵識別;
71、對于信號燈配時方案以及道路規劃,最后若干組token?group解碼得到的結果當作行為,與外來時刻的觀測值結合現實含義計算得分優化模型,解碼得到下一時刻的和紅綠燈方案,結合下一時刻的路口等待數量,計算出下一時刻路口同行率,通過最大化同行率訓練模型。
72、與現有技術相比,本發明具有如下的有益效果:
73、本發明將當前語言基礎大模型訓練優勢應用到城市交通場景上,構建一個交通基礎大模型,充分利用transformer模型的注意力機制,解決傳統深度學習在交通預測和調度問題上的缺陷,有效進行交通調度。