基于多智能體仿真的城市公共交通政策分析平臺的制作方法
【技術領域】
[0001] 城市公共交通管理。具體講,設及基于多智能體仿真的城市公共交通政策分析平 臺。
【背景技術】
[0002] Agent技術是人工智能研究領域的熱點,由面向對象技術發展而來。由異構、分 布、動態、大規模自治Agent松散親合所構成的系統,稱之為多Agent系統(Multi-Agent System,M巧,也可泛指所有由多個自治或半自治模塊組成的系統。在交通領域,利用多 Agent技術解決復雜交通問題的研究也正在日益增多。多Agent仿真技術為解決早高峰通 勤現有研究的局限性提供了新的方法。多Agent系統中的每個Agent都有其不同的行為動 機和行為機制,并具有在不完全信息下求解問題的能力,Agent所具備的知識和獲取的數據 是相互獨立的,系統不具備全局控制機制。每個Agent的行為都將對環境造成影響,而環境 所包含的信息又通過反饋機制傳遞給Agent,從而影響其行為。
[0003] 多Agent技術在交通相關領域得到了廣泛的運用。在交通控制和管理領域, Fei-YueWang設計了將Agent技術運用于現實城市交通控制的硬件及系統實現。Van Katwi化等提供了一個能在動態交通管理中實驗不同策略的多Agent系統,W研究不同 策略的適用性。在交通信號燈控制領域,化oy等建立一個具有在線學習能力的分層式多 Agent構架,運用模糊神經決策控制交通信號燈。化en等設計了帶適應和合作的信號燈 Agent用于分散式的交通燈控制。Kosonen設計一個基于多Agent的信號燈控制系統,其利 用實時檢測器數據對路網情況進行在線仿真。
[0004] 值得一提的是,多Agent系統所具備的Agent的異構性、自治性等特點,使其尤為 適合在交通仿真領域中使用,不論是行人流的仿真、駕駛行為的仿真,甚至在道路交叉口仿 真或者空中交通流量仿真方面也都得到了較好的應用。Burmeister等利用多Agent技術實 現了一個微觀交通仿真模型,在其模型中將駕駛員及其所駕駛車輛視為一個智能Agent,由 傳感器、效應器、通訊機制、動機、認知等模塊組成,結果表明新模型更為契合實際,并且克 服了傳統仿真模型中的諸多不足。化achimW址le等利用基于Agent的方法對兩路徑情況 進行仿真,研究了實時信息影響下的駕駛員行為。Salim等提出了一個基于Agent的模型用 于仿真道路交叉口的安全狀況,在其模型中,Agent利用數據流挖掘的方法用于偵測交叉口 路況、碰撞提示和回避等方面。Rossetti等利用帶有信念化eliefs)、愿望(desires)、意圖 (intentions)的抓IAgent研究駕駛員的決策行為。在Li等的工作中,多Agent的協同機 制和網格計算方法結合起來被用于空中交通流的仿真,提高了傳統空中交通流仿真中的計 算效率。DaSilva等開發了能夠仿真駕駛員行為、交通燈、交通擁堵預測的多Agent仿 真平臺。Kukla建立了一個基于多Agent的行人仿真模型。
【發明內容】
[0005] 為克服技術的不足,為政策的制定、交通管理效率的提高提供技術支持。為此,本 發明采取的技術方案是,基于多智能體仿真的城市公共交通政策分析平臺,由大規模自治Agent松散親合所構成,形成多Agent系統(Multi-AgentSystem,MAS,),通勤者Agent代 表在早高峰有出勤需求的居民,其基本行為模式為在每個仿真天內乘坐公交車至工作區上 班,結束通勤后衡量此次通勤的成本,更新經驗庫和知識;系統包括如下幾個主要模塊:
[0006] 環境感知模塊:用于感知環境中的擁擠、早到或遲到的延誤懲罰等因素;
[0007] 記憶存儲模塊:用于保存和提取歷史通勤信息;
[0008] 成本衡量模塊;結合環境感知模塊計算通勤成本;
[0009] 經驗庫:隨著系統的演化Agent會不斷更新自己的經驗,其內容體現了Agent對記 憶中整個高峰通勤狀況的感受和評價;
[0010] 學習機制:采用基于Agent的Bush-Mosteller算法;
[0011] 決策控制模塊:結合經驗庫和通勤者記憶的信息,對下一個仿真天選乘的班次進 行決策。基于Bush-Mosteller的通勤者學習機制包括;
[0012] 1)義用Bush-Mosteller強化學習模型;
[001引。策略學習機制;
[0014] 將BM模型應用到早高峰通勤情境下,通勤者的可選策略集即為早高峰所有班車 集合,記為T,每一輛公交車代表一個選擇策略,每個策略對應一個選擇概率從而整個策略 集對應了一個概率向量,由隨機決策準則決定每仿真天內通勤者所選策略。通勤者單次通 勤效用由成本衡量模塊計算;
[0015] 3)刺激計算規則
[0016] 在BM標準模型中,刺激S。的計算方式公式如下:
[0017]
公式(1)
[001引其中
[0019] C。一策略a相對應的平均通勤
[0020] A-通勤者對此次通勤成本的期望
[0021] Cm"-該通勤者的歷史最高通勤成本
[0022] Cmi。一該通勤者的歷史最低通勤成本
[0023] 式(1)的分母表示該通勤者歷史任意一次成本與期望之差的絕對值的上確界;
[0024] 4)概率更新過程
[00巧]把A取為該通勤者的歷史平均通勤成本。在一次通勤中采用策略a之后,其對應 概率P。更新規則如下;
[0026]
公式(2)
[0027] 在式(2)中,P。,,代表t時刻策略a對應的選擇概率,1表示學習率(0 < 1 < 1), 其體現了通勤者學習的速度,S。,,是在t時刻選擇策略a后計算得到的刺激;
[0028] 對于未被選擇的策略,其對應的概率更新規則如下:
[0029]
[0030] 采用在參數一致的情況下對比經典解析結果的方法,檢驗多Agent系統模型的正 確性;采用Tian模型作為驗證多Agent方法適用性的基準模型,在Tian的模型中,通勤者 被假定為是同質的,并且對整個早高峰通勤狀況具有完備信息,首先采用與其一致的假定 條件和參數設置進行實驗,從Hi站出發,選擇乘坐班車j的通勤者的總成本用如下公式計 算:
[003。
公式(4)
[003引其中,P康示從H卻出發到工作地W的票價,假定Pi是恒定的并不隨時間變化,ci表示通勤者從&出發乘坐班車j到達W過程中的總擁擠成本,擁擠成本的計算用一個包 含車內擁擠水平和站間行駛時間的函數表示,如式巧);
[0033]
公式巧)
[0034] 其中,呵是從站咕上車乘坐班車j的通勤者數量,顯然有> 0,TS表示從站HS 到站Hw的行駛時間,擁擠函數g(n)代表通勤者對擁擠水平的感知,當車廂內沒有人的時 候,擁擠成本為0,即g(〇) =〇;g(n)取線性函數;
[003引式(4)中的第四項5 (j)表示通勤者乘坐班車j所獲得的延誤懲罰 成本,該里延誤懲罰成本的定義與Vickrey的瓶頸模型一致,模型中用T= {C,. . .,2, 1,0, -1,-2,. . .,-C}表示所有公交車的集合,C和C取足夠大W確保所有通 勤者均能在整個交通高峰階段完成通勤,假定只有一輛公交車是在上班時間時刻準時到達 工作區W的,用0表示,由此,j> 0表示在上班時間之前就到達W的公交班次,早到的時間 良PjXt,其中t為公交車發車間隔,j< 0表示在上班時間點之后到達W的公交班次,遲到 時間為-jXt, 5 (_]')的計算如式做:
[0036]
公式化)
[0037] 其中,0和丫均為正數,分別代表早到、遲到情況下每單位時間所帶來的延誤懲 罰成本;
[0038] 在計算等價問題時假定Pi+af= 0,最終通過求解凸函數最小化問題得到通勤者 出發時間的均衡狀態分布:
[0039] 達到均衡時通勤者出發時間分布滿足滿足四點性質:
[0040] (1)對于非起始站點&,如果某班車j上在該站載客人數>0,則上游站臺中一 定也有人乘坐該車;
[00川 似對于非起始站點Hi,如果某班車j上在該站載客人數> 0,則上一站臺Hh- 定有人乘坐該車;
[0042] (3)對于非起始站點&,如果某班車j上在該站載客人數/< > 0,則該車所搭載的 上游所有站臺的總人數是一個獨立于j的常量;更進一步說,上游每一站的上車人數均是 獨立于j的常量nS
[0043] 除了最后一個上車站即非Hk的H1,對于所有班車j屬于T,所有在Hi站上j車的 人數均小于等于ni。
[0044] 與已有技術相比,本發明的技術特點與效果:
[0045] 本發明通過agent建模及分析,可獲取高峰前免費乘車、公交提速等各項交通管 理政策能夠取得的效果預計,為政策的制定、交通管理效率的提高提供技術支持。
【附圖說明】
[0046] 圖1通勤者Agent模塊。
[0047] 圖2BM模型中的認知結構改變過程。
[0048] 圖3策略a更新過程。
[0049] 圖4典型算例。
[0050] 圖5通勤者班次選擇分布。
[0051]圖6 "峰前免費"政策仿真實驗結果。a通勤者收斂程度;b各站通勤者平均通勤 成本(均衡時);c通勤者班次選擇分布。
[0052] 圖7"峰前免費"政策組與理想組實驗對比。
[0053] 圖8各班次所載乘客的平均通勤成本。
[0054] 圖9 "分時折扣"政