基于信息熵的出租車尋客路線推薦方法
【專利摘要】本發明公開了一種基于信息熵的出租車尋客路線推薦方法,步驟包括:挖掘出租車軌跡,并從中提取載客點數據;從提取得到的載客點中挖掘提取代表乘客聚集地的尋客點;對出租車進行尋客過程中選擇尋客位置所依據因素的屬性值進行度量;根據出租車當前位置和當前時間,獲取指定范圍內的尋客點,構建尋客點選擇模型,所述尋客點選擇模型包括出租車從當前位置和當前時間出發能夠到達的尋客點集合及其決策矩陣;基于信息熵求解尋客點選擇模型,獲得綜合屬性最優的指定個尋客點;以前一次獲得的尋客點為基準點,重復指定次構建和求解模型,根據最優尋客點的獲取層次生成尋客路線并推薦。本發明具有能夠給出租車司機帶來良好收益、推薦準確度高的優點。
【專利說明】
基于信息滴的出租車尋客路線推薦方法
技術領域
[0001] 本發明設及出租車尋客路線推薦,具體設及一種基于信息賭的出租車尋客路線推 薦方法。
【背景技術】
[0002] 近年來,出租車作為城市交通系統的重要組成部分,因其覆蓋范圍廣,出行方便, 且沒有設及到隱私問題,越來越多的人選擇出租車作為出行的交通工具。根據一份關于打 車市場的調查(速途研究),每周都要打車的用戶高達69.8%,當出行距離適當,打車比開車 方便時,選擇打車的用戶高達73.4%。但是隨著社會經濟的快速發展和城市化進程的不斷 加快,城市機動車擁有量不斷增長,交通需求急劇增加,從而帶來了交通擁堵、交通事故、環 境污染和能源短缺等交通相關問題,影響城市經濟建設和運行效率,制約著人們的生活和 工作。為應對運些難題,政府大力倡導公共交通出行,指定程度上促進了出租車成為短途交 通運輸的重要工具。在方便了人們出行的同時,大量空載出租車隨機行駛在城市的大街小 巷中尋找乘客,不僅會浪費汽油,且排出的尾氣影響空氣質量,造成環境污染,而且會引發 額外的交通事故。由于出租車司機尋找乘客時考慮的因素往往是多方面的,如到達指定尋 客位置的距離、行駛時間,在指定尋客位置等候乘客所需時間等,因此,有必要研究多屬性 條件下的空載出租車行駛路線規劃問題。當前,就如何降低出租車空載率、提高出租車司機 收益、節約成本等問題已經存在了很多研究。但是,運些研究主要集中在W下幾個方面:第 一,出租車當前位置和推薦位置之間的距離應該盡可能短,從而節約時間和汽油消耗;第 二,出租車在推薦位置能夠搭載到乘客的概率盡可能高;第Ξ,出租車W盡可能短的時間在 尋客推薦位置搭載到乘客;第四,期望能夠在推薦位置搭載到乘客后駕駛比較遠的距離,一 次性獲得不菲的收入。很多研究只考慮了其中的一到兩個方面,并沒有綜合考慮多個因素 來解決出租車空載問題。且在復雜和動態的現實環境中,推薦單獨的尋客位置很難達到嚴 格最優,如出現載客失敗的情況,從而推薦連續的尋客位置更加有意義。
【發明內容】
[0003] 本發明要解決的技術問題:針對現有技術的上述問題,提供一種能夠更好地解決 出租車空載問題、為出租車司機節約成本及提高收益、推薦準確度高的基于信息賭的出租 車尋客路線推薦方法。
[0004] 為了解決上述技術問題,本發明采用的技術方案為:
[0005] -種基于信息賭的出租車尋客路線推薦方法,步驟包括:
[0006] 1)挖掘出租車軌跡,從中提取載客點數據;
[0007] 2)從提取得到的載客點中挖掘提取代表乘客聚集地的尋客點;
[000引3)對出租車進行尋客過程中選擇尋客位置所依據因素的屬性值進行度量;
[0009] 4)在出租車運行過程中,獲取出租車的當前位置作為基準位置;
[0010] 5)根據基準位置和當前時間,獲取指定距離范圍內的尋客點,構建尋客點選擇模 型,所述尋客點選擇模型包括出租車從基準位置和當前時間出發下一步能夠到達的尋客點 集合及其決策矩陣;
[0011] 6)基于信息賭求解尋客點選擇模型,獲得出租車從基準位置和當前時間出發下一 步能夠到達的綜合屬性最優的指定數量個尋客點;
[0012] 7)判斷獲取綜合屬性最優尋客點的次數是否等于預設闊值,如果小于預設闊值, 則依次W當前綜合屬性最優的各個尋客點作為新的基準位置,跳轉執行步驟5);如果等于 預設闊值,則執行后續步驟;
[0013] 8)根據綜合屬性最優的尋客點的獲取層次,W深度優先捜索的形式,生成對應的 尋客路線,并計算輸出綜合屬性值最大的尋客路線。
[0014] 優選地,所述步驟4)中決策矩陣如式(1)所示;
[0015]
(1)
[0016] 式(1)中,A為決策矩陣,aij為尋客點集合乂=^,町一,站忡尋客點扣關于選擇尋 客位置所依據因素的屬性集合υ={ρ?,Ρ2,···,ΡΝ}中屬性W的度量值,其中列變量j滿足1< j 如,N為選擇尋客位置所依據因素的屬性集合11=柄瓜,一刷}中的屬性總數量,行變量1 滿足^,Κ為尋客點集合X={X1,X2,…,XK}中的尋客點總數量。
[0017] 優選地,所述步驟4)中還包括將決策矩陣進行規劃化處理,得到的規范化矩陣如 式(2)所示;
[001 引 R=(rij)KXN (2)
[0019]式(2)中,R為規劃化處理得到的規范化矩陣,N為選擇尋客位置所依據因素的屬性 集合U={P1,P2,…,PN}中的屬性總數量,K為尋客點集合X={X1,X2,…,XK}中的尋客點總數 量,ru為決策矩陣中元素 au對應的規范化屬性值,如果規范化屬性值ru為效益型則其計算 函數表達式如式(3)所示,如果規范化屬性值ru為成本型則其計算函數表達式如式(4)所 示;
[0022] 式(3)和式(4)中,ru為決策矩陣中元素 au對應的規范化屬性值,au為尋客點集合 X= {xi,X2,…,χκ}中尋客點Xi關于選擇尋客位置所依據因素的屬性集合U= {pi,P2,…,pn} 中屬性Pj的度量值,κ為尋客點集合乂=山,町一,抽}中的尋客點總數量。
[0023] 優選地,所述步驟6)的詳細步驟包括:
[0024] 6.1)采用式(5)所示函數表達式計算選擇尋客位置所依據因素的屬性集合U = (pi,P2,…,pn}中屬性Pj的信息賭;
[0025]
饋
[0026] 式(5)中,Ej為屬性Pj的信息賭,K為尋客點集合X={xl,x2,…,xκ}中的尋客點總數 量,ru為決策矩陣中元素 au對應的規范化屬性值;
[0027] 6.2)采用式(6)所示函數表達式計算選擇尋客位置所依據因素的屬性集合U = (pi,P2,···,Pn}的權重向量;
[002引
6·^
[0029] 式(6)中,ω為權重向量,W功屬性集合U= {pi,p2,...,pn}中第1個屬性P1的權重,W2 為屬性集合U= {pi,P2,···,pn}中第2個屬性P2的權重,WN為屬性集合U= {pi,P2,···,pn}中第N 個屬性PN的權重,Ej為屬性集合U= {pi,p2,…,pn}中第j個屬性Pj的信息賭,N為選擇尋客位 置所依據因素的屬性集合U={P1,P2,…,PN}中的屬性總數量;
[0030] 6.3)采用式(7)所示函數表達式計算尋客點集合乂=^1,^2,-,,站}中各個尋客點 的綜合屬性值;
[0031] Zi( ω )= SrijWj (7)
[0032] 式(7)中,Zi(co)為尋客點集合X={χl,χ2,…,xκ}中尋客點xi的綜合屬性值,ω為權 重向量,町為決策矩陣中元素扣擁應的規范化屬性值,Wj為屬性集合U= {pi,P2,· · ·,pn}中第 j個屬性Pj的權重;
[0033] 6.4)采用式(8)所示函數表達式對尋客點集合X={xi,x2,…,站}中各個尋客點的 綜合屬性值進行排序,獲得綜合屬性最優的m個尋客點;
[0034] Z=maxm[Sort(Zi( ω ))] (8)
[0035] 式(8)中,Ζ為綜合屬性最優的m個尋客點對應的綜合屬性值,Sort(Zi(w))為綜合 屬性值的排序函數,maxm為取最大m個值,Zi( ω )為尋客點集合X= {χι,χ2,…,χκ}中尋客點Xi 的綜合屬性值。
[0036] 優選地,所述步驟2)中從提取得到的載客點中挖掘提取尋客點的具體步驟包括: 分析所述載客點在時間和空間上的分布特征,進行基于密度聚類的時空分析,過濾掉載客 點稀疏區域,得到載客點密度高的區域作為提取得到的尋客點,所述尋客點代表乘客的聚 集地。
[0037] 優選地,其特征在于,所述步驟3)中選擇尋客位置所依據因素的屬性包括基準位 置到尋客點的距離、載客概率、等候乘客時間和預期收益。
[0038] 優選地,所述載客概率的度量如式(15)所示;
[0039]
(15)
[0040] 式(15)中,P(i)為載客概率的度量值,N(p)為指定時間段T內尋客點所在區域的載 客點數目,Area為尋客點所在區域的面積,T為指定時間段。
[0041] 優選地,所述等候乘客時間的度量如式(16)所示;
[0042]
(16.)
[0043] 式(16)中,W(i)為等候乘客時間的度量值,N(p)為指定時間段T內尋客點所在區域 的載客點數目,w(p)為出租車在載客點P處等候乘客的時間,T為指定時間段。
[0044] 優選地,所述尋客點預期收益的度量如式(17)所示;
[0045]
(巧)
[0046] 式(17)中,F(i)為尋客點載客概率的度量值,N(p)為指定時間段Τ內尋客點所在區 域的載客點數目,f(p)為出租車在載客點Ρ處載客后獲得的實際收益,Τ為指定時間段。
[0047] 本發明基于信息賭的出租車尋客路線推薦方法具有下述優點:本發明通過挖掘出 租車軌跡,提取載客點及尋客點,綜合考慮了影響出租車司機選擇尋客點的多個因素,對出 租車進行尋客過程中選擇尋客位置所依據因素的屬性值進行度量;從出租車的當前位置作 為基準位置開始,根據基準位置和當前時間獲取指定距離范圍內的尋客點,構建尋客點選 擇模型,尋客點選擇模型包括出租車從基準位置和當前時間出發下一步能夠到達的尋客點 集合及其決策矩陣,基于信息賭求解尋客點選擇模型,獲得出租車從基準位置和當前時間 出發下一步能夠到達的綜合屬性最優的尋客點,最終重復構建尋客點選擇模型W及基于信 息賭的模型求解過程,利用信息賭衡量信息價值的思想來度量各屬性因素相對出租車的價 值W便計算尋客點集合中所有尋客點的綜合屬性值,最終將所有綜合屬性最優的尋客點生 成推薦的出租車尋客路線并輸出,與典型的Τορ-Κ推薦進行對比,本發明具有能夠更好地解 決出租車空載問題、為出租車司機節約成本及提高收益、推薦準確度高的優點。
【附圖說明】
[004引圖1為本發明實施例方法的基本原理示意圖。
[0049] 圖2為本發明實施例方法的基本流程示意圖。
[0050] 圖3為本發明實施例中的尋客行駛路線示意圖。
[0051] 圖4為本發明實施例中尋客路線生成過程示意圖。
[0052] 圖5為本發明實施例中某軌跡段中的停留區域示意圖。
[0053] 圖6為本發明實施例中單條軌跡經過異常點剔除和停留區域檢測前后的對比示意 圖。
[0054] 圖7為本發明實施例中載客點提取的原理示意圖。
[0055] 圖8為本發明實施例中同一區域不同時段載客點的分布情況圖表。
[0056] 圖9為本發明實施例中各時段載客點分布比例圖表。
[0057] 圖10為本發明實施例中各時段出租車空載和載客時長圖表。
[005引圖11為本發明實施例中各時段出租車空載和載客距離圖表。
[0059] 圖12為本發明實施例中尋客點準確率隨半徑變化圖表。
[0060] 圖13為本發明實施例方法和現有技術載客后行駛時間的對比示意圖。
[0061] 圖14為本發明實施例方法和現有技術載客后行駛距離的對比示意圖。
【具體實施方式】
[0062] 如圖1和圖2所示,本實施例基于信息賭的出租車尋客路線推薦方法的步驟包括:
[0063 ] 1)挖掘出租車軌跡,從中提取載客點數據;
[0064] 2)從提取得到的載客點中挖掘提取代表乘客聚集地的尋客點;
[0065] 3)對出租車進行尋客過程中選擇尋客位置所依據因素的屬性值進行度量;
[0066] 4)在出租車運行過程中,獲取出租車的當前位置作為基準位置;
[0067] 5)根據基準位置和當前時間,獲取指定距離范圍內的尋客點,構建尋客點選擇模 型,尋客點選擇模型包括出租車從基準位置和當前時間出發下一步能夠到達的尋客點集合 及其決策矩陣;
[0068] 6)基于信息賭求解尋客點選擇模型,獲得出租車從基準位置和當前時間出發下一 步能夠到達的綜合屬性最優的指定數量個尋客點;
[0069] 7)判斷綜合屬性最優的尋客點的總數量是否已經等于預設闊值K,如果小于預設 闊值K,則依次W當前綜合屬性最優的各個尋客點作為新的基準位置,跳轉執行步驟5);如 果等于預設闊值K,則執行后續步驟;
[0070] 8)根據綜合屬性最優的尋客點的獲取層次,W深度優先捜索的方式,生成對應的 尋客路線,并計算輸出綜合屬性值最大的尋客路線。
[0071] 本實施例能夠得到代表乘客聚集地的尋客點數據,運些尋客點數據分布在各個不 同的時間段,不同的城市區域中。在交通路網中,從空載出租車當前位置出發,一定范圍或 者時間內能夠達到的尋客點是固定的。如圖3所示,該圖包含P1~P11共11個尋客點,空載出 租車從0點出發,其周圍一定區域內的尋客點數目是一個定值。對于出租車司機來說,選擇 運些點存在著一定的順序性,從而可W構建一個尋客點選擇模型,每次基于出租車當前位 置和時間選擇m個最優的尋客位置點。設空載出租車當前位置點為0,可供選擇的尋客點個 數有K化含2)個,每個尋客點的性質由N(N含2)個屬性來表述,Χ={χι,Χ2,···,χκΚΡυ={ρι, Ρ2,…,ρν}為分別為尋客點集合和影響因素屬性集合。考慮到實際環境的動態復雜性,在為 出租車推薦單個尋客點時,具有較大的隨機性,可能會出現載客失敗的情況,從而推薦多個 連續的尋客點非常有必要。如W載客概率運一因素來進行的Τορ-Κ推薦,為出租車推薦Κ個 載客概率較高的尋客點。然而運些連續的尋客點之間存在著一定的聯系,當在第一個尋客 點載客失敗后,前往第二個尋客點時,可能會有較遠的空載距離,關系到出租車司機的載客 成本和預期收益,從而推薦的路線不是最優的。
[0072] 本實施例中步驟5)和步驟6)是指計算每一個基準位置的接下來m個綜合屬性最優 的尋客點,步驟7)為判斷尋找綜合屬性最優的尋客點的層次是否滿足指定值k,步驟8)則為 根據最優尋客點獲取層次生成推薦的綜合屬性最優的出租車尋客路線的步驟,根據出租車 當前位置和時間,重復k-1次尋客點選擇模型構建和基于信息賭的模型求解過程,每次均W 上一次得到的最優尋客點為起始點,可W得到k層,每層m個最優的尋客點,從而組成尋客路 線推薦給出租車。例如W0點作為基準位置,計算其綜合屬性最優的2個尋客點為P1和P10, WP1點作為基準位置,計算其綜合屬性最優的2個尋客點為P6和P2,WP6點作為基準位置, 計算其綜合屬性最優的兩個尋客點為P3和P2,W此類推,可得到待推薦的出租車尋客路線 {P1,P6,P3}。圖4展示了本實施例中步驟8)根據綜合屬性最優的尋客點的獲取層次,例如捜 索得到的第一層尋客點結點為Pii~Plm,W第一層尋客點結點Pii為父節點,其對應的第二層 尋客點結點P211~P21m,W第二層尋客點結點P211為父節點可得到對應的第Ξ層尋客點結點, W第k-1層尋客點節點為父節點可得到對應的第k層尋客點節點Pkii~Pkim,W此類推。最終, W深度優先捜索的方式,生成相應尋客路線的過程,該尋客路線在每一個層次均包含一個 節點,且該尋客路線的綜合屬性最優。
[0073] 令i(l y非)為行變量,表示第i個尋客點,j(l y如)為列變量,表示第j個屬性 值,曰^為尋客點XI關于屬性W的取值,本實施例中,步驟4)中決策矩陣如式(1)所示;
[0074]
(:1)
[007引式(1)中,A為決策矩陣,aij為尋客點集合乂=^,町一,站忡尋客點扣關于選擇尋 客位置所依據因素的屬性集合υ={ρι,ρ2,···,ΡΝ}中屬性W的度量值,其中列變量j滿足1< j 如,N為選擇尋客位置所依據因素的屬性集合11=柄瓜,一刷}中的屬性總數量,行變量1 滿足^,Κ為尋客點集合X={X1,X2,…,XK}中的尋客點總數量。
[0076] 對于決策矩陣A而言,根據屬性值的不同,對其期望的取值結果亦不相同,如希望 在尋客點等候乘客的時間越短越好,載客后行駛的里程越長越好,從而收益越高,故不同的 屬性對決策存在不同的影響。本實施例中為消除影響,采用"比重變換法"對矩陣A做規范化 處理,步驟4)中還包括將決策矩陣進行規劃化處理,得到的規范化矩陣如式(2)所示;
[0077] R=(rij)KXN (2)
[0078] 式(2)中,R為規劃化處理得到的規范化矩陣,N為選擇尋客位置所依據因素的屬性 集合U={P1,P2,…,PN}中的屬性總數量,K為尋客點集合X={X1,X2,…,XK}中的尋客點總數 量,ru為決策矩陣中元素 au對應的規范化屬性值,如果規范化屬性值ru為效益型則其計算 函數表達式如式(3)所示,如果規范化屬性值ru為成本型則其計算函數表達式如式(4)所 示;
[0081] 式(3)和式(4)中,ru為決策矩陣中元素 au對應的規范化屬性值,au為尋客點集合 X= {xi,X2,···,χκ}中尋客點Xi關于選擇尋客位置所依據因素的屬性集合U= {pi,P2,···,pn} 中屬性Pj的度量值,κ為尋客點集合X = { XI,X2,· · ·,χκ}中的尋客點總數量。
[0082] 在得到尋客點選擇模型后,需要判斷尋客點選擇模型中各個尋客點相對出租車司 機的價值,此時需要對各個因素的權重進行衡量,而權重決定于各因素的重要程度,從而需 要對各個影響因素的價值進行衡量。故,本實施例將信息賭運用在模型求解的過程中,W此 來權衡各個因素在尋客點選擇過程中的重要程度。本實施例中,步驟6)的詳細步驟包括:
[0083] 6.1)采用式(5)所示函數表達式計算選擇尋客位置所依據因素的屬性集合U = (pi,P2,…,pn}中屬性Pj的信息賭;
[0084]
巧)
[0085] 式(5)中,Ej為屬性Pj的信息賭,K為尋客點集合X={xl,x2,…,xκ}中的尋客點總數 量,ru為決策矩陣中元素 au對應的規范化屬性值;
[0086] 6.2)采用式(6)所示函數表達式計算選擇尋客位置所依據因素的屬性集合U = (pi,P2,···,Pn}的權重向量;
[0087]
(6)
[00則式(6)中,ω為權重向量,W功屬性集合U= {pi,p2,...,pn}中第1個屬性pi的權重,W2 為屬性集合u= {pi,P2,···,pn}中第2個屬性P2的權重,WN為屬性集合U= {pi,P2,···,pn}中第N 個屬性PN的權重,Ej為屬性集合U= {pi,p2,…,pn}中第j個屬性Pj的信息賭,N為選擇尋客位 置所依據因素的屬性集合U={P1,P2,…,PN}中的屬性總數量;
[0089] 6.3)采用式(7)所示函數表達式計算尋客點集合乂=^1,^2,-,,站}中各個尋客點 的綜合屬性值;
[0090] Zi(〇)=IrijWj (7)
[0091] 式(7)中,Zi(co)為尋客點集合X={χl,χ2,…,xκ}中尋客點xi的綜合屬性值,ω為權 重向量,町為決策矩陣中元素扣擁應的規范化屬性值,Wj為屬性集合U= {pi,P2,· · ·,pn}中第 j個屬性Pj的權重;
[0092] 6.4)采用式(8)所示函數表達式對尋客點集合X={xi,x2,…,站}中各個尋客點的 綜合屬性值進行排序,獲得綜合屬性最優的m個尋客點;
[0093] Z=maxm[Sort(Zi( ω ))] (8)
[0094] 式(8)中,Ζ為綜合屬性最優的m個尋客點對應的綜合屬性值,Sort(Zi(w))為綜合 屬性值的排序函數,maxm為取最大的m個值,Zi( ω )為尋客點集合X= {χι,χ2,···,χκ}中尋客點 xi的綜合屬性值。
[0095] 參見圖1,本實施例中步驟1)挖掘出租車軌跡具體是指基于出租車的GI^數據進行 挖掘并從中提取載客點(Pick-up化int)數據。本實施例中采用的GI^軌跡數據來源于微軟 亞洲研究院的公開數據集。數據集收集了是北京市的182輛出租車GPS移動軌跡,通過搭載 在出租車上的GPS記錄儀和具有軌跡記錄功能的手機。軌跡收集時間跨度為2007年4月至 2012年8月,GPS信號收集頻率為1~5秒,或者采集者步行距離5~10米。數據集中包含了 17621條軌跡數據,距離總長度達到1292951千米,記錄時長為50176個小時。主要收集了使 用者定位位置的締度、經度和時間等信息,沒有記錄狀態信息,即空載或者載客狀態。載客 點是指出租車搭載乘客的地點,通常為停留區域的最后一個點或者低速巡航的終點,且靠 近某個具體的興趣點(Point of Interest,P0I),如醫院、賓館等,表示乘客上車的地點。出 租車載客之前平均行駛速度小于給定速度闊值Ve,載客之后平均行駛速度超過給定速度闊 值Ve,且行駛距離超過給定距離闊值δ。其中,停留區域的定義如下:在出租車的GPS軌跡數 據中存在著運樣一些位置點,出租車在運些位置點的移動速度V小于給定的闊值θν,并W小 于速度闊值的速度連續移動時間t超過給定的時間闊值Θ*,或者在某一區域停留超過時間 t,則稱運些位置點所形成的區域為停留區域(Stay Area),并假定停留區域最后一個點為 停留點(Sl:ay Point)。
[0096] 一個停留區域^知巧……'知…'/^亡^滿足式側:
[0097]
(9)
[009引式(9)中,d(Pi,Pi+l)為Pi和Pi+1為連續兩個記錄點之間的網絡距離,Pi+l.t為Pi+1為 連續兩個記錄點之間的時間,Pl.t為記錄點Pi的時間,Pm. t為停留區域最后一個記錄點Pm的 時間,Pn.t為停留區域第一個記錄點點Pn的時間,Τ表示用于判定停留區域的給定持續時間 段。
[0099] 如圖5所示,GPS軌跡中的軌跡段引Ρ3,Ρ4,Ρ日,Ρ6}即為一個停留區域,僅當運些點滿 足vi< , i = 3,4,5,6且Ρ6. t-p3. t> 白t。
[0100] 對于軌跡段Τ{Ρ1,Ρ2, . . .,Pi,. . .,pn}而言,Pi為停留點,且指定范圍內存在POI,定 義停留點P功載客點的標準如式(10)所示:
[0101]
(10)
[0102] 式(10)中,Pl.t為序列點Pi的時間,Pl.t為序列點P1的時間,Pn.t為序列點Pn的時 間,d(pi,Pi)表示序列點P1、序列點Pi之間的網絡距離,d(Pi,Pn)表示序列點Pi、序列點Pn之間 的網絡距離,Ve為給定速度闊值,δ為給定距離闊值。
[0103] 本實施例步驟1)基于出租車的GI^數據進行挖掘的詳細步驟包括:
[0104] 1.1)、異常記錄點剔除。
[0105] 由于出租車軌跡數據來源于GPS設備采集,當出現特殊情況時,如信號遮擋、冷啟 動等,信號贏弱或者沒有信號會使GI^設備的數據采集受到干擾,從而出現數據缺失和數據 漂移等數據異常問題。給定一條GI^軌跡序列Τ{ρι,ρ2, . . .,pn},根據常識可知,GPS記錄點之 間的距離應該小于城市行車速度的最大行進距離,通常不會超過50Km/h。故而能夠通過記 錄點之間的行進距離進行檢測,W此來判斷軌跡點是否異常。可W將檢測標準定義如式 (11)所示:
[0106] 0<d(pi+l ,Pi)/(pi+l . t-pi . t)<Vmax (11)
[0107] 式(11)中,d(pi+i,pi)為記錄點pi+1和Pi之間的網絡距離,Pl.t為記錄點Pi的時間, Pi+l.t為記錄點Pi+1的時間,Vmax為物體移動速度的最大值。
[010引 1.2)停留區域檢測。
[0109] 停留區域的產生包含兩種情況,一種是出租車的運動狀態靜止,表明在等待有需 求的乘客或者在停車場,而另一種是在某個地方低速行駛時間超過給定的時間闊值,表明 出租車在尋找乘客或者有其他交通狀況。根據停留區域的定義對停留區域進行檢測,并從 軌跡中刪除停留區域,并設停留區域最后一個點為停留點(Stay Piont)。去除停留區域后, 軌跡變為Τ{ρ?,Ρ2, . . .,Pn-l,Pm,Pm+l, . . .,pn},記錄點Pn-l和記錄點Pm+l間至少存在一個時間 為9t的時間間隙。
[0110] 經過異常記錄點剔除和停留區域檢測后,根據GPS記錄點之間的時間間隙,當時間 間隙超過闊值(本實施實例中設置為30分鐘)時對軌跡進行分割,從而保證軌跡的連續性。 圖6為單條軌跡經過異常記錄點剔除和停留區域檢測,并進行軌跡分割的前后對比圖。圖6 (a)為預處理之前的軌跡數據在ArcMap中的可視化結果,圖6(b)為預處理之后的軌跡數據 在ArcMap中的可視化結果。通過對比,可W看出預處理前后的差異情況,圖6(a)中存在的異 常記錄點和停留區域,在圖6(b)中已經不存在。
[0111] 1.3)載客點提取。
[0112] 在對GPS軌跡進行預處理之后,可W根據出租車載客特征從軌跡中提出載客點。載 客事件的發生通常意味著出租車在某處駐留或低速巡航,故而可W在停留區域檢測的基礎 上,根據載客點的定義進行載客點提取。搭載乘客之前出租車平均行駛速度小于指定的速 度闊值,載客之后W平均速度超過速度闊值行駛距離超過給定距離闊值,則可將停留點判 定為一個載客點。圖7展示了載客點提取的過程,圖7中,當行程1的平均速度VI小于速度闊 值Ve,行程2的平均速度V2大于速度闊值Ve,且行程2的行駛距離cb大于給定的距離闊值曰時, 可W直接將停留點S1判斷為載客點,此時如果行程3的平均速度V3亦大于速度闊值Ve,可W 認為行程3為載客之后行駛距離的一部分。按照軌跡中停留點的順序,依次判斷停留點是否 為載客點。經過載客點提取后可W得到載客點數據集巧{ppi,PP2, . . . ,ΡΡη}。
[0113] 1.4)載客點數據分析。
[0114] 在提取載客點后,可W將載客點數據在ArcMap上進行可視化,如圖7所示為北京市 某個區域上午八點到九點和下午六點到屯點兩個時段的載客點分布情況。從圖8中可W看 出,不同時段載客點的聚集區域不同,且在同一時段不同位置的載客點聚集程度亦不同。運 些不同時段的載客點聚集區域代表了不同時段乘客的集中位置,且不同位置載客點的聚集 程度表明了空載出租車在不同位置能夠尋找到乘客的難易程度。將一天24個小時按時段劃 分,可W發現載客點在各個時段中的分布存在非常明顯的特征,如圖9所示為載客點在一天 中各個時段的分布比例,可W明顯發現凌晨2點到早上6點載客點分布比例最低,每個上下 班時間段都存在載客點數量激增的現象。載客點為出租車搭載乘客的地點,其等候乘客的 時間和搭載乘客后行駛時間是評價尋客點對出租車司機收入影響的兩個客觀標準。因此, 了解各個時段載客點平均的等候乘客時間和載客后行駛時間可W更好的為出租車進行推 薦服務。圖10展示了各時段出租車空載時長和載客后行駛時長,可W發現出租車在夜間載 客行駛時間要比白天行駛時間長,等候乘客時間相對白天來說要長。圖11展示了各個時段 出租車空載巡航距離和載客后行駛距離,可W發現晚上八點到凌晨運段時間,平均載客后 行駛距離較其他時段要長,綜合圖10和圖11來看,因為夜間活動集中在運個時段,且運個時 段其他公共交通系統均已關閉,從而使得出租車成為了主要的交通工具。側面說明了夜生 活位置區域之間的距離遠,缺乏近距離活動場所,可W適當增加服務類生活設施。
[0115] 本實施例步驟2)從提取得到的載客點中挖掘提取代表乘客聚集地,具體是指根據 載客點數據分析特征,對載客點數據進行基于密度聚類的時空分析(Spatial Temporal Analysis,STA),從而得到尋客點。通過對載客點數據的簡單分析,可W看出載客點在空間 和時間分布上的動態變化性。進一步對載客點數據進行密度聚類,能夠得到載客點聚集程 度高的區域,并且可W過濾掉載客點稀疏區域。運些載客點聚集程度高的區域代表著此區 域乘車需求高,對出租車有較大的需求,而稀疏區域表明出租車需求量少。本實施例將運些 載客點聚集區域高的區域定義為尋客點。通過上述方式,能夠有效提高尋客點挖掘的精度。 當然,也可W采用其他挖掘手段從載客點數據中挖掘出代表乘客聚集地的尋客點。分析尋 客點在時間和空間上的分布特征,能夠更好的幫助空載出租車尋找乘客,W及輔助出租車 管理部口進行出租車調度和布局服務設施等。
[0116] 本實施例步驟2)從提取得到的載客點中挖掘提取尋客點,在于對載客點數據進行 基于密度聚類點的時空分析(STA),其詳細步驟包括:
[0117] 2.1)分別優先地進行時間和空間分析,獲取代表載客點密度高的區域的候選點。
[0118] 本實施例采用了基于密度的OPTICS算法,主要是因為載客點的高頻位置隨時間不 斷變化,不同時間段歷史載客點的空間分布不同,該算法在效果上優于其他算法。本文W小 時為單位對時間進行分片,將一天分割為24個時間片。(1),先空間后時間分析(F化ΤΑ)。優 先考慮載客點的空間分布特征,按照實驗區域劃分載客點,先對小區域內的載客點根據空 間屬性進行空間聚類分析,然后對整體區域進行分析。將按照空間屬性分析得到的結果按 照聚類簇中載客點的時間屬性進行劃分,當某個時段的載客點比例大于一定闊值時保留空 間分析結果到該時段。最終產生一組帶有空間位置信息和時間段屬性且具有一定區域代表 性的候選點,其相關屬性記為cp(id,Lat ,Lng,Timeslots,method) ,cp.Timeslots表明了該 候選點所在時間段,cp丄at和cp丄ng表明了該尋客點所在區域,cp.method為分析方式。 (2),先時間后空間分析(FTLSA)。此分析相對簡單,根據載客點的時間聚集現象,先按照其 時間屬性進行時間分析,將載客點劃分到各個時間段,再根據每個時段內載客點的空間屬 性進行空間聚類分析,最終產生一組具有空間屬性信息和時間段屬性信息的候選點,其相 關屬性記為cp( id, Lat,Lng, Timeslots, method)。先空間后時間分析較好的描述了載客點 的整體空間聚集現象,一定程度上彌補了優先考慮時間屬性造成的數據稀疏問題。先時間 后空間分析則更好的描述了載客點在時間屬性上的聚集現象。(1)和(2)的順序可W顛倒, 不影響分析。
[0119] 2.2)進行候選點過濾,剔除先空間后時間分析和先時間后空間分析兩步形成的冗 余候選點,從而得到尋客點。
[0120] 在載客點進行區域劃分并聚類的過程中,區域交界區域載客點密度降低,容易出 現冗余候選點,W及分別優先的進行先時間和先空間分析,獲得的候選點存在重復,從而需 要對候選點做過濾處理。當出租車司機到達某個候選點所在區域并搭載乘客,表明司機是 有意愿在此候選點尋找乘客的。而冗余或者重復的候選點會對推薦造成干擾,W及不利于 分析出租車的尋客特征,不利于出租車管理部口進行服務設施的布局。所W,當兩個候選點 間距離小于闊值(如50m)時,需要尋找一個具有代表性的位置點來代替。本文通過投票選擇 的方式來進行。W載客點與候選點之間的距離作為投票依據,對距離小于指定闊值的兩組 候選點進行投票,再根據投票結果和候選點之間的距離生成新的候選點,即最終的尋客點。
[0121] 投票計算公式如式(12)所示:
[01。]
(口)
[0123] 式(12)中,Score康示候選點i在鄰域Disti,塊圍內接受歷史載客點的投票得分, d表示設定的闊值,Disti,j表示候選點i和j的距離,Disti,k表示候選點i和載客點k的距離。
[0124] 尋客點生成計算方式如式(13)所示:
[0125]
(13)
[0126] 式(13)中,Olat, Ing表不由候選點P和候選點Q產生的新候選點的位置,Plat, Ing為候選 點P的位置,Distp,q表示候選點P和Q之間的歐式距離,Scorep表示候選點P在鄰域Distp,q范 圍內接受歷史載客點的投票得分,Score。表示候選點Q在鄰域Distp,q范圍內接受歷史載客 點的投票得分。
[0127]基于出租車通常會在興趣點附近搭載乘客運一個客觀事實,他們認為在興趣點半 徑50米范圍內的停靠點都是正確的,本實施例把各個時段的尋客點作為測試點,地圖上的 興趣點(寫字樓、商場等)和載客點作為已知點,分時段用測試點和已知點進行比較,從而判 斷測試點的正確性。將本實施例獲取尋客點的時空分析方法(STA)與現有技術層次聚類方 法(MSRA)獲取載客停靠點的方法進行比較,如表1所示。
[01%]表1:本實施例(STA)與現有技術層次聚類方法(MSRA)的精確度對比。
[01 巧]_
[0130] 本實施例將衡量尋客點準確率的半徑從5米不斷調整到50米,結果如圖11所示,可 W看出本文時空分析方法獲得的尋客點的準確性在半徑為25米的時候就達到了 90%。在獲 取載客點聚集區域或者說乘客聚集地時,本實施例方法優于現有技術層次聚類方法 (MSRA)〇
[0131] 本實施例中,載客點的屬性記為口口{1日1:,1]1邑,1:,口'61:,1日31:1:,口'6(1,1日31(1},其中 lat,Ing,t分別為載客事件發生的經度、締度和時間,pret,lastt分別為載客事件發生前出 租車等候乘客的時間和載客時間發生后載客行駛時間,pred, lastd分別為載客事件發生前 出租車巡航距離和載客事件發生后出租車載客行駛距離。
[0132] 本實施例步驟3)中選擇尋客位置所依據因素的屬性包括基準位置到尋客點的距 離、載客概率、等候乘客時間和尋客點預期收益。本實施例基于信息賭的出租車尋客路線推 薦方法計算了尋客點的載客概率、等候乘客時間、尋客點預期收益Ξ個屬性因素,并在構建 尋客點選擇模型的時候計算了尋客路線長度,并W此四個因素進行本實施例尋客路線的推 薦選擇。但是毫無疑問,選擇尋客位置所依據因素的屬性并不局限于上述四種列舉的因素, 只要其屬于擇尋客位置所依據因素,都可W列入本實施例擇尋客位置所依據因素的屬性, 在此不再寶述。
[0133] 步驟3)中選擇尋客位置所依據因素的屬性是為基于信息賭求解尋客點選擇模型 提供量化的數據基礎。賭化ntropy)作為物理概念,最早源于熱力學,用于描述系統的無序 狀態。后來被引入多個領域,出現了玻爾茲曼賭、信息賭與概率測度賭等,其中信息賭是由 香農(Shannon)引入信息論而提出的,旨在解決信息的量化度量問題和選擇的不確定性。對 于離散型隨機變量,根據信息賭的定義和原理,當系統處于η種不同狀態,每種狀態出現的 概率為91。= 1,2,-,,11)時,系統不確定性的信息賭定義如式(14)所示:
[0134]
(614)
[0135] 式(14)中,E為系統不確定性的信息賭,Pi為第i種狀態,η為狀態數量。
[0136] 根據出租車司機在選擇尋客點時考慮的因素的多少,將其分為單屬性尋客點和多 屬性尋客點兩種。單屬性尋客點只考慮其中的某一個因素,如載客概率最大或者等候乘客 時間最短等,運是大多數研究通常會考慮的;多屬性尋客點則需要在選擇尋客點時同時考 慮兩個及其W上的屬性,如當前位置到尋客點的距離、載客概率、尋客點預期收益、等候乘 客時間等多個因素對尋客點選擇的綜合影響。然而,在綜合考慮運些因素的時候,每個因素 對空載出租車尋找乘客是不是存在影響,包含有不確定性,且每個因素能夠提供的價值是 多少,影響程度是多少,同樣存在不確定性。從而需要一個統一的衡量標準來進行度量,而 信息賭能夠對信息的價值進行比較客觀的度量,解決多因素的不確定性。因此,本實施例基 于信息賭的尋客路線推薦方法,運用信息賭理論,綜合考慮多個客觀因素對出租車司機搭 載乘客時對尋客點選擇的影響,衡量各個因素的重要程度。
[0137]本實施例中W單位時間內尋客點載客點密度作為尋客點載客概率的衡量方式,載 客概率的度量如式(15)所示;
[013 引
(15)
[0139] 式(15)中,P(i)為載客概率的度量值,N(p)為指定時間段T內尋客點所在區域的載 客點數目,Area為尋客點所在區域的面積,T為指定時間段。
[0140] 等候乘客的時間為空載出租車巡航到某個位置,或者直接等候到乘客的時間長 度。在計算尋客點的等候乘客時間時,W單位時間內尋客點所在區域所有載客點的平均等 候乘客時間為度量方式。本實施例中,等候乘客時間的度量如式(16)所示;
[0141]
(16)
[0142] 式(16)中,W(i)為等候乘客時間的度量值,N(p)為指定時間段T內尋客點所在區域 的載客點數目,w(p)為出租車在載客點P處等候乘客的時間,T為指定時間段。
[0143] 尋客點預期收益即預計出租車在尋客點搭載乘客后行駛過程中獲得的收益,距離 越遠收益越高。在對尋客點預期收益進行度量時,W單位時間內所有載客點的實際載客行 駛距離的平均值作為尋客點預期收益。本實施例中,尋客點預期收益的度量如式(17)所示;
[0144]
(17)
[0145] 式(17)中,F(i)為尋客點預期收益的度量值,N(p)為指定時間段T內尋客點所在區 域的載客點數目,f(p)為出租車在載客點P處載客后獲得的實際收益,T為指定時間段。
[0146] 為了評價本實施例基于信息賭的出租車尋客路線推薦方法化CRR)的性能,將本實 施例基于信息賭的出租車尋客路線推薦方法的實驗結果與典型的Τορ-Κ推薦進行對比,并 W載客后行駛時間比例、載客后行駛距離比例兩個不同的值作為推薦性能的衡量指標。典 型Τορ-Κ推薦推薦出租車當前位置附近Κ個載客概率最大的尋客點。載客后距離比例為搭載 到乘客后行駛距離占當前時間段內總運行距離的比例,載客后時間比例為搭載到乘客后行 駛時間占每個時段內總運行時間的比例。圖13和圖14展示了兩種推薦方式的對比情況。參 見圖13,在白天乘車需求較多的情況下,本實施例基于信息賭的出租車尋客路線推薦方法 化CRR)的載客行駛時間比例均要高于Τορ-Κ方法,而在乘車需求較少的凌晨,本實施例基于 信息賭的出租車尋客路線推薦方法化CRR)推薦的載客行駛時間比例遜色于Τορ-Κ。因為對 出租車需求小的時段,Τορ-Κ給出的地點載客概率大,相對來說搭載到乘客的機會大點,而 本實施例基于信息賭的出租車尋客路線推薦方法化CRR)需要考慮多個影響因素,其中的路 途開銷很大程度上制約了本實施例基于信息賭的出租車尋客路線推薦方法化CRR)對運些 地點的選擇,從而推薦停留的尋客點只是附近最優的,而非整體最優。參見圖14,無論在哪 個時間段,本實施例基于信息賭的出租車尋客路線推薦方法化CRR)的載客行駛距離均要高 于Τορ-Κ方法。原因在于本實施例基于信息賭的出租車尋客路線推薦方法化CRR)考慮了路 途開銷,而Τορ-Κ方法只考慮了哪里更容易搭載到乘客,即便是推薦停留的尋客點點之間的 距離相距甚遠。因載客后行駛的距離通常表明了乘客實際的支付的費用,所W,從實際收益 的角度來看,本實施例基于信息賭的出租車尋客路線推薦方法化CRR)的性能要好于Τορ-Κ 推薦,能給司機帶來不錯的收益。
[0147] W上所述僅是本發明的優選實施方式,本發明的保護范圍并不僅局限于上述實施 例,凡屬于本發明思路下的技術方案均屬于本發明的保護范圍。應當指出,對于本技術領域 的普通技術人員來說,在不脫離本發明原理前提下的若干改進和潤飾,運些改進和潤飾也 應視為本發明的保護范圍。
【主權項】
1. 一種基于信息熵的出租車尋客路線推薦方法,其特征在于步驟包括: 1) 挖掘出租車軌跡,從中提取載客點數據; 2) 從提取得到的載客點中挖掘提取代表乘客聚集地的尋客點; 3) 對出租車進行尋客過程中選擇尋客位置所依據因素的屬性值進行度量; 4) 在出租車運行過程中,獲取出租車的當前位置作為基準位置; 5) 根據基準位置和當前時間,獲取指定距離范圍內的尋客點,構建尋客點選擇模型,所 述尋客點選擇模型包括出租車從基準位置和當前時間出發下一步能夠到達的尋客點集合 及其決策矩陣; 6) 基于信息熵求解尋客點選擇模型,獲得出租車從基準位置和當前時間出發下一步能 夠到達的綜合屬性最優的指定數量個尋客點; 7) 判斷獲取綜合屬性最優尋客點的次數是否等于預設閾值,如果小于預設閾值,則依 次以當前綜合屬性最優的各個尋客點作為新的基準位置,跳轉執行步驟5);如果等于預設 閾值,執行后續步驟; 8) 根據綜合屬性最優的尋客點的獲取層次,以深度優先搜索的形式,生成對應的尋客 路線,并計算輸出綜合屬性值最大的尋客路線。2. 根據權利要求1所述的基于信息熵的出租車尋客路線推薦方法,其特征在于,所述步 驟5)中決策矩陣如式(1)所示;式(1)中,A為決策矩陣,aij為尋客點集合Χ= {χι,X2,…,χκ}中尋客點xi關于選擇尋客位 置所依據因素的屬性集合U = {P1,p2,…,pN}中屬性pj的度量值,其中列變量j滿足1 < j < N, N為選擇尋客位置所依據因素的屬性集合1]={?1,?2,一,?4中的屬性總數量,行變量1滿足1 ^^(,1(為尋客點集合父={幻,幻,"_,狀}中的尋客點總數量。3. 根據權利要求2所述的基于信息熵的出租車尋客路線推薦方法,其特征在于,所述步 驟5)中還包括將決策矩陣進行規劃化處理,得到的規范化矩陣如式(2)所示; R= (rij)KXN (2) 式(2)中,R為規劃化處理得到的規范化矩陣,N為選擇尋客位置所依據因素的屬性集合 U= {pi,P2,…,pn}中的屬性總數量,K為尋客點集合Χ= {χι,X2,…,χκ}中的尋客點總數量,rij 為決策矩陣中元素對應的規范化屬性值,如果規范化屬性值rij為效益型則其計算函數 表達式如式(3)所示,如果規范化屬性值rij為成本型則其計算函數表達式如式(4)所示;式⑶和式(4)中,rij為決策矩陣中元素 aij對應的規范化屬性值,aij為尋客點集合X = {xi,X2,…,χκ}中尋客點Xi關于選擇尋客位置所依據因素的屬性集合U= {pi,P2,…,pn}中屬 性Pj的度量值,κ為尋客點集合x= U,X2,…,χκ}中的尋客點總數量。4. 根據權利要求3所述的基于信息熵的出租車尋客路線推薦方法,其特征在于,所述步 驟6)的詳細步驟包括: 6.1) 采用式(5)所示函數表達式計算選擇尋客位置所依據因素的屬性集合U={P1, P2,···,Pn}中屬性pj的信息熵;式(5)中,Ej為屬性Pj的信息熵,K為尋客點集合X = {XI,X2,…,χκ}中的尋客點總數量,rij 為決策矩陣中元素對應的規范化屬性值; 6.2) 采用式(6)所示函數表達式計算選擇尋客位置所依據因素的屬性集合U={P1, P2,…,Pn}的權重向量;式(6)中,ω為權重向量,wi為屬性集合U={pi,p2,···,pn}中第1個屬性pi的權重,W2為屬 性集合U= {pi,P2,…,pn}中第2個屬性P2的權重,WN為屬性集合U= {pi,P2,…,pn}中第N個屬 性PN的權重,Ej為屬性集合U= {pi,P2,…,pn}中第j個屬性Pj的信息熵,N為選擇尋客位置所 依據因素的屬性集合U = { PI,P2,…,PN}中的屬性總數量; 6.3) 采用式(7)所示函數表達式計算尋客點集合X= {XI,X2,…,χκ}中各個尋客點的綜 合屬性值; Ζ?( ω ) = ZrijWj (7) 式(7)中,Zi( ω )為尋客點集合X= {X1,X2,…,χκ}中尋客點Xi的綜合屬性值,ω為權重向 量,rij為決策矩陣中元素 aij對應的規范化屬性值,Wj為屬性集合U= {ρι,ρ2,···,ρν}中第j個 屬性Pj的權重; 6.4) 采用式(8)所示函數表達式對尋客點集合乂={^,12,一,^}中各個尋客點的綜合 屬性值進行排序,獲得綜合屬性最優的m個尋客點; Z=maxm[Sort(Zi( ω )) ] (8) 式(8)中,Ζ為綜合屬性最優的m個尋客點對應的綜合屬性值,Sort(Zi( ω ))為綜合屬性 值的排序函數,maxm為取最大m個值,Zi ( ω )為尋客點集合X = {X1,X2,…,χκ}中尋客點Xi的綜 合屬性值。5. 根據權利要求1所述的基于信息熵的出租車尋客路線推薦方法,其特征在于,所述步 驟2)中從提取得到的載客點中挖掘提取尋客點的具體步驟包括:分析所述載客點在時間和 空間上的分布特征,進行基于密度聚類的時空分析,過濾掉載客點稀疏區域,得到載客點密 度高的區域作為提取得到的尋客點,所述尋客點代表乘客的聚集地。6. 根據權利要求1~5中任意一項所述的基于信息熵的出租車尋客路線推薦方法,其特 征在于,所述步驟3)中選擇尋客位置所依據因素的屬性包括基準位置到尋客點的距離、載 客概率、等候乘客時間和尋客點預期收益。7. 根據權利要求6所述的基于信息熵的出租車尋客路線推薦方法,其特征在于,所述載 客概率的度量如式(15)所示;式(15)中,P(i)為載客概率的度量值,N(p)為指定時間段T內尋客點所在區域的載客點 數目,Area為尋客點所在區域的面積,Τ為指定時間段。8. 根據權利要求6所述的基于信息熵的出租車尋客路線推薦方法,其特征在于,所述等 候乘客時間的度量如式(16)所示;式(16)中,W(i)為等候乘客時間的度量值,N(p)為指定時間段T內尋客點所在區域的載 客點數目,w(p)為出租車在載客點p處等候乘客的時間,T為指定時間段。9. 根據權利要求6所述的基于信息熵的出租車尋客路線推薦方法,其特征在于,所述尋 客點預期收益的度量如式(17)所示;式(17)中,F(i)為尋客點預期收益的度量值,N(p)為指定時間段T內尋客點所在區域的 載客點數目,f(P)為出租車在載客點P處載客后獲得的實際收益,T為指定時間段。
【文檔編號】G06Q10/04GK105825310SQ201610222202
【公開日】2016年8月3日
【申請日】2016年4月11日
【發明人】劉建勛, 王建軍, 劉毅志, 廖祝華, 成海霞, 何亞琦
【申請人】湖南科技大學