基于交通大數據的行程時間融合預測及查詢方法
【技術領域】
[0001]本發明涉及到路網或單車的交通狀態預測技術,特別涉及到一種基于交通大數據的行程時間融合預測及查詢方法。
【背景技術】
[0002]現有的路網或單車交通狀態預測方法主要利用浮動車或路側設備提供的交通數據,甚至只依賴路側設備提供的交通數據來預測路網或單車的交通狀態。這類方法主要通過路側設備直接獲取路網流量、平均速度等交通信息,或者通過對浮動車數據進行二次加工來獲取某類交通信息,并基于路網拓撲,采用模型遞推方式進行預測,預測的交通信息主要集中在交通三要素,導致推廣面不廣,推廣價值也不高,即存在通用性問題,這給業務擴展造成較大困擾。并且,現有方法通常從順時向去考慮浮動車數據的影響,通常會忽略掉浮動車數據的時間因素,并采用線性的數學計算方式,如求和、求均等運算,脫離了路網交通的本原特征,導致交通信息的提取精度和穩定性都不高,實用性也不強。特別是面對結構復雜的海量浮動車數據時,現有的路網或單車交通狀態預測方法通常顯得束手無策。顯然,現有的路網或單車交通狀態預測技術存在著實時性較差、通用性較差和實用性不強等問題。
【發明內容】
[0003]為解決現有的路網或單車交通狀態預測技術存在的實時性較差、通用性較差和實用性不強等問題,本發明提出一種基于交通大數據的行程時間融合預測及查詢方法。
[0004]本發明基于交通大數據的行程時間融合預測方法,對所有在線車輛上傳的數據進行離線計算或訓練來獲取各類預測模型及參數,依據各類預測模型及參數建立并動態更新數據字典;調用各類預測模型及參數,并結合實時路段和路徑的行程時間數據,對路網或單車的交通狀態進行預測;所述數據字典包括車輛數據字典、路段數據字典和路徑數據字典;所述在線車輛是指注冊入網并自動上傳定位和速度數據的車輛。
[0005]進一步的,本發明基于交通大數據的行程時間融合預測方法,對所有在線車輛上傳的數據進行離線計算或訓練,以獲取各類預測模型及參數,包括,設定每天從0:00時到24:00時為一個完整循環周期,按照工作日、星期六、星期日或節假日的出行方式對行程時間數據進行出行類型劃分,獲取出行類型的出行編號;每個周期的行程時間數據按照時間的先后順序排列成一個行程時間序列。
[0006]進一步的,本發明基于交通大數據的行程時間融合預測方法,所述各類預測模型及參數包括路段或路徑行程時間數據周期規則模型、路段或路徑行程時間的統計規則模型、路段或路徑行程時間長時預測模型、路段或路徑行程時間短時預測模型、路段或路徑行程時間長短時融合預測模型和交叉口延誤關聯分析模型;其中,
采用周期律級數逼近PLSA(Per1dic Law Series Approximat1n,PLSA)算法獲取路段或路徑行程時間數據周期規則模型,并采用最小二乘法LSM(Least Square Method,LSM)求解逼近模型參數; 采用統計規律提取SRE(Statistical Rule Extract1n,SRE)算法獲取路段或路徑行程時間統計規則模型,并采用核密度估計KDE(Kernel Density Estimat1n,KDE)獲取路段或路徑行程時間的概率密度變化規律;
采用長時滾動糾偏預測LRCF(Long_time Rolling Correct1n Forecast,LRCF)算法獲取路段或路徑行程時間長時預測模型,并通過離線計算獲取長時預測模型參數,通過在線計算快速實現路段或路徑行程時間預測;
采用短時滾動擬合預測SRFF(Short_time Rolling Fitting Forecast,SRFF)算法獲取路段或路徑行程時間短時預測模型,并采用時間序列自回歸滑動平均ARMA (Auto-Regressive and Moving Average,ARMA)算法構造短時預測模型,并采用最小二乘法LSM(Least Square Method,LSM)求解模型參數;
采用篩狀融合預測SFF(Sieve Fus1n Forecast,SFF)算法獲取路段或路徑行程時間長短時融合預測模型,并通過離線訓練,采用高斯-牛頓迭代法GNIM(Guassian-NewtonIterative Method,GNIM)獲取融合預測模型參數;
米用交叉口延誤關聯分析IDCA(Intersect1n Delay Correlat1n Analysis,IDCA)算法構造交叉口延誤關聯分析模型,并通過最小二乘法LSM(Least Square Method,LSM)求解模型參數,通過離線訓練獲取模型參數,通過在線計算實現路徑行程時間的快速補償;
其中,所述長時預測是指通過LRCF算法獲取路段或路徑行程時間的長時預測值,長時預測時長的取值范圍設定為O分鐘到3個月,具體的長時預測時長可在用戶選定的預測時長基礎上通過線性折算來獲取;所述短時預測是指通過SRFF算法獲取路段或路徑行程時間的短時預測值,短時預測時長的取值范圍設定為O分鐘到3個小時,具體的短時預測時長可在用戶選定的預測時長基礎上通過線性折算來獲取。
[0007]進一步的,本發明基于交通大數據的行程時間融合預測方法,所述路段數據字典用于存儲行程時間的周期序列、概率序列和各種模型及參數,其數據存儲及更新包括以下步驟:
5101、讀取歷史數據,從路段數據字典中讀取歷史數據,包括路段編號、等時距采樣的路段行程時間數據、日期和時刻數據;
5102、選取路段,根據路段編號的先后順序選取一條未處理的路段;
5103、路段行程時間數據分類,基于路網潮汐流理論,設定每天從0:00時到24:00時為一個完整循環周期,按照工作日、星期六、星期日、節假日的出行方式,對行程時間數據進行出行類型劃分和編號,即出行編號,每個周期的行程時間數據排列成一個行程時間序列;
5104、選取路段行程時間數據,根據出行編號的先后順序選取一類未處理的路段行程時間數據;
5105、獲取行程時間數據周期規則模型及參數,采用PLSA算法來獲取路段或路徑行程時間數據周期規則模型,并采用LSM來求解逼近模型參數;包括:
51051、對任意兩個不同周期的行程時間序列進行相關度聚類分析,提取相關度大的行程時間數據形成集合并進行求均計算,獲得平均行程時間序列;
51052、以“4V小時”為基礎圓周率,構造一個傅里葉級數模型來逼近平均行程時間序列,通過LSM求解逼近方程來獲取模型參數;
51053、按照能量從高到低的順序,截取總能量I98%模型參數,其余參數置零,從而獲得PLSA模型參數;
S1054、由PLSA算法生成路段行程時間的一個周期序列,將該周期序列和PLSA模型參數等信息存儲到路段數據字典中;
5106、獲取路段行程時間統計規律模型及參數,采用SRE算法獲取路段或路徑行程時間的統計規則模型,并采用KDE獲取路段或路徑行程時間的概率密度變化規律;包括:
51061、標定某個時刻,選出所有周期在該時刻的行程時間數據形成數據集,用KDE獲得概率密度函數,找到概率密度最大值對應的行程時間,即概率最大行程時間;
51062、求解所有時刻對應的概率最大行程時間,按時序排列成路段行程時間的概率序列并存儲到路段數據字典中;
5107、獲取路段行程時間長時預測模型及參數,采用LRCF算法獲取路段行程時間長時預測模型及參數,并通過離線計算獲取長時預測模型參數;包括:
51071、將行程時間的周期序列和概率序列求和平均,獲得行程時間的長時初值序列
51072、標定某個時刻,計算所有周期在該時刻對應的行程時間與長時初值進行比較,獲得差值,并按時序排列成一個差值序列;
51073、考慮到相鄰差值之間的天數間距,構造一個二元多次多項式模型來逼近該差值序列,自適應調整多項式的項數,找到最小擬合偏差對應的多項式模型;
51074、求解多項式模型的過程即為LRCF算法,獲取所有時刻對應的LRCF模型參數并存入路段數據字典中;
5108、獲取路段行程時間的短時預測模型及參數,采用SRFF算法獲取路段行程時間短時預測模型,并采用ARMA算法構造短時預測模型,并采用LSM求解模型參數;包括:
51081、按時序將所有周期的行程時間序列排列成一個長序列;
51082、假定該長序列的時間間距均等,用ARMA算法構造一個N項多項式模型來擬合后N個行程時間,用LSM求其參數和擬合誤差;
51083、通過調整N來調節擬合誤差的大小,挑出誤差最小時對應的多項式模型;
51084、求解該多項式模型的過程即為SRFF算法,將SRFF模型參數存入路段數據字典中;
5109、獲取路段行程時間長短時融合預測模型及參數,采用SFF算法獲取路段行程時間長短時融合預測模型,并通過離線訓練,采用GNIM獲取融合預測模型參數;包括:
51091、標定起始時刻,獲取SRFF模型的項數N,構造一個2X N篩狀系數矩陣,其中,每個元素為非負且每一列的元素之和恒為I,元素值未知;
51092、從起始時刻開始對行程時間進行預測,通過LRCF算法來補償長時初值序列,獲取未來N個長時預測值,通過SRFF算法獲取未來N個短時預測值,由這兩種預測值序列組成一個2 X N預測矩陣;
51093、將系數矩陣與預測矩陣點乘后行相加處理,獲得一個IXN融合向量,用融合向量逼近相應的行程時間序列,獲得相應的相關系數方程;
51094、向后逐步調整起始時刻,用同樣的方法獲得相應的相關系數方程,由這些方程構成一個相關系數方程組;
51095、用GN頂求解該方程組,獲得篩狀系數矩陣的元素值,也即SFF模型參數,將SFF模型參數存入路段數據字典中; 5110、判斷是否所有路段行程時間處理完畢?是則,順序執行步驟S111,否則,返回執行步驟S104;
5111、判斷所有路段是否處理完畢?是則,順序執行步驟S112,否則,返回執行步驟S102;
5112、結束此次路段數據字典的數據存儲及更新;
其中,所述長時預測是指通過LRCF算法獲取路段或路徑行程時間的長時預測值,長時預測時長的取值范圍設定為O分鐘到3個月,具體的長時預測時長可在用戶選定的預測時長基礎上通過線性折算來獲取;所述短時預測是指通過SRFF算法獲取路段或路徑行程時間的短時預測值,短時預測時長的取值范圍設定為O分鐘到3個小時,具體的短時預測時長可在用戶選定的預測時長基礎上通過線性折算來獲取。
[0008]進一步的,本發明基于交通大數據的行程時間融合預測方法,所述路徑數據字典用于存儲行程時間的周期序列、概率序列和各種模型及參數,其數據存儲及更新包括以下步驟:
5201、讀取歷史數據,從路徑和路段數據字典中讀取歷史數據,包括路網節點、路段編號、路徑編號、等時距采樣的路段和路徑行程時間數據、日期和時刻數據;
5202、選取節點組合,根據路網節點編號的排列組合關系,選取一組未處理的兩節點組合;
5203、選取路徑,根據兩節點組合選取一條未處理路徑;
5204、路徑行程時間數據分類,基于路網潮汐流理論,設定每天從0:00時到24:00時為一個完整循環周期,按照工作日、星期六、星期日、節假日的出行方式,對行程時間數據進行出行類型劃分和編號,即出行編號,每個周期的行程時間數據排列成一個行程時間序列;
5205、選取路徑行程時間數據,根據出行編號的先后順序選取一類未處理的路徑行程時間數據;
5206、獲取行程時間數據周期規則模型及參數,采用PLSA算法來獲取路段或路徑行程時間數據周期規則模型,并采用LSM來求解逼近模型參數;包括:
52061、對任意兩個不同周期的行程時間序列進行相關度聚類分析,提取相關度大的行程時間數據形成集合并進行求均計算,獲得平均行程時間序列;
52062、以“4V小時”為基礎圓周率,構造一個傅里葉級數模型來逼近平均行程時間序列,通過LSM求解逼近方程來獲取模型參數;
52063、按照能量從高到低的順序,截取總能量?98%模型參數,其余參數置零,從而獲得PLSA模型參數;
52064、由PLSA算法生成路徑行程時間的一個周期序列,將該周期序列和PLSA模型參數等信息存儲到路徑數據字典中;
5207、獲取路段行程時間統計規律模型及參