一種基于低秩算法的路網交通數據的補全方法
【技術領域】
[0001] 本發明屬于智能交通的技術領域,具體地設及一種基于低秩算法的路網交通數據 的補全方法。
【背景技術】
[0002] 隨著城市車輛數目的持續上升,各種交通問題成為目前面臨和亟待解決的難 題。為了能對交通問題有更好的分析和處理,我國的大城市快速路和主干道逐漸設立了 各種交通流參數自動獲取裝置,如感應線圈檢測器、微波傳感器、視頻檢測器、GPS(global positionsystem)等,用于實時采集道路交通流的信息(車速、流量、占有率等),并通過對 采集信息的分析和處理,將實時動態的信息服務于出行者。但是在對實際交通道路進行動 態的交通數據采集的過程中,由于交通傳感器的硬件故障、噪聲干擾或通信故障,往往會造 成數據異常和數據丟失等狀況,運對交通問題的分析和解決將會產生十分不利的影響,如 交通出行的引導。因此,有效地分析交通規律,針對性地解決交通問題,就必須保證交通數 據的完整性。所W,在我們利用交通數據分析交通問題前,針對交通檢測設備所采集到的數 據可能出現的問題,有必要對丟失的交通數據進行補全。
[0003] 交通數據(如路段速度、車流量等)的時空相關性由交通數據的時間性和空間性 兩部分構成。交通數據的時間性通常也被稱作相似性,它是指同一路段上,通常在W年、月、 周、時、分為單位的周期上,交通數據會呈現出不同程度的相似性。交通數據的空間性通常 也被稱作相關性,因為城市路網是W-個多方連通的復雜整體,因此各路段間的交通狀態 也相互制約著,對于路網中鄰近的幾個路段,它們各自的交通數據隨時間變化趨勢通常會 比較一致。
[0004] 近年來,機器學習領域吸引了越來越多的關注,其挖掘數據中隱含信息的能力為 交通數據補全引出了新的研究方向。稀疏表示基于一個原則,即一個信號往往可W由字典 中少量幾個信號的線性和來表示。大量的研究致力于構造帶有特定屬性的字典。稀疏表示 模型在很多應用領域都取得了極大的成功,如人臉識別、圖像去噪、圖像超分辨率重構等。 在大多數稀疏表示方法中,人們只是獨立地考慮樣本的稀疏表示,然而數據間的關系和隱 含在數據集中的子空間結構卻并沒有被考慮。事實上,運些內在的屬性在許多學習任務中 擁有非常重要的作用,特別是在樣本間相關性比較強的應用中。因此,一些研究人員開始 了對數據樣本集進行整體約束的研究,如低秩約束或核范數。低秩約束作為一種較為特殊 的稀疏約束已被J.Wri曲t、Y.Ma等人應用在矩陣補全模型中并取得了非常好的實驗效果, 該模型要求所研究的帶有數據缺失的矩陣具有低秩性,通過對矩陣中的元素經過某種線性 (非線性)運算后得到的值來對矩陣進行補全,運個過程中補全后的矩陣具有低秩性且重 構誤差最小。 W05] 然而,傳統的低秩約束算法,如魯棒性主成分分析(RobustPrincipal ComponentsAnalysis,RPCA),是對重構樣本集整體做低秩約束,缺乏微觀上樣本間的聯 系,如不同應用場景下樣本所特有的性質。
【發明內容】
[0006] 本發明的技術解決問題是:克服現有技術的不足,提供一種基于低秩算法的路網 交通數據的補全方法,其補全的精準度大幅提高,可W對不同類型的交通數據進行補全。
[0007] 本發明的技術解決方案是:運種基于低秩算法的路網交通數據的補全方法,該方 法包括W下步驟:
[0008] (1)構造包括缺失點的交通數據矩陣;
[0009] (2)將低秩表示模型應用到交通數據補全中,對缺失點進行預填充;
[0010] (3)加入交通數據的時序信息作為其中的約束項,從而更加精確的將缺失點補全。
[0011] 本發明將低秩表示模型應用到了交通數據補全中,加入交通數據的時序信息作為 其中的約束項,低秩表示嘗試尋找數據隱藏在高維空間中的稀疏屬性,通過對系數矩陣的 低秩約束,使得樣本被分到不同的子空間,在子空間內對系數矩陣進行時序約束,使得子空 間內也具有相似性約束,因此補全的精準度大幅提高,可W對不同類型的交通數據進行補 全。
【附圖說明】
[0012] 圖1示出了根據本發明的基于低秩算法的路網交通數據的補全方法的流程圖;
[0013] 圖2示出了基于北京公路速度數據庫的數據補全相對百分誤差(MAP巧;
[0014] 圖3示出了基于北京公路速度數據庫的數據補全均方根相對誤差(RISE)。
【具體實施方式】
[0015] 通過對交通數據的分析,發現其具有很強的時空性,為了在重構時強化運種時空 的性質,決定引入低秩表示算法。
[0016] 與傳統的關于低秩約束的算法直接約束重構樣本本身不同,低秩算法是在樣本自 表示的基礎上,對系數矩陣進行低秩約束的。運樣就可W對系數矩陣添加交通數據的時序 約束,即間接的對重構樣本添加時序約束,使得算法更貼近交通數據補全的應用。低秩表示 嘗試尋找數據隱藏在高維空間中的稀疏屬性,通過對系數矩陣的低秩約束,使得樣本被分 到不同的子空間,在子空間內對系數矩陣進行時序約束,使得子空間內也具有相似性約束, 因此可W更加精確的估計缺失位置的值。
[0017] 為了獲取交通數據中的時序信息,采用了J.Gao等人提出的一種新型的序列數據 的子空間聚類模型(0SC),該模型主要目標是從連續的子空間集合中分割數據。0SC模型旨 在尋找一組原始數據(連續視頻帖)的稀疏表示,考慮到相鄰的視頻帖間變化很小的特點, 模型在稀疏子空間聚類的基礎上加入了一個新的帖間相似約束條件,使得相鄰帖的表達系 數盡可能的相似。考慮到同一路段上的一段時間內固定時間間隔所采集的交通數據具有很 強的時間相似性,所W在傳統的低秩矩陣補全模型上增加時序性約束,提出了基于低秩表 示的交通數據補全模型。
[001引如圖1所示,運種基于低秩算法的路網交通數據的補全方法,該方法包括W下步 驟:
[0019] (1)構造包括缺失點的交通數據矩陣;
[0020] (2)將低秩表示模型應用到交通數據補全中,對缺失點進行預填充;
[0021] (3)加入交通數據的時序信息作為其中的約束項,從而更加精確的將缺失點補全。
[0022] 本發明將低秩表示模型應用到了交通數據補全中,加入交通數據的時序信息作為 其中的約束項,低秩表示嘗試尋找數據隱藏在高維空間中的稀疏屬性,通過對系數矩陣的 低秩約束,使得樣本被分到不同的子空間,在子空間內對系數矩陣進行時序約束,使得子 空間內也具有相似性約束,因此補全的精準度大幅提高,可W對不同類型的交通數據進行 補全。
[0023]優選地,步驟(2)、(3)結合的帶有約束項的低秩表示模型為公式(1)
[0024]
( 1 )
[00對其中X=技1,X2,…,\]eΙΤ%含有噪聲和數據缺失的待補全數據矩陣,D為 路段個數,Ν為連續的時間間隔數(D,Ν為變量X的維度);|| ·Ml,2表示矩陣中每一列元 素的12范數的和;ZeR胃為樣本X子表示的系數;EeR重構誤差矩陣,此處只使用 E的F范數約束;參數λ和β決定了各自約束項的強度,運兩個參數的選擇應該在誤差, 秩,平滑度Ξ項中權衡,從而獲得最好的實驗效果。矩陣Re 1是一個=對角矩陣,矩陣 的對角線除首位元素外都為2,其上層和下層的對角線元素都為-1,
[0026]
[0027]ZR=[Zi_Z2, 2Z2-Zi_Z3,…,2Zn i-Zn-Zn2, Zn_ZnJ。
[0028] 優選地,使用增廣拉格朗日算法對公式(1)進行求解,首先將E用約束條件替換, 則公式(1)為 畫
(2)
[0030] 分離公式(2)中的Z,令S=Z,U=SR,則公式(2)等價的轉化為 閨]
(3)
[0032] 構造公式(3)的增廣拉格朗日乘子函數為
[0033]
[0034] 其