一種高速公路車輛逃費行為數據分析方法
【技術領域】
[0001] 本發明涉及高速公路信息化管理系統,特別是從高速公路運營所產生的大量計算 機數據中使用數據分析與挖掘手段找出車輛逃費行為數據分析方法。
【背景技術】
[0002] 現代高速公路管理中,逃費行為造成經濟損失,同時破壞正常的運營秩序,帶來安 全隱患。我國高速公路迅猛發展20余年來,車輛逃費的手段日趨多樣,其中換卡逃費易于 操作且作案隱蔽,難于查處。傳統管理模式下,查處換卡逃費車輛主要有以下手段:(1)現 場人工盤查,即收費站作業員依據經驗盤查可疑車輛。(2)后臺數據人工檢視,使用SQL, EXCEL等手段定期(如每月)對營運數據進行人工抽查和判讀,從而追繳逃款或建立預警名 單,輔助現場盤查。
[0003] 傳統方法在當下高速公路管理信息化的建設中有著諸多局限。首先,憑借人員的 經驗對可疑車輛現場盤查缺乏統一的標準,水平良莠不齊,精準度不高。其次,人工盤查與 后臺數據檢視往往耗時耗力,效率低下。再者,后臺數據分析存在操作上的難度,如:出入口 車牌匹配率低,數據量非常龐大,預編卡發放導致的無車牌記錄,佐證信息少。
[0004] 在車輛逃費規模日益擴大,而同時人工查處的手段和效率又無法有效治理的現狀 與困局下,
【發明內容】
[0005] 發明目的:本發明所要解決的技術問題是針對現有技術的不足,提供一種基于數 據分析與挖掘的查處高速公路換卡逃費行為的方法。
[0006] 為了解決上述技術問題,本發明公開了一種針對高速公路換卡逃費行為數據分析 與挖掘的方法,包括以下步驟:
[0007] 步驟1,采集所需數據,包括:用于逃費分析的收費記錄數據以及用于抽取照片取 證分析結果的路段卡口數據和服務區卡口數據,收費記錄數據記為數據集S,路段卡口數據 和服務區卡口數據記為數據集K ;收費記錄數據包含各收費站出入車輛進收費站和出收費 站的時間戳、車輛出入收費站被拍照識別的車牌記錄(即車牌圖像),路段卡口數據包含路 段卡口(即安裝在高速公路路面上對指定車道內機動車進行不間斷自動檢測和記錄的裝 置,例如設置休息區進出口以及一些特定位置進行超速抓拍的裝置)對過往車輛抓拍后所 識別的車牌號及原始影像數據,服務區卡口數據包含服務區卡口對出入服務區車輛抓拍后 所識別的車牌號及原始影像數據;
[0008] 步驟2,對數據集S中的記錄數據進行預處理,并檢測是否符合要求;刪除不符合 要求的記錄數據,保留符合要求的記錄數據;
[0009] 步驟3,計算步驟2數據集S保留的記錄數據中車輛出入收費站被拍照識別的車牌 記錄之間的Levenshitein距離,并追加到每條記錄數據末尾,保存為新數據集S 1;
[0010] 步驟4,對數據集S1的全部記錄數據按照不同的Levenshtein距離大小進行頻度 分析,獲得頻度分布直方圖;
[0011] 步驟5,基于步驟4的頻度分布直方圖,使用大津算法求出最大類間方差時的分割 閾值T ;
[0012] 步驟6,使用步驟5求出的閾值T,對步驟3獲得的數據集51進行分割,將 Levenshtein距離大于閾值T的記錄數據保存為數據集S2;
[0013] 步驟7,對數據集S2進行匹配查找,找到疑似換卡記錄對,結果儲存為數據集S 3;
[0014] 步驟8,對數據集S3中的記錄按照各收費站出入車輛的車輛出入時間戳、車輛出入 收費站被拍照識別的車牌記錄在數據集K中查找是否存在對應記錄,若存在對應記錄,則 提取對應路段卡口和服務區卡口的原始影像數據。
[0015] 至此疑似換卡逃費的車牌和行駛記錄以及影像證據均已獲得。
[0016] 本發明步驟2中的預處理方法是刪除數據集S中不能被分析的記錄數據,判斷方 法是若數據集S中的車牌記錄不全或缺失,即判定車牌是無效車牌并刪除該條記錄數據。
[0017] 本發明步驟2中的預處理方法包含刪除數據集S中正常通行的車輛記錄數據,判 斷方法是若車輛出入收費站被拍照識別的車牌記錄相符,則刪除該條記錄數據。
[0018] 本發明步驟7中所述對數據集S2進行的匹配查找是基于容錯換卡模型進行的兩 兩匹配查找,方法如下:S i, 分別是數據集S2中第i條和第j條收費記錄數據,收費記錄數 據Si, 同時滿足以下條件時,判定S 1與\為一對疑似換卡記錄數據:
【主權項】
1. 一種高速公路車輛逃費行為數據分析方法,其特征在于,包括以下步驟: 步驟1,采集所需數據,包括:用于逃費分析的收費記錄數據以及用于抽取照片取證分 析結果的路段卡口數據和服務區卡口數據,收費記錄數據記為數據集S,路段卡口數據和服 務區卡口數據記為數據集K ;收費記錄數據包含各收費站出入車輛進收費站和出收費站的 時間戳、車輛出入收費站被拍照識別的車牌記錄,路段卡口數據包含路段卡口對過往車輛 抓拍后所識別的車牌號及原始影像數據,服務區卡口數據包含服務區卡口對出入服務區車 輛抓拍后所識別的車牌號及原始影像數據; 步驟2,對數據集S中的記錄數據進行預處理,并檢測是否符合要求;刪除不符合要求 的記錄數據,保留符合要求的記錄數據; 步驟3,計算步驟2數據集S保留的記錄數據中車輛出入收費站被拍照識別的車牌記錄 之間的Levenshitein距離,并追加到每條記錄數據末尾,保存為新數據集S1; 步驟4,對數據集S1的全部記錄數據按照不同的Levenshtein距離大小進行頻度分析, 獲得頻度分布直方圖; 步驟5,基于步驟4的頻度分布直方圖,使用大津算法求出最大類間方差時的分割閾值 T ; 步驟6,使用步驟5求出的閾值T,對步驟3獲得的數據集51進行分割,將Levenshtein 距離大于閾值T的記錄數據保存為數據集S2; 步驟7,對數據集S2進行匹配查找,找到疑似換卡記錄對,結果儲存為數據集S 3; 步驟8,對數據集&中的記錄按照各收費站出入車輛的車輛出入時間戳、車輛出入收費 站被拍照識別的車牌記錄在數據集K中查找是否存在對應記錄,若存在對應記錄,則提取 對應路段卡口和服務區卡口的原始影像數據。
2. 根據權利要求1所述的一種高速公路車輛逃費行為數據分析方法,其特征在于,步 驟2中的預處理方法是刪除數據集S中不能被分析的記錄數據,判斷方法是若數據集S中 的車牌記錄不全或缺失,即判定車牌是無效車牌并刪除該條記錄數據。
3. 根據權利要求2所述的一種高速公路車輛逃費行為數據分析方法,其特征在于,步 驟2中的預處理方法包含刪除數據集S中正常通行的車輛記錄數據,判斷方法是若車輛出 入收費站被拍照識別的車牌記錄相符,則刪除該條記錄數據。
4. 根據權利要求1所述的一種高速公路車輛逃費行為數據分析方法,其特征在于,步 驟7中所述對數據集S2進行的匹配查找是基于容錯換卡模型進行的兩兩匹配查找,方法如 下:Si, 別是數據集S 2中第i條和第j條收費記錄數據,收費記錄數據S i,同時滿足 以下條件時,判定31與\為一對疑似換卡記錄數據: ^KPen) ~ ^KPex)八 ^KPex) ~ ^KPenJ (1) sKtbn) ^ sKten) ^ Si(TEX) V sKten) ^ sKtbn) ^ Si(TEX) (2) 其中,Pen和P EX分別為車輛進收費站和出收費站的車牌號,T EN和T EX分別為車輛進收費 站和出收費站的時間戳,·和·%hi分別為數據集S2中第i條收費記錄數據中車輛進 收費站和出收費站的車牌號,分別為第j條收費記錄數據中車輛進收費站 和出收費站的車牌號,和分別為數據集S2中第i條收費記錄數據中車輛進收 費站和出收費站的時間戳,^σ£)ν)和·%7·βχ)分別為數據集S2中第j條收費記錄數據中車輛 進收費站和出收費站的時間戳。
5. 根據權利要求1所述的一種高速公路車輛逃費行為數據分析方法,其特征在于,步 驟7中所述對數據集S2進行的匹配查找是基于容錯換卡模型進行的兩兩匹配查找,方法如 下:Si, 別是數據集s 2中第i條和第j條收費記錄數據,收費記錄數據s i,同時滿足 以下條件時,判定31與\為一對疑似換卡記錄數據: sKTen) ^ sKTen) ^ sJ(Tex) V SKTbn) < SKTen) < Si(jEx) (3) levisi(fEN),sj(fEX{)S AT Λ levisi'(j>EX、,Sj(尸 en))SAT (4) 其中,Pen和P EN分別為車輛進收費站和出收費站的車牌號,T EN和T EX分別為車輛進收費 站和出收費站的時間戳,和4(pMy分別為數據集S2中第i條收費記錄數據中車輛進 收費站和出收費站的車牌號,分別為第j條收費記錄數據中車輛進收費站 和出收費站的車牌號,分別為數據集S2中第i條收費記錄數據中車輛進收 費站和出收費站的時間戳,分別為數據集S 2中第j條收費記錄數據中車輛 進收費站和出收費站的時間戳為第i條收費記錄數據中車輛進收費站 的車牌號Pen和第j條收費記錄數據中車輛出收費站的車牌號P EX之間的Levenshtein距 離,為第i條收費記錄數據中車輛出收費站的車牌號ρΕχ和第j條收費 記錄數據中車輛進收費站的車牌號P en之間的Levenshtein距離,Δ T的值等于大津算法所 求出的閾值,若-(5,:(^>5/(^〇和^(^(^ >%^;)的值不大于八1',則51與5』為一對 疑似換卡記錄。
6. 根據權利要求1所述的一種高速公路車輛逃費行為數據分析方法,其特征在于,步 驟7中所述對數據集&進行的匹配查找是基于改良換卡模型,對數據集S 2編制哈希表,以 哈希檢索法對數據集S2進行匹配查找,方法如下:S i,分別是數據集S2中第i條和第j條 收費記錄數據,收費記錄數據Si, Sj茜足以下條件時,判定S 1與\為一對疑似換卡記錄數 據: leviSi{PEN)>Sj(^Ex)) =〇Λ lev{SD,SKPEN{) S AT 或 (5) lev(^SiQ,EXySjQ,EN-)) - 0 Λ ?6ν{β?^ΡΕΝ')Α(βΕχ^) S AT 其中,Pen和Pb(分別為車輛進收費站和出收費站的車牌號,和·%分別為數據 集S2中第i條收費記錄數據中車輛進收費站和出收費站的車牌號,和5/(Ρεχ)分別為 第j條收費記錄數據中車輛進收費站和出收費站的車牌號,-〇>ΕΛ?),為第i條收 費記錄數據中車輛進收費站的車牌號Pen和第j條收費記錄數據中車輛出收費站的車牌號 Pex之間的Levenshtein距離,為第i條收費記錄數據中車輛出收費站 的車牌號Pex和第j條收費記錄數據中車輛進收費站的車牌號P EN之間的Levenshtein距 離,ΔΤ的值等于大津算法所求出的閾值T。
【專利摘要】本發明涉及一種高速公路車輛逃費行為數據分析方法,包括:步驟1,采集收費數據,記為數據集S,以及對應路段卡口和服務區卡口數據,記為數據集K;步驟2,預處理數據集S,保留符合要求的記錄數據;步驟3,計算保留的記錄數據中車輛出入收費站的車牌記錄之間的Levenshitein距離,并追加到每條記錄末尾作為新數據集S1;步驟4,對S1頻度分析,獲得頻度分布直方圖;步驟5,根據頻度分布直方圖求出最大類間方差時的分割閾值T;步驟6,將S1中Levenshtein距離大于T的記錄數據保存為數據集S2;步驟7,在S2中查找疑似換卡記錄對,結果保存為數據集S3;步驟8,在K中查找是否存在與S3中的記錄數據相對應的記錄。
【IPC分類】G06F17-30
【公開號】CN104731879
【申請號】CN201510102666
【發明人】齊家, 劉若澤, 冒兵, 卞加佳, 焦楓, 邱偉軍
【申請人】江蘇省郵電規劃設計院有限責任公司
【公開日】2015年6月24日
【申請日】2015年3月9日