基于欠抽樣面向不平衡數據集的交通事件自動檢測方法
【專利摘要】本發明公開了一種基于欠抽樣面向不平衡數據集的交通事件自動檢測方法,首先使用最大-最小規范化方法對實測交通流數據進行規范化處理,并基于鄰域清理規則對訓練集中的多數類進行欠抽樣處理,得到新的相對平衡的訓練集;然后選擇徑向基函數作為支持向量機的核函數,并采用改進的網格搜索算法對支持向量機的懲罰因子C和核參數g進行優化;最后使用相對平衡的訓練集訓練支持向量機,得到面向不平衡數據集的交通事件自動檢測模型。本發明解決了現有交通事件檢測算法不適應現實中不平衡交通數據的問題,顯著提高了交通事件檢測算法的檢測性能,縮短了平均檢測時間,滿足交通事件檢測的實時性要求。
【專利說明】基于欠抽樣面向不平衡數據集的交通事件自動檢測方法
【技術領域】
[0001]本發明屬于交通智能管理和控制【技術領域】,涉及一種基于欠抽樣面向不平衡數據集的交通事件自動檢測方法。
【背景技術】
[0002]交通事件不僅弓I起擁堵和延誤,還容易引發二次事故。準確、快速地檢測出交通事件,及時進行事件救援和處理,能有效地減少由交通事件產生的交通擁堵和延誤,避免二次事故的發生。交通事件自動檢測(Automaticlncident Detection,AID)是現代交通監控系統的重要組成部分,是先進的交通管理系統和出行者信息系統的基礎,對大幅度降低由交通事件引起的延誤、擁擠和事故,提高道路交通安全和服務水平具有極為重要的意義。
[0003]近年來,AID算法的研究主要集中在神經網絡、模糊理論、小波分析以及支持向量機等新技術的應用方面。相對于傳統的事件檢測算法,上述交通事件檢測算法能夠在一定程度上提高算法的檢測性能。但是,在現實世界中,交通正常運行狀態遠遠多于交通事件狀態,交通事件檢測實質上是不平衡分類問題,而以往的交通事件自動檢測算法較少考慮這個問題。上述交通事件檢測算法多是基于平衡數據集進行分類的算法,用于交通事件檢測時往往導致較高的誤報率、較低的檢測率和較長的平均檢測時間,檢測效果令人失望。
[0004]支持向量機(SupportVectorMachine, SVM)已用于交通事件檢測,但其在處理不平衡分類問題時表現出明顯的“有偏性”,不利于少數類樣本的學習。為了克服上述缺陷,本發明基于鄰域清理規則,結合支持向量機,提出一種基于欠抽樣面向不平衡數據集的交通事件自動檢測方法。首先通過基于鄰域清理規則的欠抽樣方法對訓練集中的多數類進行欠抽樣以降低其不平衡性,而后使用相對平衡的訓練集訓練支持向量機,使之作為分類器進行交通事件自動檢測。
【發明內容】
[0005]技術問題:本發明提供一種降低訓練集中類間樣本數目的不平衡性,能夠適應現實世界中不平衡交通數據的基于欠抽樣面向不平衡數據集的交通事件自動檢測方法。
[0006]技術方案:本發明的基于欠抽樣面向不平衡數據集的交通事件自動檢測方法,包括如下步驟:
[0007]I)利用最大-最小規范化方法對實測交通流數據進行規范化處理,得到原始訓練集和測試集;
[0008]2)基于鄰域清理規則對步驟I)得到的原始訓練集中的多數類進行欠抽樣處理,降低訓練集的不平衡性,得到新的相對平衡的訓練集;
[0009]3)基于步驟I)得到的原始訓練集,支持向量機的核函數采用徑向基函數,采用改進的網格搜索算法優化支持向量機的懲罰因子C和核參數g,得到支持向量機懲罰因子C的最佳值和核參數g的最佳值;
[0010]4)根據步驟3)得到的支持向量機懲罰因子C的最佳值和核參數g的最佳值,使用步驟2)得到的新的相對平衡的訓練集訓練支持向量機,得到面向不平衡數據集的交通事件自動檢測模型;
[0011]5)使用訓練好的面向不平衡數據集的交通事件自動檢測模型,對步驟I)得到的測試集進行交通事件自動檢測,根據模型的輸出結果判定是否發生交通事件。
[0012]本發明方法的優選方案中,步驟I)中的實測交通流數據包括檢測器在每個采樣周期檢測到的檢測路段上游和下游的速度、占有率和流量三類數據。
[0013]本發明方法的優選方案中,步驟I)中的最大-最小規范化方法為根據下式對實測交通流數據進行處理:
【權利要求】
1.一種基于欠抽樣面向不平衡數據集的交通事件自動檢測方法,其特征在于,該方法包括如下步驟: 1)利用最大-最小規范化方法對實測交通流數據進行規范化處理,得到原始訓練集和測試集; 2)基于鄰域清理規則對所述步驟I)得到的原始訓練集中的多數類進行欠抽樣處理,降低訓練集的不平衡性,得到新的相對平衡的訓練集; 3)基于步驟I)得到的原始訓練集,支持向量機的核函數采用徑向基函數,采用改進的網格搜索算法優化支持向量機的懲罰因子C和核參數g,得到支持向量機懲罰因子C的最佳值和核參數g的最佳值; 4)根據所述步驟3)得到的支持向量機懲罰因子C的最佳值和核參數g的最佳值,使用所述步驟2)得到的新的相對平衡的訓練集訓練支持向量機,得到面向不平衡數據集的交通事件自動檢測模型; 5)使用訓練好的面向不平衡數據集的交通事件自動檢測模型,對所述步驟I)得到的測試集進行交通事件自動檢測,根據模型的輸出結果判定是否發生交通事件。
2.根據權利要求1所述的基于欠抽樣面向不平衡數據集的交通事件自動檢測方法,其特征在于:所述步驟I)中的實測交通流數據包括檢測器在每個采樣周期檢測到的檢測路段上游和下游的速度、占有率和流量三類數據。
3.根據權利要求1所述的基于欠抽樣面向不平衡數據集的交通事件自動檢測方法,其特征在于:所述步驟I)中的最大-最小規范化方法為根據下式對實測交通流數據進行處理:
4.根據權利要求1所述的基于欠抽樣面向不平衡數據集的交通事件自動檢測方法,其特征在于,所述步驟2)的方法具體流程為:對訓練集中的樣本Xi,找到與其最近的三個近鄰,比較樣本Xi的類別與所述最近的三個近鄰的類別,若Xi是多數類,且它的三個近鄰中有兩個或者三個是少數類樣本,則在訓練集中去掉樣本Xi,否則不對Xi作任何處理,繼續尋找訓練集中的下一個樣本;若Xi是少數類,且它的三個近鄰中有兩個或者三個是多數類樣本,則在訓練集中去掉這三個近鄰中的多數類樣本,否則不對Xi作任何處理,繼續尋找訓練集中的下一個樣本;其中i為訓練集中的樣本序號,i = 1,2……,η,η為訓練集中的總樣本數。
5.根據權利要求1、2、3或4所述的基于欠抽樣面向不平衡數據集的交通事件自動檢測方法,其特征在于:所述步驟3)的具體流程為: 首先讓懲罰因子C和核參數g在C= [2Λ 210],g= [2-10, 210]的范圍內以1.0的步長變動,通過交叉驗證找到對應最大的分類正確率的懲罰因子C和核參數g,以此確定懲罰因子C和核參數g的最佳取值范圍;然后在C= [2_1(l,2°]、g= [2°, 210]的范圍內以0.5的步長變動,通過交叉驗證,在所述懲罰因子C和核參數g的最佳取值范圍內尋找懲罰因子C和核參數g的最佳取值。
6.根據權利要求1、2、3或4所述的基于欠抽樣面向不平衡數據集的交通事件自動檢測方法,其特征在于:所述步驟5)中,如果面向不平衡數據集的交通事件自動檢測模型的輸出結果為-1,表示此時檢測區內的交通運行狀態正常,否則表示發生交通事件。
【文檔編號】G08G1/01GK103927874SQ201410177414
【公開日】2014年7月16日 申請日期:2014年4月29日 優先權日:2014年4月29日
【發明者】陳淑燕, 李苗華, 王煒 申請人:東南大學