一種從互聯網非結構化文本提取道路交通信息方法
【專利摘要】本發明提出了一種從互聯網非結構化文本提取道路交通信息的方法。所述方法包括:定義道路交通信息的數據結構和道路交通信息描述特征詞類型;由少量人工制定的基礎提取模式擴展得到提取模式庫;對輸入的互聯網非結構化文本預處理后生成特征詞類型序列;根據特征詞類型序列的相似度獲取輸入文本的匹配提取模式;利用匹配提取模式從互聯網非結構化文本中提取道路交通信息的定位信息元素和類型信息元素;利用正則表達式和判斷規則從輸入文本中提取時間信息元素;由定位信息元素、類型信息元素和時間信息元素組合得到道路交通信息。利用本發明,可以對采集自互聯網的非結構化文本進行實時處理,提取道路交通信息,豐富交通信息采集手段。
【專利說明】一種從互聯網非結構化文本提取道路交通信息方法
【技術領域】
[0001]本發明涉及交通信息領域,特別是一種用于從互聯網非結構化文本提取道路交通信息的方法。
【背景技術】
[0002]城市中機動車數量的不斷增加使城市道路交通問題日益突出,公眾對實時道路交通信息的需求也更加迫切。道路交通信息主要包括道路交通流、道路路況、交通限制、交通管制、交通事件、交通天氣與路面環境信息等。現有的實時道路交通信息采集技術,如固定傳感器技術(感應線圈、視頻監控和微波探測),安裝GPS和無線通訊設備的浮動車技術、移動通訊終端信令分析技術等在獲取實時交通流信息方面得到了廣泛應用,但無法采集突發性交通事件、臨時交通管制、新增交通限制等道路交通信息。與此同時,互聯網作為當今社會一種便捷高效的信息載體,吸引了大量政府機構、專業信息提供商和個人用戶在專業網站、論壇和微博客平臺發布實時道路交通信息。這些信息類型覆蓋豐富、時效性強,其信息量也將隨著用戶數量的增長而不斷增加,因此,互聯網蘊含道路交通信息將成為獲取實時道路交通信息的重要數據來源,與其他交通信息采集技術形成互補,在政府規劃決策、公眾出行服務方面發揮重要作用。
[0003]當前部分互聯網蘊含道路交通信息以非結構化文本形式存在,這些非結構化文本一般通過自然語言的形式對道路交通事件進行描述。然而,現有道路交通信息系統只能處理以二維表形式表達的結構化數據,需要借助信息抽取技術從互聯網非結構化文本中提取結構化的道路交通信息。現有信息抽取技術沒有考慮道路交通信息描述的特點,無法從互聯網非結構化文本中正確識別基于線性參照方法的道路定位描述信息,以及缺乏處理互聯網非結構化文本描述中的道路交通信息元素隱含和省略現象的能力。
【發明內容】
[0004]本發明技術解決問題:克服現有技術不足,提供一種用于從互聯網非結構化文本中提取道路交通信息的方法,能夠從互聯網非結構化文本中識別基于線性參照方法的道路定位描述信息,并正確處理文本描述中出現的道路交通信息元素隱含和省略現象,可用于交通信息系統和服務平臺,實現互聯網非結構化文本蘊含道路交通信息的自動采集與處理。
[0005]本發明技術解決方案:一種從互聯網非結構化文本提取道路交通信息方法,對采集自互聯網相關網站的實時文本數據進行處理,從中識別和提取道路交通信息應包含的定位信息元素、類型信息元素和時間信息元素,為道路交通信息的融合與發布提供支持。具體步驟如下:
[0006]步驟1.定義道路交通信息的數據結構,便于以二維表的形式組織和管理道路交通信息,所述數據結構由信息元素和信息元素的具體元素屬性組成,所述信息元素包括定位信息元素、類型信息元素和時間信息元素,所述定位信息元素包含的元素屬性有中心線道路、起始道路、終止道路、起始方向和終止方向,所述類型信息元素包含的元素屬性有交通事件類型,所述時間信息元素包含的元素屬性有交通事件開始時間和交通事件結束時間;所述道路交通信息包括道路路況信息、道路交通限制信息、道路交通管制信息、道路交通事故信息、道路環境信息;
[0007]步驟2.將在描述道路交通信息過程中起關鍵作用的詞匯作為特征詞,根據這些詞匯在互聯網非結構化文本中起到的語法作用,定義用于填充道路交通信息元素屬性的特征詞的類型,并按特征詞類型構建交通專業詞庫,所述特征詞類型具體包括道路名稱詞、附屬定位詞、方向描述詞、介詞、道路事件詞和一般詞;所述一般詞指不包含在道路名稱詞、附屬定位詞、方向描述詞、介詞、道路事件詞等特征詞類型中的詞匯;所述互聯網非結構化文本是指網頁新聞、論壇帖子、博文日志、微博消息;
[0008]步驟3.基于步驟I定義的道路交通信息的數據結構和步驟2定義的特征詞類型,結合互聯網非結構化文本中描述交通事件的語法結構特征和句法結構特征,人工制定基本提取模式,通過規則對基本提取模式進行擴展,得到提取模式庫;所述提取模式包括特征詞類型序列和元素屬性序列兩個部分;所述特征詞類型序列是人們在互聯網非結構化文本中描述交通事件時所用特征詞的類型的先后順序排列,提取模式中特征詞類型序列的功能是判斷互聯網非結構化文本能否與該提取模式匹配;所述元素屬性序列與特征詞類型序列長度相同,元素屬性序列中的序列項是特征詞類型序列中相同位置序列項在道路交通信息中對應的元素屬性,元素屬性序列的功能是指導計算機將互聯網非結構化文本出現的特征詞映射至道路交通信息對應的元素屬性中;
[0009]步驟4.將采集的互聯網非結構化文本作為輸入文本,對輸入文本進行預處理;所述預處理包括刪除輸入文本中的重復信息和對輸入文本作中文分詞,得到輸入文本的詞匯序列;
[0010]步驟5.利用步驟2的交通專業詞庫識別步驟4所得詞匯序列中出現的特征詞,并按照特征詞在輸入文本中的先后順序記錄特征詞的類型,生成輸入文本的特征詞類型序列,通過判斷道路交通信息元素屬性所需的特征詞類型是否完整對輸入文本進行過濾;
[0011]步驟6.對輸入文本斷句,根據斷句得到的句子集合,將步驟5所得輸入文本的特征詞類型序列分割成與句子集合對應的特征詞類型序列集合,利用動態時間彎曲DTW(DynamicTime Warping, DTW)距離度量該特征詞類型序列集合中各特征詞類型序列與提取模式庫中各提取模式的特征詞類型序列的相似度,選擇相似度最高且小于給定閾值的提取模式作為該句子的匹配提取模式;
[0012]步驟7.遍歷輸入文本的句子集合,若句子集合中的句子在步驟6取得匹配提取模式,則根據該匹配提取模式的元素屬性序列將該句子中的特征詞填充至對應的道路交通信息元素屬性,生成該句子對應的道路交通信息;遍歷完成后,判斷所得道路交通信息的定位信息元素中中心線道路屬性和類型信息元素中交通事件類型屬性是否完整,如果不完整,則利用補充規則對道路交通信息缺失的定位信息元素中中心線道路屬性或類型信息元素中交通事件類型屬性進行填補;最后,得到輸入文本已提取定位信息元素和類型信息元素的道路交通信息集合;
[0013]步驟8.根據互聯網非結構化文本中對時間的不同表達形式,人工制定提取年、月、日、時、分、秒時間要素數值的正則表達式集合,結合判斷規則利用該正則表達式集合從輸入文本中提取時間要素數值,將這些時間要素數值組合成交通事件開始時間元素屬性和交通事件結束時間元素屬性,得到道路交通信息的時間信息元素;
[0014]步驟9.將步驟8提取的時間信息元素填充至步驟7得到的道路交通信息集合各條道路交通信息中,得到道路交通信息元素完整的道路交通信息集合。
[0015]所述步驟6中,在利用DTW距離度量各句子的特征詞類型序列與提取模式庫中各提取模式的特征詞類型序列的相似度過程中實現為:
[0016]若Ci = tj,令(!(Ci, tj) = O ;
[0017]若Ci關t」,且tj為道路名稱詞、道路事件詞,令d(Ci,tj) = 2 ;
[0018]若Ci關tj,且tj為附屬定位詞、方向描述詞、介詞、一般詞,令(!(Ci, tj) = I ;
[0019]其中,Ci表示輸入文本句子的特征詞類型序列的第i個序列項,表示提取模式中的特征詞類型序列的第j個序列項,d(Ci, tj)表示Ci和&間的距離值。
[0020]所述步驟7中,對道路交通信息缺失的類型信息元素中交通事件類型屬性進行填補的補充規則為:
[0021](I)當前待處理道路交通信息對應句子Si, j = i ;
[0022](2)讀取句子Sj (j = j_l),若句子Sj存在,則轉到步驟(3);否則,轉到(6);
[0023](3)若句子S」特征詞類型序列滿足“類型信息元素定位信息元素”的序列結構,轉到步驟(4);否則,轉到步驟(5);
[0024](4)將句子Sj對應的交通事件類型屬性賦予當前待處理道路交通信息,補充過程結束;
[0025](5)若句子S」特征詞類型序列滿足“定位信息元素類型信息元素”的序列結構,轉到步驟(6);否則,轉到步驟(2);
[0026](6)句子Sj與句子Si無關,j = i,轉到步驟(7);
[0027](7)讀取句子S」(j = j+1),若句子S」存在,則轉到步驟(8);否則,補充過程結束;
[0028](8)若句子S」特征詞類型序列滿足“定位信息元素類型信息元素”的序列結構,轉到步驟(4);否則,轉到步驟(9);
[0029](9)若句子S」特征詞類型序列滿足“類型信息元素定位信息元素”的序列結構,則句子S」與句子Si無關,補充過程結束;否則,轉到步驟(7)。
[0030]所述步驟7中,對道路交通信息缺失的定位信息元素中中心線道路屬性進行填補的補充規則為:
[0031](I)當前待處理道路交通信息對應句子Si, j = i ;
[0032](2)讀取句子Sj (j = j_l),若句子Sj存在,則轉到步驟(3);否則,補充過程結束;
[0033](3)若句子S」特征詞類型序列滿足“類型信息元素定位信息元素”的序列結構,且含有中心線道路屬性,則轉到步驟(4);否則,轉到步驟(5);
[0034](4)將句子Sj對應的道路交通信息的中心線道路屬性賦予當前待處理道路交通信息,補充過程結束;
[0035](5)若句子S」有對應的道路交通信息,且缺失中心線道路屬性,則轉到步驟(2);否貝U,補充過程結束 。
[0036]本發明與現有技術相比的優點在于:在信息提取過程中充分考慮道路交通信息描述的特點,提取方法能識別互聯網非結構化文本中基于線性參照的定位描述信息,并正確處理文本描述中出現的道路交通信息元素隱含和省略現象,實現從基于自然語言表達的互聯網非結構化文本中提取道路交通信息。提取過程不需要大量人工干預,便于計算機對實時采集的互聯網非結構化文本進行自動處理。
【專利附圖】
【附圖說明】
[0037]圖1是本發明方法的流程圖;
[0038]圖2是道路交通信息缺失類型信息元素中交通事件類型屬性補充方法的流程圖;
[0039]圖3是道路交通信息缺失定位信息元素中中心線道路屬性補充方法的流程圖;
[0040]圖4是道路交通信息時間信息元素提取方法的流程圖。
【具體實施方式】
[0041]為了使本【技術領域】的人員更好地理解本發明實施例的方案,下面結合附圖和實施方式對本發明實施例作進一步的詳細說明。
[0042]如圖1所示,是本發明實施例一種從互聯網非結構化文本提取道路交通信息方法的流程圖,包括以下步驟:
[0043]步驟1.定義道路交通信息的數據結構,便于以二維表的形式組織和管理道路交通信息,該數據結構由信息元素和信息元素的具體元素屬性組成,能夠用來表達的道路交通信息的類型有道路路況信息、道路交通限制信息、道路交通管制信息、道路交通事故信息、道路環境信息。具體內容如下:
【權利要求】
1.一種從互聯網非結構化文本提取道路交通信息方法,其特征在于實現步驟如下:步驟1.定義道路交通信息的數據結構,便于以二維表的形式組織和管理道路交通信息,所述數據結構由信息元素和信息元素的具體元素屬性組成,所述信息元素包括定位信息元素、類型信息元素和時間信息元素,所述定位信息元素包含的元素屬性有中心線道路、起始道路、終止道路、起始方向和終止方向,所述類型信息元素包含的元素屬性有交通事件類型,所述時間信息元素包含的元素屬性有交通事件開始時間和交通事件結束時間;所述道路交通信息包括道路路況信息、道路交通限制信息、道路交通管制信息、道路交通事故信息、道路環境信息; 步驟2.將在描述道路交通信息過程中起關鍵作用的詞匯作為特征詞,根據這些詞匯在互聯網非結構化文本中起到的語法作用,定義用于填充道路交通信息元素屬性的特征詞的類型,并按特征詞類型構建交通專業詞庫,所述特征詞類型具體包括道路名稱詞、附屬定位詞、方向描述詞、介詞、道路事件詞和一般詞;所述一般詞指不包含在道路名稱詞、附屬定位詞、方向描述詞、介詞、道路事件詞等特征詞類型中的詞匯;所述互聯網非結構化文本是指網頁新聞、論壇帖子、博文日志、微博消息; 步驟3.基于步驟I定義的道路交通信息的數據結構和步驟2定義的特征詞類型,結合互聯網非結構化文本中描述交通事件的語法結構特征和句法結構特征,人工制定基本提取模式,通過規則對基本提取模式進行擴展,得到提取模式庫;所述提取模式包括特征詞類型序列和元素屬性序列兩個部分;所述特征詞類型序列是人們在互聯網非結構化文本中描述交通事件時所用特征詞的類型的先后順序排列,提取模式中特征詞類型序列的功能是判斷互聯網非結構化文本能否與該提取模式匹配;所述元素屬性序列與特征詞類型序列長度相同,元素屬性序列中的序列項是特征詞類型序列中相同位置序列項在道路交通信息中對應的元素屬性,元素屬性序列的功能是指導計算機將互聯網非結構化文本出現的特征詞映射至道路交通信息對應的元素屬性中; 步驟4.將采集的互聯網非結構化文本作為輸入文本,對輸入文本進行預處理;所述預處理包括刪除輸入文本中的重復信息和對輸入文本作中文分詞,得到輸入文本的詞匯序列; 步驟5.利用步驟2的交通專業詞庫識別步驟4所得詞匯序列中出現的特征詞,并按照特征詞在輸入文本中的先后順序記錄特征詞的類型,生成輸入文本的特征詞類型序列,通過判斷道路交通信息元素屬性所需的特征詞類型是否完整對輸入文本進行過濾; 步驟6.對輸入文本斷句,根據斷句得到的句子集合,將步驟5所得輸入文本的特征詞類型序列分割成與句子集合對應的特征詞類型序列集合,利用動態時間彎曲DTW (DynamicTime Warping,DTff)距離度量該特征詞類型序列集合中各特征詞類型序列與提取模式庫中各提取模式的特征詞類型序列的相似度,選擇相似度最高且小于給定閾值的提取模式作為該句子的匹配提取模式; 步驟7.遍歷輸入文本的句子集合,若句子集合中的句子在步驟6取得匹配提取模式,則根據該匹配提取模式的元素屬性序列將該句子中的特征詞填充至對應的道路交通信息元素屬性,生成該句子對應的道路交通信息;遍歷完成后,判斷所得道路交通信息的定位信息元素中中心線道路屬性和類型信息元素中交通事件類型屬性是否完整,如果不完整,則利用補充規則對道路交通信息缺失的定位信息元素中中心線道路屬性或類型信息元素中交通事件類型屬性進行填補;最后,得到輸入文本已提取定位信息元素和類型信息元素的道路交通信息集合; 步驟8.根據互聯網非結構化文本中對時間的不同表達形式,人工制定提取年、月、日、時、分、秒時間要素數值的正則表達式集合,結合判斷規則利用該正則表達式集合從輸入文本中提取時間要素數值,將這些時間要素數值組合成交通事件開始時間元素屬性和交通事件結束時間元素屬性,得到道路交通信息的時間信息元素; 步驟9.將步驟8提取的時間信息元素填充至步驟7得到的道路交通信息集合各條道路交通信息中,得到道路交通信息元素完整的道路交通信息集合。
2.根據權利要求1所述的從互聯網非結構化文本提取道路交通信息方法,其特征在于:所述步驟6中,在利用DTW距離度量各句子的特征詞類型序列與提取模式庫中各提取模式的特征詞類型序列的相似度過程中實現為:
若 Ci = tj,令(!(Ci, tj) = O ; 若Ci關tj,且tj為道路名稱詞、道路事件詞,令d(Ci,tj) = 2 ; 若Ci關\_,且&為附屬定位詞、方向描述詞、介詞、一般詞,令d(Ci,tp = I ; 其中,Ci表示輸入文本句子的特征詞類型序列的第i個序列項,表示提取模式中的特征詞類型序列的第j個序列項,d(Ci, tj)表示Ci和&間的距離值。
3.根據權利要求1所述的從互聯網非結構化文本提取道路交通信息方法,其特征在于:所述步驟7中,對道路交通信息缺失的類型信息元素中交通事件類型屬性進行填補的補充規則為: (O當前待處理道路交通信息對應句子Si, j = i ; (2)讀取句子I(j = j_l),若句子I存在,則轉到步驟(3);否則,轉到(6); (3)若句子S」特征詞類型序列滿足“類型信息元素定位信息元素”的序列結構,轉到步驟(4);否則,轉到步驟(5); (4)將句子&對應的交通事件類型屬性賦予當前待處理道路交通信息,補充過程結束; (5)若句子S」特征詞類型序列滿足“定位信息元素類型信息元素”的序列結構,轉到步驟(6);否則,轉到步驟(2); (6)句子Sj與句子Si無關,j= i,轉到步驟(7); (7)讀取句子I(j = j+1),若句子I存在,則轉到步驟(8);否則,補充過程結束; (8)若句子S」特征詞類型序列滿足“定位信息元素類型信息元素”的序列結構,轉到步驟(4);否則,轉到步驟(9); (9)若句子S」特征詞類型序列滿足“類型信息元素定位信息元素”的序列結構,則句子Sj與句子Si無關,補充過程結束;否則,轉到步驟(7)。
4.根據權利要求1所述的從互聯網非結構化文本提取道路交通信息方法,其特征在于:所述步驟7中,對道路交通信息缺失的定位信息元素中中心線道路屬性進行填補的補充規則為: (O當前待處理道路交通信息對應句子Si, j = i ; (2)讀取句子I(j = j_l),若句子I存在,則轉到步驟(3);否則,補充過程結束; (3)若句子S」特征詞類型序列滿足“類型信息元素定位信息元素”的序列結構,且含有中心線道路屬性,則轉到步驟(4);否則,轉到步驟(5); (4)將句子Sj對應的道路交通信息的中心線道路屬性賦予當前待處理道路交通信息,補充過程結束; (5)若句子S」有對應的道路交通信息,且缺失中心線道路屬性,則轉到步驟(2);否則,補充過程 結束。
【文檔編號】G06F17/30GK103886080SQ201410115332
【公開日】2014年6月25日 申請日期:2014年3月25日 優先權日:2014年3月25日
【發明者】陸鋒, 仇培元, 張恒才 申請人:中國科學院地理科學與資源研究所