一種基于簽到數據的時空軌跡相似性度量方法及系統的制作方法
【技術領域】
[0001] 本發明涉及數據挖掘領域,特別是涉及一種基于簽到數據的時空軌跡相似性度量 方法及系統。
【背景技術】
[0002] 時空軌跡是移動對象的位置和時間的記錄序列,作為一種重要的時空對象數據類 型和信息源,時空軌跡的應用范圍涵蓋了用戶行為、智能交通和精準營銷等諸多方面。隨 著衛星定位技術、無線通信、智能終端以及移動互聯網的快速發展,人們能夠更方便地獲取 時空軌跡數據。例如,通過智能終端記錄交通工具的運動狀況,通過條形碼或者射頻卡的 檢入檢出了解物流的狀況,通過信用卡刷卡記錄或者手機通話記錄來跟蹤用戶的位置。近 年來,隨著新浪微博、街旁、人人、Foursquare、Gowalla等基于地理位置的移動社交網絡 (LBSN)的迅猛發展,大量用戶可以通過智能手機以簽到的方式記錄時空行為軌跡。
[0003] 通過對各種時空軌跡數據的分析,我們可以提取時空軌跡數據中的相似性特征, 在沒有先驗知識的情況下,將具有相似行為的時空對象劃分到一起,而將具有相異行為的 時空對象劃分開來,其關鍵是根據時空軌跡數據的特點,設計與定義不同時空軌跡間的相 似性度量方法。根據所涉及的不同時間區間,可將現有的時空軌跡相似性度量方法劃分為 以下幾種:(1)時間全區間相似(主要采用軌跡間歐式距離、最小外包矩形距離等相似性度 量方法);(2)全區間變換對應相似(主要有DTW方法);(3)多子區間對應相似(主要有最長 公共子序列距離、編輯距離等方法);(4)單子區間對應相似(主要有子軌跡聚類、時間聚焦 聚類、移動微聚類、移動聚類等方法);(5)單點對應相似(主要有歷史最近距離等方法);(6) 無時間區間對應相似(主要有單向距離、特征提取等方法)。這6類方法對于相似時間區間 的要求是逐漸放松的,從要求時間全區間相似,到局部時間區間相似,最后到無時間區間對 應相似。
[0004] 雖然有關時空軌跡度量方法的研究在國際上起步不久,卻已經成為相關領域研究 的熱點之一,并取得了一定的研究進展。以下主要介紹幾種與本發明相關的、典型的時空 軌跡度量方法:(1) "子軌跡聚類方法"由Lee等在2007年提出,它采用先劃分再聚合的思 路,首先將時空軌跡看作一組點序列,然后按照最小描述長度原則將軌跡劃分為子軌跡,再 用基于密度的聚類方法對這些子軌跡聚類,子軌跡的相似性度量由3種距離(垂直距離、平 行距離和角度距離)的加權和表示,最終可以得到子軌跡的運動模式和整條軌跡的相似子 區間。雖然子軌跡聚類方法能發現具有相似性的單個最大時間區間,但是,由于該方法預先 將軌跡劃分成子軌跡,并以子軌跡為基本單位進行聚類,因此,相似時間區間會受到子軌跡 時間區間的限制。(2) "時間聚焦聚類方法"是將某一時間區間內軌跡間的歐氏距離作為相 似性度量,并采用基于密度的聚類方法OPTICS對軌跡進行聚類,通過對每一個不同的時間 區間均進行一次上述聚類過程,最終發現使軌跡聚類結果最優(即類內相似度大、類間相似 度小)的時間區間,并記錄這個區間和相應的聚類結果。以上兩種方法的特點是關注局部 而非全部時空軌跡的相似性度量,只需獲得一個最大的相似子區間,就能衡量軌跡間的相 似性。(3) "基于最長公共子序列的用戶時空行為興趣相似性計算方法"采用包圍盒描述停 留區域,通過計算軌跡間滿足一定時空交疊程度的公共包圍盒的長度來衡量軌跡間的相似 程度,兩用戶軌跡間公共包圍盒長度越長,則認為他們在時空上有著更多相似的行為興趣, 其中停留區域是一系列連續軌跡點的集合,是包含該停留區域內所有軌跡點且各邊平行于 坐標軸的最小的六面體。如何有效地確定停留區域或者將軌跡劃分成平滑軌跡區間仍有待 研究。除此之外,方法(1)- (3)主要針對GPS等可以持續跟蹤用戶的行為軌跡,而在位置 服務的社交網絡中,用戶僅在到達某位置后才簽到,沒有對用戶的行為軌跡進行持續的跟 蹤,用戶簽到行為具有一定的隨意性和重復性,造成在不同位置上簽到次數差異較大,少數 用戶完成了大多數簽到,一些位置很少被簽到,時間維的不等長使得用戶簽到數據呈現出 稀疏性。因此,連續序列模式的相似性度量方法并不適用于基于簽到數據的時空軌跡。(4) "位置服務社交網絡用戶行為相似性分析"采用DBSCAN對用戶簽到的地理位置進行聚類操 作,得到用戶訪問的位置區域;通過改變聚類的鄰域半徑,在不同空間位置比例尺下觀察用 戶訪問各個位置區域的情況,進而通過建立向量空間模型,采用余弦相似性方法計算用戶 間的相似性;最終通過計算用戶在不同空間比例下的相似性,得到用戶行為軌跡上的相似 性。由于該方法在進行相似性度量時沒有考慮簽到數據的時間維度,也不能區分簽到數據 在不同時間段上的重要性,會出現兩個在時間上完全相反的用戶行為軌跡,計算結果卻是 完全相似的情況。
【發明內容】
[0005] 本發明所要解決的技術問題是:針對現有時空軌跡度量方法存在的問題,如何創 新地設計一種適合簽到數據特點的時空軌跡相似性度量方法及系統。
[0006] 為了解決上述問題,本發明公開一種基于簽到數據的時空軌跡相似性度量方法, 包括: 步驟1 :獲取簽到數據,包括用戶ID、簽到位置和簽到時間等; 步驟2 :對簽到數據進行預處理,包括無用數據過濾、類型轉換和格式統一; 步驟3:用戶興趣區域的計算; 步驟4 :相似興趣區域的計算; 步驟5 :單層相似度的計算; 步驟6:跨層相似度的計算。
[0007] 所述的基于簽到數據的時空軌跡相似性度量方法,所述步驟3還包括: 步驟21 :把簽到時間劃分成T個時間段,采用OPTICS對簽到興趣點進行基于密度的分 層聚類,得到不同時間段、不同空間劃分尺度下的用戶興趣區域。
[0008] 所述的基于簽到數據的時空軌跡相似性度量方法,所述步驟4還包括: 步驟31 :在每一層,計算用戶在每個時間段的每個興趣區域的簽到次數與其在該時間 段簽到總次數的比值,如果兩個用戶在某個興趣區域上的比值的差值的絕對值小于設定的 閾值,則這兩個用戶在該興趣區域上相似。
[0009] 所述的基于簽到數據的時空軌跡相似性度量方法,所述步驟5還包括: 步驟41 :兩個用戶的時空軌跡在h層、全都時間段上的相似度定義為
heH,teΤ,Η為OPTICS聚類的層數,CM為兩個用戶在h層、t時間 段的興趣區域的個數,M為兩個用戶在h層、t時間段相似興趣區域的個數,at為各
可以根據具體應用,設定各個時間段的權值。
[0010] 所述的基于簽到數據的時空軌跡相似性度量方法,所述步驟6還包括: 步驟51 :兩個用戶的時空軌跡間的跨層相似度定義
,層數越高,空間劃分尺度越小,權值越大,如果跨層相似度大于設定 的閾值,則兩個用戶的時空行為軌跡相似。
[0011] 本發明還公開一種基于簽到數據的時空軌跡相似性度量系統,包括: 獲取用戶簽到數據模塊:用于獲取用戶簽到數據,包括用戶ID、簽到位置和簽到時間 等; 預處理模塊:用于對用戶簽到數據進行預處理,包括無用數據過濾、類型轉換和格式統 , 用戶興趣區域計算模塊:用于用戶興趣區域的計算; 相似興趣區域計算模塊:用于用戶相似興趣區域的計算; 單層相似度計算模塊:用于用戶單層相似度的計算; 跨層相似度計算模塊:用戶跨層相似度的計算。
[0012] 所述的基于簽到數據的時空軌跡相似性度量系統,所述用戶興趣區域計算模塊還 包括: 把用戶簽到時間劃分成T個時間段,采用OPTICS對用戶簽到興趣點進行基于密度的分 層聚類,得到不同時間段、不同空間劃分尺度下的用戶興趣區域。
[0013] 所述的基于簽到數據的時空軌跡相似性度量系統,所述相似興趣區域計算模塊還 包括: 在每一層,計算用戶在每個時間段的每個興趣區域的簽到次數與其在該時間段簽到總 次數的比值,如果兩個用戶在某個興趣區域上的比值的差值的絕對值小于設定的閾值,則 這兩個用戶在該興趣區域上相似。
[0014] 所述的基于簽到數據的時空軌跡相似性度量系統,所述單層相似度計算模塊還包 括: 兩個用戶的時空軌跡在h層、全都時間段上的相似度定義
heH,teT,Η為OPTICS聚類的層數,CM為兩個用戶在h層、t時間段的興趣區域的個 數,M為兩個用戶在h層、t時間段相似興趣區域的個數,α,為各個時間段的權值,
,可以根據具體應用,設定各個時間段的權值。
[0015] 所述的基于簽到數據的時空軌跡相似性度量系統,所述跨層相似度計算模塊還包 括: 兩個用戶的時空軌跡間的跨層相似度定義
,其中為各層的權
層數越高,空間劃分尺度越小,權值越大,如果跨層相似度大于設定的閾 值,則兩個用戶的時空行為軌跡相似。
[0016] 與現有技術相比,本發明具有以下優點: 由于在位置服務的社交網絡中,用戶僅在到達某位置后才簽到,沒有對用戶的行為軌 跡進行持續的跟蹤,用戶簽到行為具有一定的隨意性和重復性,造成在不同位置上簽到次 數差異較大,少數用戶完成了大多數簽到,一些位置很少被簽到,時間維的不等長使得用戶 簽到數據呈現出稀疏性。本發明通過采用OPTICS對用戶簽到興趣點進行基于密度的分層 聚類,得到不同空間劃分尺度下的用戶興趣區域,比采用網格或者單一空間劃分尺度建立 用戶軌跡更合理,更能反映用戶時空數據的分布情況。同時,本發明采用類似包圍盒的思想 來比較各個興趣區域的相似性,更加符合簽到數據的特點,大大降低了計算的復雜度,計算 效率也得到提高。除此之外,本發明還從時間維度對時空軌跡進行了劃分,可以根據具體應 用,調整各個時間段的權值,從而能夠區分簽到數據在不同時間段上的重要性。
【附圖說明】
[0017] 圖1為本發明的不同時間段、不同空間劃分尺度下的用戶興趣區域示意圖。
[0018] 圖2為本發明的基于簽到數據的時空軌跡相似性度量方法的流程圖。
[0019]