一種地理社交網絡下的用戶相似性計算方法
【技術領域】
[0001] 本發明屬于輿情監控領域,涉及社交網絡用戶推薦及商業服務推薦技術分析,尤 其涉及一種地理社交網絡下的用戶相似性計算方法。
【背景技術】
[0002] 隨著具有移動定位功能的智能移動終端普及和在線社交網絡的發展,位置服務和 在線社交網絡正趨于融合,產生了LBSN(Location-basedonlineSocialNetwork)。由于用 戶能通過LBSN實時記錄著自己的地理行為,以及自己對地理事件和社會功能的感受,LBSN 不僅反映了居民群體間的虛擬關系和聯系,也是城市實體活動在網絡空間中的體現。當前 LBSN挖掘的一個重要研究方向是用戶相似性計算。城市中居民由于其收入水平、工作性質、 受教育程度等因素的不同,其行為空間范圍、感興趣位置和到達位置的時間甚至是生活行 為習性上具有相似性,從而呈現出這一類用戶所獨有的社會移動模式,反映這一類用戶的 社會角色和興趣偏好,能支撐好友推薦、信息推薦、位置服務推薦和地理廣告營銷等一系列 的移動在線應用,同時也是挖掘社會時空行為模式,進而解讀城市空間結構的重要視角。
[0003]當前這方面的研究趨勢有兩種,一種是將LBSN中的用戶軌跡(簽到數據)抽象為 停留點(StayPoint)序列,或直接將用戶某段時間內的簽到數據作為停留點序列,利用停 留點序列間各基本構成單元間的地理范圍重疊性或功能語義重疊性判斷他們之間的相似 程度,從而判斷用戶的相似度。如對停留點進行空間層次聚類,利用不同空間尺度的聚類簇 作為軌跡基本構成單元,通過找出時間約束下軌跡間的最長相似子序列表達軌跡間的相似 性,進而體現出用戶的相似性;或者基于停留點覆蓋區域的語義功能進行層次聚類,利用不 同粒度的聚類簇作為軌跡基本構成單元,通過構建Precedencegraph找到兩個序列間的 若干條時間約束下的最優相似子序列,進行體現用戶間的相似性。
[0004] 另外一種用戶相似性計算方法是利用LDA(LatentDirichletAllocation)SVD等 潛在因子模型,利用潛在主題表達用戶,再通過潛在主題的相似性獲取用戶間的相似性。如 將用戶和位置看做LDA中所表達的"文章"和"詞",用戶在長時間內對各位置的訪問頻次最 為"詞匯"出現頻次,利用LDA模型獲得用戶潛在主題;或者用所有用戶在多個時間內對各 位置的訪問頻次生成矩陣,基于SVD分解獲得用戶對未記錄未知的喜好程度,基于SVD能獲 取表達用戶的低維特征向量,同樣可用以實現用戶相似性比較。
[0005] 然而,當前技術和研究存在如下問題:
[0006] (1)未見統一考慮位置功能語義和地理因素對用戶相似性的影響。已有研究依據 軌跡的物理形態、駐留空間區域間的空間鄰近度表達停留點序列間的相似性,然而,位置的 語義特征表達了更多的用戶興趣信息,在軌跡的物理形態無法重合的情況下也能表達相似 的用戶興趣。
[0007] (2)缺少較為周全的語義時間劃分方法。沒有考慮社會作息的總體規律,對于不是 同一物理時刻但是具有相同語義含義的時間,如工作時間、節假日等無法識別;一些文獻通 過人為設定每個語義時段的間隔,帶有較大的隨意性,這些時間槽無法體現時間的社會人 文含義,也無法最大程度體現出用戶間的活躍差異度。
[0008] (3)缺少妥當表達不同時段內位置訪問強度的方法。沒有考慮用戶在不同時間內 的簽到活躍程度和簽到數量差異,忽略了盡管長時間上位置到達規律類似的、但位置到達 時間差別突出的用戶區別。
[0009] (4)缺少表達用戶長時間內具有統計意義的位置訪問序列模式。一類研究是對原 始停留點序列進行時間約束下的比較,尋找他們的最長相似子序列這類方法由于要逐條軌 跡相互比較,而當某些用戶間的位置駐留記錄總數差異較大時,原始停留點序列條數較少 的用戶與其他用戶間的相似度會被削弱。另一類研究是將用戶所有的位置訪問數據作為一 個對象,利用如LDA模型進行對象相似性的比較,能在全局時間上獲得具有統計意義上位 置訪問強度,但沒有考慮用戶每個時段在各位置出現的統計意義上的強度。
【發明內容】
[0010] 本發明的發明目的在于針對現有技術中存在的上述問題,提供一種地理社交網絡 下的用戶相似性計算方法。
[0011] 一種地理社交網絡下的用戶相似性計算方法,包括以下步驟:
[0012] (1)時空語義抽取:包括基于各用戶對位置的訪問熱度,對位置進行的空間層次 聚類;還包括依據用戶連續簽到位置間的距離、時間差異進行的時間層次聚類;
[0013] (2)建立用戶時空訪問模型:為基于不同時空語義條件下,構建的位置訪問序列, 所述位置訪問序列的表達式為:
[0014] ,Mil?? (lUj |t〇|,1j ^u, |Το|,2? ,lu, |To|, |Sk|) ^
[0015]其中,每個節點血衍(1_|,1,1_|,2,.",14。|,_)為用戶1!在第|1'〇|個語義時 間內位于位置1一一|Sk|個語義位置的訪問熱度分布,lu,|Tc]|, |SK|表示用戶U在第|τ〇|個 語義時間內對位置Sk的訪問熱度;
[0016](3)用戶相似性計算:所述用戶相似性的計算公式為:
[0017] DIS(u,v) =Σ〇εq[PoXDIS0(LVSu,LVSv)]
[0018] 其中,β。為第ο層時間尺度下的位置訪問差異權重值;LVSu、LVSv分別為第ο層 時間尺度時用戶u或ν在所有空間尺度上的位置分布訪問序列;DISJLVS^LVSJ表示兩用 戶在第〇層時間尺度時所有空間尺度上的差異值累積量。
[0019]進一步地,所述用戶u對位置s的訪問熱度為:
[0020]
[0021] 其中,I{u-s}表示訪問過s的用戶數量;
表示各用戶u訪問位置 s的概率;U為用戶集合;Ens(s)為位置熵。
[0022] 進一步地,所述位置熵Ens(s)的表達式為:
[0023]
[0024] 其中,aUis為用戶u訪問位置s的次數。
[0025] 更進一步地,所述步驟(3)的位置訪問差異權重值為:
[0026]
[0027] 其中,Q表示時間尺度的忍層數,1衣不弟1層町|B」K度。
[0028] 綜上所述,本發明相對現有技術的有益效果是:
[0029] (1)自適應的進行用戶活動時間的語義劃分,語義時間劃分更周全,較直接采用物 理時間來說,更能從社會人文角度體現用戶間的區別,同時降低了數據稀疏性帶來的問題。
[0030] (2)統一考慮了位置功能語義和地理因素對用戶相似性的影響,可獲取更多的用 戶興趣信息。
[0031] (3)妥當表達不同時段內位置訪問強度的方法,緩減了因位置記錄總數量級和用 戶記錄意愿差異導致的用戶位置訪問強度不符合現實的情況。考慮用戶在不同時間內的簽 到活躍程度和簽到數量差異,呈現了長時間上位置到達規律類似的、但位置到達時間差別 突出的用戶區別。表達用戶長時間內具有統計意義的位置訪問序列模式,更準確地描述用 戶社會移動特征。
[0032] (4)依據位置熱點計算公式,考慮了用戶之間在所有位置簽到總數的差異,可更加 準確描述用戶對各類型位置和區域的喜好水平。
[0033] (5)結合軌跡的物理時空鄰近性與語義時空相似性,進行社交網絡用戶相似性計 算,準確率更高;進而實現對社交網絡用戶群體的劃分,用戶分類效果更優。
【附圖說明】
[0034]圖1為社交網絡下的用戶相似性計算的原則流程圖。
【具體實施方式】
[0035] 以下將結合附圖和具體實施例,對本發明提供的技術方案進行說明。
[0036] 實施例1
[0037] 步驟1 :時空語義抽取
[0038] (1)多尺度空間語義
[0039] 利用Checkin數據中的VenueID作為參數,通過Foursquare的RESTAPI獲取 Checkin位置的Ρ0Ι名稱,從而得到該位置的最底層功能語義,如"WuhanUniversity",而 通