一種基于內容環境增強的用戶事件相關度計算方法
【技術領域】
[0001] 本發明涉及一種計算機語言內容處理方法,尤其涉及計算機自然語言處理領域的 一種基于內容環境增強的用戶事件相關度計算方法。
【背景技術】
[0002] 話題模型是一種在文檔集合中提取抽象話題的統計學方法。隱含狄利克雷分布 (LatentDirichletallocation,LDA)是一種常用的主題模型,它以詞袋模型為前提,即一 篇文檔是由一組詞構成的集合,詞與詞之間沒有順序以及先后的關系。一篇文檔可以包含 多個話題,文檔中的每一個詞則由其中的某一個話題生成。LDA方法可以將文檔集合中每篇 文檔的話題以概率分布的形式生成,并且每個話題也能以詞語分布的形式來描述。由于通 常話題的數量遠遠小于詞的數量,因此主題模型還可以用來進行文本對象的降維,以優化 文本處理的效果。
[0003] 協同過濾是推薦系統中的一種重要方法,被廣泛應用于眾多商業系統中。協同過 濾利用興趣相似、擁有共同經驗的其他用戶對某個對象的評分,來預測目標用戶對該對象 的喜好程序。協同過濾可以分為基于用戶的方法、基于對象的方法和基于模型的方法。協 同過濾方法依賴于用戶針對對象的歷史評分信息,因此對于一個新加入系統的對象,只有 當足夠的用戶對其進行評分后,推薦系統才能推薦出該對象。
[0004] 學習排序是在構建信息檢索系統的排序模型時的一種機器學習方法,并被廣泛應 用于許多領域,如文檔獲取、推薦系統、情感分析和廣告投放等。在推薦系統中,學習排序是 一種重要的排序方法。學習排序針對被推薦的用戶、所要推薦的對象和推薦任務學習特定 的排序模型。在用戶和推薦對象之間定義多項特征,訓練數據是這些特征向量的列表的集 合,每個列表中的向量之間具有特定的順序。排序模型的目標是對于新的對象產生的向量 組成的列表,能夠以訓練集中相似的方式產生對象的排列。學習排序方法分為逐點方法、逐 對方法以及逐列方法。
[0005] 社交事件不同于傳統的推薦內容,每一個待推薦的事件都還未發生,因此是一個 新對象。已有的推薦方法不能很好地解決這類新對象的推薦問題。另一方面,事件社交網 絡中包含了用戶之間線上和線下的雙重社交關系,需要同時考慮這兩種社交關系對用戶和 事件之間相關度的影響。本發明以用戶和事件的內容為核心,充分挖掘內容環境相關的多 種信息,提供了用戶事件相關度的計算方法,并解決了社交事件推薦的問題。
【發明內容】
[0006] 本發明的目的在于針對現有技術的不足,提供了一種基于內容環境增強的用戶事 件相關度計算方法,其中包含有話題模型方法、推薦系統領域的協同過濾方法以及機器學 習領域的學習排序方法,很好地解決計算機語言處理中社交事件推薦這類對象計算的技術 問題。
[0007] 本發明解決其技術問題采用的技術方案如下:
[0008] 1)由單個用戶的描述信息和單個社交事件的描述信息分別組成文本形式的用戶 檔案和社交事件檔案,利用話題模型將用戶檔案和社交事件檔案降低維度轉化成話題分布 向量;通過比較一個用戶檔案和一個社交事件檔案的話題分布,計算得到該用戶檔案和該 社交事件檔案對應下的用戶偏好特征;
[0009] 2)將用戶偏好特征作為用戶參加所對應事件的概率,利用該概率對該事件進行計 算,采用基于協同過濾方法分別提取線上、線下社交影響特征;
[0010] 3)根據用戶所在地舉辦的所有事件,得到該城市的當地興趣的話題分布,通過計 算事件和當地興趣的話題分布的相似度來得到事件對于用戶的本地流行度特征;即通過計 算事件4和用戶ui所在城市的當地興趣之間的話題相似度,作為事件^的本地流行度特 征。
[0011] 4)由步驟1)?步驟3)中得到的各個特征通過訓練學習排序模型,得到用戶事件 相關度,以對用戶進行事件推薦。
[0012] 所述的用戶檔案包括用戶的描述信息以及該用戶已參加過的社交事件的描述信 息。
[0013] 所述的用戶的描述信息和社交事件的描述信息均為由關鍵詞構成的集合,用戶的 描述信息為用戶自己選擇的興趣關鍵詞集合,社交事件的描述信息為社交事件的屬性關鍵 詞集合。
[0014] 本發明通過事件的內容信息,即名字和描述來構建事件4的檔案,該檔案是以文 本的形式表示,即一個詞的集合。用戶Ui的檔案則由兩部分組成:用戶自己選擇的興趣關 鍵詞以及他已參加過的社交事件,這樣用戶檔案便同時包含了用戶的自我評價和過往的行 為。
[0015] 然后,對用戶和事件的檔案進行比較,以得到用戶和事件的相似度。但是,由于文 本內容的高維度和稀疏性,直接對文本形式的檔案之間計算相似度效果不好。因此,步驟1) 的用戶偏好特征采用以下方式計算得到:
[0016] 采用話題模型中的LDA方法將文本形式的用戶檔案和社交事件檔案分別轉化成 用戶話題分布貧和社交事件話題分布%,Ui表示第i個用戶,^表示第j個社交事件,然 后采用以下公式計算用戶偏好特征Pref(Ui,ej):
[0017]
【主權項】
1. 一種基于內容環境增強的用戶事件相關度計算方法,其特征在于,該方法的步驟如 下: 1) 由單個用戶的描述信息和單個社交事件的描述信息分別組成文本形式的用戶檔案 和社交事件檔案,利用話題模型將用戶檔案和社交事件檔案降低維度轉化成話題分布;通 過比較一個用戶檔案和一個社交事件檔案的話題分布,計算得到該用戶檔案和該社交事件 檔案對應下的用戶偏好特征; 2) 將用戶偏好特征作為用戶參加所對應事件的概率,利用該概率對該事件進行計算, 采用基于協同過濾方法分別提取線上、線下社交影響特征; 3) 根據用戶所在城市舉辦的所有事件,得到該城市的當地興趣的話題分布,通過計算 事件和當地興趣的話題分布的相似度來得到事件對于用戶的本地流行度特征; 4) 由步驟1)?步驟3)中得到的各個特征通過訓練學習排序模型,得到用戶事件相關 度。
2. 根據權利要求1所述的一種基于內容環境增強的用戶事件相關度計算方法,其特征 在于:所述的用戶檔案包括用戶的描述信息以及該用戶已參加過的社交事件的描述信息。
3. 根據權利要求1所述的一種基于內容環境增強的用戶事件相關度計算方法,其特征 在于:所述的用戶的描述信息和社交事件的描述信息均為由關鍵詞構成的集合,用戶的描 述信息為用戶自己選擇的興趣關鍵詞集合,社交事件的描述信息為社交事件的屬性關鍵詞 集合。
4. 根據權利要求1所述的一種基于內容環境增強的用戶事件相關度計算方法,其特征 在于:所述的步驟1)的用戶偏好特征采用以下方式計算得到: 采用話題模型中的LDA方法將文本形式的用戶檔案和社交事件檔案分別轉化成用戶 話題分布%和社交事件話題分布%W表示第i個用戶,h表示第j個社交事件,然后采 用以下公式計算用戶偏好特征Pref(Upe」):
其中,g和%分別是用戶檔案和事件檔案下的話題分布,M是用戶話題分布&am