基于高斯混合模型的社交網絡用戶興趣預測方法
【技術領域】
[0001] 本發明設及社交網絡信息分析技術領域,特別是一種基于高斯混合模型的社交網 絡用戶興趣預測方法。
【背景技術】
[0002] 信息的快速擴散和社交網絡的便利方便大量用戶分享他們的日常活動,交換意 見,或與他人建立友誼。一份報告顯示,在2017年底,全球社交網絡用戶的數量估計有23. 3 億。因此,有效的特征學習和興趣預測不僅對用戶(如尋找有相似興趣的用戶),還同樣對 服務提供者(如在一組應用場景中分析用戶行為從而進行個性化推薦)具有重要的意義。
[0003] 然而,鑒于社交數據的特征(如數量巨大、多樣性、數據價值高低不一等),高精度 地預測用戶興趣,同時保證計算復雜性和延遲在可接受的范圍內是很困難的。此外,用戶興 趣特征中,短期興趣可能會動態改變(如受朋友影響)。因此,提出基于高斯混合模型的社 交網絡用戶興趣預測方法,它能夠有效預測用戶的短期興趣。
【發明內容】
[0004] 有鑒于此,本發明的目的是提供一種基于高斯混合模型的社交網絡用戶興趣預測 方法,W實現更高的預測精度,縮短使用時間,有效預測用戶的短期興趣。 陽〇化]本發明采用W下方案實現:一種基于高斯混合模型的社交網絡用戶興趣預測方 法,包括W下步驟:
[0006] 步驟S1 :從社交網絡中獲取用戶數據;
[0007] 步驟S2 :對獲取的用戶數據進行特征向量提取,生成一系列的特征向量;
[0008] 步驟S3 :采用高斯混合模型構建預測模型;
[0009] 步驟S4 :采用EM算法優化參數并計算預測結果。
[0010] 進一步地,所述步驟S1具體為:獲取P個微博用戶發表或轉發的微博信息作為訓 練數據,獲取q個微博用戶發表或者轉發的微博信息作為測試數據,獲取r個熱口微博類別 W及每個熱口微博類別中的S條熱口微博。
[0011] 進一步地,所述步驟S2具體為:對熱口微博進行預處理,所述預處理包括分詞、詞 頻統計和去重,可得出t個熱口關鍵詞作為熱口微博類的興趣特征值,從而生成r個t維的 熱口微博特征向量;同時W微博用戶為單位,對所述訓練數據,測試數據進行預處理,包括 中文分詞、停用詞處理W及詞頻統計;再根據所述r個t維的熱口微博特征向量,從微博用 戶發表或轉發的微博信息中提取該用戶對應的t個興趣特征值,轉換為該微博用戶的特征 向量。
[0012] 較佳的,所述中文分詞的方法為:采用中文分詞系統,結合自定義用戶詞典對微博 星系進行分詞;所述停用詞處理的方法為:采用化shMap快速索引查表法對無用信息進行 過濾降低微博信息的噪音。
[0013] 進一步地,所述步驟S3中的高斯混合模型的定義表示為一個線性疊加的高斯模 型,如公式(1)所示:
[0014]
(1) 陽015] 其中,高斯密度N(x|iik,Sk)為一混合組件,其均值為iik,其協方差為Sk,Kk為 混合系數;對公式(1)的兩邊關于X求積分,并標準化p(x)和單個高斯組件,可得公式(2) 如下:
[0016]
(2)
[0017]由于要求p(x) >0,N(x|jik,Xk)>0,則0;
[0018] 結合公式(2),可到得到公式(3):
[0019] 0《3ik《l做
[0020] 因此,混合系數滿足成為概率的條件,根據加乘原理,可得到邊際密度如公式(4) 所示:
(如
[00巧所述公式(4)相當于公式(1),其中,3ik=p(k),是第k個元素的先驗概率,密度N(x|iik,Sk) =p(x|k)是k條件下X的概率;因此,根據貝葉斯定理,生成下列公式巧):
[0023] (5)
[0024] 假定需要進行預測的特征向量數據集為1x1,……,xj,將所述數據集表示為一個 NXD矩陣X,其中,x"T表示第N行湘應的隱形隨機變量采用一個用z"T表示行的NXK矩陣 Z表不;
[0025] 則高斯混合分布的形可由參數31,y和S控制的,其中31S{>1,…,31J, y= {>1,…,yj,S= (Si,…,2,};執行最大似然估計后,所述公式(1)轉化為如下公 式化):
[0026] ^6) 陽027]其中X= {xi,......,XfJ。
[0028] 進一步地,所述步驟S4具體包括W下步驟:
[0029] 步驟S41 :采用EM算法,初始化均值yk,協方差Sknk和混合系數nk,并評估初 始對數似然估計函數值;
[0030] 步驟S42 :采用W下公式(7)估計隱含類別變量:
[0031]
巧)
[0032] 步驟S43:采用W下公式(8)、公式巧)、公式(10)W及公式(12)進行參數更新:
[0038] 步驟S44 :采用W下公式(12)評估對數似然估計函數值
[0039] (12) W40] 若所述公式不滿足收斂準則,則返回所述步驟S42。
[0041] 與現有技術相比,本發明采用高斯混合模型,對社交網絡用戶興趣可實現更高的 預測精度,縮短使用時間,有效預測用戶的短期興趣。
【附圖說明】
[0042] 圖1為本發明的方法流程圖。
[0043] 圖2為本發明中的興趣預測的系統框架圖。
【具體實施方式】
[0044] 下面結合附圖及實施例對本發明做進一步說明。
[0045] 本實施例提供一種基于高斯混合模型的社交網絡用戶興趣預測方法,如圖1和圖 2所示,包括W下步驟:
[0046] 步驟S1 :從社交網絡中獲取用戶數據;
[0047] 步驟S2:對獲取的用戶數據進行特征向量提取,生成一系列的特征向量;
[0048] 步驟S3 :采用高斯混合模型構建預測模型;
[0049] 步驟S4 :采用EM算法優化參數并計算預測結果。
[0050] 在本實施例中,所述步驟S1具體為:獲取P個微博用戶發表或轉發的微博信息作 為訓練數據,獲取q個微博用戶發表或者轉發的微博信息作為測試數據,獲取r個熱口微博 類別W及每個熱口微博類別中的S條熱口微博。
[0051] 在本實施例中,所述步驟S2具體為:對熱口微博進行預處理,所述預處理包括分 詞、詞頻統計和去重,可得出t個熱口關鍵詞作為熱口微博類的興趣特征值,從而生成r個t 維的熱口微博特征向量;同時W微博用戶為單位,對所述訓練數據,測試數據進行預處理, 包括中文分詞、停用詞處理W及詞頻統計;再根據所述r個t維的熱口微博特征向量,從微 博用戶發表或轉發的微博信息中提取該用戶對應的t個興趣特征值,轉換為該微博用戶的 特征向量。
[0052] 在本實施例中,較佳的,所述中文分詞的方法為:采用中文分詞系統,結合自定義 用戶詞典對微博星系進行分詞;所述停用詞處理的方法為:采用化shMap快速索引