查表法 對無用信息進行過濾降低微博信息的噪。
[0053] 在本實施例中,進行去重是考慮到不同類別可能包含相同的關鍵字,重復數據刪 除功能是必要的,W減少冗余的手動操作的過程。
[0054] 在本實施例中,所述步驟S3中的高斯混合模型的定義表示為一個線性疊加的高 斯模型,如公式(1)所示: W對
《1) 陽056] 其中,高斯密度N(x|iik,Sk)為一混合組件,其均值為iik,其協方差為Sk,Kk為 混合系數;對公式(1)的兩邊關于X求積分,并標準化p(x)和單個高斯組件,可得公式(2) 如下: 陽057]
(落) 陽化引由于要求P(X) >0,N(xIyk,Zk) >0,則n0 ;
[0059] 結合公式似,可到得到公式做:
[0060] 0《31 1 做
[0061] 因此,混合系數滿足成為概率的條件,根據加乘原理,可得到邊際密度如公式(4) 所示: 柳創
(4)
[006引所述公式(4)相當于公式(1),其中,3ik=p(k),是第k個元素的先驗概率,密度N(x|iik,Sk) =p(x|k)是k條件下X的概率;因此,根據貝葉斯定理,生成下列公式巧):
[0064] (5) W65] 假定需要進行預測的特征向量數據集為{xi,……,xj,將所述數據集表示為一個 NXD矩陣X,其中,x"T表示第N行湘應的隱形隨機變量采用一個用Z"T表示行的NXK矩陣Z表不;
[0066] 則高斯混合分布的形可由參數31,y和S控制的,其中31S{>1,…,Jij, yS{>1,…,iikKSS{Si,…,2k};執行最大似然估計后,所述公式(1)轉化為如下公 式做:
[0067] (65 W側其中X={xi,……,刮}。 W例在本實施例中,所述步驟S4具體包括W下步驟:
[0070] 步驟S41 :采用EM算法,初始化均值yk,協方差Sknk和混合系數nk,并評估初 始對數似然估計函數值;
[0071] 步驟S42 :采用W下公式(7)估計隱含類別變量:
[0072] 巧)
[007引步驟S43 :采用W下公式做、公式巧)、公式(10)W及公式(12)進行參數更新:
[0079] 步驟S44 :采用W下公式(12)評估對數似然估計函數值
[0080] (12)
[0081] 若所述公式(12)不滿足收斂準則,則返回所述步驟S42。
[0082]W上所述僅為本發明的較佳實施例,凡依本發明申請專利范圍所做的均等變化與 修飾,皆應屬本發明的涵蓋范圍。
【主權項】
1. 一種基于高斯混合模型的社交網絡用戶興趣預測方法,其特征在于:包括以下步 驟: 步驟Sl :從社交網絡中獲取用戶數據; 步驟S2 :對獲取的用戶數據進行特征向量提取,生成一系列的特征向量; 步驟S3 :采用高斯混合模型構建預測模型; 步驟S4 :采用EM算法優化參數并計算預測結果。2. 根據權利要求1所述的一種基于高斯混合模型的社交網絡用戶興趣預測方法,其特 征在于:所述步驟Sl具體為:獲取p個微博用戶發表或轉發的微博信息作為訓練數據,獲 取q個微博用戶發表或者轉發的微博信息作為測試數據,獲取r個熱門微博類別以及每個 熱門微博類別中的s條熱門微博。3. 根據權利要求1所述的一種基于高斯混合模型的社交網絡用戶興趣預測方法,其特 征在于:所述步驟S2具體為:對熱門微博進行預處理,所述預處理包括分詞、詞頻統計和去 重,可得出t個熱門關鍵詞作為熱門微博類的興趣特征值,從而生成r個t維的熱門微博特 征向量;同時以微博用戶為單位,對所述訓練數據,測試數據進行預處理,包括中文分詞、停 用詞處理以及詞頻統計;再根據所述r個t維的熱門微博特征向量,從微博用戶發表或轉發 的微博信息中提取該用戶對應的t個興趣特征值,轉換為該微博用戶的特征向量。4. 根據權利要求3所述的一種基于高斯混合模型的社交網絡用戶興趣預測方法,其特 征在于:所述中文分詞的方法為:采用中文分詞系統,結合自定義用戶詞典對微博星系進 行分詞;所述停用詞處理的方法為:采用HashMap快速索引查表法對無用信息進行過濾降 低微博信息的噪音。5. 根據權利要求1所述的一種基于高斯混合模型的社交網絡用戶興趣預測方法,其 特征在于:所述步驟S3中的高斯混合模型的定義表示為一個線性疊加的高斯模型,如公式 (1)所示:其中,高斯密度N(x I μ k, Σ1〇為一混合組件,其均值為μ k,其協方差為Xk,Jik為混合 系數;對公式(1)的兩邊關于X求積分,并標準化P(X)和單個高斯組件,可得公式(2)如 下:由于要求 P(X)彡 〇, N(x| yk, Σ10 彡 0,則 JT 〇 ; 結合公式(2),可到得到公式(3): 1 (3) 因此,混合系數滿足成為概率的條件,根據加乘原理,可得到邊際密度如公式(4)所 示:所述公式⑷相當于公式(I),其中,JTk= P(k),是第k個元素的先驗概率,密度 N(x| yk, Σ1〇 = p(x|k)是k條件下X的概率;因此,根據貝葉斯定理,生成下列公式(5):假定需要進行預測的特征向量數據集為Ix1,……,xN},將所述數據集表示為一個NXD 矩陣X,其中,χητ表示第N行;相應的隱形隨機變量采用一個用z ητ表示行的NXK矩陣Z表 示; 則高斯混合分布的形可由參數:π,μ和Σ控制的,其中π = {> …,π k}, μ = {μι,…,yk},Σ = (X1,…,;執行最大似然估計后,所述公式⑴轉化為如下公 式(6):其中 X = U1,......,xN}。6.根據權利要求1所述的一種基于高斯混合模型的社交網絡用戶興趣預測方法,其特 征在于:所述步驟S4具體包括以下步驟: 步驟S41 :采用EM算法,初始化均值μ k,協方差Xk Jik和混合系數π k,并評估初始對 數似然估計函數值; 步驟S42 :采用以下公式(7)估計隱含類別變量:步驟S43 :采用以下公式(8)、公式(9)、公式(10)以及公式(12)進行參數更新:步驟S44 :采用以下公式(12)評估對數似然估計函數值若所述公式(12)不滿足收斂準則,則返回所述步驟S42。
【專利摘要】本發明涉及一種基于高斯混合模型的社交網絡用戶興趣預測方法,包括以下步驟:步驟S1:從社交網絡中獲取用戶數據;步驟S2:對獲取的用戶數據進行特征向量提取,生成一系列的特征向量;步驟S3:采用高斯混合模型構建預測模型;步驟S4:采用EM算法優化參數并計算預測結果。本發明采用高斯混合模型,以實現更高的預測精度,縮短使用時間,有效預測用戶的短期興趣。
【IPC分類】G06F17/30, G06Q50/00
【公開號】CN105183909
【申請號】CN201510646248
【發明人】鄭相涵, 賴太平, 郭文忠
【申請人】福州大學
【公開日】2015年12月23日
【申請日】2015年10月9日