一種基于數據挖掘技術的微博推薦方法及裝置的制造方法
【技術領域】
[0001] 本發明涉及計算機科學及網絡技術領域,特別是涉及一種微博推薦方法的數據挖 掘技術。
【背景技術】
[0002] 微博網站每天都會發布數據量非常之多的微博,尤其是大型網站的用戶訪問量多 達億級別,而且信息更新速度非常快,對微博的時效性也有很高的要求。網站針對這種情 況,首要選擇就是實施微博推薦,快速有效的找到用戶感興趣的微博,獲取用戶想要了解的 信息。
[0003] 現有技術中,推薦方法主要分為三種:第一種是基于內容過濾,基于內容過濾的推 薦系統通過比較項(商品)之間的相似性而不是用戶之間的相似性實現推薦功能;第二種是 基于協同過濾,基于協同過濾技術的電子商務推薦系統并不分析商品之間的相似性,而是 學習目標用戶和歷史用戶之間行為的相似性,而不依賴商品的特征,從而根據相似歷史用 戶的行為生成推薦結果;第三種是混合型,結合使用前面兩種技術,盡量利用它們的優點而 避免其缺點,提高推薦系統的性能和推薦質量。
[0004] 但是在上述現有技術中,基于內容過濾,只能考慮到微博的相似性而不能考慮到 微博的時效性,所以推薦效果不理想;基于協同過濾,必須是鑒于訪問記錄而進行的推薦, 對時效性要求較高的微博推薦而言,只推薦被訪問過的熱門微博,故在協同過濾中,就會生 成已過期的熱門微博。
【發明內容】
[0005] 本發明的目的在于提供一種基于數據挖掘技術的微博推薦方法及裝置,克服現有 技術中針對微博上現有的大量微博信息不能有效合理地推薦給相關用戶的難題,,以實現 能夠通過數據挖掘技術,匹配相關類別的微博和用戶,并根據相關性給用戶有效的推薦意 見。
[0006] 為了解決以上技術問題,本發明采用的具體技術方案如下:
[0007] -種基于數據挖掘技術的微博推薦方法,其特征在于包括以下步驟:
[0008] 步驟一,將微博按照內容進行分類
[0009] 通過KNN分類算法,將微博按照內容進行分類。按照內容可分為情感類、社會類、明 星類、財經類、體育類、科技類、軍事類、教育類、游戲類;
[0010]步驟二,獲取預置時間段內選定用戶對各類微博的點擊量,并根據各類微博的該 所述點擊量,計算得到所述用戶在所述時間段內的微博興趣模型;
[0011]根據各類微博的所述點擊量,通過貝葉斯全概率公式計算得到所述用戶在所述時 間段內的微博興趣模型。根據所述用戶在所述時間段的微博興趣模型,加權平均計算得到 所述用戶在包含多個所述時間段的當天24小時的最終微博興趣模型;
[0012]步驟三,按照所述最終微博興趣模型聚類所有用戶,并根據所述最終微博興趣模 型確定向聚類后的各類用戶推薦的微博候選集;
[0013] 將對微博的興趣向量相似的用戶聚成一個用戶類,向屬于同一個聚類的用戶推薦 相同的微博,具體采用鑒于K均值算法的MapReduce模型實現用戶聚類,根據預置時間段內 最終微博興趣模型得到微博候選集;
[0014] 步驟四,將所述微博候選集中的微博推薦給所述用戶
[0015] 將所述微博候選集中的微博按照一定的規則推薦給用戶,根據用戶興趣標簽推薦 相關類別的微博。規則為:在相關類別中,將所述微博候選集中的微博按照權重值進行降序 排列,并按照排列的先后順序向所述用戶推薦微博。
[0016] -種基于數據挖掘技術的微博推薦裝置,其特征在于:包括微博分類模塊,興趣建 模模塊,用戶聚類模塊,候選集確定模塊,微博推薦模塊;
[0017] 所述微博分類模塊,用于將微博按照內容進行分類;興趣建模模塊,獲取預置時間 段內選定用戶對各類微博的點擊量,并根據各類微博的該所述點擊量,計算得到所述用戶 在所述時間段內的微博興趣模型;用戶聚類模塊,用于按照所述最終微博興趣模型聚類各 用戶;候選集確定模塊,根據所述最終微博興趣模型確定向聚類后的各類用戶推薦的微博 候選集;微博推薦模塊,用于將所述微博候選集中的微博推薦給所述用戶。本發明的工作過 程為:將發布微博按照內容在微博分類模塊中進行分類,獲得微博類別;獲取預置時間段內 選定用戶對各類微博的點擊量,并根據各類微博的該所述點擊量,在興趣建模模塊中計算 得到所述用戶在所述時間段內的微博興趣模型;在用戶聚類模塊中將對微博的興趣向量相 似的用戶聚成一個用戶類,向屬于同一個聚類的用戶推薦相同的微博;根據所述最終微博 興趣模型,在候選集確定模塊中確定向聚類后的各類用戶推薦的微博候選集;最后在微博 推薦模塊中將所述微博候選集中的微博推薦給用戶。
[0018] 本發明具有有益效果。本發明通過采用數據挖掘技術,使得微博推薦方法及裝置 更加準確有效。具體體現在:通過KNN分類方法,用較低的代價得到高效的分類結果;用貝葉 斯全概率公式計算微博興趣模型,在推薦的實時性方面得到提升;用K均值聚類方法,對所 有用戶進行有效聚類。
【附圖說明】
[0019] 圖1是本發明的摘要附圖;
[0020] 圖2是本發明的實施流程圖;
[0021 ]圖3是本發明的裝置示意圖;
[0022]圖3中:1、微博分類模塊;2、興趣建模模塊;3、用戶聚類模塊;4、候選集確定模塊; 5、微博推薦模塊。
【具體實施方式】
[0023]下面結合附圖對本發明的【具體實施方式】進行詳細闡述,以使本發明的優點和特征 更容易被本領域技術人員理解,從而對本發明的保護范圍做出更為清楚明確的界定。
[0024] 實施例一:
[0025] 本發明提供了一種基于數據挖掘的微博推薦方法,其實施流程如圖2所示,包括如 下步驟:
[0026] 步驟一,將微博根據內容進行分類。
[0027] 按照內容可分為情感類、社會類、明星類、財經類、體育類、科技類、軍事類、教育 類、游戲類。
[0028] 具體地,可通過多項式模型的KNN分類算法來對微博進行分類,其優點在于,重新 訓練的代價較低,而且簡單有效,另外該算法比較適用于樣本容量比較大的類域的自動分 類,由于KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別 的,因此對于類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合。對 微博分類的主要目的是實現對各認證微博或者公眾號微博以及熱門微博的自動分類,分類 結果用來分析用戶興趣,將按照內容分類得到的類別作為描述用戶興趣的參照。
[0029]步驟二,獲取預置時間段內選定用戶對各類微博的點擊量,并根據各類微博的該 所述點擊量,計算得到所述用戶在所述時間段內的微博興趣模型。
[0030] 下面建立選定用戶的微博興趣模型,微博興趣模型指的是用戶和用戶所感興趣的 微博之間相互對應的關系,即,用戶對各類微博的微博興趣度,獲取某時間段內用戶對各類 微博的點擊量,并根據所述點擊量,計算得到選定用戶在所述時間段內的微博興趣模型。
[0031] 其中,選定用戶作為訓練集,為了能夠代表微博用戶的真實使用情況,采用隨機抽 樣的方法來選定,則得到所述選定用戶在某時間段的微博興趣模型就是全體用戶