一種基于評論文本和評分分析的信息推薦方法
【技術領域】
[0001] 本發明屬于數據挖掘領域,尤其涉及一種基于評論文本和評分分析的信息推薦方 法。
【背景技術】
[0002] 推薦系統廣泛用于在線廣告投放、網絡購物平臺等Web應用領域。推薦系統通過 發現用戶喜好,幫助用戶發現感興趣的電影、音樂及各類商品;同時,也為在線廣告、商品 等更精確地鎖定目標人群。公知的推薦方法主要有兩種:基于內容過濾(content-based filtering)和協同過濾(collaborative filtering)。其中,基于內容過濾的推薦方法根據 用戶已購商品的特征屬性來推薦具有相似屬性的商品。然而,該方法推薦的商品種類較為 單一,且缺乏新意。協同過濾方法則按用戶瀏覽、評價商品等行為,推薦具有相似偏好的用 戶購買或喜愛的商品。
[0003] 隨著互聯網的發展,電子商務網站中出現大量用戶評論信息。用戶通過評論來表 達自己對商品的評價,交流購物心得。一條評論由評分和評論文本組成,評論文本包含豐富 的商品屬性描述信息,可看作評分的依據。然而,公知的協同過濾方法并未利用評論文本 進行推薦。另一方面,公知的評論分析方法涵蓋了主題發現、情感分析和觀點挖掘等領域, 可通過分析評論文本來預測評分。Qu等(Proc ofthe 23rd Int Confon Computational Linguistics. ACL,2010 :913-921)使用觀點相關詞表示一條評論,對觀點描述的屬性、闡 述觀點的形容詞和否定詞等進行訓練得到一個預測評分的線性模型;Ganu等(12th Int Workshop on the Web and Databases. 2009)對評分建模,得到輸入為商品屬性和對應觀點 正負性的評分預測公式。但這些方法只能分析出已有評論的評分,而無法預測用戶對未評 論商品的評分,因此不適用于推薦系統。
[0004] 公知的結合評分和評論文本的推薦方法有McAuley等(Proc ofthe 7thACM Confon Recommender Systems. ACM,2013 :165-172)提出的 HFT(Hidden Factors as Topics),即通過結合評分的隱藏因子和評論文本的評論主題產生商品/用戶檔案,并使用 SVD模型預測評分。然而,該方法中評論文本每次只和商品/用戶中的一個維度關聯,也就 是說評論主題只反映了影響評分的一個維度,另一維度則人為地與其保持一致。
[0005] 因此,為了克服上述缺陷,本發明提出了一種基于評論文本和評分分析的信息推 薦方法,以發現評分與評論文本間的潛在關系為出發點,挖掘評論文本中的評論主題以及 評論在主題上的分布,并在此基礎上生成用戶檔案和評論對象檔案,從而預測用戶對未評 論對象的評分,顯著增強了推薦信息與用戶偏好之間的潛在關聯。
【發明內容】
[0006] 本發明提出了一種基于評論文本和評分分析的信息推薦方法,包括如下步驟:
[0007] 步驟一:獲得評論文本的集合,所述集合包括一個以上用戶分別對于一個以上已 評論對象做出的評論文本,從所述集合中挖掘得到每一條評論文本關于已評論對象的多個 評論主題以及所述評論文本關于各評論主題的分布數據。步驟二:根據所述每一條評論文 本的分布數據生成用戶檔案和評論對象檔案;所述用戶檔案是指用戶在各評論主題的分布 數據,所述評論對象檔案是指已評論對象在評論主題的分布數據。步驟三:建立評分預測模 型,將所述評論文本的分布數據輸入所述評分預測模型,直至所述評分預測模型輸出的預 測評分與用戶在評論文本中做出的實際評分之間的差異在閾值內則停止輸入,完成對所述 評分預測模型的訓練。步驟四:對于一個用戶,根據所述用戶的用戶檔案和評論對象檔案估 計所述用戶的評論文本關于未評論對象的分布數據,向所述評分預測模型輸入所述分布數 據以預測所述用戶關于未評論對象的評分,根據所述評分的高低向用戶推薦所述未評論對 象的信息。
[0008] 本發明提出的所述基于評論文本和評分分析的信息推薦方法中,在所述步驟一 中,使用LDA文本模型挖掘每一條評論文本的評論主題,并且使用LDA文本模型得到所述評 論文本關于所述評論主題的分布數據。
[0009] 本發明提出的所述基于評論文本和評分分析的信息推薦方法中,在所述步驟二 中,所述用戶檔案以如下公式表示:
[0011] 其中,pu表示用戶U的用戶檔案,pu]表示用戶u在第j個評論主題上的分布數據, Σ i Θ ui]表示用戶u對于已評論對象i的評論文本中關于第j個評論主題的分布數據的和, |D U|表示用戶u的評論總數,p' u]表示用戶u的評論文本中關于第j個評論主題的分布數 據的均值,K表示評論主題的總數。
[0012] 本發明提出的所述基于評論文本和評分分析的信息推薦方法中,在所述步驟二 中,所述評論對象檔案以如下公式表示:
[0014] 其中,qi表示第j個已評論對象的評論對象檔案,qij表示第i個已評論對象第j 個評論主題上的分布數據,Σ u Θ U1]表示第i個已評論對象關于第j個評論主題的分布數據 的和,也」表示第i個已評論對象的評論總數,q' ^表示第i個已評論對象的評論文本中 關于第j個評論主題的分布數據的均值,K表示評論主題的總數。
[0015] 本發明提出的所述基于評論文本和評分分析的信息推薦方法中,在所述步驟三 中,建立線性回歸模型,用于表示分布數據和預測評分之間的關聯,利用所述線性回歸模型 進行預測的評分以如下公式表示:
[0016]
[0017] 其中,Θ ui表示用戶u關于已評論對象i的評論文本的主題分布數據,匕表示用戶 u關于已評論對象i的模型預測評分,W表示評論主題的權重向量,Wi表示第j個評論主題 的權重,j e [1,K],WT表示W的轉置矩陣,ε U1表示誤差變量。
[0018] 本發明提出的所述基于評論文本和評分分析的信息推薦方法中,在所述步驟三 中,建立邏輯回歸模型,用于表示分布數據和預測評分之間的多元關聯,利用所述邏輯回歸 模型進行預測的評分以如下公式表示:
[0019]
[0020] 其中,Θ ui表示用戶u關于已評論對象i的評論文本的分主題布數據,β η = ( β nl, β n2···,β nK)是.? = S時的主題權重向量,.表示:? 時e的心」欠方,Pr(/;, =#)表示rM =ΛΓ 的概率,Ν表示評分的最大值。
[0021] 本發明提出的所述基于評論文本和評分分析的信息推薦方法中,在所述步驟四 中,所述用戶的評論文本關于未評論對象的分布數據以如下公式表示:
[0022]
[0023] 其中,Θ ' mj表示用戶u與未評論對象i在第j個評論主題上的分布數據的乘 積,Pu]表示用戶u在第j個評論主題上的分布數據, qi]表示未評論對象i第j個評論主題 上的分布數據,&表示用戶u的評論文本關于未評論對象i在第j個評論主題上的分布數 據,j表示第j個評論主題,K表示評論主題的總數,j表示未評論對象。
[0024] 本發明提出的所述基于評論文本和評分分析的信息推薦方法中,所述步驟四進一 步包括:對于推薦的所述未評論對象的信息做進一步衡量與篩選,從中獲取更高相關程度 的評論文本同時發送給用戶。
[0025] 本發明提出的所述基于評論文本和評分分析的信息推薦方法中,對于一個未評論 對象,計算其評論文本中評論主題與所述未評論對象的相關程度,所述相關程度以如下公 式表不:
[0027] 其中,d(rul,i)表示評論主題與未評論對象i的相關程度,| | 0ui-qi| |2表示0ui-qi 的2-范數,即II=〔Σ,|~ if)那么 θ ui表示用戶U關于未評論對象i的評論文本的分布數據,