一種基于tmpp模型的摘要生成方法
【專利摘要】本發明公開了一種基于TMPP模型的摘要生成方法,其特征在于:該方法將標準的LDA中表示文檔?主題的參數θ擴展為(aspect,rating)集,使用基于短語參數學習的主題模型TMPP對aspect和rating同時建模,并引入潛在聚類變量c表示領域先驗知識,以指導模型產生質量更好的方面,本發明采用TMPP模型生成(aspect,rating)摘要,保證了挖掘主題的質量,有效地克服了LDA無指導式的學習方式,避免了無意義主題產生的現象。
【專利說明】
一種基于TMPP模型的摘要生成方法
技術領域
[0001]本發明涉及數據挖掘領域,特別是涉及一種基于TMPP模型的摘要生成方法。
【背景技術】
[0002]目前,標準的主題模型LDA(Latent Dirichlet Allocation)能實現在線評論中某 一主題和與之相關的情感等級的同時預測,因而,LDA自然就成為能廣泛使用于在線評論行 挖掘領域中產生(aspect,rat ing)摘要的方法。
[0003] 標準的主題模型LDA常用"詞袋"表示在線評論文本,把評論視為潛在主題的集合, 每個潛在主題又當作是詞聚類的集合,它提供了一種挖掘在線評論中被評價實體摘要的通 用方法。但該模型的研究重心是將識別的方面按情感進行分類,然而,產生(aspect, rating)(方面,等級)摘要的目標是嘗試從同一被評價實體的評論集合中推斷出被評價實 體的方面(aspect)和與其相關的情感等級(rating)。因而,針對該問題不能直接使用LDA模 型,另一方面,由于標準的主題模型LDA是一種無監督的主題模型,所以輸出的主題質量往 往不高,這就要求為主題模型提供一些先驗領域知識,指導模型產生更好的主題。
【發明內容】
[0004] 為克服上述現有技術存在的不足,本發明之目的在于提供一種基于TMPP模型的摘 要生成方法,通過使用"短語袋"表示評論,將標準的LDA中表示文檔-主題的參數0擴展為 (aspect,rating)集,使用基于短語參數學習的主題模型TMPP(Topic Model based on Phrase Parameter,基于短語參數的主題模型)對aspect和rating同時建模,以減少錯誤累 積,并引入潛在聚類變量c表示領域先驗知識,指導模型產生質量更好的方面。
[0005] 為達上述及其它目的,本發明提出一種基于TMPP模型的摘要生成方法,該方法將 標準的LDA中表示文檔-主題的參數0擴展為(asp ect,rating)集,使用基于短語參數學習的 主題模型TMPP對aspect和rating同時建模,并引入潛在聚類變量c表示領域先驗知識,以指 導模型產生質量更好的方面。
[0006] 進一步地,該方法包括如下步驟:
[0007] 步驟一,利用整合了領域先驗知識的TMPP模型尋找被評價實體中語義上更連貫的 各個方面;
[0008] 步驟二,通過聚類算法對相同聚類的等級預測對數量和不同聚類的等級預測對數 量進行分類。x表示相同聚類的等級預測對數量,y表示不同聚類的等級預測對數量;
[0009] 步驟三,引用等級預測的聚類相似度的度量標準公式來預測等級相似度值;
[0010] 步驟四,獲取被評價實體的評論摘要表。
[0011] 進一步地,于步驟一之前,還包括引入潛在聚類變量c生成該TMPP模型的步驟。
[0012] 進一步地,該TMPP模型使用一個潛在聚類變量c連接潛在方面a和被觀察詞t。
[0013] 進一步地,假設該TMPP模型的輸入是N篇評論,T個方面,C個聚類,每一篇評論有M 個短語,P用隨機變量也對p(cluster | aspect)分布建模,也是服從參數為0的Dirichlet分布, 用隨機變量.夢對口(1:|38口6〇1:,〇1118丨61')分布建模,參是服從參數為丫的0;[1';[011161:分布,隨機 變量9服從參數為a的Dirichlet分布,該模型把它視為高層的(aspect,rating)集,對于每 一對(aspect,rating), 9包含了產生aspect和rating組合的概率,每一篇評論抽樣一次9, 固定0后,再為該評論產生觀點短語,且假定潛在變量 &41被獨立抽樣,該TMPP模型的生成 步驟如下:
[0014] (1)選擇0~Dir(a),也~Dir(P),擊.~:復
[0015] (2)選擇 c ~Multi(it)
[0016] (3)對于每一對觀點短語(tm,sm),me {1,2,…,M}
[0017] (4)選擇am~P(am| 9)和rm~P(rm| 9)
[0018] (5)選擇c~P(c | am)
[0019 ] (6)選擇燃氣1>級.|~一,#和~~P (sm | ,n)
[0020] ( 7 ) PH!A.游和P ( Sm I rm,n )分別是以am,c和rm為條件的多項式分布,聯合概率 分布為
[0022]進一步地,對于該TMPP模型,已知一篇評論有M個短語,關鍵的推斷是計算如下所 示潛在變量的后驗概率:
[0024] 進一步地,該領域先驗知識從Web上獲取。
[0025] 進一步地,利用基于頻率的方法識別頻繁出現的詞作為先驗知識。
[0026] 進一步地,該先驗知識獲取包括如下步驟:
[0027]在每一個領域的語料上運行LDA;
[0028] 對LDA運行得到的主題集進行聚類;
[0029]從每一個聚類中挖掘出頻繁模式。
[0030]進一步地,在LDA模型的運行過程中,使用阻塞式Gibbs抽樣器實現先驗知識的使 用。
[0031] 與現有技術相比,本發明一種基于TMPP模型的摘要生成方法,通過使用"短語袋" 表示評論,將標準的LDA中表示文檔-主題的參數竺擴展為(aspect, rating)集,使用基于短 語參數學習的主題模型TMPP(Topic Model based on Phrase Parameter,基于短語參數的 主題模型)對aspect和rating同時建模,以減少錯誤累積,并引入潛在聚類變量c表示領域 先驗知識,指導模型產生質量更好的方面。
【附圖說明】
[0032] 圖1為本發明一種基于TMPP模型的摘要生成方法的步驟流程圖;
[0033] 圖2為本發明較佳實施例中TMPP模型的生成過程示意圖。
【具體實施方式】
[0034] 以下通過特定的具體實例并結合【附圖說明】本發明的實施方式,本領域技術人員可 由本說明書所揭示的內容輕易地了解本發明的其它優點與功效。本發明亦可通過其它不同 的具體實例加以施行或應用,本說明書中的各項細節亦可基于不同觀點與應用,在不背離 本發明的精神下進行各種修飾與變更。
[0035] 本發明為了減少評論挖掘過程中累積的錯誤和產生質量更好的方面,使用"短語 袋"表示評論,將標準的LDA中表示文檔-主題的參數0擴展為(asp ect,rating)集,使用基于 短語參數學習的主題模型TMPP(Topic Model based on Phrase Parameter,基于短語參數 的主題模型)對aspect和rating同時建模,以減少錯誤累積,并引入潛在聚類變量c表示領 域先驗知識,以指導模型產生質量更好的方面。
[0036] 基于短語參數學習的主題模型TMPP在對評論中被評價實體的aspect和與它對應 的rating進行挖掘時,整合了一個潛在的聚類變量用于指導產生質量更高的方面。聚類變 量表示從大量已知領域中學習到的知識。這種知識的獲取包含三個步驟:1)在已知評論語 料上運行標準的LDA模型,產生主題集;2)對主題集進行聚類;3)對每一聚類實施頻繁模式 挖掘
[0037]圖1為本發明一種基于TMPP模型的摘要生成方法的步驟了流程圖。如圖1所示,本 發明一種基于TMPP模型的摘要生成方法,包括如下步驟:
[0038]步驟101,利用整合了先驗知識的TMPP模型尋找被評價實體中語義上更連貫的各 個方面;
[0039] 步驟102,通過聚類算法對相同聚類的等級預測對數量和不同聚類的等級預測對 數量進行分類。x表示相同聚類的等級預測對數量,y表示不同聚類的等級預測對數量。
[0040] 步驟103,引用等級預測的聚類相似度的度量標準公式來預測等級相似度值。具體 地,該等級預測的聚類相似度的度量標準公式為
[0043] 其中,k值固定為5,表示方面等級的聚類數量;Pi表示主題模型i所產生的等級預 測;Pm表示人工標注所產生的等級預測。P4PP m的一致性要在kX (k_l)個等級預測對上進行 檢驗。對每兩個等級預測對,PdPlV^能把它分配到相同的聚類或不同的聚類。
[0044] 步驟104,獲取被評價實體的評論摘要表。
[0045] 較佳地,,在步驟101之前,還包括引入潛在聚類變量c生成TMPP模型的步驟。
[0046] 具體地說,TMPP模型使用一個潛在聚類變量c連接潛在方面a和被觀察詞t。模型的 輸入是N篇評論,T個方面,C個聚類。每一篇評論有M個短語。P用隨機變量也對pkluster aspect)分布建模,也是服從參數為0的Dirich let分布;用隨機變量對p(t | aspect, cluster)分布建模,擎是服從參數為y的Dirichiet分布。隨機變量0服從參數為a的 Dirichlet分布,模型把它視為高層的(aspect,rating)集。對于每一對(aspect,rating),0 包含了產生aspect和rating組合的概率。每一篇評論抽樣一次 9,固定9后,再為該評論產生 觀點短語,且假定潛在變量&41被獨立抽樣。基于以上描述,TMPP模型的生成過程如下:
[0047] (1)選擇0~Dir(c〇 紳~Dir(P),
[0048] (2)選擇 c ~Multi(il〇
[0049] (3)對于每一對觀點短語(tm,sm),me {1,2,…,M}
[0050] (4)選擇am~P(am| 9)和rm~P(rm| 9)
[0051] (5)選擇c~P(c | am)
[0052] (6)選擇 和 Sm~P(Sm | rm,q)
[0053] 驗LP(Sm | rm,n)分別是以am,c和rm為條件的多項式分布。因此,聯 合概率分布如公式(1)所示。
_
[0055]已知一篇評論有M個短語,關鍵的推斷是計算公式(2)所示的潛在變量的后驗概 率。
P)
[0057]圖2為本發明較佳實施例中TMPP模型的生成過程示意圖。其中
[0058] a:表示潛在方面(aspect);
[0059] r:表示對方面a對應的潛在等級(rating);
[0060] c:表示潛在的聚類變量;
[0061] t:表示重要的方面詞,是被觀察變量;
[0062] s:表示重要方面詞所對應的情感詞,是被觀察變量;
[0063] (tm,sm):表示第m對觀點短語,m=l,2,…,M;
[0064] a,0:表示 Dirichlet 參數;
[0065] 0 :表示服從參數為a的狄利克雷分布的隨機變量,是文檔層的(aspect,rating) 集。對每一對(aspect,rating ),9包含了產生aspect和rating組合的概率,每一篇評論抽樣 一次9。固定9后,再為該評論產生觀點短語,且假定潛變量&4卩^被獨立抽樣;
[0066] T X C:表示聚類結果,T為方面的個數,C為聚類的個數;
[0067] y,n:表不多項式分布參數;
[0068] ih表示隨機變量對p(cluster | aspect)分布建模,也是服從參數為0的Dirichlet分 布;
[0069] ..表示隨機變量對p(t | aspect,cluster)分布建模,麥是服從參數為y的 Dirichlet 分布。
[0070] 較佳地,領域先驗知識從Web上獲取。可把從不同領域集中挖掘出的相同方面作為 主題模型的先驗知識,讓這些先驗知識指導TMPP模型產生高質量的方面。先驗知識獲取算 法包含三個步驟:1)在每一個領域的語料上運行LDA;2)對LDA運行得到的主題集進行聚類; 3)從每一個聚類中挖掘出頻繁模式。算法在每一個領域語料上運行LDA后,獲得一個主題 集。每一個主題集是詞上的一個分布。該技術只選取每一主題下概率較高,即排序在前的詞 表示主題。顯然,質量高的知識應該跨領域共享主題。因此,可利用基于頻率的方法識別頻 繁出現的詞作為先驗知識,以保證知識的質量。
[0071]以下將通過一具體實施例來進一步說明本發明之TMPP模型生成摘要的步驟:
[0072]步驟1:獲取先驗領域知識
[0073]具體過程:1)首先,確定要處理領域的在線評論數據集D,然后從Web上收集與D相 關的一些其它領域(選5個領域)的在線評論,記為?142^3 44^5。2)分別在口142^3,口4, P5的語料上運行LDA模型,并對運行LDA后得到的主題集進行聚類(31,(32,(:3,(34,(35;3)在(31, (32,(:3,(34,(35上執行關聯挖掘,得到的有意義的頻繁2-模式作為110^模型所需要的先驗領 域知識c〇
[0074]例如:針對某一品牌的數碼相機,獲取的先驗領域知識的可用如下的方式表示: [0075] 聚類1:{電池,壽命},{電池,小時},{電池,長}
[0076]聚類2: {服務,支持},{支持,顧客},{服務,顧客}
[0077]步驟2:對D進行分詞,獲取表示評價實體的名詞短語t,且找到與這個名詞短語最 近的形容詞或副詞m,并用這些信息對<t,m>表示D中的每一篇評論,得到D'。
[0078] 步驟3:在D'上運行LDA模型,得到(Aspect,Rating)。在LDA模型的運行過程中,使 用Gibbs抽樣器實現先驗知識c的使用,通過迭代改進模型輸出結果,即將步驟2中可能不精 確的〈t,m>修改為(Aspect,Rating)。
[0079] 步驟4:對步驟3得到的(Aspect,Rat ing)集合,按Aspect進行分類,且可視化表示。
[0080] 綜上所述,本發明一種基于TMPP模型的摘要生成方法,通過使用"短語袋"表示評 論,將標準的LDA中表示文檔-主題的參數對廣展為(asp ect,rating)集,使用基于短語參數 學習的主題模型TMPP(Topic Model based on Phrase Parameter,基于短語參數的主題模 型)對aspect和rating同時建模,以減少錯誤累積,并引入潛在聚類變量c表示領域先驗知 識,指導模型產生質量更好的方面。
[0081] 本發明通過從Web上獲取不同領域的先驗知識,把從不同領域集中挖掘出的相同 方面作為先驗知識,讓這些先驗知識指導其產生高質量的方面。與此同時,TMPP在處理先驗 知識時,采用阻塞式Gibbs抽樣器推理解決了兩個方面的問題:1) 一般的方面可能被多個領 域所共享,但特定的方面可能僅出現在該方面所在領域。這意味不同的方面有特定的頻率, 如果在基于頻率的方法中使用一個簡單的頻率閾值,將無法區分一般的方面和特定的方 面;2)詞在不同的領域可能具有不同的意,可見本發明采用TMPP模型生成(aspect,rating) 摘要,保證了挖掘主題的質量,有效地克服了 LDA無指導式的學習方式,避免了無意義主題 產生的現象。
[0082]上述實施例僅例示性說明本發明的原理及其功效,而非用于限制本發明。任何本 領域技術人員均可在不違背本發明的精神及范疇下,對上述實施例進行修飾與改變。因此, 本發明的權利保護范圍,應如權利要求書所列。
【主權項】
1. 一種基于TMPP模型的摘要生成方法,其特征在于:該方法將標準的LDA中表示文檔- 主題的參數巧廣展為(aspect, rating)集,使用基于短語參數學習的主題模型TMPP對aspect 和rating同時建模,并引入潛在聚類變量C表示領域先驗知識,W指導模型產生質量更好的 方面。2. 如權利要求1所述的一種基于TMPP模型的摘要生成方法,其特征在于,該方法包括如 下步驟: 步驟一,利用整合了領域先驗知識的TMPP模型尋找被評價實體中語義上更連貫的各個 方面; 步驟二,通過聚類算法對相同聚類的等級預測對數量和不同聚類的等級預測對數量進 行分類,X表示相同聚類的等級預測對數量,y表示不同聚類的等級預測對數量; 步驟=,引用等級預測的聚類相似度的度量標準公式來預測等級相似度值; 步驟四,獲取被評價實體的評論摘要表。3. 如權利要求2所述的一種基于TMPP模型的摘要生成方法,其特征在于:于步驟一之 前,還包括引入潛在聚類變量C生成該TMPP模型的步驟。4. 如權利要求3所述的一種基于TMPP模型的摘要生成方法,其特征在于:該TMPP模型使 用一個潛在聚類變量C連接潛在方面a和被觀察詞t。5. 如權利要求3所述的一種基于TMPP模型的摘要生成方法,其特征在于:假設該TMPP模 型的輸入是N篇評論,T個方面,C個聚類,每一篇評論有M個短語,P用隨機變量4對9 (cluster aspect)分布建模,4是服從參數為0的Dirichlet分布,用隨機變量P對p(t I aspect, cluster)分布建模,'P是服從參數為丫的Dirichlet分布,隨機變量0服從參數為a的 Dirich let分布,該模型把它視為高層的(aspect ,rating)集,對于每一對(aspect, rating),目包含了產生aspect和rating組合的概率,每一篇評論抽樣一次目,固定目后,再為 該評論產生觀點短語,且假定潛在變量am和rm被獨立抽樣,該TMPP模型的生成步驟如下: (1) 選;(2) 選擇。~]\11111:;[(4) (3) 對于每一對觀點短語(tm,sm),me {1,2,…,M} (4) 選擇am~P(amI目)和打!~P(打11白) (5) 選擇C~P(c I am)(6 (7 :和rm為條件的多項式分布,聯合概率分布 為6. 如權利要求5所述的一種基于TMPP模型的摘要生成方法,其特征在于:對于該TMPP模 型,已知一篇評論有M個短語,關鍵的推斷是計算如下所示潛在變量的后驗概率:7. 如權利要求5所述的一種基于TMPP模型的摘要生成方法,其特征在于:該領域先驗知 識從Web上獲取。8. 如權利要求7所述的一種基于TMPP模型的摘要生成方法,其特征在于:利用基于頻率 的方法識別頻繁出現的詞作為先驗知識。9. 如權利要求8所述的一種基于TMPP模型的摘要生成方法,其特征在于:該先驗知識獲 取包括如下步驟: 在每一個領域的語料上運行LDA; 對LDA運行得到的主題集進行聚類; 從每一個聚類中挖掘出頻繁模式。10. 如權利要求8所述的一種基于TMPP模型的摘要生成方法,其特征在于:在LDA模型的 運行過程中,使用阻塞式Gi化S抽樣器實現先驗知識的使用。
【文檔編號】G06F17/30GK105912700SQ201610263574
【公開日】2016年8月31日
【申請日】2016年4月26日
【發明人】呂品, 鐘忺
【申請人】上海電機學院