基于主題概率模型的微博傳播群體劃分與賬戶活躍度評估方法
【技術領域】
[0001] 本發明涉及微博輿情監控領域,特別是基于主題概率模型自動劃分在微博傳播過 程中具有相似主題的群體的一種基于主題概率模型的微博傳播群體劃分與賬戶活躍度評 估方法。
【背景技術】
[0002] 近年來,微博憑借著快速便捷等特性成為了網民獲取新聞時事、自我表達以及社 會參與的重要媒介,同時也成為了社會公共輿論、企業品牌和產品推廣的重要平臺。微博中 的話題更是成為了公眾參與和獲取社會焦點事件、綜藝娛樂節目推廣等的主要手段。
[0003] 微博傳播是一把雙刃劍:一方面,微博為一些社會事件中的信息公開提供了一個 快速響應的平臺,它在一定程度上彌補了傳統媒體和其他網絡工具的不足。用戶可以通過 #話題名#創建或者參與到特定話題的討論中去。例如,在兩會期間,由人民日報創建起來 的#2015兩會#,由央視新聞創建的#微博看兩會#和由用戶為微博新鮮事創建的#兩會 #,這三個話題在兩會期間成為了熱門的話題,以微博看兩會該話題為例,其中有2. 9萬微 博賬戶關注了該話題,約有65萬人參與到了該話題的討論當中去;另一方面,微博不同于 傳統新聞媒體,其新聞的發布存在重復性,且真實性無法保證,可能會被利用成為謠言傳播 的載體、不滿情緒的導火索,甚至給國家安全和社會穩定造成極壞的后果。
[0004] 當新的熱點事件出現后,政府部門需要及時掌握熱點事件的主題、參與者以及輿 論的情感傾向,以便對后期的輿論引導具備快速響應能力。另外為了防止團伙利用話題進 行虛假信息擴散或者負面不良情緒煽動,政府部門需要掌握與特定事件相關的微博傳播中 具有不同主題情感傾向性的群體。
[0005] 因此,面向新興媒體,針對微博平臺中的熱門話題開展傳播群體分析、主題挖掘、 情感傾向分析以及活躍賬戶識別,對于發現、預測、引導網絡輿論,提高政府輿論監管能力, 維護社會和諧穩定具有重要的理論價值和現實意義。
[0006] 為了解決上述問題,與本發明相關的技術主要涉及到社團發現領域,目前社團發 現的方法有很多,最早Girav和Newman提出了一種基于中間度概念的社團發現算法。由于 社會網絡的發展,社區結構開始出現彼此包含的關系,一些重疊社團發現算法相應提了出 來,除此之外,近幾年也開始出現了關于動態社區發現算法的研宄,這些社團發現方法研宄 的出發點是社會網絡中節點關系屬性。該類研宄忽略了社會網絡中存在的語義信息。2003 年,Blei提出了 LDA模型,認為文檔是多個主題的概率分布。2004年,Syeyver等人認為主 題是多個關鍵詞的概率分布,用戶也以某種概率分布對多個主題感興趣,并提出AT模型, 發現用戶、文檔、主題和關鍵詞之間的關系。Zhou等人在AT模型中加入了 user分布取樣, 提出了 CUT模型。但是,上面的方法只考慮到了文本內容忽略了用戶聯系的重要性,為此, 不少學者提出結合語義信息和社會聯系的社團發現方法。而微博中含有大量的用戶與微博 文本的交互信息,參與用戶具有不同的行為表現,直接應用現有的社團方法解決微博話題 中傳播人群的劃分并不合適,需要對微博的特有性質進一步考慮并優化算法。
【發明內容】
[0007] 針對上述情況,為克服現有技術之缺陷,本發明之目的就是提供一種基于主題概 率模型的微博傳播群體劃分與活躍度評估方法,可有效解決按傳播群體劃分,將參與微博 話題傳播的賬戶劃分為多個群組,同時量化每個群組中活躍的微博賬戶。
[0008] 本發明解決的技術方案是,包括以下步驟:
[0009] (1)與特定事件相關的微博樣本搜集:以特定事件的關鍵詞為基礎,基于爬蟲技 術或微博公共開放平臺獲取微博具體文本信息以及參與微博傳播的賬戶集合,其中包括微 博的原創賬戶集合,轉發賬戶集合以及評論賬戶集合;
[0010] ⑵微博樣本庫中詞匯表和參與人員表的構建:以單個微博的文本內容以及參與 微博的賬戶集合輸入,首先利用中科院中文分詞系統對微博文本進行分詞,將微博文本表 示成多個關鍵詞的形式,近而形成微博樣本庫上的詞匯表;其次采用分割的方法,原理與分 詞相同,構造參與人員表;
[0011] (3)主題概率模型生成:對樣本庫中的每一條微博d,d = 1,2, ???,0,基于主題概 率生成模型,為每一篇微博文本賦予一個群體編號,然后基于被賦予的群體編號,從構建的 詞匯表和參與人員表中根據模型中的群體-主題,主題-詞以及群體-人抽樣出詞和參與 人員;
[0012] (4)模型中的參數計算:采用吉布斯抽樣的方法對模型中的群體-人員分布,群 體-主題分布,群體-人員-行為分布,群體-情感分布以及主題-詞分布進行計算,由于 參與熱門事件的微博傳播的賬戶數目大都以萬計,因此采用歸并排序算法對每個主題下所 包含的單詞以及每個群體中所包含的人進行排序,以找到群體中活躍度高的參與者以及最 能代表主題的單詞。
[0013] 本發明方法計算復雜性較低,能夠在有限次迭代后劃分社團,揭示主題,并同時量 化社團中參與賬戶的活躍度,對于及時掌握微博熱點、情感傾向和輿論引導,具有實際的應 用價值。
【附圖說明】
[0014] 圖1為本發明流程框示圖。
[0015] 圖2為本發明的炒作微博事務數據庫示意圖。
[0016] 圖3為本發明中符號定義說明圖。
[0017] 圖4為本發明實驗中不同話題的perplexity的值示意圖。
[0018] 圖5為本發明實驗中兩會話題數據集中的主要社團(K = 25, C = 10)示意圖。 [0019] 圖6為本發明關于兩會的社團的主題分布的實驗結果圖。
[0020] 圖7為本發明實驗中社團2和社團10中相對活躍的用戶行為比較圖。
【具體實施方式】
[0021] 以下結合附圖對本發明的【具體實施方式】作詳細說明。
[0022] 由圖1給出,本發明包括與特定事件相關的微博樣本采集和預處理、主題概率模 型生成以及模型的推導和參數設計部分,微博樣本采集和預處理模塊主要負責采集與特定 事件相關的微博和參與賬戶,對微博內容進行分詞和去停用詞,判斷微博文本的情感極性; 主題概率模型生成模塊改進傳統單純面向主題的LDA模型,將微博賬戶情感極性、微博轉 發關系因素加入模型,并增加社團層面的建模;模型的推導和參數設計模塊通過多次迭代 得到社團、每個社團中相對比較活躍的用戶及其行為模式,具體步驟是:
[0023]1)、與事件相關的微博樣本采集:
[0024] 與特定事件的相關微博樣本應當具有相關性,包括能夠描述特定事件的關鍵詞的 微博或具有相同的HashTag的微博及其相關轉發和評論微博,微博樣本的采集基于寬度優 先搜索獲取與特定事件相關的微博及其轉發和評論微博,采用爬蟲技術,首先根據網頁鏈 接下載微博網頁、解析頁面結構并提取微博文本信息及其他能夠描述微博的元數據信息, 以獲取的微博為起點,對其相關的轉發微博及其評論微博和參與微博的傳播的賬戶信息, 同樣利用爬蟲技術,獲取相關數據;或是調用新浪公共開放平臺,調用微博官方對外提供的 API函數獲取微博文本信息及參與其傳播的賬戶的信息,為有利于對事件傳播中的群體劃 分,在選取微博樣本時遵循的原則為:選取轉發數和評論數不為〇的微博;
[0025] 樣本搜集的內容應包括微博表示號、微博文本內容、微博賬戶標識號,參與微博傳 播的賬戶集合;
[0026] 2)、微博樣本庫中詞匯表和參與人員表的構建:
[0027] 由于原始微博樣本文字比較隨意,在建模前要對微博樣本數據進行預處理將微博 文本轉換成關鍵詞集合的表述形式,同時構建基于樣本庫的詞匯表和參與人員表,判斷每 個微博樣本的情感極性,情感極性分為三種:積極的,消極的和中性的:
[0028] (1)文本分詞,利用正則表達式去除文本中的無用的HTML標簽,然后利用中科院 中文分詞系統ICTCLAS,對文本進行分詞,將微博文本轉化成詞向量;
[0029] (2)基于(臺灣大學整理發布的NTUSD)情感詞典對微博文本進行情感極性判定, 考慮到普適的情感詞典缺少專門針對微博的情感詞匯和表情符號,而微博文本中經常出現 微博平臺提供的表情符來表達博主的情感(例如:4表示贊,是積極情感的表達,=表示鄙 視,是消極情感的表達),在普適情感詞典的基礎之上添加微博表情符,將微博的表情符轉 化成對應的情感語義詞;
[0030] (3)去除停用詞,停用詞主要指得是代詞和表示時間的常用詞,可以采用基于停用 詞字典的方法將停用詞去除,當去除停用詞后,微博內容為空,則舍去這樣的微博;
[0031] (4)構建樣本庫中的詞匯表,首先初始化一個詞典,包括兩個內容:詞的編號和具 體的詞;以每條微博的詞向量為起點,依次查詢詞向量中的關鍵詞,是否存在于詞典中;當 存在,則將具體的詞轉化成詞典對應的編號;當不存在,則將詞添加到詞典當中去,同時將 詞向量中具體的詞轉化成詞典對應的編號;重復以上步驟,直到樣本庫中的每篇文本遍歷 完為止,并構建樣本庫中的參與人員表;
[0032] 2)主題概率模型生成:
[0033] 對樣本庫中的每一條微博d,d = 1,2, ???,0,基于主題概率生成