一種基于微博文本的情緒分類方法及系統的制作方法
【技術領域】
[0001] 本發明屬于自然語言處理和社交網絡領域,具體涉及一種基于微博文本的情緒分 類方法及系統。
【背景技術】
[0002] 互聯網的開放性、虛擬性與共享性使其漸漸成為人們表達觀點、態度、感覺、情緒 等各種情感的公共平臺,并且產生大量的社交網站,同時微型博客(Microblog)也隨之產 生,成為又一個跨時代產品。根據人民網報道,截至2013年底,中國微博用戶數為2. 81億 人,每天發布和轉發微博信息達2. 5億條。在這些龐大的短文本信息中,有很大一部分是帶 有情感的文本信息。處理和分析這些海量的帶情感的數據信息蘊含著巨大的商業價值。例 如,微博監管、突發事件預警、輿情發現、輿論引導和商業競爭情報分析等工作的實現。因 此,對于微博情緒分析的研究,具有較高的理論價值和應用價值。
[0003] 所謂文本情緒分析,一般包含兩個任務:一是情緒識別,即通過對文本進行分析, 判斷該文本是否含有情緒;二是情緒分類,即指對含有情緒的文本進行分析,進行情緒具體 類別的判別。本發明的研究主要針對文本情緒分類。
[0004] 舉例說明具體的情緒分類,例如微博:"明天不用上班了,休息一天,真好馨《,該 微博文本含有快樂的情緒。
[0005] 微博文本的情緒分類是將微博文本作為研究對象。由于社交網絡剛剛起步相關研 究較少,因此關于微博文本情緒分類的研究也比較缺乏。因此,本發明提供一種基于微博文 本的情緒分類方法及系統。
【發明內容】
[0006] 本發明提供一種基于微博文本的情緒分類方法,包括以下步驟:
[0007]S1、收集一定數量微博用戶發表的微博文本,并將收集到的微博文本進行情緒類 型標注;
[0008]S2、利用分詞軟件將標注好的微博文本進行分詞處理,并將經過分詞處理的微博 文本作為訓練樣本,并利用所述訓練樣本及貝葉斯工具包構建貝葉斯分類器;
[0009]S3、利用所述貝葉斯分類器,對用戶微博文本進行分類,得到分類結果,并根據所 述分類結果確定情緒類型。
[0010] 優選的,步驟S1中收集微博用戶發表的微博文本的過程包括以下步驟:
[0011]S11、構建一個空的用戶列表,并在微博選取一個用戶作為種子用戶加入所述空的 用戶列表中;
[0012]S12、抓取所述種子用戶的用戶信息及其發表的微博文本,并將所述種子用戶的關 注用戶和粉絲用戶加入用戶列表中,并繼續抓取所述關注用戶和粉絲用戶的用戶信息及其 發表的微博文本;
[0013]S13、重復步驟S12,直至達到所需用戶數量。
[0014] 優選的,在步驟S12中,所述用戶信息包括用戶名、認證類型、關注用戶和粉絲用 戶。
[0015] 優選的,所述情緒類型包括快樂、憤怒、悲傷、恐懼、正面復合、中性復合、反面復合 及無情緒類型。
[0016] 優選的,在步驟S2中,采用中國科學院計算技術研究所的分詞軟件ICTCLAS將標 注好的微博文本進行分詞處理。
[0017] 優選的,在步驟S2中,所述貝葉斯工具包由Mallet提供。
[0018] 優選的,所述貝葉斯分類器采用樸素貝葉斯模型。
[0019] 本發明還提供一種基于微博文本的情緒分類系統,包括微博文本獲取模塊、情緒 標注模塊、訓練樣本獲取模塊、分類器構建模塊及分類模塊,所述微博文本獲取模塊連接情 緒標注模塊,所述情緒標注模塊連接訓練樣本獲取模塊,訓練樣本獲取模塊連接分類器構 建模塊,所述分類器構建模塊連接分類模塊:所述微博文本獲取模塊,用于收集微博用戶發 表的微博文本;所述情緒標注模塊,用于將收集到的微博文本進行情緒類型標注;所述訓 練樣本獲取模塊,用于利用分詞軟件將標注好的微博文本進行分詞處理,并將經過分詞處 理的微博文本作為訓練樣本;所述分類器構建模塊,用于利用所述訓練樣本及貝葉斯工具 包構建貝葉斯分類器;所述分類模塊,用于利用所述貝葉斯分類器,對用戶微博文本進行分 類,得到分類結果,并根據所述分類結果確定情緒類型。
[0020] 根據本發明提供的基于微博文本的情緒分類方法及系統,所述方法包括以下步 驟。收集一定數量微博用戶發表的微博文本,并將收集到的微博文本進行情緒類型標注。利 用分詞軟件將標注好的微博文本進行分詞處理,并將經過分詞處理的微博文本作為訓練樣 本,并利用所述訓練樣本及貝葉斯工具包構建貝葉斯分類器。利用所述貝葉斯分類器,對用 戶微博文本進行分類,得到分類結果,并根據所述分類結果確定情緒類型。如此,以較高的 準確率達到了對微博文本進行情緒分類。
【附圖說明】
[0021] 為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以 根據這些附圖獲得其他的附圖。
[0022] 圖1是本發明較佳實施例提供的基于微博文本的情緒分類方法流程圖;
[0023]圖2是本發明較佳實施例提供的收集微博用戶發表的微博文本的流程圖;
[0024]圖3是本發明較佳實施例提供的基于微博文本的情緒分類系統示意圖。
【具體實施方式】
[0025] 下文中將參考附圖并結合實施例來詳細說明本發明。需要說明的是,在不沖突的 情況下,本申請中的實施例及實施例中的特征可以相互組合。
[0026]圖1是本發明較佳實施例提供的基于微博文本的情緒分類方法流程圖。如圖1所 示,本發明較佳實施例提供的基于微博文本的情緒分類方法包括步驟S1~S3。
[0027] 步驟S1 :收集一定數量微博用戶發表的微博文本,并將收集到的微博文本進行情 緒類型標注。
[0028] 具體而言,本實施例中,所述微博是以騰訊微博為例說明,具體通過騰訊微博提供 的API收集用戶發表的微博文本。其它實施例中,也可使用其他社交網站的用戶發表的文 本信息。所述收集一定數量微博用戶發表的微博文本過程作如下分解。
[0029]圖2是本發明較佳實施例提供的收集微博用戶發表的微博文本的流程圖。如圖2 所示,本發明較佳實施例提供的收集微博用戶發表的微博文本流程包括步驟S11~S13。
[0030] 步驟S11 :構建一個空的用戶列表,并在微博選取一個用戶作為種子用戶加入所 述空的用戶列表中。
[0031] 步驟S12 :抓取所述種子用戶的用戶信息及其發表的微博文本,并將所述種子用 戶的關注用戶和粉絲用戶加入用戶列表中,并繼續抓取所述關注用戶和粉絲用戶的用戶信 息及其發表的微博文本。
[0032] 本步驟中,所述用戶信息包括用戶名、認證類型、關注用戶和粉絲用戶。
[0033] 步驟S13 :重復步驟S12,直至達到所需用戶數量。
[0034] 接下來,將收集到的微博文本進行情緒類型標注。于此,所述情緒類型包括快樂、