一種網絡輿論趨勢預測分析方法
【技術領域】
[0001] 本發明涉及互聯網信息分析技術領域,特別是一種網絡輿論趨勢預測分析方法。
【背景技術】
[0002] 網絡輿情是以網絡為載體,以事件為核心,是廣大網民情感、態度、意見、觀點的表 達,傳播與互動,以及后續影響力的集合。隨著信息時代的發展與普及,網絡已滲入到社會 的各個層次。截至2014年12月,我國網民規模達6.49億。網民可以通過多種途徑迅速地從網 絡上獲取社會各類信息,并將自己的主觀意見發布與互聯網上,與他人進行交流。通過這種 快速以及廣泛的信息交流,事件得以擴張形成輿情。特別是微博的發展,增加了社會事件的 透明度,加快了熱點事件的傳播速度。在這種輿論自由的環境下,不良的謠言或者攻擊性的 評論很容易激發社會矛盾,進一步導致重大社會事件,因此輿情監控顯得尤為重要。
[0003] 輿情監控能幫助有關部門及時了解熱點輿情信息,提高對于輿情的應對能力,根 據輿情發展趨勢采取相應措施避免網絡暴力帶來的負面影響,從而構建和諧的網絡言論環 境。
[0004] 目前國內市場主要的輿情產品具有的功能有:熱點識別能力、傾向性分析與統計、 主題跟蹤、信息自動摘要功能、趨勢分析、突發事件分析、統計報告等。
[0005] 趨勢分析是在歷史輿情發展的基礎上對未來發展進行預測。目前有效的預測方 法包括大致3類:
[0006] 1)通過輿情的歷史數據預測熱點的爆發。
[0007] 2)對歷史事件進行聚類,獲取同類別熱點的發展變化趨勢。
[0008] 3)對輿論數進行數據挖掘如時間序列分析、人工神經網絡等,預測未來輿論數。
[0009] 這些方法在一定程度上能夠預測輿情的發展,但也存在各自的局限性。前兩種方 法對于熱點的爆發能夠有預見性,但是對于特定輿情的未來發展趨勢并不能做出解釋。類 二的分析也只是考慮了單純的時間序列,并沒有結合考慮影響輿論發展的推動因素。同時 均方誤差最小的判斷標準也不適用于預測輿情的發展波動趨勢。因此需要一種快速可靠的 網絡輿情預測方法來預測輿情事件的發展波動趨勢。
[0010]中國發明專利申請CN 103198078 A公開了一種互聯網新聞事件報道趨勢分析方 法,包括以下步驟:
[0011] (1)根據配置的新聞事件的特征信息,實時采集互聯網中的新聞信息;
[0012] (2)預處理所述新聞信息,篩選出發布時間在設置的新聞事件的統計周期內的新 聞信息;
[0013] (3)分析篩選出的新聞信息的征文信息,得到新聞信息的主題及主題信息;所述主 題包括存在主題信息的主題和不存在主題信息的源主題;
[0014] (4)分析當前統計周期與前一統計周期的主題,得出當前統計周期與前一統計周 期之間的相同主題以及各相同主題的關聯信息數;
[0015] (5)根據所述關聯信息數,得出轉化主題;所述轉化主題是指當前統計周期該相同 主題的關聯信息數大于或等于前一統計周期該相同主題的關聯信息數;
[0016] (6)獲取設定時間段內的源主題和轉化主題的關聯信息數,并展現源主題和轉化 主題的關聯信息數隨時間的分布趨勢。
【發明內容】
[0017] 本發明需要解決的技術問題是提供一種微博輿論趨勢分析方法。
[0018] 為解決上述的技術問題,本發明的一種微博輿論趨勢分析方法,包括以下步驟,
[0019] 步驟S101:確定指標體系,爬取網絡輿論信息,通過預處理獲得所需指標的時間序 列;
[0020] 步驟S102:建立模型,在獲取得到的時間序列上建立候選模型;
[0021] 步驟S103:選取最優算法,從建立的候選模型中比較選取最優模型;
[0022]步驟S104:網絡輿論趨勢預測分析,基于選擇的最優模型對網絡輿論趨勢進行預 測分析。
[0023] 進一步的,步驟S101還包括以下步驟,
[0024]步驟S1011:確定指標體系;
[0025]步驟S1012:爬取網絡輿論信息,抽樣爬取網絡輿情數據;
[0026] 步驟S1013:關鍵字匹配網絡輿情;
[0027] 步驟S1014:數據預處理;
[0028]步驟S1015:獲取相關指標時間序列,整理出符合標準的以每小時信息為單位的各 指標時間序列:日期、時點、原創帖評論數、原創帖轉發數、轉發貼評論數、轉發貼轉發數、平 均活躍度、平均影響力、綜合貼數,并將上述指標作為建模的自變量。
[0029]更進一步的,所述步驟S1015中同時納入根據歷史數據折算的作者活躍度和影響 力指標作為建模的自變量。
[0030] 更進一步的,步驟S102中根據步驟S101獲得所需指標的時間序列作為自變量,另 外將當前時刻為止,根據關鍵字索引出的輿論的評論文數作為因變量;根據滯后參數和選 擇的算法得到相應的映射,具體表示如下:
[0031]
[0032]其中n:n個時間點m:m個自變量t:滯后參數。
[0033]更進一步的,所述步驟S102中的算法包括為簡單線性回歸、決策樹回歸、隨機森林 回歸、支持向量機、bagg i ng回歸算法中的一種。
[0034]更進一步的,所述步驟S102中的簡單線性回歸、決策樹回歸、隨機森林回歸、支持 向量機、bagg ing回歸算法中引入MVE來作為算法選擇的判斷標準。
[0035]更進一步的,所述步驟S103中選擇隨機森林回歸算法建立的模型為最優模型。
[0036]更進一步的,所述步驟S102中隨機森林回歸算法中采取基尼不純度作為隨機森林 節點分割的標準。
[0037] 進一步的,步驟S103之后還包括步驟S104模型修正,當有新的時點數據出現時,可 將其納入指標體系作為參數,進行模型修正。
[0038]采用上述方法后,本發明活躍度與影響力作為間接獲取的指標,能從側面上反映 輿情事件的擴張潛能,對預測有較大幫助。滯后參數的可調性能夠靈活的適應實際需求,同 時引入MVE(平均誤差方差)來作為模型選擇的判斷標準,提高了對特定輿情發展趨勢波動 的預測能力。最終,可通過新的數據對模型進行修正,為長期追蹤預測創造了可能。
【附圖說明】
[0039]下面將結合附圖和【具體實施方式】對本發明作進一步詳細的說明。
[0040]圖1為本發明一種網絡輿論趨勢預測分析方法的流程圖。
[0041 ]圖2為本發明建立最優模型的選擇過程。
[0042]圖3a為本發明通過簡單線性回歸算法模擬得到的走勢圖。
[0043]圖3b為本發明通過隨機森林算法模擬得到的走勢圖。
[0044]圖3c為本發明通過bagging回歸算法模擬得到的走勢圖。
[0045]圖3d為本發明通過決策樹回歸算法模擬得到的走勢圖。
[0046]圖3e為本發明通過支持向量機算法模擬得到的走勢圖。
[0047]圖4a為本發明隨機森林回歸算法中采取基尼不純度作為隨機森林節點分割標準 的示意圖。
[0048]圖4b為本發明將新時點數據納入指標體系進行模型修正的示意圖。
【具體實施方式】