對網絡輿情監控的方法
【技術領域】
[0001] 本發明涉及網絡數據監控技術領域,具體地說是一種對網絡輿情監控的方法。
【背景技術】
[0002] 輿情是指在一定的社會空間內,圍繞社會事件的發生、發展和變化,民眾對社會管 理者產生和持有的社會政治態度,它是較多群眾關于社會中各種現象以及問題所表達的信 念、態度、意見和情緒等表現的總和。隨著互聯網的迅猛發展,網絡已成為龐大的公共信息 集散地和民眾參政議政最常用的平臺。目前,對網絡輿情的研宄,在理論方面有學者注意到 網絡輿情的影響力,提出需要建立網絡輿情信息匯集、分析、預警機制,但尚未進一步涉及 深入到細節的【具體實施方式】口。
【發明內容】
[0003] 本發明的技術任務是提供一種對網絡輿情監控的方法。
[0004] 本發明的技術任務是按以下方式實現的,該輿情監控的方法通過網頁信息采集與 清洗、網頁信息預處理和網絡輿情分析三部分實現;
[0005] 網頁信息采集與清洗:采用分布式協同爬蟲,動態配置爬蟲服務器數量以及爬蟲 數量,在不同的采集需求下動態增減使用在采集上的計算資源;通過網頁采集子系統中的 爬蟲模塊在Internet上獲取相關的網頁信息;對獲取的網頁,通過網頁清洗模塊清除噪聲 數據,萃取出相關數據,導入數據庫;
[0006] 網頁信息預處理包含網頁文本分詞模塊、特征提取模塊、VSM模型建立模塊、網頁 相似度計算模塊;
[0007] 網絡輿情分析:選擇一段時間樣本網頁進行一次聚類,形成多個網絡輿情熱點簇, 通過熱點簇的分析得到各熱點簇的特征向量,使用這些特征向量對更大范圍的網頁數據進 行二次聚類,獲得輿情熱點走勢圖表;同時,通過一次聚類和二次聚類的區分,將系統的工 作界定為熱點發現和熱點跟蹤。
[0008] 所述的爬蟲模塊設置爬蟲的數量、抓取速度、起始URL、符合采集要求的URL的正 則表達式、爬蟲線程終止條件。
[0009] 所述的噪聲數據為網頁中的廣告、導航信息、圖片以及版權說明;相關數據為網頁 的標題、正文、鏈接地址和采集時間。
[0010] 所述的網頁文本分詞模塊:根據是否使用切分詞典,可分為有詞典切分和無詞典 切分;根據切分的具體方法,分為基于規則的方法和基于統計的方法;
[0011] 特征提取模塊:采用抽取樣本網頁的全部網頁詞庫作為網頁的特征向量待選集 合,對網頁特征向量進行降維處理。
[0012] 本發明的對網絡輿情監控的方法和現有技術相比,通過對網頁、論壇、博客、新聞 評論等網絡資源的精確采集,并結合網頁凈化、中文分詞、向量模型建立、特征選擇、降維處 理、文本聚類等中文信息處理技術,實現對網絡輿情的有效監測,能夠對網絡輿情進行有效 的信息匯集、分析和預警。
【具體實施方式】
[0013] 實施例1:
[0014] 該輿情監控的方法通過網頁信息采集與清洗、網頁信息預處理和網絡輿情分析三 部分實現;
[0015]( -)網頁信息采集與清洗:采用分布式協同爬蟲,動態配置爬蟲服務器數量以及 爬蟲數量,在不同的采集需求下動態增減使用在采集上的計算資源;通過網頁采集子系統 中的爬蟲模塊在Internet上獲取相關的網頁信息,爬蟲模塊設置爬蟲的數量、抓取速度、 起始URL、符合采集要求的URL的正則表達式、爬蟲線程終止條件;對獲取的網頁,通過網 頁清洗模塊清除網頁中的廣告、導航信息、圖片以及版權說明等噪聲數據,萃取出網頁的標 題、正文、鏈接地址和采集時間等相關數據,導入數據庫。
[0016](二)網頁信息預處理包含網頁文本分詞模塊、特征提取模塊、VSM模型建立模塊、 網頁相似度計算模塊;
[0017] 1)網頁文本分詞模塊:根據是否使用切分詞典,可分為有詞典切分和無詞典切 分。根據切分的具體方法,可分為基于規則的方法和基于統計的方法。采用了層疊隱馬爾 可夫模型(HiddenMarkovModel),主要功能包括中文分詞、詞性標注、命名實體識別、新詞 識別;同時支持用戶詞典,其分詞速度單機可達996KB/S,分詞精度到達98. 45%,分詞效 果良好。
[0018] 2)特征提取模塊:首先采用抽取樣本網頁的全部網頁詞庫作為網頁的特征向量 待選集合,由于分詞后的特征向量空間維度很大,因此有必要對網頁特征向量進行降維處 理。首先根據詞性進行初步篩選,定義助詞、介詞、連詞等虛詞以及詞語長度為1的無實際 含義詞為停用詞,然后構造網頁主題評價函數,對每個特征向量進行評估,選擇符合預定閾 值的詞作為網頁的特征向量集。采取詞頻與信息增益(InformationGain,IG)相結合的方 法,將特征Tk信息增益的定義為:
【主權項】
1. 對網絡輿情監控的方法,其特征在于,該輿情監控的方法通過網頁信息采集與清洗、 網頁信息預處理和網絡輿情分析三部分實現; 網頁信息采集與清洗:采用分布式協同爬蟲,動態配置爬蟲服務器數量以及爬蟲數量, 在不同的采集需求下動態增減使用在采集上的計算資源;通過網頁采集子系統中的爬蟲模 塊在Internet上獲取相關的網頁信息;對獲取的網頁,通過網頁清洗模塊清除噪聲數據, 萃取出相關數據,導入數據庫; 網頁信息預處理包含網頁文本分詞模塊、特征提取模塊、VSM模型建立模塊、網頁相似 度計算模塊; 網絡輿情分析:選擇一段時間樣本網頁進行一次聚類,形成多個網絡輿情熱點簇,通過 熱點簇的分析得到各熱點簇的特征向量,使用這些特征向量對更大范圍的網頁數據進行二 次聚類,獲得輿情熱點走勢圖表;同時,通過一次聚類和二次聚類的區分,將系統的工作界 定為熱點發現和熱點跟蹤。
2. 根據權利要求1所述的對網絡輿情監控的方法,其特征在于,所述的爬蟲模塊設置 爬蟲的數量、抓取速度、起始URL、符合采集要求的URL的正則表達式、爬蟲線程終止條件。
3. 根據權利要求1所述的對網絡輿情監控的方法,其特征在于,所述的噪聲數據為網 頁中的廣告、導航信息、圖片以及版權說明;相關數據為網頁的標題、正文、鏈接地址和采集 時間。
4. 根據權利要求1所述的對網絡輿情監控的方法,其特征在于,所述的網頁文本分詞 模塊:根據是否使用切分詞典,可分為有詞典切分和無詞典切分;根據切分的具體方法,分 為基于規則的方法和基于統計的方法; 特征提取模塊:采用抽取樣本網頁的全部網頁詞庫作為網頁的特征向量待選集合,對 網頁特征向量進行降維處理。
【專利摘要】本發明公開了一種對網絡輿情監控的方法,該輿情監控的方法通過網頁信息采集與清洗、網頁信息預處理和網絡輿情分析三部分實現;網頁信息采集與清洗:采用分布式協同爬蟲動態獲取相關的網頁信息;對獲取的網頁清除噪聲數據,萃取出相關數據,導入數據庫;網頁信息預處理包含網頁文本分詞模塊、特征提取模塊、VSM模型建立模塊、網頁相似度計算模塊;網絡輿情分析:選擇一段時間樣本網頁進行一次聚類得到特征向量,使用這些特征向量對更大范圍的網頁數據進行二次聚類,獲得輿情熱點走勢圖表。本發明通過對網絡資源的精確采集,實現對網絡輿情的有效監測,能夠對網絡輿情進行有效的信息匯集、分析和預警。
【IPC分類】G06F17-30
【公開號】CN104794161
【申請號】CN201510129837
【發明人】岳立松, 徐宏偉, 左少標
【申請人】浪潮集團有限公司
【公開日】2015年7月22日
【申請日】2015年3月24日