輿情分析方法及系統的制作方法
【技術領域】
[0001]本發明涉及計算機信息安全監測技術領域,特別涉及一種輿情分析方法及系統。
【背景技術】
[0002]目前市場上有不少輿情系統。從實現功能來看,很多以“監控”/“熱點發現”/ “預警”為核心功能和宣傳點,如谷尼國際軟件開發的Goonie互聯網輿情監控系統、中科點擊開發的軍犬網絡輿情監控系統、北京拓爾思開發的TRS網絡輿情監控系統、北大方正開發的方正智思一網絡輿情互聯網信息監控分析系統等。但限于目前國內外的研究現狀,中文分詞和自動聚類等算法還不成熟,準確性方面難以保證。“熱點發現”其實不是網監部門開展輿情監測工作的難點和唯一的主要關心的功能,在多渠道海量信息的分析上做得不到位,所以難以滿足本項目的需要。
[0003]從需求分析來看,市面上很多輿情產品的廠商缺乏信息安全行業的背景,沒有對輿情市場做經過科學嚴謹的需求調研,導致做出的產品功能大而全、缺乏深度、準確性也不夠,不能滿足客戶的需求,從而導致市場推廣的困難。
[0004]總而言之,目前市場上的相關技術具有如下的缺點:(1)成本高、效率低及耗時;
(2)側重于輿情監控,需具備龐大的系統計算能力和系統建設成本;(3)輿情搜索不準確,搜索結果存在大量垃圾信息;(4)沒有面向司法訴訟的電子證據保全功能。
【發明內容】
[0005]本發明旨在至少解決上述技術問題之一。
[0006]為此,本發明的一個目的在于提出一種具有成本低、效率高、省時、準確性高及安全性高的優點的輿情分析方法。
[0007]本發明的第二個目的在于提供一種輿情分析系統。
[0008]為了實現上述目的,本發明第一方面的實施例提出了一種輿情分析方法,包括以下步驟:根據搜索請求搜索并讀取網頁文件;從所述網頁文件中提取輿情信息;對所述輿情信息進行分類;對每個分類結果中的輿情信息進行進一步分析以得到所述每個分類結果中的輿情信息對應的起源、輿論情感色彩、網絡擴散狀態、發展趨勢、地域信息和年齡段信息;根據對所述輿情信息的進一步分類結果以及預設的證據保全規則判斷是否對所述輿情信息進行證據保全。
[0009]根據本發明實施例的輿情分析方法,根據搜索請求搜索并讀取網頁文件,并從該網頁文件中提取輿情信息,然后對輿情信息進行分類,并對每個分類結果中的輿情信息做進一步分析以得到每個分類結果中的輿情信息對應的起源、輿論情感色彩、網絡擴散狀態、發展趨勢、地域信息和年齡段信息,最后根據對輿情信息的進一步分類結果以及預設的證據保全規則判斷是否對輿情信息進行證據保全。從而,本發明實施例的方法能夠對輿情信息進行自動分析、統計、聚類等操作,具有成本低、效率高、省時的優點,該方法采用雙重消息過濾機制,因此準確性高,另外,該方法具有電子證據保全功能,能夠有效支撐司法訴訟,安全性較高。
[0010]另外,根據本發明上述實施例的輿情分析方法還可以具有如下附加的技術特征:
[0011]在一些示例中,通過網絡爬蟲搜索并讀取所述網頁文件。
[0012]在一些示例中,所述輿情信息包括:作者、快照URL、標題、URL、收藏次數、回復次數、轉發次數、所屬板塊、分類標簽、內容摘要、來源和發布時間。
[0013]在一些示例中,所述預設的證據保全規則包括:是否啟用、對應媒體、開始時間、結束時間、作者列表、感情色彩和關鍵字。
[0014]在一些示例中,當所述輿情信息的發布時間位于所述開始時間和所述結束時間、所述輿情信息的作者位于所述作者列表、所述輿情信息的發布媒體為所述對應媒體且所述輿情信息啟動時,判斷對所述輿情信息進行證據保全。
[0015]本發明第二方面的實施例還提供了一種輿情分析系統,包括:讀取模塊,用于根據搜索請求搜索并讀取網頁文件;提取模塊,用于從所述網頁文件中提取輿情信息;分類模塊,用于對所述輿情信息進行分類,并對每個分類結果中的輿情信息進行進一步分析以得到所述每個分類結果中的輿情信息對應的起源、輿論情感色彩、網絡擴散狀態、發展趨勢、地域信息和年齡段信息;判斷模塊,用于根據對所述輿情信息的進一步分類結果以及預設的證據保全規則判斷是否對所述輿情信息進行證據保全。
[0016]根據本發明實施例的輿情分析系統,讀取模塊根據搜索請求搜索并讀取網頁文件,提取模塊從該網頁文件中提取輿情信息,然后分類模塊對輿情信息進行分類,并對每個分類結果中的輿情信息做進一步分析以得到每個分類結果中的輿情信息對應的起源、輿論情感色彩、網絡擴散狀態、發展趨勢、地域信息和年齡段信息,最后判斷根據對輿情信息的進一步分類結果以及預設的證據保全規則判斷是否對輿情信息進行證據保全。從而,本發明實施例的系統能夠對輿情信息進行自動分析、統計、聚類等操作,具有成本低、效率高、省時的優點,該系統采用雙重消息過濾機制,因此準確性高,另外,該系統具有電子證據保全功能,能夠有效支撐司法訴訟,安全性較高。
[0017]另外,根據本發明上述實施例的輿情分析系統還可以具有如下附加的技術特征:
[0018]在一些示例中,所述讀取模塊通過網絡爬蟲搜索并讀取所述網頁文件。
[0019]在一些示例中,所述輿情信息包括:作者、快照URL、標題、URL、收藏次數、回復次數、轉發次數、所屬板塊、分類標簽、內容摘要、來源和發布時間。
[0020]在一些示例中,所述預設的證據保全規則包括:是否啟用、對應媒體、開始時間、結束時間、作者列表、感情色彩和關鍵字。
[0021]在一些示例中,所述判斷模塊用于:當所述輿情信息的發布時間位于所述開始時間和所述結束時間、所述輿情信息的作者位于所述作者列表、所述輿情信息的發布媒體為所述對應媒體且所述輿情信息啟動時,判斷對所述輿情信息進行證據保全。
[0022]本發明的附加方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到。
【附圖說明】
[0023]本發明的上述和/或附加的方面和優點從結合下面附圖對實施例的描述中將變得明顯和容易理解,其中:
[0024]圖1是根據本發明一個實施例的輿情分析方法的流程圖;
[0025]圖2是根據本發明一個實施例的輿情分析方法的工作邏輯示意圖;
[0026]圖3是根據本發明另一個實施例的輿情分析方法的整體工作邏輯示意圖;以及
[0027]圖4是根據本發明一個實施例的輿情分析系統的結構框圖。
【具體實施方式】
[0028]下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發明,而不能理解為對本發明的限制。
[0029]在本發明的描述中,需要理解的是,術語“中心”、“縱向”、“橫向”、“上”、“下”、“前”、“后”、“左”、“右”、“豎直”、“水平”、“頂”、“底”、“內”、“外”等指示的方位或位置關系為基于附圖所示的方位或位置關系,僅是為了便于描述本發明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構造和操作,因此不能理解為對本發明的限制。此外,術語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性。
[0030]在本發明的描述中,需要說明的是,除非另有明確的規定和限定,術語“安裝”、“相連”、“連接”應做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內部的連通。對于本領域的普通技術人員而言,可以具體情況理解上述術語在本發明中的具體含義。
[0031]參照下面的描述和附圖,將清楚本發明的實施例的這些和其他方面。在這些描述和附圖中,具體公開了本發明的實施例中的一些特定實施方式,來表示實施本發明的實施例的原理的一些方式,但是應當理解,本發明的實施例的范圍不受此限制。相反,本發明的實施例包括落入所附加權利要求書的精神和內涵范圍內的所有變化、修改和等同物。
[0032]以下結合附圖描述根據本發明實施例的輿情分析方法及系統。
[0033]圖1是根據本發明一個實施例的輿情分析方法的流程圖。圖2是根據本發明一個實施例的輿情分析方法的工作邏輯示意圖。圖3是根據本發明另一個實施例的輿情分析方法的整體工作邏輯示意圖。
[0034]結合圖1、圖2和圖3所示,根據本發明一個實施例的輿情分析方法,包括以下步驟:
[0035]步驟S101,根據搜索請求搜索并讀取網頁文件。
[0036]在一個具體的示例中,可根據搜索請求,通過網絡爬蟲搜索并獲取網頁文件。
[0037]步驟S102,從網頁文件中提取輿情信息。
[0038]換言之,即從上述步驟SlOl獲取得到的網頁文件中提取輿情信息。在本發明的一個實施例中,輿情信息例如包括:作者、快照URL、標題、URL、收藏次數、回復次數、轉發次數、所屬板塊、分類標簽、內容摘要、來源和發布時間。
[0039]步驟S103,對輿情信息進行分類。
[004