專利名稱:一種基于語義的網絡智能輿情監(jiān)測系統(tǒng)及其工作方法
技術領域:
本發(fā)明屬于自然語言處理領域,特別涉及一種基于語義的網絡智能輿情監(jiān)測系統(tǒng)及其工作方法。
背景技術:
近年來,互聯(lián)網發(fā)展迅速,作為繼電視、廣播、報紙之外的第四媒體,已經成為反映社會輿情的一個重要載體。另一方面,由于網絡的開放性和虛擬性,網上輿情已經越來越復雜,對現(xiàn)實生活的影響與日俱增,一些重大的網絡輿情事件往往對社會產生較大的影響力。輿情監(jiān)測的目的,即為準確有效地掌握網絡輿情現(xiàn)狀,加強對網絡輿情的及時監(jiān)測和跟蹤,以便準確快速地發(fā)現(xiàn)互聯(lián)網上的各類輿情,產生輿論導向并積極化解輿論危機,對促進社會和企業(yè)的健康發(fā)展具有重要的現(xiàn)實意義。對政府部門、公眾媒體和大型企業(yè)來說,如何加強對網絡輿情的及時監(jiān)測,以及時采取措施進行有效應對,成為網絡輿情管理的一大難點。
發(fā)明內容
本發(fā)明就是針對上述背景技術中的不足之處,而提出的一種基于語義的網絡智能輿情監(jiān)測系統(tǒng)及其工作方法,其搜索的結果不是簡單的包含某個或某類關鍵詞的網頁集合,而是與所設定的監(jiān)測事件具有相同語義(即在意義上相同)的文本信息,具有較高的準確率。本發(fā)明的目的是通過如下技術措施來實現(xiàn)的。一種基于語義的網絡智能輿情監(jiān)測系統(tǒng),該系統(tǒng)包括智能爬蟲爬取模塊、命名實體抽取模塊、概念智能識別模塊、基于語義的傾向性分析模塊、話題抽取模塊和智能統(tǒng)計分析模塊,所述智能爬蟲爬取模塊用于從互聯(lián)網上采集輿情信息,并存儲到數(shù)據庫中,所述命名實體抽取模塊、概念智能識別模塊、基于語義的傾向性分析模塊、話題自動抽取模塊用于對輿情信息進行智能分析和加工,所述智能統(tǒng)計分析模塊把輿情信息中經過分析處理的數(shù)據以各種形式展現(xiàn)給用戶并提供預警。各模塊具體功能如下
智能爬蟲爬取模塊傳統(tǒng)的輿情監(jiān)測系統(tǒng)采用關鍵詞或關鍵詞組合的方式進行搜索,該方法存在兩個問題一是基于關鍵詞搜索的準確度不高,結果可能包含大量噪音,例如要搜索“北大”(這里指的是北京大學)的信息,那么包含詞條“北大荒”的文本也會被搜索出來;二是傳統(tǒng)輿情監(jiān)測系統(tǒng)的關鍵詞集需人工收集并添加,繁瑣且費時。造成以上問題的根本原因是,系統(tǒng)無法真正理解搜索詞的意義。本系統(tǒng)采用智能爬蟲技術,通過“理解”輸入的關鍵詞或句子的意思,在文本中找出相應的內容。命名實體抽取模塊輿情監(jiān)測的內容中可能包含人物、地點和組織機構的信息。而傳統(tǒng)的輿情監(jiān)測系統(tǒng)無法自動識別出文本中包含的這些內容,只能由人工進行添加。本系統(tǒng)自動對人物名稱、地點名稱和組織機構的名稱(即命名實體)進行識別,并提取與之相關的信息。全部過程由機器自動完成,無需人工干預。概念智能識別模塊傳統(tǒng)的輿情監(jiān)測系統(tǒng)采用關鍵詞或關鍵詞組合的方式進行監(jiān)測,一旦發(fā)現(xiàn)信息中包含關鍵詞或其組合,則發(fā)布預警信息。然而,利用關鍵詞檢索得到的結果可能包含大量噪音,而有用的信息卻可能因為不在關鍵詞列表中而被過濾掉。本系統(tǒng)采用基于概念的識別搜索機制,通過自動識別出意義相同的概念,過濾大量無關的信息,從而得到的結果具有較高的準確率。例如,給定一個新聞線索“腐敗”,本系統(tǒng)自動監(jiān)測與“腐敗”相關的“行賄受賄”、“公款吃喝”、“買官賣官”等內容?;谡Z義的傾向性分析模塊本系統(tǒng)實現(xiàn)了對輿情的傾向性進行自動分析,例如,調查網民對某一事件的評論是正面還是負面的。傳統(tǒng)的輿情監(jiān)測系統(tǒng)無法進行傾向性分析,或者傾向性分析方法是基于關鍵詞的。這種方法的主要問題是準確度較低。利用基于語義的傾向性自動分析技術,本模塊實現(xiàn)了對輿情的語義分析,并能給出基于事件的某個側面的傾向性評價結果。話題抽取模塊話題就是一個核心事件或活動以及與之直接相關的事件或活動。而一個事件(Event)通常由某些原因、條件引起,發(fā)生在特定時間、地點,涉及某些對象(人或物),并可能伴隨某些必然結果。通常情況下,可以簡單地認為話題就是若干對某事件相關報道的集合。話題分析具體包括話題檢測與跟蹤,定義為“在新聞專線(Newswire)和廣 播新聞等來源的數(shù)據流中自動發(fā)現(xiàn)主題并把主題相關的內容聯(lián)系在一起的技術”。本模塊在海量信息中搜索同一話題的內容,并自動進行歸類,同時給出話題名稱,方便用戶查看。智能統(tǒng)計分析模塊將輿情監(jiān)測的結果進行分析匯總,并以圖文并茂的形式展現(xiàn)給用戶。統(tǒng)計方式可由用戶自行定義,如按時間、按來源、按輿情類別、按用戶傾向性等。本發(fā)明還提供一種基于語義的網絡智能輿情監(jiān)測系統(tǒng)的工作方法,該方法包括以下步驟
(1)構建語義本體,用XML文檔描述本體,在構建好本體以后,通過解析XML文檔,將本體存儲到數(shù)據庫中,便于其它模塊使用;具體構建步驟如下
(1-1)確定領域本體層次,將領域本體設計成層次型的結構,分為三個層次,事件層,模板層和概念層,并采用XML文檔存儲本體;
(1-2)定義常用的事件,每個事件都用模板來具體化;
(2)智能爬蟲爬取模塊從互聯(lián)網上采集輿情信息,并存儲到數(shù)據庫中;具體步驟如下 (2-1)在數(shù)據庫中定義需要采集信息的網站來源,包括新聞網站,論壇以及博客,并統(tǒng)
一分成兩類,即全國性的網站,和非全國性的網站;
(2-2)智能爬蟲爬取模塊在指定網站來源爬取指定時間內的網頁,下載與本體中定義的事件相關的網頁,過濾掉大量與要監(jiān)控的輿情無關的網頁;具體爬取過程如下
(2-2-1)通過本體中定義的事件對網頁進行分析,以此將與要監(jiān)控的事件無關的鏈接過濾掉,剩下與事件有關的網絡鏈接,將這些與事件有關的鏈接保留下來,并把它們存入等待抓取網頁的URL隊列里面;
(2-2-2)完成上一步后,根據預先定義的搜索策略,舉例來說,搜索策略為地域(云南麗江)+時間(I年以內發(fā)表的)+本體概念層拆分出來的關鍵詞(例如貪污I腐敗),根據這些信息來綜合搜索;從前面存入的URL隊列中選出根據本搜索策略抓取的網頁所對應的URL,重復過程(2-2-1),當滿足了系統(tǒng)預設的停止條件后即所有滿足條件的網站都以被標記則停止爬取過程;
(2-3)信息預處理,對步驟(2-2)中爬取的網頁信息進行處理,具體處理過程如下(2-3-1)對web文檔去web標簽,采用htmlparser包提供的方法;
(2-3-2)提取web文檔的標題和正文;
(2-3-3)抽取web文檔發(fā)表的精確的時間;
(2-3-4) web文檔中有很多帶鏈接的文字,對后續(xù)分析會產生一定的噪音,去掉文檔中帶鏈接的文字;
(2-4)如果經預處理格式化后的網頁與已經采集到的網頁不重復就將下載的格式化后的網頁文件儲存到本地,供后續(xù)步驟使用,并將本地路徑存儲到數(shù)據 庫中以便讀取本地文件;下載的時候存儲的格式設定的為標題,內容,日期,網址,網站名;
(3)命名實體抽取模塊、概念智能識別模塊、基于語義的傾向性分析模塊、話題自動抽取模塊對采集到的輿情信息進行智能分析和加工;具體步驟如下
(3-A)命名實體自動抽取,自動對輿情監(jiān)測的內容中包含的人物名稱、地點名稱和組織機構的名稱即命名實體進行識別,并提取與之相關的信息;采用基于CRFs模型和規(guī)則的命名實體識別,基于CRFs的中文命名實體識別,關鍵在于抽取命名實體的合適特性,通過對中文命名實體的特點進行分析定義命名實體的特征,規(guī)則方法最主要利用到兩種信息,命名實體用字分類和限制性成分,即分析過程中,如果掃描到具有明顯特征的命名實體用字時,便開始觸發(fā)命名實體抽取過程,并且采集命名實體前后相關的成分,對命名實體的前后位置進行相應的限制;
(3-B)概念智能識別,采用基于概念的識別搜索機制,通過自動識別出意義相同的概念,從采集到的輿情信息中過濾無關的信息,得到對某一概念較高準確率的搜索結果;在本體中添加一個關鍵詞時,同時會添加該關鍵詞的同義詞,近義詞以及網絡特殊說法,這一系列的關鍵詞就形成了一個宏觀的概念,概念智能識別的步驟如下
(3-B-1)找到經預處理格式化后的網頁文檔中的關鍵詞;種子這個概念在某種程度上是為了反應一個漢字在一個文本或者文本聚類中的顯著程度,為了找到那些能夠代表一個文本完整概念的較長的關鍵詞,首先要識別關鍵詞的一個種子,然后依次擴散獲得整個關鍵詞;識別關鍵詞的一個種子的方法如下
假設r是參考文本集,參考文本集包括文本集合和其它的統(tǒng)計大文本集合,d是一個文本或者文本集合,W是文本d中的單個漢字,那么用Pr(W)和Pd (W)來表示w分別在r和d中出現(xiàn)個概率;我們用條件一,稱作W在d和!■中的相對概率或者叫W在d和!■中的顯著度來衡量W是否是一個種子;
條件一,Pd(W) / Pr(W)
如果w滿足Pd(w) / Pr(W)彡δ,δ為50,那么就把w選作一個種子;
然后進行關鍵詞抽取,主要采用基于種子擴散的關鍵詞抽取算法,給出一文本d中一個關鍵詞所應該滿足的條件
條件I,一個關鍵詞至少要包含一個種子
條件2,一個關鍵詞在文本d中至少要出現(xiàn)N次,N為4
條件3,一個關鍵詞的長度要小于L,L為16
條件4,同時滿足條件1,2和3的最大字符串是一個關鍵詞
條件5,如果有一個最大真子串,在不考慮它在所有包含它的關鍵詞串中出現(xiàn)的頻率的情況下,仍然同時滿足條件1,2和3,那么它仍然可以算作是一個關鍵詞;這里所說的同時滿足條件1,2和3的最大字符串指的是同時滿足條件1,2和3的相鄰的漢字字符串,并且,沒有其他包含這個串的更長字符串同時滿足條件I,2和3,一個同時滿足條件1,2和3的最大真子串指的是不存在更大的真子串包含它并且同時滿足這三個條件;
(3-B-2)將得到的關鍵詞與已有的概念進行詞匯相似度分析,如果相似度大于某個固定的閾值,根據實驗結果經驗值,這個閾值設為O. 8,就將該種子加入已有的概念中,判定為意義相同的概念,如果沒有相似的,就定義一個新的概念;詞語相似度就是兩個詞語在不同的上下文中可以互相替換使用而不改變文本的句法語義結構的程度,在實際的應用過程中,可以利用詞匯之間的距離來計算相似度,對于兩個詞語Wj和W2,記其相似度為Sim(Wp 0,其詞語距離為仿i^ 0,那么可以定義一個滿足以上條件的簡單的轉換關系
權利要求
1.一種基于語義的網絡智能輿情監(jiān)測系統(tǒng),其特征是該系統(tǒng)包括智能爬蟲爬取模塊、命名實體抽取模塊、概念智能識別模塊、基于語義的傾向性分析模塊、話題抽取模塊和智能統(tǒng)計分析模塊,所述智能爬蟲爬取模塊用于從互聯(lián)網上采集輿情信息,并存儲到數(shù)據庫中,所述命名實體抽取模塊、概念智能識別模塊、基于語義的傾向性分析模塊、話題自動抽取模塊用于對輿情信息進行智能分析和加工,所述智能統(tǒng)計分析模塊把輿情信息中經過分析處理的數(shù)據以各種形式展現(xiàn)給用戶并提供預警。
2.如權利要求I所述的一種基于語義的網絡智能輿情監(jiān)測系統(tǒng)的工作方法,其特征在于該方法包括以下步驟 (1)構建語義本體,用XML文檔描述本體,在構建好本體以后,通過解析XML文檔,將本體存儲到數(shù)據庫中,便于其它模塊使用;具體構建步驟如下 (1-1)確定領域本體層次,將領域本體設計成層次型的結構,分為三個層次,事件層,模板層和概念層,并采用XML文檔存儲本體; (1-2)定義常用的事件,每個事件都用模板來具體化; (2)智能爬蟲爬取模塊從互聯(lián)網上采集輿情信息,并存儲到數(shù)據庫中;具體步驟如下 (2-1)在數(shù)據庫中定義需要采集信息的網站來源,包括新聞網站,論壇以及博客,并統(tǒng)一分成兩類,即全國性的網站,和非全國性的網站; (2-2)智能爬蟲爬取模塊在指定網站來源爬取指定時間內的網頁,下載與本體中定義的事件相關的網頁,過濾掉大量與要監(jiān)控的輿情無關的網頁;具體爬取過程如下 (2-2-1)通過本體中定義的事件對網頁進行分析,以此將與要監(jiān)控的事件無關的鏈接過濾掉,剩下與事件有關的網絡鏈接,將這些與事件有關的鏈接保留下來,并把它們存入等待抓取網頁的URL隊列里面; (2-2-2)完成上一步后,根據預先定義的搜索策略,從前面存入的URL隊列中選出根據本搜索策略抓取的網頁所對應的URL,重復過程(2-2-1),當滿足了系統(tǒng)預設的停止條件后即所有滿足條件的網站都已被標記則停止爬取過程; (2-3)信息預處理,對步驟(2-2)中爬取的網頁信息進行處理,具體處理過程如下 (2-3-1)對web文檔去web標簽,采用htmlparser包提供的方法; (2-3-2)提取web文檔的標題和正文; (2-3-3)抽取web文檔發(fā)表的精確的時間; (2-3-4) web文檔中有很多帶鏈接的文字,對后續(xù)分析會產生一定的噪音,去掉文檔中帶鏈接的文字; (2-4)如果經預處理格式化后的網頁與已經采集到的網頁不重復就將下載的格式化后的網頁文件儲存到本地,供后續(xù)步驟使用,并將本地路徑存儲到數(shù)據庫中以便讀取本地文件;下載的時候存儲的格式設定的為標題,內容,日期,網址,網站名; (3)命名實體抽取模塊、概念智能識別模塊、基于語義的傾向性分析模塊、話題自動抽取模塊對采集到的輿情信息進行智能分析和加工;具體步驟如下 (3-A)命名實體自動抽取,自動對輿情監(jiān)測的內容中包含的人物名稱、地點名稱和組織機構的名稱即命名實體進行識別,并提取與之相關的信息;采用基于CRFs模型和規(guī)則的命名實體識別,基于CRFs的中文命名實體識別,關鍵在于抽取命名實體的合適特性,通過對中文命名實體的特點進行分析定義命名實體的特征,規(guī)則方法最主要利用到兩種信息,命名實體用字分類和限制性成分,即分析過程中,如果掃描到具有明顯特征的命名實體用字時,便開始觸發(fā)命名實體抽取過程,并且采集命名實體前后相關的成分,對命名實體的前后位置進行相應的限制; (3-B)概念智能識別,采用基于概念的識別搜索機制,通過自動識別出意義相同的概念,從采集到的輿情信息中過濾無關的信息,得到對某一概念較高準確率的搜索結果;在本體中添加一個關鍵詞時,同時會添加該關鍵詞的同義詞,近義詞以及網絡特殊說法,這一系列的關鍵詞就形成了一個宏觀的概念,概念智能識別的步驟如下 (3-B-1)找到經預處理格式化后的網頁文檔中的關鍵詞;種子這個概念在某種程度上是為了反應一個漢字在一個文本或者文本聚類中的顯著程度,為了找到那些能夠代表一個文本完整概念的較長的關鍵詞,首先要識別關鍵詞的一個種子,然后依次擴散獲得整個關鍵詞;識別關鍵詞的一個種子的方法如下 假設r是參考文本集,參考文本集包括文本集合和其它的統(tǒng)計大文本集合,d是一個文本或者文本集合,w是文本d中的單個漢字,那么用P1Xw)和Pd (W)來表示w分別在r和d中出現(xiàn)個概率;我們用條件一,稱作W在d和!■中的相對概率或者叫W在d和!■中的顯著度來衡量W是否是一個種子; 條件一,Pd(w) / Pr(W) 如果w滿足Pd(w) / Pr(W)彡S , 6為50,那么就把w選作一個種子; 然后進行關鍵詞抽取,主要采用基于種子擴散的關鍵詞抽取算法,給出一文本d中一個關鍵詞所應該滿足的條件 條件I,一個關鍵詞至少要包含一個種子 條件2,一個關鍵詞在文本d中至少要出現(xiàn)N次,N為4 條件3,一個關鍵詞的長度要小于L,L為16 條件4,同時滿足條件1,2和3的最大字符串是一個關鍵詞 條件5,如果有一個最大真子串,在不考慮它在所有包含它的關鍵詞串中出現(xiàn)的頻率的情況下,仍然同時滿足條件1,2和3,那么它仍然可以算作是一個關鍵詞; 這里所說的同時滿足條件1,2和3的最大字符串指的是同時滿足條件1,2和3的相鄰的漢字字符串,并且,沒有其他包含這個串的更長字符串同時滿足條件I,2和3,一個同時滿足條件1,2和3的最大真子串指的是不存在更大的真子串包含它并且同時滿足這三個條件; (3-B-2)將得到的關鍵詞與已有的概念進行詞匯相似度分析,如果相似度大于某個固定的閾值,根據實驗結果經驗值,這個閾值設為0.8,就將該種子加入已有的概念中,判定為意義相同的概念,如果沒有相似的,就定義一個新的概念;詞語相似度就是兩個詞語在不同的上下文中可以互相替換使用而不改變文本的句法語義結構的程度,在實際的應用過程中,可以利用詞匯之間的距離來計算相似度,對于兩個詞語Wj和W2,記其相似度為Sim(Wp 0,其詞語距離為仿i^ 0,那么可以定義一個滿足以上條件的簡單的轉換關系
全文摘要
本發(fā)明屬于自然語言處理領域,特別涉及一種基于語義的網絡智能輿情監(jiān)測系統(tǒng)及其工作方法,該方法采用智能爬蟲技術、命名實體抽取技術、概念智能識別技術、基于語義的傾向性分析技術、話題抽取技術、智能統(tǒng)計分析等;其搜索的結果不是簡單的包含某個或某類關鍵詞的網頁集合,而是與所設定的監(jiān)測事件具有相同語義(即在意義上相同)的文本信息,具有較高的準確率。
文檔編號G06F17/27GK102708096SQ20121017086
公開日2012年10月3日 申請日期2012年5月29日 優(yōu)先權日2012年5月29日
發(fā)明者代松, 姬東鴻 申請人:代松