一種實現對熱點事件從開始到結束實現完整檢測的方法
【專利摘要】本發明涉及到一種實現對熱點事件從開始到結束實現完整檢測的方法,在輿情分析系統中信息獲取和處理以定期更新的方式進行,每當數據更新后,針對于數據源發掘出來的各種信息必須更新,對新數據的更新采取增量聚類算法,首先設定T1,T2(T1>T2)兩個文檔相似閾值,保留之前文檔類簇的中心文檔設為本次聚類的中心點,對于新輸入的新文檔與以前生成的所有類簇進行相似比較,根據不同的比較結果將文檔分別歸入現有類簇或新建主題類簇。本發明的方法具有簡單高效的優點,能夠實現對于一個熱點事件從開始到結束的完整檢測。
【專利說明】一種實現對熱點事件從開始到結束實現完整檢測的方法
【技術領域】
[0001]本發明涉及到語音智能處理,特別涉及到輿情檢測時對熱點事件發現和跟蹤的技術,具體是一種實現對熱點事件自始至終實現完整檢測的方法。
【背景技術】
[0002]自然語言處理技術主要用于文本的內容分析,關鍵技術包括中文分詞、詞法分析、句法分析和語義分析等。在這些關鍵技術中,中文分詞(ChineseWordSegmentat1n)是指將一個漢字序列切分成一個一個單獨的詞,而詞法分析一個主要的任務就是標注每個詞在上下文中的詞性,詞性標注也經過了從規則方法到統計方法的過程。句法分析(Parsing)則是指對句子中的詞語語法功能進行分析,比如“我來晚了”,這里“我”是主語,“來”是謂語,“晚了”是補語。最后,語義分析是編譯過程的一個邏輯階段,語義分析的任務是對結構上正確的源程序進行上下文有關性質的審查,進行類型審查。
[0003]在現有技術中,研究較多的是如何利用統計規則結合簡單的語義技術來提高中文信息處理系統的功能,而對自然語言處理技術的語義分析和語法分析還需要進行更高層次的研究才能取得實質性應用。在輿情檢測熱點發現和事件跟蹤時,需要對文本數據進行挖掘,以提取熱點事件并持續進行跟蹤和分析。在進行文本數據挖掘和更新時,用到了文本聚類與文本分類。上述輿情分析相關技術盡管在有些方面已經比較成熟,但仍有很多地方需要改善,無法適應各個實用領域對輿情監控的要求,輿情監控技術的發展空間還很大。比如在數據源挖掘出來的各種信息必須進行更新,而更新數據時通常是先將新的數據更新進來,再對所有數據重新進行類聚算法。這種技術具有簡潔明了的優點,但在面對龐大的數據集合時,其效率成為最大的問題,更為嚴重的是該聚類算法是基于內存的算法,在小數據集合時尚且可以應付,但面對大數據集合時根本無法工作,另外重新執行一次也會造成計算上面的巨大浪費。傳統的熱點事件檢索采用聚類法(如K均值聚類法)缺點很明顯,首先它需要用戶在執行聚類之前就有明確的聚類個數的設置,這一點是用戶在處理大部分問題時都不太可能事先知道的,一般需要通過多次試驗找出一個最優的K值;其次就是,由于算法在最開始采用隨機選擇初始聚類中心的方法,所以算法對噪音和孤立點的容忍能力較差。
【發明內容】
[0004]本發明專利的目的在于克服上述輿情分析技術中存在的不足,提供一種實現對熱點事件從開始到結束實現完整檢測的方法。本發明的方法能在輿情分析時快速地完成數據更新,實現熱點事件從開始到結束的完整檢測。
[0005]為了達到上述發明目的,本專利提供的技術方案如下:
一種實現對熱點事件從開始到結束實現完整檢測的方法,在輿情分析系統中信息獲取和處理是以定期更新的方式進行,每當數據更新后,針對于數據源發掘出來的各種信息必須更新,其特征在于,新數據的更新采取增量聚類算法,若采用增量聚類算法需要執行如下步驟:
第一步,設定Tl和T2兩個文檔相似閾值,且Tl > T2,保留之前文檔類簇的中心文檔,更新增量數據前需要先將之前類簇的中心文檔設為本次聚類的中心點;
第二步,新輸入一篇的新文檔,要求其與以前生成的所有類簇進行相似比較,若該新文檔與之前的某個類簇的相似度大于Tl,則直接屬于該類簇,且該文檔將不與其他類簇比較,聚類并作為該類簇的熱點事件,程序結束;
第三步,若該新文檔與之前的某個類簇的相似度值大于T2且小于Tl,則該新文檔屬于該類簇,然后重復第三步再繼續與其他類簇進行比較,比較后進入第四步;
第四步,若該新文檔與之前的全部類簇相似度小于T2,則將該新文檔作為新的主題類簇,聚類并形成熱點事件,程序結束。
[0006]在本發明實現對熱點事件從開始到結束實現完整檢測的方法中,所述的新文檔和中心文檔進行相似度比較時,使用最長公共子序列長度與比較文檔長度相除得到的結果作為相似度量。
[0007]在本發明實現對熱點事件從開始到結束實現完整檢測的方法中,所述信息獲取采用網絡爬蟲的方式,獲取的信息需要進行預處理,包括網頁自動提出文章標題以及文章內容。
[0008]在本發明實現對熱點事件從開始到結束實現完整檢測的方法中,所述信息獲取和預處理是以定期更新的方式進行。
[0009]在本發明實現對熱點事件從開始到結束實現完整檢測的方法中,作為另一種實現形式,文檔相似度使用的是先分詞,計算tf/idf將文檔轉化為向量,然后使用歐式距離或者余弦相似度作為相似度量。
[0010]基于上述技術方案,本發明專利的實現對熱點事件從開始到結束實現完整檢測的方法與現有技術相比,具有如下技術優點:
本發明的方法在聚類前加入了前置處理,首先應用成本低的近似的距離計算方法高效的將數據分為多個組,組之間可以有重疊的部分;然后采用嚴格的距離計算方式準確的計算在同一組中的點,將他們分配與最合適的簇中。本方法能夠實現找到合適的k值和簇中心,并降低聚類算法的時間與空間復雜度。
【專利附圖】
【附圖說明】
[0011]圖1是本發明實現對熱點事件從開始到結束實現完整檢測的方法的操作流程示意圖。
【具體實施方式】
[0012]下面我們結合附圖和具體的實施例來對本發明專利實現對熱點事件從開始到結束實現完整檢測的方法進行詳細描述,以更為清楚明了地理解其實現原理和工作流程,但不能以此來限制本發明的保護范圍。
[0013]本發明是一種實現對熱點事件從開始到結束實現完整檢測的方法,在輿情分析系統中信息獲取和處理是以定期更新的方式進行,每當數據更新后,針對于數據源發掘出來的各種信息必須更新,在本發明中新數據的更新采取增量聚類算法。
[0014]如圖1所示,本發明是采用聚類算法來實現熱點事件的檢測的,在實施時需要執行如下步驟:
第一步,設定Tl和T2兩個文檔相似閾值,且Tl > T2,保留之前文檔類簇的中心文檔,更新增量數據前需要先將之前類簇的中心文檔設為本次聚類的中心點;
第二步,新輸入一篇的新文檔,要求其與以前生成的所有類簇進行相似比較,若該新文檔與之前的某個類簇的相似度大于Tl,則直接屬于該類簇,且該文檔將不與其他類簇比較,聚類并作為該類簇的熱點事件,程序結束;
第三步,若該新文檔與之前的某個類簇的相似度值大于T2且小于Tl,則該新文檔屬于該類簇,然后重復第三步再繼續與其他類簇進行比較,比較后進入第四步;
第四步,若該新文檔與之前的全部類簇相似度小于T2,則將該新文檔作為新的主題類簇,聚類并形成熱點事件,程序結束。
[0015]在上述第一步、第二步和第三步中,新文檔和中心文檔進行相似度比較時,使用最長公共子序列長度與比較文檔長度相除得到的結果作為相似度量。
[0016]在本發明實現對熱點事件從開始到結束實現完整檢測的方法中,所述信息獲取采用網絡爬蟲的方式,獲取的信息需要進行預處理,包括網頁自動提出文章標題以及文章內容。所述信息獲取和預處理是以定期更新的方式進行。
[0017]在本發明實現對熱點事件從開始到結束實現完整檢測的方法中,作為另一種實現形式,文檔相似度使用的是先分詞,計算tf/idf將文檔轉化為向量,然后使用歐式距離或者余弦相似度作為相似度量。這個方法是常用的文檔相似度比較方法,其技術效果要比以上的方法稍差。
【權利要求】
1.一種實現對熱點事件從開始到結束實現完整檢測的方法,在輿情分析系統中信息獲取和處理以定期更新的方式進行,每當數據更新后,針對于數據源發掘出來的各種信息必須更新,其特征在于,新數據的更新采取增量聚類算法,若采用增量聚類算法需要執行如下步驟: 第一步,設定T1和T2兩個文檔相似閾值,且ΤΙ > T2,保留之前文檔類簇的中心文檔,更新增量數據前需要先將之前類簇的中心文檔設為本次聚類的中心點; 第二步,新輸入一篇的新文檔,要求其與以前生成的所有類簇進行相似比較,若該新文檔與之前的某個類簇的相似度大于T1,則直接屬于該類簇,且該文檔將不與其他類簇比較,聚類并作為該類簇的熱點事件,程序結束; 第三步,若該新文檔與之前的某個類簇的相似度值大于T2且小于T1,則該新文檔屬于該類簇,然后重復第三步再繼續與其他類簇進行比較,比較后進入第四步; 第四步,若該新文檔與之前的全部類簇相似度小于T2,則將該新文檔作為新的主題類簇,聚類并形成熱點事件,程序結束。
2.根據權利要求1所述的一種實現對熱點事件從開始到結束實現完整檢測的方法,其特征在于,所述的新文檔和中心文檔進行相似度比較時,使用最長公共子序列長度與比較文檔長度相除得到的結果作為相似度量。
3.根據權利要求1所述的一種實現對熱點事件從開始到結束實現完整檢測的方法,其特征在于,所述信息獲取采用網絡爬蟲的方式,獲取的信息需要進行預處理,包括網頁自動提出文章標題以及文章內容。
4.根據權利要求2所述的一種實現對熱點事件從開始到結束實現完整檢測的方法,其特征在于,所述信息獲取和預處理是以定期更新的方式進行。
5.根據權利要求1所述的一種實現對熱點事件從開始到結束實現完整檢測的方法,文檔相似度使用的是先分詞,計算tf/idf將文檔轉化為向量,然后使用歐式距離或者余弦相似度作為相似度量。
【文檔編號】G06F17/24GK104462041SQ201410697880
【公開日】2015年3月25日 申請日期:2014年11月28日 優先權日:2014年11月28日
【發明者】王正明 申請人:上海埃帕信息科技有限公司