一種基于關聯規則的Web評論觀點自動分類系統及分類方法
【專利摘要】本發明公開了一種基于關聯規則的Web評論觀點自動分類系統及分類方法,可分為四個模塊:頻繁特征詞提取模塊,頻繁特征詞優化模塊,關聯規則提取與挖掘模塊以及觀點分類模塊。本發明克服了現有系統(如一些基于機器學習和情感分類的系統)精度低或者是需要大量人工參與或者過分依賴自然語言處理和專業知識的缺點。并且在關聯規則集提取的過程中進行了優化,去除了冗余,區分度不高的關聯規則,這樣一來就提高了整個系統運行和獲取結果的效率。本系統為多種情況,如電商商品評價,電子政務回饋,網民民意調查等提供了一種精確便捷的解決方案。
【專利說明】一種基于關聯規則的Web評論觀點自動分類系統及分類方法
【技術領域】
[0001]本發明涉及一種基于關聯規則的Web評論觀點自動分類系統及分類方法,屬于語義處理【技術領域】。
【背景技術】
[0002]傳統的文本觀點分類方法有基于機器學習的觀點分類,基于情感分析的觀點分類。
[0003]基于機器學習的方法將文本分類中的機器學習算法直接用于觀點分類,觀點分類任務上的準確率通常要低于面向其它類別主題的文本分類任務的準確率。其原因是Web中的觀點文本涉及到人的情感表述,是一種主題很特殊的文本內容,其語義隱晦程度要高于客觀描述性的文本,例如,表述“批評”觀點的評論往往可能帶有表示諷刺意義的褒義詞,相反的情況也同樣存在,這些特殊的模式是統計學習方法很難判斷的。
[0004]基于情感分析的觀點分類是將文本中的單元例如單詞或短語的情感傾向量化為一個實數值測度,然后通過分析文本中所有單詞或短語的情感傾向來確定句子和整個文檔所表達的觀點傾向。單詞和短語的情感分析除了考慮單詞權重和高階詞之外,還要考慮位置、詞性、句法結構等屬性,因此本類方法的特點是高度依賴于自然語言處理工具和人工知識。自然語言處理的結果好壞和人工知識的完備程度直接影響分類結果。
【發明內容】
[0005]本發明技術解決問題:克服現有技術的不足,提供一種基于關聯規則的Web評論觀點自動分類系統及分類方法,不需要大量的人工參與,自動性高,也不過分依賴中文語言的處理優劣,并且保證了分類系統結果輸出的精度。
[0006]本發明技術解決方案之一,包括四個模塊:頻繁詞集提取模塊,頻繁詞集優化模塊,最優關聯規則挖掘模塊,文本觀點分類模塊。系統結構圖如圖1所示,虛線內為本系統范疇。
[0007]頻繁詞集提取模塊:數據預處理,把網頁中獲取的文本除去“是” “我”等常見卻無用的詞語(降噪),并且用有代表性的詞語表示,該部分不是本發明的發明,本發明只是使用了該部分將原始文本用特征詞表示出來,得到候選詞集。該模塊的輸入為候選詞集,這一部分詞集是從文本中提取的能代表觀點的詞語的集合。對候選詞集采用Apriori算法,這一算法是數據挖掘中的經典算法。通過寬度優先的策略自底向上逐級生成各項頻繁項目集。算法由初始的一維頻繁集開始迭代,在每一輪迭代中,k項集均由k -1項集生成。Apriori算法中的頻繁集的剪枝依賴于“向下封閉屬性”:頻繁項集的所有非空子集都是頻繁的,即如果一個項集不是頻繁項集,那么它的所有超集必然不是頻繁項集。這一性質大大減少了候選頻繁項集的數目。盡管如此,由于Apriori需要多次搜索數據庫,其時間復雜度仍然較大,并且如果結果直接用于關聯規則挖掘,效果并不理想,所以需要進行下一步優化。[0008]頻繁詞集優化模塊:假定文本集合包含η個文本類別Iclass1,…class」,…classj ,在上一步產生的頻繁詞集中,令FS表示頻繁詞集,t為頻繁詞集FS中的詞條。計算每一個詞條t在類別中i中的支持度Sup(t)it)而一個頻繁詞集的在類別i中的支持度就是其所有包含詞條在該類中的最低支持度=Sup(FS)i=Iiiin {Sup (O1, Sup (t)2——Sup (t)J。算出每個Sup (FS) 土之后,根據公式(2.1)計算AD - Sup:
【權利要求】
1.一種基于關聯規則的Web評論觀點自動分類系統,其特征在于包括:頻繁詞集提取模塊,頻繁詞集優化模塊,最優關聯規則挖掘模塊,文本觀點分類模塊,其中: 頻繁詞集提取模塊,輸入候選詞集本發明的系統,所述候選詞集是從文本中提取的能代表觀點的詞語的集合,對候選詞集采用Apriori算法,通過寬度優先的策略自底向上逐級生成各項頻繁項目集,送至頻繁詞集優化模塊; 頻繁詞集優化模塊:在頻繁詞集提取模塊產生的頻繁詞集中,令FS表示頻繁詞集,t為頻繁詞集FS中的詞條,計算每一個詞條t在類別中i中的支持度Sup(t)i,而一個頻繁詞集的在類別i中的支持度就是其所有包含詞條在該類中的最低支持度=Sup(FS)^min {Sup (t)1; Sup(t)2——Sup (t) J ,計算出每個Sup (FS) i之后,根據公式(2.1)計算支持度均方差AD - Sup:
2.一種基于關聯規則的Web評論觀點自動分類方法,其特征在于實現步驟如下: (1)頻繁詞集提取 將候選詞集輸入至本發明的系統,所述候選詞集是從文本中提取的能代表觀點的詞語的集合,對候選詞 集采用Apriori算法,通過寬度優先的策略自底向上逐級生成各項頻繁項目集; (2)頻繁詞集優化:在步驟(I)產生的頻繁詞集中,令FS表示頻繁詞集,t為頻繁詞集FS中的詞條,計算每一個詞條t在類別中i中的支持度SupUh,而一個頻繁詞集的在類別i中的支持度就是其所有包含詞條在該類中的最低支持度=Sup(FS)^min {Sup (t)1; Sup(t)2——Sup (t) J ,計算出每個Sup (FS) i之后,根據公式(2.1)計算支持度均方差AD - Sup:
【文檔編號】G06F17/30GK103473262SQ201310301065
【公開日】2013年12月25日 申請日期:2013年7月17日 優先權日:2013年7月17日
【發明者】袁滿, 歐陽元新, 皇甫垚, 熊璋 申請人:北京航空航天大學