一種多模型融合的短文本分類方法
【專利說明】一種多模型融合的短文本分類方法 【技術(shù)領域】
[0001] 本發(fā)明屬于智能信息處理和計算機技術(shù)領域,具體涉及一種短文本分類方法。 【【背景技術(shù)】】
[0002] 隨著互聯(lián)網(wǎng)快速發(fā)展,各種網(wǎng)絡應用深入到社會生活的方方面面。以微博、微信為 代表的各種社交應用,以及各種網(wǎng)絡評論、反饋機制已經(jīng)成為現(xiàn)代社會發(fā)布和獲取信息的 重要渠道。在微博上,網(wǎng)民可以表達自己的心情、經(jīng)歷以及感悟,政府可以發(fā)布通告和各種 信息,人們也可以自由地表達對某些事的觀點和見解等等。
[0003] 微博、微信、網(wǎng)絡評論等數(shù)據(jù)都是字數(shù)有限的文本信息。這些數(shù)據(jù)都是典型的文本 短文,即短文本。通過對微博類短文本數(shù)據(jù)進行挖掘,可以獲取社會關(guān)注熱點、群眾呼聲和 意見反饋、突發(fā)事件傳播、輿論傾向等等影響社會輿情的重要信息,可以為相關(guān)部門及時快 速地收集傳遞公民意見和建議。
[0004] 短文本挖掘的一個基本應用就是對短文本進行分類,根據(jù)文本內(nèi)容對文本進行分 門別類地匯總。自然語言文本包含著復雜的信息。一篇文本往往可以對應多個分類目標。也 就是說,短文本分類是一個復雜的多標簽分類問題。解決分類問題常用的方法包括樸素貝 葉斯分類、決策樹分類、支持向量機分類、神經(jīng)網(wǎng)絡分類等等。但是這些單一分類方法的適 應性和分類效果在實踐應用中還不能完全滿足需求。 【
【發(fā)明內(nèi)容】
】
[0005] 本發(fā)明的目的在于提供一種多模型融合的短文本分類方法,能夠?qū)Χ涛谋具M行比 較準確的多標簽分類。
[0006] 為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
[0007] -種多模型融合的短文本分類方法,包括學習方法和分類方法兩部分;
[0008] 1)、學習方法包括以下步驟:
[0009] (11)對短文本訓練數(shù)據(jù)進行分詞、過濾,得到單詞集合;
[0010] (12)計算單詞集合中每個單詞的IDF值;
[0011] (13)每一個訓練文本求取該文本內(nèi)所有單詞的TFIDF值,然后構(gòu)建成文本向量,即 得到VSM文本向量;
[0012] (14)基于VSM文本向量進行文本聚類,并由聚類結(jié)果構(gòu)建出本體樹模型,然后在本 體樹基礎上構(gòu)建出關(guān)鍵字重疊模型;基于VSM文本向量構(gòu)建出樸素貝葉斯模型;基于VSM文 本向量構(gòu)建出支持向量機模型;
[0013] 2)、分類方法包括以下步驟:
[0014] (21)對待分類文本進行分詞、過濾;
[0015] (22)每一個待分類文本求取其所有單詞的TFIDF值,然后構(gòu)建成文本向量,即得到 VSM文本向量;
[0016] (23)應用學習方法所獲得的本體樹模型進行文本分類得到其分類結(jié)果;應用學習 方法所獲得的關(guān)鍵字重疊模型進行文本分類得到其分類結(jié)果;應用學習方法所獲得的樸素 貝葉斯模型進行文本分類得到其分類結(jié)果;應用學習方法所獲得的支持向量機模型進行文 本分類得到其分類結(jié)果;
[0017] (24)對上述4種單一模型分類結(jié)果進行融合,得到最終分類結(jié)果。
[0018] 進一步的,學習方法第(11)步對文本進行分詞、過濾具體包括以下步驟:
[0019] (111)對文本數(shù)據(jù),用中文分詞工具進行分詞,將每一個句子分割成一系列單詞及 其詞性;
[0020] (112)對每個單詞按照其詞性進行過濾,濾除不需要的單詞,共有兩種過濾機制。 第一種過濾機制不需要的單詞包括:停用詞,長度為1的單詞,純數(shù)字以及以數(shù)字開頭的單 詞。保留的單詞包括:名詞、機構(gòu)團體名、其它專名、名詞性慣用語、名詞性語素、動詞、名動 詞、趨向動詞、形式動詞、不及物動詞(內(nèi)動詞)、動詞性慣用語、動詞性語素。第二種過濾機 制不需要的單詞包括:代詞、量詞、介詞、連詞、助詞、嘆詞、語氣詞、擬聲詞、標點符號;
[0021] (113)由所有文本數(shù)據(jù)過濾后的單詞生成單詞集合。
[0022] 進一步的,構(gòu)建關(guān)鍵字重疊模型具體包括以下步驟:
[0023] (141)對同一類別的文本訓練數(shù)據(jù)用TBC方法進行聚類;
[0024] (142)合并聚類結(jié)果中的小簇,合并后的簇心向量為被合并訓練短文本向量的平 均值;
[0025] (143)重復(141)和(142),直到所有類別都完成;
[0026] (144)由聚類結(jié)果生成本體樹模型;一個類別的聚類結(jié)果,對應著一個子樹;在該 子樹中,父節(jié)點是類別名稱,下一層是簇標簽節(jié)點,與聚類得到的簇一一對應,簇標簽節(jié)點 由簇心向量前m(m默認值為50)個權(quán)重最大的詞語及其權(quán)重組成,葉子節(jié)點則對應該簇中原 始的訓練短文本;構(gòu)建本體樹的抽象根節(jié)點root,所有類別的子樹作為root的子節(jié)點;得到 并保存本體樹模型;
[0027] (145)由本體樹生成關(guān)鍵字重疊模型;統(tǒng)計一個類別中所有簇標簽中單詞的出現(xiàn) 次數(shù),并從大到小進行排序;按照下式計算類別c沖關(guān)鍵詞k的局部權(quán)重W(Cl,tj):
[0028]
[0029] 其中,f(Ci,tj)表示關(guān)鍵詞tj在類別Ci中的排位次序;類別Ci中出現(xiàn)最多的關(guān)鍵詞 排位為〇,出現(xiàn)次多的關(guān)鍵詞排位為1,依次類推;m表示類別(^的中不同單詞的數(shù)目,b(b默 認值為0.2)為用戶設置的系統(tǒng)參數(shù);
[0030] 然后統(tǒng)計關(guān)鍵詞k在所有類別中的次數(shù),根據(jù)下式計算關(guān)鍵詞h的全局權(quán)重w(tj)
[0031]
[0032] 其中,f(tj表示關(guān)鍵詞k在多少個類別中出現(xiàn)過,N表示所有不同單詞的數(shù)目;記 錄每個關(guān)鍵詞在每個類別中的局部權(quán)重,及其全局權(quán)重,保存為關(guān)鍵字重疊模型;
[0033] 構(gòu)建樸素貝葉斯模型具體包括以下步驟:
[0034] (151)對于所有訓練文本統(tǒng)計分別每個類別的出現(xiàn)概率P(Cl),其中Cl表示一個類 別;
[0035] (152)對單詞集中的每一個單詞,統(tǒng)計該單詞在每個類別出現(xiàn)概率P(k I Cl),其中 Ci表不一個類別,tj表不一個單詞;
[0036] (153)將上述類別和單詞所對應的概率值保存到文件中,構(gòu)成樸素貝葉斯模型;
[0037] 構(gòu)建支持向量機模型具體包括以下步驟:
[0038] (161)把訓練數(shù)據(jù)轉(zhuǎn)換成支持向量機軟件包1^131^11冊#斤需數(shù)據(jù)格式;
[0039] (162)利用LibLinear訓練支持向量機模型;
[0040] (163)將訓練結(jié)果保存為支持向量機模型。
[0041 ]進一步的,TBC方法具體包括以下步驟:
[0042] (1411)取第一條數(shù)據(jù)單獨為一個簇,并作為簇中心;
[0043] (1412)依次取后續(xù)數(shù)據(jù)并計算該數(shù)據(jù)與當前所有簇中心的余弦相似性;如果該相 似度大于給定閾值(默認值為0.09)則將該數(shù)據(jù)放入與其相似度最大的簇中,并調(diào)整該簇中 心;如果該相似度小于給定閾值則將該數(shù)據(jù)單獨生成一個簇,并作為簇中心;
[0044] (1413)按照上述過程把所有數(shù)據(jù)處理完之后,再次遍歷所有數(shù)據(jù),依次取一條數(shù) 據(jù),計算該數(shù)據(jù)與當前所有簇中心的余弦相似度,然后將該數(shù)據(jù)放入與其最相似的簇中;如 此處理完一遍所有數(shù)據(jù)并調(diào)整當前所有的簇中心;
[0045] (1414)如果簇中心有變化,則重復過程(1413)直至簇中心不再變化為止;當簇中 心不再變化時,聚類結(jié)束。
[0046] 進一步的,應用學習方法所獲得的本體樹模型進行文本分類得到其分類結(jié)果,具 體包括以下步驟:
[0047] (231)計算待分類文本向量與本體樹中簇標簽的余弦相似度;
[0048] (232)按照相似度從大到小進行排序;
[0049] (233)選擇相似度最大的前k(k默認值為20)個簇標簽;這些簇標簽父節(jié)點所標記 類別即為待分類文本類別;
[0050] (234)相似度最大者所對應類別強度值記為20,次大者對應類別強度值減小1,后 續(xù)者依次減1;
[0051] 應用學習方法所獲得的關(guān)鍵字重疊模型進行文本分類得到其分類結(jié)果;具體包括 以下步驟:
[0052] (241)在關(guān)鍵詞重疊模型中,按照下式計算待分類文本T屬于類別(^的權(quán)重v(T, Ci):
[0053]
[0054] 其中,τ= [ti,t2,......,tn],表示待分類文本的VSM向量;w(ci,tj)表示關(guān)鍵詞重疊 模型中關(guān)鍵詞k對類別Cl的局部權(quán)重;w(tj表示關(guān)鍵詞重疊模型中關(guān)鍵詞k的全局權(quán)重; [0055] (242)重復(241),計算待分類文本對所有類別的權(quán)重;
[0056] (243)按照權(quán)重從大到小進行排序;
[0057] (244)選擇權(quán)重最大的前k(k默認值為20)個類別,這些類別即為待分類文本類別;
[0058] (245)權(quán)重最大者所對應類別強度值記為20,次大者對應類別強度值減小1,后續(xù) 者依次減1;
[0059]應用學習方法所獲得的樸素貝葉斯模型進行文本分類得到其分類結(jié)果;具體包括 以下步驟:
[0060] (251)按照下式計算待分類文本T屬于類別(^的可能性Q(Cl |T);
[0061]
[0062] 如果類別Ci中不包含關(guān)鍵詞t j (t j e T),則P(t j I Ci) = ε,ε是
[0063] (252)重復(251),計算待分類文本對所有類別的可能性;
[0064] (253)按照可能性從大到小進行排序;
[0065] (254)選擇可能性最大的前k(k默認值為20)個類別;這些類別即為待分類