一種改良的文本分類特征選擇方法
【專利摘要】本發明公開了一種改良的文本分類特征選擇方法,其中,所述一種改良的文本分類特征選擇方法包括:獲取訓練集文本;對獲取的訓練集文本分詞、去除停用詞;改良特征選擇方法,使用特征詞的文本頻率對全體詞集進行劃分,使用信息增益值對低頻詞集進行特征選擇,再通過改進的χ2統計法對高頻詞集進行特征選擇;合并兩部分特征詞形成最終分類特征詞集。采用本發明,可以通過兩次特征選擇過程,選擇出更具類別代表性的特征詞,提高分類效率和準確度。
【專利說明】
一種改良的文本分類特征選擇方法
技術領域
[0001] 本發明屬于文本挖掘技術領域,特別涉及一種改良的文本分類特征選擇方法。
【背景技術】
[0002] 隨著信息技術的發展,當今世界的信息量也在以驚人的速度不斷增加。如何在較 短的時間內迅速、有效地處理數量龐大的文本文檔,已經成為當前研究的熱點。傳統的信息 檢索技術已經不能夠滿足人們日益增加的需求,此時,文本分類技術應運而生,文本分類技 術能夠很大程度上解決文本文檔信息量大并且雜亂的問題,幫助人們檢索、查詢、過濾文檔 信息,提高信息的可用效率,同時,文本分類也是文本挖掘的重要手段。
[0003] 文本分類即在給定分類體系的前提下,根據分類體系中相應的分類規則,將待分 類文本分配到預定義的某個類別中。文本分類的過程實際上是對輸入文本內容模式特征的 識別與歸類的過程。文本分類的整個過程可以分為文本預處理、特征選擇、特征值計算、構 造分類器、待分類文本的處理及歸類這五個主要部分,其具體流程圖見圖1。
[0004] 經過文本預處理之后,用于表示文本的特征向量的維數往往非常龐大,里面可能 含有很多對文本分類無貢獻的噪音詞,導致分類效率降低,影響分類效果。特征選擇能夠通 過一定的方法保留對文本分類有一定貢獻的詞匯,降低文本向量空間的維數,提高分類器 的分類效率和分類精度。在中文文本分類中,常用的特征選擇方法主要有以下幾種:
[0005] (1)文檔頻率法(Document Frequency,DF),是指在訓練預料中出現該特征的文檔 數,其基本思想為文檔頻率較高的詞在文本集中出現的次數較多,有可能攜帶較多的類別 信息。但是采用DF的方法進行特征的選擇會漏掉低頻高信息量的詞。
[0006] (2)信息增益法(Information Gain,IG),定義為某一特征在文檔中出現前后的信 息熵之差,基本思想為通過計算某個詞能為整個分類提供多少信息量來衡量它對于分類的 重要程度,其中信息量的多少用熵來衡量。IG算法能夠解決DF算法中出現的漏掉低頻高信 息量的詞的問題,但是此算法可能導致特征詞集稀疏。
[0007] (3) x 2統計法(Chi-square,CHI),基本思想為某個詞關于類j的x 2統計值越大, 說明該詞在類j中的分布情況與該詞在總文檔中的分布情況越不一致,該詞攜帶的類別信 息也就越多。CHI算法考慮了特征詞對某一個分類的影響。但是如果出現特征詞均勻的影 響全部分類時,則無法取得很好的分類效果。
[0008] (4)互信息法(Mutual Information,MI),其基本思想與CHI算法類似,互信息值 的大小表征的是文檔與類的相關程度。此法在試驗環境下性能表現不穩定。
[0009] 由上可見,有必要設計一種更有效的特征選擇方法,以克服各特征選擇算法的不 足,選出更具類別代表性的特征詞,進而提高文本分類的準確率和召回率。
【發明內容】
[0010] 為解決現有文本分類特征選擇方法準確度差,特征性不強等不足,本發明提出了 一種基于改良特征選擇的文本分類方法。所述方案包括以下步驟:
[0011] 步驟1:獲取不同類別的一定數量文本,將其賦予類別標簽,作為文本分類的訓練 樣本集;
[0012] 步驟2 :對訓練集的文本進行預處理,包括中文分詞,去停用詞處理;
[0013] 步驟3 :使用改良的特征選擇方法對文本進行特征選擇。其特征在于,所述方法包 括:
[0014] 結合特征詞的文檔頻率(DF)對全體詞集進行劃分,具體為:將預處理后各詞按照 文檔頻率進行排序,將詞集T劃分成兩個集合:一個是文檔頻率小于某閾值的詞集TA,一個 是文檔頻率大于或等于某閾值的詞集T b。
[0015] 使用信息增益法(IG)對低文檔頻率詞集1\進行特征詞選擇,具體為:設定一個信 息增益值閾值M,計算詞集T A中各詞的信息增益值,將信息增益值小于M的詞刪掉,信息增 益值大于等于M的詞作為特征詞保留。
[0016] 使用改進的x 2統計法對高文檔頻率詞集T 8進行特征詞選擇,具體為:計算T 8中 每個詞對于各類別CHI統計值的方差;,其中
,n為類別 個數。計算得出的方差可以表征該詞在全部類中分布的不平衡性,方差值越大,分布不平衡 性越強,則該詞的分類表征能力越強,攜帶的分類信息越大。
[0017] 按照計算得出的各個詞的CHI統計值方差從高到低的順序對詞進行排序,得到詞 方差降序隊列。
[0018] 整合兩部分特征詞,形成文本分類特征詞集,具體為:指定特征詞總個數,優先選 取低文檔頻率詞集T A中的特征詞,根據選取T A后仍需要選取的特征詞個數,對應在T B的詞 方差降序隊列中選取相應個數的詞,與TA中的特征詞共同構成分類特征詞集合。
[0019] 本發明所提供的技術方案的有益效果是:
[0020] 通過DF對全詞集進行劃分,在低文檔頻率詞集中,利用IG選擇出出現頻率雖低, 但是帶有大量信息量的詞,從而同時克服單純使用IG導致特征詞集稀疏以及DF容易丟失 低頻關鍵詞的缺點;選擇對每個詞的各類的CHI統計值求方差的方式,來反映詞對于不同 類之間分布情況的"波動程度",即反映詞與類關聯度的特異性,并在高文檔頻率詞集中按 此方差值進行篩選,以進一步在高文檔頻率詞集中選出更具代表性的特征詞,最后合并兩 部分特征詞,得到更具表征性的特征詞集,在避免維度災難的同時,也可以有效的提升分類 的準確性。
【附圖說明】
[0021] 圖1是中文文本分類的一般流程。
[0022] 圖2是本發明改良后的特征選擇過程的示意圖。
【具體實施方式】
[0023] 為使本發明之目的、技術方案和優點闡述更加清晰,下面將結合附圖與實際用例, 對本發明做進一步的詳細描述。
[0024] 利用網絡爬蟲或人工收集從互聯網上獲取一定數量的多個領域中有代表性的文 章,對這些文章進行分析整理,按照類別歸入語料訓練集,作為文本分類系統的訓練樣本 集。
[0025] 為了從文本中抽取出能夠代表該文本特征的詞語,對其進行分詞、去除停用詞等 處理。
[0026] 假設訓練集E中含有n個類別:心C2, C3,. . . Cn,每個類別里含有若干個文本,訓練 集可表示為:
[0027] {E | | dn,d12,d13,…},{C21 d21,d22,d23,…},…,{Cn | dnl,dn2,dn3,…}}
[0028] 那么進行了文本預處理之后,訓練集變成了:
[0029] {E | | tn,t12,t13,…},{C211 21,t22,t23,…},…,{Cn | tnl,tn2,tn3,…}
[0030] 其中的 bQ = 1,2,…,n ;j = 1,2,…)表示文本 Ui = 1,2,…,n ;j = 1, 2,…)經過分詞和去停用詞之后留下的詞的集合。
[0031] 圖2為本發明所述的改良后特征選擇過程的示意圖,本發明所述的一種改良的特 征選擇方法具體如下:
[0032] 步驟1 :根據詞的文檔頻率對詞集進行劃分。
[0033] 令詞集T = U b (i = 1,2,. . . n,j = 1,2,...),則T中某個詞t的文檔頻率計算 公式如下:
[0034] 乃尸(,)=文2池4);(4 e £) J=\
[0035] 其中E為訓練集中的所有文本,&為訓練集中第i類第j個文本,p (t,d d為詞 t和第i類中第j個文本共同出現的概率。
[0036] 設定文檔頻率閾值為K,則可將詞集T劃分成兩個集合:一個是文檔頻率小于K的 詞集T a,一個是文檔頻率大于或等于K的詞集Tb。
[0037] 步驟2 :依據信息增益值,對低文檔頻率詞集TA進行特征詞選擇。
[0038] 詞集1\中某個詞t的信息增益值的計算公式如下:
[0039] IG{t) = ) log2 p(C,)+pit^piC, 11) log2 p(C, 10+p(〇2p(Q I 〇 l〇g2 P(Q 10 1=1 i=l /=1
[0040] 其中P (Ci)表示文本屬于類別Ci (j = 1,2, ? ? ?,n)的概率,P (t)表示包含詞t的 文本出現的概率,表示不包含詞t的文本出現的概率,p (Ci 11)表示文本中包含詞t時 屬于類別(^的概率,p(C,. P)表示文本中不包含詞t時屬于類別(^的概率,n表示文本類別 總數。
[0041] 計算詞集TA中各詞的信息增益值,將信息增益值小于預設閾值M的詞過濾掉,信 息增益值大于等于預設閾值M的詞予以保留。
[0042] 步驟3 :基于改進的x 2統計法對詞集T B進行進一步的選擇。
[0043] 具體包括如下三個步驟:
[0044] 步驟(1),假設:詞fat TB)與不同類別的文本之間符合一階自由度的x 2分布, 計算該詞的CHI統計值,計算方法為:
[0046] 其中N為訓練集中E的文本數量。
[0047] 步驟(2),計算該詞各類別CHI統計值的方差-f)2,將計算得出的方差作 (=1 為該詞在類中的分布情況與該詞在其他類中的分布情況不一致的劇烈程度的一種衡量,其 中
,方差越大,說明該詞在各類的分布情況差異性越強,越有可能攜 帶大量的分類信息。
[0048] 步驟(3),按照計算得出的各個詞的CHI統計值方差從高到低的順序對詞進行排 序,得到詞方差降序隊列。
[0049] 步驟4 :整合兩部分特征詞,形成文本分類特征詞集。
[0050] 指定特征詞總個數,優先選取低文檔頻率詞集TA中的特征詞,根據選取T A后仍需 要選取的特征詞個數,對應在高文檔頻率詞集TB的詞方差降序隊列中選取相應個數的特征 詞,與1\中選取的特征詞共同構成分類特征詞集合。
[0051] 以下以上述過程確定參數為標準,對應用實例進行說明。
[0052] 實施例1
[0053] 步驟1 :利用網絡爬蟲或人工收集從互聯網上獲取一定數量的多個領域中有代表 性的文章,對這些文章進行分析整理,按照類別歸入語料訓練集,作為文本分類系統的訓練 樣本集。
[0054] 將獲取的文本進行分詞,并去除停用詞。
[0055] 假設訓練集E中含有3個類別:(;,C2, C3,訓練集可表示為:
[0056] {E | | dn,d12,d13,…},{C21 d21,d22,d23,…},{C31 d31,d32,d33,…}
[0057] 那么進行了文本預處理之后,訓練集變成了:
[0058] {E | | tn,t12,t13,…},{C211 21,t22,t23,…},{C31131,t 32,t33,…}
[0059] 其中的表示文本Ui = l,2,3;j = 1,2,...)經過分詞和去停用詞之后留下 的詞的集合。
[0060] 步驟2 :假設預處理后每個類別中只有三個詞,類Q中有詞w n,w12, w13,類(:2中有 詞w21,w22, w23,類C3中有詞w 31,w32, w33。下表以閾值為參考值顯示各詞DF和IG的大小,其 中各詞的DF值與閾值K的大小關系如表一所不,各詞的IG值與閾值M的大小關系如表二 所示:
[0061] 表 1
[0062]
[0063] 表 2
[0064]
[0065] 將預處理后的各詞按照文檔頻率進行排序,將詞集劃分成兩個集合:一個是文檔 頻率小于某閾值K的詞集T A (w13, w21,w22, w33),一個是文檔頻率大于或等于K的詞集TB (wn, W12, W23, W31,W32);
[0066] 步驟3,計算詞集1\中各詞的信息增益值,將信息增益值小于閾值M的詞刪除,信 息增益值大于等于M的詞保留,得到詞集T' A(w21,w22);
[0067] 步驟4 :基于改進的x 2統計法對詞集T B進行進一步的特征詞選擇:
[0068] 步驟⑴,計算詞集TB (wn,w12, w23, w31,w32)中每個詞的CHI統計值,以詞w12為例, 計算后它的各類的CHI值分別為:
[0072] 其中N為訓練集中E的文本數量。
[0073] 步驟(2),計算每個詞各類別CHI統計值的方差。仍以詞w12為例,其CHI統計值
的方差=土(4,、-丫2)2 ,其中 。將計算得出的方差作為該 j=i 詞在類中的分布情況與該詞在其他類中的分布情況不一致的劇烈程度的一種衡量,得到五 個詞的(^1統計值方差分別為<7?1,,<7~2, 〇^23,〇!'?31,<:^ 32。
[0074] 步驟(3),按照計算得出的各個詞的CHI統計值方差從高到低的順序對詞進行排 序,得到詞方差降序隊列。
[0075] 設方差從高到低排列順序為>~12 >心 3, >心32,則基于改進的x2統 計法進一步選擇后,詞集^排列順序為(w n,w12, w23, w31,w32)。
[0076] 步驟5 :整合步驟3和步驟4得到的兩部分特征詞T' JP T B,形成文本分類特征 詞集。
[0077] 設指定的特征詞總個數為4,優先選取低頻詞集T' A中的特征詞w21,w22,由于詞 集T',中特征詞個數為2,少于總個數4,所以對應在詞集T B中還需選取2個特征詞,由于 方差從高到低排列順序為心,,>心,2 >心23 >心>心32,所以只需選取特征詞wn,w12,最終 選取的分類特征詞集合為T"(w n,w12, w21,w22)。
[0078] 本發明實施例所提供的技術方案,能夠選擇出更具類別代表性的特征詞,在平衡 召回率和準確率的同時,提高文本分類的速度與精度。
[0079] 通過以上實施方式的描述,本領域的技術人員可以清楚本發明的實現方式,本發 明可以通過軟件編程實現,相應的軟件程序可存儲于可讀取的存儲介質中,如光盤、硬盤、 移動存儲介質等。
[0080] 以上為本發明的具體實施例,但并不用以限制本發明,對于本技術領域的普通技 術人員來說,凡在不脫離本發明原理的前提下,所做的任何修改、等同替換、改進等,均應包 含在本發明的保護發明范圍之內。
【主權項】
1. 一種改良的分類文本特征選擇方法,其特征在于,具體包括以下步驟: 步驟1 :獲取不同類別的一定數量文本,將其賦予類別標簽,作為文本分類的訓練樣本 集; 步驟2 :對訓練集的文本進行預處理,包括中文分詞,去停用詞處理; 步驟3 :使用改良的特征選擇方法對文本進行特征選擇。2. 如權利要求1所述的一種基于改良特征選擇的文本分類方法,其特征在于,步驟3所 述的使用改良的特征選擇方法對文本進行特征選擇的方法,具體包括以下步驟:: 步驟1 :結合特征詞的文本頻率(Document Frequency,DF)對全體詞集進行劃分; 步驟2 :使用信息增益值(Information Gain,IG)對低頻特征詞集進行特征選擇; 步驟3 :使用基于改進的X 2統計法對高頻特征詞集進行特征選擇。 步驟4 :整合兩部分特征詞,形成文本分類特征詞集。3. 如權利要求2所述的一種改良的特征選擇方法,其特征在于,結合特征詞的文本頻 率對全體詞集進行劃分,具體為: 將預處理后各詞按照文檔頻率進行排序,將詞集T劃分成兩個集合:一個是文檔頻率 小于某閾值的詞集Ta,一個是文檔頻率大于或等于某閾值的詞集TB。4. 如權利要求2所述的一種改良的特征選擇方法,其特征在于,使用信息增益值對低 頻特征詞集進行特征選擇,具體為; 設定一個信息增益值閾值M,計算詞集Ta中各詞的信息增益值,將信息增益值小于M的 詞刪掉,信息增益值大于等于M的詞作為特征詞保留。5. 如權利要求2所述的一種改良的特征選擇方法,其特征在于,使用基于改進的X 2統 計法對高頻特征詞集進行特征選擇,具體為: 計算Tb中每個詞對于各類別CHI統計值的方差其中η為分類個數。計算得出的方差可以表征該詞在全部類中分布的 不平衡性,方差值越大,分布不平衡性越強,則該詞的表征能力越強,攜帶的分類信息越大。 將計算得出的各個詞的分布方差值從高到低的順序對特征詞進行排序,得到詞分布方 差值降序隊列。6. 如權利要求2所述的一種改良的特征選擇方法,其特征在于,整合兩部分特征詞,形 成文本分類特征詞集,具體為: 指定特征詞總個數,優先選取低頻詞集Ta中的特征詞,根據選取T Α后仍需要選取的特 征詞個數,對應在1的詞分布方差值降序隊列中選取相應個數的特征詞,與T Α中選取的特 征詞共同構成分類特征詞集合。
【文檔編號】G06F17/30GK105893380SQ201410795989
【公開日】2016年8月24日
【申請日】2014年12月11日
【發明人】朱永強, 黃筱聰
【申請人】成都網安科技發展有限公司