專利名稱:基于信息增益和在線支持向量機的新型分類器及分類方法
技術領域:
發明涉及一種機器學習及分類技術領域;具體涉及一種基于信息增益和在線支持向量機的新型分類器及分類方法。
背景技術:
隨著網絡資源的大量增加,網絡信息分類方法顯得尤其重要。目前常用的分類方法有貝葉斯方法、支持向量機、邏輯回歸,決策樹、神經網絡等。在這些方法中,支持向量機已表現出優于很多其他分類方法。支持向量機(Support Vector Machines,簡稱SVMs)是在統計學習理論的基礎上發展出的一種新的模式識別方法。在解決小樣本、非線性、高維識別問題中表現出許多特有的優勢,并能夠推廣應用到函數擬合等其他機器學習問題中。雖然統計學習理論和支持向量機方法中尚有很多問題需要進一步研究,但很多學者認為,它們正在成為繼模式識別和神經網絡之后機器學習領域新的研究熱點,并將推動機器學習理論和技術的發展。支持向量機方法已經在文本分類、互聯網信息過濾、手機短信過濾以及網絡流分類等方面取得了很好的效果。在這些領域中使用的支持向量機方法大部分都是離線模式 (batch model)。離線模式先訓練一定量的樣本,然后進行分類,在分類過程中不再進行訓練,即訓練和分類是異步的。然而,目前處理的數據具有數據量大和實時性要求,需要支持向量機是在線模型(online model),S卩訓練和分類同步進行,隨著樣本的變化,要不停地更新訓練模型。在近幾年學術研究中,尤其是在信息過濾領域,在線支持向量分類器受到部分學者的關注。但是,由于在線支持向量機的訓練時間復雜度是
(其中,η為訓練樣本的數量,m為特征向量維度),時間消耗過大,難以應用在實際系統中。針對大規模真實數據系統來說,在線支持向量機分類器需要不停地重復訓練,消耗的訓練時間將更大。
發明內容
發明的目的是提供一種解決了基于在線支持向量機的分類器存在的消耗時間過大的問題的基于信息增益和在線支持向量機的新型分類器及分類方法。上述的目的通過以下的技術方案實現
一種基于信息增益和在線支持向量機的新型分類器的分類方法,本方法包括如下步驟第一步對樣本信息進行預處理,獲得樣本的特征;第二步使用信息增益Information Gain方法計算每個特征的信息量,再根據一定的策略選擇所需的特征;第三步根據選擇的特征建立能夠適應在線支持向量機模型的特征向量;第四步利用在線模型訓練基于在線支持向量機的新型分類器;第五步利用分類器分類樣本。所述的基于信息增益和在線支持向量機的新型分類器的分類方法,所述的第一步的選擇樣本有效特征是使用信息增益策略來計算每個特征在所出現的樣本中信息量大小, 根據得到每個特征增益信息量來判斷是否需要選擇該特征。所述的基于信息增益和在線支持向量機的新型分類器的分類方法,所述的第二步和第三步建立特征空間向量是根據選擇的樣本特征,通過哈希表進行特征映射,將其轉為在線支持向量機能夠識別的特征空間向量。所述的基于信息增益和在線支持向量機的新型分類器的分類方法,所述的第四步在線支持向量機是將支持向量機SVM轉化成在線模式,在線模式是分類和訓練同時進行; 所述的基于在線支持向量機的新型分類器是放寬在線支持向量機的條件。所述的基于信息增益和在線支持向量機的新型分類器的分類方法,所述的新型分類器包括首先對樣本信息預處理,獲取樣本的特征;然后選擇樣本有效的特征;之后建立特征空間向量;最后利用基于在線支持向量機的分類器對樣本進行分類和訓練。所述的基于信息增益和在線支持向量機的新型分類器的分類方法,所述的選擇樣本有效特征是使用信息增益策略來計算每個特征在所出現的樣本中的信息量大小,根據得到每個特征信息量來判斷是否需要選擇該特征;所述的建立特征空間向量是根據選擇的樣本特征,通過哈希表進行特征映射,將其轉為在線支持向量機能夠識別的特征空間向量;所述的新型分類器中訓練部分樣本是最近出現的η個樣本,并不是全部樣本;所述的新型分類器中放寬了多次迭代尋找最優分類界面的條件。所述的基于信息增益和在線支持向量機的新型分類器的分類方法,所述的信息增益(Information Gain)方法的計算公式是
權利要求
1.一種基于信息增益和在線支持向量機的新型分類器的分類方法,其特征是本方法包括如下步驟第一步對樣本信息進行預處理,獲得樣本的特征;第二步使用信息增益 Information Gain方法計算每個特征的信息量,再根據一定的策略選擇所需的特征;第三步根據選擇的特征建立能夠適應在線支持向量機模型的特征向量;第四步利用在線模型訓練基于在線支持向量機的新型分類器;第五步利用分類器分類樣本。
2.根據權利要求I所述的基于信息增益和在線支持向量機的新型分類器的分類方法, 其特征是所述的第一步的選擇樣本有效特征是使用信息增益策略來計算每個特征在所出現的樣本中信息量大小,根據得到每個特征信息增益量來判斷是否需要選擇該特征。
3.根據權利要求I所述的基于信息增益和在線支持向量機的新型分類器的分類方法, 其特征是所述的第二步和第三步建立特征空間向量是根據選擇的樣本特征,通過哈希表進行特征映射,將其轉為在線支持向量機能夠識別的特征空間向量。
4.根據權利要求I所述的基于信息增益和在線支持向量機的新型分類器的分類方法, 其特征是所述的第四步在線支持向量機是將支持向量機SVM轉化成在線模式,在線模式是分類和訓練同時進行;所述的基于在線支持向量機的新型分類器是放寬在線支持向量機的條件。
5.根據權利要求I或4所述的基于信息增益和在線支持向量機的新型分類器的分類方法,其特征是所述的新型分類器包括首先對樣本信息預處理,獲取樣本的特征;然后選擇樣本有效的特征;之后建立特征空間向量;最后利用基于在線支持向量機的分類器對樣本進行分類和訓練。
6.根據權利要求5所述的基于信息增益和在線支持向量機的新型分類器的分類方法, 其特征是所述的選擇樣本有效特征是使用信息增益策略來計算每個特征在所出現的樣本中的信息量大小,根據得到每個特征信息量來判斷是否需要選擇該特征;所述的建立特征空間向量是根據選擇的樣本特征,通過哈希表進行特征映射,將其轉為在線支持向量機能夠識別的特征空間向量;所述的新型分類器中訓練部分樣本是最近出現的η個樣本,并不是全部樣本;所述的新型分類器中放寬了多次迭代尋找最優分類界面的條件。
7.根據權利要求I所述的基于信息增益和在線支持向量機的新型分類器的分類方法, 其特征是所述的基于信息增益和在線支持向量機的新型分類器的分類方法,所述的信息增益(Information Gain)方法的計算公式是
8.一種基于信息增益和在線支持向量機的新型分類器,其組成包括樣本預測器,其特征是所述的樣本預測器連接樣本特征選擇器,所述的樣本特征選擇器連接空間向量生成器,所述的空間向量生成器連接在線支持向量機訓練器,所述的樣本預測器與所述的樣本特征選擇器與所述的空間向量生成器與所述的在線支持向量機訓練器均連接中央處理器。
9.根據權利要求8所述的基于信息增益和在線支持向量機的新型分類器,其特征是: 所述的中央處理器包括控制單元,所述的控制單元連接預處理器和算數編輯單元。
10.根據權利要求8或9所述的基于信息增益和在線支持向量機的新型分類器,其特征是先將代碼從磁盤存儲器中讀入隨機訪問存儲器RAM型號4G DDR3 1066中,并在隨機訪問存儲器中建立程序編譯和運行所需的堆、棧、自由存儲區、靜態存儲區和常量存儲區;程序編譯之后,在RAM中創建預處理器、特征選擇器、建立特征空間器、樣本預測器以及樣本訓練器;預處理器處理的樣本是網絡層的數據包或是磁盤存儲器上的數據;預處理器獲得數據之后,將數據通過總線發送給中央處理器(CPU)中的控制單元(Control Unit),控制單元在根據指令將數據送給算術邏輯單(ALU),算術邏輯單元將處理的結果通過控制單元、總線發送給預處理器,預處理器將全部處理完的結果返回給特征選擇器,數據經過特征選擇器、建立特征空間向量器、樣本預測器和樣本訓練器之后輸出結果;特征選擇器、建立特征空間向量器、樣本預測器和樣本訓練器的處理過程和預處理器一樣,都是按照編寫好的程序和指令,通過總線傳送給中央處理的控制單元,控制單元控制邏輯運算單元的處理數據, 并將處理好的結果傳送給樣本預測器、樣本特征選擇器、空間向量生成器和在線支持向量機訓練器。
全文摘要
基于信息增益和在線支持向量機的新型分類器及分類方法。在近幾年學術研究中,尤其是在信息過濾領域,在線支持向量分類器受到部分學者的關注。一種基于信息增益和在線支持向量機的新型分類器的分類方法,本方法包括如下步驟第一步對樣本信息進行預處理,獲得樣本的特征;第二步使用信息增益InformationGain方法計算每個特征的信息量,再根據一定的策略選擇所需的特征;第三步根據選擇的特征建立能夠適應在線支持向量機模型的特征向量;第四步利用在線模型訓練基于在線支持向量機的新型分類器;第五步利用分類器分類樣本。本發明用于文本分類、信息過濾。
文檔編號G06K9/62GK102609714SQ20111045859
公開日2012年7月25日 申請日期2011年12月31日 優先權日2011年12月31日
發明者孫廣路, 沈躍伍, 齊浩亮 申請人:哈爾濱理工大學