一種基于主動學習的分類器構建方法
【專利摘要】本發明公開了一種基于主動學習的分類器構建方法,充分考慮未標注樣本的當前價值和預期價值,挑選高價值的樣本。首先利用樣本的最優和次優類別信息計算樣本的當前價值,根據樣本的當前價值的高低選出一部分價值高的樣本組成候選樣本集,然后計算候選樣本集中樣本的預期價值,結合樣本的當前價值,得到樣本的總價值,最后根據樣本的總價值,挑選高價值的未標注樣本進行標注,添加到訓練樣本集中,更新分類器。根據不同數據集上的實驗結果表明,本發明的方法能夠在選擇相同數量樣本的條件下,得到較高分類正確率的分類器。
【專利說明】—種基于主動學習的分類器構建方法
【技術領域】
[0001]本發明涉及一種采用計算機進行數據分類的方法,具體涉及基于主動學習方法從大量樣本中選擇生成訓練樣本集,并構建經過訓練的數據分類器的方法。
【背景技術】
[0002]數據的自動分類是計算機自動處理中的一項重要技術,廣泛應用于數據挖掘、醫學診斷、交通管理、人體特征識別等領域。計算機處理中的數據分類方法,通常包括構建分類器模型并采用訓練樣本集對分類器模型進行訓練,獲得經過訓練的數據分類器。
[0003]數據分類方法中訓練分類器模型是關鍵的難點,主要是原因是由于分類器模型需要用戶標注大量的數據訓練樣本,而標注大量的數據樣本需要花費大量的人力和時間。且在實際的應用中,有大量的圖像標注工作比較困難,需要專家進行標注。
[0004]為了解決標注大量樣本困難的問題,主動學習算法已經在機器學習和模式識別領域收到廣大研究學者的廣泛關注和深入研究。在主動學習算法中,不是被動地接受訓練樣本,而是利用一定的準則主動選擇有價值的樣本去訓練學習器。因此,主動學習算法主要通過選擇少量高價值的訓練樣本來提高學習器的分類性能,減少人工標注的工作量,提高效率。
[0005]主動學習算法主要包括學習和采樣兩部分。學習即是利用得到的訓練樣本學習得到相應的學習器。采樣策略就是從大量的未標注樣本中挑選出少量的有價值的樣本,降低分類算法的標記代價,利用少量的訓練樣本得到高性能的學習器。所以,采樣策略是主動學習算法的關鍵部分。
[0006]現有技術中,提出了基于樣本最優次優類別(Best vs Second Best, BvSB)的主動學習算法,該算法僅考慮對樣本的不確定性影響較大的部分類別,較好地改進了信息熵的不足。但是,BvSB算法僅考慮對于當前分類器不確定的樣本,實際使用中,當樣本添加到訓練樣本集后,添加的樣本的不確定性對于更新之后的分類器會產生影響,導致訓練結果不能達到預期目標。因此,采用BvSB算法構建的分類器存在一定的缺陷。
【發明內容】
[0007]本發明的發明目的是提供一種基于主動學習生成訓練樣本集并構建數據分類器的方法,以解決現有技術中訓練樣本集生成中存在的缺陷,獲得高價值的樣本,提高數據分類器的分類性能。
[0008]為達到上述發明目的,本發明采用的技術方案是:一種基于主動學習的分類器構建方法,根據未標注樣本和數據特征生成訓練樣本集并訓練分類器,包括下列步驟:
(1)從未標注樣本集中隨機選擇20-50個樣本進行人工標注,構建初始訓練樣本集,然后根據初始訓練樣本集的數據特征構建初始分類器H? ;
(2)采用上一步獲得的分類器Ηω計算每一個未標注樣本的BvSB值,BvSB值的計算方法是:
【權利要求】
1.一種基于主動學習的分類器構建方法,根據未標注樣本和數據特征生成訓練樣本集并訓練分類器,包括下列步驟: (1)從未標注樣本集中隨機選擇20-50個樣本進行人工標注,構建初始訓練樣本集,然后根據初始訓練樣本集的數據特征構建初始分類器H? ; (2)采用上一步獲得的分類器Ηω計算每一個未標注樣本的BvSB值,BvSB值的計算方法是:
2.根據權利要求1所述的基于主動學習的分類器構建方法,其特征在于:步驟(3)中,h為步驟(5)中選擇的樣本個數的2~3倍。
3.根據權利要求1所述的基于主動學習的分類器構建方法,其特征在于:步驟(5)中,在候選樣本集中選擇2~5個Opt值最小的未標注樣本進行人工標注。
4.根據權利要求1所述的基于主動學習的分類器構建方法,其特征在于:步驟(7)中,分類器訓練的停止條件是,分類正確率>95%,或者訓練樣本集中的樣本數>總樣本數 X 70%ο
【文檔編號】G06F17/30GK103793510SQ201410042498
【公開日】2014年5月14日 申請日期:2014年1月29日 優先權日:2014年1月29日
【發明者】吳健, 張宇, 徐在俊 申請人:蘇州融希信息科技有限公司