組合標記規則的多視圖協同半監督分類算法
【專利摘要】為了提高多視圖半監督協同算法的性能,并針對算法應用范圍受限的問題,提出了一種組合標記的協同訓練方法。該算法將一致性與非一致性標記規則相結合,若分類器具有相同標記則將對應樣本加入到相應的樣本集中;若標記不同且兩分類器對應的標記置信度差值超過了一定的閾值,則采用高置信度分類器的標記結果,并將樣本添加到相應的樣本集中。通過判斷兩類分類器對相應樣本是否一致以及差異性閾值對未標記樣本進行組合標記,并利用分類器差異性判斷原則更新分類原則,充分利用未標記樣本中的有用信息,將分類其性能提高5%以上。
【專利說明】組合標記規則的多視圖協同半監督分類算法
【技術領域】
[0001] 本發明涉及模式識別和機器學習【技術領域】,特別涉及半監督分類算法,具體是指 一種組合標記規則的多視圖協同半監督分類算法。
【背景技術】
[0002] 多視圖主要是指對事物的描述的途徑或角度,因此多視圖即描述事物的屬性集 (數據集)。描述同一事物的兩個視圖彼此具有一定的獨立性,并具有能夠描述事物本身特 性的功能,在很多情況下,兩視圖也可以通過屬性相加合并為一個視圖,能夠更好地反映事 物本身。多視圖的方法可同時應用于監督、半監督和無監督學習中。在多視圖的半監督學 習中,一方面數據有多個視圖來描述;另一方面,每個視圖數據都包括少量的標記數據和大 量的未標記數據兩部分,主要目的是利用帶有未標記數據的多級視圖去增加標記樣本數據 集。更具體地說,每一個實例的多個顯著視圖可以用來為同一個任務訓練不同的模型,然后 用每一個分類器對未標記數據的預測來增加其它分類器的訓練樣本。一般來說,多視圖方 法主要是利用在同一問題的不同視圖上進行訓練的學習器之間的一致性來提高分類器的 性能。
[0003] 標準Co-training算法即為一種典型的多視圖半監督學習方法,它的提出為 多視圖半監督協同訓練的進一步研究提供了一個理論充分且開放的學習框架。自標準 Co-training算法之后,產生了兩個研究方向,一是多視圖的半監督學習,二是單視圖的半 監督學習。前者主要是原始數據集中包含多個視圖,利用多個視圖生成多個分類器,然后通 過分類器之間的協同作用訓練好的分類器模型。在多視圖協同半監督訓練過程中,視圖分 割方法、未標記數據如何通過多視圖中的多分類器協同標記、模型更新等問題都是學者們 重點研究的問題。
[0004] 通過對標準多視圖Co-Training的分析,可以看出Co-training算法中主要的問 題包括:充分冗余條件的限制、多分類器的生成方法、置信度計算方法、分類器協同標記方 法及針對不同應用領域算法應用。
[0005] 多視圖多分類器一致性判定和非一致性判定的標記規則這一問題在近幾年得到 了廣泛重視。Hahn S等利用差異性分類器的一致性判斷原則及非一致判斷性原則處理標 記數據與未標記數據不平衡問題。Umit Guz等根據自訓練和協同訓練兩種算法,結合一致 性和非一致性兩種樣本標記策略,提出了一種self-combined算法來處理句子邊界分類問 題,得到了較好的分類性能。Zhou Z H在半監督學習過程方面,利用多個學習器訓練任務和 學習器之間的不一致性,標記未標記樣本,提高樣本標記能力。Bousmalis等提出了一種基 于一致性與非一致性的自發非語義多模態模型,在視頻數據集上有較好的性能表現。Jacob Andreas等針對一個語句一致性與非一致性的語料庫,提出了一種編碼響應方法應用于語 句注釋。Christoudias利用條件熵的不一致性提出一種多視圖學習方法,對視頻數據進行 分類。Guangxia Li等提出了一個新穎的兩視圖直推式支持向量機方法,充分利用大量的未 標記樣本來提高分類器性能。從上述文獻中可以看出,研究學者高度重視多分類器的未標 記樣本的標記規則,針對多分類器一致性標記與歧義性標記的規則的研究多數人都從某一 方面進行了考慮,個別研究學者統一考慮時也在特殊應用下。因此研究全面考慮不同情況 的標記規則,對提高多視圖多分類器的性能將會起重要作用。
【發明內容】
[0006] 本章針對標準Co-training算法中存在的問題,重點研究了未標記數據一致 性與非一致性標記方法,提出一種基于組合標記規則的多視圖半監督協同學習算法(A Semi-supervised Collaboration Classification Algorithm with the combination of Agreement and Disagreement label rules,簡稱 Co-AgDiag 算法)。該算法首先通過視圖 分割,保證了各視圖獨立,并進一步增加對樣本標記的置信度判斷環節,利用組合標記規則 對樣本標記。此外通過分類器差異性評估對模型更新策略做了進一步的研究和改進,從而 提高分類器模型的性能。最后本文通過實驗驗證了算法的可行性和有效性。本發明具體的 算法流程圖如圖1所示。
[0007] 本發明提供的技術方案包括如下步驟:
[0008] 1. -種基于組合標記規則的多視圖協同半監督分類算法,其特征在于,所述的方 法包括以下步驟:
[0009] (1)將原始數據集分為:原始已標記小數據集L ;原始未標記大數據集U ;測試數 據集T :
[0010] (2)進行視圖分割:原始數據集L和U通過視圖分割生成兩個視圖,即將每個屬性 與類別標簽之間的互信息值從大到小排列,對屬性進行平均分割,使得兩部分屬性與類別 標簽之間的互信息之和盡量接近;標記樣本集L生成視圖1標記樣本集L 1 ={ (X1. i,y), 0^1,72),?,(0^1,7111))丨和視圖2標記樣本集樣本 1^={(叉1.2,71),&2.2,72),?,(0^.2, ym))};未標記樣本集U生成視圖1未標記樣本集U1 = {(Xu, x2」,…,xn」)和視圖2未標 記樣本集樣本U2 = {(x12, X2 2,…,xn2)};其中,m和η分別代表樣本集L和U的長度,每 個樣本Xi Q = 1,2,…,m,m+1,…,η)由特征集1的Xli和特征集2的XiJ來代替,yji =1,2,···,]!)代表樣本類別;
[0011] (3)從原始未標記數據集U中隨機取出uSize個未標記樣本形成了樣本集u ;
[0012] (4)分別由兩視圖的數據集U、L2學習到兩個分類器HdPH2,并利用兩分類器分 別對數據集U 1和U2進行分類,從中挑選出置信度高的樣本;
[0013] (5)迭代循環直到達到更新條件:
[0014] I) H1和H2分別對未標記樣本u進行標記:
[0015] 判斷 H1 (xL1)是否等于H2(Xl2),若相等,貝Uu = U-(XiKL = L U Kx^H1(Xli)M ; 若不相等則進行如下判斷:當IfH1Cxu;^ - |fH2ixi,2:)| > 0時,則 u = iMxJ,L1 = L1 U {(χ^ H1(Xi l)M,L2 = L2 U KxiWH1(Xi l)M,L = L U KxijH1(Xi l)M ;當|fHl(Xu)| - |fH2(xi2)| < 0 時,則 u = U-UJ ,L1 = L1 U Kxl17H2(Xl2)M ,L2 = L2 U Kxi^H1 (xL WhL = L U Kxi, H2(Xu)M ;其中,f(Xi)為分類器置信度函數,Θ為置信度閾值;
[0016] 2)利用新的標記樣本集更新分類器模型;
[0017] 3)計算分類器之間的差異性;
[0018] 4)判斷是否滿足如下模型更新條件,
[0019] 條件1 :分類器H1和H2的錯誤率不再降低;
[0020] 條件2 :未標記樣本已全部標記;
[0021] 條件3 :兩分類器之間的差異性滿足一定閾值;
[0022] 3個條件只要滿足其一,則進入步驟1),進行下一輪迭代,否則跳至步驟(6);
[0023] (6)輸出分類器模型;
[0024] (7)利用分類器模型對測試樣本集T進行分類。
[0025] 算法中視圖分割是需要討論的重要問題。視圖分割的基本思想是分析計算視圖任 意兩個屬性之間相關性(屬性特征信息的共享程度),相關性強的屬于一個視圖,反之則分 屬不同的視圖。
[0026] 互信息量刻畫的是兩個隨機變量之間共有的信息量,這個值越大,說明兩個變量 之間的相關程度越高。如果兩個變量的互信息量為零,則說明兩個變量是完全不相關的。
[0027] X和Y之間的互信息是對X(或Y)包含在Y(或X)中的信息的一種測量,定義如 下:
【權利要求】
1. 一種基于組合標記規則的多視圖協同半監督分類算法,其特征在于,所述的方法包 括以下步驟: (1) 將原始數據集分為:原始已標記小數據集L;原始未標記大數據集U;測試數據集 T: (2) 進行視圖分割:原始數據集L和U通過視圖分割生成兩個視圖,即將每個屬性與類 別標簽之間的互信息值從大到小排列,對屬性進行平均分割,使得兩部分屬性與類別標簽 之間的互信息之和盡量接近;標記樣本集L生成視圖1標記樣本集L1 =Kx1.i,yi),(x2.p y2),···,((Xn^ym))}和視圖 2 標記樣本集樣本1^2={ (X1^y1), (x2.2,y2),···,((xm.2, ym))};未標記樣本集U生成視圖1未標記樣本集U1 = {(Xu,x2.p···,xn.D和視圖2未標 記樣本集樣本U2 = {(x12,x2 2, ...,xn2)};其中,m和η分別代表樣本集L和U的長度,每 個樣本Xi(i= 1,2, · · ·,m,m+1,· · ·,η)由特征集1的Xli和特征集2的Xi.2來代替,yji =1,2, · · ·,m,m+1, · · ·,η)代表樣本類別; (3) 從原始未標記數據集U中隨機取出uSize個未標記樣本形成了樣本集u; (4) 分別由兩視圖的數據集U、L2學習到兩個分類器H1和H2,并利用兩分類器分別對 數據集U1和U2進行分類,從中挑選出置信度高的樣本; (5) 迭代循環直到達到更新條件: 1. H1和H2分別對未標記樣本u進行標記: 判斷H1(X^1)是否等于H2(X^2),若相等,則u=U-{xj,L=LUKxi,H1(Xi.))};若 不相等則進行如下判斷:當IfH1(Xu)I-IfH2(Xii2)I> 沒時,則u=u_{xj,L1 =L1UKxi,i, H1(Xil)M,L2 =L2UKxiWH1(Xil)M,L=LUKxijH1(Xil)M;當|fHl(xu)| - |fH2(Xi.2)| < 0 時,則u =U-UJ,L1 =L1UKxl17H2(Xl2)M,L2=L2UKxi^H1 (xLWhL=LUKxi, H2(Xu)M;其中,f(Xi)為分類器置信度函數,Θ為置信度閾值; 2) 利用新的標記樣本集更新分類器模型; 3) 計算分類器之間的差異性; 4) 判斷是否滿足如下模型更新條件, 條件1 :分類器H1和H2的錯誤率不再降低; 條件2 :未標記樣本已全部標記; 條件3 :兩分類器之間的差異性滿足一定閾值; 3個條件只要滿足其一,則進入步驟1),進行下一輪迭代,否則跳至步驟(6); (6) 輸出分類器模型; (7) 利用分類器模型對測試樣本集T進行分類。
【文檔編號】G06K9/62GK104463208SQ201410742319
【公開日】2015年3月25日 申請日期:2014年12月9日 優先權日:2014年12月9日
【發明者】于重重, 王琴, 商利利, 陳秀新 申請人:北京工商大學