類噪音檢測方法、裝置和損失函數(shù)計算方法、裝置的制造方法
【技術領域】
[0001] 本申請涉及機器學習領域,尤其涉及一種類噪音檢測方法、裝置和損失函數(shù)計算 方法、裝置。
【背景技術】
[0002] 在機器學習 (Machine learning)領域,主要有三類不同的學習方法:監(jiān)督學習 (Supervised learning)、半監(jiān)督學習(Semi-supervised learning)和非監(jiān)督學習 (Unsupervised learning)。
[0003] 目前基于有標簽數(shù)據(jù)的有監(jiān)督學習方法是機器學習領域用于解決實際應用中分 類問題的主流方法。此類方法利用訓練數(shù)據(jù)中有標注的樣本訓練分類器,用于預測未標注 樣本的類別標簽。
[0004] 但是,在實際應用問題中,來自人工標注或實驗結果的樣本標注,往往因為各種原 因,存在一定比例的誤標注情況,即用于訓練的有標注樣本其標注標簽有一定比例的錯誤。
[0005] 針對這一情況,目前基于統(tǒng)計權重邊切割的方法在解決這一問題上顯示出了一定 的能力。但是,這一方法往往依賴于先驗知識,即數(shù)據(jù)的期望和方差的先驗分布;其對噪音 的估計往往比實際噪音比例要高,而過高的估計了噪音的比例則會影響最終用于訓練數(shù)據(jù) 的規(guī)模,這一現(xiàn)象往往比噪音本身對分類器性能的傷害更大。
【發(fā)明內(nèi)容】
[0006] 為解決上述問題,本申請?zhí)峁┮环N類噪音檢測方法、裝置和損失函數(shù)計算方法、裝 置。
[0007] 根據(jù)本申請的第一方面,本申請?zhí)峁┮环N類噪音檢測方法,用于有監(jiān)督學習中,包 括以下步驟:
[0008] 最相似樣本選擇步驟:對于訓練集之中任一訓練樣本使用無參數(shù)分類方 法選擇訓練集之中與其最相似的若干個樣本0/,?),其中j = l、2、3、…、k,k為正整數(shù);
[0009] 信號函數(shù)計算步驟:計算信號函數(shù)I&其中
[0010] 相似度計算步驟:分別計算所述訓練樣本與選擇出的最相似的各樣本之 間的相似度wij,wij = sim(xi,xj);
[0011] ^范數(shù)計算步驟:計算|wi| |ι,其中
[0012]12范數(shù)計算步驟:計算12范數(shù)||¥川2,其中
[0013]噪音率計算步驟:計算所述訓練樣本(?灸)的噪音率Pc(Xl),其中矸(X,)=
[0014] 根據(jù)本申請的第二方面,本申請?zhí)峁┮环N損失函數(shù)計算方法,包括以下步驟:
[0015] 使用如權利要求1至4中任一項所述的類噪音檢測方法對所述優(yōu)化學習方法中的 原損失函數(shù)KfOi),負)加權,以計算新?lián)p失函數(shù)〖(/(而),?),計算公式為
其中η為訓練集之中訓練樣本的總 數(shù)。
[0016] 根據(jù)本申請的第三方面,本申請?zhí)峁┮环N類噪音檢測裝置,用于有監(jiān)督學習中,其 特征在于,包括:
[0017] 最相似樣本選擇模塊,用于對于訓練集之中任一訓練樣本使用無參數(shù)分 類方法選擇訓練集之中與其最相似的若干個樣本h)其中j = l、2、3、…、k,k為正整 數(shù);
[0018] 信號函數(shù)計算模塊,用于計算信號函數(shù)I&其弓
[0019] 相似度計算模塊,用于分別計算所述訓練樣本(%只)與選擇出的最相似的各樣本 之間的相似度wij,wij = simUi,xj);
[0020] li范數(shù)計算模塊,用于計算li范數(shù)| |wi| |ι,其c
[0021] 12范數(shù)計算模塊,用于計算12范數(shù)| |wi| h,其c
[0022] 噪音率計算模塊,用于計算所述訓練樣本〇^,為)的噪音率Pc (Xl),其中
[0023] 根據(jù)本申請的第四方面,本申請?zhí)峁┮环N損失函數(shù)計算裝置,包括:
[0024] -模塊,其用于使用如權利要求8至9中任一項所述的類噪音檢測模塊對原損失函 數(shù)只)加權,以計算新?lián)p失函數(shù),計算公式為
其中η為訓練集之中訓練樣本的總 數(shù)。
[0025]本申請的有益效果是:
[0026]依上述實施的類噪音檢測方法和裝置,計算訓練樣本的噪音率過程中不需要任何 先驗知識,且計算出來的結果不存在傳統(tǒng)技術中對于訓練樣本的類噪音往往過高估計的現(xiàn) 象,因而能更加準確的反應出標注的訓練樣本其標簽錯誤的概率。
[0027] 依上述實施的損失函數(shù)計算方法和裝置,由于對訓練集的損失函數(shù)進行基于類噪 音的加權,因而所訓練的分類器具有良好的抗類噪音性能。
【附圖說明】
[0028] 圖1為本申請一種實施例的類噪音檢測方法的流程示意圖;
[0029] 圖2為本申請一種實施例的類噪音檢測方法的結構示意圖;
[0030] 圖3為本申請一種實施例的結果性能說明圖。
【具體實施方式】
[0031] 下面通過【具體實施方式】結合附圖對本申請作進一步詳細說明。
[0032] 實施例一:
[0033] 基于有標簽數(shù)據(jù)的有監(jiān)督學習方法,利用訓練數(shù)據(jù)中有標注的樣本訓練分類器, 用于預測未標注樣本的類別標簽。這里樣本可以看成是輸入,樣本的標簽可以看成是輸出, 有標注的樣本,是指已知一個樣本和它的標簽,從數(shù)學角度上看,就是已知輸入和輸出,因 此,這些有標注的樣本構成了訓練集,利用已知的樣本和其標簽,可以訓練分類器。這里的 一個關鍵是,有標注的樣本的正確性,即樣本和其標簽的正確性,若不正確,都會極大影響 到所訓練的分類器。對有監(jiān)督學習中的分類問題,需要處理有標注的樣本中,其中就可能存 在有標注的樣本的標簽錯誤的情況,對于半監(jiān)督分類問題,需要先處理無標注的樣本,對無 標注的樣本的可能類別標簽的判斷可以會出現(xiàn)錯誤的情況;以上情況都需要識別出來。
[0034] 現(xiàn)有技術也嘗試解決這一問題,但現(xiàn)有技術在解決此問題時,依賴于先驗知識,即 訓練樣本的期望和方差的先驗分布,并且其對噪音的估計往往比實際噪音比例要高,而過 高的估計了噪音的比例則會影響最終用于訓練數(shù)據(jù)的規(guī)模,這一現(xiàn)象往往比噪音本身對分 類器性能的傷害更大。
[0035] 為此,本申請?zhí)岢鲆环N類噪音檢測方法,具體地,提出一種有監(jiān)督學習中的類噪音 檢測方法。
[0036]請參照圖1,本實施的有監(jiān)督學習中的類噪音檢測方法包括以下步驟:
[0037] S11、最相似樣本選擇步驟:對于訓練集之中任一訓練樣本(%,%),使用無參數(shù)分 類方法選擇訓練集之中與其最相似的若干個樣本為),其中j = 1、2、3、…、k,k為正整 數(shù)。在一實施例中,上述的無參數(shù)分類方法為k近鄰圖方法或帕森窗方法。這里所選取的若 干個樣本以及k的值,依據(jù)所使用的無參數(shù)分類方法,有可能會有不同。
[0038] S13、信號函數(shù)計算步驟:計算信號函數(shù)I&其中
[0039] S15、相似度計算步驟:分別計算所述訓練樣本,於)與選擇出的最相似的各樣 本之間的相似度¥^,'\¥^ = 8;[1]1^,1」)。在一實施例中,可采用可標準化的連續(xù)且對稱的相似 度計算方法來計算相似度Wij。例如,相似度計算方法為基于漢明距離的相似度計算方法、基 于余弦的相似度計算方法、基于歐幾里得距離的相似度計算方法或基于In范數(shù)的相似度計 算方法等。
[0040] S17、li范數(shù)計算步驟:計算li范數(shù)I I Wi I 11,其中
[0041] S19、l2范數(shù)計算步驟:計算12范數(shù)| | Wi | 12,其中
[0042] S21、噪音率計算步驟:計算所述訓練樣本(X/,負)的噪音率Pc (Xl),其中
[0043] 相就地,本實施還提出一種類噪音檢測裝置,具體地,提出一種有監(jiān)督學習中的類 噪音檢測裝置。
[0044] 請參照圖2,本實施例的有監(jiān)督學習中的類噪音檢測裝置包括最相似樣本選擇模 塊11、信號函數(shù)計算模塊13、相似度計算模塊15、h范數(shù)計算模塊17、1 2范數(shù)