一種基于詞袋模型的圖像分類方法
【專利摘要】本發(fā)明公開了一種基于詞袋模型的圖像分類方法,所述圖像分類方法根據(jù)預(yù)先訓(xùn)練好的SVM模型,對待分類圖像進(jìn)行特征提取,得到所提取的特征點(diǎn),對特征點(diǎn)進(jìn)行聚類得到特征類型,并將特征點(diǎn)表述為其所屬的特征類型,根據(jù)圖像特征點(diǎn)所屬的特征類型,利用空間金字塔模型形成圖像的直方圖向量,最后將待分類圖像的直方圖向量輸入到訓(xùn)練好的SVM模型,完成圖像的分類。本發(fā)明采用了全新的核函數(shù)訓(xùn)練SVM模型,本發(fā)明方法降低了計(jì)算難度,而且保留了局部特征間的空間信息,提高了圖像分類的精度,減少了分類時(shí)間。
【專利說明】
一種基于詞袋模型的圖像分類方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于圖像分類領(lǐng)域,尤其涉及一種基于詞袋模型的圖像分類方法。
【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)與互聯(lián)網(wǎng)技術(shù)以及數(shù)字圖像獲取技術(shù)的快速發(fā)展,圖像信息的獲取、 使用、交換和傳輸變得越來越方便,每時(shí)每刻都有海量的數(shù)字圖像出現(xiàn)在互聯(lián)網(wǎng)以及人們 周邊。依靠人工對圖像進(jìn)行分類、組織和管理非常的耗時(shí)耗力,而且工作單調(diào)枯燥。為了及 時(shí)完成數(shù)字圖像的組織和管理,將人力從單調(diào)枯燥的人工圖像管理工作中解放出來,我們 希望能夠通過計(jì)算機(jī)對圖像中的目標(biāo)內(nèi)容進(jìn)行自動(dòng)地描述,并根據(jù)這些描述將圖像數(shù)據(jù)快 速、規(guī)范、自動(dòng)的進(jìn)行組織、歸類和管理。因此使用計(jì)算機(jī)對大規(guī)模的數(shù)字圖像進(jìn)行快速有 效的分類和管理,對人類生活和社會(huì)發(fā)展具有重大的作用和意義。使用計(jì)算機(jī)自動(dòng)地對圖 像進(jìn)行分類和管理在圖像檢索、視頻檢索、遙感圖像應(yīng)用、醫(yī)學(xué)圖像應(yīng)用、機(jī)器人領(lǐng)域、旅游 導(dǎo)航等領(lǐng)域有著廣闊的應(yīng)用前景。
[0003] 圖像分類技術(shù)的基本思想是根據(jù)圖像中包含的內(nèi)容,用計(jì)算機(jī)把圖像劃分到其所 屬的特定的語義類別中。這種技術(shù)能夠在一定程度上對圖像內(nèi)容進(jìn)行自動(dòng)理解,將數(shù)字圖 像轉(zhuǎn)化為人們所能理解的形式,是實(shí)現(xiàn)圖像語義內(nèi)容自動(dòng)提取的重要途徑。早期的圖像分 類主要依賴于文本特征,使用的是基于文本的圖像分類模式。圖像標(biāo)注需要人為地辨識并 為其選定關(guān)鍵字,而不同的人對其所要檢索的圖像內(nèi)容有不同的理解,即使是同一個(gè)人也 可能因?yàn)闄z索目的不同而對相同的內(nèi)容標(biāo)注不同的關(guān)鍵字。隨著計(jì)算機(jī)技術(shù)和數(shù)字化圖像 技術(shù)的發(fā)展,圖像庫的規(guī)模越來越大,人工標(biāo)注的方式無法滿足快速產(chǎn)生的內(nèi)容標(biāo)注的要 求,完全依靠人工對圖像進(jìn)行分類己不可能,人們開始逐漸將研究的重點(diǎn)轉(zhuǎn)移到基于圖像 內(nèi)容分析的自動(dòng)分類研究上。
[0004] 基于內(nèi)容的圖像分類技術(shù)不需要進(jìn)行任何人工標(biāo)注的語義信息,而是直接對圖像 所包含的信息進(jìn)行處理和分析,利用圖像底層視覺特征來進(jìn)行圖像分類。這種分類技術(shù)首 先對圖像進(jìn)行特征提取,將不易受隨機(jī)因素干擾的信息作為該圖像的特征提取出來,即使 用圖像本身的顏色、形狀、紋理等圖像基本視覺特征描述圖像,建立視覺特征與圖像類別之 間的關(guān)聯(lián)來實(shí)現(xiàn)圖像的自動(dòng)分類。
[0005] 詞袋模型源于自然語言處理和信息檢索,這種模型將文本看作是無序的單詞集 合,根據(jù)文本中單詞的統(tǒng)計(jì)信息完成對文本的分類。與文本相似,圖像可以被視為一些與位 置無關(guān)的局部特征的集合,這些局部特征的地位就類似于文本中的單詞,這里叫作"視覺單 詞",視覺單詞的集合叫作"視覺詞典"。圖像的灰度、梯度等低級特征通過視覺單詞形成了 終極語義表示。2004年起,詞袋模型被廣泛的應(yīng)用到了圖像的目標(biāo)分類和場景識別中。早期 應(yīng)用到圖像中的詞袋模型大多用于文本分類,近年來,對詞袋模型的研究方向從底層的特 征提取和描述開始轉(zhuǎn)向于對視覺詞典的建立和優(yōu)化以及對分類方法的研究,進(jìn)一步提高了 算法的分類性能和計(jì)算效率。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是提供一種基于詞袋模型的圖像分類方法,以提高圖像分類的精 度,降低計(jì)算復(fù)雜度,減少分類時(shí)間。
[0007] 為了實(shí)現(xiàn)上述目的,本發(fā)明技術(shù)方案如下:
[0008] -種基于詞袋模型的圖像分類方法,所述圖像分類方法包括:
[0009] 對待分類圖像進(jìn)行特征提取,得到所提取的特征點(diǎn);
[0010] 對特征點(diǎn)進(jìn)行聚類得到特征類型,并將特征點(diǎn)表述為其所屬的特征類型;
[0011] 根據(jù)圖像特征點(diǎn)所屬的特征類型,利用空間金字塔模型形成圖像的直方圖向量;
[0012] 將待分類圖像的直方圖向量輸入到訓(xùn)練好的SVM模型,完成圖像的分類。
[0013] 其中,所述SVM模型的訓(xùn)練過程,包括:
[0014] 對訓(xùn)練樣本圖像進(jìn)行特征提取,得到所提取的特征點(diǎn);
[0015] 對特征點(diǎn)進(jìn)行聚類得到特征類型,并將特征點(diǎn)表述為其所屬的特征類型;
[0016] 根據(jù)特征點(diǎn)所屬的特征類型,利用空間金字塔模型形成圖像的直方圖向量;
[0017] 采用訓(xùn)練樣本的直方圖向量訓(xùn)練SVM模型。
[0018] 進(jìn)一步地,所述對圖像進(jìn)行特征提取,得到所提取的特征點(diǎn),包括:
[0019] 檢測圖像的尺度空間的極值點(diǎn);
[0020] 過濾極值點(diǎn)得到特征點(diǎn);
[0021 ]確定每個(gè)特征點(diǎn)的方向參數(shù);
[0022] 生成特征點(diǎn)描述子,完成特征點(diǎn)的提取。
[0023] 進(jìn)一步地,所述根據(jù)特征點(diǎn)所屬的特征類型,利用空間金字塔模型形成圖像的直 方圖向量,包括:
[0024] 利用空間金字塔模型生成圖像每個(gè)特征類型的直方圖;
[0025]為特征類型的直方圖添加權(quán)重;
[0026] 計(jì)算圖像特征類型的權(quán)重直方圖;
[0027] 根據(jù)圖像每個(gè)特征類型的權(quán)重直方圖,形成圖像的直方圖向量。
[0028]進(jìn)一步地,所述采用訓(xùn)練樣本的直方圖向量訓(xùn)練SVM模型,包括:
[0029] 構(gòu)建SVM訓(xùn)練核函數(shù)Ks?(xi,xj);
[0030] 選擇懲罰因子,根據(jù)構(gòu)建的SVM訓(xùn)練核函數(shù)求解以下最優(yōu)化問題得到最優(yōu)解(Λ
[0031]
[0032] 選擇f的一個(gè)小于C的正分量CTy結(jié)合SVM訓(xùn)練核函數(shù)求解b'
[0033]
[0034]根據(jù)SVM訓(xùn)練核函數(shù)以及b*構(gòu)建SVM模型的決策函數(shù),完成SVM模型的訓(xùn)練,所述決 策函數(shù)為:
[0035]
[0036] 其中^是訓(xùn)練樣本的第i個(gè)樣本的特征向量直方圖,716{1,-1}4 = 1,2,...,1是 與^對應(yīng)的樣本標(biāo)記,同樣的^是訓(xùn)練樣本的第j個(gè)樣本的特征向量直方圖,,-i} J =1,2,.. .,1是與對應(yīng)的樣本標(biāo)記,1表示訓(xùn)練樣本的總數(shù),sgn( ·)為符號函數(shù),α〖為樣 本對應(yīng)的拉格朗日乘子,P表示分類閾值,ζ為待分類圖像的直方圖向量。
[0037] 所述SVM訓(xùn)練核函數(shù)KSVM(xi,xj)為:
[0038]
[0039] 其中,a是參數(shù),W表示直方圖向量的維度,= 是雙伽馬函數(shù),I = Clp
[1,1,..,1]7表示全1列向量,維度為^1,0=[扮,02,...,&^表示狄利克雷概率分布模型 參數(shù);
型,X表示直方圖向量,diag(.)表示對角矩陣是一個(gè)三角伽馬函數(shù),Q表示全1向量,維度 為WX W,T表示轉(zhuǎn)置。
[0041 ] 進(jìn)一步地,所述構(gòu)建SVM訓(xùn)練核函數(shù)Ks?(xi,xj),包括:
[0042] 將直方圖向暈X輸入到狄利克雷概率分布模型中:
[0043
[0044] 其中X表示直方圖向量,W表示直方圖向量的維度,β= [βι,β2, . . .,β?0τ表示狄利克 雷概率分布模型參數(shù),) = 表示伽馬函數(shù);
[0045] 當(dāng)?shù)依死赘怕史植寄P偷腎n似然函數(shù)獲得最大值時(shí),相應(yīng)的模型參數(shù)使得模型 最合理,根據(jù)以下公式求得模型參數(shù)i3=[fo,fe,. . .,ft]T:
[0046]
[0047] 將β代入到狄利克雷概率分布模型中并計(jì)算狄利克雷概率分布模型的In似然函數(shù) 的梯度,將一個(gè)可變長度的直方圖向量X變換成一個(gè)固定長度的向量H(x):
[0048]
[0049] %表示對β求梯度
:雙伽馬函數(shù),I表示全1向量;
[0050] 對H(X)進(jìn)行白化變換得到白化向量ψ (X):
[0051]
[0052] 示H(x)的協(xié)方差矩陣,diag(.)表示對角矩陣,是一個(gè)三角伽馬函數(shù),I表示全1向量,T表 示轉(zhuǎn)置;
[0053] 從而構(gòu)建SVM訓(xùn)練核函數(shù)KsvM(Xi,Xj)為:
[0054]
[0055]
[0056]
[0057]
[0058]進(jìn)一步地,所述將待分類圖像的直方圖向量輸入到訓(xùn)練好的SVM模型,完成圖像的 分類,包括:
[0059]將待分類圖像的直方圖向量z輸入到SVM模型的決策函數(shù),當(dāng)f (z) >0表示z為正樣 本,f (z)<0表示z為負(fù)樣本,f (z) =0不做判斷。
[0060]本發(fā)明提出了一種基于詞袋模型的圖像分類方法,在處理分類的SVM分類器核函 數(shù)的選擇上,結(jié)合了空間金字塔和狄利克雷概率分布的優(yōu)點(diǎn)提出了新的核函數(shù)spro,SPPD 核函數(shù)不僅與原始特征保持了同樣的維度,降低了計(jì)算難度,而且保留了局部特征間的空 間信息,提高了圖像分類的精度,減少了分類時(shí)間。
【附圖說明】
[0061 ]圖1為本發(fā)明SVM模型的訓(xùn)練過程流程圖;
[0062] 圖2為本發(fā)明實(shí)施例利用空間金字塔模型生成圖像每個(gè)特征類型的直方圖示意 圖;
[0063] 圖3為本發(fā)明基于詞袋模型的圖像分類方法流程圖。
【具體實(shí)施方式】
[0064]下面結(jié)合附圖和實(shí)施例對本發(fā)明技術(shù)方案做進(jìn)一步詳細(xì)說明,以下實(shí)施例不構(gòu)成 對本發(fā)明的限定。
[0065] 本實(shí)施例采用支持向量機(jī)SVM(Support Vector Machine)模型來進(jìn)行圖像分類, 首先需要采用訓(xùn)練樣本訓(xùn)練學(xué)習(xí)得到SVM模型,然后采用學(xué)習(xí)得到的SVM模型對待分類的圖 像進(jìn)行分類。
[0066] 本實(shí)施例本實(shí)施例采用V0C2007數(shù)據(jù)集作為訓(xùn)練樣本,來進(jìn)行SVM模型訓(xùn)練。完成 SVM模型的訓(xùn)練過程如圖1所示,包括步驟:
[0067] SOl:對訓(xùn)練樣本圖像進(jìn)行特征提取,得到所提取的特征點(diǎn)。
[0068] 圖像的特征提取,可以通過興趣點(diǎn)檢測、密集采樣或隨機(jī)采集,結(jié)合圖割區(qū)域、顯 著區(qū)域等方式獲得圖像的局部特征,例如SIFT或Dense-SIFT描述子。本實(shí)施例對訓(xùn)練樣本 圖像進(jìn)行特征提取的具體步驟如下:
[0069] 1):檢測訓(xùn)練樣本圖像的尺度空間的極值點(diǎn)。
[0070] 為了分析訓(xùn)練樣本圖像中各個(gè)局部特征的尺度,訓(xùn)練樣本圖像要通過一系列平滑 操作得到圖像的尺度空間。這里圖像的尺度空間定義為L(x,y,〇),它是由一個(gè)可變尺度的 二維高斯函數(shù)G(x,y,〇)和圖像I(x,y)卷積得到的,公式如下:L(x,y,〇)=G(x,y,5)*I(x,y) [0071 ]這里*是指在X,y上的卷積操作,〇是尺度空間因子,且有:
[0072]
[0073]為了有效地檢測尺度空間穩(wěn)定的特征點(diǎn)的位置,常使用由DoG(Difference of Gauss i an)函數(shù)和圖像做卷積而得到的尺度空間D (X,y,δ)進(jìn)行極值檢測。D(x,y, δ)可以通 過對兩個(gè)相鄰高斯尺度的圖像相減獲得。
[0074] D(x,y,〇) = (G(x,y,k〇)-G(x,y,5))*I(x,y)=L(x,y,k〇)-L(x,y,5)
[0075] 這里,k是常數(shù),δ表示兩相鄰尺度空間的倍數(shù)。在進(jìn)行局部極值點(diǎn)檢測時(shí),以像素 點(diǎn)為單位,將每個(gè)像素點(diǎn)與和它相同尺度且相鄰的8個(gè)像素點(diǎn)以及相鄰像素點(diǎn)對應(yīng)位置的9 個(gè)點(diǎn)比較,因?yàn)橄噜彸叨扔袃蓚€(gè),因此是9*2 = 18個(gè)點(diǎn)。這樣,每一個(gè)采樣點(diǎn)與9*2+8 = 26個(gè) 點(diǎn)進(jìn)行比較,只有該點(diǎn)的值比其對應(yīng)的26個(gè)點(diǎn)的值都大或者都小的時(shí)候,該點(diǎn)才會(huì)被選擇 為極值點(diǎn)。
[0076] 2):過濾極值點(diǎn)得到特征點(diǎn)。
[0077] 上面通過比較一個(gè)像素和它鄰域的點(diǎn)確定了極值點(diǎn),由于在金字塔中存在降采樣 的圖像,所以接下來要確定這個(gè)候選特征點(diǎn)的位置,尺度等信息。首先在某極值點(diǎn)對D(x,y, σ)進(jìn)行泰勒展開:
[0078]
[0079] 其中X= (X,y,σ )τ是到該極值點(diǎn)的偏移量。對上式求導(dǎo)并令倒數(shù)等于〇,得到精確 的位置
[0080]
[0081 ]仕匕泣恆測到的攸但點(diǎn)甲,安云除低對比度的點(diǎn)和不穩(wěn)定的邊緣響應(yīng)點(diǎn)。為了去 除低對比度的點(diǎn),首先需要把公式②代入公式①,得到極值點(diǎn)處的極值:
[0082;
[0083]當(dāng)f.在任一方向上的偏移大于0.5時(shí),認(rèn)為這個(gè)極值離其他的采樣點(diǎn)更近,這個(gè)點(diǎn) 需要?jiǎng)h除。假設(shè)圖像的灰度范圍是O到I.O之間,當(dāng)極值|D(X)| < ο.03時(shí),這樣的點(diǎn)已受到 噪聲的干擾,也要?jiǎng)h除。
[0084] 現(xiàn)在我們需要去除不穩(wěn)定的邊緣響應(yīng)點(diǎn),一個(gè)相對平坦的DoG函數(shù)在橫跨邊緣的 時(shí)候會(huì)有較大的主曲率,在垂直的方向有較小的主曲率,主曲率可以通過Hessian矩陣計(jì)算 出:
[0085]
[0086] H的特征值與D的主曲率成正比,可以避免計(jì)算其具體的特征值,因?yàn)樘卣髦档谋?例才是我們所關(guān)心的。這里令α為較大的特征值,β為較小的特征值,有 [0087: .
[0088;
[0089;
[0090;
[0091] 我們給定r = 10。對于主曲率比值大于10的極值點(diǎn)被刪除。
[0092] 在去除低對比度的點(diǎn)和不穩(wěn)定的邊緣響應(yīng)點(diǎn)后,剩下的極值點(diǎn)作為提取的特征 點(diǎn)。
[0093] 3)確定每個(gè)特征點(diǎn)的方向參數(shù)。
[0094]為了實(shí)現(xiàn)圖像的旋轉(zhuǎn)不變性,需要根據(jù)檢測到的特征點(diǎn)的圖像局部結(jié)構(gòu)確定一個(gè) 1古、比估田図傖從齒的古、比本步前図傖巨部娃詒的君古向
[0095]
[0096]
[0097] ΛΑ^πινχ,γ ;/TM〇vx,y ^ ι · ια·>^π ΗΛΙ mww/JtH'J 方向,σ是特征點(diǎn)的尺度值。
[0098] 4)生成特征點(diǎn)描述子,完成特征點(diǎn)的提取。
[0099]為了保證特征矢量具有旋轉(zhuǎn)不變性,以特征點(diǎn)為中心,將特征點(diǎn)鄰域內(nèi)的梯度的 位置和方向旋轉(zhuǎn)一個(gè)角度Θ。
[0100] 為了增強(qiáng)計(jì)算過程中的魯棒性,以特征點(diǎn)為中心取16*16的鄰域作為采樣窗口,每 個(gè)小格代表特征點(diǎn)鄰域所在尺度空間的一個(gè)像素,箭頭代表該像素的梯度方向,箭頭長度 代表梯度的大小。將采樣點(diǎn)和特征點(diǎn)的相對方向通過高斯加權(quán)后歸入包含8個(gè)bin的方向直 方圖,最后獲得4*4*8的128維特征向量,該特征向量通常稱為SIFT描述子。
[0101] S02:對特征點(diǎn)進(jìn)行聚類得到特征類型,并將特征點(diǎn)表述為其所屬的特征類型。
[0102] 本步驟是在整個(gè)訓(xùn)練集上提取局部特征后,實(shí)用某種聚類算法將局部特征進(jìn)行聚 類,每個(gè)聚類中心可以看作是視覺詞典中的一個(gè)視覺單詞,所有視覺單詞形成一個(gè)視覺詞 典。視覺單詞相當(dāng)于文本檢索中的詞,視覺單詞由聚類中心對應(yīng)特征形成的碼字來表示。
[0103] 本實(shí)施例采用K-均值方法來進(jìn)行聚類,本實(shí)施例中特征類型相當(dāng)于詞袋模型中的 視覺單詞。具體步驟如下:
[0104] 1)對提取出的η個(gè)特征點(diǎn)的數(shù)據(jù)集,選取M個(gè)初始聚類中心μ」,j = l,2,3, . . .,M;
[0105] 2)計(jì)算每個(gè)特征點(diǎn)與聚類中心的距離D(xi,yj),i = l,2,3, ...,n,j = l,2,3,...M, 如果滿足 0(Χ?,μ」)=π?η{0(Χ?,μ」),j = l,2,3, · · ·,n},則 Xiesj;其中S」(j = l,2,3, · · ·,M) 表示中心點(diǎn)為的第j個(gè)聚類類別。Xl表示屬于類別&的數(shù)據(jù)點(diǎn)。本步的目的是通過計(jì)算每 個(gè)待分類的特征與聚類中心的距離,將η個(gè)數(shù)據(jù)集根據(jù)距離最小原則分到M個(gè)聚類中心的類 別中。
[0106] 3)計(jì)算誤差平方和準(zhǔn)則函數(shù)J并將每個(gè)簇的質(zhì) 心作為新的聚類中心。
[0107] 4)重復(fù)計(jì)算S02和S03,直到J。的值不變或者迭代次數(shù)達(dá)到設(shè)定的次數(shù)為止,例如 150次為止。
[0108] 5)通過前四個(gè)步驟,將所有特征點(diǎn)聚類成了M個(gè)特征類型W,...,yKeR D。
[0109] 然后從所有特征類型中選出距離特征點(diǎn)沿最近的前5個(gè)特征類型
[0110] 6)將特征點(diǎn)編碼為其所屬的特征類型。
[0111] 本發(fā)明采用KCB編碼方法,將特征點(diǎn)^編碼成如下形式:
[0112]
[0113] 3為參數(shù),本實(shí)施例o = 〇.〇〇〇l。
[0114] 編碼的目的是在特征類型空間中,尋找與特征點(diǎn)^最近的前5個(gè)特征類型并進(jìn)行 加權(quán),然后用這些加權(quán)特征類型來重新表述特征點(diǎn)。
[0115] S03:根據(jù)特征點(diǎn)所屬的特征類型,利用空間金字塔模型形成圖像的直方圖向量。
[0116] 具體步驟如下:
[0117] 1)利用空間金字塔模型生成圖像每個(gè)特征類型的直方圖。
[0118] 將圖像從像素空間上分為L層,隨著層數(shù)的增加,圖像被分割成一些越來越精細(xì)的 子區(qū)域(在本發(fā)明中,取L = 3,分辨率分別為1*1,2*2,4*4)。在每個(gè)特征類型上,通過計(jì)算特 征點(diǎn)落入每個(gè)子區(qū)域的數(shù)目來形成直方圖,然后所有子區(qū)域的直方圖被連接成一個(gè)大的 特征向量hm。
[01 19] hm= [hlN(l) ,h21, . . . ,h2N(2) ,h31, . . . ,hij , . . . ,hLN(L)]
[0120] 對任何一個(gè)特征類型而言,N(i)表示第i層子區(qū)域的總數(shù)。hu表示第i層第j個(gè)子區(qū) 域。1^的維度為d X Uhm表示圖像的第m個(gè)特征類型的直方圖。
[0121] 如圖2所示,假設(shè)圖像中有三種特征類型,圖2中表示為黑色圓點(diǎn)、菱形框和加號。 對于黑色圓點(diǎn)而言,在第一層上有11個(gè)黑色圓點(diǎn)落入到子區(qū)域中,然后就在這個(gè)子區(qū)間上 形成直方圖,直方圖的高度為11,如圖2中最左邊圖像下的黑色直條所示,同樣的對于菱形 框和加號對應(yīng)的特征類型的直方圖,分別為白色直條和灰色直條。在第二層和第三層上的 特征類型的直方圖分別如圖2中間和右邊的圖形所示,這里不再贅述。
[0122] 2)為特征類型的直方圖添加權(quán)重。
[0123] 為匕的每個(gè)直方圖添加如下的權(quán)重:
[0124] O111= [ ω η,ω 21,· · ·,"2Ν(2),ω 31,· · ·,ω ij,· · ·,ω ln(l)]T
[0125] ωΜ表示圖像的第m個(gè)特征類型的權(quán)重。〇^的維度為NXl。權(quán)重可以通過以下公式 獲得:
[0126]
[0127] 兵甲_] = 1,2, ...,Ν(ι)。COij表示第i層第j個(gè)子區(qū)域的權(quán)重。
[0128] 3)計(jì)算圖像特征類型的權(quán)重直方圖。
[0129] 第m個(gè)特征類型的權(quán)重直方圖擁有如下的形式:Fm=hmc〇m。因?yàn)槲覀冇蠱個(gè)特征類 型,所以我們可以得到M個(gè)特征類型的直方圖集合以及所對應(yīng)的權(quán)重集合:
[0130] h={hi,h2, · · ·,hm,· · ·,1ιμ}
[0131] ω ={ ωχ, ω2, . . . , 〇m, . . . , ωΜ}
[0132] 進(jìn)一步,我們得到M個(gè)特征類型的權(quán)重直方圖:
[0133] F={Fi,F2, . . . ,Fm, . . . ,Fm}
[0134] 4)根據(jù)圖像每個(gè)特征類型的權(quán)重直方圖,形成圖像的直方圖向量。
[0135] 對于L層M個(gè)特征類型的圖像而言,最終的直方圖向量z的維度為dMXl。圖像的直 方圖向量Z為:
[0136]
[0137] S04:采用訓(xùn)練樣本的直方圖向量訓(xùn)練SVM模型。
[0138] 具體包括如下步驟:
[0139] 01)、構(gòu)建SVM訓(xùn)練核函數(shù)。
[0140] 本發(fā)明提出一種新的核函數(shù),spro核函數(shù),它與原始特征保持了同樣的維度,降低 了 SVM模型的計(jì)算復(fù)雜度。本實(shí)施例通過如下方法得到SVM核函數(shù):
[0141] 將直方圖向量X輸入到狄利克雷概率分布模型中,得到直方圖向量的狄利克雷概 率分布
[0142]
[0143] 其中X表示直方圖向量,W表示直方圖向量的維度,β= [β?,β2, . . .,β?0Τ表示狄利克 雷概率分布模型參數(shù),「(/) = £> 表示伽馬函數(shù)。
[0144]根據(jù)概率論與數(shù)理統(tǒng)計(jì)的相關(guān)理論,當(dāng)?shù)依死赘怕史植寄P偷腎n似然函數(shù)獲得 最大值時(shí),相應(yīng)的模型參數(shù)可以使得模型最合理,根據(jù)以下公式求得模型參數(shù)β=[仏, &,. . .,0W]T:
[0145]
[0146] 將β代入到狄利克雷概率分布模型中并計(jì)算狄利克雷概率分布模型的In似然函數(shù) 的梯度,將一個(gè)可變長度的直方圖向量X變換成一個(gè)固定長度的向量H(X)。
[0147]
[0148] 全1列向量,維度為WX1。
[0149] 白化變換是一種去相關(guān)的變換,它可以消除維度間的相關(guān)性,減小數(shù)據(jù)的冗余,對 H(x)進(jìn)行白化變換得到白化向量Ψ (X)。
[0150]
[0151] 表示H (X)的協(xié)方差矩陣,d iag (.)表示對角矩陣,《是一個(gè)三角伽馬函數(shù),Q表示全1向量,維 度為WX W,T表示轉(zhuǎn)置。
[0152]
[0153]
[0154]
[0155] 為 ln(x
[0156]
[0157] 02)、選擇懲罰因子,構(gòu)造并求解以下最優(yōu)化問題,得到最優(yōu)解c/ = (?,.,.,%
[0158] 懲罰因子C表示對分類錯(cuò)誤的樣本的重視程度,C值越大表示出現(xiàn)分類錯(cuò)誤的樣本
越少,該值一船龍1 核函數(shù)以及懲罰因子C,構(gòu)造并求解以下最優(yōu)化 問題,得到:!
[0159]
[0160] 其中Xi是訓(xùn)練樣本的第i個(gè)樣本的特征向量直方圖,yie{_l,-l丨,1 = 1,2,...,1是 與^對應(yīng)的樣本標(biāo)記。同樣的^是訓(xùn)練樣本的第j個(gè)樣本的特征向量直方圖,,-i} J = 1,2, ...,1是與Xj對應(yīng)的樣本標(biāo)記,1表示訓(xùn)練樣本的總數(shù)。
[0161] 03)、選擇α*的一個(gè)小于C的正分量α)結(jié)合SPPD核函數(shù)求解b*:
[0162]
[0163] 的決策函數(shù),完成SVM模型的訓(xùn)練。
[0164]
[0165] 其中sgn( ·)為符號函數(shù),<為樣本對應(yīng)的拉格朗日乘子,1/表不分類閾值,Xi是訓(xùn) 練樣本的第i個(gè)樣本,71£{1,-1}4 = 1,2,...,1是與^對應(yīng)的樣本標(biāo)記,2為待分類圖像的 直方圖向量。
[0166] 在訓(xùn)練完成SVM模型后,采用訓(xùn)練得到的SVM模型對待分類的圖像進(jìn)行分類,如圖3 所示,具體包括步驟:
[0167] FOl、對待分類圖像進(jìn)行特征提取,得到所提取的特征點(diǎn);
[0168] F02、對特征點(diǎn)進(jìn)行聚類得到特征類型,并將特征點(diǎn)表述為其所屬的特征類型;
[0169] F03、根據(jù)特征點(diǎn)所屬的特征類型,利用空間金字塔模型形成圖像的直方圖向量; [0170] F04、將待分類圖像的直方圖向量輸入到訓(xùn)練好的SVM模型,完成圖像的分類。
[0171] 其中步驟R)1、F02、F03與SVM模型訓(xùn)練中的步驟S01、S02、S03相同,這里不再贅述。 從而通過步驟FOl、F02、F03得到待分類圖像的直方圖向量z。最后將直方圖向量z輸入到SVM 模型中,完成圖像的分類。
[0172]即將待分類圖像的直方圖向量z輸入到SVM模型的決策函數(shù),當(dāng)f(z)>0表示z為正 樣本,f (z)<0表示z為負(fù)樣本,f (z) =0不做判斷。
[0173] 在V0C2007數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的結(jié)果如表1所示,給出六種方法(SPPD,Homker,JS+ ?0,51疆4,此,1^11 6&〇在每一類別的分類精度值,并且對每一類別中分類精度最高的數(shù)值 進(jìn)行加粗表示,最后通過mAP(mean average precisions)值來衡量每種方法的分類精度。
[0174] 從表1中可以清楚的看到,五種方法的m A P值均在基本線性核的m A P值之上,在 V0C2007數(shù)據(jù)集中,使用SPH)核的方法的mAP值比其他方法的mAP值要好,獲得了20個(gè)類別中 的19個(gè)類別的分類最佳效果。具體地說,在V0C2007數(shù)據(jù)集的Motorbike類別中,SPPD核的 mAP值比JS+PQ核的mAP值高0.3194,比SIKMA核的mAP值高0.2311,比MKL方法的mAP值高 0 · 2105,比 Homker 核的 mAP 值高 0 · 1885。
[
[0177] 表1
[0178] 根據(jù)PASCAL V0C2007的官方申明,準(zhǔn)確率/查全率(prec i s ion/reca11)曲線提供 了比ROC曲線更加直觀以及更加敏感的評估性能。采用準(zhǔn)確率/查全率曲線分析不同方法的 分類表現(xiàn)。在實(shí)驗(yàn)中,希望查詢到的相關(guān)圖像越多越好即準(zhǔn)確率越高越好。同樣的,希望查 詢到的圖像越多越好即查全率越高越好。但是實(shí)際應(yīng)用中,它們是相互制約的。以查全率為 橫坐標(biāo),準(zhǔn)確率為縱坐標(biāo)繪制查全率/準(zhǔn)確率曲線。如果一種分類方法所繪制出的PR曲線最 靠近右上角(即查全率與準(zhǔn)確率最高)時(shí),則該分類方法是所有方法中分類效果最好的。為 了獲得真實(shí)、令人信服的結(jié)果,本實(shí)施例每個(gè)實(shí)驗(yàn)重復(fù)運(yùn)行5次,通過比較6種方法在數(shù)據(jù)集 V0C2007上的PR曲線,可得本實(shí)施例的SPH)核優(yōu)于其他核。
[0179] 以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非對其進(jìn)行限制,在不背離本發(fā)明精 神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變 形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種基于詞袋模型的圖像分類方法,其特征在于,所述圖像分類方法包括: 對待分類圖像進(jìn)行特征提取,得到所提取的特征點(diǎn); 對特征點(diǎn)進(jìn)行聚類得到特征類型,并將特征點(diǎn)表述為其所屬的特征類型; 根據(jù)圖像特征點(diǎn)所屬的特征類型,利用空間金字塔模型形成圖像的直方圖向量; 將待分類圖像的直方圖向量輸入到訓(xùn)練好的SVM模型,完成圖像的分類。2. 根據(jù)權(quán)利要求1所述的圖像分類方法,其特征在于,所述SVM模型的訓(xùn)練過程,包括: 對訓(xùn)練樣本圖像進(jìn)行特征提取,得到所提取的特征點(diǎn); 對特征點(diǎn)進(jìn)行聚類得到特征類型,并將特征點(diǎn)表述為其所屬的特征類型; 根據(jù)特征點(diǎn)所屬的特征類型,利用空間金字塔模型形成圖像的直方圖向量; 采用訓(xùn)練樣本的直方圖向量訓(xùn)練SVM模型。3. 根據(jù)權(quán)利要求1或2所述的圖像分類方法,其特征在于,所述對圖像進(jìn)行特征提取,得 到所提取的特征點(diǎn),包括: 檢測圖像的尺度空間的極值點(diǎn); 過濾極值點(diǎn)得到特征點(diǎn); 確定每個(gè)特征點(diǎn)的方向參數(shù); 生成特征點(diǎn)描述子,完成特征點(diǎn)的提取。4. 根據(jù)權(quán)利要求1或2所述的圖像分類方法,其特征在于,所述根據(jù)特征點(diǎn)所屬的特征 類型,利用空間金字塔模型形成圖像的直方圖向量,包括: 利用空間金字塔模型生成圖像每個(gè)特征類型的直方圖; 為特征類型的直方圖添加權(quán)重; 計(jì)算圖像特征類型的權(quán)重直方圖; 根據(jù)圖像每個(gè)特征類型的權(quán)重直方圖,形成圖像的直方圖向量。5. 根據(jù)權(quán)利要求2所述的圖像分類方法,其特征在于,所述采用訓(xùn)練樣本的直方圖向量 訓(xùn)練SVM模型,包括: 構(gòu)建SVM訓(xùn)練核函數(shù)KsvM(xi,xj); 選擇懲罰因子,根據(jù)構(gòu)建的SVM訓(xùn)練核函數(shù)求解W下最優(yōu)化問題得到最優(yōu)解0<ai<C,i = l,2,...,l 選擇勺一個(gè)小于C的正分量α;:錯(cuò)合SVM訓(xùn)練核函數(shù)求解護(hù):根據(jù)SVM訓(xùn)練核函數(shù)W及b*構(gòu)建SVM模型的決策函數(shù),完成SVM模型的訓(xùn)練,所述決策函 數(shù)為:其中XI是訓(xùn)練樣本的第i個(gè)樣本的特征向量直方圖,71^{1,-1}4 = 1,2,...,1是與又1 對應(yīng)的樣本標(biāo)記,同樣的^是訓(xùn)練樣本的第j個(gè)樣本的特征向量直方圖,yjE{l,-l},j = l, 2,. . .,1是與^對應(yīng)的樣本標(biāo)記,1表示訓(xùn)練樣本的總數(shù),S即(·)為符號函數(shù),<為樣本對 應(yīng)的拉格朗日乘子,b^表示分類闊值,z為待分類圖像的直方圖向量。6. 根據(jù)權(quán)利要求5所述的圖像分類方法,其特征在于,所述SVM訓(xùn)練核函數(shù)Lsvm(Xi,Xj) 為:其中,a是參數(shù),W表示直方圖向量的維度是雙伽馬函數(shù),1 = [1, 1,. .,1]τ表示全1列向量,維度為WX 1,β=[βι,β2,...,執(zhí)〇τ表示狄利克雷概率分布模型參 數(shù); 其中Vg表示 對0求梯度為直方圖向量的狄利克雷概率分布模型,X表 示直方圖向量,diag(.)表示對角矩陣,口'是一個(gè)Ξ角伽馬函數(shù),Q表示全1向量,維度為WX W,T表示轉(zhuǎn)置。7. 根據(jù)權(quán)利要求6所述的圖像分類方法,其特征在于,所述構(gòu)建SVM訓(xùn)練核函數(shù)KsvM( XI, Xj),包括: 將直方圖向量X輸入到狄利克雷概率分布模型中:其中X表示直方圖向量,W表示直方圖向量的維度,β=[βι,&,...,執(zhí)〇τ表示狄利克雷概 率分布模型參數(shù):受:表示伽馬函數(shù); 當(dāng)?shù)依死赘怕史植寄P偷腎n似然函數(shù)獲得最大值時(shí),相應(yīng)的模型參數(shù)使得模型最合 理,根據(jù)W下公式求得模型參數(shù)0=[01,&,...,阮]T:將β代入到狄利克雷概率分布模型中并計(jì)算狄利克雷概率分布模型的In似然函數(shù)的梯 度,將一個(gè)可變長度的直方圖向量X變換成一個(gè)固定長度的向量H(x):表示對β求梯度,其牛曼雙伽馬函數(shù),I = [ 1,1,. .,1 ]Τ表示全1列 向量,維度為wxi; 對H(x)進(jìn)行白化變換得到白化向量ψ(χ):其中表示Η(χ) 的協(xié)方差矩陣,diag(.)表示對角矩陣,口'是一個(gè)Ξ角伽馬函數(shù),Q表示全1向量,維度為WX W, T表示轉(zhuǎn)置; 從而構(gòu)建SVM訓(xùn)練核函數(shù)KsvM(xi,xj)為:其中Xi與X康不直方圖向量; 使用參數(shù)a將ln(x)優(yōu)化為ln(x+a),構(gòu)建的SVM核函數(shù)為:8.根據(jù)權(quán)利要求5所述的圖像分類方法,其特征在于,所述將待分類圖像的直方圖向量 輸入到訓(xùn)練好的SVM模型,完成圖像的分類,包括: 將待分類圖像的直方圖向量Z輸入到SVM模型的決策函數(shù),當(dāng)f(z)>0表示Z為正樣本,f (z)<0表示z為負(fù)樣本,f(z)=0不做判斷。
【文檔編號】G06K9/62GK105844299SQ201610171326
【公開日】2016年8月10日
【申請日】2016年3月23日
【發(fā)明人】桂江生, 張青, 包曉安
【申請人】浙江理工大學(xué)