本發(fā)明屬于計(jì)算機(jī)視覺的
技術(shù)領(lǐng)域:
,具體地涉及一種基于矩陣變量RBM的圖像重構(gòu)方法。
背景技術(shù):
:布爾斯曼機(jī)BoltzmannMachine(BM)是一種重要的隨機(jī)神經(jīng)網(wǎng)絡(luò),由Hinton和Sejnowski在1985年提出。但由于傳統(tǒng)的布爾斯曼機(jī)變量單元沒有連接關(guān)系的約束導(dǎo)致不能有效的在機(jī)器學(xué)習(xí)中得到應(yīng)用。為了構(gòu)建一個(gè)可以應(yīng)用于實(shí)際的模型,Hinton提出了一個(gè)稱為限制布爾斯曼機(jī)的模型結(jié)構(gòu),在這個(gè)模型中,僅僅可見層單元和隱含層單元之間存在連接關(guān)系。當(dāng)隱含層和可見層單元之間受到限制時(shí),RBM(RestrictedBoltzmannMachine,受限布爾斯曼機(jī))模型可以被看成擁有二值變量的概率模型。最近幾年,RBMs由于其強(qiáng)大的特征提取和表達(dá)能力,已經(jīng)廣泛應(yīng)用于模式識別和機(jī)器學(xué)習(xí)領(lǐng)域。給定一些訓(xùn)練數(shù)據(jù),訓(xùn)練RBM模型的目標(biāo)就是學(xué)習(xí)可見層和隱含層直接的權(quán)值,使得由RBM表示的概率分布盡可能適應(yīng)于所有的訓(xùn)練樣本。一個(gè)訓(xùn)練好的RBM模型可以根據(jù)訓(xùn)練數(shù)據(jù)得到的概率分布提供輸入數(shù)據(jù)有效的表示。經(jīng)典的RBM模型主要描述的是基于向量形式的輸入數(shù)據(jù)或變量。然而,來源于現(xiàn)代科技中的數(shù)據(jù)更多的是較為一般的結(jié)構(gòu)。比如,數(shù)字圖像就是2維矩陣,矩陣中包含了空間信息。為了是經(jīng)典的RBM可以應(yīng)用到諸如2D圖像的數(shù)據(jù),傳統(tǒng)的方法就是把2D數(shù)據(jù)向量化處理。但不幸的是,這樣處理不僅破壞了高價(jià)圖像內(nèi)部結(jié)構(gòu),導(dǎo)致?lián)p失了結(jié)構(gòu)中隱藏的交互信息,而且由于可見層和隱含層之間的全連接,導(dǎo)致了模型參數(shù)的增加。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的技術(shù)解決問題是:克服現(xiàn)有技術(shù)的不足,提供一種基于矩陣變量RBM的圖像重構(gòu)方法,其大大降低訓(xùn)練和推導(dǎo)的計(jì)算復(fù)雜度,在訓(xùn)練和測試過程中保持了2D矩陣數(shù)據(jù)中的空間信息同時(shí)在重構(gòu)過程中得到良好的效果,可以應(yīng)用于更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。本發(fā)明的技術(shù)解決方案是:這種基于矩陣變量RBM的圖像重構(gòu)方法,該方法包括以下步驟:(1)訓(xùn)練階段:給定低分辨率圖像的輸入特征Z=(Z1,Z2,Z3,Z4),先用類似于插值方法的任何一個(gè)單圖像高分辨率算法得到高分辨率圖像塊X的估計(jì)值X0,根據(jù)公式(19),進(jìn)行參數(shù)計(jì)算其中為五個(gè)二進(jìn)制可見層矩陣變量,為二進(jìn)制隱含層矩陣變量,分別為X和Y的二進(jìn)制取值空間,為模型權(quán)值矩陣;(2)圖像重建階段:對給定低分辨率圖像得到低分辨率對應(yīng)的4個(gè)特征,利用步驟(1)訓(xùn)練好的參數(shù)對給定低分辨率圖像進(jìn)行高分辨率重建,用重建的高分辨率圖像和給定低分辨率圖像進(jìn)行信息融合。本發(fā)明需要學(xué)習(xí)的模型參數(shù)少于經(jīng)典RBMs,因此訓(xùn)練和推導(dǎo)的計(jì)算復(fù)雜度有明顯的減少;可見層和隱含層都是矩陣形式,因此在訓(xùn)練和測試過程中保持了2D矩陣數(shù)據(jù)中的空間信息同時(shí)在重構(gòu)過程中得到良好的效果;本發(fā)明可以很容易的拓展到任何階數(shù)的張量數(shù)據(jù),因此可以應(yīng)用于更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。附圖說明圖1示出了經(jīng)典的RBM模型。圖2示出了本發(fā)明的RBM模型。具體實(shí)施方式這種基于矩陣變量RBM的圖像重構(gòu)方法,該方法包括以下步驟:(1)訓(xùn)練階段:給定低分辨率圖像的輸入特征Z=(Z1,Z2,Z3,Z4),先用類似于插值方法的任何一個(gè)單圖像高分辨率算法得到高分辨率圖像塊X的估計(jì)值X0,根據(jù)公式(19),進(jìn)行參數(shù)計(jì)算其中為五個(gè)二進(jìn)制可見層矩陣變量,為二進(jìn)制隱含層矩陣變量,分別為X和Y的二進(jìn)制取值空間,為模型權(quán)值矩陣;(2)圖像重建階段:對給定低分辨率圖像得到低分辨率對應(yīng)的4個(gè)特征,利用步驟(1)訓(xùn)練好的參數(shù)對給定低分辨率圖像進(jìn)行高分辨率重建,用重建的高分辨率圖像和給定低分辨率圖像進(jìn)行信息融合。本發(fā)明需要學(xué)習(xí)的模型參數(shù)少于經(jīng)典RBMs,因此訓(xùn)練和推導(dǎo)的計(jì)算復(fù)雜度有明顯的減少;可見層和隱含層都是矩陣形式,因此在訓(xùn)練和測試過程中保持了2D矩陣數(shù)據(jù)中的空間信息同時(shí)在重構(gòu)過程中得到良好的效果;本發(fā)明可以很容易的拓展到任何階數(shù)的張量數(shù)據(jù),因此可以應(yīng)用于更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。優(yōu)選地,所述步驟(1)包括以下分步驟:(1.1)定義矩陣型訓(xùn)練樣本集最大迭代次數(shù)T,學(xué)習(xí)率,權(quán)值正則項(xiàng),每組訓(xùn)練樣本數(shù),CD算法K步;(1.2)隨機(jī)初始化U和V,令B=C=0隨機(jī)梯度ΔU=ΔV=ΔB=ΔC=0;(1.3)迭代步數(shù)t=1→T進(jìn)行;(1.4)隨機(jī)將分成M組大小為b;(1.5)組m=1→M進(jìn)行;(1.6)對所有數(shù)據(jù)在當(dāng)前模型參數(shù)下進(jìn)行吉布斯采樣(1.7)k=0→K-1進(jìn)行;(1.8)根據(jù)公式(9)對樣本Y(k)進(jìn)行采樣p(Y=1|X;Θ)=σ(UXVT+C)(9);(1.9)根據(jù)公式(8)對樣本進(jìn)行采樣p(X=1|Y;Θ)=σ(UTYV+B)(8);(1.10)根據(jù)公式(20)進(jìn)行梯度的更新(1.11)根據(jù)公式θ=θ++θ更新模型參數(shù)θ∈Θ;(1.12)結(jié)束其中為五個(gè)二進(jìn)制可見層矩陣變量,為二進(jìn)制隱含層矩陣變量,Θ表示所有的模型參數(shù)U0,V0,U1,V1,U2,V2,U3,V3,U4,V4,A1,A2,A3,A4,B和C,歸一化常量Z(Θ)定義為其中表示X和Y的二進(jìn)制取值空間為模型權(quán)值矩陣,為可見層和隱含層對應(yīng)的偏置矩陣。優(yōu)選地,最大迭代次數(shù)T為10000,學(xué)習(xí)率為0.05,權(quán)值正則項(xiàng)為0.01,每組訓(xùn)練樣本數(shù)為100,CD算法K步為1步。優(yōu)選地,所述訓(xùn)練樣本大小為30?,F(xiàn)在更詳細(xì)地說明本發(fā)明。1模型定義經(jīng)典的RBM[8,13]是一個(gè)二值化的向量模型,輸入和隱含層都是向量形式。模型如圖1,可見層單元(立方體)和隱含層(圓柱)單元為全連接形式。RBM的能量函數(shù)模型為:E(x,y;Θ)=-xTWy-bTx-cTy(1)其中,是二進(jìn)制的可見層單元和隱含層單元,為偏置,代表神經(jīng)網(wǎng)絡(luò)中可見層和隱含層的連接權(quán)。Θ={b,c,w}為模型參數(shù)。為了介紹本發(fā)明的MVRBM,定義如下符號。定義為二進(jìn)制可見層矩陣變量,為二進(jìn)制隱含層矩陣變量。假設(shè)獨(dú)立隨機(jī)變量xij和ykl從{0,1}中取值。為四階張量參數(shù),偏置矩陣為和定義了如下能量函數(shù)。(2)其中為模型參數(shù)。Θ中一共有I×J×K×L+I×J+K×L個(gè)自由參數(shù)。即使在I,J,K,L很小時(shí)Θ也將是一個(gè)很大的數(shù),這樣就會需要大量的訓(xùn)練樣本和很長的時(shí)間。為了減少自由參數(shù)的輸了和節(jié)省計(jì)算復(fù)雜度,假定隱含層單元和可見層單元的連接權(quán)值有如下關(guān)系:wijkl=ukivlj。通過定義兩個(gè)新的矩陣和可以把能量函數(shù)(2)改寫為如下形式,E(X,Y)=-tr(UTYVXT)-tr(XTB)-tr(YTV)(3)矩陣U和V共同的定義了輸入矩陣X和隱含矩陣Y的連接權(quán),這樣,公式(2)中Θ的自由參數(shù)減少為公式(3)中I×K+L×J+I×J+K×L?;诠?3),定義如下分布:Θ表示所有的模型參數(shù)U,V,B和C。歸一化常量Z(Θ)定義為其中表示X和Y的二進(jìn)制取值空間。公式(4)中的概率模型為矩陣變量RBM(MVRBM)。模型如圖2。為了便于說明MVRBM的學(xué)習(xí)算法,對于可見單元和隱含單元的條件概率密度提出了如下引理引理1.MVRBM模型由公式(3)(4)定義。每一個(gè)可見層單元的條件概率密度為每一個(gè)隱含層單元的條件概率密度為式中σ是S型函數(shù)σ(x)=1/(1+e-x)應(yīng)用矩陣表示,兩個(gè)條件概率可以寫為:p(X=1|Y;Θ)=σ(UTYV+B)(8)p(Y=1|X;Θ)=σ(UXVT+C)(9)最大似然函數(shù)和對于MVRBM的CD算法對于給定樣本集在公式(4)聯(lián)合分布下,的對數(shù)似然函數(shù)定義為對于Θ中任意元素θ,我們可以證明稱(10)式等號右面的第一項(xiàng)為數(shù)據(jù)擴(kuò)展項(xiàng),第二項(xiàng)為模型擴(kuò)展項(xiàng)。計(jì)算似然函數(shù)梯度最主要的問題是計(jì)算模型擴(kuò)展項(xiàng)。因?yàn)槟P蛿U(kuò)展項(xiàng)要對可見層和隱含層所有的狀態(tài)進(jìn)行加和。然而,CD算法允許通過一個(gè)較短的馬爾科夫鏈實(shí)現(xiàn)近似計(jì)算。CD算法的主要思想是通過樣本集中的一個(gè)樣本作為吉布斯鏈的初始值CD-k算法利用第k步的樣本作為模型擴(kuò)展項(xiàng)的近似。將(11)帶入(10),我們可以得到基于CD算法的近似:對于MVRBM的所有4類參數(shù),僅計(jì)算作為例子,其他參數(shù)的計(jì)算以此類推。從(3)式,得到由此,公式(12)變?yōu)閷τ诙M(jìn)制變量Y(Y'),因?yàn)閷?13)式,有同理,對其他參數(shù)可以得到多模式的MVRBM真實(shí)世界中的信息往往來自于多個(gè)通道。例如,在圖像高分辨率重構(gòu)中,低分辨率圖像往往和不用類型的特征相關(guān)聯(lián)。假設(shè)可見層由兩個(gè)獨(dú)立矩陣構(gòu)成能量模型為E(X,Y,Z)=-tr(UTYVXT)-tr(XTB)-tr(YTC)(18)-tr(QTYVZT)-tr(ZTA)聯(lián)合分布為為了驗(yàn)證本文提出的MVRBM算法的有效性,本文進(jìn)行了高分辨率重建實(shí)驗(yàn)。訓(xùn)練數(shù)據(jù)我們從69個(gè)自然圖像中隨機(jī)選擇10000個(gè)圖像塊。69個(gè)彩色圖像可以從如下網(wǎng)址下載到:http://decsai.ugr.es/cvg/dbimagenes/.每一個(gè)訓(xùn)練樣本包含一個(gè)高分辨率圖像塊X(從YCbCr彩色空間中選擇光照Y通道所得圖像)和4個(gè)低分辨率圖像塊。4個(gè)低分辨率圖像塊分別是圖像在Y通道上x-,y-,xx-和yy-方向上的導(dǎo)數(shù),記作Z1,Z2,Z3和Z4。所以我們的可見層有5個(gè)矩陣塊(X,Z1,Z2,Z3和Z4)。能量函數(shù)可以由公式18的擴(kuò)展公式(19)得到。從圖像庫中選擇N個(gè)訓(xùn)練樣本,記作實(shí)驗(yàn)中,隨機(jī)選擇N=10000訓(xùn)練樣本塊,樣本塊的大小分別為10×10,15×15,20×20,30×30和35×35,所有的比例因?yàn)榫鶠?。隱含層固定大小為20。用大小256×256為Lena圖像做高分辨率圖像,改變不同的訓(xùn)練樣本塊大小,得到的高分辨率重構(gòu)結(jié)果如表1。表1從表1可以看出,重構(gòu)效果都較好,但不同尺寸的訓(xùn)練圖像塊對重構(gòu)效果有一定的影響。所以一般圖像的重建,可以選擇固定訓(xùn)練圖像塊大小為30。本發(fā)明和其他的一些方法對于Lena圖像的高分辨率重建做了一些對比。試驗(yàn)中,選擇訓(xùn)練樣本塊大小為15×15,隱含層大小為20×20。輸入低分辨率圖像大小為256×256。本方法的PSNR為35:3006dB,大大高于雙三次插值的方法的34:1282dB。本方法同時(shí)也和最好的方法進(jìn)行比較,基于稀疏表示的高分辨率重構(gòu)方法(Super-resolutionviaSparseRepresentation(SR)),本方法PSNR雖然稍微低一點(diǎn),但重建時(shí)間要提高很多,需要的重建時(shí)間遠(yuǎn)遠(yuǎn)小于SR方法。更多實(shí)驗(yàn)結(jié)果見表2。ImagePSNR-BicubicPSNR-SRPSNR-MVRBMTimes-SRTimes-MVRBMathens33.233334.753634.4948555.45335.234anhinga29.294930.446430.2720344.53935.348avion32.575134.053034.2227665.50734.883baboon24.945525.703325.6939390.40635.272bardowl30.527031.579131.4910690.32234.975barnfall30.873732.030231.9782567.40834.825beeflowr34.683935.636235.3203511.71235.143bird34.518436.540936.2514748.22535.196blakeyed31.716333.669032.8534325.2935.429blueeye35.218836.395736.1106786.42634.856bluheron35.270736.404636.1540687.55135.475bobcat33.152534.269934.1001590.12835.084表2經(jīng)過對每個(gè)訓(xùn)練樣本進(jìn)行模型MMVRBM的訓(xùn)練,用以下步驟實(shí)現(xiàn)高分辨率重建。1.訓(xùn)練階段:給定低分辨率圖像的輸入特征Z=(Z1,Z2,Z3,Z4),先用類似于插值方法的任何一個(gè)單圖像高分辨率算法得到高分辨率圖像塊X的估計(jì)值X0,根據(jù)公式(19),進(jìn)行參數(shù)計(jì)算。M-MVRBM的CD-K算法12.高分辨率重建階段:步驟一、給定低分辨率圖像,可以得到低分辨率對應(yīng)的4個(gè)特征;步驟二、利用訓(xùn)練好的MMVRBM的參數(shù),對輸入的低分辨率圖像進(jìn)行高分辨率重建;步驟三、用重建的高分辨率圖像和已有原始低分辨率圖像進(jìn)行信息融合。以上所述,僅是本發(fā)明的較佳實(shí)施例,并非對本發(fā)明作任何形式上的限制,凡是依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對以上實(shí)施例所作的任何簡單修改、等同變化與修飾,均仍屬本發(fā)明技術(shù)方案的保護(hù)范圍。當(dāng)前第1頁1 2 3