本發明屬于模式識別技術領域,更具體地,涉及一種基于深度學習的模糊圖像模糊核尺寸估計方法與系統。
背景技術:
當成像設備處于一個不理想的成像環境時,往往會產生模糊的圖像,對后續的視覺處理,如:識別、跟蹤等造成一定的干擾。造成圖像模糊的原因有很多,包括光學因素、大氣因素、人工因素、技術因素等,日常生產生活中對圖像進行去模糊操作有其重要意義。
模糊圖像B通常由一個清晰圖像I與模糊核k(也稱點擴散函數)卷積操作得來,如公式(1)所示:
其中,N表示圖像噪聲,表示二維卷積操作。圖像模糊的類型主要分為高斯模糊、運動模糊以及失焦模糊三類,其區別體現在模糊核k表現形式上。根據上述退化模型,圖像去模糊實際上是一個反卷積的過程,當模糊核k與清晰圖像I均未知時稱為盲目反卷積,當模糊核k已知時稱為非盲目反卷積。實際情況下,模糊圖像的模糊核k與清晰圖像I均未知,所以通過公式(1)一個方程要得到兩個未知參數,這個問題是不適定的。對于不適定的病態問題,目前的研究大多采用最大后驗概率估計的方法對模糊核k與清晰圖像I進行估計,如公式(2)所示,
其中稱為數據逼近項,保證了估計出的清晰圖像滿足退化模型;R(k)與R(I)分別為模糊核與清晰圖像的約束,也稱為正則化項,通過不同的正則化項使模糊核與清晰圖像更符合實際的先驗信息約束。許多研究圍繞公式(2)展開,通過對模糊核與清晰圖像的先驗信息的深入研究,以提高圖像去模糊的效果。在上述基于最大后驗概率的圖像去模糊算法中,模糊核尺寸是一個非常重要的輸入參數。模糊核尺寸,主要由模糊軌跡以及模糊核支撐域所決定,反映了模糊的程度,即尺寸大的模糊核產生的模糊圖像比尺寸小的模糊核產生的模糊圖像的模糊程度更大。在圖像去模糊的過程中,輸入的模糊核尺寸越接近真實情況,圖像復原效果則越理想。輸入過大或過小模糊核尺寸復原出的圖像通常無法達到預期的效果。
現有的模糊圖像模糊核尺寸估計的方法主要包括兩類:(1)試錯法,按照經驗在固定其他輸入參數的情況下輸入常見的模糊核尺寸,通過復原效果對比,選取效果最好的尺寸作為輸入;(2)根據圖像內容提取邊緣信息,通過相應的濾波計算出圖像模糊程度,從而估計出模糊和尺寸。以上兩種方法的缺陷在于:前者存在很大的盲目性,單憑經驗通過試錯法復原的成功率低,并且估計出的模糊核尺寸無實際根據,不具有說服力;后者僅對模糊的程度,即模糊的軌跡做出相應的估計,但是模糊核尺寸既包含模糊軌跡信息,又包含模糊核支撐域信息,所以估計的結果無法直接作為輸入參數。
技術實現要素:
針對現有技術的以上缺陷或改進需求,本發明提供了一種基于深度學習的模糊核尺寸估計方法,其目的在于通過深度學習的方法,將模糊核估計問題建立為一種多分類問題,通過多分類卷積神經網絡的離線訓練,對任何輸入的模糊圖像模糊核尺寸進行較為準確的估計,由此解決現有技術方法中存在的模糊核盲目估計及估計結果無法直接作為優化算法的輸入參數等的技術問題。
為實現上述目的,按照本發明的一個方面,提供了一種基于深度學習的模糊核尺寸估計方法,該方法包括以下按步驟:
(1)對模糊圖像B進行預處理得到圖像B0,使圖像B0的尺寸滿足多分類卷積神經網絡的圖像輸入尺寸;
(2)將圖像B0輸入至已完成訓練的多分類卷積神經網絡中,得到一個模糊核尺寸概率分布向量;
(3)比較模糊核尺寸概率分布向量中每個元素的大小,最大的元素所對應的模糊核尺寸即為模糊圖像B的模糊核尺寸大小的估計結果。
進一步地,將圖像B0輸入進多分類卷積神經網絡,得到一個模糊核尺寸概率分布向量
其中,ωisoft-max表示軟最大化(Soft-max)層的權值,xfull-connect()表示全連接層的輸出值,T表示矩陣轉置,m代表模糊核尺寸類別數,所得到的模糊核尺寸概率分布向量中每一個元素分別代表該元素所對應模糊核尺寸為輸入圖像B的模糊核尺寸的概率值。
進一步地,所述多分類卷積神經網絡的訓練包括以下步驟:
(31)選擇分類卷積神經網絡的訓練集
T={t1,...,tn},n=u×v×m,
其中,T是先由u張隨機搜集的自然場景圖像與v×m個隨機生成的模糊核進行二維卷積操作,u為圖像數量,m為模糊核尺寸種類,v為每一尺寸種類的模糊核個數,相同尺寸種類的模糊核產生的模糊圖像標記為一個圖像類別;之后將二維卷積操作后得到的訓練圖像進行預處理使其尺寸滿足多分類卷積神經網絡的圖像輸入尺寸;
(32)多分類卷積神經網絡中輸入一張標記為sl的模糊核尺寸類別的訓練圖像t1,得到每一種模糊核尺寸類別的概率分布序列向量P(Bsize=(s1,...,sl,...,sm)|t1),調整各層網絡的權值,使訓練圖像t1的模糊核尺寸類別sl對應的元素為分布序列向量中最大元素;
(33)依次輸入訓練集T={t1,...,tn},n=u×v×m中所有圖像的重復步驟(32),完成多分類卷積神經網絡的訓練。
進一步地,所述圖像預處理為,當待處理模糊圖像的尺寸小于N倍多分類卷積神經網絡的圖像輸入尺寸M時,則使用降采樣法得到輸入圖像;否則使用尺寸截取法截取包含模糊信息的圖像得到輸入圖像,其中,依據實驗經驗5≤N≤15,25≤M≤100,優選N=15,M=50。
進一步地,所述降采樣法優選雙線性插值降采樣法。
按照本發明的另一方面,提供了一種基于深度學習的模糊核尺寸估計系統,該系統包括以下模塊:
圖像預處理模塊,用于對模糊圖像進行預處理,當模糊圖像的尺寸小于N倍多分類卷積神經網絡輸入圖像尺寸M時,則采用降采樣得到輸入圖像,否則采用尺寸截取的方法截取包含模糊信息的圖像得到輸入圖像,其中,依據實驗經驗5≤N≤15,25≤M≤100,優選N=15,M=50;
訓練集合成模塊,用于產生訓練需要的訓練圖像集
T={t1,...,tn},n=u×v×m,
其中,T是先由u張隨機搜集的自然場景圖像與v×m個隨機生成的模糊核進行二維卷積操作,u為圖像數量,m為模糊核尺寸種類,v為每一尺寸種類的模糊核個數,相同尺寸種類的模糊核產生的模糊圖像標記為一個圖像類別;之后將二維卷積操作后得到的訓練圖像輸入到圖像預處理模塊得到輸入圖像,使輸入圖像的尺寸滿足多分類卷積神經網絡的輸入圖像尺寸;
多分類卷積神經網絡模塊,用于進行訓練時依次輸入訓練圖像集T={t1,...,tn},n=u×v×m進入多分類卷積神經網絡,得到每一種模糊核尺寸類別的概率分布序列向量P(Bsize=(s1,...,sl,...,sm)|T),調整各層網絡權值,使訓練圖像T的模糊核尺寸類別sl對應的元素為分布序列向量中最大元素;
完成訓練后,輸入圖像B0進入多分類卷積神經網絡,得到一個概率分布向量
其中,ωisoft-max表示軟最大化(Soft-max)層的權值,xfull-connect()表示全連接層的輸出值,T表示矩陣轉置,m代表模糊核尺寸類別數,所得到的模糊核尺寸概率分布向量中每一個元素分別代表該元素所對應模糊核尺寸為輸入圖像B的模糊核尺寸的概率值。
模糊核尺寸估計模塊,用于模糊核尺寸估計,比較概率分布向量中每個元素的大小,最大的元素所對應的模糊核尺寸即為模糊圖像B模糊核尺寸大小的估計結果。
進一步地,所述降采樣法優選雙線性插值降采法
總體而言,通過本發明所構思的以上技術方案與現有技術相比,具有以下技術特征及有益效果:
(1)該發明技術方案提供的模糊圖像模糊核尺寸估計結果能夠直接用于大多數現有的圖像去模糊算法,克服了現有技術盲目試錯及無法提供直接輸入參數的缺陷;
(2)本發明技術方案中多分類卷積神經網絡訓練集的合成采用隨機搜集大量清晰圖片以及隨機生成大量模糊核的方法,使訓練集更具有普適性,采用此訓練集訓練得到的分類卷積神經網絡估計出的模糊核尺寸更準確。
附圖說明
圖1是本發明的模糊核尺寸估計方法流程圖;
圖2是本發明的模糊核尺寸估計系統結構圖;
圖3是本發明設計的一種多分類卷積神經網絡結構示意圖。
具體實施方式
為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。此外,下面所描述的本發明各個實施方式中所涉及到的技術特征只要彼此之間未構成沖突就可以相互組合。
以下首先對本發明用到的術語進行解釋和說明。
模糊核:也稱為點擴散函數,圖像模糊退化模型通常如公式(1)中表述,模糊圖像由清晰圖像與一個退化函數卷積操作得來,此退化函數則稱為模糊核,也可稱為點擴散函數、退化函數。現有的圖像去模糊算法大多基于此退化模型,通過添加相應的先驗約束信息,對模糊核以及清晰圖像進行估計。
模糊核尺寸:模糊核通常被設定為一個奇數尺寸的正方形矩陣,通常在模糊軌跡四周添加適量的“零值”構成其支撐域。不同尺寸的模糊核與同一清晰圖像卷積得來的圖像模糊程度也不同,即模糊核尺寸大小在很大程度上影響了圖像模糊程度。模糊核尺寸在圖像去模糊過程中,作為一個重要的輸入參數,在很大程度上影響了圖像復原的結果。輸入尺寸參數如小于實際尺寸,恢復結果會出現大量“振鈴”現象;輸入尺寸參數如大于實際尺寸,恢復結果會過度平滑而失去細節信息;當且僅當輸入尺寸參數與實際尺寸接近的時候,才會得到令人滿意的恢復結果。
卷積神經網絡:卷積神經網絡是人工神經網絡的一種,已成為當前語音分析和圖像識別領域的研究熱點。它的權值共享網絡結構使之更類似于生物神經網絡,降低了網絡模型的復雜度,減少了權值的數量。該優點在網絡的輸入是圖像時表現的更為明顯,使圖像可以直接作為網絡的輸入,避免了傳統分類算法中復雜的特征提取和數據重建過程。卷積網絡是為識別二維形狀而特殊設計的一個多層感知器,這種網絡結構對平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。
如圖1所示,為本發明模糊圖像模糊核尺寸估計方法的總流程圖,本發明方法具體包括以下步驟:
(1)對模糊圖像B進行預處理,通過降采樣得到圖像尺寸滿足需求的輸入圖像B0,對于尺寸偏大的圖像B,亦可根據需求輸入尺寸截取包含模糊信息(如大尺度結構信息)的輸入圖像B0,經過實驗,在既不減弱圖像中的有效信息,又不增加訓練過程的計算負擔的情況下,將輸入圖像的尺寸設定為50×50;
(2)將圖像B0輸入至已完成訓練的20類多分類卷積神經網絡中,其模糊核尺寸候選集合為S={11×11,15×15,...,95×95},通過不同層的權值計算,得到一個概率分布向量;
(3)根據步驟(2)得到的向量P,通過比較個元素的大小,取值最大的元素pi,i∈{1,...,20},其所對應類別所代表的模糊核尺寸sk即為模糊圖像B尺寸大小的估計結果。
如圖3所示,本發明根據上述實施實例提供了一種卷積神經網絡的結構示意圖。該網絡總共包含9層,由“C1—C2—C3—C4—M5—C6—M7—F8—S9”組成。C1為卷積層,由96個尺寸為11×1×1的濾波器以及一個非線性激活函數sigmoid函數組成,尺寸為50×50輸入圖像B0通過C1層的計算后,將得到一個尺寸為40×50×96的圖像序列X1;C2層為卷積層,由96個尺寸為1×11×96的濾波器以及一個非線性激活函數sigmoid函數組成,尺寸為40×50×96圖像序列X1通過C2層的計算后,將得到一個尺寸為40×40×96的圖像序列X2;C3層為卷積層,由128個尺寸為9×1×96的濾波器以及一個非線性激活函數sigmoid函數組成,尺寸為40×40×96圖像序列X2通過C3層的計算后,將得到一個尺寸為32×40×128的圖像序列X3;C4層為卷積層,由128個尺寸為1×9×128的濾波器以及一個非線性激活函數ReLU函數組成,尺寸為32×40×128圖像序列X3通過C4層的計算后,將得到一個尺寸為32×32×128的圖像序列X4;M5層為最大化池化層(Max-pooling),將每一圖像四個相鄰像素點中取灰度值最大的點替代這四個像素點,尺寸為32×32×128的圖像序列X4通過M5層后,將得到一個尺寸為16×16×128的圖像序列X5;C6層為卷積層,由256個尺寸為7×7×128的濾波器以及一個非線性激活函數ReLU函數組成,尺寸為16×16×128圖像序列X5通過C6層的計算后,將得到一個尺寸為10×10×256的圖像序列X6;M7層為最大化池化層(Max-pooling),將每一圖像四個相鄰像素點中取灰度值最大的點替代這四個像素點,尺寸為10×10×256的圖像序列X6通過M7層后,將得到一個尺寸為5×5×256的圖像序列X7;F8、S9分別為全連接層、Soft-max損失層,序列X7通過此兩層網絡后,將得到一概率分布序列向量中每一元素的取值代表了該類別對應的模糊核尺寸的概率值,概率最大的元素對應圖像類別代表的模糊核尺寸即為模糊圖像B模糊核尺寸大小的估計結果。
上述神經網絡的訓練過程如下:
(1)隨機搜集清晰自然場景圖像,與隨機生成的模糊核進行卷積操作得到模糊圖像,并對模糊圖像所對應的模糊核尺寸進行標記;
(2)以一張標記為sl并降采樣至網絡需求尺寸的模糊圖像Be為例,當模糊圖像Be通過上述神經網絡計算后,會得到其對應每一個尺寸的概率分布序列向量P(Bsize=(s1,...,sl,...,s20)|Be),通過調整各層網絡的權值參數,使模糊圖像Be所對應的真實模糊核尺寸sl代表類別的概率值為序列中最大。
(3)通過反向傳播、隨機梯度下降的優化算法,進行多次訓練迭代后,則可完成上述訓過程。
以上所述僅為本發明的較佳實施例而已,并不用以限制本發明,凡在本發明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含在本發明的保護范圍之內。