基于多任務深度學習的自然圖像美感質量評估方法
【專利摘要】本發明公開了一種基于多任務深度學習的自然圖像美感質量評估方法。其中,該方法包括步驟1:對所述自然圖像進行基于多任務深度學習的美感和語義特征的自動學習;步驟2:針對自動學習的結果,進行基于多任務深度學習的美感分類和語義識別,從而實現對自然圖像的美感質量評估。本發明利用語義信息來輔助美感特征的表達學習,從而更加有效地進行美感質量評估,并且設計多種多任務深度學習網絡結構來有效地利用美感和語義信息來獲得高準確率的圖像美感分類。本發明能應用于涉及圖像美感質量評估的眾多領域,包括圖像檢索、攝影學及相冊管理等。
【專利說明】
基于多任務深度學習的自然圖像美感質量評估方法
技術領域
[0001] 本發明涉及模式識別、機器學習及計算機視覺技術領域,特別涉及一種基于多任 務深度學習的自然圖像美感質量評估方法。
【背景技術】
[0002] 隨著數字媒體技術和計算機技術的快速發展,人們對計算機視覺、人工智能、機器 感知等領域的需求與期盼也越來越高。人們不僅希望計算機能夠識別出圖像中的物體,給 出物體的精確定位等經典的計算機視覺問題,而且開始期望計算機能夠像人類視覺系統一 樣具有更高層次的感知能力。目前,圖像美感分析已經引起了越來越多的關注,尤其是圖像 的美感質量評估。圖像美感質量評估就是利用計算機進行智能分析進而判斷圖像的美感質 量。傳統的圖像美感質量評估方法一般僅僅將圖像美感質量評估當作一個孤立的任務去手 工設計或使用深度網絡學習特征來進行質量評估。這些特征都受到美感這一主觀性因素的 影響,精度也很難達到用戶需求。
[0003] 對于人類視覺系統,圖像的美感質量評估很難作為一個獨立的任務,經常伴隨著 一些其他的視覺感知任務。比如,當人們準備去評價一張圖片的美感質量的時候,他們已經 理解了這張圖片的內容,也就是說他們能夠說出他們正在觀看的語義信息。同時,多任務學 習能夠同時學習幾個相關的任務,而且已經有大量研究表明多任務學習能夠提高部分或全 部任務的效果。
[0004] 有鑒于此,特提出本發明。
【發明內容】
[0005] 本發明提供一種基于多任務深度學習的自然圖像美感質量評估方法,以解決如何 提高自然圖像美感質量評估的魯棒性和精度。
[0006] 為了實現上述目的,提供以下技術方案:
[0007] -種基于多任務深度學習的自然圖像美感質量評估方法,所述方法包括:
[0008] 步驟1:對所述自然圖像進行基于多任務深度學習的美感和語義特征的自動學習;
[0009] 步驟2 :針對自動學習的結果,進行基于多任務深度學習的美感分類和語義識別, 從而實現對所述自然圖像的美感質量評估。
[0010] 本發明利用多任務學習去挖掘更有效的美感特征入手,提出了一種基于多任務深 度學習并利用語義信息來輔助美感質量評估的方法,很好地彌補了美感特征表達的缺陷, 得到了一種更加魯棒并且精度更高的美感質量評估結果。本發明還能應用于涉及圖像美感 質量評估的眾多領域,包括圖像檢索、攝影學及相冊管理等。
【附圖說明】
[0011] 圖1為根據本發明實施例的基于多任務深度學習的自然圖像美感質量評估方法的 流程示意圖;
[0012] 圖2為根據本發明實施例的多任務深度卷積神經網絡的四種具體實現結構示意 圖;
[0013] 圖3為根據本發明實施例的具有美感和語義標注的示意圖;
[0014]圖4a為根據本發明實施例的基于多任務深度學習的自然圖像美感質量評估結果 中分類正確的高質量美感圖像示意圖;
[0015] 圖4b為根據本發明實施例的基于多任務深度學習的自然圖像美感質量評估結果 中分類正確的低質量美感圖像示意圖;
[0016] 圖5為根據本發明一實施例的基于多任務深度學習的自然圖像美感質量評估方法 的訓練和測試階段的流程示意圖。
【具體實施方式】
[0017] 下面結合附圖以及具體實施例對本發明實施例解決的技術問題、所采用的技術方 案以及實現的技術效果進行清楚、完整的描述。顯然,所描述的實施例僅僅是本申請的一部 分實施例,并不是全部實施例。基于本申請中的實施例,本領域普通技術人員在不付出創造 性勞動的前提下,所獲的所有其它等同或明顯變型的實施例均落在本發明的保護范圍內。 本發明實施例可以按照權利要求中限定和涵蓋的多種不同方式來具體化。
[0018] 需要說明的是,在不沖突的情況下,本申請實施例及其技術特征可以相互組合而 形成技術方案。
[0019] 本發明實施例的思想要點是:1)本發明實施例提出語義信息的識別是美感評估的 一種相關任務,來輔助學習有效的圖像美感特征表達;2)本發明實施例提出的多任務深度 學習美感質量評估方法以及保持任務間平衡的策略,能夠有效利用所有任務的有效信息, 提升美感質量評估的精度和魯棒性;3)本發明實施例提出通過語義信息的輔助和多任務深 度學習的方法,說明語義信息在美感質量評估任務中的有效性,更加說明美感質量評估在 人類視覺系統中并不是一個孤立的任務。
[0020] 圖1示例性地示出了基于多任務深度學習的自然圖像美感質量評估方法的流程。 如圖1所示,該方法包括:
[0021] S101:對自然圖像進行基于多任務深度學習的美感和語義特征的自動學習。
[0022] S102:針對自動學習的結果,進行基于多任務深度學習的美感分類和語義識別,從 而實現對自然圖像的美感質量評估。
[0023]本發明實施例基于多任務深度學習并利用語義信息來輔助美感質量評估的方法, 很好地彌補了美感特征表達的缺陷,得到了一種更加魯棒并且精度更高的美感質量評估結 果。
[0024]下面上述方法進行詳細說明。該方法包括步驟S201至步驟S204。
[0025] S201 :訓練數據的美感和語義標注。
[0026]大規模的可用數據是采用深度學習的前提條件。本發明實施例中采用的是同時具 有美感和語義標簽的大規模數據集。由于美感是一個主觀性很強的屬性,存在明顯的個體 差異。因此,對于美感的標注,一般采用多人對同一幅圖像進行標注,之后取所有人的平均 標注作為圖像的最終標簽。語義是客觀的屬性,所以標簽是比較一致的。如圖3所示,其為具 有美感和語義標注的示例圖像。其中,高表示高美感質量,低表示低美感質量。
[0027] S202:對圖像進行預處理。
[0028]其中,將所有標注的圖像采用深度學習神經網絡訓練之前,需要進行預處理。首先 將圖像歸一化到統一的尺寸(比如256 X 256 ),然后將圖像的減去所有圖像的均值(這樣可 以去除光照等的影響),最后每次訓練從圖像中隨機截取固定大小(比如227X227)的一塊 區域送入深度學習神經網絡。隨機截取圖像區域的策略可以增加訓練樣本。其中,所有圖像 的均值指的是將所有歸一化到統一大小的圖像在每個像素上的RGB值分別求平均得到的結 果。
[0029] S203:進行基于多任務深度學習的特征學習和模型訓練。
[0030]在本步驟中,基于多任務深度學習的特征學習和模型訓練是通過深度卷積神經網 絡來實現的。本發明提出利用語義信息來幫助美感質量評估任務,并將此問題建模為一個 多任務深度學習概率模型。
[0031] 設定X表示預處理后的圖像,Y表示圖像對應的美感類別標記,Z表示圖像對應的語 義信息的標記,9代表多任務深度學習網絡底層中美感分類和語義識別任務共有的參數,W 代表多任務深度學習網絡高層中美感分類和語義識別任務分別的參數1=[1 3,13],13表示 多任務深度學習網絡中美感分類任務特有的參數,W s表示多任務深度學習網絡中語義識別 任務特有的參數。
[0032] 目標就是通過對參數0,W,A尋找求取最優估計值,從而使后驗概率最大化。
[0033] 目標函數如下:
[0034] 6, W,= argmax p{6, IV,, /. | A", Y,Z) (1 )
[0035]其中,A表示語義識別任務在聯合學習過程中的權重系數。!)(0,1八4八,2)表示后 驗概率。
[0036]根據貝葉斯理論,公式(1)中的后驗概率口(0,1,叫乂,¥,2)可以轉換為如下公式:
[0037] p(0,ff,A|X,Y,Z)cxp(Y|X,0,ffa)p(Z|X,0,ffs,A)p(0)p(ff)p(A) (2)
[0038] 其中,,表示對應美感分類任務的條件概率,i?(Z| 表示對應 語義識別任務的條件概率,P(9)、P(W)和p(A)分別為先驗概率。
[0039] 下面以示例的方式分別介紹公式(2)中的每一項。
[0040] 1)條件概率?以|父,0,1)
[0041] 在多任務深度學習網絡中利用如下公式來求解美感分類任務的條件概率:
(3)
[0043]其中,N表示全部的訓練樣本的個數,n表示第n個樣本,n=l,2, . . .N,C表示美感質 量的類別數,c表示第c種類別,c=l,2,...C,l{ ? }為指示函數,當為真時取值為1,當為假 時取值為〇,yn表示第n個樣本的美感類別標記。xn表示第n個樣本的圖像數據。
[0044]第n個樣本的條件概率p(yn = c | xn,0,Wa)在多任務深度學習的網絡中使用softmax 函數來求得,即: (4)
[0046]其中,1表示第1種類別,1 = 1,2, . . .C,C表示第c種美感類別對應的網絡參數,把 表示第1種美感類別對應的網絡參數和9T分別指和9的轉置。
[0047] 2)條件概率 p(Z|X,0,Ws,入)
[0048]在多任務深度學習網絡中利用如下公式來求解語義識別任務的條件概率:
[0049] p(Z\X,0,Ws,l') = ?=1 m=l
[0050] 其中,M表示全部的語義屬性的個數,m表示第m個語義屬性,m=l,2, . . .M,<表示 第n個樣本的第m個語義屬性的標記,取值為0或UWf表示第m個語義屬性對應的網絡參數。
[0051] 第n個樣本的條件概率貧iff)在多任務深度學習的網絡中使用 Sigmoid 函數 〇(x) = l/(l+exp(-x))(其中)來求得。
[0052] 3)先驗概率 p(0)、p(W)和 p(入)
[0053] 與常見的卷積神經網絡相同,本發明將參數0,W都初始化為標準的正態分布,將參 數入初始化為均值為y,方差為〇2的正態分布。
[0054] 最后將公式(2)中每一項的公式代入公式(2)中,并取負對數,省略常數項,可得最 終的目標函數:
[0056]為了更有效地學習美感特征的表達,本發明提出一種保持目標函數(公式(6))內 兩個任務間平衡的策略,該策略是通過
來實現的。
[0057]公式(6)中的第一項是由公式(4)代入的,對應著美感評估任務,是通過softmax函 數實現的,而softmax函數的特點是對于每個樣本只計算分類正確的那一類的損失。公式 (6)中的第二項是由公式(5)代入的,對應著語義識別任務,由于每個樣本都有M種語義標 注,每種語義識別的任務是通過sigmoid函數實現的,所以對每個樣本需要計算M個損失。
[0058] 為了使兩種任務的損失在目標函數的優化中保持平衡,所以將
[0059] 上述目標函數的優化可以通過多種多任務的卷積神經網絡結構來實現,如圖2所 示。圖2中提出了 4種(MTCNN#1至MTCNN#3和增強的MTCNN)可以實現的多任務卷積神經網絡。 其中,MTCNN表示多任務卷積神經網絡的縮寫。深灰色表示卷積層,淺灰色表示全連接層。 MTCNN#1包括美感和語義任務共享的4層卷積層和2層全連接層,還有分別任務獨立的一層 全連接層;MTCNN#2包括美感和語義任務共享的4層卷積層和任務分別獨立的3層全連接層; MTCNN#3包括美感和語義任務共享的2層卷積層,美感任務獨立的2層全連接層,和語義任務 獨立的2層卷積層和3層全連接層;增強的MTCNN美感和語義任務共享的2層卷積層,其中一 個美感任務獨立的2層全連接層,另一美感任務和語義任務共享的2層卷積層和2層全連接 層,和美感和語義任務分別獨立的一層全連接層。以圖2中的第一種網絡MTCNN#1為例來優 化目標函數(公式(6))。它包含的由底向上的4層卷積層和2層全連接層是兩種任務共享參 數的,其中參數由9表示,最上層的兩層全連接層由左向右分別表示美感和語義的特有參 數,美感和語義的特有參數分別由1和1表示。此網絡的訓練是通過反向傳播算法實現的。
[0060] S204:將測試圖像輸入訓練好的網絡進行美感質量預測。
[0061] 在測試過程中,將測試圖像輸入上一步驟訓練好的神經網絡中,最后輸出美感質 量的預測和語義類別的預測。由于語義識別只是輔助任務,所以我們在測試的時候只關注 美感質量的評估結果。圖4a欄表示測試為高美感質量的圖像,圖4b欄表示測試為低美感質 量的圖像。
[0062] 圖5示例性地示出了根據本發明一實施例的訓練和測試階段的流程示意圖。如圖5 所示,在訓練階段首先對訓練圖像進行美感和語義的標注,然后進行圖像的預處理,最后將 預處理后的圖像輸入多任務深度卷積神經網絡進行特征學習和模型訓練;在測試階段測試 圖像不需要進行標注,然后進行圖像預處理,接著將預處理的測試圖像輸入在訓練階段已 訓練好的多任務深度卷積神經網絡進行特征提取和美感質量評估和語義識別,最后輸出結 果。
[0063] 下面再以一優選實施例來更好地說明本發明。
[0064]步驟S301:采集訓練數據,并對每幅圖像進行美感和語義的標注。
[0065] 步驟S302:圖像預處理。
[0066]具體的是將每幅圖像歸一化到統一大小,比如256X256,并減去均值圖像(均值圖 像指的是將所有歸一化到統一大小的圖像在每個像素上的RGB值分別求平均得到的結果), 然后隨機截取固定大小(比如227X227)的圖像區域送入要訓練的神經網絡。
[0067]步驟S303:基于多任務深度學習的特征學習和模型訓練。將預處理好的圖像,送入 事先定義好的卷積神經網絡。
[0068]步驟S304:將測試圖像(如圖4)輸入訓練好的網絡進行美感質量預測。
[0069] 在測試過程中,將測試圖像輸入上一步驟訓練好的神經網絡中,最后輸出美感質 量的預測。
[0070] 總之,本發明實施例提出了一種新的基于多任務深度學習以及利用語義信息的自 然圖像美感質量評估方法。本發明實施例很好地利用了語義信息來輔助美感特征的表達學 習,得到更加魯棒,精度更高的美感質量評估性能,進而說明了語義信息對于美感特征學習 的有效性。
[0071] 以上所述,僅為本發明中的【具體實施方式】,但本發明的保護范圍并不局限于此,任 何熟悉該技術的人在本發明所揭露的技術范圍內,可理解想到的變換或替換,都應涵蓋在 本發明的包含范圍之內,因此,本發明的保護范圍應該以權利要求書的保護范圍為準。
【主權項】
1. 一種基于多任務深度學習的自然圖像美感質量評估方法,其特征在于,所述方法包 括: 步驟1:對所述自然圖像進行基于多任務深度學習的美感和語義特征的自動學習; 步驟2:針對自動學習的結果,進行基于多任務深度學習的美感分類和語義識別,從而 實現對所述自然圖像的美感質量評估。2. 根據權利1所述的方法,其特征在于,所述步驟1包括:利用所述自然圖像的語義信 息,來進行基于多任務深度學習的美感特征的自動學習。3. 根據權利2所述的方法,其特征在于,所述步驟2包括: 利用以下第一公式對所述自然圖像進行基于多任務深度學習的美感分類和語義識別:其中,X表示自然圖像;Y表示圖像對應的美感類別標記;Z表示圖像對應的語義信息的 標記;Θ代表多任務深度學習網絡底層中美感分類和語義識別任務共有的參數;W代表多任 務深度學習網絡高層中美感分類和語義識別任務分別的參數W= [Wa,Ws];Wa表示多任務深 度學習網絡中美感分類任務特有的參數;W s表示多任務深度學習網絡中語義識別任務特有 的參數;λ表示語義識別任務在聯合學習過程中的權重系數;ρ(θ,ψ,λ|χ,Υ,Ζ)表示后驗概 率。4. 根據權利3所述的方法,其特征在于,所述方法還包括: 根據貝葉斯理論,將所述第一公式轉換為以下第二公式: p(0,ff,A|X,Y,Z)〇cp(Y|X,0,ffa)p(Z|X,0,ffs,A)p(0)p(ff)p(A) 其中,ΜΓ| 表示對應美感分類任務的條件概率,F(Z| 表示對應語義 識別任務的條件概率,P(9),p(W)和ρ(λ)分別為先驗概率。5. 根據權利4所述的方法,其特征在于,所述美感分類任務的條件概率通過以下公式來 求解:其中,N表示全部的訓練樣本的個數,η表示第η個樣本,n=l,2,.. .N,C表示美感質量的 類別數,(3表示第(3種類別,(:=1,2,...(:,1{>}為指示函數,當括號內變量為真時取值為1, 當為假時取值為〇,y n表示第η個樣本的美感類別標記,χη表示第η個樣本的圖像數據; 并且,第η個樣本的所述條件概率?(5^=(:|&,0,13)在所述多任務深度學習的網絡中使 用sof tmax函數來求得。6. 根據權利4所述的方法,其特征在于,所述語義識別任務的條件概率通過以下公式來 求艫具中,M表不全部的誥乂屬性的個數;m表不弟m個誥乂屬性,m=l,2,. . .M;(表不第η個 樣本的第m個語義屬性的標記,取值為0或1; 表示第m個語義屬性的對應的網絡參數; 并且,第η個樣本的所述條件概率丨在所述多任務深度學習的網絡中 使用Sigmoid函數來求得。7.根據權利3所述的方法,其特征在于,所述方法還包括: 利用以下策略對所述第一公式進行恍仆, 其中,M表示語義標注種類數量。
【文檔編號】G06K9/62GK105894025SQ201610195565
【公開日】2016年8月24日
【申請日】2016年3月30日
【發明人】黃凱奇, 譚鐵牛, 赫然, 考月英
【申請人】中國科學院自動化研究所