本發明涉及基于內容的圖像檢索
技術領域:
,特別涉及一種基于深度學習的多屬性深度哈希編碼圖像檢索方法,具體是指一種基于深度學習實現交通圖像檢索的方法。
背景技術:
:隨著平安城市、智能交通等工程的推進,監控攝像為大多數案件留下了影像資料,給警方破案帶來了很大的便利。但查找視頻、分析視頻的工作常常會耗用大量的時間和人力。在海量視頻中更方便查找到相關信息的需求越來越強烈,視頻檢索技術也越來越重要。交通監控視頻的數據量非常之大,在這種海量數據中尋找特定目標是不易的,因此這種交通應用場景下的圖像檢索應運而生。為了適應海量圖像庫的檢索需求并降低“維數災難”的影響,常采用的方法為圖像哈希的方法。該方法將圖像特征映射成二進制哈希碼,再用哈希碼間的漢明距離表示圖像間的相似程度。利用圖像哈希方法能夠快速計算哈希碼間的漢明距離并大大降低了數據的存儲量,但其缺點在于:依賴于圖像特征的提取,一張圖像的復雜程度往往不能用幾個特征來表達,此時編碼函數不能很好的貼近原圖像信息則檢索的精確度會下降。為解決上述問題,研究人員提出了采用多標簽圖像中包含的多級語義進行深度哈希學習。深度哈希學習可以處理圖像中多級語義相似度而不僅是描述圖像表觀特征。這種方法雖然處理了圖像包含的高級語義信息,但是沒有利用上圖中物體的屬性特征信息,這種單一的深度哈希編碼方法還有提升的空間。技術實現要素:本發明的目的在于克服現有技術的不足,在智能交通應用場景下,提出一種基于深度學習的交通圖像檢索方法,是一種融合目標的多屬性特征與深度哈希編碼進行學習從而達到交通監控視頻圖像檢索的方法。本方法基于深度卷積神經網絡,通過加入目標屬性分類任務融合目標的多屬性特征與深度哈希編碼進行學習從而達到交通監控視頻圖像檢索的目的。本方法的特點在于既保留了圖像中豐富的多級語義信息又利用了各圖像中目標特有的屬性信息,通過共享網絡結構同時利用了CNN輸出包含的多種圖像屬性特征的特點,讓深度哈希函數更加好的表達圖像信息,使得在交通監控中的視頻圖像搜索更為精確有效。本發明的目的通過以下的技術方案實現:一種基于深度學習的交通圖像檢索方法,包括下述步驟:步驟1:將已經分離好且具有多屬性標簽的運動目標視頻幀數據集分為訓練集和測試集兩部分;步驟2:把訓練集圖像輸入深度卷積神經網絡中,得到目標顏色、類別特征,同時根據哈希編碼函數初始參數計算每張圖的哈希編碼;步驟3:對圖像之間的類標進行相似度排序;步驟4:計算目標損失函數,先計算訓練集中圖像哈希編碼之間的漢明距離并進行排序,與類標的相似度排序比較進行檢索分支損失函數的計算;該目標損失函數由顏色及類別屬性分類任務multihinge-loss與哈希函數學習任務的triplet-loss共同組成,經隨機梯度下降法與后向傳播改變網絡參數以得到深度學習哈希編碼函數;步驟5:對于新的查詢圖像,利用步驟4學習到的哈希編碼函數對圖像進行哈希編碼,計算查詢圖像與測試集中圖像的哈希編碼之間的漢明距離,采用該漢明距離表征查詢圖像與測試集中圖像之間的相似程度;步驟6:根據查詢圖像與測試集中圖像的哈希編碼之間的漢明距離得到距離的大小序列進行相似度得分排序來得到檢索圖像列表,根據被檢索圖像路徑所屬的視頻段得到相應視頻的搜索。優選地,所述步驟1中,對交通監控視頻數據集做運動物體分割識別得到分離好的運動目標,并且采用人工標注方式標注每幀圖像上的目標類別與目標顏色,目標視頻幀數據集中的圖片路徑信息包含其所屬的視頻段標號。優選地,所述步驟2中,深度卷積神經網絡為alex—net網絡結構,包含五個卷積層,兩個全連接層以及一個哈希編碼層;哈希編碼函數表達為:上式中,k表示函數計算的第k個哈希編碼值,sgn()為符號函數,為第k個哈希編碼值的權重,xi為第i張圖像;最終第i張圖像的哈希編碼表述為:h(xi)=[h1(xi),h2(xi),…,hk(xi)]。優選地,所述步驟3中,對圖像之間的類標進行相似度排序,具體是:對于訓練集中的圖像{X1,X2,X3,…,XN},每一張圖與其他圖進行類標的權重相似度得分排序,N表示訓練數據集中的圖像數目;采用以下公式:其中,score(Xi,Xj)代表圖像Xi和Xj進行類標的帶權重相似度得分排序;w1與w2分別代表類別類標與顏色類標的權重;函數g[…]輸入兩個集合,返回兩個集合相同的個數;表示屬于第i張圖像的類別類標、顏色類標的集合;排序最終得到一個第i張圖Xi與其他圖比較得到的關于i的綜合相似度排序列表。優選地,所述步驟4中,顏色與類別屬性分類采用SVM分類類器,目標損失函數hinge-loss在SVM分類器的最大化間隔分類中,輸出t=±1和分類器分數y,預測分數值y的損失定義如下:l(y)=max(0,1-t·y)當t和y有相同的符號時,即表示y預測出正確的分類;|y|≥1此時的hingelossl(y)=0但是如果它們的符號相反,l(y)則會根據y線性增加;所屬步驟4中哈希編碼函數學習任務的目標損失函數是基于圖像類標相似度排序三元組的triplet-loss,三元組的三個元素表示為[h(xi),h(xj),h(xk)],其中[i,j,k]是由步驟3中通過類標的score計算得到的排序三元組;通過學習讓表征圖像i與圖像j之間的距離盡可能小,表征圖像i與圖像k之間的距離盡可能大,并讓i、j之間的距離與i、k之間的距離有一個最小間隔α,目標損失函數表示為:這里距離用漢明距離度量,[·]+表示[·]內的值大于零時取該值為損失,小于零時損失為零。優選地,所述步驟5中,查詢圖像輸入,采用步驟4中得到的深度哈希函數對查詢圖像進行哈希編碼,數據庫里面的每一幅圖已經用哈希編碼方式儲存;漢明距離定義為將其中一個變為另外一個所需要作的最小替換次數,簡單用矩陣相乘方式得到;漢明距離d(h)公示表達為:d(h)=[h(Xi)]*[h(Xj)]h(Xi),h(Xj)分別表示第i張圖與第j張圖的哈希編碼函數。本方法與現有技術相比具有如下優點和有益效果:1.本方法基于深度卷積神經網絡,使用哈希編碼方法結合物體類別、顏色等目標屬性特征學習,得到一個多屬性監督的深度哈希編碼函數。2.采用多任務的學習方式,加入了圖像的屬性特征學習即保留了圖像中豐富的多級語義信息又利用了各圖像中目標特有的屬性信息,改善了傳統基于單一哈希編碼算法在圖像搜索中對圖像豐富語義信息提取不足讓深度哈希函數更加好的表達圖像信息,使得在交通監控中的視頻圖像搜索更為精確有效。3.將基于多任務深度學習的圖像搜索技術應用到交通圖像搜索匹配的領域,填補了該技術在此領域的應用。附圖說明圖1為本發明基于深度學習實現交通圖像檢索的方法流程示意圖。圖2為本發明方法在一般評價標準上的性能曲線示意圖。圖3為本發明檢索效果示意圖。具體實施方式附圖僅用于示例性說明,不能理解為對本專利的限制;為了更好說明本實施例,附圖某些部件會有省略、放大或縮小,并不代表實際產品的尺寸;對于本領域技術人員來說,附圖中某些公知結構及其說明可能省略是可以理解的。下面結合附圖和實施例對本發明的技術方案做進一步的說明。如圖1所示,本發明公開的基于深度學習實現交通圖像檢索的方法,包含以下步驟:步驟1:本發明實例采用的交通監控視頻數據集來源于廣州大學城公路監控視頻。視頻經過分幀后包含照片12510張圖像。其中包含4610個目標對象,平均每個目標含有30張圖片。每張圖片已完成運動物體分割識別,并且采用了人工標注每幀圖像上的目標類別與目標顏色等預處理,數據集中的圖片路徑設信息包含其所屬的視頻段標號。從中隨機選取461個目標當作測試集,其余當作訓練集與檢索數據庫。步驟2:把訓練集圖像輸入深度卷積神經網絡中,得到目標顏色、類別特征與根據哈希編碼函數初始參數計算的每張圖的哈希編碼。如圖1所示網絡結構圖深度卷積神經網絡包含五個卷積層,兩個全連接層以及一個哈希編碼層。每張圖最后在通過全連接層以后得到4096維特征向量。該特征向量分兩路輸出,一路輸出到分類器中,另一路輸入到哈希編碼層中進行編碼。其中哈希編碼層的哈希函數表達為:上式中k表示第k個哈希函數,xi為第i中圖像提取得到的特征,為第k個哈希函數的權重。最終第i張圖像的哈希編碼表述為:h(xi)=[h1(xi),h2(xi)…hk(xi)]步驟3:根據圖像之間類標權重相似度進行排序。對于訓練數據庫中的圖像{X1,X2,X3,…,XN},計算每一張圖與其他圖進行兩兩的權重相似度得分排序,N表示訓練數據集中的圖像數目。采用公式:其中w1與w2代表類別類標與顏色類標的權重;函數g(.)輸入兩個集合,返回兩個集合相同元素的個數;表示屬于第i張圖像的類別類標、顏色類標的集合,當圖像i與圖像j類標相似則score(Xi,Xj)得分就越高,此時就認為這兩張圖在語義上是相似的,反之則說明兩張圖是不相似的。兩兩輸入計算得分后得到一個得分方陣:Score:圖像XX1X2…XNX154…3X243…1……………XN31…5對這個得分矩陣的第i行進行大小排序,輸出多個關于第i張圖的得分排序三元組[i,j,k]。這個三元組的生成滿足第j張圖的得分比第k張圖得分大,表示圖像i與圖像j的相似度比圖像k要大,通過這個三元組的組合計算tripletloss中特征值之間的距離。步驟4:計算網絡的目標損失函數。目標損失函數由屬性分類任務multihinge-loss與哈希函數學習任務的triplet-loss共同組成,經隨機梯度下降法與后向傳播改變網絡參數以得到深度學習哈希編碼函數。類別與顏色的屬性分類采用SVM分器,損失函數HingeLoss最常用在SVM中的最大化間隔分類中。哈希函數學習任務的損失函數是基于圖像類標相似度排序三元組的triplet-loss,三元組的三個元素表示為[h(xi),h(xj),h(xk)],其中[i,j,k]是由步驟3中通過類標的score計算得到的排序三元組。通過學習讓表征圖像i與圖像j之間的距離盡可能小,表征圖像i與圖像k之間的距離盡可能大,并讓i、j之間的距離與i、k之間的距離有一個最小間隔α。目標函數表示為:這里兩張圖之間的距離度量采用漢明距離dH(a,b),[a,b]在式中為[h(xi),h(xj)]代表圖像i與圖像j的哈希編碼。[·]+表示[]內的值大于零時取該值為損失,小于零時損失為零。步驟5:對于新的查詢圖像,利用經過網絡學習到的哈希編碼函數對圖像進行哈希編碼,計算查詢圖像與測試數據集中圖像的哈希編碼之間的漢明距離表征查詢圖像與測試圖像之間的相似程度。查詢圖像輸入如圖1網絡輸入圖像所示,采用步驟4中得到的深度哈希函數對查詢圖像進行哈希編碼,檢索數據庫里面的每一幅圖已經用深度哈希函數進行哈希編碼儲存。計算查詢圖像哈希編碼與數據庫中每一個哈希編碼的漢明距離,漢明距離定義為將其中一個變為另外一個所需要作的最小替換次數,可以簡單用矩陣相乘方式得到。漢明距離d(h)公式表達為:d(h)=[Xi]*[Xj][Xi],[Xj]分別表示第i張圖與第j張圖的哈希編碼。步驟6:根據得到的漢明距離的大小序列進行檢索得分排序來得到檢索圖像列表,根據被檢索圖像路徑所屬的視頻段得到相應視頻的搜索;圖2所示為采用NDCG打分標準對檢索結果進行打分,這是用來衡量排序質量的指標,其計算公式為:n代表每張圖取排序前n個檢索圖,r(j)表示檢索出來第j張圖的真實排序。在檢索查詢圖像top100的圖像時,哈希編碼比特數越高其得分越高,采用多任務學習與單一的深度哈希學習相比,多任務的得分在相同哈希編碼長度中都比較高,進一步說明本方法的有效性。圖3所示為比分圖像的檢索示例,每一行的第一列為查詢圖像,其他列是對應檢索結果做接近的第一到第五張圖。從這些結果可以看到檢索結果與查詢圖像是很相近的。顯然,本發明的上述實施例僅僅是為清楚地說明本發明所作的舉例,而并非是對本發明的實施方式的限定。對于所屬領域的普通技術人員來說,在上述說明的基礎上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。凡在本發明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含在本發明權利要求的保護范圍之內。當前第1頁1 2 3