一種基于圖像檢索的字幕匹配方法和系統的制作方法
【技術領域】
[0001]本發明涉及圖像處理技術領域,特別是一種基于圖像檢索的字幕匹配方法及其應用該方法的系統。
【背景技術】
[0002]為特定圖像匹配合適的影視字幕的最關鍵點就在于圖像檢索的效率和準確度,影視字幕的數據資源是非常龐大的,用戶很難在浩如煙海的數據中找到真正感興趣的信息。因此,如何對海量的圖像進行快速有效的分析和檢索成了一個非常具有挑戰性的任務。
[0003]傳統的基于內容的圖像檢索技術往往都是通過提取圖像的底層特征進行窮舉比對,但因其比較過程的時間復雜度是線性的,無法在大規模網絡圖像數據上進行擴展和應用,并且由于圖像的底層視覺特征動輒成千上萬維,許多圖像檢索應用還會遇到維數災難的問題,如何對如此龐大的原始數據進行存儲也是一個巨大瓶頸。
[0004]近年來,研宄者們對圖像的快速檢索技術進行了詳細研宄。其中,基于哈希編碼的圖像搜索方法取得了巨大成功。該類算法通過將圖像表示成低維的二進制編碼向量來完成近似近鄰搜索。利用二進制編碼進行圖像的近似近鄰搜索是極其快速的,因為:1)圖像的編碼向量是高度壓縮的,可以將其全部載入內存之中;2)編碼之間的漢明(Hamming)距離通過按位的異或操作便可得到,因此該計算過程是非常高效的(如今,一臺普通的臺式機在幾毫秒之內就可以完成數百萬漢明距離的計算)。
[0005]目前,傳統的圖像哈希編碼算法主要分為非數據依賴和數據依賴兩種方案。其中一種非常著名的非數據依賴哈希算法便是局部敏感哈希(Locality SensitiveHashing, LSH),但是其投影向量的隨機性導致其編碼效率并不高,它往往需要構建具有很長編碼長度的多個哈希表才能獲得較為理想的效果。近年來,研宄者們將研宄重點轉移到數據依賴的哈希算法上來,試圖通過機器學習的方法代替隨機投影來尋找更好的數據依賴哈希函數,如基于深度學習網絡的限制玻爾茲曼機(Restricted BoltzmannMachines, RBMs)和基于譜圖分割的譜哈希(Spectral Hashing, SH)算法等。RBMs算法通過神經網絡模型逐層對圖像的原始特征進行降維和學習,并最終得到一個緊致的二進制編碼。SH算法則通過構建拉普拉斯特征圖并利用主成分分析(PCA)方法提取其特征向量對原始圖像進行哈希編碼。
[0006]但是上述方法都是基于單一的圖像底層視覺特征信息進行哈希編碼,無法全面地表達圖像豐富的內容信息。后續的研宄,如多特征哈希算法(Multiple FeatureHashing, MFH)和多源信息合成哈希算法(Composite Hashing with MultipleInformat1n Sources, CHMIS)等,又在多種特征信息的融合等方面對數據依賴哈希算法進行了相關的拓展。雖然上述哈希算法是針對問題的不同角度提出,都具有各自的一些特點和優越性,但它們往往只在某些特定的設置條件或者數據庫上有效,范圍擴展性較差,無法應用于圖像的自動字幕匹配。
【發明內容】
[0007]本發明為解決上述問題,提供了一種基于圖像檢索的字幕匹配方法和系統,在保證圖像檢索效率的前提下,達到快速精準圖像字幕匹配的效果。
[0008]為實現上述目的,本發明采用的技術方案為:
[0009]一種基于圖像檢索的字幕匹配方法,其特征在于,包括以下步驟:
[0010]10:采集樣本圖像及其對應的字幕內容,并使用樣本圖像作為ELM自編碼網絡的訓練數據,通過訓練得到哈希函數,并使用該哈希函數進行圖像二進制編碼轉換,得到各個樣本圖像的二進制編碼序列;
[0011]20:獲取待匹配圖像,對待匹配圖像使用ELM自編碼網絡訓練得到哈希函數,并使用該哈希函數進行圖像二進制編碼轉換,得到待匹配圖像的二進制編碼序列;
[0012]30:根據待匹配圖像的二進制編碼序列和各個樣本圖像的二進制編碼序列計算圖像之間的漢明距離,并根據該漢明距離通過K近鄰法進行相似圖像檢索,得到與待匹配圖像最相似樣本圖像;
[0013]40:將所述的最相似樣本圖像所對應的字幕內容賦予所述的待匹配圖像。
[0014]優選的,所述的樣本圖像主要是指包含字幕內容的影視圖像,該影視圖像包括電影截圖或電視劇截圖,各個影視圖像都設置有對應的字幕內容和對應的二進制編碼序列。
[0015]優選的,所述的步驟10中,將各個樣本圖像分別應用ELM自編碼網絡訓練得到哈希函數,并使用該哈希函數進行圖像二進制編碼轉換,得到各個樣本圖像的二進制編碼序列,進一步包括以下步驟:
[0016]al.通過獲取樣本圖像作為訓練的數據集合,并以該數據集合作為ELM自編碼網絡的輸入,進行哈希函數的訓練,得到哈希自編碼模型;
[0017]bl.在ELM自編碼訓練過程中,求解各個樣本圖像的最佳匹配的哈希函數,并將該最佳匹配的哈希函數作為優化哈希函數;
[0018]Cl.使用所述的優化哈希函數進行圖像二進制編碼轉換,得到各個樣本圖像的二進制編碼序列。
[0019]優選的,所述的步驟20中,對待匹配圖像使用ELM自編碼網絡訓練得到哈希函數,并使用該哈希函數進行圖像二進制編碼轉換,得到待匹配圖像的二進制編碼序列,進一步包括以下步驟:
[0020]a2.將所述的待匹配圖像作為ELM自編碼網絡的輸入,求解該待匹配圖像的最佳匹配的哈希函數,并將該最佳匹配的哈希函數作為優化哈希函數;
[0021]b2.使用所述的優化哈希函數進行圖像二進制編碼轉換,得到待匹配圖像的二進制編碼序列。
[0022]優選的,所述的優化哈希函數的計算方法,進一步包括以下步驟:
[0023]bal.預設所述的樣本圖像作為訓練的數據集合是一個包含N個D維向量的數據
XdxN —(X I,…xN);
[0024]ba2.用O或I隨機初始化N個L維向量的數據Zm= (z i,…zN),即編碼長度為L的樣本圖像的二進制編碼序列,并開始u次迭代;
[0025]ba3.對于Zm中的第I維編碼數值,應有ELM的方法解HB = Z N, i,其中,
[0026]H = sigmod (WX+b),且 W,b 使用隨機初始化;
[0027]ba4.求解獲得 hash 函數,Iiashiu(X) = HB ;
[0028]ba5.對于X中的N個樣本中的每個樣本η,使用ELM自編碼求解Xn= f (Zn),迭代訓練直到Z = hash (X)停止,該哈希函數Z = hash (X)即為優化哈希函數。
[0029]優選的,所述的步驟30中,根據待匹配圖像的二進制編碼序列和各個樣本圖像的二進制編碼序列計算圖像之間的漢明距離,該漢明距離的計算方法如下:
[0030]d(x,y) =Σ x[i] ? y[i];
[0031]其中,i = 0,1,..n-1,x、y分別代表待匹配圖像的二進制編碼序列和樣本圖像的二進制編碼序列,?表不異或。
[0032]優選的,所述的步驟30中,根據該漢明距離通過K近鄰法進行相似圖像檢索,主要是對所述的待匹配圖像的二進制編碼序列,在所述的樣本圖像的數據集中使用漢明距離遍歷尋找與所述的待匹配圖像的二進制編碼序列最鄰近的樣本圖像的二進制編碼序列。
[0033]優選的,所述的步驟40中,將所述的最相似樣本圖像所對應的字幕內容賦予所述的待匹配圖像,主要是將最相似樣本圖像的文本形式的字幕內容,按照預設的文本樣式添加至待匹配圖像的預設位置。
[0034]另外,本發明還根據上述方法提供了一種基于圖像檢索的字幕匹配系統,其特征在于,其包括:
[0035]數據獲取模塊,用于獲取待匹配圖像、樣本圖像以及樣本圖像所對應的字幕內容;
[0036]數據處理模塊,將采集的樣本圖像作為ELM自編碼網絡的訓練數據,對待匹配圖像及各個樣本圖像分別使用ELM自編碼網絡訓練得到哈希函數,并使用該哈希函數進行圖像二進制編碼轉換,得到待匹配圖像及各個樣本圖像的二進制編碼序列;
[0037]圖像檢索模塊,用于根據待匹配圖像的二進制編碼序列和各個樣本圖像的二進制編碼序列計算圖像之間的漢明距離,并根據該漢明距離通過K近鄰法進行相似圖像檢索,得到與待匹配圖像最相似樣本圖像;
[0038]字幕添加模塊,用于將所述的最相似樣本圖像所對應的字幕內容賦予所述的待匹配圖像。
[0039]優選的,所述的數據處理模塊進一步包括:
[0040]哈希自編碼模型創建單元,其通過獲取樣本圖像作為訓練的數據集合,并以該數據集合作為ELM自編碼網絡的輸入,進行哈希函數的訓練,得到哈希自編碼模型;
[0041]哈希函數優化單元,其通過E