一種基于位權重的二值碼重排方法
【技術領域】
[0001] 本發明屬于圖像檢索技術領域,設及到利用圖像哈希方法進行基于內容的圖像檢 索,特別設及到一種基于位權重的二值碼重排方法。
【背景技術】
[0002] 通常,大規模圖像捜索系統包含兩個關鍵因素:有效的圖像特征表示和快速的捜 索機制。一般而言,高質量的捜索結果更多的是依賴于有力的圖像特征。對于快速的捜索 機制該個因素,因為現有的圖像特征都是高維的,圖像庫的規模都比較大,將圖像庫中每個 樣本與查詢圖像一一進行對比非常耗時。
[0003] 利用圖像哈希技術將高維的圖像特征映射成簡潔的二值哈希碼后,可W利用"異 或"操作在漢明空間中快速地計算查詢圖像和圖像庫每個圖像之間的漢明距離,W此度量 它們之間的相似程度。漢明碼利用異或計算統計兩組二值碼中不同碼值的數量,因此,漢明 距離的范圍在0到K,K是哈希碼的比特數。在大規模應用中,漢明空間的維數,即哈希碼的 比特數通常是小于100的,因此能夠減小內存消耗,同時可避免較低的召回率。由于漢明距 離的取值為整數,導致無法對與查詢圖像漢明距離相等的返回圖像進行排序。對于K比特 的哈希碼,有C[個不同的哈希碼與查詢圖像之間的距離等于i,i>0。W 48比特哈希碼 為例,有1128種哈希碼與查詢哈希碼之間的漢明距離等于2,從而使得成千上萬的圖像在 捜索結果列表中可能共享相同的排序。
[0004] 對于某一取值的漢明距離,圖像庫中可能對應上百幅圖像,如何對它們進行排序 W便反映其與查詢圖像視覺內容的相似性?針對該一問題,研究根據漢明距離捜索后圖 像的重排。目前比較經典的二值碼重排方法是QsRank技.化ang, L.化ang, and H.化um. QsRank:Query-Sensitive Hash Code Ranking for Efficient e-neighbor Search. In proceedings of CVPR,2012]。根據查詢圖像鄰域內圖像取某個哈希碼的概率來衡量其與 查詢圖像的相似度,概率越大,其相似度越高,按概率對圖像進行重排。QsRank方法不是利 用圖像哈希碼之間的漢明距離對圖像進行重排,破壞了哈希碼檢索速度快的優勢。而且,雖 然利用QsRank方法對初始檢索結果重排后會提高捜索的準確率,但提高的幅度不大。國 家發明專利"面向圖像檢索的自適應哈希重排方法",申請號;201310123163,發明人孔祥維 等。該方法將圖像庫的語義類別信息與哈希函數在每個維度進行關聯,通過為每個語義類 訓練類權重向量,為查詢圖像計算自適應權重,從而構造加權漢明距離用于圖像重排。該方 法需要已知圖像庫中的類別信息,對每個類別進行訓練獲得其類權重向量。當圖像庫中的 類別數目較少時,效果優于QsRank的方法;隨著類別數目增多,計算復雜度會隨之增加。
【發明內容】
[0005] 本發明為克服現有技術的缺陷,發明一種基于位權重的二值碼重排方法,首先根 據查詢圖像和圖像庫中所有圖像的哈希碼,計算它們之間的漢明距離,并對其按照從小到 大進行排序,作為對查詢圖像的初始排序結果;然后根據初始排序結果中的正樣本確定哈 希函數不同比特位的重要性,并為其賦予不同的權重值;旨在解決利用二值碼進行大規模 圖像檢索時返回圖像的排序問題,提高檢索的準確率和效率。
[0006] 本發明的技術方案是一種基于位權重的二值碼重排方法,其特征是,該方法對于 圖像庫中的所有圖像和查詢圖像,提取高維歐氏特征;利用圖像哈希方法生成二值碼;計 算查詢圖像二值碼和圖像庫中所有圖像二值碼之間的漢明距離,根據漢明距離從小到大進 行排序,返回對應的圖像作為該查詢圖像的捜索結果;從返回的捜索結果中選擇與查詢圖 像真正具有相似視覺內容的圖像子集,稱作查詢圖像的"正樣本";通過對比查詢圖像每位 二值碼與"正樣本"每位二值碼之間的異同,確定查詢圖像不同比特位二值碼的重要性,為 重要的比特位賦予較高的權重,為不重要的比特位賦予較小的權重;根據權重向量,重新計 算查詢圖像二值碼和捜索返回圖像二值碼的加權漢明距離,根據加權漢明距離對返回圖像 進行重排;具體實現步驟包括;
[0007] (1)給定含有N幅圖像的圖像庫I = {I。12, . . .,U和查詢圖像q ;
[000引 (2)對圖像庫中的所有圖像I和查詢圖像q,利用特征提取算法,提取圖像的d維 歐氏特征;圖像庫I中所有圖像的特征向量組成圖像特征庫F = (fi,f2, . . .,,其中, fiG Rdxi,F G Rdxw,R表示實數集,特征庫中的每個特征向量和圖像庫中的每幅圖像 I。1《KN,一一對應;查詢圖像q的特征向量為Q G Rdxi;
[0009] (3)對圖像特征庫F中的每個特征向量和查詢圖像特征向量Q,采用圖像哈希方 法分別生成維數為K的二值哈希碼,表示為HF =化fi,冊2,. . .,Hf;}和冊,其中HfiG {0, 1} KX1是KX1維的列向量,向量的每個元素取值為0或者1;冊G {0, U KX1是KX1維的列向 量,向量的每個元素為0或者1 ;
[0010] (4)計算查詢圖像q和圖像li之間的漢明距離嗎別:
[0011]
[001引其中,冊k表示冊的第k位二值哈希碼;Hf\k表示Hfi的第k位二值哈希碼;對每 幅圖像與查詢圖像之間的漢明距離按照從小到大進行排序,選擇排序靠前的R幅圖像作為 查詢圖像Q的捜索結果;
[0013] (5)從第4步返回的R幅圖像中選擇M,M<R幅與查詢圖像q相似的圖像,稱 為"正樣本"集合;假設"正樣本"集合中第m,l幅圖像的二值哈希碼記為
;與冊對應的權重向量記為W = {wi,. . .,wj,其中Wk表示第k位權 重值,且初始值設為1 ;采用迭代法確定Wk,迭代次數等于M ;對于第m,1《m《M次迭代,Wk 的值更新為:
[0014]
[0015] 其中,0<e <1,是"正樣本"集合中第m幅圖像的第k位二值哈希碼;
[0016](6)根據權重向量W={wi,.. . , wJ,計算計算查詢圖像q和圖像1。1《i<N之間 的加權漢明距離;
[0017]
[0018] (7)按照從小到大的順序對加權漢明距離進行排序,其對應的圖像即可作為檢索 后的重排結果.
[0019] 本發明的效果和益處是;本發明一種基于位權重的二值碼重排方法。首先根據查 詢圖像和圖像庫中所有圖像的哈希碼,計算它們之間的漢明距離,并對其按照從小到大進 行排序,作為對查詢圖像的初始排序結果;然后根據初始排序結果中的正樣本確定哈希函 數不同比特位的重要性,并為其賦予不同的權重值;在此基礎上,計算加權漢明距離,并依 據此對返回結果進行重新排序。該種基于比特位重要性的權重計算方法執行過程高效,彌 補了哈希函數對比特位"一視同仁"的缺陷。而且,對所有類型的哈希函數生成方法都有效, 在沒有增加計算復雜度的同時明顯提高了檢索效果。
【附圖說明】
[0020] 圖1是本發明提出的一種基于位權重的二值碼重排方法的流程示意圖。
[0021] 圖2是本發明分析的微軟商品圖像庫中與查詢圖像不同漢明距離所對應的圖像 庫圖像數目統計圖,其中,橫坐標是返回圖像與查詢圖像之間的漢明距離,縱坐標是對應漢 明距離的返回圖像的數目。
[0022] 圖3是本發明和其他方法在哈希比特數為64時,對麗1ST圖像庫初始返回的前 1000幅圖像重排后的準確率圖,其中,Line 1是本發明提出的方法的重排準確率曲線, Line 2是經典的QsRank方法的重排準確率,Line 3是未重排之前的準確率。
[0023] 圖4是本發明和其它方法對不同查詢圖像的重排結果圖。
【具體實施方式】
[0024] W下結合技術方案和附圖詳細敘述本發明的【具體實施方式】。
[0025] W微軟商品圖像庫為例,隨機選取1000幅查詢圖像,為庫圖像和查詢圖像分別生 成32位的哈希碼。計算庫圖像哈希碼和查詢圖像哈希碼之間的漢明距離,統計不同漢明距 離對應的圖像數量的平均值,如圖2所示。因為哈希碼為32比特,因此漢明距離在0-32之 間,從圖中可W看出,有將近700幅返回圖像與查詢圖像之間的漢明距離等于17。如何對該 些漢明距離相等的返回圖像進行排序?本發明采用利用權重向量,重新計算查詢圖像二值 碼