一種獲得視覺詞詞典、圖像檢索的方法及裝置制造方法
【專利摘要】本申請公開了一種獲得視覺詞詞典、圖像檢索的方法及裝置,所述獲得視覺詞詞典的方法包括:提取圖像庫中圖像的視覺特征并加以聚類,得到視覺詞詞典;從包含第一圖像信息的多個第一圖像提取視覺特征,并量化為所述視覺詞詞典中的視覺詞,將出現頻率高于預定值的視覺詞作為停用詞;將所述停用詞從所述視覺詞詞典中去除。本申請通過分析第一圖像信息內容,根據視覺詞詞典來提取視覺詞,并進行統計,獲取那些僅僅反映第一圖像信息,而不是商品外形、款式、元素的視覺詞,作為停用詞,有效地規避了第一圖像信息對檢索結果的干擾,提高了服裝和/或服飾類商品圖像同款檢索的查全率和查準率,提高了用戶檢索結果的準確性。
【專利說明】—種獲得視覺詞詞典、圖像檢索的方法及裝置
【技術領域】
[0001]本申請涉及圖像搜索領域,尤其涉及一種獲得視覺詞詞典、圖像檢索的方法及裝置。
【背景技術】
[0002]目前在圖像搜索領域,如何從海量的圖像庫中快速準確的找到滿足用戶需求的圖像,是一個需迫切解決的關鍵問題。傳統的基于文本的檢索方式存在著嚴重的問題:首先,目前的計算機視覺和機器學習技術無法自動對圖像進行語義標注;其次,圖像中所包含的豐富的視覺特征也無法用文本進行客觀準確的描述。
[0003]為了克服這些問題,基于內容的圖像檢索技術應運而生。基于內容的圖像檢索技術通過提取圖像中用戶感興趣的特征,轉化為視覺詞,對用戶輸入的圖像在海量圖像集中進行檢索,實現真正的基于圖像內容特征的檢索。然而,將基于內容的圖像檢索技術應用到服裝和/或服飾類商品圖片同款檢索中時,遇到了新的問題:
[0004]基于內容的圖像檢索方式,可以使用類似SIFT (Scale-1nvariant FeatureTransform,尺度不變特征轉換)這樣的局部特征生成視覺詞,以視覺詞來表達圖像的內容,作為相似性判斷的依據。SIFT局部特征提取方法,對于視覺上變化分明的角、邊等元素有強烈的響應,很容易在計算中被標記為顯著點,從而提取出視覺詞。并且,這種方法并沒有區分不同的視覺詞表達的是圖像中的什么內容,而是同等對待,認為都可以表達圖像中的語義內容。
[0005]在圖像檢索中,為了取得需要的效果,有時會希望在檢索時可以忽略指定類別的圖像信息。例如,對服裝和/或服飾圖像中大量存在的格子、波點、條紋等重復出現的紋理圖案,都具備視覺上變化分明的角、邊等元素,因此,這些圖案區域會被提取到大量的視覺詞。但是,這些視覺詞僅僅反映了商品圖片中的圖像信息,而不是款式信息。在進行檢索匹配計算時,如果兩張圖像有相似的紋理圖案,則可能具有大量相同的視覺詞,造成計算得到的相似度很高,會降低乃至淹沒反映款式信息的視覺詞在相似性度量中的權重,將圖案類似但款式不同的商品誤判為同款商品。
【發明內容】
[0006]本申請要解決的技術問題是提供一種獲得視覺詞詞典、圖像檢索的方法及裝置,可以提聞圖像檢索準確性。
[0007]為解決上述技術問題,本申請的一種獲得視覺詞詞典的方法,包括:
[0008]提取圖像庫中圖像的視覺特征并加以聚類,得到視覺詞詞典;
[0009]從包含第一圖像信息的多個第一圖像提取視覺特征,并量化為所述視覺詞詞典中的視覺詞,將出現頻率高于預定值的視覺詞作為停用詞;
[0010]將所述停用詞從所述視覺詞詞典中去除。
[0011]進一步地,所述從包含第一圖像信息的多個第一圖像提取視覺特征,包括:
[0012]采用人工方式,從所述圖像庫中挑選出具有所述第一圖像信息的多幅圖像,分別挖取其中包含第一圖像信息的圖像區域并存儲為所述第一圖像,從所述第一圖像中提取視覺特征。
[0013]進一步地,一種圖像檢索的方法,包括:
[0014]啟動對輸入圖像的檢索,所述檢索針對第二圖像信息;
[0015]從所述輸入圖像和待匹配圖像分別提取視覺特征,使用去除了停用詞的視覺詞詞典將提取的視覺特征量化為視覺詞;
[0016]根據從所述輸入圖像和待匹配圖像得到的視覺詞判斷待匹配圖像是否與輸入圖像匹配,將匹配到的圖像作為所述輸入圖像的檢索結果;
[0017]其中,所述停用詞是第一圖像信息對應的視覺特征量化得到的視覺詞,所述第二圖像信息不同于第一圖像信息。
[0018]進一步地,所述去除了停用詞的視覺詞詞典根據上述獲得視覺詞詞典的方法的方法得到。
[0019]進一步地,所述第一圖像信息包括重復紋理圖案;所述第二圖像信息是服裝和/或服飾類商品圖像款式。
[0020]進一步地,一種獲得視覺詞詞典的裝置,包括:詞典生成模塊和停用模塊,其中:
[0021]所述詞典生成模塊,用于提取圖像庫中圖像的視覺特征并加以聚類,得到視覺詞詞典;
[0022]所述停用模塊,用于從包含第一圖像信息的多個第一圖像提取視覺特征,并量化為所述視覺詞詞典中的視覺詞,將出現頻率高于預定值的視覺詞作為停用詞;將所述停用詞從所述視覺詞詞典中去除。
[0023]進一步地,所述停用模塊從包含第一圖像信息的多個第一圖像提取視覺特征,包括:采用人工方式,從所述圖像庫中挑選出具有所述第一圖像信息的多幅圖像,分別挖取其中包含第一圖像信息的圖像區域并存儲為所述第一圖像,從所述第一圖像中提取視覺特征。
[0024]進一步地,一種圖像檢索的裝置,包括:圖像處理模塊和檢索模塊,其中:
[0025]所述圖像處理模塊,用于啟動對輸入圖像的檢索,所述檢索針對第二圖像信息,從所述輸入圖像和待匹配圖像分別提取視覺特征,使用去除了停用詞的視覺詞詞典將提取的視覺特征量化為視覺詞;
[0026]所述檢索模塊,用于根據從所述輸入圖像和待匹配圖像得到的視覺詞判斷待匹配圖像是否與輸入圖像匹配,將匹配到的圖像作為所述輸入圖像的檢索結果;
[0027]其中,所述停用詞是第一圖像信息對應的視覺特征量化得到的視覺詞,所述第二圖像信息不同于第一圖像信息。
[0028]進一步地,所述去除了停用詞的視覺詞詞典采用上述獲得視覺詞詞典的裝置得到。
[0029]進一步地,所述第一圖像信息包括重復紋理圖案;所述第二圖像信息是服裝和/或服飾類商品圖像款式。
[0030]綜上所述,本申請通過分析第一圖像信息內容,根據視覺詞詞典來提取視覺詞,并進行統計,獲取那些僅僅反映第一圖像信息,而不是商品外形、款式、元素的視覺詞,作為停用詞,在做相似性度量時不予采納,有效地規避了第一圖像信息對檢索結果的干擾,提高了服裝和/或服飾類商品圖像同款檢索的查全率和查準率,提高了用戶檢索結果的準確性,尋找在視覺特征上滿足用戶要求的商品,幫助用戶找到真正想要的商品,可以改善商品搜索的用戶體驗,提高用戶的搜索滿意度。
【專利附圖】
【附圖說明】
[0031]圖1為本申請的獲得視覺詞詞典的方法的流程圖;
[0032]圖2為本申請的圖像檢索的方法的流程圖;
[0033]圖3為本申請的獲得視覺詞詞典的裝置的架構圖;
[0034]圖4為本申請的圖像檢索的裝置的架構圖。
【具體實施方式】
[0035]為使本申請的目的、技術方案和優點更加清楚明白,下文中將結合附圖對本申請的實施例進行詳細說明。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互任意組合。
[0036]在本申請一個典型的配置中,所涉及的計算設備包括一個或多個處理器(CPU)、輸入/輸出接口、網絡接口和內存。
[0037]內存可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內存等形式,如只讀存儲器(ROM)或閃存(flash RAM)。內存是計算機可讀介質的示例。
[0038]計算機可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現信息存儲。信息可以是計算機可讀指令、數據結構、程序的模塊或其他數據。計算機的存儲介質的例子包括,但不限于相變內存(PRAM)、靜態隨機存取存儲器(SRAM)、動態隨機存取存儲器(DRAM)、其他類型的隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內存技術、只讀光盤只讀存儲器(CD-ROM)、數字多功能光盤(DVD)或其他光學存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設備或任何其他非傳輸介質,可用于存儲可以被計算設備訪問的信息。按照本文中的界定,計算機可讀介質不包括非暫存電腦可讀媒體(transitory media),如調制的數據信號和載波。
[0039]本申請查找那些僅僅反映重復紋理圖案,而不是服裝和/或服飾款式的視覺詞,設置為停用詞,檢索時棄置不用。
[0040]圖1是本申請的獲得視覺詞詞典的方法,該方法包括:
[0041]步驟101:對圖像庫中的全部或部分圖像,提取圖像的視覺特征,對提取的視覺特征進行聚類獲得視覺詞詞典;
[0042]本實施例中,圖像庫是指服裝和/或服飾類商品圖像庫,當然本申請并不限定于針對服裝和/或服飾類商品圖像,其他本領域技術人員可以理解的物體圖像均在本申請保護范圍之內,所述圖像庫也可以指其他商品、物體圖像庫。提取圖像的視覺特征可以是提取SIFT特征,包括:在商品圖像中,利用SIFT方法提取圖像的局部特征,得到圖像中具有旋轉不變性和尺度不變性的SIFT特征點,也稱為關鍵像素點。在一個示例中,以每個關鍵像素點為中心,選取四周的64個像素點,每相鄰的4個像素為一像素組,共得到16個像素組,每個像素組再與關鍵像素點比較得到8個坐標值,共得到128個坐標值,該128個坐標值為關鍵像素點的SIFT特征。然后,對提取的視覺特征進行聚類獲得視覺詞詞典,可以采用已有方法,以上述示例獲取的SIFT特征為例,可以利用K-means方法將提取的視覺特征聚類為K類,每一個類中的SIFT特征平均后求得一個中心,這個中心是一個128維的向量,這K個中心就是視覺詞樹根節點的K個分支;然后對根節點的某個分支(記為當前節點),再將屬于該分支的SIFT特征用K-means方法聚類為K類,從而得到當前節點的K個分支,重復這一過程,直到樹的深度達到m,得到的樹的最后一層,也就是沒有分支的這一層,稱為葉子結點,每個葉子節點中存儲一個128維的向量,每個葉子節點就是一個視覺詞,對葉子節點依次進行編號,所有葉子節點的集合組成視覺詞詞典。
[0043]假設現在有三張圖像imgl,img2和img3,希望建立一個具有四個視覺詞的視覺詞詞典。
[0044](I)對三張圖像提取SIFT特征,假設三張圖像分別有3個,4個和5個SIFT特征(每個SIFT特征都是一個128維的向量);
[0045](2)將3+4+5=12個特征,通過k-means聚類方法聚集成4類,每個類具有I個或者多個SIFT特征;
[0046](3)每個類的所有SIFT特征求平均值,記為類的中心,每個類的中心都是一個128維的向量,則這4個中心就是4個視覺詞的內容。這樣就獲得了視覺詞詞典中所有的4個視覺詞:vwl,vw2,vw3和vw4,每個詞的內容就是上面提到的128維的向量,至此,就獲得了視覺詞詞典。
[0047]視覺詞詞典可以采用以下方式記錄,其中,key(m,n)表示第m個視覺詞的第η個分量,每個key (m, η)都是一個浮點型變量:
[0048]vw1: key (I, I), key (I, 2), key (I, 3),…,key (I, 128);
[0049]vw2: key (2, I), key (2, 2), key (2, 3),…,key (2, 128);
[0050]vw3: key (3, I), key (3, 2), key (3, 3),…,key (3, 128);
[0051 ] vw4: key (4, I), key (4, 2), key (4,3),…,key (4, 128);
[0052]步驟102:從包含第一圖像信息的多個第一圖像提取視覺特征,并量化為視覺詞詞典中的視覺詞,將出現頻率高于預定值的視覺詞作為停用詞;
[0053]其中,從包含第一圖像信息的多個第一圖像提取視覺特征,可以包括:
[0054]采用人工方式,從圖像庫中挑選出具有第一圖像信息的多幅圖像,分別挖取其中包含第一圖像信息的圖像區域,存儲為第一圖像,從第一圖像中提取視覺特征。在一個示例中,上述第一圖像信息包括重復紋理圖案。此時是采用人工的方式,從服裝和/或服飾類商品圖像庫中挑選出若干具有重復紋理圖案(比如格子、波點、條紋等)的圖像,手工挖取其中的重復紋理圖案的圖像區域,保存為第一圖像,再從所述第一圖像中提取視覺特征。
[0055]在一示例中,將從第一圖像中提取的視覺特征如SIFT特征量化為視覺詞的過程,包括:將SIFT特征(I個128維的向量)與視覺詞詞典的根節點的K個分支節點(也是一個128維的向量)分別計算歐氏距離,將此SIFT特征歸屬到距離最小的那個節點。重復此過程,直到此SIFT特征歸屬到某個葉子節點。稱此SIF特征“命中” 了某葉子節點,該葉子節點對應的編號就是此SIFT特征的視覺詞號。
[0056]統計各視覺詞出現的頻率,那些出現頻率高于預定值的視覺詞,就是表征重復紋理圖案的視覺詞。在一個示例中,設手工挖取的樣本為N,若某個視覺詞在至少N/5張圖像中出現,則判定其為停用詞。
[0057]步驟103:將停用詞從視覺詞詞典中去除。
[0058]具體地,可以將停用詞從視覺詞詞典中刪除,也可以是置為無效,使停用詞不參與相似度計算;例如,在第一圖像信息為重復紋理圖案時,將反映重復紋理圖案的視覺詞,在先前生成的視覺詞詞典中去除。
[0059]如圖2所示,本申請的圖像檢索的方法,包括:
[0060]步驟201:啟動對輸入圖像的檢索,檢索針對第二圖像信息;
[0061]第二圖像信息不同于第一圖像信息。第一圖像信息可以包括重復紋理圖案;第二圖像信息是服裝和/或服飾類商品圖像款式。當然本申請并不限定于針對服裝和/或服飾類商品圖像款式檢索,其他本領域技術人員可以理解的物體圖像的檢索均在本申請保護范圍之內。
[0062]步驟202:從輸入圖像和待匹配圖像分別提取視覺特征,使用去除了停用詞的視覺詞詞典將提取的視覺特征量化為視覺詞;
[0063]停用詞是第一圖像信息對應的視覺特征量化得到的視覺詞。去除了停用詞的視覺詞詞典是根據上述獲得視覺詞詞典的方法得到。
[0064]步驟203:根據從輸入圖像和待匹配圖像得到的視覺詞判斷待匹配圖像是否與輸入圖像匹配,將匹配到的圖像作為所述輸入圖像的檢索結果。
[0065]在進行服裝和/或服飾類商品圖像同款檢索時,使用去除了停用詞的視覺詞詞典將輸入圖像和待匹配圖像中提取的視覺特征量化為視覺詞。針對服裝和/或服飾類商品圖像同款檢索這個需求而言,用戶并不關心兩張圖像中圖案的相似性,更多關注的是圖像中商品的款式。使用去除了停用詞的視覺詞詞典用于服裝和/或服飾類商品圖像的同款檢索時,就不會受到重復紋理圖案的影響,使得檢索的結果能夠真正反映款式信息,有效地提高了圖像檢索的查全查準率,大大提升用戶的滿意度。
[0066]圖3是本實施例的獲得視覺詞詞典的裝置,包括:詞典生成模塊和停用模塊,其中:
[0067]詞典生成模塊,用于提取圖像庫中圖像的視覺特征并加以聚類,得到視覺詞詞血.ZN ?
[0068]停用模塊,用于從包含第一圖像信息的多個第一圖像提取視覺特征,并量化為視覺詞詞典中的視覺詞,將出現頻率高于預定值的視覺詞作為停用詞;將停用詞從視覺詞詞典中去除。
[0069]停用模塊從包含第一圖像信息的多個第一圖像提取視覺特征,包括:采用人工方式,從圖像庫中挑選出具有第一圖像信息的多幅圖像,分別挖取其中包含第一圖像信息的圖像區域并存儲為所述第一圖像,從第一圖像中提取視覺特征。
[0070]圖4本實施例的圖像檢索的裝置,包括:圖像處理模塊和檢索模塊,其中:
[0071]圖像處理模塊,用于啟動對輸入圖像的檢索,檢索針對第二圖像信息,從輸入圖像和待匹配圖像分別提取視覺特征,使用去除了停用詞的視覺詞詞典將提取的視覺特征量化為視覺詞;
[0072]檢索模塊,用于根據從輸入圖像和待匹配圖像得到的視覺詞判斷待匹配圖像是否與輸入圖像匹配,將匹配到的圖像作為輸入圖像的檢索結果。
[0073]第二圖像信息不同于第一圖像信息。第一圖像信息可以包括重復紋理圖案;第二圖像信息是服裝和/或服飾類商品圖像款式。當然本申請并不限定于針對服裝和/或服飾類商品圖像款式檢索,其他本領域技術人員可以理解的物體圖像的檢索均在本申請保護范圍之內。
[0074]停用詞是第一圖像信息對應的視覺特征量化得到的視覺詞。去除了停用詞的視覺詞詞典采用權利要求6的裝置得到。
[0075]綜上所述,本申請的圖像檢索方法是在語義聚類的基礎上,根據圖像視覺內容,對視覺詞的表達意義進行分類,去掉那些不反映服裝和/或服飾的款式信息,而且會對同款檢索產生干擾的視覺詞,從而在檢索過程中能夠快速、準確的從圖像內容千差萬別的商品圖像庫中找到與檢索圖像中商品的款式大致相同的圖像結果集合。
[0076]本領域普通技術人員可以理解上述方法中的全部或部分步驟可通過程序來指令相關硬件完成,所述程序可以存儲于計算機可讀存儲介質中,如只讀存儲器、磁盤或光盤等。可選地,上述實施例的全部或部分步驟也可以使用一個或多個集成電路來實現,相應地,上述實施例中的各模塊/單元可以采用硬件的形式實現,也可以采用軟件功能模塊的形式實現。本申請不限制于任何特定形式的硬件和軟件的結合。
[0077]以上所述僅為本申請的優選實施例而已,并不用于限制本申請,對于本領域的技術人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本申請的保護范圍之內。
【權利要求】
1.一種獲得視覺詞詞典的方法,包括: 提取圖像庫中圖像的視覺特征并加以聚類,得到視覺詞詞典; 從包含第一圖像信息的多個第一圖像提取視覺特征,并量化為所述視覺詞詞典中的視覺詞,將出現頻率高于預定值的視覺詞作為停用詞; 將所述停用詞從所述視覺詞詞典中去除。
2.如權利要求1所述的方法,其特征在于: 所述從包含第一圖像信息的多個第一圖像提取視覺特征,包括: 采用人工方式,從所述圖像庫中挑選出具有所述第一圖像信息的多幅圖像,分別挖取其中包含第一圖像信息的圖像區域并存儲為所述第一圖像,從所述第一圖像中提取視覺特征。
3.一種圖像檢索的方法,包括: 啟動對輸入圖像的檢索,所述檢索針對第二圖像信息; 從所述輸入圖像和待匹配圖像分別提取視覺特征,使用去除了停用詞的視覺詞詞典將提取的視覺特征量化為視覺詞; 根據從所述輸入圖像和待匹配圖像得到的視覺詞判斷待匹配圖像是否與輸入圖像匹配,將匹配到的圖像作為所述輸入圖像的檢索結果; 其中,所述停用詞是第一圖像信息對應的視覺特征量化得到的視覺詞,所述第二圖像信息不同于第一圖像信息。
4.如權利要求3所述的方法,其特征在于,所述去除了停用詞的視覺詞詞典根據權利要求I的方法得到。
5.如權利要求3所述的方法,其特征在于,所述第一圖像信息包括重復紋理圖案;所述第二圖像信息是服裝和/或服飾類商品圖像款式。
6.一種獲得視覺詞詞典的裝置,包括:詞典生成模塊和停用模塊,其中: 所述詞典生成模塊,用于提取圖像庫中圖像的視覺特征并加以聚類,得到視覺詞詞血.ZN ? 所述停用模塊,用于從包含第一圖像信息的多個第一圖像提取視覺特征,并量化為所述視覺詞詞典中的視覺詞,將出現頻率高于預定值的視覺詞作為停用詞;將所述停用詞從所述視覺詞詞典中去除。
7.如權利要求9所述的裝置,其特征在于: 所述停用模塊從包含第一圖像信息的多個第一圖像提取視覺特征,包括:采用人工方式,從所述圖像庫中挑選出具有所述第一圖像信息的多幅圖像,分別挖取其中包含第一圖像信息的圖像區域并存儲為所述第一圖像,從所述第一圖像中提取視覺特征。
8.一種圖像檢索的裝置,包括:圖像處理模塊和檢索模塊,其中: 所述圖像處理模塊,用于啟動對輸入圖像的檢索,所述檢索針對第二圖像信息,從所述輸入圖像和待匹配圖像分別提取視覺特征,使用去除了停用詞的視覺詞詞典將提取的視覺特征量化為視覺詞; 所述檢索模塊,用于根據從所述輸入圖像和待匹配圖像得到的視覺詞判斷待匹配圖像是否與輸入圖像匹配,將匹配到的圖像作為所述輸入圖像的檢索結果; 其中,所述停用詞是第一圖像信息對應的視覺特征量化得到的視覺詞,所述第二圖像信息不同于第一圖像信息。
9.如權利要求8所述的裝置,其特征在于,所述去除了停用詞的視覺詞詞典采用權利要求6的裝置得到。
10.如權利要求8所述的裝置,其特征在于,所述第一圖像信息包括重復紋理圖案;所述第二圖像信息是服裝和/或服飾類商品圖像款式。
【文檔編號】G06F17/30GK104424226SQ201310375662
【公開日】2015年3月18日 申請日期:2013年8月26日 優先權日:2013年8月26日
【發明者】張 榮 申請人:阿里巴巴集團控股有限公司