專利名稱:基于稀疏非負矩陣分解的圖像檢索方法
技術領域:
本發明涉及圖像的檢索領域,尤其涉及一種基于稀疏非負矩陣分解的圖像檢索方法。
背景技術:
作為web 2. 0的特征之一,當前社會化標簽日益流行。在Flickr、YouTube和Del. icio. US等網站中,用戶可對照片、視頻、網頁等進行標注,也可按興趣檢索相關資源。但是,用戶所加標簽存在噪音、歧義性和主觀性等問題,直接利用用戶標注的標簽檢索資源無法取得滿意結果。因此,如何從現有標簽出發,提高圖像檢索效果是當前研究的一個熱點問題。近年來,針對該問題,很多方法被提出。但這些方法有一個共同的局限性,即其大多利用單一數據源信息,忽視其他數據源的作用。實際上,隨著網絡和多媒體技術的迅猛發展, 不同來源的數據較易獲取。在分析某一來源數據時,將其他來源數據作為輔助信息充分利用,將優于僅依靠單一來源數據所取得的效果。作為一個子空間學習方法,非負矩陣分解(Nonnegative Matrix Factorization, NMF)被廣泛用于高維數據的降維。非負矩陣分解在很多時候可得到原始數據中有意義的基向量,與“整體由部分組成”這一人的高層感知相符,因此非負矩陣分解得到了較為廣泛應用。在現實情況中,需要對原始數據去除冗余,得到其緊湊表達。雖然NMF中的非負性約束也會產生數據的緊湊表達(即帶來稀疏性),但是這一稀疏性是不被控制的。為解決這一問題,《生物信息學》雜志中[1] (Bioinformatics/computer Applications in The Biosciences,2007,23 :1495-1502)提出了一種稀疏非負矩陣分解(Sparse NMF)算法,該算法可控制基矩陣或系數矩陣的稀疏程度。知識發現與數據挖掘2010年會議集中 [2] (Proceedings of Knowledge Discovery and Data Mining, 2010 :1169-1178)利用非負矩陣分解和共享子空間學習等方法,提出聯合共享非負矩陣分解(Multiple Shared Nonnegative Matrix Factorization,MS-NMF)算法,該算法利用多數據源中知識來輔助圖像檢索,克服傳統算法中僅利用單一數據源的不足。然而[1]中提出的方法雖然考慮了矩陣分解中稀疏性的控制,但該方法卻僅限于單一數據源(即單一矩陣)的利用;而[2]中提出的方法雖然利用多數據源中的知識來輔助圖像檢索,卻忽略了對稀疏性的控制。
發明內容
本發明的目的是克服現有技術的不足,提供一種基于稀疏非負矩陣分解的圖像檢索方法。基于稀疏非負矩陣分解的圖像檢索的方法包括如下步驟1)編寫爬蟲程序,從兩個不同的圖像數據源下分別查詢并提取檢索結果的圖像及其伴隨文本,構成第一圖像數據集D1和第二圖像數據集D2 ;2)提取伴隨文本中的標簽,并根據詞頻過濾構成詞匯表;
也可寫作
權利要求
1.一種基于稀疏非負矩陣分解的圖像檢索的方法,其特征在于包括如下步驟1)編寫爬蟲程序,從兩個不同的圖像數據源下分別查詢并提取檢索結果的圖像及其伴隨文本,構成第一圖像數據集D1和第二圖像數據集D2 ;2)提取伴隨文本中的標簽,并根據詞頻過濾構成詞匯表;3)對每一個圖像數據集,利用標簽與圖像的關聯關系,形成標簽與圖像的關聯矩陣;4)利用稀疏非負矩陣分解分析步驟幻所得的關聯矩陣,得到不同來源數據對應的子空間,對應的子空間包括不同來源數據的共享子空間和各數據源對應的獨立子空間;5)對某數據源上的圖像檢索請求,形成查詢向量并映射到該數據源對應的子空間上, 與所有圖像計算相似度并排序,返回最相似的前N個圖像。
2.根據權利要求1所述的一種基于稀疏非負矩陣分解的圖像檢索的方法,其特征在于,所述的步驟2)為1)從第一圖像數據集D1的伴隨文本中提取標簽構成第一標簽集合T1,從第二圖像數據集D2的伴隨文本中提取標簽構成第二標簽集合T2 ;2)統計第一標簽集合T1和第二標簽集合T2中的標簽在第一圖像數據集D1和第二圖像數據集A的伴隨文本中出現次數,僅保留出現次數大于10次的標簽,構成過濾后的第一標簽集合S1和過濾后的第二標簽集合&,過濾后的第一標簽集合S1的基數為Hl1,過濾后的第二標簽集合S1的基數為m2 ;3)取過濾后的第一標簽集合S1和過濾后的第二標簽集合&的交集和并集依次得到兩標簽集合的交集^和兩標簽集合的并集&,兩標簽集合的交集^的基數為IV兩標簽集合的并集&的基數為mu,兩標簽集合的并集&即為詞匯表。
3.根據權利要求1所述的一種基于稀疏非負矩陣分解的圖像檢索的方法,其特征在于,所述的步驟3)為根據兩標簽集合的并集&,在第一圖像數據集D1上構建第一關聯矩陣X1 G Mmx"1,在第二圖像數據集D2上構建第二關聯矩陣Z2 e Rm ,其中m = mu,ni為第一圖像數據集D1中圖像的個數,n2為第二圖像數據集&中圖像的個數,矩陣每一行對應一個標簽,矩陣每一列對應一個文檔,第一關聯矩陣X1的元素或第二關聯矩陣&的元素I2y 按如下賦值當第一圖像數據集D1或第二圖像數據集&中第i個標簽標注第j個文檔時, 賦值為1 ;否則,賦值為0。
4.根據權利要求1所述的一種基于稀疏非負矩陣分解的圖像檢索的方法,其特征在于,所述的步驟4)為利用稀疏非負矩陣分解聯合分析步驟幻所得的第一關聯矩陣^C1和第二關聯矩陣\,得到兩個關聯矩陣的共享子空間記為W12,第一關聯矩陣X1的獨立子空間記為W1,第二關聯矩陣)(2的獨立子空間w2,在矩陣分解中,上述三個子空間表示如下
5.根據權利要求1所述的一種基于稀疏非負矩陣分解的圖像檢索的方法,其特征在于,所述的步驟5)為采用如下的基于稀疏非負矩陣分解的圖像檢索算法進行圖像檢索 輸入在目標數據集和輔助數據集上分別構建矩陣&和&,查詢向量q,需要檢索返回的圖片數N;輸出檢索得到最相關的前N個圖片,按相似度降序返回;步驟1.利用基于稀疏非負矩陣分解的多源利用算法,對矩陣&和\進行分解得到
全文摘要
本發明公開了一種基于稀疏非負矩陣分解的圖像檢索的方法。包括如下步驟1)在兩個不同的圖片數據源下分別查詢并提取檢索結果的圖像及伴隨文本;2)提取伴隨文本中的標簽,根據詞頻過濾結果來構成詞匯表;3)對每一個圖像集,利用標簽與圖像的關聯關系,形成標簽與圖像的關聯矩陣;4)利用稀疏非負矩陣分解分析步驟3)中所得的關聯矩陣,得到不同來源數據的共享子空間及其所對應獨立子空間;5)用戶對某數據源上的圖像發出檢索請求,形成查詢向量并映射到該數據源對應子空間上,與所有圖像計算相似度并排序,返回最相似的前N個圖像。本發明充分利用多數據源下標簽與圖像的關聯知識,通過稀疏非負矩陣分解進行遷移學習,提高了目標數據源上圖像檢索的準確性。
文檔編號G06F17/30GK102270241SQ201110234110
公開日2011年12月7日 申請日期2011年8月16日 優先權日2011年8月16日
發明者吳飛, 肖俊, 邵健, 馬帥 申請人:浙江大學