本發明屬于多媒體檢索領域,具體涉及一種基于混合遷移網絡的跨媒體檢索方法。
背景技術:
:隨著人類文明的進步和科學技術的發展,圖像、文本、視頻、音頻等多媒體數據快速增長,已逐漸成為了信息存儲與傳播的主要形式。在這種情況下,跨媒體檢索成為了人工智能的重要應用之一。跨媒體檢索是一種新的檢索形式,能夠根據任意媒體類型的用戶查詢,返回具有相關語義而媒體類型不同的檢索結果。如用戶可以通過一張圖像作為查詢檢索相關的文本,或以文本為查詢檢索符合其描述的圖像。與單媒體檢索相比,跨媒體檢索能夠為互聯網用戶提供更加靈活的檢索體驗,并為多媒體數據的統一管理提供技術支撐。然而,不同媒體類型的計算機特征表示形式往往不同,構成了“媒體鴻溝”,使得跨媒體檢索面臨重要挑戰。針對該問題,現有的主流方法是統一表征學習,即為不同媒體類型學習一個統一的語義空間,進而利用常用的距離度量等方式實現跨媒體檢索。在該空間中,數據的距離取決于其語義的相似程度,而與媒體類型無關。早期工作主要利用統計分析方法學習不同媒體到統一空間的線性映射矩陣。如典型相關分析(canonicalcorrelationanalysis,簡稱cca)方法能夠學習得到最大化兩種媒體數據關聯的子空間,進而利用相同維度的統一表征來表示不同媒體的數據。rasiwasia等人在文獻“anewapproachtocross-modalmultimediaretrieval”中提出了高層語義映射方法,先利用cca學習兩種媒體的統一空間,再使用邏輯回歸方法在此空間中得到高層語義表示作為最終的統一表征。該方法在cca的基礎上利用了概念類別標注信息,因此學習到的統一表征具有更好的語義辨別能力。peng等人在文獻“semi-supervisedcross-mediafeaturelearningwithunifiedpatchgraphregularization”中提出了s2upg方法,利用同一個超圖聯合建模多種媒體的整體數據與語義單元,從而能夠深入挖掘細粒度的跨媒體關聯關系,取得了更高的檢索準確率。近年來,深度學習在多媒體檢索領域發揮了重要作用,基于深度網絡的跨媒體統一表征學習成為了一個研究熱點。如ngiam在文獻“multimodaldeeplearning”中提出多模態自編碼器方法,通過同時考慮單媒體重構誤差與跨媒體關聯關系,利用一個共享編碼層得到統一表征。srivastava等人在文獻“learningrepresentationsformultimodaldatawithdeepbeliefnets”中提出多模態深度信念網絡,通過一個關聯rbm連接兩個分離的深度信念網絡來得到統一表征。peng等人在文獻“cross-mediaretrievalbymultimodalrepresentationfusionwithdeepnetworks”中提出了跨媒體多深度網絡方法,通過結合多種深度網絡結構,同時分析媒體內、媒體間的關聯關系并進行層次化融合,取得了更好的效果。深度學習方法的實際效果往往與訓練數據的規模密切相關,而現有基于深度網絡的跨媒體檢索方法面臨著訓練數據不足的挑戰。在單媒體檢索中,研究者常常基于遷移學習思想,將大規模數據集(源域)中的知識遷移到訓練數據不足的具體任務(目標域)中,從而緩解訓練數據不足的問題。如基于imagenet圖像數據集的預訓練模型被廣泛應用于各種計算機視覺問題,顯著提高了模型的效果。這些大規模單媒體數據集包含的豐富語義知識不但能夠指導單媒體的語義學習,也能夠提供與媒體類型無關的高層語義信息以促進跨媒體語義學習,對于跨媒體檢索具有重要價值。現有方法往往只能利用跨媒體數據集進行訓練,由于訓練數據不足而容易造成過擬合,降低了檢索效果;或者只在同種媒體間進行知識遷移,忽略了不同媒體間的知識遷移,使得知識的遷移過程不夠全面,限制了統一表征學習的效果。技術實現要素:針對現有技術的不足,本發明提出了一種基于混合遷移網絡的跨媒體檢索方法,能夠在一個統一的網絡結構中實現單媒體源域到跨媒體目標域的知識遷移。該方法以源域、目標域中共有的媒體類型為橋梁,將單媒體源域中的語義知識同時遷移到跨媒體目標域的所有媒體類型中,并通過網絡層共享的方式強調了目標域中的內在跨媒體關聯關系,使得統一表征更加適合于目標域上的跨媒體檢索任務,提高了檢索準確率。為達到以上目的,本發明采用的技術方案如下:一種基于混合遷移網絡的跨媒體檢索方法,用于學習不同媒體數據的統一表征,從而實現跨媒體檢索,包括以下步驟:(1)建立包含一種媒體類型的單媒體數據庫,同時建立包含多種媒體類型的跨媒體數據庫,并將所述跨媒體數據庫中的數據分為訓練集和測試集;(2)利用單媒體數據庫和跨媒體數據庫的訓練集中的數據訓練混合遷移網絡,用于學習不同媒體數據的統一表征;(3)利用訓練好的混合遷移網絡,得到跨媒體數據庫的測試集中數據的統一表征,進而計算跨媒體相似性;(4)使用跨媒體測試集中的一種媒體類型作為查詢集,另一種媒體類型作為檢索庫,利用查詢集中的每個數據作為樣例,與檢索庫中的每個數據計算相似性,根據相似性得到檢索結果。進一步,上述一種基于混合遷移網絡的跨媒體檢索方法,所述步驟(1)中的單媒體數據庫包括一種媒體類型;跨媒體數據庫包括至少兩種媒體類型,其中一種為單媒體數據庫的媒體類型。進一步,上述一種基于混合遷移網絡的跨媒體檢索方法,所述步驟(2)中的混合遷移網絡結構,包括媒體共享遷移子網絡、網絡層共享關聯子網絡兩個部分。所述媒體共享遷移子網絡以源域、目標域中的共有媒體為橋梁,聯合進行單媒體遷移和跨媒體遷移,使得單媒體源域中的知識能夠被同時遷移到目標域中的所有媒體;所述網絡層共享關聯子網絡利用網絡層共享的方式,使得屬于相同語義類別的跨媒體數據生成相近的統一表征,這樣遷移過程充分考慮了蘊含于目標域中的跨媒體關聯關系,提高統一表征的檢索效果。進一步,上述一種基于混合遷移網絡的跨媒體檢索方法,所述步驟(3)的相似性取決于跨媒體數據的統一表征之間的距離。統一表征間的距離越小,則相似性越大。進一步,上述一種基于混合遷移網絡的跨媒體檢索方法,所述步驟(4)的跨媒體檢索方式為,使用測試集中的一種媒體類型數據作為查詢,檢索測試集中另一種媒體類型數據的相關結果。通過步驟(3)中的相似性計算方法計算相似性并從大到小排序,得到最終檢索結果列表。本發明的效果在于:與現有方法相比,本方法能夠實現單媒體源域到跨媒體目標域的知識遷移,不僅包括同種媒體之間的知識遷移,也包括不同媒體類型之間的知識遷移;同時在知識遷移過程中,能夠充分挖掘目標域所蘊含的跨媒體語義關聯關系。在統一表征的學習過程中,本方法同時利用源域的語義知識與目標域的跨媒體關聯,提高了跨媒體檢索的準確率。本方法之所以具有上述發明效果,其原因在于:通過媒體共享遷移子網絡和網絡層共享關聯子網絡的協同建模,在實現從單媒體到跨媒體的知識遷移的同時,也通過強調目標域的語義關聯生成更加適合跨媒體檢索的統一表征。其中媒體共享遷移子網絡以源域和目標域的共有媒體為橋梁,使得單媒體遷移與跨媒體遷移能夠聯合進行;網絡層共享關聯子網絡則通過層共享的方式增強跨媒體關聯,使得統一表征更加符合跨媒體目標域上已知的語義關聯。上述兩個子網絡構成端到端的聯合結構,充分利用了單媒體源域中的語義知識促進跨媒體目標域上的統一表征學習,提高了跨媒體檢索的準確率。附圖說明圖1是本發明的基于混合遷移網絡的跨媒體檢索方法的流程示意圖。圖2是本發明的混合遷移網絡的結構示意圖。具體實施方式下面結合附圖和具體實施例對本發明作進一步詳細的描述。本發明的一種基于混合遷移網絡的跨媒體檢索方法,其流程如圖1所示,包含以下步驟:(1)建立包含一種媒體類型的單媒體數據庫,同時建立包含多種媒體類型的跨媒體數據庫,并將所述跨媒體數據庫中的數據分為訓練集和測試集。本實施例中,所述的單媒體數據庫包含的媒體類型為圖像,跨媒體數據庫包含的媒體類型為圖像、文本。對于圖像,在網絡中采用基于alexnet的卷積神經網絡結構作為特征提取器,本方法同樣支持其他用于圖像特征提取的卷積神經網絡結構,如vgg-19等;對于文本,采用詞頻向量作為特征。本方法同樣支持其它種類的媒體和特征,需對應替換相應的特征提取網絡或方法。使用ds表示單媒體數據庫(作為源域),ds={is}。其中表示帶標注的圖像,為第r個圖像,其標注的類別為m表示單媒體數據庫中的圖像數量。跨媒體數據庫(作為目標域)表示為其中帶標注的圖像/文本對為{it,tt},未標注的圖像/文本對為與單媒體數據庫類似,定義和其中為第p個圖像,若其為帶標注數據,則標注的類別為為第q個帶標注文本,若其為帶標注數據,則標注的類別為nl表示帶標注的圖像/文本對數量,n表示帶標注和未標注的圖像/文本對總量。將帶標注的數據作為訓練集,未標注的數據作為測試集。學習的目標是將ds中包含的知識遷移到dt中,并為學習統一表征與進而利用統一表征進行跨媒體檢索任務,其中為第p個圖像的統一表征,為第q個文本的統一表征。(2)利用單媒體數據庫和跨媒體數據庫的訓練集中的數據訓練混合遷移網絡,用于學習不同媒體數據的統一表征。該步驟所構建的網絡結構如圖2所示,包括兩個子網絡:媒體共享遷移子網絡和網絡層共享關聯子網絡。圖中conv1~conv5為卷積層,fc6~fc10為全連接層,softmax為分類器。在訓練過程中,整個網絡共有三路輸入:源域圖像、目標域圖像、目標域文本。對于媒體共享遷移子網絡,三路輸入分別經過兩層全連接網絡處理,聯合考慮單媒體遷移和跨媒體遷移兩個方面,從而實現從單媒體源域到跨媒體目標域的知識遷移。其中,單媒體遷移發生在源域圖像和目標域圖像兩路網絡之間。在本實施例中,采用特征適應(featureadaption)方式進行,目標是最小化兩個域中圖像數據的最大平均差異(maximummeandiscrepancy,簡稱mmd)。令a與b為兩個域上同種媒體數據的不同分布,則二者的mmd在再生希爾伯特空間hk中的平方形式定義如下:其中,is和it分別表示源域、目標域的輸入圖像,表示深度網絡中對應某一層的輸出,ea和eb表示源域、目標域上的期望。然后,構建單媒體遷移損失項如下:其中,l6與l7為源域圖像、目標域圖像兩路網絡中對應的全連接層,即圖2中的fc6-s/fc6-i與fc7-s/fc-7i。此外,源域圖像網絡也需要在is上進行微調以挖掘源域和目標域的語義關聯信息。為此建立源域監督損失項:其中m表示源域中有標注的圖像數量,為softmax損失項,定義如下:其中θ為網絡參數,y為數據x的標簽,c為x所有可能的標簽數量。1{y=j}為指示函數,若y=j則返回1,否則為0。跨媒體遷移發生在目標域圖像與目標域文本之間。認為每個圖像/文本對具有相關的高層語義,因此使它們的網絡層輸出相似以實現跨媒體知識遷移;令每個圖像/文本對為定義跨媒體差異如下:據此建立跨媒體遷移損失項如下:在網絡的訓練過程中,目標域圖像一路網絡作為橋梁將單媒體遷移與跨媒體遷移聯合起來,實現了單媒體源域到跨媒體目標域中所有媒體類型的知識遷移。對于網絡層共享關聯子網絡,其包含目標域圖像和目標域文本兩路輸入,且兩路輸入共享兩個全連接層,形成網絡層共享結構。為維持跨媒體語義關聯信息,使用上述提到的softmax損失項對每種媒體的輸出進行建模,則跨媒體關聯損失項為:其中,fs為前述softmax損失,與分別為圖像、文本的監督約束項。由于整個網絡構成端到端的結構,媒體共享遷移子網絡、網絡層共享關聯子網絡可以通過反向傳播算法進行聯合訓練,從而使得遷移過程保持了目標域中的跨媒體關聯,更適合跨媒體檢索任務。(3)利用訓練好的混合遷移網絡,得到跨媒體數據庫的測試集中數據的統一表征,進而計算跨媒體數據的相似性。由于混合遷移網絡在(2)中已經訓練完畢,該網絡能夠直接以一種媒體的數據作為輸入,得到其統一表征,且無需單媒體源作為輸入。跨媒體數據的相似性取決于統一表征之間的距離。統一表征間的距離越小,則相似性越大。在本實施例中,通過計算兩個不同媒體數據的統一表征之間的余弦距離來反映二者的相似性。本發明同樣支持其他類型的距離度量,如歐氏距離等。(4)使用步驟(1)中跨媒體測試集中的一種媒體類型作為查詢集,另一種媒體類型作為檢索庫。利用查詢集中的每個數據作為樣例,按照步驟(3)中的相似性計算方法,與檢索庫中的每個數據計算相似性并從大到小排序,返回檢索結果列表。下列實驗結果表明,與現有方法相比,本發明基于混合遷移網絡的跨媒體檢索方法,可以取得更高的檢索準確率。本實施例中,作為源域的單媒體數據庫為常用的具有約120萬張帶標注圖像的imagenet數據集子集ilsvrc2012,跨媒體數據庫則為wikipedia跨媒體數據集。wikipedia數據集包括2866個圖像/文本對,共分為10個類別,每一個圖像/文本對具有對應關系。該數據集由文獻“anewapproachtocross-modalmultimediaretrieval”(作者n.rasiwasia,j.pereira,e.coviello,g.doyle,g.lanckriet,r.levyandn.vasconcelos)提出,是跨媒體檢索中最常用的數據集之一。按照文獻“cross-modalretrievalwithcorrespondenceautoencoder”(作者f.feng,x.wang,andr.li)中的劃分方式,將wikipedia數據集劃分為包含2173個圖像/文本對的訓練集,462個圖像/文本對的測試集,以及231個圖像/文本對的驗證集。其中訓練集、測試集直接對應步驟(1)中的跨媒體數據庫訓練集、測試集,驗證集供對比方法調節參數使用,而本發明不需要驗證集作為輸入。測試了以下3種方法作為實驗對比:現有方法一:文獻“learningcross-mediajointrepresentationwithsparseandsemi-supervisedregularization”(作者x.zhai,y.pengandj.xiao)中的統一表示學習(jrl)方法,通過分析不同媒體的關聯關系及高層語義信息,為其學習統一表征映射矩陣;現有方法二:文獻“cross-modalretrievalwithcorrespondenceautoencoder”(作者f.feng,x.wang,andr.li)中的一致自編碼器(corr-ae)方法,構建深度自編碼器網絡,以兩種媒體類型數據為輸入,同時建模跨媒體關聯關系及重構誤差,在編碼層得到不同媒體的統一表征;現有方法三:文獻“cross-modalretrievalwithcnnvisualfeatures:anewbaseline”(作者y.wei,y.zhao,c.lu,s.wei,l.liu,z.zhu,ands.yan)中提出的方法,對圖像、文本分別構建一路網絡進行高層語義學習,以語義類別概率向量作為統一表征進行跨媒體檢索。其中圖像一路采用ilsvrc2012預訓練卷積神經網絡作為基礎模型進行訓練。本發明:本實施例的方法。在本實驗中,采用信息檢索領域常用的平均準確率均值(meanaverageprecision,簡稱map)作為指標來評測跨媒體檢索的準確性,map值越大說明跨媒體檢索的結果越好。表1.本發明的實驗結果展示方法圖像檢索文本文本檢索圖像平均現有方法一0.4080.3530.381現有方法二0.3730.3570.365現有方法三0.4580.3450.402本發明0.5080.4320.470從表1可以看出,本發明在圖像檢索文本、文本檢索圖像兩個任務中,對比現有方法都取得了準確率的提高。方法一學習線性映射得到不同媒體數據的統一表征,難以充分建模跨媒體數據的復雜關聯。對比方法二和方法三,它們都是基于深度學習的方法,但方法二只利用了跨媒體數據的成對關聯,未有效建模其高層語義信息;方法三采用了遷移學習思想,但只涉及單媒體的遷移,忽視了跨媒體的知識遷移過程,因此未能充分利用單媒體源域中的豐富語義知識。本發明通過媒體共享遷移子網絡和網絡層共享關聯子網絡的協同建模,既實現了從單媒體到跨媒體的知識遷移,也通過強調目標域的語義關聯以生成更加適合跨媒體檢索的統一表征。兩個子網絡構成端到端的聯合結構,充分利用單媒體源域中的語義知識促進跨媒體目標域上的統一表征學習,提高了跨媒體檢索的準確率。除以上實施例外,本發明方案的具體步驟也可以采用其它實施方式,如在步驟(1)中可使用其他媒體類型(如文本)的單媒體數據庫,且跨媒體數據庫不限于圖像、文本兩種媒體類型;在步驟(2)中,為各媒體類型采用其他種類的特征表示,或增加、減少網絡結構中卷積層和全連接層的個數,使用其他分類器替代softmax分類器等,也屬于本發明的變形方式。顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和范圍。這樣,倘若本發明的這些修改和變型屬于本發明權利要求及其等同技術的范圍之內,則本發明也意圖包含這些改動和變型在內。當前第1頁12