一種基于地點的多模態媒體數據主題提取模型的制作方法
【專利摘要】一種基于地點的多模態媒體數據主題提取模型:將所有地點的多模態媒體數據集和文本數據總體定義為基于地點的多模態媒體數據庫;對經過自然語言處理后的文本數據進行三層貝葉斯概率模型的提取,得到初始文本特征向量集;采用顏色特征對每個地點的多媒體圖像數據進行處理得到初始圖像特征向量集;將所有地點的初始文本特征向量集和初始圖像特征向量集進行集合定義為多模態媒體數據特征庫;得到多模態媒體數據在同一空間下的特征向量集;得到基于地點的多模態媒體數據主題模型,計算主題模型中圖像特征和文本特征之間的歐氏距離,實現對多媒體圖像數據的文本標注。本發明避免了多媒體數據的模態單一性,實現了基于地點的多模態媒體數據的主題提取。
【專利說明】
一種基于地點的多模態媒體數據主題提取模型
技術領域
[0001] 本發明涉及一種多模態媒體數據主題提取模型。特別是涉及一種基于地點的多模 態媒體數據主題提取模型。
【背景技術】
[0002] 現如今人類生活已經離不開網絡,人們可以通過多種多樣的社交軟件了解身邊發 生的大事小事。隨著信息技術的日益發展,多媒體數據的表現形式也由單一的文本逐漸豐 富為視頻、音頻、動畫和圖形等,隨之而來的就是多媒體數據正呈現海量增長的趨勢。如何 對這些媒體類型的信息進行快速準確的檢索和分類已經成為人們迫切的需要(如參考文獻
[1]),并吸引了眾多科研工作者的目光,多媒體數據信息檢索順利成章的成為了當下的研 究熱點。
[0003] 多媒體信息檢索與分類是基于數字圖像處理、計算機視覺和機器學習等技術,借 助于計算機處理技術,對數據庫中的多媒體信息進行分析比較的過程。目前,多媒體信息檢 索研究主要分為兩類:基于文本方式的信息檢索、基于內容的多媒體信息檢索技術。基于文 本方式的信息檢索方法簡單快速,但已經無法滿足現如今多媒體數據檢索的需要(如參考 文獻[2])。基于內容的多媒體信息檢索方法提取多媒體數據的語義信息形成數據的特征向 量,通過找到最大相似度的特征向量進而完成檢索(如參考文獻[3])。但是多媒體數據的語 義層次越高,檢索所需的計算就越復雜。兩類方法各有優劣,但由于基于內容的多媒體信息 檢索技術適用于如今多樣的多媒體數據的形式,因而得到了廣泛應用 [4]。
[0004] 多媒體數據的主題提取目前面臨的主要挑戰為:多媒體數據具有多模態特性,而 且社交網絡的多樣性導致了多媒體數據之間的聯系也具有多樣性,如今大多數方法只能處 理單模態的多媒體數據,限制了實際應用范圍。
【發明內容】
[0005] 本發明所要解決的技術問題是,提供一種實現了多媒體數據在不同模態和不同社 交網絡上的跨域學習,提高了多模態媒體數據主題提取準確度的基于地點的多模態媒體數 據主題提取模型
[0006] 本發明所采用的技術方案是:一種基于地點的多模態媒體數據主題提取模型,包 括以下步驟:
[0007] 1)采集各個地點的多媒體圖像數據和文本數據,得到各地點的初始多模態媒體數 據集,將所有地點的多模態媒體數據集和文本數據總體定義為基于地點的多模態媒體數據 庫;
[0008] 2)在多模態媒體數據庫中,對每個地點的文本數據進行自然語言處理后采用詞袋 模型得到文本中前1000~1500個單詞,對經過自然語言處理后的文本數據進行三層貝葉斯 概率模型的提取,去噪后得到初始文本特征向量集x 2
[0009] 其中N2為初始文本特征向量集中文本數據的數目,m2為特征的維度;
[0010] 3)在多模態媒體數據庫中,采用顏色特征對每個地點的多媒體圖像數據進行處 理,再經過三層貝葉斯概率模型處理、去噪后得到初始圖像特征向量集4
[0011] 其中見為初始圖像特征向量集中圖像數據的數目,特征的維度;
[0012] 4)將所有地點的初始文本特征向量集和初始圖像特征向量集進行集合,將其定義 為多模態媒體數據特征庫;
[0013] 5)以多模態媒體數據特征庫作為模型的輸入,初始化模型參數,構建多模態媒體 數據圖結構,得到多模態媒體數據在同一空間下的特征向量集;
[0014] 6)對得到的特征向量集進行K均值聚類,得到基于地點的多模態媒體數據主題模 型,計算主題模型中圖像特征和文本特征之間的歐氏距離,實現對多媒體圖像數據的文本 標注。
[0015] 步驟5)包括:
[0016] (1)根據初始圖像特征向量集和初始文本特征向量集X_7 ,得到 多模態媒體數據在同一空間下的特征向量集和特征映射之間的誤差值關系式:
[0017] 0 = ^1^ -C/,^r|!> +l2j|X2 -C/2nr||>+//Tr((^ -P2V2 f D(PXVX ~P,V2)Ya,Tr(}\T 1^) + a2rr(^2F2) + r(||i71||^+||C/2||^+||^||^+||^||^)
[0018] 其中:
[0019] 設定12?172校,其中Reg-,£72^0_,1] 1是父1轉換到¥1的近似 的過渡矩陣,1]2是辦轉換到V 2的近似的過渡矩陣;
[0020] 巧=^"。、〇"。;^,1為單位矩陣,〇為零矩陣,11()為?11(^圖像數 據的數量,m為Foursquare圖像數據的數量,n2為Foursquare文本數據的數量,D為對角矩 陣;
代表圖像e和圖像s的相似度,(V〇A 圖像e的跨域特征,(V〇s為圖像s的跨域特征,U是拉普拉斯算子;
尼,(A2)es代表文本e和文本S的相似度,(V2)e 為文本e的跨域特征,(V2)s為文本s的跨域特征,L2是拉普拉斯算子;
[0023] ^^、(^、(^和丫為模型參數;
[0024] ,其中要得到的特征映射的維度;
[0025] (2)對誤差值關系式中的^^(^、(^、化和乂:^初始化;
[0026] (3)分別固定1]1、1]2、¥1和¥2并求導,不斷重復求導過程直到誤差值關系式具有設定 的最小值,此時的化和%即為多模態媒體數據的特征映射,即不同模態數據在同一特征空間 下的特征向量集。
[0027] 本發明的一種基于地點的多模態媒體數據主題提取模型,具有的有益效果是:
[0028] 1、避免了多媒體數據的模態單一性,可以應用于多種模態的多媒體數據庫,即當 多媒體數據庫中既有文本數據又有圖像數據時,本方法依然可行;
[0029] 2、采用基于跨域學習的多媒體主題提取模型,通過某一社交網絡中多模態媒體數 據之間的聯系將其他多模態媒體數據映射到同一特征空間下,實現了基于地點的多模態媒 體數據的主題提取;
[0030] 3、結合使用上述模型對圖像數據進行文本標注,建立了圖像數據和文本數據的聯 系,實現了該模型的應用。
【附圖說明】
[0031] 圖1是本發明基于地點的多模態媒體數據主題提取模型的流程圖;
[0032]圖2a是雅虎網站(Flickr)數據樣例,其文本標注為"星巴克";
[0033]圖2b是四方網站(Foursquare)數據樣例,其文本標注為"海灣風景";
[0034]圖2c是四方網站(Foursquare)數據樣例,其文本標注為"房間浴室";
[0035]圖3a是特征維數為10維的主題模型樣例,文本標注為"舒服的房間";
[0036]圖3b是特征維數為100維的主題模型樣例,文本標注為"沙灘";
[0037] 圖3c是特征維數為1000維的主題模型樣例,文本標注為"周末夜景";
[0038] 圖4a是特征維數為10維的圖片標注樣例,文本標注為"燈光";
[0039] 圖4b是特征維數為100維的圖片標注樣例,文本標注為"聚會";
[0040] 圖4c是特征維數為1000維的圖片標注樣例,文本標注為"海鮮食品";
[0041 ]圖5是基于地點的多模態媒體數據主題模型的評估結果;
[0042] 圖6是圖片標注的評估結果。
【具體實施方式】
[0043] 下面結合實施例和附圖對本發明的一種基于地點的多模態媒體數據主題提取模 型做出詳細說明。
[0044] 研究表明:多模態媒體數據的特征映射分布情況與其數據本身的故有特征有非常 緊密的聯系,可以通過最優化主題模型得到同一特征空間下的多模態媒體數據特征向量進 而計算數據之間的關系。本發明提出了一種基于地點的多模態媒體數據主題提取模型。
[0045] 如圖1所示,本發明的一種基于地點的多模態媒體數據主題提取模型,包括以下步 驟:
[0046] 1)采集各個地點的多媒體圖像數據和文本數據,得到各地點的初始多模態媒體數 據集,將所有地點的多模態媒體數據集和文本數據總體定義為基于地點的多模態媒體數據 庫;
[0047] 2)在多模態媒體數據庫中,對每個地點的文本數據進行自然語言處理后采用詞袋 模型(如參考文獻[5])得到文本中前1000~1500個單詞,對經過自然語言處理后的文本數 據進行三層貝葉斯概率模型(Latent Dirichlet Allocation,LDA(如參考文獻[6]))的提 取,去噪后得到初始文本特征向量集;
[0048] 3)在多模態媒體數據庫中,采用顏色特征對每個地點的多媒體圖像數據進行處 理,再經過三層貝葉斯概率模型處理、去噪后得到初始圖像特征向量集;
[0049] 4)將所有地點的初始文本特征向量集和初始圖像特征向量集進行集合,將其定義 為多模態媒體數據特征庫;
[0050] 5)以多模態媒體數據特征庫作為模型的輸入,初始化模型參數,構建多模態媒體 數據圖結構,得到多模態媒體數據在同一空間下的特征向量集;包括:
[0051 ] (1)根據初始圖像特征向量集;€ 和初始文本特征向量集義e ,得到 多模態媒體數據在同一空間下的特征向量集和特征映射之間的誤差值關系式:
[0052] 0 = l.WX.-U^t+X.WX.-U^ ||;. + /iTr((^ -P2F2f Z)(^ -P2F2)) + ?irr(^Z1F1) + tt2rr(F/l2r2) + 7(||[/t||-;+||t/2||-;+||Ft||-;+||F 2||-;)
[0053] 其中:
[0054] 設定,其中(72€0¥/,.1]1是)(1轉換到1的近似 的過渡矩陣,1] 2是辦轉換到V2的近似的過渡矩陣;
-:£.,J圖像e的特征映射,(V〇s為圖像s的特征映射,U是拉普拉斯算子; ,1為單位矩陣,0為零矩陣,D為對角矩陣; 11],(&^代表圖像6和圖像8的相似度,(¥1)6為
,(A2)es代表文本e和文本s的相似度,(V2) e 為文本e的特征映射,(V2)s為文本s的特征映射,L2是拉普拉斯算子;
[0058] ^^,^,(^,(^,丫為模型參數;
[0059] V^Q^d , V2^d其中d為要得到的特征映射的維度; .,:
[0060] (2)對誤差值關系式中的
[0061] (3)分別固定1]1、1]2、¥1和¥ 2并求導,不斷重復求導過程直到誤差值關系式具有設定 的最小值,此時的化和%即為多模態媒體數據的特征映射,即不同模態數據在同一特征空間 下的特征向量集。
[0062] 6)對得到的特征向量集進行K均值聚類(如參考文獻[7]),得到基于地點的多模態 媒體數據主題模型,計算主題模型中圖像特征和文本特征之間的歐氏距離,實現對多媒體 圖像數據的文本標注。
[0063] 下面結合具體的計算公式,對實施例1中的方案進行詳細的介紹,詳見下文描述:
[0064] 1)采集S個地點的多媒體圖像數據和文本數據,得到各地點的初始多模態媒體數 據集m,將所有地點的多模態媒體數據集和文本數據總體Milm1,!!!2, ...,ms}定義為基于地 點的多模態媒體數據庫MD(Multimedia Database);
[0065] 本發明實施例首先采集來自S個地點的雅虎網站(FI ickr)和四方網站 (Foursquare)媒體數據(本例中S = 41),過程如下:
[0066] 本發明是基于地點的多模態媒體數據主題提取,要收集數據的相關地點要比較熱 門,所以我們要選擇比較受歡迎的地點。Foursquare中既有圖像數據又有文本數據而且它 們在數量和內容上基本沒有聯系,有的地點主頁中用戶上傳的信息較少不具有代表性,所 以在選擇地點時要滿足三個條件:(1)擁有的用戶數量在1000以上;(2)地點主頁中用戶上 傳的圖像數目大于1000; (3)用戶對地點的相關評論在200條以上。由此,我們選擇了41個比 較受歡迎的地點。每個地點中所有的文本信息看成一個文本文檔,所以我們收集到的 Four square數據包含41個文本文檔和10631張圖像。
[0067]輔助域的數據主要從Flickr中獲取,Flickr作為一個專業級圖像分享網站,提供 的圖像數據包含豐富的信息,包括標注信息和圖像的地理信息(如參考文獻[8])。在Flickr 數據的收集中,可以通過一些圖像標注候選詞匯作為搜索關鍵詞在Flickr平臺上收集圖 像。對這41個地點我們均選擇搜集到的前60張圖像,共2460張。
[0068] 將S個地點的多模態媒體數據集合并得到總初始視圖集M= {m1,!!!2, ...,ms},將其 定義為基于地點的多模態媒體數據庫MD;
[0069] 2)在多模態媒體數據庫中,采用詞袋模型對每個地點的文本數據L1,其中iG{l, 2, ...,S},進行自然語言處理,得到文本中前1000~1500個單詞,對經過自然語言處理后的 文本數據進行三層貝葉斯概率模型的提取,去噪后得到初始文本特征向量集;
[0070] Flickr是多模態媒體數據結構圖中的橋梁,所以如果Flickr的圖像標注信息與主 題相差很大的話會嚴重影響多模態媒體數據圖結構的形成,這就主要需要對Flickr的文本 信息進行去噪。我們將收集到的每個地點的所有文本視為一個文本文件,這些文件經過LDA 處理以后生成了一個文本主題模型. . .,rn},第t個主題rt有j個單詞 r, ={?...,〃丨,…0,〃(代表第t個主題的第k個單詞。經過計算Flickr的文本和所有的主 題的相似度,去掉相似度較低的Flickr文本噪聲。Flickr的圖像F和每個文本主題r的相似 度計算公式為:
[0071 ] Sh,t; (r.F) = argmax(/?(//,; .//; }x P(u[ jr))
[0072] 是F1 i ckr的圖像F的文本標注的第a個單詞,< 是主題t的單詞集合中的第k個單 詞。是兩個單詞之間的相似度,是單詞4出現在主題r的概率,相似度取兩 單詞間的最大值。如果相似度很低,就將該文本和對應的圖像濾掉,提高Flickr數據對地點 描述的精確性。
[0073] 對Foursquare的文本數據而言,可以通過刪除掉文本中的冗雜單詞(stopwords) 實現數據的去噪。
[0074] 去噪后的Flickr文本數據為2086條,Foursquare文本數據為3331條,對這些數據 進行LDA處理,得到初始文本特征向量集T= {t1,!:2, . . .,ts},定義為文本特征庫TFD(Text Feature Database)〇
[0075] 3)在多模態媒體數據庫MD(Multimedia Database)中,采用顏色特征(如參考文獻
[9])對每個地點的多媒體圖像數據B1,其中iG {1,2, ...,S}進行處理,再經過三層貝葉斯 概率模型處理、去噪后得到初始圖像特征向量集P;
[0076]對圖像數據進行去噪同樣是將與地點相關性小的圖像濾掉。針對Flickr和 Foursquare數據的不同,要分別對其進行處理。
[0077] Foursquare : Four square上的圖像是根據用戶上傳照片時所處的地理位置決定 的,所以按道理來說,來自同一地點的圖像應該都反映相同的場景。比如同一地點的白天和 黑夜的圖像在顏色方面有很大的不同,這兩張圖像雖然差異很大,但反映的是同一地點的 場景。我們設定來自同一地點的圖像在特征空間具有一致性或者類似性,利用上述假設就 可以濾除圖像噪聲。具體處理過程如下:
[0078]根據地點圖像經常出現的幾種特征將圖像大概分為幾類,本算法使用K均值聚類 將圖像分為5類;由于每一類的圖像特征對地點的描述程度不同、數量不同,所以應該對每 類圖像賦予不同的權值。設定每類的初始權重為
,(:=1,2,...,1],1]是生成的類別的 個數,n。是第c個子類包含的圖像的數目,N是聚類的所有圖像的數目,w。是每個子類所占的 權重。然后采用隨機游走算法不斷對子類的權重進行更新,收斂后得到的結果即為最終的 子類所占權重。我們選擇權重最大的前3個子類作為訓練數據,剩余的2個子類被作為噪聲 濾除掉。
[0079] FI i ckr: FI i ckr中的圖像都有文本標注,所以可以直接計算文本標注和地點主題 的相似度,濾除不相關圖像。與Four square的文本預處理相同,需要將FI i ckr的文本標注中 一些與地點無關的單詞濾掉,比如'Nikon','Canon'等。在步驟202中已經提取了每個地點 的LDA主題模型后,選擇Z個主題用來描述地點0={01,0 2,...,02}。文本標注和主題之間的 相似度S(W,Topic)取所有文本標注單詞和主題之間相似度的最大值。
[0080] 去噪后的Fli ckr圖像數據為2086條,Foursquare圖像數據為5536條,不失一般性 的,對去噪后的圖像特征進行LDA處理,得到初始圖像特征向量集P= {p^p2, . . .,ps},定義 為圖像特征庫PFD(Picture Feature Database)。
[0081] 4)將所有地點的初始文本特征向量集T= {t1,!:2, ...,1/,...,ts}和初始圖像特征 向量集Pib1,#,... 41,...,PS}進行集合,將其定義為多模態媒體數據特征庫;
[0082]去噪后的媒體數據示意圖如圖2。
[0083] 5)以多模態媒體數據特征庫作為模型的輸入,初始化模型參數,構建多模態媒體 數據圖結構,得到多模態媒體數據在同一空間下的特征向量集巾=.....^ ;
[0084] 下面詳細介紹得到構建多模態媒體數據圖結構的具體過程:
[0085] 我們將需要處理的數據分為兩類:圖像數據和文本數據。所以可以先將圖像數據 和文本數據分開處理,再進行統一整合。
[0086] ; ,其中XHf表包含no張具有文本標簽的Flickr圖像數據和m張不包含任 何文本信息的Foursquare圖像數據的特征矩陣。在上式中Ni = no+ni,即總的圖像數據的數 量,nu代表圖像的空間視覺特征維度。
[0087] Flickr的圖像數據和文本數據的數量都為no的原因是Flickr這個社交網絡的特 點是每張圖像都有一條文本標簽。
[0088] 將Foursquare和Flickr的圖像和文本數據分別結合起來的目的是賦予來自不同 社交網絡的相同模式的數據相同的維數以便于計算,然后通過形成的數據特征矩陣的因子 分解得到圖像數據的特征映射。和文本數據的特征映射匕,在這兩個變量中 d為統一特征空間下的特征維數。具體實現過程如下:
[0089] 設定巧#和X2: ?,其中R ,:£/2 e ,山是心轉換到%的近似的 過渡矩陣,同樣地,1]2是心轉換到V2的近似的過渡矩陣。為了得到圖像數據和文本數據的特 征映射,就要將不同特征空間下的圖像特征和文本特征轉換到相同的特征空間下,通過上 述方法這些數據可以保持一致性和流形特征。內部數據的一致性代表圖像和相關文本文檔 (比如圖像和文本標簽)應該具有類似的或者是相同的特征映射,保持原有的特性代表圖像 和文本應當具有相同的特征映射。
[0090]如上所述,我們首先對得到no張具有標簽的Flickr圖像數據和對應的文本數據進 行處理,由這些數據得到的圖像數據和文本數據的特征映射的之間應當比較接近。因此我 們定義了兩個選擇矩陣
[0093] 在上式中I為單位矩陣,0為零矩陣。由于Pi中前no列為單位矩陣,所以對應Flickr 的相關圖像數據。由于P2中前no列為單位矩陣,所以對應Flickr的相關文本數據。這些選擇 矩陣能夠分別WVjPV 2中得至Ijno張圖像的特征映射和no條文本的特征映射。PM和Flickr的 no張圖像的特征映射相對應,P 2V2和Flickr的no條文本標簽的特征映射相對應。Flickr中具 有文本標簽的圖像可以被當成聯系Four square圖像和文本文件間語義缺口的橋梁。為了使 內部媒體數據之間具有一致性,不僅需要使用選擇矩陣,還需要對下式極小化。
[0094] Tr( (PiVi-P2V2)tD(PiVi-P2V2))
[0095] 上式中,Tr( ?)是矩陣的軌跡,即取對角線上的元素。Deg"%是對角元素為較大 的正數常量的對角矩陣。PiVi-PWs代表具有相關性的Flickr的圖像和文本的特征映射之間 的差值。當VdPV 2的值最小時,具有一致性和語義相似性的文本數據和圖像數據將會有類似 的特征映射。
[0096] 特征映射可以保護數據的局部結構信息比如流形特征。為了達到上述目的,我們 定義一個圖像類同矩陣Vl和文本類同矩陣為代表圖像e和圖像s的 相似度,(A 2)es代表文本文件e和文本文件s的相似度。
[0097] 根據上述的流形假設,如果兩個數據點在固定的數據分布幾何學中非常接近,那 么這兩個點的特征映射之間也非常接近。就圖像而言,我們將其視為一個最小限度問題:
[0099] 上式中(Vde為圖像e的特征映射,(Vi)s為圖像s的特征映射,U是一個圖像拉普拉 斯算子。
[0100] 我們對下面的函數進行最小化來生成特征映射:
[0101] 0 = ^||^ -L/^r|!> + 12||X2-U2V7t ||> +//Tr((^ -F2F2 f D(P^-P2V? )) + ?//-(^1^) + a22>(I^Z,2) + 7(||t/邶+||f/2||》+n+r其)
[0102]上式中4是實際圖像數據XjP經過跨域轉換后的圖像數據Rff之間的誤 差,Tr (() TD ())是VjPV2的最小化問題,TV 是圖像和圖像之間的相 似度誤差。
[0103]由于上式中存在四個變量山、U2、VjPV2,所以該方程存在非球面的最優化問題。但 是當固定其他三個矩陣變量時,對另一個矩陣變量來說該方程為球面的最優化問題。因此, 可以通過迭代的方式來解決上式的最優化問題。特別地,通過固定山^和^我們可以通過
時的極小值,我們可以得到山的值的更新,如下式所示:
求導得到 。因此,當-的值等于零時,上式存在山為變量 I.
[0105] U2的值也可以通過相似的方式得到更新。
[0106] 通過固定1]1、1]2和%,我們可以通過求導得到
因此,當_
的值等于零時,特征映射方程存在Vi為變量時的極小值,我們也可以得到 乂:的更新值:
[0107] +yl + P;DP])V] +P"
[0108] 將求導公式簡化為西爾維斯特方程AVi+ViB = C,在本式中
[0109] A = + vi + P]T DP,
[0110] B = AlU{Ul
[0111] C = A.XlUl+PlrDP2V 2
[0112] 若要想得到%的更新值,求導公式必須要有唯一解。當且僅當固有值A和B各自滿 足:對所有的i和j,Pi+qj辛〇,其中Pi和qj分別代表A和B的固有值。經過計算可以發現A是對 稱的半正定矩陣之和,I是一個正定值。同樣地,如果Y為足夠大的值,A就為一正定矩陣并 且對所有的i來說都有 ?1>〇。我們同樣注意到B是半正定的格拉姆矩陣。同樣地,對所有的j 來說都有W0。因此,滿足上述的Pi+qfO這一條件并且通過解西爾維斯特方程可以 得到特征映射映射最優化的唯一解。
[0113] V2的更新值也可以通過相同的方法得到。
[0114] 數據經過多模態媒體數據圖后得到最終的特征向量集合,其中 特征向量的維數分別為1 〇,50和100,示例圖如圖3;
[0115] 6)對得到的向量集進行K均值聚類,得到1000個基于地點的多模態媒體數據主題 模型〇={ 01,02,. . .,01QQQ},基于該主題模型計算圖像特征和文本特征之間的歐氏距離 <.=' j: + (nl .實現對多媒體圖像數據的文本標注。
[0116] 將多模態媒體數據映射到同一特征空間后文本數據和圖像數據之間就具有一定 的聯系,不失一般性的,采用歐氏距離(如參考文獻[10])為例,可以得到與圖像數據最相似 的文本數據,從而實現多媒體圖像數據的文本標注,示例圖如圖4。
[0117] 實驗
[0118] 本實驗使用的數據庫為由步驟1)構建的多模態媒體數據庫MD。這是來自兩個社交 網絡的多模態媒體數據庫,共包含來自41個地點的2086條Flickr圖像數據,2086條Flickr 文本數據,5536條Foursquare圖像數據,3331條Foursquare文本數據。
[0119] 不失一般性的,采用三個評估標準:每一類中圖像和文本的一致性;文本對圖像描 述的完整性;用戶對分類結果的滿意度。為了評估的有效性,選擇15人,每人在10維、50維、 100維的文件夾中分別隨機抽取20類,對每一類中的內容進行評判,形成用戶評判結果的百 分比并求得平均值。
[0120] 用戶對圖像標注的評判是對算法性能的另一種評估。圖像標注的結果中每一張圖 像都有其對應的文本描述。通過圖像和文本的匹配度作出對標注結果的評判。由于圖像標 注中圖像來自Foursquare,文本則來自FI i ckr和Foursquare,并且有的文本內容為空,所以 會導致文本標注的不完整性。在評估時,將評估標準分為三個等級,2表示文本基本完整描 述了圖像,1表示文本中有些單詞與圖像相關,〇為其他情況。
[0121] 實驗結果
[0122] 多模態媒體數據庫MD中主題模型和圖片評估的評估結果分別如圖5,6所示。評估 結果越高,性能越優良。
[0123] 由圖5可知,本方法中最終的特征向量集合維數為100時結果最好,并且由圖6可 知,當最終的特征向量為100維時圖片標注的效果也是最好的。這是由于特征維數越大能夠 描述的圖片的信息就越多,分類效果就越好。
[0124] 本領域技術人員可以理解附圖只是一個優選實施例的示意圖,上述本發明實施例 序號僅僅為了描述,不代表實施例的優劣。
[0125] 以上所述僅為本發明的較佳實施例,并不用以限制本發明,凡在本發明的精神和 原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。
[0126] 參考文獻:
[0127] [1]莊越挺,潘云鶴,吳飛,等.網上多媒體信息分析與檢索[M].北京:清華大學出 版社,2002:4-20.
[0128] [2]Salton G,Fox E A,ffu H.Extended Boolean Information Retrieval[J] .Commun.ACM,1983,26(11):1022-1036.
[0129] [3]張治國.中文文本分類反饋學習研究[D].西安:西安電子科技大學,2009.
[0130] [4]Felzenszwalb P,Girshick R,McAllester D et al.Object Detection with Discriminatively Trained Part-Based Models[J].IEEE Trans Pattern Anal Mach Intell,2010,32(9):1627-1645.
[0131] [5]Belani A . Vandal i sm Detection in Wikipedia : a Bag-〇f-ffords Classifier Approach[J].CoRR,2010,abs/1001.0700.
[0132] [6]Blei D,Ng A,Jordan M.Latent Dirichlet Allocation[C].Montreal:NIPS, 2001.32-439.
[0133] [7]Blei D M.Probabilistic topic models[J].Commun.ACM,2012,7(17):922-954.
[0134] [8]鄭伯川,彭維,張引,等.3D模型檢索技術綜述[J].計算機輔助設計與圖形學學 報,2004,16(7):873-881.
[0135] [9]Stricker M,0rengo M.Similarity of Color Images[C].Nagova?Japan: 1995.381-392 .[10]Bradley P S,Reina C,Fayyad U M.Clustering Very Large Databases Using EM Mixture Models[C].Barcelona:ICPR,2000.198-208.
【主權項】
1. 一種基于地點的多模態媒體數據主題提取模型,其特征在于,包括以下步驟: 1) 采集各個地點的多媒體圖像數據和文本數據,得到各地點的初始多模態媒體數據 集,將所有地點的多模態媒體數據集和文本數據總體定義為基于地點的多模態媒體數據 庫; 2) 在多模態媒體數據庫中,對每個地點的文本數據進行自然語言處理后采用詞袋模型 得到文本中前1000~1500個單詞,對經過自然語言處理后的文本數據進行三層貝葉斯概率 模型的提取,去噪后得到初始文本特征向量集I 2 e 0"^ 其中N2為初始文本特征向量集中文本數據的數目,m2為特征的維度; 3) 在多模態媒體數據庫中,采用顏色特征對每個地點的多媒體圖像數據進行處理,再 經過三層貝葉斯概率模型處理、去噪后得到初始圖像特征向量集不 其中見為初始圖像特征向量集中圖像數據的數目,特征的維度; 4) 將所有地點的初始文本特征向量集和初始圖像特征向量集進行集合,將其定義為多 模態媒體數據特征庫; 5) 以多模態媒體數據特征庫作為模型的輸入,初始化模型參數,構建多模態媒體數據 圖結構,得到多模態媒體數據在同一空間下的特征向量集; 6) 對得到的特征向量集進行K均值聚類,得到基于地點的多模態媒體數據主題模型,計 算主題模型中圖像特征和文本特征之間的歐氏距離,實現對多媒體圖像數據的文本標注。2. 根據權利要求1所述的一種基于地點的多模態媒體數據主題提取模型,其特征在于, 步驟5)包括: (1)根據初始圖像特征向量集A 和初始文本特征向量集義'得到多模 態媒體數據在同一空間下的特征向量集和特征映射之間的誤差值關系式:其中: 設定不X,其中[Z1 ,(/2 e0n-,山是父:轉換到V1的近似的過 渡矩陣,1]2是辦轉換到V2的近似的過渡矩陣;? I為單位矩陣,O為零矩陣,no為Flickr圖像數據的 數量,m為Foursquare圖像數據的數量,m為Foursquare文本數據的數量,D為對角矩陣;II^(A1)e3s代表圖像e和圖像s的相似度,(V 1)e3為圖像 e的跨域特征,(V1)s為圖像s的跨域特征,L1是拉普拉斯算子;H(A2)es代表文本e和文本s的相似度,(V 2)e為文 本e的跨域特征,(V2)s為文本s的跨域特征,L2是拉普拉斯算子;數; 中d為要得到的特征映射的維度; ⑵對誤差值關系式中的 (3)分別固定1]1、1]2、¥1和%并求導,不斷重復求導過程直到誤差值關系式具有設定的最 小值,此時的化和%即為多模態媒體數據的特征映射,即不同模態數據在同一特征空間下的 特征向量集。
【文檔編號】G06F17/30GK105893573SQ201610202586
【公開日】2016年8月24日
【申請日】2016年3月31日
【發明人】劉安安, 師陽, 聶為之, 蘇育挺
【申請人】天津大學