專利名稱:基于圖像的語義距離的制作方法
背景技術:
探究概念之間的語義關系是近來的熱門研究課題,因為它在自然語言處理、對象檢測和多媒體檢索等領域有著廣泛應用。值得注意的是,語義關系不僅是同義詞(例如足球-英式足球)和概念相似性(例如馬-驢)。它還包括諸如整體部分關系(meronymy) (例如車輛-車輪)和并發性關系(例如飛機-機場)等關系。在該上下文中,并發性是指兩個概念可能在日常生活而非文本文檔中同時出現。更廣泛地,與可以在文本文檔領域中表示概念同現的術語“相似性”不同,術語“并發性”可以在視覺領域中表示概念同現或背景一致。
概述 本文所述的基于圖像的語義距離技術實施例涉及建立語義概念之間基于圖像的語義距離的量度。一般而言,這需要基于與每一概念相關聯的圖像集來分別為該概念計算語義概念表示。然后計算兩個語義概念表示之間的差異度,來為這對概念產生上述的語義距離量度。在某些實施例中,語義概念表示采用與所考慮語義概念相關聯的圖像的統計語言模型的形式,并且差異度采用統計分布散度量度的形式。
某些實施例還包括潛在語義分析以捕捉在用于計算語義概念表示的相關圖像集合中的概念的外觀(appearance)的變化。在這些實施例中,建立語義概念之間的基于圖像的語義距離量度通常需要基于與每個語義概念相關聯的圖像來為該概念計算語義概念表示,其中每個表示計入相關聯的語義概念的外觀的變化。一旦語義概念表示就緒,則計算一對語義概念表示之間的差異度以產生語義距離量度。在這種情形中,計算與這對語義概念表示中的第一個相關聯的每個外觀變化和與這對語義概念表示中的另一個相關聯的每個外觀變化之間的差異度的組合。
應該注意,提供本發明內容是為了以簡化的形式介紹將在以下詳細描述中進一步描述的一些概念。本發明內容并不旨在標識出所要求保護的主題的關鍵特征或必要特征, 也不旨在用于幫助確定所要求保護的主題的范圍。
參考以下描述、所附權利要求書以及附圖,將更好地理解本發明的具體特征、方面和優點,附圖中 圖1是概括示出用于建立語義概念之間的基于圖像的語義距離量度的一個過程實施例的流程圖。
圖2是示出圖1中過程的實現的框圖,采用視覺語言模型和詹森-香農 (Jensen-Shannon)散度來用于建立語義概念之間的基于圖像的語義距離量度。
圖3是概括示出用于在計入概念外觀變化的同時建立語義概念之間的基于圖像的語義距離量度的一個過程實施例的流程圖。
圖4是描繪了構成用于實現本文所述的基于圖像的語義距離技術實施例的示例系統的通用計算設備的圖示。
詳細描述 在以下對基于圖像的語義距離技術實施例的描述中,對附圖進行了參考,附圖構成了實施例的一部分且在附圖中作為說明示出了可在其中實踐該技術的具體實施例。可以理解,可以使用其它實施例并且可以做出結構改變而不背離本發明技術的范圍。
1. 0基于圖像的語義距離 語義概念之間的關系可以涉及同義詞(例如足球-英式足球)或相似性(例如馬-驢)。它還包括諸如整體部分關系(meronymy)(例如車輛-車輪)和并發性(例如飛機-機場)之類的關系。某些語義概念更加緊密相關,諸如“飛機”和“機場”,而某些更加疏遠,諸如“衛城(acropolis)”和“酒精(alcohol)”。本文所述的基于圖像的語義距離技術實施例提供通過使用描繪概念的圖像來量化概念之間關系的緊密度的方式。由于語義概念之間的關系是人類感知的知識并且80%的人類認知來自于視覺信息,因此通過視覺相關性而非通過文本文檔中的概念同現來生成有關概念關系的人為知識是合理的。此外,視覺領域中的相關性不僅由圖像中低級別視覺特征的頻率表示,而且可以使用圖像中這些低級別視覺特征之間的空間信息。例如,相同的視覺特征(即車輪)頻繁同現在“車輛”和“摩托車”圖像中,但是它們的鄰近特征是不同的。由于忽視視覺特征之間的空間信息,這兩個概念可能被混淆。然而,如果考慮這些視覺特征的鄰近信息,概念之間的關系更加清晰。因此,視覺特征的安排在表示概念時也能提供信息。
鑒于上文,本文所述的基于圖像的語義距離技術實施例能夠建立語義概念之間基于圖像的語義距離的量度。參照圖1,這通常涉及首先基于與概念相關聯的圖像分別為每個概念計算語義概念表示(100)。這通常涉及首先基于與概念相關聯的圖像分別計算每個概念的語義概念表示(100)。然后計算兩個語義概念表示之間的差異度,來產生這對概念的上述語義距離量度(102)。在某些實施例中,語義概念表示采用與所考慮語義概念相關聯的圖像的統計分布模型的形式,并且差異度采用統計分布散度量度的形式(有時還稱為統計分布距離量度)。
具體而言,如圖2所示,本文所述的基于圖像的語義距離技術實施例是視覺領域中語義概念200、202(例如對象、場景)之間關系的新穎量度。對于每個概念,獲得圖像集 204、206,在一個實施例中基于此,建立視覺語言模型208、210來捕捉概念的視覺特性。然后測量不同概念之間基于圖像的語義距離,在一個實施例中,這采用對應視覺語言模型212 之間詹森-香農(幾)散度計算的形式。
1. 1語義概念圖像池 如上所述,由于80%的人類認知來自于視覺信息,因此通過日常生活中概念的并發來測量這些概念之間的語義距離是有意義的。為了模擬日常生活中的概念并發,應該在日常生活環境中執行概念關系學習過程。與人類觀察系統類似,世界上的數碼相機記錄每天的現實日常生活。可以從大型日常生活照片池中挖掘概念之間的統計語義關系。為了實現對統計概念關系的偏見較小的估計,圖像池應該非常大并且照片來源應該是獨立的。
幸運的是,存在可用的基于web的圖像池,它包括用描述關聯圖像的詞句來標記的圖像。這些詞句通常涉及感興趣的語義概念。例如,存在在線照片共享網站Flickr 。該網站收集了由獨立用戶上傳的超過IO9個圖像。此外,這些圖像中的大量圖像已被標注(即標記)。因此,這是學習概念語義關系的理想數據集。
為了提供概念之間語義距離的無偏見估計,需要足夠大的無偏見圖像數據集。此外,數據集中的圖像應該包括圖像與概念之間的連接信息。這可以通過采用Flickr 照片集作為圖像池而滿足。在一個實施例中,只有預定數量(例如1000)的用查詢概念來標記的最高返回圖像被用于表示每個查詢概念。這避免了噪聲標簽的問題。
1.2語義概念表示 為了分析照片池中的概念相關性,使用上述語義概念表示。該表示可以采用與語義概念相關聯的圖像的統計分布模型的形式。存在許多能夠使用的計算機視覺模型,諸如詞袋(BOW)模型和基于感興趣區域(ROI)的模型。然而,在基于圖像的語義距離技術的一個實施例中,使用視覺語言模型(VLM)。VLM是捕捉局部外觀特征及其空間依存關系的有效視覺統計分析方法。如上所述,這在表征語義概念時比純視覺特征分布更有辨別力。VLM的訓練很快,這使該建模方法尤其適于大規模概念數據集。VLM的輸出是圖像碎片的視覺特征的條件分布,基于此可以定義嚴謹的距離量度。VLM還可以抑制噪聲。實際包含目標概念的圖像會共享某些視覺特征,這實際上對模型有貢獻。在被錯誤標記的噪聲樣本中的視覺特征對最終VLM影響很小。
在操作中,VLM通過分析鄰近圖像碎片之間的空間依存關系來捕捉圖像的統計語義。因此,統計語義可以表示為圖像局部特征及其空間依存關系。具體而言,對于每個語義概念,通過上述描述性標簽的幫助獲得相關圖像的集合。假設標記有相同概念的圖像共享類似的外觀特征及其排列模式。這形成概念的統計語義。將每個圖像劃分成尺寸相等的碎片,然后使用VLM計算這些碎片之間的條件依存關系以捕捉概念的視覺統計語義。
1. 2. 1潛在主題視覺語言模型 在基于圖像的語義距離技術的另一實施例中,將潛在語義分析結合到VLM中以捕捉概念外觀變化。在處理概念外觀變化中,傳統VLM可能并不完善。這包括由于比例(例如近景/遠景鏡頭)和取向(例如側視/前視)以及諸如對象形狀、照明、顏色、紋理等的其它屬性而引起的外觀變化。在這些情形中,將潛在主題分析結合到VLM中是可能的,并假設概念的每個外觀變化對應于潛在主題Zp概率性潛在語義分析(pLSA)可以適于用戶感興趣的每個變化下概念的視覺特性。在以下段落中,詳細地描述這一潛在主題視覺語言模型,以特征提取階段開始并以潛在主題VLM生成階段結束。
在特征提取階段的一個實施例中,將每個圖像劃分成統一采樣、尺寸相等的碎片。 這是適當的,因為統一采樣需要很少計算成本,并且其性能可以比得上使用顯著檢測或基于局部區域的分割等其它方法,但是如果需要也可以使用這些其它方法(以及類似方法)。 對于每個碎片,使用8維紋理直方圖來描述。每個緯度對應于沿八個量化方向之一的紋理梯度。可以使用常規方法來計算紋理直方圖。接下來,將每個碎片的紋理直方圖轉換成視覺詞wxy。在一個實施例中,使用散列編碼方案。
潛在主題VLM生成階段通常涉及將潛在主題(外觀變化)分析結合到VLM中以根據低級別視覺特征排列來表征每個概念C”這提供了對概念進行建模的有效方式。每個 VLM以條件分布的形式來呈現,條件分布描述了在給定其近鄰和潛在主題的情況下低級別視覺特征之間的空間依存關系。
根據所考慮的鄰近視覺詞的數量,可將視覺語言模型細分成一元語法(imigram)、 二元語法(bigram)、三元語法(trigram)、或者一般情況下的η元語法(n-gram)模型。一元語法模型假設視覺詞彼此獨立。該模型實際上捕捉視覺詞分布。二元語法模型假設視覺詞依賴于其鄰近特征之一,例如左側最近鄰。該模型在給定其近鄰詞之一的情況下計算每個視覺詞的條件概率。三元語法模型假設視覺詞依賴于其鄰近詞中的兩個,例如左側最近鄰和上側最近鄰。因此,一般而言,η元語法模型假設視覺詞依賴于其近鄰詞中的η-1個。 然而,應該注意,雖然更高階模型可以更有辨別力,但是隨著模型階數增大,參數數量會指數增長。由于參數是從訓練集中η元語法的出現來估計的,因此如果階數η過大,相對受限的訓練集會遭遇稀缺問題。因此,辨別力和稀缺之間存在折衷。
此外,還有可能使用組合模型。在組合模型中,使用一個以上的η元語法模型來生成參數。例如,可以從首先使用二元語法方法、然后使用三元語法方法生成的參數中計算與 VLM相關聯的條件分布。可以使用各方法的任何組合。然而,雖然使用方法組合可以產生更有辨別力的結果,但是參數數量的增加會增加處理成本。因此,辨別力和成本之間存在折發。
在測試實施例中,選擇三元語法模型來捕捉概念,但是如上文所指出的,可以改為使用更高或更低(或組合)階模型。在三元語法模型中,理念是估計條件分布
權利要求
1.一種用于建立語義概念之間基于圖像的語義距離的量度的計算機實現的方法,包括使用計算機執行以下過程動作基于與概念相關聯的圖像分別計算每個概念的語義概念表示(100);以及計算兩個語義概念表示之間的差異度以產生該對相應語義概念的所述語義距離量度 (102)。
2.如權利要求1所述的方法,其特征在于,所述語義概念表示各自采用與相應語義概念相關聯的圖像的統計分布模型的形式。
3.如權利要求2所述的方法,其特征在于,所述統計分布模型是視覺語言模型,每個視覺語言模型捕捉與相應語義概念相關聯的圖像的視覺特性。
4.如權利要求2所述的方法,其特征在于,所述語義概念表示之間的差異度采用統計分布散度的形式。
5.如權利要求4所述的方法,其特征在于,所述統計分布散度是所述統計分布模型之間的詹森-香農散度計算的平方根。
6.如權利要求1所述的方法,其特征在于,所述語義概念中的至少一個包括在與相應概念相關聯的圖像中描繪的對象。
7.如權利要求1所述的方法,其特征在于,所述語義概念中的至少一個包括在與相應概念相關聯的圖像中描繪的場景。
8.如權利要求1所述的方法,還包括以下過程動作計算多對語義概念中每一對之間的基于圖像的語義距離量度,以及使用這些量度來構建視覺概念網絡,所述視覺概念網絡包括具有表示每個語義概念的分開節點和連接表示在每個經連接節點之間計算的基于圖像的語義距離量度的節點的邊的圖。
9.如權利要求1所述的方法,其特征在于,還包括以下過程動作計算多對語義概念中每一對之間的基于圖像的語義距離量度,以及在語義概念群集應用中使用這些量度。
10.如權利要求1所述的方法,其特征在于,還包括以下過程動作計算多對語義概念中每一對之間的基于圖像的語義距離量度,以及在圖像注釋應用中使用這些量度。
11.一種用于建立一對語義概念之間的基于圖像的語義距離的量度的系統,包括通用計算設備;以及具有可由所述計算設備執行的程序模塊的計算機程序,其中所述計算設備由所述計算機程序的程序模塊引導來基于與所述概念相關聯的圖像分別計算每個語義概念的語義概念表示,其中所述表示中的每一個表示計入在用于計算該表示的圖像中所描繪的相關聯的語義概念的外觀的變化(300),以及計算一對語義概念表示之間的差異度以產生所述語義距離量度,其中計算差異度包括計算與該對語義概念表示中的第一個相關聯的每個外觀變化和與該對語義概念表示中的另一個相關聯的每個外觀變化之間的差異度的組合。
12.如權利要求11所述的系統,其特征在于,所述外觀的變化可歸因于比例、取向、對象形狀、照明、色彩、和紋理的變化中的至少一個。
13.如權利要求11所述的系統,其特征在于,用于計算語義概念表示的程序模塊包括用于使用潛在主題視覺語言模型計算每個語義概念表示的子模塊,所述潛在主題視覺語言模型以每個所考慮變化的條件分布的形式來捕捉所述外觀變化的視覺特征。
14.如權利要求13所述的系統,其特征在于,在計算語義概念表示的潛在主題視覺語言模型之前,與所述表示的語義概念相關聯的每個圖像被表征為視覺詞集合。
15.權利要求13所述的系統,用于計算一對語義概念表示之間的差異度的程序模塊包括用于將差異度計算為在與該對語義概念表示中的第一個相關聯的每個條件分布和與該對語義概念表示中的另一個相關聯的每個條件分布之間計算的加權詹森-香農散度的總和的平方根的子模塊,其中對于所計算的每個詹森-香農散度,加權是基于與第一語義概念表示的條件分布相關聯的圖像中變化的重要性以及與另一語義概念表示的條件分布相關聯的圖像中變化的重要性的。
全文摘要
呈現基于圖像的語義距離技術實施例,它們涉及建立語義概念之間基于圖像的語義距離的量度。一般而言,這需要基于與語義概念相關聯的圖像集分別為每個概念計算語義概念表示。然后計算兩個語義概念表示之間的差異度,來為這對概念產生上述的語義距離量度。
文檔編號G06F17/00GK102197393SQ200980143703
公開日2011年9月21日 申請日期2009年10月27日 優先權日2008年10月27日
發明者X-S·華, L·吳, S·李 申請人:微軟公司