本公開涉及互聯網和自然語言處理領域,更具體地,涉及一種用于利用圖像的標簽信息自動地將圖像鏈接到語義知識庫的圖像鏈接方法和圖像鏈接設備。
背景技術:
語義網絡是一種使用可以被計算機理解的方式描述事物的網絡,由節點和弧組成。其中,文本、圖像、音頻以及視頻都能成為語義網絡中的不同類型節點,而連接這些節點的弧則代表著這些節點之間的語義關系。
目前,如何將各種類型的內容自動添加到語義網絡中,已經成為擴大語義網絡規模的關鍵技術點。以中文文本類型的內容為例,由于中文包含常用文字僅為幾千個,即使是由這些字組成的常用詞語也不過幾萬或者幾十萬的量級,因此對文本內容的理解、處理和自動添加到語義網絡的過程相對容易,能夠利用的文本處理工具也較多。然而,針對圖像類型的數據內容,由于圖像本身包含的視覺信息千差萬別,僅僅針對一種物體,就可能由于拍攝角度、光線強度或者其他各種因素而產生非常多不同的圖像,因此自動理解圖像中的內容并且實現自動化的圖像語義化過程,是非常困難的。目前,將圖像鏈接到語義知識庫中的本體或者資源的過程,基本是由人工來手動完成的,而與圖像鏈接的本體或者資源則包括圖像的拍攝地點、圖像內的景點、人物以及對圖像內容的其他類型描述。
曾有工作嘗試實現自動的圖像標注過程,其嘗試利用網頁中的文本內容,將網頁中的圖片進行自動的語義標注。然而,由于網頁文本內容的復雜性,使得定位與圖片有實際關聯的文本片段非常困難,有的時候甚至會出現圖片與網頁中所有文本均無語義關聯的情況發生。因此,上述方法中使用的數據包含了很多噪音,使得最終的圖片標注結果不理想。
隨著web2.0技術的發展,以flickr等為代表的在線圖像標注系統網站日益流行。在線圖像標注系統中的圖像對應了大量的人工標注的標簽,這些標簽是上傳圖像的用戶為了讓別人更容易的搜索到自己上傳的圖 像而對圖像的拍攝地點、圖像內的景點、人物等等方面進行描述。這些人工標注的標簽質量好、準確度高,因此,如果利用這些圖像的標簽信息來將圖像鏈接到語義知識庫中,則能夠更有效地實現基于語義的圖像檢索以及圖像與其他實體之間的關聯關系檢測。
技術實現要素:
在下文中給出了關于本公開的簡要概述,以便提供關于本公開的某些方面的基本理解。但是,應當理解,這個概述并不是關于本公開的窮舉性概述。它并不是意圖用來確定本公開的關鍵性部分或重要部分,也不是意圖用來限定本公開的范圍。其目的僅僅是以簡化的形式給出關于本公開的某些概念,以此作為稍后給出的更詳細描述的前序。
鑒于以上問題,本公開的目的是提供一種圖像鏈接方法和圖像鏈接設備,其能夠利用圖像的標簽信息自動地將圖像鏈接到語義知識庫,從而更有效地實現基于語義的圖像檢索以及圖像與其他實體之間的關聯關系檢測。
根據本公開的一方面,提供了一種用于將圖像鏈接到語義知識庫的圖像鏈接方法,包括:查找無歧義標簽步驟,可以用于在圖像的標簽中,查找與語義知識庫中的本體存在無歧義關聯的一個或多個無歧義標簽;查找近似標簽步驟,可以用于針對一個或多個無歧義標簽中的每個無歧義標簽,在圖像的標簽中,查找與該無歧義標簽相似性高的一個或多個近似標簽,并且計算該無歧義標簽與一個或多個近似標簽中的每個近似標簽之間的語義相似度;計算關聯值步驟,可以用于基于一個或多個無歧義標簽與本體的無歧義關聯關系和語義相似度,計算圖像與本體的關聯值;判定步驟,如果圖像與本體的關聯值大于或等于第一閾值,則可以將該本體判定為存在真實關聯的本體;以及關聯步驟,基于語義知識庫中已有的包含存在真實關聯的本體的語義關系組,可以判斷是否將圖像關聯到存在真實關聯的本體,并且可以根據判斷結果來執行關聯操作。
根據本公開的另一方面,還提供了一種用于將圖像鏈接到語義知識庫的圖像鏈接設備,包括:查找無歧義標簽單元,可以被配置成在圖像的標簽中,查找與語義知識庫中的本體存在無歧義關聯的一個或多個無歧義標簽;查找近似標簽單元,可以被配置成針對一個或多個無歧義標簽中的每個無歧義標簽,在圖像的標簽中,查找與該無歧義標簽相似性高的一個或 多個近似標簽,并且計算該無歧義標簽與一個或多個近似標簽中的每個近似標簽之間的語義相似度;計算關聯值單元,可以被配置成基于一個或多個無歧義標簽與本體的無歧義關聯關系和語義相似度,計算圖像與本體的關聯值;判定單元,可以被配置成如果圖像與本體的關聯值大于或等于第一閾值,則將該本體判定為存在真實關聯的本體;以及關聯單元,可以被配置成基于語義知識庫中已有的包含存在真實關聯的本體的語義關系組,判斷是否將圖像關聯到存在真實關聯的本體,并且根據判斷結果來執行關聯操作。
根據本公開的其它方面,還提供了用于實現上述根據本公開的方法的計算機程序代碼和計算機程序產品以及其上記錄有該用于實現上述根據本公開的方法的計算機程序代碼的計算機可讀存儲介質。
在下面的說明書部分中給出本公開實施例的其它方面,其中,詳細說明用于充分地公開本公開實施例的優選實施例,而不對其施加限定。
附圖說明
本公開可以通過參考下文中結合附圖所給出的詳細描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標記來表示相同或者相似的部件。所述附圖連同下面的詳細說明一起包含在本說明書中并形成說明書的一部分,用來進一步舉例說明本公開的優選實施例和解釋本公開的原理和優點。其中:
圖1是示出根據本公開的實施例的圖像鏈接方法的流程示例的流程圖;
圖2是示出圖像-標簽之間的關聯關系的圖;
圖3是示出圖像-主題-標簽三者之間的關聯關系的圖;
圖4是示出根據本公開的實施例的圖像鏈接設備的功能配置示例的框圖;以及
圖5是示出作為本公開的實施例中可采用的信息處理設備的個人計算機的示例結構的框圖。
具體實施方式
在下文中將結合附圖對本公開的示范性實施例進行描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應該了解,在開發任何這種實際實施例的過程中必須做出很多特定于實施方式的決定,以便實現開發人員的具體目標,例如,符合與系統及業務相關的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應該了解,雖然開發工作有可能是非常復雜和費時的,但對得益于本公開內容的本領域技術人員來說,這種開發工作僅僅是例行的任務。
在此,還需要說明的一點是,為了避免因不必要的細節而模糊了本公開,在附圖中僅僅示出了與根據本公開的方案密切相關的設備結構和/或處理步驟,而省略了與本公開關系不大的其它細節。
下面結合附圖詳細說明根據本公開的實施例。
首先,將參照圖1描述根據本公開的實施例的圖像鏈接方法的流程示例。圖1是示出根據本公開的實施例的圖像鏈接方法的流程示例的流程圖。如圖1所示,根據本公開的實施例的圖像鏈接方法可包括查找無歧義標簽步驟s102、查找近似標簽步驟s104、計算關聯值步驟s106、判定步驟s108以及關聯步驟s110。
首先,在查找無歧義標簽步驟s102中,可以在圖像的標簽中,查找與語義知識庫中的本體存在無歧義關聯的一個或多個無歧義標簽。
在本公開中,例示而非限制,語義知識庫為dbpedia。另外,語義知識庫還可以是schema。我們將無歧義標簽定義為能夠在dbpedia或者schema等語義庫中匹配到唯一對應的已經定義好的本體或者資源的標簽。舉例來說,假設圖像包含一個標簽為“asus”,我們首先在dbpedia中搜索與華碩匹配的本體定義,若發現該標簽能夠無歧義地與本體“http://dbpedia.org/resource/asus”進行關聯,則將該標簽定義為無歧義標簽。以此類推,可以在該圖像的標簽中查找到與本體“http://dbpedia.org/resource/asus”存在無歧義關聯的全部無歧義標簽。換言之,查找無歧義標簽相當于把無歧義標簽鏈接到語義知識庫,即將無歧義標簽與語義知識庫中的本體或資源進行鏈接。
在查找近似標簽步驟s104中,可以針對一個或多個無歧義標簽中的每個無歧義標簽,在圖像的標簽中,查找與該無歧義標簽相似性高的一個或多個近似標簽,并且計算該無歧義標簽與一個或多個近似標簽中的每個近似標簽之間的語義相似度。
我們將與無歧義標簽相似性高的標簽定義為近似標簽。在查找近似標簽步驟s104中,可以查找每個無歧義標簽的一個或多個近似標簽,并且計算該無歧義標簽與每個近似標簽之間的語義相似度。
優選地,在查找近似標簽步驟s104中,可以利用主題模型來發現圖像的標簽的主題信息并且形成圖像的標簽與主題之間的轉換關系,從而將圖像的標簽表示成主題向量。
具體地,在在線圖像標注系統中,每個圖像的標簽個數從幾個到幾百個,因為本公開在后面階段需要利用標簽之間的語義相似度進行標簽鏈接的擴充,因此在查找近似標簽步驟s104中,我們利用lda(latentdirichletallocation,潛在狄利克雷分配)主題模型來發現標簽的主題信息,用以將標簽表示成主題向量并能夠很方便地計算標簽之間的主題向量相似性,亦即是標簽之間的語義相似度。另外,lsa(latentsemanticanalysis,潛在語義分析)模型以及plsa(probabilisticlatentsemanticanalysis,概率潛在語義分析)模型亦可以實現該過程。由于lda模型為領域內常用模型,該處不再進行詳細介紹,只結合本公開實現過程進行直觀解釋。我們首先對大量的圖像標簽進行收集,并將這些標簽去重后形成一個標簽向量空間,將每幅圖像表示成標簽向量之后,利用lda模型發現隱含主題,并形成標簽與主題之間的轉換關系。此處,標簽向量的維度約為幾萬維,并且其中的數據比較稀疏,而主題數目通常會根據經驗設定為幾十到幾百。因此,利用主題模型,每個標簽能夠表示成一個幾十或幾百維的主題向量,方便之后計算標簽之間的語義相似性。
圖2是示出圖像-標簽之間的關聯關系的圖。根據圖2可知,對于m(例如,m為數萬的量級)個圖像,每個標簽(標簽的總數量為n)的標簽向量為m維。
在查找近似標簽步驟s104中,利用“圖像-標簽”關系矩陣訓練主題模型,基于標簽之間的語義相似性進一步增加鏈接到語義知識庫的標簽范圍。主題模型訓練是指將“圖像-標簽”關系通過對其中包含的隱含主題進行發現從而得到“圖像-主題-標簽”關系,進而能夠將每個標簽表示成一個主題向量。
圖3是示出圖像-主題-標簽三者之間的關聯關系的圖。關聯主題發現的過程,就是如圖2到圖3的轉變過程。根據圖3可知,圖像的數量為m(例如,m為數萬的量級),而對于k(k為幾十或幾百的量級)個主題,每個標簽(標簽的總數量為n)能夠表示成k維的主題向量。由于標簽 的主題向量的維度較低,因此方便計算標簽之間的語義相似度。
優選地,在查找近似標簽步驟s104中,可以基于主題向量和圖像的標簽之間的包含關系和/或編輯距離,查找一個或多個近似標簽。
如上所述,可以得到每一個標簽的幾十或者幾百維的主題向量。此處的主題向量維度應根據具體的‘圖像-標簽’數據規模,由本領域技術人員根據經驗進行設定,通常的維度設定范圍在幾十到幾百之間。本公開利用兩個標簽的主題向量另外輔以兩個標簽的包含關系和/或編輯距離來查找近似標簽。
優選地,對于一個或多個無歧義標簽中的一個無歧義標簽,判定如下標簽為所述一個無歧義標簽的近似標簽:該標簽與所述一個無歧義標簽存在包含關系,并且該標簽的主題向量與所述一個無歧義標簽的主題向量之間的余弦相似度大于或等于第三閾值。
具體地,如果一個無歧義標簽與另一標簽存在包含關系(例如標簽“birds”和“bird”之間存在包含關系、標簽“grandfather”和“father”之間存在包含關系),并且這兩個標簽的主題向量之間的余弦相似度大于或等于閾值α(α為0到1之間的實數),則判定所述另一標簽為所述一個無歧義標簽的近似標簽。
優選地,對于一個或多個無歧義標簽中的一個無歧義標簽,判定如下標簽為所述一個無歧義標簽的近似標簽:該標簽與所述一個無歧義標簽之間的編輯距離小于或等于第四閾值,并且該標簽的主題向量與所述一個無歧義標簽的主題向量之間的余弦相似度大于或等于第五閾值。
具體地,如果一個無歧義標簽與另一標簽的編輯距離小于等于閾值β(β為大于或等于1的整數)(例如標簽“fish”和“fsih”之間的編輯距離較小),并且這兩個標簽的主題向量之間的余弦相似度大于或等于α(α為0到1之間的實數),則判定所述另一標簽為所述一個無歧義標簽的近似標簽。
優選地,還可以基于近義詞典來判定兩個標簽之間是否為近似標簽的關系。
如果所述另一標簽為所述一個無歧義標簽的近似標簽,并且其中所述一個無歧義標簽已經存在與語義知識庫中本體的無歧義關聯,則可以認為所述另一個標簽存在到語義知識庫中同一本體的間接關聯。需要注意的是,本公開并沒有把與無歧義標簽相似性較高的近似標簽真的鏈接到了語 義知識庫中,而是為了在計算關聯值步驟s106中,增加將圖像鏈接到語義知識庫的可能性。
優選地,基于主題向量而計算一個或多個無歧義標簽中的每個無歧義標簽與一個或多個近似標簽中的每個近似標簽之間的語義相似度。
具體地,本公開利用兩個標簽的主題向量之間的余弦相似度來衡量這兩個標簽的語義相似度。
如上所述,在查找近似標簽步驟s104中,利用“圖像-標簽”關系矩陣訓練主題模型,并且基于標簽之間的語義相似度進一步增加鏈接到語義知識庫的標簽范圍。即,通過計算那些尚未關聯到語義知識庫的標簽與那些已經關聯到語義知識庫的無歧義標簽之間的語義相似度,進而將標簽更大范圍地關聯到語義知識庫。
在計算關聯值步驟s106中,可以基于一個或多個無歧義標簽與本體的無歧義關聯關系和語義相似度,計算圖像與本體的關聯值。
優選地,在計算關聯值步驟s106中,針對一個或多個無歧義標簽中的每個無歧義標簽進行如下增加關聯值的處理:基于該無歧義標簽與本體的無歧義關聯關系而將關聯值增加一,以及對于該無歧義標簽的一個或多個近似標簽中的每個近似標簽,將關聯值增加該無歧義標簽與該近似標簽之間的語義相似度。
具體地,將圖像的所有標簽出現的與語義知識庫的直接或者間接關聯,均作為對圖像與本體關聯的依據。對于能夠直接關聯到本體的無歧義標簽的情況,將圖像與該本體之間的關聯值增加1;對于能夠間接關聯到該本體的近似標簽的情況,將圖像與該本體之間的關聯值增加“該近似標簽與其對應的無歧義標簽之間的語義相似度”。
在判定步驟s108中,如果圖像與本體的關聯值大于或等于第一閾值,則將該本體判定為存在真實關聯的本體。
具體地,如果圖像與本體之間的關聯值大于或等于閾值γ(γ為大于或等于1的實數),則將其判定為與圖像存在真實關聯的本體。
在關聯步驟s110中,基于語義知識庫中已有的包含存在真實關聯的本體的語義關系組,判斷是否將圖像關聯到存在真實關聯的本體,并且根據判斷結果來執行關聯操作。
由于在將圖像鏈接到語義知識庫中本體的過程中,需要定義圖像與本 體之間的關聯類型,因此,并不是每個判定與圖像存在真實關聯的本體最后都能直接建立它們之間的關聯。對于這些本體,本公開基于語義知識庫中已有的語義關系三元組來判斷是否將圖像關聯到存在真實關聯的本體。若判斷將圖像關聯到存在真實關聯的本體,則執行圖像和存在真實關聯的本體之間的關聯操作。
優選地,在關聯步驟s110中,如果在以存在真實關聯的本體作為賓語的語義關系組中謂語相同的組的數量與以該存在真實關聯的本體作為賓語的語義關系組的總數量的比值大于或等于第二閾值,則將圖像關聯到該本體。
具體地,本公開在已有的語義關系三元組中對以存在真實關聯的本體作為賓語的情況進行統計,如果謂語相同的組的數量與以該存在真實關聯的本體作為賓語的語義關系組的總數量的比值大于或等于第二閾值,則將圖像關聯到該本體,否則不予建立關聯。
優選地,第二閾值可以由本領域技術人員根據經驗或實驗確定。例示而非限制,第二閾值可以為0.9到1之間的實數。第二閾值選取得越大,則越能保證圖像與本體之間所建立的鏈接的準確性。
優選地,對于該圖像,可以基于所述謂語形成以存在真實關聯的本體作為賓語的語義關系組。
下面以第二閾值為1、即以該存在真實關聯的本體作為賓語的語義關系組中的謂語均相同的情況為例,描述建立圖像與該本體之間的關聯。
例如,假設在判定步驟s108中判定<http://dbpedia.org/ontology/casino>為與圖像存在真實關聯的本體,如果在語義知識庫中已有的所有以本體<http://dbpedia.org/ontology/casino>為賓語的三元組中,謂語均相同(假設謂語均為<http://schema.org/location>),則對于該圖像,以謂語<http://schema.org/location>形成以本體<http://dbpedia.org/ontology/casino>作為賓語的語義三元組,即將該圖像與本體<http://dbpedia.org/ontology/casino>間的關系標為<http://schema.org/location>。該過程能夠保證建立鏈接的準確性,從而將圖像有效地鏈接到語義知識庫中。
在以上描述中,介紹了將圖像與一個本體進行關聯的操作,可以按上述步驟,類似地將圖像與其他本體進行關聯。
根據以上描述可知,根據本公開的實施例的圖像鏈接方法利用圖像的標簽信息自動地將圖像鏈接到語義知識庫,從而更有效地實現基于語義的圖像檢索以及圖像與其他實體之間的關聯關系檢測。
與上述方法實施例相對應地,本公開還提供了以下設備實施例。
圖4是示出根據本公開的實施例的圖像鏈接設備400的功能配置示例的框圖。
如圖4所示,根據本公開的實施例的圖像鏈接設備400可以包括查找無歧義標簽單元402、查找近似標簽單元404、計算關聯值單元406、判定單元408以及關聯單元410。接下來將描述各個單元的功能配置示例。
在查找無歧義標簽單元402中,可以在圖像的標簽中,查找與語義知識庫中的本體存在無歧義關聯的一個或多個無歧義標簽。查找無歧義標簽相當于把無歧義標簽鏈接到語義知識庫,即將無歧義標簽與語義知識庫中的本體或資源進行鏈接。
查找無歧義標簽的具體方法可參見以上方法實施例中相應位置的描述,在此不再重復。
在查找近似標簽步單元404中,可以針對一個或多個無歧義標簽中的每個無歧義標簽,在圖像的標簽中,查找與該無歧義標簽相似性高的一個或多個近似標簽,并且計算該無歧義標簽與一個或多個近似標簽中的每個近似標簽之間的語義相似度。
優選地,在查找近似標簽單元404中,可以利用主題模型來發現圖像的標簽的主題信息并且形成圖像的標簽與主題之間的轉換關系,從而將圖像的標簽表示成主題向量。
得到主題向量的具體方法可參見以上方法實施例中相應位置的描述,在此不再重復。
優選地,在查找近似標簽單元404中,可以基于主題向量和圖像的標簽之間的包含關系和/或編輯距離,查找一個或多個近似標簽。
本公開利用兩個標簽的主題向量另外輔以兩個標簽的包含關系和/或編輯距離來查找近似標簽。
優選地,對于一個或多個無歧義標簽中的一個無歧義標簽,判定如下標簽為所述一個無歧義標簽的近似標簽:該標簽與所述一個無歧義標簽存在包含關系,并且該標簽的主題向量與所述一個無歧義標簽的主題向量之 間的余弦相似度大于或等于第三閾值。
優選地,對于一個或多個無歧義標簽中的一個無歧義標簽,判定如下標簽為所述一個無歧義標簽的近似標簽:該標簽與所述一個無歧義標簽之間的編輯距離小于或等于第四閾值,并且該標簽的主題向量與所述一個無歧義標簽的主題向量之間的余弦相似度大于或等于第五閾值。
判定近似標簽的具體方法可參見以上方法實施例中相應位置的描述,在此不再重復。
優選地,還可以基于近義詞典來判定兩個標簽之間是否為近似標簽的關系。
如果一個標簽為一個無歧義標簽的近似標簽,并且其中所述一個無歧義標簽已經存在與語義知識庫中本體的無歧義關聯,則可以認為所述一個個標簽存在到語義知識庫中同一本體的間接關聯。
優選地,基于主題向量而計算一個或多個無歧義標簽中的每個無歧義標簽與一個或多個近似標簽中的每個近似標簽之間的語義相似度。
具體地,本公開利用兩個標簽的主題向量之間的余弦相似度來衡量這兩個標簽的語義相似度。
在查找近似標簽單元404中,利用“圖像-標簽”關系矩陣訓練主題模型,并且基于標簽之間的語義相似度進一步增加鏈接到語義知識庫的標簽范圍。即,通過計算那些尚未關聯到語義知識庫的標簽與那些已經關聯到語義知識庫的標簽之間的語義相似度,進而將標簽更大范圍地關聯到語義知識庫。
在計算關聯值單元406中,可以基于一個或多個無歧義標簽與本體的無歧義關聯關系和語義相似度,計算圖像與本體的關聯值。
優選地,在計算關聯值單元406中,針對一個或多個無歧義標簽中的每個無歧義標簽進行如下增加關聯值的處理:基于該無歧義標簽與本體的無歧義關聯關系而將關聯值增加一,以及對于該無歧義標簽的一個或多個近似標簽中的每個近似標簽,將關聯值增加該無歧義標簽與該近似標簽之間的語義相似度。
具體地,將圖像的所有標簽出現的與語義知識庫的直接或者間接關聯,均作為對圖像與本體關聯的依據。對于能夠直接關聯到本體的無歧義標簽的情況,將圖像與該本體之間的關聯值增加1;對于能夠間接關聯到 該本體的近似標簽的情況,將圖像與該本體之間的關聯值增加“該近似標簽與其對應的無歧義標簽之間的語義相似度”。
在判定單元408中,如果圖像與本體的關聯值大于或等于第一閾值,則將該本體判定為存在真實關聯的本體。
具體地,如果圖像與本體之間的關聯值大于或等于閾值γ(γ為大于或等于1的實數),則將其判定為與圖像存在真實關聯的本體。
在關聯單元410中,基于語義知識庫中已有的包含存在真實關聯的本體的語義關系組,判斷是否將圖像關聯到存在真實關聯的本體,并且根據判斷結果來執行關聯操作。
由于在將圖像鏈接到語義知識庫中本體的過程中,需要定義圖像與本體之間的關聯類型,因此,并不是每個判定與圖像存在真實關聯的本體最后都能直接建立它們之間的關聯。對于這些本體,本公開基于語義知識庫中已有的語義關系三元組來判斷是否將圖像關聯到存在真實關聯的本體。若判斷將圖像關聯到存在真實關聯的本體,則執行圖像和存在真實關聯的本體之間的關聯操作。
優選地,在關聯單元410中,如果在以存在真實關聯的本體作為賓語的語義關系組中謂語相同的組的數量與以該存在真實關聯的本體作為賓語的語義關系組的總數量的比值大于或等于第二閾值,則將圖像關聯到該本體。
具體地,本公開在已有的語義關系三元組中對以存在真實關聯的本體作為賓語的情況進行統計,如果謂語相同的組的數量與以該存在真實關聯的本體作為賓語的語義關系組的總數量的比值大于或等于第二閾值,則將圖像關聯到該本體,否則不予建立關聯。
優選地,第二閾值可以由本領域技術人員根據經驗或實驗確定。例示而非限制,第二閾值可以為0.9到1之間的實數。第二閾值選取得越大,則越能保證圖像與本體之間所建立的鏈接的準確性。
優選地,對于該圖像,可以基于所述謂語形成以存在真實關聯的本體作為賓語的語義關系組。
建立圖像與本體的關聯的具體示例可參見以上方法實施例中相應位置的描述,在此不再重復。
根據以上描述可知,根據本公開的實施例的圖像鏈接設備利用圖像的 標簽信息自動地將圖像鏈接到語義知識庫,從而更有效地實現基于語義的圖像檢索以及圖像與其他實體之間的關聯關系檢測。
應指出,盡管以上描述了根據本公開的實施例的圖像鏈接設備的功能配置,但是這僅是示例而非限制,并且本領域技術人員可根據本公開的原理對以上實施例進行修改,例如可對各個實施例中的功能模塊進行添加、刪除或者組合等,并且這樣的修改均落入本公開的范圍內。
此外,還應指出,這里的裝置實施例是與上述方法實施例相對應的,因此在裝置實施例中未詳細描述的內容可參見方法實施例中相應位置的描述,在此不再重復描述。
應理解,根據本公開的實施例的存儲介質和程序產品中的機器可執行的指令還可以被配置成執行上述圖像鏈接方法,因此在此未詳細描述的內容可參考先前相應位置的描述,在此不再重復進行描述。
相應地,用于承載上述包括機器可執行的指令的程序產品的存儲介質也包括在本發明的公開中。該存儲介質包括但不限于軟盤、光盤、磁光盤、存儲卡、存儲棒等等。
另外,還應該指出的是,上述系列處理和裝置也可以通過軟件和/或固件實現。在通過軟件和/或固件實現的情況下,從存儲介質或網絡向具有專用硬件結構的計算機,例如圖5所示的通用個人計算機500安裝構成該軟件的程序,該計算機在安裝有各種程序時,能夠執行各種功能等等。
在圖5中,中央處理單元(cpu)501根據只讀存儲器(rom)502中存儲的程序或從存儲部分508加載到隨機存取存儲器(ram)503的程序執行各種處理。在ram503中,也根據需要存儲當cpu501執行各種處理等時所需的數據。
cpu501、rom502和ram503經由總線504彼此連接。輸入/輸出接口505也連接到總線504。
下述部件連接到輸入/輸出接口505:輸入部分506,包括鍵盤、鼠標等;輸出部分507,包括顯示器,比如陰極射線管(crt)、液晶顯示器(lcd)等,和揚聲器等;存儲部分508,包括硬盤等;和通信部分509,包括網絡接口卡比如lan卡、調制解調器等。通信部分509經由網絡比如因特網執行通信處理。
根據需要,驅動器510也連接到輸入/輸出接口505。可拆卸介質511比如磁盤、光盤、磁光盤、半導體存儲器等等根據需要被安裝在驅動器 510上,使得從中讀出的計算機程序根據需要被安裝到存儲部分508中。
在通過軟件實現上述系列處理的情況下,從網絡比如因特網或存儲介質比如可拆卸介質511安裝構成軟件的程序。
本領域的技術人員應當理解,這種存儲介質不局限于圖5所示的其中存儲有程序、與設備相分離地分發以向用戶提供程序的可拆卸介質511。可拆卸介質511的例子包含磁盤(包含軟盤(注冊商標))、光盤(包含光盤只讀存儲器(cd-rom)和數字通用盤(dvd))、磁光盤(包含迷你盤(md)(注冊商標))和半導體存儲器。或者,存儲介質可以是rom502、存儲部分508中包含的硬盤等等,其中存有程序,并且與包含它們的設備一起被分發給用戶。
以上參照附圖描述了本公開的優選實施例,但是本公開當然不限于以上示例。本領域技術人員可在所附權利要求的范圍內得到各種變更和修改,并且應理解這些變更和修改自然將落入本公開的技術范圍內。
例如,在以上實施例中包括在一個單元中的多個功能可以由分開的裝置來實現。替選地,在以上實施例中由多個單元實現的多個功能可分別由分開的裝置來實現。另外,以上功能之一可由多個單元來實現。無需說,這樣的配置包括在本公開的技術范圍內。
在該說明書中,流程圖中所描述的步驟不僅包括以所述順序按時間序列執行的處理,而且包括并行地或單獨地而不是必須按時間序列執行的處理。此外,甚至在按時間序列處理的步驟中,無需說,也可以適當地改變該順序。
另外,根據本公開的技術還可以如下進行配置。
附記1.一種用于將圖像鏈接到語義知識庫的圖像鏈接方法,包括:
查找無歧義標簽步驟,用于在所述圖像的標簽中,查找與所述語義知識庫中的本體存在無歧義關聯的一個或多個無歧義標簽;
查找近似標簽步驟,用于針對所述一個或多個無歧義標簽中的每個無歧義標簽,在所述圖像的標簽中,查找與該無歧義標簽相似性高的一個或多個近似標簽,并且計算該無歧義標簽與所述一個或多個近似標簽中的每個近似標簽之間的語義相似度;
計算關聯值步驟,用于基于所述一個或多個無歧義標簽與所述本體的無歧義關聯關系和所述語義相似度,計算所述圖像與所述本體的關聯值;
判定步驟,如果所述圖像與所述本體的關聯值大于或等于第一閾值,則將所述本體判定為存在真實關聯的本體;以及
關聯步驟,基于所述語義知識庫中已有的包含所述存在真實關聯的本體的語義關系組,判斷是否將所述圖像關聯到所述存在真實關聯的本體,并且根據判斷結果來執行關聯操作。
附記2.根據附記1所述的圖像鏈接方法,其中,在所述關聯步驟中,如果在以所述存在真實關聯的本體作為賓語的語義關系組中謂語相同的組的數量與以所述存在真實關聯的本體作為賓語的語義關系組的總數量的比值大于或等于第二閾值,則將所述圖像關聯到該本體。
附記3.根據附記2所述的圖像鏈接方法,其中,對于所述圖像,基于所述謂語形成以所述存在真實關聯的本體作為賓語的語義關系組。
附記4.根據附記1所述的圖像鏈接方法,其中,在所述查找近似標簽步驟中,利用主題模型來發現所述圖像的標簽的主題信息并且形成所述圖像的標簽與主題之間的轉換關系,從而將所述圖像的標簽表示成主題向量。
附記5.根據附記4所述的圖像鏈接方法,其中,基于所述主題向量和所述圖像的標簽之間的包含關系和/或編輯距離,查找所述一個或多個近似標簽。
附記6.根據附記5所述的圖像鏈接方法,其中,對于所述一個或多個無歧義標簽中的一個無歧義標簽,判定如下標簽為所述一個無歧義標簽的近似標簽:該標簽與所述一個無歧義標簽存在包含關系,并且該標簽的主題向量與所述一個無歧義標簽的主題向量之間的余弦相似度大于或等于第三閾值。
附記7.根據附記5所述的圖像鏈接方法,其中,對于所述一個或多個無歧義標簽中的一個無歧義標簽,判定如下標簽為所述一個無歧義標簽的近似標簽:該標簽與所述一個無歧義標簽之間的編輯距離小于或等于第四閾值,并且該標簽的主題向量與所述一個無歧義標簽的主題向量之間的余弦相似度大于或等于第五閾值。
附記8.根據附記4所述的圖像鏈接方法,其中,基于所述主題向量而計算所述一個或多個無歧義標簽中的每個無歧義標簽與所述一個或多個近似標簽中的每個近似標簽之間的語義相似度。
附記9.根據附記1所述的圖像鏈接方法,其中,在所述計算關聯值 步驟中,針對所述一個或多個無歧義標簽中的每個無歧義標簽進行如下增加所述關聯值的處理:基于該無歧義標簽與所述本體的無歧義關聯關系而將所述關聯值增加一,以及對于該無歧義標簽的所述一個或多個近似標簽中的每個近似標簽,將所述關聯值增加該無歧義標簽與該近似標簽之間的語義相似度。
附記10.一種用于將圖像鏈接到語義知識庫的圖像鏈接設備,包括:
查找無歧義標簽單元,被配置成在所述圖像的標簽中,查找與所述語義知識庫中的本體存在無歧義關聯的一個或多個無歧義標簽;
查找近似標簽單元,被配置成針對所述一個或多個無歧義標簽中的每個無歧義標簽,在所述圖像的標簽中,查找與該無歧義標簽相似性高的一個或多個近似標簽,并且計算該無歧義標簽與所述一個或多個近似標簽中的每個近似標簽之間的語義相似度;
計算關聯值單元,被配置成基于所述一個或多個無歧義標簽與所述本體的無歧義關聯關系和所述語義相似度,計算所述圖像與所述本體的關聯值;
判定單元,被配置成如果所述圖像與所述本體的關聯值大于或等于第一閾值,則將所述本體判定為存在真實關聯的本體;以及
關聯單元,被配置成基于所述語義知識庫中已有的包含所述存在真實關聯的本體的語義關系組,判斷是否將所述圖像關聯到所述存在真實關聯的本體,并且根據判斷結果來執行關聯操作。
附記11.根據附記10所述的圖像鏈接設備,其中,在所述關聯步驟中,如果在以所述存在真實關聯的本體作為賓語的語義關系組中謂語相同的組的數量與以所述存在真實關聯的本體作為賓語的語義關系組的總數量的比值大于或等于第二閾值,則將所述圖像關聯到該本體。
附記12.根據附記11所述的圖像鏈接設備,其中,對于所述圖像,基于所述謂語形成以所述存在真實關聯的本體作為賓語的語義關系組。
附記13.根據附記10所述的圖像鏈接設備,其中,在所述查找近似標簽步驟中,利用主題模型來發現所述圖像的標簽的主題信息并且形成所述圖像的標簽與主題之間的轉換關系,從而將所述圖像的標簽表示成主題向量。
附記14.根據附記13所述的圖像鏈接設備,其中,基于所述主題向 量和所述圖像的標簽之間的包含關系和/或編輯距離,查找所述一個或多個近似標簽。
附記15.根據附記14所述的圖像鏈接設備,其中,對于所述一個或多個無歧義標簽中的一個無歧義標簽,判定如下標簽為所述一個無歧義標簽的近似標簽:該標簽與所述一個無歧義標簽存在包含關系,并且該標簽的主題向量與所述一個無歧義標簽的主題向量之間的余弦相似度大于或等于第三閾值。
附記16.根據附記14所述的圖像鏈接設備,其中,對于所述一個或多個無歧義標簽中的一個無歧義標簽,判定如下標簽為所述一個無歧義標簽的近似標簽:該標簽與所述一個無歧義標簽之間的編輯距離小于或等于第四閾值,并且該標簽的主題向量與所述一個無歧義標簽的主題向量之間的余弦相似度大于或等于第五閾值。
附記17.根據附記13所述的圖像鏈接設備,其中,基于所述主題向量而計算所述一個或多個無歧義標簽中的每個無歧義標簽與所述一個或多個近似標簽中的每個近似標簽之間的語義相似度。
附記18.根據附記10所述的圖像鏈接設備,其中,在所述計算關聯值步驟中,針對所述一個或多個無歧義標簽中的每個無歧義標簽進行如下增加所述關聯值的處理:基于該無歧義標簽與所述本體的無歧義關聯關系而將所述關聯值增加一,以及對于該無歧義標簽的所述一個或多個近似標簽中的每個近似標簽,將所述關聯值增加該無歧義標簽與該近似標簽之間的語義相似度。