專利名稱:基于有向圖非等概率隨機搜索的圖像自動標注方法及裝置的制作方法
技術領域:
本發明涉及計算機多媒體技術領域,特別涉及一種基于有向圖非等概率隨機搜索的圖像自動標注方法及裝置。
背景技術:
隨著社區網絡和數碼攝像技術的迅猛發展帶來網絡圖像數據的爆炸式增長,如何對如此海量的圖像數據進行有效的存儲、管理和檢索成為一個嚴峻的挑戰和急迫的需求。 傳統的基于圖像周邊文本的檢索(如Google圖像搜索)由于周邊文本噪聲太大而無法達到較好的檢索精度,而基于圖像內容的檢索(CBIR)技術則由于無法跨越圖像底層特征與高層語義之間的“語義鴻溝”(Semantic Gap)而得不到廣泛的認可和應用。近年來的研究表明,基于圖像語義內容的自動標注技術將很可能成為以上問題的有效解決途徑。圖像自動標注是指對于一張沒有或只有極少文本描述的圖像,根據其底層特征, 由計算機自動尋找出能夠有效描述其語義內容的文本標簽。圖像標注的目標是將圖像數據轉化為文本數據,并且保證轉化的過程中能最大程度上保留圖像的語義。通過語義近似等價的轉換,添加的文本標簽可被用于圖像的索引和檢索等等,從而方便了后續的管理和應用。圖像標注最根本的問題是如何從圖像的底層特征映射到高層語義。在計算機領域中,圖像的表示是二進制流,而對于生物認知而言,圖像本身包含著大量的概念等高層語義信息, 如何跨越二進制流和高層語義之間的鴻溝便是圖像標注需要集中解決的問題。現有圖像自動標注方法總體上可以劃分為兩大類基于模型的標注方法和數據驅動的標注方法。基于模型的圖像自動標注方法主要采用的是分類器方法和統計模型方法。分類器方法將標注問題轉化為分類問題,通常是將每一個候選標簽視為一個類別,并通過訓練數據為每一個候選標簽訓練相應的分類器,再由分類器判斷待標注圖像所屬的類別,則這些類別所對應的標簽將作為標注的結果。統計模型的基本思想是通過應用概率模型等統計學方法在訓練數據集上建立起圖像或圖像區域與文本標簽之間的關系模型,然后根據待標注圖像的底層特征,通過應用該關系模型直接評估各個標簽的權重,最終選擇權重最大的若干個標簽作為標注的結果。統計模型在圖像自動標注方面的應用包括以下幾種將機器翻譯的思想應用到圖像標注中,首先將訓練數據集中的圖像進行區域分割和聚類作為“詞袋”,然后應用期望最大化(Expectation Maximization)算法,為每一個 “詞袋”分配相應的文本標簽,從而建立起“詞袋”與標簽之間的關系模型。而對于待標注圖像,也可通過區域分割,并根據各個區域所對應的“詞袋”獲取相應的文本標簽作為標注結^ ο在“詞袋”量化的基礎上,根據條件概率思想建立起了另一個標注模型一給定待標注圖像的“詞袋”表示(假設為Ib1, b2,... bm}),利用訓練集上的統計數據評估出為其標注上某一個標簽W的概率P (W Ib1, b2,...bm),最終取條件概率最大的若干個候選標簽作為標注結果。利用貝葉斯法則和獨立假設將上述概率公式P(w|b1; b2,...bm)進一步改寫為
權利要求
1.一種基于有向圖非等概率隨機搜索的圖像自動標注方法,其特征在于,包括如下步驟輸入待標注圖像和已標注圖像集,提取所述待標注圖像的多個特征向量,根據所述多個特征向量計算所述待標注圖像與所述已標注圖像集中的每一個已標注圖像的融合距離, 并選取所述融合距離小的前k個已標注圖像形成近鄰圖像集,所述近鄰圖像集中所有圖像的標簽作為候選標簽集;計算所述近鄰圖像集中的每一個圖像在所述待標注圖像重構過程中的權重值以及所述近鄰圖像集中的每一個已標注圖像在所述近鄰圖像集中的其他已標注圖像重構過程中的權重值,根據所述權重值構建視覺依賴矩陣F,計算所述近鄰圖像集中的任意兩個圖像的共有標簽數量,根據所述共有標簽數量和所述近鄰圖像集中的每一個圖像的標簽數量構建標簽依賴矩陣C,將所述視覺依賴矩陣F和所述標簽依賴矩陣C進行融合和隨機游走得到穩定依賴關系矩陣A,以所述待標注圖像和近鄰圖像集中的每一個圖像作為節點,以所述穩定依賴關系矩陣A的元素作為與所述節點相關聯的有向邊的權重,構建針對所述待標注圖像的有向圖模型;計算所述候選標簽集中的任意兩個標簽的詞義相似度,根據所述標簽詞義相似度構建標簽間的詞義相似度矩陣Se,計算所述候選標簽集中任意兩個標簽間的共生關系矩陣Co, 將所述詞義相似度矩陣Se和標簽間的共生關系矩陣Co進行融合得到標簽相似矩陣TT ;和對所述候選標簽集中的每一個候選標簽在所述有向圖模型進行非等概率隨機搜索以獲得所述每一個候選標簽的得分,按照所述得分對所有候選標簽進行排序,將得分高的前u 個候選標簽作為標注結果。
2.如權利要求1所述的圖像自動標注方法,其特征在于,所述計算待標注圖像與已標注圖像集中的每一個已標注圖像的融合距離,包括如下步驟基于所述待標注圖像的多個特征向量的每一個,計算所述待標注圖像與所述每一個已標注圖像的對應特征向量的距離,對與待標注圖像的每種特征向量相對應的距離進行歸一化處理,以得到歸一化距離dx ;根據所述待標注圖像的每種特征向量在計算所述融合距離中所占的比重,將所述多種特征向量對應的歸一化距離dx進行融合,得到融合距離d, d =∑w(x).d(x)(1≤x≤n) 其中,d為融合距離,Wx表示所述待標注圖像的第X種特征向量在計算所述融合距離中所占的比重,dx表示第X種特征對應的歸一化距離,η表示所述待標注圖像的特征的種類個數,其中 Χ e [1,2,··η]。
3.如權利要求1所述的圖像自動標注方法,其特征在于,所述計算所述近鄰圖像集中的每一個圖像在所述待標注圖像重構過程中的權重值,包括如下步驟通過將所述待標注圖像的特征向量&與重構向量Σ 之間的二次范式值最小,計IjeK算所述近鄰圖像集中的每一個圖像在所述待標注圖像重構過程中的權重值,其中,&為待標注圖像I的特征向量,fO為近鄰圖像集中的圖像Ij的特征向量,j e [1, 2,... k],所述近鄰圖像集包括圖像U1, I2,..., IJ,ω」為所述近鄰圖像集中的圖像Ij在所述待標注圖像重構過程中的權重值,所述計算所述近鄰圖像集中的每一個已標注圖像在所述近鄰圖像集中的其他已標注圖像重構過程中的權重值,包括如下步驟通過將所述近鄰圖像集中的圖像Ij的特征向量f;與重構向量“ Σ之間的二次范式值最小,計算所述近鄰圖像集中的每一個已標注圖像在所述其他已標注圖像重構過程中的權重值,
4.如權利要求3所述的圖像自動標注方法,其特征在于,根據所述待標注圖像及所述近鄰圖像集中的每一個圖像在重構過程中的權重值構建視覺依賴矩陣F,
5.如權利要求4所述的圖像自動標注方法,其特征在于,所述構建標簽依賴矩陣C,包括如下步驟計算所述標簽依賴矩陣C的第i行第j列元素Cy,Ci, J為圖像Ii對圖像Ij的標簽依賴量,
6.如權利要求5所述的圖像自動標注方法,其特征在于,所述將視覺依賴矩陣F和所述標簽依賴矩陣進行融合并通過隨機游走得到穩定依賴關系矩陣A,包括如下步驟將所述視覺依賴矩陣F和所述標簽依賴矩陣C進行融合得到依賴關系矩陣G,G= α F+(l-a )C其中,α為視覺依賴關系矩陣F在計算依賴關系矩陣G中的權重值;對所述依賴關系矩陣G進行隨機游走,得到穩定依賴關系矩陣A,A = (1-β)6(Ε-β6) “1,其中,G為依賴關系矩陣,E為單位矩陣,β為所述依賴關系矩陣G中的每個權重值向后繼節點傳播的概率。
7.如權利要求6所述的圖像自動標注方法,其特征在于,所述構建針對所述待標注圖像的有向圖模型,包括如下步驟以所述待標注圖像和所述近鄰圖像集中的每一個圖像作為節點,所述穩定依賴關系矩陣A的元素作為與所述節點相關聯的有向邊上的權重,構建針對所述待標注圖像的有向圖模型。
8.如權利要求1所述的圖像自動標注方法,其特征在于,所述構建標簽間的詞義相似度矩陣Se,包括如下步驟計算所述標簽間的詞義相似度矩陣Se的第i行第j列元素Sey,Seiij為標簽、和標簽、的詞義相似度,其中,、為第i個候選標簽,tj為第j個候選標簽;以及根據所述詞義相似度Sey構建所述標簽間的詞義相似度矩陣Se。
9.如權利要求8所述的圖像自動標注方法,其特征在于,所述計算所述候選標簽集中標簽間的共生關系矩陣Co,包括如下步驟計算所述標簽間的共生關系矩陣Co的第i行第j列元素Coy,Coi, j為標簽、和標簽 、之間的共生關系,
10.如權利要求9所述的圖像自動標注方法,其特征在于,所述將所述詞義相似度矩陣 Se和標簽間的共生關系矩陣Co進行融合得到標簽相似矩陣TT,TT = γ Se+(Ii) Co,其中,Y為所述詞義相似度矩陣Se在計算所述標簽相似矩陣TT中的權重值。
11.如權利要求10所述的圖像自動標注方法,其特征在于,所述對每一個候選標簽在所述有向圖模型進行非等概率隨機搜索預測所述每一個候選標簽的得分,包括如下步驟計算所述每一個候選標簽的得分期望r (ti),
12.一種基于有向圖非等概率隨機搜索的圖像自動標注裝置,其特征在于,包括 近鄰圖像集獲取模塊,所述近鄰圖像集獲取模塊用于接收待標注圖像和已標注圖像集,提取所述待標注圖像的多個特征向量,根據所述多個特征向量計算所述待標注圖像與所述已標注圖像集中的每一個已標注圖像的融合距離,并選取所述融合距離小的前k個已標注圖像形成近鄰圖像集,所述近鄰圖像集中所有圖像的標簽作為候選標簽集;計算模塊,所述計算模塊用于計算所述近鄰圖像集中的每一個圖像在所述待標注圖像重構過程中的權重值以及所述近鄰圖像集中的每一個圖像在所述近鄰圖像集中的其他已標注圖像重構過程中的權重值,根據所述權重值構建視覺依賴矩陣F,計算所述近鄰圖像集中的任意兩個圖像的共有標簽數量,根據所述共有標簽數量和所述近鄰圖像集中的每一個圖像的標簽數量構建標簽依賴矩陣C,并且計算所述候選標簽集中的任意兩個標簽的詞義相似度,根據所述標簽詞義相似度構建標簽間的詞義相似度矩陣Se,計算所述候選標簽集中的任意兩個標簽間的共生關系矩陣Co ;融合模塊,所述融合模塊用于將所述視覺依賴矩陣F和所述標簽依賴矩陣C進行融合并通過隨機游走得到穩定依賴關系矩陣A,以及將所述詞義相似度矩陣Se和標簽間的共生關系矩陣Co進行融合得到標簽相似矩陣TT ;有向圖模型建立模塊,所述有向圖模型建立模塊用于以所述待標注圖像和近鄰圖像集中的每一個圖像作為節點,以所述穩定依賴關系矩陣A的元素作為與所述節點相關聯的有向邊的權重,構建針對所述待標注圖像的有向圖模型;和隨機搜索模塊,所述隨機搜索模塊用于對所述候選標簽集中的每一個候選標簽在所述有向圖模型進行非等概率隨機搜索以獲得所述每一個候選標簽的得分,按照所述得分對所有候選標簽進行排序,將得分高的前u個候選標簽作為標注結果。
13.如權利要求12所述的圖像自動標注裝置,其特征在于,所述近鄰圖像集獲取模塊基于所述待標注圖像的多個特征向量的每一個,計算所述待標注圖像與所述每一個已標注圖像的對應特征向量的距離,對與待標注圖像的每種特征向量相對應的距離進行歸一化處理,以得到歸一化距離dx ;根據所述待標注圖像的每種特征向量在計算所述融合距離中所占的比重,將所述多種特征向量對應的歸一化距離dx進行融合,得到融合距離d,
14.如權利要求12所述的圖像自動標注裝置,其特征在于,所述計算模塊通過將所述待標注圖像的特征向量A與重構向量
15.如權利要求14所述的圖像自動標注裝置,其特征在于,根據所述待標注圖像及所述近鄰圖像集中的每一個圖像在重構過程中的權重值構建視覺依賴矩陣F,
16.如權利要求15所述的圖像自動標注裝置,其特征在于,所述計算模塊計算所述標簽依賴矩陣C的第i行第j列元素Cu,Ci, J為圖像Ii對圖像Ij的標簽依賴量,
17.如權利要求16所述的圖像自動標注裝置,其特征在于,所述融合模塊將所述視覺依賴矩陣F和所述標簽依賴矩陣C進行融合得到依賴關系矩陣G,G= α F+(l-a )C其中,α為視覺依賴關系矩陣F在計算依賴關系矩陣G中的權重值;所述融合模塊對所述依賴關系矩陣G進行隨機游走,得到穩定依賴關系矩陣A,A =其中,G為依賴關系矩陣,E為單位矩陣,β為所述依賴關系矩陣G中的每個權重值向后繼節點傳播的概率。
18.如權利要求17所述的圖像自動標注裝置,其特征在于,所述有向圖模型建立模塊以所述待標注圖像和所述近鄰圖像集中的每一個圖像作為節點,所述穩定依賴關系矩陣A 的元素作為與所述節點相關聯的有向邊上的權重,構建針對所述待標注圖像的有向圖模型。
19.如權利要求12所述的圖像自動標注裝置,其特征在于,所述計算模塊計算所述標簽間的詞義相似度矩陣Se的第i行第j列元素Sei, j, Sei, j為標簽、和標簽、的詞義相似度,其中^為第i個候選標簽,、為第j個候選標簽;所述計算模塊根據所述詞義相似度 Seiij構建所述標簽間的詞義相似度矩陣Se。
20.如權利要求19所述的圖像自動標注裝置,其特征在于,所述計算模塊計算所述標簽間的共生關系矩陣Co的第i行第j列元素Com,COm為標簽、和標簽、之間的共生關系,
21.如權利要求20所述的圖像自動標注裝置,其特征在于,所述融合模塊將所述詞義相似度矩陣Se和標簽間的共生關系矩陣Co進行融合得到標簽相似矩陣TT,TT = γ Se+(Ii) Co,其中,Y為所述詞義相似度矩陣Se在計算所述標簽相似矩陣TT中的權重值。
22.如權利要求21所述的圖像自動標注裝置,其特征在于,所述隨機搜索模塊對每一個候選標簽在所述有向圖模型進行非等概率隨機搜索預測所述每一個候選標簽的得分,包括計算所述每一個候選標簽的得分期望Hti),
全文摘要
本發明公開了一種基于有向圖非等概率隨機搜索的圖像自動標注方法,包括輸入待標注圖像和已標注圖像集,提取待標注圖像的多個特征向量,選取近鄰圖像集;構建針對待標注圖像的有向圖模型;計算標簽間的詞義相似度矩陣Se和標簽間的共生關系矩陣Co,將詞義相似度矩陣Se和標簽間的共生關系矩陣Co進行融合得到標簽相似矩陣TT;對候選標簽集中的每一個候選標簽在有向圖模型中進行非等概率隨機搜索以計算得分,取得分高的多個候選標簽作為標注結果。本發明還公開了一種基于有向圖非等概率隨機搜索的圖像自動標注方法裝置。本發明充分合理地利用圖像間的依賴關系和標簽之間的相似關系,可以有效地進行圖像的自動標注,具有較好的標注效果。
文檔編號G06F17/30GK102298605SQ20111014703
公開日2011年12月28日 申請日期2011年6月1日 優先權日2011年6月1日
發明者丁貴廣, 林梓佳 申請人:清華大學