專利名稱:基于視覺和標注字相關信息的標注圖像場景聚類方法
技術領域:
本發明涉及的是一種圖像處理方法。具體地說是一種對待分析圖像進行自動場景分類的方法。
背景技術:
在圖像的自動語義標注等圖像理解領域,要依靠視覺特征對非標注圖像進行分類,就要保證所提的語義場景類別在視覺分布上呈現出一致性。一方面,圖像所能表達的語義內容十分豐富,一幅圖像放在不同的環境下,可能呈現出不同層面的信息。另一方面,由于描述能力的不足,圖像的視覺特征則存在更加明顯的語義歧義性,視覺相似的圖像無法保證語義內容的一致性。圖像的標注字作為一種簡潔高效的圖像高級語義內容描述方式,為探求圖像標注字與視覺內容之間的關聯性提供了大量可靠的學習樣本。但是標注字固有的歧義性(如一詞多義、多詞同義)也限制了僅依賴圖像標注字信息的圖像聚類效果。
發明內容
本發明的目的在于提供一種能提高圖像的視覺特征與標注字之間的聯接精度,可以直接用于圖像的自動語義標注的基于視覺和標注字相關信息的標注圖像場景聚類方法。本發明的目的是這樣實現的步驟1,采用NCut (Normalized Cut)圖像分割算法分別對訓練圖像和測試圖像進行分割,獲得圖像區域的視覺描述;步驟2,構造用于學習的所有圖像IJ1, ·,J1IPCtrain的視覺最近鄰圖G (§, 頂點集V對應各個圖像,每一個頂點對應一幅圖像,邊集E代表圖像間的視覺距離;對圖像間的視覺距離采用多區域集成匹配的相似性測度-推土機距離(Earth Mover's Distance, EMD),連接兩個頂點的邊上的權值對應圖像間的EMD視覺距離;步驟3,在訓練圖像集中,每幅圖像有一組初始的歸一化標注字權值向量;步驟4,令每幅訓練圖像的標注字在視覺最近鄰間傳播,接受的圖像按照它們之間歸一化的EMD距離的程度來接收,EMD距離的歸一化方法見公式為
權利要求
1.一種基于視覺和標注字相關信息的標注圖像場景聚類方法,其特征是步驟1,采用NCut圖像分割算法分別對訓練圖像和測試圖像進行分割,獲得圖像區域的視覺描述;步驟2,構造用于學習的所有圖像IJ1, · , J1I e Ctrain的視覺最近鄰圖G= (V, E),頂點集V對應各個圖像,每一個頂點對應一幅圖像,邊集E代表圖像間的視覺距離;對圖像間的視覺距離采用多區域集成匹配的相似性測度即EMD,連接兩個頂點的邊上的權值對應圖像間的EMD視覺距離;步驟3,在訓練圖像集中,每幅圖像有一組初始的歸一化標注字權值向量,初始標注字權值向量的歸一化方法是統計全部標注字在該圖像中出現的頻度;步驟4,令每幅訓練圖像的標注字在視覺最近鄰間傳播,接受的圖像按照它們之間歸一化的EMD距離的程度來接收,EMD距離的歸一化方法見公式為EmdEmdnor = e s其中,Emd代表圖像間的EMD距離,Emdn 表示歸一化EMD距離,δ是經驗參數,取訓練圖像集的EMD方差;步驟5,對每幅訓練圖像,將累積完畢的標注字權值再進行歸一化;步驟6,在圖像的視覺特征被轉換為一組帶有權值的標注字后,采用PLSA模型進行場景語義聚類;步驟7,利用高斯混合模型對各個場景語義視覺空間的進行學習;步驟8,對測試圖像,利用視覺特征進行場景歸類,并直接利用該場景語義獲得相應的標注字。
2.根據權利要求1所述的基于視覺和標注字相關信息的標注圖像場景聚類方法,其特征是所述將累積完畢的標注字權值再進行歸一化,是除以與各個圖像間、包括該圖像本身的歸一化EMD距離之和,規定圖像與自身的歸一化EMD距離為1。
3.根據權利要求1或2所述的基于視覺和標注字相關信息的標注圖像場景聚類方法, 其特征是所述采用PLSA模型進行場景語義聚類,首先選取較大的聚類數目,然后按照聚類結果中的標注字信息判斷語義的相似程度,對語義和視覺分布一致的聚類結果進行合并。
全文摘要
本發明提供的是一種基于視覺和標注字相關信息的標注圖像場景聚類方法。采用NCut圖像分割算法分別對訓練圖像和測試圖像進行分割;構造用于學習的所有圖像{J1,·,Jl}PCtrain的視覺最近鄰圖在訓練圖像集中,每幅圖像有一組初始的歸一化標注字權值向量;令每幅訓練圖像的標注字在視覺最近鄰間傳播,接受的圖像按照它們之間歸一化的EMD距離的程度來接收;對每幅訓練圖像,將累積完畢的標注字權值再進行歸一化;在圖像的視覺特征被轉換為一組帶有權值的標注字后,采用PLSA模型進行場景語義聚類;利用高斯混合模型對各個場景語義視覺空間的進行學習;利用視覺特征進行場景歸類。本發明能提高圖像的視覺特征與標注字之間的聯接精度,可以直接用于圖像的自動語義標注。
文檔編號G06K9/66GK102222239SQ201110148760
公開日2011年10月19日 申請日期2011年6月3日 優先權日2011年6月3日
發明者劉詠梅 申請人:哈爾濱工程大學