一種基于隱含狀態模型的多視角目標檢索方法
【專利摘要】一種基于隱含狀態模型的多視角目標檢索方法:采集不同物體的多視角彩色視圖,處理后得到各物體的初始視圖集構成數據庫,將數據庫分為訓練庫與測試庫;提取數據庫中各物體的初始視圖集的任意視覺特征,以Zernike矩為視覺特征,得到各物體的初始特征向量集;選定訓練庫中的一物體的初始視圖集作為檢索目標,再選取測試庫中的一物體的初始視圖集作為比較目標,將檢索目標與比較目標作為觀測數據,建立圖結構,計算檢索目標與比較目標之間的相似度;判斷是否將測試庫中的所有物體的初始視圖集已作為比較目標;降序排列檢索目標和比較目標的相似度,將相似度最高的比較目標作為檢索結果。本發明消除了采集初始視圖時對攝像機陣列的空間限制。
【專利說明】
一種基于隱含狀態模型的多視角目標檢索方法
技術領域
[0001] 本發明涉及一種多視角目標檢索方法。特別是涉及一種基于隱含狀態模型的多視 角目標檢索方法。
【背景技術】
[0002] 我們生活在三維的世界中,人類的視覺感知具有立體的三維特性。三維目標是物 體的多邊形表示,它既可以顯示現實世界中的實體,也可以描繪虛構的模型。繼聲音、圖像、 視頻之后,三維目標作為第四代媒體信息載體吸引了大量研究者的目光。MPEG(Moving Pictures Experts Group/Motion Pictures Experts Group,MPEG)國際標準中規定,媒體 數據除了包括一維和二維信息之外,還包含三維場景和三維模型等信息[1]。三維模型能夠 多角度地描繪物體的紋理、色彩、形狀信息,而三維場景可以全方位地真實還原生活場景中 的立體環境、物體擺放、空間結構等基本設置。
[0003] 近年來圖形硬件傳感器、三維建模工具和計算機視覺技術的飛速發展,使得三維 信息獲取設備的價格穩步降低,與此同時可用性大幅增加,因而大規模的三維目標數據庫 得以應用于各科學領域,如計算機輔助制圖 [2]、醫學圖像分析[3]、分子生物學[4]和數字娛樂 產業 [5]。互聯網的興起加速了三維模型的傳播,使得人們對于計算機檢索工具的依賴愈加 迫切,并且規模性和復雜性日益增強。如何快速有效地從大規模三維目標數據庫中檢索到 符合用戶需求的模型,提高三維模型的檢索效率,最大可能地實現資源重用已成為時下最 新研究熱點。
[0004] 多視角目標檢索是基于數字多媒體處理、計算機視覺和模式識別等技術,借助于 計算機處理技術,分析檢索目標的多視角視圖并從數據庫中尋找相似物體的過程。通常多 視角目標檢索技術主要分為兩類:基于模型的檢索和基于視圖的檢索 [6]。基于模型的檢索 是直接從虛擬的三維模型中采集其紋理、色彩、體積、形狀等信息構造特征描述符,并利用 各級描述符進行相似度比較的方法 [7]。雖然基于模型的檢索能夠綜合利用三維目標的局部 和全局有效信息,但巨大的計算量和繁瑣的步驟限制了它的應用。基于視圖的檢索是利用 攝像機陣列從不同的方位捕捉一系列三維目標的二維視圖,而后從多視角視圖中提取視覺 特征進行相似度比較的方法 [8]。此方法原理簡單、描述特征豐富多樣且具有較高的實用性。 兩種方法各有利弊,但由于基于視圖的檢索方法操作性強,能夠利用成熟的二維圖像處理 技術而得到更加廣泛的應用。
[0005] 多視角目標檢索領域目前面臨的主要挑戰為:(1)采集初始視圖時,大多數方法高 度依賴于攝像機陣列所在的空間位置與角度,嚴格的攝像機陣列限制使得當錄制環境或數 據采集方式不符合要求時無法進行相互檢索,限制了實際應用范圍。(2)大部分基于視圖的 檢索方法只利用了視圖特征間的顯性特征關系,而忽略了其內在的隱含結構與隱含空間上 下文聯系。
【發明內容】
[0006] 本發明所要解決的技術問題是,提供一種可以應用于任何基于視圖的三維目標數 據庫的基于隱含狀態模型的多視角目標檢索方法。
[0007] 本發明所采用的技術方案是:一種基于隱含狀態模型的多視角目標檢索方法,包 括以下步驟:
[0008] 1)利用攝像機或任意的攝像機陣列采集不同物體的多視角彩色視圖,經過圖像處 理后得到各物體的初始視圖集構成數據庫,根據物體是否具有類別標簽將數據庫分為訓練 庫與測試庫;
[0009] 2)提取數據庫中各物體的初始視圖集的任意視覺特征,以Zernike矩為視覺特征, 得到各物體的初始特征向量集;
[0010] 3)選定訓練庫中的一物體的初始視圖集作為檢索目標,再選取測試庫中的一物體 的初始視圖集作為比較目標,將檢索目標與比較目標作為觀測數據,建立圖結構,計算檢索 目標與比較目標之間的相似度;
[0011] 4)判斷是否將測試庫中的所有物體的初始視圖集已作為比較目標,是則進入下一 步驟,否則返回步驟3);
[0012] 5)降序排列檢索目標和比較目標的相似度,將相似度最高的比較目標作為檢索結 果。
[0013] 步驟1)所述的處理是,提取各彩色視圖的掩膜,即將目標物體與背景分離,保持物 體的彩色性質不變,將背景統一為黑色。
[0014]步驟1)中將有類別標簽的物體初始視圖集歸為訓練庫,將無類別標簽的物體初始 視圖集歸為測試庫。
[0015] 步驟3)是給定檢索目標的初始視圖集和類別標簽,比較目標的初始視圖集,計算 檢索目標和比較目標的相似度;具體包括:比較目標的初始視圖集表示為x={ xl,X2,..., Xj, . . .,xm},其中每張初始視圖Xj由它的特征向量Φ (Xj) eRd表示,d表示特征維度,Zernike 矩的d = 49;用y表示比較目標的初始視圖集X的類別標簽,y = 1表示和檢索目標的初始視圖 集同類,y = 〇表示和檢索目標的初始視圖集不同類;對于比較目標的初始視圖集X,進一步 定義了隱含狀態矢量l = {li,l2,.. .lj,...,U表示隱含代表性視圖集,其中lj表示第j張初 始視圖對應的隱含代表性視圖,由第ji到第j+w張初始視圖的初始特征向量決定,取值于 隱含狀態有限集合L;
[0016] 根據比較目標的初始視圖集X,類別標簽y和隱含狀態矢量1,定義以下條件概率模 型:
[0017] Ρ(γ = 1,?|Χ,ρ)=θδ(γ>1>χ;ρ)/ΣΥΜθδ(γ,>1>χ;ρ) (1)
[0018] 其中ρ表示模型參數,而S(y,l,X;p)eR是由模型參數ρ引導的勢函數,y'表示所有 比較目標的類別標簽,得到目標函數P (y = 11X,P),
[0019] p(y = l |χ,ρ)= Σ?θδ(γ>1>Χ;ρ)/ΣΥΜθδ(γ,>1>Χ;ρ) (2)
[0020] 給定新的比較目標的初始視圖集X后,把目標函數P(y=l|X,p)作為比較目標和檢 索目標的相似度;訓練集中的第i個訓練物體的初始視圖集t和它的類別標簽7 1組成訓練對 (Xi,yi),i = l,2,. . .,n,其中Xi={xu,xi2,. . .,xij,. . .,xim},xij表示第i個訓練物體初始視 圖集的第j張初始視圖,表示第i個訓練物體初始視圖集的類別標簽,Y表示類別標簽 所有可能的取值;利用訓練集生成模型參數Ρ,模型參數Ρ通過下式生成:
[0022] S(p)由兩部分構成:第一部分為訓練物體初始視圖集的對數似然函數,第二項為 高斯先驗概率的對數函數;使用牛頓梯度下降法尋找最優模型參數P$ = argmaXp S(p),第i 個訓練物體初始視圖集對應的似然函數為:
[0024]計算Sdp)關于δ(γ,1,Χ;ρ)的梯度關系,構建無向圖E,其中每個頂點表示隱含代 表性視圖,而頂點之間對應的邊〈luh〉表示隱含代表性視圖的潛在空間結構,采用以下形 式的3(y,l,X;p):
[0026] 其中P(lj)eRd⑴EL)是關于第j個隱含代表性視圖的參數,Φ(&) ·ρ(1」)表示初 始視圖1」和隱含代表性視圖1」之間的聯系$(7,1」)卽(1盧1^^)表示隱含代表性視圖込 和類別標簽y的聯系;P(y山,11〇61?(1」,1 1{^,^¥)對應于類別標簽7下,隱含代表性視圖 lj和lk之間的潛在空間關系。
[0027] 假設無向圖E中的邊形成樹狀結構,利用梯度下降法得到51(0)關于模型參數p (ω、Ρ(7,ω和p(y山,lk)的導數,從而得到模型參數p的取值,再根據式目標函數P(y = i x,p)計算比較目標和檢索目標的相似度。
[0028] 本發明的一種基于隱含狀態模型的多視角目標檢索方法,消除了采集初始視圖時 對攝像機陣列的空間限制,可以應用于任何基于視圖的三維目標數據庫。即當檢索目標的 初始視圖數目與數據庫中的物體不一致時,也可以使用本方法進行檢索。采用圖模型分析 初始視圖之間的深層結構,提高了檢索的準確率。
【附圖說明】
[0029] 圖1是本發明基于隱含狀態模型的多視角目標檢索方法的流程圖;
[0030]圖2a是本發明中物體的多視角視圖第一種姿態的示意圖;
[0031] 圖2b是本發明中物體的多視角視圖第二種姿態的示意圖;
[0032] 圖2c是本發明中物體的多視角視圖第三種姿態的示意圖;
[0033] 圖2d是本發明中物體的多視角視圖第四種姿態的示意圖;
[0034]圖3a是本發明中物體的初始視圖第一種姿態的示意圖;
[0035]圖3b是本發明中物體的初始視圖第二種姿態的示意圖;
[0036]圖3c是本發明中物體的初始視圖第三種姿態的示意圖;
[0037] 圖3d是本發明中物體的初始視圖第四種姿態的示意圖;
[0038] 圖4是本發明中初始視圖集、隱含狀態和類別標簽之間的結構示意圖;
[0039]圖5是六種算法的查準-查全曲線。
【具體實施方式】
[0040]下面結合實施例和附圖對本發明的一種基于隱含狀態模型的多視角目標檢索方 法做出詳細說明。
[0041] 研究表明,多視角目標的視圖特征與其相似性具有非常密切的關聯,可以利用圖 模型擬合視圖特征之間的相似度來判斷兩物體是否匹配。
[0042] 如圖1所示,本發明的一種基于隱含狀態模型的多視角目標檢索方法,包括以下步 驟:
[0043] 1)利用攝像機或任意的攝像機陣列采集不同物體的多視角彩色視圖,經過圖像處 理后得到各物體的初始視圖集構成數據庫,根據物體是否具有類別標簽將數據庫分為訓練 庫與測試庫,將有類別標簽的物體初始視圖集歸為訓練庫,將無類別標簽的物體初始視圖 集歸為測試庫。所述的處理是,提取各彩色視圖的掩膜,即將目標物體與背景分離,保持物 體的彩色性質不變,將背景統一為黑色。
[0044] 本發明實施例首先采集N個物體的多視角彩色視圖(本例中N = 505)構成多視角目 標數據庫,采集過程描述如下:將物體置于可旋轉工作臺的中央,一個KINECT攝像頭(此攝 像頭為本領域所公知,全稱為"ΧΒ0Χ 360第一代KINECT",型號為1414,美國專利號為 6483918和6775708)位于與水平工作臺夾角60°,距離物體45cm處,當物體旋轉一圈時均勻 拍攝360張彩色視圖。
[0045]根據采集背景為綠色的特點,通過Matlab中的圖像處理工具包提取各彩色視圖的 掩膜,即將目標物體與背景分離,保持物體的彩色性質不變,將背景統一為黑色,得到各物 體的初始視圖集構成數據庫。隨機挑選1/3的物體標上類別標簽作為訓練庫,其余未標記物 體作為測試庫。
[0046] 2)提取數據庫中各物體的初始視圖集的任意視覺特征,以Zernike矩為視覺特征, 得到各物體的初始特征向量集;
[0047] 特征提取是計算機視覺中的一個概念,它是指利用計算機提取圖像信息,包括紋 理、顏色、形狀等低層視覺特征和高級語義特征。Zernike矩特征是在數字圖像處理領域應 用范圍較廣泛的一種主流特征,它既能夠描述圖像的整體形狀,也可以捕捉圖像的微小細 節,并且具有收縮、平移、旋轉不變性,易于識別。根據參考文獻[9]和[10]提取各物體初始 視圖的Zernike特征后,物體的每張初始視圖轉化為一個49維的特征向量,初始視圖集的特 征向量構成初始特征向量集。
[0048] 3)選定訓練庫中的一物體的初始視圖集作為檢索目標,再選取測試庫中的一物體 的初始視圖集作為比較目標,將檢索目標與比較目標作為觀測數據,建立圖結構,計算檢索 目標與比較目標之間的相似度;是給定檢索目標的初始視圖集和類別標簽,比較目標的初 始視圖集,計算檢索目標和比較目標的相似度;具體包括:
[0049] 比較目標的初始視圖集表示為X={X1,X2, . . .,Xj,. . .,Xm},其中每張初始視圖X油 它的特征向量Φ (xj) e Rd表示,d表示特征維度,Zernike矩的d = 49;用y表示比較目標的初 始視圖集X的類別標簽,y=l表示和檢索目標的初始視圖集同類,y = 〇表示和檢索目標的初 始視圖集不同類;對于比較目標的初始視圖集X,進一步定義了隱含狀態矢量1 = (1:, 12, . . .lj, . . .,lm}表不隱含代表性視圖集,其中lj表不第j張初始視圖對應的隱含代表性視 圖,由第jl到第j+W張初始視圖的初始特征向量決定,取值于隱含狀態有限集合L;隱含狀 態之間的轉換傳達了視角轉換的變化過程,如圖4所示。
[0050] 根據比較目標的初始視圖集X,類別標簽y和隱含狀態矢量1,定義以下條件概率模 型:
[0051] Ρ(γ = 1,?|Χ,ρ)=θδ(γ>1>χ;ρ)/ΣΥΜθδ(γ,>1>χ;ρ) (1)
[0052] 其中ρ表示模型參數,而S(y,l,X;p)eR是由模型參數ρ引導的勢函數,y'表示所有 比較目標的類別標簽,得到目標函數P (y = 11X,P),
[0053] p(y = l |χ,ρ)= Σ?θδ(γ>1>Χ;ρ)/ΣΥΜθδ(γ,>1>Χ;ρ) (2)
[0054] 給定新的比較目標的初始視圖集X后,把目標函數P(y=l|X,p)作為比較目標和檢 索目標的相似度;訓練集中的第i個訓練物體的初始視圖集t和它的類別標簽7 1組成訓練對 (Xi,yi),i = l,2,. . .,n,其中Xi={xu,xi2,. . .,xij,. . .,xim},xij表示第i個訓練物體初始視 圖集的第j張初始視圖,表示第i個訓練物體初始視圖集的類別標簽,Y表示類別標簽 所有可能的取值;利用訓練集生成模型參數Ρ,模型參數Ρ通過下式生成:
[0056] S(p)由兩部分構成:第一部分為訓練物體初始視圖集的對數似然函數,第二項為 高斯先驗概率的對數函數;使用牛頓梯度下降法尋找最優模型參數P$ = argmaXp S(p),第i 個訓練物體初始視圖集對應的似然函數為:
[0058]計算Sjp)關于δ(γ,1,Χ;ρ)的梯度關系,構建無向圖E,其中每個頂點表示隱含代 表性視圖,而頂點之間對應的邊〈lblj〉表示隱含代表性視圖的潛在空間結構,采用以下形 式的3(y,l,x;p):
[0060] 其中P(lj)eRd⑴EL)是關于第j個隱含代表性視圖的參數,Φ(&) ·ρ(1」)表示初 始視圖1」和隱含代表性視圖1」之間的聯系$(7,1」)卽(1盧1^^)表示隱含代表性視圖込 和類別標簽y的聯系;P(y山,11〇61?(1」,1 1{^,^¥)對應于類別標簽7下,隱含代表性視圖 lj和lk之間的潛在空間關系。
[0061] 假設無向圖E中的邊形成樹狀結構,根據文獻[16],利用梯度下降法得到SJ0)關 于模型參數Ρ(ω、Ρ(7,ω和P(y山,lk)的導數,從而得到模型參數P的取值,再根據式目標 函數P(y = l|X,p)計算比較目標和檢索目標的相似度。
[0062] 4)判斷是否將測試庫中的所有物體的初始視圖集已作為比較目標,是則進入下一 步驟,否則返回步驟3);
[0063] 5)降序排列檢索目標和比較目標的相似度,將相似度最高的比較目標作為檢索結 果。
[0064] 具體實例
[0065] 下面結合具體的實例,對實施例中的方案進行實驗驗證,詳見下文描述:
[0066] -、數據庫
[0067] 本實驗使用的數據庫為由步驟1)構建的基于真實三維物體的多視角目標數據庫, 共包含61類505個物體,如飛機、鞋子、輪船、牙刷、盆栽、蘋果等。每個物體有360張初始視 圖,分辨率為640*480。隨機選擇1/3物體標記類別標簽作為訓練庫,其余作為測試庫。
[0068] 二、對比算法
[0069] 適應性聚類算法AVC[n](Adaptive views clustering)是根據"并不是所有視圖 都具有同等重要性"的原則提出的代表性視圖最優選擇方法,它使用了貝葉斯模型改進檢 索性能。
[0070] 豪斯多夫距離算法HAUS[12](HaUSdorff)重點關注不同三維目標的多視角視圖的 距離計算問題。它使用豪斯多夫距離來表示兩個物體間的相似性關系。
[0071 ]最近鄰算法NN[13](Nearest Neighbor)類似于豪斯多夫算法,不同的是在計算特 征空間的距離時依據最近鄰距離的原則。
[0072] 加權二分圖算法冊61\1[14](Weighted Bipartite Graph Matching)在得到多視角 視圖并提取視覺特征后,首先通過層級化聚類的方法選擇代表性視圖,在此基礎上構建了 加權二分圖并實現了最佳匹配,依據所得相似度值降序排列得到檢索結果。
[0073] 無攝像機陣列限制算法CCFV[15] (Camera Constraint-Free View-Based 3D Object Retrieval)提出利用高斯模型擬合相似物體的視圖集之間的匹配關系,并結合正 負匹配樣例提尚檢索性能。
[0074] 三、評估標準
[0075]不失一般性的,采用查準-查全曲線(Precision-Recall)來衡量本發明方法的檢 索性能。查準-查全曲線能夠系統地、綜合地評估一個多視角目標方法的性能優劣。當查全 查準曲線與坐標軸圍成的面積越大時,檢索性能越優異。它以查全率(Recal 1)為橫坐標,查 準率(Precision)為縱坐標,根據以下公式得到曲線值:
[0077]其中Recall是查全率,Nz是正確檢索對象的數量,Nr是所有相關對象的數量。
[0079]其中Precision是查準率,Naii是所有檢索對象的數量。
[0080]四、實驗結果
[0081 ]六種算法的查全-查準曲線結果如圖5所示。當查全查準曲線與坐標軸圍成的面積 越大時,檢索性能越優異。
[0082]由圖5可知,本方法的檢索性能優于其它所有算法。由于和NN、HAUS算法相比,本 算法采用了結構化模型深入探索視圖之間的潛在聯系,NN和HAUS只是單一地計算特征向量 之間的距離。和AVC,CCFV算法相比,本發明的方法采用了圖模型來模擬多視角視圖之間的 相似性,充分挖掘了它們之間的空間結構,而AVC只是簡單地采用貝葉斯概率模型、CCFV只 是簡單地采用高斯模型進行相似度比較;和WBGM相比,雖然兩者均采用了圖模型,但是WBGM 是基于二分圖匹配的方法,本發明在圖模型的基礎上引入了隱含變量表示潛在代表性視圖 和潛在空間結構。
[0083] 本領域技術人員可以理解附圖只是一個優選實施例的示意圖,上述本發明實施例 序號僅僅為了描述,不代表實施例的優劣。
[0084] 以上所述僅為本發明的較佳實施例,并不用以限制本發明,凡在本發明的精神和 原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。
[0085] 參考文獻:
[0086] [1]Jeannin S,Cieplinski L, Ohm J R,et al.Mpeg-7vi sual part of experimentation model version 9.0[J].IS0/IEC JTCl/SC29/ffGllN,2001,3914.
[0087] [2]Bosche F,Haas C T.Automated retrieval of 3D CAD model objects in construction range images[J].Automation in Construction,2008,17(4):499-512.
[0088] [3]Guetat G,Maitre M,Joly L,et al.Automatic 3-D grayscale volume matching and shape analysis[J]. Information Technology in Biomedicine,IEEE Transactions on,2006,10(2):362-376.
[0089] [4]Yeh J S,Chen D Y,Chen B Y,et al .A web-based three-dimensional protein retrieval system by matching visual similarity[J]. Bioinformatics , 2005,21(13):3056-3057.
[0090] [5]ffong H S,Ma B,Yu Z,et al.3-D head model retrieval using a single face view query[J].Multimedia,IEEE Transactions on,2007,9(5):1026-1036.
[0091] [6]Gao Y,Tang J,Hong R,et al.Camera constraint-free view-based 3-d object retrieval[J]. Image Processing,IEEE Transactions on,2012,21(4):2269-2281.
[0092] [7]Li B,Johan H.3D model retrieval using hybrid features and class information[J].Multimedia tools and applications,2013,62(3):821-846.
[0093] [8]ffang M,Gao Y,Lu K,et al.View-based discriminative probabilistic modeling for 3d object retrieval and recognition[J]. Image Processing,IEEE Transactions on,2013,22(4):1395-1407.
[0094] [9]Tahmasbi A,Saki F,Shokouhi S B.Classification of benign and malignant masses based on Zernike moments[J]. Computers in Biology and Medicine,2011,41(8):726-735.
[0095] [10]Tahmasbi A,Saki F,Aghapanah H,et al.A novel breast mass diagnosis system based on Zernike moments as shape and density descriptors[C]// Biomedical Engineering(ICBME),201118th Iranian Conference of.IEEE,2011:100-104.
[0096] [ll]T.F.Ansary,M.Daoudi,and J.-P.Vandeborre,"A bayesian 3_d search engine using adaptive views clustering/'Multimedia,IEEE Transactions on, vol·9,no·1,pp·78-88,2007·
[0097] [12]Y.Gao,J.Tang,H.Li,Q.Dai,and N.Zhang,"View_based 3d model retrieval with probabilistic graph model,',Neurocomputing,νο1·73,ηο·10, pp.1900-1905,2010.
[0098] [ 13]T.M.Cover and P.E.Hart,''Nearest neighbor pattern classification," Information Theory,IEEE Transactions on,vol.13,no.1,pp.21-27,1967.
[0099] [14]Y.Gao,Q.Dai,M.Wang,and N.Zhang,"3d model retrieval using weighted bipartite graph matching,',Signal Processing: Image Communication, vol. 26,no. 1, pp.39-47,2011.
[0100] [15]Gao Y.Camera constraint-free view-based 3-D object retrieval.[J] .IEEE Transactions on Image Processing,2012,21(4):2269-2281.
[0101] [16]Kumar S,Hebert M.Discriminative random fields : Adiscriminative framework for contextual interaction in classification[C]//Computer Vision, 2003.Proceedings.Ninth IEEE International Conference on.IEEE,2003:1150-1157.
[0102] [17]Lafferty J,McCallum A,Pereira F C N.Conditional random fields : Probabilistic models for segmenting and labeling sequence data[J]·2001〇
【主權項】
1. 一種基于隱含狀態模型的多視角目標檢索方法,其特征在于,包括以下步驟: 1) 利用攝像機或任意的攝像機陣列采集不同物體的多視角彩色視圖,經過圖像處理后 得到各物體的初始視圖集構成數據庫,根據物體是否具有類別標簽將數據庫分為訓練庫與 測試庫; 2) 提取數據庫中各物體的初始視圖集的任意視覺特征,以Zernike矩為視覺特征,得到 各物體的初始特征向量集; 3) 選定訓練庫中的一物體的初始視圖集作為檢索目標,再選取測試庫中的一物體的初 始視圖集作為比較目標,將檢索目標與比較目標作為觀測數據,建立圖結構,計算檢索目標 與比較目標之間的相似度; 4) 判斷是否將測試庫中的所有物體的初始視圖集已作為比較目標,是則進入下一步 驟,否則返回步驟3); 5) 降序排列檢索目標和比較目標的相似度,將相似度最高的比較目標作為檢索結果。2. 根據權利要求1所述的一種基于隱含狀態模型的多視角目標檢索方法,其特征在于, 步驟1)所述的處理是,提取各彩色視圖的掩膜,即將目標物體與背景分離,保持物體的彩色 性質不變,將背景統一為黑色。3. 根據權利要求1所述的一種基于隱含狀態模型的多視角目標檢索方法,其特征在于, 步驟1)中將有類別標簽的物體初始視圖集歸為訓練庫,將無類別標簽的物體初始視圖集歸 為測試庫。4. 根據權利要求1所述的一種基于隱含狀態模型的多視角目標檢索方法,其特征在于, 步驟3)是給定檢索目標的初始視圖集和類別標簽,比較目標的初始視圖集,計算檢索目標 和比較目標的相似度;具體包括:比較目標的初始視圖集表示為Χ={ Χ1,χ2,...,以,..., xm},其中每張初始視圖xj由它的特征向量Φ (xj) eRd表示,d表示特征維度,Zernike矩的d = 49;用y表示比較目標的初始視圖集X的類別標簽,y=l表示和檢索目標的初始視圖集同 類,y = 〇表示和檢索目標的初始視圖集不同類;對于比較目標的初始視圖集X,進一步定義 了隱含狀態矢量l = lh,l2,..山,...山}表示隱含代表性視圖集,其中1謙示第j張初始視 圖對應的隱含代表性視圖,由第ji到第j+w張初始視圖的初始特征向量決定,取值于隱含 狀態有限集合L; 根據比較目標的初始視圖集X,類別標簽y和隱含狀態矢量1,定義以下條件概率模型: Ρ(γ=1,?|Χ,ρ) = θδ(γ>1>χ;ρ)/ΣΥΜθδ(γ,>1>χ;ρ) (1) 其中Ρ表示模型參數,而3(y ,1 ,X;p) eR是由模型參數ρ引導的勢函數,y'表示所有比較 目標的類別標簽,得到目標函數P(y = l|X,P), P(y=l|X,p)= Σ?θδ(γ>1>χ;ρ)/ΣΥΜθδ(γ,>1>χ;ρ) (2) 給定新的比較目標的初始視圖集X后,把目標函數P(y = l|X,P)作為比較目標和檢索目 標的相似度;訓練集中的第i個訓練物體的初始視圖集Xi和它的類別標簽又:組成訓練對(Xu yi),i = l,2,. . .,n,其中Xi={xu,xi2,. . .,xij,. . .,xim},xij表示第i個訓練物體初始視圖集 的第j張初始視圖,yieY表示第i個訓練物體初始視圖集的類別標簽,Y表示類別標簽所有 可能的取值;利用訓練集生成模型參數P,模型參數P通過下式生成:S(p)由兩部分構成:第一部分為訓練物體初始視圖集的對數似然函數,第二項為高斯 先驗概率的對數函數;使用牛頓梯度下降法尋找最優模型參數!/ = arg maXp S(p),第i個訓 練物體初始視圖集對應的似然函數為:計算SKp)關于δ(γ,1,Χ;ρ)的梯度關系,構建無向圖E,其中每個頂點表示隱含代表性視 圖,而頂點之間對應的邊〈1^1』〉表示隱含代表性視圖的潛在空間結構,采用以下形式的S (y,l,x;p): j j\j, 其中pajeRda盧u是關于第j個隱含代表性視圖的參數,φ(&) ·ρ(ω表示初始視 圖和隱含代表性視圖込之間的聯系;P(y,lj)eR(l盧L,yeY)表示隱含代表性視圖lj和類 別標簽y的聯系;p(y山,11〇[1?(1」,1 1{^,5^¥)對應于類別標簽7下,隱含代表性視圖込和 lk之間的潛在空間關系。 假設無向圖E中的邊形成樹狀結構,利用梯度下降法得到51(0)關于模型參數ρ(1〇、 ρ (y山)和p(y山,lk)的導數,從而得到模型參數ρ的取值,再根據式目標函數P(y=i|x,p)計 算比較目標和檢索目標的相似度。
【文檔編號】G06F17/30GK105868324SQ201610181271
【公開日】2016年8月17日
【申請日】2016年3月28日
【發明人】劉安安, 李希茜, 聶為之
【申請人】天津大學