一種基于金字塔表觀模型的運動目標跟蹤方法
【專利摘要】本發(fā)明公開了一種基于金字塔表觀模型的運動目標跟蹤方法,包括:給出待跟蹤目標物體在初始幀里面的狀態(tài)和觀測;采用金字塔分割和增量主成分分析的方法對跟蹤目標進行金字塔表觀建模;在金字塔表觀模型中融入跟蹤目標的紋理信息;在金字塔表觀模型中融入跟蹤目標的形狀信息;將跟蹤目標在當前幀的狀態(tài)加上隨機擾動作為下一幀的粒子,將所得粒子的觀測與目標在當前幀的觀測分別進行金字塔表觀建模并進行比較,選定最為相似的粒子對應的觀測作為被跟蹤的目標在下一幀的狀態(tài);對選定觀測的金字塔表觀模型從低層至高層逐層計算所有分塊的重構誤差,并與設定的閾值進行比較,對重構誤差小于閾值的分塊進行表觀更新。
【專利說明】一種基于金字塔表觀模型的運動目標跟蹤方法
【技術領域】
[0001]本發(fā)明涉及計算機視覺領域,特別涉及可視化跟蹤(Visual tracking)中的表觀建模技術。
【背景技術】
[0002]基于移動攝像機的運動目標跟蹤是近年來計算機視覺領域里的前沿研究方向之一,也是該領域中的難點之一。該任務最大的挑戰(zhàn)與難點在于如何對目標進行有效地表達,而目標表達大多數(shù)是通過對目標表觀進行建模來實現(xiàn)的。因此,如何構建一個好的表觀模型對目標跟蹤起著至關重要的作用。特別是在時序數(shù)據(jù)流中,目標的表觀是隨著時間而變化的,同時還可能受到各種因素的干擾。此外,還要滿足實際應用的低計算復雜度的要求。這樣就給我們提出一個嚴峻的挑戰(zhàn),那就是如何構建一個低復雜度的、魯棒的、并且自適應的表觀模型,這對目標的運動跟蹤是非常重要的。
[0003]近年來,利用增量PCA算法對跟蹤目標進行子空間學習成為了目標表觀建模最有效的方法。該方法可以通過對子空間特征基和均值的在線更新,捕捉目標隨時間的變化,達到目標表觀在線更新的目的。
【發(fā)明內容】
[0004]為了解決現(xiàn)有技術的問題,本發(fā)明的目的在于提出一種有效的表觀建模方法,以滿足移動攝像機的復雜場景下(劇烈運動、光照變化,噪聲,部分遮擋,形變等)魯棒的運動目標跟蹤。
[0005]為了實現(xiàn)上述目的,本發(fā)明提出了一種基于金字塔表觀模型的運動目標跟蹤方法,包括步驟如下:
[0006]步驟1:給出待跟蹤目標物體在初始幀里面的狀態(tài)和觀測;
[0007]步驟2:采用金字塔分割和增量主成分分析的方法對跟蹤目標進行金字塔表觀建模;
[0008]步驟3:在金字塔表觀模型中融入跟蹤目標的紋理信息;
[0009]步驟4:在金字塔表觀模型中融入跟蹤目標的形狀信息;
[0010]步驟5:將跟蹤目標在當前幀的狀態(tài)加上隨機擾動作為下一幀的粒子,將所得粒子的觀測與目標在當前幀的觀測分別進行金字塔表觀建模并進行比較,選定最為相似的粒子對應的觀測作為被跟蹤的目標在下一幀的狀態(tài);
[0011]步驟6:對選定觀測的金字塔表觀模型從低層至高層逐層計算所有分塊的重構誤差,并與設定的閾值進行比較,對重構誤差小于閾值的分塊進行表觀更新。
[0012]本發(fā)明的有益效果:
[0013]I)本發(fā)明在增量子空間學習的基礎上,引入多尺度分析的思想,對目標進行三層空間金字塔分割,利用目標的空間結構信息建立更加有效的表觀模型,不僅保證了有效的目標跟蹤,也為后續(xù)的特征融合以及選擇性表觀更新提供了基礎。[0014]2)本發(fā)明充分利用了金字塔結構,在像素特征的基礎上,進一步融合了類Haar特征和PHOG特征,加入了目標的紋理信息和形狀信息,對目標進行更加有效地描述,使跟蹤結果更加魯棒。
[0015]3)基于本發(fā)明中提出的金字塔表觀分割的方法,提出了一種新的選擇性的表觀模型更新方法,該方法能夠更加準確有效地捕捉目標的表觀變化,保證魯棒的目標跟蹤。
【專利附圖】
【附圖說明】
[0016]圖1是本發(fā)明提出的基于金字塔表觀模型的運動目標跟蹤方法流程圖;
[0017]圖2是本發(fā)明實施例中金字塔表觀分割示意圖;
[0018]圖3是本發(fā)明中金字塔表觀模型中定義的類Haar特征示意圖;
[0019]圖4是本發(fā)明中金字塔表觀模型某一層中的某個類Haar特征;
[0020]圖5是本發(fā)明中金字塔表觀模型中的PHOG特征示意圖;
[0021]圖6是本發(fā)明中采用金字塔表觀模型和選擇性表觀更新的跟蹤方法(pyd)與未采用金字塔表觀模型的跟蹤方法(ivt)在目標姿勢變化以及遭受嚴重遮擋情況下的實驗結果圖;
[0022]圖7是上述兩種跟蹤方法在該視頻上的量化對比結果。
【具體實施方式】
[0023]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結合具體實施例,并參照附圖,對本發(fā)明作進一步的詳細說明。
[0024]本發(fā)明提出了一種基于金字塔表觀模型的運動目標跟蹤方法。該方法具體運行的硬件和編程語言并沒有限制,用任何語言編寫都可以完成,為此其他工作模式不再贅述。優(yōu)選地,可以采用一臺具有3.2G赫茲中央處理器和4G字節(jié)內存的計算機并用Matlab語言編制完成基于金字塔表觀模型的運動目標跟蹤的工作程序,實現(xiàn)本發(fā)明提出的上述方法。
[0025]圖1示出了本發(fā)明提出的基于金字塔表觀模型的運動目標跟蹤方法流程圖。如圖1所示,該方法包括:
[0026]步驟1、給出待跟蹤目標物體在初始幀里面的狀態(tài)和觀測;
[0027]步驟2、對目標進行金字塔表觀建模:采用金字塔分割和增量主成分分析的方法對跟蹤目標進行表觀建模;
[0028]步驟3、在金字塔表觀模型中融入跟蹤目標的紋理信息:利用表觀的金字塔結構,構造類Haar特征來描述目標的紋理信息;
[0029]步驟4、在金字塔表觀模型中融入跟蹤目標的形狀信息:利用表觀的金字塔結構,融入PHOG特征來描述目標的形狀信息;
[0030]步驟5、目標跟蹤:由每個物體在當前幀的狀態(tài)加上隨機擾動作為下一幀的粒子,并在下一幀里面得到目標的觀測值,將這些粒子的觀測與目標在當前幀的觀測分別進行金字塔表觀建模并進行比較,選擇最為相似的粒子對應的觀測作為被跟蹤的目標在下一幀的狀態(tài);
[0031]步驟6、選擇性表觀更新:對金字塔表觀模型從低層至高層逐層計算所有分塊的重構誤差,并與設定的閾值進行比較,對重構誤差小于閾值的分塊進行表觀更新,重構誤差大于閾值的分塊意味著被噪聲干擾,則不進行表觀更新,保持表觀不變。[0032]下面詳細介紹本發(fā)明公開的上述基于金字塔表觀模型的運動目標跟蹤方法中各個步驟的具體實現(xiàn)細節(jié)。
[0033]步驟I中給出待跟蹤目標物體在初始幀里面的狀態(tài)和觀測,具體包括:
[0034]假定目標在連續(xù)兩幀圖像之間的運動是仿射運動,這樣兩幀之間的目標仿射運動參數(shù)就可以用來表征目標的狀態(tài)。本發(fā)明中采用Xt= (Xt, Yt,Qt^t)這六個參數(shù)來表示目標在t時刻的狀態(tài),其中,Xt和Z表示目標相對于上一時刻的狀態(tài)在二維平面上的平移位置信息,小1表示目標的旋轉角度,St表示目標的尺度變化,Cit表示目標的長寬比的變化,Pt表示長寬之間的角度變化。在初始幀里面,給出一個緊致的包圍框框住待跟蹤的目標物體,根據(jù)目標物體的位置、寬度、高度、傾斜角度等,得到目標的初始狀態(tài)X1 = (X1,y1, Φ1^1, α1,β1)。提取包圍框內的圖像信息,作為目標物體在初始幀中的觀測I。該圖像信息可以是經(jīng)常使用的像素灰度值信息,也可以是本發(fā)明引入的類Haar特征和PHOG特征。得到目標物體在初始幀中的狀態(tài)和觀測之后,在初始狀態(tài)X1上面加上一組服從高斯分布的隨機擾動,作為在下一幀里面的一組粒子,并提取出這些粒子在下一幀圖像里面對應的觀測,運用模板匹配的方法得到初始m幀的粗略跟蹤結果,即運用模板匹配的方法得到與上一幀目標的觀測最相似的粒子作為當前幀的粗略跟蹤結果。
[0035]步驟2中對目標進行金字塔表觀建模,具體是采用金字塔分割和增量主成分分析的方法對跟蹤目標進行表觀建模:
[0036]通過初始化,已經(jīng)得到了被跟蹤的目標物體在初始m幀里面的狀態(tài),本發(fā)明優(yōu)選實施例中將這m幀圖像里的目標物體圖像區(qū)域用插值的方法規(guī)整到32X32的模板U1,I2,…,Ii,…,IJ,每個模板I為32X32的像素灰度值矩陣,以便于對大小相同的模板進行多層金字塔分割。
[0037]圖2示出了本發(fā)明實施例中金字塔表觀分割示意圖。如圖2所示,本實施例中,以三層金字塔分割為例說明。第I = O層為跟蹤目標物體本身;第I = I層為將目標物體分成2X2 = 4個大小相等的子塊,由于目標物體圖像區(qū)域被規(guī)整到32X32的大小,因此每個子塊的大小為16X 16 ;第I = 2層為將I = I層中的每塊再分為2X2 = 4個大小相等的子塊,即一共為4X4= 16個子塊,每個子塊的大小為8X8。金字塔表觀模型也可以根據(jù)需要分成多層,本發(fā)明優(yōu)選實施例中進行的是三層金字塔分割。
[0038]金字塔分割之后,再利用高斯核函數(shù)對金字塔每層中的每個子塊給予不同的權重,層與層之間處于較高層級的子塊具有較大的權重,同一層中靠近中間部分的子塊具有較大的權重。
[0039]最后,再利用主成分分析(PCA)算法,對金字塔每層每個分塊學習一個低維的子空間表觀。假設金字塔分割后一共有η個分塊,以第j個分塊為例,PCA算法通過對目標初始所
有m幀圖像里第j個分塊{ΙΛΙΛ…,Imj}進行學習,求出它們的平均圖像P = 士Z//,同時求出協(xié)方差矩陣六(丫―廠)(7,'—尸廣,然后用協(xié)方差矩陣的特征向量uj作為低維子空間的基向量?;蛘?也可以通過對圖像矩陣[σ/-rw-^),…,(V-尸)]進行奇
異值分解W ZF/來得到子空間的基向量扒其中Uj和Vj都是正交矩陣。這樣就可以對金字塔的η個分塊各學到一個分別以U1,U2,…,…,Un為基向量的子空間表觀,通過這些基向量U1,U2,…,U.1,...,Un可以分別重構出金字塔的每個分塊,即所建立的金字塔表觀模型為分別以U1,U2,-,Uj,…,Un為基向量的子空間。
[0040]由于跟蹤目標的表觀很可能因為一些內在因素或外在因素而發(fā)生劇烈變化,如以人臉為例:頭的轉動或表情變化等。因此,在線更新表觀模型來反映這些表觀變化對一個魯棒的跟蹤器來說是非常重要的。隨著跟蹤程序的運行,每一幀新來的圖像都會有新的觀測被確定為跟蹤結果。當這些新的觀測加入時,利用增量PCA算法,通過在線更新子空間的特征基和均值,更新目標表觀。
[0041]步驟3中在金字塔表觀模型中融入跟蹤目標的紋理信息,具體為利用表觀的金字塔結構,構造類Haar特征來描述目標的紋理信息:
[0042]在本發(fā)明優(yōu)選實施例中的金字塔表觀模型中,除了基于跟蹤目標的原始像素灰度值特征,用PCA算法建立以U1,U2,…,Un為基的子空間表觀,描述目標的亮度信息;還利用金字塔特有的結構構造了一種類Haar特征,用同樣的方法建立另一組以U1llam, U2llaar,…,unHaar為基的子空間表觀,來描述目標的紋理信息,更加全面地刻畫目標。
[0043]類Haar特征是由Haar小波變換得到的,它通過一幅圖像內相鄰區(qū)域的灰度差,也就是亮度關系來描述目標,反應了圖像的局部紋理特征。利用快速計算矩形特征的積分圖像,可以快速地計算類Haar特征。
[0044]由所述金字塔表觀模型知,跟蹤目標已經(jīng)經(jīng)過層層分割,每一層的每個分塊中都包含四個大小相等的子塊,這些子塊就自然地形成了相鄰圖像區(qū)域,可以用它們各自像素值之和之間的差分來構造類Haar特征。
[0045]圖3示出了本發(fā)明中金字塔表觀模型中定義的類Haar特征示意圖。本發(fā)明對金字塔每一層的每個圖像分塊,定義六種類Haar特征。如圖3所示,所述六種類Haar特征分別是:橫向兩個相鄰子塊像素值和之差,如圖3(a)和(b)所示;縱向兩個相鄰子塊像素值和之差,如圖3(c)和(d)所示;對`角線兩個子塊像素值和之差,如圖3(e)和(f)所示,總共六種類Haar特征。
[0046]利用以上構造的金字塔表觀模型中每個分塊的六種類Haar特征,可以逐層構造整個跟蹤目標的類Haar特征。
[0047]圖4示出了本發(fā)明中金字塔表觀模型某一層中的某個類Haar特征。如圖4所示,圖4(a)為金字塔第I = I層的第一種類Haar特征,(b)為金字塔第I = I層的第五種類Haar特征,(C)為金字塔第1 = 2層的第一種類Haar特征。金字塔第1=0層的類Haar特征數(shù)目為6,第I = I層的類Haar特征數(shù)目為6父41,第1= η層的類Haar特征數(shù)目為6 X 4η。按金字塔層級由高到低,每層中子塊順序從左至右、從上至下,每個子塊中六種特征按定義的先后順序,將所有的類Haar特征組成特征向量,表示如下:
[0048]b eaiureHaar = (/<,h;, h;, /(:, h',, H;、; h;、d”..,htj:4,
[0049]h),h; h(r4..; h),Ir;,/7;1’...,(3)
[0050]此類Haar特征向量在基于金字塔表觀模型的目標跟蹤中作為像素值特征的補充,反映了跟蹤目標的紋理特征,更充分地利用了目標的表觀信息,使跟蹤結果更加有效。[0051]所述子空間基向量U1llam,U2h.,…,UnHAAR使用與步驟2同樣的方法進行計算,只不過計算使用的圖像特征I為類Haar特征組成的特征向量。
[0052]步驟4中在金字塔表觀模型中融入跟蹤目標的形狀信息,具體為利用表觀的金字塔結構,融入PHOG特征來描述目標的形狀信息:
[0053]在本發(fā)明優(yōu)選實施例中的金字塔表觀模型中,除了使用像素灰度值特征和類Haar特征描述跟蹤目標的亮度信息和紋理信息,還可以很自然地利用表觀模型的金字塔結構,加入金字塔梯度方向直方圖(PHOG)特征,用PCA算法建立一組以U1pme, U2phog,…,UnPH0G為基的子空間表觀,來描述跟蹤目標的形狀信息。
[0054]金字塔梯度方向直方圖(PHOG)是利用空間金字塔的方法來統(tǒng)計梯度方向直方圖(HOG)特征。HOG本身反映了圖像的形狀信息、邊緣信息,在利用空間金字塔統(tǒng)計的時候,本發(fā)明中又得到了形狀信息的空間分布,從而使描述目標的特征更加豐富和精確。PHOG將一幅圖像表示為既包含局部形狀信息,又包含形狀空間分布的一個直方圖。局部形狀信息是通過計算局部圖像區(qū)域的梯度,統(tǒng)計梯度方向分布得到的;而空間信息是通過將圖像不斷分塊,也就是在不同的分辨率下統(tǒng)計圖像梯度方向分布。
[0055]具體地說,首先對目標圖像分層分塊地建立金字塔表觀,然后分層次地在每個分塊上計算圖像梯度,通過統(tǒng)計梯度方向建立HOG特征直方圖,最后將這些直方圖首尾鏈接起來組成PHOG特征的向量,使用與像素灰度特征和類Haar特征相同的方法建立一組以
U1ph0G,U2phog,…,UnPHQG為基的子空間表觀。
[0056]圖5示出了本發(fā)明中金字塔表觀模型中的PHOG特征示意圖。如圖5所示,(a)為輸入圖像,即待跟蹤的目標;(b)為輸入圖像PHOG直方圖,由金字塔I = 0,1,2三層的直方圖向量(f),(g),(h)首尾鏈接而成;(c)為金字塔I = O層的邊緣圖像;⑷為金字塔I =I層的邊緣圖像;(e)為金字塔I = 2層的邊緣圖像;(f)為I = O層的梯度方向直方圖;(g)為I = I層的梯度方向直方圖;(h)為I = 2層的梯度方向直方圖。對于空間金字塔的第I層,沿著圖像的每一維有21個分割,那么該層就可以被分為41個塊。如果I = O層可以用K維的HOG特征來表示的話,即K維向量,那么I = I層就可以表示為4XK維向量,第I層可以表示為Wxk維向量,整個圖像的PHOG描述子的維數(shù)為KX Σ 41。
[0057]所述子空間基向量U1llam,U2h.,…,UnHaar使用與步驟2同樣的方法進行計算,只不過計算使用的圖像特征I為PHOG特征向量。
[0058]在本發(fā)明提出的基于金字塔表觀模型的目標跟蹤方法中,使用了包含形狀信息的PHOG特征,與像素灰度值特征、類Haar特征融合,使目標跟蹤更加魯棒,效果更加精確。
[0059]步驟5中目標跟蹤,具體為由每個物體在當前幀的狀態(tài)加上隨機擾動作為下一幀的粒子,并在下一幀里面得到目標的觀測值,將這些粒子的觀測與目標在當前幀的觀測分別進行金字塔表觀建模并進行比較,選擇最為相似的粒子對應的觀測作為被跟蹤的目標在下一幀的狀態(tài)。
[0060]目標跟蹤就是在下一幀尋找與當前幀最佳的匹配,之前已經(jīng)對跟蹤目標建立了金字塔表觀模型。在當前幀的狀態(tài)上面加上一組服從高斯分布的隨機擾動,作為在下一幀里面的K個粒子。找出這些粒子在下一幀圖像里面對應的觀測值,進行金字塔表觀建模,并提取每個分塊的像素灰度值特征、類Haar特征和PHOG特征來描述運動目標的亮度信息、紋理信息和形狀信息,分別用F1, F2, F3表不。對于任一粒子,假設金字塔分割后一共有η個分塊,則第j個分塊在第i種特征下與目標物體的重構誤差reu為:
[0061]
【權利要求】
1.一種基于金字塔表觀模型的運動目標跟蹤方法,其包括以下步驟: 步驟1:給出待跟蹤目標物體在初始幀里面的狀態(tài)和觀測; 步驟2:采用金字塔分割和增量主成分分析的方法對跟蹤目標進行金字塔表觀建模; 步驟3:在金字塔表觀模型中融入跟蹤目標的紋理信息; 步驟4:在金字塔表觀模型中融入跟蹤目標的形狀信息; 步驟5:將跟蹤目標在當前幀的狀態(tài)加上隨機擾動作為下一幀的粒子,將所得粒子的觀測與目標在當前幀的觀測分別進行金字塔表觀建模并進行比較,選定最為相似的粒子對應的觀測作為被跟蹤的目標在下一幀的狀態(tài); 步驟6:對選定觀測的金字塔表觀模型從低層至高層逐層計算所有分塊的重構誤差,并與設定的閾值進行比較,對重構誤差小于閾值的分塊進行表觀更新。
2.按照權利要求1所述的運動目標跟蹤方法,其特征在于,步驟I具體包括: 步驟11:將跟蹤目標在初始幀中的位置信息、旋轉角度、尺度、長寬比、長寬之間的角度作為初始狀態(tài),將跟蹤目標的圖像信息作為物體的觀測; 步驟12:運用模板匹配的方法得到接下來m幀的粗略跟蹤結果,作為初始m幀的狀態(tài),m為大于I的自然數(shù)。
3.按照權利要求1所述的運動目標跟蹤方法,其特征在于,步驟2中對目標進行金字塔表觀建模,包括步驟如下: 步驟21:對初始m幀中的跟蹤目標圖像進行三層金字塔分割; 步驟22:利用高斯核函數(shù)對金字塔每一層中的每個子塊分配不同的權重; 步驟23:利用主成分分析算法,對金字塔每層每個分塊學習一個低維的子空間表觀,并用增量主成分分析算法在線更新所述子空間的特征基和均值,進而在線更新跟蹤目標的表觀模型。
4.按照權利要求3所述的運動目標跟蹤方法,其特征在于,步驟23中所述子空間表觀的基向量如下獲得: 步驟231:根據(jù)所述初始m幀中跟蹤目標的圖像的每個分塊求出其對應的圖像平均值; 步驟232:根據(jù)所述圖像平均值求出每個分塊對應的協(xié)方差矩陣; 步驟233:將所述協(xié)方差矩陣的特征向量作為一個低維子空間的基向量。
5.按照權利要求1所述的運動目標跟蹤方法,其特征在于,步驟3中在金字塔表觀模型中融入跟蹤目標的紋理信息,包括步驟如下: 步驟31:利用跟蹤目標的金字塔表觀模型,對每個分塊按順序構造六種類Haar特征;步驟32:按金字塔層級由高到低,每層中分塊順序從左至右、從上至下,每個分塊中六種特征按定義的先后順序,將所有的類Haar特征組成特征向量; 步驟33:利用所述類Haar特征組成特征向量進行學習得到一組類Haar特征對應的低維子空間的基向量。
6.按照權利要求5所述的運動目標跟蹤方法,其特征在于,所述六種類Haar特征分別是:橫向兩個相鄰分塊像素值和之差,縱向兩個相鄰分塊像素值和之差,對角線兩個分塊像素值和之差。
7.按照權利要求1所述的運動目標跟蹤方法,其特征在于,步驟4中在金字塔表觀模型中融入跟蹤目標的形狀信息,包括步驟如下:步驟41:利用跟蹤目標的金字塔表觀,分層分塊地在每塊圖像上統(tǒng)計HOG特征直方圖; 步驟42:將每個分塊的HOG特征直方圖按金字塔層級由高到低,每層中子塊從左至右、從上至下的順序連接起來,組成PHOG特征向量;步驟43:利用所述PHOG特征向量進行學習得到一組PHOG特征對應的低維子空間的基向量。
8.按照權利要求1所述的運動目標跟蹤方法,其特征在于,步驟5包括步驟如下: 步驟51:將每個跟蹤目標在當前幀的狀態(tài)上加上隨機擾動,作為該物體在下一幀里面的粒子; 步驟52:將這些粒子的觀測與跟蹤目標在當前幀的觀測分別進行金字塔表觀建模并進行比較,選擇最為相似的粒子對應的觀測作為被跟蹤的目標在下一幀的狀態(tài)。
9.按照權利要求8所述的運動目標跟蹤方法,其特征在于,步驟52中與跟蹤目標在當前幀的觀測最為相似的粒子為如下所示后驗概率最大的粒子:
10.按照權利要求9所述的運動目標跟蹤方法,其特征在于,所述粒子的觀測和跟蹤目標在t-Ι幀的觀測相似度s如下計算:
【文檔編號】G06T7/20GK103714556SQ201410005499
【公開日】2014年4月9日 申請日期:2014年1月6日 優(yōu)先權日:2014年1月6日
【發(fā)明者】胡衛(wèi)明, 劉洋 申請人:中國科學院自動化研究所