專利名稱::對圖像中的對象進行定位的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明總體上涉及對圖像序列中的對象進行跟蹤,并且更具體地涉及對非線性運動的對象的檢測和跟蹤。
背景技術(shù):
:跟蹤是對圖像序列中的對象的運動進行估計的過程。對象跟蹤方法通常要求首先在某個初始圖像中檢測到對象。然后,可以在隨后的圖像中跟蹤該對象。各種對象檢測方法太多,而無法一一列舉。跟蹤方法可以分為狀態(tài)空間估計器方法或模型對準方法。狀態(tài)空間估計器方法狀態(tài)空間估計器方法典型地使用馬爾可夫過程(Markovianprocess)并構(gòu)建運動參數(shù)的概率密度函數(shù)(pdf)。例如,卡爾曼濾波(Kalmanfiltering)使用正態(tài)分布。然而,卡爾曼濾波方法不能描述多峰(multi-modal)分布。蒙特卡洛積分(MonteCarlointegration)方法(例如粒子濾波)可以跟蹤包括對象姿態(tài)的任意參數(shù)化變化。然而,特別是對于更高維表示,依賴于隨機采樣的這些方法會使估計出的似然度退化(degenerate)。此夕卜,這些方法的計算需求隨狀態(tài)變量的數(shù)量成指數(shù)增長,這使得這些方法不適于跟蹤復雜的姿態(tài)變化。模型對準(modelalignment)方法模型對準方法基于對象模型和在圖像中看到的對象之間的差異而定義代價函數(shù)。通過最小化運動參數(shù)來求解該代價函數(shù)。一個示例為光流估計,其中對象模型和圖像強度之間的差的平方和被最小化為迭代最小平方問題。該方法的主要難點在于該方法要求對每次迭代計算圖像梯度、雅可比(Jacobian)矩陣和海賽(Hessian)矩陣,這使得該方法較慢。其他模型對準方法通過另選地列出運動和相關(guān)代價函數(shù)的關(guān)系式而克服這一難點。在一些方法中,該運動通過使用離線過程中學習的圖像梯度的線性函數(shù)來估計。該想法被擴展到使用相關(guān)向量機來學習從圖像到運動的非線性映射。然而,這些方法通過線性化來估計對運動參數(shù)的加性(additive)更新。因此,這些方法不能跟蹤非線性運動。運動估計的李群(LieGroup)理論對于使用均值偏移(meanshift)運算的剛體運動估計,李代數(shù)可以被用來找到具有歐幾里德(Euclidean)運動群結(jié)構(gòu)的分布模式。己知當運動較大時,均值偏移可能失敗。向量加法運算定義在李代數(shù)上以對一系列仿射運動進行積分,來跟蹤仿射"蛇形"(affmesnake)。在李代數(shù)上執(zhí)行加性更新來進行模板跟蹤。然而,該方法未能解決矩陣乘法的不可交換性,并且進行的估計僅在對象的初始變換附近有效。期望在對象非線性運動的同時跟蹤圖像序列中的對象。還期望檢測初始圖像中的對象。此外,如果作為檢測和跟蹤的基礎(chǔ)的方法可以相同的話,將是有利的。
發(fā)明內(nèi)容本發(fā)明的實施方式提供了對圖像序列中的對象進行檢測和跟蹤的方法。在訓練期間,確定回歸函數(shù)/。該回歸函數(shù)將對象描述符與對象運動關(guān)聯(lián)起來。在優(yōu)選實施方式中,這些描述符是方位直方圖(orientationhistogram)。方位直方圖對于像素強度(pixelintensity)變化相對不敏感,而對于大的對象運動是精確的。對象運動具有矩陣李群結(jié)構(gòu)。該運動包括大多數(shù)常見的變換,例如歐幾里德運動、相似性變換、仿射運動以及平面單應(yīng)性(planarhomography)。因為這些運動不依賴于歐幾里德空間,所以回歸函數(shù)通過最小化誤差函數(shù)來確定底空間(underlyingspace)的幾何形狀?,F(xiàn)有技術(shù)的方法將運動線性化,這隱式地做出了歐幾里德空間的假設(shè)。這對于非線性運動來說是不確切的。因此,本發(fā)明使用矩陣李群結(jié)構(gòu)來描述對象的運動。本發(fā)明在李代數(shù)上構(gòu)建了對象運動的模型。該模型最小化了對測地線(geodesic)誤差的平方和的一階近似。本發(fā)明使用嶺回歸(ridgeregression)來更新該對象模型,這使得甚至能夠以少量的圖像的訓練集也能夠準確地進行對象運動的學習。本方法在計算上是高效的,并且實時地工作。還能夠在序列的初始目標圖像中檢測到對象。在已經(jīng)檢測到對象之后,可以對該對象進行跟蹤。本發(fā)明的實施方式使用相同的回歸函數(shù)和李代數(shù)結(jié)構(gòu)來執(zhí)行對象檢測和對象跟蹤。圖1是根據(jù)本發(fā)明一個實施方式的對圖像序列中的對象進行跟蹤的方法的流程圖;圖2是根據(jù)本發(fā)明一個實施方式的對象坐標下的對象和圖像坐標下的對象之間的雙向變換的圖;圖3是具有根據(jù)本發(fā)明一個實施方式的利用方位直方圖來表示跟蹤區(qū)域的框圖;圖4是根據(jù)本發(fā)明實施方式的用于訓練回歸函數(shù)的方法的框圖;圖5包括根據(jù)本發(fā)明一個實施方式的訓練集的圖像;圖6是針對本發(fā)明一個實施方式的跟蹤方法的偽代碼的框圖;圖7是使用圖4的經(jīng)過訓練的回歸函數(shù)來檢測圖像中的對象的方法的流程圖。具體實施方式方法概述圖1示出了根據(jù)本發(fā)明實施方式對圖像序列/i110中的運動對象115進行跟蹤的方法和系統(tǒng)100。圖像序列110可由攝像機102獲取。另選地,圖像序列110可以從持久性存儲器或通信接口提供給方法100。不失一般性,針對對象115的非線性運動來描述方法100。然而,該方法可以對具有任何運動類型的對象進行跟蹤。方法100可以運行在連接到顯示設(shè)備103的處理器或微處理器中,顯示設(shè)備103例如為本領(lǐng)域公知的電視機、投影儀、回放設(shè)備、攝像機或計算機。顯示設(shè)備可以用于由該系統(tǒng)的用戶來觀察對象的運動。計算機通常包括由總線連接的一個或更多個處理單元和/或微控制器、存儲器以及輸入/輸出接口。存儲器可以包括用于儲存如下所述當前圖像的易失性存儲器,例如RAM。處理器還可以訪問儲存有圖像序列110的持久性存儲器(例如,諸如錄像帶和DVD的可移除儲存介質(zhì))以及通信接口(例如,機頂盒、網(wǎng)絡(luò)接口等)。應(yīng)當理解,當實時地獲取圖像序列110時,該方法也可以對對象進行跟蹤。對我們方法的輸入為圖像序列。包括對象的初始圖像可以被稱為訓練圖像。其中需要檢測或跟蹤對象的隨后圖像可以被稱為目標圖像。對于對象檢測,該序列可以限于訓練圖像和一個目標圖像。對于圖像序列110中的每個當前(目標)圖像120,我們在位置160處確定(200)對象描述符130。位置160對應(yīng)于先前處理過的圖像中的對象115的位置。如我們在下面描述的,對象的位置由跟蹤區(qū)域限定,該跟蹤區(qū)域圍繞圖像坐標下的圖像內(nèi)的對象。接著,我們對對象描述符130應(yīng)用(400)回歸函數(shù)/(140)。因為該函數(shù)和描述符為矩陣,所以該應(yīng)用基本上為矩陣乘法?;貧w函數(shù)的應(yīng)用的輸出為運動AM(150)。運動AM(150)對應(yīng)于對象115從前一圖像到當前圖像120的運動。運動150被用來更新(170)跟蹤區(qū)域在當前圖像中的位置。然后,經(jīng)更新位置處的跟蹤區(qū)域可以用于對圖像序列110中下一(當前)圖像內(nèi)的對象進行跟蹤。跟蹤方法形式化(formalization)針對對象115的參數(shù)化(parametric)運動變換A(2)來描述本發(fā)明的實施方式。參數(shù)化變換是應(yīng)用于給定變量的參數(shù)的函數(shù)。這些變量包括像素特征、區(qū)域特征、像素坐標以及區(qū)域坐標。例如,這些參數(shù)包括仿射、投影運動變換以及可以由有限數(shù)量的參數(shù)表示的其他線性和非線性運動變換、剛體和非剛體運動變換。還可以利用例如相似性變換《2)和歐幾里德運動S五(2)的其他運動變換而使用本發(fā)明。2維參數(shù)化變換^2)由以下3x3矩陣給出「<formula>formulaseeoriginaldocumentpage9</formula>其中A為用于表示旋轉(zhuǎn)、縮放以及傾斜(skew)的非奇異2x2矩陣,并且be^。所有參數(shù)化變換的集合形成矩陣李群結(jié)構(gòu)。李群是可微的簇。對該群的運算與平滑結(jié)構(gòu)兼容。因為李群是簇,所以可以利用微分學對其進行運算。如李代數(shù)中公知的,可以用局部的或線性化的李群來替代全局的李群。李代數(shù)是可以對幾何對象(諸如李群和可微的簇)進行運算的代數(shù)結(jié)構(gòu)。圖2示出了在對象坐標和圖像坐標下對象115的位置的雙向位置變換M和M"。在對象坐標下對象115的位置為單位正方形201。在圖像坐標下對象115的位置為圖像202的跟蹤區(qū)域160。仿射矩陣M根據(jù)下式將坐標原點203處的單位正方形201變換為包含圖像中的對象的跟蹤區(qū)域160其中,下標分別表示對象坐標(obj)和圖像坐標(img)。逆變換M-'也是仿射矩陣,并將圖像坐標160下的對象變換為對象坐標201下的對象。令/表示輸入圖像110,t為時間(幀)索引。給定到時間t的圖像(即Io...t)和初始位置變換M。,跟蹤對位置變換矩陣M,進行估計。下面描述用于檢測初始圖像中的對象的方法。位置變換矩陣M,定義對象坐標下的時間t處的跟蹤區(qū)域160的位置。我們將位置變換矩陣建模為M,=MM.AM,,(3)并估計每一時間(幀)t處的運動變換AM。運動變換AM對應(yīng)于在對象坐標203下對象從時間t-l到時間t的運動。對象坐標下的圖像為/(M-1)。我們考慮跟蹤區(qū)域160內(nèi)的像素值并用諸如梯度方位直方圖的描述符來表示該區(qū)域。描述符(觀察值)為0(M-')e9T,其中m為描述符o(130)的維數(shù)。我們將跟蹤定義為矩陣估值回歸問題。給定由先前處理過的圖像M,一,的位置變換矩陣(即跟蹤區(qū)域)表示的對象的前一位置以及當前圖像/t,我們使用下面的回歸函數(shù)140來估計運動變換AM,150AM,=/(。)。(4)因此,如下所述,跟蹤簡化為訓練并更新回歸函數(shù)/(MO)。對象描述符圖3示出了包含對象115的單位正方形201的表示。單位正方形包括在對象坐標下單位正方形201內(nèi)的規(guī)則網(wǎng)格處確定的幾個梯度方位直方圖。與尺度不變特征變換(SIFT)描述符類似,每個像素對直方圖的貢獻與該像素的梯度大小成比例。單位正方形301被劃分成6x6=36個塊302,并且針對每個塊確定直方圖,見D丄owe,"Distinctiveimagefeaturesfromscale-invariantKeypoints",Intl,J.ofComp.Vision,60(2):91-110,2004,通過引用將其合并于此。在0和2;r度之間以;r/6度來量化每個直方圖中的方位。因此,每個直方圖為12維,并且對象描述符o為432維。在跟蹤期間,跟蹤區(qū)域中的外圍像素經(jīng)常受到背景的影響。因此,在本發(fā)明的一個實施方式中,我們在跟蹤區(qū)域的外圍附近留出10%邊界,并確定單位正方形301內(nèi)的對象的描述符。回歸函數(shù)圖4示出了根據(jù)本發(fā)明的實施方式訓練回歸函數(shù)/(140)的方法。訓練結(jié)果是對回歸系數(shù)fi的估計。回歸系數(shù)將對象描述符o與運動變換AM關(guān)聯(lián)起來。對于對象跟蹤和對象檢測,回歸函數(shù)的訓練方式和將回歸函數(shù)應(yīng)用于圖像的方式是相同的。訓練集在訓練期間,對象115的初始位置由序列110的初始(訓練)圖像10420中的初始跟蹤區(qū)域160來近似。跟蹤區(qū)域160通常根據(jù)圖像坐標來表示對象115的位置。因此,在對象坐標下的對象115的位置的位置變換矩陣M。(460)也是已知的。對于對象檢測,向訓練提供包括對象的訓練圖像,見圖7。我們基于對象的初始位置M。(460)而生成(430)n個隨機參數(shù)化運動變換矩陣(AM}!.-,...的集合。每個矩陣描述了對象115從初始位置M。460起可能的運動,例如平移、旋轉(zhuǎn)、縮放、傾斜及其組合。通過乘以運動變換AM,-'而對位置M。(460)處的對象115進行變換。新的描述符為oi^o。(AM「'.M力。運動變換AM,使對象運動到單位正方形201。每個運動變換AM與位置M。(460)處的對象115的描述符o相關(guān)聯(lián)。運動變換確定了訓練集410。訓練集410包括n個樣本K,AM,〉。圖5示出了初始訓練集410的示例501-504。我們用符號AM表示訓練期間的運動,并表示跟蹤期間估計出的運動。下標/指代訓練集中的樣本,時間索引^指代跟蹤期間的估計出的運動。在一些實施方式中,每個當前圖像120用于在跟蹤期間更新訓練集。這使得回歸函數(shù)適應(yīng)于外觀和照明的變化。回歸函數(shù)/:9T4^(2)為仿射矩陣。因此,考慮仿射矩陣的結(jié)構(gòu)。用于線性運動估計的常規(guī)方法使用運動AM(p)的參數(shù)化,并在初始值附近線性化△M(p0+Ap)AM(p0)+"^^Ap。(5)因為常規(guī)變換是在單位矩陣附近,所以在AM(p。)-I處執(zhí)行線性化。常規(guī)方法通過估計增量Ap而前進。常規(guī)方法有兩個主要優(yōu)點。首先,近似(approximation)對參數(shù)做出向量空間假設(shè)。第二,參數(shù)化是任意的,并且不考慮運動的結(jié)構(gòu)。我們使用李群代數(shù)來從訓練集410訓練回歸函數(shù)/(410)。運動變換AM(150)在李代數(shù)上建模為描述符。(130)的線性函數(shù)。李群一個d維簇是一個拓撲空間,其與歐幾里德空間局部地類似。該簇上的每個點具有存在同胚的鄰域,該同胚將該鄰域映射到^??晌⒋貪M足平滑約束。因此,能夠定義該簇上的曲線的導數(shù)。該簇上點M處的導數(shù)位于向量空間中,該向量空間是該點處的切空間(tangentspace)。李群是具有可微簇的結(jié)構(gòu)的群G,從而群運算、乘法以及逆是可微映射。對該群的單位元素I的切空間形成李代數(shù)g。我們用黑體大寫字母指代群上的點,并用黑體小寫字母指代李代數(shù)上的向量。簇上的距離是通過連接這些點的曲線的長度來測量,并且最小長度曲線被稱為測地線。對于單位元素I,存在以向量msg開始的唯一測地線。指數(shù)映射exp:g—G將向量m映射到該測地線到達的點。如果exp(m)=M,則測地線的長度為yO(I,M)=||aw||。通常,指數(shù)映射是滿射(onto)而不是一對一的。因此,逆映射bg:G—g僅唯一限定在單位元素I的鄰域附近。如果對于任何MeG,存在幾個meg從而M^exp(m),則選擇log(M)作為具有最小范數(shù)的向量。左乘群元素的逆M":G—G將點M映射到I,并將M處的切空間映射到同構(gòu)(isomorhism)的李代數(shù)。利用該映射和測地線定義,通過下式測量兩個群元素之間的距離p(M!,M2Hllog(Mr'M2)l卜(6)我們在本發(fā)明的實施方式中使用的變換,例如仿射運動A(2)、相似性變換S(2)以及歐幾里德運動SE(2),是一般線性群GL(3,R)的封閉子群,該一般線性群GL(3,R)為3x3非奇異方陣的群。通過下式定義矩陣的指數(shù)映射和它的逆(對數(shù)映射)exp(m):^丄m"log(M)=S^^(M-1)"。(7)通常,指數(shù)映射不滿足等式exp(m,)exp(m2)-exp(m,+m2)。該映射通過以下的Baker-Campbell-Hausdorff公式由exp(m,)exp(m2"exp(5C7/(m,,m2))定義,Baker-Campbell-Hausdorff公式為^//(mpii^)-!^+m2+*[m1,ra2]+0(|(m1,m2)!3)(8)其中[邁,,m,;hm,i^-m2in,為李括號運算。上面描述了仿射矩陣的結(jié)構(gòu)。該空間為6維簇。仿射群的李代數(shù)是以下矩陣的集合/"Uv、m=:(9)其中,U為2x2矩陣,并且ve5R2。通過選擇矩陣U中的每個元素和向量v作為規(guī)范正交基,矩陣m有時被稱作6維向量?;貧w函數(shù)訓練在基于訓練集410的訓練(480)期間,估計回歸系數(shù)i2(470)?;貧w系數(shù)470將對象描述符o與運動變換AM關(guān)聯(lián)起來。出于此描述目的,回歸系數(shù)Q(470)等價于回歸函數(shù)140。訓練集410包括如上所述的描述符和運動變換(《AMJ。仿射運動矩陣不在向量空間上,并且兩個運動之間的常規(guī)歐幾里德距離不是有效然而,仿射運動確實位于可微簇上。在這種情況下,有意義的誤差函數(shù)是回歸估計AO和運動變換AM,之間的測地線距離的平方和<formula>formulaseeoriginaldocumentpage13</formula>(10)令M,和M,為兩個運動矩陣,并且令m,-log(M,)以及m,log(M2)。使用式(8)的BCH公式,對這兩個運動矩陣之間的測地線距離的一階近<formula>formulaseeoriginaldocumentpage13</formula>(11)如果我們基于李代數(shù)選擇d規(guī)范正交,則我們可以確定矩陣范數(shù)為兩個向量之間的歐幾里德距離。根據(jù)式(8)的BCH公式和李括號運算的定義,對于較小的變換來說,近似好,從而m,和m,接近于零,或者等價地,M,和M2接近于單位矩陣I。使用式(11),式(10)的誤差函數(shù)等同于最小化下式到一階項<formula>formulaseeoriginaldocumentpage13</formula>。(12)因為變換是在單位矩陣的小的鄰域內(nèi),所以近似足夠準確。我們將回歸函數(shù)定義為Xo),(g(o)),(13)并且確定函數(shù)g:9Tw9^,該函數(shù)在李代數(shù)上對切矢量log(AM)進行估計。我們將函數(shù)g建模為描述符的線性函數(shù)g(o)=orQ,(14)其中fl為回歸系數(shù)的mxd矩陣。令X為初始描述符的nxm矩陣,Y為到李代數(shù)的運動的映射的nxd矩陣<table>tableseeoriginaldocumentpage14</column></row><table>這里,log(AM,)是d維向量形式。將式(13)和(14)代入式(12),我們得到/。=R[(XQ-Y)r(XQ-Y)〗,(16)其中跡(tr)替代了式(12)中的求和。跡是主對角線上元素的和。如果我們將誤差函數(shù)Ja對n求導,則最小值為Q"X、)-'xrY。對于實時跟蹤,描述符的數(shù)量相對較少,例如n=200。因為描述符的數(shù)量小于特征空間的維數(shù),m=432,n<m,所以系統(tǒng)是欠定的(underdetermined),并且XTX變?yōu)橹忍澋?rankdeficient)。在這種情況下,估計使訓練誤差為零。然而,該誤差并不推廣到未來的預測,這被稱為過擬合(overfitting)。為了避免過擬合,我們對回歸系數(shù)的大小提供附加的約束,-Y)r(Xf2-Y)〗+A||n|i2,(17)這就是嶺回歸。嶺回歸用于求解很差約束的線性回歸問題。誤差函數(shù)厶的最小值為Q—xrx+;ii)-'x7'Y,(18)其中I為mxm單位矩陣。正則系數(shù)A確定了回歸系數(shù)的收縮度。系數(shù)A的較大值使運動穩(wěn)定,而較小值允許幀到幀的較大運動。系數(shù)義的最優(yōu)值通過對訓練序列的交叉驗證(crossvalidation)來選擇,而A在整個跟蹤中保持恒定?;貧w函數(shù)更新對象115的外觀可以隨時間而改變。場景中的照明量也可以改變。對于跟蹤自然界戶外環(huán)境中的對象尤其如此。因此,我們根據(jù)先前處理過的圖像和跟蹤區(qū)域來更新(450)訓練集410。在我們的實施方式中,模型更新(450)是指重新估計回歸函數(shù)/,或者等價地重新估計回歸系數(shù)Q。在跟蹤步驟期間,如上所述,我們生成跟蹤區(qū)域160的幾個(例如k=2)隨機描述符。令X"和Yu為更新后的描述符和以如式(15)所述的矩陣形式儲存的運動變換,并且Q'為先前的模型參數(shù)。在跟蹤每P個幀之后,我們通過最小化以下誤差函數(shù)來更新回歸函數(shù)的系數(shù)<formula>formulaseeoriginaldocumentpage15</formula>。(19)該誤差函數(shù)與式(17)類似。我們將誤差函數(shù)Ju對回歸系數(shù)Q求導。最小值為<formula>formulaseeoriginaldocumentpage15</formula>(20)參數(shù)/對允許回歸參數(shù)從上一次估計改變的量進行控制。對象跟蹤圖6示出了我們的對象跟蹤方法的偽代碼。我們對回歸函數(shù)/(140)進行訓練。該跟蹤使用式(4)來估計對象從圖像到圖像的運動(150),并使用式(3)更新(170)位置M??梢酝ㄟ^用回歸函數(shù)/重復運動估計來改善跟蹤。當估計出的運動AM,變得等于單位矩陣(identity),或者對象在當前估計出的位置處的似然度變得小于對象在前一位置處的似然度時,迭代結(jié)束。在時間t對象位于位置M處的似然度為<formula>formulaseeoriginaldocumentpage15</formula>(21)其中對象在前一位置處的描述符與對象在當前位置處的描述符進行比較。通常,每個圖像1或2次迭代足夠用于對對象進行跟蹤。對象檢測圖7示出了根據(jù)本發(fā)明的實施方式來檢測目標圖像702中的對象區(qū)域的方法。我們從包括訓練區(qū)域710中的對象的(初始)訓練圖像701開始。我們不知道對象在現(xiàn)實世界坐標下或者關(guān)于目標圖像中的對象姿態(tài)的相對姿態(tài)。對于姿態(tài),我們意指對象的3D位置和3D方位。例如,訓練圖像中汽車的視圖可以為側(cè)面,而目標圖像中相同汽車的視圖可以為正面。因為姿態(tài)可以不同,所以對象的大小在兩個圖像中也可以不同。我們從訓練圖像701生成對象描述符715,例如描述符為如上述方位直方圖。另選地,可以使用其他描述符,例如外觀、統(tǒng)計。我們根據(jù)變換參數(shù)730將多個參數(shù)化變換720應(yīng)用于訓練區(qū)域710,以產(chǎn)生變換后的區(qū)域740。典型地,存在數(shù)百個這些變換。每個變換使對象產(chǎn)生不同的姿態(tài)。如上所述,變換參數(shù)730被映射到李代數(shù)。我們?yōu)槊總€變換后的區(qū)域740確定(750)描述符751。我們將描述符751和參數(shù)730映射到李代數(shù),并如上針對圖4所述地訓練(760)回歸函數(shù)(RF)761。我們將目標圖像702劃分成多個窗口770。因為我們不知道目標圖像中對象的大小和位置,所以存在許多不同大小和位置的窗口。對于每個窗口,我們確定(780)窗口描述符785,并通過矩陣乘法確定到該描述符的回歸函數(shù)761,以確定收斂的窗口。對于每個收斂的窗口790,我們確定窗口描述符792。我們測量(795)從目標圖像702獲得的每個窗口描述符和從訓練區(qū)域701獲得的對象描述符之間的相似性分數(shù)。具有最高相似性分數(shù)的窗口對應(yīng)于檢測到的對象的位置796。在其他維下的檢測和跟蹤上面用于對象檢測和跟蹤的方法可以擴展到其他維。例如,我們可以檢測和跟蹤在3D空間中的3D對象。在相應(yīng)的更高或更低的維數(shù)下定義參數(shù)化變換和描述符。例如,可以通過表面圖(surfacemap)、體積數(shù)據(jù)或3D范圍數(shù)據(jù)定義3D對象。發(fā)明效果相對于常規(guī)的對象跟蹤,根據(jù)本發(fā)明的實施方式的檢測和跟蹤對象的方法具有以下優(yōu)點。本方法使用方位直方圖而不是常規(guī)方法中使用的像素強度來跟蹤運動。當運動較大時,直方圖提供了精確的估計。并且,方位直方圖對對象的照明和外觀變化不敏感。本方法使用運動群的李代數(shù),該李代數(shù)可以更好地估計非線性運動。本方法使用嶺回歸來實時更新運動模型。本發(fā)明可以用于跟蹤具有任何矩陣李群結(jié)構(gòu)運動的對象。盡管已經(jīng)以優(yōu)選實施方式為例描述了本發(fā)明,但是應(yīng)當理解,在本發(fā)明的精神和范圍內(nèi)可以做出各種其他改變和修改。因此,所附權(quán)利要求的目的是涵蓋落入本發(fā)明的精神和范圍內(nèi)的所有這種變化和修改。權(quán)利要求1.一種對圖像中的對象進行定位的方法,該方法包括以下步驟將參數(shù)化變換的集合應(yīng)用于訓練圖像中的區(qū)域,以確定變換后的區(qū)域的集合,其中所述參數(shù)化變換的參數(shù)被映射到李代數(shù),并且所述區(qū)域包括對象;確定針對每個變換后的區(qū)域的對象描述符;根據(jù)所述參數(shù)化變換的集合和所述對象描述符的集合來訓練回歸函數(shù);從目標圖像確定所述對象描述符;以及將所述回歸函數(shù)應(yīng)用于所述目標圖像的所述對象描述符,以確定所述對象在所述目標圖像中的位置。2.根據(jù)權(quán)利要求1所述的方法,該方法進一步包括以下步驟-針對運動對象的目標圖像序列中的每個目標圖像確定所述對象描述符;以及對每個對象描述符應(yīng)用所述回歸函數(shù)以確定所述運動對象的所述位置。3.根據(jù)權(quán)利要求2所述的方法,該方法進一步包括以下步驟根據(jù)所述運動對象的所述位置來更新所述區(qū)域的位置。4.根據(jù)權(quán)利要求1所述的方法,其中所述參數(shù)化變換是仿射變換。5.根據(jù)權(quán)利要求1所述的方法,其中所述參數(shù)化變換是投影變換。6.根據(jù)權(quán)利要求2所述的方法,其中所述圖像對應(yīng)于表面圖。7.根據(jù)權(quán)利要求1所述的方法,其中每個圖像為體積數(shù)據(jù)集,并且所述位置為三維的。8.根據(jù)權(quán)利要求1所述的方法,其中所述參數(shù)通過矩陣對數(shù)運算而被映射到所述李代數(shù)。9.根據(jù)權(quán)利要求1所述的方法,其中所述區(qū)域被映射到單位區(qū)域,以確定所述對象描述符。10.根據(jù)權(quán)利要求1所述的方法,其中所述對象描述符是方位直方圖。11.根據(jù)權(quán)利要求1所述的方法,其中所述對象描述符是協(xié)方差矩陣。12.根據(jù)權(quán)利要求2所述的方法,其中對所述應(yīng)用進行重復,直到所述運動對象的所述位置的似然度小于所述對象的前一位置的似然度。13.根據(jù)權(quán)利要求1所述的方法,其中所述對象描述符和所述回歸函數(shù)是矩陣,并且所述應(yīng)用是矩陣乘法。14.根據(jù)權(quán)利要求2所述的方法,其中在時間t處所述區(qū)域的所述位置由位置變換矩陣M,來描述,并且在該時間t處所述對象的所述運動由運動變換AM,來描述,使得M,-M,—.AM,。15.根據(jù)權(quán)利要求14所述的方法,其中所述回歸函數(shù)為/,所述對象描述符為o(M-')e5T',其中m為所述對象描述符的維數(shù),并且所述運動變換是<formula>formulaseeoriginaldocumentpage3</formula>。16.根據(jù)權(quán)利要求2所述的方法,該方法進一步包括以下步驟針對每個目標圖像更新所述回歸函數(shù)的系數(shù)。17.根據(jù)權(quán)利要求1所述的方法,該方法進一步包括以下步驟將所述目標圖像劃分成多個窗口;確定每個窗口的所述對象描述符;將所述回歸函數(shù)應(yīng)用于每個窗口的所述對象描述符,以確定每個窗口的收斂窗口;確定每個收斂窗口的窗口描述符;將所述區(qū)域的所述對象描述符與每個窗口描述符進行比較,以確定每個收斂窗口的相似性分數(shù);以及選擇與具有最高分數(shù)的所述收斂窗口相關(guān)聯(lián)的所述窗口,作為所述對象在所述目標圖像中的所述位置。18.—種對圖像中的對象進行定位的系統(tǒng),該系統(tǒng)包括用于將參數(shù)化變換的集合應(yīng)用于訓練圖像中的區(qū)域以確定變換后的區(qū)域的集合的裝置,其中所述參數(shù)化變換的參數(shù)被映射到李代數(shù),并且所述區(qū)域包括對象;用于確定針對每個變換后的區(qū)域的對象描述符的裝置;用于根據(jù)所述參數(shù)化變換的集合和映射到所述李代數(shù)的所述對象描述符的集合來訓練回歸函數(shù)的裝置;用于從目標圖像確定所述對象描述符的裝置;以及用于將所述回歸函數(shù)應(yīng)用于所述目標圖像的所述對象描述符以確定所述對象在所述目標圖像中的位置的裝置。全文摘要本發(fā)明涉及對圖像中的對象進行定位的方法和系統(tǒng)。本發(fā)明描述了用于檢測和跟蹤圖像序列中的對象的方法和系統(tǒng)。對于每個圖像,本發(fā)明針對圖像序列中當前圖像內(nèi)的跟蹤區(qū)域確定對象描述符,其中所述跟蹤區(qū)域?qū)?yīng)于對象在前一圖像中的位置。將回歸函數(shù)應(yīng)用于所述描述符以確定所述對象從所述前一圖像到所述當前圖像的運動,其中所述運動具有矩陣李群結(jié)構(gòu)。使用所述對象的所述運動來更新所述跟蹤區(qū)域的所述位置。文檔編號G06T7/20GK101398934SQ20081016581公開日2009年4月1日申請日期2008年9月23日優(yōu)先權(quán)日2007年9月27日發(fā)明者恩杰爾·C·圖澤爾,法提赫·M·波里克利申請人:三菱電機株式會社