本發(fā)明涉及電子技術(shù)領(lǐng)域,尤其涉及一種目標(biāo)跟蹤方法及電子設(shè)備。
背景技術(shù):
基于在線學(xué)習(xí)的視覺(jué)跟蹤技術(shù)在近年來(lái)興起之后,成為視覺(jué)跟蹤的一個(gè)熱點(diǎn)。此類方法在沒(méi)有任何離線學(xué)習(xí)的先驗(yàn)經(jīng)驗(yàn)的前提下,根據(jù)初始幀畫(huà)面中指定的跟蹤目標(biāo)提取特征模板,訓(xùn)練模型用于后續(xù)視頻中對(duì)于該目標(biāo)的跟蹤,在跟蹤過(guò)程中,根據(jù)跟蹤狀態(tài)更新模型,以適應(yīng)目標(biāo)的姿態(tài)變化。該類方法不需要任何的離線訓(xùn)練,可以對(duì)用戶指定的任何物體進(jìn)行跟蹤,具有較高的通用性。
但是,由于跟蹤目標(biāo)的特征及模板單一,在目標(biāo)的跟蹤過(guò)程中,很難判斷目標(biāo)是否跟丟;并且在目標(biāo)跟丟之后,跟蹤模板的持續(xù)更新會(huì)使誤差被持續(xù)放大,導(dǎo)致目標(biāo)難以找回,難以形成穩(wěn)定的跟蹤系統(tǒng)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例通過(guò)提供一種目標(biāo)跟蹤方法及電子設(shè)備,解決了現(xiàn)有技術(shù)中的在線學(xué)習(xí)的視覺(jué)跟蹤方法,存在無(wú)法判斷跟蹤目標(biāo)是否跟丟,以及跟丟后難以找回跟蹤目標(biāo)的技術(shù)問(wèn)題。
一方面,本發(fā)明通過(guò)本發(fā)明的一實(shí)施例提供如下技術(shù)方案:
一種目標(biāo)跟蹤方法,應(yīng)用于電子設(shè)備中,所述電子設(shè)備具有圖像采集單元,所述圖像采集單元用于采集圖像數(shù)據(jù),所述方法包括:
在所述圖像數(shù)據(jù)的初始幀圖像中確定一跟蹤目標(biāo);
在所述圖像數(shù)據(jù)的后續(xù)幀圖像中提取多個(gè)候選目標(biāo),所述后續(xù)幀圖像是所述初始幀圖像之后的任一幀圖像;
計(jì)算出每個(gè)候選目標(biāo)與所述跟蹤目標(biāo)的相似度;
將所述多個(gè)候選目標(biāo)中的與所述跟蹤目標(biāo)的相似度最高的候選目標(biāo)確定為所述跟蹤目標(biāo)。
優(yōu)選地,所述在圖像數(shù)據(jù)的初始幀圖像中確定一跟蹤目標(biāo),包括:
在通過(guò)顯示屏輸出所述初始幀圖像時(shí),獲取用戶的選擇操作;基于用戶的選擇操作,在所述初始幀圖像中確定所述跟蹤目標(biāo);或者
獲取用于描述所述跟蹤目標(biāo)的特征信息;基于所述特征信息,在所述初始幀圖像中確定所述跟蹤目標(biāo)。
優(yōu)選地,所述在圖像數(shù)據(jù)的后續(xù)幀圖像中提取多個(gè)候選目標(biāo),包括:
確定所述跟蹤目標(biāo)在第i-1幀圖像中的第i-1包圍框,其中,所述第i-1幀圖像屬于所述圖像數(shù)據(jù),i為大于等于2的整數(shù);在i等于2時(shí),所述第i-1幀圖像即為所述初始幀圖像;
基于所述第i-1包圍框,在第i幀圖像中確定第i圖像塊,其中,所述第i幀圖像即為所述后續(xù)幀圖像,所述第i圖像塊的中心與所述第i-1包圍框的中心位置相同,所述第i圖像塊的面積大于所述第i-1包圍框的面積;
在所述第i圖像塊內(nèi)確定所述多個(gè)候選目標(biāo)。
優(yōu)選地,所述計(jì)算出每個(gè)候選目標(biāo)與所述跟蹤目標(biāo)的相似度,包括:
從所述多個(gè)候選目標(biāo)中選出第一候選目標(biāo),其中,所述第一候選目標(biāo)是所述多個(gè)候選目標(biāo)中的任一候選目標(biāo);
計(jì)算所述第一候選目標(biāo)的第一顏色特征向量,以及計(jì)算所述跟蹤目標(biāo)的第二顏色特征向量;
計(jì)算所述第一顏色特征向量和所述第二顏色特征向量的距離,其中,所述距離即為所述第一候選目標(biāo)與所述跟蹤目標(biāo)的相似度。
優(yōu)選地,所述計(jì)算所述第一候選目標(biāo)的第一顏色特征向量,以及計(jì)算所述跟蹤目標(biāo)的第二顏色特征向量,包括:
將所述第一候選目標(biāo)的圖像進(jìn)行主成分分割,獲得第一mask圖像;以及, 將所述跟蹤目標(biāo)的圖像進(jìn)行主成分分割,獲得第二mask圖像;
將所述第一mask圖像和所述第二mask圖像縮放至相同大??;
將所述第一mask圖像平均分成M個(gè)區(qū)域;以及,將所述第二mask圖像平均分成M個(gè)區(qū)域,M為正整數(shù);
計(jì)算所述第一mask圖像中每個(gè)區(qū)域的顏色特征向量;以及,計(jì)算所述第二mask圖像中每個(gè)區(qū)域的顏色特征向量;
將所述第一mask圖像中每個(gè)區(qū)域的顏色特征向量順序連接,獲得所述第一顏色特征向量;以及,將所述第二mask圖像中每個(gè)區(qū)域的顏色特征向量順序連接,獲得所述第二顏色特征向量。
優(yōu)選地,所述計(jì)算所述第一mask圖像中每個(gè)區(qū)域的顏色特征向量;以及,計(jì)算所述第二mask圖像中每個(gè)區(qū)域的顏色特征向量,包括:
確定W種主顏色,W為正整數(shù);
計(jì)算所述第一mask圖像中第一區(qū)域中每個(gè)像素在每種主顏色上的投影權(quán)重,所述第一區(qū)域是所述第一mask圖像中的M個(gè)區(qū)域中的任一區(qū)域;以及,計(jì)算所述第二mask圖像中第二區(qū)域中每個(gè)像素在每種主顏色上的投影權(quán)重,所述第二區(qū)域是所述第二mask圖像中的M個(gè)區(qū)域中的任一區(qū)域;
基于所述第一區(qū)域中每個(gè)像素在每種主顏色上的投影權(quán)重,獲得所述第一區(qū)域中每個(gè)像素對(duì)應(yīng)的W維顏色特征向量;以及,基于所述第二區(qū)域中每個(gè)像素在每種主顏色上的投影權(quán)重,獲得所述第二區(qū)域中每個(gè)像素對(duì)應(yīng)W維顏色特征向量;
對(duì)所述第一區(qū)域中每個(gè)像素對(duì)應(yīng)的W維顏色特征向量進(jìn)行歸一化,獲得所述第一區(qū)域中每個(gè)像素的顏色特征向量;以及,對(duì)所述第二區(qū)域中每個(gè)像素對(duì)應(yīng)的W維顏色特征向量進(jìn)行歸一化,獲得所述第二區(qū)域中每個(gè)像素的顏色特征向量;
將所述第一區(qū)域中每個(gè)像素的顏色特征向量相加,獲得所述第一區(qū)域的顏色特征向量;以及,將所述第二區(qū)域中每個(gè)像素的顏色特征向量相加,獲得所 述第二區(qū)域的顏色特征向量。
優(yōu)選地,基于如下等式,計(jì)算第一像素在每n種主顏色上的投影權(quán)重:
其中,所述第一像素為所述第一區(qū)域或所述第二區(qū)域中的任一像素,所述第n種主顏色是所述W種主顏色中的任一一種主顏色,wn為所述第一像素在所述第n種主顏色上的投影權(quán)重,Ir,、Ig,、Ib為所述第一像素的RGB值;Rn、Gn、Bn為所述第n種主顏色的RGB值。
優(yōu)選地,所述計(jì)算出每個(gè)候選目標(biāo)與所述跟蹤目標(biāo)的相似度,包括:
從所述多個(gè)候選目標(biāo)中選出第一候選目標(biāo),其中,所述第一候選目標(biāo)是所述多個(gè)候選目標(biāo)中的任一候選目標(biāo);
將所述第一候選目標(biāo)的圖像與所述跟蹤目標(biāo)的圖像歸一化至相同大?。?/p>
將所述跟蹤目標(biāo)的圖像輸入至第一深度神經(jīng)網(wǎng)絡(luò)的第一卷積網(wǎng)絡(luò)中進(jìn)行特征計(jì)算,獲得所述跟蹤目標(biāo)的特征向量,其中,所述第一深度神經(jīng)網(wǎng)絡(luò)基于Siamese結(jié)構(gòu);
將所述第一候選目標(biāo)的圖像輸入至所述第一深度神經(jīng)網(wǎng)絡(luò)的第二卷積網(wǎng)絡(luò)中進(jìn)行特征計(jì)算,獲得所述第一候選目標(biāo)的特征向量;
將所述跟蹤目標(biāo)的特征向量和所述第一候選目標(biāo)的特征向量輸入至所述第一深度神經(jīng)網(wǎng)絡(luò)的第一全連接網(wǎng)絡(luò)中進(jìn)行相似度計(jì)算,獲得所述第一候選目標(biāo)與所述跟蹤目標(biāo)的相似度。
優(yōu)選地,所述在所述第i圖像塊內(nèi)確定所述多個(gè)候選目標(biāo),包括:
將所述第i圖像塊輸入至第二深度神經(jīng)網(wǎng)絡(luò)的第三卷積網(wǎng)絡(luò)中進(jìn)行特征計(jì)算,獲得所述第i圖像塊的特征圖,其中,所述第二深度神經(jīng)網(wǎng)絡(luò)基于Siamese結(jié)構(gòu);
將所述第i圖像塊的特征圖輸入至所述深度神經(jīng)網(wǎng)絡(luò)的RPN網(wǎng)絡(luò)中,獲得所述多個(gè)候選目標(biāo)以及所述多個(gè)候選目標(biāo)的特征向量。
優(yōu)選地,所述計(jì)算出每個(gè)候選目標(biāo)與所述跟蹤目標(biāo)的相似度,包括:
從所述多個(gè)候選目標(biāo)的特征向量中提取第一候選目標(biāo)的特征向量,其中,所述第一候選目標(biāo)為所述多個(gè)候選目標(biāo)中的任一候選目標(biāo);
將所述跟蹤目標(biāo)的圖像輸入至所述第二深度神經(jīng)網(wǎng)絡(luò)的第四卷積網(wǎng)絡(luò)中進(jìn)行特征計(jì)算,獲得所述跟蹤目標(biāo)的特征向量,所述第四卷積網(wǎng)絡(luò)和所述第三卷積網(wǎng)絡(luò)共享卷積層參數(shù);
將所述跟蹤目標(biāo)的特征向量和所述第一候選目標(biāo)的特征向量輸入至所述第二深度神經(jīng)網(wǎng)絡(luò)的第二全連接網(wǎng)絡(luò)中進(jìn)行相似度計(jì)算,獲得所述第一候選目標(biāo)與所述跟蹤目標(biāo)的相似度。
另一方面,本發(fā)明通過(guò)本發(fā)明的一實(shí)施例,提供如下技術(shù)方案:
一種電子設(shè)備,所述電子設(shè)備具有圖像采集單元,所述圖像采集單元用于采集圖像數(shù)據(jù),所述電子設(shè)備,包括:
第一確定單元,用于在所述圖像數(shù)據(jù)的初始幀圖像中確定一跟蹤目標(biāo);
提取單元,用于在所述圖像數(shù)據(jù)的后續(xù)幀圖像中提取多個(gè)候選目標(biāo),所述后續(xù)幀圖像是所述初始幀圖像之后的任一幀圖像;
計(jì)算單元,用于計(jì)算出每個(gè)候選目標(biāo)與所述跟蹤目標(biāo)的相似度;
第二確定單元,用于將所述多個(gè)候選目標(biāo)中的與所述跟蹤目標(biāo)的相似度最高的候選目標(biāo)確定為所述跟蹤目標(biāo)。
優(yōu)選地,所述第一確定單元,包括:
第一確定子單元,用于在通過(guò)顯示屏輸出所述初始幀圖像時(shí),獲取用戶的選擇操作;基于用戶的選擇操作,在所述初始幀圖像中確定所述跟蹤目標(biāo);或者
第二確定子單元,用于獲取用于描述所述跟蹤目標(biāo)的特征信息;基于所述特征信息,在所述初始幀圖像中確定所述跟蹤目標(biāo)。
優(yōu)選地,所述提取單元,包括:
第一確定子單元,用于確定所述跟蹤目標(biāo)在第i-1幀圖像中的第i-1包圍框, 其中,所述第i-1幀圖像屬于所述圖像數(shù)據(jù),i為大于等于2的整數(shù);在i等于2時(shí),所述第i-1幀圖像即為所述初始幀圖像;
第二確定子單元,用于基于所述第i-1包圍框,在第i幀圖像中確定第i圖像塊,其中,所述第i幀圖像即為所述后續(xù)幀圖像,所述第i圖像塊的中心與所述第i-1包圍框的中心位置相同,所述第i圖像塊的面積大于所述第i-1包圍框的面積;
第三確定子單元,用于在所述第i圖像塊內(nèi)確定所述多個(gè)候選目標(biāo)。
優(yōu)選地,所述計(jì)算單元,包括:
第一選擇子單元,用于從所述多個(gè)候選目標(biāo)中選出第一候選目標(biāo),其中,所述第一候選目標(biāo)是所述多個(gè)候選目標(biāo)中的任一候選目標(biāo);
第一計(jì)算子單元,用于計(jì)算所述第一候選目標(biāo)的第一顏色特征向量,以及計(jì)算所述跟蹤目標(biāo)的第二顏色特征向量;
第二計(jì)算子單元,用于計(jì)算所述第一顏色特征向量和所述第二顏色特征向量的距離,其中,所述距離即為所述第一候選目標(biāo)與所述跟蹤目標(biāo)的相似度。
優(yōu)選地,所述第一計(jì)算子單元,具體用于:
將所述第一候選目標(biāo)的圖像進(jìn)行主成分分割,獲得第一mask圖像;以及,將所述跟蹤目標(biāo)的圖像進(jìn)行主成分分割,獲得第二mask圖像;將所述第一mask圖像和所述第二mask圖像縮放至相同大小;將所述第一mask圖像平均分成M個(gè)區(qū)域;以及,將所述第二mask圖像平均分成M個(gè)區(qū)域,M為正整數(shù);計(jì)算所述第一mask圖像中每個(gè)區(qū)域的顏色特征向量;以及,計(jì)算所述第二mask圖像中每個(gè)區(qū)域的顏色特征向量;將所述第一mask圖像中每個(gè)區(qū)域的顏色特征向量順序連接,獲得所述第一顏色特征向量;以及,將所述第二mask圖像中每個(gè)區(qū)域的顏色特征向量順序連接,獲得所述第二顏色特征向量。
優(yōu)選地,所述第一計(jì)算子單元,具體用于:
確定W種主顏色,W為正整數(shù);計(jì)算所述第一mask圖像中第一區(qū)域中每個(gè)像素在每種主顏色上的投影權(quán)重,所述第一區(qū)域是所述第一mask圖像中的M個(gè)區(qū)域中的任一區(qū)域;以及,計(jì)算所述第二mask圖像中第二區(qū)域中每個(gè)像素在每種主顏色上的投影權(quán)重,所述第二區(qū)域是所述第二mask圖像中的M個(gè)區(qū)域中的任一區(qū)域;基于所述第一區(qū)域中每個(gè)像素在每種主顏色上的投影權(quán)重,獲得所述第一區(qū)域中每個(gè)像素對(duì)應(yīng)的W維顏色特征向量;以及,基于所述第二區(qū)域中每個(gè)像素在每種主顏色上的投影權(quán)重,獲得所述第二區(qū)域中每個(gè)像素對(duì)應(yīng)W維顏色特征向量;對(duì)所述第一區(qū)域中每個(gè)像素對(duì)應(yīng)的W維顏色特征向量進(jìn)行歸一化,獲得所述第一區(qū)域中每個(gè)像素的顏色特征向量;以及,對(duì)所述第二區(qū)域中每個(gè)像素對(duì)應(yīng)的W維顏色特征向量進(jìn)行歸一化,獲得所述第二區(qū)域中每個(gè)像素的顏色特征向量;將所述第一區(qū)域中每個(gè)像素的顏色特征向量相加,獲得所述第一區(qū)域的顏色特征向量;以及,將所述第二區(qū)域中每個(gè)像素的顏色特征向量相加,獲得所述第二區(qū)域的顏色特征向量。
優(yōu)選地,所述第一計(jì)算子單元,具體用于基于如下等式,計(jì)算第一像素在每n種主顏色上的投影權(quán)重:
其中,所述第一像素為所述第一區(qū)域或所述第二區(qū)域中的任一像素,所述第n種主顏色是所述W種主顏色中的任一一種主顏色,wn為所述第一像素在所述第n種主顏色上的投影權(quán)重,Ir,、Ig,、Ib為所述第一像素的RGB值;Rn、Gn、Bn為所述第n種主顏色的RGB值。
優(yōu)選地,所述計(jì)算單元,包括:
第二選擇子單元,用于從所述多個(gè)候選目標(biāo)中選出第一候選目標(biāo),其中,所述第一候選目標(biāo)是所述多個(gè)候選目標(biāo)中的任一候選目標(biāo);
歸一化子單元,用于將所述第一候選目標(biāo)的圖像與所述跟蹤目標(biāo)的圖像歸一化至相同大??;
第一輸入子單元,用于將所述跟蹤目標(biāo)的圖像輸入至第一深度神經(jīng)網(wǎng)絡(luò)的第一卷積網(wǎng)絡(luò)中進(jìn)行特征計(jì)算,獲得所述跟蹤目標(biāo)的特征向量,其中,所述第 一深度神經(jīng)網(wǎng)絡(luò)基于Siamese結(jié)構(gòu);
第二輸入子單元,用于將所述第一候選目標(biāo)的圖像輸入至所述第一深度神經(jīng)網(wǎng)絡(luò)的第二卷積網(wǎng)絡(luò)中進(jìn)行特征計(jì)算,獲得所述第一候選目標(biāo)的特征向量,所述第二卷積網(wǎng)絡(luò)和所述第一卷積網(wǎng)絡(luò)共享卷積層參數(shù);
第三輸入子單元,用于將所述跟蹤目標(biāo)的特征向量和所述第一候選目標(biāo)的特征向量輸入至所述第一深度神經(jīng)網(wǎng)絡(luò)的第一全連接網(wǎng)絡(luò)中進(jìn)行相似度計(jì)算,獲得所述第一候選目標(biāo)與所述跟蹤目標(biāo)的相似度。
優(yōu)選地,所述第三確定子單元,具體用于:
將所述第i圖像塊輸入至第二深度神經(jīng)網(wǎng)絡(luò)的第三卷積網(wǎng)絡(luò)中進(jìn)行特征計(jì)算,獲得所述第i圖像塊的特征圖,其中,所述第二深度神經(jīng)網(wǎng)絡(luò)基于Siamese結(jié)構(gòu);將所述第i圖像塊的特征圖輸入至所述第二深度神經(jīng)網(wǎng)絡(luò)的RPN網(wǎng)絡(luò)中,獲得所述多個(gè)候選目標(biāo)以及所述多個(gè)候選目標(biāo)的特征向量。
優(yōu)選地,所述計(jì)算單元,包括:
提取子單元,用于從所述多個(gè)候選目標(biāo)的特征向量中提取第一候選目標(biāo)的特征向量,其中,所述第一候選目標(biāo)為所述多個(gè)候選目標(biāo)中的任一候選目標(biāo);
第四輸入子單元,用于將所述跟蹤目標(biāo)的圖像輸入至所述第二深度神經(jīng)網(wǎng)絡(luò)的第四卷積網(wǎng)絡(luò)中進(jìn)行特征計(jì)算,獲得所述跟蹤目標(biāo)的特征向量,其中,所述第四卷積網(wǎng)絡(luò)和所述第三卷積網(wǎng)絡(luò)共享卷積層參數(shù);
第五輸入子單元,用于將所述跟蹤目標(biāo)的特征向量和所述第一候選目標(biāo)的特征向量輸入至所述第二深度神經(jīng)網(wǎng)絡(luò)的第二全連接網(wǎng)絡(luò)中進(jìn)行相似度計(jì)算,獲得所述第一候選目標(biāo)與所述跟蹤目標(biāo)的相似度。
本發(fā)明實(shí)施例中提供的一個(gè)或多個(gè)技術(shù)方案,至少具有如下技術(shù)效果或優(yōu)點(diǎn):
在本發(fā)明實(shí)施例中,公開(kāi)了一種目標(biāo)跟蹤方法,應(yīng)用于電子設(shè)備中,電子設(shè)備具有一圖像采集單元,圖像采集單元用于采集圖像數(shù)據(jù),該方法包括:在圖像數(shù)據(jù)的初始幀圖像中確定一跟蹤目標(biāo);在圖像數(shù)據(jù)的后續(xù)幀圖像中提取多 個(gè)候選目標(biāo);計(jì)算出每個(gè)候選目標(biāo)與跟蹤目標(biāo)的相似度;將相似度最高的候選目標(biāo)確定為跟蹤目標(biāo)。由于將后續(xù)每一幀圖像的候選目標(biāo)與初始幀圖像中的跟蹤目標(biāo)進(jìn)行比較,將候選目標(biāo)中相似度最高的候選目標(biāo)確定為跟蹤目標(biāo),從而實(shí)現(xiàn)了對(duì)跟蹤目標(biāo)的跟蹤。本發(fā)明中的跟蹤方法與現(xiàn)有技術(shù)中的在線學(xué)習(xí)的視覺(jué)跟蹤方法相比,對(duì)于初始幀之后的每一幀的處理,都可以看作是在判斷目標(biāo)是否跟丟,具有可以可靠地判斷跟蹤目標(biāo)是否跟丟的優(yōu)點(diǎn);并且不需要維持跟蹤模板,避免了跟蹤模板的持續(xù)更新導(dǎo)致誤差被持續(xù)放大,有利于找回跟丟的跟蹤目標(biāo),從而提高了跟蹤系統(tǒng)的魯棒性。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例中一種目標(biāo)跟蹤方法的流程圖;
圖2為本發(fā)明實(shí)施例中初始幀圖像的示意圖;
圖3為本發(fā)明實(shí)施例中初始跟蹤目標(biāo)的示意圖;
圖4為本發(fā)明實(shí)施例中第2幀圖像的示意圖;
圖5為本發(fā)明實(shí)施例中在第2幀圖像中確定的候選目標(biāo)的示意圖;
圖6為本發(fā)明實(shí)施例中第一深度神經(jīng)網(wǎng)絡(luò)的示意圖;
圖7為本發(fā)明實(shí)施例中第二深度神經(jīng)網(wǎng)絡(luò)的示意圖;
圖8為本發(fā)明實(shí)施例中一種電子設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施方式
本發(fā)明實(shí)施例通過(guò)提供一種目標(biāo)跟蹤方法及裝置,解決了現(xiàn)有技術(shù)中的在線學(xué)習(xí)的視覺(jué)跟蹤方法,存在無(wú)法判斷跟蹤目標(biāo)是否跟丟,以及跟丟后難以找 回跟蹤目標(biāo)的技術(shù)問(wèn)題。
本發(fā)明實(shí)施例的技術(shù)方案為解決上述技術(shù)問(wèn)題,總體思路如下:
一種目標(biāo)跟蹤方法,應(yīng)用于電子設(shè)備中,電子設(shè)備具有圖像采集單元,圖像采集單元用于采集圖像數(shù)據(jù),所述方法包括:在圖像數(shù)據(jù)的初始幀圖像中確定一跟蹤目標(biāo);在圖像數(shù)據(jù)的后續(xù)幀圖像中提取多個(gè)候選目標(biāo),后續(xù)幀圖像是初始幀圖像之后的任一幀圖像;計(jì)算出每個(gè)候選目標(biāo)與跟蹤目標(biāo)的相似度;將多個(gè)候選目標(biāo)中的與跟蹤目標(biāo)的相似度最高的候選目標(biāo)確定為所述跟蹤目標(biāo)。
為了更好的理解上述技術(shù)方案,下面將結(jié)合說(shuō)明書(shū)附圖以及具體的實(shí)施方式對(duì)上述技術(shù)方案進(jìn)行詳細(xì)的說(shuō)明。
實(shí)施例一
本實(shí)施例提供了一種目標(biāo)跟蹤方法,應(yīng)用于電子設(shè)備中,所述電子設(shè)備可以是:地面機(jī)器人(例如:平衡車(chē))、或無(wú)人機(jī)(例如:多旋翼無(wú)人機(jī)、或固定翼無(wú)人機(jī))、或電動(dòng)汽車(chē)等設(shè)備,此處,對(duì)于所述電子設(shè)備具體是何種設(shè)備,本實(shí)施例不做具體限定。其中,在電子設(shè)備具有圖像采集單元(例如:攝像頭),圖像采集單元用于采集圖像數(shù)據(jù)。
如圖1所示,所述的目標(biāo)跟蹤方法,包括:
步驟S101:在圖像數(shù)據(jù)的初始幀圖像中確定一跟蹤目標(biāo)。
作為一種可選的實(shí)施例,步驟S101,包括:
在通過(guò)顯示屏輸出初始幀圖像時(shí),獲取用戶的選擇操作;基于用戶的選擇操作,在初始幀圖像中確定跟蹤目標(biāo);或者
獲取用于描述跟蹤目標(biāo)的特征信息;基于特征信息,在初始幀圖像中確定跟蹤目標(biāo)。
在具體實(shí)施過(guò)程中,如圖2所示,可以獲取圖像采集單元采集到的圖像,并通過(guò)設(shè)置在電子設(shè)備上的顯示屏輸出該圖像(例如:初始幀圖像300),并獲取用戶執(zhí)行的一選擇操作(例如:在該顯示屏為觸摸屏?xí)r,通過(guò)該觸摸屏獲取 用戶的選擇操作),再基于該選擇操作從初始幀圖像300中確定一跟蹤目標(biāo)(即:初始跟蹤目標(biāo)000)。或者,獲取用于描述跟蹤目標(biāo)的特征信息,結(jié)合顯著性分析(saliency detection)或目標(biāo)檢測(cè)(object detection)算法,在初始幀圖像300像中確定跟蹤目標(biāo)(即:初始跟蹤目標(biāo)000)。此處,如圖3所示,可以提取并保存初始跟蹤目標(biāo)000的圖像311以作備用,圖像311即為第1包圍框310中的圖像。
步驟S102:在圖像數(shù)據(jù)的后續(xù)幀圖像中提取多個(gè)候選目標(biāo),后續(xù)幀圖像是初始幀圖像之后的任一幀圖像。
作為一種可選的實(shí)施例,步驟S102,包括:
確定跟蹤目標(biāo)在第i-1幀圖像中的第i-1包圍框(其中,第i-1幀圖像屬于圖像數(shù)據(jù),i為大于等于2的整數(shù);在i等于2時(shí),第i-1幀圖像即為初始幀圖像);基于第i-1包圍框,在第i幀圖像中確定第i圖像塊,其中,第i幀圖像即為后續(xù)幀圖像,第i圖像塊的中心與第i-1包圍框的中心位置相同,第i圖像塊的面積大于第i-1包圍框的面積;在第i圖像塊內(nèi)確定多個(gè)候選目標(biāo)。
舉例來(lái)講,如圖2所示,圖2為初始幀圖像,其中包含多個(gè)人物目標(biāo),需要進(jìn)行跟蹤的跟蹤目標(biāo)為第1包圍框310內(nèi)的人物。如圖4所示,圖4為第2幀圖像,其中各個(gè)人物目標(biāo)的位置或姿態(tài)發(fā)生了變化。
在i等于2時(shí),如圖3所示,確定跟蹤目標(biāo)(即:初始跟蹤目標(biāo)000)在初始幀圖像300中的包圍框(即:第1包圍框310),該包圍框通常為矩形,且能夠恰好包圍跟蹤目標(biāo)(即:初始跟蹤目標(biāo)000)。如圖4所示,基于第1包圍框310的位置(第1包圍框310在初始幀圖像300中的位置和在第2幀圖像400中的位置相同),在第2幀圖像400中確定一圖像塊(即:第2圖像塊420),第2圖像塊420與第1包圍框310的中心相同,但是第2圖像塊420要比第1包圍框310的面積大一些,在第2圖像塊420中可能有多個(gè)目標(biāo),其中,在初始幀圖像300中確定的跟蹤目標(biāo)(即:初始跟蹤目標(biāo)000)就在第2圖像塊420內(nèi),此處可以利用顯著性分析或目標(biāo)檢測(cè)等方法在第2圖像塊420中確定所述 多個(gè)目標(biāo),并將這些目標(biāo)確定為候選目標(biāo)(即:候選目標(biāo)401、候選目標(biāo)402、候選目標(biāo)403、候選目標(biāo)404)。進(jìn)一步,再基于步驟S103~步驟S104,從這些候選目標(biāo)中確定所述跟蹤目標(biāo),也就是從第2幀圖像中識(shí)別出初始跟蹤目標(biāo)000。其中,關(guān)于S103~步驟S104的具體實(shí)施方式,在后文中有詳細(xì)介紹。
同理,在i等于3時(shí),在從第2幀圖像400中識(shí)別出跟蹤目標(biāo)后,則確定跟蹤目標(biāo)在第2幀圖像400中的包圍框(即:第2包圍框),基于第2包圍框,在第3幀圖像中確定一圖像塊(即:第3圖像塊),第3圖像塊與第2包圍框的中心相同,但是第3圖像塊要比第2圖像塊的面積大一些,在第3圖像塊中可能有多個(gè)目標(biāo),其中,在初始幀圖像中確定的跟蹤目標(biāo)就在這些目標(biāo)中,此處可以利用顯著性分析或目標(biāo)檢測(cè)等方法在第3圖像塊中確定所述多個(gè)目標(biāo),并將所述多個(gè)目標(biāo)確定為候選目標(biāo)。進(jìn)一步,再基于步驟S103~步驟S104,從這些候選目標(biāo)中確定所述跟蹤目標(biāo),也就是從第3幀圖像中識(shí)別出初始跟蹤目標(biāo)000。
同理,在i等于4時(shí),在第4幀圖像中確定第4圖像塊,在第4圖像塊中確定多個(gè)候選目標(biāo),進(jìn)一步,基于步驟S103~步驟S104,從這些候選目標(biāo)中確定所述跟蹤目標(biāo)(即:初始跟蹤目標(biāo)000)。以此類推,在i等于5、6、7、8……時(shí),在其中的每幀圖像中確定多個(gè)候選目標(biāo),再基于步驟S103~步驟S104,從這些候選目標(biāo)中確定所述跟蹤目標(biāo)(即:初始跟蹤目標(biāo)000),從而實(shí)現(xiàn)對(duì)跟蹤目標(biāo)的識(shí)別跟蹤。
在具體實(shí)施過(guò)程中,在從在第i圖像塊內(nèi)確定多個(gè)候選目標(biāo)后,提取并保存每個(gè)候選目標(biāo)的圖像以作備用。如圖5所示,提取并保存候選目標(biāo)401的圖像421、候選目標(biāo)402的圖像422、候選目標(biāo)403的圖像423、候選目標(biāo)404的圖像424。
步驟S103:計(jì)算出每個(gè)候選目標(biāo)與跟蹤目標(biāo)的相似度。
在具體實(shí)施過(guò)程中,需要第一計(jì)算出每個(gè)候選目標(biāo)與跟蹤目標(biāo)的相似度。其中,所述跟蹤目標(biāo)是在初始幀圖像300中確定的初始跟蹤目標(biāo)000(如圖3 所示),所述候選目標(biāo)來(lái)自于第i幀圖像中的第i圖像塊,第i幀圖像是一后續(xù)幀圖形(即:初始幀圖形之后的任一幀圖像)。例如,如圖4所示,所述候選目標(biāo)包括第2幀圖像400中確定的候選目標(biāo)401、候選目標(biāo)402、候選目標(biāo)403、候選目標(biāo)404。
在具體實(shí)施過(guò)程中,可以利用目標(biāo)再識(shí)別算法,計(jì)算出每個(gè)候選目標(biāo)與跟蹤目標(biāo)的相似度。此處,對(duì)于步驟S103可以有以下三種實(shí)施方式。
方式一:利用基于顏色特征的目標(biāo)再識(shí)別算法,計(jì)算出每個(gè)候選目標(biāo)與所述跟蹤目標(biāo)的相似度。
作為一種可選的實(shí)施例,步驟S103,包括:
從多個(gè)候選目標(biāo)中選出第一候選目標(biāo),其中,第一候選目標(biāo)是多個(gè)候選目標(biāo)中的任一候選目標(biāo);計(jì)算第一候選目標(biāo)的第一顏色特征向量,以及計(jì)算跟蹤目標(biāo)的第二顏色特征向量;計(jì)算第一顏色特征向量和第二顏色特征向量的距離,其中,該距離即為第一候選目標(biāo)與跟蹤目標(biāo)的相似度。
舉例來(lái)講,如圖3所示,計(jì)算初始跟蹤目標(biāo)000的顏色特征向量,其中,初始跟蹤目標(biāo)000即是在初始幀圖像300中確定的跟蹤目標(biāo),如圖5所示,再依次計(jì)算候選目標(biāo)401的顏色特征向量,最后,計(jì)算初始跟蹤目標(biāo)000的顏色特征向量與候選目標(biāo)401的顏色特征向量之間的距離,該距離值即表示候選目標(biāo)401與初始跟蹤目標(biāo)000的相似度。同理,再分別計(jì)算出候選目標(biāo)402、候選目標(biāo)403、候選目標(biāo)404與初始跟蹤目標(biāo)000的相似度。
在具體實(shí)施過(guò)程中,可以基于歐幾里得距離公式,計(jì)算出第一顏色特征向量和第二顏色特征向量的距離。
作為一種可選的實(shí)施例,更詳細(xì)地,所述計(jì)算第一候選目標(biāo)的第一顏色特征向量,以及計(jì)算跟蹤目標(biāo)的第二顏色特征向量,包括:
將第一候選目標(biāo)對(duì)的圖像進(jìn)行主成分分割,獲得第一mask圖像;以及,將跟蹤目標(biāo)的圖像進(jìn)行主成分分割(Saliency Segmentation),獲得第二mask圖像;將第一mask圖像和第二mask圖像縮放至相同大?。粚⒌谝籱ask圖像 平均分成M個(gè)區(qū)域;以及,將第二mask圖像平均分成M個(gè)區(qū)域,M為正整數(shù);計(jì)算第一mask圖像中每個(gè)區(qū)域的顏色特征向量;以及,計(jì)算第二mask圖像中每個(gè)區(qū)域的顏色特征向量;將第一mask圖像中每個(gè)區(qū)域的顏色特征向量順序連接,獲得第一顏色特征向量;以及,將第二mask圖像中每個(gè)區(qū)域的顏色特征向量順序連接,獲得第二顏色特征向量。
舉例來(lái)講,在計(jì)算跟蹤目標(biāo)(即:初始跟蹤目標(biāo)000)的顏色特征向量(即:第二顏色特征向量)時(shí),可以先將初始跟蹤目標(biāo)000的圖像311進(jìn)行主成分分割,獲得第二mask圖像(在mask圖像中,只有主成分區(qū)域保持像素值與原圖像一致,其他區(qū)域像素值為0),其中,初始跟蹤目標(biāo)000的圖像311為矩形,且能夠恰好包圍初始跟蹤目標(biāo)000,然后將第二mask圖像縮放至一預(yù)設(shè)大小,再將第二mask圖像平均分成4個(gè)區(qū)域(上下二等分,左右二等分),再分別計(jì)算這4個(gè)區(qū)域中每個(gè)區(qū)域的顏色特征向量,最后將這4個(gè)區(qū)域中每個(gè)區(qū)域的顏色特征向量順序連接(若每個(gè)區(qū)域的顏色特征向量為一個(gè)10維向量,則順序連接則獲得一個(gè)40維向量),歸一化后獲得跟蹤目標(biāo)(即:初始跟蹤目標(biāo)000)的顏色特征向量(即:第二顏色特征向量)。
同理,在計(jì)算候選目標(biāo)401的顏色特征向量時(shí),可以先將候選目標(biāo)401的圖像421進(jìn)行主成分分割,獲得第一mask圖像,其中,候選目標(biāo)401圖像塊421為矩形,且能夠恰好包圍候選目標(biāo)401,然后將第一mask圖像也縮放至一預(yù)設(shè)大小,與第二mask圖像大小相同,再將第一mask圖像平均分成4個(gè)區(qū)域(上下二等分,左右二等分),再分別計(jì)算這4個(gè)區(qū)域中每個(gè)區(qū)域的顏色特征向量,最后將這4個(gè)區(qū)域中每個(gè)區(qū)域的顏色特征向量順序連接(其中,若每個(gè)區(qū)域的顏色特征向量為一個(gè)10維向量,則順序連接則獲得一個(gè)40維向量),歸一化后獲得候選目標(biāo)401的顏色特征向量。同理,分別計(jì)算出候選目標(biāo)402的顏色特征向量、候選目標(biāo)403的顏色特征向量、候選目標(biāo)404的顏色特征向量。
作為一種可選的實(shí)施例,更詳細(xì)地,所述計(jì)算第一mask圖像中每個(gè)區(qū)域 的顏色特征向量;以及,計(jì)算第二mask圖像中每個(gè)區(qū)域的顏色特征向量,包括:
確定W種主顏色,W為正整數(shù);計(jì)算第一mask圖像中第一區(qū)域中每個(gè)像素在每種主顏色上的投影權(quán)重,第一區(qū)域是第一mask圖像中的M個(gè)區(qū)域中的任一區(qū)域;以及,計(jì)算第二mask圖像中第二區(qū)域中每個(gè)像素在每種主顏色上的投影權(quán)重,第二區(qū)域是第二mask圖像中的M個(gè)區(qū)域中的任一區(qū)域;基于第一區(qū)域中每個(gè)像素在每種主顏色上的投影權(quán)重,獲得第一區(qū)域中每個(gè)像素對(duì)應(yīng)的W維顏色特征向量;以及,基于第二區(qū)域中每個(gè)像素在每種主顏色上的投影權(quán)重,獲得第二區(qū)域中每個(gè)像素對(duì)應(yīng)W維顏色特征向量;對(duì)第一區(qū)域中每個(gè)像素對(duì)應(yīng)的W維顏色特征向量進(jìn)行歸一化,獲得第一區(qū)域中每個(gè)像素的顏色特征向量;以及,對(duì)第二區(qū)域中每個(gè)像素對(duì)應(yīng)的W維顏色特征向量進(jìn)行歸一化,獲得第二區(qū)域中每個(gè)像素的顏色特征向量;將第一區(qū)域中每個(gè)像素的顏色特征向量相加,獲得第一區(qū)域的顏色特征向量;以及,將第二區(qū)域中每個(gè)像素的顏色特征向量相加,獲得第二區(qū)域的顏色特征向量。
舉例來(lái)講,可以定義10種主顏色,分別是紅色、黃色、藍(lán)色、綠色、青色、紫色、橙色、白色、黑色、灰色,并用1至10依次編號(hào)(即:紅色為1號(hào),黃色為2號(hào),藍(lán)色為3號(hào),……,灰色為10號(hào)),然后記錄每一種顏色的對(duì)應(yīng)的RGB值,具體表示為:Rn,Gn,Bn,n代表這10種主顏色編號(hào)(例如:R1即代表紅色的R值,G2即代表黃色的G值,B10即代表灰色的B值)。
在將第一mask圖像平均分成4個(gè)區(qū)域(上下二等分,左右二等分)后,在計(jì)算第一mask圖像中每個(gè)區(qū)域的顏色特征向量時(shí),首先,從這4個(gè)區(qū)域中任選一個(gè)區(qū)域(即:第一區(qū)域),計(jì)算第一區(qū)域中每個(gè)像素在每種主顏色上的投影權(quán)重,獲得第一區(qū)域中每個(gè)像素點(diǎn)在這10個(gè)主顏色的投影權(quán)重,其中,每個(gè)像素獲得一個(gè)10維顏色特征向量,然后,對(duì)這個(gè)10維顏色特征向量歸一化后,作為這個(gè)像素點(diǎn)的顏色特征向量,在獲得第一區(qū)域中全部像素點(diǎn)的顏色特征向量后,將全部像素點(diǎn)的顏色特征向量相加,最后,獲得第一區(qū)域的顏色 特征向量。基于該方法,即可計(jì)算出第一mask圖像中4個(gè)區(qū)域中每個(gè)區(qū)域的顏色特征向量。
同理,在將第二mask圖像平均分成4個(gè)區(qū)域(上下二等分,左右二等分)后,在計(jì)算第二mask圖像中每個(gè)區(qū)域的顏色特征向量時(shí),首先,從這4個(gè)區(qū)域中任選一個(gè)區(qū)域(即:第二區(qū)域),計(jì)算第二區(qū)域中每個(gè)像素在每種主顏色上的投影權(quán)重,獲得第二區(qū)域中每個(gè)像素點(diǎn)在這10個(gè)主顏色的投影權(quán)重,其中,每個(gè)像素獲得第一個(gè)10維顏色特征向量,然后,對(duì)這個(gè)10維顏色特征向量歸一化后,作為這個(gè)像素點(diǎn)的顏色特征向量,在獲得第二區(qū)域中全部像素點(diǎn)的顏色特征向量后,將全部像素點(diǎn)的顏色特征向量相加,最后,獲得第二區(qū)域的顏色特征向量?;谠摲椒?,即可計(jì)算出第二mask圖像中4個(gè)區(qū)域中每個(gè)區(qū)域的顏色特征向量。
作為一種可選的實(shí)施例,更詳細(xì)地,可以基于如下等式,計(jì)算第一像素在每n種主顏色上的投影權(quán)重:
其中,第一像素為第一區(qū)域或第二區(qū)域中的任一像素,第n種主顏色是W種主顏色中的任一一種主顏色,wn為第一像素在第n種主顏色上的投影權(quán)重,Ir,、Ig,、Ib為第一像素的RGB值;Rn、Gn、Bn為第n種主顏色的RGB值。
舉例來(lái)講,n為上述10種主顏色的編號(hào),在計(jì)算第一區(qū)域或第二區(qū)域中的某個(gè)像素點(diǎn)在黃色(編號(hào)為2)上的投影權(quán)重時(shí),可以基于如下等式計(jì)算:
其中,w2即為該像素點(diǎn)在黃色上的投影權(quán)重,R2、G2、B2為黃色的RGB值,Ir、Ig、Ib即為該像素點(diǎn)的RGB值。
方式二:利用基于深度神經(jīng)網(wǎng)絡(luò)的目標(biāo)再識(shí)別算法,計(jì)算出每個(gè)候選目標(biāo)與所述跟蹤目標(biāo)的相似度。
作為一種可選的實(shí)施例,步驟S103,包括:
如圖6所示,從多個(gè)候選目標(biāo)中選出第一候選目標(biāo),其中,第一候選目標(biāo)是多個(gè)候選目標(biāo)中的任一候選目標(biāo);將第一候選目標(biāo)的圖像與跟蹤目標(biāo)的圖像歸一化至相同大??;將跟蹤目標(biāo)的圖像通過(guò)第一輸入端611輸入至第一深度神經(jīng)網(wǎng)絡(luò)的第一卷積網(wǎng)絡(luò)601中進(jìn)行特征計(jì)算,獲得跟蹤目標(biāo)的特征向量,其中,第一深度神經(jīng)網(wǎng)絡(luò)基于Siamese結(jié)構(gòu);將第一候選目標(biāo)的圖像通過(guò)第二輸入端612輸入至第一深度神經(jīng)網(wǎng)絡(luò)的第二卷積網(wǎng)絡(luò)602中進(jìn)行特征計(jì)算,獲得第一候選目標(biāo)的特征向量,其中,第二卷積網(wǎng)絡(luò)602和第一卷積網(wǎng)絡(luò)601共享卷積層參數(shù),即卷基層參數(shù)相同;將跟蹤目標(biāo)的特征向量和第一候選目標(biāo)的特征向量輸入至第一深度神經(jīng)網(wǎng)絡(luò)的第一全連接層603中進(jìn)行相似度計(jì)算,最終在第一輸出端621獲得第一候選目標(biāo)與跟蹤目標(biāo)的相似度,其中,第一卷積網(wǎng)絡(luò)601和第二卷積網(wǎng)絡(luò)602的輸出自動(dòng)作為第一全連接網(wǎng)絡(luò)603的輸入。
在具體實(shí)施過(guò)程中,需要離線訓(xùn)練第一深度神經(jīng)網(wǎng)絡(luò)(如圖6所示),第一深度神經(jīng)網(wǎng)絡(luò)包括第一卷積網(wǎng)絡(luò)601、第二卷積網(wǎng)絡(luò)602和第一全連接網(wǎng)絡(luò)603、第一輸入端611、第二輸入端612、第一輸出端621,其中,第一卷積網(wǎng)絡(luò)601和第二卷積網(wǎng)絡(luò)602是采用了Siamese結(jié)構(gòu)的雙邊深度神經(jīng)網(wǎng)絡(luò),每一邊的網(wǎng)絡(luò)采用了AlexNet網(wǎng)絡(luò)中的FC6之前的網(wǎng)絡(luò)結(jié)構(gòu),第一卷積網(wǎng)絡(luò)601和第二卷積網(wǎng)絡(luò)602中都包含多個(gè)卷積層,第一卷積網(wǎng)絡(luò)601中的卷積層和第二卷積網(wǎng)絡(luò)602中的卷積層是互為共享卷積層,其參數(shù)相同。第一卷積網(wǎng)絡(luò)601和第二卷積網(wǎng)絡(luò)602輸入的圖像需要?dú)w一化至相同大小。此處,將歸一化后的跟蹤目標(biāo)的圖像輸入至第一卷積網(wǎng)絡(luò)601中,可以獲得跟蹤目標(biāo)的特征向量;將歸一化后的第一候選目標(biāo)的圖像輸入至第二卷積網(wǎng)絡(luò)602中,可以獲得第一候選目標(biāo)的特征向量。第一卷積層601和第二卷積層602共同接入第一全連接網(wǎng)絡(luò)603,第一全連接網(wǎng)絡(luò)603中包含多個(gè)全連接層,用于計(jì)算兩邊輸入特征向量的距離,即可獲得第一候選目標(biāo)與跟蹤目標(biāo)的相似度。其中,第一深度神經(jīng)網(wǎng)絡(luò)中的參數(shù)是通過(guò)離線學(xué)習(xí)獲得的,訓(xùn)練第一深度神經(jīng)網(wǎng)絡(luò)的方法與一般的卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方式一致,在離線訓(xùn)練結(jié)束后,即可將第一深度神經(jīng)網(wǎng) 絡(luò)網(wǎng)絡(luò)應(yīng)用于跟蹤系統(tǒng)中。
舉例來(lái)講,在利用第一深度神經(jīng)網(wǎng)絡(luò)計(jì)算候選目標(biāo)401和初始跟蹤目標(biāo)000的相似度時(shí),可以先將候選目標(biāo)401的圖像421與初始跟蹤目標(biāo)000的圖像311歸一化至相同大?。蝗缓髮⒊跏几櫮繕?biāo)000的圖像311輸入至第一卷積網(wǎng)絡(luò)601中,獲得初始跟蹤目標(biāo)000的特征向量,將候選目標(biāo)401的圖像421第二卷積網(wǎng)絡(luò)602中,獲得候選目標(biāo)401的特征向量;最后初始跟蹤目標(biāo)000的特征向量和候選目標(biāo)401的特征向量輸入至第一全連接網(wǎng)絡(luò)603的中,從而獲得候選目標(biāo)401和初始跟蹤目標(biāo)000的相似度。
同理,將候選目標(biāo)402的圖像422與初始跟蹤目標(biāo)000對(duì)應(yīng)的圖像311歸一化后,將初始跟蹤目標(biāo)000的圖像311輸入至第一卷積網(wǎng)絡(luò)601中,同時(shí),將候選目標(biāo)402的圖像422輸入至第二卷積網(wǎng)絡(luò)602中,即可獲得候選目標(biāo)402和初始跟蹤目標(biāo)000的相似度。以此類推,即可獲得候選目標(biāo)403和初始跟蹤目標(biāo)000的相似度,以及,候選目標(biāo)404和初始跟蹤目標(biāo)000的相似度。
方式三:利用深度神經(jīng)網(wǎng)絡(luò),同時(shí)實(shí)現(xiàn)候選目標(biāo)的生成和計(jì)算出每個(gè)候選目標(biāo)與所述跟蹤目標(biāo)的相似度。
作為一種可選的實(shí)施例,在執(zhí)行所述在第i圖像塊內(nèi)確定多個(gè)候選目標(biāo)時(shí),除了可以利用顯著性分析或目標(biāo)檢測(cè)等方法以外,還可以利用如圖7所示的第二深度神經(jīng)網(wǎng)絡(luò)。
具體來(lái)講,如圖7所示,可以離線訓(xùn)練第二深度神經(jīng)網(wǎng)絡(luò),第二深度神經(jīng)網(wǎng)絡(luò)基于Siamese結(jié)構(gòu),第二深度神經(jīng)網(wǎng)絡(luò)包括第三卷積網(wǎng)絡(luò)604、第四卷積網(wǎng)絡(luò)605、RPN(Region Proposal Network,候選區(qū)域提取網(wǎng)絡(luò))網(wǎng)絡(luò)607和第二全連接網(wǎng)絡(luò)606、第三輸入端613、第四輸入端614、第二輸出端622。其中,第三卷積網(wǎng)絡(luò)604的輸出作為RPN網(wǎng)絡(luò)607的輸入,第四卷積網(wǎng)絡(luò)605和RPN網(wǎng)絡(luò)607同時(shí)接入至第二全連接網(wǎng)絡(luò)606。其中,第三卷積網(wǎng)絡(luò)604中包含多個(gè)卷積層,用于對(duì)第i圖像塊進(jìn)行特征計(jì)算,利用第三卷積網(wǎng)絡(luò)604可以獲得第i圖像塊的特征圖,RPN網(wǎng)絡(luò)607用于根據(jù)第i圖像塊的特征圖,從第i圖 像塊中提取出多個(gè)候選目標(biāo),并計(jì)算出每個(gè)候選目標(biāo)的特征向量。
圖7所示的第二深度神經(jīng)網(wǎng)絡(luò)與圖6所示的第一深度神經(jīng)網(wǎng)絡(luò)的主要不同之處在于圖7中的下半部分。圖7中的第三卷積網(wǎng)絡(luò)604以第i圖像塊作為輸入,并額外增加了一個(gè)RPN網(wǎng)絡(luò)607,RPN網(wǎng)絡(luò)607是在第i圖像塊經(jīng)過(guò)第三卷積網(wǎng)絡(luò)604計(jì)算后獲得的特征圖上進(jìn)行候選目標(biāo)的提取,RPN網(wǎng)絡(luò)607直接利用的是第三卷積網(wǎng)絡(luò)604計(jì)算得到的特征圖進(jìn)行計(jì)算,計(jì)算后直接找到候選目標(biāo)在特征圖上對(duì)應(yīng)的位置,直接在特征圖上獲取每個(gè)候選目標(biāo)的特征向量,再與初始跟蹤目標(biāo)000對(duì)應(yīng)的特征向量逐對(duì)輸入至第二全連接網(wǎng)絡(luò)606計(jì)算相似度。
在具體實(shí)施過(guò)程中,可以將第i圖像塊通過(guò)第四輸入端614輸入至第二深度神經(jīng)網(wǎng)絡(luò)的第三卷積網(wǎng)絡(luò)604中進(jìn)行特征計(jì)算,獲得第i圖像塊的特征圖;將第i圖像塊的特征圖輸入至第二深度神經(jīng)網(wǎng)絡(luò)的RPN網(wǎng)絡(luò)607中進(jìn)行特征計(jì)算,提取出多個(gè)候選目標(biāo),并計(jì)算出每個(gè)候選目標(biāo)的特征向量。
舉例來(lái)講,可以將第2圖像塊420輸入至第二深度神經(jīng)網(wǎng)絡(luò)的第三卷積網(wǎng)絡(luò)604中,獲得第2圖像塊420的特征圖,將第2圖像塊420的特征圖輸入至第二深度神經(jīng)網(wǎng)絡(luò)的RPN網(wǎng)絡(luò)607中,提取出多個(gè)候選目標(biāo)(即:候選目標(biāo)401、候選目標(biāo)402、候選目標(biāo)404、候選目標(biāo)404),并且還可以獲得每個(gè)候選目標(biāo)的特征向量。
作為一種可選的實(shí)施例,步驟S103,包括:
從多個(gè)候選目標(biāo)的特征向量中提取第一候選目標(biāo)的特征向量,其中,第一候選目標(biāo)為多個(gè)候選目標(biāo)中的任一候選目標(biāo);將跟蹤目標(biāo)的圖像通過(guò)第三輸入端613輸入至第二深度神經(jīng)網(wǎng)絡(luò)的第四卷積網(wǎng)絡(luò)605中進(jìn)行特征計(jì)算,獲得跟蹤目標(biāo)的特征向量,其中,第四卷積網(wǎng)絡(luò)605和第三卷積網(wǎng)絡(luò)604中都包含多個(gè)卷積層,第四卷積網(wǎng)絡(luò)605中的卷積層和第三卷積網(wǎng)絡(luò)604共享卷積層參數(shù),即卷基層參數(shù)相同。將跟蹤目標(biāo)的特征向量和第一候選目標(biāo)的特征向量輸入至第二深度神經(jīng)網(wǎng)絡(luò)的第二全連接網(wǎng)絡(luò)606中進(jìn)行相似度計(jì)算,最終在第二輸出 端622獲得第一候選目標(biāo)與跟蹤目標(biāo)的相似度。
在具體實(shí)施過(guò)程中,如圖7所示,第二深度神經(jīng)網(wǎng)絡(luò)在包括第三卷積網(wǎng)絡(luò)604和RPN網(wǎng)絡(luò)607的基礎(chǔ)上,還包括第四卷積網(wǎng)絡(luò)605和第二全連接網(wǎng)絡(luò)606,RPN網(wǎng)絡(luò)704用于基于第三卷積網(wǎng)絡(luò)604輸出的特征圖,提取出多個(gè)候選目標(biāo),并計(jì)算出每個(gè)候選目標(biāo)的特征向量,在將每個(gè)候選目標(biāo)的特征向量依次輸入第二全連接網(wǎng)絡(luò)606,第四卷積網(wǎng)絡(luò)605用于計(jì)算跟蹤目標(biāo)的特征向量并輸出至第二全連接網(wǎng)絡(luò)606,第二全連接網(wǎng)絡(luò)606用于基于第一候選目標(biāo)的特征向量和跟蹤目標(biāo)的特征向量,計(jì)算第一候選目標(biāo)與跟蹤目標(biāo)的相似度。
舉例來(lái)講,如前文所述,在將第2圖像塊420輸入至第二深度神經(jīng)網(wǎng)絡(luò)的第三卷積網(wǎng)絡(luò)604后,通過(guò)第三卷積網(wǎng)絡(luò)604和RPN網(wǎng)絡(luò)607的計(jì)算,即可獲得候選目標(biāo)421的特征向量、候選目標(biāo)422的特征向量、候選目標(biāo)424的特征向量、候選目標(biāo)424的特征向量。與此同時(shí),將初始跟蹤目標(biāo)000對(duì)應(yīng)的圖像311輸入至第二深度神經(jīng)網(wǎng)絡(luò)的第四卷積網(wǎng)絡(luò)605,即可通過(guò)第二全連接網(wǎng)絡(luò)606計(jì)算出候選目標(biāo)401與初始跟蹤目標(biāo)000的相似度、候選目標(biāo)402與初始跟蹤目標(biāo)000的相似度、候選目標(biāo)403與初始跟蹤目標(biāo)000的相似度、候選目標(biāo)404與初始跟蹤目標(biāo)000的相似度。
步驟S104:將多個(gè)候選目標(biāo)中的與跟蹤目標(biāo)的相似度最高的候選目標(biāo)確定為跟蹤目標(biāo)。
在具體實(shí)施過(guò)程中,在計(jì)算出每個(gè)候選目標(biāo)與跟蹤目標(biāo)的相似度后,即可將相似度最高的候選目標(biāo)作為跟蹤目標(biāo)。
舉例來(lái)講,若候選目標(biāo)402與初始跟蹤目標(biāo)000的相似度最高,則將候選目標(biāo)402作為跟蹤目標(biāo)繼續(xù)進(jìn)行跟蹤。
上文主要以第2幀圖像400為例,對(duì)于第2幀圖像400中的第2圖像塊420中的每個(gè)候選目標(biāo),分別計(jì)算每個(gè)候選目標(biāo)與初始跟蹤目標(biāo)000的相似度,并將相似度最高的候選目標(biāo)作為第2幀圖像中的跟蹤目標(biāo)。同理,對(duì)于后續(xù)其它幀圖像(例如:第3幀圖像、第4幀圖像、第5幀圖像,……),也是一樣的, 計(jì)算每幀圖像中每個(gè)候選目標(biāo)與初始跟蹤目標(biāo)000的相似度,并將相似度最高的候選目標(biāo)作為該幀圖像中的跟蹤目標(biāo)。
上述本發(fā)明實(shí)施例中的技術(shù)方案,至少具有如下的技術(shù)效果或優(yōu)點(diǎn):
由于將后續(xù)每一幀圖像的候選目標(biāo)與初始幀圖像中的跟蹤目標(biāo)進(jìn)行比較,將候選目標(biāo)中相似度最高的候選目標(biāo)確定為跟蹤目標(biāo),從而實(shí)現(xiàn)了對(duì)跟蹤目標(biāo)的跟蹤。本發(fā)明實(shí)施例中的目標(biāo)跟蹤方法與現(xiàn)有技術(shù)中的在線學(xué)習(xí)的視覺(jué)跟蹤方法相比,對(duì)于初始幀之后的每一幀的處理,都可以看作是在判斷目標(biāo)是否跟丟,具有可以可靠地判斷跟蹤目標(biāo)是否跟丟的優(yōu)點(diǎn);并且不需要維持跟蹤模板,避免了跟蹤模板的持續(xù)更新導(dǎo)致誤差被持續(xù)放大,有利于找回跟丟的跟蹤目標(biāo),從而提高了跟蹤系統(tǒng)的魯棒性。
實(shí)施例二
本實(shí)施例提供了一種電子設(shè)備,該電子設(shè)備具有圖像采集單元,圖像采集單元用于采集圖像數(shù)據(jù),如圖8所示,該電子設(shè)備,包括:
第一確定單元801,用于在圖像數(shù)據(jù)的初始幀圖像中確定一跟蹤目標(biāo);
提取單元802,用于在圖像數(shù)據(jù)的后續(xù)幀圖像中提取多個(gè)候選目標(biāo),后續(xù)幀圖像是初始幀圖像之后的任一幀圖像;
計(jì)算單元803,用于計(jì)算出每個(gè)候選目標(biāo)與跟蹤目標(biāo)的相似度;
第二確定單元804,用于將多個(gè)候選目標(biāo)中的與跟蹤目標(biāo)的相似度最高的候選目標(biāo)確定為跟蹤目標(biāo)。
作為一種可選的實(shí)施例,第一確定單元801,包括:
第一確定子單元,用于在通過(guò)顯示屏輸出初始幀圖像時(shí),獲取用戶的選擇操作;基于用戶的選擇操作,在初始幀圖像中確定跟蹤目標(biāo);或者
第二確定子單元,用于獲取用于描述跟蹤目標(biāo)的特征信息;基于特征信息,在初始幀圖像中確定跟蹤目標(biāo)。
作為一種可選的實(shí)施例,提取單元802,包括:
第一確定子單元,用于確定跟蹤目標(biāo)在第i-1幀圖像中的第i-1包圍框,其中,第i-1幀圖像屬于圖像數(shù)據(jù),i為大于等于2的整數(shù);在i等于2時(shí),第i-1幀圖像即為初始幀圖像;
第二確定子單元,用于基于第i-1包圍框,在第i幀圖像中確定第i圖像塊,其中,第i幀圖像即為后續(xù)幀圖像,第i圖像塊的中心與第i-1包圍框的中心位置相同,第i圖像塊的面積大于第i-1包圍框的面積;
第三確定子單元,用于在第i圖像塊內(nèi)確定多個(gè)候選目標(biāo)。
作為一種可選的實(shí)施例,計(jì)算單元803,包括:
第一選擇子單元,用于從多個(gè)候選目標(biāo)中選出第一候選目標(biāo),其中,第一候選目標(biāo)是多個(gè)候選目標(biāo)中的任一候選目標(biāo);
第一計(jì)算子單元,用于計(jì)算第一候選目標(biāo)的第一顏色特征向量,以及計(jì)算跟蹤目標(biāo)的第二顏色特征向量;
第二計(jì)算子單元,用于計(jì)算第一顏色特征向量和第二顏色特征向量的距離,其中,距離即為第一候選目標(biāo)與跟蹤目標(biāo)的相似度。
作為一種可選的實(shí)施例,第一計(jì)算子單元,具體用于:
將第一候選目標(biāo)圖像進(jìn)行主成分分割,獲得第一mask圖像;以及,將跟蹤目標(biāo)的圖像進(jìn)行主成分分割,獲得第二mask圖像;將第一mask圖像和第二mask圖像縮放至相同大小;將第一mask圖像平均分成M個(gè)區(qū)域;以及,將第二mask圖像平均分成M個(gè)區(qū)域,M為正整數(shù);計(jì)算第一mask圖像中每個(gè)區(qū)域的顏色特征向量;以及,計(jì)算第二mask圖像中每個(gè)區(qū)域的顏色特征向量;將第一mask圖像中每個(gè)區(qū)域的顏色特征向量順序連接,獲得第一顏色特征向量;以及,將第二mask圖像中每個(gè)區(qū)域的顏色特征向量順序連接,獲得第二顏色特征向量。
作為一種可選的實(shí)施例,第一計(jì)算子單元,具體用于:
確定W種主顏色,W為正整數(shù);計(jì)算第一mask圖像中第一區(qū)域中每個(gè)像素在每種主顏色上的投影權(quán)重,第一區(qū)域是第一mask圖像中的M個(gè)區(qū)域中的 任一區(qū)域;以及,計(jì)算第二mask圖像中第二區(qū)域中每個(gè)像素在每種主顏色上的投影權(quán)重,第二區(qū)域是第二mask圖像中的M個(gè)區(qū)域中的任一區(qū)域;基于第一區(qū)域中每個(gè)像素在每種主顏色上的投影權(quán)重,獲得第一區(qū)域中每個(gè)像素對(duì)應(yīng)的W維顏色特征向量;以及,基于第二區(qū)域中每個(gè)像素在每種主顏色上的投影權(quán)重,獲得第二區(qū)域中每個(gè)像素對(duì)應(yīng)W維顏色特征向量;對(duì)第一區(qū)域中每個(gè)像素對(duì)應(yīng)的W維顏色特征向量進(jìn)行歸一化,獲得第一區(qū)域中每個(gè)像素的顏色特征向量;以及,對(duì)第二區(qū)域中每個(gè)像素對(duì)應(yīng)的W維顏色特征向量進(jìn)行歸一化,獲得第二區(qū)域中每個(gè)像素的顏色特征向量;將第一區(qū)域中每個(gè)像素的顏色特征向量相加,獲得第一區(qū)域的顏色特征向量;以及,將第二區(qū)域中每個(gè)像素的顏色特征向量相加,獲得第二區(qū)域的顏色特征向量。
作為一種可選的實(shí)施例,第一計(jì)算子單元,具體用于基于如下等式,計(jì)算第一像素在每n種主顏色上的投影權(quán)重:
其中,第一像素為第一區(qū)域或第二區(qū)域中的任一像素,第n種主顏色是W種主顏色中的任一一種主顏色,wn為第一像素在第n種主顏色上的投影權(quán)重,Ir,、Ig,、Ib為第一像素的RGB值;Rn、Gn、Bn為第n種主顏色的RGB值。
作為一種可選的實(shí)施例,計(jì)算單元803,包括:
第二選擇子單元,用于從多個(gè)候選目標(biāo)中選出第一候選目標(biāo),其中,第一候選目標(biāo)是多個(gè)候選目標(biāo)中的任一候選目標(biāo);
歸一化子單元,用于將第一候選目標(biāo)的圖像與跟蹤目標(biāo)的圖像歸一化至相同大小;
第一輸入子單元,用于將跟蹤目標(biāo)的圖像輸入至第一深度神經(jīng)網(wǎng)絡(luò)的第一卷積網(wǎng)絡(luò)中進(jìn)行特征計(jì)算,獲得跟蹤目標(biāo)的特征向量,其中,第一深度神經(jīng)網(wǎng)絡(luò)基于Siamese結(jié)構(gòu);
第二輸入子單元,用于將第一候選目標(biāo)的圖像輸入至第一深度神經(jīng)網(wǎng)絡(luò)的 第二卷積網(wǎng)絡(luò)中進(jìn)行特征計(jì)算,獲得第一候選目標(biāo)的特征向量;
第三輸入子單元,用于將跟蹤目標(biāo)的特征向量和第一候選目標(biāo)的特征向量輸入至第一深度神經(jīng)網(wǎng)絡(luò)的第一全連接網(wǎng)絡(luò)中進(jìn)行相似度計(jì)算,獲得第一候選目標(biāo)與跟蹤目標(biāo)的相似度。
作為一種可選的實(shí)施例,第三確定子單元,具體用于:
將第i圖像塊輸入至第二深度神經(jīng)網(wǎng)絡(luò)的第三卷積網(wǎng)絡(luò)中進(jìn)行特征計(jì)算,獲得第i圖像塊的特征圖,其中,第二深度神經(jīng)網(wǎng)絡(luò)基于Siamese結(jié)構(gòu);將第i圖像塊的特征圖輸入至第二深度神經(jīng)網(wǎng)絡(luò)的RPN網(wǎng)絡(luò)中,提取出多個(gè)候選目標(biāo),并獲得多個(gè)候選目標(biāo)的特征向量。
作為一種可選的實(shí)施例,計(jì)算單元803,包括:
提取子單元,用于從多個(gè)候選目標(biāo)的特征向量中提取第一候選目標(biāo)的特征向量,其中,第一候選目標(biāo)為多個(gè)候選目標(biāo)中的任一候選目標(biāo);
第四輸入子單元,用于將跟蹤目標(biāo)的圖像輸入至第二深度神經(jīng)網(wǎng)絡(luò)的第四卷積網(wǎng)絡(luò)中進(jìn)行特征計(jì)算,獲得跟蹤目標(biāo)的特征向量;
第五輸入子單元,用于將跟蹤目標(biāo)的特征向量和第一候選目標(biāo)的特征向量輸入至第二深度神經(jīng)網(wǎng)絡(luò)的第二全連接網(wǎng)絡(luò)中進(jìn)行相似度計(jì)算,獲得第一候選目標(biāo)與跟蹤目標(biāo)的相似度。
由于本實(shí)施例所介紹的電子設(shè)備為實(shí)施本發(fā)明實(shí)施例中目標(biāo)跟蹤方法的方法所采用的電子設(shè)備,故而基于本發(fā)明實(shí)施例中所介紹的目標(biāo)跟蹤方法的方法,本領(lǐng)域所屬技術(shù)人員能夠了解本實(shí)施例的電子設(shè)備的具體實(shí)施方式以及其各種變化形式,所以在此對(duì)于該電子設(shè)備如何實(shí)現(xiàn)本發(fā)明實(shí)施例中的方法不再詳細(xì)介紹。只要本領(lǐng)域所屬技術(shù)人員實(shí)施本發(fā)明實(shí)施例中目標(biāo)跟蹤方法的方法所采用的電子設(shè)備,都屬于本發(fā)明所欲保護(hù)的范圍。
上述本發(fā)明實(shí)施例中的技術(shù)方案,至少具有如下的技術(shù)效果或優(yōu)點(diǎn):
由于將后續(xù)每一幀圖像的候選目標(biāo)與初始幀圖像中的跟蹤目標(biāo)進(jìn)行比較,將候選目標(biāo)中相似度最高的候選目標(biāo)確定為跟蹤目標(biāo),從而實(shí)現(xiàn)了對(duì)跟蹤目標(biāo) 的跟蹤。本發(fā)明實(shí)施例中的電子設(shè)備與現(xiàn)有技術(shù)中的利用在線學(xué)習(xí)的視覺(jué)跟蹤方法的電子設(shè)備相比,對(duì)于初始幀之后的每一幀的處理,都可以看作是在判斷目標(biāo)是否跟丟,具有可以可靠地判斷跟蹤目標(biāo)是否跟丟的優(yōu)點(diǎn);并且不需要維持跟蹤模板,避免了跟蹤模板的持續(xù)更新導(dǎo)致誤差被持續(xù)放大,有利于找回跟丟的跟蹤目標(biāo),從而提高了跟蹤系統(tǒng)的魯棒性。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。
顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。