對(duì)象跟蹤及處理的制作方法
【專利摘要】一種方法包含跟蹤視頻數(shù)據(jù)的多個(gè)幀中的每一者中的對(duì)象以產(chǎn)生跟蹤結(jié)果。所述方法還包含執(zhí)行根據(jù)對(duì)象檢測(cè)器或?qū)ο蟊孀R(shí)器的多幀時(shí)延選擇的所述多個(gè)幀中的幀的子集的對(duì)象處理。所述方法包含組合所述跟蹤結(jié)果與所述對(duì)象處理的輸出以產(chǎn)生組合的輸出。
【專利說(shuō)明】對(duì)象跟蹤及處理
[0001]相關(guān)申請(qǐng)案的交叉參考
[0002]本申請(qǐng)案是基于且主張2012年8月6日申請(qǐng)的第13/567,412號(hào)美國(guó)申請(qǐng)案及2012年I月6日申請(qǐng)的第61/584,062號(hào)美國(guó)臨時(shí)專利申請(qǐng)案的優(yōu)先權(quán)權(quán)益,所述申請(qǐng)案的全部?jī)?nèi)容以引用的方式并入本文中。
【技術(shù)領(lǐng)域】
[0003]本發(fā)明通常涉及圖像處理。
【背景技術(shù)】
[0004]技術(shù)的進(jìn)步導(dǎo)致計(jì)算裝置越來(lái)越小且越來(lái)越強(qiáng)大。舉例來(lái)說(shuō),當(dāng)前存在多種便攜式個(gè)人計(jì)算裝置,包含很小、重量輕且易于由用戶攜帶的無(wú)線計(jì)算裝置(例如,便攜式無(wú)線手機(jī))、個(gè)人數(shù)字助理(PDA)及尋呼裝置。更具體來(lái)說(shuō),例如蜂窩式手機(jī)及因特網(wǎng)協(xié)議(IP)手機(jī)等便攜式無(wú)線手機(jī)可經(jīng)由無(wú)線網(wǎng)絡(luò)傳達(dá)語(yǔ)音及數(shù)據(jù)包。此外,許多此類無(wú)線手機(jī)包含并入于其中的其它類型的裝置。舉例來(lái)說(shuō),無(wú)線手機(jī)還可包含數(shù)字靜態(tài)相機(jī)、數(shù)字?jǐn)z像機(jī)、數(shù)字記錄器及音頻文件播放器。
[0005]可通過(guò)計(jì)算裝置(例如,無(wú)線電話)執(zhí)行文本檢測(cè)及辨識(shí)以識(shí)別已由裝置的相機(jī)俘獲的圖像中的文本。有時(shí),俘獲的文本可相對(duì)于相機(jī)運(yùn)動(dòng)(例如,在移動(dòng)車輛上的文本)且可有必要在文本移動(dòng)時(shí)跟蹤文本,同時(shí)提供文本的準(zhǔn)確識(shí)別。
【發(fā)明內(nèi)容】
[0006]對(duì)象處理及跟蹤技術(shù)可執(zhí)行對(duì)象跟蹤及對(duì)象處理(例如,對(duì)象檢測(cè)、對(duì)象辨識(shí)或其任何組合)兩者以從視頻數(shù)據(jù)準(zhǔn)確地識(shí)別對(duì)象(例如,文本)且跟蹤識(shí)別的對(duì)象的位置。跟蹤及處理的時(shí)間可重疊或至少部分重疊(例如,跟蹤或跟蹤方法的部分可與處理或處理方法的部分并發(fā)執(zhí)行),且處理文本的結(jié)果(例如,文本的檢測(cè)及/或辨識(shí)的結(jié)果)可與跟蹤的結(jié)果組合以產(chǎn)生文本的狀態(tài)信息。
[0007]不同于利用單個(gè)圖像中的文本的定位及辨識(shí)的常規(guī)文本信息提取技術(shù),所提出的技術(shù)可利用視頻流中的文本的定位及辨識(shí)以改進(jìn)用戶體驗(yàn)及改進(jìn)對(duì)象跟蹤及檢測(cè)系統(tǒng)的性能(例如,較高文本辨識(shí)響應(yīng)速率)。通過(guò)執(zhí)行在視頻流而非在單個(gè)圖像中的文本的定位及辨識(shí),所提出的技術(shù)還可將實(shí)時(shí)體驗(yàn)提供給用戶,且可減少誤警率(即,視頻流中的不正確的文本檢測(cè))。另外,所提出的技術(shù)采用視頻流的幀之間的時(shí)間信息達(dá)成增加的文本檢測(cè)準(zhǔn)確性。
[0008]在特定實(shí)施例中,方法包含跟蹤視頻數(shù)據(jù)的多個(gè)幀中的每一者中的對(duì)象以產(chǎn)生跟蹤結(jié)果。所述方法還包含執(zhí)行根據(jù)對(duì)象檢測(cè)器或?qū)ο蟊孀R(shí)器的多幀時(shí)延選擇的所述多個(gè)幀中的幀的子集的對(duì)象處理。所述方法包含組合所述跟蹤結(jié)果與所述對(duì)象處理的輸出以產(chǎn)生組合的輸出。
[0009]在另一特定實(shí)施例中,設(shè)備包含經(jīng)配置以跟蹤視頻數(shù)據(jù)的多個(gè)幀中的每一者中的對(duì)象以產(chǎn)生跟蹤結(jié)果的跟蹤器。所述設(shè)備還包含對(duì)象處理器,其經(jīng)配置以處理根據(jù)對(duì)象處理器的多幀時(shí)延選擇的多個(gè)幀中的幀的子集中的對(duì)象。所述設(shè)備包含時(shí)間濾波器,其經(jīng)配置以組合跟蹤器的跟蹤結(jié)果與對(duì)象處理器的輸出以產(chǎn)生組合的輸出。
[0010]由所揭示的實(shí)施例中的至少一者提供的特定優(yōu)勢(shì)包含通過(guò)結(jié)合對(duì)象檢測(cè)及/或辨識(shí)技術(shù)利用具有高幀速率及低時(shí)延的跟蹤技術(shù)以高準(zhǔn)確性執(zhí)行對(duì)象跟蹤及對(duì)象檢測(cè)的能力。
[0011]在檢視整個(gè)申請(qǐng)案后,將明白本揭示案的其它方面、優(yōu)點(diǎn)及特征,申請(qǐng)案包含以下部分:【專利附圖】
【附圖說(shuō)明】、【具體實(shí)施方式】及權(quán)利要求書。
【專利附圖】
【附圖說(shuō)明】
[0012]圖1為用以執(zhí)行對(duì)象跟蹤及處理的系統(tǒng)的特定實(shí)施例的框圖;
[0013]圖2為用以執(zhí)行對(duì)象跟蹤及檢測(cè)的系統(tǒng)的特定實(shí)施例的框圖;
[0014]圖3為用以執(zhí)行對(duì)象跟蹤及辨識(shí)的系統(tǒng)的另一特定實(shí)施例的框圖;
[0015]圖4為用以說(shuō)明可由圖1的系統(tǒng)執(zhí)行的對(duì)象跟蹤及處理的實(shí)例的總圖;
[0016]圖5為用以說(shuō)明可由圖1的系統(tǒng)執(zhí)行的對(duì)象跟蹤及處理的另一實(shí)例的總圖;
[0017]圖6為用以說(shuō)明可由圖1的系統(tǒng)執(zhí)行的對(duì)象跟蹤及處理的另一實(shí)例的總圖;
[0018]圖7為執(zhí)行對(duì)象跟蹤及處理的方法的流程圖;
[0019]圖8為執(zhí)行對(duì)象跟蹤及處理的另一方法的流程圖;及
[0020]圖9為包含可操作以執(zhí)行對(duì)象跟蹤及處理的處理器的無(wú)線裝置的特定實(shí)施例的框圖。
【具體實(shí)施方式】
[0021]可在包含多個(gè)視頻幀的視頻流中的對(duì)象(即,文本)跟蹤及辨識(shí)期間執(zhí)行文本定位??蓤?zhí)行文本定位以定位輸入視頻流內(nèi)的文本區(qū)。在給定視頻流中的第t個(gè)幀It的情況下,視頻流中的文本框的集合可表示為:
[0022]X, ={.v;}^ (等式 1),
[0023]其中Nt為文本框的數(shù)目,且4表示第i個(gè)框。每一文本框可模型化為平行四邊形。此外,每一文本框可表示為:
[0024].< = (p;, ?/1.r;..V;) e p (等式 2),
[0025]其中P、q、r及s為平行四邊形的四個(gè)邊。另外,5( g )可表示視頻幀中對(duì)應(yīng)于\
的區(qū)。Xt可表示可從觀測(cè)估計(jì)的文本框的集合的隱藏狀態(tài)(即,未知狀態(tài)或位置)。在帶規(guī)基于單個(gè)圖像的算法中,僅來(lái)自單個(gè)圖像的檢測(cè)結(jié)果被視為獲得文本框的位置xt。在基于單個(gè)圖像的算法中,檢測(cè)結(jié)果可表示為:
[0026]Zi ={ζ/}£? 其中 Z;'e P (等式 3)。
[0027]等式3的基于單個(gè)圖像的算法不采用額外信息,例如文本框的時(shí)間信息。然而,在給定視頻流的情況下,可采用例如時(shí)間信息等額外信息。舉例來(lái)說(shuō),時(shí)間信息可用以通過(guò)使用文本框的一系列觀測(cè)Ztl: t來(lái)估計(jì)文本框的最優(yōu)位置,其中所述的一系列觀測(cè)Ztl: t可表示為:
[0028]Zt、ZH、Zt_2、......、Z0 (等式 4)。
[0029]因此,文本框(或文本框的集合)的位置Xt可從觀測(cè)的序列(即,ZdfZtf……、Ztl)估計(jì)。上文所描述的估計(jì)可在貝葉斯濾波框架中遞歸地制定為:
【權(quán)利要求】
1.一種方法,其包括: 跟蹤視頻數(shù)據(jù)的多個(gè)幀中的每一者中的對(duì)象以產(chǎn)生跟蹤結(jié)果; 執(zhí)行根據(jù)對(duì)象檢測(cè)器或?qū)ο蟊孀R(shí)器的多幀時(shí)延選擇的所述多個(gè)幀中的幀子集的對(duì)象處理;及 組合所述跟蹤結(jié)果與所述對(duì)象處理的輸出以產(chǎn)生組合的輸出。
2.根據(jù)權(quán)利要求1所述的方法,其中執(zhí)行所述幀子集的對(duì)象處理包含根據(jù)所述對(duì)象檢測(cè)器的所述多幀時(shí)延執(zhí)行所述幀子集的對(duì)象檢測(cè)。
3.根據(jù)權(quán)利要求1所述的方法,其中執(zhí)行所述幀子集的對(duì)象處理包含根據(jù)所述對(duì)象辨識(shí)器的所述多幀時(shí)延執(zhí)行所述幀子集的對(duì)象辨識(shí)。
4.根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括基于所述組合的輸出更新所述對(duì)象的狀態(tài)息。
5.根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括基于至少所述跟蹤結(jié)果或所述對(duì)象處理的所述輸出更新所述對(duì)象的狀態(tài)信息。
6.根據(jù)權(quán)利要求5所述的方法,其中所述基于所述對(duì)象處理的所述輸出更新所述對(duì)象的狀態(tài)信息包括利用所述對(duì)象處理的當(dāng)前輸出、所述對(duì)象處理的先前輸出、所述對(duì)象的運(yùn)動(dòng)歷史或其任何組合 。
7.根據(jù)權(quán)利要求4所述的方法,其中在對(duì)象處理階段期間執(zhí)行所述對(duì)象處理,且其中在跟蹤階段期間執(zhí)行所述跟蹤。
8.根據(jù)權(quán)利要求7所述的方法,其中所述跟蹤階段及所述對(duì)象處理階段的時(shí)間至少部分重疊。
9.根據(jù)權(quán)利要求7所述的方法,其進(jìn)一步包括組合階段,其中所述組合階段包含產(chǎn)生所述組合的輸出及更新所述狀態(tài)信息。
10.根據(jù)權(quán)利要求4所述的方法,其中所述更新的狀態(tài)信息包含所述對(duì)象的位置。
11.根據(jù)權(quán)利要求4所述的方法,其中所述對(duì)象對(duì)應(yīng)于文本框,且其中所述更新的狀態(tài)信息包含所述文本框中的辨識(shí)的文本。
12.根據(jù)權(quán)利要求4所述的方法,其進(jìn)一步包括在圖像俘獲裝置的顯示裝置處至少部分基于所述對(duì)象的所述更新的狀態(tài)信息顯示圖像內(nèi)容。
13.根據(jù)權(quán)利要求1所述的方法,其中組合所述跟蹤結(jié)果與所述對(duì)象處理的所述輸出包括關(guān)于所述對(duì)象處理的所述輸出集成所述跟蹤結(jié)果以獲得所述對(duì)象的時(shí)間信息。
14.根據(jù)權(quán)利要求13所述的方法,其中關(guān)于所述對(duì)象處理的所述輸出集成所述跟蹤結(jié)果包括使用卡爾曼濾波器、粒子濾波器或擴(kuò)展卡爾曼濾波器中的至少一者基于所述跟蹤結(jié)果產(chǎn)生所述對(duì)象的位置信息。
15.根據(jù)權(quán)利要求13所述的方法,其中關(guān)于所述對(duì)象處理的所述輸出集成所述跟蹤結(jié)果包括使用最大似然估計(jì)器或最大后驗(yàn)估計(jì)器中的至少一者基于所述對(duì)象處理的所述輸出產(chǎn)生包含所述對(duì)象的文本數(shù)據(jù)的識(shí)別信息。
16.根據(jù)權(quán)利要求1所述的方法,其中由圖像俘獲裝置產(chǎn)生所述多個(gè)幀,且其中所述圖像俘獲裝置包括相機(jī)、視頻記錄裝置、無(wú)線裝置、便攜式電子裝置或其任何組合。
17.根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括: 在檢測(cè)到所述幀子集中的第一幀的所述對(duì)象處理已完成之前:估計(jì)所述幀子集中的所述第一幀與第二幀之間的所述對(duì)象的運(yùn)動(dòng); 基于所述估計(jì)的運(yùn)動(dòng)更新所述對(duì)象的狀態(tài)信息;及 基于所述對(duì)象的所述更新的狀態(tài)信息產(chǎn)生輸出。
18.根據(jù)權(quán)利要求1所述的方法,其中所述跟蹤具有單個(gè)幀時(shí)延。
19.一種設(shè)備,其包括: 跟蹤器,其經(jīng)配置以跟蹤視頻數(shù)據(jù)的多個(gè)幀中的每一者中的對(duì)象以產(chǎn)生跟蹤結(jié)果;對(duì)象處理器,其經(jīng)配置以處理根據(jù)所述對(duì)象處理器的多幀時(shí)延選擇的所述多個(gè)幀中的幀子集中的所述對(duì)象 '及 時(shí)間濾波器,其經(jīng)配置以組合所述跟蹤器的所述跟蹤結(jié)果與所述對(duì)象處理器的輸出以產(chǎn)生組合的輸出。
20.根據(jù)權(quán)利要求19所述的設(shè)備,其中所述對(duì)象處理器包含: 對(duì)象檢測(cè)器,其經(jīng)配置以檢測(cè)所述幀子集中的所述對(duì)象;及 對(duì)象辨識(shí)器,其經(jīng)配置以辨識(shí)所述幀子集中的所述對(duì)象。
21.根據(jù)權(quán)利要求19所述的設(shè)備,其中所述時(shí)間濾波器經(jīng)進(jìn)一步配置以基于所述組合的輸出更新所述對(duì)象的狀態(tài)信息。
22.根據(jù)權(quán)利要求21所述的設(shè)備,其中所述對(duì)象對(duì)應(yīng)于文本框,且其中所述更新的狀態(tài)信息包含所述文本框中的辨識(shí)的文本及所述文本框的位置。
23.根據(jù)權(quán)利要求22所述的設(shè)備,其中所述時(shí)間濾波器包含卡爾曼濾波器及最大似然估計(jì)器。
24.根據(jù)權(quán)利要求23所述的設(shè)備,其中所述卡爾曼濾波器經(jīng)配置以確定所述文本的所述位置,且其中所述文本的所述位置包含所述文本框的坐標(biāo)。
25.根據(jù)權(quán)利要求23所述的設(shè)備,其中所述最大似然估計(jì)器經(jīng)配置以: 經(jīng)由光學(xué)字符辨識(shí)OCR產(chǎn)生提出的文本數(shù)據(jù);及 存取字典以驗(yàn)證所述提出的文本數(shù)據(jù)。
26.根據(jù)權(quán)利要求25所述的設(shè)備,其中所述提出的文本數(shù)據(jù)包含多個(gè)文本候選及與所述多個(gè)文本候選相關(guān)聯(lián)的置信度數(shù)據(jù),且其中對(duì)應(yīng)于所述字典的條目的文本候選根據(jù)與所述文本候選相關(guān)聯(lián)的置信度值而被選擇為經(jīng)驗(yàn)證的文本。
27.—種設(shè)備,其包括: 用于跟蹤視頻數(shù)據(jù)的多個(gè)幀中的每一者中的對(duì)象以產(chǎn)生跟蹤結(jié)果的裝置; 用于處理根據(jù)所述用于處理的裝置的多幀時(shí)延選擇的所述多個(gè)幀中的幀子集中的所述對(duì)象的裝置 '及 用于組合所述用于跟蹤的裝置的所述跟蹤結(jié)果與所述用于處理的裝置的輸出以產(chǎn)生組合的輸出的裝置。
28.根據(jù)權(quán)利要求27所述的設(shè)備,其中所述用于處理所述幀子集中的所述對(duì)象的裝置包含用于檢測(cè)所述幀子集中的所述對(duì)象的裝置。
29.根據(jù)權(quán)利要求27所述的設(shè)備,其中所述用于處理所述幀子集中的所述對(duì)象的裝置包含用于辨識(shí)所述幀子集中的所述對(duì)象的裝置。
30.根據(jù)權(quán)利要求27所述的設(shè)備,其中所述用于組合的裝置包含用于基于所述組合的輸出更新所述對(duì)象的狀態(tài)信息的裝置。
31.根據(jù)權(quán)利要求30所述的設(shè)備,其中所述對(duì)象對(duì)應(yīng)于文本框,且其中所述更新的狀態(tài)信息包含所述文本框中的辨識(shí)的文本及所述文本框的位置。
32.根據(jù)權(quán)利要求30所述的設(shè)備,其進(jìn)一步包括用于產(chǎn)生所述多個(gè)幀的裝置及用于至少部分基于所述對(duì)象的所述更新的狀態(tài)信息顯示圖像內(nèi)容的裝置。
33.根據(jù)權(quán)利要求27所述的設(shè)備,其中所述用于組合的裝置包含卡爾曼濾波器及最大似然估計(jì)器。
34.一種包含程序代碼的非暫時(shí)性計(jì)算機(jī)可讀媒體,所述程序代碼在由處理器執(zhí)行時(shí)致使所述處理器: 跟蹤視頻數(shù)據(jù)的多個(gè)幀中的每一者中的對(duì)象以產(chǎn)生跟蹤結(jié)果; 執(zhí)行根據(jù)對(duì)象檢測(cè)器或?qū)ο蟊孀R(shí)器的多幀時(shí)延選擇的所述多個(gè)幀中的幀子集中的所述對(duì)象的對(duì)象處理;及 組合所述跟蹤結(jié)果與所述對(duì)象處理的輸出以產(chǎn)生組合的輸出。
35.根據(jù)權(quán)利要求34所述的非暫時(shí)性計(jì)算機(jī)可讀媒體,其中執(zhí)行所述對(duì)象的對(duì)象處理包含根據(jù)所述對(duì)象檢測(cè)器的多幀時(shí)延執(zhí)行所述對(duì)象的對(duì)象檢測(cè)。
36.根據(jù)權(quán)利要求34所述的非暫時(shí)性計(jì)算機(jī)可讀媒體,其中執(zhí)行所述對(duì)象的對(duì)象處理包含根據(jù)所述對(duì)象辨識(shí)器的多幀時(shí)延執(zhí)行所述對(duì)象的對(duì)象辨識(shí)。
37.根據(jù)權(quán)利要求34所述的非暫時(shí)性計(jì)算機(jī)可讀媒體,其進(jìn)一步包括程序代碼,所述程序代碼在由所述處理器執(zhí)行時(shí)致使所述處理器基于所述組合的輸出更新所述對(duì)象的狀態(tài)息。
38.根據(jù)權(quán)利要求37所述的非暫時(shí)性計(jì)算機(jī)可讀媒體,其中所述對(duì)象對(duì)應(yīng)于文本框,且其中所述更新的狀態(tài)信息包含所述文本框中的辨識(shí)的文本及所述文本框的位置。
39.根據(jù)權(quán)利要求34所述的非暫時(shí)性計(jì)算機(jī)可讀媒體,其進(jìn)一步包括程序代碼,所述程序代碼在由所述處理器執(zhí)行時(shí)致使所述處理器關(guān)于所述對(duì)象處理的所述輸出集成所述跟蹤結(jié)果以獲得所述對(duì)象的時(shí)間信息。
40.—種方法,其包括: 跟蹤包含視頻數(shù)據(jù)的多個(gè)幀中的第一幀中的文本的區(qū)以產(chǎn)生跟蹤結(jié)果; 對(duì)所述第一幀執(zhí)行文本處理以識(shí)別辨識(shí)的文本數(shù)據(jù);及 組合所述跟蹤結(jié)果與所述辨識(shí)的文本數(shù)據(jù)以產(chǎn)生文本輸出。
41.根據(jù)權(quán)利要求40所述的方法,其中對(duì)所述第一幀執(zhí)行文本處理包含對(duì)所述第一幀執(zhí)行文本檢測(cè)。
42.根據(jù)權(quán)利要求40所述的方法,其中對(duì)所述第一幀執(zhí)行文本處理包含對(duì)所述第一幀執(zhí)行文本辨識(shí)。
43.根據(jù)權(quán)利要求40所述的方法,其中所述文本輸出包含所述辨識(shí)的文本數(shù)據(jù)及所述文本數(shù)據(jù)的位置信息。
44.根據(jù)權(quán)利要求40所述的方法,其中文本檢測(cè)及辨識(shí)的所述執(zhí)行具有單個(gè)幀時(shí)延,且其中所述跟蹤具有單個(gè)幀時(shí)延。
【文檔編號(hào)】G06K9/00GK104011740SQ201280065071
【公開(kāi)日】2014年8月27日 申請(qǐng)日期:2012年11月19日 優(yōu)先權(quán)日:2012年1月6日
【發(fā)明者】丘衡一, 延奇宣, 百永基 申請(qǐng)人:高通股份有限公司