信息處理裝置、信息處理方法、以及位置信息的數(shù)據(jù)結(jié)構(gòu)的制作方法
【專利摘要】攝像裝置(12)包含第1攝像機(jī)(22)以及第2攝像機(jī)(24)。各攝像機(jī)分別從間隔了已知寬度的左右的位置以相同的定時(shí)、相同的幀速率拍攝對(duì)象物。然后,將拍攝到的各幀圖像變換為規(guī)定的多個(gè)分辨率的圖像數(shù)據(jù)。信息處理裝置(14)的輸入信息獲取部(26)獲取來自用戶的指示輸入。位置信息生成部(28)在立體圖像的數(shù)據(jù)之中以低分辨率、寬范圍的圖像將對(duì)象物的區(qū)域或者有活動(dòng)的區(qū)域作為對(duì)象區(qū)域進(jìn)行大概估計(jì),僅在該區(qū)域以高分辨率的圖像進(jìn)行立體匹配,確定對(duì)象物的三維的位置。輸出信息生成部(32)基于對(duì)象物的位置進(jìn)行需要的處理而生成輸出信息。通信部(30)進(jìn)行對(duì)于攝像裝置(12)的圖像數(shù)據(jù)的請(qǐng)求以及獲取。
【專利說明】信息處理裝置、信息處理方法、以及位置信息的數(shù)據(jù)結(jié)構(gòu)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及進(jìn)行與正在動(dòng)態(tài)圖像拍攝的對(duì)象物的活動(dòng)配合的處理的信息處理裝置、信息處理方法、以及所生成的位置信息的數(shù)據(jù)結(jié)構(gòu)。
【背景技術(shù)】
[0002]近年來,在個(gè)人計(jì)算機(jī)或游戲機(jī)等上搭載攝像機(jī),對(duì)用戶的姿勢(shì)攝像并以各種各樣的形式利用的情況變得被普遍地進(jìn)行。例如,電視電話、視頻聊天等,將用戶的圖像經(jīng)由網(wǎng)絡(luò),原樣傳輸至對(duì)方,或通過圖像分析認(rèn)識(shí)用戶的活動(dòng)而作為游戲或信息處理的輸入信息等正在被實(shí)用化(例如參照專利文獻(xiàn)I)。
[0003]現(xiàn)有技術(shù)文獻(xiàn)
[0004]專利文獻(xiàn)
[0005]專利文獻(xiàn)1:W02007/050885A2 公報(bào)
【發(fā)明內(nèi)容】
[0006]發(fā)明要解決的課題
[0007]為了利用拍攝圖像而響應(yīng)性好地高精度地實(shí)現(xiàn)各種各樣的處理,期望與該處理內(nèi)容相對(duì)應(yīng)的畫質(zhì)。可是,從制造成本、圖像的傳輸頻帶、從拍攝至輸出為止的響應(yīng)性等方面來看,僅僅通過提升攝像機(jī)的性能和畫質(zhì)來豐富信息處理裝置的功能處于困難的狀況中。例如,將攝像機(jī)的攝像元件越高性能化,除了越壓迫攝像機(jī)和主機(jī)間的圖像數(shù)據(jù)傳輸?shù)念l帶之外,圖像分析所要的時(shí)間越增加。
[0008]本發(fā)明是鑒于這樣的課題而完成,其目的在于提供能夠響應(yīng)性好地實(shí)現(xiàn)利用了拍攝圖像的信息處理的技術(shù)。
[0009]用于解決課題的手段
[0010]本發(fā)明的某個(gè)方式涉及信息處理裝置。該信息處理裝置是通過使用從不同的視點(diǎn)同時(shí)視頻拍攝對(duì)象物得到的立體動(dòng)態(tài)圖像,進(jìn)行立體匹配,以規(guī)定的速率輸出對(duì)象物的位置信息的信息處理裝置,其特征在于,具備:位置信息獲取部,在以規(guī)定的多個(gè)分辨率分別表示立體動(dòng)態(tài)圖像所包含的圖像幀對(duì)的多個(gè)拍攝圖像之中,通過使用基于與對(duì)象物的像的大小有關(guān)的信息選擇的分辨率的圖像而進(jìn)行立體匹配,來獲取對(duì)象物的位置信息;深度圖像數(shù)據(jù)生成部,在以所述多個(gè)分辨率表示了將已存儲(chǔ)于存儲(chǔ)器的、在圖像平面中對(duì)象物的深度方向的位置作為像素值表示的深度圖像的多個(gè)深度圖像之中,通過基于所獲取到的位置信息,更新具有所述位置信息獲取部用于立體匹配的圖像的分辨率的深度圖像,輸出對(duì)象物的位置信息。
[0011]本發(fā)明的再其他的方式涉及信息處理方法。該信息處理方法是通過使用從不同的視點(diǎn)同時(shí)視頻拍攝對(duì)象物得到的立體動(dòng)態(tài)圖像,進(jìn)行立體匹配,以規(guī)定的速率輸出對(duì)象物的位置信息的信息處理方法,其特征在于,具備:在以規(guī)定的多個(gè)分辨率分別表示立體動(dòng)態(tài)圖像所包含的圖像幀對(duì)的多個(gè)拍攝圖像之中,通過使用基于與對(duì)象物的像的大小有關(guān)的信息已選擇的分辨率的圖像而進(jìn)行立體匹配,來獲取對(duì)象物的位置信息的步驟;在已存儲(chǔ)于存儲(chǔ)器的、以所述多個(gè)分辨率表示了將在圖像平面中對(duì)象物的深度方向的位置作為像素值表示了的深度圖像的多個(gè)深度圖像之中,通過基于所獲取到的位置信息,更新具有所述位置信息獲取部用于立體匹配的圖像的分辨率的深度圖像,輸出對(duì)象物的位置信息的步驟。
[0012]本發(fā)明的再其他的方式涉及數(shù)據(jù)結(jié)構(gòu)。該數(shù)據(jù)結(jié)構(gòu)是表示正在視頻拍攝的對(duì)象物的位置信息的、每次獲取位置信息時(shí)而被更新的位置信息的數(shù)據(jù)結(jié)構(gòu),其特征在于,關(guān)聯(lián)了具有與為了位置信息的獲取而生成的幀的多個(gè)分辨率對(duì)應(yīng)的分辨率的多個(gè)深度圖像,以便于能夠根據(jù)用于位置信息的獲取的幀的分辨率,切換反映作為獲取結(jié)果的位置信息的深度圖像的分辨率,該深度圖像在與動(dòng)態(tài)圖像的幀對(duì)應(yīng)的圖像平面中將對(duì)象物的深度方向的位置作為像素值而表示。
[0013]另外,以上的結(jié)構(gòu)元件的任意的組合,將本發(fā)明的表現(xiàn)在方法、裝置、系統(tǒng)、計(jì)算機(jī)程序、記錄了計(jì)算機(jī)程序的記錄介質(zhì)等之間變換,也作為本發(fā)明的方式而有效。
[0014]發(fā)明效果
[0015]通過本發(fā)明,能夠響應(yīng)性很好地實(shí)現(xiàn)將拍攝圖像作為輸入信息而利用的信息處理。
【專利附圖】
【附圖說明】
[0016]圖1是表不能夠應(yīng)用本實(shí)施方式的信息處理系統(tǒng)的結(jié)構(gòu)例的圖。
[0017]圖2是表示本實(shí)施方式中的攝像裝置和信息處理裝置的結(jié)構(gòu)的圖。
[0018]圖3是詳細(xì)表示本實(shí)施方式中的第I攝像機(jī)的結(jié)構(gòu)的圖。
[0019]圖4是表示本實(shí)施方式中的圖像發(fā)送部的結(jié)構(gòu)的圖。
[0020]圖5是詳細(xì)表示本實(shí)施方式中的信息處理裝置的位置信息生成部的結(jié)構(gòu)的圖。
[0021]圖6是概略地表示本實(shí)施方式中的攝像裝置、位置信息獲取部、以及對(duì)象區(qū)域決定部進(jìn)行的處理的時(shí)間關(guān)系的圖。
[0022]圖7是概略地表示本實(shí)施方式中的信息處理裝置的活動(dòng)區(qū)域檢測(cè)部、區(qū)域預(yù)測(cè)部、區(qū)域集中部進(jìn)行的處理的狀況的圖。
[0023]圖8是概略地表示本實(shí)施方式中的階層決定部基于對(duì)象區(qū)域的大小,選擇用于立體匹配的階層的狀況的圖。
[0024]圖9是表示本實(shí)施方式中的攝像裝置生成的攝像圖像的階層和位置信息獲取部的數(shù)據(jù)生成部生成的深度圖像的階層的對(duì)應(yīng)的圖。
[0025]圖10是詳細(xì)表示本實(shí)施方式的變形例中的第I攝像機(jī)的結(jié)構(gòu)的圖。
【具體實(shí)施方式】
[0026]圖1是表示能夠適用本實(shí)施方式的信息處理系統(tǒng)的結(jié)構(gòu)例。信息處理系統(tǒng)10包含:攝像裝置12,搭載了拍攝用戶I等的對(duì)象物的2個(gè)攝像機(jī);信息處理裝置14,基于拍攝了的圖像進(jìn)行與用戶的請(qǐng)求相應(yīng)的信息處理;顯示裝置16,輸出信息處理裝置14處理了的結(jié)果得到的圖像數(shù)據(jù)。此外,信息處理裝置14能夠連接因特網(wǎng)等的網(wǎng)絡(luò)18。
[0027]信息處理裝置14、攝像裝置12、顯示裝置16、網(wǎng)絡(luò)18可以通過有線電纜被連接,也可以通過無線LAN (Local Area Network)等被無線連接??梢越M合攝像裝置12、信息處理裝置14、顯示裝置16之中的任意兩個(gè)、或者全部而整體地配備。此外,攝像裝置12不一定設(shè)置在顯示裝置16上。進(jìn)而,用戶可以不是一個(gè)人,其數(shù)量也沒有限定。
[0028]攝像裝置12具有將各自具備了 CCD (Charge Coupled Device,電荷耦合器件)或CMOS (Complementary Metal Oxide Semiconductor,互補(bǔ)金屬氧化物半導(dǎo)體)等的攝像兀件的2個(gè)數(shù)字?jǐn)z像機(jī)以已知的間隔左右地配置的結(jié)構(gòu)。2個(gè)數(shù)字?jǐn)z像機(jī)分別地對(duì)在同一空間存在的對(duì)象物從左右的位置以規(guī)定的幀速率進(jìn)行拍攝。以后,將這樣被拍攝的幀的對(duì)也稱為“立體圖像”。攝像裝置12進(jìn)而根據(jù)拍攝的結(jié)果得到的一對(duì)的RAW圖像,分別生成不同分辨率的多個(gè)圖像數(shù)據(jù)。
[0029]信息處理裝置14通過規(guī)定的速率確定對(duì)于攝像機(jī)的視野的垂直、水平、深度的三維空間中的對(duì)象物的位置坐標(biāo)。此時(shí),基于從攝像裝置12獲取了的立體圖像的數(shù)據(jù)進(jìn)行立體匹配。這樣得到的位置坐標(biāo)的時(shí)間變化被用于將對(duì)象物的活動(dòng)作為輸入信息使用的后續(xù)階段的處理。例如,能夠用于反映了作為對(duì)象物的用戶I的動(dòng)作的人物出場(chǎng)的游戲或?qū)⒂脩鬒的活動(dòng)變換為命令輸入的信息處理等,但是這些內(nèi)容并不限定。
[0030]顯示裝置16將信息處理裝置14進(jìn)行了的處理的結(jié)果,根據(jù)需要作為圖像而顯示。顯示裝置16可以是具有輸出圖像的顯示器以及輸出音聲的揚(yáng)聲器的電視機(jī),例如液晶電視機(jī)、等離子電視機(jī)、PC顯示器等。如上述那樣信息處理裝置14最后執(zhí)行的處理內(nèi)容或應(yīng)該表示的圖像并沒有根據(jù)其使用目的被特別地限定,因此,以后,將主要著眼點(diǎn)置于信息處理裝置14進(jìn)行的、對(duì)象物的位置的確定處理,而進(jìn)行說明。
[0031]圖2表示攝像裝置12和信息處理裝置14的結(jié)構(gòu)。圖2?圖5所示的各功能塊,硬件方面能夠通過 CPU (Central Processing Unit,中央處理單兀)、RAM (Random AccessMemory,隨機(jī)存取存儲(chǔ)器)、ROM (Read Only Memory,只讀存儲(chǔ)器)、繪圖電路等的結(jié)構(gòu)而實(shí)現(xiàn),軟件方面通過發(fā)揮數(shù)據(jù)輸入功能、數(shù)據(jù)保持功能、圖像分析功能、以及繪圖功能等的各種功能的軟件而實(shí)現(xiàn)。從而,這些功能塊能夠通過僅硬件、僅軟件、或者這些的組合以各種各樣的形式來實(shí)現(xiàn)是被所屬領(lǐng)域技術(shù)人員所理解的,不限定于任一種。
[0032]攝像裝置12包含:第I攝像機(jī)22和第2攝像機(jī)24。各攝像機(jī)分別地從間隔了已知寬度的左右位置以相同的定時(shí)、相同的幀速率,拍攝對(duì)象物。然后,將拍攝了的各幀圖像變換為規(guī)定的多個(gè)分辨率的圖像數(shù)據(jù)。同圖中,概略地表示這樣生成了的圖像,在第2攝像機(jī)中,按照?qǐng)D像2、圖像4、圖像6、圖像8的順序,分辨率階段式地增加。同圖中,設(shè)為4階段的分辨率,但是該數(shù)字并沒有被限定。第I攝像機(jī)22生成的圖像也一樣。
[0033]由于各圖像在每個(gè)拍攝定時(shí)被生成,因此作為結(jié)果,對(duì)于時(shí)間軸的圖像列以各分辨率被生成。同圖中,在深度方向上概略地表示該時(shí)間軸。同一時(shí)刻被生成的圖像,能夠看作構(gòu)成具有對(duì)應(yīng)于各分辨率的階層的階層結(jié)構(gòu)。以后的說明中,將這些圖像從最低分辨率的圖像按照分辨率的順序,稱為第O階層的圖像、第I階層的圖像、第2階層的圖
像........圖2的例中,圖像2成為第O階層、圖像4成為第I階層、圖像6成為第2階
層、圖像8成為第3階層的圖像。
[0034]信息處理裝置14包含:輸入信息獲取部26,獲取來自用戶的指示輸入;位置信息生成部28,基于拍攝圖像生成用戶I等的對(duì)象物的位置信息;輸出信息生成部32,基于對(duì)象物的位置進(jìn)行需要的處理而生成輸出信息;以及通信部30,作為進(jìn)行對(duì)于攝像裝置12的圖像數(shù)據(jù)的請(qǐng)求以及獲取的接口。[0035]輸入信息獲取部26接受來自用戶的指示輸入,將與其相應(yīng)的處理請(qǐng)求信號(hào)發(fā)送至其他的功能塊。輸入信息獲取部26通過按鈕、鍵盤、鼠標(biāo)、軌跡球、觸摸面板等一般的輸入裝置和、解釋對(duì)該輸入裝置進(jìn)行的操作內(nèi)容并生成處理請(qǐng)求信號(hào)的CPU等的合作而實(shí)現(xiàn)。
[0036]位置信息生成部28利用第I攝像機(jī)22以及第2攝像機(jī)24生成了的立體圖像的數(shù)據(jù)而進(jìn)行立體匹配,確定對(duì)象物的三維的位置。此時(shí),通過將成為處理對(duì)象的圖像數(shù)據(jù)在時(shí)間上、空間上取舍選擇而設(shè)為需要最低限度,減少對(duì)精度的影響,減輕處理的負(fù)荷。
[0037]具體地是,在低分辨率、寬范圍的圖像上,將對(duì)象物的區(qū)域或者有活動(dòng)的區(qū)域作為對(duì)象區(qū)域進(jìn)行大概估計(jì),僅該區(qū)域以高分辨率的圖像進(jìn)行立體匹配。立體匹配一般是進(jìn)行用于提取2個(gè)圖像的對(duì)應(yīng)點(diǎn)的搜索,通過使該搜索范圍變窄來提升立體匹配效率。另外,本實(shí)施方式實(shí)現(xiàn)將動(dòng)態(tài)圖像作為輸入信息而利用了的信息處理,因此主要說明得到對(duì)象物有“活動(dòng)”的部分的位置信息的手法。
[0038]此時(shí),通過到規(guī)定時(shí)間為止預(yù)測(cè)對(duì)象物有活動(dòng)的區(qū)域,將估計(jì)該區(qū)域的處理與進(jìn)行立體匹配的定時(shí)分開來進(jìn)行。例如,在通過多線程對(duì)應(yīng)的計(jì)算機(jī)實(shí)現(xiàn)信息處理裝置14的情況下,將這2個(gè)作為其他的線程獨(dú)立地執(zhí)行。通過這樣做,能夠在需要精度的立體匹配處理上花費(fèi)很多的時(shí)間。例如,立體匹配處理將拍攝圖像的全幀作為處理對(duì)象,與此相對(duì),每隔規(guī)定的數(shù)幀而進(jìn)行估計(jì)區(qū)域的處理,針對(duì)到接下來估計(jì)區(qū)域的處理被進(jìn)行為止的各幀,進(jìn)行預(yù)測(cè)。
[0039]此外,在估計(jì)區(qū)域的處理中,也包含用于進(jìn)行立體匹配的適當(dāng)?shù)碾A層的選擇。由于對(duì)象物越在朝向自己的一側(cè),視差越大,因此作為相對(duì)的分辨率小的圖像,左右的圖像的偏移幅度變大,便于維持立體匹配的精度。相反地,由于對(duì)象物越在里面,視差變得越小,因此在分辨率小的圖像中,難以將左右的偏移限于誤差范圍而保持立體匹配的精度。
[0040]那么,在本實(shí)施方式中,根據(jù)有活動(dòng)的區(qū)域的大小,選擇用于立體匹配的圖像的階層。即使使用分辨率大的圖像,由于為了得到對(duì)應(yīng)點(diǎn)應(yīng)該搜索的區(qū)域是上述那樣的局部的,因此,作為結(jié)果,與對(duì)象物的深度方向的位置無關(guān),處理對(duì)象的圖像尺寸變得同等,計(jì)算量不變大。因此,計(jì)算時(shí)間的估計(jì)也很容易。
[0041]位置信息生成部28,進(jìn)而生成將由立體匹配得到的對(duì)象物的深度方向的位置坐標(biāo)設(shè)為垂直方向、水平方向組成的圖像平面上的像素值的深度圖像。該深度圖像設(shè)為以與攝像機(jī)生成的拍攝圖像的階層結(jié)構(gòu)相同多個(gè)分辨率表示的階層結(jié)構(gòu)。如上述那樣對(duì)象物的活動(dòng),存在根據(jù)深度方向的位置而將其認(rèn)定為活動(dòng)所需要的空間分辨率。即,根據(jù)在后續(xù)階段輸出信息生成部32進(jìn)行的處理所期望的空間分辨率,存在無視了那樣的活動(dòng)的一方反而精度提升的情況。那么,將深度圖像作為階層結(jié)構(gòu),根據(jù)后續(xù)階段的處理期望的分辨率,通過切換參照的階層,提升該處理的效率以及精度。
[0042]輸出信息生成部32獲取位置信息生成部28生成了的位置信息,適當(dāng)?shù)剡M(jìn)行與其使用目的相應(yīng)的處理。上述那樣在此進(jìn)行的處理沒有被特別地限定,但是輸入信息獲取部26可以根據(jù)接受的來自用戶的指示適當(dāng)?shù)厍袚Q。此時(shí),上述那樣,對(duì)參照對(duì)應(yīng)于預(yù)先制定的分辨率的階層的深度圖像,進(jìn)行的處理而言,僅獲取有意義的活動(dòng)。處理的結(jié)果得到的數(shù)據(jù)顯示至顯示裝置16、或經(jīng)由網(wǎng)絡(luò)18發(fā)送至其他的裝置。
[0043]也可以根據(jù)使用目的,輸出信息生成部32,對(duì)攝像裝置12的任一個(gè)攝像機(jī)拍攝的圖像施行基于位置信息生成部28生成了的位置信息的加工,而顯示至顯示裝置16。例如,通過從位置信息生成部28獲取被拍攝的用戶I的手或握住的控制器等的活動(dòng),對(duì)全幀進(jìn)行在拍攝圖像的對(duì)應(yīng)位置重疊劍的圖像的加工,能夠表現(xiàn)用戶持著劍揮舞的樣子。
[0044]此時(shí),位置信息生成部28,可以同時(shí)獲取用于立體匹配的立體圖像之中單方的幀,分別實(shí)施加工而輸出至顯示裝置16,也可以與立體匹配獨(dú)立地獲取單方的攝像機(jī)拍攝到的各幀的圖像數(shù)據(jù)并進(jìn)行加工。可以分別獨(dú)立地決定進(jìn)行立體匹配的速率、進(jìn)行對(duì)象區(qū)域的估計(jì)處理速率、以及用于輸出圖像的生成的幀速率。
[0045]各處理的速率越增加,以時(shí)間分辨率的觀點(diǎn)來看詳細(xì)的處理變得可能,但是通信頻帶或處理的負(fù)荷就越增加。因此,也可以設(shè)為根據(jù)信息處理系統(tǒng)10的原本的性能、并行進(jìn)行著的處理的有無等來選擇。也可以事先準(zhǔn)備關(guān)聯(lián)了能夠使用的通信頻帶或處理資源與其速率的表格,通過根據(jù)實(shí)際的處理環(huán)境參照該表格來決定。
[0046]通信部30,從輸入信息獲取部26、位置信息生成部28獲取在第I攝像機(jī)22、第2攝像機(jī)24生成了的階層結(jié)構(gòu)的圖像之中,信息處理裝置14中的處理所需要的階層以及區(qū)域的信息,并向攝像裝置12請(qǐng)求。相應(yīng)地,將從攝像裝置12被發(fā)送的圖像數(shù)據(jù),適當(dāng)?shù)毓┙o至位置信息生成部28、輸出信息生成部32。
[0047]圖3詳細(xì)表示第I攝像機(jī)22的結(jié)構(gòu)。另外,第2攝像機(jī)24也具有相同的結(jié)構(gòu)。第I攝像機(jī)22具備圖像獲取部102、去馬賽克部104、圖像發(fā)送部150、金字塔濾波器部170以及通信部108。圖像獲取部102將通過C⑶或者CMOS等的攝像元件曝光的圖像以規(guī)定的定時(shí)(例如,60次/秒)讀取。在以下的說明中,假設(shè)該圖像具有在水平方向上像素h個(gè)量的寬。該圖像就是所謂的RAW圖像。圖像獲取部102每完成RAW圖像的水平一列量的曝光,就將其發(fā)送至去馬賽克部104以及圖像發(fā)送部150。
[0048]去馬賽克部104具有:具有像素h個(gè)量的容量的FIFO (First In First Out,先入先出)緩沖器105和簡(jiǎn)易去馬賽克處理部106。在FIFO緩沖器105中,RAW圖像的水平一列量的像素信息被輸入,并將其保持到下一個(gè)的水平一列量的像素被輸入至去馬賽克部104為止。簡(jiǎn)易去馬賽克處理部106,若接受水平二列量的像素,則使用這些,基于其周邊像素對(duì)各像素補(bǔ)充顏色信息并執(zhí)行創(chuàng)建全色圖像的去馬賽克(de-mosaic)處理。
[0049]如所屬領(lǐng)域技術(shù)人員所周知,該去馬賽克處理存在多數(shù)手法,但是在此僅利用水平二列量的像素的簡(jiǎn)易的去馬賽克處理就足夠了。作為一例,在應(yīng)該計(jì)算對(duì)應(yīng)的YCbCr值的像素僅具有G值的情況下,R值是將左右鄰接的R值平均、G值是直接使用該G值、B值是使用位于上或者下的B值,而作為RGB值,將其代入至規(guī)定的變換式而計(jì)算YCbCr值等。這樣去馬賽克處理是眾所周知的,因此省略更多詳細(xì)的說明。
[0050]作為簡(jiǎn)易的去馬賽克處理的變形例,也可以使用由RGB的4個(gè)像素構(gòu)成I個(gè)像素的YCbCr值的手法。此時(shí),得到RAW圖像的1/4尺寸的去馬賽克后圖像,因此不需要下述的第I濾波器110。簡(jiǎn)易去馬賽克處理部106,例如如圖所示,將水平2X垂直2的RGB的4像素變換為YCbCr彩色信號(hào)。然后,該4像素組成的塊,作為1/1去馬賽克圖像被傳遞至圖像發(fā)送部150,并且被發(fā)送至金字塔濾波器部170。
[0051]金字塔濾波器部170具有將某個(gè)圖像階層化為多個(gè)分辨率而輸出的功能。金字塔濾波器具備與一般需要的分辨率的級(jí)別相應(yīng)的數(shù)量的1/4縮小濾波器,但是在本實(shí)施方式中,具有第I濾波器110?第4濾波器140的4階層的濾波器。各濾波器,將相互地鄰接的4個(gè)像素雙線性插補(bǔ),執(zhí)行運(yùn)算4個(gè)像素的平均像素值的處理。從而,處理后的圖像尺寸變?yōu)樘幚砬暗膱D像的1/4。
[0052]在第I濾波器110的前面的階段中,對(duì)應(yīng)Y、Cb、Cr的各自的信號(hào),像素h個(gè)量的FIFO緩沖器112被逐個(gè)地配置。這些FIFO緩沖器112具有將水平一列量的YCbCr像素保持到下一個(gè)的水平一列量的像素從簡(jiǎn)易去馬賽克處理部106被輸出為止的任務(wù)。像素的保持時(shí)間是根據(jù)攝像元件的行掃描的速度而決定。
[0053]若水平二列量的像素被輸入,則第I濾波器110將水平2 X垂直2的4個(gè)像素量的Y、Cb、Cr的像素值進(jìn)行平均。通過重復(fù)該處理,1/1去馬賽克后圖像,垂直水平分別變成1/2的長(zhǎng)度,作為整體被變換為1/4的尺寸。被變換后的1/4去馬賽克后圖像,被發(fā)送至圖像發(fā)送部150,并且被傳遞至下一個(gè)階段的第2濾波器120。
[0054]在第2濾波器120的前面的階段中,對(duì)應(yīng)Y、Cb、Cr的各自的信號(hào),像素2/h個(gè)量的FIFO緩沖器122被逐個(gè)地配置。這些FIFO緩沖器114也具有保持水平一列量的YCbCr像素到下一個(gè)的水平一列量的像素從第I濾波器11被輸出為止的任務(wù)。
[0055]若水平二列量的像素被輸入,則第2濾波器120將水平2 X垂直2的4個(gè)像素量的Y、Cb、Cr的像素值進(jìn)行平均。通過重復(fù)該處理,1/4去馬賽克后圖像垂直水平分別變成1/2的長(zhǎng)度,作為整體被變換為1/16的尺寸。被變換后的1/16去馬賽克后圖像被發(fā)送至圖像發(fā)送部150,并且被傳遞至下一個(gè)階段的第3濾波器130。
[0056]關(guān)于第3濾波器130以及第4濾波器140,在各自的前面的階段中h/4個(gè)量的FIFO緩沖器132或者h(yuǎn)/8個(gè)量的FIFO緩沖器142被配置之外,重復(fù)與上述一樣的處理。然后,向圖像發(fā)送部150輸出1/64以及1/256尺寸的去馬賽克后圖像。另外,上述那樣的金字塔濾波器,如在歐州專利申請(qǐng)公開第0999518號(hào)說明書等中被記載那樣地眾所周知,因此,在本發(fā)明書中省略更多的詳細(xì)的說明。
[0057]這樣,從金字塔濾波器部170的各濾波器,逐次縮小1/4的圖像輸出被輸入至圖像發(fā)送部150。由此可知,越是通過金字塔濾波器部170內(nèi)的濾波器,各濾波器的前面的階段所需要的FIFO緩沖器的大小越是小也足夠。
[0058]圖像發(fā)送部150,在從圖像獲取部102接受了的RAW圖像、從去馬賽克部104接受了的1/1去馬賽克后圖像、以及從金字塔濾波器部170接受了的1/4?1/256去馬賽克后圖像組成的階層圖像之中,根據(jù)從信息處理裝置14的通信部30經(jīng)由通信部108而接受的指示,選出需要的階層以及區(qū)域。然后,用這些圖像來構(gòu)成分組而發(fā)送至通信部108。
[0059]通信部108按照例如USB1.0/2.0等的規(guī)定的協(xié)議,將分組發(fā)送至信息處理裝置14。與信息處理裝置14的通信不限定于有線,也可以是例如IEEE802.lla/b/g等的無線LAN通信、IrDA等的紅外線通信。
[0060]圖4表示圖像發(fā)送部150的結(jié)構(gòu)。圖像發(fā)送部150具有:塊寫入部152、緩沖器154、塊讀取部156、編碼部158、分組化部160、分組緩沖器162以及控制部164??刂撇?64,基于來自信息處理裝置14的指示,指示是否將各種圖像數(shù)據(jù)之中任一個(gè)作為分組發(fā)送至塊寫入部152以及塊讀取部156。
[0061]經(jīng)由去馬賽克部104以及金字塔濾波器部170,1/1?1/256尺寸的去馬賽克后圖像被輸入至塊寫入部152。此外,根據(jù)信息處理裝置14的輸出信息生成部32執(zhí)行的處理內(nèi)容,RAW圖像從圖像獲取部102被輸入。塊寫入部152的階層選擇部152A基于來自控制部164的指示,選擇去馬賽克后圖像的任一個(gè)的階層。
[0062]切取塊選擇部152B,接受從信息處理裝置14被發(fā)送的、處理所需要的區(qū)域的位置信息,從該區(qū)域?qū)⒑袃H規(guī)定的像素?cái)?shù)大的區(qū)域的塊作為確定塊而選擇。另外,一個(gè)塊的大小,優(yōu)選為配合后續(xù)階段的JPEG編碼而8X8像素的塊。塊選擇部152B切取僅被選擇了的去馬賽克后圖像的一部分的塊之后,寫入緩沖器154。
[0063]此時(shí),按每2X2的像素接受圖像,依次寫入至緩沖器154。塊讀取部156按在緩沖器154上一個(gè)塊量的像素完成準(zhǔn)備的順序,讀取各圖像塊而發(fā)送至編碼部158。塊寫入部152以及塊讀取部156通過控制部164被調(diào)整,以便于同步動(dòng)作。也就是說,塊寫入部152的讀寫在每次像素從圖像獲取部102、去馬賽克部104以及金字塔濾波器部170被輸出時(shí)進(jìn)行,與此相對(duì),塊讀取部156的讀取在每次一個(gè)塊量的像素被存儲(chǔ)于緩沖器154時(shí)進(jìn)行。該同步定時(shí)根據(jù)攝像機(jī)的曝光速度而決定。
[0064]在本實(shí)施方式中,不是備全RAW圖像的整體或縮小圖像的整體量的像素之后才發(fā)送至信息處理裝置14,而是以塊單位發(fā)送,因此,緩沖器154能夠至多存儲(chǔ)RAW圖像以及縮小圖像的全部的圖像塊的大小就足夠。根據(jù)圖像的使用目的,能夠存儲(chǔ)2?3個(gè)的圖像塊即可。這樣,使被緩沖的數(shù)據(jù)減少,在每次塊建成時(shí),依次分組化并轉(zhuǎn)發(fā),因此,伴隨攝像裝置12內(nèi)的處理的延遲被削減。
[0065]此外,從來自圖像獲取部102的像素的輸出以及金字塔濾波器部170,在每次攝像元件的曝光結(jié)束時(shí),像素被依次輸出至塊寫入部152,因此,不同的幀的塊被寫入至緩沖器154、塊以不同的順序分組化并被發(fā)送的情況,從結(jié)構(gòu)上不會(huì)發(fā)生。
[0066]編碼部158對(duì)RAW圖像以外的圖像的圖像塊進(jìn)行JPEG等的眾所周知的壓縮編碼,發(fā)送至分組化部160。分組化部160將編碼后的圖像的圖像塊,以到達(dá)分組化部160的順序分組化并寫入分組緩沖器162。通信部108將分組緩沖器162內(nèi)的分組按照規(guī)定的通信協(xié)議,轉(zhuǎn)發(fā)至信息處理裝置14。另外,關(guān)于RAW圖像以外的圖像,也可以不進(jìn)行編碼部158的壓縮編碼,分組化部160將從塊讀取部156獲取了的塊直接分組化。
[0067]另外,也能夠使用LLVC、AVC等其他的眾所周知的編碼,但是優(yōu)選為能夠以塊單位編碼。此外,在塊讀取部156中被讀取的塊的大小也能夠配合編碼而變更,例如也可以進(jìn)行以256X256單位的塊讀取和編碼。
[0068]圖5詳細(xì)表示信息處理裝置14的位置信息生成部28的結(jié)構(gòu)。位置信息生成部28包含:決定用于立體匹配的對(duì)象區(qū)域以及階層的對(duì)象區(qū)域決定部40、以及進(jìn)行立體匹配而獲取對(duì)象物的位置信息的位置信息獲取部42。對(duì)象區(qū)域決定部40包含:整體圖像獲取部44、活動(dòng)區(qū)域檢測(cè)部46、區(qū)域預(yù)測(cè)部48、區(qū)域集中部50、以及階層決定部52。
[0069]整體圖像獲取部44,在攝像裝置12的第I攝像機(jī)22以及第2攝像機(jī)24分別生成了的立體圖像的階層數(shù)據(jù)之中,以規(guī)定的速率獲取分辨率最低的第O階層的全區(qū)域的圖像。在此,獲取的圖像也可以只是Y圖像。其中,根據(jù)處理能力或通信速度等而使用的階層、圖像的種類可以適當(dāng)?shù)剡x擇。
[0070]活動(dòng)區(qū)域檢測(cè)部46,針對(duì)整體圖像獲取部44已獲取的立體圖像的各自,檢測(cè)活動(dòng)區(qū)域。例如,在將對(duì)象物作為人的情況下,首先進(jìn)行臉部檢測(cè),估計(jì)可以認(rèn)為存在人的像的區(qū)域。然后,針對(duì)估計(jì)了的區(qū)域,獲取與在前I個(gè)的時(shí)間步驟中使用了的圖像的差分圖像,將具有規(guī)定的閾值以上的差分的區(qū)域、或者與此外接的區(qū)域等,作為活動(dòng)區(qū)域來檢測(cè)。[0071]區(qū)域預(yù)測(cè)部48,針對(duì)立體圖像的各自,基于活動(dòng)區(qū)域檢測(cè)部46檢測(cè)到的活動(dòng)區(qū)域,預(yù)測(cè)在將來的立體匹配處理中應(yīng)該搜索的對(duì)象區(qū)域。區(qū)域集中部50,將區(qū)域預(yù)測(cè)部48預(yù)測(cè)到的、立體圖像中的對(duì)象區(qū)域用統(tǒng)一坐標(biāo)系集中,對(duì)各時(shí)刻決定I個(gè)對(duì)象區(qū)域。階層決定部52,基于該對(duì)象區(qū)域的大小,高精度地進(jìn)行立體匹配,且選擇分辨率沒有高到浪費(fèi)的階層。
[0072]位置信息獲取部42包含:對(duì)象區(qū)域圖像獲取部53、位置確定部54、無效數(shù)據(jù)檢測(cè)部56以及數(shù)據(jù)生成部58。對(duì)象區(qū)域圖像獲取部53,指定對(duì)象區(qū)域決定部40決定了的對(duì)象區(qū)域以及階層,并從攝像裝置12獲取立體圖像數(shù)據(jù)。位置確定部54對(duì)對(duì)象區(qū)域圖像獲取部53獲取了的立體圖像進(jìn)行立體匹配,確定包含深度方向的位置的三維的位置信息。
[0073]在此,實(shí)施的立體匹配處理也可以使用目前為止被建議的各種各樣的手法的任一種。例如,在左右的圖像的一方設(shè)定相關(guān)窗口,通過移動(dòng)另一方的圖像的搜索窗口的同時(shí),計(jì)算與相關(guān)窗口的圖像的相互相關(guān)系數(shù),獲得對(duì)應(yīng)點(diǎn)之后,能夠使用基于這些的對(duì)應(yīng)點(diǎn)的視差使用三角測(cè)量的原理來求解三維的位置信息的面積相關(guān)法等。
[0074]無效數(shù)據(jù)檢測(cè)部56,在位置確定部54已確定的位置信息之中,確定應(yīng)設(shè)為無效的數(shù)據(jù)。上述那樣,由于對(duì)象物越在里面,其視差變得越小,因此分辨率小的圖像,即使深度方向的位置被計(jì)算出,其誤差也大。即,根據(jù)用于立體匹配的圖像的分辨率,能夠適當(dāng)?shù)赜?jì)算的深度方向的范圍不同,分辨率越低,其界限變得越位于朝向自己的一側(cè)。
[0075]那么,對(duì)于各階層,通過對(duì)深度方向,預(yù)先設(shè)定可以把數(shù)據(jù)作為有效的界限為深度界限,并與位置確定部54已確定的深度方向的位置比較,來確定無效的數(shù)據(jù)。通過這樣做,在攝像裝置12自身?yè)u晃、或原本應(yīng)該追蹤活動(dòng)的對(duì)象物以外的大的活動(dòng)在背后發(fā)生了的時(shí)候,防止發(fā)生將其作為數(shù)據(jù)用于后續(xù)階段的處理的問題。
[0076]數(shù)據(jù)生成部58基于排除了無效數(shù)據(jù)檢測(cè)部56已確定的無效的數(shù)據(jù)的結(jié)果剩下的位置信息,來形成深度圖像。深度圖像如上述那樣,定為具有對(duì)應(yīng)于在攝像裝置12中生成的多個(gè)分辨率的分辨率的階層結(jié)構(gòu)。深度圖像的階層數(shù)據(jù)預(yù)先對(duì)全部的像素值分配O等初始值,并存儲(chǔ)于深度圖像數(shù)據(jù)存儲(chǔ)部60。
[0077]然后,每次位置確定部54確定對(duì)象物的位置時(shí),將對(duì)應(yīng)于用于立體匹配的拍攝圖像的階層的階層的、對(duì)應(yīng)的位置的像素作為深度方向的坐標(biāo)值,而更新深度圖像。作為結(jié)果,深度圖像數(shù)據(jù)以立體匹配的處理速率相同的速率被更新。信息處理裝置14的輸出信息生成部32根據(jù)自己進(jìn)行的處理所需要的空間分辨率,在深度圖像數(shù)據(jù)之中選擇階層,而讀取位置信息,適當(dāng)利用于處理。
[0078]圖6是概略地表示攝像裝置12、位置信息獲取部42、以及對(duì)象區(qū)域決定部40進(jìn)行的處理的時(shí)間的關(guān)系,同圖水平方向表示時(shí)間軸。若在時(shí)刻O開始全部的處理,則攝像裝置
12在時(shí)刻tl、t2、t3........tl8.......以規(guī)定的幀速率拍攝對(duì)象物,生成多個(gè)分辨率的
圖像數(shù)據(jù)并將需要的數(shù)據(jù)發(fā)送至信息處理裝置14。在圖6中,用在整個(gè)期間上連續(xù)的矩形表示攝像裝置12進(jìn)行的圖像數(shù)據(jù)生成處理,但是如果實(shí)際上各拍攝時(shí)刻所拍攝的圖像的數(shù)據(jù)生成、數(shù)據(jù)發(fā)送結(jié)束,則可以待機(jī)到下一個(gè)的拍攝時(shí)刻為止。位置信息獲取部42進(jìn)行的處理也一樣。
[0079]初次的時(shí)刻tl的拍攝圖像之中低分辨率的整體圖像,被供給至信息處理裝置14的對(duì)象區(qū)域決定部40 (SI)。此時(shí),也供給規(guī)定的階層的整體圖像至位置信息獲取部42(S2)。此時(shí)的階層,預(yù)先設(shè)定為假定對(duì)象物在標(biāo)準(zhǔn)的位置時(shí),在充分得到立體匹配的精度的范圍內(nèi),低分辨率的階層。由于分辨率越低的圖像,尺寸越小,因此能夠高效地進(jìn)行對(duì)應(yīng)點(diǎn)的搜索。
[0080]在位置信息獲取部42中,使用在S2中所供給的立體圖像,依次進(jìn)行除立體匹配、無效數(shù)據(jù)之外,還有深度圖像更新的處理。由此,對(duì)應(yīng)于時(shí)刻tl的對(duì)象物的位置信息以具有階層結(jié)構(gòu)的深度圖像的形式被輸出。另一方面,在對(duì)象區(qū)域決定部40中,使用在SI中所供給的立體圖像,依次進(jìn)行活動(dòng)區(qū)域檢測(cè)、區(qū)域預(yù)測(cè)、區(qū)域集中以及階層決定的處理。然后,將決定了的對(duì)象區(qū)域和階層的信息通知至位置信息獲取部42 (S3)。
[0081]此時(shí),決定的對(duì)象區(qū)域和階層的信息是對(duì)于在時(shí)刻t2、t3、t4、t5、t6、t7所拍攝的圖像的信息。因此,對(duì)象區(qū)域決定部40的區(qū)域預(yù)測(cè)部48考慮到各時(shí)刻為止的時(shí)間,推定來自現(xiàn)在的活動(dòng)區(qū)域的對(duì)象物的可動(dòng)范圍,對(duì)各時(shí)刻預(yù)測(cè)對(duì)象區(qū)域以便于包含該范圍。位置信息獲取部42基于在S3中被通知了的信息,每次生成時(shí)刻t2、t3、t4、t5、t6、t7中的拍攝圖像的數(shù)據(jù),都獲取對(duì)應(yīng)各時(shí)刻被決定了的對(duì)象區(qū)域以及階層的立體圖像數(shù)據(jù)(S4、S5、S6、S7、S8、S9)。
[0082]時(shí)刻t7的拍攝圖像之中最低分辨率的整體圖像,以與S9相同的定時(shí)被供給至對(duì)象區(qū)域決定部40(S10)。對(duì)象區(qū)域決定部40再次,依次進(jìn)行活動(dòng)區(qū)域檢測(cè)、區(qū)域預(yù)測(cè)、區(qū)域集中以及階層決定的處理,將其結(jié)果決定了的對(duì)象區(qū)域和階層的信息通知至位置信息獲取部42 (Sll)0此時(shí),決定的對(duì)象區(qū)域和階層的信息是對(duì)于在時(shí)刻t8、t9、tl0、tll、tl2、tl3所拍攝的圖像的信息。
[0083]以下,通過重復(fù)一樣的處理,在各時(shí)刻所拍攝了的圖像中的對(duì)象物的位置信息作為深度圖像被輸出。另外,在同圖中,對(duì)攝像裝置12拍攝到的全部的幀獲取位置信息,但是,上述那樣,也可以根據(jù)在輸出信息生成部32進(jìn)行的后續(xù)階段的處理中位置信息所期望的時(shí)間分辨率或信息處理系統(tǒng)10的處理能力,擴(kuò)大處理的時(shí)間間隔。例如,以對(duì)象區(qū)域決定部40中的處理相同的速率進(jìn)行處理也可以。
[0084]圖7概略地表示信息處理裝置14的活動(dòng)區(qū)域檢測(cè)部46、區(qū)域預(yù)測(cè)部48、以及區(qū)域集中部50進(jìn)行的處理的狀況。圖像61是第I攝像機(jī)22拍攝了的圖像,圖像62是第2攝像機(jī)24拍攝了的圖像。各攝像機(jī)對(duì)時(shí)刻t以規(guī)定的速率正在拍攝,因此,如冋?qǐng)D所不對(duì)時(shí)間t生成圖像列。在該例中,在某時(shí)刻的圖像61和圖像62中,如通過同圖的實(shí)線所示,人映現(xiàn)出來。
[0085]第I攝像機(jī)22和第2攝像機(jī)24是從左右排列了的不同的視點(diǎn)在拍攝人,因此,圖像61以及圖像62中的人的像在左右上產(chǎn)生視差。對(duì)象區(qū)域決定部40利用這樣從左右的視點(diǎn)所拍攝到的立體圖像來求解對(duì)象區(qū)域。首先,活動(dòng)區(qū)域檢測(cè)部46對(duì)圖像61以及圖像62獨(dú)立地進(jìn)行活動(dòng)區(qū)域的決定。
[0086]具體地是,首先,如果對(duì)象物是人,則通過臉部檢測(cè)處理,對(duì)圖像61檢測(cè)臉部區(qū)域64a,對(duì)圖像62檢測(cè)臉部區(qū)域64b。臉部檢測(cè)處理,也可以應(yīng)用模式匹配等一般被進(jìn)行的各種各樣的手法的任一種。即使對(duì)象物不是人,如果能夠準(zhǔn)備形狀已知的模板圖像,則能夠進(jìn)行一樣的處理。例如,手、作為被攝物體的用戶握住的標(biāo)志器等,通過將表示其形狀的模板圖像預(yù)先準(zhǔn)備至存儲(chǔ)器等,也能夠一樣地處理。
[0087]接著,基于臉部區(qū)域64a、64b的大小以及位置,對(duì)各圖像61、62,將活動(dòng)區(qū)域的可能性高的區(qū)域作為活動(dòng)檢測(cè)對(duì)象區(qū)域66a、66b分別決定?;顒?dòng)區(qū)域的可能性高的區(qū)域,也就是人的身體達(dá)到的范圍,如果臉部的位置已知,預(yù)測(cè)就容易。例如,準(zhǔn)備用矩形表示了基準(zhǔn)的臉部的輪廓線和對(duì)其臉部應(yīng)該設(shè)定的活動(dòng)檢測(cè)對(duì)象區(qū)域的范圍的基準(zhǔn)圖像,放大或縮小基準(zhǔn)圖像,以便于基準(zhǔn)的臉部的輪廓線大體上與通過臉部檢測(cè)處理得到的臉部區(qū)域64a、64b內(nèi)的臉部的輪廓重疊。那時(shí)的基準(zhǔn)圖像的矩形成為活動(dòng)檢測(cè)對(duì)象區(qū)域66a、66b。
[0088]接著關(guān)于活動(dòng)檢測(cè)對(duì)象區(qū)域66a、66b,在左圖像之間、右圖像之間分別獲取了與在前次的對(duì)象區(qū)域決定處理時(shí)獲取了的整體圖像中的對(duì)應(yīng)的區(qū)域的差分圖像之后,提取差分比規(guī)定的閾值大的部分。在同圖中,將在前次獲取了的整體圖像中映現(xiàn)了的左手,在圖像61、62上以點(diǎn)線來表示。若假設(shè)其他的部分沒有變化,僅在左手部分差分顯得大。提取像這樣差分為閾值以上的部分,將與其外接的矩形作為活動(dòng)區(qū)域68a、68b而決定。
[0089]接著區(qū)域預(yù)測(cè)部48基于對(duì)圖像61以及圖像62的各自決定了的活動(dòng)區(qū)域68a、68b,進(jìn)行假定了成為立體匹配的對(duì)象的圖像的拍攝時(shí)刻的區(qū)域預(yù)測(cè)。該處理,可以僅通過與時(shí)間經(jīng)過成比例的量,將活動(dòng)區(qū)域68a、68b在垂直方向、水平方向上以相同的比率放大,也可以根據(jù)在前次以前的對(duì)象區(qū)域決定處理時(shí)獲取了的多個(gè)圖像基于自回歸模型等預(yù)測(cè)對(duì)象物的移動(dòng)方向之后,將活動(dòng)區(qū)域68a、68b僅在該方向上放大?;蛘邔⑦@些組合也可以。
[0090]這樣做,對(duì)圖像61、圖像62的各自,決定預(yù)測(cè)區(qū)域70a、70b。另外,在同圖中,預(yù)測(cè)區(qū)域針對(duì)各圖像僅表示I個(gè),上述那樣,對(duì)立體匹配的對(duì)象圖像被拍攝的各時(shí)刻,決定預(yù)測(cè)區(qū)域。接著區(qū)域集中部50在構(gòu)成圖像平面的歸一化坐標(biāo)系上,重疊對(duì)左右的圖像各自決定了的預(yù)測(cè)區(qū)域70a、70b,通過求解成為其和的區(qū)域(至少包含在任意的區(qū)域中的區(qū)域)而集中。
[0091]從左右的不同視點(diǎn)拍攝了的圖像在水平方向上產(chǎn)生視差,因此,預(yù)測(cè)區(qū)域70a、70b如同圖所示,在構(gòu)成圖像平面的坐標(biāo)系上向X方向(水平方向)偏移。這樣從2個(gè)圖像決定對(duì)象區(qū)域是根據(jù)下一個(gè)理由。即,對(duì)象物越在朝向自己的一側(cè),其像外觀上越大,其活動(dòng)達(dá)到范圍變大,超過如上所述決定了的預(yù)測(cè)區(qū)域的可能性增加。
[0092]那么,根據(jù)依存對(duì)象物的深度方向的位置的外觀上的活動(dòng)的大小的變化,為了調(diào)整對(duì)象區(qū)域的大小,利用視差。如果視差大,則預(yù)測(cè)區(qū)域70a、70b的偏移變大,因此,成為其和的區(qū)域變大,如果視差小,則其偏移變小,因此,成為其和的區(qū)域不怎么變大。這樣做,通過考慮對(duì)象物的深度方向的位置并調(diào)整區(qū)域的大小,防止對(duì)象物從對(duì)象區(qū)域偏移的同時(shí),使得不含有多余的區(qū)域。
[0093]另外,區(qū)域集中部50進(jìn)而,將以規(guī)定的放大率在垂直水平兩個(gè)方向上放大了成為和的區(qū)域的區(qū)域作為最終的對(duì)象區(qū)域72而決定。通過這樣做,對(duì)象物從對(duì)象區(qū)域偏移的可能性能夠進(jìn)一步降低。
[0094]圖8概略地表示階層決定部52基于對(duì)象區(qū)域的大小選擇用于立體匹配的階層的狀況。在同圖中矩形80a、80b、80c、以及80d表示拍攝圖像的階層之中第3階層、第2階層、第I階層、以及第O階層的圖像尺寸。在圖7中在圖像的歸一化坐標(biāo)系中決定了的對(duì)象區(qū)域72,對(duì)各圖像尺寸變成矩形72a、72b、72c、72d那樣的大小。
[0095]這樣,將使對(duì)象區(qū)域72對(duì)應(yīng)各階層的圖像尺寸而得到的矩形72a、72b、72c、72d與基準(zhǔn)尺寸矩形82比較,選擇對(duì)象區(qū)域的尺寸接近基準(zhǔn)尺寸矩形82的尺寸的階層。基準(zhǔn)尺寸矩形82,規(guī)定了為了得到在立體匹配時(shí)合適的精度所需要的、對(duì)象物的外觀上的大小,通過實(shí)驗(yàn)等預(yù)先設(shè)定。
[0096]尺寸的大小,可以把2個(gè)矩形具有包含關(guān)系時(shí)的被包含的矩形看作“小”,也可以以面積來比較。或者,也可以僅比較水平、垂直、某一方的邊的長(zhǎng)度。此外,在階層的選擇的時(shí)候,對(duì)應(yīng)于各階層的矩形72a、72b、72c、72d之中、也可以通過尺寸的序列選擇與基準(zhǔn)尺寸矩形82存在前后差別的2個(gè)矩形的任一個(gè),也可以不一定是尺寸最接近的矩形。
[0097]例如,在圖8的情況下,基準(zhǔn)尺寸矩形82,由于矩形72a、72b、72c、72d之中具有矩形72b和矩形72c之間的尺寸,因此選擇對(duì)應(yīng)于矩形72b的第2階層、或?qū)?yīng)于矩形72c的第I階層。例如,也可以從作為最大尺寸的第3階層的矩形72a開始比較尺寸的大的順序(S20、S22、S24、S26的順序),選擇對(duì)應(yīng)于最先被包含于基準(zhǔn)尺寸矩形82的矩形的階層。在同圖的例中,選擇對(duì)應(yīng)于矩形72c的第I階層。
[0098]若假設(shè)這樣的步驟,則在基準(zhǔn)尺寸矩形相近的矩形所得到的階層之中,能夠選擇分辨率低的一方的階層,能夠更加抑制計(jì)算量。在任何情況下,通過這樣選擇基準(zhǔn)尺寸矩形82相近的尺寸的對(duì)象區(qū)域所得到的階層,上述那樣,配合對(duì)象物的外觀上的大小,能夠調(diào)整用于立體匹配的圖像的分辨率。作為結(jié)果,能夠一邊防止超過需要地搜索詳細(xì)的圖像數(shù)據(jù)的浪費(fèi)的發(fā)生,一邊保持其精度。
[0099]圖9表示攝像裝置12生成的拍攝圖像的階層和位置信息獲取部42的數(shù)據(jù)生成部58生成的深度圖像的階層的對(duì)應(yīng)。在同圖中,上側(cè)的4組的圖像82a、82b、82c、82d是某時(shí)刻拍攝的立體圖像,下側(cè)的4個(gè)的圖像84a、84b、84c、84d是對(duì)該立體圖像生成了的深度圖像,從左起按順序分別是第O階層、第I階層、第2階層、第3階層的圖像。
[0100]例如,若拍攝人在臉部之前揮動(dòng)棒狀的物體的樣子,在某時(shí)刻圖像82a、82b、82c、82d那樣的拍攝圖像對(duì)2個(gè)視點(diǎn)一張一張地被生成。若假設(shè)這樣對(duì)象區(qū)域決定部40對(duì)拍攝圖像決定了的階層是第2階層,對(duì)象區(qū)域是區(qū)域86,則位置信息獲取部42獲取該階層、該區(qū)域的左右的圖像數(shù)據(jù)并進(jìn)行立體匹配。
[0101]然后,如果其區(qū)域中的對(duì)象物的位置信息被得到,則在深度圖像的階層數(shù)據(jù)之中,更新對(duì)應(yīng)的階層中的對(duì)應(yīng)的區(qū)域,即區(qū)域88的像素值。此時(shí),對(duì)區(qū)域86得到的深度方向的位置坐標(biāo)之中最小的值(朝向自己一側(cè)的位置)在比第2階層所設(shè)定的深度界限更里面時(shí),不進(jìn)行更新處理。這是因?yàn)?,上述那樣,將因某種原因原本以該分辨率不應(yīng)設(shè)為對(duì)象物的位置而正確地被得到的深度方向的位置中發(fā)生了大的活動(dòng)的情況,作為錯(cuò)誤而排除。階層與深度界限預(yù)先關(guān)聯(lián)并作為表格存儲(chǔ)至存儲(chǔ)器等。
[0102]這樣,將深度圖像作為階層結(jié)構(gòu),在各時(shí)刻更新對(duì)應(yīng)于用于立體匹配了的拍攝圖像的階層的階層的數(shù)據(jù)。圖像的分辨率與從該圖像高精度地得到的對(duì)象物的深度方向的位置的范圍對(duì)應(yīng)。因此,按每個(gè)用于立體匹配了的圖像的分辨率將深度圖像階層化,通過僅將得到的位置信息反映至對(duì)應(yīng)的階層,變成通過深度方向的位置的范圍區(qū)分對(duì)象物的位置。
[0103]使用該深度圖像而進(jìn)行處理的輸出信息生成部32,通過根據(jù)進(jìn)行的處理的內(nèi)容或期望的精度等,適當(dāng)?shù)剡x擇深度圖像的階層并參照,能夠一邊準(zhǔn)確地獲取需要的信息,一邊防止將多余的數(shù)據(jù)編入至處理而處理精度下降、處理速度降低的情況。
[0104]例如,想要忽略離攝像機(jī)遠(yuǎn)的對(duì)象物的活動(dòng)的時(shí)候,僅參照第O階層、第I階層等低分辨率的圖像。相反地,在僅關(guān)注里面的對(duì)象物的活動(dòng)的情況下,僅參照第2階層、第3階層等高分辨率的圖像。在想全部獲取從朝向自己的一側(cè)至里面的一側(cè)位置寬范圍中的活動(dòng)的情況下,也可以依次參照從第O階層至第3階層。應(yīng)該參照的深度圖像的階層,也可以通過實(shí)際地進(jìn)行處理并驗(yàn)證,對(duì)處理內(nèi)容、被假定的對(duì)象物的位置、以及大小等設(shè)定。
[0105]根據(jù)以上敘述了的本實(shí)施方式,在攝像裝置中設(shè)置2個(gè)攝像機(jī),從不同的視點(diǎn)同時(shí)拍攝對(duì)象物的視頻。拍攝了的圖像通過金字塔濾波器變換為分辨率不同的多個(gè)階層圖像。然后,使用低分辨率的整體圖像而檢測(cè)活動(dòng)區(qū)域,選擇與其大小相稱的階層之后,僅獲取預(yù)測(cè)為有對(duì)象物的活動(dòng)的對(duì)象區(qū)域并進(jìn)行立體匹配。
[0106]由此,對(duì)象物不論在深度方向的哪個(gè)位置,在立體匹配的精度能夠維持的范圍內(nèi),能夠省略浪費(fèi)的數(shù)據(jù)處理,能夠使精度和處理效率并存。此外,即使對(duì)象物的位置變化,由于對(duì)象區(qū)域的圖像尺寸變化不大,計(jì)算量與對(duì)象物的位置無關(guān),變得能夠輸出穩(wěn)定了的位
置信息。
[0107]此外,通過基于對(duì)象物的活動(dòng)等預(yù)測(cè)將來的對(duì)象區(qū)域,在獨(dú)立了的定時(shí)進(jìn)行決定對(duì)象區(qū)域的處理和立體匹配。由此,鑒于處理資源或處理能力、所期望的響應(yīng)性、以及精度等,能夠自由地決定以怎樣的頻率進(jìn)行這2個(gè)處理。
[0108]此外,為了對(duì)象區(qū)域的決定,將2個(gè)由2個(gè)攝像機(jī)所拍攝了的立體圖像一起使用,基于成為在雙方中得到了的活動(dòng)區(qū)域的和的區(qū)域決定對(duì)象區(qū)域。由此,針對(duì)活動(dòng)達(dá)到的范圍大的、朝向自己的一側(cè)的對(duì)象物,能夠進(jìn)一步擴(kuò)大對(duì)象區(qū)域,對(duì)象物從對(duì)象區(qū)域超出的可能性變低。另一方面,超出的可能性最低的、里面的對(duì)象物,對(duì)象區(qū)域的擴(kuò)大被抑制,將浪費(fèi)的區(qū)域包含于對(duì)象區(qū)域的情況變少。
[0109]進(jìn)而,得到了的位置信息,定為以多個(gè)分辨率表示了將深度方向的位置作為像素值的深度圖像的階層結(jié)構(gòu)。然后,在各時(shí)刻更新對(duì)應(yīng)于在立體匹配中使用了的圖像的階層的區(qū)域的像素值。由此,根據(jù)使用位置信息而進(jìn)行的后續(xù)階段的處理所期望的精度、分辨率、以及對(duì)象物的深度方向的位置的假定范圍等,能夠切換參照的階層,能夠?qū)⑹褂昧藚⒄仗幚硪约皡⒄樟说男畔⒌母鞣N處理變得高效率。
[0110]以上,以實(shí)施方式為基礎(chǔ)說明了本發(fā)明。上述實(shí)施方式是示例,在其各結(jié)構(gòu)要素或各處理過程的組合上各種各樣的變形例是可能的,此外那樣的變形例也在本發(fā)明的范圍內(nèi)都是所屬領(lǐng)域技術(shù)人員所理解的范圍。
[0111]例如在本實(shí)施方式中,通過對(duì)對(duì)象區(qū)域決定部40決定了的對(duì)象區(qū)域進(jìn)行立體匹配,獲取了對(duì)象物的三維的位置信息,但是決定對(duì)象區(qū)域的技術(shù)、也能夠應(yīng)用于立體匹配以外的處理。例如也可以是不需要臉部的表情認(rèn)識(shí)處理等深度方向的詳細(xì)的位置信息的處理。在該情況下使用立體圖像,根據(jù)臉部的深度方向的位置來調(diào)整對(duì)象區(qū)域的大小,能夠選擇最佳的分辨率的圖像,因此其后的處理的精度以及效率能夠并存。
[0112]此外在本實(shí)施方式中,作為有活動(dòng)的區(qū)域、即用于確定對(duì)象區(qū)域的初始處理,信息處理裝置14的活動(dòng)區(qū)域檢測(cè)部46進(jìn)行了臉部檢測(cè)處理。另一方面,也可以將該臉部檢測(cè)處理的功能設(shè)置到攝像裝置12的各攝像機(jī)中。圖10表示那樣的情況的第I攝像機(jī)22的結(jié)構(gòu)。在此,第I攝像機(jī)22具備的圖像獲取部102、去馬賽克部104、圖像發(fā)送部150、金字塔濾波器部170以及通信部108與圖3中的各功能塊相同,該變形例進(jìn)而具備對(duì)象物檢測(cè)部180。第2攝像機(jī)24也具有相同的結(jié)構(gòu)。
[0113]對(duì)象物檢測(cè)部180,將在信息處理裝置14中對(duì)象區(qū)域決定部40作為處理對(duì)象的圖像,例如分辨率最低的第O階層的全區(qū)域的圖像從圖像發(fā)送部150的塊讀取部156獲取,通過對(duì)其進(jìn)行臉部檢測(cè)處理來確定臉部區(qū)域。然后,將該區(qū)域的位置以及大小的信息通知至圖像發(fā)送部150的分組化部160,與檢測(cè)對(duì)象的圖像數(shù)據(jù)本體一起分組并發(fā)送至信息處理裝置14?;蛘撸c檢測(cè)對(duì)象的圖像的識(shí)別信息等關(guān)聯(lián),從通信部108發(fā)送至信息處理裝置14。
[0114]此時(shí),信息處理裝置14的活動(dòng)區(qū)域檢測(cè)部46通過與圖像數(shù)據(jù)一起從攝像裝置12獲取各時(shí)刻的圖像中的臉部區(qū)域的信息,不進(jìn)行檢測(cè)圖7所示的臉部區(qū)域64a、64b的處理而終止。此時(shí)活動(dòng)區(qū)域檢測(cè)部46從決定活動(dòng)檢測(cè)對(duì)象區(qū)域66a、66b的處理開始。這樣,通過根據(jù)攝像裝置12的處理能力使處理的分擔(dān)變化,能夠進(jìn)行高效率的對(duì)象區(qū)域確定,結(jié)果,響應(yīng)性好的以及高精度的位置信息生成變得可能。
[0115]在此,對(duì)象物檢測(cè)部180進(jìn)行的檢測(cè)處理,如上述那樣,通過導(dǎo)入現(xiàn)有的模板匹配技術(shù)并準(zhǔn)備適當(dāng)?shù)哪0鍒D像,其對(duì)象不限于人的臉部,也可以是手、標(biāo)志器、規(guī)定的物等的任一個(gè)。例如在信息處理裝置14中,根據(jù)用戶指定了開始的游戲名或信息處理的種類等,輸入信息獲取部26確定與此對(duì)應(yīng)的對(duì)象物,將識(shí)別信息通知至攝像裝置12。
[0116]攝像裝置12的各攝像機(jī)從準(zhǔn)備于未圖示的存儲(chǔ)器的多個(gè)模板圖像中讀取與被通知的對(duì)象物對(duì)應(yīng)的模板圖像,通過進(jìn)行模板匹配,檢測(cè)對(duì)象物。或者,也可以信息處理裝置14將模板圖像的數(shù)據(jù)其本身發(fā)送至攝像裝置12。通過這樣做,能夠按照用戶的指示輸入等而使對(duì)象物各種各樣地變化。
[0117]標(biāo)號(hào)說明
[0118]10信息處理系統(tǒng)、12攝像裝置、14信息處理裝置、16顯示裝置、
[0119]22第I攝像機(jī)、24第2攝像機(jī)、26輸入信息獲取部、
[0120]28位置信息生成部、30通信部、32輸出信息生成部、
[0121]40對(duì)象區(qū)域決定部、42位置信息獲取部、44整體圖像獲取部、
[0122]46活動(dòng)區(qū)域檢測(cè)部、48區(qū)域預(yù)測(cè)部、50區(qū)域集中部、52階層決定部、
[0123]53對(duì)象區(qū)域圖像獲取部、54位置確定部、56無效數(shù)據(jù)檢測(cè)部、
[0124]58數(shù)據(jù)生成部、60深度圖像數(shù)據(jù)存儲(chǔ)部、102圖像獲取部、
[0125]104去馬賽克部、108通信部、150圖像發(fā)送部、151塊選擇部、
[0126]164控制部、170金字塔濾波器部、180對(duì)象物檢測(cè)部。
[0127]產(chǎn)業(yè)上的可利用性
[0128]如上所述本發(fā)明能夠利用于計(jì)算機(jī)、攝像機(jī)、游戲裝置、圖像顯示裝置等的信息處
理裝置。
【權(quán)利要求】
1.一種信息處理裝置,通過使用從不同的視點(diǎn)同時(shí)地視頻拍攝對(duì)象物所得到的立體動(dòng)態(tài)圖像而進(jìn)行立體匹配,以規(guī)定的速率輸出對(duì)象物的位置信息,其特征在于,具備: 位置信息獲取部,在將所述立體動(dòng)態(tài)圖像所包含的圖像幀對(duì)分別以規(guī)定的多個(gè)分辨率表示的多個(gè)拍攝圖像之中,通過使用基于與對(duì)象物的像的大小有關(guān)的信息選擇的分辨率的圖像而進(jìn)行立體匹配,獲取對(duì)象物的位置信息;以及 深度圖像數(shù)據(jù)生成部,以所述多個(gè)分辨率表示了將在已存儲(chǔ)于存儲(chǔ)器的、在圖像平面中將對(duì)象物的深度方向的位置作為像素值表示的深度圖像的多個(gè)深度圖像之中,通過基于所獲取到的位置信息,更新具有所述位置信息獲取部用于立體匹配的圖像的分辨率的深度圖像,而輸出對(duì)象物的位置信息。
2.如權(quán)利要求1所述的信息處理裝置,其特征在于, 所述深度圖像數(shù)據(jù)生成部,在所述位置信息獲取部獲取了的位置信息之中,深度方向的位置在對(duì)用于立體匹配的圖像的分辨率所設(shè)定的、應(yīng)設(shè)為有效的深度方向的位置的范圍外的時(shí)候,將該位置信息設(shè)為無效。
3.如權(quán)利要求1或2所述的信息處理裝置,其特征在于, 所述位置信息獲取部,基于通過使用所述拍攝圖像的任一個(gè)來求解活動(dòng)差分而確定的活動(dòng)區(qū)域,決定應(yīng)設(shè)為立體匹配的處理對(duì)象的對(duì)象區(qū)域之后,根據(jù)該對(duì)象區(qū)域的大小選擇用于立體匹配的分辨率。
4.如權(quán)利要求1至3的任一項(xiàng)所述的信息處理裝置,其特征在于,還具備: 輸出信息生成部,基于關(guān)聯(lián)了處理內(nèi)容和參照目的地的深度圖像的分辨率的設(shè)定信息,切換參照目的地的深度圖像而獲取了對(duì)象物的位置信息之后,通過使用其進(jìn)行規(guī)定的處理,輸出與對(duì)象物的活動(dòng)相應(yīng)的`處理結(jié)果。
5.如權(quán)利要求3所述的信息處理裝置,其特征在于, 所述位置信息獲取部將對(duì)所述圖像幀對(duì)的各自確定的所述活動(dòng)區(qū)域在統(tǒng)一坐標(biāo)系中重疊,將成為其和的區(qū)域作為所述對(duì)象區(qū)域而決定。
6.如權(quán)利要求5所述的信息處理裝置,其特征在于, 所述位置信息獲取部,在由表示以所述規(guī)定的多個(gè)分辨率表示了所述對(duì)象區(qū)域的時(shí)候的圖像的大小的多個(gè)矩形、以及具有預(yù)先確定的基準(zhǔn)的大小的矩形組成的大小的序列中,將對(duì)應(yīng)于大小僅次于具有所述基準(zhǔn)的大小的矩形的矩形的分辨率作為立體匹配的對(duì)象而選擇。
7.一種信息處理方法,通過使用從不同的視點(diǎn)同時(shí)視頻拍攝對(duì)象物而得到的立體動(dòng)態(tài)圖像而進(jìn)行立體匹配,以規(guī)定的速率輸出對(duì)象物的位置信息,其特征在于,具備: 在將所述立體動(dòng)態(tài)圖像所包含的圖像幀對(duì)分別以規(guī)定的多個(gè)分辨率表示的多個(gè)拍攝圖像之中,通過使用基于與對(duì)象物的像的大小有關(guān)的信息選擇的分辨率的圖像而進(jìn)行立體匹配,獲取對(duì)象物的位置信息的步驟;以及 以所述多個(gè)分辨率表示了將在存儲(chǔ)于存儲(chǔ)器的、在圖像平面中將對(duì)象物的深度方向的位置作為像素值表示的深度圖像的多個(gè)深度圖像之中,通過基于所獲取到的位置信息,更新具有用于立體匹配的圖像的分辨率的深度圖像,而輸出對(duì)象物的位置信息的步驟。
8.一種計(jì)算機(jī)程序,在計(jì)算機(jī)中實(shí)現(xiàn)通過使用從不同的視點(diǎn)同時(shí)視頻拍攝對(duì)象物而得到的立體動(dòng)態(tài)圖像而進(jìn)行立體匹配,以規(guī)定的速率輸出對(duì)象物的位置信息的功能,在計(jì)算機(jī)中實(shí)現(xiàn)了以下功能: 在將所述立體動(dòng)態(tài)圖像所包含的圖像幀對(duì)分別以規(guī)定的多個(gè)分辨率表示的多個(gè)拍攝圖像之中,通過使用基于與對(duì)象物的像的大小有關(guān)的信息選擇的分辨率的圖像而進(jìn)行立體匹配,獲取對(duì)象物的位置信息的功能;以及 以所述多個(gè)分辨率表示了將在存儲(chǔ)于存儲(chǔ)器的、在圖像平面中將對(duì)象物的深度方向的位置作為像素值表示的深度圖像的多個(gè)深度圖像之中,通過基于所獲取到的位置信息,更新具有用于立體匹配的圖像的分辨率的深度圖像,而輸出對(duì)象物的位置信息的功能。
9.一種記錄介質(zhì),記錄了在計(jì)算機(jī)中實(shí)現(xiàn)通過使用從不同的視點(diǎn)同時(shí)視頻拍攝對(duì)象物而得到的匹配動(dòng)態(tài)圖像而進(jìn)行立體匹配,以規(guī)定的速率輸出對(duì)象物的位置信息的功能的計(jì)算機(jī)程序,記錄了在計(jì)算機(jī)中實(shí)現(xiàn)以下功能的計(jì)算機(jī)程序: 在將所述立體動(dòng)態(tài)圖像所包含的圖像幀對(duì)分別以規(guī)定的多個(gè)分辨率表示的多個(gè)拍攝圖像之中,通過使用基于與對(duì)象物的像的大小有關(guān)的信息選擇的分辨率的圖像而進(jìn)行立體匹配,獲取對(duì)象物的位置信息的功能;以及 以所述多個(gè)分辨率表示了將在存儲(chǔ)于存儲(chǔ)器的、在圖像平面中將對(duì)象物的深度方向的位置作為像素值表示的深度圖像的多個(gè)深度圖像之中,通過基于所獲取到的位置信息,更新具有用于立體匹配的圖像的分辨率的深度圖像,而輸出對(duì)象物的位置信息的功能。
10.一種位置信息的數(shù)據(jù)結(jié)構(gòu),表示正在動(dòng)態(tài)圖像拍攝的對(duì)象物的位置信息,每次獲取位置信息時(shí)被更新, 關(guān)聯(lián)了具有與為了位置信息的獲取而生成的幀的多個(gè)分辨率對(duì)應(yīng)的分辨率的多個(gè)深度圖像,以便于能夠根據(jù)用于位置信息的獲取的幀的分辨率,切換反映作為獲取結(jié)果的位置信息的深度圖像的分辨率 ,該深度圖像在與動(dòng)態(tài)圖像的幀對(duì)應(yīng)的圖像平面中將對(duì)象物的深度方向的位置作為像素值而表示。
【文檔編號(hào)】G01B11/00GK103460242SQ201280014669
【公開日】2013年12月18日 申請(qǐng)日期:2012年1月16日 優(yōu)先權(quán)日:2011年3月31日
【發(fā)明者】大場(chǎng)章男, 勢(shì)川博之 申請(qǐng)人:索尼電腦娛樂公司