專利名稱:用于軌跡估計的方法和裝置以及用于分割的方法
技術領域:
本發明涉及軌跡估計方法和軌跡估計裝置以及分割方法,并且特別地涉及能夠基于兩幅或更多幅圖像而精確地估計諸如移動而改變形狀的人等對象在圖像上的軌跡的軌跡估計方法和軌跡估計裝置以及分割方法。
背景技術:
常規上,已經廣泛地進行了對圖像上的軌跡進行估計的研究與開發。具體地,對諸如人等改變形狀的對象的軌跡進行估計的技術是普遍用于例如數碼攝像機或數碼相機中的聚焦控制和圖像質量改進處理以及汽車的駕駛安全支持系統或使用機器人的碰撞避免控制或警報的基礎技術。用于估計軌跡的最通常的方法是通過在一幅圖像中提供塊(該塊為部分區域)并且在另一幅圖像中使用包括在該塊中的像素信息(像素值)來執行空間搜索,從而基于像素信息中的相似性來估計運動矢量。通過時間上連接這樣的運動矢量可以估計軌跡。然而,根據該方法,運動矢量是基于塊內的像素值的相似性來估計的。因此,在包括諸如不具有紋理的均勻區域等區域或具有條紋圖案的區域的圖像的情況下,不可能精確地估計運動矢量,從而導致誤差被包括在軌跡中。另一方面,非專利文獻2描述了一種用于估計更精確軌跡的方法。利用該方法,在對諸如不具有紋理的均勻區域等區域的軌跡進行估計的情況下,僅通過使用諸如角落或邊緣等魯棒點來進行研究,在魯棒點處,像素值不太可能隨時間變化。這給出了允許更精確估計軌跡的優點。引用列表非專利文獻[非專利文獻 1]1989 年的 hternational Journal of Computer Vision,卷 2, 第 283-310 頁,作者為 P. Anandan 的文章"A computational Framework and an Algorithm for the Measurement of Visual Motion,,[非專利文獻 2] 1994 年的 IEEE Conference on Computer Vision and Pattern Recognition,第 593-600 頁,作者為 Jianbo Shi 禾口 Carlo Tomasi 的文章"Good Features to Track,,
發明內容
技術問題然而,在常規的方法中,為了處理在諸如人等對象中頻繁發生的大小(scale)改變或形狀改變,需要采取對應于該大小改變或該形狀改變的移動模型。因此,如果沒有執行移動模型的合適設置,則存在不能夠獲得精確軌跡的問題。特別是,在不使用任何關于對象的先前知識的情況下,很難針對形狀改變設置合適的運動模型。因此,構思了本發明來解決以上的問題,并且本發明的目的是提供一種能夠基于兩幅或更多幅圖像而精確地估計諸如移動而改變形狀的人等對象或包括均勻紋理的對象在圖像上的軌跡的軌跡估計方法和軌跡估計裝置以及分割方法。解決問題的方案為了實現上述目的,根據本發明一方面的軌跡估計方法是用于對構成視頻中的移動對象的全部或移動對象的部分的子區域的軌跡進行估計的軌跡估計方法,并且所述軌跡估計方法包括接收包括在所述視頻中的多幅圖像,所述多幅圖像是按時間排序的;通過對在所述接收中接收的所述多幅圖像中的每一幅圖像執行分層分割來在分層級 (hierarchical level)上生成子區域,使得空間上較大的子區域包括空間上較小的子區域,所述空間上較大的子區域和所述空間上較小的子區域屬于彼此不同的分層級;以及通過跨與特定圖像不同的圖像中的分層級,搜索與包括在所述特定圖像中的子區域最相似的子區域來將包括在所述特定圖像中的所述子區域在所述視頻中的軌跡估計為代表軌跡 (representative trajectory)0應該注意,本發明不僅可以被實現為上述軌跡估計方法,而且還可以被實現為軌跡估計裝置、程序和計算機可讀非易失性記錄介質,其中所述軌跡估計裝置包括作為組成要素的、包括在所述軌跡估計方法中的特征步驟,所述程序使計算機執行包括在所述軌跡估計方法中的所述特征步驟,以及計算機可讀非易失性記錄介質例如是光盤只讀存儲器 (CD-ROM),在該計算機可讀非易失性記錄介質上存儲所述程序。發明的有益效果根據本發明,可以精確地對諸如移動而改變形狀的人等對象或包括均勻紋理的對象在圖像上的軌跡進行估計。
圖1是示出根據本發明第一實施例的軌跡估計裝置的基本結構的功能框圖。圖2是示出根據本發明第一實施例的軌跡估計裝置的硬件結構的功能框圖。圖3是示出根據本發明第一實施例的軌跡估計裝置的基本操作的流程圖。圖4是示出根據本發明第一實施例的用于估計運動矢量的處理的示例的簡圖。圖5是示出根據本發明第一實施例的用于估計軌跡的處理的示例的簡圖。圖6是示出由根據本發明第一實施例的分層子區域生成單元執行的處理的示例的簡圖。圖7是示出由根據本發明第一實施例的分層子區域生成單元輸入的輸入圖像的示例的簡圖。圖8是示出由根據本發明第一實施例的分層子區域生成單元執行的處理的結果的示例的簡圖。圖9是示出由根據本發明第一實施例的分層子區域生成單元執行的處理的結果的示例的簡圖。圖10是示出由根據本發明第一實施例的分層子區域生成單元執行的處理的結果的示例的簡圖。圖11是示出由根據本發明第一實施例的分層子區域生成單元執行的處理的結果的示例的簡圖。
圖12是示出由根據本發明第一實施例的分層子區域生成單元執行的處理的結果的示例的簡圖。圖13是示出由根據本發明第一實施例的分層子區域生成單元執行的處理的結果的示例的簡圖。圖14是示出由根據本發明第一實施例的代表軌跡估計單元生成模板的處理的示例的簡圖。圖15是示出由根據本發明第一實施例的代表軌跡估計單元執行的匹配處理的示例的簡圖。圖16是示出由根據本發明第一實施例的代表軌跡估計單元執行的匹配處理的另一示例的簡圖。圖17是示出由根據本發明第一實施例的代表軌跡估計單元估計代表軌跡的處理的示例的簡圖。圖18是示出由根據本發明第一實施例的代表軌跡估計單元估計的代表軌跡的示例的簡圖。圖19是示出根據本發明第二實施例的分割裝置的基本結構的功能框圖。圖20是示出根據本發明第二實施例的分割裝置的基本操作的流程圖。圖21是示出由根據本發明第二實施例的分割單元執行的處理的示例的簡圖。圖22是示出由根據本發明第二實施例的分割單元執行的處理的優點的簡圖。圖23是示出由根據本發明第二實施例的分割單元執行的測地距離(geodetic distance)轉換的結果的示例的簡圖。圖M是示出由根據本發明第二實施例的分割單元執行的處理的結果的示例的簡圖。圖25是示出根據本發明第二實施例的分割裝置的基本操作的流程圖。圖沈是示出由根據本發明第二實施例的變型的分割單元生成的最小生成樹 (MST)的示例的簡圖。圖27是示出由根據本發明第二實施例的變型的分割單元生成的當前對的示例的簡圖。圖觀是示出由根據本發明第二實施例的變型的分割單元執行的用于自動地確定類別數量的示例的簡圖。
具體實施例方式根據本發明的一個實施例是用于對構成視頻中的移動對象的全部或移動對象的部分的子區域的軌跡進行估計的軌跡估計方法,并且所述軌跡估計方法包括接收包括在所述視頻中的多幅圖像,所述多幅圖像是按時間排序的;通過對在所述接收中接收的所述多幅圖像中的每一幅圖像執行分層分割來在分層級上生成子區域,使得空間上較大的子區域包括空間上較小的子區域,所述空間上較大的子區域和所述空間上較小的子區域屬于彼此不同的分層級;以及通過跨與特定圖像不同的圖像中的分層級,搜索與包括在所述特定圖像中的子區域最相似的子區域來將包括在所述特定圖像中的所述子區域在所述視頻中的軌跡估計為代表軌跡。
根據該結構,跨分層(hierarchy)地搜索子區域。由于這促進了吸收形狀和尺寸的差異,所以可以改進搜索精確度。特別是,可以精確地估計諸如移動而改變形狀的人等對象或包括均勻紋理的對象的軌跡。優選地,上述軌跡估計方法還包括通過針對由包括在所述多幅圖像中的每一幅圖像中的一個或多個像素構成的每個塊分析所述多幅圖像之間的運動而在所述視頻中生成所述塊的軌跡,其中在所述估計中,通過使包括在所述特定圖像中的所述子區域與包括在所述子區域中的所述塊的所述軌跡一起移動來生成預測子區域,所述預測子區域是在與所述特定圖像不同的所述圖像中預測的子區域,并且通過跨與所述特定圖像不同的所述圖像中的所述分層級,搜索與所述預測子區域最相似的所述子區域來將包括在所述特定圖像中的所述子區域在所述視頻中的軌跡估計為所述代表軌跡。根據該結構,還可以基于屬于每個子區域的軌跡,通過在下一時間生成模板而響應于子區域的形狀改變來魯棒地估計軌跡。更優選地,在所述估計中,使包括在所述生成中生成的每個子區域的軌跡對于所述每個子區域是平滑的,并且基于包括在所述每個子區域中的平滑的軌跡來估計所述代表軌跡。根據該結構,可以通過每個子區域地校正所述軌跡來針對每個區域估計連貫一致的軌跡。更優選地,在所述估計中,通過使用相似性測度(similarity measure)來確定子區域之間的相似性,從而搜索所述子區域,其中所述相似性測度包括所述子區域的像素值和形狀信息中的至少之一。根據該結構,可以基于包括形狀信息和像素值中的至少一個的相似性測度來估計軌跡。此外,在所述估計中,可以通過⑴采用曲線圖(graph)、和(ii)將動態編程應用于所述曲線圖而生成用于所述曲線圖的最優路徑來估計所述代表軌跡,在所述曲線圖中 包括在所述特定圖像中的所述子區域和包括在與所述特定圖像不同的所述圖像中的所述子區域是節點;使用邊來對表示包括在所述特定圖像中的所述子區域的一個節點和表示包括在與所述特定圖像不同的所述圖像中的所述子區域的另一節點進行連接;并且這樣的值是邊權重,即對于由所述邊連接的子區域之間的較大相似性,該值是較小的。根據該結構,可以通過采用上述曲線圖并且使用動態編程計算最優路徑來從全局優化視角來看在相對長的時間段中精確地估計所述代表軌跡。特別地,在估計用于三個或更多個幀的代表軌跡的情況中,可以利用關于全部幀的信息來估計最優代表軌跡。優選地,在所述生成中,基于包括輪廓信息的特征,在分層級上生成所述子區域。根據該結構,通過使用包括輪廓信息的特征,可以生成所述子區域,所述子區域對于顏色和亮度波動是魯棒的并且從所述子區域中排除諸如陰影等影響,并且因此可以估計高精確的軌跡。本發明的另一實施例是用于對每個移動對象的視頻執行分割的分割方法,并且該分割方法包括上述軌跡估計方法中包括的處理;以及通過將代表軌跡之間具有相似性的子區域進行結合來對視頻執行分割。根據該結構,可以通過使用估計的軌跡和子區域來執行分割。因此,在改變形狀的對象的情況下,也可以更精確地執行分割。優選地,在所述執行中,通過連接小于閾值的距離來將代表軌跡之間的距離轉換為測地距離、檢測在獲得的測地距離中的不連續點并且通過將彼此分開的距離比在所檢測的不連續點處的測地距離小的軌跡分為一類來執行分割。根據該結構,將彼此分開的距離比在不連續點處的測地距離小的軌跡分為一類。 因此,與使用歐幾里得距離(歐幾里得距離為線性距離)的聚類(clustering)相比,執行考慮了軌跡之間相似性的時空連續性的聚類。因此,可靠地區分了圖片中的每個塊屬于同一對象(或區域)還是屬于另一對象(或區域)。因此,甚至在檢測諸如由具有不同運動的區域構成的人等關節式對象的情況下,也可以正確地執行分割,以便可靠地檢測移動對象。 換言之,可以對諸如移動而改變形狀的人等移動對象精確地執行分割,并由此可以檢測圖像中的移動對象。此外,在所述執行中,基于對應于要被結合的子區域的代表軌跡和鄰近所述要被結合的子區域的至少一個子區域的代表軌跡,可以確定是否結合所述要被結合的子區域。根據該結構,可以通過不僅考慮要被結合的子區域而且還考慮鄰近的子區域來執行考慮鄰近子區域的分割。因此,這產生了以下有益效果,即能夠更好地反映圖像的結構并且執行不易受諸如圖像中的對象尺寸差異等影響的分割。優選地,在所述執行中,基于在根據曲線圖計算的最小生成樹中表示的連接關系來執行分割,在該曲線圖中,將代表軌跡假設為節點并且通過使用邊來將代表軌跡彼此連接;并且由邊連接的代表軌跡之間的距離被假設為邊權重。通過使用最小生成樹以有限的連接關系表示所述代表軌跡,可以以最小計算量來執行分割。更優選地,在所述執行中,基于用于將具有以下關系的一對代表軌跡與鄰近該對代表軌跡的至少一個代表軌跡連接的邊權重,通過在最小生成樹中確定是否結合該對代表軌跡來執行分割代表軌跡是使用一條邊直接彼此連接的。根據該結構,可以通過執行這種包括鄰域(neighborhood)的成對聚類(pairwise clustering)來考慮包括手和腳之間關系的區域之間的關系。因此,這產生了允許甚至對諸如人等關節式對象進行精確分割的優點。此外,由于還考慮了與空間上遠的地方的關系,因此可以執行不易受諸如圖像中的對象尺寸變化或差異等影響的分割。本發明的又一實施例是用于對構成視頻中的移動對象的全部或移動對象的部分的子區域的軌跡進行估計的軌跡估計裝置,并且所述軌跡估計裝置包括圖像接收單元,其接收包括在所述視頻中的多幅圖像,所述多幅圖像是按時間排序的;分層子區域生成單元, 其通過對由所述圖像接收單元接收的所述多幅圖像中的每一幅圖像執行分層分割來在分層級上生成子區域,使得空間上較大的子區域包括空間上較小的子區域,所述空間上較大的子區域和所述空間上較小的子區域屬于彼此不同的分層級;以及代表軌跡估計單元,其通過跨與特定圖像不同的圖像中的分層級,搜索與包括在所述特定圖像中的子區域最相似的子區域來將包括在所述特定圖像中的所述子區域在所述視頻中的軌跡估計為代表軌跡。本發明的又一實施例是用于對構成視頻中的移動對象的全部或移動對象的部分的子區域的軌跡進行估計的程序,并且所述程序使計算機執行接收包括在所述視頻中的圖像,所述圖像是按時間排序的;通過對在所述接收中接收的所述多幅圖像中的每一幅圖像執行分層分割來在分層級上生成子區域,使得空間上較大的子區域包括空間上較小的子區域,所述空間上較大的子區域和所述空間上較小的子區域屬于彼此不同的分層級;以及通過跨與特定圖像不同的圖像中的分層級,搜索與包括在所述特定圖像中的子區域最相似的子區域來將包括在所述特定圖像中的所述子區域在所述視頻中的軌跡估計為代表軌跡。本發明的又一實施例是一種對每個移動對象的視頻執行分割的分割裝置,并且所述分割裝置包括上述軌跡估計裝置;以及分割單元1101,其通過將代表軌跡之間具有相似性的子區域進行結合來對視頻執行分割。本發明的又一實施例是一種用于對每個移動對象的視頻執行分割的程序,并且所述程序使計算機執行包括在上述軌跡估計方法中的處理;以及通過將代表軌跡之間具有相似性的子區域進行結合來對視頻執行分割。在下文中,參考附圖來描述本發明的實施例。實施例1圖1是示出根據第一實施例的軌跡估計裝置的結構的圖。圖1中示出的軌跡估計裝置是對諸如移動而改變形狀的人等對象或包括均勻紋理的對象的軌跡進行精確估計的裝置,并且該軌跡估計裝置包括圖像接收單元101、運動分析單元102、分層子區域生成單元103、代表軌跡估計單元104和輸出單元105。應該注意本發明中的必要組成元件是圖像接收單元101、分層子區域生成單元103和代表軌跡估計單元104,并且該軌跡估計裝置不需要包括運動分析單元102和輸出單元105。圖像接收單元101接收按時間排序的并且包括在視頻中的圖像的輸入。該圖像接收單元101例如是攝像機或連接到該攝像機的通信接口等。運動分析單元102針對由圖像接收單元101接收的多幅圖像中的每一幅圖像中包括的一個或多個像素構成的每個塊分析所述多幅圖像之間的運動而在視頻中生成所述塊的軌跡。換言之,運動分析單元102通過使用圖像接收單元101接收的多幅圖像中的至少兩幅時間上不同的圖像來估計塊運動。基于所估計的塊運動,運動分析單元102通過追蹤塊在按時間排序的多幅圖像上的運動來估計像素的軌跡。分層子區域生成單元103通過對由圖像接收單元101接收的多幅圖像中的每一幅圖像執行分層分割來在分層級上生成子區域,使得在屬于彼此不同的分層級的子區域中, 空間上較大的子區域包括空間上較小的子區域。使用特別是包括輪廓信息的特征,分層子區域生成單元103對由圖像接收單元101獲得的圖像執行分割,將其分割成子區域。分層子區域生成單元103從空間上粗糙的子區域到空間上精細的子區域分層地執行分割。本實施例具有以下特征,即空間上粗糙的子區域(空間上較大尺寸)包括空間上精細的子區域 (空間上較小尺寸)。代表軌跡估計單元104通過跨與特定圖像不同的圖像中的分層級,搜索與包括在所述特定圖像中的子區域最相似的子區域來將包括在所述特定圖像中的所述子區域在所述視頻中的軌跡估計為代表軌跡。利用該處理,代表軌跡估計單元104估計代表每個子區域的軌跡。更具體地,代表軌跡估計單元104通過使包括在所述特定圖像中的子區域與包括在所述子區域中的塊的軌跡一起移動來生成預測子區域,所述預測子區域是在與所述特定圖像不同的圖像中預測的子區域,并且代表軌跡估計單元104通過跨與所述特定圖像不同的所述圖像中的分層級,搜索與所述預測子區域最相似的所述子區域來將包括在所述特定圖像中的所述子區域在所述視頻中的軌跡估計為所述代表軌跡。這里,產生如下有益效果,即通過使用用于每個子區域的軌跡來生成預測子區域(模板),從而能夠處理子區域的形狀改變。而且,跨分層執行的空間搜索產生以下有益效果,即能夠精確地計算在具有均勻紋理等的區域中的軌跡。應該注意代表軌跡估計單元104通過使用相似性測度來確定子區域之間的相似性,從而搜索子區域,其中該相似性測度包括子區域的像素值和形狀信息中的至少之一。輸出單元105將代表每個子區域的軌跡輸出到監視器(顯示器)等。根據本實施例,也可以基于每個子區域及其軌跡來輸出結果,作為時空分割的結果。應該注意包括在軌跡估計裝置中的每個組成元件(圖像接收單元101、運動分析單元102、分層子區域生成單元103、代表軌跡估計單元104和輸出單元10 可以通過使用諸如在計算機上執行的程序等軟件來實現,并且也可以被實現為諸如電子電路等硬件,該計算機包括CPU、隨機存取存儲器(RAM)、只讀存儲器(ROM)、通信接口、輸入/輸出(I/O)端口、硬盤、顯示器等。這同樣適用于另一實施例中的分割裝置。圖2是示出通過使用軟件實現的根據本發明的軌跡估計裝置的硬件結構的簡圖。在圖2中,照相機201捕獲并輸出圖像,并且計算機202獲得由照相機201捕獲的圖像,執行用于估計代表軌跡的處理以及生成用于顯示代表軌跡的計算結果的圖像。顯示器203獲得并顯示由計算機202生成的圖像。 計算機 202 包括接口(I/F)204、CPU 205,ROM 206,RAM 207、硬盤驅動器(HDD) 208 和視頻卡209。使計算機202運行的程序由ROM 206或HDD 208預先保存。CPU 205從ROM 206或 HDD 208讀出該程序,并且該程序由RAM207擴展,其中CPU 205是處理器。CPU 205執行在由RAM 207擴展的程序中的每個編碼的命令。用于執行程序的中間處理數據臨時地存儲在 RAM207或HDD 208上。根據程序的執行,I/F 204取回由照相機201捕獲的圖像,并將其放到RAM 207中。視頻卡209根據程序的執行來輸出所生成的圖像,并且顯示器203顯示輸出圖像。應該注意計算機程序可以存儲在例如光盤等(非易失性記錄介質)上,不限于為半導體的ROM 206或HDD 208。此外,計算機程序也可以經由有線或無線網絡、廣播等發送, 并且計算機程序可以被取回并放到計算機的RAM 207中。在下文中,使用圖3中的流程圖來描述根據本發明第一實施例的代表軌跡估計裝置的操作。這里描述了以下示例,即接收包括諸如移動而改變形狀的人等對象或包括均勻紋理的對象的圖像的輸入,并且然后估計軌跡。圖像接收單元101接收T幅圖像(T彡2)的輸入(步驟S301)。運動分析單元102估計關于輸入的T幅圖像之間的運動的信息,并且生成和輸出軌跡(步驟S302)。這里,用于估計T幅圖像之間的運動的方法參考T幅圖像中的特定圖像上的點I來搜索包括在其它T-I幅圖像中的對應像素。應該注意替代點I處的像素,用于估計圖像之間的運動的方法可以參考I個矩形子區域(塊)。例如,如圖4所示,通過使用在時間t和時間t+Ι捕獲的輸入圖像401來
估計對應于在時間t的圖像上的像素i的像素坐標(XtSytO (i = 1......I)的在時間t+1
的圖像上的像素坐標(Χ +Λ yt+/)。此時,在時間t的矩形子區域402(塊)被掃描在時間 t+Ι (虛線箭頭)的圖像上,并且將具有在時間t的矩形子區域中的像素值與在時間t+Ι的矩形子區域中的像素值之間差異的最小和的像素坐標(實線箭頭)估計為對應的像素。對于像素坐標而言,可以使用表示塊的中心位置的像素坐標。這里,可以預先確定掃描范圍。 此外,為了計算差異,可以使用任何事物,只要它表示待比較的塊的像素值中的差異可以使用在時間t的矩形子區域中的像素值與在時間t+Ι的矩形子區域中的像素值之間的均方誤差,并且也可以使用受諸如中值等離群值(outlier)影響較小的測度。在三幅或更多幅圖像的情況中,通過順序地估計對應的坐標來估計與在所輸入的I幅圖像中的每一幅圖像中的點I相對應的點。作為估計如上所述的圖像之間的對應點的另一種特定方法,也可以使用在非專利文獻1、3、4中公開的方法。關于用于估計圖像之間的對應點的特定方法,由于通過引用將這些非專利文獻并入本文,因此這里不再重復對其的詳細說明。[3] 2001 International Conference on Computer Vision, # 者為 Vladimir Kolmogorov 禾口 Ramin Zabih 的文章"Computing Visual Correspondence with Occlusions via Graph Cuts,,[ # # ^lJ i K 4] 2007 的 International Conference on Medical Image Computing and Computer Assisted Intervention, 作者為 Thomas Pock、Martin Urschler、Christopher Zach、Reinhard Beichel 禾口 Horst Bischof 的文章"A Duality Based Algorithm for TV-L I-Optimal-Flow Image Registration,,在步驟S302中,當假設例如在步驟S301中輸入T幅圖像時,運動分析單元102使用在時間t和時間t+Ι捕獲的兩幅圖像來估計像素i的運動矢量(UtS Vt1)。這里,兩幅圖像不需要是按時間排序的,并且通過使用例如在時間t和時間t+n輸入的圖像,也可以估計像素運動。然而,η是等于或大于1的整數。應該注意代替使用運動矢量,運動分析單元102可以估計和使用仿射參數作為運動信息。這時,運動分析單元102可以估計全部像素的運動信息。此外,當旨在執行高速處理時,運動分析單元102可以將圖像分成網格并且僅估計預定間隔的網格上的像素的運動信息,或者如之前所述,運動分析單元102可以將圖像分成塊并且估計關于每個塊的運動信息。此外,當使用在非專利文獻1中公開的方法來估計運動矢量時,運動分析單元102 可以估計運動信息的可靠性,并且因此可以僅估計高可靠性的運動信息并且將所估計的信息用作運動信息。此外,當使用在非專利文獻3中公開的方法來估計運動矢量時,運動分析單元102可以估計遮擋(occlusion)。因此,運動分析單元102可以僅估計關于未被遮擋的像素的信息并且將所估計的信息用作運動信息。此外,作為用于估計像素運動的方法,代替使用如前所述的通過采取塊的平行移動來估計運動矢量的方法,運動分析單元102可以使用通過采取塊的仿射變換來估計運動矢量的方法。對于通過采取仿射變換來估計運動矢量的方法,可以使用在非專利文獻2中公開的方法。非專利文獻2中公開的方法是估計對應于在時間t和時間t+Ι輸入的圖像中的像素i的鄰域的運動的仿射參數ΑΛ對于像素i而言,在時間t和時間t+Ι的圖像上的像素位置 < 和xt+/具有以下的關系(表達式1)。數學式1x;+1 = A1X(表達式1)根據該方法,特別對于正在旋轉移動的移動對象而言,可以估計比在使用通過采
11取平行移動來估計運動矢量的方法的情況下更精確地像素i的運動。再次,參考圖3,使用在步驟S302中估計的運動信息,運動分析單元102基于像素 i的運動針對按時間排序的T幅圖片估計像素i的軌跡(步驟S303)。如圖5所示,使用在步驟S302中估計的運動信息502,從在時間t輸入的輸入圖像501的像素i 503開始追蹤像素i的運動。這時,通過使用像素i已經通過的在時間t的圖像上的像素位置(XtSyti), 如下所述地估計像素i的軌跡。換言之,表達式2表示從第一幅圖像到第T幅圖像的像素位置(χΛ yt0的軌跡。數學式2x' =(x\,y\,...,x't,ylt,...,xlT,ylT)(表達式2)這里,T是計算軌跡所使用的圖像的數量。再次,參考圖3,分層子區域生成單元103通過執行多個分割來分層地將由圖像接收單元101獲得的相應圖像分割為子區域(步驟S304),其中所述多個分割中的每一個是使用不同的空間劃分數量(粒度)執行的。每個分層級對應于子區域分割的粒度,并且每個子區域的空間大小(尺寸)在具有粗糙粒度的分層級上是相對大的,并且子區域的空間大小(尺寸)在具有精細粒度的分層級上是相對小的。圖6示出將一幅輸入圖像601分層地分割為子區域602的結果的示例。如圖6所示,在步驟S304中,分層子區域生成單元103將輸入圖像601分割為子區域602,從而建立以下關系較高分層級(具有粗糙粒度)上的子區域602包括較低分層級(具有精細粒度) 上的子區域602。應該注意相反地,也可以建立以下關系較低分層級上的子區域包括較高分層級上的子區域。分層級的數量可以預先確定,并且分層級的數量也可以開始利用子區域數量的上限來確定。不言自明的是,可以根據時間來改變分層級的數量。在第一實施例中,假設預先確定分層級的數量。圖7示出實際輸入圖像的示例,并且圖8至圖13示出按粗糙粒度的次序的分割的結果。換言之,圖8示出具有最粗糙粒度(處于最高的分層級)的分割結果,并且圖13示出具有最精細粒度(處于最低的分層級)的分割結果。如由這些分割結果所顯示的那樣, 處于較高分層級的子區域包括處于較低分層級的子區域。由于用于分層地將圖像分割為子區域的上述方法是如在非專利文獻5中公開的廣泛已知方法,這里不再重復其詳細的描述。利用在非專利文獻5中公開的方法,使用包括輪廓信息的特征所執行的這種子區域分割產生以下有益效果可以允許較不易受顏色和亮度的波動影響的分割并且因此允許穩定的分割為子區域。在本實施例中,還可以使用包括輪廓信息的特征來執行子區域分割。[非專利文獻 5]2009 年的 Computer Vision and Pattern Recognition,作者為 Pablo Arbelaez、Michael Maire、Charless Fowlkes 禾口 Jitendra Marik 的文章"From Contours to Regions :An Empirical Evaluation,,再次,參考圖3,使用子區域和屬于該子區域的軌跡,代表軌跡估計單元104生成在子區域移動到目的地的時間的預測子區域,以便適應于子區域的時間上的形狀改變(步驟S305)。這里,對于預測子區域而言,像素值包括在子區域中并且在子區域開始從源移動的時間定位該像素值。應該注意預測子區域被用于之后要被描述的匹配處理(步驟 S306),但是,可以使用預測子區域的形狀信息來執行該匹配或者可以使用像素值信息來執行該匹配。這里,描述了作為模板生成的預測子區域的示例。這里,優選的是,模板是利用預定分層級或利用包括預定數量子區域的分層級生成的。首先,在由分層子區域生成單元103 執行的分割所產生的子區域和由運動分析單元102估計的軌跡中,將通過每個子區域的軌跡表示如下。通過子區域的軌跡是包括在子區域中的像素的軌跡。數學式3χ--'SC_i e 子區域 sc (表達式 3)這里,sc_i 表示屬于子區域SC的軌跡i。使用圖14來描述用于在步驟S305中生成模板的方法。如在圖14(a)和圖14(b) 中所示,首先,代表軌跡估計單元104利用屬于子區域701的軌跡702的目的地的信息,計算在不同于對應于子區域701的時間的時間的模板703的形狀。這里,描述用于生成在下一時間的用于子區域701的模板的方法,但是只要關于目的地的信息可以使用,就不需要生成在下一時間的模板,而是可以生成在任何時間的模板。例如,可以生成比對應于子區域701的時間早的時間的模板,并且可以以相同的方式執行以下的過程。更具體地,參考圖 14(c),假設代表軌跡估計單元104利用屬于在時間t的子區域sc的軌跡i來估計在時間t+Ι的軌跡705的一組對應點706,并且將該組對應點確定為模板703。應該注意,假設 對于包括在模板703中的每個像素的像素值,使用在軌跡705的源處的像素值,即時間t時的像素值。因此,使用關于軌跡的目的地的信息,代表軌跡估計單元104更新每一幀的模板 703。利用這一點,模板的形狀隨時間而改變。換言之,由于預測子區域隨時間而改變, 因此具有以下有益效果能夠在響應于對象的形狀改變的同時跟蹤對象。此外,通過使用具有空間密度的軌跡,也可以甚至對于非線性的形狀改變生成魯棒的模板。出于解釋的目的, 圖14已經描述了一個子區域,但是代表軌跡估計單元104生成用于多個或全部子區域的模板。再次,參考圖3,通過跨分層地空間搜索不同時間的相似子區域,代表軌跡估計單元104估計在子區域中的對應點(步驟S306)。這里,為了清晰地描述,描述了跨分層在不同時間的兩幅圖像之間執行搜索的示例。具體地,代表軌跡估計單元104從分層地生成的在時間t+Ι的子區域中,跨分層地并且使用在步驟S305中生成的預測子區域來搜索相對于預測子區域具有最小誤差的子區域。在下文中,作為特定的示例,描述了一個示例,其中通過將預測子區域用作模板,執行與分割為在時間t+Ι生成的子區域的圖像或子區域的形狀的匹配。參考圖15,代表軌跡估計單元104使用在步驟S305中生成的模板801來執行與在時間t+Ι的多個子區域802中的每一個子區域的匹配。這里,可以使用一個模板801來執行與在全部分層級上的子區域802的匹配,或者僅可以對模板801所屬的分層級的鄰近分層級上的子區域802執行該匹配。通過計算模板801的像素值與在時間t+Ι的每一個子區域802的像素值之間的差異的和來執行該匹配。假設模板801與具有差異的最小和的子區域802最匹配。換言之,具有差異的最小和等同于具有最大的相似性。這時,假設對應點是已經被用于生成模板801的在時間t 的子區域802的形心位置(centroid position)以及與在時間t+1的子區域802最匹配的模板801的形心位置。通過沿著時間方向重復該計算,可以利用對應點來計算代表軌跡。這里,空間匹配的目標范圍可以被預先限定為在時間t的模板801的位置的外圍等,或在不執行空間匹配的情況下,也可以僅沿著分層方向執行匹配,這是因為軌跡信息已經被用于在步驟S305中生成模板801。對于計算差異(相似性)而言,可以使用任何事物, 只要它表示模板801和子區域802中的每一個子區域802之間的像素值的差異可以使用模板801的像素值與在時間t+Ι的子區域802中的每一個的像素值之間的均方誤差,并且也可以使用較不易受諸如中值等離群值影響的測度。此外,也可以使用模板801的像素數量與要被匹配的子區域802的像素數量之和,對諸如像素值的差異的和和均方誤差等測度執行歸一化。例如,當假設模板801的像素數量是Tnum,要被匹配的子區域802的像素數量是R ,并且彼此重疊并包括在模板801和要被匹配的子區域802中的像素的像素數量是 Onum,可以根據以下的表達式4來對差異的和歸一化。數學式4歸一化的差異的和=差異的和X (Tnum+RnJ/0nmi(表達式4)此外,代替使用像素值,可以將模板801的形狀與要被匹配的子區域802的形狀之間的相似性用作相似性測度。例如,可以將通過使用模板801和子區域802的像素數量對當模板801和子區域802疊加時重疊的像素的數量進行歸一化而得到的值用作相似性。然后,具有最高相似性的子區域802可以被認為與模板801最匹配。另外,如圖16所示,當子區域在兩幅圖像之間的形狀改變大時,可能具有如由分層級A的匹配結果807所示的小相似性,從而導致即使當使用分層級A的模板805時也不能執行合適匹配的情況。在該情況中,可以執行以下的處理。當不能合適地執行匹配時,相似性小。因此,當使用分層級A的模板805進行匹配所產生的相似性小于預定值時,使用用于在分層級B上的子區域的模板來執行匹配,該分層級B包括通過分割生成的、比在分層級 A上的子區域精細的子區域。這里,由于在步驟S304中輸入圖像601被分割為子區域602 以便建立其中較高分層級(具有粗糙粒度)的子區域602包括較低分層級(具有精細粒度)的子區域602的關系,因此可以使用分層級A的模板和分層級B的模板之間的包含關系。具體地,使用兩個模板中的每一個(例如分層級B的模板806)來執行匹配,其中該分層級B的模板806與分層級A的模板805之間為包含關系并且包括通過分割生成的更精細的子區域。因此,如由分層級B的匹配結果808所示,甚至當子區域在兩幅圖像之間改變形狀時,也可以執行更精確的匹配。這時,可以將分層級B的兩個模板的代表軌跡的平均值確定為分層級A的模板的代表軌跡。如上所述,在由于子區域的形狀改變所致而不能執行匹配的情況下,由此使用具有包含關系的不同分層級的模板所執行的匹配產生了能夠計算精確的軌跡的有益效果。當使用如在非專利文獻5中公開的用于分割為子區域的方法,發生這樣的情況,其中由于對象隨時間移動或者在不同時間的照相機運動的原因,分割為子區域的結果在時間t和時間 t+Ι之間不同。另外,也存在這樣的情況,其中分層中的子區域802的粗糙度取決于時間而變化。如果是這種情況,具有大尺寸差異和大形狀差異的子區域802與模板801之間的匹配將要被執行,從而引起不能夠執行合適匹配的問題。反之,如通過圖15中的匹配結果803
14所示,跨分層的匹配很可能吸收形狀和尺寸的差異,從而產生改進匹配精確度的有益效果。再次,參考圖3,代表軌跡估計單元104使用在步驟S306中執行的匹配的結果來估計每個子區域802的代表軌跡(步驟S307)。如圖17所示,代表軌跡估計單元104通過在時間上連接在步驟S306中獲得的對應點904來將每個模板801的軌跡估計為代表軌跡。 代表軌跡可以由以下的表達式5表示。數學式5
(表達式5)這里,XiW是在時間i的圖像中的對應點904的像素位置,并且代表軌跡由按照時間排列的對應點904構成。如圖18所示,軌跡估計裝置可以通過執行上述步驟S301到步驟S307的處理來獲得用于每一個子區域802的代表軌跡1002,其中該代表軌跡1002按照時間連接對應點 1001。因此,子區域802具有空間連接性,并且對應點1001具有子區域802的時間連接性。 因此,可以使作為代表軌跡1002的時空圖像信息集中。當執行分割或識別圖像時,這產生了能夠進一步減少計算量的有益效果。另外,還可以使用這里提取的子區域802和按照時間連接子區域802的代表軌跡1002作為對時空圖像執行分割的結果。如上所述,在本發明的第一實施例中,圖像被分層地分割為區域,并且子區域之間的對應性通過執行跨分層的匹配而建立。據此,這種基于輪廓信息來分割為子區域的方案允許每個子區域保持形狀信息。基于形狀信息的匹配產生了以下有益效果,即該匹配對于由陰影和亮度改變引起的像素值改變是魯棒的。另一方面,為了執行基于形狀信息的匹配, 需要每個匹配目標保持形狀信息。即,目標應該被分割為子區域。然而,很難將具有相同粒度但時間上不同的圖像分割為子區域。因此,通過將圖像分割為具有在分層上不同粒度的子區域并且執行跨分層的搜索,可以對包括在這種彼此不同的圖像中的子區域執行匹配。此外,這有助于建立子區域之間的對應性同時吸收形狀和尺寸的差異,從而產生改進匹配精確度的有益效果。具體地,這產生了以下有益效果,即能夠精確地建立子區域之間的對應性,甚至對于諸如移動而改變形狀的人或包括均勻紋理的人等對象也是如此。另夕卜,基于子區域之間的對應性來估計軌跡產生了能夠計算精確軌跡的另一有益效果。此外, 使用根據本發明實施方法估計的代表軌跡還產生了減少計算量以及改進分割和圖像識別的精確度的有益效果。應該注意在第一實施例中,已經描述了通過執行在時間t和時間t+Ι輸入的圖像之間的匹配來估計代表軌跡的示例,但是代表軌跡也可以通過使用在時間t和時間t+n輸入的圖像執行匹配來估計。然而,η是大于等于1的整數。應該注意在第一實施例的步驟S305中,如表達式3所示,已經從由運動分析單元102估計的軌跡中提取了經過由分層子區域生成單元103分割所得到的每一個子區域的軌跡,但是這并沒有將軌跡限制用在步驟S305中,并且也可以使用采用另一方法獲得的軌跡。例如,可以使用屬于子區域sc的軌跡i來重新校正軌跡。換言之,代表軌跡估計單元 104每個子區域地使包括在子區域中的軌跡平滑,并且基于子區域和包括在子區域中的平滑軌跡來估計代表軌跡。具體地,如以下的表達式6所示,通過將平滑濾波型的雙邊濾波應用到包括在由表達式3表示的子區域sc中的軌跡i,可以減少離群值的影響并且估計具有空間平滑性的軌跡。這時,通過不使用不屬于子區域sc的軌跡來執行雙邊濾波,可以為每個子區域計算連貫一致的軌跡。此外,代替執行雙邊濾波,可以通過執行處理,例如排除以等于或大于預定閾值的值(level)偏離屬于子區域sc的軌跡的平均值的軌跡來排除離群值。數學式6
權利要求
1.一種用于對構成視頻中的移動對象的全部或移動對象的部分的子區域的軌跡進行估計的軌跡估計方法,所述軌跡估計方法包括接收包括在所述視頻中的多幅圖像,所述多幅圖像是按時間排序的;通過對在所述接收中接收的所述多幅圖像中的每一幅圖像執行分層分割來在分層級上生成子區域,使得空間上較大的子區域包括空間上較小的子區域,所述空間上較大的子區域和所述空間上較小的子區域屬于彼此不同的分層級;以及通過跨與特定圖像不同的圖像中的分層級,搜索與包括在所述特定圖像中的子區域最相似的子區域來將包括在所述特定圖像中的所述子區域在所述視頻中的軌跡估計為代表軌跡。
2.根據權利要求1所述的軌跡估計方法,還包括通過針對由包括在所述多幅圖像中的每一幅圖像中的一個或多個像素構成的每個塊分析所述多幅圖像之間的運動而在所述視頻中生成所述塊的軌跡,其中在所述估計中,通過使包括在所述特定圖像中的所述子區域與包括在所述子區域中的所述塊的所述軌跡一起移動來生成預測子區域,所述預測子區域是在與所述特定圖像不同的所述圖像中預測的子區域,并且通過跨與所述特定圖像不同的所述圖像中的所述分層級,搜索與所述預測子區域最相似的所述子區域來將包括在所述特定圖像中的所述子區域在所述視頻中的軌跡估計為所述代表軌跡。
3.根據權利要求2所述的軌跡估計方法,其中在所述估計中,使包括在所述生成中生成的每個子區域中的軌跡對于所述每個子區域是平滑的,并且基于包括在所述每個子區域中的平滑的軌跡來估計所述代表軌跡。
4.根據權利要求1至3之一所述的軌跡估計方法,其中在所述估計中,通過使用相似性測度來確定子區域之間的相似性,從而搜索所述子區域,其中所述相似性測度包括所述子區域的像素值和形狀信息中的至少之一。
5.根據權利要求1所述的軌跡估計方法,其中在所述估計中,通過(i)采用曲線圖、和(ii)將動態編程應用于所述曲線圖而生成用于所述曲線圖的最優路徑來估計所述代表軌跡,在所述曲線圖中包括在所述特定圖像中的所述子區域和包括在與所述特定圖像不同的所述圖像中的所述子區域是節點;使用邊來對表示包括在所述特定圖像中的所述子區域的一個節點和表示包括在與所述特定圖像不同的所述圖像中的所述子區域的另一節點進行連接;并且這樣的值是邊權重,即對于由所述邊連接的子區域之間的較大相似性,該值是較小的。
6.根據權利要求1至5之一所述的軌跡估計方法,其中在所述生成中,基于包括輪廓信息的特征,在所述分層級上生成所述子區域。
7.一種用于對每個移動對象的視頻執行分割的分割方法,所述分割方法包括包括在根據權利要求1至6之一所述的軌跡估計方法中的處理;以及通過將代表軌跡之間具有相似性的子區域進行結合來對所述視頻執行分割。
8.根據權利要求7所述的分割方法,其中,在所述執行中,通過連接小于閾值的距離來將所述代表軌跡之間的距離轉換為測地距離、檢測在獲得的測地距離中的不連續點并且將彼此分開的距離比在所檢測的不連續點處的測地距離小的軌跡分到一個類別,從而執行分割。
9.根據權利要求7所述的分割方法,其中,在所述執行中,基于對應于要被結合的子區域的代表軌跡和鄰近所述要被結合的子區域的至少一個子區域的代表軌跡,確定是否結合所述要被結合的子區域。
10.根據權利要求9所述的分割方法,其中,在所述執行中,基于在根據曲線圖計算的最小生成樹中表示的連接關系來執行分割,在該曲線圖中,將所述代表軌跡假設為節點并且使用邊來將所述代表軌跡彼此連接; 并且由所述邊連接的所述代表軌跡之間的距離被假設為邊權重。
11.根據權利要求10所述的分割方法,其中,在所述執行中,基于用于將具有以下關系的一對代表軌跡與鄰近該對代表軌跡的至少一個代表軌跡連接的邊權重,通過在最小生成樹中確定是否結合該對代表軌跡來執行分割所述代表軌跡是使用一條邊直接彼此連接的。
12.一種用于對構成視頻中的移動對象的全部或移動對象的部分的子區域的軌跡進行估計的軌跡估計裝置,所述軌跡估計裝置包括圖像接收單元,被配置為接收包括在所述視頻中的多幅圖像,所述多幅圖像是按時間排序的;分層子區域生成單元,被配置為通過對由所述圖像接收單元接收的所述多幅圖像中的每一幅圖像執行分層分割來在分層級上生成子區域,使得空間上較大的子區域包括空間上較小的子區域,所述空間上較大的子區域和所述空間上較小的子區域屬于彼此不同的分層級;以及代表軌跡估計單元,被配置為通過跨與特定圖像不同的圖像中的分層級,搜索與包括在所述特定圖像中的子區域最相似的子區域來將包括在所述特定圖像中的所述子區域在所述視頻中的軌跡估計為代表軌跡。
13.一種用于對構成視頻中的移動對象的全部或移動對象的部分的子區域的軌跡進行估計的程序,并且所述程序使計算機執行接收包括在所述視頻中的多幅圖像,所述多幅圖像是按時間排序的;通過對在所述接收中接收的所述多幅圖像中的每一幅圖像執行分層分割來在分層級上生成子區域,使得空間上較大的子區域包括空間上較小的子區域,所述空間上較大的子區域和所述空間上較小的子區域屬于彼此不同的分層級;以及通過跨與特定圖像不同的圖像中的分層級,搜索與包括在所述特定圖像中的子區域最相似的子區域來將包括在所述特定圖像中的所述子區域在所述視頻中的軌跡估計為代表軌跡。
全文摘要
一種軌跡估計裝置,包括圖像接收單元(101),其接收按時間排序的并且包括在視頻中的多幅圖像;分層子區域生成單元(102),其通過對由所述圖像接收單元(101)接收的所述多幅圖像中的每一幅圖像執行分層分割來在分層級上生成子區域,使得在屬于彼此不同的分層級的子區域當中,空間上較大的子區域包括空間上較小的子區域;以及代表軌跡估計單元(104),其通過跨與特定圖像不同的圖像中的分層級,搜索與包括在所述特定圖像中的子區域最相似的子區域來將包括在所述特定圖像中的所述子區域在所述視頻中的軌跡估計為代表軌跡。
文檔編號G06T7/20GK102473307SQ201080028724
公開日2012年5月23日 申請日期2010年3月15日 優先權日2010年3月15日
發明者F·加拉索, R·奇波拉, 巖崎正宏, 甲本亞矢子, 登一生 申請人:松下電器產業株式會社