一種基于rgb-d視頻的人體行為識別方法
【技術領域】
[0001] 本發明涉及一種人體行為識別方法,尤其涉及一種基于RGB-D視頻的人體行為識 別方法,屬于計算機視覺的行為識別技術領域。
【背景技術】
[0002] 人體行為識別可以在很多方面應用,比如智能監控、人機交互和體育視頻處理。基 于輸入的視頻數據,人體行為識別方法可以分為三類,包括:基于RGB視頻數據的方法、基 于深度視頻數據的方法以及基于兩種數據相結合的方法。
[0003] 由于深度傳感器能夠獲取更加豐富的外觀和結構信息,所以深度攝像機在計算機 視覺領域越來越受到廣泛的關注。近年來,越來越多的公司開發出了 RGB-D攝像機,該類設 備的特點是能夠實時的提供RGB圖像和深度圖像,比如2010年微軟發布了能夠實時采集 RGB-D圖像的攝像頭(即Kinect) ;2011年華碩發布了 Xtion PRO ;2013年體感控制器制造 公司Leap發布的Leap Motion。
[0004] RGB-D視頻相比于RGB視頻具有幾個優點。首先,他們提供了額外的身體外形和結 構信息,這些信息已經成功的應用在從單幅深度圖中獲取骨架節點信息和稠密點云結構信 息;其次,在深度圖中去除掉了色彩和紋理信息,這使得人體檢測和分割更容易;第三,深 度傳感器對光照變化不敏感,這使得在黑暗環境下的監視設備帶來了好處。
[0005] 設計基于RGB-D視頻的有效特征在很多計算機視覺問題中仍然是很重要的 研究問題。很多現有的人體行為識別技術[Cheng, Qin, Ye, Huang, Tian. Human daiIy action analysis with multi-view and color-depth data. Computer Vision - ECCV 2012. Workshops and Demonstrations,52-61: Springer,2012.]將深度序列以和彩色 視頻相同的方法來處理,采用基于色彩的識別方法。然而,雖然這些方法適用于彩色視 頻序列,將它們簡單地推廣到深度視頻序列可能不會產生最優的結果[Oreifej, Liu. Hon4d:Histogram of oriented 4d normals for activity recognition from depth sequences.Computer Vision and Pattern Recognition (CVPR),2013IEEE Conference on,716-723: IEEE,2013.]。由深度攝像機獲得的信息也可以采用幾何特 征來提取更豐富的特征描述子。例如,[Tang et al. Histogram of oriented normal vectors for object recognition with a depth sensor.Computer Vision -ACCV2012,525-538:Springer,2013.]采用法線向量直方圖用于深度圖像的目標檢測。給 定一個深度圖像,他們計算相對應的空間導數,將其轉換到極坐標,并且采用它們的2D直 方圖作為目標描述子。最近,[Oreifej, Liu. Hon4d:Histogram of oriented 4d normals for activity recognition from depth sequences. Computer Vision and Pattern Recognition(CVPR), 2013IEEE Conference on, 716-723:IEEE, 2013·]通過增加時間導數 將相同的技術擴展到時間維度。將深度視頻序列以這種方式進行處理的缺點是深度圖像中 的噪聲在這種微分操作過程中被過于放大。
[0006] 基于深度圖的行為識別方法可以分為基于全局的方法[Yang, Zhang, Tian. Recognizing actions using depth motion maps-based histograms of oriented gradients.Proceedings of the 20th ACM international conference on Multimedia,1057_1060:ACM,2012·];和局部方法[Xia,Aggarwal.Spatio_temporal depth cuboid similarity feature for activity recognition using depth camera. Computer Vision and Pattern Recognition(CVPR),2013IEEE Conference on,2834-2841: IEEE,2013.]。全局方法采用全局特征,例如輪廓和空-時volume信息。例 如,[Li et al. Action recognition based on a bag of 3d points. Computer Vision and Pattern Recognition Workshops (CVPRW),2010IEEE Computer Society Conference on,9-14: IEEE,2010·]從2D輪廓中采樣邊界像素點作為特征。[Yang et al. Recognizing actions using depth motion maps-based histograms of oriented gradients. Proceedings of the 20th ACM international conference on Multimedia, 1057-1060:A CM,2012. ]2D投影的時間導數來獲取深度運動圖(DMM)。[Vieira et al.Stop:Space-time occupancy patterns for 3d action recognition from depth map sequences. Progress in Pattern Recognition,Image Analysis, Computer Vision, and Applications, 252 -259:Springer,2012.]采用空-時占用模式計算3D中的輪廓。最近,[Oreifej,Liu. Hon4d:Histogram of oriented4d normals for activity recognition from depth sequences. Computer Vision and Pattern Recognition (CVPR),2013IEEE Conference on,716_723:IEEE,2013·]通過添加時間導數擴展了3D法線直方圖[Tang et al. Histogram of oriented normal vectors for object recognition with a depth sensor. Computer Vision-ACCV 2012, 525-538:Springer,2013.]到4D。標準化梯度向量到單位幅值,并且 投影到一個優化的具有600個cell的多面體來獲取直方圖。
[0007] 基于運動軌跡的行為識別方法[H. Wang,Klaser,Schmid,Liu. Acti