一種基于壓縮感知的人體動作分類方法
【專利摘要】本發明涉及一種基于壓縮感知的人體動作分類方法,包括時空興趣點探測、基于詞袋模型的視頻特征表達、構造視覺字典和基于壓縮感知的動作分類算法四步驟;是按照步驟一求解訓練樣本特征,得到訓練樣本矩陣A=[A1,A2,…,AK]∈Rm×n,k個類別,測試樣本y∈Rm以及可選的容錯度ε>0;按照步驟二求解字典Z、分類器參數W和系數矩陣A;對于新的視頻動作序列,采用上一步得到的分類器W進行分類,最終得到該視頻動作的類別估計。本發明的有益效果是:將時空興趣點檢測、字典學習和視頻特征表達融入一個學習框架,并同時學習一個線性分類器。通過最優化的方法同時學習判別字典、判別編碼系數和分類器;計算簡便,魯棒性好,并且通過壓縮感知的方法增強處理非線性數據的能力。
【專利說明】
一種基于壓縮感知的人體動作分類方法
技術領域
[0001] 本發明涉及一種人體動作分類方法,具體的涉及一種基于壓縮感知的人體動作分 類方法,屬于視頻分析領域。
【背景技術】
[0002] 眾所周知,從視頻中提取數據來對動作進行合理的表示,對于動作分類尤其重要。 通常我們需要根據動作分類的方法來選取動作表示的方法。例如,基于軌跡的方法適用于 開放環境中遠距離的監控,而3D模型經常應用在手勢識別中。Parameswaran等人就曾提出 用以下四個標準來評估動作表示方法:簡單性,完備性,連續性,獨特性。
[0003] 人體輪廓形狀是一種最為直觀的動作表示方法,因此也有大量的基于形狀的人體 動作表示方法。這種表示方法必須首先從場景中分割出運動部分,即背景分割。L.Wang利用 運動子空間和圖像模型實現了利用輪廓信息識別動作,Veeraraghaven等人則利用在輪廓 上標記點,并分析點集合進行動作分類,這些基于輪廓的分類方法也都取得了成功。
[0004] 近年來,壓縮感知在語音信號處理,自然圖像特征提取,圖像去噪,人臉識別等領 域都得到了成功的應用。作為高維數據處理的新興方法,壓縮感知也被應用到局部描述的 聚合中去。但在實際應用過程中,壓縮感知主要面臨的問題包括過完備字典的構造以及稀 疏分解算法研究等。
[0005] 目前,大部分基于壓縮感知的人體動作分類方法仍借鑒圖像處理中的思路。首先 將視頻表示成一個特征向量,然后采用字典學習模型學習字典并生成視頻的稀疏表示并進 行分類。如Wang等人首先將視頻分割成連續的時間塊,然后用多層詞袋模型將視頻表示成 一個特征向量。Jiang等人用Action bank檢測器生成的特征作為視頻的特征表示,其依賴 預先訓練的檢測器,精準的不高。
[0006]為此,如何提供一種高精準的基于壓縮感知的人體動作分類方法,是本發明研究 的目的。
【發明內容】
[0007] 為克服現有技術的不足,本發明提供一種基于壓縮感知的人體動作分類方法,是 鑒于低級局部動作特征具有較好的魯棒性,將壓縮感知理論運用到人體動作分類中,將視 覺字典與低級局部動作特征相結合,有效的從大量樣本中提取動作特征描述,提高了動作 分類的準確度。
[0008] 為解決現有技術問題,本發明所采用的技術方案是:一種基于壓縮感知的人體動 作分類方法,通過將所有的動作訓練樣本看作過完備字典,設計一個基于壓縮感知的動作 分類算法,其特征在于:所述方法包括:時空興趣點探測、基于詞袋模型的視頻特征表達、構 造視覺字典和基于壓縮感知的動作分類算法四個步驟,其中: 步驟一:時空興趣點探測,對于一個視頻序列而言,興趣點由三個維度確定,標示空間 位置的X,y軸以及標示時間的t軸,在時域上采用Gabor濾波,在二維空域采用高斯濾波器, 利用濾波器響應函數尋找時空興趣點,一維Gabor濾波定義為正弦波與高斯窗口的乘積:
其中,ω〇為濾波器能夠得到最大響應的中心頻率,〇決定了高斯窗口的寬度;所述的興 趣點探測的方法中,響應函數定義如下:
其中,I是視頻序列,g(X,y,〇)是2D高斯平滑核,應用在二維空間上,hev和hod為空間上 的ID Gabor濾波的正交對。
其中,參數σ和τ分別對應探測的時間規模和空間尺度,所述的參數取〇 = 2, τ = 3, ω = 6/τ; 步驟二:基于詞袋模型的視頻特征表達,在視覺詞袋模型中,獎二維圖像映射為視覺 關鍵詞集合,并采用HOG描述子來計算局部特征;所述計算的方法使用矩形HOG計算方法,其 方法包括:首先分別利用簡單的濾波算子[_1,0,1]和[1,0,-1]在X和y方向上計算圖像梯 度,而后根據X和y的方向梯度來計算每個像素點的梯度方向; 步驟三:構造視覺字典,在步驟二中提取的動作特征,令X = [Xi,X2,…,Xn]為所有樣本 的特征矩陣,其中S ~$表示由第i個視頻所有局部特征按列排列形成的特征矩陣,化表 示樣本X1包含的局部特征數目,_4 e 為其對應的編碼系數矩陣;令X/表示第j個局部 特征,:?/為其對應的編碼系數向量;待學習的判別字典定義為D= [Cl1,d2,…,dK] eρχκ,判別 字典堂習抿駔HfeKi翁宙々為.
其中||;-_〇4||^為重建誤差項,判別字典首先必須能較好的重建所有的局部特征, 為線性分類項,w為分類器參數,I叫匕為正則化項,H為類別標記向量,λ和η為正則 化參數,控制對應項的相對貢獻;B = [ β 1,β 2,…,β N ]為對視頻特征池化之后的特征表示,β i 表示為:
其中^表示長度為N1,每個元素都等于1/&的向量; 式(1)可通過交替最優化求解,即對字典Z,編碼系數矩陣A以及線性分類器參數W交替 的最小化目標函數,直到滿足終止準則;其過程包括以下步驟: ① 初始化表示字典Z和編碼矩陣A: 給定Do,表示字典Z初始化為K階單位矩陣;編碼矩陣A按下式初始化為:
該式為二階優化問題,對A求導并令導數為0:
初始At3計算為
② 固定表示字典Z、編碼矩陣A,計算分類參數W: 將所述的式(1)可以改寫為
令其導數為〇,則最佳W計算為
其中Ikxk表示大小為K XK的單位矩陣 ③ 固定分類器參數W、表示字典Z,計算編碼矩陣A: 將所述的式(1)改寫為
令t = 0,計算Vg (A1),搜索可行步長%,迭代計算
④ 固定編碼矩陣A、分類器參數W,計算表示字典Z: 將所述的式(1)表示為
每次僅更新表示字典的一列;令zk表示Z的第k列,更新Zk時固定除21{外其他所有的列; 定義中間變量Φ (X)= Φ (Χ)_Φ (Do)zkAk,其中Zk定義為表示矩陣Z刪除第k列之后的矩陣,A k 定義為編碼矩陣A刪除第k行之后的矩陣;將所述的式(2)表示為
其中Ctk為編碼矩陣A的第k行,對該式求導得到
由于字典和編碼系數是相互關聯的,對應的編碼系數需要同步更新
⑤執行步驟②-④,直到滿足終止準則: a. 達到最大的迭代次數, b. 表示字典Z、分類器參數W和系數矩陣A的變化均小于預先設定的閾值; 步驟四:基于壓縮感知的動作分類算法,在步驟3中,訓練了一個線性分類器W,給定一 個測試視頻V,首先計算其視頻編碼αν: av=(ZTK(Do,Do)Z)-1ZtK(Doj v) 其中Xv表示視頻V的局部特征,對編碼矩陣av池化,得到視頻V的特征表示βν,即得到視 頻V的類別yv為久 ).ν O
[0009]進一步的,在所述的步驟一中,采用時空興趣點探測來統計基于時間變化的特征。 [00?0]進一步的,在所述的步驟二中,所述的矩形HOG方法中,在每塊上計算HOG描述子, 每塊可包含數個均勻稠密采樣的網格,并常與相鄰塊重復,每塊上的HOG需單獨進行規格 化。
[0011] 本發明的有益效果是:將時空興趣點檢測、字典學習和視頻特征表達融入一個學 習框架,并同時學習一個線性分類器。通過最優化的方法同時學習判別字典、判別編碼系數 和分類器;計算簡便,魯棒性好,并且通過壓縮感知的方法增強處理非線性數據的能力。
【具體實施方式】
[0012] 為了使本領域技術人員能更好的理解本發明技術方案,下面結合具體實施例對本 發明做進一步分析。
[0013] -種基于壓縮感知的人體動作分類方法,通過將所有的動作訓練樣本看作過完備 字典,設計一個基于壓縮感知的動作分類算法,所述方法包括:時空興趣點探測、基于詞袋 模型的視頻特征表達、構造視覺字典和基于壓縮感知的動作分類算法四個步驟,其中:步驟 一:時空興趣點探測,采用時空興趣點探測的方法統計基于時間變化的特征。對于一個視頻 序列而言,興趣點由三個維度確定,標示空間位置的x,y軸以及標示時間的t軸。本發明基于 Gabor濾波的方法,在時域上采用Gabor濾波,在二維空域采用高斯濾波器,利用濾波器響應 函數尋找時空興趣點。一維Gabor濾波定義為ιΗ弦波與高斯窗口的乘積:
其中,ω Q為濾波器能夠得到最大響應的中心頻率,σ決定了高斯窗口的寬度。在本發明 的興趣點探測方法中,我們將響應函數定義如下:
該響應函數用于查找預測動作強響應的時空角點。在響應函數中,I是視頻序列, g(x,y,〇)是2D高斯平滑核,應用在二維空間上,而hev和hod則是用在空間上的ID Gabor 濾波的正交對。
其中,參數σ和τ分別對應探測的時間規模和空間尺度,他們決定了時空興趣點在三個 維度上探測的尺度。參數取σ = 2,τ = 3, ω = 6/τ。 步驟二:基于詞袋模型的視頻特征表達;在視覺詞袋模型中,本發明獎二維圖像映射為 視覺關鍵詞集合,并采用HOG描述子來計算局部特征。在保存圖像局部特征的同時,又有效 的壓縮了圖像的描述。 使用矩形HOG計算方法,首先分別利用簡單的濾波算子[_1,0,1]和[1,0,-1]在X和y方 向上計算圖像梯度,而后根據X和y的方向梯度來計算每個像素點的梯度方向。在矩形HOG方 法中,在每塊上計算HOG描述子,每塊可能包含數個均勻稠密采樣的網格,并且常與相鄰塊 重復。此外,每塊上的HOG都要單獨進行規格化。步驟三:構造視覺字典 基于上一步提取的動作特征,令X= [X^X2, 為所有樣本的特征矩陣,其中 Λ"; e ~'';表示由第i個視頻所有局部特征按列排列形成的特征矩陣,化表示樣本X1包含的 局部特征數目,^ 為其對應的編碼系數矩陣。令#表示第j個局部特征,a/為其對 應的編碼系數向量。待學習的判別字典定義為D=%^,···,^#'判別字典學習框架目 標函教宙々為,
其中IpT,.-ZHl^為重建誤差項,判別字典首先必須能較好的重建所有的局部特征。 I丑-腫|β.為線性分類項,w為分類器參數,|if|為正則化項,H為類別標記向量,λ和n為正則 化參數,控制對應項的相對貢獻;B = [ β 1,β 2,…,β N ]為對視頻特征池化之后的特征表示,β i 可表示為:
其中表示長度為N1,每個元素都等于1/化的向量。 式(1)可通過交替最優化求解,即對字典Z,編碼系數矩陣A以及線性分類器參數W交替 的最小化目標函數,直到滿足終止準則。其過程步驟為: ①初始化表示字典Z和編碼矩陣A: 給定Do,表示字典Z初始化為K階單位矩陣。編碼矩陣A按下式初始化為:
每次僅更新表示字典的一列。令zk表示Z的第k列,更新Zk時固定除21{外其他所有的列。 定義中間變量Φ (X)= Φ (Χ)_Φ (Do)zkAk,其中Zk定義為表示矩陣Z刪除第k列之后的矩陣,A k 定義為編碼矩陣A刪除笛k行夕后的矩陣"式(2)可衷示為
由于字典和編碼系數是相互關聯的,對應的編碼系數需要同步更新
⑤執行步驟②-④,直到滿足如下終止準則: a. 達到最大的迭代次數 b. 表示字典Z、分類器參數W和系數矩陣A的變化均小于預先設定的閾值 步驟四:基于壓縮感知的動作分類算法 在步驟3中,訓練了一個線性分類器W。給定一個測試視頻V,首先計算其視頻編碼αν: 其中Xv表示視頻
V的局部特征。對編碼矩陣αν池化,得到視頻V的特征表示β ν。因此視頻V 的類別yv估計為
[0014] 本發明所述方法是按照步驟一求解訓練樣本特征,得到訓練樣本矩陣A= [A1, 知,-_^]^^汰個類別,測試樣本5^儼以及可選的容錯度£>〇;按照步驟二求解字典2、 分類器參數W和系數矩陣A;對于新的視頻動作序列,采用上一步得到的分類器W進行分類, 最終得到該視頻動作的類別估計。
[0015] 本發明提出一個基于壓縮感知的動作分類方法,將時空興趣點檢測、字典學習和 視頻特征表達融入一個學習框架,并同時學習一個線性分類器。通過最優化的方法同時學 習判別字典、判別編碼系數和分類器。本發明提取的特征計算簡便,魯棒性好,并且通過壓 縮感知的方法增強處理非線性數據的能力。
[0016] 以上對本申請所提供的技術方案進行了詳細介紹,本文中應用了實施例對本申請 的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本申請的方法及其核 心思想;同時,對于本領域的一般技術人員,依據本申請的思想,在【具體實施方式】及應用范 圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請的限制。
【主權項】
1. 一種基于壓縮感知的人體動作分類方法,通過將所有的動作訓練樣本看作過完備字 典,設計一個基于壓縮感知的動作分類算法,其特征在于:包括時空興趣點探測、基于詞袋 模型的視頻特征表達、構造視覺字典和基于壓縮感知的動作分類算法四個步驟,其中: 步驟一:時空興趣點探測,對于一個視頻序列而言,興趣點由三個維度確定,標示空間 位置的X,y軸以及標示時間的t軸,在時域上采用Gabor濾波,在二維空域采用高斯濾波器, 利用濾波器響應函數尋找時空興趣點,一維Gabor濾波定義為正弦波與高斯窗口的乘積:其中,ω〇為濾波器能夠得到最大響應的中心頻率,〇決定了高斯窗口的寬度;所述的興 趣點探測的方法中,響應函數定義如下: R= (I*g*hev)2+(I*g*h〇d)2 其中,I是視頻序列,g(x,y,〇)是2D高斯平滑核,應用在二維空間上,hev和hod為空間上的 ID Gabor濾波的正交對。其中,參數σ和τ分別對應探測的時間規模和空間尺度,所述的參數取〇 = 2, τ = 3, ω = 6/τ; 步驟二:基于詞袋模型的視頻特征表達,在視覺詞袋模型中,獎二維圖像映射為視覺關 鍵詞集合,并采用HOG描述子來計算局部特征;所述計算的方法使用矩形HOG計算方法,其方 法包括:首先分別利用簡單的濾波算子[_1,〇,1]和[1,〇,_1]在X和y方向上計算圖像梯度, 而后根據X和y的方向梯度來計算每個像素點的梯度方向; 步驟三:構造視覺字典,在步驟二中提取的動作特征,令Χ= [Χι,X2,…,Xn]為所有樣本 的特征矩陣,其中@ € 表示由第i個視頻所有局部特征按列排列形成的特征矩陣,心表 示樣本乂:包含的局部特征數目,4 e 為其對應的編碼系數矩陣;令#表示第j個局部 特征,為其對應的編碼系數向量;待學習的判別字典定義為D = [cU,d2,…,dK] eρχκ,判別 字典學習框架目標函數定義為:其中||1-1)為||^為重建誤差項,判別字典首先必須能較好的重建所有的局部特征, 為線性分類項,w為分類器參數,pf為正則化項,Η為類別標記向量,λ和η為正則 化參數,控制對應項的相對貢獻;Β = [ β 1,β 2,…,β ν ]為對視頻特征池化之后的特征表示,β i 表示為:其中2?表示長度為&,每個元素都等于1/&的向量; 式(1)可通過交替最優化求解,即對字典Z,編碼系數矩陣A以及線性分類器參數W交替 的最小化目標函數,直到滿足終止準則;其過程包括以下步驟: ① 初始化表示字典Z和編碼矩陣A: 給定Do,表示字典Z初始化為K階單位矩陣;編碼矩陣A按下式初始化為:該式為二階優化問題,對A求導并令導數為0:初始#計算為 A°=(Ztk(Do,Do)Z)_1Ztk(Do,X) ② 固定表示字典Z、編碼矩陣A,計算分類參數W: 將所述的式(1)可以改寫為令其導數為〇,則最佳W計算為 ff* = nHBT(AlKXK+nBBT)_1 其中Ικχκ表示大小為K X K的單位矩陣 ③ 固定分類器參數W、表示字典Ζ,計算編碼矩陣Α: 將所述的式(1)改寫為對其進行求導,得到 VM( A,) = -Z1k{D^X,) + ZyΛ·(?)0,l\)ZAt -/?Wr(h, -IVA,IX )/:: 令t = 0,計算Vg(A〇,搜索可行步長%,迭代計算 直到 t>T 或 |g(4+1)-容(磚)|〈" ④ 固定編碼矩陣a、分類器參數w,計算表示字典z: 將所述的式(1)表示為每次僅更新表示字典的一列;令zk表示Z的第k列,更新Zk時固定除21{外其他所有的列; 定義中間變量Φ (Χ)= Φ (Χ)-φ (D〇)ZkAk,其中Zk定義為表示矩陣Z刪除第k列之后的矩陣,A k 定義為編碼矩陣A刪除第k行之后的矩陣;將所述的式(2)表示為其中ak為編碼矩陣A的第k行,對該式求導得到令該式等于〇,得到由于字典和編碼系數是相互關聯的,對應的編碼系數需要同步更新⑤執行步驟②-④,直到滿足終止準則: a. 達到最大的迭代次數, b. 表示字典Z、分類器參數W和系數矩陣A的變化均小于預先設定的閾值;步驟四:基于 壓縮感知的動作分類算法,在步驟3中,訓練了一個線性分類器W,給定一個測試視頻V,首先 計算其視頻編碼α ν: av=(ZTK(Do,Do)Z)_1ZTK(Do,Xv) 其中Xv表示視頻v的局部特征,對編碼矩陣av池化,得到視頻v的特征表示βν,即得到視 頻ν的類另ljyv為2. 根據權利要求1所述的一種基于壓縮感知的人體動作分類方法,其特征在于:在所述 的步驟一中,采用時空興趣點探測來統計基于時間變化的特征。3. 根據權利要求1所述的一種基于壓縮感知的人體動作分類方法,其特征在于:在所述 的步驟二中,所述的矩形HOG方法中,在每塊上計算HOG描述子,每塊可包含數個均勻稠密采 樣的網格,并常與相鄰塊重復,每塊上的HOG需單獨進行規格化。
【文檔編號】G06K9/00GK106056135SQ201610341943
【公開日】2016年10月26日
【申請日】2016年5月20日
【發明人】張瑞萱, 汪成峰, 王慶, 張凱強
【申請人】北京九藝同興科技有限公司