一種基于遞歸神經網絡的離散情感識別方法
【技術領域】
[0001]本發明屬于視頻信號處理領域,具體地涉及一種基于具有長短時記憶模型的遞歸神經網絡的離散情感識別方法,并以此來提高離散情感識別的精度。
【背景技術】
[0002]近年來,國內外研究人員對離散情感識別進行了大量的研究工作,提出了許多用于情感識別的有效算法。這些方法從處理策略上可以分為基于靜態圖像的情感識別和基于動態視頻的情感識別。在基于視頻的情感識別工作的主要框架為:先提取視頻中每幀圖像的特征,再最大池化這些特征并得到統一長度的情感特征,最后用該特征進行情感分類。該框架通過最大池化的方法將長度不等的特征序列統一映射為一個特征向量,進而進行分類器的訓練及最終的預測。然而,該方法忽略了情感表達是一個動態過程,情感表達中的動態信息對情感識別有重要作用。僅僅通過最大池化特征序列的方法,完全忽視了情感表達的動態ig息,有著很大的ig息損失。
【發明內容】
[0003]為了解決上述技術問題,本發明提出了一種基于遞歸神經網絡的離散情感識別方法,該方法能夠充分利用情感表達過程中的動態信息,從而實現視頻中參與者情感的精確識別。
[0004]本發明提出的一種基于遞歸神經網絡的離散情感識別方法,包括以下步驟:
[0005]步驟1,對視頻中的圖像信號進行人臉表情特征的提取:
[0006]對視頻中的圖像信號進行人臉檢測及跟蹤,得到人臉區域后,提取人臉關鍵點,作為人臉的形變特征;
[0007]將人臉區域裁剪并歸一化到統一大小,提取人臉的外觀特征;
[0008]步驟2,對視頻中的音頻信號進行音頻特征的提取:
[0009]對視頻中的音頻信號進行加窗處理,分割出音頻序列單元;
[0010]在分割出的音頻序列單元上提取音頻特征;
[0011]步驟3,利用具有長短時記憶模型的遞歸神經網絡分別對所述人臉的形變特征、人臉的外觀特征、音頻特征進行時序編碼,獲得固定長度的情感表征向量;將所獲得的情感表征向量相串聯,得到視頻數據的最終情感表述特征;
[0012]步驟4,基于支持向量機算法設計的支持向量機分類器,利用步驟3中得到的最終情感表述特征進行情感類別預測。
[0013]優選的,所述步驟1中人臉的形變特征的提取方法為:
[0014]對于視頻序列中的第一幀圖像進行人臉檢測,得到人臉區域圖像后對后續每幀圖像進行人臉跟蹤,跟蹤時停止進行人臉檢測;在人臉跟蹤過程中,如果人臉跟蹤失敗,則對當前幀圖像重新進行人臉檢測尋找人臉區域圖像后繼續進行人臉跟蹤;
[0015]提取每幀人臉區域圖像對應的人臉關鍵點,將得到的人臉關鍵點作為一組人臉的形變特征,用于描述人臉的形態及頭部運動信息。
[0016]優選的,所述步驟1中所述人臉檢測采用Haar特征及AdaBoost分類器進行檢測;所述的人臉跟蹤采用均值漂移算法進行跟蹤;所述人臉關鍵點根據ASM算法進行提取。
[0017]優選的,所述人臉關鍵點包括眼球點及眼角點、鼻唇中心點、嘴角點。
[0018]優選的,在步驟1中得到人臉關鍵點后,對每幀人臉區域圖像的人臉關鍵點的坐標值進行歸一化處理,并采用主成分分析法對所述人臉關鍵點的坐標值進行降維和白化處理。
[0019]優選的,步驟2中提取音頻特征的方法為:在分割出的音頻序列單元上按照固定的幀長及幀移,對視頻中的語音信號按幀提取能量、幅值、MFCC參數、LSP參數及梅耳譜參數作為首頻特征。
[0020]優選的,步驟2中,按幀提取音頻特征后,采用主成分分析法對于所述音頻進行降維和白化處理。
[0021]優選的,步驟3中所述具有長短時記憶模型的遞歸神經網絡的結構包括:一個具有長短時記憶模型的遞歸層、一個均值池化層、一個邏輯回歸層;其中所述具有長短時記憶模型的遞歸層用于學習輸入特征序列之間的時序變化模式,所述均值池化層將所述具有長短時記憶模型的遞歸層對應于輸入特征序列的所有輸出取均值,所述邏輯回歸層將均值池化層的輸出作為所輸入特征序列的情感表征向量。
[0022]優選的,該方法包括訓練階段和預測階段,兩個階段均包括步驟1至步驟4,區別在于:
[0023]訓練階段:
[0024]在步驟3中采用利用具有長短時記憶模型的遞歸神經網絡分別對所述人臉的形變特征、人臉的外觀特征、音頻特征進行處理得到相應的情感表征向量的方法,分別訓練與上述三個特征對應的遞歸神經網絡,并保存權值;
[0025]在步驟4中采用步驟3中得到的最終情感表述特征進行情感類別預測的方法進行所述支持向量機分類器的訓練;
[0026]預測階段:
[0027]在步驟3中采用的具有長短時記憶模型的遞歸神經網絡為訓練階段訓練好的三個特征對應的遞歸神經網絡;
[0028]步驟4中采用的支持向量機分類器為訓練階段訓練好的支持向量機分類器。
[0029]優選的,所述具有長短時記憶模型的遞歸神經網絡的訓練采用最速梯度下降法,其中的損失函數采用交叉熵損失函數。
[0030]本發明在基于視頻的情感識別中,采用具有長短時記憶模型的遞歸神經網絡對視頻序列數據進行時序編碼,利用遞歸神經網絡的時序建模能力,通過神經網絡的參數學習,學習各幀特征之間的相互作用,即長跨度及短跨度相結合,實現了序列中不同粒度上的有效建模,融合了情感表達的動態特征,從而實現視頻中參與者情感的精確識別。
【附圖說明】
[0031]圖1是本發明基于具有長短時記憶模型的遞歸神經網絡的識別方法流程圖;
[0032]圖2是本發明步驟1的流程示意圖;
[0033]圖3是本發明步驟2的流程示意圖;
[0034]圖4是本發明步驟3采用的遞歸神經網絡的結構示意圖;
[0035]圖5是本發明采用采用的LSTM節點結構示意圖;
[0036]圖6是本發明時序展開的網絡結構示意圖。
【具體實施方式】
[0037]為使本發明的目的、技術方案和優點更加清楚明白,以下結合具體實施例,并參照附圖,對本發明進一步詳細說明。
[0038]需要說明的是,在附圖或說明書描述中,相似或相同的部分都使用相同的圖號。附圖中繪示或描述的實現方式,為所屬技術領域中普通技術人員所知的形式。應該指出,所描述的實例僅僅視為說明的目的,而不是對本發明的限制。
[0039]如圖1所示,本發明的基于遞歸神經網絡的離散情感識別方法包括以下步驟:
[0040]步驟1,對視頻中的圖像信號進行人臉表情特征的提取,如圖2所示:
[0041]步驟11,對視頻中的圖像信號進行人臉檢測及跟蹤,得到人臉區域后,提取人臉關鍵點,作為人臉的形變特征;
[0042]步驟12,將人臉區域裁剪并歸一化到統一大小,提取人臉的外觀特征。
[0043]所述步驟11中人臉的形變特征的提取方法為:首先對于視頻序列中的第一幀圖像進行人臉檢測,得到人臉區域圖像后對后續每幀圖像進行人臉跟蹤,跟蹤時停止進行人臉檢測;但如果在人臉跟蹤過程中人臉跟蹤失敗,則需要對于當前幀圖像重新進行人臉檢測尋找人臉區域圖像后繼續進行人臉跟蹤;在得到每幀圖像的人臉檢測或跟蹤的人臉區域圖像后,提取得到每幀人臉區域圖像對應的人臉關鍵點,并將得到的人臉關鍵點作為一組人臉的形變特征,用于描述人臉的形態及頭部運動信息。
[0044]在本發明實施例中,采用Haar特征及AdaBoost分類器進行人臉檢測;采用均值漂移算法進行人臉跟蹤;采用ASM算法提取得到人臉的關鍵點,其中,所述人臉關鍵點包括眼球點及眼角點、鼻唇中心點、嘴角點三部分。
[0045]在本發明實施例中,在所述步驟11得到人臉關鍵點之后,對每幀人臉區域圖像的人臉關鍵點的坐標值進行歸一化處理,即將每幀人臉區域圖像的人臉關鍵點的坐標值減去所有人臉關鍵點的坐標均值;之后采用主成分分析法對于所述人臉關鍵點的坐標值進行降維,降維之后通過白化處理使所有特征的方差為1.0其中,降維后數據的能量保持在降維前數據能量的90 %。
[0046]數據的白化處理是為了使降維后的所有特征的方差為1.0且特征之間的相關性較低。具體做法為:求得降維后數據的每一維除以各自維度上的標準差,從而使降維后的數據的每一維的方差為1。
[0047]在得到人臉的形變特征后,步驟12主要完成人臉區域圖像的校正,并提取相應的人臉的外觀特征。具體地,所述步驟12進一步包括以下步驟:
[0048]步驟121,根據所述人臉關鍵點中左、右眼睛眼角的關鍵點進行連線,得到眼角連線與水平線之間的夾角,根據所述夾角對于所述人臉區域圖像進行旋轉,使所述夾角變為0度;
[0049]步驟122,對于旋轉后的人臉區域圖像進行尺度縮放,使所述眼角連線的長度為Μ個像素,其中,1002M250;
[0050]步驟123,根據左眼角關鍵點的位置對于經過尺度縮放的人臉區域圖像進行裁剪,以使得到的人臉區域圖像達到第一預定大小;
[0051]在本發明實施例中,所述第一預定大小為2Mx2M,且左眼角關鍵點的位置為橫縱坐標分別為0.8M和0.6M。
[0052]步驟124,對于裁剪得到的人臉區域圖像進行灰度化,并將所述人臉區域圖像中每個像素的灰度值減去所述人臉區域圖像的像素灰度值均值,并對于歸一化后的人臉區域圖像的像素灰度值進行主成分分析降維和白化處理,降維后的特征能量保持在降維前特征總能量的80%,將降維后的人臉區域圖像的所有像素灰度值作為人臉的外觀特征。
[0053]這樣,對于每幀人臉區域圖像,均能夠得到人臉的形變特征和人臉的外觀特征兩組人臉特征。
[0054]步驟2,對視頻中的音頻信號進行音頻特征的提取:對視頻中的音頻信號進行加窗處理,分割出音頻序列單元;在分割出的音頻序列單元上提取包括線譜對、基音周期和增益均值的特征參數的音頻特征。
[0055]如圖3所示,參數提取步驟的具體實現方式如下:
[0056]步驟21,對于