專利名稱:基于多層增強hmm的語音-視覺融合的情感識別方法
技術領域:
本發明涉及一種多通道信息融合的情感識別方法,特別涉及一種多層增強HMM(Multilayer Boosted ΗΜΜ,ΗΜΜ)的語音_視覺融合的情感識別方法,屬于自動情感識別領域。
背景技術:
各個學科的研究人員已經在自動情感識別領域做了很多工作。情感可以使用離散類別方法表示(如Ekman提出的6種基本情感類別),或者使用連續維度方法表示(如activation-evaluation空間方法),或者使用基于評價的方法表示。臉部表情、語音、身體姿勢及上下文等多種不同的特征都可以用來識別人的情感狀態。研究人員已經針對單模態情感識別與分析做了很多工作。融合語音和視覺兩個通道的信息可以提高情感識別的準確度。原因在于語音-視覺雙模態融合可以利用這兩個通道的互補信息。語音-視覺情感識別中使用的數據融合方法大都可以歸為以下三類特征層融合、模型層融合和決策層融合。模型層融合使用了多個數據流之間的關聯信息,可能是該融合問題的最佳選擇。Zeng等人在文獻《Audio - Visual Affective Expression Recognition Through Multistream FusedHMM》(IEEE TRANSACTIONS ON MULTIMEDIA, vol. 10, no. 4, June 2008)中提出了一種多流融合HMM (MFHMM)方法,根據最大熵和最大相互信息準則,建立多個語音-視覺流間的優化連接。MFHMM通過將一個分量HMM的隱節點和其它分量HMM的觀察變量相連來融合多個分量 HMM。他們接著在文獻《Training Combination Strategy of Multi-StreamFused Hidden Markov Model for Audio-Visual Affect Recognition》(Proc. 14th ACMInt,I Conf. Multimedia (Multimedia,06), pp. 65-68, 2006.)中擴展了該框架,米用訓練組合策略,使多個HMM的組合機制既可以是線性也可以是非線性的。Petridis等人在文獻〈〈Audiovisual Discrimination between Laughter and Speech)) (IEEE Int’ I Conf.Acoustics, Speech, and Signal Processing(ICASSP), pp. 5117-5120, 2008.)中使用神經網絡來合并語音-視覺通道的信息。這些方法的缺點是這些方法在使用某個模態的特征流訓練分類器時,沒有對用其它模態的特征難于識別的樣本進行重點訓練,在使用同一模態的樣本進行訓練時,也未對同一模態的樣本中難于識別的樣本進行重點訓練,從而造成識別率不高。本發明中涉及到的重要已有技術有隱馬爾可夫模型;AdaBoost方法。(I)隱馬爾可夫模型隱馬爾可夫模型是一種有效的描述存在于離散時間段上的具有關聯關系的數據序列的統計學方法。隱馬爾科夫模型的理論基礎是在1970年前后由Baum等人建立起來的,隨后有CMU的Baker和IBM的Jelinek等人將其應用到語音識別之中,由于Bell實驗室Rabiner等人在80年代中期對隱馬爾科夫模型的深入淺出的介紹,才逐漸使隱馬爾科夫模型為世界各
1國從事語音處理的研究員所了解和熟悉,進而成為公認的一個研究熱點。隱馬爾科夫模型是在Markov鏈(一種有限狀態機)的基礎上發展起來的。首先介紹兩個概念狀態集合和觀察序列。狀態集合指隱馬爾科夫模型所具有的全部狀態IS1, . . .,Si,. . .,SN},其中N為狀態數;觀察序列是一個具有上下文關聯性的數據序列,用V1, , Vt, . . . , Vt表示,V1, . . .,Vt, . · .,Vt為一個觀測序列,其中Vt=Cb,表示該序列中時刻t的元素的取值為cb,I < b < B,B表示每個狀態可輸出的元素(值)的總數。由于實際問題比Markov鏈模型所描述的更為復雜,觀察到的觀察序列中的元素并不是與Markov鏈中的狀態對應,而是通過一組概率分布相聯系。這樣,站在觀察者的角度,只能看到觀察值,不像Markov鏈模型中的觀察值和狀態一一對應。因此,不能直接看到狀態,而是通過一個隨機過程去感知狀態的存在及其特性,這就是所謂的“隱”Markov模型,即 Hidden Markov Model (HMM)0隱馬爾科夫模型的三個基本問題是評估問題、解碼問題及學習問題。其中,學習問題是使模型參數最優化,及調整模型參數,以使模型能最好的描述一個給定觀測序列,最好的說明這個觀測序列就是最優化模型產生出來的,用來解決分類問題。 (2) AdaBoost 方法AdaBoost (adaptive boosting,自適應增強)方法是 “Boosting” 方法中的一種。該方法允許設計者不斷的加入新的“弱分類器”,直到達到某個預定的足夠小的誤差率。在AdaBoost方法中,每一個訓練樣本都被賦予一個權重,表明它被某個分量分類器選入訓練集的概率;相反,如果某個樣本點沒有被正確分類,那么它的權重就得到提高。通過這樣的方式,AdaBoost方法能夠“聚焦于”那些較困難識別的樣本上。
發明內容
本發明的目的是為了解決已有技術存在的識別率不高的問題,提出一種多層增強HMM的語音-視覺融合的情感識別方法。本發明的目的是通過下述技術方案實現的。一種多層增強HMM的語音-視覺融合的情感識別方法,用于識別情感視頻中的人的情感,所述情感包括中性、高興、生氣、驚訝、恐懼、悲傷、厭惡;所述情感視頻是指包含人臉表情、肩部運動和語音的視頻數據,并且每段情感視頻都開始于中性表情。所述多層增強HMM的語音-視覺融合的情感識別方法包括2部分訓練過程和識別過程。所述訓練過程的具體實施步驟如下步驟一、對訓練數據中的情感視頻數據進行預處理。將每一種情感的訓練數據稱為一個訓練樣本集;一個訓練樣本集中的訓練樣本數量用R表示,R > 20。分別對每個訓練樣本集中的每個情感視頻數據做預處理,得到表情觀察向量序列、肩部觀察向量序列和音頻觀察向量序列。一個訓練樣本集中的全部情感視頻數據在預處理后,得到的表情觀察向量序列的集合稱為表情特征數據流,得到的肩部觀察向量序列的集合稱為肩部特征數據流,得到的音頻觀察向量序列的集合稱為音頻特征數據
流,這三種特征數據流用符號Xv表示i 1 =I^j ^,V e {a, f, s};其中,a表示音頻,f表示
表情,s表示肩部^表示V特征數據流中的第r個觀察向量序列音頻觀察向量序列表情觀
1察向量序列肩部觀察向量序列;1 < r < R。所述對每個訓練樣本集中的每個情感視頻數據做預處理,得到表情觀察向量序列和肩部觀察向量序列的具體步驟為第I步從每個情感視頻中以Va的采樣率提取m幀圖像組成一個圖像序列,va ^ 5赫茲(Hz),m=vaXta,ta為情感視頻的時間長度。由于每段情感視頻都開始于中性表情,因此每個圖像序列中的第一幀圖像為中性表情圖像。第2步依次從每個圖像序列中的各幀圖像中提取Θ個臉部表情特征值,分別用T1至T0表示,Θ彡5。所述臉部表情特征值包括臉部幾何特征值;臉部紋理特征值。步驟一第2步中所述依次從每個圖像序列中的各幀圖像中提取Θ個臉部幾何特征值,0=10,其具體步驟為第2. I步依次在每個圖像序列中的第一幀圖像中標識出20個臉部特征點;其中,第1、2特征點分別位于右邊眉毛和左邊眉毛的眉頭位置,分別用(Xl,yi)、(x2,y2)表示;第3、4特征點分別位于右邊眉毛和左邊眉毛的眉尾位置,分別用(x3,y3)、(x4, y4)表示;第5、6特征點分別位于右邊眼睛和左邊眼睛的內眼角位置,分別用(x5,y5)、(x6, y6)表示;第7、8特征點分別位于右邊眼睛和左邊眼睛的最低點,分別用(x7,y7)、(x8, y8)表示;第9、10特征點分別位于右邊眼睛和左邊眼睛的外眼角位置,分別用(x9,y9)、(xlcl,y1(l)表示;第11、12特征點分別位于右邊眼睛和左邊眼睛的最高點,分別用(Xll,yn)、(x12, y12)表示;第13、14特征點分別位于鼻翼的最右側位置和鼻翼的最左側位置,分別用(x13,y13)、(x14, Y14)表示;第15特征點位于鼻尖位置,用(x15,y15)表示;第16、17特征點分別位于嘴角的最右側位置和嘴角的最左側位置,分別用(x16,y16)、(x17, y17)表示;第18、19特征點分別位于唇部中心線與唇部輪廓線相交的最高點和最低點,分別用(x18, y18)、(x19, y19)表示;第20特征點位于臉部中心線與臉部輪廓線相交的最低點,用(x2CI,y2(l)表示。所述標識20個臉部特征點的方法包括①人工手動標識;②使用基于Gabor特征的增強分類器方法實現對20個臉部特征點的自動定位。第2. 2步根據每個圖像序列中的第一幀圖像中的20個特征點的位置,定位出該圖像序列中除第一幀圖像以外的后續幀圖像中的20個臉部特征點;所述定位出該圖像序列中除第一幀圖像以外的后續幀圖像中的20個臉部特征點的方法包括①人工手動標識;②使用基于分解概率的粒子濾波跟蹤算法實現對20個臉部特征點的自動跟蹤。第2. 3步根據各圖像中的20個特征點的位置,分別計算每個圖像序列中的各幀圖像的10個臉部表情特征值T1至Tltl,具體為(I)兩眼寬度的平均值,用T1表示,T^d X9-X51+ I X10-X6I )/2 ; (2)兩眼高度的平均值,用 T2 表示,T2=( Iy11-Y7I+ I y12-y8D/2 ;⑶兩支眉毛寬度的平均值,用T3表示,Τ3=(|Χ3-Χι| + |Χ4-χ2|)/2 ;⑷兩支眉毛高度的平均值,用T4表示,T4=(|y3-yi| + |y4-y2|) / 2 ; (5)內眼角和眉頭之間垂直距離的均值,用T5表示,T5=(|y5-yi| + |y6-y2|) / 2 ; (6)鼻尖和左右嘴角的垂直距離均值,用T6表示,T6=(|y16-y15| + |y17-y15|) / 2 ; (7)嘴角和外眼角垂直距離的均值,用T7表示,T7= (IY16-Y9I+ IY17-Y10I)/2;(8)嘴張開寬度,用 T8表示,T8=IX17-X16 ;(9)嘴張開高度,用 T9表示,T9=|y18-y19| ; (10)鼻尖和下巴的距離,用 Tltl 表示,T1(l=|y15-y2(l|。
15
由于口型更容易受到說話內容的影響,因此為了減小說話內容對于臉部表情特征值T8至Tltl的影響,第2. 3步中所述計算臉部表情特征值T8至Tltl的優選方法是在第2. 3步操作的基礎上,在每個圖像序列中的第η幀圖像中,l〈n〈m,將T8至Tltl這三個特征值分別用相應特征在第(η-I)幀、第η幀、第(η+1)幀圖像中的均值來替換。第3步為了解決因不同人臉型不同造成的對臉部表情特征值1\至1\的影響,對所有圖像的臉部表情特征值T1至Te進行歸一化處理,具體為第3. I步從全部圖像序列中找出包含待處理圖像中人臉的所有圖像序列;所述待處理圖像為當前等待做歸一化處理的圖像。第3. 2步分別計算經過第3. I步處理后得到的包含待處理圖像中人臉的所有圖像序列的第一幀圖像中臉部表情特征值T1的均值、T2的均值、……、τ0的均值,分別用Ij至右表示;第3. 3步用巧對待處理圖像的臉部表情特征值T1進行歸一化處理,歸一化處理后的臉部表情特征值T1用符號T' !表示,71,= 7^ ;用巧對待處理圖像的臉部表情特征值T2進行歸一化處理,歸一化處理后的臉部表情特征值T2用符號T' 2表示,石= r2/f2 ;……;以此類推,用^對待處理圖像的臉部表情特征值Tg進行歸一化處理,歸一化處理后的臉部表情特征值1\用符號T' αη=τβ丨%0第4步獲得每個圖像序列中各幀圖像的表情觀察向量,用V,表示,I彡q彡m。一個圖像序列中第q幀圖像的表情觀察向量'由經過第3步歸一化處理后的Θ個特征值組成,Vq= [fql, fq2,……,fqe]T, fql為該圖像序列的第q幀圖像中經過歸一化處理的第I個臉部表情特征值T' 1;fq2為該圖像序列的第q幀圖像中經過歸一化處理的第2個臉部表情特征值T' 2,……,以此類推,fqe為該圖像序列的第q幀圖像中經過歸一化處理的第Θ個臉部表情特征值T' 0。第5步對于一個情感視頻,使用矩陣M來表示其表情觀察向量序列,M= [V1, V2,…-,Vm] e R0x'第6步依次從每個圖像序列中的各幀圖像中提取δ個肩部運動特征值,分別用L1至Ls表示,δ彡5。步驟一第6步中所述依次從每個圖像序列中的各幀圖像中提取δ個肩部運動特征值,δ =10,其具體步驟為第6. I步依次在每個圖像序列中的第一幀圖像中標識出5個肩部運動特征點;其中,第1、2肩部運動特征點分別位于右肩部輪廓線的最右側位置和左肩部輪廓線的最左側位置,分別用(X' ,,l' 1)>(x/ 2,l' 2);第3、4肩部運動特征點分別位于右肩部輪廓線的中間位置和左肩部輪廓線的中間位置,分別用(X' 3,y, 3)、(χ' 4,y, 4)表示;第5肩部運動特征點位于喉嚨位置,用(X' 5,ι' 5)表示。所述依次在每個圖像序列中的第一幀圖像中標識5個肩部運動特征點的方法包括人工手動標識。第6. 2步根據每個圖像序列中的第一幀圖像中的5個肩部運動特征點的位置,定位出該圖像序列中除第一幀圖像以外的后續幀圖像中的5個肩部運動特征點;所述定位出該圖像序列中除第一幀圖像以外的后續幀圖像中的5個肩部運動特征點的方法包括①人工手動標識;②使用基于分解概率的粒子濾波跟蹤算法實現對5個肩部運動特征點的自動跟蹤。第6. 3步根據各圖像中的5個肩部運動特征點的位置,分別計算每個圖像序列中的各幀圖像的10個肩部運動特征值L1至Lltl,具體為將每幀圖像的第I個肩部運動特征點相對于該幀圖像所在圖像序列的第一幀圖像的第I個肩部運動特征點的水平位移作為該幀圖像的第I個肩部運動特征值,用L1表示;將每幀圖像的第2個肩部運動特征點相對于該幀圖像所在圖像序列的第一幀圖像的第2個肩部運動特征點的水平位移作為該幀圖像的第2個肩部運動特征值,用L2表示;以此類推,將每幀圖像的第5個肩部運動特征點相對于該幀圖像所在圖像序列的第一幀圖像的第5個肩部運動特征點的水平位移作為該幀圖像的第5個肩部運動特征值,用L5表示;將每幀圖像的第I個肩部運動特征點相對于該幀圖像所在圖像序列的第一幀圖像的第I個肩部運動特征點的垂直位移作為該幀圖像第6個肩部運動特征值,用L6表示;將每幀圖像的第2個肩部運動特征點相對于該幀圖像所在圖像序列的第一幀圖像的第2個肩部運動特征點的垂直位移作為該幀圖像第7個肩部運動特征值,用L7表示;以此類推,將每幀圖像的第5個肩部運動特征點相對于該幀圖像所在圖像序列的第一幀圖像的第5個肩部運動特征點的垂直位移作為該幀圖像第10個肩部運動特征值,用Lltl表示。第7步為了解決因不同人體型不同造成的對肩部運動特征值1^至1^的影響,對所有圖像的肩部運動特征值L1至Ls進行歸一化處理,具體為第7. I步從全部圖像序列中找出包含待處理圖像中人臉的所有圖像序列;所述待處理圖像為當前等待做歸一化處理的圖像。第7. 2步分別計算經過第7. I步處理后得到的包含待處理圖像中人臉的所有圖像序列的第一幀圖像中肩部運動特征值L1的均值、L2的均值、……、LS的均值,分別用!!至表不。第7. 3步用ζ對待處理圖像的肩部運動特征值L1進行歸一化處理,歸一化處理后的肩部運動特征值L1用符號L' i表示,用4對待處理圖像的肩部運動特征值L2進行歸一化處理,歸一化處理后的肩部運動特征值L2用符號L' 2衰示,L11=L1II1 ;……;以此類推,用^對待處理圖像的肩部運動特征值Ls進行歸一化處理,歸一化處理后的肩部運動特征值Ls用符號L' s表示,第8步獲得每個圖像序列中各幀圖像的肩部觀察向量,用V",表示,I彡q彡m。一個圖像序列中第q幀圖像的肩部觀察向量V ",由經過第7步歸一化處理后的δ個肩部運動特征值組成,V" q=[f" ql,f" q2)……,f" q5]T, " ql為該圖像序列的第q幀圖像中經過歸一化處理的第I個肩部運動特征值L' 1; f" q2為該圖像序列的第q幀圖像中經過歸一化處理的第2個肩部運動特征值L' 2,……,以此類推,f" 為該圖像序列的第q幀圖像中經過歸一化處理的第δ個肩部運動特征值L' s。第9步對于一個情感視頻,使用矩陣Μ"來表示其肩部觀察向量序列,Μ" =[V" P V" 2,……,V" m] e Rs Xm。步驟一中所述對每個訓練樣本集中的每個情感視頻數據做預處理,得到音頻觀察向量序列的具體步驟為
步驟a :從每個情感視頻中以Vb的采樣率提取P個音頻巾貞組成一條音頻序列,vb ^ 5 赫茲(Hz), p=vbXta。步驟b :依次從每條音頻序列的各音頻幀中提取α個音頻特征值,分別用F1Ia表示,a彡4。所述音頻特征值包括信號強度;短時過零率;基音頻率;共振峰頻率;線性預測倒譜系數(Linear Prediction Cepstral Coefficients, LPCC);線譜對參數(LineSpectrum Pair,LSP) ;Mel 頻率倒譜系數(Mel Frequency Cepstral Coefficients, MFCC);感知線性預測倒譜系數(Perceptual Linear Prediction Cepstral Coefficients,PLPCOo步驟c :對所有音頻幀的音頻特征值F1Ia進行歸一化處理,具體為步驟c. I :找出與待處理音頻幀為同一發聲人物的所有中性情感的音頻序列;所述待處理音頻幀為當前等待做歸一化處理的音頻幀。步驟c. 2 :分別計算經過步驟c. I處理后得到的與待處理音頻幀為同一發聲人物的所有中性情感的音頻序列中各音頻幀的音頻特征值F1的均值、F2的均值、……、Fa的均值,分別用F1至&表示;步驟c. 3 :用巧對待處理音頻幀的音頻特征值F1進行歸一化處理,歸一化處理后的音頻特征值F1用符號F' i表示,F/=巧/巧;用曷對待處理音頻幀的音頻特征值F2進行歸一化處理,歸一化處理后的音頻特征值F2用符號F' 2表示,朽=FjF2 ;……;以此類推,用^對待處理音頻幀的音頻特征值Fa進行歸一化處理,歸一化處理后的音頻特征值Fa用符號F' HFa=FjFa 0步驟d:獲得每個音頻序列中各音頻幀的音頻觀察向量,用V' t表示,l<t<p。一個音頻序列中的第t幀音頻幀的音頻觀察向量V t由經過歸一化處理后的a個特征值組成,V' t=[f' tl, f/ t2,……,f' ta]T,f/ tl為該音頻序列的第t幀音頻幀中經過歸一化處理的第I個音頻特征值F' 1; f/ t2為該音頻序列的第t幀音頻幀中經過歸一化處理的第2個音頻特征值F, 2,……,以此類推,f' ta為該音頻序列的第t幀音頻幀中經過歸一化處理的第a個音頻特征值F' a。步驟f:對于一個情感視頻,使用矩陣M'來表示其音頻觀察向量序列,W =[N' 1; N' 2,……,V, p] e RaXp。步驟二、建立MBHMM分類器。在步驟一操作的基礎上,建立MBHMM分類器。所述MBHMM分類器包括第I層整體分類器、第2層整體分類器和第3層整體分類器。每層整體分類器由從左向右的K'個連續型HMM分量分類器組合而成,I < K' ^ K, K的值由人為預先設定,4 ^ 10 ;三層整體分類器中連續型HMM分量分類器的模型參數表示為A={N,A,Wi,d,μΜ, Um, π};其中,N表示模型的狀態數;η表示狀態初始概率;Α為狀態轉移概率矩陣,A= {aij , I ^ i, j ^ Iai,j表示從狀態Si轉移到狀態S」的概率。 用S= (S1, S2,……,SN}表示狀態集合,Si=I。觀察概率密度函數為混合高斯密度函數,如公式(I)所示。
權利要求
1.一種多層增強HMM的語音-視覺融合的情感識別方法,用于識別情感視頻中的人的情感,所述情感包括中性、高興、生氣、驚訝、恐懼、悲傷、厭惡;所述情感視頻是指包含人臉表情、肩部運動和語音的視頻數據,并且每段情感視頻都開始于中性表情;其特征在于所述多層增強HMM的語音-視覺融合的情感識別方法包括2部分訓練過程和識別過程;所述訓練過程的具體實施步驟如下 步驟一、對訓練數據中的情感視頻數據進行預處理; 將每一種情感的訓練數據稱為一個訓練樣本集;一個訓練樣本集中的訓練樣本數量用R表示,R ^ 20 ;分別對每個訓練樣本集中的每個情感視頻數據做預處理,得到表情觀察向量序列、肩部觀察向量序列和音頻觀察向量序列;一個訓練樣本集中的全部情感視頻數據在預處理后,得到的表情觀察向量序列的集合稱為表情特征數據流,得到的肩部觀察向量序列的集合稱為肩部特征數據流,得到的音頻觀察向量序列的集合稱為音頻特征數據流,這三種特征數據流用符號Xv表示,XV=|4^=i,v e {a, f, s};其中,a表示音頻,f表示表情,s表示肩部表示V特征數據流中的第r個觀察向量序列音頻觀察向量序列表情觀察向量序列肩部觀察向量序列;1彡r彡R ; 所述對每個訓練樣本集中的每個情感視頻數據做預處理,得到表情觀察向量序列和肩部觀察向量序列的具體步驟為 第I步從每個情感視頻中以Va的采樣率提取m巾貞圖像組成一個圖像序列,Va > 5赫茲,m=vaXta, ta為情感視頻的時間長度; 第2步依次從每個圖像序列中的各幀圖像中提取Θ個臉部表情特征值,分別用T1至T 9 表不,9^5; 所述臉部表情特征值包括臉部幾何特征值;臉部紋理特征值; 第3步為了解決因不同人臉型不同造成的對臉部表情特征值T1至Te的影響,對所有圖像的臉部表情特征值T1至Te進行歸一化處理,具體為 第3. I步從全部圖像序列中找出包含待處理圖像中人臉的所有圖像序列;所述待處理圖像為當前等待做歸一化處理的圖像; 第3. 2步分別計算經過第3. I步處理后得到的包含待處理圖像中人臉的所有圖像序列的第一幀圖像中臉部表情特征值T1的均值、T2的均值、……、Te的均值,分別用I!至%表示; 第3. 3步用g對待處理圖像的臉部表情特征值T1進行歸一化處理,歸一化處理后的臉部表情特征值T1用符號T' !衰示,T{=TJTX ;用右對待處理圖像的臉部表情特征值T2進行歸一化處理,歸一化處理后的臉部表情特征值T2用符號T' 2表示,g = r2/f2 ;……;以此類推,用^對待處理圖像的臉部表情特征值Tg進行歸一化處理,歸一化處理后的臉部表情特征值Te用符號T' 0表示,K =4/$; 第4步獲得每個圖像序列中各幀圖像的表情觀察向量,用Vq表示,I < q < m ; —個圖像序列中第q幀圖像的表情觀察向量Vq由經過第3步歸一化處理后的Θ個特征值組成,Vq= [fql, fq2,……,fqe]T,fql為該圖像序列的第q幀圖像中經過歸一化處理的第I個臉部表情特征值T' 1; fq2為該圖像序列的第q幀圖像中經過歸一化處理的第2個臉部表情特征值T' 2,……,以此類推,fqe為該圖像序列的第q幀圖像中經過歸一化處理的第Θ個臉部表情特征值T' θ ; 第5步對于一個情感視頻,使用矩陣M來表示其表情觀察向量序列,M= [V1, V2,……,VJ e Rexm5 第6步依次從每個圖像序列中的各幀圖像中提取δ個肩部運動特征值,分別用L1至L5表示,δ≥5 ; 第7步為了解決因不同人體型不同造成的對肩部運動特征值L1至Ls的影響,對所有圖像的肩部運動特征值L1至Ls進行歸一化處理,具體為 第7. I步從全部圖像序列中找出包含待處理圖像中人臉的所有圖像序列;所述待處理圖像為當前等待做歸一化處理的圖像; 第7. 2步分別計算經過第7. I步處理后得到的包含待處理圖像中人臉的所有圖像序列的第一幀圖像中肩部運動特征值L1的均值、L2的均值、……、LS的均值,分別用:ζ至盡表示; 第7. 3步用ζ對待處理圖像的肩部運動特征值1^進行歸一化處理,歸一化處理后的肩部運動特征值L1用符號L' i表示,Li=IjEl SfflZ2對待處理圖像的肩部運動特征值L2進行歸一化處理,歸一化處理后的肩部運動特征值L2用符號L' 2表示,I〗 =Ζ2/Γ2 ;……;以此類推,用對待處理圖像的肩部運動特征值Ls進行歸一化處理,歸一化處理后的肩部運動特征值Ls用符號L' δ表不,Lg — LgjLg - 第8步獲得每個圖像序列中各幀圖像的肩部觀察向量,用V" q表示,I≤q≤m; —個圖像序列中第q幀圖像的肩部觀察向量V",由經過第7步歸一化處理后的δ個肩部運動特征值組成,V" q=[f" ql,f" q2,……,f" qS]T,f" ql為該圖像序列的第q幀圖像中經過歸一化處理的第I個肩部運動特征值L' 1; f" q2為該圖像序列的第q幀圖像中經過歸一化處理的第2個肩部運動特征值L' 2,……,以此類推,f" qS為該圖像序列的第q幀圖像中經過歸一化處理的第δ個肩部運動特征值L' δ ; 第9步對于一個情感視頻,使用矩陣Μ"來表示其肩部觀察向量序列,Μ" =[V" 1;V" 2,……,V" J e R5xm; 步驟一中所述對每個訓練樣本集中的每個情感視頻數據做預處理,得到音頻觀察向量序列的具體步驟為 步驟a :從每個情感視頻中以Vb的采樣率提取P個音頻巾貞組成一條音頻序列,Vb > 5赫茲,p=vbXta ; 步驟b:依次從每條音頻序列的各音頻幀中提取α個音頻特征值,分別用F1Ia表示,a≤4 ; 所述音頻特征值包括信號強度;短時過零率;基音頻率;共振峰頻率;線性預測倒譜系數;線譜對參數;Mel頻率倒譜系數;感知線性預測倒譜系數; 步驟c :對所有音頻幀的音頻特征值F1Ia進行歸一化處理,具體為 步驟c. I :找出與待處理音頻幀為同一發聲人物的所有中性情感的音頻序列;所述待處理音頻幀為當前等待做歸一化處理的音頻幀; 步驟c. 2 :分別計算經過步驟c. I處理后得到的與待處理音頻幀為同一發聲人物的所有中性情感的音頻序列中各音頻幀的音頻特征值F1的均值、F2的均值、……、Fa的均值,分別用巧至巧表示; 步驟c. 3 :用巧對待處理音頻幀的音頻特征值F1進行歸一化處理,歸一化處理后的音頻特征值F1用符號F' i表示,;用,對待處理音頻幀的音頻特征值F2進行歸一化處理,歸一化處理后的音頻特征值F2用符號F' 2表示,F2'=巧/巧;……;以此類推,用&對待處理音頻幀的音頻特征值Fa進行歸一化處理,歸一化處理后的音頻特征值?。用符號F' a轟示,K =PaIK ; 步驟d :獲得每個音頻序列中各音頻幀的音頻觀察向量,用V' t表示,I < t < P ; —個音頻序列中的第t幀音頻幀的音頻觀察向量V t由經過歸一化處理后的a個特征值組成,V' t=[f' tl,f' t2,……,f' t JT,f' tl為該音頻序列的第t幀音頻幀中經過歸一化處理的第I個音頻特征值F' 1; f/ t2為該音頻序列的第t幀音頻幀中經過歸一化處理的第2個音頻特征值F, 2,……,以此類推,f' ta為該音頻序列的第t幀音頻幀中經過歸一化處理的第a個音頻特征值F' a ; 步驟f:對于一個情感視頻,使用矩陣M'來表示其音頻觀察向量序列,M' =[V' 1;V, 2)……,V, P] e Raxp; 步驟二、建立MBHMM分類器; 在步驟一操作的基礎上,建立MBHMM分類器;所述MBHMM分類器包括第I層整體分類器、第2層整體分類器和第3層整體分類器;每層整體分類器由從左向右的K'個連續型HMM分量分類器組合而成,I < K' < K,K的值由人為預先設定,4 < 10 ;三層整體分類器中連續型HMM分量分類器的模型參數表示為A={N,A,Wi,d,μΜ, Um, π};其中,N表示模型的狀態數;η表示狀態初始概率;Α為狀態轉移概率矩陣,A={ai;J}, I ^ i, j ^ N, Bijj表示從狀態Si轉移到狀態S」的概率; 用S= (S1, S2,……,SN}表示狀態集合,Si=I ; 觀察概率密度函數為混合高斯密度函數,如公式(I)所示;
2.如權利要求I所述的一種多層增強HMM的語音-視覺融合的情感識別方法,其特征在于訓練過程的步驟一第2步中所述依次從每個圖像序列中的各幀圖像中提取Θ個臉部幾何特征值,9=10,其具體步驟為 第2. I步依次在每個圖像序列中的第一幀圖像中標識出20個臉部特征點;其中,第1、2特征點分別位于右邊眉毛和左邊眉毛的眉頭位置,分別用(Xl,Y1)、(x2, y2)表示;第3、4特征點分別位于右邊眉毛和左邊眉毛的眉尾位置,分別用(x3,y3)、(x4, y4)表示;第5、6特征點分別位于右邊眼睛和左邊眼睛的內眼角位置,分別用(x5,y5)、(x6, y6)表示;第7、8特征點分別位于右邊眼睛和左邊眼睛的最低點,分別用U7, Y7)、(x8, y8)表示;第9、10特征點分別位于右邊眼睛和左邊眼睛的外眼角位置,分別用(x9,y9)、(x10, y10)表示;第11、12特征點分別位于右邊眼睛和左邊眼睛的最高點,分別用(xn,yn)、(x12, y12)表示;第13、14特征點分別位于鼻翼的最右側位置和鼻翼的最左側位置,分別用(x13,y13)、(x14, Y14)表示;第15特征點位于鼻尖位置,用(x15,y15)表示;第16、17特征點分別位于嘴角的最右側位置和嘴角的最左側位置,分別用(x16,y16)、(χ17, y17)表示;第18、19特征點分別位于唇部中心線與唇部輪廓線相交的最高點和最低點,分別用(x18, y18)、(χ19, y19)表示;第20特征點位于臉部中心線與臉部輪廓線相交的最低點,用(χΜ,y2。)表示; 第2. 2步根據每個圖像序列中的第一幀圖像中的20個特征點的位置,定位出該圖像序列中除第一幀圖像以外的后續幀圖像中的20個臉部特征點; 第2. 3步根據各圖像中的20個特征點的位置,分別計算每個圖像序列中的各幀圖像的10個臉部表情特征值T1至Tltl,具體為(I)兩眼寬度的平均值,用T1表示,T^d X9-X51+ I X10-X6I )/2 ; (2)兩眼高度的平均值,用 T2 表示,T2=( Iy11-Y71+ Iy12-Y81) /2; (3)兩支眉毛寬度的平均值,用T3表不,Τ3=( I X3-X11 +1 χ4-χ21) / 2; (4)兩支眉毛聞度的平均值,用T4表示,T4=(|y3-yi| + |y4-y2|) / 2 ; (5)內眼角和眉頭之間垂直距離的均值,用1~5表示,T5=( I Y5-Y11+ I y6-y21) / 2; (6)鼻尖和左右嘴角的垂直距離均值,用T6表示,T6= (I y16-y151 +1 y17-y151) /2 ; (7)嘴角和外眼角垂直距離的均值,用T7表示,T7= (IY16-Y9I+ IY17-Y10I)/2;(8)嘴張開寬度,用 T8表示,T8=IX17-X16 ;(9)嘴張開高度,用 T9表示,T9=|y18-y19| ; (10)鼻尖和下巴的距離,用 Tltl 表示,T1(l=|y15-y2(l|。
3.如權利要求2所述的一種多層增強HMM的語音-視覺融合的情感識別方法,其特征在于訓練過程的步驟一第2步第2. I步中所述標識20個臉部特征點的方法包括①人工手動標識;②使用基于Gabor特征的增強分類器方法實現對20個臉部特征點的自動定位。
4.如權利要求2或3所述的一種多層增強HMM的語音-視覺融合的情感識別方法,其特征在于訓練過程的步驟一第2步第2. 2步中所述定位出該圖像序列中除第一幀圖像以外的后續幀圖像中的20個臉部特征點的方法包括①人工手動標識;②使用基于分解概率的粒子濾波跟蹤算法實現對20個臉部特征點的自動跟蹤。
5.如權利要求2至4之一所述的一種多層增強HMM的語音-視覺融合的情感識別方法,其特征在于訓練過程的步驟一第2步第2. 3步中所述計算臉部表情特征值T8至Tltl的優選方法是在第2. 3步操作的基礎上,在每個圖像序列中的第η幀圖像中,l〈n〈m,將T8至Tltl這三個特征值分別用相應特征在第(η-l)幀、第η巾貞、第(η+1)幀圖像中的均值來替換。
6.如權利要求I至5之一所述的一種多層增強HMM的語音-視覺融合的情感識別方法,其特征在于訓練過程的步驟一第6步中所述依次從每個圖像序列中的各幀圖像中提取δ個肩部運動特征值,δ =10,其具體步驟為 第6. I步依次在每個圖像序列中的第一幀圖像中標識出5個肩部運動特征點;其中,第1、2肩部運動特征點分別位于右肩部輪廓線的最右側位置和左肩部輪廓線的最左側位置,分別用(X' 1,y' 1)>(x/ 2,y' 2);第3、4肩部運動特征點分別位于右肩部輪廓線的中間位置和左肩部輪廓線的中間位置,分別用(X' 3,y' 3)、(x' 4,y' 4)表示;第5肩部運動特征點位于喉嚨位置,用(X' 5,y, 5)表示; 所述依次在每個圖像序列中的第一幀圖像中標識5個肩部運動特征點的方法包括人工手動標識; 第6. 2步根據每個圖像序列中的第一幀圖像中的5個肩部運動特征點的位置,定位出該圖像序列中除第一幀圖像以外的后續幀圖像中的5個肩部運動特征點; 所述定位出該圖像序列中除第一幀圖像以外的后續幀圖像中的5個肩部運動特征點的方法包括①人工手動標識;②使用基于分解概率的粒子濾波跟蹤算法實現對5個肩部運動特征點的自動跟蹤; 第6. 3步根據各圖像中的5個肩部運動特征點的位置,分別計算每個圖像序列中的各幀圖像的10個肩部運動特征值L1至Lltl,具體為將每幀圖像的第I個肩部運動特征點相對于該幀圖像所在圖像序列的第一幀圖像的第I個肩部運動特征點的水平位移作為該幀圖像的第I個肩部運動特征值,用L1表示;將每幀圖像的第2個肩部運動特征點相對于該幀圖像所在圖像序列的第一幀圖像的第2個肩部運動特征點的水平位移作為該幀圖像的第2個肩部運動特征值,用L2表示;以此類推,將每幀圖像的第5個肩部運動特征點相對于該幀圖像所在圖像序列的第一幀圖像的第5個肩部運動特征點的水平位移作為該幀圖像的第5個肩部運動特征值,用L5表示;將每幀圖像的第I個肩部運動特征點相對于該幀圖像所在圖像序列的第一幀圖像的第I個肩部運動特征點的垂直位移作為該幀圖像第6個肩部運動特征值,用L6表示;將每幀圖像的第2個肩部運動特征點相對于該幀圖像所在圖像序列的第一幀圖像的第2個肩部運動特征點的垂直位移作為該幀圖像第7個肩部運動特征值,用L7表示;以此類推,將每幀圖像的第5個肩部運動特征點相對于該幀圖像所在圖像序列的第一幀圖像的第5個肩部運動特征點的垂直位移作為該幀圖像第10個肩部運動特征值,用Ljo 不 O
7.如權利要求I至6之一所述的一種多層增強HMM的語音-視覺融合的情感識別方法,其特征在于訓練過程的步驟三步驟5的操作還可以是使用改進EM算法迭代調整步驟4中所述連續型HMM分量分類器# Ζ的模型參數,得到最優模型參數,其操作步驟與使用EM算法迭代調整步驟4中所述連續型HMM分量分類器<1的模型參數的操作步驟之間的區別僅在于步驟5. 4步中的公式(6)至公式(9)分別用公式(10)至公式(13)替換;
8.如權利要求I至7之一所述的一種多層增強HMM的語音-視覺融合的情感識別方法,其特征在于訓練過程的步驟三步驟6中所述判斷某一特征觀察序列<是否被連續型HMM分量分類器0f,Z正確分類的方法為 步驟6. I :首先取出MBHMM分類器Φ。中的連續型HMM分量分類器#然后對其它并行訓練的(C-I)個MBHMM分類器分別進行如下操作如果c' e {1,2,……,c-1} U {c+l,c+2,……,C)人&表示整體分類器中包含的連續型HMM分量分類器的個數,則取出第c'個MBHMM分類器中的連續型HMM分量分類器否則,取出第c'個MBHMM分類器中的連續型HMM分量分類器; iV 步驟6. 2 :分別計算觀察向量序列4在步驟6. I取出的C個連續型HMM分量分類器下的概率;如果觀察向量序列#屬于第c個情感類別,且觀察向量序列 <在連續型HMM分量分類器$ 1下的概率最大,則認為觀察向量序列J被正確分類;否則,認為觀察向量序列;4’未A·/A被正確分類。
9.如權利要求I至8之一所述的一種多層增強HMM的語音-視覺融合的情感識別方法,其特征在于訓練過程的步驟三步驟12中所述判斷某一特征觀察序列^是否被整體分類器匕正確分類的方法為首先取出第c個MBHMM分類器Φ。中的第L層整體分類器< ;然后分別取出其它并行訓練的(C-I)個MBHMM分類器Φ。,中的第L層整體分類器yf,通過公式(16)分別計算觀察向量序列< 在這C個整體分類器下的概率,用符號P/表示;如果觀察向量序列<屬于第c類情感類別,且觀察向量序列<在整體分類器<下的概率最大,則認為觀察向量序列被正確分類;否則,認為觀察向量序列γ丨未被正確分類;
全文摘要
本發明提出的一種基于多層增強HMM(MBHMM)的語音-視覺融合的情感識別方法,屬于自動情感識別領域。本發明方法中提出的MBHMM分類器包括3層整體分類器,每層整體分類器由從左向右的多個連續型HMM分量分類器組合而成。使用情緒視頻中的語音、臉部表情、肩部運動三種特征流分別作為3層整體分類器的輸入,在訓練整體分類器時通過AdaBoost方法不斷更新各樣本的權重,同時通過AdaBoost方法確保在使用某一特征流訓練當前層整體分類器時著重于前一特征流的整體分類器難于識別的樣本。本發明方法與已有識別方法相比較明顯提高了分類的準確度。
文檔編號G06K9/62GK102930298SQ20121045917
公開日2013年2月13日 申請日期2012年11月15日 優先權日2012年9月2日
發明者呂坤, 賈云得, 鄒文澤, 張欣 申請人:北京理工大學