基于投影極速學習機的唇語識別方法和裝置的制造方法
【技術領域】
[0001] 本發明實施例涉及通信技術,尤其涉及一種基于投影極速學習機的唇語識別方法 和裝置。
【背景技術】
[0002] 唇語識別技術是人機交互(Human - Computer Interaction ;簡稱:HCI)中的一個 很重要的應用,它在自動語言識別(Automatic Speech Recognition;簡稱:ASR)系統中起 著重要的作用。
[0003] 在現有技術中,實現唇語識別功能通常需要特征提取模塊和識別模塊協調合作, 其中,對于特征提取模塊,一般采用以下兩種解決方案:(1)基于模型的方法是對與語音 有密切關系的唇部輪廓,用若干參數表示,并將部分參數的線性組合作為輸入特征;(2)基 于像素的低級語義特征提取方法是從信號處理的角度,將圖像平面當作是二維信號,利用 信號處理的方法對圖像信號進行某種變換,將變換后的信號當作是圖像的特征輸出。對 于識別模塊,一般采用以下的解決方案:(1)基于神經網絡的誤差反向傳播(Error Back Propagation,簡稱:BP)算法、支持向量機(Support Vector Machine ;簡稱:SVM)分類法 是將待識別的唇部圖像的特征向量輸入到已經訓練完畢的BP網絡,觀察輸出層的各個神 經元的輸出,并將輸出層的各個神經元的輸出的值最大的那個輸出神經元所對應的訓練樣 本與之匹配;(2)基于雙重隨機過程的隱馬爾科夫模型(Hidden Markov Model,簡稱:HMM) 的方法是將唇讀過程就可以看作是一個雙重隨機過程,每個唇動觀察值與唇讀發音序列之 間的對應關系是一個隨機過程,即觀察者只能看到觀察值,而看不到唇讀發音,只能由一個 隨機過程去確定其存在與特性,再將唇讀過程認為在每一段非常短的時間內,唇讀信號都 是線性的,可以用一個線性的模型參數來表示,然后用一階的馬爾科夫過程描述唇讀信號 的選擇過程。
[0004] 然而,現有技術中的特征提取方案在環境要求上比較嚴格,在進行模型提取中過 分依賴于唇部區域的光照條件,導致包含的唇動信息不完全,識別的精確度低,而唇語識別 技術解決方案由于識別結果依賴模型的假設,若假設不合理,也會導致識別的精確度較低 的問題。
【發明內容】
[0005] 本發明實施例提供一種基于投影極速學習機的唇語識別方法和裝置,以提高識別 的準確性。
[0006] 第一方面,本發明實施例提供一種基于投影極速學習機的唇語識別方法,包括:
[0007] 獲取所述投影極速學習機PELM對應的訓練樣本和測試樣本,所述訓練樣本和所 述測試樣本均包括η條視頻,η為大于1的正整數;其中,所述訓練樣本中還包括所述訓練 樣本的視頻對應的類別標識;所述類別標識用于標識所述η條視頻中的唇語動作;
[0008] 根據所述訓練樣本對所述PELM進行訓練,確定所述PELM中輸入層的權重矩陣W 和輸出層的權重矩陣β,得到訓練后的PELM ;
[0009] 根據所述測試樣本和所述訓練后的PELM,識別所述測試樣本的類別標識。
[0010] 結合第一方面,在第一方面的第一種可能的實現方式中,所述獲取所述投影極速 學習機PELM對應的訓練樣本和測試樣本,具體包括:
[0011] 采集所述η條視頻中的每條視頻所對應的至少一個視頻幀,獲取每個所述視頻幀 的局部二值模式LBP特征向量\和梯度方向直方圖HOG特征向量V Η;
[0012] 根據公Sv = 6'ν/. + 〇 -?;)1;〃,將所述LBP特征向量Vlj和所述HOG特征向量V Η進行 對齊融合,獲得融合特征向量V,其中,(5為融合系數,(3的取值大于等于0且小于等于1 ;
[0013] 將所述融合特征向量V進行降維處理,得到降維特征向量X ;
[0014] 根據所述降維特征向量X,計算獲取所述每條視頻的協方差矩陣,得到視頻特征向 量y,并將所述η條視頻中每條視頻的所述視頻特征向量y的集合Y = Iy1, y2. .. Yi. .. yn}作 為所述PELM對應的訓練樣本和測試樣本;其中,所述η為視頻的條數,所述yi為第i條視 頻的視頻特征向量。
[0015] 結合第一方面的第一種可能的實現方式,在第一方面的第二種可能的實現方式 中,所述獲取每個所述視頻幀的局部二值模式LBP特征向量具體包括:
[0016] 將所述視頻幀劃分成至少兩個單元格,并確定各單元格中的每個像素的LBP值;
[0017] 根據所述各單元格中的每個像素的LBP值,計算所述各單元格的直方圖,并對所 述各單元格的直方圖分別進行歸一化處理,獲得所述各單元格的特征向量;
[0018] 將所述各單元格的特征向量進行連接,獲得每個所述視頻幀的LBP特征向量Vli,所 述LBP特征向量\的各分量的取值大于等于0且小于等于1。
[0019] 結合第一方面的第一種可能的實現方式,在第一方面的第三種可能的實現方式 中,所述獲取每個所述視頻幀的梯度方向直方圖HOG特征向量v H,具體包括:
[0020] 將所述視頻幀的圖像轉換為灰度圖像,并通過Ga_a校正法對所述灰度圖像進行 處理,獲得處理后的圖像; C""1 (-V ν')
[0021] 根據公式《(A.V) = Ian ? 、)計算所述處理后的圖像中的坐標(x,y)處的像 素點的梯度方向,其中,a (X,y)為所述處理后的圖像中坐標(X,y)處的像素點的梯度方 向,Gx(x,y)為所述處理后的圖像中坐標(x,y)處的像素點的水平梯度值,Gy(x,y)為所述 處理后的圖像中坐標(X,y)處的像素點的垂直梯度值,G X(X, y) = H(x+1, y)-H(x-l, y), Gy(x, y) = H(x, y+l)_H(x, y-1),H(x, y)為所述處理后的圖像中坐標(x, y)處的像素點的像 素值;
[0022] 根據所述梯度方向,獲取每個所述視頻幀的HOG特征向量vH,所述HOG特征向量v H 的各分量的取值為大于等于〇且小于等于1。
[0023] 結合第一方面、第一方面的第一種至第一方面的第三種任一種可能的實現方式, 在第一方面的第四種可能的實現方式中,所述根據所述訓練樣本對所述PELM進行訓練,確 定所述PELM中輸入層的權重矩陣W和輸出層的權重矩陣β,具體包括:
[0024] 提取所述訓練樣本中各視頻的視頻特征向量,得到所述訓練樣本中所有視頻的視 頻特征矩陣,其中,η表示訓練樣本中視頻的數目,m表示視頻特征向量的維度;
[0025] 根據公式[U,S,VT] = svd(P)對所述視頻特征向量集合進行奇異值分解,得到 Vk,并根據公式W = Vk確定所述PELM中輸入層的權重矩陣W ;其中,所述S為奇異值矩陣, 奇異值沿左對角線降序排列,U和V分別為與S對應的左、右奇異矩陣;
[0026] 根據巧~、S、U和V,采用公式H = g(PV) =g(US)計算獲取輸出矩陣H,其中,g(.) 為激勵函數;
[0027] 獲取類別標識矩陣T,根據所述類別標識矩陣T和公式β = H+T,計算得到所述 PELM中輸出層權重矩陣β,其中,所述H+為H的偽逆矩陣,類別標識矩陣T為所述訓練樣 本中的類別標識向量的集合。
[0028] 第二方面,本發明實施例提供一種基于投影極速學習機的唇語識別裝置,包括:
[0029] 獲取模塊,用于獲取所述投影極速學習機PELM對應的訓練樣本和測試樣本,所述 訓練樣本和所述測試樣本均包括η條視頻,η為大于1的正整數;其中,所述訓練樣本中還 包括所述訓練樣本的視頻對應的類別標識;所述類別標識用于標識所述η條視頻中的唇語 動作;
[0030] 處理模塊,用于根據所述訓練樣本對所述PELM進行訓練,確定所述PELM中輸入層 的權重矩陣W和輸出層的權重矩陣β,得到訓練后的PELM ;
[0031] 識別模塊,用于根據所述測試樣本和所述訓練后的PELM,識別所述測試樣本的類 別標識。
[0032] 結合第二方面,在第二方面的第一種可能的實現方式中,所述獲取模塊包括:
[0033] 獲取單元,用于采集所述η條視頻中的每條視頻所對應的至少一個視頻幀,獲取 每個所述視頻幀的局部二值模式LBP特征向量^和梯度方向直方圖HOG特征向量V Η;
[0034] 所述獲取單元,還用于根據公式1^ +( 1 -巧、,將所述LBP特征向量'和所述 HOG特征向量vH進行對齊