一種面向智能電視的隱式交互方法
【專利摘要】本發明提供了一種面向智能電視的隱式交互方法,屬于智能電器領域。所述方法包括:實時獲取用戶體態行為信息,檢測用戶位置,并檢測與識別用戶手勢動作;同時檢測智能電視的功能狀態信息,獲得低層次的顯式交互信息;將處理后的用戶體態行為信息與智能電視實時的功能狀態信息相結合,建立基于用戶行為和智能電視狀態的多層次動態上下文推理模型,獲得高層次的隱含交互信息;將隱含交互信息可視化,識別用戶在可視化隱含信息指導下完成的手勢動作,建立顯隱信息融合的隱式交互行為模型,完成交互任務。
【專利說明】
一種面向智能電視的隱式交互方法
技術領域
[0001] 本發明屬于智能電器領域,具體涉及一種面向智能電視的隱式交互方法。
【背景技術】
[0002] 伴隨人機交互技術的發展,基于視覺的手勢交互在人機交互領域的重要性愈發突 出。與傳統的WMP交互方式相比,基于視覺的手勢交互擺脫了鼠標、鍵盤對用戶的束縛,并 且能為用戶提供更大的交互空間、更加逼真的交互體驗。基于視覺的手勢交互現已被廣泛 應用在虛擬裝配、虛擬增強現實、體感游戲、機器人控制、智能電視交互等領域。在智能電視 手勢交互系統中,基于視覺的手勢交互幫助用戶擺脫了對遙控器的束縛,并以遠距離操作 的方式為用戶操作智能電視提供了一種自然的交互方式。智能電視交互場景中,由于功能 繁多、復雜,需要大量的簡單手勢命令以及簡單手勢命令的組合才能完成操作。大量的手勢 命令增加了用戶的記憶負擔,給用戶帶來了極大的認知負荷;同時,基于視覺的手勢交互中 存在的識別率、midas touch、復雜手勢動作命令問題,限制了用戶操作的準確性,同樣給用 戶造成了極大的操作負荷。
[0003] 針對基于視覺的手勢交互中存在的問題,武匯岳(請參考:武匯岳,張鳳軍,劉玉 進,等.基于視覺的手勢界面關鍵技術研究[J].計算機學報,2009,32(10): 2030-2041)從認 知心理學角度,將手勢交互過程分為選擇性處理、分配性處理、集中處理3個階段,結合人類 知覺信息加工中的注意力模型提出了一個基于非接觸式的視覺手勢狀態轉移模型;通過模 仿人類視覺系統對目標對象的識別處理機制,使系統具備能夠選擇性處理關鍵性信息的能 力,有效避免了Midas Touch問題。梁卓銳(請參考:梁卓銳,徐向民.面向視覺手勢交互的映 射關系自適應調整[J].華南理工大學學報:自然科學版,2014,42(8) :52-57)提出了一種基 于用戶操作特點的映射關系自適應調整方法,基于Borg's CR-10尺度心理感知實驗測試用 戶手部移動的感知;該方法根據交互過程中的手部移動情況,在每次連續交互操作結束后 對映射方程進行調整,使用戶在自身物理限制的操作范圍內完成全屏幕的操作覆蓋,并通 過降低用戶手部移動的幾率來提高用戶體驗。王西穎(請參考:王西穎,張習文,戴國忠.一 種面向實時交互的變形手勢跟蹤方法[J].軟件學報,2007,18(10):2423-2433)提出一種新 穎的變形手勢實時跟蹤方法,利用一組2D手勢模型替代高煒度的3D手勢模型,通過對圖像 中手指和指尖定位,將Κ-means聚類算法與粒子濾波相結合,實現對變形手勢的快速、準確 的連續跟蹤,滿足了實時性的要求。但是該方法對手勢圖像的分割質量要求較高,影響了手 勢交互的魯棒性。Wei-Po Lee(請參考Lee W P,Che K,Huang J Y.A smart TV system with body-gesture control, tag-based rating and context-aware recommendation [J] .Knowledge-Based Systems ,2014,56(3): 167-178)利用kinect體感攝影機實現了自然 手勢控制智能電視的交互方式,創建一種基于社交標記和用戶所處的情境上下文信息的推 薦系統,為用戶推薦最適合用戶個性化需求的服務內容。這種方法融入了用戶使用智能電 視的情境上下文信息內容推薦服務,在一定程度上減輕了用戶的認知和操作負擔,但是沒 有考慮用戶本身的體態行為上下文信息對減輕用戶交互的影響。Vatavu(請參考:Vatavu R D.User-defined gestures for free-hand TV control[C]//Proceedings of the IOth European conference on Interactive tv and video.ACM,2012:45-48)提出的用戶自定 義手勢控制電視的交互系統中,通過研究用戶完成電視基本操作任務時的用戶手勢動作偏 好,觀察用戶行為,建立用戶手勢和電視功能之間的最佳映射關系,獲得完成某一電視操作 任務的最佳手勢操作方式,但用戶依然需要記憶大量的手勢動作實現電視操作,用戶的認 知負擔較大。田豐(請參考:田豐,鄧昌智,周明駿,等.Post-WIMP界面隱式交互特征研究 [J].計算機科學與探索,2007(2))提出了 Post-WMP的隱式交互方法,利用識別技術、上下 文感知技術、用戶修正技術來支持Post-W頂P的隱式交互;該方法使用戶無需關注交互任務 的執行方式和過程,只需關注任務本身,使人們以更加自然的方式來完成交互任務。徐光祐 (請參考:徐光祐,陶霖密,史元春,等.普適計算模式下的人機交互[J].計算機學報,2007, 30(7) :1041-1053)對普適計算環境下的人機交互進行深入分析,提出了以用戶和環境為主 要影響因素的隱式交互模式。他將物理空間中的人機交互分為基于物理空間接口的人機交 互和基于覺察上下文計算的隱式交互;隱式交互中計算系統利用上下文知識對用戶的操作 進行解釋和理解,并把它作為對計算系統的附加輸入,從而完成交互任務。覺察上下文信息 的提取與感知推理是實現隱式交互的基礎,葉喜勇(請參考:葉喜勇,陶霖密,王國健.基于 動作理解的隱式交互[C]//第七屆和諧人機環境聯合學術會議(HHME2011)論文集【oral】 .2011)在老年看護人機交互應用中提出了一種動態上下文模型及ADL-DBN推理模型,實現 基于動作理解的隱式交互方式;這種交互方式幫助計算機不分散人的注意力情況下理解人 的意圖,完成交互任務。王國建(請參考:王國建,陶霖密.支持隱式人機交互的分布式視覺 系統[J].中國圖象圖形學報,2010,15(8) :1133-1138)提出了一種支持隱式人機交互的分 布式視覺系統,并將其應用在小型會議場景中。在基于視覺的手勢交互中,由于上下文知識 的模糊性,導致對人體動作的解釋就存在多義性(請參考:徐光祐.人機交互中的體態語言 理解[M].電子工業出版社,2014)。傳統的基于規則的知識表示和推理,不能有效反映交互 上下文信息的模糊性。關志偉(請參考:關志偉.面向用戶意圖的智能人機交互[D].中國科 學院軟件研究所,2000)首次將FCM(請參考:Kosko ,Bart .Fuzzy cognitive maps[J] ? International Journal of Man-Machine Studies,1986,24(1) :65-75)應用于人機交互 的模糊知識表示和推理,有效地實現了自然人機交互的高層認知過程。但由于FCM不能提供 豐富且動態的推理機制,不能表示交互概念間因果關系測度的不確定性(請參考:馬楠,楊 炳儒,鮑視,等·模糊認知圖研究進展[J] ·計算機科學,2011,38(10): 23-28) Japageorgiou E(請參考:Papageorgiou E,Stylios C,Groumpos P.Fuzzy Cognitive Map Learning Based on Nonlinear Hebbian Rule[M]//AI 2003: Advances in Artificial Intelligence· Springer Berlin Heidelberg,2003:256-268)提出了一種通過大量計算過 程實現推理的動態模糊認知模型,增強了概念節點的動態性。
[0004] 綜上所述,目前基于視覺的智能電視手勢交互中主要存在的問題是用戶認知負荷 和操作負荷較重。
【發明內容】
[0005] 本發明的目的在于解決上述現有技術中存在的難題,提供一種面向智能電視的隱 式交互方法,有效提高智能電視用戶的交互體驗,降低用戶的操作負荷和認知負荷。
[0006] 本發明是通過以下技術方案實現的:
[0007] 一種面向智能電視的隱式交互方法,包括:實時獲取用戶體態行為信息,檢測用戶 位置,并檢測與識別用戶手勢動作;同時檢測智能電視的功能狀態信息,獲得低層次的顯式 交互信息;將處理后的用戶體態行為信息與智能電視實時的功能狀態信息相結合,建立基 于用戶行為和智能電視狀態的多層次動態上下文推理模型,獲得高層次的隱含交互信息; 將隱含交互信息可視化,識別用戶在可視化隱含信息指導下完成的手勢動作,建立顯隱信 息融合的隱式交互行為模型,完成交互任務。
[0008] 所述用戶位置是指用戶相對智能電視上攝像頭的水平距離、角度,檢測用戶位置 具體如下:
[0009]通過Kinect獲取人體主要關節點的三維坐標數據,根據人體頭部節點和人體重心 坐標信息,確定人體相對智能電視的位置。
[0010]所述檢測與識別用戶手勢動作包括用戶手部靜態行為的識別和用戶手部動態行 為的識別,具體如下:
[0011] 基于Kinect實現手勢部位的檢測與分割,通過OpenNI SDK獲取人手質心坐標,在 人手坐標領域內的三維空間提取出手的部位,再使用膚色模型分割方法對獲取的人手部位 進行處理,得到初步的人手圖像,對初步的人手圖像進行去噪、膨脹、腐蝕處理,得到最終的 人手圖像;
[0012]采用HCDF-H算法進行用戶手部靜態行為的識別;
[0013]用戶手部動態行為的識別。
[0014] 所述采用HCDF-H算法進行用戶手部靜態行為的識別具體如下:首先標準化手勢圖 像為32*32尺寸,并計算手勢重心點到手勢最遠點作為主方向向量,沿主方向將手勢圖像分 為8個子區域,求出子區域像素點數量,生成手勢坐標點分布特征向量,再使用類-Hausdorff距離與手勢模板庫中每種手勢的對比,得出最終識別結果。
[0015] 所述用戶手部動態行為的識別包括:
[0016] Step 1.輸入手勢圖像幀,空間人手三維質心坐標,初始化動態手勢類型特征向量 DGT ;
[0017] Step2.根據手勢質心坐標,以每連續T幀圖像計算一次連續T幀圖像的靜態手勢運 動距離d,并以連續T幀圖像更新一次d;
[0018] Step3.若d〈D,開始識別觸發動態手勢的靜態手勢Gesture_start,D為閾值;
[0019] Step4.若Gesture_start識別成功,獲取此時的靜態手勢質心點坐標S手勢并轉入 Step5;
[0020] Step5.進行動態手勢質心軌跡提取,并將軌跡質心點三維坐標存儲在data數組 中;
[0021] Step6.再次判斷連續T幀手勢運動距離d,若d〈D則識別結束靜態手勢Gesture end;計算data數組長度length;
[0022] Step7.若Gesture_end識別成功,獲取此時的靜態手勢質心坐標E;
[0023] Step8.若length>20,根據觸發動態手勢的靜態手勢質心點S、結束動態手勢的靜 態手勢質心點E的坐標值,判斷動態手勢運動方向,否則,再次判斷d,若d>D執行step9,否則 返回step8;
[0024] Step9.判斷動態手勢類型,求出對應手勢ID,并修改對應動態手勢ID的key值為I, 表示動態手勢ID識別成功,輸出動態手勢類別ID和與ID對應的key值;
[0025] SteplO .DGT 恢復初始化。。
[0026] 所述建立基于用戶行為和智能電視狀態的多層次動態上下文推理模型,獲得高層 次的隱含交互信息是這樣實現的:
[0027]將交互概念節點分為四類:用戶行為交互概念節點、設備環境上下文狀態信息交 互概念節點、交互情景事件節點、激發操作語義的交互概念節點集合;
[0028]交互概念節點集合C表示多層次動態上下文推理模型的節點集合,C= (U,S,E,A), 其中U為用戶行為交互概念節點集合,S為設備環境上下文狀態信息交互概念節點集合,E為 交互情景事件節點集合,A為激發操作語義的交互概念節點集合;
[0029] 集合U、S是已知狀態參量,E、A是未知參量;初始狀態時,根據當前時刻檢測到的初 始狀態值決定U、S中各個節點的概念值,若檢測到事件發生,則與之對應的交互概念節點值 設置為1,否則為〇;E、A中各個概念節點值初始化為0;當多層次動態上下文推理模型收斂到 一個穩定狀態時,獲得穩定狀態下各交互概念節點的值,基于多層次動態上下文推理模型 的上下文推理計算過程如下式:
[0030] (5)
[0031] (6)
[0032] 其中,是交互概念Ci在t+Ι時刻的狀態值;4是交互概念Cj在t時刻的值,Wij是C i 和Cj的權重,表示相關節點間的因果聯系強度,根據交互節點之間邊的權值得到CDL-DFCM 的鄰接矩陣W,W={Wn,W12, 一WnnKf表示閾值函數,其作用是將交互概念的值映射到[0,1] 區間,將W反復作用于該矢量,C達到穩定的收斂狀態,即4 ,
[0033]
.(7)
[0034] (7)式中,Hf表示Wij第t+Ι次迭代的權值,λ表示學習率因子,λ = 〇.1,
[0035]
(β)
[0036] 表示交互概念節點Cx的值在第t+1次迭代的變化量,4表示節點Cx在第t次的 迭代值;
[0037]交互概念集合C映射到感知空間上的交互意圖集合I ,I = (I1J2^-In)13對C上任意 交互意圖Ιχ,其隸屬函數Px(C1),i = l,2, ···,!!,其中C1表示交互概念空間C中的第i個交互概 念節點,yx(Ci)在區間[0,1]中取值,y x(Ci)的值反映 Ci隸屬于Ix的隸屬程度,值為0表示Ci不 屬于交互意圖lx,Ix表不如下:
(9)
[0038]
[0039] 在感知空間的交互意圖集合I中,交互意圖之間在時空上存在互斥關系;根據公式 (10)計算用戶意圖描述因子Fix:
[0040] (10)。
[0041] 所述建立顯隱信息融合的隱式交互行為模型,完成交互任務包括:
[0042] SI.實時檢測智能電視功能狀態上下文、用戶顯式行為信息;
[0043] S2.獲得動態上下文數據,根據多層次動態上下文模型,進行數據融合與特征提 取,并檢測低層上下文事件的狀態;
[0044] S3.檢測與識別T時刻動態手勢的類型,根據動態手勢類型識別算法,獲得T時刻用 戶的動態手勢類型ID和key值;
[0045] S4.初始化交互概念集合C。,根據低層上下文事件的狀態,設置交互概念集合C中 U、S中各交互概念節點的初始值,檢測到的狀態事件對應的交互概念節點值置為1,否則為 0;集合E,A中各交互概念節點初始值設置為0;
[0046] S5.根據鄰接矩陣W和公式(5)獲得交互概念集合C在收斂狀態下的交互概念節點 值;
[0047] S6.根據公式(9)與(10)計算交互意圖集合中交互意圖Ix(x=l,2, ···,!〇的交互意 圖描述因子FIx的狀態值;與意圖描述因子集合FI中對應交互意圖的交互因子比較,若FIx = FIecinvelrgenee,則激活交互意圖Ix對應的交互情景事件和交互操作,否則返回SI;
[0048] S7.將T時刻激活的交互情景事件對應的功能菜單顯示在智能電視界面最頂層,且 計算機執行用戶交互意圖對應的交互操作;
[0049] S8.檢測T+1時刻用戶行為,若檢測到用戶手勢動作,根據DGRA算法獲得T+1時刻的 用戶動態手勢類型ID和key值,然后執行S9;否則,智能電視保持當前的功能狀態,并循環執 行S8;
[0050] S9.計算T+1時刻向量DGDM,計算交互任務特征向量TI,若TI = TIx,x=l,2,…,6, 則計算機根據交互任務TIx完成對應的功能操作。
[0051 ]所述S9中的計算Τ+1時刻向量DGDM是利用公式(12)計算得到的:
[0052] DGDM= (ID,posture ,key) (12)
[0053] 公式(12)中,ID表示動態手勢唯一標識,posture表示動態手勢代表的語義,key代 表動態手勢的識別標志。
[0054]所述S9中的計算交互任務特征向量TI是這樣實現的:
[0055]在T+1時刻,將具有特定語義的交互動作與此刻的系統界面交互信息相結合,以 顯、隱信息融合的交互映射范式實現用戶的特定交互任務,特定交互場景下交互任務TI構 成交互任務集合1'15,5=(1'1 1,112,~,1'111),用公式(11)交互任務特征向量1'1
[0056] TIi=(DGDM,E,A)i = l,2,.",n (11)
[0057] 公式(11)中第一個特征向量DGDM表示動態手勢行為信息,第二個向量E表示通過 識別出的交互情景事件,第三個向量A表示感知到的用戶操作意圖。
[0058]與現有技術相比,本發明的有益效果是:
[0059] (1)本發明方法依據用戶的行為特征,建立了基于視覺的智能電視單手勢交互原 型系統;
[0060] (2)提出了多層次上下文模型和⑶L-DFCM推理模型,實現了對交互情景事件的識 別和用戶意圖感知;
[0061] (3)提出了顯隱信息融合的隱式交互行為模型并提出相關算法,有效提高了智能 電視用戶的交互體驗,降低了用戶的操作負荷和認知負荷。
【附圖說明】
[0062]圖1手勢動作統計表
[0063]圖2不同類型靜態手勢圖像
[0064]圖3動態手勢模型分解圖
[0065] 圖4手勢運動方向
[0066]圖5基于智能電視手勢交互的上下文模型
[0067]圖6基于智能電視手勢交互的動態上下文⑶L-DFCM模型
[0068]圖7初始化權值矩陣Winitial
[0069]圖8顯隱信息融合的隱式交互行為模型
[0070]圖9操作準確率比較圖
[0071 ]圖10各項功能操作對應的手勢移動距離
[0072]圖η動態手勢類型識別率
[0073] 圖12平均操作時間圖。
【具體實施方式】
[0074]下面結合附圖對本發明作進一步詳細描述:
[0075] 本發明從認知心理學角度出發,通過捕捉用戶交互意圖,結合隱式交互理論提出 了一種基于DFCM的多層次動態上下文推理模型和顯隱信息融合的隱式交互行為模型。首 先,實時獲取用戶體態行為信息,檢測用戶位置,并檢測與識別用戶手勢動作;同時檢測智 能電視功能狀態,獲得低層次的顯式交互信息。其次,將處理后的用戶體態行為信息與智能 電視實時的功能狀態信息相結合,建立動態上下文模型;使用基于數據的權值迭代學習的 微分Hebbian動態模糊認知圖DFCM(請參考:張燕麗.基于模糊認知圖的動態系統的建模與 控制[D].大連理工大學,2012)的多層次動態上下文推理模型獲得高層次的隱含交互信息。 最后將隱含交互信息可視化,識別用戶在可視化隱含信息指導下完成的手勢動作,利用顯 隱信息融合的隱式交互行為模型,完成交互任務。。
[0076]智能電視人機交互中,手勢動作作為一種非精確交互輸入,用戶交互目的的實現 完全依賴于手勢動作的模式識別率。這增加了用戶操作和認知負荷。這種情況下,動態上下 文對用戶手勢動作的理解起著重要作用。本發明通過對基于視覺的智能電視手勢交互場景 分析,首先建立了基于用戶行為和智能電視狀態的多層次上下文模型,實現上下文的數據 融合與特征提取;其次,設計并實現了動態上下文CDL-DFCM推理模型和顯隱信息融合的隱 式交互模型,識別交互情景事件并感知用戶意圖;最后,提出了上下文顯隱信息融合的隱式 交互算法。實驗結果表明,與現有相關算法比較,本發明在操作準確率、時間開銷和手勢移 動距離等方面得到了明顯改善,并有效提升了用戶體驗。
[0077] 智能電視交互系統中,用戶根據操作任務來完成相應的交互操作。因此,用戶的交 互需求是建立基于視覺的智能電視手勢交互系統原型的基礎。本發明按照先對基于視覺的 遠距離手勢交互中的用戶日常習慣性動作進行統計分析,再通過分析其中的認知信息,建 立用戶行為模型和原型系統的思路設計了以下實驗。
[0078] 實驗 1
[0079] 首先,在安裝有智能電視的實驗室中,模擬用戶收看電視場景;建立一個基于 Kinect的智能電視遠程單手勢交互模型,但該模型并不能實現與用戶的真正交互操作,操 作有效距離為1-3.5米。其次,邀請不同專業的50名在校大學生參與本次實驗,每位實驗參 與者具有操作智能電視或智能手機的操作經驗,記錄每名實驗人員根據電視功能布局和本 能反應做出的最自然、最輕松手勢動作,并使用單手操作。最后,統計用戶的習慣性動作,進 行認知行為分析,對每種電視功能操作使用最多的習慣性動作建立行為模型。實驗1提供基 于視覺的手勢交互中最受歡迎的10類手勢動作(請參考:劉雪君.面向互動電視的手勢交互 系統研究與實現[D].復旦大學,2013)和智能電視功能界面供實驗參與者參考。統計結果表 明在不考慮用戶操作目的的情況下,得到次數高于50%的4種手勢動作,如圖1所示。
[0080] 實驗 2
[0081] 在實驗1的基礎上,本發明設計了實驗2。首先,設計了關于基于視覺的智能電視手 勢交互操作的網絡調查問卷。其次,根據調查問卷的數據分析結果,開發了基于視覺的智能 電視手勢交互原型系統。本次問卷共回收157份,年齡在15-25歲之間的占總問卷人數的 75. 16%,25-60歲占24.85 %。性別比例基本均等,對實驗不會產生影響。調查人員中 81.53%的人沒有使用過基于視覺的手勢交互智能電視。在手勢交互智能電視操作目的的 調查中,52.87%的人認為主要完成頻道、音量、電視關閉操作,45.86%的人只用來玩手勢 交互游戲。56.45%的人對遙控器調節音量、頻道的方式感到不滿意。
[0082]基于實驗1和實驗2,本發明設計了基于視覺的智能電視單手勢交互原型系統, IHCI-smartTVJHCI-smartTV包括智能電視頻道調節、音量調節、主頁功能切換、手勢操作 開關、基于手勢控制的游戲五個功能模塊,設計表1中的8種手勢動作完成與智能電視的交 互任務。本發明主要對IHCI-smartTV中頻道調節、音量調節、手勢操作開關功能的手勢交互 進行研究。手勢操作開關功能是指手勢操作開關打開后能利用手勢動作控制智能電視進行 除手勢操作開關以外的其它操作,目的是避免基于視覺的手勢交互中存在的midas touch 問題。
[0084] 表1
[0085] 隱式交互行為模型:
[0086]人體顯式行為上下文信息的檢測與識別:
[0087]用戶顯式行為信息是指與智能電視交互的唯一用戶的人體行為信息,包括用戶位 置檢測、用戶手部靜態與動態行為的檢測與識別。用戶位置檢測是指用戶相對智能電視上 攝像頭的水平距離、角度。基于視覺的手勢檢測與識別可分為以下兩種:一種是由連續手部 動作組成的動態手勢(gesture),如手的揮動;二是靜態的手部姿態(posture)。本發明中手 勢動作上下文是指手部動作的運動與幾何信息,如手部的靜態姿勢、運動速度、運動軌跡信 息等。
[0088] 人體動作行為的研究需要能夠準確及時的采集人體動、靜狀態下數據信息,為此 本發明搭建基于Kinect的實驗平臺,并配置OpenNI SDK。通過Kinect可以獲取人體15個主 要關節點的三維坐標數據,根據人體頭部節點和人體重心坐標信息,可以確定人體相對智 能電視的位置。基于Kinect實現手勢部位的檢測與分割,是通過OpenNI SDK獲取人手質心 坐標,在人手坐標領域內的三維空間提取出手的部位,再使用膚色模型分割方法對獲取的 人手部位進行處理,得到初步的人手圖像,對初步的人手圖像進行去噪、膨脹、腐蝕處理,可 得最終比較理想的人手圖像。
[0089] 考慮到動態手勢與靜態手勢在實際應用中結合使用的情況,以及基于視覺的手勢 交互中存在的midas touch問題,本發明將靜態手勢的識別與動態手勢的檢測與識別相結 合,建立基于靜態手勢姿態識別與動作手勢運動檢測的動態手勢類型識別模型(dynamic gesture detect model, DGDM)。該模型的形式化描述:DGDM =〈ID,posture,Ges ture_ start ,Gesture_end,orientation,key,data,length〉。ID是動態手勢的唯一標識符; posture標識手勢動作的顯式語義信息,如:"握拳、揮手";Gesture_start為觸發動態手勢 的預定義靜態手勢;Gesture_end為結束動態手勢的預定義靜態手勢;orientation描述手 勢在三維空間中的相對運動方向;d為標志位,當被檢測到時,置為1,否則為0;data為存儲 歸一化手勢質心運動軌跡坐標的浮點型數組。length表示動態手勢的從開始到結束的圖像 幀數,用來描述動態手勢的持續時間。在有意識操作狀態下,用戶動態手勢持續時間存在一 定的規律性,可通過統計學實驗獲得。
[0090] 靜態手勢姿態采用HCDF-H算法(請參考:楊學文,馮志全,黃忠柱,何娜娜.結合手 勢主方向和類-Hausdorff距離的手勢識別[J].計算機輔助設計與圖形學學報,2016,01: 75-81)進行識別。首先標準化手勢圖像為32*32尺寸,并計算手勢重心點到手勢最遠點作為 主方向向量,沿主方向將手勢圖像分為8個子區域,求出子區域像素點數量,生成手勢坐標 點分布特征向量,再使用類-Hausdorff距離與手勢模板庫中每種手勢的對比,得出最終識 別結果。該方法能夠避免手勢旋轉、平移、縮放的影響,具有較高的效率和識別準確率。在基 于視覺的智能電視手勢交互中,將電視交互系統中的有效靜態手勢分為三種類型,五指打 開為1、握拳為2、食指和中指打開為3,如圖2所示。基于靜態手勢的動態手勢分解圖3所示。
[0091] 在智能電視手勢交互實驗中,發現每個動態手勢開始前用戶都會有意識的調整靜 態手勢。在調整靜態手勢的時間段內(調整靜態手勢的時間段是指用戶從隨機靜態手勢調 整到具有具體語義的理想靜態手勢的時間差),靜態手勢的質心位移保持相對靜止。實驗對 50名用戶的動態手勢運動進行分析,統計用戶做不同類型動態手勢時在調整靜態手勢時間 段內靜態手勢每兩幀手勢質心的移動距離。以每連續T幀手勢圖像作為一個靜態調整時間 段,連續T幀內靜態手勢運動距離滿足條件閾值D。以D和T作為狀態轉移條件,若連續T幀內 手勢移動距離d〈D,則進入靜態手勢識別階段。運動方向(orientation)是區分不同動態手 勢的關鍵信息,如果將觸發動態手勢的靜態手勢質心點S為坐標原點建立坐標系,其與結束 動態手勢的靜態手勢質心點E方向判斷關系如圖4所示。
[0092 ] Or i entat ion可用公式(1)中Ori描述;首先,在XOY面上根據S和E計算向量涵與X軸 夾角的正切值,根據正切值的絕對值判斷出手勢上下方向運動還是左右方向運動;上下方 向根據兩坐標點Y軸坐標差值的正負判斷具體方向,左右方向根據兩坐標點X軸坐標差值判 斷具體方向。Z軸方向,手勢水平位移閾值絕對值為 Zq。其計算公式為:
(1) (2) 1
[0096] 根據DGDM,我們可以判斷出動態手勢類型(dynamic gesture type,DGT),并用特 征向量DGT描述一種動態手勢,不同的動態手勢可根據不同的語義、開始手勢、結束手勢、方 向以及持續時間來描述。
[0097] DGT=(ID,posture,Gesture_start,Gesture_end,orientation,length) (4)
[0098] 根據以上信息,動態手勢類型識別的算法(Dynamic gesture recognition a lgori thm,DGRA)步驟如下:
[0099] 輸入:手勢圖像幀,空間人手三維質心坐標。
[0100] 輸出:動態手勢類別ID和與ID對應的key值。
[0101] Stepl
[0102] Step2.根據手勢質心坐標,以每連續T幀圖像計算一次連續T幀圖像的靜態手勢運 動距離d,并以連續T幀圖像更新一次d。
[0101] Step3.若d〈D,開始識別觸發動態手勢的靜態手勢Gesture_start。
[0104] Step4.若Gesture_start識別成功,獲取此時的靜態手勢質心點坐標S手勢并轉入 Step5〇
[0105] Step5.進行動態手勢質心軌跡提取,并將軌跡質心點三維坐標存儲在data數組 中。
[0106] Step6.再次判斷連續T幀手勢運動距離d,若d〈D則識別結束靜態手勢Gesture end;計算data數組長度length。
[ΟΙ O7] Step7 ·若Gesture_end識別成功,獲取此時的靜態手勢質心坐標E。
[0108] Step8.若length>20,根據S、E坐標值,帶入公式(1)判斷動態手勢運動方向。否則, 再次判斷d,若d>D執行step9,否則返回step8。
[0109] Step9.根據公式(4)判斷動態手勢類型,求出對應手勢ID,并修改對應動態手勢ID 的key值為1,表示動態手勢ID識別成功。
[0110] SteplO .DGT 恢復初始化。
[0111] 基于⑶L-DFCM模型的高層隱含信息感知與推理:
[0112]在人機交互系統中,用戶交互行為的隱含信息往往隱藏在交互場景的上下文中。 智能電視交互系統中主要考慮三種形式的上下文信息,分別是智能電視狀態上下文,人與 智能電視關聯的上下文及與用戶行為相關的上下文。
[0113] (1)與智能電視狀態有關的上下文,可根據上下文層次關系分為低層設備功能狀 態,"如:電視節目播放狀態、主頁切換功能狀態、待機狀態"和通過推理獲得的高層交互情 景事件與用戶意圖,如:"電視正處在手勢功能激活狀態","電視正處在頻道調節狀態"、"電 視正處在音量調節狀態"。這類信息關系到對人體的理解,是解決用戶行為多義性的重要依 據。
[0114] (2)與用戶有關的上下文包括人體重心的相對位置與手部動作行為信息。
[0115] (3)用戶與智能電視的關聯上下文,被定義為用戶位置事件,與智能電視的開關狀 態關聯,如:電視工作狀態下,"用戶在電視有效操作范圍內"。這類信息是聯系用戶行為上 下文與設備狀態上下文的紐帶。
[0116] 對基于視覺的智能電視手勢交互場景上下文,建立多層次上下文模型。如圖5所 不。
[0117]在隱式交互理論中,上下文是系統底層數據與高層用戶意圖理解的語義鴻溝。為 了識別交互情景事件與主動理解用戶的動作,本發明對用戶行為和智能電視狀態進行分 析,根據上下文模型提出了一種基于DFCM的多層次動態上下文推理模型(OTL-DFCM) tXDL-DFCM能夠實現對用戶操作意圖的感知,并以在線檢測方式實時對上下文數據進行處理。在 CDL-DFCM模型中,交互概念節點分為四類:智能電視狀態交互概念節點,描述與智能電視功 能狀態有關的上下文;用戶行為交互概念節點,描述用戶手勢交互動作;交互情景概念節 點,描述具體交互任務的交互情景事件;操作語義的概念節點,描述用戶的操作意圖,與交 互情景事件相關聯。
[0118]針對基于視覺的智能電視手勢交互系統的基本操作需求,本發明對IHCI-smartTV 原型系統中頻道調節、音量調節、手勢操作開關功能的手勢交互進行分析研究,具體包括音 量增大、減小操作,頻道上一個、下一個調節操作,手勢操作開關功能。設置手勢操作開關功 能的目的是實現與其他交互通道的平滑融合,防止產生相互干擾。交互概念節點集合C表示 ⑶L-DFCM的節點集合,C= (U,S,E,A)。其中U為用戶行為交互概念節點集合,S為設備環境上 下文狀態信息交互概念節點集合,E為交互情景事件節點集合,A為激發操作語義的交互概 念節點集合。
[0119]在本發明研究的IHCI-smartTV人機交互系統中,概念節點列表如下:
[0120] (1)交互概念節點列表:
[0121] {
[0122] //用戶動作行為交互概念節點集合U
[0123] 1、向前推手(wave forward-Ul);
[0124] 2、向上揮手(wave up-U2);
[0125] 3、向下揮手(wave down-U3);
[0126] 4、向左揮手(wave to the left-U4);
[0127] 5、向右揮手(wave to the right-U5);
[0128] 6、握拳(Fist-U6);
[0129] 7、用戶位置(U7)
[0130] //智能電視狀態信息交互概念節點集合S
[0131] 1、智能電視節目播放狀態(the playing state of smart TV-SI);
[0132] 2、手勢操作功能狀態(the opening state of body gesture operating function-S2);
[0133] //交互情景事件節點E
[0134] I、頻道功能操作交互(El);
[0135] 2、音量功能操作交互(E2);
[0136] 3、手勢控制操作交互(E3);
[0137] //激發操作語義的交互概念節點集合A
[0138] 1、彈出頻道操作菜單界面,并持續進行調到上一個頻道的操作(Al);
[0139] 2、彈出頻道操作菜單界面,并持續進行調到下一個頻道的操作(A2);
[0140] 3、彈出音量操作菜單界面,并在原音量值基礎上按一定幅度持續減小音量,直至 收到音量減小結束命令或靜音狀態(A3);
[0141] 4、彈出音量操作菜單界面,并在原音量值基礎上按一定幅度持續增大音量,直至 收到音量增大結束命令或最大音量狀態(A4);
[0142] 5、打開手勢操作功能(A5);
[0143] 6、關閉手勢操作功能(A6);
[0144] }
[0145] (2)交互概念節點關聯關系列表:
[0146] {
[0147] S1-U1:電視節目播放狀態下,用戶執行Ul動作的可能性增加
[0148] S1-U2:電視節目播放狀態下,用戶執行U2動作的可能性增加
[0149] S1-U3:電視節目播放狀態下,用戶執行U3動作的可能性增加
[0150] S1-U4:電視節目播放狀態下,用戶執行U4動作的可能性增加
[0151] S1-U5:電視節目播放狀態下,用戶執行U5動作的可能性增加
[0152] S1-U6:電視節目播放狀態下,用戶執行U6動作的可能性增加
[0153] S2-U1:手勢操作功能打開狀態下,用戶執行Ul動作的可能性增加
[0154] S2-U2:手勢操作功能打開狀態下,用戶執行U2動作的可能性增加
[0155] S2-U3:手勢操作功能打開狀態下,用戶執行U3動作的可能性增加
[0156] S2-U4:手勢操作功能打開狀態下,用戶執行U4動作的可能性增加
[0157] S2-U5:手勢操作功能打開狀態下,用戶執行U5動作的可能性增加
[0158] S2-U6:手勢操作功能打開狀態下,用戶執行U6動作的可能性增加
[0159] U1-E3:水平向前推手導致彈出手勢交互開關交互菜單的可能性增加
[0160] U6-E3:握拳動作導致彈出手勢交互開關交互菜單的可能性增加
[0161] U2-E1:向上揮手導致彈出頻道菜單的可能性增加
[0162] U3-E1:向下揮手導致彈出頻道菜單的可能性增加
[0163] U4-E2:向左揮手導致彈出音量菜單的可能性增加
[0164] U5-E2:向右揮手導致彈出音量菜單的可能性增加
[0165] U7-U1:用戶進入手勢有效操作區域后,執行Ul的可能性增加
[0166] U7-U2:用戶進入手勢有效操作區域后,執行U2的可能性增加
[0167] U7-U3:用戶進入手勢有效操作區域后,執行U3的可能性增加
[0168] U7-U4:用戶進入手勢有效操作區域后,執行U4的可能性增加
[0169] U7-U5:用戶進入手勢有效操作區域后,執行U5的可能性增加
[0170] U7-U6:用戶進入手勢有效操作區域后,執行U6的可能性增加
[0171] E1-A1:頻道操作功能激活后,持續調節至上一個頻道的可能性增加
[0172] E1-A2:頻道操作功能激活后,持續調節至下一個頻道的可能性增加
[0173] E2-A3:音量操作功能激活后,持續調節音量減小的可能性增加
[0174] E2-A4:音量操作功能激活后,持續調節音量增大的可能性增加
[0175] E3-A5:彈出手勢操作開關菜單后,關閉手勢操作功能的可能性增加
[0176] E3-A6:彈出手勢操作開關菜單后,打開手勢操作功能的可能性增加
[0177] A5-S2:手勢動作打開導致手勢操作開關狀態改變
[0178] }
[0179] 根據上述分析,建立⑶L-DFCM模型,如圖6所示。
[0180] 在⑶L-DFCM模型中,集合U、S是已知狀態參量,E、A是未知參量。初始狀態時,根據 當前時刻檢測到的初始狀態值決定u、s中各個節點的概念值,若檢測到事件發生,則與之對 應的交互概念節點值設置為1,否則為0 ;E、A中各個概念節點值初始化為0。當CDL-DFCM收斂 到一個穩定狀態時,可獲得穩定狀態下各交互概念節點的值。基于CDL-DFCM的上下文推理 計算過程如(5)式:
[0181] (5)
[0182](6)
[0183] 其中,4+1是交互概念Ci在t+1時刻的狀態值;4是交互概念Cj在t時刻的值。通過因 果分析與專家經驗分析智能電視手勢交互中交互概念節點之間的關聯關系,W lj是CjPCj的 權重,表示相關節點間的因果聯系強度,根據交互節點之間邊的權值可得到CDL-DFCM的鄰 接矩陣W,W= {Wn,W12,…Wnn},圖7為根據因果分析與專家經驗獲得的初始鄰接矩陣Winitia1。 f表示閾值函數,其作用是將交互概念的值映射到[0,1]區間。將W反復作用于該矢量,C達到 穩定的收斂狀態,即4=44 G
[0184]
(7)
[0185] (7)式中,表示Wij第t+Ι次迭代的權值,λ表示學習率因子,λ = 〇·1。
[0186]
(8)
[0187] 表示交互概念節點Cx的值在第t+Ι次迭代的變化量,^表示節點Cx在第t次的 迭代值。
[0188] 交互概念集合C映射到感知空間上的交互意圖集合I ,I = (I1J2^-In)13對C上任意 交互意圖Ιχ,其隸屬函數Px(C 1),i = l,2, ···,!!,其中C1表示交互概念空間C中的第i個交互概 念節點。yx(Ci)在區間[0,1]中取值,y x(Ci)的值反映 Ci隸屬于Ix的隸屬程度,值為0表示Ci不 屬于交互意圖Ixc3Ix表不如下:
[0189] jc=l, 2,…,n .(9).
[0190] 在感知空間的交互意圖集合I中,交互意圖之間在時空上存在互斥關系,即每一時 刻只可能存在一種可能性最大的交互意圖發生。根據公式(9)中各節點的隸屬程度與收斂 狀態下交互概念節點狀態值,計算用戶意圖描述因子,根據公式(10)計算用戶意圖描述因 子 FIx:
[0191] I=It 2.,. η (1Θ)
[0192] 顯隱信息融合的隱式交互行為模型:
[0193] 在交互式智能電視交互系統中,電視屏幕是用戶的直接關注對象,傳統的顯式交 互方式中用戶根據電視界面信息、狀態按照既定的交互規則發出操作命令,用戶操作命令 與電視操作之間存在亦步亦趨的關系,這導致用戶的操作負擔很重,達到理想操作效果的 平均時間較長。由于用戶需要記住的操作動作較多,這也加重了用戶認知負荷。本發明提出 在顯式交互模式基礎上融合隱式交互模式的顯隱信息融合隱式交互行為模型(EI-IBM),如 圖8所示。以IHCI-smartTV原型系統構建的顯隱信息融合的隱式交互行為模型中,用戶與智 能電視系統是交互主體。隱式交互是一種不可見的交互,這種不可見性是交互雙方的一種 間接連接關系,交互信息具有不確定性和模糊性。當用戶透明地使用智能電視時,用戶精力 更多集中在交互任務本身。隱式交互模式通過對多種上下文信息融合、分析,消除多種上下 文信息之間的歧義,實現對用戶意圖的理解,并以主動反饋方式向用戶提供交互服務。
[0194] 顯隱信息融合的隱式交互模型是對智能電視交互的一種模式創新,改變了以往單 純依靠用戶直接命令的顯式交互模式。該模式的實現包括以下過程:
[0195] (1)基于低層上下文的感知與推理。依據T時刻用戶行為上下文、智能電視狀態上 下文以及二者的關聯上下文,通過⑶L-DFCM模型,獲得T時刻上下文的隱含交互信息。
[0196] (2)識別交互情景事件與捕捉用戶意圖,并將隱含交互信息可視化。首先,根據上 下文線索識別出T時刻的交互情景事件,感知用戶在T時刻的交互意圖;然后,智能電視以隱 式輸出的方式主動提供與T時刻用戶意圖相關的系統交互服務。系統交互服務包括與用戶 意圖相關的提示信息和智能電視主動調整用戶當前的功能狀態,并以圖形、動畫、文字、顏 色等形式實現隱含信息的可視化,在此過程中無需用戶的主動干預。例如:"主動彈出音量 調節菜單"、"主動彈出頻道調節菜單"、"節目音量以一定幅度持續增大狀態"。
[0197] (3)可視化隱含信息指導下的主動顯式交互輸入。在可視化隱含信息的引導下,用 戶根據T+1時刻的系統服務界面信息,以具有特定語義的交互動作主動向電視系統發出交 互命令。
[0198] (4)交互任務的實現。在T+1時刻,將具有特定語義的交互動作與此刻的系統界面 交互信息相結合,以顯、隱信息融合的交互映射范式實現用戶的特定交互任務。特定交互場 景下交互任務(task of interaction,TI)構成交互任務集合TIS,S = (TIi,Tl2,…,TIn)。將 目標交互任務用一個特征向量TI描述。
[0199] TIi=(DGDM,E,A)i = l,2,---,n (11)
[0200] (11)公式中第一個特征向量DGDM表示動態手勢行為信息,第二個向量E表示通過 識別出的交互情景事件,第三個向量A表示感知到的用戶操作意圖。
[0201] DGDM= (ID,posture ,key) (12)
[0202] (12)式中,ID表示動態手勢唯一標識,posture表示動態手勢代表的語義,key代表 動態手勢的識別標志。
[0203] 本發明研究中,IHCI-smartTV系統存在6種用戶交互意圖,使用公式(9)、(10)可計 算出在CDL-DFCM模型收斂狀態下用戶意圖描述因子FIecmvelrgenee的值,如表2所示,CDL-DFCM 模型收斂狀態下用戶意圖各節點狀態值如表3所示。
[0208] 表3
[0209] 基于智能電視手勢交互上下文的顯隱信息融合隱式交互算法:
[0210]從用戶自身和智能電視出發,本發明通過對交互上下文的分析,利用⑶L-DFCM模 型獲得了隱含的交互線索,并且通過顯隱信息融合的隱式交互行為模型實現了用戶與智能 電視的智能、和諧、自然的交互。在此基礎上,本發明提出了基于智能電視手勢交互的動態 上下文顯隱信息融合的隱式交互算法(Explicit and Implicit Interaction algorithm, EIIA)〇
[0211]算法核心思路是:首先,根據用戶行為信息模型獲取用戶相關行為信息,根據行為 特征向量識別用戶顯式行為信息;同時檢測智能電視功能狀態,完成低層上下文信息的提 取。然后,根據CDL-DFCM模型處理低層動態上下文,獲取高層隱含交互信息實現交互情景事 件的識別與感知用戶操作意圖,并將隱含交互信息可視化。最后,用戶根據可視化隱含信息 的引導做出合理的顯式交互動作,完成具體交互任務。顯隱信息融合的隱式交互算法描述 如下:
[0212] Stepl.實時檢測智能電視功能狀態上下文、用戶顯式行為信息。
[0213] Step2.獲得動態上下文數據,根據多層次動態上下文模型,進行數據融合與特征 提取,并檢測低層上下文事件的狀態。
[0214] Step3.檢測與識別T時刻動態手勢的類型,根據動態手勢類型識別(DGRA)算法,獲 得T時刻用戶的動態手勢類型ID和key值。
[0215] Step4.初始化交互概念集合C。根據低層上下文事件的狀態,設置交互概念集合C 中U、S中各交互概念節點的初始值,檢測到的狀態事件對應的交互概念節點值置為1,否則 為0;集合E,A中各交互概念節點初始值設置為0。
[0216] St ep5 ·根據鄰接矩陣W和公式(5)獲得交互概念集合C在收斂狀態(即4 )下的 交互概念節點值。
[0217] Step6.根據公式(9)與(10)計算交互意圖集合中交互意圖Ix(x=l,2,···,n)的交 互意圖描述因子FIx的狀態值;與意圖描述因子集合FI中對應交互意圖的交互因子比較,若 FIx = FI_胃(如表2)則激活交互意圖^對應的交互情景事件和交互操作,否則返回 Stepl0
[0218] Step7.隱含信息的可視化。將T時刻激活的交互情景事件對應的功能菜單顯式在 智能電視界面最頂層,且計算機執行用戶交互意圖對應的交互操作。
[0219] Step8.檢測T+1時刻用戶行為,若檢測到用戶手勢動作,根據DGRA算法獲得T+1時 刻的用戶動態手勢類型ID和key值,執行step9;否則,智能電視保持當前的功能狀態,并循 環執行step8。
[0220] Step9.根據公式(12)計算T+1時刻向量DGDM,結合公式(11)計算交互任務特征向 量TI,若TI = TIxU= 1,2,…,6)(如表2),則計算機根據交互任務TIx完成對應的功能操作。
[0221]實驗結果與分析:
[0222]本發明以ICHI-smartTV為實驗平臺,設計了新的智能電視交互模式。本發明選擇 智能電視人機交互中的頻道、音量、手勢操作開關三類功能進行實驗,具體操作包括:頻道 上一個、頻道下一個、音量增大、音量減小、手勢操作打開、手勢操作關閉。本發明將未考慮 上下文的動態手勢識別方法(HCDF-H應用在ICHI-smartTV原型系統中作為對比實驗。
[0223]實驗結果如下:
[0224] 本發明選擇10位實驗人員,每位實驗人員根據表1的手勢-任務映射模型完成頻 道、音量、手勢操作開關三類功能。實驗要求實驗人員站立并位于智能電視前2.5米處以單 手完成手勢動作。操作過程以音量調節為例,當用戶想要增大音量,發出音量增大的相關手 勢動作,智能電視感知用戶意圖后彈出音量菜單,接著便以一定的幅度持續增大音量,當用 戶對當前的音量感到滿意時,發出停止音量命令,此時音量增大任務結束。在每次實驗中每 位實驗人員完成:(1)頻道1到10的遍歷增大調節,再完成從頻道10到1的減小調節;(2)從音 量30到60的遍歷增大、減小調節;(3)-次手勢操作打開和關閉功能。上一個頻道是指頻道 從1調至頻道10。每位實驗人員各做5次實驗。功能操作的平均準確率如圖9所示。根據實驗 人員手勢軌跡的圖像幀數的平均值來度量交互過程中完成每項操作手勢的平均移動距離, 每種電視功能操作的手勢移動距離如圖8所示。圖9為DGRA算法的動態手勢平均識別率。在 智能電視響應時間一致的情況下,統計兩種算法實現相同功能操作所需要的平均時間,其 中系統響應時間為2.38s,如圖10所示。
[0225] 實驗分析如下:
[0226] 實驗環境:一臺PC機,Intel (R)Xeon(R)CPU,2 · 67GHz,8G內存;視覺輸入設備為: Kinect傳感器。
[0227] 實驗結果分析:
[0228] 由圖9可知,與HCDF-H算法相比,本發明算法EIIA有更高的操作準確率。由圖10可 以看出,基于EIIA算法的智能電視手勢交互中用戶以更小的手勢移動距離就可以完成操作 任務,與HCDF-H算法相比完成相同的交互任務用戶手勢移動的距離減少約60%。本發明實 驗中,基于EIIA算法的頻道增大或減小操作中,用戶只需一個開始頻道調節命令和結束頻 道調節命令兩個手勢動作就可以完成試驗中9個頻道的遍歷調節。而基于HCDF-H算法則需 要9次手勢動作才能完成相同的頻道操作。同理,音量調節也是如此。由圖12可知,基于EIIA 算法的智能電視手勢交互在頻道操作、音量操作這種經常性操作的功能大大減少了用戶的 操作時間,而對于手勢動作打開、關閉這些不頻繁使用的功能則并沒有時間上的優勢。圖11 是從認知心理學角度,根據智能電視交互場景建立的用戶手勢操作的識別率,識別率均超 過91%,同時這些手勢動作是用戶習慣性的手勢動作,具有較低的認知負荷和操作負荷,滿 足了智能電視的交互需求。
[0229] 實驗算法分析:
[0230] EIIA算法在動態手勢識別算法DGRA算法基礎上結合智能電視交互上下文提出了 新的交互模式。首先,根據認知心理學建立智能電視交互用戶習慣性手勢動作行為模型;其 次,分析交互中用戶的行為信息和智能電視狀態信息上下文,利用CDL-DFCM模型感知用戶 的操作意圖;最后,通過顯隱信息融合的隱式交互模式完成交互任務。EIIA算法大大縮短了 用戶的操作時間和手勢移動距離,從而降低了用戶的操作負荷。而習慣性的手勢動作也幫 助用戶降低了智能電視手勢交互中的認知負荷,從而提高了用戶體驗。
[0231]上述技術方案只是本發明的一種實施方式,對于本領域內的技術人員而言,在本 發明公開了應用方法和原理的基礎上,很容易做出各種類型的改進或變形,而不僅限于本 發明上述【具體實施方式】所描述的方法,因此前面描述的方式只是優選的,而并不具有限制 性的意義。
【主權項】
1. 一種面向智能電視的隱式交互方法,其特征在于:所述方法包括:實時獲取用戶體態 行為信息,檢測用戶位置,并檢測與識別用戶手勢動作;同時檢測智能電視的功能狀態信 息,獲得低層次的顯式交互信息;將處理后的用戶體態行為信息與智能電視實時的功能狀 態信息相結合,建立基于用戶行為和智能電視狀態的多層次動態上下文推理模型,獲得高 層次的隱含交互信息;將隱含交互信息可視化,識別用戶在可視化隱含信息指導下完成的 手勢動作,建立顯隱信息融合的隱式交互行為模型,完成交互任務。2. 根據權利要求1所述的面向智能電視的隱式交互方法,其特征在于:所述用戶位置是 指用戶相對智能電視上攝像頭的水平距離、角度,檢測用戶位置具體如下: 通過Kinect獲取人體主要關節點的=維坐標數據,根據人體頭部節點和人體重屯、坐標 信息,確定人體相對智能電視的位置。3. 根據權利要求2所述的面向智能電視的隱式交互方法,其特征在于:所述檢測與識別 用戶手勢動作包括用戶手部靜態行為的識別和用戶手部動態行為的識別,具體如下: 基于Kinect實現手勢部位的檢測與分割,通過化enNI SDK獲取人手質屯、坐標,在人手 坐標領域內的=維空間提取出手的部位,再使用膚色模型分割方法對獲取的人手部位進行 處理,得到初步的人手圖像,對初步的人手圖像進行去噪、膨脹、腐蝕處理,得到最終的人手 圖像; 采用HCDF-H算法進行用戶手部靜態行為的識別; 用戶手部動態行為的識別。4. 根據權利要求3所述的面向智能電視的隱式交互方法,其特征在于:所述采用HCDF-H 算法進行用戶手部靜態行為的識別具體如下:首先標準化手勢圖像為32*32尺寸,并計算手 勢重屯、點到手勢最遠點作為主方向向量,沿主方向將手勢圖像分為8個子區域,求出子區域 像素點數量,生成手勢坐標點分布特征向量,再使用類-化USdod^g離與手勢模板庫中每 種手勢的對比,得出最終識別結果。5. 根據權利要求4所述的面向智能電視的隱式交互方法,其特征在于:所述用戶手部動 態行為的識別包括: Stepl.輸入手勢圖像帖,空間人手S維質屯、坐標,初始化動態手勢類型特征向量DGT; Step2.根據手勢質屯、坐標,W每連續T帖圖像計算一次連續T帖圖像的靜態手勢運動距 離d,并W連續T帖圖像更新一次d; Step3.若d<D,開始識別觸發動態手勢的靜態手勢Gesture_start,D為闊值; Step4 .若Gesture_sta;rt識別成功,獲取此時的靜態手勢質屯、點坐標S手勢并轉入 StepS; steps.進行動態手勢質屯、軌跡提取,并將軌跡質屯、點S維坐標存儲在data數組中; Step6.再次判斷連續T帖手勢運動距離d,若d<D則識別結束靜態手勢Gesture_end;計 算da1:a數組長度1 ength; Step7.若Gesture_end識別成功,獲取此時的靜態手勢質屯、坐標E; steps.若1日11旨*11〉20,根據觸發動態手勢的靜態手勢質屯、點5、結束動態手勢的靜態手 勢質屯、點E的坐標值,判斷動態手勢運動方向,否則,再次判斷d,若d〉D執行step9,否則返回 step8; Step9.判斷動態手勢類型,求出對應手勢ID,并修改對應動態手勢ID的k巧值為1,表示 動態手勢ID識別成功,輸出動態手勢類別ID和與ID對應的key值; SteplO. DGT恢復初始化。6.根據權利要求5所述的面向智能電視的隱式交互方法,其特征在于:所述建立基于用 戶行為和智能電視狀態的多層次動態上下文推理模型,獲得高層次的隱含交互信息是運樣 實現的: 將交互概念節點分為四類:用戶行為交互概念節點、設備環境上下文狀態信息交互概 念節點、交互情景事件節點、激發操作語義的交互概念節點集合; 交互概念節點集合C表示多層次動態上下文推理模型的節點集合,C=化,S,E,A),其中 U為用戶行為交互概念節點集合,S為設備環境上下文狀態信息交互概念節點集合,E為交互 情景事件節點集合,A為激發操作語義的交互概念節點集合; 集合U、S是已知狀態參量,E、A是未知參量;初始狀態時,根據當前時刻檢測到的初始狀 態值決定U、S中各個節點的概念值,若檢測到事件發生,則與之對應的交互概念節點值設置 為1,否則為〇;E、A中各個概念節點值初始化為0;當多層次動態上下文推理模型收斂到一個 穩定狀態時,獲得穩定狀態下各交互概念節點的值,基于多層次動態上下文推理模型的上 下文推理計算過程如下式:(5) (技) 其中,聲"是父互町刻的;IX忿但;寺是交互概念Cj在t時刻的值,Wij是Ci和Cj 的權重,表示相關節點間的因果聯系強度,根據交互節點之間邊的權值得到CDkDFCM的鄰 接矩陣W,W= {Wll,Wl2,…Wnn},f表示闊值函數,其作用是將交互概念的值映射到[0,1 ]區間, 將W反復作用于該矢量,C達到穩定的收斂狀態,即冷=-單1,(7) 均權值,入表示學習率因子,入=0.1, (8) Agri表示交互概念節點Cx的值在第t+1次迭代的變化量,4表示節點Cx在第t次的迭代 值; 交互概念集合別央射到感知空間上的交互意圖集合I,I = (Ii,12,…山。對C上任意交互 意圖Ix,其隸屬函數fc(Ci),i = l,2,…,n,其中Cl表示交互概念空間C中的第i個交互概念節 點,山(Cl)在區間[0,1]中取值,iix(Ci)的值反映Cl隸屬于Ix的隸屬程度,值為0表示Cl不屬于 交互意圖Ix, Ix表示如下:餅 (10)。 在感知空間的交互意圖集合I中,交互意圖之間在時空上存在互斥關系;根據公式(10) 計算用戶育図巧巧革FT-.7. 根據權利要求6所述的面向智能電視的隱式交互方法,其特征在于:所述建立顯隱信 息融合的隱式交互行為模型,完成交互任務包括:51. 實時檢測智能電視功能狀態上下文、用戶顯式行為信息;52. 獲得動態上下文數據,根據多層次動態上下文模型,進行數據融合與特征提取,并 檢測低層上下文事件的狀態;53. 檢測與識別T時刻動態手勢的類型,根據動態手勢類型識別算法,獲得T時刻用戶的 動態手勢類型ID和k巧值;54. 初始化交互概念集合C。,根據低層上下文事件的狀態,設置交互概念集合C中U、S中 各交互概念節點的初始值,檢測到的狀態事件對應的交互概念節點值置為1,否則為0;集合 E,A中各交互概念節點初始值設置為0;55. 根據鄰接矩陣W和公式巧)獲得交互概念集合C在收斂狀態下的交互概念節點值;56. 根據公式(9)與(10)計算交互意圖集合中交互意圖IxU = I,2,…,n)的交互意圖描 述因子FIx的狀態值;與意圖描述因子集合FI中對應交互意圖的交互因子比較,若FIx = Fr°nvetgenee,則激活交互意圖Ix對應的交互情景事件和交互操作,否則返回SI;57. 將T時刻激活的交互情景事件對應的功能菜單顯示在智能電視界面最頂層,且計算 機執行用戶交互意圖對應的交互操作;58. 檢測T+1時刻用戶行為,若檢測到用戶手勢動作,根據DGRA算法獲得T+1時刻的用戶 動態手勢類型ID和key值,然后執行S9;否則,智能電視保持當前的功能狀態,并循環執行 S8;59. 計算T+1時刻向量DGDM,計算交互任務特征向量TI,若TI = TIx,X = 1,2,…,6,則計算 機根據交互任務TIx完成對應的功能操作。8. 根據權利要求7所述的面向智能電視的隱式交互方法,其特征在于:所述S9中的計算 T+1時刻向量DGDM是利用公式(12)計算得到的: DGDM= (ID,posture ,key) (12) 公式(12)中,ID表示動態手勢唯一標識,pos化re表示動態手勢代表的語義,key代表動 態手勢的識別標志。9. 根據權利要求8所述的面向智能電視的隱式交互方法,其特征在于:所述S9中的計算 交互任務特征向量TI是運樣實現的: 在T+1時刻,將具有特定語義的交互動作與此刻的系統界面交互信息相結合,W顯、隱 信息融合的交互映射范式實現用戶的特定交互任務,特定交互場景下交互任務TI構成交互 任務集合1'15,8=(1'11,1'12,-,,1'1。),用公式(11)交互任務特征向量1'1 TIi=化 GDM,E,A)i = l,2,...,n (11) 公式(11)中第一個特征向量DGDM表示動態手勢行為信息,第二個向量E表示通過識別 出的交互情景事件,第=個向量A表示感知到的用戶操作意圖。
【文檔編號】H04N21/422GK105915987SQ201610237422
【公開日】2016年8月31日
【申請日】2016年4月15日
【發明人】馮志全, 徐治鵬
【申請人】濟南大學