使用手勢控制媒體回放的系統和方法
【專利摘要】通過輸入的手勢來控制回放設備對媒體的回放。每個用戶手勢首先能夠被分解成基礎手勢,基礎手勢指示特定的回放模式。手勢然后被分解成包含修飾符命令的第二部分,修飾符命令確定根據基礎命令所確定的回放模式的速度。然后使用所指定的回放模式、以由修飾符命令所確定的速度來播放媒體內容。
【專利說明】
使用手勢控制媒體回放的系統和方法
[0001] 相關申請的引用
[0002] 本申請要求享有于2014年1月7日提交的序列號為61/924,647的美國臨時申請和 于2014年3月31日提交的序列號為61/972,954的美國臨時申請的權益,通過引用將其全部 內容并入本文。
技術領域
[0003] 本公開一般涉及控制媒體的回放,具體涉及使用手勢來控制媒體的回放。
【背景技術】
[0004] 在諸如視頻或音頻這樣的媒體的控制中,用戶典型地使用遙控器或者按鈕來控制 這樣的媒體的回放。例如,用戶能夠按下"播放"按鈕以使媒體由諸如計算機、接收器、MP3播 放器、電話、平板等回放設備回放,以便以實時播放模式來播放媒體。當用戶想要向前跳過 媒體的一部分時,用戶能夠激活"快進"按鈕,以使回放設備以比實時更快的播放模式使媒 體向前。類似地,用戶能夠激活"快退按鈕",以使回放設備以比實時更快的播放模式使媒體 倒退。
[0005] 為了脫離對遙控器的使用或者對回放設備上的按鈕的使用,設備能夠被實現為使 用識別手勢來控制設備的回放。也就是說,手勢能夠由設備的用戶接口部分光學地識別,其 中手勢由設備解釋以控制媒體回放。由于回放模式以及能夠被用于這樣的模式的速度的多 樣性,設備制造商可能將需要用戶記住許多手勢命令以便控制媒體的回放。
【發明內容】
[0006] 公開了一種使用手勢來控制回放設備的媒體的回放的方法和系統。首先將用戶手 勢分解成基礎手勢,基礎手勢指示特定的回放模式。然后將手勢分解成包含修飾符命令的 第二部分,修飾符命令修改根據基礎命令所確定的回放模式。然后,通過修飾符命令來影響 回放模式,其中,例如,回放模式的速度能夠由修飾符命令來確定。
【附圖說明】
[0007] 根據下面結合附圖閱讀的優選實施例的詳細描述,本公開的這些和其他方面、特 征和優點將被描述或者變得顯而易見。
[0008] 遍及所有視圖,相同的標號表示相同的元件,在附圖中:
[0009] 圖1是根據本公開的一方面的手勢定點和識別的系統的示例性例示;
[0010] 圖2是根據本公開的一方面的手勢識別的示例性方法的流程圖;
[0011] 圖3是根據本公開的一方面的手勢定點和識別的示例性方法的流程圖;
[0012] 圖4例示從由用戶執行的分割軌跡"0"提取的狀態轉變點的示例;
[0013] 圖5是根據本公開的一方面的使用隱馬爾可夫模型(Hidden Markov Model,HMM) 和幾何特征分布來訓練手勢識別系統的示例性方法的流程圖;
[0014] 圖6是根據本公開的一方面的使手勢識別系統適配于特定用戶的示例性實施例的 流程圖;
[0015] 圖7是根據本公開的一方面的示例性回放設備的框圖;
[0016] 圖8是根據本公開的一方面的確定被用于控制媒體回放的輸入手勢的示例性實施 例的流程圖;
[0017] 圖9是根據本公開的一方面的示出用于控制媒體回放的手臂和手用戶輸入手勢的 表示的用戶接口的表示;
[0018] 圖10是根據本公開的一方面的示出用于控制媒體回放的手臂和手用戶輸入手勢 的用戶接口的表示;以及
[0019] 圖11是根據本公開的一方面的示出用于控制媒體回放的手臂和手用戶輸入手勢 的用戶接口的表示。
[0020] 應當理解,附圖是用于例示公開的構思的目的,而未必是用于例示本公開的唯一 可能配置。
【具體實施方式】
[0021] 應當理解,附圖中所示的元件能夠以各種形式的硬件、軟件或者其組合來實現。優 選地,這些元件在一個或多個經適當編程的通用設備上以硬件和軟件的組合來實現,通用 設備可以包括處理器、存儲器和輸入/輸出接口。
[0022]本描述例示本公開的原理。因此,應當意識到,雖然未明確地在本文中描述或示 出,但是本領域中的那些技術人員將能夠設計出實施本公開的原理并且包括在本公開的范 圍內的各種布置方式。
[0023]在本文中所陳述的所有示例和條件語言旨在幫助讀者理解本公開的原理以及由 發明人貢獻以促進本領域的構思的教學目的,而不應被解釋為局限于這樣具體陳述的示例 和條件。
[0024] 而且,在本文中陳述本公開的原理、方面和實施例以及其具體示例的所有陳述旨 在包括其結構和功能的等同物。另外,這樣的等同物旨在包括當前已知的等同物以及在未 來開發的等同物,即所開發的執行相同功能的任何元件而不管結構如何。
[0025] 因此,例如,本領域的那些技術人員將意識到,在本文中所呈現的框圖表示實施本 公開的原理的例示性電路系統的概念視圖。類似地,應當意識到,任何流程圖、流程圖表、狀 態轉變圖、偽代碼等均表示可以真實地表示在計算機可讀介質中并且因此由計算機或處理 器執行的各種處理(無論是否明確地示出這樣的計算機或處理器)。
[0026] 附圖中所示出的各種元件的功能可以通過使用專用硬件以及結合適當軟件的能 夠執行軟件的硬件來提供。當由處理器提供時,功能可以由單個專用處理器、單個共享處理 器或者多個單獨的處理器(它們中一些可以被共享)來提供。而且,術語"處理器"或"控制 器"的明確使用不應當被解釋成排他性地指能夠執行軟件的硬件,并且可以暗含地包括但 不局限于數字信號處理器("DSP")硬件、用于存儲軟件的只讀存儲器("ROM")、隨機存取存 儲器("RAM")以及非易失性存儲器。
[0027] 在相關的權利要求書中,被表述為用于執行指定功能的裝置的任何元件旨在包括 執行該功能的任何方法,包括,例如a)執行該功能的電路元件的組合,或者b)任何形式的軟 件(因此包括固件、微代碼等),該軟件與執行該軟件以執行該功能的適當的電路系統相結 合。由這樣的權利要求所限定的本公開在于如下事實:由所陳述的各種裝置所提供的功能 性以權利要求所要求的方式組合和結合在一起。因此認為能夠提供那些功能性的任何裝置 等同于在本文中所示出的那些。
[0028] 本公開提供實現各種手勢識別系統的示例性實施例,但是能夠使用用于識別手勢 的其他實現方式。還提供采用用戶的手的軌跡的隱馬爾可夫模型(HMM)和幾何特征分布的 系統和方法來實現自適應手勢識別。
[0029] 手勢識別由于其在符號語言識別、多模態人機交互、虛擬現實和機器人控制中的 潛在使用而受到越來越多的關注。大多數手勢識別方法將所觀察到的輸入圖像序列與訓練 樣本或模型相匹配。輸入序列被分類成樣本或模型與其最佳匹配的手勢分類。動態時間規 整(DTW)、連續動態編程(CDP)、隱馬爾可夫模型(HMM)以及條件隨機場(CRF)是手勢分類器 的示例。
[0030] HMM匹配是用于手勢識別的使用最廣泛的技術。然而,這種方法無法利用已經被證 明對于手勢識別很有效的手的軌跡的幾何信息。在利用手軌跡的先前方法中,手軌跡被看 作整體,提取影響軌跡的形狀的一些幾何特征(諸如X和y軸上的平均的手的位置、所觀察到 的手的X和y位置的偏斜度等)作為貝葉斯分類器的輸入以便識別。然而,該方法無法精確地 描述手的手勢。
[0031] 對于聯機手勢識別,手勢定點(spotting),即確定手勢的開始點和結束點,是非常 重要但困難的任務。存在兩種用于手勢定點的方法:直接方法和間接方法。在直接方法中, 首先計算諸如速度、加速度和軌跡曲率這樣的運動參數,并且找到這些參數的突變以識別 候選手勢邊界。然而,這些方法不夠準確。間接方法結合手勢定點和手勢識別。對于輸入序 列,間接方法找到在與訓練樣本或模型相匹配時給出高識別得分的間隔,從而同時完成手 勢的時域分割和識別。然而,這些方法通常是耗時的,并且也可能發生一些手勢的錯誤檢 測。一種常規的方法提出使用剪枝(pruning)策略來提高系統的準確度和速度。然而,該方 法簡單地基于手軌跡的單個點與單個模型狀態之間的兼容性進行剪枝。如果當前觀察的可 能性低于閾值,則匹配假設(match hypothesis)將被剪枝。基于這種簡單策略的剪枝分類 器可能易于過擬合訓練數據。
[0032] 而且,不同用戶的手勢通常在速度、開始點和結束點、轉折點的角度等方面不同。 因此,學習如何調整分類器以使識別系統適配于特定用戶是非常有意義的。
[0033] 先前,只有少數研究者研究自適應手勢識別。一種技術通過用新的樣本重新訓練 HMM模型來實現手勢系統的適配。然而,該方法損失先前樣本的信息,并且對噪聲數據敏感。 另一種技術使用Baum-Welch方法的聯機版本來實現手勢分類器的聯機學習和更新,并且開 發了一種能夠聯機學習簡單手勢的系統。然而,該方法的更新速度非常慢。
[0034] 雖然僅存在關于自適應手勢識別的少量研究,但是已經公開了很多用于自適應語 音識別的方法。一種這樣的研究通過最大后驗(maximum a posteriori,MAP)參數估計來更 新HMM模型。通過使用參數的先驗分布,需要較少的新數據來獲得強健的參數估計和更新。 該方法的缺點是新的樣本僅能夠更新其對應分類的HMM模型,從而降低了更新速度。最大似 然線性回歸(MLLR)被廣泛地用于自適應語音識別。其使用新的樣本來估計模型參數的一組 線性變換,使得模型能夠在變換之后更好地匹配新的樣本。所有模型參數能夠共享全局線 性變換,或者聚類成不同的分組,其中每組參數共享相同的線性變換。MLLR能夠克服MAP的 缺點,并且提高模型更新速度。
[0035]對于輸入序列,所檢測到的感興趣的點與HMM模型相匹配,并且通過Viterbi算法 或函數找到HMM模型的狀態改變的點。這些點稱作狀態轉變點。基于狀態轉變點與手勢的開 始點的相對位置,從手勢模型提取幾何特征。這些幾何特征比傳統方法更精確地描述手的 手勢。狀態轉變點通常對應于軌跡開始改變的點,并且與將手軌跡作為整體并且基于手軌 跡的統計特性來提取幾何特征的傳統方法相比,基于這些點與開始點的相對位置來提取特 征能夠非常好地反映手勢的形狀的特性。
[0036] 此外,在將幾何特征的提取合并到HMM模型的匹配中時,容易利用所提取的幾何特 征進行剪枝以及幫助識別手勢的類型。例如,如果在狀態轉變點處所提取的幾何特征的可 能性低于閾值,則該匹配假設將被剪枝。即,如果針對某個幀,確定將該幀匹配到HMM模型的 任何狀態的成本太高,則本公開的系統和方法斷定給定的模型沒有良好地匹配輸入序列, 然后其將停止將隨后的幀匹配到狀態。
[0037] 用于剪枝的幾何特征的合并比僅使用單個觀察更準確和強健。當基于HMM模型以 及手軌跡與手勢分類之間的幾何特征分布所計算出的模型匹配得分大于閾值時,手勢被分 割和識別。運動參數的突變的檢測、HMM模型匹配以及軌跡幾何特征提取的這種組合勝過現 有的手勢定點方法。
[0038] 現在參考附圖,在圖1中示出根據本公開的實施例的示例性系統組件100。可以提 供圖像捕獲設備102來捕獲執行手勢的用戶的圖像。應當意識到,圖像捕獲設備可以是任何 已知的圖像捕獲設備,并且可以包括數字靜物相機、數字錄像機、網絡攝像頭等。所捕獲的 圖像輸入到處理設備104,例如計算機。計算機在具有諸如一個或多個中央處理單元(CPU)、 例如隨機存取存儲器(RAM)和/或只讀存儲器(ROM)這樣的存儲器106以及例如鍵盤、光標控 制設備(例如鼠標或控制桿)和顯示設備這樣的輸入/輸出(I/O)用戶接口 108等硬件的各種 已知的計算機平臺的任何上實現。計算機平臺還包括操作系統和微指令代碼。在本文中所 描述的各種處理和功能可以是經由操作系統執行的微指令代碼的一部分或者軟件應用程 序的一部分(或者其組合)。在一個實施例中,軟件應用程序有形地實施在程序存儲設備上, 其可以被上傳到諸如處理設備104這樣的任何適當的機器并執行。另外,各種其他外圍設備 可以通過諸如并行端口、串行端口或者通用串行總線(USB)等各種接口和總線結構連接到 計算機平臺。其他外圍設備可以包括另外的存儲設備110和打印機(未示出)。
[0039] 軟件程序包括:存儲在存儲器106中的手勢識別模塊112,其也稱作手勢識別器,用 于識別所捕獲圖像序列中的用戶所執行的手勢。手勢識別模塊112包括:對象檢測器和跟蹤 器114,其檢測例如用戶的手這樣的感興趣的對象,并且通過所捕獲圖像的序列來跟蹤感興 趣的對象。設置模型匹配器116以將被檢測和跟蹤的對象匹配到存儲在HMM模型數據庫118 中的至少一個HMM模型。每個手勢類型具有與其相關聯的HMM模型。將輸入序列與對應于不 同手勢類型的所有HMM模型相匹配,以找到哪個手勢類型最佳地匹配該輸入序列。例如,給 定作為來自所捕獲視頻的每個幀的特征序列的輸入序列以及作為狀態序列的手勢模型,模 型匹配器116找到每個幀與每個狀態之間的對應關系。模型匹配器116可以采用Viterbi算 法或函數、前向算法或函數、前向后向算法或函數等來實現匹配。
[0040] 手勢識別模塊112(在圖7中也標記為722)還包括:轉變檢測器120,用于檢測HMM模 型的狀態改變的點。這些點被稱作狀態轉變點,并且通過由轉變檢測器120采用的尤其是 Viterbi算法或函數找到或檢測到。由特征提取器122基于狀態轉變點與手勢的開始點之間 的相對位置提取幾何特征。
[0041]手勢識別模塊112還包括:剪枝算法或函數124,其也被稱作剪枝器,用來減少用以 找到匹配的HMM模型所執行的計算的數量,從而加速手勢定點和檢測處理。例如,給定作為 來自所捕獲視頻的每個幀的特征序列的輸入序列以及作為狀態序列的手勢模型,應該找到 每個幀與每個狀態之間的對應關系。然而,如果針對某個幀,剪枝算法或函數124發現將該 幀匹配到任何狀態的成本太高,則剪枝算法或函數124將停止將隨后的幀匹配到狀態,并且 斷定給定的模型沒有良好地匹配輸入序列。
[0042]另外,手勢識別模塊112包括:最大似然線性回歸(MLLR)函數,用來適配HMM模型, 并且針對每個手勢分類,遞增地學習特定用戶的幾何特征分布。通過同時更新HMM模型和幾 何特征分布,手勢識別系統能夠快速地適配于用戶。
[0043] 圖2是根據本公開的一方面的手勢識別的示例性方法的流程圖。初始地,在步驟 202,處理設備104獲取由圖像捕獲設備102所捕獲的輸入圖像的序列。手勢識別模塊112然 后在步驟204使用HMM模型和幾何特征來執行手勢識別。步驟204將進一步在下面參照圖3至 圖4來描述。在步驟206中,手勢識別模塊112將適配特定用戶的每個手勢分類的HMM模型和 幾何特征分布。步驟206將進一步在下面參照圖5至圖6來描述。
[0044] 圖3是根據本公開的一方面的手勢定點和識別的示例性方法的流程圖。
[0045] 候選開始點檢測
[0046] 初始地,在步驟302中,由圖像捕獲設備102捕獲圖像的輸入序列。在步驟304中,對 象檢測器和跟蹤器114檢測輸入序列中的候選開始點并且遍及序列地跟蹤候選開始點。使 用諸如手位置和速度這樣的特征來表示輸入序列的每個幀中的所檢測到的手。這些特征通 過用戶的面部的位置和寬度來規格化。
[0047] 如同直接手勢定點方法,候選開始點被檢測為輸入序列中的運動參數的突變。具 有異常速度或嚴重的軌跡曲率的點被檢測為候選開始點。使用該方法,通常存在許多錯誤 的正檢測(positive detection)。使用這些點作為手勢邊界的直接手勢定點方法不是非常 準確和強健。本公開的方法使用不同的策略。手軌跡被匹配到從這些候選開始點開始的每 個手勢分類的HMM模型,因此該方法能夠結合直接手勢定點方法和間接手勢定點方法的優 點。
[0048] HMM模型匹配
[0049] 在步驟306中,輸入圖像的序列經由模型匹配器116匹配到HMM模型118,如下面將 描述的。
[0050] 設〇={(^,〇2,-_}是特征矢量的連續序列,其中^是從輸入圖像的輸入幀」提取的 特征矢量。使用諸如手位置和速度這樣的特征來表示在每個幀中所檢測到的手。這些特征 通過執行手勢的用戶的面部的位置和寬度來規格化。設為左右HMM模型,其 具有手勢g的m+Ι個狀態。每個狀態與給出每個觀察矢量Qj的可能性的高斯觀察密度相 關聯。將使用Baum-Welch算法或函數來訓練HMM模型。每個模型的狀態的數量根據軌跡長度 來指定,如同使用Baum-Welch算法或函數通常所做的那樣。轉變概率被固定以簡化學習任 務,亦即,每次轉變時,模型同等可能地移動到下一個狀態或者保持在相同的狀態。
[0051] 用ak>1表示從狀態k轉變到狀態i的轉變概率,并且用表示當與模型狀態 相匹配時的特征矢量(^的可能性。設C為使用在1.1節中所描述的方法所檢測到的候選 開始點集。Mf是特殊狀態,其中
[0052]
Cl)
[0053] 因此,HMM模型匹配僅在這些候選開始點處開始。用V(i,j)表示前j個輸入特征矢 量(Q:,…,Q』)與前i+Ι個模型狀態Pf產相匹配時的最大概率。從而具有
[0054]
[0055] 設(Qi,…,QJ與之間的最大匹配得分SH(i,j)是V(i,j)的對數:
[0056] Sh(i, j) = log V(i, j). (3)
[0057] 基于等式(2)中的特性,使用動態編程(DP)來高效地計算最大匹配得分。使用以 (i,j)為索引的表格來實現DP。當從輸入幀提取新的特征矢量^時,計算與幀η相對應的表 格的片段,并且在單元(i,n)處存儲兩條信息 :1)311(1,11)(1 = 0,一,111)的值;以及2)被用于 使等式(2)最小化的前導(predecessor)k,其中,ShQ,n)是模型與在幀i處結束的輸入序列 之間的最優匹配的得分,并且k是在最優匹配中前一幀所對應的狀態。S H(m,n)對應于模型 與在幀η處結束的輸入序列之間的最優對齊。最優動態編程(DP)路徑(亦即,HMM模型的最優 狀態序列)能夠使用回溯來獲得。現有的間接法通常使用S H(m,n)來完成手勢定點,亦即,如 果SH(m,n)大于閾值,則手勢結束點被檢測為幀n,并且手勢開始點能夠通過回溯最優DP路 徑來找到。
[0058] 為了提高系統的速度和準確度,常規的系統使用剪枝策略,其中,它們基于當前觀 察的可能性進行剪枝:如果$ 4》,其中i(i)是模型狀態i的閾值,并且根據訓練數 據而被學習到,則單元(i,j)將被剪枝掉,并且經過它的所有路徑都將被拒絕。然而,這種簡 單的剪枝策略不夠準確。
[0059] 幾何特征提取
[0060] 在本公開的方法中,將幾何特征的提取合并到HMM模型匹配過程中。對于輸入序 列,HMM模型的狀態序列在步驟308中經由轉變檢測器120來確定。檢測HMM的狀態改變的點。 圖4給出從分割軌跡"0"提取的示例性狀態轉變點的一些示例,軌跡由用戶執行并且由圖像 捕獲設備102捕獲。黑色點是狀態轉變點。可以看出,對于所有軌跡,狀態轉變點的位置是類 似的,因此,如下面將描述的那樣,在步驟310中經由特征提取器122基于狀態轉變點與手勢 的開始點的相對位置來提取幾何特征。
[0061] 將手勢的開始點表示為(XQ,yQ),在轉變點(Xt,yt)處所提取的幾何特征包括:^- x〇、yt-yo矛I
這些簡單的特征能夠良好地描述手軌跡的幾何信息。
[0062] 對于每個手勢分類,使用與其相關聯的HMM模型來提取其訓練樣本的幾何特征。假 設幾何特征服從高斯分布。從訓練樣本學習幾何特征的分布。然后,每個手勢分類與HMM模 型以及其幾何特征分布相關聯。將手勢g的幾何特征分布表示為
ζ中!11與仏 的狀態數量有關,并且#是在ΗΜΜ模型的狀態從i-Ι改變成i的點處所提取的幾何特征的分 布。因為幾何特征的提取合并到HMM模型匹配過程中,所有容易利用幾何特征進行剪枝。例 如,如果幀F是狀態轉變幀,則基于幀F來提取幾何特征。如果所提取的幾何特征的概率低于 閾值,則該匹配將被剪枝掉,亦即,模型匹配器116將停止將隨后的幀匹配到模型的狀態,并 且將選擇至少一個第二手勢模型進行匹配。現在將參照下面的等式(4)來描述剪枝過程。
[0063] 在步驟312中,如果滿足下面的條件,則剪枝函數或者剪枝器124將剪枝掉單元(i, j):
[0064]
(寺》其中,pre(i)是 HMM模型匹配期間狀態i的前導,?是在點j處所提取的幾何特征,t(i)是從訓練樣本學習的 閾值,并且!丨〇和τ⑴如在1.2節中那樣地定義。
[0065] 在步驟314中,(Gh,…,Qn)與
之間的總匹配得分由手勢識別模塊112 計算如下:
[0066]
[0067] 其中,α是系數,SH(m,n)是HMM匹配得分,并且Gj(i)是HMM狀態從i-Ι改變成i的點處 所提取的幾何特征。如同間接方法那樣地完成手勢的時域分割,亦即,如果S(m,n)大于閾 值,則如同在步驟216中那樣,將手勢結束點檢測為幀n,并且如同在步驟218中一樣,手勢開 始點能夠通過回溯最優DP路徑而找到。通過使用表達式(4)和等式(5),方法能夠組合HMM和 手軌跡的幾何特征用于手勢定點和識別,從而提高系統的準確度。
[0068] 在另一個實施例中,提供采用隱馬爾可夫模型(HMM)和幾何特征分布完成自適應 手勢識別的系統和方法。本公開的系統和方法組合HMM模型和用戶的手軌跡的幾何特征用 于手勢識別。對于輸入序列,跟蹤所檢測到的感興趣的對象(例如手),并且將其與HMM模型 相匹配。通過Vi terb i算法或函數、前向算法或函數、前向后向算法或函數等找到HMM模型的 狀態改變的點。這些點被稱作狀態轉變點。基于狀態轉變點與手勢的開始點的相對位置,提 取幾何特征。給定適配數據(亦即,特定用戶執行的手勢),使用最大似然線性回歸(MLLR)方 法來適配HMM模型,并且遞增地學習特定用戶的每個手勢分類的幾何特征分布。通過同時更 新HMM模型和幾何特征分布,手勢識別系統能夠快速地適配于特定用戶。
[0069] 組合HMM和軌跡幾何特征的手勢識別
[0070] 參照圖5,例示根據本公開的一方面的使用隱馬爾可夫模型(HMM)和幾何特征分布 來訓練手勢識別系統的示例性方法的流程圖。
[0071] 初始地,在步驟502中,由圖像捕獲設備102獲取或捕獲圖像的輸入序列。在步驟 504中,對象檢測器和跟蹤器114檢測輸入序列中的感興趣的對象(例如用戶的手),并且遍 及序列地跟蹤對象。使用諸如手位置和速度這樣的特征來表示在輸入序列的每個幀中所檢 測到的手。這些特征通過用戶的面部的位置和寬度來規格化。給定圖像的幀上的面部中心 位置(xf,yf)、面部的寬度W以及手位置(xh,yh),經規格化的手位置是xhn=(xh-xf )/w,yhn =(yh-yf) /w,亦即,將絕對坐標改變成相對于面部中心的相對坐標。
[0072]在步驟506中,使用具有高斯觀察密度的左右HMM模型,將所檢測到的手匹配到手 勢模型,并且確定手勢分類。例如,給定作為來自所捕獲視頻的每個幀的特征序列的輸入序 列和作為狀態序列的手勢模型,模型匹配器116經由例如Viterbi算法或函數、前向算法或 函數、前向后向算法或函數,找到每個幀與每個狀態之間的對應關系。
[0073]接下來,在步驟508中,對于輸入序列,由轉變檢測器120使用Viterbi算法或函數 來檢測所匹配的HMM模型的狀態序列。檢測HMM模型的狀態改變的點。在步驟510中,經由特 征提取器122基于狀態轉變點與手勢的開始點的相對位置來提取幾何特征。將手勢的開始 點表示為(x〇,y〇),在轉變點(xt,yt)處所提取的幾何特征包括:xt-x〇、yt-y〇和
給定輸入序列,在所有狀態轉變點所所提取的特征形成輸入序列的幾何特征。這些簡單的 特征能夠良好地描述手軌跡的幾何信息。
[0074] 對于每個手勢分類,訓練左右HMM模型,并且使用該HMM模型來提取其訓練樣本的 幾何特征。假設幾何特征服從高斯分布。幾何特征的分布從訓練樣本學習。然后,在步驟512 中,每個手勢分類與HMM模型以及其幾何特征分布相關聯,并且在步驟514存儲相關聯的HMM 模型和幾何特征分布。
[0075] 分別將與第i個手勢分類相關聯的HMM模型和幾何特征分布表示為AjPqi。為了將 分割的手軌跡〇= {(^,(^,…加}(亦即,被檢測和跟蹤的對象)與第i個手勢分類相匹配,使用 Μ提取幾何特征6=吣,62,"心}。匹配得分由手勢識別模塊112計算如下:
[0076] S = a X log ρ(〇 | λ?) + ( 1-α) X log qi(G) (6)
[0077] 其中,α是系數,并且p(〇|M)是給定HMM模型~的手軌跡〇的概率。p(〇|M)能夠使用 前向后向算法或函數來計算。輸入的手軌跡將被分類成匹配得分最高的手勢分類。因此,使 用等式(6),本公開的系統和方法能夠組合HMM模型和用戶的手軌跡(亦即,被檢測和跟蹤的 對象)的幾何特征用于手勢識別。
[0078]手勢識別的適配
[0079] 圖6是根據本公開的一方面的用于將手勢識別系統適配于特定用戶的示例性方法 的流程圖。給定適配數據(亦即,特定用戶執行的手勢),本公開的系統和方法采用最大似然 線性回歸(MLLR)函數來適配HMM模型并且遞增地學習每個手勢分類的幾何特征分布。
[0080] 初始地,在步驟602中,由圖像捕獲設備102捕獲圖像的輸入序列。在步驟604中,對 象檢測器和跟蹤器114檢測輸入序列中的感興趣的對象,并且遍及序列地跟蹤對象。在步驟 606中,使用具有高斯觀察密度的左右HMM模型對手勢分類進行建模。在步驟608中,檢索被 關聯到所確定的手勢分類的幾何特征分布。
[0081 ]接下來,在步驟610中,使用最大似然線性回歸(MLLR)函數針對特定用戶來適配 HMM模型。最大似然線性回歸(MLLR)被廣泛地用于自適應語音識別。其使用新的樣本來估計 模型參數的一組線性變換,使得模型能夠在變換之后更好地匹配新的樣本。在標準MLLR方 法中,根據下式來更新高斯密度的平均矢量:
[0082]
[0083]其中,W是nX(n+l)矩陣(并且η是觀察特征矢量的維度)并且ξ是經擴展的平均矢 量:ξΤ=[1,μL,…,μη]。假設適配數據0是一系列的T個觀察:0 = 〇1···〇τ。為了計算等式⑴中的 W,將被最大化的目標函數是生成適配數據的可能性:
[0084]
[0085] 其中,Θ是生成〇的可能狀態序列,λ是模型參數的集合。通過最大化輔助函數
[0086]
[0087] 其中,λ是模型參數的當前集合,并且I是模型參數的經重新估計的集合,等式(8) 中的目標函數也被最大化。關于W最大化等式(9)能夠使用期望最大化(ΕΜ)算法或函數來求 解。
[0088] 然后,在步驟612中,系統通過在預定數量的適配樣本上重新估計幾何特征分布的 平均和協方差矩陣,來遞增地學習用戶的幾何特征分布。將手勢g的當前幾何特征分布表示
其中If是在HMM模型的狀態從i-Ι改變成i的點處所提取的幾何特征 的分布。假設if的平均和協方差矩陣分別表示為續和綠:。給定手勢g的適配數據,從該數據 提取幾何特征,并且使在狀態從i-Ι改變成i的適配數據的點處所提取的幾何特征形成集合 X={X1,…Xk},其中,^是從手勢g的第i個適配樣本提取的特征,并且k是手勢g的適配樣本 的數量。然后,如下那樣地更新幾何特征分布:
[0089]
[0090]其中分別是if的經重新估計的平均和協方差矩陣。
[0091]通過同時更新HMM模型和幾何特征分布,手勢識別系統能夠快速地適配于用戶。然 后,在步驟614中,針對特定用戶,在存儲設備110中存儲經適配的HMM模型和所學習的幾何 特征分布。
[0092]已經描述了用于手勢識別的系統和方法。使用手勢模型(例如HMM模型)和幾何特 征分布來執行手勢識別。基于適配數據(亦即,特定用戶執行的手勢),HMM模型和幾何特征 分布兩者都被更新。以這種方式,系統能夠適配于特定用戶。
[0093]在圖7中所示的回放設備700中,經由輸入信號接收器702接收圖像信息以及用于 購買項目的對應信息。輸入信號接收器702能夠是被用于對通過若干可能的網絡(包括用無 線電、纜線、衛星、以太網、光纖和電話線網絡)之一提供的信號進行接收、解調和解碼的若 干已知的接收器電路之一。所期望的輸入信號能夠在輸入信號接收器702中基于通過控制 接口(未示出)提供的用戶輸入進行選擇和檢索。經解碼的輸出信號提供給輸入流處理器 704。輸入流處理器704執行最終的信號選擇和處理,并且包括針對內容流將視頻內容與音 頻內容分離。音頻內容提供給音頻處理器706,以便從諸如壓縮數字信號這樣的接收格式轉 換成模擬波形信號。模擬波形信號提供給音頻接口 708,并且進一步提供給顯示設備或者音 頻放大器(未示出)。替代地,音頻接口 708能夠使用高清晰度多媒體接口(HDMI)纜線或者諸 如經由索尼/飛利浦數字互連格式(sroiF)這樣的替代的音頻接口,將數字信號提供給音頻 輸出設備或顯示設備。音頻處理器706還執行任何必要的轉換以便存儲音頻信號。
[0094]來自輸入流處理器704的視頻輸出提供給視頻處理器710。視頻信號能夠是若干格 式中的一種。視頻處理器710基于輸入信號格式在必要時提供視頻內容的轉換。視頻處理器 710還執行任何必要的轉換以便存儲視頻信號。
[0095]存儲設備712存儲在輸入處所接收的音頻和視頻內容。存儲設備712允許在控制器 714的控制下并且還基于從用戶接口 716接收到的命令(例如,諸如下一個項目、下一頁、縮 放、快進(FF)回放模式和倒帶(Rew)回放模式這樣的導航指令),對內容進行稍后檢索和回 放。存儲設備712能夠是硬盤驅動器、諸如靜態隨機存取存儲器或者動態隨機存取存儲器這 樣的一個或多個大容量集成電子存儲器,或者能夠是諸如壓縮盤驅動器或者數字視頻光盤 驅動器這樣的可交換光盤存儲設備。在一個實施例中,存儲設備712能夠在外部而不存在于 系統中。
[0096]來自視頻處理器710(源自輸入或存儲設備712)的經轉換的視頻信號提供給顯示 接口 718。顯示接口 718進一步將顯示信號提供給上述類型的顯示設備。顯示接口 718能夠是 諸如紅綠藍(RGB)這樣的模擬信號接口或者能夠是諸如高清晰度多媒體接口(HDMI)這樣的 數字接口。
[0097] 能夠是處理器的控制器714經由總線互連到設備700的若干組件,包括輸入流處理 器702、音頻處理器706、視頻處理器710、存儲設備712、用戶接口 716以及手勢模塊722。控制 器714管理將輸入流信號轉換成用于存儲在存儲設備上或者用于顯示的信號的轉換處理。 控制器714還管理用于回放所存儲的內容的檢索和回放模式。而且,如將在下面所描述的那 樣,控制器714執行對所存儲的或者將經由上述遞送網絡遞送的內容的搜索。控制器714還 耦合到控制存儲器720(例如,易失性或者非易失性存儲器,包括隨機存取存儲器、靜態RAM、 動態RAM、只讀存儲器、可編程ROM、閃速存儲器、EPROM、EEPR0M等),以便存儲控制器714的信 息和指令代碼。而且,存儲器的實現方式能夠包括若干種可能的實施方式,諸如單個存儲器 設備,或者替代地,連接在一起以形成共享或共用存儲器的多于一個的存儲器電路。另外, 存儲器能夠與諸如總線通信電路系統的一部分這樣的其他電路系統一起包括在更大的電 路中。
[0098]本公開的用戶接口 716能夠采用在顯示器各處移動光標的輸入設備,這進而使得 內容在光標經過它時放大。在一個實施例中,輸入設備是遠程控制器,具有一種形式的運動 檢測,諸如陀螺儀或加速度計,從而允許用戶在屏幕或顯示器各處自由地移動光標。在另一 個實施例中,輸入設備是以將跟蹤用戶在板上、在屏幕上的移動的觸摸板或者觸摸敏感設 備的形式的控制器。在另一個實施例中,輸入設備可以是具有方向按鈕的傳統遙控器。根據 在說明書中描述的示例性原理,用戶接口 716也能夠被配置為使用相機、視覺傳感器等光學 地識別用戶手勢。
[0099]作為來自圖1的示例性實施例,手勢模塊722解釋來自用戶接口 716的基于手勢的 輸入,并且根據上面的示例性原理來確定用戶正在做出什么手勢。所確定的手勢然后能夠 被用于闡明回放以及回放的速度。具體地,能夠使用手勢來指示比媒體的實時播放更快地 回放媒體,諸如快進操作和快退操作。類似地,手勢也能夠指示比媒體的實時播放更慢,諸 如慢動作前進操作和慢動作倒退操作。關于手勢意味著什么以及這樣的手勢如何控制媒體 的回放速度的這些確定在各種例示性實施例中描述。
[0100] 能夠將手勢分解成被稱作基礎手勢和手勢修飾符的至少兩個部分。基礎手勢是包 含移動的一方面(能夠是手臂或腿的移動)的"總的"手勢。手勢的修飾符能夠是在人移動手 臂的同時所展示的手指的數量、當人移動手臂時手上的所展示的手指的位置、當人移動他 們的腿時的腳的移動、當人移動手臂時的手的揮動等。基礎手勢能夠由手勢模塊722確定, 以便以諸如快進、快退、慢動作前進、慢動作后退、正常播放、暫停等回放模式來操作回放設 備700。手勢的修飾符然后由手勢模塊720確定,以便設置回放的速度,回放的速度能夠比與 正常播放模式相關聯的媒體的實時播放更快或更慢。在示例性實施例中,與具體手勢相關 聯的回放將持續與用戶保持手勢一樣長的時間。
[0101] 圖8例示根據示例性實施例的使用輸入的手勢來控制媒體的回放的流程圖800。步 驟802具有用戶接口 710接收用戶手勢。如上所述,用戶手勢能夠由用戶接口 710使用視覺技 術來識別。在步驟804中,手勢模塊722將輸入的手勢分解成基礎手勢,基礎手勢例示性地能 夠是手臂在向左的方向上的移動、手臂在向右的方向上的移動、手臂在向上的方向上的移 動、手臂在向下的方向上的移動等。所確定的基礎手勢然后與控制命令相關聯,控制命令被 用于使用諸如正常播放模式、快進、快退、慢的前進動作、慢的倒退動作、暫停模式等例示性 回放模式來選擇回放模式。回放模式能夠是作為實時播放操作的實時回放模式。回放模式 也能夠是非實時回放模式,其使用諸如快進、快退、慢動作前進、慢動作倒退等回放模式。在 示例性實施例中,手臂在向右的方向上的移動指示前進回放操作,而手臂在向左的方向上 的移動指示倒退回放操作。
[0102] 步驟806具有手勢模塊722確定基礎手勢的修飾符,其中,例示性的修飾符包括在 手上所展示的手指的數量、手上的手指的位置、手的揮動的數量、手的手指的移動等。在例 示性示例中,第一手指能夠指示第一回放速度,第二手指能夠指示第二回放速度,第三手指 能夠指示第三回放速度,以此類推。理想地,修飾符對應于比非實時更快或更慢的回放速 度。
[0103] 在另一個例示性示例中,食指的位置能夠代表比實時回放速度快兩倍,中指的位 置能夠代表比實時回放速度快四倍,無名指的位置能夠代表比實時回放速度快八倍,以此 類推。
[0104] 對應于不同修飾符的速度能夠是比實時速度更快和更慢的混合。在又一個例示性 示例中,食指的位置能夠代表比實時回放速度快兩倍,而中指的位置能夠代表實時回放速 度的一半。根據示例性原理,能夠使用速度的其他混合。
[0105] 在步驟808中,由手勢模塊722確定的修飾符與控制命令相關聯,控制命令根據步 驟806確定回放模式的速度。在步驟810中,控制器714使用控制命令以修飾符所確定的速 度、以所確定的回放模式來啟動媒體的回放。根據所選擇的回放模式,媒體能夠以所確定的 回放模式、經由音頻處理器706和視頻處理器710輸出。
[0106] 在可選的實施例中,從快速操作到慢速動作模式的改變能夠通過在向下的方向上 移動手臂來完成。即,用來引起快進操作的基礎手勢現在將導致慢的前進動作操作,而導致 快退操作的基礎手勢現在將導致慢動作倒退操作。在另一個可選的實施例中,根據示例性 原理,響應于在向上的方向上移動手臂的手勢來執行基礎手勢從慢速操作到快速操作的改 變。
[0107] 圖9展示用戶接口 900的示例性實施例,其示出用來控制媒體的回放的手臂和手的 手勢的表示。用戶接口 900中的特定手勢示出使用一個手指的向右的手臂。向右的手臂移動 的基礎手勢將指示媒體的快進或慢動作前進回放,其中修飾符指示媒體應當以第一速度回 放。圖10展示用戶接口 1000的示例性實施例,其示出向右移動的手臂和手的手勢,其中媒體 的回放將以第三速度進行,第三速度對應于三個手指作為修飾符的顯示。
[0108] 圖11展示例示用來控制媒體的回放的手臂和手的手勢的用戶接口 1100的示例性 實施例。具體地,用戶接口 1100中的手勢是向左移動的基礎手勢,其與作為快退或者慢動作 回顧的、基于倒退的模式的媒體回放相關。根據示例性原理,基于倒退的模式的速度是多個 速度中的第二速度。下面表格1示出根據所公開的原理的具有相關聯修飾符的基礎手勢。
[0109] 表格 1
[0110]
[0111]雖然在本文中已經詳細地示出并描述了體現本公開的教導的實施例,但是本領域 的那些技術人員能夠容易地設計出許多其他變化的實施例,其仍然體現這些教導。已經描 述了用于手勢識別的系統和方法的優選實施例(其旨在是例示性的而不是限制性的),應當 注意,本領域的技術人員能夠根據上面的教導做出修改和變化。因此,應當理解,可以在所 公開的本公開的具體實施例中進行改變,其在由所附的權利要求書所給出的本公開的范圍 內。
【主權項】
1. 一種控制媒體回放的方法,包括: 接收與用戶手勢相對應的輸入(802); 將輸入的基礎手勢與對應于回放模式的控制命令相關聯(804); 接收基礎手勢的修飾符(806); 將修飾符與控制命令相關聯(808);以及 響應于所述控制命令,根據相關聯的回放模式和修飾符來播放媒體(810)。2. 根據權利要求1所述的方法,還包括: 將多個不同的修飾符中的一個與控制命令選擇性地相關聯;以及 響應于多個修飾符中的所選擇的一個來修改回放模式。3. 根據權利要求2所述的方法,還包括:選擇多個修飾符中的不同的一些來控制回放模 式的方向和速度。4. 根據權利要求1所述的方法,其中,回放模式是從包括快進操作、快退操作、慢動作前 進操作和慢動作倒退操作的分組中選擇出的至少一個模式。5. 根據權利要求1所述的方法,其中,基礎手勢是從包括向左邊的方向移動手臂、向右 邊的方向移動手臂、在向上的方向上移動手臂和在向下的方向上移動手臂的分組中選擇出 的至少一個手勢。6. 根據權利要求5所述的方法,其中,基礎手勢的修飾符是從包括展示至少一個手指、 至少一個所展示手指的位置、至少一個手揮動以及至少一個手指的至少一個移動的分組中 選擇出的至少一個元素。7. 根據權利要求6所述的方法,其中,展示至少一個手指還包括: 展示一個手指表示回放速度的第一速度; 展示兩個手指表示回放速度的第二速度;以及 展示三個手指表示回放速度的第三速度。8. 根據權利要求6所述的方法,其中,展示至少一個手指還包括: 在第一位置處展示手指表示處于第一回放速度的速度; 在第二位置處展示手指表示處于第二回放速度的速度;以及 在第三位置處展示手指表示處于第三回放速度的速度。9. 根據權利要求5所述的方法,其中,在向下的方向上移動手臂將回放速度從快速操作 改變成慢動作操作。10. 根據權利要求5所述的方法,其中,在向上的方向上移動手臂將回放速度從慢動作 操作改變成快速操作。11. 根據權利要求1所述的方法,其中,基礎手勢是向右的移動手臂移動,其指示回放模 式是快進操作,并且基礎手勢的修飾符是至少一個手指的顯示,其中使用所顯示手指的數 量來確定快進操作的速度。12. 根據權利要求1所述的方法,其中,基礎手勢是向左的手臂移動,其指示回放模式是 快退操作,并且基礎手勢的修飾符是至少一個手指的顯示,其中使用所顯示手指的數量來 確定快退操作的速度。13. 根據權利要求1所述的方法,其中,基礎手勢是向右的移動手臂移動,其指示回放模 式是慢進操作,并且基礎手勢的修飾符是至少一個手指的顯示,其中使用所顯示手指的數 量來確定慢進操作的速度。14. 根據權利要求1所述的方法,其中,基礎手勢是向左的手臂移動,其指示回放模式是 慢退操作,并且基礎手勢的修飾符是至少一個手指的顯示,其中使用所顯示手指的數量來 確定慢退操作的速度。15. -種用于控制媒體回放的裝置,包括: 處理器;以及 存儲器,耦合到處理器,所述存儲器用于存儲指令,所述指令在被處理器執行時執行以 下操作: 接收與用戶手勢相對應的輸入(802); 將輸入的基礎手勢與對應于回放模式的控制命令相關聯(804); 接收基礎手勢的修飾符(806); 將修飾符與控制命令相關聯(808);以及 響應于所述控制命令,根據相關聯的回放模式和修飾符來播放媒體(810)。16. 根據權利要求15所述的裝置,包括使處理器執行以下操作的指令: 將多個不同的修飾符中的一個與控制命令選擇性地相關聯;以及 響應于多個修飾符中的所選擇的一個來修改回放模式。17. 根據權利要求16所述的裝置,還包括使處理器執行以下操作的指令:選擇多個修飾 符中的不同的一些來控制回放模式的方向和速度。18. 根據權利要求15所述的裝置,其中,回放模式是從包括快進操作、快退操作、慢動作 前進操作和慢動作倒退操作的分組中選擇出的至少一個模式。19. 根據權利要求15所述的裝置,其中,基礎手勢是從包括向左邊的方向移動手臂、向 右邊的方向移動手臂、在向上的方向上移動手臂和在向下的方向上移動手臂的分組中選擇 出的至少一個手勢。20. 根據權利要求19所述的裝置,其中,基礎手勢的修飾符是從包括展示至少一個手 指、至少一個所展示手指的位置、至少一個手揮動以及至少一個手指的至少一個移動的分 組中選擇出的至少一個元素。21. 根據權利要求20所述的裝置,其中,展示至少一個手指還包括: 展示一個手指表示回放速度的第一速度; 展示兩個手指表示回放速度的第二速度;以及 展示三個手指表示回放速度的第三速度。22. 根據權利要求20所述的裝置,其中,展示至少一個手指還包括: 在第一位置處展示手指表示處于第一回放速度的速度; 在第二位置處展示手指表示處于第二回放速度的速度;以及 在第三位置處展示手指表示處于第三回放速度的速度。23. 根據權利要求19所述的裝置,其中,在向下的方向上移動手臂將回放速度從快速操 作改變成慢動作操作。24. 根據權利要求19所述的裝置,其中,在向上的方向上移動手臂將回放速度從慢動作 操作改變成快速操作。25. 根據權利要求15所述的裝置,其中,基礎手勢是向右的移動手臂移動,其指示回放 模式是快進操作,并且基礎手勢的修飾符是至少一個手指的顯示,其中使用所顯示手指的 數量來確定快進操作的速度。26. 根據權利要求15所述的裝置,其中,基礎手勢是向左的手臂移動,其指示回放模式 是快退操作,并且基礎手勢的修飾符是至少一個手指的顯示,其中使用所顯示手指的數量 來確定快退操作的速度。27. 根據權利要求15所述的裝置,其中,基礎手勢是向右的移動手臂移動,其指示回放 模式是慢進操作,并且基礎手勢的修飾符是至少一個手指的顯示,其中使用所顯示手指的 數量來確定慢進操作的速度。28. 根據權利要求15所述的裝置,其中,基礎手勢是向左的手臂移動,其指示回放模式 是慢退操作,并且基礎手勢的修飾符是至少一個手指的顯示,其中使用所顯示手指的數量 來確定慢退操作的速度。
【文檔編號】G06K9/00GK105980963SQ201580007424
【公開日】2016年9月28日
【申請日】2015年1月7日
【發明人】S.K.韋斯特布魯克, J.M.諾古埃羅爾
【申請人】湯姆遜許可公司