基于語音和手勢識別的多模態非觸摸人機交互方法及系統的制作方法
【技術領域】
[0001]本發明屬于人機交互領域,具體涉及一種基于語音和手勢識別的多模態非觸摸人機交互方法及系統。
【背景技術】
[0002]在當前的高速發展的移動互聯網技術領域,人與移動終端(比如手機)的接觸越來越多,移動終端在人們的生活中也變得越來越不可或缺。隨著移動互聯網的發展,更加自然的人機交互方法的需求將會非常強烈。
[0003]在移動終端領域,現有的人機交互方法主要包括按鍵、觸摸屏等接觸式的交互手段以及基于語音的非觸摸的交互方法。而在傳統人機交互領域,多通道的人機交互方法正在興起[I]。這類多通道人機交互界面整合了語音及手勢的多通道輸入,降低了用戶的認知負荷,彌補了單一交互模式給用戶帶來的限制和負擔。但是這類方法采用的是單輪次的命令式交互,缺乏對多輪次對話式人機交互的支持。而多輪次對話式的交互正是更加自然、貝占近生活的交互方式。
【發明內容】
[0004]本發明的目的旨在針對上述現有技術中的不足之處,提供一種能給用戶提供非常自然的交互體驗的基于語音和手勢識別的多模態非觸摸人機交互方法及系統。
[0005]本發明的目的可以通過以下技術方案來達到:
[0006]本發明第一方面提供一種基于語音和手勢識別的多模態非觸摸人機交互方法,包括以下步驟:
[0007]S1、解析用戶輸入的語音或手勢,確定用戶意圖;
[0008]S2、根據用戶意圖制定語音與手勢的聯合語義表示,建立語義搜索空間和手勢搜索空間的映射;
[0009]S3、當語音和手勢多路輸入同時存在時,融合語音和手勢識別的語義,根據對話的狀態切換兩種不同的輸入通道,處理多路輸入沖突時的語義解析;
[0010]S4、優化縮小語音識別和手勢識別的語義搜索空間,最終得到用戶的真實意圖。
[0011]進一步地,步驟S2包括:
[0012]使用對話過程中的用戶語義和系統反饋語義的聯合分布定義系統狀態;
[0013]根據不同的系統狀態以及語音語義和手勢語義的交并集處理,對兩種輸入的語義作語義映射。
[0014]進一步地,步驟S3包括:
[0015]支持語音輸入和手勢輸入的雙通道識別,并在特定的系統狀態下自動開啟手勢識別;
[0016]將語音和手勢作為互斥輸入源,一旦接收到其中一路有效輸入后就立即關閉另外一路的輸入信息。
[0017]在處理多路輸入沖突時的語義解析時,步驟S3亦可以采取基于統計機器學習、以分類器的置信度或者概率輸出進行通道選擇判斷以及融合的方法處理多路輸入沖突。分類器以語音輸入和手勢輸入的信號數字特征、識別中間結果、識別置信度等作為輸入特征,通過數據學習,對語音和手勢輸入輸出信號通道的選擇置信度或者概率。若其中一方通道的置信度或者概率值大于設置好的閾值時,則關閉另外一路的輸入信息;否則以概率整合的形式合并兩路輸入的語義解析結果。
[0018]進一步地,步驟S4包括:
[0019]使用語義槽和對應值的方法進行用戶意圖理解,使用戶的一句話可以被解析為許多的語義槽-對應值對;
[0020]對于有歧義的語義槽,使用領域先驗知識和對話上下文信息作為先驗知識,再通過后驗概率的加權,優化縮小語音識別和手勢識別的語義搜索空間,修改語音識別和手勢識別的語義備選項的置信度或概率值,最終得到用戶的真實意圖。
[0021]本發明第二方面提供一種基于語音和手勢識別的多模態非觸摸人機交互系統,包括語音輸入和手勢輸入模塊、多通道輸入的語義融合、切換以及沖突解析模塊和語義搜索空間優化模塊。
[0022]所述語音輸入和手勢輸入模塊用于接收和識別輸入的語音信號與手勢信號。
[0023]所述多通道輸入的語義融合、切換以及沖突解析模塊用于根據當前系統狀態以及使用通道判別分類器進行多通道輸入的融合、切換和沖突解決。
[0024]所述語義搜索空間優化模塊用于根據領域信息和對話上下文內容提供語義搜索空間的優化。
[0025]所述語音輸入和手勢輸入模塊、多通道輸入的語義融合、切換以及沖突解析模塊與語義搜索空間優化模塊依次串聯組成流水過程,用于實現上述的一種基于語音和手勢的多模態非接觸人機交互方法。
[0026]本發明提供的所述于語音和手勢識別的多模態非觸摸人機交互方法及系統定義了語音及手勢的聯合語義,動態整合語音及手勢的語義結果,并基于對話的領域先驗知識和上下文信息,通過多輪語音或者手勢的混合交互手段對用戶的意圖進行理解,從而提供給用戶一種非常自然的交互體驗。
【附圖說明】
[0027]圖1是本發明提供的基于語音和手勢識別的多模態非觸摸人機交互方法的流程示意圖。
【具體實施方式】
[0028]下面將結合附圖對本發明的技術方案作進一步詳述:
[0029]請參照圖1,一種基于語音和手勢識別的多模態非觸摸人機交互方法,包括以下步驟:
[0030]S1、解析用戶輸入的語音或手勢,確定用戶意圖;
[0031]S2、根據用戶意圖制定語音與手勢的聯合語義表示,建立語義搜索空間和手勢搜索空間的映射;
[0032]S3、當語音和手勢多路輸入同時存在時,融合語音和手勢識別的語義,根據對話的狀態切換兩種不同的輸入通道,處理多路輸入沖突時的語義解析;
[0033]S4、優化縮小語音識別和手勢識別的語義搜索空間,最終得到用戶的真實意圖。
[0034]在建立語義搜索空間和手勢搜索空間的映射時,先使用對話過程中的用戶語義和系統反饋語義的聯合分布定義系統狀態,然后根據不同的系統狀態以及語音語義和手勢語義的交并集處理,對兩種輸入的語義作語義映射。比如在機器給用戶提供一個二選一的語義反饋的時候,如“確認還是取消? ”,手向左移動表示“確認”,向右移動表示“取消”。具體語義函數表示為,機器反饋=select (slot I, slot2),左移=affirm (slot I),右移=affirm(slot2)。其中select (slotl, slot2)表示機器請求用戶在兩個語義槽slotl和slot2中做選擇,affirm(slot)表示確定選擇其中一個slot。
[0035]在處理多路輸入沖突時的語義解析時,首先在特定的系統狀態下自動開啟手勢識另IJ,再將語音和手勢作為互斥輸入源,一旦接收到其中一路有效輸入后就立即關閉另外一路的輸入信息,兩路輸入通道可以互相打斷,語音輸入可以打斷手勢輸入,手勢輸入可以打斷語音輸入。比如簡單地,在機器給出一個二選一的反饋(比如“撥打座機還是手機? ”)時,系統同時開啟語音輸入和手勢輸入通道。一旦檢測到有效的手勢輸入,則丟棄已有的不完整的語音輸入。
[0036]在處理多路輸入沖突時的語義解析時,亦可以采取基于統計機器學習、以分類器的置信度或者概率輸出進行通道選擇判斷以及融合的方法處理多路輸入沖突。分類器以語音輸入和手勢輸入的信號數字特征、識別中間結果、識別置信度等作為輸入特征,通過數據學習,對語音和手勢輸入輸出信號通道的選擇置信度或者概率。若其中一方通道的置信度或者概率值大于設置好的閾值時,則關閉另外一路的輸入信息;否則以概率整合的形式合并兩路輸入的語義解析結果。基于通道選擇置信度的不確定性,可以將語音輸入的語義結果和手勢輸入的語義結果以概率整合的方式融合在一起,最后產生帶概率的多候選語義結果(所有候選結果的概率和等于一)。該方法可以處