基于深度的語境識別的制作方法
【技術領域】
[0001]本發明涉及使用姿勢或手勢信息識別語音命令以提高語音識別的準確性。
【背景技術】
[0002]車輛的駕駛員或乘客通常用手指或手使用開關、屏幕、鍵盤或其它輸入機構來操作車輛中的各種設備。這樣的輸入機構可以用于操作例如導航系統、娛樂系統、空調系統或電話系統。有時,必須要對輸入機構執行一系列復雜的操作來向設備發出期望的命令。然而對于駕駛員來說,將雙手保持在方向盤上并且僅用短暫的時間通過手間歇地操作這些輸入設備是更為可取的。根據操作的復雜性,在駕駛員能夠執行期望的操作之前可能需要多次嘗試來操作輸入設備。
[0003]因此,使用較少的利用駕駛員的雙手的操作模式是有利的。一種這樣的操作模式是語音識別。語音識別是將聲音信號轉化成語音元素(例如,音素、詞語以及句子)的處理過程。語音識別已經應用在從電話操作到車輛操作的各種領域。在語音識別系統中,由輸入設備(例如,傳聲器)采集音頻信號并將其轉化成數字信號,然后使用一種或多種算法將其處理成包含在音頻信號中的輸出語音元素。根據應用領域,識別出的語音元素可以是語音識別的最終結果或者是用于進一步處理的中間信息。
[0004]在車輛中使用語音識別的問題之一是,類似的或者相同的言語命令可以用于不同的設備。類似的或相同的言語命令的共用導致言語命令中的歧義。例如,諸如“定位XYZ”的命令可表示在導航的情況下特定興趣點(POI)的定位,而相同的命令還可表示娛樂系統中音軌的識別。如果用戶的命令的語境沒有被正確地識別,用戶意圖之外的操作可被車輛中的設備執行。
[0005]由于歧義性的言語命令所造成的無意操作以及隨后的補救措施所花費的時間會損害用戶體驗并且導致用戶恢復人工操作。
【發明內容】
[0006]本發明的實施例提供基于用戶的姿勢或手勢識別言語命令的系統或方法。通過表示用戶的姿勢或手勢的手勢信息選擇有可能被用戶定為目標用于操作的多個設備中的一個或多個設備。根據所接收的手勢信息選擇與被用戶定為目標的一個或多個設備關聯的多個言語命令。使用選擇的多個言語命令處理音頻信號以確定用于操作所述一個或多個設備的設備命令。
[0007]在本發明的一種實施例中,深度相機用于拍攝至少一個深度影像。各個深度影像覆蓋用戶的至少部分并且包括表示從深度相機到用戶的所述至少部分的距離的像素。處理所述至少一個深度影像以確定用戶的姿勢或手勢。根據所識別的姿勢或手勢生成手勢信息。
[0008]在一種實施例中,用戶的所述至少部分包括用戶的手或前臂。
[0009]在一種實施例中,深度相機安裝在帶有覆蓋用戶的視野的車輛中的頭頂控制臺中。
[0010]在一種實施例中,所述多個設備包括車輛中的至少導航系統以及娛樂系統。
[0011]在一種實施例中,手勢信息表示用戶的手或前臂是否定位在自深度相機的距離之內或者是否定位在自深度相機的所述距離之外。響應于表示手或前臂定位在所述距離之內的手勢信息選擇第一組言語命令。響應于表示手或前臂定位在所述距離之外的手勢信息選擇第二組言語命令。
[0012]在一種實施例中,第一組言語命令與在車輛中執行導航操作相關聯。第二組言語命令與操作娛樂系統、空調控制系統或診斷系統相關聯。
[0013]說明書中描述的特征和優點不是包括一切的,并且特別地,許多額外的特征和優點對于查看了附圖、說明書以及權利要求書的本領域技術人員來說將是顯而易見的。此外,應當注意的是,本說明書中使用的語言主要選擇用于可讀性和指導的目的,而不是選擇用來描繪或限制發明主題。
【附圖說明】
[0014]通過結合附圖考慮下面的詳細描述可以容易地理解本發明的教導。
[0015]圖1A為根據一種實施例的裝備有命令處理系統的車輛的側視圖。
[0016]圖1B為根據一種實施例的圖1A的車輛的俯視圖。
[0017]圖2為根據一種實施例的命令處理系統的框圖。
[0018]圖3為根據一種實施例的語音識別模塊的框圖。
[0019]圖4為根據一種實施例的說明用于興趣點的搜索區域的概念圖。
[0020]圖5為根據一種實施例的基于由相機拍攝的深度影像執行語音識別的方法的流程圖。
【具體實施方式】
[0021]現在參考附圖描述優選實施例,附圖中相似的附圖標記表示完全相同或功能上相似的元素。
[0022]說明書中提到的“一種實施例”或“實施例”表示結合所述實施例描述的特定的特征、結構或特性包括在至少一種實施例中。在說明書中多處出現的短語“在一種實施例中”不一定都指的是相同的實施例。
[0023]下面的詳細描述的某些部分以計算機存儲器內數據位的操作的算法和符號表示的形式給出。這些算法描述和表示是由數據處理領域的技術人員用來最有效地將他們工作的實質傳達給本領域的其他技術人員的方法。在這里,算法通常被看作是導致期望的結果的自洽的步驟(指令)序列。所述步驟是需要物理量的物理處理的那些步驟。盡管不是必須的,但這些量通常采取能夠被存儲、傳送、組合、比較以及以其它方式處理的電信號、磁信號或光信號的形式。主要是出于通用的原因,有時將這些信號稱為比特、值、元素、符號、字符、項、數字等是方便的。此外,有時將需要物理量的物理操作的步驟的某些安排稱為模塊設備或編碼設備也是方便的,而且不失一般性。
[0024]然而,所有這些和類似的術語都與合適的物理量相關聯,并且僅僅是應用于這些量的方便的標號。除非以下討論中明顯地另有特別聲明,否則應當理解的是,在整個說明書中,利用諸如“處理”或“計算(computing) ”或“計算(calculating) ”或“確定”或“顯示”或“確定”等術語的討論是指計算機系統或類似的電子計算設備對在計算機系統存儲器或寄存器或其它這種信息存儲、傳輸或顯示設備內表示為物理(電子)量的數據進行操縱和變換的動作和過程。
[0025]實施例的某些方面包括本文中以算法形式描述的處理步驟和指令。應該注意的是,處理步驟和指令可體現在軟件、固件或硬件中,并且當體現在軟件中時,其可以被下載以駐留在由各種操作系統所使用的不同的平臺上并從所述不同的平臺進行操作。
[0026]實施例還可涉及用于執行本發明的操作的裝置。此裝置可以是為需要的目的具體構造的,或者其可以包括由存儲在計算機中的計算機程序選擇性地激活或重新配置的一般用途的計算機。這樣的計算機程序可儲存在計算機可讀存儲介質中,例如但不限于包括軟盤、光盤、只讀光盤存儲器(⑶-ROMs)、磁光盤、只讀存儲器(ROMs)、隨機存取存儲器(RAMs)、電可編程只讀存儲器(EPROMs)、電可擦除只讀存儲器(EEPROMs)、磁卡或光卡、專用集成電路(ASICs)或適合于存儲電子指令并且每個都連接至計算機系統總線的任何類型的介質的任何類型的盤。此外,說明書中涉及的計算機可包括單處理器或者可以是設計用來提高計算能力的使用多個處理器的架構。
[0027]本文所述的算法和顯示并不固有地涉及任何特定的計算機或其它裝置。各種通用系統也可與根據本文的教導的程序一起使用,或者其可便于構造更專用的裝置來執行所需的方法步驟。用于各種這樣的系統的所需結構將從以下描述中顯而易見。此外,實施例并不參照任何特定的編程語言來描述。可以理解的是,各種編程語言可用于實現本文所述的教導,并且下面所提供的對于特定語言的任何引用是用于實現和最佳模式的公開。
[0028]此外,說明書中使用的語言主要是出于