本公開涉及在利用語音對話控制預定設備時,基于用戶的視線信息,選擇用于語音對話的詞典進行控制的控制方法和控制器。
背景技術:
有利用語音輸入對位于家庭中的電子設備的狀態進行確認和操作的系統。例如,在這樣的系統中,由便攜式麥克風取得的人的說話(發聲)內容被傳送給電視機等電子設備。電子設備解析用戶發出的語言(語句),并執行基于說話的處理。由此,可實現電子設備的狀態的確認或操作。
在專利文獻1中公開了如下技術:通過按每臺設備準備詞典,根據用戶發聲時的頭部方向,確定作為操作對象的設備,并切換為與該操作對象對應的詞典和語法,從而提高語音識別的精度。
在先技術文獻
專利文獻
專利文獻1:日本特開2009-210956號公報
技術實現要素:
發明要解決的問題
然而,上述專利文獻1需要進一步的改善。
用于解決問題的技術方案
一種與第一設備、第二設備、相機以及麥克風連接的控制器中的控制方法,所述第一設備設置在第一空間的第一位置,所述第二設備設置在第二空間的第二位置,所述相機檢測用戶的視線方向,所述麥克風檢測所述用戶的說話,所述第一空間是所述用戶能夠視覺識別的空間,所述第二空 間是所述用戶不能視覺識別的空間,從所述相機取得視線信息,所述視線信息包含表示所述檢測出的用戶的視線方向的信息,基于所述視線信息,判斷所述用戶的視線方向是否指示所述第一空間所包含的所述第一位置以外的第三位置,從所述麥克風取得語音數據,所述語音數據表示所述檢測出的用戶的說話,在判斷為所述用戶的視線方向指示所述第三位置的情況下,從所述控制器或與所述控制器連接的服務器具備的多個詞典中選擇與所述第二設備對應的第二詞典,使用所述選擇出的第二詞典,生成與所述取得的語音數據對應的第二控制指令,向所述第二設備發送所述生成的第二控制指令。
發明的效果
根據上述一個技術方案,能夠實現進一步的改善。
附圖說明
圖1A是表示在實施方式中對話信息提供系統提供的服務的整體畫面的圖。
圖1B是表示在實施方式中設備制造商相當于數據中心運營公司的例子的圖。
圖1C是表示在實施方式中設備制造商和管理公司這兩方或某一方相當于數據中心運營公司的例子的圖。
圖2是表示實施方式1中的對話信息提供系統的構成的圖。
圖3是表示實施方式1中的對話信息提供系統的工作的流程圖。
圖4A是表示實施方式1中的設備管理信息的一例的圖。
圖4B是表示實施方式1中的統合控制詞典的一例的圖。
圖4C是表示實施方式1中的單獨控制詞典的一例的圖。
圖4D是表示實施方式1中的單獨控制詞典的一例的圖。
圖5是實施方式1中的對話信息提供系統所包含的各裝置的框圖。
圖6是表示實施方式1中的對話信息提供系統的工作例的圖。
圖7是表示實施方式1中的對話信息提供系統的工作例的圖。
圖8是表示實施方式1中的設備的工作的流程圖。
圖9是表示實施方式1中的聲音收集裝置的工作的流程圖。
圖10是表示實施方式1中的家庭網關的工作的流程圖。
圖11是實施方式1中的詞典選擇處理的流程圖。
圖12是表示實施方式1中的語音對話處理的工作例的圖。
圖13是實施方式1中的語音對話處理的流程圖。
圖14是表示實施方式1中的語音識別處理的工作例的圖。
圖15是實施方式1中的語音識別處理的流程圖。
圖16是表示實施方式1中的意圖理解處理的工作例的圖。
圖17是實施方式2中的詞典選擇處理的流程圖。
圖18是表示實施方式2中的對話信息提供系統的工作例的圖。
圖19是實施方式3中的第一設備和第二設備的框圖。
圖20A是表示實施方式3中的設備管理信息的一例的圖。
圖20B是表示實施方式3中的設備管理信息的一例的圖。
圖20C是表示實施方式3中的設備管理信息的一例的圖。
圖21是實施方式3中的對象設備設定處理的流程圖。
圖22是實施方式4中的對象設備設定處理的流程圖。
圖23是表示實施方式5中的對話信息提供系統的構成的圖。
圖24是表示實施方式5中的設備管理信息的一例的圖。
圖25是實施方式5中的對象設備設定處理的流程圖。
圖26是實施方式6中的語音對話服務器的框圖。
圖27A是表示實施方式6中的統合控制詞典的一例的圖。
圖27B是表示實施方式6中的腳本信息的一例的圖。
圖27C是表示實施方式6中的單獨控制詞典的一例的圖。
圖28是實施方式7中的詞典選擇處理的流程圖。
圖29是表示對話信息提供系統的變形例的構成的圖。
圖30是表示對話信息提供系統的變形例的構成的圖。
圖31是表示對話信息提供系統的變形例的構成的圖。
圖32是表示對話信息提供系統的變形例的構成的圖。
圖33是表示對話信息提供系統的變形例的構成的圖。
圖34是表示服務類型1(自己公司數據中心型云服務)中的信息管理系統提供的服務的整體畫面的圖。
圖35是表示服務類型2(IaaS利用型云服務)中的信息管理系統提供的服務的整體畫面的圖。
圖36是表示服務類型3(PaaS利用型云服務)中的信息管理系統提供的服務的整體畫面的圖。
圖37是表示服務類型4(SaaS利用型云服務)中的信息管理系統提供的服務的整體畫面的圖。
標號說明
1010、1020 用戶
1100、1100A、1100B、1100C、1100D、1100E 組
1101 多臺設備
1102、1102A、1102B 家庭網關
1110 數據中心運營公司
1111 云服務器
1120 服務提供商
1121 服務器
1201 應用
1202 OS
1203 數據中心
2001 第一空間
2002 第二空間
2011、2011A、2011B 第一設備
2012、2012A、2012B 第二設備
2013、2013B、2014 聲音收集裝置
2013A 視線檢測裝置
2020、2021 網絡
2100、2100A 語音對話服務器
2101、2101A、2147 統合控制詞典
2102、2102A、2102B、2102C、2115、2125、2148 單獨控制詞典
2103 腳本信息
2111、2121、2131、2151 視線檢測單元
2112、2122、2134、2145 設備通信單元
2113、2123 設備命令執行單元
2114、2124 距離檢測單元
2132、2152 聲音收集單元
2133 信息提示單元
2141 詞典選擇單元
2142、2142A、2142B、2142C、2142D 設備管理信息
2143 語音對話單元
2144 設備管理單元
2146 云通信單元
2155 用戶信息
具體實施方式
(成為本發明的基礎的見解)
正在研究用于提供如下服務的技術:按照來自用戶的說話,對家庭內的多臺設備的狀態進行確認或操作。
在這樣的系統中,裝置通過確定用戶的說話開始到結束的區間,取得僅是用戶的說話內容的語音數據。并且,裝置通過解析語音數據,決定用戶想確認或操作的電子設備和該確認或操作內容。
另外,作為取得用戶的說話內容的方法,提出了如下方法:利用僅選擇特定方向的聲音的波束成形(beamforming)處理或識別回聲并削減回 聲的回聲消除(Echo cancellation)處理等進行降噪。但是,降噪處理也有限,在已有的利用了降噪的構成中,實現足夠水平的語音識別精度是困難的。
另外,作為確定想確認或操作的電子設備和該確認或操作內容的方法,有如下槽位填充(Slot filling)技術:解析用戶的說話,并將該結果填入框架(模板),由此使對話進行。例如,框架包含“設備”、“操作”以及“場所”這三個信息。用戶說“接通電源”時,在框架的“操作”中設定“power_on”,但其他“設備”和“場所”的框架不填充。在該情況下,系統通過對用戶反問“想接通哪臺設備的電源?”、“想接通位于哪里的哪臺設備的電源?”等,由此使對話繼續。通過用戶再次說“空調”或“起居室的空調”等而填充空著的“設備”和/或“場所”的框架。但是,由于需要對用戶進行反問,并催促用戶說話直到填滿框架為止,所以有可能使用戶焦躁。另外,有可能誤識別反問時的說話而進一步反復反問,或陷入不希望的結果。
作為解決這樣的問題的方法,有按每臺成為確認或操作對象的設備準備詞典的方法。這樣一來,由于用戶僅傳達確認或操作的內容即可,所以能將用戶的說話次數抑制為少。由此,能夠防止上述問題。
另外,當制作與全部設備對應的通用性詞典時,該辭典很可能變得大規模且復雜,且維護性惡化。特別是在存在許多專用于一部分設備的功能的情況下,不期望詞典因此而變大。因此,可認為:如果能夠按成為對象的設備分別制作詞典,則專用于特定設備的內容能夠記載在單獨的詞典中,僅將與共通功能和設備合作功能等相關的內容記載在通用性詞典中等,對詞典制作者來說也具有優點。但是,在存在多個詞典的情況下,要求適當地選擇要使用的詞典。
另外,用戶會抵觸對著設備說話,另一方面,什么也不看就說話會感覺到不自然。另外,在無法識別說話的內容或存在多臺設備的情況下,為了確定作為操作對象的設備,用戶被要求重新說話多次,有時也會感覺很難用。關于用于滿足這些需求的技術解決對策,尚未進行研究。
例如,在用戶利用尚未與特定的電子設備關聯的虛擬化身(avatar)、天花板麥克風或可穿戴麥克風等說話的情況下,會難以確定應該選擇哪個詞典。
這樣,在存在多臺作為操作對象的設備的情況下,在用戶的說話中除了操作內容以外,還需要包含用于確定作為操作對象的設備的信息。由此,由于用戶的說話變長,所以很可能發生由于噪聲等影響無法正確掌握用戶的說話內容的狀況。進而,用戶為了設備操作而需要發出許多詞句,另外,在不能確定對象設備的情況下會發生反問。由此,存在用戶的便利性下降這一問題。
(1)本公開的一個技術方案涉及的方法是一種控制方法,是與第一設備、第二設備、相機以及麥克風連接的控制器中的控制方法,所述第一設備設置在第一空間的第一位置,所述第二設備設置在第二空間的第二位置,所述相機檢測用戶的視線方向,所述麥克風檢測所述用戶的說話,所述第一空間是所述用戶能夠視覺識別的空間,所述第二空間是所述用戶不能視覺識別的空間,從所述相機取得視線信息,所述視線信息包含表示所述檢測出的用戶的視線方向的信息,基于所述視線信息,判斷所述用戶的視線方向是否指示所述第一空間所包含的所述第一位置以外的第三位置,從所述麥克風取得語音數據,所述語音數據表示所述檢測出的用戶的說話,在判斷為所述用戶的視線方向指示所述第三位置的情況下,從所述控制器或與所述控制器連接的服務器具備的多個詞典中選擇與所述第二設備對應的第二詞典,使用所述選擇出的第二詞典,生成與所述取得的語音數據對應的第二控制指令,向所述第二設備發送所述生成的第二控制指令。
由此,在用戶的視線朝向設備存在的位置以外的特定區域的情況下,選擇存在于對用戶來說不能視覺識別的空間中的設備的詞典。由此,即使在用戶的說話內容中不包含確定對象設備的信息的情況下,也能夠確定對象設備。因此,由于能夠減少對用戶的反問的產生,所以能夠提高用戶的便利性。
(2)在上述技術方案中,也可以進一步基于所述視線信息判斷所述用 戶的視線方向是否指示所述第二位置,在判斷為所述用戶的視線指示所述第二位置的情況下,從所述多個詞典中選擇與所述第一設備對應的第一詞典,使用所述選擇出的第一詞典,生成與所述取得的語音數據對應的第一控制指令,向所述第一設備發送所述生成的第一控制指令。
由此,在用戶將視線朝向某設備的情況下,選擇該設備的詞典。由此,即使在用戶的說話內容中不包含確定對象設備的信息的情況下,也能夠確定對象設備。因此,由于能夠減少對用戶的反問的產生,所以能夠提高用戶的便利性。
(3)在上述技術方案中,所述第三位置也可以是設置有所述控制器的位置。
由此,在用戶的視線朝向家庭網關等控制裝置的情況下,選擇存在于對用戶來說不能視覺識別的空間中的設備的詞典。由此,由于能夠減少對用戶的反問的產生,所以能夠提高用戶的便利性。
(4)在上述技術方案中,所述控制器也可以具備所述相機。
由此,能夠以簡單的構成精度良好地檢測出用戶的視線是否朝向控制裝置。
(5)在上述技術方案中,所述第三位置也可以是設置有所述麥克風的位置。
由此,在用戶的視線朝向尚未與特定設備進行關聯的天花板麥克風或可穿戴麥克風等聲音收集裝置的情況下,選擇存在于對用戶來說不能視覺識別的空間中的設備的詞典。由此,由于能夠減少對用戶的反問的產生,所以能夠提高用戶的便利性。
(6)在上述技術方案中,所述麥克風也可以具備所述相機。
由此,能夠以簡單的構成精度良好地檢測出用戶的視線是否朝向聲音收集裝置(麥克風)。
(7)在上述技術方案中,在所述第一空間中也可以配置有物體(object),所述第三位置也可以是配置了所述物體的位置。
由此,在用戶的視線朝向尚未與特定設備進行關聯的特定物體(例如 填充玩偶)的情況下,選擇存在于對用戶來說不能視覺識別的空間中的設備的詞典。由此,由于能夠減少對用戶的反問的產生,所以能夠提高用戶的便利性。
(8)在上述技術方案中,也可以具備所述相機。
由此,能夠以簡單的構成精度良好地檢測出用戶的視線是否朝向物體。
(9)在上述技術方案中,所述物體也可以包含人偶。
由此,能夠以簡單的構成提供物體。
(10)在上述技術方案中,也可以在所述第一空間中投影有假想物體,所述第三位置也可以是投影了所述假想物體的位置。由此,在用戶的視線朝向尚未與特定設備關聯的假想物體(例如虛擬化身)的情況下,選擇存在于對用戶來說不能視覺識別的空間中的設備的詞典。由此,由于能夠減少對用戶的反問的產生,所以能夠提高用戶的便利性。
(11)在上述技術方案中,所述假想物體也可以包含虛擬化身和全息圖。
由此,能夠以簡單的構成提供假想物體。
(12)在上述技術方案中,也可以進一步,向所述用戶通知所述第二控制指令的操作內容。
由此,由于能夠基于用戶的說話內容,在對存在于用戶不能視覺識別的空間的設備進行操作之前向用戶確認操作內容,所以能夠防止進行用戶不希望的操作。
(13)在上述技術方案中,也可以在使用所述第二詞典不能生成所述第二控制指令的情況下,要求所述用戶輸入為了生成所述第二控制指令所需的補充信息。
由此,能夠基于用戶的說話內容,切實地生成用于操作存在于用戶不能視覺識別的空間中的電子設備的控制命令。
(14)在上述技術方案中,所述多個詞典也可以包含第三詞典,所述第三詞典表示多臺設備和與所述多臺設備對應的控制指令的對應關系,所述控制方法中,還可以包含:能夠使用所述選擇出的第二詞典生成所述第 二控制指令且在能夠使用所述第三詞典生成所述第二控制指令的情況下,使用所述第三詞典生成所述第二控制指令。
由此,在能夠通過用戶的說話內容確定作為操作對象的設備的情況下,使用戶的說話內容優先。因此,能夠抑制用戶不希望的設備被錯誤地選擇為操作對象。
另外,本公開不僅能夠作為執行以上的特征性處理的控制方法而實現,也能夠作為用于執行控制方法所包含的特征性步驟的控制器等而實現。另外,也能夠作為使計算機執行這樣的控制方法所包含的各特征性步驟的計算機程序而實現。而且,當然能夠使這樣的計算機程序經由CD-ROM等計算機可讀取非暫時性記錄介質或互聯網等通信網絡流通。
此外,以下說明的實施方式均為表示本公開的一個具體例的實施方式。在以下的實施方式中所示的數值、形狀、構成要素、步驟、步驟的順序等均是一個例子,并沒有限定本公開的意圖。另外,關于以下的實施方式中的構成要素中的、表示最上位概念的獨立權利要求中沒有記載的構成要素,作為任意的構成要素進行說明。另外,在全部實施方式中,也能夠將各個內容進行組合。
(提供的服務的整體畫面)
首先,說明本實施方式中的信息管理系統提供的服務的整體畫面。
圖1A是表示本實施方式中的信息管理系統提供的服務的整體畫面的圖。信息管理系統具備組1100、數據中心運營公司1110以及服務提供商(service provider)1120。
組1100例如是企業、團體或家庭等,其規模不限。組1100具備:包含第一設備和第二設備的多臺設備1101和家庭網關1102。多臺設備1101包含:能夠與互聯網連接的設備(例如智能手機、個人計算機(PC)或電視機等)和其自身不能與互聯網連接的設備(例如照明、洗衣機或冰箱等)。多臺設備1101也可以包含即使其自身不能與互聯網連接,但能夠經由家庭網關1102與互聯網連接的設備。另外,用戶1010使用組1100內的多臺設備1101。
數據中心運營公司1110具備云服務器1111。云服務器1111是經由互聯網與各種設備合作的假想化服務器。云服務器1111主要管理難以用通常的數據庫管理工具等處理的巨大數據(大數據)等。數據中心運營公司1110進行數據的管理、云服務器1111的管理以及進行這些管理的數據中心的運營等。后面將說明數據中心運營公司1110進行的勞務的詳細情況。
在此,數據中心運營公司1110不限于僅進行數據的管理或云服務器1111的管理的公司。例如,如圖1B所示,在開發或制造多臺設備1101中的一臺設備的設備制造商進行數據的管理或云服務器1111的管理等的情況下,設備制造商相當于數據中心運營公司1110。另外,數據中心運營公司1110不限于一個公司。例如,如圖1C所示,在設備制造商和管理公司共同或分擔而進行數據的管理或云服務器1111的管理的情況下,這兩方或某一方相當于數據中心運營公司1110。
服務提供商1120具備服務器1121。在此所說的服務器1121不限其規模,例如也包含個人用PC內的存儲器等。另外,也存在服務提供商1120不具備服務器1121的情況。
此外,在上述信息管理系統中,家庭網關1102不是必需的。例如,在云服務器1111進行全部數據管理等情況下,無需家庭網關1102。另外,像家庭內的全部設備與互聯網連接的情況那樣,也有不存在其自身不能與互聯網連接的設備的情況。
接著,說明上述信息管理系統中的信息的流動。
首先,組1100的第一設備或第二設備分別將各日志信息發送給數據中心運營公司1110的云服務器1111。云服務器1111集積第一設備或第二設備的日志信息(圖1A的箭頭1131)。在此,日志信息是表示多臺設備1101的例如運轉狀況或工作日期和時間等的信息。例如,日志信息包含電視機的收看歷史記錄、錄像機的錄像預約信息、洗衣機的運轉日期和時間、洗過的衣服的量、冰箱的開閉日期和時間或冰箱的開閉次數等,但不限于這些信息,也可以包含能夠從各種設備取得的各種信息。此外,日志信息也可以經由互聯網從多臺設備1101本身直接提供給云服務器1111。另外, 日志信息也可以從多臺設備1101暫時集積于家庭網關1102,并從家庭網關1102提供給云服務器1111。
接著,數據中心運營公司1110的云服務器1111以一定的單位,將已集積的日志信息提供給服務提供商1120。在此,一定的單位既可以是數據中心運營公司1110能夠對已集積的信息進行整理并提供給服務提供商1120的單位,也可以是服務提供商1120要求的單位。另外,雖然以一定的單位提供,但也可以不以一定的單位提供,提供的信息量可以根據狀況而變化。日志信息根據需要保存在服務提供商1120保有的服務器1121中(圖1A的箭頭1132)。
然后,服務提供商1120將日志信息整理成與提供給用戶的服務相適合的信息,并提供給用戶。被提供信息的用戶既可以是使用多臺設備1101的用戶1010,也可以是外部的用戶1020。作為向用戶1010和1020的信息提供方法,例如,也可以從服務提供商1120直接向用戶1010和1020提供信息(圖1A的箭頭1133和1134)。另外,作為向用戶1010的信息提供方法,例如,也可以再次經由數據中心運營公司1110的云服務器1111而將信息提供給用戶1010(圖1A的箭頭1135和1136)。另外,數據中心運營公司1110的云服務器1111也可以將日志信息整理成與提供給用戶的服務相適合的信息,并提供給服務提供商1120。
此外,用戶1010既可以與用戶1020不同,也可以相同。
(實施方式1)
在本實施方式中,示出用戶利用天花板麥克風等這樣具有聲音收集功能的設備,通過說話對設備的狀態進行確認和操作的情況的一例。
在本實施方式中,在用戶的視線朝向某設備的情況下,選擇該設備的詞典。另外,在用戶的視線朝向沒有設備的空間(例如,朝向聲音收集裝置)的情況下,選擇不在用戶的視覺識別范圍內的設備的詞典。
圖2是表示本實施方式中的對話信息提供系統的構成的圖。該對話信息提供系統包含組1100和數據中心運營公司1110內的語音對話服務器2100。組1100與語音對話服務器2100經由網絡2020連接。
組1100包含第一空間2001和第二空間2002。例如,組1100為家庭(住宅),第一空間2001和第二空間2002為起居室或臥室等房間。此外,空間也可以包含多個房間。例如,空間也可以是住宅的一樓或二樓等。另外,空間也可以是一個房間的某個空間(區域)。
另外,組1100包含第一設備2011、第二設備2012、聲音收集裝置2013以及家庭網關1102。第一設備2011、聲音收集裝置2013以及家庭網關1102配置在第一空間2001中,第二設備2012配置在第二空間2002中。另外,第一設備2011、第二設備2012、聲音收集裝置2013以及家庭網關1102經由網絡2021連接。網絡2021為能夠進行設備間通信的裝置即可,如有線LAN、無線LAN、Bluetooth(注冊商標)、或特定小功率無線等。
在此,第一設備2011和第二設備2012為空調或照明等家電設備,是基于與用戶的對話來操作或控制其工作的設備。
首先,說明本實施方式涉及的對話信息提供系統的工作的概略。圖3是本實施方式涉及的對話信息提供系統中的選擇詞典的處理的流程圖。
此外,以下的處理由對話信息提供系統所包含的控制裝置進行。在此,控制裝置例如是家庭網關1102。此外,如后所述,以下處理既可以由組1100所包含的一臺或多臺設備來進行,也可以由組1100所包含的一臺或多臺設備和經由網絡與該設備連接的外部設備(例如語音對話服務器2100)進行分散處理。
首先,控制裝置判定用戶的視線是否朝向某一臺設備(S101)。具體而言,控制裝置取得與用戶的視線朝向的方向相關的視線信息。接著,控制裝置基于該視線信息,判斷用戶的視線是否朝向存在于該用戶能夠視覺識別的空間的多臺設備所包含的第二設備。另外,控制裝置基于該視線信息判斷用戶的視線是否朝向第一區域,所述第一區域是該用戶能夠視覺識別的空間中的一部分區域,且與多臺設備存在的位置不同。在此,能夠視覺識別的空間是指用戶在當前的位置能夠視覺識別的空間。
在用戶的視線沒有朝向任一臺設備的情況下,也就是說,在判斷為用戶的視線朝向上述第一區域的情況下(在S101中為否),控制裝置選擇多 臺設備中的、存在于該用戶不能視覺識別的空間中的第一設備的單獨控制詞典2102(S103)。在此,不能視覺識別的空間是指用戶在當前的位置不能視覺識別的空間。
此外,后面將說明詳細情況,但是詞典表示與用戶的說話內容對應的設備的控制命令,并且用于將用戶的說話內容轉換成設備的控制命令。另外,存在統合控制詞典2101和單獨控制詞典2102,所述統合控制詞典2101是用于存在多個可成為控制對象的設備的情況下的詞典,所述單獨控制詞典2102是按每臺可成為控制對象的設備而設置的詞典。換句話說,在統合控制詞典2101中,由于多臺設備成為對象,所以有時在說話內容中需要確定設備的信息。另一方面,在單獨控制詞典2102中無需確定設備的信息。此外,統合控制詞典2101也可以是在空調和照明這樣的多種設備中共通地使用的詞典。同樣地,單獨控制詞典2102也可以按每種設備的類別設置。
另一方面,在用戶的視線朝向某一臺設備的情況下,也就是說,在判斷為用戶的視線朝向上述第二設備的情況下(在S101中為是),選擇該第二設備的單獨控制詞典2102(S102)。
接著,控制裝置使用統合控制詞典2101,判定是否能夠將用戶的說話內容轉換成控制命令(S104)。在能夠使用統合控制詞典2101將說話內容轉換成控制命令的情況下(在S104中為是),控制裝置使用統合控制詞典2101將說話內容轉換成控制命令(S105)。
另一方面,在不能使用統合控制詞典2101將說話內容轉換成控制命令的情況下(在S104中為否),控制裝置判定是否能夠使用在步驟S102或S103中選擇的單獨控制詞典2102,將說話內容轉換成控制命令(S106)。在能夠使用單獨控制詞典2102將說話內容轉換成控制命令的情況下(在S106中為是),控制裝置使用單獨控制詞典2102將說話內容轉換成控制命令(S107)。
也就是說,在能夠使用選擇出的單獨控制詞典2102將用戶的說話內容轉換成控制命令,并且能夠使用統合控制詞典2101將用戶的說話內容轉換成控制命令的情況下,控制裝置使用統合控制詞典2101將用戶的說話內容 轉換成控制命令。如上所述,在統合控制詞典2101中,由于需要根據說話內容確定對象設備,所以上述工作相當于在用戶的說話內容包含確定對象設備的信息的情況下,使用戶的說話內容優先。
另一方面,在使用統合控制詞典2101和單獨控制詞典2102的任一個都不能將說話內容轉換成控制命令的情況下(在S106中為否),控制裝置向用戶進行用于確認控制命令的反問對話(S111),對通過該對話得到的用戶的說話內容再次進行步驟S101以后的處理。
接著,控制裝置向用戶確認控制命令是否正確(S108)。具體而言,控制裝置對用戶通知已被確定的控制命令,并得到其回答。此外,控制命令也可以包含控制內容和對象設備。
在已確定的控制命令被用戶承認的情況下(在S108中為是),控制裝置用控制命令操作對象設備(S109)。具體而言,控制裝置向對象設備發送控制命令。
另一方面,在控制命令沒有被用戶承認的情況下(在S108中為否),控制裝置向用戶進行用于確認控制命令的反問對話(S111),對通過該對話得到的用戶的說話內容再次進行步驟S101以后的處理。
以上,在用戶的視線朝向設備存在的位置以外的特定區域的情況下,選擇存在于對用戶來說不能視覺識別的空間中的設備的單獨控制詞典2102。由此,即使在根據說話內容不能確定對象設備的情況下,有時也能夠確定對象設備。因此,由于能夠減少對用戶的反問的產生,所以能夠提高用戶的便利性。
例如,用戶位于起居室中,在起居室中設置有照明,在臥室中設置有空調。在該情況下,在用戶想控制起居室的照明的情況下,用戶將視線朝向起居室的照明,通過說“接通電源”,能夠控制起居室的照明。
進一步,在用戶想控制臥室的空調的情況下,用戶通過在沒有將視線朝向配置在起居室中的任一臺設備的狀態下進行上述說話,能夠控制臥室的空調。
這樣,通過本實施方式涉及的方法,即使在對象設備存在于用戶的視 覺識別范圍外的情況下,也能夠基于用戶的視線確定對象設備。由此,在這樣的情況下,由于能夠縮短用戶的說話內容,所以能夠提高用戶的便利性,并且能夠抑制由于噪聲等的影響而對說話內容無法識別或錯誤地解釋。
此外,在圖3中,控制裝置在步驟S108和S109中進行了控制命令的確認,但也可以不進行這些處理。或者,也可以僅在步驟S105和S107的某一個之后進行控制命令的確認。例如,在基于統合控制詞典2101選擇了控制命令的情況下(S105之后),也可以不進行控制命令的確認。
另外,步驟S101~S103的一系列的處理和步驟S104和S105的處理的順序為一例,既可以以相反的順序進行這些處理,也可以并行地進行至少一部分。例如,在步驟S104中為否的情況下,也可以進行步驟S 101~S103。
以下,詳細說明各設備的構成和工作的一例。
如圖2所示,第一設備2011具備視線檢測單元2111,第二設備2012具備視線檢測單元2121。視線檢測單元2111、2121以及2131(后述)檢測用戶的視線方向。具體而言,視線檢測單元2111、2121以及2131具備紅外線相機或可視相機,解析用這些相機得到的影像,并利用臉部識別等檢測用戶的視線是否朝向本設備。此外,視線檢測單元2111、2121以及2131既可以檢測用戶面部的朝向作為視線的朝向,也可以檢測用戶的眼球的朝向作為視線的朝向。
此外,在此,敘述了各設備檢測用戶的視線是否朝向本設備的例子,但也可以通過對配置在組1100內的一臺以上相機拍攝到的影像進行解析來檢測用戶的視線方向,也可以利用其他方法檢測用戶的視線方向。
另外,在以下說明中,敘述了將該視線檢測作為觸發(trigger)判定用戶是否開始說話的例子,但作為用戶的說話開始的觸發,除了視線檢測以外或也可以代替視線檢測而使用口唇檢測、手勢檢測或“打開麥克風”這樣的固定言詞的說話檢測等。口唇檢測是根據由相機拍攝到的圖像檢測用戶的嘴的動作,即檢測口唇動作,并基于口唇動作判定用戶是否開始說話。手勢檢測基于用戶進行了拍手或舉手等預先決定的動作時由相機拍攝 到的圖像或語音數據,判定用戶是否開始說話。
聲音收集裝置2013具備視線檢測單元2131和聲音收集單元2132。聲音收集單元2132取得周圍的語音,并將該語音所包含的用戶的說話內容保持一定期間。具體而言,聲音收集單元2132基于由相機等得到的用戶的位置信息確定說話聲源(用戶)的方向,使用說話聲源的方向從得到的語音中減少周圍噪聲,由此提取用戶的說話內容。
此外,聲音收集裝置2013只要是具有聲音收集的功能、且具有能夠傳送進行聲音收集得到的數據的功能的設備即可。例如,聲音收集裝置2013是設置于天花板的天花板麥克風、用戶穿戴的可穿戴麥克風或具備聲音收集的功能的填充玩偶等。
家庭網關1102具備詞典選擇單元2141和語音對話單元2143。另外,家庭網關1102保持有設備管理信息2142。詞典選擇單元2141在用第一設備2011、第二設備2012以及聲音收集裝置2013的某一個的視線檢測單元2111、2121以及2131檢測出用戶的視線時,利用設備管理信息2142確定作為操作對象的對象設備,并選擇所確定的對象設備的單獨控制詞典2102。
設備管理信息2142表示各設備的設置場所和視線檢測功能的有無等(詳細情況將在后面敘述)。語音對話單元2143進行語音對話處理。具體而言,語音對話單元2143通過向聲音收集裝置2013發出聲音收集開始指示命令而取得包含用戶的說話內容的語音數據,并將取得的語音數據向語音對話服務器2100傳送。語音對話單元2143從語音對話服務器2100取得基于語音數據所包含的說話內容的控制命令,并將控制命令發送給對象設備。
此外,在本實施方式中,家庭網關1102和聲音收集裝置2013各自分別存在,但也可以在家庭網關1102內包含聲音收集裝置2013的功能。
語音對話服務器2100是云服務器1111之一,并保持有統合控制詞典2101和單獨控制詞典2102。該語音對話服務器2100通過語音數據解析,根據語音數據來確定說話內容,并利用統合控制詞典2101和單獨控制詞典 2102根據說話內容來確定控制命令。
在統合控制詞典2101和單獨控制詞典2102中記載了用于根據說話內容(文本)確定控制命令的規則(詳細情況將在后面敘述)。此外,在本實施方式中,語音對話服務器2100和家庭網關1102各自分別存在,但也可以在家庭網關1102內包含語音對話服務器2100的功能。另外,也可以在家庭網關1102內包含語音對話服務器2100的功能的一部分。
圖4A是表示本實施方式中的設備管理信息2142的一例的圖。
設備管理信息2142包括:唯一地確定設備的識別符信息、表示設備是否為家庭網關的屬性信息、表示設備保有的功能的種類的類別信息、表示設備是否保有聲音收集能力的聲音收集信息、表示設置有設備的場所的設置場所信息、表示設備是否為檢測出用戶的說話開始觸發(視線)的設備的說話信息。
識別符信息例如在WiFi或Bluetooth等的配對(pairing)時根據設備的MAC地址和隨機數生成。或者,識別符信息可利用ECHONET Lite的實例列表通知所包含的識別符。
在支持ECHONET Lite等家電設備控制協議的情況下,屬性信息和類別信息利用該家電設備控制的種類信息而設定。
聲音收集信息基于在WiFi或Bluetooth等的配對時通知的聲音收集功能有無而設定。設置場所信息由用戶利用家庭網關1102的設定菜單等設定。設定說話信息在從第一設備2011、第二設備2012以及聲音收集裝置2013的某一個的視線檢測單元2111、2121以及2131檢測出用戶的說話開始觸發(視線)時被設定。
圖4B是表示本實施方式中的統合控制詞典2101的一例的圖。圖4C和圖4D是表示作為本實施方式中的單獨控制詞典2102的一例的單獨控制詞典2102A和2102B的圖。
統合控制詞典2101和單獨控制詞典2102包含:表示語音識別后得到的字符串信息(說話內容)的說話識別文本信息、用于根據說話識別文本確定控制命令的行動(action,作用)信息。
統合控制詞典2101是在存在多個可成為控制對象的設備的情況下使用的詞典,作為行動信息,包含:表示根據說話識別文本確定的控制命令的控制命令信息、表示對象設備的類別(屬性)的設備信息以及表示設置有對象設備的場所的場所信息。
例如,在用戶說了“打開起居室的照明”的情況下,通過“起居室”、“照明”、“打開”的關鍵詞匹配,填充全部框架(控制命令(power_on)、設備(照明)、場所(起居室))作為行動信息。由此,進行將設置在起居室中的照明的電源設為接通的處理。
另外,在用戶說了“打開空調”的情況下,通過“空調”、“打開”的關鍵詞匹配,填充場所以外的框架(控制命令(power_on)、設備(空調))作為行動信息。在該情況下,在用戶家中只設置有一臺空調的情況下,進行將該空調的電源設為接通的處理,但在設置有兩臺以上的情況下,通過反問道“接通哪里的空調的電源?”,并由用戶指定場所,最終確定將要進行接通電源處理的對象空調。
另外,在用戶說了“打開制冷”的情況下,雖然沒有說確定設備本身的內容,但由于說了設備固有的操作指示內容,所以使用統合控制詞典2101補充設備信息。另外,在用戶說了“接通電源”或“加熱”的情況下,作為行動信息,只填充控制命令(power_on、heating_on)。因此,需要由用戶指示設備或場所的信息。
另外,如用戶說了“一并關閉”的情況那樣,有時即使只填充了行動信息中的控制命令(all_poff)也能夠進行操作。
另一方面,單獨控制詞典2102是在唯一地確定了成為控制對象的設備的情況下使用的詞典,作為行動信息,僅包含控制命令信息。圖4C和圖4D分別表示操作對象為空調的情況和操作對象為照明的情況的例子。使用單獨控制詞典2102的情況是指已經確定了成為控制對象的對象設備的種類和場所的情況。因此,例如,如果用戶說“加熱”,則進行將相應的空調設定為供暖的處理,無需確定設備信息和場所信息。
圖5是表示本實施方式中的對話信息提供系統所包含的各設備的構成 例的框圖。
除了上述視線檢測單元2111以外,第一設備2011還具備設備通信單元2112和設備命令執行單元2113。除了上述視線檢測單元2121以外,第二設備2012還具備設備通信單元2122和設備命令執行單元2123。
設備通信單元2112是ECHONET Lite等家電設備控制的協議棧(protocol stack)。具體而言,設備通信單元2112對家庭網關1102進行:啟動第一設備2011時的通知等實例列表通知、接通或斷開電源的變化的通知等設備狀態的通知、來自家庭網關1102的電源接通設定等控制命令的接收和解釋、以及控制命令的執行結果的響應。
另外,向家庭網關1102進行視線檢測結果的通知既可以利用該通知功能進行,也可以利用獨自的協議進行。
設備命令執行單元2113將從設備通信單元2112接受到的控制命令轉換為設備的硬件命令并執行。
此外,視線檢測單元2121、設備通信單元2122以及設備命令執行單元2123的功能與視線檢測單元2111、設備通信單元2112以及設備命令執行單元2113的功能相同。
除了上述視線檢測單元2131和聲音收集單元2132以外,聲音收集裝置2013還具備信息提示單元2133和設備通信單元2134。
信息提示單元2133對由視線檢測單元2131檢測出的用戶提示各種信息。例如,信息提示單元2133對用戶輸出“請說話”這樣的語音或使LED燈發光而催促用戶說話。
設備通信單元2134的功能與上述設備通信單元2112和2122相同。
除了上述詞典選擇單元2141和語音對話單元2143以外,家庭網關1102還具備設備管理單元2144、設備通信單元2145以及云通信單元2146。
設備通信單元2145的功能與上述的設備通信單元2112、2122以及2134的功能相同。云通信單元2146在利用對話功能時,管理用戶是否同意利用許可,在用戶同意了利用許可的情況下,建立與語音對話服務器2100的連接,并與語音對話服務器2100收發信息。
圖6是表示本實施方式中的用戶對對象設備說話的情況下的對話信息提供系統中的工作例的圖。例如,第一設備2011是設置在第一空間2001(一樓起居室)中的照明,第二設備2012是設置在第二空間2002(二樓臥室)中的空調,聲音收集裝置2013是設置在第一空間2001(一樓起居室)的天花板上的麥克風。用戶在第一空間2001中將視線朝向第一設備2011并說“接通電源”。
由此,第一設備2011檢測出用戶的視線朝向了本設備這一情況(S301),并向家庭網關1102通知檢測結果(S302)。家庭網關1102從統合控制詞典2101和多個單獨控制詞典2102中選擇要使用的詞典(S303)。在該情況下,由于用戶的視線朝向了第一設備2011,所以家庭網關1102選擇第一設備2011的單獨控制詞典2102。
接著,聲音收集裝置2013、家庭網關1102以及語音對話服務器2100進行語音對話處理(S304)。語音對話處理是根據對語音數據進行解析后得到的字符串信息、統合控制詞典2101以及單獨控制詞典2102確定用戶試圖的家電操作,并向用戶通知該結果的處理,所述語音數據是對用戶的說話進行聲音收集而成的數據。在圖4B中的統合控制詞典2101的例子中,不能根據說話識別文本“接通電源”確定控制命令。另一方面,在本實施方式中,在步驟S303中選擇單獨控制詞典2102,由此能夠使用該單獨控制詞典2102,根據說話識別文本“接通電源”來確定控制命令。
接著,家庭網關1102基于語音對話處理的結果,向第一設備2011發送控制命令(S305)。第一設備2011執行接收到的控制命令(S306)。
通過這樣的流程,即使是在用戶沒有進行確定設備的內容的說話的情況下,也能夠確定設備并進行操作。
此外,在用戶在說話內容中加入確定設備的要素的情況下,使由用戶的說話內容確定的設備比由步驟S303確定的設備優先,并將由用戶的說話內容確定的設備決定為對象設備。例如,在看著起居室的照明(第一設備2011)說了“打開空調”的情況下,接通臥室的空調的電源,而不是起居室的照明。
圖7是表示本實施方式中的用戶對聲音收集裝置2013說話的情況下的對話信息提供系統中的工作例的圖。用戶將視線朝向聲音收集裝置2013并說“接通電源”。
聲音收集裝置2013檢測用戶的視線朝向本設備這一情況(S311),并向家庭網關1102通知檢測結果(S312)。家庭網關1102從統合控制詞典2101和多個單獨控制詞典2102中選擇要使用的詞典(S313)。在該情況下,由于用戶的視線朝向了聲音收集裝置2013,所以家庭網關1102選擇第一設備2011和第二設備2012的單獨控制詞典2102中存在于用戶的視覺識別范圍外的第二設備2012的單獨控制詞典2102。此外,在此,用戶存在于第一空間2001(起居室),選擇作為對象設備配置于與第一空間2001不同的第二空間2002(臥室)的第二設備2012的單獨控制詞典2102。
接著,與步驟S304同樣地,聲音收集裝置2013、家庭網關1102以及語音對話服務器2100進行語音對話處理(S314)。然后,家庭網關1102基于語音對話處理的結果,向第二設備2012發送控制命令(S315)。第二設備2012執行接收到的控制命令(S316)。
通過這樣的流程,即使在用戶沒有進行確定設備的內容的說話,且用戶對尚未與設備關聯的聲音收集裝置2013說話的情況下,也能夠確定設備并進行操作。
接著,說明各裝置的工作。圖8是表示第一設備2011的工作流程的流程圖。此外,第二設備2012的工作也同樣如此。
首先,第一設備2011通過檢測用戶的視線是否朝向了本設備來檢測用戶的說話開始(S201)。第一設備2011在檢測出用戶的視線的情況下(在S201中為是),向家庭網關1102發送表示檢測出用戶的視線的視線檢測通知(S202)。
另外,第一設備2011在從家庭網關1102接收到控制命令的情況下(在S203中為是),執行接收到的控制命令(S204)。
圖9是表示聲音收集裝置2013的工作流程的流程圖。首先,聲音收集裝置2013通過檢測用戶的視線是否朝向本設備,檢測用戶的說話開始 (S211)。聲音收集裝置2013在檢測出用戶的視線的情況下(在S211中為是),向家庭網關1102發送表示檢測出用戶的視線的視線檢測通知(S212)。
圖10是表示家庭網關1102的工作流程的流程圖。家庭網關1102在從第一設備2011、第二設備2012或聲音收集裝置2013接收到視線檢測通知的情況下(在S221中為是),基于由哪個裝置檢測出視線,從統合控制詞典2101和多個單獨控制詞典2102中選擇要使用的詞典(S222)。接著,家庭網關1102進行語音對話處理(S223)。接著,家庭網關1102向對象設備發送由語音對話處理確定的控制命令(S224)。
以下,說明家庭網關1102中的詞典選擇處理(S222)的詳細情況。圖11是表示詞典選擇處理(S222)的詳細情況的流程圖。
家庭網關1102選擇統合控制詞典2101作為默認的對話詞典(S230)。
接著,家庭網關1102參照設備管理信息2142,判定作為視線檢測通知的發送源的裝置是否為家電設備(S231)。在此,家電設備是作為利用語音對話進行操作的對象的設備。
在作為視線檢測通知的發送源的裝置為家電設備的情況下(在S231中為是),除了由步驟S230選擇出的統合控制詞典2101以外,家庭網關1102還選擇作為視線檢測通知的發送源的裝置的單獨控制詞典2102(S232)。另一方面,在作為視線檢測通知的發送源的裝置不是家電設備的情況下(在S231中為否),家庭網關1102參照設備管理信息2142,判定在用戶的視覺識別范圍外是否存在設備(S233)。
具體而言,檢測用戶存在于哪個空間。例如,家庭網關1102判斷為用戶存在于與作為視線檢測通知的發送源的裝置相同的空間(例如房間)內。此外,家庭網關1102也可以判定為用戶存在于與取得了用戶語音的聲音收集裝置2013相同的空間內。另外,家庭網關1102也可以判斷為用戶存在于作為視線檢測通知的發送源的裝置的附近。或者,家庭網關1102也可以根據由設置于組1100內的相機得到的信息判定用戶的位置。
家庭網關1102參照設備管理信息2142,將存在于與用戶存在的空間(例如房間)不同的空間內的設備判斷為用戶的視覺識別范圍外的設備。 此外,在此,基于用戶和設備是否存在于相同的空間(例如房間),判定各設備是在用戶的視覺識別范圍內還是在視覺識別范圍外,但家庭網關1102也可以更詳細地判定各設備和用戶的位置,并且使用用戶存在的空間的詳細的布局信息等,根據用戶的位置確定實際上能夠視覺識別的設備,將確定出的設備以外的設備判定為用戶的視覺識別范圍外的設備。
在設備存在于用戶的視覺識別范圍外的情況下(在S233中為是),除了步驟S230中選擇的統合控制詞典2101以外,家庭網關1102還選擇用戶的視覺識別范圍外的設備的單獨控制詞典2102(S234)。
另一方面,在用戶的視覺識別范圍外不存在設備的情況下(在S233中為否),家庭網關1102不選擇單獨控制詞典2102,僅選擇在步驟S230中選擇的統合控制詞典2101作為要使用的詞典。
另外,也可以在步驟S234中選擇多個單獨控制詞典2102。另外,在該情況下,在多個單獨控制詞典2102中也可以設定優先級。
以下,說明圖6和圖7所示的語音對話處理(S304和S314)的詳細情況。圖12是表示語音對話處理(S304和S314)的工作例的圖。
首先,聲音收集裝置2013、家庭網關1102以及語音對話服務器2100進行將說話內容轉換成文本的語音識別處理(S321)。接著,家庭網關1102和語音對話服務器2100進行如下意圖理解處理:基于統合控制詞典2101和單獨控制詞典2102,根據作為語音識別處理的結果得到的識別文本輸出對設備的控制命令(S322)。在通過該意圖理解處理不能夠確定對象設備或控制命令的情況下(S323),家庭網關1102向聲音收集裝置2013指示以向用戶進行反問(S324)。當聲音收集裝置2013接收到反問的指示時,對用戶進行用于確定對象設備或控制命令的反問(S325)。
對通過該反問得到的說話內容再次進行語音識別處理(S326)和意圖理解處理(S327)。在通過該意圖理解處理能夠確定對象設備和控制命令的情況下(S328),家庭網關1102向聲音收集裝置2013發送使聲音收集裝置2013提示語音對話的結果的指示(S329)。當聲音收集裝置2013接收到結果顯示的指示時,對用戶提示語音對話結果的信息(S330)。
圖13是家庭網關1102的語音對話處理(圖10的S223)的流程圖。首先,家庭網關1102進行語音識別處理(S241)和意圖理解處理(S242)。接著,家庭網關1102判斷是否能夠確定對象設備(S243)。在能夠確定設備的情況下(在S243中為是),家庭網關1102判斷是否能夠確定控制命令(S244)。在能夠確定控制命令的情況下(在S244中為是),家庭網關1102向聲音收集裝置2013發送使聲音收集裝置2013顯示語音對話的結果的指示(S245)。
另一方面,在判斷為不能夠確定對象設備的情況下(在S243中為否)或判斷為不能夠確定控制命令的情況下(在S244中為否),家庭網關1102向聲音收集裝置2013指示以向用戶進行反問(S246)。
在此,在語音識別處理中,利用通過詞典選擇處理選擇出的單獨控制詞典2102,由此有可能能夠減少誤識別的風險。例如,在用戶說了“加熱”(あたためて)的情況下,在提取語音識別結果時,可考慮“あたためて”、“暖めて”、“溫めて”、“アタタメテ”等多個候選。在此,在選擇了空調的單獨控制詞典2102的情況下,選擇“暖めて”作為最有力候選。另外,在選擇了微波爐的單獨控制詞典2102的情況下,選擇“溫めて”。另外,在僅選擇了統合控制詞典2101的情況下,例如選定“あたためて”較好。
另外,即使進行反問,也不一定通過理想次數的說話就能進行用戶希望的設備操作。例如,在用戶說了“接通電源”的情況下,在圖4B所示的統合控制詞典2101中,如果通過反問請用戶說出設備和場所這兩個信息,則處理應該完畢。只是,實際上,并不能保證用清楚且很大的聲音,僅僅說出“空調”作為設備,說出“臥室”作為場所。也會存在混入雜音,用戶說了多余的語言,或者用戶用很小且不清楚的聲音說話的情況。這樣,由于很可能識別失敗,所以通過詞典選擇處理以盡可能少的說話進行設備操作,由此用戶的便利性會提高。在誤識別的發生太過分的情況下,可以通過對用戶提示容易識別的說話例子而實現誤識別率的降低,或者也可以通過使可愛的角色等道歉而緩和用戶的焦躁。
圖14是表示語音識別處理(圖12的S321)的工作例的圖。首先,家 庭網關1102對聲音收集裝置2013指示保持語音(S351),對語音對話服務器2100指示開始語音識別(S352)。
接受到指示的聲音收集裝置2013開始保持用戶說出的語音數據(S353)。之后,聲音收集裝置2013向用戶提示用于誘導說話的信息(S355)。另一方面,接受到指示的語音對話服務器2100開始對語音數據的語音識別(S354)。
接著,家庭網關1102取得聲音收集裝置2013保持著的語音數據(S356),并向語音對話服務器2100傳送語音數據(S357)。語音對話服務器2100對傳送來的語音數據進行語音識別處理(S358)。反復進行該一系列處理直到用戶的說話結束。
在用戶的說話結束的情況下,家庭網關1102通知聲音收集裝置2013結束語音數據的保持(S359),并通知語音對話服務器2100結束語音識別(S360)。
接受到通知的聲音收集裝置2013結束對用戶說出的語音數據的保持(S361)。接受到通知的語音對話服務器2100結束語音識別處理(S362),向家庭網關1102通知語音識別結果(S363)。
圖15是由家庭網關1102進行的語音識別處理(圖13的S241)的流程圖。
首先,家庭網關1102對聲音收集裝置2013指示保持語音,對語音對話服務器2100指示開始語音識別(S251)。接著,家庭網關1102取得聲音收集裝置2013保持著的語音數據(S252)。然后,家庭網關1102基于取得的聲音數據判斷用戶的說話是否結束(S253)。
在判斷為用戶的說話還在繼續的情況下(在S253中為否),家庭網關1102向語音對話服務器2100傳送語音數據(S254),并返回步驟S252。
另一方面,在判斷為用戶的說話結束的情況下(在S253中為是),家庭網關1102通知聲音收集裝置2013結束語音數據的保持,并通知語音對話服務器2100結束語音識別(S255)。
接著,家庭網關1102接收從語音對話服務器2100發送來的語音識別 結果(S256)。
圖16是表示意圖理解處理(圖12的S322和S327)的工作例的圖。首先,家庭網關1102對語音對話服務器2100指示開始進行意圖理解(S371)。此時,家庭網關1102例如將說話識別文本和利用詞典選擇處理選擇出的詞典的信息等作為輸入信息發送給語音對話服務器2100。
當接受意圖理解開始的指示時,語音對話服務器2100對照說話識別文本、統合控制詞典2101以及單獨控制詞典2102,決定對設備指示的行動(S372)。具體而言,語音對話服務器2100使用單獨控制詞典2102和統合控制詞典2101的每一個,根據說話識別文本來決定行動。然后,語音對話服務器2100對家庭網關1102發送表示所決定的行動的信息(S373)。此外,在基于多個詞典決定了多個行動的情況下,發送多個行動。
當接收到多個行動時,家庭網關1102確定對設備的控制命令(S374)。此時,即使用單獨控制詞典2102生成了行動,在統合控制詞典2101中填充了場所和設備的槽位(slot)或成為能夠進行設備操作的狀態的情況下,家庭網關1102也選擇統合控制詞典2101的結果。也就是說,在由統合控制詞典2101和單獨控制詞典2102這兩方生成了行動的情況下,家庭網關1102使統合控制詞典2101的行動優先。由此,例如,在用戶朝向照明說出了“打開空調”的情況下,進行接通由說話內容確定的空調的電源的處理,而不接通作為視線目的地的照明的電源。
另外,在利用多個單獨控制詞典2102生成了行動的情況下,家庭網關1102基于在設備中設定的優先級來確定要使用的行動。此外,該優先級既可以基于后述的距離信息設定,也可以基于其他條件設定。
另外,作為使由根據統合控制詞典2101生成的行動確定的命令優先的工作例,也有進行設備的一并控制的事例。例如,第一設備2011為空調,第二設備2012為照明,聲音收集裝置2013為設置于天花板的麥克風。用戶看著聲音收集裝置2013說出“一并關閉”。在該情況下,通過詞典選擇處理,選擇統合控制詞典2101和位于預定空間內的空調的單獨控制詞典2102。在圖4B所示的統合控制詞典2101中,通過利用“一并關閉”這樣 的話填充操作命令,從而成為可操作的狀態。由此,通過使統合控制詞典2101的行動優先,關閉空調和照明的電源。
此外,在上述說明中,作為檢測用戶的視線朝向不存在多臺設備的區域這一情況的方法,使用了聲音收集裝置2013具備的視線檢測單元2131的檢測結果,但也可以使用除此以外的方法。例如,視線檢測單元也可以設置在配置有多臺設備(第一設備2011和第二設備2012)的區域以外的任意區域。
例如,家庭網關1102也可以具備視線檢測單元。或者,也可以在成為用戶對話的對象的物體(人偶等)上設置視線檢測單元。進一步,成為用戶的對話對象的物體也可以是虛擬物體(全息圖等)。該情況下,例如,也可以基于由設置在組1100內的相機拍攝到的圖像,檢測用戶的視線方向。另外,在多臺設備具備的視線檢測單元都沒有檢測出用戶的視線的情況下,也可以判定為用戶的視線朝向不存在多臺設備的區域。
此外,作為檢測用戶的視線朝向不存在多臺設備的區域這一情況的方法,既可以使用上述的某一種方法,也可以使用兩種以上方法。
如上所述,本實施方式涉及的方法由基于聲音收集裝置2013收集的用戶的說話內容來操作多臺設備的控制裝置(例如家庭網關1102等)進行。此外,如上所述,控制裝置不限定于家庭網關1102,可以是系統所包含的任意設備。例如,如后面所述,控制裝置也可以包含家庭網關1102、聲音收集裝置2013以及語音對話服務器2100的功能中的至少一部分。
首先,控制裝置取得與用戶的視線朝向的方向相關的視線信息。控制裝置基于視線信息判斷用戶的視線是否朝向第一區域,所述第一區域是該用戶能夠視覺識別的空間中的一部分區域,且與存在多臺設備的位置不同(S101,S231)。
例如,第一區域為控制裝置存在的區域。具體而言,控制裝置具備檢測用戶的視線是否朝向該控制裝置的視線檢測單元,并取得該視線檢測單元檢測出用戶的視線朝向控制裝置這一情況之意作為視線信息。在視線檢測單元檢測出用戶的視線朝向控制裝置的情況下,控制裝置判斷為用戶的 視線朝向第一區域。
或者,聲音收集裝置2013設置在與多臺設備不同的位置,第一區域是聲音收集裝置2013存在的區域。具體而言,聲音收集裝置2013具備視線檢測單元2131,所述視線檢測單元2131檢測用戶的視線是否朝向該聲音收集裝置2013。控制裝置取得視線檢測單元2131檢測出用戶的視線朝向聲音收集裝置2013這一情況之意作為視線信息。在視線檢測單元2131檢測出用戶的視線朝向聲音收集裝置2013的情況下,控制裝置判斷為用戶的視線朝向第一區域。
或者,第一區域是作為用戶的說話(對話)對象的物體(人偶等)存在的區域。具體而言,物體具備視線檢測單元,所述視線檢測單元檢測用戶的視線是否朝向該物體。控制裝置取得視線檢測單元檢測出用戶的視線朝向物體這一情況之意作為視線信息。在視線檢測單元檢測出用戶的視線朝向物體的情況下,控制裝置判斷為用戶的視線朝向第一區域。
或者,第一區域是作為用戶的說話(對話)對象的假想物體(全息圖等)存在的區域。具體而言,控制裝置取得由拍攝裝置拍攝到的包含用戶的圖像作為視線信息。控制裝置根據該圖像解析用戶的視線朝向的方向。
在判斷為用戶的視線朝向所述第一區域的情況下(在S101中為否,在S231中為否),控制裝置從用于將用戶的說話內容轉換成對應的設備的控制命令的多個單獨控制詞典2102之中,選擇多臺設備中與存在于該用戶不能視覺識別的空間中的第一設備對應的第一詞典(S103、S234)。
接著,控制裝置使用選擇出的第一詞典,將用戶的說話內容轉換成控制命令(S107)。另外,控制裝置向對象設備發送控制命令(S110)。
另外,控制裝置向用戶通知利用控制命令操作的操作內容(S108),在承認了操作內容的情況下(在S109中為是),利用控制命令操作對象設備(S110)。
由此,本實施方式涉及的方法中,在用戶的視線朝向設備存在的位置以外的特定區域的情況下,通過選擇存在于對用戶來說不能視覺識別的空間中的設備的單獨控制詞典2102,能夠將該設備確定為操作對象。由此, 由于能夠減少對用戶的反問的產生,所以能夠提高用戶的便利性。
另外,控制裝置判斷用戶的視線是否朝向存在于該用戶能夠視覺識別的空間中的、多臺設備所包含的第二設備(S101、S231),在判斷為用戶的視線朝向第二設備的情況下(在S101中為是,在S231中為是),從多個單獨控制詞典2102之中選擇與該第二設備對應的單獨控制詞典2102(S102,S232)。另外,控制裝置使用選擇出的第二詞典,將用戶的說話內容轉換成控制命令(S107)。
由此,本實施方式涉及的方法中,通過在用戶將視線朝向某設備的情況下選擇該設備的單獨控制詞典2102,能夠確定該設備為操作對象。由此,由于能夠減少對用戶的反問的產生,所以能夠提高用戶的便利性。
另外,在使用選擇出的第一詞典不能將用戶的說話內容轉換成控制命令的情況下(在S106中為否),控制裝置催促用戶輸入為了確定控制命令所需的信息(S111)。
另外,多個詞典包含在存在多個可成為控制對象的設備的情況下使用的統合控制詞典2101。在能夠使用選擇出的第一詞典(單獨控制詞典2102)將用戶的說話內容轉換成控制命令,且能夠使用統合控制詞典2101將用戶的說話內容轉換成控制命令的情況下(在S104中為是),控制裝置使用統合控制詞典2101將用戶的說話內容轉換成控制命令(S105)。
由此,即使在基于用戶的視線信息選擇了單獨控制詞典2102的情況下,也能夠使根據用戶的說話內容確定的設備優先作為操作對象。因此,能夠抑制用戶意想不到的設備被錯誤地選擇為操作對象。
(實施方式2)
在本實施方式中,說明上述實施方式1涉及的對話信息提供系統的變形例。此外,在以下的實施方式中,省略與之前的實施方式重復的說明,主要說明不同之處。
本實施方式涉及的對話信息提供系統相對于實施方式1涉及的對話信息提供系統不同之處在于詞典選擇處理(圖10的S222)。具體而言,在本實施方式中,在用戶的視線沒有朝向設備的情況下,選擇存在于用戶附近 的設備的單獨控制詞典2102。
圖17是本實施方式涉及的詞典選擇處理(S222A)的流程圖。此外,相對于圖10所示的處理,圖17所示的處理包含步驟S233A和S234來取代步驟S233和S234。
在作為視線檢測通知的發送源的裝置不是家電設備的情況下(在S231中為否),家庭網關1102參照設備管理信息2142,判定在用戶附近是否存在設備(S233A)。
具體而言,家庭網關1102參照設備管理信息2142,將存在于與用戶存在的空間(例如房間)相同的空間內的設備判斷為用戶附近的設備。
在用戶附近存在設備的情況下(在S233A中為是),除了在步驟S230中選擇出的統合控制詞典2101以外,家庭網關1102還選擇用戶附近的設備的單獨控制詞典2102(S234A)。
另一方面,在用戶附近不存在設備的情況下(在S233A中為否),家庭網關1102不選擇單獨控制詞典2102,僅選擇在步驟S230中選擇的統合控制詞典2101作為要使用的詞典。
另外,也可以在步驟S234A中選擇多個單獨控制詞典2102。另外,在該情況下,在多個單獨控制詞典2102中也可以設定優先級。
圖18是表示本實施方式中的用戶對聲音收集裝置2013說話的情況下的對話信息提供系統中的工作例的圖。此外,用戶對對象設備說話的情況下的對話信息提供系統中的工作例與圖6相同。
例如,用戶將視線朝向聲音收集裝置2013說“接通電源”。
聲音收集裝置2013檢測出用戶的視線朝向本設備這一情況(S311),并向家庭網關1102通知檢測結果(S312)。家庭網關1102從統合控制詞典2101和多個單獨控制詞典2102中選擇要使用的詞典(S313A)。在該情況下,由于用戶的視線朝向聲音收集裝置2013,所以家庭網關1102選擇第一設備2011和第二設備2012中存在于用戶附近的第一設備2011的單獨控制詞典2102。此外,在此,用戶存在于第一空間2001(起居室),并選擇存在于與用戶相同的第一空間2001內的第一設備2011作為對象設備。
接著,與步驟S304同樣地,聲音收集裝置2013、家庭網關1102以及語音對話服務器2100進行語音對話處理(S314)。然后,家庭網關1102基于語音對話處理的結果,向第一設備2011發送控制命令(S315A)。第一設備2011執行接收到的控制命令(S316A)。
通過這樣的流程,即使是在用戶沒有進行確定設備的內容的說話,且用戶對尚未與設備關聯的聲音收集裝置2013說話的情況下,也能夠確定設備并進行操作。
(實施方式3)
在本實施方式中,說明上述實施方式1涉及的對話信息提供系統的變形例。在本實施方式中,第一設備2011和第二設備2012進一步具有檢測與用戶的距離的功能。對話信息提供系統基于檢測出的設備與用戶的距離,確定用戶的視覺識別范圍外的設備。
圖19是表示本實施方式中的第一設備2011A和第二設備2012A的一例的框圖。第一設備2011A和第二設備2012A除了實施方式1涉及的第一設備2011和第二設備2012的構成要素以外,還具備檢測用戶與本設備的距離的距離檢測單元2114和2124。在此,距離檢測單元2114和2124既可以檢測用戶是否存在于距本設備預定距離以內,也可以檢測用戶與本設備的距離(值)。
圖20A~圖20C是表示本實施方式中的設備管理信息2142的一例的圖。在圖20A所示的設備管理信息2142A的例子中,家庭網關1102、作為第一設備2011的照明、作為聲音收集裝置2013的天花板麥克風設置在起居室內,作為第二設備2012的空調設置在臥室內。另外,作為由距離檢測單元2114和2124取得的用戶與設備的距離信息,示出了由第一設備2011檢測出用戶這一情況。
在圖20B所示的設備管理信息2142B的例子中,雖然存在家庭網關1102、作為第一設備2011的照明、作為第二設備2012的空調以及作為聲音收集裝置2013的天花板麥克風,但未設定各裝置的設置場所。另外,作為由距離檢測單元2114和2124取得的用戶與設備的距離信息,示出了由 第一設備2011檢測出用戶這一情況。
在圖20C所示的設備管理信息2142C的例子中,家庭網關1102和作為第二設備2012的空調設置在起居室內,作為第一設備2011的微波爐和作為聲音收集裝置2013的聲音收集麥克風設置在廚房內。另外,作為由距離檢測單元2114和2124取得的用戶與設備的距離信息,示出了由第一設備2011檢測出用戶這一情況。
此外,在此,作為距離信息示出了由哪臺設備檢測出用戶,但也可以示出數值信息以知道距離的遠近。另外,作為該數值信息,也可以使用表示與設備的通信時間的信息。由此,在存在檢測出用戶的多臺設備的情況下,能夠判定哪臺設備與用戶最接近。
圖21是表示圖11所示的處理中將用戶的視覺識別范圍外的設備設定為對象設備的處理(S233和S234)的詳細情況的流程圖。
首先,家庭網關1102判定在設備管理信息2142中是否設定有設置場所信息(S401)。在設定有設置場所信息的情況下(在S401中為是),家庭網關1102選擇設置在與用戶不同的空間(例如不同的房間)中的設備的單獨控制詞典2102(S402)。
另一方面,在未設定設置場所信息的情況下(在S401中為否),家庭網關1102基于距離信息,選擇離用戶預定距離以上的設備的單獨控制詞典2102(S403)。例如,家庭網關1102選擇檢測出用戶的設備以外的設備的單獨控制詞典2102。
另外,在步驟S402和S403中,在選擇了多個單獨控制詞典2102的情況下(在S404中為是),家庭網關1102對多個單獨控制詞典2102設定優先級以使得距用戶的距離越遠優先級越高(S405)。
以下,用圖20A和圖20B的例子說明該處理的具體例。
在圖20A所示的例子中,第一設備2011為設置在起居室中的照明,第二設備2012為設置在臥室中的空調,聲音收集裝置2013為設置在天花板上的麥克風。用戶在起居室中未將視線朝向設備(例如將視線朝向聲音收集裝置2013)說了“接通電源”的情況下,設置在與用戶不同的房間內 的臥室的空調被選擇為對象設備。此外,在不同的房間中設置有多臺空調的情況下,既可以選擇這些空調的全部,也可以僅選擇距用戶最遠的設備。
另外,在圖20B所示的例子中,按距用戶的距離從近到遠的順序存在第一設備2011、第二設備2012。第一設備2011為照明,第二設備2012為空調,聲音收集裝置2013為設置在天花板上的麥克風。在用戶在起居室中未將視線朝向設備而說出“接通電源”的情況下,開始距用戶距離最遠的臥室的空調的運轉。
(實施方式4)
在本實施方式中,說明對上述實施方式2涉及的對話信息提供系統應用了與實施方式3同樣的變形例的情況。此外,第一設備2011A和第二設備2012A、設備管理信息2142的構成與實施方式3相同。
圖22是表示圖17所示的處理中將用戶附近的設備設定為對象設備的處理(S233A和S234A)的詳細情況的流程圖。
首先,家庭網關1102判定在設備管理信息2142中是否設定有設置場所信息(S401)。在設定有設置場所信息的情況下(在S401中為是),家庭網關1102選擇設置在與用戶相同的空間(例如相同的房間)中的設備的單獨控制詞典2102(S402A)。
另一方面,在未設定設置場所信息的情況下(在S401中為否),家庭網關1102基于距離信息,選擇存在于距用戶預定距離以內的設備的單獨控制詞典2102(S403A)。例如,家庭網關1102選擇檢測出用戶的設備的單獨控制詞典2102。
另外,在步驟S402A和S403A中,在選擇了多個單獨控制詞典2102的情況下(在S404中為是),家庭網關1102對多個單獨控制詞典2102設定優先級以使得距用戶的距離越近優先級越高(S405A)。
以下,用圖20A~圖20C的例子說明該處理的具體例。
在圖20A所示的例子中,第一設備2011為設置在起居室中的照明,第二設備2012為設置在臥室中的空調,聲音收集裝置2013為設置在天花板上的麥克風。在用戶在起居室中未將視線朝向設備而說了“接通電源” 的情況下,設置在與用戶相同的房間內的起居室的空調被選擇為對象設備。此外,在起居室中設置有多臺空調的情況下,既可以選擇這些空調的全部,也可以僅選擇距用戶最近的設備。
另外,在圖20B所示的例子中,按距用戶的距離從近到遠的順序存在第一設備2011、第二設備2012。第一設備2011為照明,第二設備2012為空調,聲音收集裝置2013為設置在天花板上的麥克風。在用戶在起居室中未將視線朝向設備而說出“接通電源”的情況下,距用戶的距離最近的起居室照明的電源被接通。由此,能夠向用戶提供更加舒適的環境。
另外,在圖20C所示的例子中,第一設備2011為設置在廚房中的微波爐,第二設備2012為設置在起居室中的空調,聲音收集裝置2013為設置在廚房中的具有麥克風功能的顯示設備。在用戶在廚房中利用顯示設備一邊檢索菜譜一邊說了“加熱”的情況下,也同樣地選擇微波爐,所述微波爐是與正在說話的用戶的距離為閾值以內的設備。或者,在將用戶所在的場所確定為廚房時,不僅根據距離的遠近,還通過使作為廚房家電種類的設備的微波爐優先而有可能更容易推定用戶的意圖。
(實施方式5)
在本實施方式中,說明上述實施方式4的變形例。另外,在本實施方式中,說明用戶利用自己專用的填充玩偶、虛擬化身(Avatar)或可穿戴麥克風等,通過說話來確認或操作家電設備的狀態的情況。具體而言,在用戶不將視線朝向設備而說話且由用戶專用的聲音收集裝置取得了說話的情況下,選擇與該用戶建立了關聯的設備(例如,設置在該用戶的房間中的設備)。
圖23是表示本實施方式中的對話信息提供系統的一例的圖。相對于圖2所示的對話信息提供系統,圖23所示的對話信息提供系統中,組1100A的構成與組1100不同。具體而言,組1100A還包含聲音收集裝置2014。聲音收集裝置2014具備視線檢測單元2151和聲音收集單元2152。視線檢測單元2151和聲音收集單元2152的功能與聲音收集裝置2013具備的視線檢測單元2131和聲音收集單元2132相同。聲音收集裝置2014進一步保持 用戶信息2155。用戶信息2155表示使用聲音收集裝置2013的用戶(所有者)的名稱或識別符等。
圖24是表示本實施方式中的設備管理信息2142的一例的圖。在圖24所示的設備管理信息2142D的例子中,家庭網關1102、作為第一設備2011的照明、作為聲音收集裝置2013的天花板麥克風設置在起居室內,作為第二設備2012的空調設置在兒童房間內。另外,兒童將作為聲音收集裝置2014的可穿戴麥克風戴在身上并想要說話。
圖25是表示將用戶附近的設備設定為對象設備的處理(圖17的S233A和S234A)的詳細情況的流程圖。圖25所示的處理相對于圖22所示的處理追加了步驟S406和S407。
在設定有設置場所信息的情況下(在S401中為是),家庭網關1102判定用戶是否利用像天花板麥克風那樣的設置場所被固定的設置麥克風進行了說話(S406)。在用戶利用設置麥克風說話了的情況下(在S406中為是),與實施方式4同樣地,進行步驟S402A以后的處理。
另一方面,在用戶沒有利用設置麥克風說話的情況下,也就是說,利用與該用戶關聯的可穿戴麥克風等便攜麥克風說話了的情況下(在S406中為否),家庭網關1102選擇設置在用戶的房間中的設備的單獨控制詞典2102(S407)。
在圖24的例子中說明該處理的具體例。
在圖24的例子中,第一設備2011為設置在起居室中的照明,第二設備2012為設置在用戶的房間中的空調,聲音收集裝置2014為用戶專用的可穿戴麥克風。在用戶在起居室中利用可穿戴麥克風說出“接通電源”的情況下,選擇設置在用戶的房間中的第二設備2012的單獨控制詞典2102。
這樣,即使在像“接通電源”那樣用戶沒有說出確定設備的情況下,也能夠確定設備并控制相應的設備。
此外,也可以預先對用戶設定優先級。由此,在多個用戶同時說話的情況下,使優先級更高的用戶的說話優先。例如,也可以在家人中,將大人的優先級設定為比兒童高。或者,也可以將家人的優先級設定為高,將 來客等未預先登記的用戶的優先級設定為低。
此外,在此,作為實施方式4的變形例,說明了本實施方式的工作,但對其他實施方式也能夠應用同樣的變形例。
如上所述,控制裝置基于通過多個聲音收集裝置2013和2014的某一個收集的用戶的說話來操作對象設備。多個聲音收集裝置2013和2014包含與用戶預先關聯的第一聲音收集裝置2014。在由第一聲音收集裝置2014收集到用戶的說話的情況下,控制裝置選擇多臺設備(第一設備2011和第二設備2012)的單獨控制詞典2102中的、與用戶預先建立了關聯的設備的單獨控制詞典2102。
由此,能夠使與用戶關聯的設備優先作為操作對象。因此,能夠抑制用戶意想不到的設備被錯誤地選擇為操作對象。
(實施方式6)
在本實施方式中,說明上述實施方式5涉及的對話信息提供系統的變形例。
圖26是表示本實施方式中的語音對話服務器2100A的一例的框圖。語音對話服務器2100A除了語音對話服務器2100的構成以外,還保持有記載了控制腳本的腳本信息2103,所述控制腳本包括多個行動信息的組。另外,統合控制詞典2101A的構成與統合控制詞典2101不同。
圖27A、圖27B以及圖27C分別是表示本實施方式中的統合控制詞典2101A、腳本信息2103以及單獨控制詞典2102C的一例的圖。
腳本信息2103包含:相當于控制腳本的名稱的作為字符串的標簽、表示能夠使用該控制腳本的用戶的對象用戶信息以及該控制腳本所包含的多個行動信息(控制命令、設備信息以及場所信息的組)的列表。
對象用戶信息是與聲音收集裝置2014保持的用戶信息2155同樣的信息。也就是說,僅對由對象用戶信息表示的用戶適用控制腳本。
例如,分配了“晚安”這樣的標簽的控制腳本是在用戶的就寢時自動進行空調控制的控制腳本。通過從上到下按順序執行所記載的行動信息,進行如下控制:在適當的定時切斷用戶房間的空調的電源,另外,在起床 時,在成為舒適的環境的定時接通用戶房間的空調的電源。此外,在此,作為行動,記載了場所和設備的種類,但在多臺設備存在于同一空間的情況下,既可以操作該全部設備,也可以選擇性地操作某一臺代表設備。另外,也可以通過向位于同一空間的各設備分配能夠唯一地確定各設備的識別符,并在腳本信息2103中記載該識別符,從而單獨地操作各設備。
在統合控制詞典2101A中記載了說話識別文本與腳本的對應關系。具體而言,統合控制詞典2101A包含:表示與說話識別文本對應的控制腳本的腳本信息和表示能夠使用該控制腳本的用戶的對象用戶信息。
在用戶說了“晚安”的情況下,對于行動信息沒有填充任一個框架,但填充了腳本的框架。由此,從腳本信息2103所包含的控制腳本中,執行與上述“晚安”這樣的標簽對應的控制腳本。
此外,這樣的用戶專用的規則是用戶能夠任意追加和刪除的規則。例如,家庭網關1102具備液晶顯示器等畫面輸出單元和觸摸面板等信息輸入單元。用戶使用它們輸入設備的控制內容和用于執行這些控制內容的說話文本的信息。家庭網關1102向語音對話服務器2100發送被輸入的信息,語音對話服務器2100向統合控制詞典2101A反映該信息。由此,用戶能夠將用戶專用的規則設定為統合控制詞典2101A。
另外,用戶專用規則也可以由服務提供商或詞典制作者追加。也就是說,用戶專用規則也可以由對話服務器2100自動地追加。例如,也可以分析用戶具有的屬性或系統利用傾向,并追加更適合于用戶的規則。例如,在根據用戶的出生地信息或說話歷史記錄知道了用戶使用特定方言的情況下,通過向詞典追加使用了該方言的規則,容易實現用戶期待的設備控制。
另外,除了以下這一點,本實施方式中的對話信息提供系統的工作流程與實施方式1中的工作相同。在圖16所示的步驟S371中的意圖理解開始時,家庭網關1102一起發送說話了的用戶的用戶信息。在步驟S372中,語音對話服務器2100對照接收到的用戶信息和統合控制詞典2101A內的對象用戶信息。由此,語音對話服務器2100能夠僅生成相應的用戶設定好的行動。因此,即使用戶A以外的用戶說了“晚安”,由于說話了的用戶 的用戶信息與在統合控制詞典2101A中記載的對照用戶信息不一致,所以不生成行動。另外,即使用戶A使用未保持用戶信息2155的聲音收集裝置2013并說了“晚安”,由于語音對話服務器2100不能取得說話了的用戶的信息,所以不能進行對照,不生成行動。
以下,說明工作例。第一設備2011為設置在起居室中的空調,第二設備2012為設置在用戶A的房間中的空調,聲音收集裝置2014為保持有用戶A的用戶信息2155的可穿戴麥克風。
在用戶A利用可穿戴麥克風并說了“晚安”的情況下,利用圖27A和圖27B所示的統合控制詞典2101A和腳本信息2103,控制用戶A的房間和起居室的空調的定時器。在此,當想要使用圖27C所示的單獨控制詞典2102C進行同樣的設定時,用戶需要對起居室的空調說“切斷電源”和“在6:30接通電源”,對臥室的空調說“在0:00切斷電源”和“在6:30接通電源”。這樣,通過使用統合控制詞典2101A,用戶能夠以更簡單的說話來實現復雜的操作。
另外,同樣地,通過向聲音收集裝置2014登記每個用戶的信息或為各用戶準備與聲音收集裝置2014同樣的聲音收集裝置并向統合控制詞典2101A補記規則,由此,例如即使在用戶說了“晚安”的情況下,也能夠按用戶執行不同的設備控制。
如上所述,在多個詞典(統合控制詞典2101A和單獨控制詞典2102)所包含的第三詞典中,將用戶的說話內容和針對多臺設備中的一臺以上設備的多個控制命令進行關聯。控制裝置使用第三詞典,將用戶的說話內容轉換成多個控制命令。
由此,不僅能夠以少的說話執行復雜的控制,還能夠執行適合于各個用戶的設備控制。
(實施方式7)
在本實施方式中,說明上述實施方式1的變形例。在本實施方式中,對話信息提供系統誘導用戶以使得在開始聲音收集時讓用戶明示地指示想操作的設備。具體而言,對話信息提供系統催促用戶朝向對象設備的方向 說話。
圖28是詞典選擇處理(S222)的變形例(S222B)的流程圖。圖28所示的處理相對于圖11所示的處理追加了步驟S235和S236。
在作為視線檢測通知的發送源的裝置不是家電設備的情況下(在S231中為否),家庭網關1102判定是否進行了讓用戶將視線朝向對象設備說話的通知(S235)。在沒有進行通知的情況下(在S235中為否),家庭網關1102向具有向用戶提示信息的信息提示能力的聲音收集裝置2013等指示以向用戶傳遞消息(S236)。例如,該消息是“請朝向想操作的設備并說話”等。
由此,能夠更明確地確定用戶想操作的設備。
(其他變形例)
此外,在上述實施方式中說明的技術例如也可利用以下構成來實現。
在圖29中,視線檢測單元2131和聲音收集單元2132分離為不同的設備。也就是說,圖29所示的組1100B具備視線檢測裝置2013A和聲音收集裝置2013B來取代聲音收集裝置2013,所述視線檢測裝置2013A具備視線檢測單元2131,所述聲音收集裝置2013B具備聲音收集單元2132。通過設為這樣的構成,不僅能夠降低設備的單價,還因能夠使設備小型化和輕量化而使設備能夠容易攜帶。由此,能夠提高視線檢測的精度。
在圖30所示的組1100C中,家庭網關1102A保持有統合控制詞典2147和單獨控制詞典2148。通過設為這樣的構成,在電波不良或有線LAN纜線脫落的情況下等通信切斷時,也能夠實施利用說話進行的設備控制。另外,由于在能夠進行通信的情況下也能夠減少通信的額外開銷,所以能夠提高響應性。
此外,在該情況下,也可以由家庭網關1102A和語音對話服務器2100這兩方實施意圖理解處理。在該情況下,由于可以設想家庭網關1102A保有的統合控制詞典2147和單獨控制詞典2148與語音對話服務器2100保有的統合控制詞典2101和單獨控制詞典2102產生差異的情況,所以只用某一方就可能得到期望的結果。
在圖31所示的例子中,在家庭網關1102A中保持統合控制詞典2147和單獨控制詞典2148,且不存在語音對話服務器2100。通過設為這樣的構成,即使在不與互聯網連接的環境中也能夠實施利用說話進行的設備控制。
在圖32所示的組1100D中,將家庭網關1102和聲音收集裝置2013一體化。組1100D所包含的家庭網關1102B具備視線檢測單元2131和聲音收集單元2132。通過設為這樣的構成,由于無需用設備間通信進行視線檢測通知等,所以可減少通信的額外開銷,因此能夠提高對用戶的響應性。
在圖33所示的組1100E中,各設備保持與該設備對應的單獨控制詞典。具體而言,第一設備2011B保持與該第一設備2011B對應的單獨控制詞典2115,第二設備2012B保持與該第二設備2012B對應的單獨控制詞典2125。這是提供專用于設備的單獨控制詞典的一個方式。
語音對話服務器2100在未保持與這些設備對應的單獨控制詞典的情況下,在控制這些設備時只能使用統合控制詞典2101。因此,家庭網關1102與更新設備管理信息2142的定時等相匹配而收集各設備具有的詞典的信息。并且,在語音對話服務器2100中沒有相應的詞典或在語音對話服務器2100中保持的單獨控制詞典2102的版本很舊的情況下,家庭網關1102將收集到的詞典上傳到語音對話服務器2100。由此,語音對話服務器2100能夠使用專用于這些設備的最新的單獨控制詞典2102。但是,這些單獨控制詞典2102應該僅對成為上傳源的設備所屬的組中的說話使用。
此外,在上述技術方案中說明的技術例如能夠在以下的云服務類型中實現。但是,實現在上述技術方案中說明的技術的云服務的類型不限于此。
(服務類型1:自己公司數據中心型云服務)
圖34是表示服務類型1(自己公司數據中心型云服務)中的信息管理系統提供的服務的整體畫面的圖。在本類型中,服務提供商1120從組1100取得信息,并對用戶提供服務。在本類型中,服務提供商1120具有數據中心運營公司的功能。即,服務提供商1120保有管理大數據的云服務器1111。因此,不存在數據中心運營公司。
在本類型中,服務提供商1120運營和管理數據中心(云服務器)1203。 另外,服務提供商1120管理操作系統(OS)1202和應用1201。服務提供商1120使用服務提供商1120管理的OS1202和應用1201而提供服務(箭頭1204)。
(服務的類型2:IaaS利用型云服務)
圖35是表示服務類型2(IaaS利用型云服務)中的信息管理系統提供的服務的整體畫面的圖。在此,IaaS是Infrastructure-as-a-Service(基礎設施即服務)的簡稱,是將用于構建計算機系統并使之工作的基礎本身作為經由互聯網的服務而提供的云服務提供模型。
在本類型中,數據中心運營公司1110運營和管理數據中心(云服務器)1203。另外,服務提供商1120管理OS1202和應用1201。服務提供商1120使用服務提供商1120管理的OS1202和應用1201而提供服務(箭頭1204)。
(服務的類型3:PaaS利用型云服務)
圖36是表示服務類型3(PaaS利用型云服務)中的信息管理系統提供的服務的整體畫面的圖。在此,PaaS是Platform-as-a-Service(平臺即服務)的簡稱,是將平臺作為經由互聯網的服務而提供的云服務提供模型,所述平臺成為用于構建軟件并使之工作的基礎。
在本類型中,數據中心運營公司1110管理OS1202,并運營和管理數據中心(云服務器)1203。另外,服務提供商1120管理應用1201。服務提供商1120使用數據中心運營公司1110管理的OS1202和服務提供商1120管理的應用1201提供服務(箭頭1204)。
(服務的類型4:SaaS利用型云服務)
圖37是表示服務類型4(SaaS利用型云服務)中的信息管理系統提供的服務的整體畫面的圖。在此,SaaS是Software-as-a-Service(軟件即服務)的簡稱。SaaS利用型云服務例如是具有如下功能的云服務提供模型:不保有數據中心(云服務器)的公司或個人等利用者能夠經由互聯網等網絡,使用保有數據中心(云服務器)的平臺提供者提供的應用。
在本類型中,數據中心運營公司1110管理應用1201,管理OS1202,并運營和管理數據中心(云服務器)1203。另外,服務提供商1120使用數 據中心運營公司1110管理的OS1202和應用1201提供服務(箭頭1204)。
以上,在任一種云服務的類型中,都是服務提供商1120提供服務。另外,例如服務提供商或數據中心運營公司也可以自己開發OS、應用或大數據的數據庫等,另外,也可以外包給第三者。
以上,說明了本公開的實施方式涉及的對話信息提供系統,但本公開不限定于該實施方式。
另外,上述實施方式涉及的對話信息提供系統所包含的各處理單元典型地以作為集成電路的LSI實現。這些各處理單元可以分別形成為獨立的單片,也可以形成為包含一部分或全部處理單元的單片。
并且,集成電路化的方法不限于LSI,也可以以專用電路或通用處理器來實現。在LSI制造后,也可以利用可編程的FPGA(Field Programmable Gate Array:現場可編程門陣列)或利用能夠將LSI內部的電路單元的連接以及設定重新構建的可重構處理器(Reconfigurable processor)。
此外,在上述各實施方式中,各構成要素可由專用硬件構成,也可以通過執行適于各構成要素的軟件程序來實現。各構成要素也可以通過CPU或處理器等程序執行單元讀出并執行記錄在硬盤或半導體存儲器等記錄介質中的軟件程序來實現。
而且,本公開既可以是上述程序,也可以是記錄有上述的程序的非暫時性計算機可讀取記錄介質。并且,上述程序當然能夠經由互聯網等傳輸介質流通。
另外,框圖中的功能塊的分割為一例,可以將多個功能塊作為一個功能塊而實現,將一個功能塊分割為多個,或將一部分功能轉移到其他功能塊。另外,也可以是單一的硬件或軟件以并行或時分方式處理具有類似功能的多個功能塊的功能。
另外,執行上述流程圖等所示的多個步驟的順序是為了具體說明本公開而例示的順序,也可以是上述以外的順序。并且,上述步驟的一部分也可以與其他的步驟同時(并行)執行。
以上,基于實施方式說明了一個或多個技術方案涉及的對話信息提供 系統,但本公開不限定于該實施方式。只要不脫離本公開的主旨,對本實施方式實施了本領域技術人員能夠想到的各種變形而得到實施方式、以及組合不同的實施方式中的構成要素而構建的實施方式均包含在一個或多個技術方案的范圍內。