語音再現方法、語音對話裝置的制造方法
【專利摘要】本發明涉及語音再現方法、語音對話裝置。本公開提供能夠采用與講話者的周圍的狀況相應的再現方法再現應答語音的語音再現方法、語音對話裝置和語音對話程序。語音再現方法包括:取得包含對語音對話系統講話的講話語音的、表示講話語音的講話者的周圍的聲音的周圍語音信息的步驟(S301);將周圍語音信息分離為包含講話語音的第1語音信息和包含除了講話語音以外的聲音的第2語音信息的步驟(S302);將第1語音信息的聲級和第2語音信息的聲級進行比較的步驟(S303);以及根據比較的結果,采用第1再現方法和再現的語音的指向性與第1再現方法不同的第2再現方法的某一方再現應答語音的步驟(S304、S305)。
【專利說明】
語音再現方法、語音對話裝置
技術領域
[0001]本公開涉及將對于講話語音的應答語音進行再現的語音再現方法、語音對話裝置。
【背景技術】
[0002]以往,提出了如下技術:在對話系統中,根據由呈陣列狀配置的多個麥克風拾取的講話者的講話信號,來推定講話者存在的方向,并將呈陣列狀配置的多個揚聲器的指向性朝向講話者存在的方向再現應答語音。
[0003]例如,專利文獻I中公開了一種語音輸入裝置,具備:由排列的多個麥克風構成的麥克風陣列;由排列的多個揚聲器構成的揚聲器陣列;和基于與由麥克風陣列檢測出的講話者的方向相關的信息而將揚聲器陣列的指向性朝向講話者的方向的控制單元。
[0004]另外,例如專利文獻2中公開了一種指向性擴音裝置,該裝置在能夠利用多個揚聲器在不同的區域聽取不同的信號源的聲音的指向性擴音控制系統中,在預定的聽取區域難以聽到某個信號源的聲音,或者為了在不同的聽取區域聽到各自分開的聲音而將各自分開的聲音信息傳達到多個聽取區域。
[0005]在先技術文獻
[0006]專利文獻I:日本特開2006-270876號公報
[0007]專利文獻2:日本特開2001-95082號公報
【發明內容】
[0008]但是,上述的以往的裝置中,始終將指向性只朝向講話者存在的方向再現應答語音,因此有時語音對話系統會發生不良情況。例如有可能發生以下這樣的不良情況:在想要聽到(想要使其聽到)應答語音的人沒有進入指向性區域的情況下,該人沒能聽到應答語音;或者,在不想聽到(不想使其聽到)應答語音的人進入指向性區域的情況下,該人聽到了應答語首。
[0009]本公開的一技術方案涉及的語音再現方法,是語音對話系統中的語音再現方法,取得包含對所述語音對話系統講話的講話語音的、表示所述講話語音的講話者的周圍的聲音的周圍語音信息,將所述周圍語音信息分離為包含所述講話語音的第I語音信息和包含除了所述講話語音以外的聲音的第2語音信息,將所述第I語音信息的聲級和所述第2語音信息的聲級進行比較,根據比較的結果,采用第I再現方法和再現的聲音的指向性與所述第I再現方法不同的第2再現方法中的某一方再現對所述講話語音的應答語音。
[0010]根據本公開,能夠采用與講話者的周圍的狀況相應的再現方法再現應答語音。
【附圖說明】
[0011]圖1是表示本公開的實施方式中的語音對話裝置的構成的圖。
[0012]圖2是表示本公開的實施方式中的控制部的功能構成的圖。
[0013]圖3是表示本實施方式中的語音對話裝置的工作的一例的流程圖。
[0014]圖4是表示本實施方式中的語音對話系統的構成的圖。
[0015]圖5是用于說明本實施方式中的語音對話系統的工作的順序圖。
[0016]圖6是用于說明對語音對話裝置講話的講話者的講話語音的聲級高于除了講話語音以外的聲音的聲級的情況下的應答語音的第I再現方法的示意圖。
[0017]圖7是用于說明對語音對話裝置講話的講話者的講話語音的聲級低于除了講話語音以外的聲音的聲級的情況下的應答語音的第2再現方法的示意圖。
[0018]圖8是表示本實施方式的變形例4中的語音對話裝置的工作的一例的流程圖。
[0019]圖9是表示本實施方式的變形例6中的語音對話系統的工作的一例的流程圖。
[0020]圖10是表示本實施方式的變形例7中的語音對話裝置的工作的一例的流程圖。
[0021]圖11是表示本實施方式的變形例8中的語音對話裝置的工作的一例的流程圖。
[0022]圖12是表示本實施方式的變形例9中的語音對話裝置的工作的一例的流程圖。
[0023]圖13是表示本實施方式的變形例10中的語音對話裝置的工作的一例的流程圖。
[0024]圖14是表示本實施方式的變形例11中的語音對話裝置的工作的一例的流程圖。
[0025]圖15是表示本實施方式的變形例12中的語音對話裝置的工作的一例的流程圖。
[0026]附圖標記說明
[0027]100語音對話裝置
[0028]101語音取得部
[0029]102通信部
[0030]103 顯示部
[0031]104控制部
[0032]105再現部
[0033]106圖像取得部
[0034]107 聲音信息DB
[0035]HO服務器裝置
[0036]111 控制部
[0037]112通信部
[0038]113 聲音信息DB
[0039]201聲音信息取得部
[0040]202分析部[0041 ]203判斷部
[0042]204通常再現控制部
[0043]205區域再現控制部
[0044]206再現控制部
【具體實施方式】
[0045](成為本公開的基礎的見解)
[0046]考慮到:一般來說,在通過講話者對語音對話系統發出語音指令來控制設備時,是在混入了周圍的噪音或除了對語音對話系統講話的講話者以外的講話者的語音的噪音環境下使用語音對話系統。因此,正在研究:通過使來自語音對話系統的應答語音具有指向性,從而僅向正在與語音對話系統對話的人再現應答語音。例如,在語音對話系統前存在多個人,想要聽到對于講話語音的應答語音的人只有講話者一人的情況下,如果采用不具有指向性的通常的再現方法再現應答語音,則有時由于周圍的雜音等噪音導致講話者難以聽到應答語音,或原本不想被其聽到的人聽到了應答語音。因此,例如專利文獻I所公開的技術那樣,將揚聲器的指向性只朝向特定的人的方向再現應答語音是有效的。
[0047]但是,如果使用專利文獻I所公開的裝置,則有可能產生下述問題。例如存在這樣的問題:在語音對話系統前存在多個人,其所有人想要聽到對于講話語音的應答語音的情況下,如果像專利文獻I那樣將指向性只朝向講話的特定的人的位置再現應答語音,則想要聽到應答語音的除了講話者以外的人無法聽到應答語音。
[0048]S卩,專利文獻I的裝置無法根據講話者的周圍的狀況而采用最佳的再現方法再現應答語音。另外,專利文獻2的裝置也同樣沒有對根據講話者的周圍的狀況而采用最佳的再現方法再現應答語音進行研究。
[0049]為解決上述那樣的問題,本公開的一技術方案涉及的語音再現方法,是語音對話系統中的語音再現方法,取得包含對所述語音對話系統講話的講話語音的、表示所述講話語音的講話者的周圍的聲音的周圍語音信息,將所述周圍語音信息分離為包含所述講話語音的第I語音信息和包含除了所述講話語音以外的聲音的第2語音信息,將所述第I語音信息的聲級和所述第2語音信息的聲級進行比較,根據比較的結果,采用第I再現方法和再現的語音的指向性與所述第I再現方法不同的第2再現方法中的某一方再現對所述講話語音的應答語首。
[0050]根據該構成,取得包含對語音對話系統講話的講話語音的、表示講話語音的講話者的周圍的聲音的周圍語音信息。周圍語音信息被分離為包含講話語音的第I語音信息和包含除了講話語音以外的聲音的第2語音信息。將第I語音信息的聲級和第2語音信息的聲級進行比較。根據比較的結果,采用第I再現方法和再現的語音的指向性與第I再現方法不同的第2再現方法中的某一方再現對于講話語音的應答語音。
[0051]因此,根據包含對語音對話系統講話的講話語音的第I語音信息的聲級、與包含除了講話語音以外的聲音的第2語音信息的聲級的比較結果,采用第I再現方法和再現的語音的指向性與第I再現方法不同的第2再現方法中的某一方再現應答語音,所以能夠采用與講話者的周圍的狀況相應的再現方法再現應答語音。
[0052]另外,上述的語音再現方法中,可以設置成:所述第I再現方法是不具有指向性的再現方法,所述第2再現方法是對所述講話者具有指向性的再現方法,在所述第I語音信息的聲級高于所述第2語音信息的聲級的情況下,采用所述第I再現方法再現所述應答語音,在所述第I語音信息的聲級低于所述第2語音信息的聲級的情況下,采用所述第2再現方法再現所述應答語音。
[0053]根據該構成,第I再現方法是不具有指向性的再現方法,第2再現方法是對講話者具有指向性的再現方法。在第I語音信息的聲級高于第2語音信息的聲級的情況下,采用第I再現方法再現應答語音,在第I語音信息的聲級低于第2語音信息的聲級的情況下,采用第2再現方法再現應答語音。
[0054]設想:在第I語音信息的聲級高于第2語音信息的聲級的情況下,除了講話者以外的人也為了確認應答語音而不發出聲音。因此,第I語音信息的聲級高于第2語音信息的聲級的情況下,采用不具有指向性的再現方法再現應答語音,因此除了講話者以外的人也能夠聽到應答語音。
[0055]另外,設想:在第I語音信息的聲級低于第2語音信息的聲級的情況下,除了講話者以外的人由于不關心應答語音從而發出了聲音。因此,第I語音信息的聲級低于第2語音信息的聲級的情況下,采用對講話者具有指向性的再現方法再現應答語音,因此只有講話者能夠聽到應答語首。
[0056]另外,上述的語音再現方法中,可以設置成:對所述第I語音信息進行語音識別,使用所述語音識別的結果來生成應答語音,采用所述第I再現方法和所述第2再現方法中的某一方再現所述應答語音。
[0057]根據該構成,對分離出的第I語音信息進行語音識別。使用語音識別的結果生成應答語音。所生成的應答語音通過第I再現方法和第2再現方法中的某一方再現。
[0058]因此,能夠使用對于第I語音信息的語音識別的結果生成應答語音。
[0059]另外,上述的語音再現方法中,可以設置成:所述周圍語音信息包含從含有多個麥克風的陣列麥克風系統取得的、以每預定的角度具有指向性的多個周圍語音信息,通過判斷所述多個周圍語音信息的各自是否為對所述語音對話系統的所述講話語音,而將所述周圍語音信息分離為所述第I語音信息和所述第2語音信息。
[0060]根據該構成,周圍語音信息包含從含有多個麥克風的陣列麥克風系統取得的、以每預定的角度具有指向性的多個周圍語音信息。通過判斷多個周圍語音信息的各自是否為對語音對話系統的講話語音,能夠將周圍語音信息分離為第I語音信息和第2語音信息。
[0061]另外,上述的語音再現方法中,可以設置成:在采用所述第2再現方法再現所述應答語音時,向所述多個周圍語音信息中的、判斷為是對所述語音對話系統的所述講話語音的所述周圍語音信息被取得的角度的方向,再現所述應答語音。
[0062]根據該構成,采用第2再現方法再現應答語音時,向判斷為是對語音對話系統的講話語音的周圍語音信息被取得的角度的方向,再現應答語音。因此,能夠向講話者所在的方向切實地再現應答語音。
[0063]另外,上述的語音再現方法中,可以設置成:在所述多個周圍語音信息的某一個包含預先存儲的預定的關鍵字的情況下,判斷為該包含預定的關鍵字的周圍語音信息是對所述語音對話系統的講話語音。
[0064]根據該構成,在多個周圍語音信息的某一個包含預定的關鍵字的情況下,判斷為該包含預定的關鍵字的周圍語音信息是對語音對話系統的講話語音。
[0065]因此,能夠從多個周圍語音信息中,切實地分離出包含對語音對話系統的講話語音的第I語音信息。
[0066]另外,上述的語音再現方法中,可以設置成:采用譜減法將所述周圍語音信息分離為所述第I語音信息和所述第2語音信息。
[0067]根據該構成,能夠采用譜減法,從而將周圍語音信息分離為第I語音信息和第2語音信息。
[0068]另外,上述的語音再現方法中,可以設置成:根據所述周圍語音信息來識別周圍的人,基于將所述第I語音信息的聲級和所述第2語音信息的聲級比較的結果、以及識別所述周圍的人的結果,切換采用所述第I再現方法和所述第2再現方法中的哪一方進行再現。
[0069]根據該構成,通過周圍語音信息來識別講話者的周圍的人。基于將第I語音信息的聲級和第2語音信息的聲級比較的結果、以及識別講話者周圍的人的結果,切換采用第I再現方法和第2再現方法中的哪一方進行再現。
[0070]因此,可以根據講話者的周圍的人是誰,而切換采用不具有指向性的再現方法和對講話者具有指向性的再現方法中的哪一方再現應答語音。
[0071]另外,上述的語音再現方法中,可以設置成:使用將過去取得的所述第I語音信息與過去再現所述第I語音信息時所選擇的所述第I再現方法和所述第2再現方法中的某一方相關聯地存儲的表格,選擇再現所述應答語音的再現方法。
[0072]根據該構成,使用將過去取得的第I語音信息與過去再現第I語音信息時所選擇的第I再現方法和第2再現方法中的某一方相關聯地存儲的表格,選擇再現應答語音的再現方法。
[0073]因此,基于過去的歷史記錄選擇再現方法,所以能夠縮短決定再現方法所需的處理時間。
[0074]另外,上述的語音再現方法中,可以設置成:取得所述語音對話系統的周圍的圖像,根據所述圖像來檢測注視著所述語音對話系統的人,在采用所述第2再現方法再現所述應答語音時,向檢測出的所述人再現所述應答語音。
[0075]根據該構成,取得語音對話系統的周圍的圖像,根據圖像來檢測注視著語音對話系統的人。在采用第2再現方法再現應答語音時,向檢測出的人再現應答語音。
[0076]因此,由于注視著語音對話系統的人有可能關心應答語音,所以能夠向注視著語首對話系統的人再現應答語首。
[0077]另外,上述的語音再現方法中,可以設置成:所述第I再現方法是不具有指向性的再現方法,所述第2再現方法是對講話者具有指向性的再現方法,取得所述語音對話系統的周圍的圖像,根據所述圖像來檢測注視著所述語音對話系統的人的數量,根據所述人的數量的檢測結果來判斷是否為多個人注視著所述語音對話系統,在判斷為多個人注視著所述語音對話系統的情況下,采用所述第I再現方法再現所述應答語音,在判斷為不是多個人注視著所述語音對話系統的情況下,采用所述第2再現方法再現所述應答語音。
[0078]根據該構成,第I再現方法是不具有指向性的再現方法,第2再現方法是對講話者具有指向性的再現方法。取得語音對話系統的周圍的圖像,根據圖像檢測注視著語音對話系統的人的數量。根據人的數量的檢測結果判斷是否為多個人注視著語音對話系統。在判斷為多個人注視著語音對話系統的情況下,采用第I再現方法再現應答語音。另外,在判斷為不是多個人注視著語音對話系統的情況下,采用第2再現方法再現應答語音。
[0079]因此,在多個人注視著語音對話系統的情況下,能夠采用不具有指向性的再現方法再現應答語音以使多個人能聽到應答語音,而在不是多個人注視著語音對話系統的情況、即只有講話者注視著語音對話系統的情況下,能夠采用對講話者具有指向性的再現方法再現應答語音。
[0080]另外,上述的語音再現方法中,可以設置成:所述第I再現方法是不具有指向性的再現方法,所述第2再現方法是對講話者具有指向性的再現方法,通過所述講話者持有的拾音裝置拾取所述講話語音,取得所述語音對話系統的周圍的圖像,根據所述圖像來確定對所述拾音裝置講話的所述講話者的位置,判斷是否在由所述講話者對所述拾音裝置輸入了預定的指示信號的狀態下拾取到所述講話語音,在判斷為不是在所述預定的指示信號被輸入了所述拾音裝置的狀態下拾取到所述講話語音的情況下,采用所述第I再現方法再現所述應答語音,在判斷為在所述預定的指示信號被輸入了所述拾音裝置的狀態下拾取到所述講話語音的情況下,采用所述第2再現方法再現所述應答語音。
[0081]根據該構成,第I再現方法是不具有指向性的再現方法,第2再現方法是對講話者具有指向性的再現方法。通過講話者持有的拾音裝置拾取講話語音。取得語音對話系統的周圍的圖像,根據圖像來確定對拾音裝置講話的講話者的位置。判斷是否在由講話者對拾音裝置輸入了預定的指示信號的狀態下拾取到講話語音。在判斷為不是在預定的指示信號被輸入了拾音裝置的狀態下拾取到講話語音的情況下,采用第I再現方法再現應答語音。另夕卜,在判斷為在預定的指示信號被輸入了拾音裝置的狀態下拾取到講話語音的情況下,采用第2再現方法再現應答語音。
[0082]因此,在由講話者對拾音裝置輸入了預定的指示信號的狀態下講話的情況下,僅對講話者再現應答語音,所以能夠采用反映出講話者的意圖的再現方法再現應答語音。
[0083]另外,上述的語音再現方法中,可以設置成:所述第I再現方法是不具有指向性的再現方法,所述第2再現方法是對講話者具有指向性的再現方法,所述周圍語音信息包含從含有多個麥克風的陣列麥克風系統取得的、以每預定的角度具有指向性的多個周圍語音信息,通過判斷所述多個周圍信息的各自是否為對所述語音對話系統的所述講話語音,而將所述多個周圍語音信息分離為所述第I語音信息和所述第2語音信息,基于取得了包含所述第I語音信息的周圍語音信息的麥克風的指向性來確定所述講話者的位置,參照將所述講話者的位置與所述第I再現方法和所述第2再現方法中的某一方相對應地存儲的聲音信息數據庫,來判斷確定出的所述講話者的位置是否關聯有所述第I再現方法和所述第2再現方法中的某一方,在判斷為確定出的所述講話者的位置關聯有所述第I再現方法和所述第2再現方法中的某一方的情況下,采用與確定出的所述講話者的位置相關聯的所述第I再現方法和所述第2再現方法中的某一方再現所述應答語音,在判斷為所述第I再現方法和所述第2再現方法中的哪一方都沒有與所述講話者的位置相關聯的情況下,將所述第I語音信息的聲級和所述第2語音信息的聲級進行比較,在所述第I語音信息的聲級高于所述第2語音信息的聲級的情況下,采用所述第I再現方法再現所述應答語音,在所述第I語音信息的聲級低于所述第2語音信息的聲級的情況下,采用所述第2再現方法再現所述應答語音,將確定出的所述講話者的位置與再現了所述應答語音的所述第I再現方法和所述第2再現方法中的某一方相關聯地存儲于所述語音信息數據庫。
[0084]根據該構成,第I再現方法是不具有指向性的再現方法,第2再現方法是對講話者具有指向性的再現方法。周圍語音信息包含從含有多個麥克風的陣列麥克風系統取得的、以每預定的角度具有指向性的多個周圍語音信息。通過判斷多個周圍語音信息的各自是否為對語音對話系統的講話語音,而將多個周圍語音信息分離為第I語音信息和第2語音信息。基于取得了包含第I語音信息的周圍語音信息的麥克風的指向性來確定講話者的位置。參照將講話者的位置與第I再現方法和第2再現方法中的某一方相對應地存儲的聲音信息數據庫,來判斷確定出的講話者的位置是否關聯有第I再現方法和第2再現方法中的某一方。在判斷為確定出的講話者的位置關聯有第I再現方法和第2再現方法中的某一方的情況下,采用與確定出的講話者的位置相關聯的第I再現方法和第2再現方法中的某一方再現應答語音。另外,在判斷為第I再現方法和第2再現方法中的哪一方都沒有與確定出的講話者的位置相關聯的情況下,將第I語音信息的聲級和第2語音信息的聲級進行比較。在第I語音信息的聲級高于第2語音信息的聲級的情況下,采用第I再現方法再現應答語音。另外,在第I語音信息的聲級低于第2語音信息的聲級的情況下,采用第2再現方法再現應答語音。將確定出的講話者的位置與再現了應答語音的第I再現方法和第2再現方法中的某一方相關聯地存儲于語音信息數據庫。
[0085]因此,能夠預先將講話者的位置與再現方法相關聯地存儲于語音信息數據庫,在講話者的位置與預先存儲于語音信息數據庫的講話者的位置相同的情況下,選擇與所存儲的講話者的位置相關聯的再現方法,能夠縮短決定再現方法所需的處理時間。
[0086]另外,上述的語音再現方法中,可以設置成:識別發出所述講話語音的講話者,從將識別所述講話者的信息與所述第I再現方法和所述第2再現方法中的某一方相關聯地存儲的語音信息數據庫中,選擇與識別出的所述講話者相關聯的所述第I再現方法和所述第2再現方法中的某一方,采用所述第I再現方法和所述第2再現方法中的某一方再現所述應答語音。
[0087]根據該構成,識別發出講話語音的講話者。從將識別講話者的信息與第I再現方法和第2再現方法中的某一方相關聯地存儲的語音信息數據庫中,選擇與識別出的講話者相關聯的第I再現方法和第2再現方法中的某一方。采用第I再現方法和第2再現方法中的某一方再現所述應答語音。
[0088]因此,能夠預先將識別講話者的信息與再現方法相關聯地存儲于語音信息數據庫,在識別出的講話者與預先存儲于語音信息數據庫的識別講話者的信息相同的情況下,選擇與所存儲的識別講話者的信息相關聯的再現方法,能夠縮短決定再現方法所需的處理時間。
[0089]另外,上述的語音再現方法中,可以設置成:所述第I再現方法是不具有指向性的再現方法,所述第2再現方法是對講話者具有指向性的再現方法,判斷分離出的所述第I語音信息是否包含預先存儲于存儲部的預定的關鍵字,在判斷為所述第I語音信息包含所述預定的關鍵字的情況下,采用所述第I再現方法再現所述應答語音,在判斷為所述第I語音信息不包含所述預定的關鍵字的情況下,采用所述第2再現方法再現所述應答語音。
[0090]根據該構成,第I再現方法是不具有指向性的再現方法,第2再現方法是對講話者具有指向性的再現方法。判斷分離出的第I語音信息是否包含預先存儲于存儲部的預定的關鍵字。在判斷為第I語音信息包含預定的關鍵字的情況下,采用第I再現方法再現應答語音。另外,在判斷為第I語音信息不包含預定的關鍵字的情況下,采用第2再現方法再現應答語音。
[0091]因此,根據第I語音信息是否包含預先存儲于存儲部的預定的關鍵字來決定再現方法,所以能夠容易地決定再現方法。
[0092]另外,上述的語音再現方法中,可以設置成:對分離出的所述第I語音信息的講話內容進行分析,判斷分析出的所述講話內容是否與上一次取得的第I語音信息的講話內容相同,在判斷為分析出的所述講話內容與上一次的講話內容相同的情況下,不再現所述應答語音,在判斷為分析出的所述講話內容與上一次的講話內容不同的情況下,將所述第I語音信息的聲級與所述第2語音信息的聲級進行比較,根據比較的結果,采用所述第I再現方法和所述第2再現方法中的某一方再現所述應答語音,將分析出的所述講話內容存儲于所述存儲部。
[0093]根據該構成,對分離出的第I語音信息的講話內容進行分析。判斷分析出的講話內容是否與上一次取得的第I語音信息的講話內容相同。在判斷為分析出的講話內容與上一次的講話內容相同的情況下,不再現應答語音。另外,在判斷為分析出的講話內容與上一次的講話內容不同的情況下,將第I語音信息的聲級和第2語音信息的聲級進行比較。根據比較的結果,采用第I再現方法和第2再現方法中的某一方再現應答語音。并且,將分析出的講話內容存儲于存儲部。
[0094]因此,例如能夠在講話者的周圍的噪音大而難以聽到應答語音的情況下,中止對于第2次的講話語音的應答語音的再現,所以能夠取消不必要的應答語音的再現。
[0095]另外,上述的語音再現方法中,可以設置成:所述第I再現方法是不具有指向性的再現方法,所述第2再現方法是對講話者具有指向性的再現方法,將分離出的所述第2語音信息中所含的人的語音的聲級作為通常聲級存儲于聲級數據庫,判斷分離出的所述第I語音信息的聲級是否高于存儲于所述聲級數據庫的所述通常聲級的平均值,在判斷為所述第I語音信息的聲級高于所述通常聲級的平均值的情況下,采用所述第I再現方法再現所述應答語音,在判斷為所述第I語音信息的聲級低于所述通常聲級的平均值的情況下,采用所述第2再現方法再現所述應答語音。
[0096]根據該構成,第I再現方法是不具有指向性的再現方法,第2再現方法是對講話者具有指向性的再現方法。分離出的第2語音信息中所含的人的語音的聲級作為通常聲級存儲于聲級數據庫。判斷分離出的第I語音信息的聲級是否高于存儲于聲級數據庫的通常聲級的平均值。在判斷為第I語音信息的聲級高于通常聲級的平均值的情況下,采用第I再現方法再現應答語音。另外,在判斷為第I語音信息的聲級低于通常聲級的平均值的情況下,采用第2再現方法再現應答語音。
[0097]因此,能夠通過將對語音對話系統發出指示的講話語音的聲級和通常的會話中講話者講話的語音的聲級進行比較,來決定再現方法。
[0098]另外,上述的語音再現方法中,可以設置成:將所述第I語音信息的聲級和所述第2語音信息的聲級進行比較,根據比較的結果,采用所述第I再現方法和所述第2再現方法中的某一方,將被所述講話語音控制的控制對象設備再現的語音再現。
[0099]根據該構成,根據比較第I語音信息的聲級和第2語音信息的聲級的結果,采用第I再現方法和第2再現方法中的某一方,將被講話語音控制的控制對象設備再現的語音再現。
[0100]因此,不僅是對講話語音的應答語音,對于被講話語音控制的控制對象設備再現的語音的再現方法,也能夠進行控制。
[0101]本公開的另一技術方案涉及的語音對話裝置,具備:聲音分離部,其將包含對所述語音對話裝置講話的講話語音的、表示所述講話語音的講話者的周圍的聲音的周圍語音信息,分離為包含所述講話語音的第I語音信息和包含除了所述講話語音以外的聲音的第2語音信息;比較部,其將所述第I語音信息的聲級和所述第2語音信息的聲級進行比較;以及再現控制部,其根據比較的結果,采用第I再現方法和再現的語音的指向性與所述第I再現方法不同的第2再現方法中的某一方再現對所述講話語音的應答語音。
[0102]根據該構成,取得包含對語音對話裝置講話的講話語音的、表示講話語音的講話者的周圍的聲音的周圍語音信息。周圍語音信息被分離為包含講話語音的第I語音信息和包含除了講話語音以外的聲音的第2語音信息。將第I語音信息的聲級和第2語音信息的聲級進行比較。根據比較的結果,采用第I再現方法和再現的語音的指向性與第I再現方法的不同的第2再現方法中的某一方再現應答語音。
[0103]因此,根據包含對語音對話裝置講話的講話語音的第I語音信息的聲級、和包含除了講話語音以外的聲音的第2語音信息的聲級的比較結果,采用第I再現方法和再現的語音的指向性與第I再現方法的不同的第2再現方法中的某一方再現應答語音,所以能夠采用與講話者的周圍的狀況相應的再現方法再現應答語音。
[0104]本公開的另一技術方案涉及的語音對話程序,將語音對話裝置作為語音分離部、比較部和再現控制部發揮功能,語音分離部將包含對所述語音對話裝置講話的講話語音的、表示所述講話語音的講話者的周圍的聲音的周圍語音信息,分離為包含所述講話語音的第I語音信息和包含除了所述講話語音以外的聲音的第2語音信息,比較部將所述第I語音信息的聲級和所述第2語音信息的聲級進行比較,再現控制部根據比較的結果,采用第I再現方法和再現的語音的指向性與所述第I再現方法不同的第2再現方法中的某一方再現對于所述講話語音的應答語音。
[0105]根據該構成,取得包含對語音對話裝置講話的講話語音的、表示講話語音的講話者的周圍的聲音的周圍語音信息。周圍語音信息被分離為包含講話語音的第I語音信息和包含除了講話語音以外的聲音的第2語音信息。將第I語音信息的聲級和第2語音信息的聲級進行比較。根據比較的結果,采用第I再現方法和再現的語音的指向性與第I再現方法不同的第2再現方法的某一方再現應答語音。
[0106]因此,根據包含對語音對話裝置講話的講話語音的第I語音信息的聲級、和包含除了講話語音以外的聲音的第2語音信息的聲級的比較結果,采用第I再現方法和再現的語音的指向性與第I再現方法不同的第2再現方法的某一方再現應答語音,所以能夠采用與講話者的周圍的狀況相應的再現方法再現應答語音。
[0107]以下,參照附圖對本公開的實施方式中的語音對話裝置或語音對話系統進行說明。再者,以下說明的實施方式都只是表示本公開的一具體例。以下的實施方式中所示的數值、形狀、構成要素、步驟或步驟的順序等只是一例,并不意在限定本公開。另外,對于以下的實施方式中的構成要素之中未記載于表示最上位概念的獨立權利要求的構成要素,作為任意的構成要素進行說明。另外,可以在所有實施方式中,將各自的內容組合。
[0108]再者,這些全面的或具體的技術方案,既可以通過系統、方法、集成電路、計算機程序或計算機可讀取的CD-ROM等記錄介質而實現,也可以通過系統、方法、集成電路、計算機程序或計算機可讀取的記錄介質的任意組合而實現。
[0109](語音對話裝置的構成)
[0110]圖1是表示本公開的實施方式中的語音對話裝置的構成的圖。圖1所示的語音對話裝置100是將本實施方式中的所有構成具備于一個裝置的構成例。關于另一構成例會利用圖4在后面描述。再者,圖1所示的語音對話裝置100的構成只是一例,既可以具備除了圖1所示的構成以外的構成,也可以缺少一部分構成。
[0111]圖1表示作為本實施方式的一技術方案的語音對話裝置100的構成例。語音對話裝置100具備語音取得部101、通信部102、顯示部103、控制部104、再現部105、圖像取得部106和聲音信息DB(數據庫)107。再者,各構成可以不必一定設于語音對話裝置100的內部。例如,通信部102、顯示部103、圖像取得部106或聲音信息DB107并不是語音對話裝置100必須的構成。另外,可以設置成:語音取得部101設于語音對話裝置100的外部裝置,語音對話裝置100與外部裝置有線或無線連接。語音對話裝置100并不限于在一個家庭只配置一臺,有時也會在一個家庭配置多臺。
[0112]另外,語音對話裝置100既可以是例如電視等家用電器,也可以是搭載有麥克風、揚聲器或相機的專用的裝置。
[0113]首先,利用圖1對作為本實施方式的一技術方案的語音對話裝置100的各構成進行說明。
[0114]語音取得部101例如為麥克風等。語音取得部101取得的聲音中,包含在使用語音對話裝置100時對語音對話裝置100(語音對話系統)發出語音指令的講話者的語音、除了對語音對話裝置100(語音對話系統)發出語音指令的講話者以外的人的語音、從講話者的周圍的設備發出的設備噪聲、或生活聲音等周圍的噪音等。
[0115]在此,語音取得部101優選具備對取得語音時的指向性進行控制的指向性控制部、和對取得的語音進行聲源分離的信號處理部(未圖示)。由此,能夠按到達語音取得部101的各聲音的到來方向(區域)取得(分離)語音,所以能夠使分離為發出語音指令的講話者的講話語音、除了該講話者以外的人的語音、和周圍的噪音的精度提高。再者,信號處理部(未圖示)可以包含于控制部104。
[0116]通信部102通過與因特網等網絡連接而與其它設備或服務器裝置通信,發送接收各種信息。如上所述通信部102并不是語音對話裝置100必須的構成。
[0117]顯示部103顯示各種信息。顯示部103只要是一般的顯示器即可,因此省略說明。如上所述顯示部103并不是語音對話裝置100必須的構成。
[0118]控制部104例如為CPU(中央運算處理裝置)、處理器或微型計算機等,控制其它設備,并具有語音識別處理、圖像處理或拾音信號處理等功能。控制部104控制語音取得部101和顯示部103等各構成的工作。另外,控制部104不需要在物理上合并為I個控制單元,在搭載物理上分開的多個控制單元的情況下,多個控制單元全部包含于控制部104。關于控制部104的功能會在后面描述。
[0119]再現部105對由控制部104控制后的信號進行再現。再現部105例如是將多個揚聲器單元配置于陣列上的揚聲器(陣列揚聲器),只要是能夠對再現的應答語音的指向性進行控制的揚聲器即可。再現部105可以不設置于語音對話裝置100內。例如,再現部105可以是外設的揚聲器等,再現部105與語音對話裝置100可以有線或無線連接。
[0120]例如語音對話裝置100為電視機的情況下,圖像取得部106是設置于電視機的相機。如果確定對語音對話裝置100講話的講話者的位置,則能夠通過將指向性朝向講話者的位置,而使應答語音準確地返回講話者的位置,能夠提高語音識別精度。如上所述,在本實施方式中圖像取得部106并不是語音對話裝置100必須的構成。關于利用圖像取得部106而將指向性朝向對語音對話裝置100講話的講話者的位置的方法,其詳細情況,會在實施方式2中進行說明。
[0121]聲音信息DB107存儲有由語音取得部101取得的對語音對話裝置100講話的講話者的語音指令或語音信息。聲音信息DB107可以將對語音對話裝置100講話的講話者發出語音指令的次數或包含語音指令的聲級的個人的語音信號的特征相關聯地管理和存儲。如果聲音信息DB107管理和存儲這些信息,則控制部104通過分析由語音取得部101取得的對語音對話裝置100講話的講話者的語音指令的特征,并分析具有與存儲于聲音信息DB107的語音指令相同的聲級或特征的語音指令,從而了解到對語音對話裝置100講話的講話者使用語音對話裝置100的時間的頻率或周圍的噪聲級的變動。由此,能夠采用與講話者對語音對話裝置100發出語音指令的時間、環境或狀況相應的再現方法調整音量、進行應答。再者,如上所述聲音信息DB107并不是語音對話裝置100必須的構成。
[0122](控制部的功能構成)
[0123]利用圖2來說明控制部104的功能構成。圖2是表示本公開的實施方式中的控制部的功能構成的圖。再者,圖2中記載的控制部104的功能構成只是一例,也可以具備圖2所示的控制部104的功能構成以外的構成。
[0124]語音對話裝置100的控制部104具備聲音信息取得部201、分析部202、判斷部203和再現控制部206。關于各部的工作和處理的流程會利用圖3在后面描述。
[0125]聲音信息取得部201取得包含對語音對話裝置講話的講話語音的、表示講話語音的講話者的周圍的聲音的周圍語音信息。
[0126]分析部202將由聲音信息取得部201取得的周圍語音信息分離為包含對語音對話裝置100講話的講話語音的第I語音信息和包含除了講話語音以外的聲音的第2語音信息。
[0127]判斷部203將第I語音信息的聲級和第2語音信息的聲級進行比較。判斷部203判斷第I語音信息的聲級是否高于第2語音信息的聲級。
[0128]再現控制部206根據由判斷部203進行比較的結果,采用第I再現方法和再現的語音的指向性與第I再現方法的不同的第2再現方法中的任一方法再現應答語音。第I再現方法是不具有指向性的再現方法,第2再現方法是對講話者具有指向性的再現方法。再現控制部206具備通常再現控制部204和區域再現控制部205。
[0129]通常再現控制部204在由判斷部203判斷為第I語音信息的聲級高于第2語音信息的聲級的情況下,采用第I再現方法再現應答語音。
[0130]區域再現控制部205在由判斷部203判斷為第I語音信息的聲級低于第2語音信息的聲級的情況下,采用第2再現方法再現應答語音。
[0131]再者,在由判斷部203判斷為第I語音信息的聲級與第2語音信息的聲級相同的情況下,可以由通常再現控制部204采用第I再現方法再現應答語音,也可以由區域再現控制部205采用第2再現方法再現應答語音。
[0132](語音對話裝置100的處理)
[0133]圖3是表示本實施方式中的語音對話裝置的工作的一例的流程圖。
[0134]首先,聲音信息取得部201取得由語音取得部101取得的聲音信息(周圍語音信息)(步驟S301)。該取得的聲音信息中例如包含對語音對話裝置100(語音對話系統)發出語音指令的講話者的語音、除了對語音對話裝置100(語音對話系統)發出語音指令的講話者以外的人的語音、和除了人講話的語音以外的噪音。另外,在此,取得的聲音信息優選是按各到來方向分離出的信息。如果語音取得部101是能夠進行指向性拾音的麥克風,則聲音信息取得部201能夠取得每個聲音到來方向(具有角度的多個區域)的聲音信息。聲音信息取得部201取得每個聲音到來方向(具有角度的多個區域)的聲音信息。聲音信息取得部201將取得的聲音信息輸出到分析部202。即,聲音信息取得部201可以取得從包含多個麥克風的陣列麥克風系統取得的、以每預定的角度具有指向性的多個周圍語音信息。
[0135]接著,分析部202將由聲音信息取得部201取得的周圍語音信息分離為包含對語音對話裝置100講話的講話語音的第I語音信息和包含除了講話語音以外的聲音的第2語音信息(步驟S302)。
[0136]分析部202對由聲音信息取得部201取得的聲音信息進行分析(包括分類或分離)。
[0137]分析部202將聲音信息至少分類為對語音對話裝置100(語音對話系統)發出語音指令的講話者的語音和除了發出語音指令的講話者以外的人講話的語音。另外,分析部202也可以將聲音信息分類為對語音對話裝置100(語音對話系統)發出語音指令的講話者的語音、除了發出語音指令的講話者以外的人講話的語音、和除了語音以外的周圍的噪聲這三者。
[0138]在此,在步驟S301中,取得每個聲音到來方向的聲音信息的情況下,分析部202將每個聲音到來方向(區域)的聲音信息分別分類為包含對語音對話系統講話的講話語音的第I語音信息和包含除了講話語音以外的聲音的第2語音信息。即,分析部202可以通過判斷取得的多個周圍語音信息各自是否為對語音對話裝置100的講話語音,而將多個周圍語音信息分離為第I語音信息和第2語音信息。
[0139]另外,記載了在步驟S301中優選取得每個聲音到來方向的聲音信息,但分析部202也可以對取得的聲音信息進行分離為每個到來方向的聲音信息的處理。即,分析部202可以在將取得的聲音信息分離為每個聲音到來方向(區域)的聲音信息后,判斷各到來方向(區域)的聲音信息是包含對語音對話裝置100(語音對話系統)發出語音指令的講話者的講話語音的第I語音信息、還是包含除了講話語音以外的聲音的第2語音信息。
[0140]接著,判斷部203將第I語音信息的聲級和第2語音信息的聲級進行比較,判斷第I語音信息的聲級是否高于第2語音信息的聲級(步驟S303)。
[0141]判斷部203基于由分析部202分析的結果,將對語音對話裝置100(語音對話系統)發出語音指令的講話者的語音的聲級和除此以外的聲音的聲級進行比較。在此,聲級表示聲音的高低,也可以表現為音量或聲量(volume)。
[0142]接著,由判斷部203進行比較的結果是,判斷為包含對語音對話裝置100(語音對話系統)發出語音指令的講話者的講話語音的第I語音信息的聲級高于包含除了講話語音以外的聲音的第2語音信息的聲級的情況下(步驟S303中為是),向步驟S304的處理前進。另一方面,判斷為包含對語音對話裝置100(語音對話系統)發出語音指令的講話者的講話語音的第I語音信息的聲級低于包含除了講話語音以外的聲音的第2語音信息的聲級的情況下(步驟S303中為否),向步驟S305的處理前進。
[0143]判斷為第I語音信息的聲級高于第2語音信息的聲級的情況下,在步驟S304中,通常再現控制部204控制再現部105以使得采用第I再現方法再現應答語音。或者,通常再現控制部204生成用于控制再現部105以使得采用第I再現方法再現應答語音的控制信息。在此,第I再現方法是通常的再現方法。通常的再現方法是指不具有指向性地再現語音(應答語音)的再現方法。
[0144]另一方面,判斷為第I語音信息的聲級低于第2語音信息的聲級的情況下,在步驟S305中,區域再現控制部205控制再現部105以使得采用第2再現方法再現應答語音。或者,區域再現控制部205生成用于控制再現部105以使得采用第2再現方法再現應答語音的控制信息。在此,第2再現方法是通過指向性再現而將語音(應答語音)再現的再現方法。第2再現方法中,應答語音僅朝向講話者的方向再現。在此,在步驟S302中,按每個聲音到來方向(區域),分類為包含對語音對話裝置100(語音對話系統)發出語音指令的講話者的講話語音的第I語音信息和包含除了講話語音以外的聲音的第2語音信息的情況下,區域再現控制部205對被分類為第I語音信息的區域進行指向性再現(區域再現)。
[0145]再者,再現部105可以使采用第2再現方法再現的應答語音的聲級大于采用第I再現方法再現的應答語音的聲級。
[0146](語音對話系統的構成)
[0147]下面,利用圖4來說明本實施方式的另一構成例。圖4是表示本實施方式中的語音對話系統的構成的圖。語音對話系統具備語音對話裝置100和服務器裝置110。
[0148]圖4所示的構成例中,語音對話裝置100經由網絡120與外部的服務器裝置110以能夠相互通信的方式連接。對于服務器裝置110與語音對話裝置100的連接(通信)方法不特別限定。服務器裝置110與語音對話裝置100既可以無線連接,也可以有線連接。關于服務器裝置110的設置場所不特別限定。服務器裝置110既可以配置于對處理大數據的數據中心進行管理和運營的公司所持有的數據中心,也可以配置于各家庭。即,服務器裝置110既可以與語音對話裝置100配置于同一空間,也可以與語音對話裝置100配置于不同空間。
[0149]圖4的例子中,語音對話裝置100具備語音取得部101、通信部102、顯示部103、控制部104、再現部105、圖像取得部106和聲音信息DB107。與圖1所示的例子同樣,顯示部103、圖像取得部106和聲音信息DB107并不是語音對話裝置100必須的構成。但在圖4的例子中,通信部102成為語音對話裝置100必須的構成。另外,服務器裝置110具備控制部111、通信部112和聲音信息DB113。
[0150]關于圖4所示的語音對話裝置100的各構成的功能,與上述說明的各構成相同,因此省略說明。通信部102例如經由作為因特網的網絡120與服務器裝置110的通信部112連接。由此,通信部102能夠將由語音對話裝置100取得的聲音信息發送到服務器裝置110。服務器裝置110可以經由通信部112與多個語音對話裝置連接。
[0151]服務器裝置110中的控制部111、通信部112和聲音信息DB113的基本功能,與語音對話裝置100中的控制部104、通信部102和聲音信息DB107的功能相同,因此省略其說明。
[0152]如圖4所示的構成例那樣,語音對話裝置100通過與服務器裝置110通信,能夠將一部分的構成設置于服務器裝置110側。換言之,語音對話裝置100通過與服務器裝置110通信,能夠使服務器裝置110側承擔一部分的處理。例如,由語音對話裝置100進行處理負荷較小的處理,由服務器裝置110進行處理負荷較大的處理,由此能夠減輕語音對話裝置100側的處理負荷。另外,語音對話裝置100的聲音信息DB107中只存儲信息量較小的信息,服務器裝置110的聲音信息DB113中存儲信息量較大的信息,由此能夠減少語音對話裝置100側的存儲器消耗。另外,也可以利用從與服務器裝置110連接的其它語音對話裝置(未圖示)取得的信息。
[0153]再者,圖1和圖4只是語音對話裝置和語音對話系統的構成中的一例,在本實施方式中,可以采用圖1和圖4的任一者,也可以將圖示以外的裝置用于語音對話裝置和語音對話系統。
[0154]另外,圖2所示的控制部104的功能構成,是在圖1和圖4的構成例中均相同的功能構成。再者,圖4的情況下,可以是,控制部104具備圖2所示的各功能構成的一部分,控制部111具備其它功能構成。例如,可以設為,控制部104具備聲音信息取得部201、判斷部203和再現控制部206,控制部111具備分析部202。另外,例如也可以設為,聲音信息取得部201、分析部202、判斷部203和再現控制部206都由控制部111具備。
[0155](語音對話系統的工作例)
[0156]以下,利用圖5來說明實現語音對話系統的具體的各裝置的工作的一例。圖5是用于說明本實施方式中的語音對話系統的工作的順序圖。在此,示出通過圖4所示的語音對話裝置(電視)100和服務器裝置110來實現語音對話系統的例子,但圖4所示的語音對話系統的工作只是一例,并不限定本實施方式。
[0157]首先,在步驟S401中,語音對話裝置100的語音取得部101將取得的聲音信息(周圍語音信息)輸出到通信部102。在此,語音取得部101取得的聲音信息優選是按每個聲音到來方向分離出的聲音信息。即,語音取得部101輸出到通信部102的聲音信息是按每個聲音到來方向分離出的多個聲音信息。
[0158]關于語音取得部101取得聲音信息的正時(定時)、和語音取得部101將取得的聲音信息輸出到通信部102的正時并不特別限定。例如,語音對話裝置100為電視機的情況下,語音取得部101可以在電視機的電源打開期間始終取得聲音信息。另外,也可以設為,在聲音信息之中檢測到咒語(預定的關鍵字)時(剛檢測到之后),語音取得部101將聲音信息輸出到通信部102。咒語(magic word)是指用于啟動特定的設備和系統的關鍵字。例如在某個特定的系統中,在由麥克風拾取到“打開麥克風”這個關鍵字時啟動系統。通過與該咒語連續地發出用于控制設備的語音指令,系統的麥克風被啟動,依照對系統的語音指令的指示來控制特定的系統。
[0159]利用咒語來切換是否取得聲音信息的情況下,語音取得部101包含語音識別部(未圖示)和咒語檢測部(未圖示)。語音識別部將取得的聲音信息轉換為文本信息。咒語檢測部從由語音識別部轉換的文本信息之中檢測預先存儲的咒語。咒語檢測部從文本信息之中檢測出咒語的情況下,將聲音信息輸出到通信部102。
[0160]另外,也可以設為控制部104包含語音識別部(未圖示)和咒語檢測部(未圖示)。該情況下,語音取得部101始終取得聲音信息,控制部104對取得的聲音信息進行語音識別處理和咒語檢測處理,由此能夠確定對系統講話的時間區間。并且,控制部104可以對通信部102進行控制,以使得僅將確定出的時間區間的聲音信息發送到服務器裝置110。
[0161]接著,在步驟S402中,語音對話裝置100的通信部102經由網絡120將取得的聲音信息發送到服務器裝置110。在此,關于通信部102將聲音信息發送到服務器裝置110的正時不特別限定。
[0162]通信部102可以每當語音取得部101取得聲音信息,隨時將聲音信息發送到服務器裝置110。
[0163]在如上所述語音取得部101具備聲音識別部和咒語檢測部的情況下,語音取得部101取得的聲音信息被推定為是在已經對系統講話的時間區間中取得的。因此,該情況下,通信部102將由語音取得部101取得的所有聲音信息發送到服務器裝置110。因此,通信部102可以在從語音取得部101取得聲音信息的正時發送聲音信息。
[0164]另外,控制部104具備語音識別部和咒語檢測部的情況下,控制部104確定講話者對系統發出語音指令的時間區間。因此,通信部102僅在由控制部104確定出的時間區間將聲音信息發送到服務器裝置110。因此,通信部102可以在由控制部104確定出對系統發出語音指令的時間區間的正時,發送聲音信息。
[0165]另外,語音取得部101可以將取得的聲音信息存儲于聲音信息DB107。該情況下,通信部102可以在聲音信息DB107存儲了一定量的聲音信息的正時或每隔一定時間的正時,將聲音信息發送到服務器裝置110。
[0166]此時,對于一個服務器裝置110連接有多個語音對話裝置100的情況下,通信部102可以將確定語音對話裝置100的ID(識別信息)和聲音信息一并發送。
[0167]并且,服務器裝置110的控制部111經由通信部112從語音對話裝置100取得聲音信息。控制部111取得聲音信息的處理相當于圖3的步驟S301的處理。
[0168]接著,在步驟S403中,服務器裝置110的控制部111對從語音對話裝置100發送的聲音信息進行分析。在此,控制部111將取得的每個聲音到來方向的聲音信息,分離為包含對語音對話裝置100(語音對話系統)發出語音指令的講話者的講話語音的第I語音信息和包含除了講話語音以外的聲音的第2語音信息。控制部111分離聲音信息的處理相當于圖3的步驟S302的處理。
[0169]控制部111的分析部202至少包含將取得的聲音信息按每個聲源進行分離的聲源分離部。聲源分離部對取得的聲音信息,根據頻譜的信息或發音力度的特征量,進行聲源分離,至少分離成包含發出語音指令的講話者的講話語音的第I語音信息和包含除了講話語音以外的聲音的第2語音信息。在此,在步驟S402的處理中取得的聲音信息按每個聲音到來方向(區域)被分離了的情況下,聲源分離部按各區域分離聲音信息。以下對聲源分離的一例進行說明。
[0170]首先,聲源分離部例如對取得的聲音信息,按每個聲音到來方向(區域),分離為人的語音和除了人以外的聲音。關于聲音到來方向的取得,如上所述語音取得部101為進行指向性拾音的麥克風(呈陣列狀排列的多個麥克風)的情況下,語音取得部101—邊按照多個角度區域的各自使指向性波束變化一邊進行拾音,由此取得多個角度區域(聲音到來方向)各自的聲音信息。
[0171]另外,作為聲音信息的其它分離方法,可以考慮根據一般的人的語音的頻譜信息或特征量來進行分離的方法等。例如,作為從噪聲環境中僅檢測出語音信號的方法可舉出譜減法。分析部202可以采用譜減法將周圍語音信息分離為第I語音信息和第2語音信息。但將聲音信息分離為人的語音和除了人的語音以外的聲音的方法不限于譜減法。分析部202也可以預先掌握(存儲)語音對話裝置100的配置空間的環境聲音信息,對取得的聲音信息分類為環境聲音信息和除了環境聲音信息以外的語音信息,由此將聲音信息分離為人的語音和除了人的語音以外的聲音。
[0172]并且,分析部202通過對分離出的人的語音進行進一步詳細分析,從而按每個聲音到來方向(區域),將聲音信息分離為對語音對話系統講話的講話者的語音、和除了講話者以外的人講話的語音。在此,作為將聲音信息分離為對系統講話的講話者的語音和除了講話者以外的人講話的語音的方法,例如可以考慮:檢測咒語(預定的關鍵字),取得講出該咒語的講話者的語音的特征量,將該講話者確定為對系統講話的講話者,與具有其它語音特征量的聲音信息分離的方法等。分析部202可以對取得的多個周圍語音信息的每一個,判斷是否包含預先存儲的預定的關鍵字,在周圍語音信息包含預定的關鍵字的情況下,判斷為該周圍語音信息是對語音對話系統的講話語音。
[0173]另外,預先限制了能夠對語音對話裝置100發出語音指令的人的情況下,可以識別講話者,將所限制的人的語音和除了所限制的人以外的人的語音分離。例如,如果在最開始登記了語音對話裝置100的持有者的語音,且將該語音存儲于語音對話裝置100的聲音信息DB107中,則分析部202通過將與存儲的語音吻合的語音和不吻合的語音分類,而能夠將對語音對話系統講話的講話者的語音和除了講話者以外的人講話的語音分離。
[0174]S卩,如果采用上述的方法將聲音信息分類,則結果按各聲音到來方向(區域),聲音信息被分類為對語音對話裝置100(語音對話系統)發出語音指令的講話者的語音、除了發出語音指令的講話者以外的人講話的語音、和周圍噪聲這3者。在此,對語音對話裝置100(語音對話系統)發出語音指令的講話者的語音相當于上述對語音對話裝置100(語音對話系統)講話的講話者的講話語音。另外,將除了發出語音指令的講話者以外的人講話的語音與周圍噪音合并了的聲音,相當于上述的除了講話語音以外的聲音。再者,也可以設為,對語音對話裝置100(語音對話系統)發出語音指令的講話者的語音,相當于上述的對語音對話裝置100(語音對話系統)講話的講話者的講話語音,除了發出語音指令的講話者以外的人講話的語音,相當于上述的除了講話語音以外的聲音。
[0175]在此,記載了分析部202按每個聲音到來方向(區域)進行聲源分離而分離成發出語音指令的講話者的講話語音和除了講話語音以外的語音,但也可以在該步驟S403的正時不按每個聲音到來方向(區域)進行聲源分離。但在后述的步驟S408中對于講話者朝向指向性而再現應答語音的情況下,必須需要預先確定對系統講話的講話者的方向(位置或區域)。由此,優選在分離聲音信息的階段按各聲音到來方向(區域)分析聲音信息。
[0176]接著,在步驟S404中,服務器裝置110的控制部111利用步驟S403的分析結果,將包含對語音對話裝置100(語音對話系統)發出語音指令的講話者的講話語音的第I語音信息的聲級和包含除了講話語音以外的聲音的第2語音信息的聲級進行比較。
[0177]在此,在對語音對話裝置100(語音對話系統)發出語音指令的講話者的講話語音相當于上述的第I語音信息,將除了發出語音指令的講話者以外的人講話的語音與周圍噪音合并了的語音相當于上述的第2語音信息的情況下,控制部111將對語音對話裝置100(語音對話系統)發出語音指令的講話者的講話語音的聲級、和除了發出語音指令的講話者以外的人講話的語音的聲級加上周圍噪音的聲級而得到的聲級進行比較。
[0178]再者,在對語音對話裝置100(語音對話系統)發出語音指令的講話者的講話語音相當于上述的第I語音信息,除了發出語音指令的講話者以外的人講話的語音相當于上述的第2語音信息的情況下,控制部111將對語音對話裝置100(語音對話系統)發出語音指令的講話者的講話語音的聲級和除了發出語音指令的講話者以外的人講話的語音的聲級進行比較,忽略周圍噪音的聲級。
[0179]再者,步驟S404的處理相當于圖3的S303的處理。
[0180]接著,在步驟S405中,控制部111基于在步驟S404中比較的結果來決定再現方法。具體而言,在對語音對話裝置100(語音對話系統)發出語音指令的講話者的講話語音的聲級高于除了講話語音以外的語音的聲級的情況下,控制部ill將再現方法決定為第I再現方法(通常的再現方法),生成用于控制再現部105以使得采用第I再現方法再現應答語音的控制信息。在此,第I再現方法是通常的再現方法。通常的再現方法是不具有指向性地再現語音的再現方法。
[0181]另一方面,在對語音對話裝置100(語音對話系統)發出語音指令的講話者的講話語音的聲級低于除了講話語音以外的語音的聲級的情況下,控制部111將再現方法決定為第2再現方法,生成用于控制再現部105以使得采用第2再現方法再現應答語音的控制信息。在此,第2再現方法是通過指向性再現進行再現的再現方法。再者,步驟S405的處理相當于圖3的S304?S305的處理。
[0182]接著,在步驟S406中,控制部111作成對于語音指令的應答語音。首先,控制部111進行語音識別。在此,控制部111僅對在步驟S403中被確定為是對語音對話裝置100(語音對話系統)發出語音指令的講話者的講話語音的到來方向(區域)的聲音信息進行語音識別。再者,控制部111可以不在該階段進行語音識別。例如,控制部111可以在步驟S403之后等,預先進行語音識別。或者也可以由語音對話裝置100進行語音識別。
[0183]并且,控制部111基于語音識別的結果來決定應答語音的應答內容。在此,控制部111可以利用外部的對話服務器(未圖示)選擇應答內容。對話服務器中,備有大量的對話應答腳本(對話詞典),能夠通過與語音識別的結果進行對照而選擇應答內容。例如,語音識別處理的結果是得到了 “明天的天氣如何?”這樣的識別結果的情況下,控制部111決定“下雨”等應答內容。對于應答內容的決定方法不特別限定。
[0184]并且,控制部111根據選擇的應答內容來進行由語音對話裝置100再現的應答語音的語音合成。在此,控制部111進行語音合成,并且在步驟S405中決定為第2再現方法(指向性再現)的情況下,生成與表示再現應答語音的方向的再現部105(揚聲器)的指向性參數相關的信息。即,控制部111生成用于對根據在步驟S403中確定出的對語音對話裝置100(語音對話系統)發出語音指令的講話者的講話語音而確定的到來方向(區域)再現應答語音的指向性參數。
[0185]像這樣,控制部111對分離出的第I語音信息進行語音識別,利用語音識別的結果生成應答語首。
[0186]接著,在步驟S407中,服務器裝置110的控制部111將在步驟S405中決定的再現方法、和在步驟S406中作成的應答語音經由語音對話裝置100的通信部102發送到再現部105。在此,在步驟S405中決定為第2再現方法(指向性再現)的情況下,控制部111將與表示再現應答語音的方向的再現部105(揚聲器)的指向性參數相關的信息一并發送。即,控制部111發送用于對根據在步驟S403中確定的對語音對話裝置100(語音對話系統)發出語音指令的講話者的講話語音而確定的到來方向(區域)再現應答語音的指向性參數。
[0187]接著,在步驟S408中,再現部105采用取得的再現方法再現應答語音。在此,在步驟S405中決定為第2再現方法(指向性再現)的情況下,再現部105也一并取得表示再現應答語音的方向的再現部105(揚聲器)的指向性參數,因此通過該指向性參數將應答語音指向性再現。再現部105將所生成的應答語音采用第I再現方法和第2再現方法的某一方法再現。再現部105在采用第2再現方法再現應答語音時,向取得判斷為是語音對話系統的講話語音的周圍語音信息的角度的方向,再現應答語音。
[0188](效果)
[0189]以上,根據本實施方式,判斷對語音對話裝置100(語音對話系統)講話的講話者的講話語音的聲級是否高于除了講話語音以外的聲音的聲級,基于判斷結果,采用不具有指向性的通常的再現方法和對講話者具有指向性的再現方法中的某一方法再現應答語音。由此,能夠根據狀況采用最佳的再現方法再現對話的應答語音。
[0190]以下,對語音對話裝置100(語音對話系統)的利用場景進行更具體地說明。對于在語音對話裝置100的周邊存在多個人,只有一人對語音對話裝置100提問的狀況(以下也稱為第I狀況)進行說明。
[0191]圖6是用于說明對語音對話裝置講話的講話者的講話語音的聲級高于除了講話語音以外的聲音的聲級的情況下的應答語音的第I再現方法的示意圖。
[0192]能夠設想到的是:在對語音對話裝置100講話的講話者10的講話語音的聲級高于除了講話語音以外的聲音的聲級的情況下,除了對語音對話裝置100講話的講話者10以外的人也為了確認來自語音對話裝置100的應答結果(應答語音)而不發出聲音。即,該情況下,在語音對話裝置100的周邊存在的所有人都關心來自語音對話裝置100的應答結果(應答語音)的可能性高。另外,由于周圍的噪聲級不高,因此能夠推測為是不需要具有指向性地僅向對語音對話裝置100講話的講話者10進行再現的狀況。根據本實施方式,在對語音對話裝置100講話的講話者10的講話語音的聲級高于除了講話語音以外的聲音的聲級的情況下,能夠自動采用不具有指向性的通常的第I再現方法再現應答語音(圖6)。
[0193]圖7是用于說明對語音對話裝置講話的講話者的講話語音的聲級低于除了講話語音以外的聲音的聲級的情況下的應答語音的第2再現方法的示意圖。
[0194]能夠設想到的是:在對語音對話裝置100講話的講話者10的講話語音的聲級低于除了講話語音以外的聲音的聲級的情況下,除了對語音對話裝置100講話的講話者10以外的人(周圍的人)正在發出聲音(對語音對話裝置100以外的人講話或會話)。即,該情況下,除了對語音對話裝置100講話的講話者10以外的人,不關心來自語音對話裝置100的應答結果(應答語音)的可能性高。另外,由于周圍的噪聲級高,因此可以推測為是需要具有指向性地僅向對語音對話裝置100講話的講話者10再現應答語音的狀況。根據本實施方式,在對語音對話裝置100講話的講話者10的講話語音的聲級低于除了講話語音以外的聲音的聲級的情況下,能夠自動采用對講話者10具有指向性的第2再現方法再現應答語音(圖7)。
[0195]像這樣,在本實施方式中,能夠根據狀況采用最佳的再現方法將對于講話語音的應答語音再現。另外,一般來說,在進行僅向預定的區域再現聲音的區域再現時,語音對話裝置100(語音對話系統)的運算量會增加,但與始終進行區域再現的情況相比,能夠減少語音對話裝置100(語音對話系統)的處理負荷。
[0196]以下,對本實施方式的變形例進行說明。
[0197](變形例I)
[0198]本實施方式中,如上述的例子,對語音對話裝置100(語音對話系統)的講話語音的聲級高于除了講話語音以外的聲音的聲級的情況下,采用通常的再現方法(不具有指向性的第I再現方法)再現應答語音,對語音對話裝置100(語音對話系統)的講話語音的聲級低于除了講話語音以外的聲音的聲級的情況下,采用區域再現方法(對講話者具有指向性的第2再現方法)再現應答語音(以下也稱為第I再現控制模式),但本公開并不限于此。例如,也可以根據狀況采用與上述的例子不同的再現方法再現應答語音。
[0199]具體而言,可以設為:在上述記載的第I狀況以外的狀況中,對語音對話裝置100(語音對話系統)的講話語音的聲級高于除了講話語音以外的聲音的聲級的情況下,采用區域再現方法(對講話者具有指向性的第2再現方法)再現應答語音,對語音對話裝置100(語音對話系統)的講話語音的聲級低于除了講話語音以外的聲音的聲級的情況下,采用通常的再現方法(不具有指向性的第I再現方法)再現應答語音(以下也稱為第2再現控制模式)。第I狀況以外的狀況是指例如除了對語音對話裝置100(語音對話系統)講話的人以外的人(例如嬰幼兒等)正在語音對話裝置100(語音對話系統)的周邊睡覺的狀況(以下也稱為第2狀況)。對語音對話裝置100(語音對話系統)的講話語音的聲級高于除了講話語音以外的聲音的聲級的情況,是除了對語音對話裝置100(語音對話系統)講話的人以外的人(例如嬰幼兒等)沒有發出聲響的狀況,因此除了講話者以外的人例如有可能正在睡覺。
[0200]因此,優選在第2狀況中,對語音對話裝置100(語音對話系統)的講話語音的聲級高于除了講話語音以外的聲音的聲級的情況下,采用對講話者具有指向性的第2再現方法再現應答語音,對語音對話裝置100(語音對話系統)的講話語音的聲級低于除了講話語音以外的聲音的聲級的情況下,采用不具有指向性的第I再現方法再現應答語音。另外,語音對話裝置100(語音對話系統)可以在像這樣根據狀況變更再現控制時,受理由用戶進行的目前的狀況的選擇。
[0201]再者,可以根據由圖像取得部106取得的圖像進行圖像識別,對嬰幼兒進行檢測,由此來判定除了對語音對話裝置100(語音對話系統)講話的講話者以外的人是否為嬰幼兒。
[0202](變形例2)
[0203]另外,控制部104可以具備根據由分析部202取得的環境音來推測目前狀況的狀況推測部(未圖示)。在此,狀況推測部可以是例如根據聲音信息來識別講話者的講話者識別部。由此,能夠根據取得的語音來判斷系統的周圍有什么樣的人。例如通過講話者識別,判斷為如上述的第2狀況那樣在語音對話裝置100(語音對話系統)的周邊存在嬰幼兒的情況下,可以采用第2再現控制模式進行控制。
[0204]S卩,講話者識別部可以根據所取得的周圍語音信息來識別周圍的人。并且,判斷部203可以基于將第I語音信息的聲級和第2語音信息的聲級比較的結果、以及對周圍的人進行識別的結果,來切換采用第I再現方法和第2再現方法中的哪一個方法進行再現。
[0205]例如可以設置成:對周圍的人進行識別的結果是周圍存在嬰幼兒時,判斷部203判斷為對語音對話裝置100(語音對話系統)的講話語音的聲級高于除了講話語音以外的聲音的聲級的情況下,決定為對講話者具有指向性的第2再現方法,判斷為對語音對話裝置100(語音對話系統)的講話語音的聲級低于除了講話語音以外的聲音的聲級的情況下,決定為不具有指向性的第I再現方法。
[0206]再者,講話者識別部可以根據由圖像取得部106取得的圖像來識別周圍的人。
[0207](變形例3)
[0208]聲音信息DB107存儲有過去的語音取得狀況的情況下,判斷部203可以不僅僅利用取得的聲音信息,也利用存儲于聲音信息DB的語音取得狀況來判斷再現方法。具體而言,在聲音信息DB107中,至少將在過去取得的聲音信息與在取得該聲音信息時判斷出的再現方法相關聯地表格化。由此,判斷部203在取得的語音信息(第I語音信息)與存儲于聲音信息DB107的語音信息相類似的情況下,不必進行步驟S303所示的比較處理,決定為與過去決定的再現方法相同的再現方法即可。
[0209]S卩,判斷部203可以利用將過去取得的第I語音信息與過去再現第I語音信息時所選擇的第I再現方法和第2再現方法中的某一方法相關聯地存儲的表格,來選擇再現應答語音的再現方法。
[0210]另外,也可以通過一并利用步驟S303所示的比較處理、和存儲于聲音信息DB107的將過去取得的聲音信息與再現方法相對應的表格信息,來確定再現方法。另外,判斷部203可以在步驟S303所示的比較處理的結果是對語音對話裝置100(語音對話系統)的講話語音的聲級與除了講話語音以外的聲音的聲級不存在預定值以上的差異的情況下,利用聲音信息DB107來決定再現方法。
[0211](變形例4)
[0212]本實施方式的變形例4中,識別講話者的信息與第I再現方法和第2再現方法的某一方法相對應地預先存儲于語音信息數據庫。并且,所取得的周圍語音信息被分離為第I語音信息和第2語音信息,對講話者進行識別。語音信息數據庫中存在與識別出的講話者相關聯的再現方法的情況下,采用存儲于語音信息數據庫的再現方法再現應答語音。
[0213]分析部202具備狀況推測部(特別是講話者識別部),在利用語音對話裝置100(語音對話系統)的一個或多個講話者的語音的特征與再現方法相關聯地預先保存于聲音信息DB107中的情況下,也能夠不進行步驟S303所示的比較處理地決定再現方法。由此,例如在父親對語音對話裝置100(語音對話系統)講話的情況下,無論是任何狀況都能夠采用對作為講話者的父親具有指向性的第2再現方法再現應答語音。即,能夠根據個人的喜好而采用最佳的再現方法再現應答語音。
[0214]在此,對本實施方式的變形例4中的語音對話裝置100進行說明。
[0215]再者,利用圖1和圖2對本實施方式的變形例4中的語音對話裝置100的構成進行說明。
[0216]分析部202具備講話者識別部(未圖示)。講話者識別部對發出講話語音的講話者進行識別。
[0217]聲音信息DB107將對講話者進行識別的信息與第I再現方法和第2再現方法的某一方法相關聯地存儲。對講話者進行識別的信息例如是講話者的姓名、講話者的昵稱或講話者的ID號碼。另外,對講話者進行識別的信息也可以是表示講話者講話的講話語音的語音信息,還可以是表示講話者講話的講話語音的語音信息的特征量。
[0218]另外,語音對話裝置100可以受理由用戶輸入對講話者進行識別的信息和再現方法。聲音信息DB107可以預先將由用戶輸入的對講話者進行識別的信息與第I再現方法和第2再現方法中的某一方法相關聯地存儲。
[0219]再現控制部206從聲音信息DB107來選擇與識別出的講話者相關聯的第I再現方法和第2再現方法的某一方法。再現控制部206控制再現部105以使得采用所選擇的第I再現方法和第2再現方法中的某一方法再現應答語音。
[0220]圖8是表示本實施方式的變形例4中的語音對話裝置的工作的一例的流程圖。
[0221]步驟S1201和步驟S1202的處理與圖3所示的步驟S301和步驟S302的處理相同,因此省略說明。
[0222]接著,在步驟S1203中,講話者識別部對發出講話語音的講話者進行識別。
[0223]然后,在步驟S1204中,再現控制部206從聲音信息DB107來選擇與識別出的講話者相關聯的第I再現方法和第2再現方法的某一方法。
[0224]接著,在步驟S1205中,再現控制部206控制再現部105以使得采用所選擇的第I再現方法和第2再現方法中的某一方法再現應答語音。即,第I再現方法與識別出的講話者相關聯的情況下,通常再現控制部204控制再現部105以使得采用不具有指向性的第I再現方法再現應答語音。另外,第2再現方法與識別出的講話者相關聯的情況下,區域再現控制部205控制再現部105以使得采用僅對講話者具有指向性的第2再現方法再現應答語音。
[0225]再者,上述的變形例4中,對講話者進行識別的信息與第I再現方法和第2再現方法中的某一方法相關聯地預先存儲于聲音信息DB107中。但是,聲音信息DB107不一定將對講話者進行識別的信息與第I再現方法和第2再現方法中的某一方法相關聯地存儲。因此,可以設為在步驟S1203的處理之后,判斷部203參照聲音信息DB107來判斷再現方法是否與識別出的講話者相關聯。再現方法與識別出的講話者相關聯的情況下,再現控制部206從聲音信息DB107選擇與所識別的講話者相關聯的第I再現方法和第2再現方法中的某一方法。
[0226]另一方面,再現方法不與識別出的講話者相關聯的情況下,判斷部203可以判斷第I語音信息的聲級是否高于第2語音信息的聲級。并且,在判斷為第I語音信息的聲級高于第2語音信息的聲級的情況下,通常再現控制部204控制再現部105以使得采用第I再現方法再現應答語音。另外,在判斷為第I語音信息的聲級低于第2語音信息的聲級的情況下,區域再現控制部205控制再現部105以使得采用第2再現方法再現應答語音。然后,再現控制部206可以將對講話者進行識別的信息與再現了應答語音的第I再現方法和第2再現方法中的某一方法相關聯地存儲于聲音信息DB107中。
[0227]另外可以設置成:判斷部203,在步驟S303所示的比較處理中,僅在對語音對話裝置100(語音對話系統)的講話語音的聲級與除了講話語音以外的聲音的聲級的差值的絕對值為預定的閾值以上的情況下,判斷對語音對話裝置100(語音對話系統)的講話語音的聲級是否高于除了講話語音以外的聲音的聲級。另外可以設置成:判斷部203在差值的絕對值小于預定的閾值的情況下,從作為每個用戶的初始設定而保存于聲音信息DB107的再現方法之中,決定采用與由講話者識別部識別出的用戶相對應的再現方法再現應答語音。由此,能夠抑制再現方法頻繁地變化。
[0228](變形例5)
[0229]判斷部203可以利用圖像取得部106取得的圖像信息來判斷再現方法。例如可以設為,分析部202具備圖像識別部(未圖示),圖像識別部對關心語音對話裝置100(語音對話系統)的人的數量進行識別。由此,判斷部203能夠不進行步驟S303所示的比較處理,而根據由圖像識別部得到的識別結果來決定再現方法。
[0230]例如,在被判斷為關心語音對話裝置100(語音對話系統)的人的數量為閾值以上的情況下,判斷部203可以將再現方法決定為通常的再現方法(第I再現方法)。另外,在被判斷為關心語音對話裝置100(語音對話系統)的人的數量少于閾值的情況下,判斷部203可以將再現方法決定為區域再現方法(第2再現方法)。根據取得的圖像來識別是否為關心語音對話裝置100(語音對話系統)的人的方法,采用根據現有的面部識別處理或視線識別處理的結果來進行判斷的方法即可。例如,判斷部203在面部識別處理的結果是判斷為朝向語音對話裝置100(語音對話系統)的方向的情況下,可以判斷為關心語音對話裝置100(語音對話系統)。另外,例如判斷部203在視線識別處理的結果是判斷為注視語音對話裝置100(語音對話系統)的方向的情況下,可以判斷為關心語音對話裝置100(語音對話系統)。
[0231]另外,判斷部203可以在步驟S303的比較處理之后利用圖像識別部的結果來決定再現方法。由此,并用聲級的比較和圖像處理的結果,從而能夠更高精度地推定狀況,選擇適當的再現方法。例如,在對語音對話裝置100(語音對話系統)的講話語音的聲級低于除了講話語音以外的聲音的聲級的情況下,判斷部203可以進一步利用取得的圖像,取得對語音對話裝置100(語音對話系統)感興趣的人的位置,采用對該感興趣的人的位置具有指向性的再現方法再現應答語音。
[0232]該情況下,圖像取得部106取得語音對話裝置100的周圍的圖像。分析部202根據所取得的圖像來檢測注視語音對話裝置100(語音對話系統)的人。區域再現控制部205控制再現部105以使得在采用第2再現方法再現應答語音時,向檢測出的人再現應答語音。再現部105在采用第2再現方法再現應答語音時,向檢測出的人再現應答語音。
[0233](變形例6)
[0234]可以設為語音對話裝置100不具備語音取得部101,另外于語音對話裝置100的拾音裝置具備語音取得部101。例如,語音對話裝置100為電視機的情況下,用于遠程控制該電視機的遙控器具備語音取得部101。通過語音對話裝置100(或服務器裝置110)與拾音裝置(遙控器)采用預定的方法通信,來實現本實施方式的再現控制方法。
[0235]再者,語音對話裝置100可以具備檢測拾音裝置(遙控器)的位置的檢測部。由此,不需要進行步驟S403中的聲音到來方向的檢測。即,在步驟S305中,再現部105在對聲音到來方向進行區域再現時,向遙控器的位置再現應答語音即可。該情況下,判斷部203也可以根據對語音對話裝置100(語音對話系統)講話的講話者是否一邊按著拾音裝置(遙控器)所具備的按鈕(物理按鈕或顯示在觸摸面板的虛擬按鈕)一邊說話,來決定再現方法。例如,可以僅在講話者一邊按著按鈕一邊講話的情況下,判斷部203進行步驟S305的區域再現。由此,能夠不需要進行步驟S303的比較處理,采用更能反映用戶的意圖的再現方法再現應答語音。
[0236]在此,對本實施方式的變形例6中的語音對話系統進行說明。語音對話系統具備拾音裝置和語音對話裝置100。
[0237]拾音裝置由講話者持有,具備語音取得部101。語音取得部101拾取對語音對話系統所講的講話語音。拾音裝置將表示拾取到的講話語音的語音信息發送到語音對話裝置100。再者,拾音裝置具備按鈕,將表示是否在按下了按鈕的狀態下拾取到講話語音的按鈕按下信息(預定的指示信號)附加于語音信息進行發送。
[0238]圖像取得部106取得語音對話裝置100的周圍的圖像。分析部202具備圖像識別部(未圖示)。圖像識別部根據所取得的圖像來確定對拾音裝置講話的講話者的位置。
[0239]判斷部203判斷是否在由講話者對拾音裝置輸入了預定的指示信號的狀態下拾取到講話語音。
[0240]通常再現控制部204在判斷為不是在對拾音裝置輸入了預定的指示信號的狀態下接受到講話語音的情況下,控制再現部105以使得采用第I再現方法再現應答語音。
[0241]區域再現控制部205在判斷為在對拾音裝置輸入了預定的指示信號的狀態下拾取到講話語音的情況下,控制再現部105以使得采用第2再現方法再現應答語音。
[0242]圖9是表示本實施方式的變形例6中的語音對話系統的工作的一例的流程圖。
[0243]首先,在步驟S1001中,拾音裝置的語音取得部101拾取對語音對話系統所講的講話語音。再者,拾音裝置將表示拾取到的講話語音的語音信息發送到語音對話裝置100。語音對話裝置100的通信部102接收由拾音裝置發送的語音信息。
[0244]接著,在步驟S1002中,圖像取得部106取得語音對話裝置100的周圍的圖像。
[0245]然后,在步驟S1003中,圖像識別部根據所取得的圖像來確定對拾音裝置講話的講話者的位置。圖像識別部例如可以通過圖像識別處理來檢測拾音裝置,將檢測出的拾音裝置的位置確定為講話者的位置。
[0246]接著,在步驟S1004中,判斷部203判斷是否在由講話者按下設置于拾音裝置的按鈕的狀態下拾取到講話語音。如上所述,語音信息中附加有表示是否在按下按鈕的狀態下拾取到講話語音的按鈕按下信息。因此,判斷部203在附加于語音信息的按鈕按下信息表示在按下按鈕的狀態下拾取到講話語音的情況下,判斷為在按下按鈕的狀態下拾取到講話語音,在附加于語音信息的按鈕按下信息表示在沒有按下按鈕的狀態下拾取到講話語音的情況下,判斷為在沒有按下按鈕的狀態下拾取到講話語音。
[0247]在此,判斷為在按下按鈕的狀態下拾取到講話語音的情況下(步驟S1004中為是),在步驟S1005中,區域再現控制部205控制再現部105以使得采用第2再現方法再現應答語
■~>V.曰O
[0248]另一方面,判斷為不是在按下按鈕的狀態下拾取到講話語音的情況下、即判斷為在沒有按下按鈕的狀態下拾取到講話語音的情況下(步驟S1004中為否),在步驟S1006中,通常再現控制部204控制再現部105以使得采用第I再現方法再現應答語音。
[0249]再者,作為拾音裝置,除了遙控器以外,可以考慮例如語音對話系統專用的麥克風、利用語音對話系統的用戶持有的便攜終端(智能手機或平板電腦等)、可穿戴式終端(人體穿戴型終端、智能手表或智能手環等)、或者設置于室內的天花板或墻壁的拾音麥克風等。在拾音裝置是利用語音對話系統的用戶持有的便攜終端(智能手機或平板電腦等)的情況下,便攜終端具備取得用戶的講話語音的功能,因此能夠從日常生活中取得用戶的講話語音。該情況下,能夠容易地構建變形例4中記載的聲音信息DB107。該情況下,可以設為拾音裝置不具備聲音信息DB107,語音對話裝置100或服務器裝置110具備聲音信息DB107。
[0250](變形例7)
[0251]本實施方式的變形例7中,在多個人注視著語音對話裝置100(語音對話系統)的情況下,采用不具有指向性的第I再現方法再現應答語音,在不是多個人注視著語音對話裝置100(語音對話系統)的情況下、即注視著語音對話裝置100(語音對話系統)的人只有講話者的情況下,采用僅對講話者具有指向性的第2再現方法再現應答語音。
[0252]再者,利用圖1和圖2來說明本實施方式的變形例7中的語音對話裝置100的構成。
[0253]圖像取得部106取得語音對話裝置100的周圍的圖像。
[0254]分析部202具備圖像識別部(未圖示)。圖像識別部根據所取得的圖像,檢測語音對話裝置100的周圍的人的臉的朝向和視線的朝向,檢測注視著語音對話裝置100的人的數量。
[0255]判斷部203判斷是否為多個人注視著語音對話裝置100。
[0256]通常再現控制部204在由判斷部203判斷為多個人注視著語音對話裝置100的情況下,控制再現部105以使得采用不具有指向性的第I再現方法再現應答語音。
[0257]區域再現控制部205在由判斷部203判斷為不是多個人注視著語音對話裝置100的情況下,控制再現部105以使得采用僅對講話者具有指向性的第2再現方法再現應答語音。
[0258]圖10是表示本實施方式的變形例7中的語音對話裝置的工作的一例的流程圖。
[0259]首先,在步驟S801中,圖像取得部106取得語音對話裝置100的周圍的圖像。
[0260]接著,在步驟S802中,圖像識別部根據由圖像取得部106取得的圖像,檢測語音對話裝置100的周圍的人的臉的朝向和視線的朝向,檢測注視著語音對話裝置100的人的數量。圖像識別部在臉的朝向和視線的朝向對向語音對話裝置100(圖像取得部106)的方向的情況下,判斷為注視著語音對話裝置100。再者,圖像識別部也可以檢測臉的朝向和視線的朝向的任一者。
[0261]接著,在步驟S803中,判斷部203判斷是否為多個人注視著語音對話裝置100。在此,判斷為多個人注視著語音對話裝置100的情況下(在步驟S803中為是),在步驟S804中,通常再現控制部204控制再現部105以使得采用第I再現方法再現應答語音。
[0262]另一方面,判斷為不是多個人注視著語音對話裝置100的情況下(步驟S803中為否),在步驟S805中,區域再現控制部205控制再現部105以使得采用第2再現方法再現應答語音。
[0263]再者,本實施方式的變形例7中,可以不進行將對語音對話裝置100(語音對話系統)的講話語音的聲級和除了講話語音以外的聲音的聲級進行比較的處理。
[0264]另外,在本實施方式的變形例7中也需要作成應答語音,因此語音對話裝置100(服務器裝置110)進行取得周圍語音信息的處理(圖3的步驟S301)、將周圍語音信息分離為第I語音信息和第2語音信息的處理(圖3的步驟S302)、以及作成應答語音的處理(圖5的步驟S406)。
[0265](變形例8)
[0266]本實施方式的變形例7中,根據周圍語音信息來檢測語音對話裝置100(語音對話系統)的周圍的人的數量。在語音對話裝置100(語音對話系統)的周圍存在多個人,且多個人注視著語音對話裝置100(語音對話系統)的情況下,采用不具有指向性的第I再現方法再現應答語音。另外,在語音對話裝置100(語音對話系統)的周圍不存在多個人的情況下、SP語音對話裝置100(語音對話系統)的周圍只有講話者的情況下,采用僅對講話者具有指向性的第2再現方法再現應答語音。并且,在不是多個人注視著語音對話裝置100(語音對話系統)的情況下、即注視著語音對話裝置100(語音對話系統)的人只有講話者的情況下,采用僅對講話者具有指向性的第2再現方法再現應答語音。
[0267]圖像取得部106取得語音對話裝置100的周圍的圖像。
[0268]分析部202具備圖像識別部(未圖示)。圖像識別部根據所取得的圖像,檢測語音對話裝置100的周圍的人的臉的朝向和視線的朝向,檢測注視著語音對話裝置100的人的數量。
[0269]分析部202根據由聲音信息取得部201取得的周圍語音信息來檢測在語音對話裝置100的周圍正在講話的人的數量。分析部202從周圍語音信息中提取表示人講話的語音的語音信息,根據提取的語音信息的特征量的差異來檢測講話的人的數量。
[0270]判斷部203判斷在語音對話裝置100的周圍是否存在多個人。判斷部203在由分析部202檢測出的正在講話的人的數量為2人以上的情況下,判斷為在語音對話裝置100的周圍存在多個人,在由分析部202檢測出的正在講話的人的數量為I人的情況下,判斷為在語音對話裝置100的周圍不存在多個人。
[0271]判斷部203在判斷為在語音對話裝置100的周圍存在多個人的情況下,判斷多個人是否注視著語音對話裝置100。
[0272]通常再現控制部204在由判斷部203判斷為多個人注視著語音對話裝置100的情況下,控制再現部105以使得采用不具有指向性的第I再現方法再現應答語音。
[0273]區域再現控制部205在由判斷部203判斷為在語音對話裝置100的周圍不存在多個人的情況下,控制再現部105以使得采用僅對講話者具有指向性的第2再現方法再現應答語音。另外,區域再現控制部205在由判斷部203判斷為不是多個人注視著語音對話裝置100的情況下,控制再現部105以使得采用僅對講話者具有指向性的第2再現方法再現應答語音。
[0274]圖11是表示本實施方式的變形例8中的語音對話裝置的工作的一例的流程圖。
[0275]首先,在步驟S901中,聲音信息取得部201取得由語音取得部101取得的聲音信息(周圍語音信息)。再者,步驟S901的處理與圖3所示的步驟S301的處理相同。
[0276]接著,在步驟902中,分析部202根據由聲音信息取得部201取得的周圍語音信息來檢測在語音對話裝置100的周圍正在講話的人的數量。
[0277]然后,在步驟S903中,判斷部203判斷是否在語音對話裝置100的周圍存在多個人。在此,判斷為在語音對話裝置100的周圍存在多個人的情況下(步驟S903中為是),在步驟S904中,圖像取得部106取得語音對話裝置100的周圍的圖像。
[0278]接著,在步驟S905中,圖像識別部根據由圖像取得部106取得的圖像,檢測語音對話裝置100的周圍的人的臉的朝向和視線的朝向,檢測注視著語音對話裝置100的人的數量。圖像識別部在臉的朝向和視線的朝向朝著語音對話裝置100(圖像取得部106)的方向的情況下,判斷為注視著語音對話裝置100。再者,圖像識別部可以檢測臉的朝向和視線的朝向的任一者。
[0279]然后,在步驟S906中,判斷部203判斷是否為多個人注視著語音對話裝置100。在此,判斷為多個人注視著語音對話裝置100的情況下(步驟S906中為是),在步驟S907中,通常再現控制部204控制再現部105以使得采用第I再現方法再現應答語音。
[0280]另一方面,判斷在語音對話裝置100的周圍不存在多個人的情況下(步驟S903中為否)、或判斷為不是多個人注視著語音對話裝置100的情況下(步驟S906中為否),在步驟S908中,區域再現控制部205控制再現部105以使得采用第2再現方法再現應答語音。
[0281]再者,本實施方式的變形例8中,可以不進行將對語音對話裝置100(語音對話系統)的講話語音的聲級和除了講話語音以外的聲音的聲級進行比較的處理。
[0282]另外,在本實施方式的變形例8中也需要作成應答語音,因此語音對話裝置100(服務器裝置110)進行將周圍語音信息分離為第I語音信息和第2語音信息的處理(圖3的步驟S302)以及作成應答語音的處理(圖5的步驟S406)。
[0283](變形例9)
[0284]本實施方式的變形例9中,預先將講話者的位置與第I再現方法和第2再現方法中的某一方法相關聯地存儲于語音信息數據庫。并且,所取得的周圍語音信息被分離為第I語音信息和第2語音信息,確定講話者的位置。與所確定的講話者的位置相關聯的再現方法存在于語音信息數據庫的情況下,采用存儲于語音信息數據庫的再現方法再現應答語音。
[0285]再者,利用圖1和圖2來說明本實施方式的變形例9中的語音對話裝置100的構成。
[0286]聲音信息取得部201取得以每預定的角度具有指向性的多個周圍語音信息。再者,語音取得部101由包含多個麥克風的陣列麥克風系統構成,從多個麥克風取得以每預定的角度具有指向性的多個周圍語音信息。
[0287]分析部202通過對于由聲音信息取得部201取得的多個周圍語音信息,判斷是否為對語音對話裝置100的講話語音,而將多個周圍語音信息分離為第I語音信息和第2語音信息。
[0288]分析部202基于取得了包含第I語音信息的周圍語音信息的麥克風的指向性來確定講話者的位置。再者,講話者的位置也可以根據使用麥克風的房間的混響時間來計算。再者,混響時間是通過預先測定設置麥克風的房間的混響時間而提供的。
[0289]聲音信息DB107將講話者的位置與第I再現方法和第2再現方法中的某一方法相關聯地存儲。
[0290]判斷部203參照聲音信息DB107來判斷由分析部202確定出的講話者的位置是否關聯了第I再現方法和第2再現方法中的某一方法。
[0291]再現控制部206在判斷為所確定的講話者的位置關聯了第I再現方法和第2再現方法中的某一方法的情況下,控制再現部105以使得采用與所確定的講話者的位置相關聯的第I再現方法和第2再現方法中的某一方法再現應答語音。此時,通常再現控制部204在第I再現方法與所確定的講話者的位置相關聯的情況下,控制再現部105以使得采用不具有指向性的第I再現方法再現應答語音。另外,區域再現控制部205在第2再現方法與所確定的講話者的位置相關聯的情況下,控制再現部105以使得采用僅對講話者具有指向性的第2再現方法再現應答語音。
[0292]另外,判斷部203在判斷為第I再現方法和第2再現方法中的某一方法都不與所確定的講話者的位置相關聯的情況下,將第I語音信息的聲級和第2語音信息的聲級進行比較。
[0293]通常再現控制部204在由判斷部203判斷為第I語音信息的聲級高于第2語音信息的聲級的情況下,采用第I再現方法再現應答語音。
[0294]區域再現控制部205在由判斷部203判斷為第I語音信息的聲級低于第2語音信息的聲級的情況下,采用第2再現方法再現應答語音。
[0295]再現控制部206將所確定的講話者的位置與再現了應答語音的第I再現方法和第2再現方法中的某一方法相關聯地存儲于聲音信息DB107。
[0296]圖12是表示本實施方式的變形例9中的語音對話裝置的工作的一例的流程圖。
[0297]步驟SllOl和步驟S1102的處理與圖3所示的步驟S301和步驟S302的處理相同,因此省略說明。
[0298]接著,在步驟S1103中,分析部202基于取得了包含第I語音信息的周圍語音信息的麥克風的指向性來確定講話者的位置。再者,由于語音取得部101是由包含多個麥克風的陣列麥克風系統構成的,因此分析部202能夠確定講話語音的到來方向,能夠根據講話語音的到來方向確定講話者的位置。再者,分析部202可以不僅確定講話者的位置(講話者所在的方向),還確定講話者所在的區域。講話者所在的區域例如是講話者伸手夠到的范圍。
[0299]然后,在步驟SI 104中,判斷部203參照聲音信息DB107來判斷由分析部202確定出的講話者的位置是否關聯有再現方法。在此,判斷為所確定的講話者的位置關聯有再現方法的情況下(步驟SI 104中為是),在步驟SI 105中,再現控制部206控制再現部105以使得采用與所確定的講話者的位置相關聯的第I再現方法和第2再現方法中的某一方法再現應答語音。此時,第I再現方法與所確定的講話者的位置相關聯的情況下,通常再現控制部204控制再現部105以使得采用不具有指向性的第I再現方法再現應答語音。另外,第2再現方法與所確定的講話者的位置相關聯的情況下,區域再現控制部205控制再現部105以使得采用僅對講話者具有指向性的第2再現方法再現應答語音。
[0300]另一方面,判斷為所確定的講話者的位置沒有關聯再現方法的情況下(步驟S1104中為否),在步驟S1106中,判斷部203判斷第I語音信息的聲級是否高于第2語音信息的聲級。
[0301]再者,步驟S1106?步驟S1108的處理與圖3所示的步驟S303?步驟S305的處理相同,因此省略說明。
[0302]接著,在步驟S1109中,再現控制部206將所確定的講話者的位置與再現了應答語音的第I再現方法和第2再現方法中的某一方法相關聯地存儲于聲音信息DB107。
[0303](變形例10)
[0304]本實施方式的變形例10中,存儲部預先存儲有預定的關鍵字。并且,所取得的周圍語音信息被分離為第I語音信息和第2語音信息,第I語音信息包含預定的關鍵字的情況下,采用第I再現方法再現應答語音。
[0305]再者,利用圖1和圖2來說明本實施方式的變形例10中的語音對話裝置100的構成。
[0306]分析部202對分尚出的第I語音信息的講話內容進行分析。分析部202將分尚出的第I語音信息轉換為文本信息。
[0307]判斷部203判斷由分析部202轉換為了文本信息的第I語音信息是否包含預先存儲于聲音信息DB107的預定的關鍵字。聲音信息DB107預先存儲預定的關鍵字。預定的關鍵字例如是預先決定了采用第I再現方法再現應答語音的講話內容。
[0308]通常再現控制部204在判斷為第I語音信息包含預定的關鍵字的情況下,控制再現部105以使得采用第I再現方法再現應答語音。
[0309]區域再現控制部205在判斷為第I語音信息不含預定的關鍵字的情況下,控制再現部105以使得采用第2再現方法再現應答語音。
[0310]圖13是表示本實施方式的變形例10中的語音對話裝置的工作的一例的流程圖。
[0311]步驟S1301和步驟S1302的處理與圖3所示的步驟S301和步驟S302的處理相同,因此省略說明。
[0312]接著,在步驟S1303中,判斷部203判斷第I語音信息是否包含預先存儲于聲音信息DB107的預定的關鍵字。再者,第I語音信息由分析部202轉換為文本信息。
[0313]在此,判斷為第I語音信息包含預定的關鍵字的情況下(步驟S1303中為是),在步驟S1304中,通常再現控制部204控制再現部105以使得采用不具有指向性的第I再現方法再現應答語音。
[0314]另一方面,判斷為第I語音信息不含預定的關鍵字的情況下(步驟S1303中為否),在步驟S1305中,區域再現控制部205控制再現部105以使得采用僅對講話者具有指向性的第2再現方法再現應答語音。
[0315]再者,本實施方式中,判斷為第I語音信息包含預定的關鍵字的情況下,采用第I再現方法再現應答語音,判斷為第I語音信息不含預定的關鍵字的情況下,采用第2再現方法再現應答語音,但本公開不特別限定于此。也可以設置成:判斷為第I語音信息包含預定的關鍵字的情況下,采用第2再現方法再現應答語音,判斷為第I語音信息不含預定的關鍵字的情況下,采用第I再現方法再現應答語音。
[0316](變形例11)
[0317]本實施方式的變形例11中,連續取得相同的講話內容的講話語音的情況下,不再現應答語首。
[0318]再者,利用圖1和圖2來說明本實施方式的變形例11中的語音對話裝置100的構成。
[0319]分析部202對分離出的第I語音信息的講話內容進行分析。
[0320]判斷部203判斷由分析部202分析出的講話內容是否與存儲于聲音信息DB107中的上一次取得的第I語音信息的講話內容相同。
[0321]再現控制部206在判斷為分析出的講話內容與上一次的講話內容相同的情況下,中止應答語音的再現。
[0322]判斷部203在判斷為分析出的講話內容與上一次的講話內容不同的情況下,將第I語音信息的聲級和第2語音信息的聲級進行比較。再現控制部206根據比較的結果,采用第I再現方法和第2再現方法中的某一方法再現應答語音。
[0323]再現控制部206將本次的第I語音信息的講話內容存儲于聲音信息DB107。
[0324]圖14是表示本實施方式的變形例11中的語音對話裝置的工作的一例的流程圖。
[0325]步驟S1401和步驟S1402的處理與圖3所示的步驟S301和步驟S302的處理相同,因此省略說明。
[0326]接著,在步驟S1403中,判斷部203判斷第I語音信息的講話內容是否與存儲于聲音信息DB107中的上一次的第I語音信息的講話內容相同。再者,由分析部202對第I語音信息的講話內容進行分析。講話內容相同不僅包括講話者講話的講話語音的詞句完全相同的情況,也包括講話者講話的講話語音的意思相同的情況。
[0327]在此,判斷為第I語音信息的講話內容與上一次的第I語音信息的講話內容相同的情況下(步驟S1403中為是),在步驟S1404中,再現控制部206中止應答語音的再現。
[0328]另一方面,判斷為第I語音信息的講話內容與上一次的第I語音信息的講話內容不同的情況下(步驟S1403中為否),在步驟S1405中,判斷部203判斷第I語音信息的聲級是否高于第2語音信息的聲級。
[0329]再者,步驟S1405?步驟S1407的處理與圖3所示的步驟S303?步驟S305的處理相同,因此省略說明。
[0330]接著,在步驟S1408中,再現控制部206將本次的第I語音信息的講話內容存儲于聲音信息DB107。
[0331]再者,本實施方式的變形例11中,可以在步驟S1402與步驟S1403之間,判斷從取得上一次的第I語音信息后是否經過了預定時間。可以設置成:判斷為從取得上一次的第I語音信息后經過了預定時間的情況下,移至步驟S1405的處理,判斷為從取得上一次的第I語音信息后沒有經過預定時間的情況下,移至步驟S1403的處理。由此,能夠在短時間內連續輸入了相同的講話內容的講話語音的情況下,中止對于后續的講話語音的應答語音的再現。
[0332](變形例12)
[0333]本實施方式的變形例12中,將講話者在通常會話中講話的語音的聲級作為通常聲級存儲于聲級數據庫,在包含發出對語音對話裝置100的指示的講話語音的第I語音信息的聲級高于存儲于聲級數據庫的通常聲級的平均值的情況下,采用第I再現方法再現應答語音,第I語音信息的聲級低于通常聲級的平均值的情況下,采用第2再現方法再現應答語音。
[0334]再者,利用圖1和圖2來說明本實施方式的變形例11中的語音對話裝置100的構成。
[0335]分析部202將分離出的第2語音信息中所含的人的語音的聲級作為通常聲級存儲于聲音信息DB107。即,分析部202不將發出對語音對話裝置100的指示的講話語音的聲級作為通常聲級存儲于聲音信息DB107,而是將通常會話中講話者講話的語音的聲級作為通常聲級存儲于聲音信息DB107。
[0336]聲音信息DB107存儲通常聲級。再者,聲音信息DB107可以存儲從分析部202輸出的所有通常聲級。另外,聲音信息DB107也可以計算從分析部202輸出的通常聲級和已經存儲的通常聲級的平均值,僅存儲算出的平均值。
[0337]判斷部203判斷分離出的第I語音信息的聲級是否高于聲音信息DB107中存儲的通常聲級的平均值。
[0338]通常再現控制部204在判斷為第I語音信息的聲級高于通常聲級的平均值的情況下,控制再現部105以使得采用第I再現方法再現應答語音。
[0339]區域再現控制部205在判斷為第I語音信息的聲級低于通常聲級的平均值的情況下,控制再現部105以使得采用第2再現方法再現應答語音。
[0340]圖15是表示本實施方式的變形例12中的語音對話裝置的工作的一例的流程圖。
[0341]步驟S1501和步驟S1502的處理與圖3所示的步驟S301和步驟S302的處理相同,因此省略說明。
[0342]接著,在步驟S1503中,分析部202將分離出的第2語音信息中所含的人的語音的聲級作為通常聲級存儲于聲音信息DB107。
[0343]然后,在步驟S1504中,判斷部203判斷分離出的第I語音信息的聲級是否高于存儲于聲音信息DB107中的通常聲級的平均值。
[0344]在此,判斷為第I語音信息的聲級高于通常聲級的平均值的情況下(步驟S1504中為是),在步驟S1505中,通常再現控制部204控制再現部105以使得采用第I再現方法再現應答語首。
[0345]另一方面,判斷為第I語音信息的聲級低于通常聲級的平均值的情況下(步驟S1504中為否),區域再現控制部205控制再現部105以使得采用第2再現方法再現應答語音。
[0346]再者,判斷為第I語音信息的聲級與通常聲級的平均值相同的情況下,既可以由通常再現控制部204采用第I再現方法再現應答語音,也可以由區域再現控制部205采用第2再現方法再現應答語音。
[0347]另外,也可以設置成:判斷為第I語音信息的聲級高于通常聲級的平均值的情況下,采用第2再現方法再現應答語音,判斷為第I語音信息的聲級低于通常聲級的平均值的情況下,采用第I再現方法再現應答語音。
[0348]另外,本實施方式中,再現部105采用第I再現方法或第2再現方法再現應答語音,但本公開并不特別限定于此,也可以設為:再現部105采用第I再現方法和第2再現方法中的某一方法,將被講話語音控制的控制對象設備再現的語音再現。例如可以設為:語音對話裝置100設置于電視機,在講話者對語音對話裝置100發出提高電視機的音量的指示的情況下,語音對話裝置100根據將第I語音信息的聲級和第2語音信息的聲級進行比較的結果,采用第I再現方法和第2再現方法中的某一方法將電視機再現的語音再現。
[0349]產業可利用性
[0350]本公開涉及的語音再現方法、語音對話裝置和語音對話程序,能夠采用與講話者的周圍的狀況相應的再現方法再現應答語音,作為將對于講話語音的應答語音再現的語音再現方法、語音對話裝置是有用的。
【主權項】
1.一種語音再現方法,是語音對話系統中的語音再現方法, 取得周圍語音信息,所述周圍語音信息包含對所述語音對話系統講話的講話語音、表示所述講話語音的講話者的周圍的聲音, 將所述周圍語音信息分離為包含所述講話語音的第I語音信息和包含除了所述講話語音以外的聲音的第2語音信息, 將所述第I語音信息的聲級和所述第2語音信息的聲級進行比較, 根據比較的結果,采用第I再現方法、和再現的語音的指向性與所述第I再現方法不同的第2再現方法中的某一方,再現對所述講話語音的應答語音。2.根據權利要求1所述的語音再現方法,所述第I再現方法是不具有指向性的再現方法, 所述第2再現方法是對所述講話者具有指向性的再現方法, 在所述第I語音信息的聲級高于所述第2語音信息的聲級的情況下,采用所述第I再現方法再現所述應答語音, 在所述第I語音信息的聲級低于所述第2語音信息的聲級的情況下,采用所述第2再現方法再現所述應答語音。3.根據權利要求1所述的語音再現方法,對所述第I語音信息進行語音識別, 使用所述語音識別的結果來生成應答語音, 采用所述第I再現方法和所述第2再現方法中的某一方再現所述應答語音。4.根據權利要求1所述的語音再現方法,所述周圍語音信息包含從含有多個麥克風的陣列麥克風系統取得的、在每個預定的角度具有指向性的多個周圍語音信息, 通過判斷所述多個周圍語音信息的各自是否為對所述語音對話系統的所述講話語音,而將所述周圍語音信息分離為所述第I語音信息和所述第2語音信息。5.根據權利要求4所述的語音再現方法,在采用所述第2再現方法再現所述應答語音時,向所述多個周圍語音信息中的、判斷為是對所述語音對話系統的所述講話語音的所述周圍語音信息被取得的角度的方向,再現所述應答語音。6.根據權利要求4所述的語音再現方法,在所述多個周圍語音信息的某一個包含預先存儲的預定的關鍵字的情況下,判斷為該包含預定的關鍵字的周圍語音信息是對所述語音對話系統的講話語音。7.根據權利要求1所述的語音再現方法,采用譜減法將所述周圍語音信息分離為所述第I語音信息和所述第2語音信息。8.根據權利要求1所述的語音再現方法,根據所述周圍語音信息來識別周圍的人, 基于將所述第I語音信息的聲級和所述第2語音信息的聲級比較的結果、以及識別所述周圍的人的結果,切換采用所述第I再現方法和所述第2再現方法中的哪一方進行再現。9.根據權利要求1所述的語音再現方法,使用將過去取得的所述第I語音信息與在過去再現所述第I語音信息時所選擇的所述第I再現方法和所述第2再現方法中的某一方相關聯地存儲的表格,選擇再現所述應答語音的再現方法。10.根據權利要求2所述的語音再現方法,取得所述語音對話系統的周圍的圖像, 根據所述圖像來檢測注視著所述語音對話系統的人, 在采用所述第2再現方法再現所述應答語音時,向檢測出的所述人再現所述應答語音。11.根據權利要求1所述的語音再現方法,所述第I再現方法是不具有指向性的再現方法, 所述第2再現方法是對講話者具有指向性的再現方法, 取得所述語音對話系統的周圍的圖像, 根據所述圖像來檢測注視著所述語音對話系統的人的數量, 根據所述人的數量的檢測結果來判斷是否為多個人注視著所述語音對話系統, 在判斷為多個人注視著所述語音對話系統的情況下,采用所述第I再現方法再現所述應答語音, 在判斷為不是多個人注視著所述語音對話系統的情況下,采用所述第2再現方法再現所述應答語首。12.根據權利要求1所述的語音再現方法,所述第I再現方法是不具有指向性的再現方法, 所述第2再現方法是對講話者具有指向性的再現方法, 通過所述講話者持有的拾音裝置拾取所述講話語音, 取得所述語音對話系統的周圍的圖像, 根據所述圖像來確定對所述拾音裝置講話的所述講話者的位置, 判斷是否在由所述講話者對所述拾音裝置輸入了預定的指示信號的狀態下拾取到所述講話語音, 在判斷為不是在所述預定的指示信號被輸入了所述拾音裝置的狀態下拾取到所述講話語音的情況下,采用所述第I再現方法再現所述應答語音, 在判斷為在所述預定的指示信號被輸入了所述拾音裝置的狀態下拾取到所述講話語音的情況下,采用所述第2再現方法再現所述應答語音。13.根據權利要求1所述的語音再現方法,所述第I再現方法是不具有指向性的再現方法, 所述第2再現方法是對講話者具有指向性的再現方法, 所述周圍語音信息包含從含有多個麥克風的陣列麥克風系統取得的、以每預定的角度具有指向性的多個周圍語音信息, 通過判斷所述多個周圍語音信息的各自是否為對所述語音對話系統的所述講話語音,而將所述多個周圍語音信息分離為所述第I語音信息和所述第2語音信息, 基于取得了包含所述第I語音信息的周圍語音信息的麥克風的指向性來確定所述講話者的位置, 參照將所述講話者的位置與所述第I再現方法和所述第2再現方法中的某一方相關聯地存儲的語音信息數據庫,來判斷確定出的所述講話者的位置是否關聯有所述第I再現方法和所述第2再現方法中的某一方, 在判斷為確定出的所述講話者的位置關聯有所述第I再現方法和所述第2再現方法中的某一方的情況下,采用與確定出的所述講話者的位置相關聯的所述第I再現方法和所述第2再現方法中的某一方再現所述應答語音, 在判斷為所述第I再現方法和所述第2再現方法中的哪一方都沒有與所述講話者的位置相關聯的情況下,將所述第I語音信息的聲級和所述第2語音信息的聲級進行比較, 在所述第I語音信息的聲級高于所述第2語音信息的聲級的情況下,采用所述第I再現方法再現所述應答語音, 在所述第I語音信息的聲級低于所述第2語音信息的聲級的情況下,采用所述第2再現方法再現所述應答語音, 將確定出的所述講話者的位置與再現了所述應答語音的所述第I再現方法和所述第2再現方法中的某一方相關聯地存儲于所述語音信息數據庫。14.根據權利要求1所述的語音再現方法,識別發出所述講話語音的講話者, 從將識別所述講話者的信息與所述第I再現方法和所述第2再現方法中的某一方相關聯地存儲的聲音信息數據庫中,選擇與識別出的所述講話者相關聯的所述第I再現方法和所述第2再現方法中的某一方, 采用所述第I再現方法和所述第2再現方法中的某一方再現所述應答語音。15.根據權利要求1所述的語音再現方法,所述第I再現方法是不具有指向性的再現方法, 所述第2再現方法是對講話者具有指向性的再現方法, 判斷分離出的所述第I語音信息是否包含預先存儲于存儲部的預定的關鍵字, 在判斷為所述第I語音信息包含所述預定的關鍵字的情況下,采用所述第I再現方法再現所述應答語音, 在判斷為所述第I語音信息不包含所述預定的關鍵字的情況下,采用所述第2再現方法再現所述應答語音。16.根據權利要求1所述的語音再現方法,對分離出的所述第I語音信息的講話內容進行分析,判斷分析出的所述講話內容是否與上一次取得的第I語音信息的講話內容相同, 在判斷為分析出的所述講話內容與上一次的講話內容相同的情況下,不再現所述應答語音, 在判斷為分析出的所述講話內容與上一次的講話內容不同的情況下,將所述第I語音信息的聲級與所述第2語音信息的聲級進行比較,根據比較的結果,采用所述第I再現方法和所述第2再現方法中的某一方再現所述應答語音, 將分析出的所述講話內容存儲于所述存儲部。17.根據權利要求1所述的語音再現方法,所述第I再現方法是不具有指向性的再現方法, 所述第2再現方法是對講話者具有指向性的再現方法, 將分離出的所述第2語音信息中所含的人的語音的聲級作為通常聲級存儲于聲級數據庫, 判斷分離出的所述第I語音信息的聲級是否高于存儲于所述聲級數據庫的所述通常聲級的平均值, 在判斷為所述第I語音信息的聲級高于所述通常聲級的平均值的情況下,采用所述第I再現方法再現所述應答語音, 在判斷為所述第I語音信息的聲級低于所述通常聲級的平均值的情況下,采用所述第2再現方法再現所述應答語音。18.根據權利要求1所述的語音再現方法,將所述第I語音信息的聲級和所述第2語音信息的聲級進行比較,根據比較的結果,采用所述第I再現方法和所述第2再現方法中的某一方,將被所述講話語音控制的控制對象設備再現的語音再現。19.一種語音對話裝置,具備: 語音分離部,其將包含對所述語音對話裝置講話的講話語音的、表示所述講話語音的講話者的周圍的聲音的周圍語音信息,分離為包含所述講話語音的第I語音信息和包含除了所述講話語音以外的聲音的第2語音信息; 比較部,其將所述第I語音信息的聲級和所述第2語音信息的聲級進行比較;以及再現控制部,其根據比較的結果,采用第I再現方法和再現的語音的指向性與所述第I再現方法不同的第2再現方法中的某一方,再現對所述講話語音的應答語音。
【文檔編號】H04R1/08GK106067996SQ201610204408
【公開日】2016年11月2日
【申請日】2016年4月1日 公開號201610204408.X, CN 106067996 A, CN 106067996A, CN 201610204408, CN-A-106067996, CN106067996 A, CN106067996A, CN201610204408, CN201610204408.X
【發明人】松岡智美, 坂口敦
【申請人】松下知識產權經營株式會社