專利名稱:為標記目的確定對話系統參數的系統和方法
技術領域:
本發明涉及為標記和/或個人化目的確定口語對話系統參數的系統和方法。
背景技術:
命令和控制型語音識別系統可以允許用戶通過說出或發出特定的預定關鍵字來控制設備和服務,該系統可以理解該特定的預定關鍵字并將其鏈接到特定的行為。這樣的系統需要用戶學習特定的允許的關鍵字集合和其到行為的映射。
與命令和控制型系統相反,某些口語對話系統允許用戶使用大部分無約束語音在對話系統的控制下與設備和/或服務進行互動。即,某些口語對話系統可以采用更多的自然語言理解(Natural LanguageUnderstanding,NLU)方法與用戶進行互動。具體地,這些系統可以使用多個專門用于與用戶所說的含義的理解相關聯的特定子任務的模塊,生成對用戶的口語應答以進一步澄清,以及向設備或服務發布某種類型的命令或查詢,作為與用戶對話的結果。
生產商和服務提供商希望將他們的產品和服務與其他生產商或服務提供商區分開。而且,生產商和服務提供商希望他們的產品和服務因為具有特別的外形和/或感覺而被用戶認知。
消費者希望他們使用的產品和/或服務具有某種與眾不同的特性。具體地,消費者希望根據他們的個人偏好來定制產品和/或服務。
發明概要本發明的示例性實施例和/或示例性方法可以確定口語對話系統的某些特性的參數,從而生成口語對話系統的特定形象或外表,或者生成在口語對話系統控制下的或者與口語對話系統相關聯的特定設備和/或服務的特定形象或外表。從用戶的觀點來看,在與設備或服務互動時口語對話系統可以用作聯絡中心,并且隨著時間的過去用戶可以逐漸形成關于設備或服務的人性化的形象或者感覺,這些可以部分地受到口語對話系統的參數化的影響。在這一點上,可以將這種人性化形象或者感覺的形成稱為“標記”或“個人化”。
口語對話系統的標記,或者包括口語對話系統或在口語對話系統控制下的系統的標記,可以為生產商(例如,車輛生產商)提供區分他們產品與他們競爭對手的那些產品的機會,即使這些生產商使用相同或相似的技術。例如,標記可以用于將特定“外形和感覺”或者“說和聽”附加到汽車模型和其附帶的口語對話系統,使得生產商可以將汽車模型作為特定購買群體的目標,并且用戶可以識別生產商和/或模型。在這一點上,口語對話系統可以是整個汽車設計和外觀的一部分或者到用戶的位置從而加入了一致性和價值。由此,標記和/或個人化對技術的提供者,對汽車制造商,以及對用戶來說,都是高價值的。
根據本發明的示例性實施例和/或示例性方法,口語對話系統可以使一個或者更多用戶參加語音對話,以協商系統可以執行的一個或多個任務的細節。通過這樣做,系統的語音輸出可以呈現出某種關于特定標記本身的特性。具體地,這些特性可以包括,例如,某種聲調(例如,男/女聲,音調的變音等),詞的選擇,回答中的詳細度,之前發音慣用語的重復度等。
根據本發明的示例性實施例和/或示例性方法,系統的標記特性可以做成可調整的,使得可以通過與系統嵌入的環境(例如,汽車)的設計一致的方式來提供該系統。例如,汽車生產商可以使用口語參數化,通過與車輛的通用設計和/或用戶偏好一致的方式來調整交通工具上(on-board)的口語對話系統的行為。
根據本發明的示例性實施例和/或示例性方法,為了標記目的提供對車內口語對話系統中的可調整參數的訪問。具體地,根據本發明的示例性實施例和/或示例性方法,對生產商提供了對于不同汽車模型或用戶群的不同參數設定的訪問。
根據本發明的示例性實施例和/或示例性方法,為口語對話系統的用戶提供了訪問,以調整參數使對話系統個人化。在這一點上,口語對話系統參數的個人化可以包括,例如,對依次由口語對話系統中的組件提供/檢測的用戶特定特性的訪問。在這一點上,用戶特定特性可以包括,例如,特定用戶的特性,男性特性,女性特性,對話風格,或者說話風格。用戶還可以定義單獨參數設置的集合的新檔案。具體地,本發明的示例性實施例和/或示例性方法可以將設置的預配置提供在一個檔案中,以及提供讓用戶選擇一組檔案中的一個的訪問。
本發明的示例性實施例和/或示例性方法在于確定口語對話系統的參數的方法,包括提供用于存儲至少一個參數值的存儲區,整合子組件和口語對話系統的至少一個模塊,以及配置該子組件以訪問該至少一個參數值并基于該至少一個參數值調整該模塊的操作或者輸出。
根據本發明的另一個示例性實施例和/或示例性方法,將該子組件與語音識別模塊整合,以調整數字化聲學樣本到由語音識別模塊生成的詞序列和有向圖的至少之一的轉換。
根據本發明的另一個示例性實施例和/或示例性方法,將該子組件與自然語言理解模塊整合,以調整對詞序列和詞假設的有向組的至少之一的句法和語義結構的分析。
根據本發明的另一個示例性實施例和/或示例性方法,配置該子組件以關于用戶話語風格來調整對詞序列和詞假設的有向組至少之一的句法和語義結構的分析。
根據本發明的另一個示例性實施例和/或示例性方法,該子組件與對話管理器整合,以調整用于設備的命令的匯編和應答描述的生成的至少之一。
根據本發明的另一個示例性實施例和/或示例性方法,配置該子組件以關于口語對話系統的對話風格調整用于設備的命令的匯編和應答描述的生成的至少之一。
根據本發明的另一個示例性實施例和/或示例性方法,對話風格包括相對應答長度。
根據本發明的另一個示例性實施例和/或示例性方法,配置該子組件以關于口語對話系統的插入級別調整用于設備的命令的匯編和應答描述的生成的至少之一。
根據本發明的另一個示例性實施例和/或示例性方法,整合該子組件和應答生成器,以調整應答描述到詞和聲標的至少之一的序列的翻譯。
根據本發明的另一個示例性實施例和/或示例性方法,配置該子組件以關于要提供給口語對話系統的用戶的應答數量來調整應答描述到詞和聲標的至少之一的序列的翻譯根據本發明的另一個示例性實施例和/或示例性方法,配置該子組件以關于詞和聲標的至少之一的選擇來調整應答描述到詞和聲標的至少之一的序列的翻譯。
根據本發明的另一個示例性實施例和/或示例性方法,整合該子組件和文本到語音模塊,以調整詞的至少一個的序列到數字化聲學樣本的轉換。
根據本發明的另一個示例性實施例和/或示例性方法,配置該子組件以關于韻律控制來調整詞序列到數字化聲學樣本的轉換。
根據本發明的另一個示例性實施例和/或示例性方法,配置該子組件以關于聲音特征來調整詞序列到數字化聲學樣本的轉換。
根據本發明的另一個示例性實施例和/或示例性方法,將至少一個參數組織到至少一個檔案中。
根據本發明的另一個示例性實施例和/或示例性方法,提供接口以設置至少一個參數和至少一個檔案中的至少之一。
根據本發明的另一個示例性實施例和/或示例性方法在于確定口語對話系統參數的設備,包括用于存儲至少一個參數值的存儲區,以及與口語對話系統的至少一個模塊整合的至少一個子組件,用于訪問至少一個參數值并基于該至少一個參數值來調整模塊的操作或者輸出。
根據本發明的另一個示例性實施例和/或示例性方法在于一種口語對話系統,包括用于執行口語對話系統的子任務的模塊,用于存儲至少一個參數值的存儲區,以及與所述模塊整合的子組件設備,用于訪問該至少一個參數值并基于該至少一個參數值來調整所述模塊的操作或者輸出。
根據本發明的另一個示例性實施例和/或示例性方法,配置該模塊以執行對詞序列和詞假設的有向組的至少之一的句法和語義結構的分析,以及配置該子組件設備以關于用戶說話風格來調整所述分析。
根據本發明的另一個示例性實施例和/或示例性方法,配置該模塊以執行用于設備的命令的匯編和應答描述的生成的至少之一,以及配置該子組件設備以關于口語對話系統的對話風格和插入的至少之一來以調整用于設備的命令的匯編和應答描述的生成的至少之一。
根據本發明的另一個示例性實施例和/或示例性方法,對話風格包括相對應達長度。
根據本發明的另一個示例性實施例和/或示例性方法,配置該模塊以將應答描述翻譯成詞和聲標的至少之一的序列,并且配置該子組件設備以關于要提供給口語對話系統的用戶的應答數量和詞和聲標的至少之一的選擇中的其中之一來調整所述翻譯。
根據本發明的另一個示例性實施例和/或示例性方法,配置該模塊以將詞的至少之一的序列轉換成數字化聲學樣本,以及配置該子組件設備以關于韻律控制和聲音特性的至少之一來調整所述轉換。
附圖的簡要說明
圖1顯示了示例性口語對話系統,該系統包括多個專門用于特定子任務的模塊,這些特定子任務有關于用戶所說的含義的接收和理解,為了進一步澄清而生成對用戶的口語應答,以及向設備或服務發布命令或查詢,作為與用戶對話的結果。
圖2顯示了用于確定圖1的示例性口語對話系統參數的示例性參數化配置。
具體描述圖1顯示了示例性口語對話系統100,包括麥克風(M)101,語音識別(SR)模塊102,自然語言理解(NLU)模塊103,對話管理器(DM)104,應答生成器(RG)105,文本到語音(TTS)模塊106,以及揚聲器(S)107。在這一點上,示例性口語對話系統100的每個模塊101到107專門用于特定子任務,該子任務有關于嘗試理解用戶所說的含義,或生成對用戶的口語應答以進一步澄清,或者基于對含義的理解和進一步澄清對設備或服務發布命令或查詢。
具體地,麥克風101將用戶話語的聲學信號轉換成數字化樣本。語音識別模塊102將由麥克風101提供的用戶話語的數字化樣本轉換成最可能的詞序列,或者,轉換成詞假設(word hypothesis)的有向圖(directed graph)。自然語言理解模塊103分析詞序列(或者假設圖)的句法和語義結構。對話管理器104從結構化的話語將命令匯編(assemble)到附加設備(例如,無線電廣播設備),并且/或者生成對用戶的潛在應答的描述,該潛在應答用于用戶話語中沖突信息的確認、解疑或者判定。該應答生成器105將由對話管理器104提供的應答描述翻譯成人類可理解形式的句子(或者詞串)。
文本到語音模塊106將由應答發生器105提供的詞序列轉換為數字化聲學樣本。在這一點上,文本到語音模塊106可以提供韻律(prosody)標記語言擴展,來控制合成語音的各個方面,例如,發音、音量、音調、語速、男/女聲等等。(參見例如W3C語音合成標記語言版本1.0http://www.w3.org/Voice/2004/CR-speech-synthesis-200312128-diffmarked.html,其作為參考全部并入在此)。揚聲器107將由文本到語音模塊106提供的數字化聲學樣本轉換成用戶感知的聲學信號。
圖2顯示了示例性參數化設備150,用于確定圖1的示例性口語對話系統100的參數。示例性參數化設備150包括用于輸入參數值/設置的外部接口151,存儲參數值/設置的存儲區152,以及包含或集成于示例性口語對話系統100的某些模塊中的子組件設備153,用于訪問參數值/設置以及在這些模塊中采用該值/設置。存儲區152包括存儲生產商設置的子存儲區152a和存儲個人化設置的子存儲152b。
例如,可以通過程序軟件指令實現包含在每個模塊中的子組件設備153,該程序軟件指令訪問存儲區域152來檢索生產商和/或個人化參數值/設置,基于檢索值調整該模塊的操作和/或輸出,以及基于與用戶的互動更新個人化參數值/設置。在這一點上,可以通過以下方式提供某種可調整的參數,例如,使用韻律標記語言,或通過修改對話管理器104用以生成應答描述的策略,或者通過修改應答生成器105用以翻譯應答的策略,或者通過以上方式的組合。
圖2的示例性參數化設備150可以用于提供多種可調整的參數,包括,例如,用于語音合成的聲音。在這一點上,可以過濾和/或修改聲音來表示某種類型的人的聲音,包括,例如,男聲,女聲,老人或少年的聲音,或者帶有特定口音的人的聲音。還可以修改聲音的音調。
可調整參數還可以包括韻律控制。例如,可調整參數可以控制語音的聲調、節奏或者音色。可調整參數還可以控制語音輸出的速度。例如,可調整參數可以通過特定形式,或者根據特定詞數字/分類(例如,語義-快樂的,嚴肅的)參數化上的特定重音來控制一個或多個特定詞。
可調整參數還可以包括冗長(verbosity),即,提供給用戶的語音應答的數量。例如,可調整參數可以控制是否所有、沒有或者僅有一些話語被確認,或者是否應答應該僅涉及最近說過的項或者每次重復每一個說過的項。
可調整參數還可以在制定應答中確定詞的選擇。例如,可調整參數可以控制哪些詞被包含在應答中,使得應答可以以特定方式感知,包括,例如,是否考慮應答是禮貌的、直接的和/或不經意的。
可調整參數可以控制“插入”,即,可調整參數可以確定特定外部事件的重要性,并為其發起對話,通知用戶該事件。在這一點上,事件可以是,例如,諸如警告迫近事故或者低油位指示這樣的外部事件。
可調整參數還可以控制與某些系統應答相關聯的不同風格的“耳標(earcon)”(也被認為是聲標(acoustic icon))。例如,可調整參數可以控制某種系統應答,該系統應答使用“嗶嗶聲”來確定識別的話語,或者對于所選擇原語(atomic action)的成功/失敗播放不同的音調。
可調整參數還可以確定對話策略,舉例來說,例如是否每次針對一件事情,或者同時處理多個任務。
可調整參數還可以允許更多約束但是更加精確的談話或者更少約束但是更低精確的談話。例如,為了允許更多約束但是更加精確的談話,可以調整該系統以更多發起談話(“更多系統主動”)。同樣地,為了允許更少約束但是更低精確的談話,可以調整該系統以更少發起談話(“更多用戶主動”)。
給予調整示例性口語對話系統100的某些參數的能力,生產商還可以選擇將部分或者全部參數對用戶公開,使他們個人化這些設置并由此脫離車輛模型的標準行為。在這一點上,通過使用一個或更多由示例性對話系統100中的組件提供/檢測的用戶特性,可以在算法上個人化/衍化這些設置。例如,可以為特定用戶群(例如,來自由語音識別器模塊102提供的輸入的男或女),或者對使用生物統計學(例如,說話人識別/驗證)的特定用戶進行個人化設置。
還可以對特定用戶對話風格進行個人化設置。例如,可以進行個人化設置,以提供控制簡短/詳細/簡潔-查詢/響應,每個任務采用的對話轉變。
還可以對特定用戶說話風格進行個人化設置。例如,可以進行個人化設置,以使用例如語調的指示(例如,不耐心,耐心的句法的指示),或者監視系統特定控制組件(例如,即按即說(PTT)按鈕)的使用頻率來提供不耐心或耐心的說話風格。
可以將參數設置預先配置在一組檔案(profile)中,使用戶能夠選擇確定多個設置的檔案,而不是單獨進行每個設置。用戶還可以將他們自己的新檔案添加到該組。
權利要求
1.確定口語對話系統的參數的方法,包括提供用于存儲至少一個參數值的存儲區;將子組件和所述口語對話系統的至少一個模塊整合;以及配置所述子組件以訪問所述至少一個參數值,并基于所述至少一個參數值調整所述模塊的操作或者輸出。
2.如權利要求1的方法,其中將所述子組件與語音識別模塊整合,以調整從數字化聲學樣本到由所述語音識別系統生成的詞序列和有向圖的至少之一的轉換。
3.如權利要求1的方法,其中將所述子組件與自然語言理解模塊整合,以調整對詞序列以及詞假設的有向組的至少之一的句法和語義結構的分析。
4.如權利要求3的方法,其中配置所述子組件以關于用戶說話風格來調整對詞序列以及詞假設的有向組的至少之一的句法和語義結構的分析。
5.如權利要求1的方法,其中將所述子組件與對話管理器整合,以調整用于設備的命令的匯編和應答描述的生成的至少之一。
6.如權利要求5的方法,其中配置所述子組件以關于所述口語對話系統的對話風格來調整用于所述設備的命令的匯編和所述應答描述的生成的至少之一。
7.如權利要求6的方法,其中所述對話風格包括相對應答長度。
8.如權利要求6的方法,其中配置所述子組件以關于所述口語對話系統的插入級別來調整用于所述設備的命令的匯編和所述應答描述的生成的至少之一。
9.如權利要求1的方法,其中將所述子組件和應答生成器整合,以調整從應答描述到詞和聲標的至少之一的序列的翻譯。
10.如權利要求9的方法,其中配置所述子組件以關于要提供給所述口語對話系統的用戶的響應數量來調整從所述應答描述到所述詞和聲標的至少之一的序列的翻譯。
11.如權利要求9的方法,其中配置所述子組件以關于所述詞和聲標的至少之一的選擇來調整從所述應答描述到所述詞和聲標的至少之一的序列的翻譯。
12.如權利要求1的方法,其中將所述子組件與文本到語音模塊整合,以調整詞的至少之一的序列到數字化聲學樣本的轉換。
13.如權利要求12的方法,其中配置所述子組件以關于韻律控制來調整所述詞序列到數字化聲學樣本的轉換。
14.如權利要求12的方法,其中配置所述子組件以關于聲音特性來調整所述詞序列到數字化聲學樣本的轉換。
15.如權利要求1的方法,還包括將所述至少一個參數組織到至少一個檔案中。
16.如權利要求15的方法,還包括提供接口以設置所述至少一個參數和所述至少一個檔案中的至少之一。
17.確定口語對話系統的參數的設備,包括用于存儲至少一個參數值的存儲區;以及至少一個子組件,將所述至少一個子組件與所述口語對話系統的至少一個模塊整合,以訪問所述至少一個參數值,并基于該至少一個參數值調整所述模塊的操作或者輸出。
18.如權利要求17的設備,其中將所述子組件與語音識別模塊整合,以調整數字化聲學樣本到由所述語音識別模塊生成的詞序列和有向圖的至少之一的轉換。
19.如權利要求17的設備,其中將所述子組件與自然語言理解模塊整合,以調整對詞序列以及詞假設的有向組的至少之一的句法和語義結構的分析。
20.如權利要求19的設備,其中配置所述子組件以關于用戶說話風格來調整對詞序列以及詞假設的有向組的至少之一的句法和語義結構的分析。
21.如權利要求17的設備,其中將所述子組件與對話管理器整合,以調整用于設備的命令的匯編和應答描述的生成的至少之一。
22.如權利要求21的設備,其中配置所述子組件以關于所述口語對話系統的對話風格來調整用于所述設備的命令的匯編和所述應答描述的生成的至少之一。
23.如權利要求22的設備,其中所述對話風格包括相對應答長度。
24.如權利要求21的設備,其中配置所述子組件以關于所述口語對話系統的插入級別來調整用于所述設備的命令的匯編和所述應答描述的生成的至少之一。
25.如權利要求17的設備,其中將所述子組件和應答生成器整合,以調整應答描述到詞和聲標的至少之一的序列的翻譯。
26.如權利要求25的設備,其中配置所述子組件以關于要提供給所述口語對話系統的用戶的應答數量來調整所述應答描述到所述詞和聲標的至少之一的序列的翻譯。
27.如權利要求25的設備,其中配置所述子組件以關于所述詞和聲標中的至少之一的選擇來調整所述應答描述到所述詞和聲標的至少之一的序列的翻譯。
28.如權利要求17的設備,其中將所述子組件和文本到語音模塊整合,以調整詞的至少一個的序列到數字化聲學樣本的轉換。
29.如權利要求28的設備,其中配置所述子組件以關于韻律控制來調整所述詞序列到數字化聲學樣本的轉換。
30.如權利要求28的設備,其中配置所述子組件以關于聲音特性來調整所述詞序列到數字化聲學樣本的轉換。
31.口語對話系統,包括用于執行所述口語對話系統的子任務的模塊;用于存儲至少一個參數值的存儲區;以及與所述模塊整合的子組件設備,用于訪問所述至少一個參數值,并基于該至少一個參數值調整所述模塊的操作或者輸出。
32.如權利要求31的口語對話系統,其中配置所述模塊以執行對詞序列以及詞假設的有向組的至少之一的句法和語義結構的分析,以及配置所述子組件設備以關于用戶說話風格來調整所述分析。
33.如權利要求31的口語對話系統,其中配置所述模塊以進行用于設備的命令的匯編和應答描述的生成的至少之一,以及配置所述子組件設備以關于所述口語對話系統的對話風格和插入的其中之一來調整用于所述設備的命令的匯編和所述應答描述的生成的至少之一。
34.如權利要求33的口語對話系統,其中所述對話風格包括相對應答長度。
35.如權利要求31的口語對話系統,其中配置所述模塊以將應答描述翻譯成詞和聲標的至少之一的序列,并且配置所述子組件設備以關于要提供給所述口語對話系統的用戶的應答數量和所述詞和聲標中至少之一的選擇的其中之一來調整所述翻譯。
36.如權利要求31的口語對話系統,其中配置所述模塊以將詞的至少一個的序列轉換成數字化聲學樣本,以及配置所述子組件設備以關于韻律控制和聲音特性的至少之一來調整所述轉換。
全文摘要
確定口語對話系統參數的方法和系統,包括提供用于存儲至少一個參數值的存儲區,將子組件和口語對話系統的至少一個模塊整合,并且配置所述子組件以訪問所述至少一個參數以及基于該至少一個參數值來調整所述模塊的操作或輸出。
文檔編號G10L15/28GK1945694SQ200610131879
公開日2007年4月11日 申請日期2006年9月28日 優先權日2005年9月28日
發明者豪克·施密特, 卡斯滕·伯格曼, 翁富良, 羅希特·米什拉, 巴德里·拉古納坦 申請人:羅伯特·博世公司