專利名稱:對話支持裝置的制作方法
技術領域:
本發明涉及支持人和人之間的對話的對話支持系統。
背景技術:
以通常人們在出國旅游等與當地人進行對話時,支持該該不同語言的對 話為目的,而開發了自動翻譯技術。自動翻譯技術中,廣泛知道有統計機械 翻譯方法和句法轉換方法等。句法轉換方法是在自動翻譯裝置的內部具有字 典和語法等作為數據庫,并使用字典和語法來分析所輸入的文章。是在理解 了其含義后,轉換為其他語言的方法。
與此相對,統計機械翻譯方法預先大量保持了某個語言和作為轉換對象 的語言對(稱作對譯匯編)。在用戶使用該方法中,顯著出現某個單詞容易 變換為哪個單詞,某個句子容易與其他語言的句子對應的轉換傾向或統計性 質。統計機械翻譯方法是由此,根據單詞和句子的轉換傾向和統計性質,而 不管語法來進行語言的轉換的方法。
這種自動翻譯技術中,句法轉換方法有字典和語法等維護麻煩的缺點。 例如,在不知道的語句出現時,若人們不能加以分析而將該語句和單詞追加 到字典中去,則不能對應于新的語句。與此相對,統計機械翻譯方法有僅僅 通過增加與該語句對應的對譯匯編就可以的優點。即,統計機械翻譯方法與 句法轉換方法和中間語言方法等的自動翻譯技術不同,幾乎不需要人來分析 語言數據而添加追加信息,僅追加對譯匯編就可期待翻譯性能的提高。另一 方面,統計機械翻譯方法中,通過根據某個概率的類型,從對譯匯編中搜索 其概率值最大的系列,來進行最佳的變換。該處理的處理負擔非常高,有在
發現對譯要花很多時間的缺點。最近,因CPU的高速化和主存儲的大容量
化,基于大量的對譯匯編的統計機械翻譯方法的開發盛行。現在,語言模型 和翻譯模型的最佳化、解碼(翻譯處理)的高精度化和翻譯質量的自動評價 為研究開發的重點(例如,參照專利文獻l,非專利文獻l)。
專利文獻1:特開2004—102946號公報
非專利文獻l: Y.Akiba, M.Federico, N.Kando, H.Nakaiwa, M.Paul,J.Tsuiji: "Overview of the IWSLT04 Evaluation Campaign" , International Workshop on Spoken Language
Translation(INTERSPEECH2004-ICSLPSatelliteWorkshop),2004
在利用這種自動翻譯技術來進行對話的情況下,說不同語言的兩個用戶 交替利用對話支持裝置的自動翻譯功能來進行對話。圖1是表示在現有的統 計翻譯方法的對話支持裝置中,根據構成語句的單詞數,解碼所需的平均處 理時間的一例的表。圖1是從專利文獻1的摘錄,表示使用了日常會話中經 常出現的172, 481個語句的對譯匯編的統計翻譯方式的譯碼平均處理時間。 該例中,譯碼的平均處理時間在使用了最新的計算機的情況下,日英需要 47秒以上,英日需要52秒以上。g卩,僅對對方說一句話到從對方獲得該一 句話的回話需要1分39秒以上。 一般,由于譯碼處理與對譯匯編的量和輸 入語句的單詞數成正比,所以大多需要比它多的時間。因此,尤其,在統計 翻譯方法中,由于用戶等待譯碼處理的時間很長,有對話支持裝置實用性不 好的問題。
尤其,統計翻譯方法中,如非專利文獻1的3.3節所示,在比較了翻譯 質量的自動評價結果和基于人的主觀評價結果的實驗中,有時對同一譯文評 價值之間不能發現相關性,相反,為負相關的情況。即,譯碼處理需要花上 一定的時間,但是,有花費太多的時間而使對方等待,不見得得到更好的翻 譯質量的問題。
發明內容
本發明的目的是提供一種在開始翻譯處理之前,決定使對方加以等待的 時間、即譯文的輸出時刻,通過將繼續進行對話所需的充分質量的譯文快速 傳到對方,而使不同語言的對話快速完成的對話支持裝置。
為了解決現有技術的問題,本發明的對話支持裝置,支持不同語言的對 話,其特征在于,具有輸入部,將用戶的發聲(発話)作為輸入來加以接 受;翻譯處理部,將接受到的所述發聲翻譯為預定的語言,并輸出翻譯所得 到的翻譯發聲信息;輸出部,將所輸出的所述翻譯發聲信息傳送輸出到用戶; 以及輸出時刻決定部,分析所述用戶的發聲中包含的特征,決定用于翻譯接 下來接受到的發聲的翻譯時間。
本發明不僅可以作為這種對話支持裝置來實現,還可作為將這種對話支
持裝置具有的特征構成部作為步驟的對話支持方法來實現,或還可作為使計
算機執行這些步驟的程序來實現。并且,這種程序當然可以經CD-ROM等 的記錄介質或互聯網等的傳送介質來進行分發。 發明的效果
在翻譯處理部開始翻譯處理之前,通過輸出時刻決定部,來設置得到為 獲得相互理解所需的充分譯文所用的處理時間,所以可以快速完成通過自動 翻譯功能支持的不同語言的對話。另外,根據情況,還發生了為進行翻譯處 理而設置比現有技術長的處理時間的情況,但是在這種情況下,通過得到似 然更高的譯文,可以提高對方的理解度,其結果,有縮短了達到相互理解的 時間的效果。
圖1是表示在現有的對話支持裝置中,根據構成語句的單詞數來進行解碼所 需的平均處理時間的一例的表。(現有技術)
圖2是表示本發明的對話支持裝置的一實施形態的結構框圖。(實施形態1) 圖3是表示圖2所示的輸出時刻決定部的結構的一例的框圖。(實施形態1) 圖4是表示圖2所示的第一輸入部的更詳細的結構的一例的框圖。(實施形 態l)
圖5是表示本發明的對話支持裝置的一實施形態的用戶接口的圖。(實施形 態l)
圖6是表示本發明的對話支持裝置的動作流程圖。(實施形態1) 圖7是表示圖6所示的步驟S403的對話支持裝置的更詳細的動作的流程圖。 (實施形態l)
圖8是表示在圖6所示的步驟S403中進行并行處理的情況下的對話支持裝 置的更詳細動作的一例的流程圖。(實施形態l)
圖9是表示圖3所示的計算資源信息部保持的表格的數據結構的一例的圖。 (實施形態l)
圖10是表示圖3表示的對話履歷分析部保持的特征表的數據結構的一例的 圖。(實施形態l)
圖11是表示圖3所示的對話履歷存儲部的內容和基于該內容通過時刻計算 部204算出的搜索時間的上限的初始值的一例的表格。(實施形態l) 圖12是表示最先用戶1發聲時的對話支持裝置的翻譯發聲信息的輸出例和 顯示例的圖。(實施形態l)
圖13是表示對圖12所示的用戶1的發聲進行更新的對話履歷存儲部的內容 和基于該內容,通過時刻計算部算出的下一搜索時間的上限t的例子的圖。 (實施形態l)
圖14是表示對用戶1的發聲,用戶2發聲時的對話支持裝置的翻譯發聲信 息的輸出例和顯示例的圖。(實施形態l)
圖15是表示對圖14所示的用戶2的發聲,進一步更新后的對話履歷存儲部 的內容和基于該內容,通過時刻計算部算出的下一搜索時間的上限t的例子 的圖。(實施形態O
圖16是表示對圖14所示的用戶2的發聲,用戶1發聲時的對話支持裝置的 翻譯發聲信息的輸出例和顯示例的圖。(實施形態l)
圖17是表示對圖16所示的用戶1的發聲,進一步更新后的對話履歷存儲部 的內容和基于該內容,通過時刻計算部算出的下一搜索時間的上限t的例子 的圖。(實施形態l)
圖18是以對話履歷及搜索時間的上限來對比基于本發明的對話支持裝置和 現有方式的對話支持裝置的的效果的圖。(實施形態l) 圖19是表示基于本發明的對話支持裝置的平均翻譯處理時間和現有方式的 平均翻譯處理時間的對比的曲線。(實施形態l)
圖20是表示本發明的對話支持裝置的變形例的結構框圖。(實施形態1) 圖21是表示本發明的對話支持裝置的變形例的用戶接口的圖。(實施形態 1)
圖22是表示本發明的對話支持裝置的第二變形例的結構框圖。(實施形態 1)
圖23是表示實施形態2的對話支持裝置的用戶接口的圖。(實施形態2) 圖24是表示語言1是中文,語言2是英語的情況下的特征表的數據結構的 一例的圖。(實施形態2)
圖25是表示最先用戶1發聲時的對話支持裝置的翻譯發聲信息的輸出例和 顯示例的圖。(實施形態2)
圖26是表示對圖25所示的用戶1的發聲更新后的對話履歷存儲部的內容和 基于該內容通過時刻計算部算出的下一搜索時間的上限t的例子的圖。(實
施形態2)
圖27是表示對用戶1的發聲,用戶2發聲時的對話支持裝置的翻譯發聲信 息的輸出例和顯示例的圖。(實施形態2)
圖28是表示對圖27所示的用戶2的發聲進一步更新后的對話履歷存儲部的 內容和對應于此通過時刻計算部算出的下一搜索時間的上限t的例子的圖。 (實施形態2)
圖29是表示對圖27所示的用戶2的發聲,用戶1發聲時的對話支持裝置的 翻譯發聲信息的輸出例和顯示例的圖。(實施形態2)
圖30是表示對圖29所示的用戶1的發聲進一步更新后的對話履歷存儲部的 內容和對應于此通過時刻計算部算出的下一搜索時間的上限t的例子的圖。 (實施形態2)
圖31是用對話履歷和搜索時間的上限來對比本發明的對話支持裝置的效果
和現有方式的對話支持裝置的效果后的圖。(實施形態2)
圖32是表示本發明的對話支持裝置的變形例的結構框圖。(實施形態2)
圖33是表示本發明的對話支持裝置的硬件結構的一例的框圖。(實施形態
1)(實施形態2)
符號說明
101第一輸入部102第一翻譯處理部103第一輸出部 04第二輸入部
105第二翻譯處理部 106第二輸出部 107輸出時刻決定部
201對話履歷存儲部 202對話履歷分析部 203計算資源信息部
204時刻計算部 301麥克風 302輸入發聲信息303輸入開始按鈕
304揚聲器 305翻譯發聲信息 306翻譯開始按鈕 307麥克風
308輸入發聲信息 309輸入開始按鈕310揚聲器311翻譯發聲信息
312翻譯開始按鈕S401輸出時刻初始化步驟S402發聲輸入等待步驟
S403輸出時刻計算步驟 701對話履歷存儲部201的內容
702第一翻譯處理部或第二翻譯處理部的輸出內容
703時刻計算部204的動作 901對話履歷存儲部201的內容
卯2第一翻譯處理部或第二翻譯處理部的輸出內容
903時刻計算部204的動作 1101對話履歷存儲部201的內容
1102第一翻譯處理部或第二翻譯處理部的輸出內容
1103時刻計算部204的動作 1301對話履歷存儲部201的內容
1302第一翻譯處理部或第二翻譯處理部的輸出內容 1303時刻計算部204的動作 1401通過現有方式支持的對話 1402通過本發明支持的對話 1501、 1502終端 1503 1510通信部 1701、 1702終端 1703服務器 1704 1711通信部 1901聲音識別部 1902發聲信息存儲部 3200對話支持裝置 3201揚聲器 3202麥克風3203外部存儲器 3204顯示部 3205 ROM 3206 CPU (處理器)3207 RAM 3208通信部 3209輸入部 3210總線
具體實施例方式
本發明的對話支持裝置,支持不同語言的對話,其特征在于,包括輸
入部,將用戶的發聲作為輸入來加以接受;翻譯處理部,將接受到的所述發 聲翻譯為預定的語言,并輸出翻譯所得到的翻譯發聲信息;輸出部,將所輸 出的所述翻譯發聲信息傳送輸出到用戶;以及輸出時刻決定部,分析所述用 戶的發聲中包含的特征,決定翻譯接下來接受到的發聲用的翻譯時間。由此, 對話支持裝置可以分析用戶的發聲中包含的特征,來決定翻譯接著接收的發 聲用的翻譯時間。即,在某句話中包含的特征表示為即使對下一句話的翻譯 不太流暢,意思也通順的情況下,可以縮短對下一句話的翻譯時間。另外, 在某一句話中包含的特征表示為在對下一發聲的翻譯不流暢,意思不通順的 情況下,可以變長對下一發聲的翻譯時間。
另外,本發明的所述輸入部具有第一輸入部,將基于第一語言的第一 用戶的發聲作為輸入來加以接受;和第二輸入部,將基于第二語言的第二用 戶的發聲作為輸入加以接受,所述翻譯處理部具有第一翻譯處理部,將所 述第一用戶的發聲翻譯為第二語言,并輸出翻譯所得到的第一翻譯發聲信 息;和第二翻譯處理部,將所述第二用戶的發聲翻譯為所述第一語言,并輸 出翻譯所得到的第二翻譯發聲信息,所述輸出部具有第一輸出部,將所輸 出的所述第一翻譯發聲信息傳送輸出到第二用戶;和第二輸出部,將所輸出 的所述第二翻譯發聲信息傳送輸出給第一用戶,所述輸出時刻決定部分析所 述第一用戶的發聲或所述第二用戶的發聲中包含的特征,決定輸出時刻,該 輸出時刻表示所述第一翻譯處理部或所述第二翻譯處理部翻譯所述第一用 戶的發聲或所述第二用戶的發聲的下一個接受到的發聲的翻譯時間的上限,
所述第一翻譯處理部或所述第二翻譯處理部,輸出到所述輸出時刻為止得到 的翻譯結果即所述第一翻譯發聲信息或所述第二翻譯發聲信息。由此,對話 支持裝置可以根據第一用戶的發聲或所述第二用戶的發聲的內容,來決定表 示對下一發聲的翻譯時間的上限的輸出時刻,并輸出在該輸出時刻為止得到 的翻譯結果。
這里,所述翻譯處理部也可通過統計機械翻譯方式來進行翻譯處理。統 計機械翻譯方式尤其有若沒有花上一定以上的翻譯時間,則不怎么能得到合 適的對譯,但是即使花了某種程度以上的翻譯時間也不見得會得到可以與翻 譯時間成正比的好的對譯的性質。因此,根據本發明的對話支持裝置,所述 第一翻譯處理部或第二翻譯處理部在輸出在所述輸出時刻為止得到的翻譯 結果的情況下,輸出時刻決定部決定一定范圍內的輸出時刻后,有可以得到 一定水平以上的翻譯結果的效果。
進一步,本發明的所述輸出時刻決定部可以按發聲的順序來保持以所述 第一用戶的發聲作為字符串的第一發聲信息和以所述第二用戶的發聲作為 字符串的第二發聲信息的履歷,參照所述履歷中包含的在先的第一發聲信息 或第二發聲信息的特征,來決定接下來被保持的第一發聲信息或第二發聲信 息的所述輸出時刻。因此,根據本發明的對話支持裝置,可以根據按發聲的 順序保持第一發聲信息或第二發聲信息的履歷,來決定所述輸出時刻。
本發明的成為所述輸出時刻決定部決定所述輸出時刻的根據的所述特 征的種類可以為相互理解,在所述分析的結果為所接受到的所述發聲中包含 有相互理解的特征的情況下,決定所述輸出時刻,使得所述翻譯時間變得更 短。這里,在所述發聲包含了相互理解的特征的情況下,表示對對話內容的 用戶之間的理解深。因此,認為即使翻譯結果不那么流暢,也可進行意思的 交流。因此,根據本發明的對話支持裝置,在所述發聲中包含了相互理解的 特征的情況下,可以用更短的時間輸出翻譯結果,可以流暢地進行對話。
本發明的成為所述輸出時刻決定部決定所述輸出時刻的根據的所述特 征的種類可以為表層表現的連續性,在所述分析的結果為所接受到的所述發 聲中包含有表示表層表現的連續性的情況下,決定所述輸出時刻,使得所述 翻譯時間變得更短,在所述發聲中包含有表示表層表現的不連續性的情況 下,決定所述輸出時刻,使得所述翻譯時間變得更長。這里,在所述發聲中 包含了表示表層表現的連續性的情況下,在接著的發聲中連續包含所述發聲 中使用的表層表現的一部分的可能性高,若得到了該表層表現,則認為即使 對下一發聲整體的翻譯結果不怎么流暢,也可得到意思的交流。因此,根據 本發明的對話支持裝置,在所述發聲中包含表示表層表現的連續性的特征的 情況下,可以在更短的時間中輸出翻譯結果,可以順暢進行對話。相反,在 所述發聲中包含表示表層表現的不連續性的特征的情況下,在下一發聲中包 含所述發聲中使用的表層表現的一部分的可能低,該表層表現重要的情況很 多。因此,根據本發明的對話支持裝置,在所述發聲中包含表示表層表現的 不連續性的特征的情況下,輸出更加流暢的翻譯結果,來實現意思的交流。
本發明的成為所述輸出時刻決定部決定所述輸出時刻的根據的所述特 征的種類可以為話題轉換,在所述分析的結果為所接受到的所述發聲中包含 話題轉換的特征的情況下,將所述輸出時刻決定為初始值,使得所述翻譯時 間成為標準長度。這里,在所述發聲中包含話題轉換的特征的情況下,認為 在所述發聲的前后,對話的內容沒有關系。因此,根據本發明的對話支持裝 置,在所述發聲中包含話題轉換的特征的情況下,可以輸出在標準的翻譯時 間下得到的翻譯結果。
本發明的所述對話支持裝置還具有計算資源信息部,該計算資源信息部
提供與所述對話支持裝置的計算資源有關的信息;所述輸出時刻決定部參照 與計算資源有關的所述信息,來決定所述第一翻譯發聲信息或所述第二翻譯 發聲信息的輸出時刻。由此,本發明的對話支持裝置可以決定考慮了對話支 持裝置的計算資源的狀態的輸出時刻。
本發明的所述第一輸出部和所述第二輸出部的至少一個具有聲音合成
部,通過合成聲音來再現第一翻譯發聲信息和/或第二翻譯發聲信息;以及 文字圖像顯示部,顯示輸出第一翻譯發聲信息和/或第二翻譯發聲信息。由 于,本發明的對話支持裝置,可以通過合成聲音和文字圖像顯示使第一用戶 和/或第二用戶知道第一翻譯發聲信息和/或第二翻譯發聲信息。因此,第一 用戶和/或第二用戶在僅通過合成聲音難以聽到第一翻譯發聲信息和/或第二 翻譯發聲信息的情況下,通過確認文字圖像顯示部的顯示輸出,來更正確地 進行理解。
本發明的所述聲音合成部,在所述第一翻譯發聲信息和/或所述第二翻 譯發聲信息的似然(尤度)低于一定的閾值的情況下,不動作。由此,本發 明的對話支持裝置可以預先防止由通過合成聲音聽取了似然低于一定的閾
值的所述第一翻譯發聲信息和/或所述第二翻譯發聲信息所造成的聽取錯誤 和誤解了發聲內容。
本發明的所述文字圖像顯示部在所述第一翻譯發聲信息和/或所述第二 翻譯發聲信息的似然低于一定的閾值的情況下,僅強調顯示所述第一翻譯發 聲信息和/或所述第二翻譯發聲信息中包含的獨立詞。因此,根據本發明的 對話支持裝置,在似然低于一定的閾值的情況下,通過僅強調顯示獨立詞, 可以防止因獨立詞之外的似然低的部分而誤解翻譯內容。
本發明的 一種對話支持系統,通過經由通信網彼此進行通信的每個用戶 的對話支持裝置,來支持不同語言的對話,其特征在于第一對話支持裝置 具有第一輸入部,將基于第一語言的第一用戶的發聲作為輸入來加以接受; 第一翻譯處理部,將所接受到的所述第一用戶的發聲翻譯為預定的語言,并 輸出翻譯所得到的第一翻譯發聲信息;第一發送部,將所輸出的所述第一翻 譯發聲信息發送到第二對話支持裝置;第一輸出時刻決定部,分析所述第一 用戶的發聲中包含的特征,來決定輸出時刻,該輸出時刻表示翻譯所述第一 用戶的發聲的下一個所接受到的發聲的翻譯時間的上限;以及第一輸出時刻 發送部,將所決定的所述輸出時刻發送到所述第二對話支持裝置,所述第二
對話支持裝置具有第二接收部,從所述第一對話支持裝置接收所述第一翻 譯發聲信息,并傳送到第二用戶;第二輸出時刻接收部,從所述第一對話支 持裝置接收由所述第一對話支持裝置決定的所述輸出時刻;第二輸入部,將 基于所述預定語言的第二用戶的發聲作為輸入來加以接受;第二翻譯處理 部,將所接受到的所述第二用戶的發聲翻譯為所述第一語言,并輸出翻譯所 得到的第二翻譯發聲信息;以及第二發送部,將所輸出的所述第二翻譯發聲 信息發送到所述第一對話支持裝置,所述第二翻譯處理部將到所接收的所述 輸出時刻為止所得到的翻譯結果即所述第二翻譯發聲信息輸出。由此,本發 明的對話支持系統可以經通信網來支持位于彼此分開的位置中的用戶彼此 的不同語言進行的對話。進一步,除此之外,第一對話支持裝置中,根據第 一用戶的發聲中包含的特征來決定作為對下一發聲的翻譯時間的上限的輸 出時刻,在第二對話支持裝置中,可以到從第一對話支持裝置接收到的所述 輸出時刻為止,輸出將第二用戶的話翻譯為所述第一語言得到的所述第二翻 譯發聲信息。即,第二對話支持裝置中,在對應于第一用戶的發聲中包含的 特征的翻譯時間的上限之前進行翻譯處理,而可以輸出第二翻譯發聲信息。
本發明的對話支持系統,使用經由通信網與服務器相連的第一對話支持 裝置和第二對話支持裝置,來支持對話,其特征在于所述第一對話支持裝 置具有第一輸入部,將以第一語言說話的第一用戶的發聲作為輸入來加以 接受;第一發送部,將所接受到的所述第一用戶的發聲發送到所述服務器; 第二接收部,從所述服務器接收將第二用戶相對于所述第一用戶的發聲的發 聲翻譯為所述第一語言的翻譯結果即第二翻譯發聲信息;以及第一輸出部, 將所接收到的所述第二翻譯發聲信息傳送到所述第一用戶;所述第二對話支 持裝置具有第二輸入部,將以第二語言說話的第二用戶的發聲作為輸入來 加以接受;第二發送部,將所接受到的所述第二用戶的發聲發送到所述服務 器;第一接收部,從所述服務器接收將所述第一用戶相對于所述第二用戶的 發聲的發聲翻譯為所述第二語言的翻譯結果即第一翻譯發聲信息;以及第二 輸出部,將所接收到的所述第一翻譯發聲信息傳送到所述第二用戶;所述服 務器具有第一發聲接收部,從所述第一對話支持裝置接收所述第一用戶的 發聲;第一翻譯處理部,將所接收的所述第一用戶的發聲翻譯為所述第二語 言,并輸出翻譯所所得的第一翻譯發聲信息;第一發送部,將所輸出的第一 翻譯發聲信息發送到所述第二對話支持裝置;第二發聲接收部,從所述第二 對話支持裝置接收所述第二用戶的發聲;第二翻譯處理部,將所接收到的所 述第二用戶的發聲翻譯為所述第一語言,并輸出翻譯所得到的第二翻譯發聲 信息;第二發送部,將所輸出的第二翻譯發聲信息發送到所述第一對話支持 裝置;以及輸出時刻決定部,分析所接收到的所述第一用戶的發聲或所述第 二用戶的發聲中包含的特征,來決定輸出時刻,該輸出時刻表示翻譯所述發 聲的下一個所接收的發聲的所述第一翻譯處理部或所述第二翻譯處理部的 翻譯時間的上限,所述第一翻譯處理部或所述第二翻譯處理部,將到所決定 的所述輸出時刻為止所得到的翻譯結果即所述第一翻譯發聲信息或所述第 二翻譯發聲信息輸出。因此,根據本發明的對話支持系統,由于全部由服務 器進行發聲中包含的特征的分析,基于此來進行輸出時刻的決定和到所決定 的輸出時刻為止的翻譯處理,所以在各用戶的所有第一對話支持裝置和第二 對話支持裝置中可以簡化結構。
下面,參照附圖來說明本發明的實施形態。 (實施形態l)
圖2是表示本發明的一實施形態的對話支持裝置的結構框圖。本實施形
態的對話支持裝置是支持不同語言的兩個用戶的對話的裝置,具有根據某句 話中包含的特征,對下一句話改變搜索對譯語言數據庫的時間的功能。如圖
2所示,這種對話支持裝置具有第一輸入部101、第一翻譯處理部102、第 一輸出部103、第二輸入部104、第二翻譯處理部105、第二輸出部106和 輸出時刻決定部107。第一輸入部101輸入第一語言(例如日語)的用戶1 (第一用戶)的話,而輸出以用戶1的話為字符串的第一發聲信息。第一翻 譯處理部102將第一發聲信息翻譯為用戶2 (第二用戶)的第二語言(預定 的語言,例如英語),并輸出第一翻譯發聲信息和第一翻譯發聲信息的似然。 所謂似然是表示翻譯發聲信息相對發聲信息的流暢度或含義的準確度的指 示。第一輸出部103將第一翻譯發聲信息作為合成聲音的話輸出到用戶2。 第二輸入部104輸入用戶2的第二發聲,輸出以用戶2的話為字符串的第二 發聲信息。第二翻譯處理部105將第二發聲信息翻譯為用戶1的第一語言后, 輸出第二翻譯發聲信息和第二翻譯發聲信息的似然。第二輸出部106將第二 翻譯發聲信息作為合成聲音的話輸出到用戶1。輸出時刻決定部107輸入第 一發聲信息或第二發聲信息,來決定作為第一翻譯處理部102或第二翻譯處 理部105對接著輸入的第一發聲信息或第二發聲信息的處理時間(g卩,指對 發聲信息的翻譯時間,還包含對譯語言數據庫的搜索時間和某特定處理的循 環次數等)的上限的輸出時刻。
圖3是表示圖2所示的輸出時刻決定部107的結構的一例的框圖。輸出 時刻決定部107是根據某句發聲信息的特征,來決定對接著輸入的發聲信息 的對譯語言數據庫的搜索時間的處理部,具有對話履歷存儲部201、對話履 歷分析部202、計算資源信息部203、時刻計算部204和特征表205。對話 履歷存儲部201以發生時間的順序來存儲第一發聲信息和第二發聲信息。特 征表205是描述發聲特征的表格,該發聲特征成為決定輸出時刻的變差系數 (変動係數)的依據。對話履歷分析部202比較對話履歷存儲部201的內容 和特征表205的內容,判斷對話履歷存儲部201中存儲的發聲信息中是否包 含特征表205中描述的特征,若包含特征,則輸出與該特征對應的輸出時刻 的變差系數。在不包含特征的情況下,輸出系數a =0。計算資源信息部203 存儲與本裝置操作的計算資源有關的信息。計算資源信息部203檢測出因對 話支持裝置內的其他應用程序的動作等的影響形成的對話支持裝置的工作 狀況,求出對話支持裝置的硬件性能,與圖9所示的表格參考值相比較,來
調整輸出時刻的改變幅度等。時刻計算部204參照輸出時刻的變差系數和計 算資源信息部203,來決定第一翻譯處理部102和第二翻譯處理部105的輸 出時刻t。
第一輸入部101通過連續聲音識別處理或鍵盤將用戶1通過聲音或打字 輸入的發聲作為文字信息取得,而作為第一發聲信息輸出。用戶l的第一發 聲信息是相當于用戶1的發聲的字符串。圖4是表示具有聲音識別處理的功 能的情況下的第一輸入部101的結構的一例的圖。第一輸入部101具有聲音 識別部1901和發聲信息存儲部1902。聲音識別部1901將相當于用戶1的 發聲的聲音變換為文字信息。發聲信息存儲部1902暫時存儲聲音識別部 1901輸出的文字信息。發聲信息存儲部1902根據伴隨用戶1的發聲的指示 輸出暫時存儲的第一發聲信息。同樣,第二輸入部104通過連續聲音識別處 理或鍵盤將用戶2通過聲音或打字輸入的發聲作為文字信息取得,而作為第 二發聲信息輸出。第二發聲信息是相當于用戶2的話的字符串。
第一翻譯處理部102由從用戶1的語言變換為用戶2的語言的統計翻譯 處理構成。統計翻譯處理在用戶1的語言為S,用戶2的語言為T的情況下, 得到第一發聲信息Sl的譯文T2,在S和T的對譯語言數據庫中計算P(T|S1) 最大的T=T2。根據貝葉斯定理,與搜索P (S1|T) P (T)最大的T=T2等效。 P (S|T)是翻譯模型,P (T)是語言模型。并且,最大值P (T2|S1)是譯 文T2的似然。同樣,第二翻譯處理部105由從用戶2的語言變換為用戶1 的語言的統計翻譯處理構成。統計翻譯處理在用戶2的語言為S,用戶1的 語言為T的情況下,得到第二發聲信息S2的譯文Tl,在S和T的對譯語言 數據庫中計算P (T|S2)最大的T-T1。根據貝葉斯定理,與搜索P (S2|T) P (T)最大的T^T1等效。P (S|T)是翻譯模型,P (T)是語言模型。并且, 最大值P (T1|S2)是譯文T1的似然。但是,任意一種統計翻譯處理都不能 超過輸出時刻決定部107決定的輸出時刻t來繼續進行處理。處理時間在到 達輸出時刻t的時刻中斷,在該時刻輸出最佳的譯文和譯文的似然。
第一輸出部103由聲音合成處理和圖像顯示處理構成,將第一翻譯發聲 信息作為聲音或文字圖像向用戶2輸出。另外,第一輸出部103具有閾值 Ul。閾值U1由第一翻譯處理部102生成流暢和含義明確度的評價值為預定 值80%的譯文時的似然的平均值來決定。在從第一翻譯處理部102輸出的 似然比閾值U1小的情況下不進行聲音合成處理,在構成第一翻譯發聲信息
的單詞中僅強調顯示獨立詞。另外,第二輸出部106由聲音合成處理和圖像 顯示處理構成,將第二翻譯發聲信息作為聲音或文字圖像向用戶l輸出。另 夕卜,第二輸出部106具有閾值U2。閾值U2由第二翻譯處理部105生成流暢 和含義明確度的評價值為預定值80%的譯文時的似然的平均值來決定。在 從第二翻譯處理部105輸出的似然比閾值U2小的情況下不進行聲音合成處 理,在構成第二翻譯發聲信息的單詞中僅強調顯示獨立詞。
圖5是表示本發明的對話支持裝置的一實施形態的用戶接口的圖。圖5 表示安裝了本發明的硬件的用戶接口。用戶l使用左側的用戶接口,用戶2 使用右側的用戶接口。麥克風301、輸入發聲信息302和輸入開始按鈕303 相當于第一輸入部101,揚聲器304和翻譯發聲信息311相當于第二輸出部 106。翻譯開始按鈕306是開始第一翻譯處理部102的翻譯處理的按鈕。同 樣,麥克風307、輸入發聲信息308和輸入開始按鈕309相當于第二輸入部 104,揚聲器310和翻譯發聲信息305相當于第一輸出部103。翻譯開始按 鈕312是幵始第二翻譯處理部105的翻譯處理的按鈕。
圖6是表示本發明的整體動作的流程圖。步驟S401中,輸出時刻決定 部107在開始使用本裝置前將輸出時刻t設置為初始值T。步驟S402中,等 待用戶1或用戶2的發聲輸入。在發聲輸入完成的階段,g卩,按下了翻譯開 始按鈕306或翻譯開始按鈕312的時刻,進入到步驟S403。步驟S403中, 第一翻譯處理部102或第二翻譯處理部105最多花t秒時間進行翻譯處理后, 將譯文輸出給對方。同樣,由輸出時刻決定部107更新對話履歷存儲部201 的內容,計算接著的翻譯處理用的輸出時刻t。并且,回到步驟S402。
步驟S403中,輸出時刻t的計算具體如下那樣來進行計算。
首先,圖7是表示圖6所示的步驟S403中的對話支持裝置的更詳細的 動作的流程圖。第一翻譯處理部102或第二翻譯處理部105內部具有定時器, 若由用戶1或用戶2按下了翻譯開始按鈕306或翻譯開始按鈕312,則啟動 內部的定時器,而開始通過輸出時刻決定部107設置的輸出時刻t (初始值 T)的測量(S601)。第一輸入部101或第二輸入部104通過所輸入的第一發 聲信息或第二發聲信息來更新對話履歷存儲部201 (S602)。第一翻譯處理 部102或第二翻譯處理部105在對譯語言數據庫內,對所輸入的第一發聲信 息或第二發聲信息搜索似然最高的對譯匯編(corpus) (S603)。第一翻譯處 理部102或第二翻譯處理部105檢査定時器,判斷是否經過了通過輸出時刻
設置部107設置的輸出時刻t秒(S604),若沒有經過,則回到步驟S603, 繼續進行對譯語言數據庫的搜索。步驟S604中,在經過了輸出時刻t秒的 情況下,在該時刻終止對譯匯編的搜索,輸出在該時刻求出的翻譯發聲信息 (S605)。
接著,對話履歷分析部202參照特征表205 (S606),分析對話履歷存 儲部201中存儲的對話信息中是否包含了特征表205中描述的特征(S607)。 在發聲信息中包含了特征表205中描述的特征的情況下,對話履歷分析部 202從特征表205中取得與該特征對應的系數a ,輸出到時刻計算部204中。 時刻計算部204參照計算資源信息部203的表格來算出改變幅度A T(S608)。 進一步,時刻計算部204從所取得的系數d和改變幅度AT中算出相當于對 下一發聲信息的對譯語言數據庫的搜索時間的上限的輸出時刻1=(1+ a *A T),設置接著翻譯處理用的新的輸出時刻t而終止處理(S609)。另外,在 步驟S607中,發聲信息中不包含特征表205中描述的特征的情況下,時刻 計算部204什么都不做而終止處理。時刻計算部204作為與該情況相當的處 理,也可設系數a二0,設置接著的翻譯處理用的新的輸出時刻t而終止處 理。由此,在接著開始步驟S403的處理時,第一翻譯處理部102或第二翻 譯處理部105的內部定時器測量在該步驟S609中通過輸出時刻決定部107 設置的新的輸出時刻t,第一翻譯處理部102或第二翻譯處理部105搜索對 譯語言數據庫,直到經過新的輸出時刻t。
以上,說明了在第一翻譯處理部102或第二翻譯處理部105進行的對譯 語言數據庫的搜索終止后,輸出時刻決定部107算出對接著的發聲的搜索時 間,但是本發明并不限于此。例如,第一輸入部101或第二輸入部104、第 一翻譯處理部102或第二翻譯處理部105與輸出時刻決定部107也可并行進 行處理。即,也可并行處理對話履歷存儲部201的更新、對譯語言數據庫的 搜索和對下一發聲的翻譯發聲信息的輸出時刻的決定。
圖8是表示在圖6所示的步驟S403中進行并行處理的情況下的對話支 持裝置的更詳細動作的一例的流程圖。首先,從第一輸入部101或第二輸入 部104輸入用戶1或用戶2的話,在按下翻譯開始按鈕306或翻譯開始按鈕 312后,第一翻譯處理部102或第二翻譯處理部105啟動內部定時器,而開 始通過輸出時刻決定部107設置的輸出時刻t的測量(S601)。并且,第一 翻譯處理部102或第二翻譯處理部105搜索對譯語言數據庫,直到經過了通
過輸出時刻決定部107設置的輸出時刻t(S603 S604)。若經過了輸出時刻 t,則第一翻譯處理部102或第二翻譯處理部105中止對譯語言數據庫的搜 索,而輸出在該時刻求出的翻譯發聲信息(S605.)。
與以上的步驟S601、 S603、 S604、 S605的處理并行,第一輸入部101 或第二輸入部104、對話履歷分析部202、計算資源信息部203和時刻計算 部204進行以下的處理。S卩,第一輸入部101或第二輸入部104生成與所輸 入的話對應的第一發聲信息或第二發聲信息,并通過所生成的第一發聲信息 或第二發聲信息來更新對話履歷存儲部201 (S602)。 S卩,若按下輸入開始 按鈕303或輸入開始按鈕309而輸入了發聲,則第一輸入部101或第二輸入 部104生成第一發聲信息或第二發聲信息,而與第一翻譯處理部102或第二 翻譯處理部105的動作無關,并通過所生成的第一發聲信息或第二發聲信息 來更新對話履歷存儲部201。接著,對話履歷分析部202參照特征表205
(S606),來分析更新后的對話履歷存儲部201中是否存在特征表205中所 描述的特征(S607)。在發聲信息中有特征表205中描述的特征的情況下, 對話履歷分析部202從特征表205中取得與該特征對應的系數a ,而輸出到 時刻計算部204中。另外,時刻計算部204參照計算資源信息部203的表格 來算出改變幅度AT(S608)。進一步,時刻計算部204從所取得的系數a和 改變幅度AT中算出相當于對下一發聲信息的對譯語言數據庫的搜索時間 的上限的輸出時刻t二 (t+a AT),設置下一翻譯處理用的新輸出時刻t 而終止處理(S609)。另外,在步驟S607中,在發聲信息中沒有包含特征表 205中描述的特征的情況下,時刻計算部204什么都不做而終止處理。另外, 時刻計算部204作為與其相當的處理,也可設置下一翻譯處理用的新的輸出 時刻t來終止處理。這樣,通過進行并行處理,可以在定時器測量的開始到 輸出時刻t經過為止,沒有浪費地將通過時刻計算部204算出的輸出時刻t 用于對譯語言數據庫的搜索。另外,通過進行并行處理,由于在進行對譯語 言數據庫的搜索期間,可以完成對下一發聲的輸出時刻t的計算,所以在用 戶l和用戶2沒有間斷地進行對話的情況下,可以快速開始翻譯處理。
圖9表示計算資源信息部203的結構。圖9是表示圖3表示的計算資源 信息部203保持的表格的數據結構的一例的圖。圖9中的各參數中,T是輸 出時刻t的初始值,AT是輸出時刻t的改變幅度,minT是輸出時刻t的最 小值。參考值的行是將本裝置安裝在CPU性能600MIPS(Million Instructions
per second)的計算機上時的值,需要根據實際安裝的計算機的性能(裝置 的硬件性能)來進行計算。圖9的例子中,由于CPU性能在當前時刻是 1200MIPS,所以將所有的參數設置為600/1200倍,即0.5倍。另外,由于 CPU性能一般可以根據當前處理中的過程數或優先級的關系、可使用的主存 儲的量等實時變化,所以通過與當前的CPU的平均負載(0 100的值)成 反比的計算,可以準確設置翻譯處理所需的時間。例如,通過將(l一負載 /100)的值乘以本來的CPU性能,若本裝置的CPU性能是1200MIPS,負 載是50%,則將CPU性能作為600MIPS,可以適當設置T和AT的值。
圖10是表示圖3所示的對話履歷分析部保持的特征表格的表格結構的 一例的圖。接著,圖10表示對話履歷分析部202參照的特征表格205的數 據結構。這里,作為特征的種類,分類為相互理解、表層表現的連續性和話 題轉換三個。
(1) 在發聲人的話中包含的特征是相互理解的情況下,由于發生了與 發聲對方的相互理解,所以認為即使接著發聲的對話對方的翻譯發聲信息多 少有點不清晰,也可以理解發聲者。
(2) 接著,所謂表層表現的連續性是指在存在某個表層表現的話時, 表示該表層表現的一部分是否有容易包含在接著的話中的傾向的性質。并 且,這時,在該表層表現的一部分在下一發聲中具有重要的含義的情況下, 特別抽出到特征表格中。認為對發聲人來說,在自己使用的表層表現的一部 分具有重要的含義而包含在對話對方的話中的情況下,即使翻譯發聲信息不 怎么流暢,發聲人也可以理解。相反,在表層表現的一部分不包含在下一發 聲中的可能性高,該表層表現具有重要的含義的情況下,對發聲對方的話, 希望是更合適、流暢的翻譯發聲信息。
(3) 進一步,在發聲人的話中包含的特征是話題轉換的情況下,由于 進行與之前的對話沒有關聯的其他發聲的可能提高,所以認為在最先開始對 話時,需要具有同種程度的流暢度的翻譯對話信息。這里,作為特征的種類, 舉相互理解、表層表現的連續性和話題轉換三種為例,但是也可對特征與其 不同的種類,或更多特征的種類生成特征表205。對這種特征的種類,特征 表205主要由語言1的特征、語言2的特征、系數a三個項目的組構成。系 數a通過分析經翻譯處理實際上進行的對話來加以決定。g口,在即使接著發 聲A的下一句話B是很粗的翻譯,對方也能理解含義的情況下,發聲A的
特征系數a算出是負的值,在若不是正確的翻譯,對方就不領會含義的情況 下,發聲A的特征的系數a算出正的值。通過根據翻譯處理的粗細和正確 度,使系數a的絕對值變化,可以決定更合適的輸出時刻,但是這里為了使 說明簡單,使用土l的值來加以說明。對話履歷分析部202從對話履歷存儲 部201中存儲的對話的履歷中檢測出特征表205中的特征,并輸出與該特征 對應的系數a 。但是在系數a為reset的情況下,是指時刻計算部204將輸 出時刻t返回到初始值T。另外,在沒有發現特征的情況下,作為a-O輸 出。
時刻計算部204從計算資源信息部203中獲得各參數的值,獲得對話履 歷分析部202輸出的系數a ,來計算輸出時刻t。 t的計算通過按系數ci的方 向以與AT成正比的值來增減當前的t的值來進行。例如,作為最簡單的計 算,作為t—t+a AT來加以計算。其中,在輸出時刻t為KminT的情況下 為t—minT。
下面,詳細說明本發明中支持不同語言的對話的情況下的具體動作。設 用戶1的母語是日語,用戶2的母語是英語。
圖11是表示圖3所示的對話履歷存儲部的內容和基于該內容,時刻計 算部204算出的搜索時間的上限的初始值的一例的表格。圖ll是為容易把 握發明的動作,將根據用戶的話(第一發聲信息或第二發聲信息)更新的對 話履歷存儲部201的內容記作701,將通過第一翻譯處理部102或第二翻譯 處理部105處理同一發聲后輸出的譯文(第一翻譯發聲信息或第二翻譯發聲 信息)和似然記作702,將時刻計算部204的輸出時刻t的計算結果記作703。 在本裝置的使用開始之后,在步驟S41中,時刻計算部204參照計算資源信 息部203的內容而將輸出時刻t設置為T。本裝置的狀態進入到步驟S402。
圖12是表示最先用戶1發聲時的對話支持裝置的翻譯發聲信息的輸出 例和顯示例的圖。設在圖12所示的對話支持裝置上,用戶l按下輸入開始 按鈕303而說"d &二 6 ti "。通過麥克風301,第一輸入部101輸出"二
(二 ^±"來作為第一發聲信息。若用戶i按下翻譯開始按鈕306,則進入 到步驟S403,第一翻譯處理部102花最大t時間而開始翻譯處理。圖13是 表示表示對圖12所示的用戶1的對話進行更新后的對話履歷存儲部的內容 和基于該內容,時刻計算部算出的下一搜索時間的上限t的例子的圖。如圖 13的902所示,第一翻譯處理部102將"hello"和似然1.0作為第一翻譯發
聲信息輸出。由于在第一輸出部103的閾值Ul-0.6的情況下,該似然比U1 大,所以第一翻譯發聲信息"hello"原樣顯示為翻譯發聲信息305,并通過 聲音合成處理從揚聲器310中再現"hdlo"。與翻譯處理的開始同時,對話 履歷存儲部201如圖13所示的901那樣來進行更新,對話履歷分析部202 分析對話履歷的內容901的特征,但是由于什么特征也沒有,所以輸出系數 a=0。由于時刻計算部204計算的輸出時刻t沒有變化,所以如卯3所示 那樣,原樣為t-T。處理進入到步驟S402。
圖"是表示對于用戶1的話,用戶2發聲時的對話支持裝置的翻譯發 聲信息的輸出例和顯示例的圖。圖14所示,設聽到用戶1的翻譯發聲的用 戶2按下輸入開始按鈕309而發聲"Which do you like, tea or coffee "。通過 麥克風313第二輸入部104輸出"Which do you like, tea or coffee "來作為 第二發聲信息。在用戶2按下翻譯開始按鈕312后,進入到步驟S403,第 二翻譯處理部105花費最大t時間來開始翻譯處理。如1102所示,第二翻 譯處理部105將"fe茶t - 一匕一 i' 6 6力、'"好S "C t力、?"和似然0.9作 為第二翻譯發聲信息輸出。在第二輸出部106的閾值U2-0.6的情況下,由 于該似然比U2大,所以第二翻譯發聲信息"扭茶i ^ 一匕—f ^ &力、'《好 巻"C十力'?"原樣顯示為翻譯發聲信息311,并通過聲音合成處理從揚聲器 304中再現"fc'茶i ^ —匕一 i;' 6 6力;(i好g "C寸力'?"。圖15是表示對圖 14所示的用戶2的話,進一步更新的對話履歷存儲部的內容和基于該內容 通過時刻計算部算出的下一搜索時間的上限t的例子的圖。同時,對話履歷 存儲部201如圖15所示的1101那樣來進行更新,對話履歷分析部202分析 對話履歷1101的特征。用戶2的發聲信息"Which do you like, tea or coffee " 在圖10的特征中,(表層表現的連續性,1)較合適。因此,輸出該系數a =一1。時刻計算部204將輸出時刻t設置為t+a AT=T—AT。處理進入到 步驟S402。
圖16表示對圖14所示的用戶2的發聲,用戶1發聲時的對話支持裝置 的翻譯發聲信息的輸出例和顯示例的圖。圖17是表示對圖16所示的用戶1 的發聲,進一步更新的對話履歷存儲部的內容和基于該內容通過時刻計算部 算出的下一搜索時間的上限t的例子的圖。圖16表示聽到了用戶2的翻譯 發聲的用戶1按下輸入開始按鈕303而開始"- 一匕一力;^ 。> "C t "的情況 下的例子。通過麥克風301第一輸入部101輸出"- 一匕 一 力"、^ "C t"來
作為第一發聲信息。用戶l在按下翻譯開始按鈕306后,進入到步驟S403, 第一翻譯處理部102最大花t=T- A T的時間來開始翻譯處理。如902所示, 第一翻譯處理部102將"coffee good would"和似然0.5作為第一翻譯發聲 信息輸出。由于第一輸出部103的閾值Ul-0.6,所以該似然比U1小。第 一翻譯發聲信息"coffeegoodwould"中,作為獨立詞的""coffee "和"good" 強調顯示為翻譯發聲信息305。但是,由于不進行聲音合成處理,所以不從 揚聲器310中再現任何聲音。與翻譯處理的開始同時,對話履歷存儲部201 如圖17所示的1301那樣來進行更新,對話履歷分析部202分析對話履歷的 內容1301的特征,由于什么特征都沒有,所以輸出系數a二O。由于時刻計 算部204計算的輸出時刻t沒有變化,所以如圖1303所示那樣,原樣為t=T-AT。處理進入到步驟S402。
本發明的效果如下這樣來表現。即,若用圖9的各參數的具體數值來進 行說明,則在25秒內處理用戶1的最初的談話和用戶2的第二次的談話, 但是在15秒內處理了用戶1的第三次談話。因此,由于不清楚即使花了 25 秒是否能得到正確的翻譯,但是由于花15秒得到了繼續進行對話所需的充 分的譯文,所以用戶l和用戶2可以迅速完成對話。另外,由于繼續進行對 話所需的充分的譯文不流暢和含義不充分明確,則若通過聲音合成來讀取, 則會使對方混亂。本發明中,在根據譯文的似然,不流暢或含義不充分明確 的情況下,停止聲音合成處理,通過在譯文的顯示中強調顯示獨立詞語,避 免了對方的混亂,可以快速進行進行對話。
圖18是與現有方式的對話支持裝置用對話履歷和搜索時間的上限來對 比基于本發明的對話支持裝置的效果后的圖。這里,進一步定量驗證本發明 的效果。圖18表示將自動翻譯功能原樣用于對話支持的現有方式的對話 1401和通過本發明支持的對話1402。在現有方式的對話中,由于各翻譯處 理所需的時間的上限一定,所以對8句話需要8T的時間。根據圖9的各參 數值,該8句話的對話的翻譯時間需要3分20秒,用戶1不能向用戶2傳 達自己的意思。但是,在通過本發明支持的對話中,由于根據對話的上下文 使翻譯處理的上限時間變化,所以對同樣的8句話,僅需要(8T-2AT)的 時間。即,3分鐘內用戶l和用戶2彼此明白了意思。因此,在現實中,在 必須快速完成對話的狀況中,本發明的效果有效。另外,在圖18 (a)所示 的例子中,與(b)所示的現有例相比,由于對話時間縮短了2AT,但是本
發明的對話支持裝置不見得必然縮短了對話時間,但是可以得到與現有的對 話支持裝置相同的對話時間。但是,本發明的對話支持裝置中,不是如現有 技術那樣,總是用相同的時間來搜索對譯語言數據庫,而僅在發現了要求更 準確和流暢的對話的特征的情況下對搜索花上時間。由此,可以得到更基于 對話的流程的翻譯結果,結果,有即使在對話中花上相同的時間,也有獲得 與對話對方的意思交流的概率高的效果。
進一步從其他觀點來驗證本發明的效果。圖19是表示基于本發明的對 話支持裝置的平均翻譯處理時間和基于現有方式的平均翻譯處理時間的對 比的曲線。圖18中,用對話履歷和搜索時間的上限來對比現有方法和本發 明,但是圖19表示對對話履歷和搜索時間,從平均翻譯處理時間的觀點從 對話開始到對話完成所描繪的圖。某個時刻t的平均翻譯處理時間是到時刻 t為止所花費的翻譯處理時間的總和除以到時刻t為止的發聲句數的翻譯處 理時間的平均值。由于現有方式中翻譯處理時間一定,所以平均翻譯處理時 間也一定。但是,本發明中,若對話進行,則對話的履歷的累積量增加,同 時,翻譯處理時間的平均值減少。因此,在意思交流的水平為相同的水平來 完成對話吋,本發明的方法與現有方式相比,還有對話所需的時間減少的效 果。
圖20是表示本發明的對話支持裝置的變形例的結構框圖。圖21是表示 本發明的對話支持裝置的變形例的用戶接口的圖。圖5表示了本發明的用戶 接口的一例,但是如圖20所示,也可以通過在圖2的結構上加上通信部 1503 1510,將圖2的結構分為終端1501和終端1502,并通過圖21所示 的用戶接口來進行安裝。通過為這種結構,用戶1的終端1501中,可以省 略決定輸出時刻的處理。SP,用戶1的終端1501中,可以根據從用戶2的 終端1502接收的輸出時刻來進行第一翻譯處理部102的翻譯處理。具體的, 如圖21所示,在用戶1的終端1501中,預先從用戶2的終端1502中接收 輸出時刻。并且,在用戶1按下輸入開始按鈕303而輸入"d (二 ^i:", 接著按下翻譯幵始按鈕306后,第一翻譯處理部102將用戶1的發聲信息"二 九二 6 ""翻譯為英語,直到從終端1502接收的輸出時刻。終端1501中, 將作為第一翻譯處理部102的翻譯結果的翻譯發聲信息和似然從通信部 1503送到終端1502的通信部1504,終端1502中,將所接收的翻譯發聲信 息"Hello."通過揚聲器310進行再現輸出。終端1502中,經通信部1507
和通信部1508接收通過終端部1501輸入的話"^ (i "的發聲信息, 分析所接收的發聲信息"二九(^ 算出對下一發聲的翻譯發聲信息的 輸出時刻。這里,為終端1501不具有輸出時刻決定部的結構,但是本發明 并不限于此,終端1501還為與具有輸出時刻決定部的終端1502相同的結構。
圖22是表示本發明的對話支持裝置的第二變形例的結構框圖。如圖22 所示,通過在圖2的結構上加上通信部1704 1711,而也可將第一翻譯處 理部102、第二翻譯處理部105和輸出時刻決定部107安裝到服務器1703 上,安裝為使得分別經通信線路將終端1701和終端1702連接到服務器1703。 由此,可以簡化終端1701和終端1702的結構,可以實現終端1701和終端 1702的小型化、輕量化和節電力化等。
另外,在對話履歷分析部202從對話履歷存儲部201的內容中發現特征 時,通過將參照的對話信息的范圍擴展到之前的n句話,可以進一步進行精 細的翻譯處理時間的控制。例如,通過累積之前的6句話中出現圖10的特 征表205中的相互理解的特征的系數a ,可以更準確算出用戶1和用戶2的 相互理解的程度,通過基于此來計算輸出時刻t的值,可以決定更需要的充 分的翻譯處理時間的上限。
另外,通過用所輸入的發聲信息的單詞數來正規化計算資源信息部203 保持的各參數的值,可以進一步進行精細的翻譯處理時間的控制。例如,在 上述的例子中,根據發聲信息的平均單詞數W來計算T和AT的值,但是 若所輸入的發聲信息的單詞數是W/2,則通過將已經算出的t的值正規化為 1/2的t/2作為翻譯處理時間的上限,在翻譯處理開始之前設置,可決定更需 要的充分的翻譯處理時間的上限。或,若輸入的發聲信息的單詞數是2W, 則通過將已經算出的t正規化為2倍后的2t作為翻譯處理時間的上限,在翻 譯處理開始之前設置,則決定了更需要的充分的翻譯處理時間的上限。另外, 這種情況下,表示本發明的效果的圖19的曲線應在t的值回到正規化前的 時間后繪圖解釋。
另外,在上述的實施形態中,用時間t來限制翻譯處理時間的上限,但 是即使使用與時間t成正比的其他參數來間接限制翻譯處理時間的上限,也 可以為相同的效果。例如,由于統計翻譯處理中的譯文的搜索的深度d和翻 譯處理時間成正比,所以設置平均的搜索深度D和與A T相當的搜索的深度 的改變幅度△ D,通過將上述的處理中的T和D原樣進行記號替換來加以實
施,可以為相同的效果。當然除了搜索的深度之外,若用搜索的步數或搜索 范圍的廣度等的規定翻譯處理量的參數來代替,也可得到相同的效果。
作為一例,舉出了日語和英語,但是對于法語、德語、韓語和中文等其 他語言,也可同樣加以實施,本發明不依賴于語言。
(實施形態2)
上述實施形態l中,設作用戶l的母語是日語,用戶2的母語是英語, 而詳細說明了在本發明中支持不同語言的對話的情況下的具體動作,但是在 下面的實施形態2中,說明用戶1的母語是中文,用戶2的母語是英語來支 持兩者的對話的對話支持裝置的例子。實施形態2的對話支持裝置的結構僅 作為各處理部的處理對象的語言不同,各處理部的處理內容與圖2所示的內 容相同,所以省略圖示。實施形態2的對話支持裝置和實施形態1的對話支 持裝置的不同點如下。
第一輸入部101輸入基于第一語言(中文)的用戶1 (第一用戶)的話, 并輸出以用戶1的話為字符串的第一發聲信息。第一翻譯處理部102將第一 發聲信息翻譯為用戶2 (第二用戶)的第二語言(英語)而輸出第一翻譯發 聲信息和第一翻譯發聲信息的似然。
圖23是表示實施形態2的對話支持裝置的用戶接口的圖。圖23表示安 裝了本發明的硬件的用戶接口。說中文的用戶l使用左側的用戶接口,說英 語的用戶2使用右側的用戶接口。鼠標301、輸入發聲信息302和輸入開始 按鈕303相當于第一輸入部101,揚聲器304、翻譯發聲信息311和翻譯發 聲信息311相當于第二輸出部106。翻譯開始按鈕306是開始第一翻譯處理 部102的翻譯處理的按鈕。同樣,麥克風307、輸入發聲信息308和輸入開 始按鈕309相當于第二輸入部104,揚聲器310和翻譯發聲信息305相當于 第一輸出部103。翻譯開始按鈕312是開始第二翻譯處理部105的翻譯處理 的按鈕。
圖24是表示語言1是中文,語言2是英文的情況下的特征表的數據結 構的一例的圖。圖10中,說明了用戶l的母語是語言l (日語),用戶2的 母語是語言2 (英語)的情況下的特征表的數據結構。但是,圖24中,在 用戶1的母語是語言1 (中文)的方面與圖10的特征表不同。
圖25是表示最先用戶1發聲時的對話支持裝置的翻譯發聲信息的輸出 例和顯示例的圖。設圖25的對話支持裝置中,用戶1按下輸入開始按鈕303,
而說"你好"。通過麥克風301第一輸入部101輸出"你好"來作為第一發 聲信息。在用戶l按下翻譯開始按鈕306后,第一翻譯處理部102花最大t 時間來開始翻譯處理。圖26是表示對圖25所示的用戶1的話更新后的對話 履歷存儲部的內容和基于該內容通過時刻計算部算出的下一搜索時間的上 限t的例子的圖。如圖26的902所示,第一翻譯處理部102輸出"hdlo" 和似然l.O來作為第一翻譯發聲信息。在第一輸出部103的閾值Ul-0.6的 情況下,由于該似然比U1大,所以第一翻譯發聲信息"hello"原樣顯示為 翻譯發聲信息305,并通過聲音合成處理部從揚聲器310中再現"hello"。 與翻譯處理的開始同時,對話履歷存儲部201如圖26所示的901那樣來進 行更新,對話履歷分析部202分析對話履歷的內容901的特征,但是由于什 么特征都沒有,所以輸出系數a二O。由于時刻計算部204計算的輸出時刻 t不變化,所以如圖903所示那樣,仍為t^T。
圖27是表示對用戶1的話,用戶2發聲時的對話支持裝置的翻譯發聲 信息的輸出例和顯示例的圖。聽到了圖27所示的用戶1的翻譯發聲的用戶 2按下輸入開始按鈕309而說"Which do you like, tea or coffee "。通過麥克 風313,第二輸入部104輸出"Which do you like, tea or coffee"作為第二發 聲信息。在用戶2按下翻譯開始按鈕312后,第二翻譯處理部105花上最大 t時間來開始翻譯處理。如1102所示那樣,第二翻譯處理部105輸出"茶和 咖啡喜歡哪個"和似然0.9來作為第二翻譯發聲信息。在第二輸出部106的 閾值U2-0.6的情況下,由于該似然比U2大,所以第二翻譯發聲信息"茶 和咖啡喜歡哪個"原樣顯示到翻譯發聲信息311上。進一步,通過聲音合成 處理,從揚聲器304再現"茶和咖啡喜歡哪個"。圖28是表示對圖27所示 的用戶2的話,進一步更新后的對話履歷存儲部的內容和基于該內容通過時 刻計算部算出的下一搜索時間的上限t的例子的圖。同時,對話履歷存儲部 201如圖28所示的1101那樣來進行更新,對話履歷分析部202分析對話履 歷1101的特征。圖24的特征中(表層表現的連續性,1)適合用戶2的發 聲信息"which do you like tea or coffee"。因此,輸出該系數a^-l。時刻 計算部204將輸出時刻t設置為t+a AT二T一AT。
圖29是表示對圖27所示的用戶2的對話,用戶1發聲時的對話支持裝 置的翻譯發聲信息的輸出例和顯示例的圖。另外,圖30是表示對圖29所示 的用戶1的話,進一步更新后的對話履歷存儲部的內容和基于該內容通過時刻計算部計算出的下一搜索時間的上限t的例子的圖。圖29表示聽了用戶2 的翻譯發聲的用戶1按下輸入開始按鈕303,而說"喜歡咖啡"的情況行下 的例子。通過麥克風301第一輸入部101輸出"喜歡咖啡"來作為第一發聲 信息。若用戶1按下翻譯開始按鈕306,第一翻譯處理部102花最大t-T一 AT的時間來開始翻譯處理。如圖902所示,第一翻譯處理部102輸出"coffee good would"和似然0.5來作為第一翻譯發聲信息。由于第一輸出部103的 閾值Ul-0.6,所以該似然比U1小。因此,將第一翻譯發聲信息"coffee good would"中,獨立詞的"coffee"和"good"強調顯示為翻譯發聲信息305。 但是,由于不進行聲音合成處理,所以從揚聲器310什么都不再現。與翻譯 處理的開始同時,對話履歷存儲部201如圖30所示的1301那樣來加以更新, 對話履歷分析部202分析對話履歷的內容1301的特征,但是由于沒有任何 特征,所以輸出系數a二0。由于時刻計算部204計算出的輸出時刻t不變 化,所以如1303所示那樣,仍為t-T-AT。
如下這樣來表現本發明的效果。即,與實施形態l相同,若用圖9的各 參數的具體數值來加以說明,則用戶1的最初的發聲和用戶2的第二次的發 聲在25秒內進行了翻譯處理,但是用戶1的第三次的發聲在15秒內進行處 理。因此,由于不清楚即使對用戶1的第三次發聲的翻譯處理花上25秒能 否得到需要的譯文,但是花上15秒就得到了繼續進行對話所需的充分的譯 文,所以用戶l和用戶2可以快速完成對話。另外,由于繼續進行對話所需 的充分譯文中,不流暢或含義不充分明確,所以若通過聲音合成讀出,則會 使對方混亂。本發明中,在根據譯文的似然不流暢和含義不充分明確的情況 下,停止聲音合成處理,而在譯文的顯示中強調顯示獨立語,避免了對方的 混亂,同時可以快速進行進行對話。
這里,進一步定量驗證本發明的效果。圖31是用對話履歷和搜索時間 的上限來對比本發明的對話支持裝置的效果和現有方式的對話支持裝置的 效果的圖。圖31表示將自動翻譯功能原樣用于對話支持的現有方式的對話 1401和通過本發明來支持的對話1402。現有方式的對話中,由于各翻譯處 理所需的時間上限一定,所以對8句話需要8T的時間。根據圖9的各參數 值,該8句話的對話的翻譯時間需要3分20秒,用戶1不能向用戶2傳達 自己的意思。但是,在通過本發明支持的對話中,由于根據對話的上下文使 翻譯處理的上限時間變化,所以對同樣的8句話,僅需要(8T-2AT)的時
間。即在3分鐘內用戶l和用戶2相互理解了意思。因此,在現實世界中必 須快速完成對話的狀況中,本發明的效果有效。在圖31 (a)所示的例子中, 與(b)所示的現有例相比,對話時間縮短了2AT,但是在本發明的對話支 持裝置中,不見得必然縮短了對話時間,但是可以產生與現有的對話支持裝 置相同的對話時間。但是,本發明的對話支持裝置中,不是如現有技術那樣, 總是用相同的時間來搜索對譯語言數據庫,僅在發現了要求更準確和流暢的 對話的特征的情況下對搜索花上時間。由此,可以得到更基于對話的流程的 翻譯結果,結果,有即使在對話中花上相同的時間,也有得到與對話對方的 意思的交流的概率高的效果。
進一步從其他觀點來驗證本發明的效果。圖31用對話履歷和搜索時間 的上限對比了現有方式和本發明,但是對對話履歷和搜索時間,圖19表示 根據平均翻譯處理時間的觀點從對話開始到對話完成來進行描繪的圖。某個 時刻t的平均翻譯處理時間是到時間t為止所花費的翻譯處理時間的總和除 以到時間t為止的發聲句數的翻譯處理時間的平均值。由于現有方式中翻譯 處理時間一定,所以平均翻譯處理時間也一定。但是,本發明中,若對話進 行,則對話的履歷的累積量增加,同時,翻譯處理時間的平均值減少。因此, 在意思交流的水平為相同的水平來完成對話時,本發明與現有方式相比,還 有對話所需的時間減少的效果。
圖32是表示本發明的對話支持裝置的變形例的結構框圖。本實施形態 2中,也可通過將通信部1503 1510加到圖2的結構中,而將圖2的結構 分為終端1501和終端1502,而通過如圖32所示的用戶接口來實現。該用 戶接口的具體內部結構與圖21所示的結構相同。
圖33是表示本發明的對話支持裝置的硬件結構的一例的框圖。如該圖 所示,本發明的對話支持裝置3200具有揚聲器3201、麥克風3202、外部存 儲器3203、顯示部3204、 ROM3205、 CPU (處理器)3206、 RAM3207、通 信部3208、輸入部3209和總線3210。
揚聲器3201實現第一輸出部103和第二輸出部106,用合成聲音來輸 出所翻譯的話。麥克風3202實現第一輸入部101和第二輸入部104的一部 分,接收用戶1和用戶2的聲音的輸入。外部存儲器3203是硬盤、DVD和 IC卡等的大容量存儲器,存儲語法和對譯匯編等來實現對譯語言數據庫。 另外,外部存儲器3203在對譯支持裝置3200的啟動后,存儲裝載到RAM3207中加以執行的程序等。顯示部3204是液晶顯示器等,顯示第一發 聲信息和第二發聲信息等。ROM3205是非易失性的只讀半導體存儲器,存 儲對話支持裝置3200的啟動用程序等。CPU3206通過執行ROM3205和 RAM3207中存儲的程序,來實現圖2、圖3、圖4、圖20和圖22的框圖中 所示的對話支持裝置內的各處理部。RAM3207是易失性的可讀寫半導體存 儲器,在對話支持裝置3200的啟動后,向CPU3206供給裝載后的程序,同 時,通過保持CPU3206的處理中間的數據來提供操作區域。通信部3208實 現圖20和圖22所示的通信部1503 1510和通信部1704 1711,而通過紅 外線通信和近距離無線通信等來進行數據的發送接收。輸入部3209是輸入 開始按鈕303、 309和翻譯開始按鈕306、 312等的操作按鈕,接收用戶的操 作輸入。總線3210是對話支持裝置3200內的并行數據傳送路徑,進行各處 理部之間的數據傳送。
另夕卜,框圖(圖2—圖4、圖20和圖22等)的各功能框圖典型地由作 為集成電路的LSI來實現。這些可以分別單芯片化,也可集成單芯片化,使 其包含一部分或全部。
例如,存儲器之外的功能塊可以是一個芯片。
這里,作為LSI根據集成度的不同,還稱作IC、系統LSI、超級LSI和 頂級LSI。
集成化的方法并不限于LSI,也可通過專用電路或通用處理器來實現。 在LSI制造后,也可利用可編程的FPGA (Field Programmable Gate Array) 或可重新構成LSI內部的電路單元的連接或設定的可重構處理器。
進一歩,若因半導體技術的進步或所派生的其他技術,替換LSI的集成 的技術出現,則當然可以使用該其他技術來進行功能塊的集成。可以適用生 物技術等。
另外,各功能塊中,也可不使存儲作為編碼或解碼的對象的數據的單元 單芯片化,而分開構成。 產業上的可用性
本發明的對話支持裝置具有使對話參加者的發聲快速完成的功能,作為 便攜電話和便攜終端等的翻譯應用程序軟件等有用。另外,還可應用于公共 的街頭終端或導游終端等。
權利要求
1、一種對話支持裝置,支持不同語言的對話,其特征在于,具有輸入部,將用戶的發聲作為輸入來加以接受;翻譯處理部,將接受到的所述發聲翻譯為預定的語言,并輸出翻譯所得到的翻譯發聲信息;輸出部,將所輸出的所述翻譯發聲信息傳送輸出到用戶;以及輸出時刻決定部,分析所述用戶的發聲中包含的特征,決定用于翻譯接下來接受到的發聲的翻譯時間。
2、 根據權利要求1所述的對話支持裝置,其特征在于 所述輸入部具有第一輸入部,將基于第一語言的第一用戶的發聲作為輸入來加以接受;和第二輸入部,將基于第二語言的第二用戶的發聲作為輸 入加以接受,所述翻譯處理部具有第一翻譯處理部,將所述第一用戶的發聲翻譯為 第二語言,并輸出翻譯所得到的第一翻譯發聲信息;和第二翻譯處理部,將 所述第二用戶的發聲翻譯為所述第一語言,并輸出翻譯所得到的第二翻譯發 聲信息,^f述輸出部具有第一輸出部,將所輸出的所述第一翻譯發聲信息傳送 輸出到第二用戶;和第二輸出部,將所輸出的所述第二翻譯發聲信息傳送輸 出給第一用戶,所述輸出時刻決定部分析所述第一用戶的發聲或所述第二用戶的發聲 中包含的特征,決定輸出時刻,該輸出時刻表示所述第一翻譯處理部或所述 第二翻譯處理部翻譯所述第一用戶的發聲或所述第二用戶的發聲的下一個 接受到的發聲的翻譯時間的上限,所述第一翻譯處理部或所述第二翻譯處理部,輸出到所述輸出時刻為止 得到的翻譯結果即所述第一翻譯發聲信息或所述第二翻譯發聲信息。
3、 根據權利要求2所述的對話支持裝置,其特征在于所述翻譯處理 部通過統計機械翻譯方式來進行翻譯處理。
4、 根據權利要求2所述的對話支持裝置,其特征在于所述輸出時刻 決定部按發聲的順序來保持以所述第一用戶的發聲作為字符串的第一發聲 信息和以所述第二用戶的發聲作為字符串的第二發聲信息的履歷,參照所述 履歷中包含的在先的第一發聲信息或第二發聲信息的特征,來決定接下來被 保持的第一發聲信息或第二發聲信息的所述輸出時刻。
5、 根據權利要求2所述的對話支持裝置,其特征在于成為所述輸出 時刻決定部決定所述輸出時刻的根據的所述特征的種類為相互理解,在所述 分析的結果為所接受到的所述發聲中包含有相互理解的特征的情況下,決定 所述輸出時刻,使得所述翻譯時間變得更短。
6、 根據權利要求2所述的對話支持裝置,其特征在于成為所述輸出時刻決定部決定所述輸出時刻的根據的所述特征的種類為表層表現的連續 性,在所述分析的結果為所接受到的所述發聲中包含有表示表層表現的連續 性的情況下,決定所述輸出時刻,使得所述翻譯時間變得更短,在所述發聲 中包含有表示表層表現的不連續性的情況下,決定所述輸出時刻,使得所述 翻譯時間變得更長。
7、 根據權利要求2所述的對話支持裝置,其特征在于成為所述輸出 時刻決定部決定所述輸出時刻的根據的所述特征的種類為話題轉換,在所述 分析的結果為所接受到的所述發聲中包含話題轉換的特征的情況下,將所述 輸出時刻決定為初始值,使得所述翻譯吋間成為標準長度。
8、 根據權利要求2所述的對話支持裝置,其特征在于-所述對話支持裝置還具有計算資源信息部,該計算資源信息部提供與所述對話支持裝置的計算資源有關的信息;所述輸出時刻決定部參照與計算資源有關的所述信息,來決定所述第一 翻譯發聲信息或所述第二翻譯發聲信息的輸出時刻。
9、 根據權利要求2所述的對話支持裝置,其特征在于 所述第一輸出部和所述第二輸出部的至少一個具有聲音合成部,通過合成聲音來再現第一翻譯發聲信息和/或第二翻譯發聲信息;以及 文字圖像顯示部,顯示輸出第一翻譯發聲信息和/或第二翻譯發聲信息。
10、 根據權利要求9所述的對話支持裝置,其特征在于所述聲音合成 部,在所述第一翻譯發聲信息和/或所述第二翻譯發聲信息的似然低于一定 的閾值的情況下,不動作。
11、 根據權利要求9所述的對話支持裝置,其特征在于所述文字圖像 顯示部在所述第一翻譯發聲信息和/或所述第二翻譯發聲信息的似然低于一 定的閾值的情況下,僅強調顯示所述第一翻譯發聲信息和/或所述第二翻譯 發聲信息中包含的獨立詞。
12、 一種對話支持系統,通過經由通信網彼此進行通信的每個用戶的對 話支持裝置,來支持不同語言的對話,其特征在于第一對話支持裝置具有-第一輸入部,將基于第一語言的第一用戶的發聲作為輸入來加以接受; 第一翻譯處理部,將所接受到的所述第一用戶的發聲翻譯為預定的語 言,并輸出翻譯所得到的第一翻譯發聲信息;第一發送部,將所輸出的所述第一翻譯發聲信息發送到第二對話支持裝置;第一輸出時刻決定部,分析所述第一用戶的發聲中包含的特征,來決定 輸出時刻,該輸出時刻表示翻譯所述第一用戶的發聲的下一個所接受到的發 聲的翻譯時間的上限;以及第一輸出時刻發送部,將所決定的所述輸出時刻發送到所述第二對話支 持裝置,所述第二對話支持裝置具有-第二接收部,從所述第一對話支持裝置接收所述第一翻譯發聲信息,并 傳送到第二用戶;第二輸出時刻接收部,從所述第一對話支持裝置接收由所述第一對話支 持裝置決定的所述輸出時刻;第二輸入部,將基于所述預定語言的第二用戶的發聲作為輸入來加以接受; 第二翻譯處理部,將所接受到的所述第二用戶的發聲翻譯為所述第一語言,并輸出翻譯所得到的第二翻譯發聲信息;以及第二發送部,將所輸出的所述第二翻譯發聲信息發送到所述第一對話支 持裝置,所述第二翻譯處理部將到所接收的所述輸出時刻為止所得到的翻譯結 果即所述第二翻譯發聲信息輸出。
13、 一種對話支持系統,使用經由通信網與服務器相連的第一對話支持 裝置和第二對話支持裝置,來支持對話,其特征在于所述第一對話支持裝置具有第一輸入部,將以第一語言說話的第一用戶的發聲作為輸入來加以接受;第一發送部,將所接受到的所述第一用戶的發聲發送到所述服務器; 第二接收部,從所述服務器接收將第二用戶相對于所述第一用戶的發聲 的發聲翻譯為所述第一語言的翻譯結果即第二翻譯發聲信息;以及第一輸出部,將所接收到的所述第二翻譯發聲信息傳送到所述第一用戶;所述第二對話支持裝置具有第二輸入部,將以第二語言說話的第二用戶的發聲作為輸入來加以接受;第二發送部,將所接受到的所述第二用戶的發聲發送到所述服務器; 第一接收部,從所述服務器接收將所述第一用戶相對于所述第二用戶的 發聲的發聲翻譯為所述第二語言的翻譯結果即第一翻譯發聲信息;以及第二輸出部,將所接收到的所述第一翻譯發聲信息傳送到所述第二用戶;所述服務器具有第一發聲接收部,從所述第一對話支持裝置接收所述第一用戶的發聲; 第一翻譯處理部,將所接收的所述第一用戶的發聲翻譯為所述第二語 言,并輸出翻譯所所得的第一翻譯發聲信息; 第一發送部,將所輸出的第一翻譯發聲信息發送到所述第二對話支持裝置;第二發聲接收部,從所述第二對話支持裝置接收所述第二用戶的發聲; 第二翻譯處理部,將所接收到的所述第二用戶的發聲翻譯為所述第一語言,并輸出翻譯所得到的第二翻譯發聲信息;第二發送部,將所輸出的第二翻譯發聲信息發送到所述第一對話支持裝置;以及輸出時刻決定部,分析所接收到的所述第一用戶的發聲或所述第二用戶 的發聲中包含的特征,來決定輸出時刻,該輸出時刻表示翻譯所述發聲的下 一個所接收的發聲的所述第一翻譯處理部或所述第二翻譯處理部的翻譯時 間的上限,所述第一翻譯處理部或所述第二翻譯處理部,將到所決定的所述輸出時 刻為止所得到的翻譯結果即所述第一翻譯發聲信息或所述第二翻譯發聲信 息輸出。
14、 一種對話支持方法,支持不同語言的對話,其特征在于,包括-輸入步驟,將用戶的發聲作為輸入來加以接受;翻譯處理步驟,將所接受到的所述發聲翻譯為預定的語言,并輸出翻譯所得到的翻譯發聲信息;輸出步驟,將所輸出的所述翻譯發聲信息傳送輸出到用戶; 輸出時刻決定步驟,分析所述用戶的發聲中包含的特征,決定用于翻譯接下來接收的發聲的翻譯時間。
15、 一種程序,用于支持不同語言的對話的對話支持裝置, 使計算機執行以下步驟輸入步驟,將用戶的發聲作為輸入來加以接受;翻譯處理步驟,將所接受到的所述發聲翻譯為預定的語言,并輸出翻譯 所得到的翻譯發聲信息;輸出步驟,將所輸出的所述翻譯發聲信息傳送輸出到用戶;以及 輸出時刻決定步驟,分析所述用戶的發聲中包含的特征,決定用于翻譯 接下來接受的發聲的翻譯時間。
16、—種對話支持裝置,支持不同語言的兩者之間的對話,其特征在于: 根據所述兩者之間的對話的履歷,使對同一發聲的翻譯時間變化。
17、 一種對話支持裝置,支持不同語言的兩者之間的對話,其特征在于, 具有接受部,接受用戶的發聲;以及翻譯處理部,將所述接受部接受到的發聲翻譯為預定的語言,并輸出翻 譯所得到的翻譯發聲信息,所述翻譯處理部對應于從存儲了所述兩者之間的對話的履歷的對話履 歷存儲部取得的所述兩者之間的對話的履歷,來使對所述接收部接受到的同 一發聲的翻譯時間變化。
18、 根據權利要求17所述的對話支持裝置,其特征在于所述翻譯處理部,在所述對話的履歷的累積量增加吋,翻譯處理時間的平均值減小。
19、 一種對話支持裝置,支持不同語言的對話,其特征在于 輸入部,將用戶的發聲作為輸入來加以接受;存儲單元,存儲有包含翻譯處理步驟和輸出時刻決定步驟的程序,該翻 譯處理步驟將所接受到的所述發聲翻譯為預定的語言,并輸出翻譯所得到的 翻譯發聲信息,所述輸出時刻決定步驟分析所述用戶的發聲中包含的特征, 決定翻譯接下來接受的發聲用的翻譯時間;處理器,執行所述存儲單元中存儲的程序;以及輸出部,向用戶傳送輸出由所述處理器輸出的所述翻譯發聲信息。
全文摘要
本發明所要解決的問題是提供一種對應于發聲的內容兼顧了翻譯處理的速度和翻譯結果的流暢的對話支持裝置。具有第一輸入部(101),接受基于第一語言的用戶(1)的發聲;第一翻譯處理部(102),將所接受到的話發聲譯為預定的第二語言而輸出第一翻譯發聲信息;第一輸出部(103),將第一翻譯發聲信息傳送到用戶(2);第二輸入部(104),接受用戶(2)的發聲;第二翻譯處理部(105),將所接受到的用戶(2)的發聲翻譯為第一語言而輸出第二翻譯發聲信息;第二輸出部(106),將第二翻譯發聲信息傳送到用戶(1);以及輸出時刻決定部(107),分析用戶(1)的發聲中包含的特征,來決定對該發聲的下一個所接受的發聲的翻譯時間的上限;第二翻譯處理部(105)輸出在所述翻譯時間內得到的第二翻譯發聲信息。
文檔編號G06F17/28GK101099147SQ200680000959
公開日2008年1月2日 申請日期2006年11月7日 優先權日2005年11月11日
發明者沖本純幸, 水谷研治 申請人:松下電器產業株式會社