專利名稱:用于翻譯語音和進行翻譯結果的語音合成的裝置和方法
技術領域:
本發明涉及用于翻譯語音和進行翻譯結果的語音合成的裝置和方法。
背景技術:
近年來,已經達到退休年齡的在生育高峰時期出生的人出于觀光和技術援助的目的已經開始大批地去外國訪問,而作為一種用于幫助他們交流的技術,機器翻譯已經變得廣為人知。機器翻譯還被用于以日語翻譯和顯示通過因特網等檢索的以外語寫成的Web頁面的服務。所述機器翻譯技術,其基本做法是每次翻譯一個句子,可用于翻譯諸如Web頁面或技術性的操作手冊的所謂的書面語。
另一方面,用于海外旅行等的翻譯機需要小尺寸和便攜性。鑒于此,利用基于語言資料庫(corpus-based)的機器翻譯技術的便攜式翻譯機在商業上是可行的。在這種產品中,通過利用旅行會話實例集等來構建語言資料庫。許多包含在旅行會話實例集中的句子長于普通對話中所用到的句子。因此,當使用從旅行會話實例集構建語言資料庫的便攜式翻譯機時,除非所講的是以句號結束的正確的句子,否則翻譯準確度有可能降低。為了防止翻譯準確度降低,使用者被迫說正確的句子,從而使可操作性惡化。
對于利用筆、按鈕或鍵盤直接輸入句子的方法,很難減小所述裝置的尺寸。因此,該方法,不適合用于所述便攜式翻譯機。鑒于此,用于通過對經由麥克風等輸入的語音進行識別來輸入句子的語音識別技術的應用,被期望是有前途的。所述語音識別,然而,具有這樣的缺點,即,除非使用頭戴式耳機等,識別準確度在非低噪音環境中將惡化。
Hori和Tsukata,“Speech Recognition with Weighted Finite StateTransducer,”Information Processing Society of Japan Journal‘Information Processing’Vol.45,No.10,pp.1020-1026(2004)(在下文中稱為,“Hori etc.”)提出了一種易擴展的、高速的語音識別技術,其用于利用加權有限狀態轉換器在聽覺上順序地識別語音輸入并利用書面語來替代它們,從而無需降低識別準確度即可識別所述語音。
一般而言,即使在這樣的情況下,即語音識別的條件滿足頭戴式耳機等的要求并且如Hori etc.中所描述的為了語音識別對算法進行改進,也不能完全消除語音識別中的識別誤差。因此,在語音識別技術在便攜式翻譯機上的應用中,為了防止由于所述識別誤差引起的機器翻譯準確度的惡化,必須在執行所述機器翻譯之前校正被錯誤地識別的部分。
所述常規的機器翻譯假定句子被完整地輸入,因此,問題在于,在完成輸入之前不進行翻譯和語音合成,導致沉默期間持續很長并且對話不能流暢地進行。
同樣,在發生識別誤差的情況下,在輸入整個句子之后,需要返回到顯示在顯示屏上的整個句子的被錯誤地識別的部分來進行校正,從而使操作變得復雜。即使是Hori etc.的方法,在其中所述語音識別結果被順序地輸出,由于這樣的事實,即通常在聽覺上識別和輸出整個句子之后進行所述機器翻譯和語音合成,也提出了類似的問題。
同樣,在校正時,沉默存在并且用戶的視線不指向對話的另一方而集中于所述便攜式翻譯機的顯示屏。這提出了會對流暢的對話產生很大的有害影響的問題。
發明內容
根據本發明的一方面,一種語音對話翻譯裝置,包括語音識別單元,用于識別將被翻譯的源語言的用戶語音并輸出識別結果;源語言存儲單元,用于存儲所述識別結果;翻譯判定單元,基于對正在進行的語音的一部分是否將被翻譯進行定義的規則,來判定在所述源語言存儲單元中存儲的所述識別結果是否將被翻譯;翻譯單元,用于在判定所述識別結果將被翻譯時,將所述識別結果轉換成以目標語言描述的譯文并且輸出所述譯文;以及語音合成器,用于將所述譯文合成為所述目標語言的語音。
根據本發明的另一方面,一種語音對話翻譯方法,包括步驟識別將被翻譯的源語言的用戶語音;輸出識別結果;基于對正在進行的語音的一部分是否將被翻譯進行定義的規則,判定存儲在源語言存儲單元中的所述識別結果是否將被翻譯;在判定所述識別結果將被翻譯時,將所述識別結果轉換成以目標語言描述的譯文并且輸出所述譯文;以及將所述譯文合成為所述目標語言的語音。
圖1是示出了根據第一實施例的語音對話翻譯裝置的構造的框圖;圖2是用于說明源語言存儲單元的數據結構的例子的示圖;圖3是用于說明翻譯判定規則存儲單元的數據結構的例子的示圖;圖4是用于說明譯文存儲單元的數據結構的例子的示圖;圖5是示出了根據所述第一實施例的語音對話翻譯處理的總流程的流程圖;圖6是用于說明在常規的語音對話翻譯裝置中處理的數據的一個例子的示圖;圖7是用于說明在所述常規的語音對話翻譯裝置中處理的數據的另一個例子的示圖;圖8是用于說明在根據所述第一實施例的語音對話翻譯裝置中的語音對話翻譯處理的具體例子的示圖;圖9是用于說明在發生語音識別誤差時執行的語音對話翻譯處理的具體例子的示圖;圖10是用于說明在發生語音識別誤差時執行的語音對話翻譯處理的具體例子的示圖;圖11是用于說明在發生語音識別誤差時執行的語音對話翻譯處理的另一個具體例子的示圖;圖12是用于說明在發生語音識別誤差時執行的語音對話翻譯處理的再一個具體例子的示圖;圖13是示出了根據第二實施例的語音對話翻譯裝置的構造的框圖;圖14是示出了圖像識別單元的詳細構造的框圖;圖15是用于說明所述翻譯判定規則存儲單元的數據結構的一個例子的示圖;圖16是用于說明所述翻譯判定規則存儲單元的數據結構的另一個例子的示圖;圖17是示出了根據所述第二實施例的語音對話翻譯處理的總流程的流程圖;圖18是示出了根據所述第二實施例的圖像識別處理的總流程的流程圖;圖19是用于說明在所述圖像識別處理中處理的信息的例子的示圖;圖20是用于說明規格化模式的例子的示圖;圖21是示出了根據第三實施例的語音對話翻譯裝置的構造的框圖;圖22是用于說明由加速度傳感器檢測的操作的例子的示圖;圖23是用于說明所述翻譯判定規則存儲單元的數據結構的例子的示圖;以及圖24是示出了根據所述第三實施例的語音對話翻譯處理的總流程的流程圖。
具體實施例方式
參照附圖,在以下詳細地說明了根據實現本發明的最佳模式的語音對話翻譯裝置和語音對話翻譯方法。
在根據第一實施例的語音對話翻譯裝置中,在聽覺上識別輸入語音,并且每次判定一個短語被輸入時,翻譯所述識別結果,同時對構成翻譯結果的譯文進行語音合成和輸出。
在如下的描述中,假定利用日語作為所述源語言以及利用英語作為譯成的語言(在下文中稱為目標語言)來執行所述翻譯處理。然而,所述源語言和所述目標語言的組合不受限于日語和英語,并且本發明可應用于任何語言的組合。
圖1是示出了根據第一實施例的語音對話翻譯裝置100的構造的框圖。如圖1所示,所述語音對話翻譯裝置100包括操作輸入接收單元101、語音輸入接收單元102、語音識別單元103、翻譯判定單元104、翻譯單元105、顯示控制單元106、語音合成器107、語音輸出控制單元108、存儲控制單元109、源語言存儲單元121、翻譯判定規則存儲單元122以及譯文存儲單元123。
操作輸入接收單元101接收來自諸如按鈕的操作單元(未示出)的操作輸入。例如,接收諸如來自用戶的用以開始所述語音的語音輸入開始指令或來自用戶的用以結束所述語音的語音輸入結束指令的操作輸入。
語音輸入接收單元102接收來自諸如麥克風的用以輸入由用戶說出的源語言的語音的語音輸入單元(未示出)的語音輸入。
語音識別單元103,在通過操作輸入接收單元101接收到所述語音輸入開始指令之后,對通過語音輸入接收單元102接收的輸入語音執行識別處理,并且輸出識別結果。由語音識別單元103執行的所述語音識別處理能夠利用任何常用的語音識別方法,這些方法包括LPC分析、隱馬爾可夫模型(HMM)、動態規劃、神經網絡以及N gram語言模型。
根據所述第一實施例,以短于一個句子的短語等為單位順序地執行所述語音識別處理和所述翻譯處理,并因此語音識別單元103利用諸如在Hori etc.中描述的高速語音識別方法。
翻譯判定單元104分析所述語音識別的結果,并參照存儲在翻譯判定規則存儲單元122中的規則,判定所述識別結果是否將被翻譯。根據第一實施例,構成句子的諸如字或短語的預定語言單位被定義為輸入單位,并且可以判定所述語音識別結果是否對應于所述預定的語言單位。當輸入語言單位的源語言時,獲取對應于所述特定語言單位的在翻譯判定規則存儲單元122中定義的翻譯規則,并且依照所述特定的方法來判定所述翻譯處理的執行。
當分析所述識別結果并提取諸如字或短語的所述語言單位時,可以使用用于諸如語素分析和語法分析的自然語言分析處理的所有常用技術。
作為翻譯規則,可以指定用于對所述輸入語言單位的所述識別結果執行翻譯處理的部分翻譯或用于將整個句子作為單位進行翻譯的整體翻譯。同樣,可以制定這樣的規則,刪除迄今輸入的所有語音并且重復所述輸入而不執行所述翻譯。所述翻譯規則不限于此,可以定義用于指定由翻譯單元105執行的翻譯處理的任何規則。
同樣,翻譯判定單元104通過參照由操作輸入接收單元101接收的所述操作輸入,來判定所述用戶的語音是否已經結束。具體地,操作輸入接收單元101,在接收到來自所述用戶的輸入結束指令時,判定所述語音已經結束。在判定所述語音已經結束時,翻譯判定單元104判定執行整體翻譯,通過所述整體翻譯,對從所述語音輸入開始到所述語音輸入結束輸入的所有識別結果進行翻譯。
翻譯單元105將日語形式的源語言句子翻譯成目標語言句子,即英語。由翻譯單元105執行的所述翻譯處理能夠使用可用于所述機器翻譯系統的所有方法的任何一種,這些方法包括普通轉換方案、基于例子的方案、基于統計的方案以及中間語言方案。
翻譯單元105,在翻譯判定單元104判定執行部分翻譯時,從存儲在源語言存儲單元121中的識別結果中獲取未被翻譯的最后的識別結果,并且對這樣獲取的識別結果執行翻譯處理。另一方面,當翻譯判定單元104判定執行整體翻譯時,對于由在源語言存儲單元121中存儲的所有識別結果構成的句子執行所述翻譯處理。
當所述翻譯集中于用于部分翻譯的短語時,可能執行與先前翻譯的短語的上下文不符合的翻譯。因此,可以將先前翻譯中的語義分析的結果存儲在存儲單元(未示出)中,并且當翻譯新短語時對其加以參照以確保更高準確度的翻譯。
顯示控制單元106將通過語音識別單元103獲得的識別結果以及由翻譯單元105獲得的翻譯結果顯示在顯示單元(未示出)上。
在語音合成器107中,從翻譯單元105輸出的譯文被作為構成所述目標語言的合成英語語音輸出。該語音合成處理能夠使用所有常用方法的任何一種,所述方法包括采用了音素編譯語音合成或構形成分語音合成的文本到語音系統。
語音輸出控制單元108控制由諸如揚聲器的語音輸出單元(未示出)執行的處理,以輸出來自語音合成器107的所述合成的語音。
存儲控制單元109響應于來自操作輸入接收單元101的指令,執行處理,以刪除在源語言存儲單元121和譯文存儲單元123中存儲的源語言和譯文。
源語言存儲單元121存儲所述源語言,即從語音識別單元103輸出的識別結果,并且其能夠由諸如HDD、光盤以及存儲卡的常用存儲介質的任何一種構成。
圖2是用于說明源語言存儲單元121的數據結構的例子的示圖。如圖2所示,源語言存儲單元121存儲了用于唯一地標識所述源語言的ID以及構成從語音識別單元103輸出的識別結果的源語言作為相應的數據。用于執行所述翻譯處理的翻譯單元105,以及用于刪除所述識別結果的存儲控制單元109可以訪問源語言存儲單元121。
翻譯判定規則存儲單元122存儲了當翻譯判定單元104判定所述識別結果是否將被翻譯時所參考的規則,并且能夠由諸如HDD、光盤和存儲卡的常用存儲介質的任何一種所構成。
圖3是用于說明翻譯判定規則存儲單元122的數據結構的例子的示圖。如圖3所示,翻譯判定規則存儲單元122存儲了用于提供標準的條件和相應的判定內容。翻譯判定單元104訪問翻譯判定規則存儲單元122以判定所述識別結果是否將被翻譯,并且如果將被翻譯,其將被部分地還是完全地翻譯。
在所示的情況下,所述短語的類型被分類成名詞短語、動詞短語、孤立短語(諸如不同于所述名詞短語和動詞短語的電話和日期以及時間的短語),并且制定規則以達到這樣的效果,即,對于每個短語,如果被輸入,則將被部分地翻譯。同樣,這樣地設置所述規則,即,在操作輸入接收單元101接收到所述輸入結束指令的情況下,執行所述整體翻譯。
譯文存儲單元123用于存儲從翻譯單元105輸出的譯文,并且能夠由包括HDD、光盤和存儲卡的常用存儲介質的任何一種構成。
圖4是用于說明譯文存儲單元123的數據結構的例子的示圖。如圖4所示,譯文存儲單元123已經在其中存儲了用于唯一地標識所述譯文的ID和從翻譯單元105輸出的相應譯文。
接下來,說明由根據以上述方式構成的第一實施例的語音對話翻譯裝置100執行的語音對話翻譯處理。圖5是示出了根據所述第一實施例的語音對話翻譯處理的總流程的流程圖。所述語音對話翻譯處理被定義為,包括用戶說出一個句子的步驟到語音合成和特定句子輸出的步驟的處理。
首先,操作輸入接收單元101接收由用戶輸入的語音輸入開始指令(步驟S501)。接下來,語音輸入接收單元102接收由用戶說出的源語言的語音輸入(步驟S502)。
然后,語音識別單元103對所接收的所述源語言的語音執行識別,并且將識別結果存儲在源語言存儲單元121中(步驟S503)。語音識別單元103通過在用戶的全部發言完成之前順序地執行所述語音識別處理,來輸出所述識別結果。
接下來,顯示控制單元106將從語音識別單元103輸出的所述識別結果顯示在顯示屏上(步驟S504)。后面描述了所述顯示屏的構造例。
接下來,操作輸入接收單元101判定所述刪除按鈕是否已經被所述用戶按下一次(步驟S505)。當所述刪除按鈕被按下一次時(在步驟S505為“是”),存儲控制單元109刪除在源語言存儲單元121中存儲的最后的識別結果(步驟S506),并且所述處理返回到并重復所述語音輸入接收處理(步驟S502)。所述最后的識別結果被定義為,在從所述語音輸入開始到結束之中的并且在源語言存儲單元121中存儲的,但未受到由翻譯單元105進行的所述翻譯處理的語音識別結果。
當在步驟S505判定所述刪除按鈕沒有被按下一次時(在步驟S505為“否”),操作輸入接收單元101判定所述刪除按鈕是否已經被連續按下兩次(步驟S507)。當所述刪除按鈕被連續按下兩次時(在步驟S507為“是”),存儲控制單元109刪除在源語言存儲單元121中存儲的所有識別結果(步驟S508),并且所述處理返回到所述語音輸入接收處理。
因此,當所述刪除按鈕已經被連續按下兩次時,刪除了到此為止輸入的全部語音并且所述輸入能夠從開始重復進行。作為選擇,每次按下所述刪除按鈕時,可以基于后入先出順序地刪除所述識別結果。
另一方面,當在步驟S507判定所述刪除按鈕沒有被連續按下兩次時(在步驟S507為“否”),翻譯判定單元104從源語言存儲單元121獲取未被翻譯的識別結果(步驟S509)。
接下來,翻譯判定單元104判定所獲取的識別結果是否對應于在翻譯判定規則存儲單元122的條件部分中描述的短語(步驟S510)。當所述回答為肯定時(在步驟S501為“是”),翻譯判定單元104訪問翻譯判定規則存儲單元12,并獲取對應于所述特定短語的判定內容(步驟S511)。例如,當如圖3所示的規則被存儲在翻譯判定規則存儲單元122中,并且所獲取的識別結果為名詞短語時,“部分翻譯”被獲取為判定的內容。
另一方面,當在步驟S510判定所獲取的識別結果不對應于條件部分的所述短語時(在步驟S501為“否”),翻譯判定單元104判定是否已經從操作輸入接收單元101接收到所述輸入結束指令(步驟S512)。
當未接收到所述輸入結束指令時(在步驟S512為“否”),所述處理返回到所述語音輸入接收處理并且整個處理重新開始(步驟S502)。當接收到所述輸入結束指令時(在步驟S512為“是”),翻譯判定單元104訪問翻譯判定規則存儲單元122,并獲取對應于所述輸入結束指令的判定內容(步驟S513)。當如圖3所示的所述規則被存儲在翻譯判定規則存儲單元122中時,例如,“整體翻譯”被獲取為對應于所述輸入結束指令的判定內容。
在步驟S511或S513獲取判定內容之后,翻譯判定單元104判定所述判定內容是否為部分翻譯(步驟S514)。當涉及所述部分翻譯時(在步驟S514為“是”),翻譯單元105從源語言存儲單元121獲取最后的識別結果,并且對所獲取的識別結果執行部分翻譯(步驟S515)。
另一方面,當不涉及部分翻譯時,即,在涉及整體翻譯的情況下(在步驟S514為“否”),翻譯單元105從源語言存儲單元121讀取完整的識別結果,并且以所述完整讀取的識別結果作為一個單位來執行所述整體翻譯(步驟S516)。
接下來,翻譯單元105將構成所述翻譯結果的譯文(翻譯的文字)存儲在譯文存儲單元123中(步驟S517)。接下來,顯示控制單元106將從翻譯單元105輸出的所述譯文顯示在顯示屏上(步驟S518)。
接下來,語音合成器107對從翻譯單元105輸出的譯文進行語音合成并輸出(步驟S519)。然后,語音輸出控制單元108將由語音合成器107合成的所述譯文的語音輸出到揚聲器等的語音輸出單元(步驟S520)。
翻譯判定單元104判定是否已經執行了所述整體翻譯(步驟S512),并且在未執行所述整體翻譯的情況下(在步驟S521為“否”),所述處理返回到所述語音輸入接收處理,以從開始重復所述處理(步驟S502)。另一方面,當執行了所述整體翻譯時(在步驟S521為“是”),所述語音對話翻譯處理結束。
接下來,說明在具有上述構造的根據第一實施例的語音對話翻譯裝置100中的語音對話翻譯處理的具體例子。首先,說明在常規的對話翻譯裝置中的語音對話翻譯處理的具體例子。
圖6是用于說明在常規的語音對話翻譯裝置中處理的數據的例子的示圖。在所述常規的語音對話翻譯裝置中,一個句子的整體被輸入并且用戶輸入所述輸入結束指令,然后以利用在字之間的空格寫成的短語接短語的方式,將整個句子的語音識別結果顯示在顯示屏上。在圖6中示出的屏幕601是處于這種狀態的顯示屏的例子。在輸入結束之后,立即將屏幕601上的光標611定位于第一個短語。能夠通過再次輸入語音來校正所述光標定位于的短語。
當在聽覺上正確地識別所述第一個短語時,按下OK按鈕,或者相反光標前進到下一個短語處。屏幕602指示了光標612被定位于一個被錯誤地在聽覺上識別的短語的狀態。
在這種情況下,在聽覺上輸入所述校正。如屏幕603所示,由光標613指示的短語被再次識別的結果所替代。當所述再次識別的結果是正確的時,按下所述OK按鈕并且光標前進到所述句子的結尾。如屏幕604所示,顯示了所述整體翻譯的結果,并且在聽覺上合成所述翻譯結果并輸出。
圖7是用于說明在常規的語音對話翻譯裝置中處理的數據的另一個例子的示圖。在圖7所示的例子中,由于識別誤差產生的不需要的短語由光標711顯示在屏幕701上。所述刪除按鈕被按下以刪除光標711的短語,并且如屏幕702所示,將光標712定位于將被校正的短語。
在這種情況下,輸入聽覺的校正。如屏幕703所示,由光標713指示的短語被所述重復識別的結果所替代。當所述重復識別的結果是正確的時,按下所述OK按鈕,并且所述光標前進到所述句子的結尾。因而,如屏幕704所示顯示所述整體翻譯的結果,而同時進行對所述翻譯結果的語音合成和輸出。
如上所述,在所述常規的語音對話翻譯裝置中,在輸入一個句子的整體后執行翻譯和語音合成,因此延長了所述沉默期間,使得不能進行流暢的對話。同樣,當存在錯誤的語音識別時,將光標移動到錯誤識別點并再次執行輸入操作的操作是復雜的,從而增加了操作負擔。
相反,在根據第一實施例的語音對話翻譯裝置100中,所述語音識別結果被順序地顯示在屏幕上,并且在出現識別誤差的情況下,為了校正立即重復所述輸入操作。同樣,所述識別結果被順序地翻譯、在聽覺上合成和輸出。因此,縮短了所述沉默期間。
圖8到12是用于說明由根據第一實施例的語音對話翻譯裝置100執行的語音對話翻譯處理的具體例子的示圖。
如圖8所示,假定由用戶輸入的語音開始(步驟S501),并且從聽覺上輸入意思是“自由女神像”的語音“jiyuunomegamini”(步驟S502)。語音識別單元103從聽覺上識別所述輸入語音(步驟S503),并且將得到的日語801顯示在屏幕上(步驟S504)。
日語801是名詞短語,并且因此翻譯判定單元104判定執行部分翻譯(步驟S509到S511),從而使得翻譯單元105翻譯日語801(步驟S515)。將構成所述翻譯結果的英語811顯示在所述屏幕上(步驟S518),同時從聽覺上合成所述翻譯結果并輸出(步驟S519到520)。
圖8示出了這樣的例子,在其中所述用戶然后輸入了意思是“我想去”的語音“ikitainodakedo”。在類似的處理中,將日語802和作為翻譯結果的英語812顯示在所述屏幕上,并且對英語812從聽覺上進行合成并輸出。同樣,在輸入意思是“擁擠的”的語音“komukashira”的情況下,將日語803和構成翻譯結果的英語813顯示在所述屏幕上,并且對英語813從聽覺上進行合成并輸出。
最后,用戶輸入輸入結束指令。然后,翻譯判定單元104判定執行所述整體翻譯(步驟S512),并且所述整體翻譯由翻譯單元105執行(步驟S516)。結果,將構成所述整體翻譯的結果的英語814顯示在所述屏幕上(步驟S518)。這個實施例表示了這樣的例子,在其中每次進行順序翻譯時從聽覺上合成并輸出所述語音,本發明不必受限于該例子。例如,可以只在整體翻譯之后可選地合成和輸出所述語音。
在海外旅行時的對話中,通常不講完整的英語,而僅僅通過英語單詞的排列常常能夠理解語音的意圖。在上述根據第一實施例的語音對話翻譯裝置100中,輸入的日語被順序地翻譯成英語并且在完成語音之前以不完全的狀態輸出。即使這種內容的不完全形式,也對語音意圖的傳達提供了充分的幫助。同樣,最后整個句子被再次翻譯并輸出,并因此能夠確定地傳達所述語音的含義。
圖9和10是用于說明在發生語音識別誤差時所述語音對話翻譯處理的一個具體例子的示圖。
圖9示出了在第二次語音識別期間發生識別誤差的情況,并顯示了錯誤的日語901。在這種情況下,所述用戶確認顯示的日語901是錯誤的,并且按下刪除按鈕(步驟S505)。響應于此,存儲控制單元109從源語言存儲單元121中刪除構成最后的識別結果的日語901(步驟S506),由此日語902被單獨地顯示在所述屏幕上。
然后,用戶輸入意思為“去”的語音“iku”,并且構成識別結果的日語903和構成翻譯結果的英語913被顯示在所述屏幕上。對英語913從聽覺上合成并輸出。
這樣,總是在所述屏幕上確認最后的識別結果,并且在發生識別誤差時,無需移動所述光標就能夠容易地校正被錯誤地識別的部分。
圖11和12是用于說明在發生語音識別誤差時所述語音對話翻譯處理的另一個具體例子的示圖。
圖11示出了這樣的例子,在其中,與圖9一樣,識別誤差出現在第二次語音識別期間,并且顯示了錯誤的日語1101。在圖11的情況下,再次輸入的語音同樣會出現識別誤差,并且顯示了錯誤的日語1102。
考慮這樣的情況,在其中用戶完全地刪除所述輸入,并且從開始重新開始所述語音。在這種情況下,用戶連續按下所述刪除按鈕兩次(步驟S507)。響應于此,存儲控制單元109刪除在源語言存儲單元121中存儲的全部識別結果(步驟S508),并且因此,如屏幕的左上部分所示,從所述屏幕上刪除全部顯示。在隨后重復的輸入處理中,語音合成和輸出處理類似于先前的處理。
如上所述,在根據第一實施例的語音對話翻譯裝置100中,在聽覺上識別所述輸入語音,并且每次判定一個句子被輸入時,翻譯識別結果,并且從聽覺上合成并輸出所述翻譯結果。因此,減少了沉默時間的發生并促進了流暢的對話。另外,減小了對識別誤差進行校正所帶來的操作負擔。因此,能夠減少由于集中于所述校正操作所造成的沉默時間,并進一步促進了流暢的對話。
根據所述第一實施例,翻譯判定單元104基于語言知識判定所述翻譯是否將被執行。因此,當由于噪音等原因造成語音識別誤差頻繁發生時,不能接收到在語言上校正的信息并且不能進行正常的翻譯判定。因此,基于除了語言知識之外的信息來判定所述翻譯是否將被執行的方法是有效的。
根據所述第一實施例,即使在說出日語時也輸出英語合成語音,因此在日語和英語之間的語音疊加可能引起麻煩。
在根據第二實施例的語音對話翻譯裝置中,參考了來自用于檢測用戶面部的位置和表情的圖像識別單元的信息,并且在判定用戶面部的位置或者表情已經改變時,翻譯所述識別結果,并且對所述翻譯結果從聽覺上進行合成并輸出。
圖13是示出了根據第二實施例的語音對話翻譯裝置1300的構造的框圖。如圖13所示,語音對話翻譯裝置1300包括操作輸入接收單元101、語音輸入接收單元102、語音識別單元103、翻譯判定單元1304、翻譯單元105、顯示控制單元106、語音合成器107、語音輸出控制單元108、存儲控制單元109、圖像輸入接收單元1310、圖像識別單元1311、源語言存儲單元121、翻譯判定規則存儲單元1322以及譯文存儲單元123。
第二實施例與第一實施例的不同之處在于,加入了圖像輸入接收單元1310和圖像識別單元1311,翻譯判定單元1304具有不同的功能以及翻譯判定規則存儲單元1322的內容不同。所述結構和功能的其他組成部分,其類似于在圖1的框圖中所示的根據第一實施例的語音對話翻譯裝置100的相應組成部分,被分別以相同的參考數字表示,并不再被描述。
圖像輸入接收單元1310接收來自諸如攝像頭(camera)的用于輸入人臉圖像的圖像輸入單元(未示出)的圖像輸入。近年來,對諸如配備有攝像頭的移動電話的具有圖像輸入單元的便攜式終端的使用已經普及,并且已經以這樣的方式構成所述裝置,即能夠使用附屬于所述便攜式終端的圖像輸入單元。
圖像識別單元1311用于從通過圖像輸入接收單元1310所接收的圖像(輸入圖像)對用戶的面部圖像進行識別。圖14是示出了圖像識別單元1311的詳細構造的框圖。如圖14中所示,圖像識別單元1311包括面部區域提取單元1401、面部部件檢測器1402以及特征數據提取單元1403。
面部區域提取單元1401用于從所述輸入圖像中提取面部區域。面部部件檢測器1402用于從由面部區域提取單元1401所提取的面部區域中檢測作為面部部件的構成面部的諸如眼睛、鼻子和嘴的器官。特征數據提取單元1403用于通過從由面部部件檢測器1402檢測的面部部件提取構成了表征所述面部區域的信息的特征數據以輸出。
能夠通過常用方法的任何一種來執行圖像識別單元1311的這種處理,這些方法包括在Kazuhiro Fukui and Osamu Yamaguchi,“Face FeaturePoint Extraction by Shape Extraction and Pattern Collation Combined,”The Institute of Electronics,Information and Communication EngineersJournal,Vol.J80-D-II,No.8,pp.2170-2177(1977)中所描述的方法。
翻譯判定單元1304判定從圖像識別單元1311輸出的特征數據是否已經改變,并且在判定其已經改變時,判定將在所述面部圖像信息的變化之前在源語言存儲單元121中存儲的識別結果作為一個單位,執行翻譯。
具體地,在用戶將他/她的面部朝向攝像頭并且面部圖像第一次被識別的情況下,輸出表征所述面部區域的特征數據,并因而能夠檢測到面部圖像信息中的變化。同樣,例如,在用戶的表情朝著笑臉變化時,輸出表征笑臉的特征數據,并因而能夠檢測到面部圖像信息中的變化。還能夠以類似的方式檢測面部位置的變化。
翻譯判定單元1304,在如上所述檢測到面部圖像信息的變化時,判定將在所述面部圖像信息的變化之前在源語言存儲單元121中存儲的識別結果作為一個單元,執行所述翻譯處理。因此,無需考慮語言信息,能夠通過非語言的面部信息來判定是否執行翻譯。
翻譯判定規則存儲單元1322用于存儲被翻譯判定單元1304所參考以判定所述識別結果是否將被翻譯的規則,并且可以由諸如HDD、光盤和存儲卡的常用存儲介質的任何一種所構成。
圖15是用于說明翻譯判定規則存儲單元1322的數據結構的一個例子的示圖。如圖15中所示,翻譯判定規則存儲單元1322中已經存儲了提供標準的條件和對應于所述條件的判定內容。
在圖15中所示的情況下,例如,所述規則被定義為,在用戶注視他/她自身的設備并且所述面部圖像被檢測的情況下,或者在所述面部位置被改變的情況下,執行所述部分翻譯。根據該規則,當在說話期間注視所述屏幕以確認語音識別的結果的情況下,到此為止輸入的識別結果得到部分翻譯。
同樣,在所示的例子中,可以這樣制定規則,即在用戶點頭或用戶的表情變化為笑臉的情況下,執行整體翻譯。該規則利用了這樣的事實,即用戶在確認語音識別結果正確時,會點頭或微笑。
當用戶點頭時,可以將其判定為面部位置的變化,在這種情況下,給予關于點頭的規則以優先并且執行所述整體翻譯。
圖16是用于說明翻譯判定規則存儲單元1322的數據結構的另一個例子的示圖。在所示的情況下,示出了將非所述用戶的、另一方的面部表情的變化作為條件的翻譯判定規則。
當對話的另一方點頭或另一方的表情變化為笑臉時,與所述用戶的情況一樣,應用整體翻譯的規則。該規則地利用了這樣的事實,即只要對話的另一方能夠理解被順序地說出的合成語音,他/她可能點頭或微笑。
同樣,可以這樣設置規則,即在另一方的頭部傾斜或搖動的情況下,不執行翻譯,并且刪除所有先前的識別結果并且再次輸入語音。該規則利用了這樣的事實,即因為對話的另一方不能理解被順序地說出的合成語音而傾斜頭部或者搖動他/她的頭部作為否認。
在這種情況下,存儲控制單元109根據翻譯判定單元1304的判定發出刪除的指令,從而使得在源語言存儲單元121和譯文存儲單元123中存儲的所有源語言和譯文被刪除。
接下來,說明由具有上述構造的根據第二實施例的語音對話翻譯裝置1300執行的語音對話翻譯處理。圖17是示出了根據第二實施例的語音對話翻譯處理的總流程的流程圖。
步驟S1701到S1708的語音輸入接收處理和識別結果刪除處理類似于根據第一實施例的語音對話翻譯裝置100的步驟S501到S508的所述處理,并因此不再說明。
當在步驟S1707判定所述刪除按鈕沒有被連續按下兩次時(在步驟S1707為“否”),翻譯判定單元1304獲取由圖像識別單元1311輸出的構成所述面部圖像信息的特征數據(步驟S1709)。順便提及,在由圖像識別單元1311執行所述圖像識別處理的同時,進行所述語音對話翻譯處理。后面將詳細地描述所述圖像識別處理。
接下來,翻譯判定單元1304判定符合所獲取的面部圖像信息的變化的條件是否被包括在翻譯判定規則存儲單元1322的條件中(步驟1710)。在缺少相一致的條件時(在步驟S1710為“否”),所述處理返回到所述語音輸入接收處理,以重新開始整個處理(步驟S1702)。
另一方面,當存在相一致的條件時(在步驟S1710為“是”),翻譯判定單元1304從翻譯判定規則存儲單元1322獲取對應于所述特定條件的判定內容(步驟S1711)。具體地,假定如圖15所示的規則被定義在翻譯判定規則存儲單元1322中。當由于所述用戶的面部位置已經改變的效果而檢測到所述面部圖像信息的變化時,獲取構成對應于條件“面部位置變化”的判定內容的“部分翻譯”。
步驟S1712到S1719的所述翻譯處理、語音合成和輸出處理類似于根據第一實施例的語音對話翻譯裝置100的步驟S514到S521的所述處理,并因此不再說明。
接下來,將詳細地說明與所述語音對話翻譯處理同時執行的圖像識別處理。圖18是示出了根據第二實施例的圖像識別處理的總流程的流程圖。
首先,圖像輸入接收單元1310接收通過諸如攝像頭的圖像輸入單元攝取的圖像輸入(步驟S1801)。然后,面部區域提取單元1401從所接收的圖像中提取所述面部區域(步驟S1802)。
面部部件檢測器1402從由面部區域提取單元1401提取的所述面部區域檢測面部部件(步驟S1803)。最后,特征數據提取單元1403從由面部區域提取單元1401提取的面部區域和由面部部件檢測器1402檢測的面部部件,來提取用于提供所述特征數據的規格化模式以輸出,并因而結束所述圖像識別處理。
接下來,將說明在所述圖像識別處理中處理的圖像和特征數據的具體例子。圖19是用于說明在所述圖像識別處理中處理的信息的例子的示圖。
如圖19(a)中所示,示出了從攝取的用戶面部圖像通過模式匹配檢測的由白色矩形所定義的面部區域。同樣,可以看出,檢測出由白色十字指示的眼睛、鼻孔和嘴。
在圖19(b)中示出了示意性地表示所檢測的面部區域和面部部件的示圖。如圖19(c)中所示,只要從在連接右眼和左眼的線段上的中點C到每一個部件的距離(比如,V2)表示從右眼到左眼的距離(V1)的預定的比,所述面部區域被定義為如圖19(d)中所示的m像素乘n像素的灰度矩陣信息。特征數據提取單元1403提取該灰度矩陣信息作為特征數據。該灰度矩陣信息也被稱為規格化模式。
圖20是用于說明所述規格化模式的例子的示圖。類似于圖19(d)的m像素乘n像素的灰度矩陣信息被示于圖20的左側。另一方面,圖20的右側示出了以向量表示所述規格化模式的特征向量的例子。
在將所述規格化模式表示為向量(Nk)時,假定m×n個像素的第j個像素的亮度被定義為ij。然后,通過從所述灰度矩陣信息的左上部像素到右下部像素排列所述亮度ij,由下面的等式(1)表示向量Nk。
Nk=(i1,i2,i3,…,im×n) (1)當這樣提取的規格化模式符合預定的面部圖像模式時,能夠判定檢測出所述面部。同樣能夠通過模式匹配來檢測面部的位置(方向)和表情。
在上述例子中,所述面部圖像信息被用于判定由翻譯單元105執行翻譯的動因。作為可選擇的,所述面部圖像信息可以被用于判定由語音合成器107執行語音合成的動因。具體地,語音合成器107被配置以通過類似于翻譯判定單元1304的方法,依照面部圖像中的變化執行語音合成。在所述處理中,與在第一實施例中一樣,翻譯判定單元1304能夠被配置以判定利用短語輸入時間點作為動因,執行所述翻譯。
此外,取代通過檢測出所述面部圖像信息中的變化來執行所述翻譯,在用戶不說話的沉默期間超出預定時間的情況下,將在所述沉默期間開始之前在源語言存儲單元121中存儲的識別結果作為一個單位進行翻譯。結果,通過適當地判定所述語音的結束,能夠執行所述翻譯和所述語音合成,與此同時最小化所述沉默期間,從而進一步促進了流暢的對話。
如上所述,在根據第二實施例的語音對話翻譯裝置1300中,在判定諸如用戶或對方的面部位置或表情的面部圖像信息發生變化時,翻譯所述識別結果,并且對該翻譯結果從聽覺上進行合成并輸出。因此,能夠促進正確地反映了用戶與對方的心理狀態以及對話情景的流暢的對話。
此外,當日語語音中斷并且所述面部朝向所述顯示屏時,能夠從聽覺上合成英語,因此在所述日語語音和所述合成的英語語音輸出之間的疊加的可能性被減小,從而可能進一步促進流暢的對話。
在根據第三實施例的語音對話翻譯裝置中,訪問來自用于檢測用戶自有裝置的操作的加速度傳感器的信息,并且在判定所述裝置的操作對應于預定操作時,翻譯所述識別結果,并且從聽覺上合成并輸出譯文,即所述翻譯結果。
圖21是示出了根據第三實施例的語音對話翻譯裝置2100的構造的框圖。如圖21所示,語音對話翻譯裝置2100包括操作輸入接收單元101、語音輸入接收單元102、語音識別單元103、翻譯判定單元2104、翻譯單元105、顯示控制單元106、語音合成器107、語音輸出控制單元108、存儲控制單元109、操作檢測器2110、源語言存儲單元121、翻譯判定規則存儲單元2122以及譯文存儲單元123。
第三實施例與所述第一實施例的不同之處在于,加入了操作檢測器2110、翻譯判定單元2104具有不同的功能以及翻譯判定規則存儲單元2122的內容不同。所述構造和功能的其他組成部分,其類似于在圖1的框圖中所示的根據第一實施例的語音對話翻譯裝置100的對應部分,分別由相同的參考數字指示,并且不再被描述。
操作檢測器2110是加速度檢測器或類似的裝置,用于檢測自有裝置的操作。近年來,具有所述加速度傳感器的便攜式終端已經可以在市場上獲得,因此這種附屬于所述便攜式終端的傳感器可以被用作為操作檢測器2110。
圖22是用于說明由所述加速度傳感器檢測的操作的例子的示圖。在圖22中示出了使用雙軸加速度傳感器的例子。能夠由此傳感器分別地測量繞X和Y軸的旋轉角θ和φ。不過,所述操作檢測器2110不限于所述雙軸加速度傳感器,只要能夠檢測所述自有裝置的操作,可以使用諸如三軸加速度傳感器的任何檢測器。
翻譯判定單元2104用于判定由操作檢測器2110檢測的所述自有裝置的操作是否對應于預定的操作。具體地,其判定在指定方向上的旋轉角是否已經超出預定值,或者所述操作是否對應于預定周期的周期性振動。
翻譯判定單元2104,在判定所述自有裝置的操作符合預定操作時,判定將在所述對應于預定操作的判定之前在源語言存儲單元121中存儲的所述識別結果作為一個單位執行翻譯處理。結果,能夠基于包括了所述裝置操作的非語言信息而無需語言信息,來進行翻譯是否將被執行的判定。
翻譯判定規則存儲單元2122用于存儲由翻譯判定單元2104參考以判定所述識別結果是否將被翻譯的規則,并且能夠由諸如HDD、光盤以及存儲卡的常用存儲介質的任何一種所構成。
圖23是用于說明翻譯判定規則存儲單元2122的數據結構的例子的示圖。如圖23中所示,翻譯判定規則存儲單元2122已經在其中存儲了用于提供標準的條件和對應于所述條件的判定內容。
在所示的情況下,所述規則被定義以在這樣的情況下執行所述部分翻譯,即用戶繞X軸將所述自有裝置轉動到所述自有裝置的顯示屏可見的位置,并且旋轉角θ超過預定的閾值α。該規則被設置以確保在此時間點之前輸入的識別結果的部分翻譯,其中在所述時間點,所述自有裝置被向視線傾斜以確認在講話期間的語音識別的結果。
此外,在所示的情況下,所示規則被定義以在這樣的情況下執行所述整體翻譯,即,將所述自有裝置的顯示屏繞Y軸旋轉到所述顯示屏可為所述另一方可見的位置,并且旋轉角φ超過預定的閾值β。該規則被設置以確保所有識別結果的整體翻譯,其鑒于這樣的事實,即,將所述顯示屏朝向對話的另一方的用戶操作確認了所述語音識別結果是正確的。
進一步地,所述規則可以被定義為,在沒有正確地執行所述語音識別并且所述用戶周期性地水平地搖動所述自有設備時,從最初的輸入操作重新開始,不進行翻譯并且刪除全部先前的識別結果,以從開始重復所述語音輸入。以行為為條件的規則不限于前述情況,并且能夠定義任何規則,以對依照所述自有裝置的運動的翻譯處理的內容進行指定。
接下來,說明由具有上述構造的根據第三實施例的語音對話翻譯裝置2100執行的語音對話翻譯處理。圖24是示出了根據第三實施例的語音對話翻譯處理的總流程的流程圖。
步驟S2401到S2408的語音輸入接收處理和識別結果刪除處理類似于根據第一實施例的語音對話翻譯裝置100的步驟S501到S508的所述處理,因此不再對其進行說明。
在步驟S2407判定所述刪除按鈕沒有被連續按下兩次時(在步驟S2407為“否”),翻譯判定單元2104獲取從操作檢測器2110輸出的操作量(步驟S2409)。順便提及,在所述語音對話翻譯處理的同時,執行由操作檢測器2110進行的操作檢測處理。
接下來,翻譯判定單元2104判定所獲取的操作量是否滿足翻譯判定規則存儲單元2122的條件(步驟2410)。在不存在符合的條件時(在步驟2410為“否”),所述處理返回到所述語音輸入接收處理以重新開始整個處理(步驟S2402)。
另一方面,在存在符合的條件時(在步驟S2410為“是”),翻譯判定單元2104從翻譯判定規則存儲單元2122獲取對應于所述特定條件的判定內容(步驟S2411)。具體地,假定如圖23所示的規則被定義在翻譯判定規則存儲單元2122中。例如,當用戶將所述裝置繞X軸旋轉以確認所述語音識別結果并且旋轉角θ超出預定的閾值α時,構成了對應于條件θ>α的判定內容的“部分翻譯”被獲取。
步驟S2412到S2419的翻譯處理、語音合成和輸出處理類似于根據第一實施例的語音對話翻譯裝置100的步驟S514到S521的所述處理,并因此不再對其進行說明。
在上述例子中,利用由操作檢測器2110檢測的操作量來判定通過翻譯單元105執行所述翻譯的動因。作為選擇,所述操作量能夠被用于判定通過語音合成器107執行所述語音合成的動因。具體地,在根據與翻譯判定單元2104相似的方法來判定所檢測的操作是否對應于預定操作之后,由語音合成器107執行所述語音合成。在所述處理中,翻譯判定單元2104與在第一實施例中一樣,可以被配置以利用作為動因的短語輸入來判定翻譯的執行。
如上所述,在根據第三實施例的語音對話翻譯裝置2100中,在判定所述自有裝置的運動對應于預定運動之后,翻譯所述識別結果,并且對所述翻譯結果在聽覺上進行合成并輸出。因此,能夠促進在其中反映了在對話期間用戶的自然行為或動作的流暢的對話。
順便提及,由根據第一到第三實施例的語音對話翻譯裝置執行的語音對話翻譯程序,可以是嵌入到ROM(只讀存儲器)等中的形式。
由根據第一到第三實施例的語音對話翻譯裝置執行的語音對話翻譯程序,可以被配置為可安裝的或可執行的文件,所述文件可以被記錄在諸如CD-ROM(只讀光盤存儲器)、軟盤(FD)、CD-R(可刻錄光盤)、DVD(數字多用途光盤)等的計算機可讀記錄介質中。
進一步地,由根據第一到第三實施例的語音對話翻譯裝置執行的語音對話翻譯程序,能夠被配置為存儲在連接到諸如因特網的網絡的計算機中,并且適合于通過所述網絡下載。此外,由根據第一到第三實施例的語音對話翻譯裝置執行的語音對話翻譯程序,能夠被配置為通過諸如因特網的網絡進行提供或發布。
由根據第一到第三實施例的語音對話翻譯裝置執行的語音對話翻譯程序,由包括上述各個部分(操作輸入接收單元,語音輸入接收單元,語音識別單元,翻譯判定單元,翻譯單元,顯示控制單元,語音合成器,語音輸出控制單元,存儲控制單元,圖像輸入接收單元以及圖像識別單元)的模塊所構成。作為實際的硬件,CPU(中央處理單元)通過從ROM讀取所述語音對話翻譯程序來運行,從而在主存儲單元上加載和生成上述各個部分。
本領域技術人員將容易地想到其它的優點和變型。因此,本發明在其廣義方面不限于在這里示出和描述的具體細節和代表性實施例。于是,無需偏離由所附權利要求及其等同內容所定義的一般發明概念的精神或范圍,可以進行各種的變型。
權利要求
1.一種語音對話翻譯裝置,包括語音識別單元,用于識別將被翻譯的源語言的用戶語音并輸出識別結果;源語言存儲單元,用于存儲所述識別結果;翻譯判定單元,基于對正在進行的語音的一部分是否將被翻譯進行定義的規則,來判定在所述源語言存儲單元中存儲的所述識別結果是否將被翻譯;翻譯單元,用于在判定所述識別結果將被翻譯時,將所述識別結果轉換成以目標語言描述的譯文并且輸出所述譯文;以及語音合成器,用于將所述譯文合成為所述目標語言的語音。
2.根據權利要求1的語音對話翻譯裝置,其中,所述翻譯判定單元判定是否輸出構成句子的預定語言單位的所述識別結果,并且在判定輸出所述語言單位的所述識別結果時,判定所述語言單位的所述識別結果被作為一個單位翻譯。
3.根據權利要求1的語音對話翻譯裝置,其中,所述翻譯判定單元判定所述用戶的沉默期間是否已經超出預定的時間長度,并且在判定所述沉默期間已經超出所述預定的時間長度時,判定在所述沉默期間開始之前在所述源語言存儲單元中存儲的所述識別結果被作為一個單位翻譯。
4.根據權利要求1的語音對話翻譯裝置,進一步包括操作輸入接收單元,用于接收來自所述用戶的結束所述語音的指令,其中,所述翻譯判定單元,在通過所述操作輸入接收單元接收到所述用戶的所述語音的結束時,判定從所述語音的開始到結束在所述源語言存儲單元中存儲的所述識別結果被作為一個單位翻譯。
5.根據權利要求1的語音對話翻譯裝置,進一步包括顯示單元,用于在其上顯示所述識別結果;操作輸入接收單元,用于接收指令的輸入以刪除所述顯示的識別結果;以及存儲控制單元,在通過所述操作輸入接收單元接收到刪除指令時,響應于所述刪除指令,從所述源語言存儲單元刪除所述識別結果。
6.根據權利要求1的語音對話翻譯裝置,進一步包括圖像輸入接收單元,用于接收由圖像攝取單元攝取的所述用戶和對話的另一方中的一個的面部圖像;以及圖像識別單元,用于識別所述面部圖像并且獲取面部圖像信息,其中所述面部圖像信息包括所述用戶和所述另一方中的所述一個的表情和面部的方向,其中,所述翻譯判定單元判定所述面部圖像信息是否已經改變,并且在判定所述面部圖像信息已經改變時,判定在所述面部圖像信息的改變之前在所述源語言存儲單元中存儲的所述識別結果被作為一個單位翻譯。
7.根據權利要求6的語音對話翻譯裝置,其中,所述語音合成器判定所述面部圖像信息是否已經改變,并且在判定所述面部圖像信息已經改變時,將所述譯文合成為所述目標語言的語音。
8.根據權利要求6的語音對話翻譯裝置,其中,所述翻譯判定單元判定所述面部圖像信息是否已經改變,并且在判定所述面部圖像信息已經改變時,判定從所述源語言存儲單元刪除所述識別結果;所述裝置進一步包括存儲控制單元,用于在通過所述翻譯判定單元判定將從所述源語言存儲單元刪除所述識別結果時,從所述源語言存儲單元刪除所述識別結果。
9.根據權利要求1的語音對話翻譯裝置,進一步包括用于檢測所述語音對話翻譯裝置的操作的動作檢測器,其中,所述翻譯判定單元判定所述操作是否對應于預定操作,并且在判定所述操作對應于所述預定操作時,判定在所述預定操作之前在所述源語言存儲單元中存儲的所述識別結果被作為一個單位翻譯。
10.根據權利要求9的語音對話翻譯裝置,其中,所述語音合成器判定所述操作是否對應于預定操作,并且在判定所述操作對應于所述預定操作時,將所述譯文合成為所述目標語言的語音。
11.根據權利要求9的語音對話翻譯裝置,其中,所述翻譯判定單元判定所述操作是否對應于預定操作,并且在判定所述操作對應于所述預定操作時,判定從所述源語言存儲單元刪除所述識別結果,所述裝置進一步包括存儲控制單元,用于在通過所述翻譯判定單元判定將從所述源語言存儲單元刪除所述識別結果時,從所述源語言存儲單元刪除所述識別結果。
12.一種語音對話翻譯方法,包括以下步驟識別將被翻譯的源語言的用戶語音;輸出識別結果;基于對正在進行的語音的一部分是否將被翻譯進行定義的規則,判定存儲在源語言存儲單元中的所述識別結果是否將被翻譯;在判定所述識別結果將被翻譯時,將所述識別結果轉換成以目標語言描述的譯文并且輸出所述譯文;以及將所述譯文合成為所述目標語言的語音。
全文摘要
一種語音對話翻譯裝置,包括語音識別單元,用于識別將被翻譯的源語言的用戶語音并輸出識別結果;源語言存儲單元,用于存儲所述識別結果;翻譯判定單元,基于對正在進行的語音的一部分是否將被翻譯進行定義的規則,來判定在所述源語言存儲單元中存儲的所述識別結果是否將被翻譯;翻譯單元,用于在判定所述識別結果將被翻譯時,將所述識別結果轉換成以目標語言描述的譯文并且輸出所述譯文;以及語音合成器,用于將所述譯文合成為所述目標語言的語音。
文檔編號G10L13/00GK1932807SQ20061015387
公開日2007年3月21日 申請日期2006年9月14日 優先權日2005年9月15日
發明者土井美和子 申請人:株式會社東芝