專利名稱:語音翻譯設備的制作方法
技術領域:
本發明涉及一種語音翻譯設備。
背景技術:
近年來,對于實際應用語音翻譯設備的期待一直在增長,這種語音翻 譯設備支持使用不同語言作為其母語(從孩童時期自然獲知的語言第一語 言)的人之間進行交流。這種語音翻譯設備基本上利用識別語音的語音識別 單元、翻譯語音識別獲取的第一字符串的翻譯單元以及根據翻譯第一字符 串獲得的第二字符串來合成語音的語音合成單元,從而依次執行語音識別 過程、翻譯過程和語音合成過程。
識別語音并輸出文本信息的語音識別系統已經以軟件包程序形式投入 實用,以書面單詞(文本)作為輸入的機器翻譯系統也以軟件包程序形式類 似地投入了實用,語音合成系統也已經投入實用。可以通過相應使用的上 述軟件程序實現語音翻譯設備。
除了語音之外,母語相同的人之間面對面的交流還可以利用彼此可見 的物品、文檔、圖畫等來進行。具體而言,當某人問及地圖上的方向時, 另一個人可以指出地圖上所示的建筑物和街道來給出方向。
然而,在母語不同的人之間進行面對面交流時,難以利用單張地圖共 享信息。地圖上所寫的地名常常是單種語言的形式。無法理解該語言的人 就難以理解地圖的內容。因此,為了讓母語不同的兩人都理解地名,優選 將地圖上以一種語言寫出的地名翻譯成另一種語言并給出翻譯的地名。
在JP-A 2005-222316(特開)中披露的會話支持裝置中,翻譯從一個用 戶輸入的語音的語音識別結果,并向會話另一方提供圖示,給出對應于語 音識別結果的響應。結果,會話的另一方能夠利用會話支持裝置上給出的 圖示對該用戶做出響應。
然而,在JP-A 2005-222316(特開)中披露的會話支持裝置中,僅可以支持單向會話。
在進行基于語音的交流時,并不優選涉及到多個操作,例如搜索相關
資料(document)和附圖并指示該裝置翻譯已找到的資料和附圖。優選應當 自動檢索與會話內容有關的適當資料和附圖而不干擾語音交流。應當為具 有不同母語的說話者提供所檢索資料和附圖的翻譯結果,使得所給出的資 料和附圖支持信息的共享。
發明內容
根據本發明的一個方面,提供了一種語音翻譯設備,其包括翻譯方 向指定單元,其指定兩種語言之一作為要被翻譯的第一語言,而另一種語 言作為通過翻譯所述第一語言獲得的第二語言;語音識別單元,其識別所 述第一語言的語音信號并輸出第一語言字符串;第一翻譯單元,其將所述 第一語言字符串翻譯成第二語言字符串;字符串顯示單元,其在顯示裝置 上顯示所述第二語言字符串;關鍵字提取單元,其從所述第一語言字符串 或所述第二語言字符串提取用于資料檢索的關鍵字;資料檢索單元,其利 用所述關鍵字進行資料檢索;第二翻譯單元,在檢索到的資料的語言為所 述第一語言時,所述第二翻譯單元將所述檢索到的資料翻譯成所述第二語 言,在所述檢索到的資料的語言為所述第二語言時,所述第二翻譯單元將 所述檢索到的資料翻譯成所述第一語言,從而獲得經翻譯的資料;以及檢 索資料顯示單元,其在所述顯示裝置上顯示所述檢索到的資料和所述經翻 譯的資料。
圖1是根據本發明第一實施例的語音翻譯設備配置外觀的示意透視圖;
圖2是語音翻譯設備硬件配置的方框圖3是語音翻譯設備總體配置的功能框圖4是顯示范例的正視圖5是顯示范例的正視圖6是按下翻譯切換按鈕時執行的過程的流程圖; 圖7是按下講話輸入按鈕時執行的過程的流程圖;圖8是針對語音輸入開始事件執行的過程的流程圖; 圖9是針對語音識別結果輸出事件執行的過程的流程圖; 圖IO是對英文文本執行的關鍵字提取過程的流程圖; 圖11是對日文文本執行的關鍵字提取過程的流程圖12是詞性表范例的示意圖13是話題更改提取過程的流程圖14是按下講話輸出按鈕時執行的過程的流程圖15是針對指向事件執行的過程的流程圖16是針對指向事件執行的過程的流程圖17是按下檢索切換按鈕時執行的過程的流程圖18是顯示范例的正視圖19是根據本發明第二實施例的機器翻譯設備的硬件配置的方框圖20是語音翻譯設備總體配置的功能框圖21是對日文文本執行的關鍵字提取過程的流程圖22是RFID對應表范例的示意圖23是含義類別表范例的示意圖;以及
圖24是位置-地名對應表范例的示意圖。
具體實施例方式
下面參考附圖詳細描述本發明的示范性實施例。在該實施例中,以英 文為第一語言(以英文輸入語音)、日文為第二語言(輸出日文作為翻譯結果) 來描述用于英文和日文間語音翻譯的語音翻譯設備。第一語言和第二語言 是可以酌情互換的。本發明的細節不隨著語言類型而不同。可以在任意語 言之間,例如日文和中文之間以及英文和法文之間采用該語音翻譯。
將參考圖1到圖18描述本發明的第一實施例。圖1是根據本發明第一 實施例的語音翻譯設備1的配置外觀的示意透視圖。如圖1所示,語音翻 譯設備1包括主體外殼2,其是薄而平的外殼。因為主體外殼2薄而平,所 以語音翻譯設備1便于攜帶。此外,因為主體外殼2薄而平,便于攜帶, 所以無論語音翻譯設備1放在哪里都容易使用語音翻譯設備1。
顯示裝置3安裝在主體外殼2上,使顯示表面向外暴露。顯示裝置3由能夠將預定信息顯示為彩色圖像的液晶顯示器(LCD)、有機場致發光(EL) 顯示器等形成。在顯示裝置3的顯示表面上例如層壓電阻膜型觸摸面板4。 由于使顯示裝置3上顯示的按鍵等和觸摸面板4的位置關系同步,因此顯 示裝置3和觸摸面板4能夠提供類似于鍵盤上按鍵的功能。換言之,顯示 裝置3和觸摸面板4構成信息輸入單元。結果,可以使語音翻譯設備l緊 湊小巧。如圖1所示,在語音翻譯設備1的主體外殼2的側表面上提供內 置的麥克風13和揚聲器14。內置麥克風13將第一用戶所講的第一語言轉 換成語音信號。在語音翻譯設備1的主體外殼2的側表面上提供插槽17。 將作為半導體存儲器的存儲介質9(參見圖l)插入該插槽17。
將參考圖2描述諸如上述的語音翻譯設備1的硬件配置。如圖2所示, 該語音翻譯設備1包括中央處理單元(CPU)5、只讀存儲器(R0M)6、隨機存 取存儲器(RAM)7、硬盤驅動器(HDD)8、介質驅動裝置10、通信控制裝置12、 顯示裝置3、觸摸面板4、語音輸入輸出CODEC 15等。CPU5處理信息。ROM 6是只讀存儲器,其中存儲著基本輸入/輸出系統(BIOS)等。RAM 7中以允 許重寫各條數據的方式存儲各條數據。HDD 8充當各種數據庫并在其中存儲 各種程序。介質驅動裝置10使用插入插槽17中的存儲介質9來存儲信息、 向外分布信息并從外部獲取信息。通信控制裝置12經由諸如因特網之類的 網絡11與另一外部計算機通過通信來傳輸信息。操作員使用觸摸面板4向 CPU 5中輸入命令、信息等。語音翻譯設備1利用控制各單元間數據互換的 總線控制器16而工作。CODEC 15將從內置麥克風13輸入的模擬語音數據 轉換成數字語音數據,并向CPU 5輸出轉換后的數字語音數據。CODEC 15 還將來自CPU 5的數字語音數據轉換成模擬語音數據,并將轉換后的模擬 語音數據輸出到揚聲器14。
在諸如上述的語音翻譯設備l中,當用戶打開電源時,CPU 5啟動ROM 6中稱為加載器的程序。CPU 5從HDD 8向RAM 7讀取操作系統(0S)并啟動 0S。 OS是管理計算機的硬件和軟件的程序。諸如上述的OS根據用戶操作啟 動程序、讀取信息并存儲信息。代表性的OS例如為Windows (注冊商標)。 運行于OS上的操作程序被稱為應用程序。應用程序不限于運行于預定OS 上的那些。如下文所述,應用程序可以將一些過程的執行委托給0S。還可 以將該應用程序作為一部分,包括在形成預定應用軟件程序、OS等的一組程序文件中。
這里,語音翻譯設備1在HDD 8中將語音翻譯過程程序作為應用程序 加以存儲。通過這種方式,HDD 8充當著存儲語音翻譯過程程序的存儲介質。
通常,安裝于語音翻譯設備1的HDD 8中的應用程序被存儲于存儲介 質9中。存儲于存儲介質9中的操作程序被安裝在HDD 8中。因此,存儲 介質9也可以是存儲應用程序的存儲介質。此外,例如,可以通過通信控 制裝置12從網絡11下載應用程序并安裝在HDD 8中。
當語音翻譯設備1根據語音翻譯過程程序啟動運行于OS上的語音翻譯 過程程序吋,CPU5執行各種計算過程并集中管理每個單元。在重視實時性 能時,需要進行高速處理。因此,優選提供執行各種計算過程的獨立邏輯 電路(未示出)。
在語音翻譯設備1的CPU 5執行的各種計算過程中,將描述根據第一 實施例的過程。圖3是語音翻譯設備1總體配置的功能框圖。如圖3所示, 根據語音翻譯處理程序,語音翻譯設備1包括語音識別單元101、第一翻譯 單元102、語音合成單元103、關鍵字提取單元104、資料檢索單元105、 第二翻譯單元106、充當字符串顯示單元和檢索資料顯示單元的顯示控制單 元107、輸入控制單元108、話題更改檢測單元109、檢索對象選擇單元110 和控制單元111。
語音識別單元101利用從內置麥克風13和CODEC 15輸入的語音信號 作為輸入產生與語音對應的字符和單詞串。
在為語音翻譯執行的語音識別中,需要使用被稱為大詞匯量連續語音 識別的技術。在大詞匯量連續語音識別中,通常將把未知語音輸入X譯解 成單詞串W的問題表示成檢索使p (W i X)最大化的W的檢索問題的概率過程。 在表示期間,基于貝葉斯法則,公式是針對使P(WlX)最大化的W的檢索問 題,將該檢索問題重新定義為針對使P(XlW)p(W)最大化的檢索問題。在通 過這種統計語音識別進行公式表示時,P(XlW)被稱為聲音模型,p(W)被稱 為語言模型。P(XlW)為條件概率,是對應于單詞串W的一類聲音信號的模 型。P(W)是表示單詞串W出現的頻繁程度的概率。使用了單字組 (imigram)(某一單詞出現的概率)、雙字組(bigram)(某兩個單詞連續出現 的概率)、三字組(trigram)(某三個單詞連續出現的概率)以及更一般的N字組(N-gram)(某N個單詞連續出現的概率)。基于上述公式,大詞匯量連 續語音識別技術已經商用于聽寫軟件。
第一翻譯單元102利用從語音識別單元101輸出的識別結果作為輸入, 將其翻譯成第二語言。第一翻譯單元102對識別用戶所說語音獲得的語音 文本進行機器翻譯。因此,第一翻譯單元102優選執行適于處理口頭語言 的機器翻譯。
在機器翻譯中,將源語言(例如日文)語句轉換成目標語言(例如英文)。 根據翻譯方法,可以將機器翻譯大致分為基于規則的機器翻譯、統計學機 器翻譯和基于范例的機器翻譯。
基于規則的機器翻譯包括語形學分析部分和語法分析部分。基于規則 的機器翻譯是一種根據源語言語句分析句子結構并基于所分析的結構將源 語言語句轉換(變換)成目標語言語法結構的方法。事先登記進行語法分析 和變換所需的處理知識作為規則。翻譯設備在解釋規則的同時執行翻譯過 程。在大多數情況下,被商品化為軟件包程序等的機器翻譯軟件使用的是 以基于規則的方法為基礎的系統。在諸如這樣的基于規則的機器翻譯中, 需要提供大量的規則來實現精確到足夠實際應用的機器翻譯。然而,要人 工創建這些規則會產生很大成本。為了解決這個問題,提出了統計學機器 翻譯。其后,在研究和發展中積極做出了進步。
在統計學機器翻譯中,從源語言到目標語言進行公式化表達以作為概 率模型,將問題公式化為檢索使概率最大化的目標語言語句的過程。大規 模地準備對應的譯文語句(稱為雙語文集(bilingual corpus))。基于該文
集確定翻譯的轉換規則和轉換規則的概率。檢索出采用最高概率的轉換規 則的翻譯結果。目前,正在構建利用基于統計的機器翻譯的原型語音翻譯 系統。
基于范例的機器翻譯以類似于統計學機器翻譯的方式使用源語言和目 標語言的雙語文集。基于范例的機器翻譯是這樣的方法,從文集中檢索出 類似于輸入語句的源語句并給出對應于所檢索源語句的目標語言語句作為 翻譯結果。在基于規則的機器翻譯和統計學機器翻譯中,通過對被翻譯單 詞對的語法分析和統計組合產生翻譯結果。因此,不清楚是否可以獲得源 語言用戶期望的翻譯結果。然而,在基于范例的機器翻譯中,事先提供關于對應譯文的信息。因此,用戶可以通過選擇源語句來獲得正確的翻譯結 果。然而,另一方面,例如,并非可以將所有語句作為范例來提供。因為 針對輸入語句搜索的語句數量隨著范例數量增加而增加,所以用戶從大量 語句選擇適當的語句是不方便的。
語音合成單元103將從第一翻譯單元102輸出的翻譯結果轉換成語音 信號并將語音信號輸出到CODEC 15。用于語音合成的技術已經成熟,用于 語音合成的軟件已經投入市場。由語音合成單元103執行的語音合成過程 可以使用這些已經實現的技術。省略對它們的解釋。
關鍵字提取單元104從語音識別單元101輸出的語音識別結果或從第 一翻譯單元102輸出的翻譯結果提取用于資料檢索的關鍵字。
資料檢索單元105進行文件檢索,從事先存儲于作為存儲單元的HDD 8 上、網絡11上的計算機等上的一組資料中檢索出包括從關鍵字提取單元104 輸出的關鍵字的資料。作為資料檢索單元105檢索對象的資料是沒有例如 超文本標示語言(HTML)和可擴展標示語言(XML)標記的簡單資料、或以HTML 或XML寫成的資料。例如,這些資料存儲在HDD 8中或網絡11上的計算機 上存儲的資料數據庫中或存儲在因特網上。
第二翻譯單元106在資料檢索單元105獲得的多個資料中翻譯作為排 序靠前的檢索結果的至少一個資料。第二翻譯單元106對該資料進行機器 翻譯。第二翻譯單元106對應于要翻譯資料的語言執行從日語到英語的翻 譯和從英語到日語的翻譯(盡管下文描述了詳情,因為檢索對象選擇單元 110設置檢索對象設置,所以語言對應于為檢索對象設置的語言)。
作為資料檢索單元105檢索對象的資料是沒有例如HTML和XML標記的 簡單資料,連貫翻譯作為翻譯對象的資料中的每個語句。翻譯語句取代原 語句,產生翻譯資料。因為是逐句連貫進行翻譯的,所以原資料和翻譯資 料之間的對應關系很清楚。可以通過機器翻譯過程提取要將原語句中的每 個單詞翻譯成翻譯語句中的哪個單詞。因此,可以以單詞為單位使原資料 和翻譯資料相關聯。
另一方面,當資料是以HTML和XML寫成時,僅對資料內除標簽之外的 文本語句進行機器翻譯。作為結果獲得的翻譯結果取代對應于原文本語句 的部分并產生翻譯資料。因此,取代原文本語句的翻譯結果是清楚的。此外,可以通過機器翻譯過程提取要將原語句中的每個單詞翻譯成翻譯語句 中的哪個單詞。因此,可以以單詞為單位使原資料和翻譯資料之間的相關 性相關聯。
顯示控制單元107在顯示裝置3上顯示從語音識別單元101輸出的識 別結果、從第一翻譯單元102輸出的翻譯結果、從第二翻譯單元106獲得 的翻譯資料以及作為翻譯對象的原資料。
輸入控制單元108控制觸摸面板4。在觸摸面板4中輸入信息,例如以 表示顯示裝置3上顯示的翻譯資料和作為翻譯對象的原資料中進行了繪制 或高亮顯示的任意部分。
話題更改檢測單元109基于從語音識別單元101輸出的語音識別結果 或顯示裝置3上顯示的內容檢測會話主題的改變。
檢索對象選擇單元110設置關鍵字提取單元104的提取對象。更具體 而言,檢索對象選擇單元110將關鍵字提取單元104的提取對象設置到從 語音識別單元101輸出的語音識別結果或從第一翻譯單元102輸出的翻譯 結果。
控制單元111控制著由每個上述單元執行的過程。
在此,為了便于理解,參考圖4和圖5解釋由顯示控制單元107控制 的顯示裝置3的顯示范例。圖4和圖5示出了不同時間點的顯示裝置3的 顯示范例。
在圖4和圖5中,講話輸入按鈕201指示通過內置麥克風13和CODEC 15 執行的語音輸入進程的開始和結束。在按下講話輸入按鈕201時,開始語 音加載。當再次按下講話輸入按鈕201時,結束語音加載。
顯示區A 205顯示從語音識別單元101輸出的語音識別結果。顯示區B 206顯示從第一翻譯單元102輸出的翻譯結果。顯示區C 207顯示從資料檢 索單元105輸出的一個資料。顯示區D 208顯示由第二翻譯單元106對顯 示區C 207中顯示的資料進行機器翻譯得到的結果。
講話輸出按鈕202實現由語音合成單元103將顯示區B 206中顯示的 翻譯結果轉換成語音信號并指示向CODEC 15輸出語音信號的功能。
翻譯切換按鈕203充當翻譯方向指定單元,實現切換第一翻譯單元102 執行的翻譯的翻譯方向的功能(在從英語到日語翻譯和從日語到英語翻譯之間切換)。翻譯切換按鈕203還實現切換由語音識別單元101識別的識別 語言的功能。
檢索切換按鈕204實現啟動檢索對象選擇單元110并在從日文文本提 取關鍵字和從英文文本提取關鍵字之間切換的功能。這是基于以下假設的。 例如,當在日本使用語音翻譯設備1時,假設在對日文文本進行關鍵字提 取并檢索日文資料時更可能檢索到較多的信息。另一方面,當在美國使用 語音翻譯設備1時,假設在對英文文本進行關鍵字提取并檢索英文資料時 更可能檢索到較多的信息。用戶可以利用檢索切換按鈕204選擇檢索對象 的語言。
根據第一實施例,給出檢索切換按鈕204以作為設置檢索對象選擇單 元220的方法。然而,該方法不限于此。例如,可以給出全球定位系統(GPS) 作為除檢索切換按鈕204之外的變化范例。換言之,由GPS獲取在地球上 的當前位置。當確定當前位置為日本時,切換檢索對象,使得對日文文本 進行關鍵字提取。
在圖4中所示的顯示范例中,示出了在第一用戶所講的語言為英語時 執行的操作的圖像。示出了在按下講話輸入按鈕201并講道"Where should I go for sightseeing in Tokyo "之后、第一用戶再次按下講話輸入按 鈕201之后,語音翻譯設備1立即執行的操作結果。換言之,在顯示區A 205 中,顯示從語音識別單元101輸出的語音識別結果"Where should I go for sightseeing in Tokyo "。在顯示區B 206中,顯示從第一翻譯單元102 輸出的對顯示區A 205中顯示的語音識別結果進行翻譯的翻譯結果"東京
乃3観光^^、rj:行mfv、v、"C卞力、?"。在這種情況下,使用翻譯切換按
鈕203將翻譯方向切換到"從英語到日語進行翻譯"。此外,在顯示區C207 中,顯示一個資料,即基于關鍵字提取單元104從語音識別單元101輸出 的語音識別結果或第一翻譯單元102輸出的翻譯結果提取的資料檢索關鍵 字的來自資料檢索單元105的資料檢索結果。在顯示區D 208中,顯示從 第二翻譯單元106輸出的翻譯結果,即顯示區C 207中顯示的資料譯文。 在這種情況下,由檢索切換按鈕204將檢索對象語言切換到"日文"。
在圖5中所示的顯示范例中,示出了一個方面,其中第二用戶用筆210 在圖4中的顯示狀態下在顯示區C 207中所示的檢索到的資料上做出標識并繪示點211。在根據第一實施例的語音翻譯設備l中,如圖5所示,當第 二用戶用筆210在顯示區C207中顯示的檢索資料上做出標識并繪示點211, 即強調圖像(emphasizing image)時,在對應的顯示區D 208中顯示的翻譯 結果上繪示出作為類似強調圖像的點212。
此外,在圖5中所示的顯示范例中,示出了在第二用戶所講的語言為 曰語時執行的操作的圖示。示出了在按下翻譯切換按鈕203將翻譯方向切 換到"從日語到英語進行翻譯"并按下講話輸入按鈕201并講道"淺草0 淺草寺全恕勧fe L玄卞。"之后、第二用戶再次按下講話輸入按鈕201之后, 語音翻譯設備1立即執行的操作結果。換言之,在顯示區A 205中,顯示 從語音識別單元101輸出的語音識別結果"淺草O淺草寺全招勧力L玄 卞。"。在顯示區B 206中,顯示從第一翻譯單元102輸出的對顯示區A205 中顯示的語音識別結果進行翻譯的翻譯結果"I recommend Sensoji temple in Asakusa,,。
接下來,參考流程圖描述由控制單元111執行的各種過程,例如上述 那些過程。
首先,將參考圖6中的流程圖描述按下翻譯切換按鈕203時執行的過 程。如圖6所示,在按下翻譯切換按鈕203時,發出翻譯切換按鈕按下事 件并執行該過程。具體而言,如圖6所示,在英文和日文之間切換由語音 識別單元101識別的語言,并切換第一翻譯單元102的翻譯方向(步驟Sl)。 例如,在執行步驟S1時,語音識別單元101的識別語言為英文,第一翻譯 單元102處于"從英語到日語進行翻譯"的模式,將第一翻譯單元102切 換到輸入日文語音并從日語到英語進行翻譯的模式。或者,在第一翻譯單 元102處于"從日語到英語進行翻譯"的模式時,第一翻譯單元102被切 換到輸入英文語音并從英語到日語進行翻譯的模式。在步驟Sl還針對輸入 語言是英文還是日文對關鍵字提取單元104和第二翻譯單元106的初始設 置進行切換。
接下來,將參考圖7中的流程圖描述按下講話輸入按鈕201時執行的 過程。如圖7所示,在按下講話輸入按鈕201時,發出講話輸入按鈕按下 事件并執行該過程。具體而言,如圖7所示,檢査是從內置麥克風13還是 從CODEC 15加載語音信號(步驟S11)。當語音信號處于加載狀態時,假設完成了語音并發出語音輸入停止事件(步驟S12)。另一方面,在未加載語音 信號時,假設要說出新的語音并發出語音輸入開始事件(步驟S13)。
接下來,將參考圖8中的流程圖描述針對語音輸入開始事件執行的過 程。如圖8所示,發出語音輸入開始事件(參考圖7中的步驟313)并執行該 過程。具體而言,如圖8所示,在復位(reset)RAM 7中形成的語音輸入緩 沖區(步驟S21)之后,由CODEC 15將從內置麥克風13輸入的模擬語音信號 轉換成數字語音信號,并將數字語音信號輸出到語音輸入緩沖區(步驟 S22),直到接收到語音輸入停止事件為止(步驟S23處的是)。在完成語音 輸入時(步驟S23處的是),操作語音識別單元101并利用語音輸入緩沖區 作為輸入執行語音識別過程(步驟S24)。在顯示區A 205中顯示步驟在S24 處獲得的語音識別結果(步驟S25),并發出語音識別結果輸出事件(步驟 S26)。
接下來,將參考圖9中的流程圖描述針對語音識別結果輸出事件執行 的過程。如圖9所示,發出語音識別結果輸出事件(參考圖8中的步驟S26) 并執行該過程。具體而言,如圖9所示,利用顯示區A 205中顯示的字符 串作為輸入來操作第一翻譯單元102 (步驟S31)。當顯示區A 205中顯示的 字符串為英文時,從英語到日語進行翻譯。另一方面,當字符串為日文時, 進行從日語到英語的翻譯。接下來,在顯示區B 206中顯示在步驟S31處 獲得的翻譯結果(步驟S32),并發出語音輸出開始事件(步驟S33)。接下來, 在步驟S34到步驟S36,根據檢索對象語言是日文還是英文,利用顯示區A 205中顯示的字符串或顯示區B 206中顯示的字符串作為輸入來執行關鍵字 提取單元104。
這里,圖10是關鍵字提取單元104對英文文本執行的過程的流程圖。 圖11是關鍵字提取單元104對日文文本執行的過程的流程圖。如圖10和 圖11所示,不論字符串是英文文本還是日文文本,關鍵字提取單元104都 對輸入字符串進行語形學分析。結果,提取出形成輸入字符串的每個單詞 的詞性。然后,提取出詞性表中登記的單詞作為關鍵字。換言之,圖10中 步驟S51和圖11中步驟S61之間的差異為執行的英文語形學分析還是執行 的日文語形學分析。因為可以通過語形學分析獲得形成輸入文本的每個單 詞的詞性信息,所以在圖10中的步驟S52和圖11中的步驟S53,基于詞性信息參考詞性表提取關鍵字。圖12是在關鍵字提取單元104執行的過程中 參考的詞性表范例。關鍵字提取單元104提取詞性表中注冊到該詞性的單 詞作為關鍵字。例如,如圖10所示,在輸入"Where should I go for sightseeing in Tokyo "時,將"sightseeing"和"Tokyo"提取出來 作為關鍵字。如圖11所示,在輸入"淺草0淺草寺^^勧&L東卞。"時, 提取出"淺草"和"淺草寺"作為關鍵字。
在接下來的步驟S37中,基于關鍵字提取單元104提取的關鍵字,話 題更改檢測單元109檢測在會話期間是否改變了話題。
圖13是話題更改檢測單元109執行的過程的流程圖。如圖13所示, 在確定在顯示區C 207或顯示區D 208中顯示由關鍵字提取單元104提取 的關鍵字時(步驟S71處的否),話題更改檢測單元109判定話題未改變(步 驟S72)。同時,在確定未在顯示區C 207或顯示區D 208中顯示由關鍵字 提取單元104提取的所有關鍵字時(步驟S71處的是),話題更改檢測單元 109判定話題已改變(步驟S73)。
根據第一實施例,通過由關鍵字提取單元104提取的關鍵字來檢測話 題的改變。不過,也可能不利用關鍵字檢測話題的改變。例如,盡管未在 圖4和圖5中示出這一點,但可以提供清除按鈕,以刪除顯示區C 207和 顯示區D 208中的點旁邊所做的繪示。可以通過檢測到清除按鈕的按下來 復位顯示區C 207和顯示區D 208上的點旁邊所做的繪示。然后,話題更 改檢測單元109可以確定話題已經從復位繪示的狀態發生變化。話題更改 檢測單元109可以確定話題未從進行繪示的狀態發生變化。結果,在指出 并繪示顯示區C 207或顯示區D 208的任意部分時,即使在用戶輸入語音 時也不會執行資料檢索,直到隨后按下清除按鈕為止。保持顯示區C 207 和顯示區D 208中所示的資料和翻譯資料、以及繪示信息。可以基于所顯 示的信息條目執行語音交流。
當話題更改檢測單元109如上所述確定話題未改變時(步驟S37處的 否),完成該過程,不在顯示區C 207和顯示區D 208中做出改變。
另一方面,當話題更改檢測單元109確定話題已經改變時(步驟S37處 的是),利用關鍵字提取單元104的輸出作為輸入來執行資料檢索單元 105 (步驟S38)并在顯示區C 207中顯示作為結果獲得的資料(步驟S39)。第二翻譯單元106翻譯顯示區C 207中顯示的資料(步驟S40),并在顯示區 D 208中顯示翻譯結果(步驟S41)。
接下來,將參考圖14中的流程圖描述按下講話輸出按鈕202時(或發 出語音輸出開始事件時)執行的過程。如圖14所示,在按下講話輸出按鈕 202時,發出講話輸出按鈕按下事件并執行該過程。具體而言,如圖14所 示,利用顯示區B 206中顯示的字符串(來自語音識別單元101的識別結果 的翻譯結果)作為輸入來操作語音合成單元103。產生數字語音信號(步驟 S81)。將通過這種方式產生的數字語音信號輸出到CODEC 15(步驟S82)。 CODEC 15將數字語音信號轉換成模擬語音信號并將模擬語音信號作為聲音 從揚聲器14輸出。
接下來,參考圖15中的流程圖描述用戶用筆210在觸摸面板4做標識 時執行的過程。如圖15所示,從輸入控制單元108發出指向事件并執行該 過程。具體而言,如圖15所示,在用戶用筆210在觸摸面板4上做標識時, 確定筆210是否指出了觸摸面板4上顯示區D 208和顯示區C 207的任何 部分(步驟S91和步驟S92)。當在除顯示區D 208和顯示區C 207之外的區 域做出標識時(步驟S91處的否或步驟S92處的否),不采取任何動作完成 該過程。
在標識了顯示區D 208的一部分時(步驟S91處的是),在顯示區D 208 的被標識部分上做出繪示(步驟S93),并類似地在顯示區C 207的對應部分 上做出繪示(步驟S94)。
另一方面,在標識了顯示區C 207的一部分時(步驟S92處的是),在 顯示區C 207的被標識部分上做出繪示(步驟S95),并類似地在顯示區D 208 的對應部分上做出繪示(步驟S96)。
作為上述過程的結果,在由筆210標識出觸摸面板4上顯示區D 208 和顯示區C 207的任何部分時,分別在顯示區C 207中顯示的資料檢索獲 得的原資料和顯示區D 208中顯示的翻譯結果上繪示出類似的部分212(參 見圖5),即強調圖像。
為了在顯示區C 207和顯示區D 208的對應部分上繪示強調圖像,需 要做出每個顯示區中每個位置之間的對應關系。可以通過第二翻譯單元106 執行的過程做出原資料和翻譯資料之間以單詞為單位的對應關系。因此,
17可以使用關于單詞的對應信息。換言之,當在一個顯示區一側標識出單詞 或語句周圍的區域且繪示出強調圖像時,因為另一顯示區一側上的對應單 詞或語句是已知的,所以可以在對應單詞或語句周圍的區域中繪示出強調
圖像。當顯示區C 207和顯示區D 208中顯示的資料為Web資料時,相應 的文本(flat)語句是不同的, 一個是原語句,另一個是翻譯語句。然而, Web資料中包括的標簽、圖像等,包括外觀順序都是相同的。因此,可以通 過使用在圖像、類型、序列和圖像的文件名之前提供的若干標簽來使原資 料中的任意圖像和翻譯資料中的圖像一致地相關聯。利用這種對應關系, 當標識出一個顯示區一側中圖像周圍的區域并做出繪示時,可以在另一顯 示區一側上的對應圖像周圍區域中做出繪示。
當要檢索的資料為Web資料時,該資料是由HTML表達的超級文本。在 HTML資料中,在該資料中嵌入了到另一資料的鏈接信息。用戶依次遵循鏈 接并使用鏈接來顯示相關的資料。這里,圖16是對HTML資料執行的過程 的流程圖。如圖16所示,當用戶用筆210在觸摸面板4上做出標識且被指 區域是鏈接(超級文本)時(步驟S101處的是),在顯示區C 207中顯示該鏈 接處的資料并操作第二翻譯單元106。在顯示區D 208中顯示翻譯結果(步 驟S102)。
將參考圖17中的流程圖描述按下檢索切換按鈕204時執行的過程。如 圖17所示,在按下檢索切換按鈕204時,發出檢索切換按鈕按下事件并執 行該過程。具體而言,如圖17所示,操作檢索對象選擇單元110并設置關 鍵字提取單元104的提取對象(步驟Slll)。更具體而言,將關鍵字提取單 元104的提取對象設置為語音識別單元101輸出的語音識別結果或第一翻 譯單元102輸出的翻譯結果。
根據第一實施例,將語音識別獲取的源語言字符串翻譯成目標語言字 符串并在顯示裝置中顯示目標語言字符串。從源語言字符串或目標語言字 符串提取用于資料檢索的關鍵字。在利用所檢索的關鍵字檢索的資料語言 為源語言時,將該資料翻譯成目標語言。在所檢索的資料語言為目標語言 時,將該資料翻譯成源語言。在顯示裝置上顯示檢索到的資料和從檢索資 料翻譯的資料。結果,在母語不同的用戶之間通過語音交流時,適當地檢 索與會話內容相關的資料并顯示翻譯結果。結果,所提供的資料能夠支持信息共享。通過指定兩種語言,改變翻譯對象語言和翻譯語言,可以支持 雙向會話。結果,可以實現流暢的交流。
根據第一實施例,在顯示區C 207中顯示資料檢索單元105檢索的資 料并在顯示區D 208中顯示翻譯資料。然而,顯示方法不限于此。例如, 如圖18中操作圖像的顯示區301中所示,可以使翻譯信息與原資料中的語 句和單詞相關聯并嵌入到原資料中。
接下來將參考圖19到圖24描述本發明的第二實施例。為與根據上述 第一實施例相同的單元賦予相同的附圖標記。省略對它們的解釋。
根據第二實施例,可以將本發明應用于與在諸如"二0料理^<^^& 材料全使oTV、法卞力、?"之類的場景下出現的對象相關的會話,或涉及 地方的會話,諸如"近< o地下鉄(D駅^y;iT卞力、?"等,其中不能僅 通過從語句提取的關鍵字確定該地方。
圖19是根據本發明第二實施例的語音翻譯設備50的硬件配置的方框 圖。如圖19所示,除了根據第一實施例所述的語音翻譯設備1的配置之外, 該語音翻譯設備50包括射頻標識(RFID)讀取單元51(即無線標記讀取器) 和位置檢測單元52。通過總線控制器16將RFID讀取單元51和位置檢測單 元52連接到CPU 5。
RFID讀取單元51讀取RFID標記,即附著于餐館提供的盤子、商店銷 售的產品等上的無線標記。
位置檢測單元52 —般是檢測當前位置的GPS。
圖20是語音翻譯設備50總體配置的功能框圖。如圖20所示,除了語 音識別單元101之外,該語音翻譯設備50包括第一翻譯單元102、語音合 成單元103、關鍵字提取單元104、資料檢索單元105、第二翻譯單元106、 顯示控制單元107、輸入控制單元108、話題更改檢測單元109、檢索對象 選擇單元110、控制單元111、 RFID讀取控制單元112和位置檢測控制單元 113。
RFID讀取控制單元將RFID讀取單元51讀取的RFID標記上存儲的信息 輸出到控制單元lll。
位置檢測控制單元113將位置檢測單元52檢測的位置信息輸出到控制 單元lll。在語音翻譯設備50中,關鍵字提取過程與根據第一實施例的語音翻譯 設備l的過程不同。因此將介紹該過程。圖21是對日文文本執行的關鍵字 提取過程的流程圖。這里,將描述對日文文本進行的關鍵字提取過程。然 而,也可以對英文文本等執行關鍵字提取過程。如圖21所示,關鍵字提取 單元104首先對輸入字符串進行日文語形學分析(步驟S121)。結果,提取 出輸入字符串中的每個單詞的詞性。接下來,確定在所提取的單詞之間是 否有表示說話者附近對象的標識詞(鄰近性標識詞),例如和"二 (D"(步驟S122)。
當確定包括"二f或時(步驟S122處的是),RFID讀取控制 單元112控制RFID讀取單元51并讀取RFID標記(步驟S123) 。 RFID讀取 控制單元112參照RFID對應表。如果找到了對應于所讀RFID標記上存儲 的信息的產品名稱,就增加該產品名稱作為關鍵字輸出(步驟S124)。例如, 如圖22所示,RFID標記上存儲的信息(這里為產品ID)和產品名稱被關聯, 并將該關聯存儲在RFID對應表中。
接下來,關鍵字提取單元104提取詞性表中登記的單詞(參見圖12)作 為關鍵字(步驟S125)。
另一方面,確定不包括或"二。"(步驟S122處的否),執行 步驟S125的過程,而不讀取RFID標記上的信息。然后執行關鍵字提取。
在接下來的步驟S126到步驟S130執行的過程為重復過程,處理在步 驟S125提取的所有關鍵字。具體而言,確定關鍵字是否為專有名詞(步驟 S126)。當該關鍵字不是專有名詞時(步驟S126處的否),參考含義類別表 并將含義類別添加到關鍵字(步驟S127)。例如,如圖23所示,單詞和表示
該單詞含義或類別的含義類別被關聯起來并將該關聯存儲在含義類別表 中。
這里,當含義類別為"場所"時,或者換言之,當該單詞是表示地方 的普通名詞時(步驟S128處的是),位置檢測控制單元113控制位置檢測單 元52并獲取經度和緯度(步驟S129)。位置檢測控制單元113參照位置-地 名對應表并確定最接近的地名(步驟S130)。例如,如圖24所示,地名與經 緯度相關聯,且該關聯被存儲在位置-地名對應表中。
作為關鍵字提取過程的結果,在利用鄰近性標識詞,即"二0"的語音中,例如在"二0料理fi^f/u&材料^使o"CV、法t力、?"中,因為RFID 標記附著于餐館提供的盤子等且RFID標記附著于商店銷售的產品上,所以 在進行與盤子或產品相關的會話時,可以基于RFID標記上存儲的信息利用 關鍵字進行相關資料的更優選的檢索。此外,當會話涉及一個地方時,例 如"近〈0地下鉄0駅^:^二"C卞力、?",僅使用關鍵字"subway"和 "station"無法檢索到適當的資料。然而,通過檢測用戶位置并使用該位 置附近的地名,可以檢索到更適當的資料。
如上所述,根據每一實施例的語音翻譯設備都適于流暢的交流,這是 因為,在以不同語言為其母語的人之間會話時,可以用每種母語顯示適當 的相關資料并將其用作基于語音的會話的補充信息。
權利要求
1、一種語音翻譯設備,其包括翻譯方向指定單元,其指定兩種語言之一作為要被翻譯的第一語言,而另一種語言作為通過翻譯所述第一語言獲得的第二語言;語音識別單元,其識別所述第一語言的語音信號并輸出第一語言字符串;第一翻譯單元,其將所述第一語言字符串翻譯成第二語言字符串;字符串顯示單元,其在顯示裝置上顯示所述第二語言字符串;關鍵字提取單元,其從所述第一語言字符串或所述第二語言字符串提取用于資料檢索的關鍵字;資料檢索單元,其利用所述關鍵字進行資料檢索;第二翻譯單元,在檢索到的資料的語言為所述第一語言時,所述第二翻譯單元將所檢索到的資料翻譯成所述第二語言,在所檢索到的資料的語言為所述第二語言時,所述第二翻譯單元將所檢索到的資料翻譯成所述第一語言,從而獲得經翻譯的資料;以及檢索資料顯示單元,其在所述顯示裝置上顯示所檢索到的資料和所述經翻譯的資料。
2、 根據權利要求1所述的語音翻譯設備,還包括檢索選擇單元,其選擇所述第一語言字符串或所述第二語言字符串作 為用于所述資料檢索的對象,其中所述關鍵字提取單元從由所述檢索選擇單元選擇的作為用于所述資料 檢索的對象的所述第一語言字符串或所述第二語言字符串提取所述關鍵 字。
3、 根據權利要求1所述的語音翻譯設備,其中 所述關鍵字是預定詞性的單詞。
4、 根據權利要求1所述的語音翻譯設備,其中所述檢索資料顯示單元將所述經翻譯的資料嵌入到所檢索到的資料中。
5、 根據權利要求1所述的語音翻譯設備,還包括輸入控制單元,其接收所述顯示裝置上顯示的所檢索到的資料和所述 經翻譯的資料中任一個的位置的輸入,其中所述檢索資料顯示單元在所檢索到的資料和所述經翻譯的資料兩者上 對應于所述位置顯示強調圖像。
6、 根據權利要求l所述的語音翻譯設備,還包括輸入控制單元,其接收所述顯示裝置上顯示的所檢索到的資料和所述 經翻譯的資料中任一個的位置的輸入,其中當在所述位置設置有鏈接時,所述檢索資料顯示單元顯示所述鏈接的 資料。
7、 根據權利要求l所述的語音翻譯設備,還包括-話題更改檢測單元,其檢測會話話題的改變,其中在所述話題更改檢測單元檢測到所述話題的改變時,所述資料檢索單 元檢索包括由所述關鍵字提取單元提取的關鍵字的資料。
8、 根據權利要求7所述的語音翻譯設備,其中所述檢索資料顯示單元還在所述顯示裝置上顯示由所述關鍵字提取單 元提取的關鍵字,以及在未顯示由所述關鍵字提取單元提取的關鍵字時,所述話題更改檢測 單元確定所述話題已經改變。
9、 根據權利要求7所述的語音翻譯設備,還包括輸入控制單元,其接收所述顯示裝置上顯示的所檢索到的資料和所述 經翻譯的資料中任一個的位置的輸入,其中所述檢索資料顯示單元在所檢索到的資料和所述經翻譯的資料兩者上對應于所述位置顯示強調圖像,以及在復位所述強調圖像時,所述話題更改檢測單元確定所述話題已經改變。
10、 根據權利要求1所述的語音翻譯設備,還包括 位置檢測單元,其檢測用戶的當前位置,其中當所提取的關鍵字是表示地方的普通名詞時,所述關鍵字提取單元從 所述位置檢測單元獲取所述當前位置并提取所述當前位置的地名作為所述 關鍵字。
11、 根據權利要求1所述的語音翻譯設備,還包括 無線標記讀取單元,其讀取無線標記,其中當所提取的關鍵字是指示鄰近對象的指示詞時,所述關鍵字提取單元 從所述無線標記讀取單元獲取所述無線標記中存儲的信息并提取對應于所 獲取的信息的名詞作為所述關鍵字。
全文摘要
本發明涉及語音翻譯設備。翻譯方向指定單元指定第一語言和第二語言。語音識別單元識別所述第一語言的語音信號并輸出第一語言字符串。第一翻譯單元將第一語言字符串翻譯成將在顯示裝置上顯示的第二語言字符串。關鍵字提取單元從所述第一語言字符串或所述第二語言字符串提取用于資料檢索的關鍵字,資料檢索單元利用該關鍵字進行資料檢索。第二翻譯單元將檢索到的資料翻譯成其相對的將在顯示裝置上顯示的語言。
文檔編號G06F17/30GK101520780SQ20091012661
公開日2009年9月2日 申請日期2009年2月27日 優先權日2008年2月29日
發明者上野晃嗣, 住田一男, 知野哲朗, 釜谷聰史 申請人:株式會社東芝