機器翻譯裝置和機器翻譯方法
【技術領域】
[0001]在此描述的實施例一般地涉及機器翻譯裝置和相關方法。
【背景技術】
[0002]近年來,開發了用于口語的自然語言處理。例如,用于使用個人數字助理翻譯旅行會話的機器翻譯技術是一個不斷發展的領域。旅行會話中的句子和用戶之間的對話通常很短。當完整地輸入每個句子并且執行機器翻譯處理時,在用戶之間的意圖交流的準確性方面幾乎沒有難度。
[0003]另一方面,具有口語的另一種表達,被稱為獨白,例如演講報告或簡介會。在獨白中,一個說話者說出至少一段,該段具有涉及單個主題的數個句子。當獨白經受機器翻譯處理時,在說話者完全說出該段之前,段中的每個句子需要逐步經受機器翻譯處理。逐步執行機器翻譯處理實現說話者對聽眾進行意圖傳達的高準確性。這種機器翻譯處理被稱為“漸進翻譯”或“同步翻譯”。
[0004]同步翻譯連續地輸入話語作為源語言文本,將源語言文本分割成要適當地處理的單位,并且將這些單位翻譯成目標語言。但是,口語不同于書面語(例如,校對者編輯的報紙文章和用戶手冊),并且口語沒有指示分割句子和從句的標點符號。因此,在口語中難以適當地分割句子和從句。
[0005]為了解決上面的困難,第2007-18098號日本公開披露了由停頓(其間說話者停止說話的很短時間)和執行的形態分析來分割源語言文本,并且由預定模式修正分割位置以便將獨白分割成待處理單位。
[0006]但是,僅漸進翻譯各單位不會變換句子結構并且因此生成的機器翻譯結果實現說話者對聽眾進行意圖傳達的低準確性。
[0007]例如,考慮以下情況:對話語進行語音識別處理,并且輸入源語言文本(日語文本)“77° y ?更新?:八'夕'?修正汾遅札τ來週(乙* 9分析該日語文本以便分割三個待處理單位(三個從句)“77° y ?更新?: //八'夕'?修正汾遅札
τ、//來週cm “//”在此表示待處理單位的分割位置。漸進地翻譯各單位可以獲得采用英語的機器翻譯結果“an update of applicat1n(應用的更新)//because abug fixing is late (因為錯誤修復較晚)//it will be next week (它將在下周)”。但是,結果在以下方面模糊不清:單詞“it(它)”表示“an update of applicat1n( 77° 'J?更新)”還是“a bug fixing(/《夕'?修正)”,并且然后結果在意圖交流方面有麻煩。
【發明內容】
[0008]各實施例提供機器翻譯裝置和相關方法,所述裝置和方法能夠針對連續輸入的源語言文本檢測待處理單位,并且基于所述待處理單位的順序信息,控制每個所述待處理單位的翻譯結果的序列順序。
[0009]根據一個實施例,一種機器翻譯裝置包括:語音識別部,其接收源語言的語音輸入,識別所述源語言的所述語音輸入并且生成所述源語言的文本,所述源語言的所述語音輸入是按次序的輸入,所述源語言的所述文本是語音識別的結果和分析信息;分割部,其基于所述分析信息,判定待處理單位的分割位置和翻譯順序信息,所述待處理單位是語義單位,每個所述語義單位表示所述源語言的所述文本的部分含義;機器翻譯部,其將所述待處理單位按次序翻譯成目標語言;翻譯控制部,其基于所述翻譯順序信息排列翻譯后的單位,并且生成所述目標語言的文本;以及輸出部,其輸出所述目標語言的所述文本。
[0010]根據各實施例,能夠提供一種機器翻譯裝置和相關方法,所述裝置和方法能夠使操作盡可能與口語保持同步,以便獲得清晰的翻譯結果,并且實現說話者與聽眾進行意圖傳達和交流的高準確性。
【附圖說明】
[0011]圖1示出一個實施例的完整機器翻譯裝置100 ;
[0012]圖2示出完整分割部102 ;
[0013]圖3示出分析部所分析的結果的一個實例;
[0014]圖4示出訓練集的文本語料庫的一個實例;
[0015]圖5示出翻譯順序判定部204中的判定規則的一個實例;
[0016]圖6示出完整翻譯控制部;
[0017]圖7示出所述實施例的同步機器翻譯處理的操作的流程圖;
[0018]圖8示出在同步機器翻譯處理中控制翻譯順序的第一實例;
[0019]圖9示出在語音輸入具有時間延遲的情況下控制翻譯順序的第二實例;
[0020]圖10示出在語音識別結果具有識別錯誤的情況下控制翻譯順序的第三實例;
[0021]圖11是可以結合在此描述的一個或多個方面實現的實例計算環境的框圖。
【具體實施方式】
[0022](示例性實施例)
[0023]該實施例解釋源語言是日語,并且目標語言是英語。但是機器翻譯的語言對并不限于上面的情況。可以執行任何兩種語言或方言之間的翻譯。
[0024]圖1示出一個實施例的機器翻譯裝置100的完整布置。裝置100包括:語音識別部101,其接收源語言的語音輸入;分割部102 ;翻譯控制部103 ;機器翻譯部104 ;輸出部105,其輸出目標語言的文本;以及修正部106。
[0025]部101接收源語言的語音輸入作為到裝置100的輸入,并且生成(a)源語言的文本作為語音識別結果和(b)指示語音識別結果的置信度的似然。語音識別過程已知為各種常規技術,例如基于隱馬爾可夫模型的方法。因為這些技術已知,所以省略詳細解釋。
[0026]分割部102接收(a)來自部101的源語言的文本和(b)來自部103的過去翻譯的單位的時間信息,并且生成待處理單位。待處理單位包括(a)表示文本的部分含義的文本部分(例如,從句、詞組等)和(b)表示是否可以更改翻譯順序的翻譯順序信息。
[0027]翻譯控制部103從部102接收待處理單位,并且生成目標語言的文本,該文本是由部104翻譯的機器翻譯結果。
[0028]機器翻譯部104從部103接收源語言的文本,使用機器翻譯生成目標語言的文本,并且將目標語言的文本發送到部103。機器翻譯處理已知為各種常規技術,例如基于規則的機器翻譯、基于實例的機器翻譯或統計機器翻譯。因為這些技術已知,所以省略詳細解釋。
[0029]輸出部105輸出由部103生成的目標語言的文本。部105還可以輸出部101識別的源語言的文本和似然。因此,如果似然小于或等于預定閾值,則可以注釋并輸出對應于該似然的源語言的文本的一部分,以便促使用戶修正語音識別結果。要輸出的文本可以從任何輸出設備輸出,這些輸出設備例如包括顯示設備(未示出)、打印機設備(未示出)或語音合成設備(未示出)。這些輸出設備可以改變或同時使用。
[0030]修正部106響應用戶的操作,并且在必要時修正語音識別結果。修正方式可以是諸如鍵盤設備(未示出)、鼠標設備之類的輸入設備,或者使用語音輸入設備的重述操作。此外,從部101接收修正候選者,并且促使用戶選擇一個候選者以便執行修正。
[0031]圖2示出分割部102的完整布置。部102包括:分析部201,其從部101接收源語言的文本;分割位置判定部202 ;存儲部203 ;翻譯順序判定部204 ;以及生成部205。
[0032]分析部201執行源語言的文本的形態分析以便分割詞素單位并且獲得單位的詞性,執行源語言的文本的句法分析以便獲得源語言的文本的從句和/或詞組之間的語法關系,并且然后獲得分析信息。
[0033]圖3示出部201所分析的結果的一個實例。分析部210輸入源語言句子301 “ 77° y ?更新《; /《夕' ?修正汾遅札τ υ ? τ來週(乙旮*9子3 τ才”,分析句子301并且然后輸出分析結果302。分析結果302表示詞素“? 的詞性是連詞,詞組“/《夕'?修正汾遅札是句子301的部分含義(即,從句)并且“狀語從句-原因”作為句法信息。
[0034]分割位置判定部202接收分析結果302,使用存儲部203檢查結果302,并且然后判定句子301的分割位置。
[0035]存儲部203存儲訓練集的文本語料庫構造的判定模型。圖4示出訓練集的文本語料庫的一個實例。訓練集的文本語料庫包括多組訓練集401,它們是具有話語的預定分割位置和時間信息的某些文本。訓練集401將訓練句子“原材料?納品汾遅扎τυ 製品?出荷汾遅札? 9 τ才”分割成第一從句“原材料?納品汾遅札和第二從句“製品?出荷汾遅扎子3Τ才”,并且存儲說出的從句的時間信息。判定模型可以通過以下項構造:諸如條件隨機場之類的機器學習技術,或者人類制定的規則。例如,人類制定的規則包括以下規則:在“ωτ”之前和之后分割作為對應于訓練集401的判定標準。
[0036]翻譯順序判定部204判定翻譯順序信息,該信息表示是否可以更改由部202分割的待處理單位的翻譯順序。圖5示出翻譯順序判定部204中的判定規則的一個實例。判定規則表示源語言(例如,日語)句子的結構和目標語言句子的順序信息(即,采用要翻譯成英語的順序)。
[0037]當第一從句“原材料?納品汾遅扎”是待處理單位和句法信息“狀語從句-原因”時,部204判定要翻譯成目標語言的順序信息是“可后置(Postpose)”。部202還具有以下功能:通過比較當前時間信息(即,部101接收源語言的語音輸入時的時間)和與從部1