專利名稱:翻譯方法及裝置的制作方法
技術領域:
本申請涉及計算機翻譯技術領域,特別涉及一種翻譯方法及裝置。
背景技術:
隨著計算機的快速發展,利用計算機來實現不同語言之間的翻譯技術早已為人所熟知,也稱為自動翻譯,自動翻譯是一種不需要人為參與的翻譯方式,用戶在自動翻譯界面中輸入一段源語言文本后,選擇源語言種類和目標語言種類,翻譯裝置自動將輸入的源語言文本翻譯為目標語言文本,并將翻譯后的目標語言文本提供給用戶,其中翻譯裝置通常采用下述三種翻譯模式第一種翻譯模式,基于翻譯規則的翻譯模式預先設置由源語言到目標語言的翻譯規則和翻譯詞典,將用戶輸入的源語言文本劃分為多個待翻譯的源語言語句,針對每個待翻譯的源語言語句進行分析,確定出將該待翻譯的源語言語句由源語言翻譯為目標語言的翻譯規則,然后基于確定出的翻譯規則,根據預先設置的翻譯詞典,將該待翻譯的源語言語句由源語言翻譯為目標語言,得到目標語言語句,將翻譯后的各個目標語言語句組合為翻譯后的目標語言文本。第二種翻譯模式,基于翻譯實例的翻譯模式預先獲得大量的針對片段的翻譯實例,將用戶輸入的源語言文本劃分為多個待翻譯源語言語句,再將每個待翻譯的源語言語句劃分為多個待翻譯的源語言片段,每個待翻譯的源語言片段包含至少一個短語,查找各個待翻譯的源語言片段的翻譯實例,根據查找到的翻譯實例,將每個待翻譯的源語言片段由源語言翻譯為目標語言,得到各個目標語言片段,然后由各個目標語言片段組合為翻譯后的目標語言語句,再由各個目標語言語句組合為翻譯后的目標語言文本。第三種翻譯模式,基于模型的翻譯模式預先設置翻譯模型和語言模型,翻譯模型描述了由源語言片段翻譯為目標語言片段的概率值,即翻譯模型概率值,語言模型描述了目標語言語句符合語法和使用習慣的概率值,即語言模型概率值。將用戶輸入的源語言文本劃分為多個待翻譯的源語言語句,再將每個待翻譯的源語言語句劃分為多個待翻譯的源語言片段,確定每個待翻譯的源語言片段翻譯為目標語言后的各個目標語言片段以及各個目標語言片段對應的翻譯模型概率值,針對劃分的每個待翻譯的源語言語句,由各個待翻譯的源語言片段的目標語言片段可以組合出多個目標語言語句,針對組合后的每個目標語言語句,翻譯裝置確定該目標語言語句的語言模型概率值,然后將該目標語言語句中的每個目標語言片段的翻譯模型概率值相乘,得到該目標語言語句的翻譯模型概率值,將該目標語言語句的語言模型概率值和翻譯模型概率值相乘,得到該目標語言語句的綜合權重值,將綜合權重值最大的目標語言語句確定為該待翻譯的源語言語句翻譯后的目標語言語句。自動翻譯結束后,用戶可能對自動翻譯結果不滿意,用戶可以對自動翻譯結果進行修改。例如,自動翻譯結果中的某個語句存在語法問題,用戶可以對該語句進行修改。為了便于用戶檢查自動翻譯結果,也可以在例句庫存儲的翻譯例句資源中,查找每個待翻譯的源語言語句的翻譯結果,例句庫存儲的翻譯例句資源包含了各個源語言語句和目標語言語句的對應關系,以及在存儲的用戶詞典中,查找每個待翻譯的源語言單詞的翻譯結果,將查找到的翻譯結果提供給用戶。若用戶對自動翻譯結果中的某個語句進行了修改,則可以根據修改后的語句對例句庫存儲的翻譯例句資源進行更新。現有技術中,若用戶對自動翻譯結果中的某個語句進行了修改,則可以認為該語句在由源語言翻譯為目標語言的自動翻譯過程中存在翻譯錯誤的問題。但是翻譯裝置后續對該語句進行由源語言到目標語言的翻譯過程中,還是會按照原有的方法進行翻譯,因此還是會產生相同的翻譯錯誤問題,這導致自動翻譯的翻譯的正確性較低。
發明內容
本申請實施例提供一種翻譯方法及裝置,用以解決現有技術中存在的自動翻譯的翻譯正確性較低的問題。本申請實施例技術方案如下一種翻譯方法,該方法包括步驟獲得對自動翻譯結果進行修改得到的修改結果; 根據獲得的修改結果,對進行自動翻譯所需的自動翻譯資源進行更新;獲得需進行自動翻譯的源語言文本;根據更新后的自動翻譯資源,將獲得的源語言文本翻譯為目標語言文本。一種翻譯裝置,包括修改結果獲得單元,用于獲得對自動翻譯結果進行修改得到的修改結果;自動翻譯資源更新單元,用于根據修改結果獲得單元獲得的修改結果,對進行自動翻譯所需的自動翻譯資源進行更新;源語言文本獲得單元,用于獲得需進行自動翻譯的源語言文本;翻譯單元,用于根據自動翻譯資源更新單元更新后的自動翻譯資源,將源語言文本獲得單元獲得的源語言文本翻譯為目標語言文本。本申請實施例技術方案中,首先獲得對自動翻譯結果進行修改得到的修改結果, 然后根據獲得的修改結果,對進行自動翻譯所需的自動翻譯資源進行更新,后續獲得需進行自動翻譯的源語言文本后,根據更新后的自動翻譯資源,將獲得的源語言文本翻譯為目標語言文本,由上可見,本申請實施例獲得修改結果后,根據該修改結果對自動翻譯資源進行更新,后續可以根據更新后的自動翻譯資源進行自動翻譯,因此能夠有效地提高自動翻譯的正確性,也能夠減少用戶對自動翻譯結果進行修改時的修改量。當然,本申請實施例的任一方法和產品并不一定需要同時達到以上所述的優點。
圖1為本申請實施例一中,翻譯方法流程示意圖;圖2為本申請實施例二中,翻譯裝置結構示意圖;圖3為本申請實施例二中,自動翻譯資源更新單元結構示意圖;圖4為本申請實施例二中,翻譯單元結構示意圖;圖5為本申請實施例二中,翻譯單元結構示意圖。
具體實施例方式下面結合各個附圖對本申請實施例技術方案的主要實現原理具體實施方式
及其對應能夠達到的有益效果進行詳細地闡述。
實施例一如圖1所示,為本申請實施例一中,翻譯方法流程圖,其具體處理過如下步驟11,獲得對自動翻譯結果進行修改得到的修改結果;用戶在需要進行自動翻譯時,會在自動翻譯界面輸入待翻譯的源語言文本,或是將存儲在本地的源語言文本上傳到翻譯裝置。用戶輸入或上傳完待翻譯的源語言文本后, 可以選擇源語言種類和目標語言種類,例如選擇的源語言為中文,選擇的目標語言為英文, 用戶確認翻譯后,翻譯裝置根據進行自動翻譯所需的自動翻譯資源,將輸入的待翻譯的源語言文本翻譯為目標語言文本,其中翻譯裝置一般先將待翻譯的源語言文本劃分成多個待翻譯的源語言語句,再對每個待翻譯的源語言語句進行自動翻譯,可以但不限于基于翻譯規則、翻譯實例或者模型等翻譯模式進行自動翻譯,然后再將翻譯后的目標語言語句組合成目標語言文本。翻譯裝置可以基于不同的翻譯模式進行自動翻譯,下面分別對基于不同翻譯模式時的自動翻譯過程進行介紹。(一 )基于翻譯規則的翻譯模式進行自動翻譯翻譯規則包括句法規則和語義規貝U,翻譯裝置首先將待翻譯的源語言文本劃分為多個待翻譯的源語言語句,針對每個待翻譯的源語言語句進行分析,確定出將該待翻譯的源語言語句由源語言翻譯為目標語言的句法規則,例如待翻譯的源語言語句為“我愛你”,源語言為中文,目標語言為英文,首先對該待翻譯的源語言語句進行分析,得到該源語言語句的句法結構為“人稱代詞+動詞+人稱代詞”,該句法結構為中文的句法結構,該語句翻譯為英文后的句法結構相應為“人稱代詞+ 動詞+人稱代詞”,和中文的句法結構一樣,翻譯裝置根據翻譯詞典,將每個待翻譯的源語言單詞翻譯為目標語言單詞,然后確定每個目標語言單詞在翻譯后的目標語言語句中的語義規則,例如“我愛你”中的“我”對應的目標語言單詞為“I”或“me”,“我”在該語句中為人稱代詞做作主語,因此根據其語義規則,應翻譯為“I”,翻譯得到的目標語言語句為“I love you”,最后將翻譯出的各目標語言語句組合為翻譯后的目標語言文本。( 二)基于翻譯實例的翻譯模式進行自動翻譯翻譯裝置首先將待翻譯的源語言文本劃分為多個待翻譯的源語言語句,再將每個待翻譯的源語言語句劃分為多個待翻譯的源語言片段,每個待翻譯的源語言片段包含至少一個源語言短語,翻譯裝置預先存儲了大量的翻譯實例,每個翻譯實例均是源語言片段和目標語言片段的對應關系,翻譯裝置查找各個待翻譯的源語言片段的翻譯實例,根據查找到的翻譯實例,將每個待翻譯的源語言片段由源語言翻譯為目標語言,得到各個目標語言片段,然后由各個目標語言片段組合為翻譯后的目標語言語句,再由各個目標語言語句組合為翻譯后的目標語言文本。(三)基于模型的翻譯模式進行自動翻譯模型包括翻譯模型和語言模型,翻譯模型描述了由源語言片段翻譯為目標語言片段的概率值,即翻譯模型概率值,語言模型描述了目標語言語句符合語法和使用習慣的概率值,即語言模型概率值,翻譯裝置首先將待翻譯的源語言文本劃分為多個待翻譯的源語言語句,再將每個待翻譯的源語言語句劃分為多個待翻譯的源語言片段,每個待翻譯的源語言片段包含至少一個源語言短語,確定每個待翻譯的源語言片段翻譯為目標語言后的各個目標語言片段以及各個目標語言片段對應的翻譯模型概率值,例如源語言片段“愛”翻譯為“like”的翻譯模型概率值為0. 4,翻譯為 "love"的翻譯模型概率值為0. 5,翻譯為“affection”的翻譯模型概率值為0. 1,針對劃分的每個待翻譯的源語言語句,由各個待翻譯的源語言片段的目標語言片段可以排列組合出多個目標語言語句,例如待翻譯的源語言語句為“我愛你”,劃分為三個源語言片段分別為 “我”、“愛”和“你”,其中“我”對應的目標語言片段為“ I,,和“me”,“愛”對應的目標語言片段為“like,,、“love,,和"affection", “你”對應的目標語言片段為“you”,因此可以排列組合出36個目標語言語句,針對組合后的每個目標語言語句,翻譯裝置確定該目標語言語句的語言模型概率值,然后將該目標語言語句中的每個目標語言片段的翻譯模型概率值相乘,得到該目標語言語句的翻譯模型概率值,其中語言模型概率值和翻譯模型概率值分別對應相應的權重值,例如,語言模型概率值為X,翻譯模型概率值為Y,語言模型概率值的權重值為A,翻譯模型概率值的權重值為B,則該目標語言語句的綜合權重值的計算方式可以但不限于為下述Al og2X+B Iog2Y然后將綜合權重值最大的目標語言語句確定為該待翻譯的源語言語句翻譯后的目標語言語句。翻譯裝置將自動翻譯得到的自動翻譯結果提供給用戶,用戶在自動翻譯界面就能夠看到自動翻譯結果,用戶可以對自動翻譯結果進行語法、句法等檢查,若檢查到存在問題,則可以對自動翻譯結果進行修改,例如源語言文本為“她的名字是史密斯”,自動翻譯結果為"Sie name is Smith”,用戶檢查到自動翻譯結果中的“Sre”不符合語法規則,應該為 “Her”,因此用戶可以對該自動翻譯結果進行修改。用戶可以但不限于直接將光標移到自動翻譯結果需修改的語句中進行修改。為了便于用戶檢查自動翻譯結果,翻譯裝置可以在用戶確認需要對自動翻譯結果進行修改(例如將光標移到自動翻譯結果需修改的語句中) 后,首先確定用戶需要修改的目標語言語句對應的源語言語句,由翻譯裝置從例句庫中選擇出該源語言語句和對應的目標語言語句提供給用戶,方便用戶根據相似語句的翻譯情況來修改自動翻譯結果。其中,所述例句庫中預先存儲了每個例句的源語言語句與目標語言語句的對應關系,翻譯裝置確定需修改的目標語言語句對應的源語言語句與例句庫中存儲的各源語言語句之間的匹配度,然后選擇出匹配度大于規定閾值的源語言語句,或按照匹配度由高到低的順序排列后,選擇前規定數目個源語言語句和對應的目標語言語句提供給用戶。此外,由于一個源語言單詞可能對應多個目標語言單詞,因此翻譯裝置也可以將需修改的目標語言語句對應的源語言語句中的每個單詞的翻譯情況提供給用戶,以便用戶在多個目標語言單詞中選擇合適的目標語言單詞,翻譯裝置將需修改的目標語言語句對應的源語言語句劃分為多個源語言單詞,針對每個源語言單詞,翻譯裝置在翻譯詞典中查找對應的目標語言單詞,查找到的目標語言單詞可能為多個,翻譯裝置將每個源語言單詞和查找到的對應的目標語言單詞提供給用戶,例如源語言單詞為“愛”,查找到的目標語言單詞包括“love”、“like”、“affeCti0n”,因此翻譯裝置將下述對應關系提供給用戶
權利要求
1.一種翻譯方法,其特征在于,包括獲得對自動翻譯結果進行修改得到的修改結果; 根據獲得的修改結果,對進行自動翻譯所需的自動翻譯資源進行更新; 獲得需進行自動翻譯的源語言文本;根據更新后的自動翻譯資源,將獲得的源語言文本翻譯為目標語言文本。
2.如權利要求1所述的翻譯方法,其特征在于,根據獲得的修改結果,對進行自動翻譯所需的自動翻譯資源進行更新,具體包括確定進行自動翻譯的翻譯模式;根據確定出的翻譯模式,確定進行自動翻譯所需的自動翻譯資源; 根據獲得的修改結果,對確定出的自動翻譯資源進行更新。
3.如權利要求2所述的翻譯方法,其特征在于,根據確定出的翻譯模式,確定進行自動翻譯所需的自動翻譯資源,具體包括若確定出的翻譯模式為基于翻譯規則的翻譯模式,則將翻譯規則和翻譯詞典確定為進行自動翻譯所需的自動翻譯資源;若確定出的翻譯模式為基于翻譯實例的翻譯模式,則將翻譯實例確定為進行自動翻譯所需的自動翻譯資源;若確定出的翻譯模式為基于模型的翻譯模式,則將翻譯模型和語言模型確定為進行自動翻譯所需的自動翻譯資源。
4.如權利要求1所述的翻譯方法,其特征在于,根據更新后的自動翻譯資源,將獲得的源語言文本翻譯為目標語言文本,具體包括按照預設的劃分規則,將獲得的源語言文本劃分為至少一個待翻譯的源語言語句; 針對劃分的每個待翻譯的源語言語句,分別執行在例句庫存儲的翻譯例句資源中,確定各個源語言語句與該待翻譯的源語言語句之間的匹配度;選擇出與該待翻譯的源語言語句之間的匹配度值最大的源語言語句;判斷選擇出的源語言語句與該待翻譯的源語言語句之間的匹配度是否超過規定閾值;若判斷結果為是,則將選擇出的源語言語句在例句庫存儲的翻譯例句資源中對應的目標語言語句確定為該待翻譯的源語言語句由源語言翻譯為目標語言后的目標語言語句;若判斷結果為否,則根據更新后的自動翻譯資源,對該待翻譯的源語言語句進行自動翻譯,將自動翻譯得到的目標語言語句確定為該待翻譯的源語言語句由源語言翻譯為目標語言后的目標語言語句;由翻譯后的各個目標語言語句組合為目標語言文本。
5.如權利要求1所述的翻譯方法,其特征在于,根據更新后的自動翻譯資源,將獲得的源語言文本翻譯為目標語言文本,具體包括按照預設的劃分規則,將獲得的源語言文本劃分為至少一個待翻譯的源語言語句; 針對劃分的每個待翻譯的源語言語句,分別執行根據更新后的自動翻譯資源,對該待翻譯的源語言語句進行自動翻譯;以及在例句庫存儲的翻譯例句資源中,確定各個源語言語句與該待翻譯的源語言語句之間的匹配度;選擇出與該待翻譯的源語言語句之間的匹配度值最大的源語言語句;判斷選擇出的源語言語句與該待翻譯的源語言語句之間的匹配度是否超過規定閾值;若判斷結果為是,則將選擇出的源語言語句在例句庫存儲的翻譯例句資源中對應的目標語言語句確定為該待翻譯的源語言語句由源語言翻譯為目標語言后的目標語言語句;若判斷結果為否,則將自動翻譯得到的目標語言語句確定為該待翻譯的源語言語句由源語言翻譯為目標語言后的目標語言語句;由翻譯后的各個目標語言語句組合為目標語言文本。
6.如權利要求1所述的翻譯方法,其特征在于,還包括根據獲得的修改結果,對例句庫存儲的翻譯例句資源進行更新。
7.如權利要求1所述的翻譯方法,其特征在于,還包括 獲得新增的用戶詞條;根據獲得的用戶詞條,對存儲的用戶詞典進行更新。
8.一種翻譯裝置,其特征在于,包括修改結果獲得單元,用于獲得對自動翻譯結果進行修改得到的修改結果; 自動翻譯資源更新單元,用于根據修改結果獲得單元獲得的修改結果,對進行自動翻譯所需的自動翻譯資源進行更新;源語言文本獲得單元,用于獲得需進行自動翻譯的源語言文本; 翻譯單元,用于根據自動翻譯資源更新單元更新后的自動翻譯資源,將源語言文本獲得單元獲得的源語言文本翻譯為目標語言文本。
9.如權利要求8所述的翻譯裝置,其特征在于,自動翻譯資源更新單元具體包括 翻譯模式確定子單元,用于確定進行自動翻譯的翻譯模式;自動翻譯資源確定子單元,用于根據翻譯模式確定子單元確定出的翻譯模式,確定進行自動翻譯所需的自動翻譯資源;更新子單元,用于根據修改結果獲得單元獲得的修改結果,對自動翻譯資源確定子單元確定出的自動翻譯資源進行更新。
10.如權利要求9所述的翻譯裝置,其特征在于,若翻譯模式確定子單元確定出的翻譯模式為基于翻譯規則的翻譯模式,則自動翻譯資源確定子單元將翻譯規則和翻譯詞典確定為進行自動翻譯所需的自動翻譯資源;若翻譯模式確定子單元確定出的翻譯模式為基于翻譯實例的翻譯模式,則自動翻譯資源確定子單元將翻譯實例確定為進行自動翻譯所需的自動翻譯資源;若翻譯模式確定子單元確定出的翻譯模式為基于模型的翻譯模式,則自動翻譯資源確定子單元將翻譯模型和語言模型確定為進行自動翻譯所需的自動翻譯資源。
11.如權利要求8所述的翻譯裝置,其特征在于,翻譯單元具體包括第一語句劃分子單元,用于按照預設的劃分規則,將源語言文本獲得單元獲得的源語言文本劃分為至少一個待翻譯的源語言語句;第一匹配度確定子單元,用于針對第一語句劃分子單元劃分的每個待翻譯的源語言語句,分別在例句庫存儲的翻譯例句資源中,確定各個源語言語句與該待翻譯的源語言語句之間的匹配度;第一源語言語句選擇子單元,用于針對第一語句劃分子單元劃分的每個待翻譯的源語言語句,分別選擇出與該待翻譯的源語言語句之間的匹配度值最大的源語言語句;第一判斷子單元,用于針對第一語句劃分子單元劃分的每個待翻譯的源語言語句,分別判斷第一源語言語句選擇子單元選擇出的源語言語句與該待翻譯的源語言語句之間的匹配度是否超過規定閾值;第一目標語言語句確定子單元,用于針對第一語句劃分子單元劃分的每個待翻譯的源語言語句,分別在第一判斷子單元的判斷結果為是時,將第一源語言語句選擇子單元選擇出的源語言語句在例句庫存儲的翻譯例句資源中對應的目標語言語句,確定為該待翻譯的源語言語句由源語言翻譯為目標語言后的目標語言語句;第一自動翻譯子單元,用于針對第一語句劃分子單元劃分的每個待翻譯的源語言語句,分別在第一判斷子單元的判斷結果為否時,根據自動翻譯資源更新單元更新后的自動翻譯資源,對該待翻譯的源語言語句進行自動翻譯;第二目標語言語句確定子單元,用于針對第一語句劃分子單元劃分的每個待翻譯的源語言語句,分別將第一自動翻譯子單元進行自動翻譯得到的目標語言語句,確定為該待翻譯的源語言語句由源語言翻譯為目標語言后的目標語言語句;第一目標語言文本組合子單元,用于由翻譯后的各個目標語言語句組合為目標語言文本。
12.如權利要求8所述的翻譯裝置,其特征在于,翻譯單元具體包括 第二語句劃分子單元,用于按照預設的劃分規則,將源語言文本獲得單元獲得的源語言文本劃分為至少一個待翻譯的源語言語句;第二自動翻譯子單元,用于針對第二語句劃分子單元劃分的每個待翻譯的源語言語句,分別根據自動翻譯資源更新單元更新后的自動翻譯資源,對該待翻譯的源語言語句進行自動翻譯;第二匹配度確定子單元,用于針對第二語句劃分子單元劃分的每個待翻譯的源語言語句,分別在例句庫存儲的翻譯例句資源中,確定各個源語言語句與該待翻譯的源語言語句之間的匹配度;第二源語言語句選擇子單元,用于針對第二語句劃分子單元劃分的每個待翻譯的源語言語句,分別選擇出與該待翻譯的源語言語句之間的匹配度值最大的源語言語句;第二判斷子單元,用于針對第二語句劃分子單元劃分的每個待翻譯的源語言語句,分別判斷第二源語言語句選擇子單元選擇出的源語言語句與該待翻譯的源語言語句之間的匹配度是否超過規定閾值;第三目標語言語句確定子單元,用于針對第二語句劃分子單元劃分的每個待翻譯的源語言語句,分別在第二判斷子單元的判斷結果為是時,將第二源語言語句選擇子單元選擇出的源語言語句在例句庫存儲的翻譯例句資源中對應的目標語言語句,確定為該待翻譯的源語言語句由源語言翻譯為目標語言后的目標語言語句;第四目標語言語句確定子單元,用于針對第二語句劃分子單元劃分的每個待翻譯的源語言語句,分別在第二判斷子單元的判斷結果為否時,將第二自動翻譯子單元進行自動翻譯得到的目標語言語句,確定為該待翻譯的源語言語句由源語言翻譯為目標語言后的目標語言語句;第二目標語言文本組合子單元,用于由翻譯后的各個目標語言語句組合為目標語言文本。
13.如權利要求8所述的翻譯裝置,其特征在于,還包括翻譯例句資源更新單元,用于根據修改結果獲得單元獲得的修改結果,對例句庫存儲的翻譯例句資源進行更新。
14.如權利要求8所述的翻譯裝置,其特征在于,還包括 用戶詞條獲得單元,用于獲得新增的用戶詞條;用戶詞典更新單元,用于根據用戶詞條獲得單元獲得的用戶詞條,對存儲的用戶詞典進行更新。
全文摘要
本申請公開了一種翻譯方法及裝置,該方法包括步驟獲得對自動翻譯結果進行修改得到的修改結果;根據獲得的修改結果,對進行自動翻譯所需的自動翻譯資源進行更新;獲得需進行自動翻譯的源語言文本;根據更新后的自動翻譯資源,將獲得的源語言文本翻譯為目標語言文本。采用本申請技術方案,解決了現有技術存在的自動翻譯的翻譯正確性較低的問題。
文檔編號G06F17/28GK102467498SQ20101054867
公開日2012年5月23日 申請日期2010年11月18日 優先權日2010年11月18日
發明者劉濤, 初敏, 唐晶明, 孫健, 胡覃, 郭稷, 馬永亮 申請人:阿里巴巴集團控股有限公司