語用機器翻譯方法
【技術領域】
[0001]本發明涉及機器翻譯技術,是語用翻譯方法在機器翻譯中的具體應用。可用于移動終端APP自動翻譯、電腦終端自動翻譯、新聞和資料的自動翻譯處理系統、國際電子商務自動語言轉換、旅游服務、教學科研、智能機器人、語音翻譯系統后臺處理等方面。
【背景技術】
[0002]機器翻譯就是應用計算機將一種語言自動翻譯成另一種語言的復雜合成系統。目前幾乎所有最先進的機器翻譯系統都是基于統計的機器翻譯系統,通過對大量實例的雙語語料庫對齊概率統計,運用各種不同的算法降低誤差率,以期得到滿意的翻譯結果。
[0003]統計機器翻譯歷經十余年的發展并沒有突破性的進展,某種算法的推出對翻譯質量盡管也有一定的積極意義,但很多情況下都是有限的、局部的、不完全的測試結果。
[0004]很多專家認為,語言學模型的引導是機器翻譯所不可或缺的,有些統計機器翻譯系統試圖開始加入語法規則來改善翻譯質量,但往往是一種規則的運用會對另外一種規則產生負面影響,綜合效用并不理想。
[0005]運用語義方法進行機器翻譯的研究雖然取得了一定進展,但依然無法很好地融合在應用中。
[0006]目前,基于統計機器翻譯的詞語對齊的準確率比較高,相對于翻譯結果的個別詞語不準確的現象,混亂的詞語排列順序一直是統計機器翻譯所要亟需解決的難題。
【發明內容】
[0007]語用機器翻譯方法集成了統計機器翻譯的最前沿技術和語用學翻譯理念,從詞語、句法、語法和篇章層面上進行深層語言學分析和結構邏輯處理,可以有效解決機器翻譯中目標語結果的順序混亂問題。語用的方法按照語言的線性結構來切分語言結構,遵循語用學的只要是現實當中使用的語言就是正確的這個原則來行事。
[0008]本發明的具體翻譯方法如下:
1、信息接收窗口接收源語言信息。將源語言信息導入源語言預處理模塊。
[0009]2、源語言預處理模塊對源語言進行格式預處理,使之符合規范的源語言格式。將處理后的標準格式源語言導入翻譯引導模塊。
[0010]3、翻譯引導模塊將源語言初步切分成句子。先引入標點符號庫和語言特殊標記庫,以符合自然語用規則的句號、問號、感嘆號、分號、空行等作為切分依據。將源語言初步切分成為單句,順序導入翻譯主模塊。
[0011 ] 4、翻譯主模塊對句子進行翻譯處理。
[0012](I)首先,主模塊調入各種子模塊,如語言切分程序包、詞性標記程序包、基本語料庫、基本詞典庫、固定詞語庫、語用知識庫、短語表等語言庫。然后導入字符串標記處理模塊。
[0013](2)字符串標記處理模塊對字符串進行初步分析,確定原句的時間、地點、人物等事件信息,并標注。將標注信息傳遞給句子切分模塊。
[0014](3)句子切分模塊根據句子的關聯信息對單句進行再切分。切分方法有兩個核心點。一個是按照原文的線性排列進行切分,完全不同于目前流行的喬姆斯基的NP/VP語言結構樹劃分的方式;再就是通過設置多個語言子庫,與原文進行交叉定位并提取關聯信息,以此為依據對原文進行切分。切分的依據是動態變化的,可以適應千變萬化的語言結構。一個句子中的切分依據在另一個句子中可能就不是切分依據。最后將句子切分成幾個子句。然后導入排序模塊。
[0015](4)排序模塊對子句進行重新排序。根據切分依據的不同對子句進行重排序。將排序結果導入到翻譯對齊模塊。
[0016](5)翻譯對齊模塊將重排序結果進行目標語對齊。根據子句的不同類型從基本語料庫、基本詞典庫、固定詞語庫、語用知識庫、短語表等語言庫調用不同的對齊詞語。然后導入目標語規范模塊。
[0017]5、目標語規范模塊預先調入目標語使用規則庫,根據目標語的表達規范將對齊的結果進行規范化處理,最后得到符合目標語言表達習慣的翻譯結果。然后導入結果輸出窗□。
[0018]6、結果輸出窗口將結果輸出到應用終立而。
[0019]上述所說語用和語用翻譯的概念指的是:語用研究所側重的對語言表達的所處環境及產生話語的原因和結果的分析,語用學的各個領域包括如指示語、預設、語言禮貌、會話含意、關聯理論、話語連貫、言語行為理論、會話分析、認知語用、順應論等。語用翻譯側重于通過語用的方法分析源語言并對源語言進行精確理解,進而將源語言所要表達的意義完整準確地轉換成符合目的語的表達習慣的規范的目的語。
[0020]上述(4)中的排序模塊通過分析源語言句子的每個細小單元之間的關聯關系將句子重新組合成目標語言的關聯關系,并且這種關聯關系是可以計算的。關聯關系根據源語言細小單元之間的時間、空間、人物、事件以及相互之間的邏輯關系進行判斷,每個細小單元的重新組合根據目標語的時間、空間、人物、事件以及相互之間的邏輯關系進行排序。
[0021]上述5中的目標語規范模塊是將上述(4)中重新組合后的源語言單元經過上述
(5)的翻譯處理后,再進行目標語的二次處理,二次處理主要解決語言的平順度問題,通過增減非實質意義詞匯的方法來達到目標語的表達規范。
[0022]本發明的翻譯系統包括信息接收窗口、源語言預處理模塊、翻譯引導模塊、翻譯主模塊、各種子模塊(如語言切分程序包、詞性標記程序包、基本語料庫、基本詞典庫、固定詞語庫、語用知識庫、短語表等語言庫)、字符串標記處理模塊、句子切分模塊、排序模塊、翻譯對齊模塊、目標語規范模塊、結果輸出窗口等模塊。
[0023]本發明全部為自動程序處理,不需經過人為再加工。經過本翻譯方法處理的翻譯輸出結果符合目標語使用規范,邏輯結構清晰,具有較好的可讀性,對非格式化語言的復雜結構句子的全自動翻譯效果已經明顯超過目前最好的其他的自動翻譯系統。
【附圖說明】
[0024]附圖為本發明語用機器翻譯方法流程圖。
【具體實施方式】
[0025]下面結合附圖,詳細說明本發明的具體翻譯方法:
本發明可以應用于各種客戶端,在客戶端(如移動終端APP自動翻譯、電腦終端自動翻譯、新聞和資料的自動翻譯處理系統、國際電子商務自動語言轉換、旅游服務、教學科研、智能機器人、語音翻譯系統等)界面輸入源語言。
[0026]信息接收窗口接收源語言信息。將源語言信息導入源語言預處理模塊。
[0027]如圖所示,源語言預處理模塊對源語言進行格式預處理,使之符合規范的源語言格式。對全角和半角符號、非源語言格式的標點符號、各種非標準代碼、非源語言語言、非源語言的其他格式等進行處理。將處理后的標準格式源語言導入翻譯引導模塊。
[0028]翻譯引導模塊將源語言初步切分成句子。先引入標點符號庫和語言特殊標記庫,以符合自然語用規則的句號、問號、感嘆號、分號、空行等作為切分依據。將源語言初步切分成為單句,順序導入翻譯主模塊。
[0029]翻譯主模塊對句子進行翻譯處理。首先,主模塊調入各種子模塊,如語言切分程序包、詞性標記程序包、基本語料庫、基本詞典庫、固定詞語庫、語用知識庫、短語表等語言庫。然后導入字符串標記處理模塊。
[0030]字符串標記處理模塊對字符串進行初步分析,確定原句的時間、地點、人物等事件信息,并標注。將標注信息傳遞給句子切分模塊。
[0031]句子切分模塊根據句子的關聯信息對單句進行再切分。切分方法有兩個核心點。一個是根據原文的線性排列進行切分,完全不同于目前流行的喬姆斯基的NP/VP語言結構樹劃分的方式;再就是通過設置多個語言子庫,與原文進行交叉定位并提取關聯信息,以此為依據對原文進行切分。
[0032]切分的依據是動態變化的,可以適應千變萬化的語言結構。一個句子中的切分依據在另一個句子中可能就不是切分依據。最后將句子切分成幾個子句。然后導入排序模塊。
[0033]例如下面的英文句