專利名稱:利用語句結(jié)構(gòu)信息的機器翻譯自動評測系統(tǒng)及實現(xiàn)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種機器翻譯自動評測系統(tǒng),特別涉及一種利用語句結(jié)構(gòu)信息的機器
翻譯自動評測系統(tǒng)及方法。
背景技術(shù):
機器翻譯評測是指對機器翻譯結(jié)果正確與否做出評價。機器翻譯評測技術(shù)對于機器翻譯的發(fā)展起著至關(guān)重要的作用,它不但可以推動機器翻譯系統(tǒng)的市場推廣,并且可以幫助研究者對翻譯系統(tǒng)的關(guān)鍵技術(shù)進(jìn)行研究并改進(jìn)。機器翻譯評測的實現(xiàn)方法有兩種人工評測和自動評測。人工評測主要是通過專家評測打分來實現(xiàn),這種評測方法主觀性比較強,并且非常耗時耗力,而使用自動評測就能夠大大降低評測的成本。隨著近年來機器翻譯技術(shù)的發(fā)展,機器翻譯自動評測技術(shù)得到了越來越多的重視,機器翻譯自動評測系統(tǒng)最基本的目的是對機器翻譯結(jié)果和人工翻譯結(jié)果進(jìn)行比較,便于機器翻譯系統(tǒng)的開發(fā)者對翻譯系統(tǒng)性能進(jìn)行評估,通過自動評測提供給用戶一個詳細(xì)的系統(tǒng)性能參數(shù)。機器翻譯自動評測系統(tǒng)還便于研究人員了解翻譯系統(tǒng)的核心技術(shù),有助于找到提升機器翻譯性能的方法。
現(xiàn)有技術(shù)中的機器翻譯自動評測系統(tǒng)大多數(shù)是基于字詞或短語的共現(xiàn)匹配原理實現(xiàn)的,如BLEU評測方法和美國國家標(biāo)準(zhǔn)與技術(shù)局NIST在BLEU評測標(biāo)準(zhǔn)的基礎(chǔ)上所提出的NIST方法等都是基于字詞或短語的共現(xiàn)匹配原理實現(xiàn)的。具體的說,這種類型的系統(tǒng)對機器翻譯系統(tǒng)的評價都是基于詞匯或者字等表層信息進(jìn)行的,在匹配過程中首先根據(jù)字、詞匯或短語做匹配,然后根據(jù)匹配的情況來評價譯文的質(zhì)量,在這一匹配過程中,并不考慮語言深層結(jié)構(gòu)信息。然而在語言的表達(dá)中,語句結(jié)構(gòu)也是語義表達(dá)的重要方式。忽略語句結(jié)構(gòu)的評測系統(tǒng)由于沒有有效地評價機器翻譯譯文語句結(jié)構(gòu)的合理性,因此常常會出現(xiàn)機器譯文的評測得分較高但是語句結(jié)構(gòu)卻很不合理,不符合人類專家語感的情況;或者,雖然機器譯文結(jié)構(gòu)合理,符合人的語感,但是因為采用了另外的表述方式,字詞匹配度較低,從而獲得較低的評價得分的情況。上述情況都使得現(xiàn)有的評測系統(tǒng)對機器譯文質(zhì)量難以做全面完整的評測,評測所得到的結(jié)果難以符合人的語感,也難以實際反映出譯文的實際質(zhì)量。例如源語言句l :All campaigning and media coverage have to stop at midnightFriday, allowing voters to reflect on their choice before the polls open onSundaymorning. 機器譯文1 :全部參加競選和允許投票者考慮他們的選擇,在投票于星期日早上開始之前,媒介報導(dǎo)必須星期五在午夜停止。 源語言句2 :The motive of the gunman was still unknown.
機器譯文2 :持槍歹徒的動機仍然是未知的。 從上面例子中可以看到,機器譯文1的質(zhì)量是比較差的,并且在句子結(jié)構(gòu)上存在問題,而機器譯文2的翻譯比較準(zhǔn)確。但是如果用現(xiàn)有的機器翻譯評測系統(tǒng)對上面兩個機器譯文進(jìn)行評測的話,我們可以發(fā)現(xiàn),機器譯文l的得分要高于機器譯文2。分析原因是由于機器譯文2采用了不同的表述方法,與四句參考譯文"槍手的動機還不得而知/持槍者的犯罪動機尚不得而知/槍手的動機還不知曉/持槍者的動機尚未查明"相比,從字詞匹配上來講是有區(qū)別的,導(dǎo)致了字詞匹配率很低,所以評價得分也會比較低。但是從人類專家人工評價的角度來看,機器譯文2的質(zhì)量要遠(yuǎn)好于機器譯文1。所以機器翻譯自動評價不能單單通過字詞匹配來獲得結(jié)果,還應(yīng)該對語言的深層信息(如語句結(jié)構(gòu)信息)進(jìn)行理解,并通過這些信息對譯文進(jìn)行評價。 語句結(jié)構(gòu)本身具有表示語義的作用,結(jié)構(gòu)的錯誤在表達(dá)上可能會扭曲原文的內(nèi)容;同樣,正確的結(jié)構(gòu)也能較好反映源語言句子的語義內(nèi)容。另外,語句結(jié)構(gòu)的好壞是影響譯文質(zhì)量的一個重要因素,直接反映了譯文的可讀性。目前利用語言理解深層信息對機器翻譯系統(tǒng)譯文的語句結(jié)構(gòu)進(jìn)行有效評價的評測技術(shù)還不存在,已有評測技術(shù)的結(jié)果并不能對語句結(jié)構(gòu)翻譯的合理性給出有效評價,而機器翻譯的發(fā)展需要自動評測技術(shù)對譯文語句結(jié)構(gòu)的合理性做出有效的評價,以便全面完整地對譯文質(zhì)量進(jìn)行評價。
發(fā)明內(nèi)容
本發(fā)明的目的是為了克服現(xiàn)有機器翻譯自動評測系統(tǒng)與方法沒有利用句子的語義信息,使得對機器譯文的評測不夠合理的缺陷,從而提供了一種更加全面、合理的機器翻譯自動評測方法及系統(tǒng)。 為了實現(xiàn)上述目的,本發(fā)明提供了一種機器翻譯自動評測方法,包括 步驟1)、讀取機器翻譯所得到的機器譯文、所述機器譯文的關(guān)于語句結(jié)構(gòu)的標(biāo)注
信息以及所述機器譯文在被翻譯前所對應(yīng)的源語言句; 步驟2)、根據(jù)所述機器譯文的源語言句,讀取該源語言句的關(guān)于語句結(jié)構(gòu)的標(biāo)注
信息、該源語言句的參考譯文、所述參考譯文的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息; 步驟3)、根據(jù)所述機器譯文的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息分析所述機器譯文的語句
結(jié)構(gòu),根據(jù)所述源語言句的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息分析所述源語言句的語句結(jié)構(gòu),根據(jù)
所述參考譯文的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息分析所述參考譯文的語句結(jié)構(gòu); 步驟4)、比較所述源語言句的語句結(jié)構(gòu)以及所述參考譯文的語句結(jié)構(gòu),計算所述
參考譯文的語句結(jié)構(gòu)的轉(zhuǎn)換情況; 步驟5)、比較所述源語言句的語句結(jié)構(gòu)以及所述機器譯文的語句結(jié)構(gòu),計算所述
機器譯文的語句結(jié)構(gòu)的轉(zhuǎn)換情況,然后將所述參考譯文的語句結(jié)構(gòu)的轉(zhuǎn)換情況與所述機器
譯文的語句結(jié)構(gòu)的轉(zhuǎn)換情況進(jìn)行比較,根據(jù)比較結(jié)果對機器譯文加以評價。 上述技術(shù)方案中,所述的語句結(jié)構(gòu)用句類信息和句式信息表示,所述的關(guān)于語句
結(jié)構(gòu)的標(biāo)注信息用HNC標(biāo)注信息表示;所述的步驟4)包括 步驟4-1)、比較所述源語言句的句類信息以及所述參考譯文的句類信息,計算所述參考譯文的句類轉(zhuǎn)換強度; 步驟4-2)、比較所述源語言句的句式信息以及所述參考譯文的句式信息,計算所述參考譯文的句式轉(zhuǎn)換強度。 上述技術(shù)方案中,所述的步驟4-l)包括 步驟4-1-1)、將所述參考譯文的句類與所述源語言句的句類進(jìn)行對比,在由所述參考譯文所形成的參考譯文組中,當(dāng)一些參考譯文的句類發(fā)生了改變,而另一些沒有發(fā)生改變,則認(rèn)為是句類選擇性轉(zhuǎn)換,標(biāo)記為S_sct ;
步驟4-1-2)、將所述參考譯文的句類與所述源語言句的句類進(jìn)行對比,當(dāng)所述參考譯文組中所有參考譯文的句類都沒有發(fā)生改變,則認(rèn)為是句類零轉(zhuǎn)換,標(biāo)記為N_sct ;
步驟4-1-3)、將所述參考譯文的句類與所述源語言句的句類進(jìn)行對比,當(dāng)所述參考譯文組中所有參考譯文的句類都發(fā)生了改變,則認(rèn)為是句類強制性轉(zhuǎn)換,標(biāo)記為F—sct。
上述技術(shù)方案中,所述的步驟4-2)包括 步驟4-2-1)、將所述參考譯文的句式與所述源語言句的句式進(jìn)行對比,在由所述參考譯文所形成的參考譯文組中,當(dāng)有一些參考譯文的句式發(fā)生了改變,而另一些沒有發(fā)生改變,則認(rèn)為是句式選擇性轉(zhuǎn)換,標(biāo)記為S_sft ; 步驟4-2-2)、將所述參考譯文的句式與所述源語言句的句式進(jìn)行對比,當(dāng)所述參考譯文組中所有參考譯文的句式都沒有發(fā)生改變,則認(rèn)為是句式零轉(zhuǎn)換,標(biāo)記為N_sft ;
步驟4-2-3)、將所述參考譯文的句式與源語言句的句式進(jìn)行對比,當(dāng)所述參考譯文組中所有參考譯文的句式都發(fā)生了改變,則認(rèn)為是句式強制性轉(zhuǎn)換,標(biāo)記為F—sft。
上述技術(shù)方案中,所述的步驟5)包括 步驟5-1)、獲取所述機器譯文的句類信息,然后根據(jù)所述參考譯文的句類轉(zhuǎn)換強
度計算所述機器譯文的句類轉(zhuǎn)換得分,進(jìn)而得到多個機器譯文的句類平均轉(zhuǎn)換得分; 步驟5-2)、獲取所述機器譯文的句式信息,然后根據(jù)所述參考譯文的句式轉(zhuǎn)換強
度計算所述機器譯文的句式轉(zhuǎn)換得分,進(jìn)而得到多個機器譯文的句式平均轉(zhuǎn)換得分; 步驟5-3)、由所述多個機器譯文的句類平均轉(zhuǎn)換得分以及句式平均轉(zhuǎn)換得分計算
相應(yīng)機器翻譯的句類句式聯(lián)合評價得分。 上述技術(shù)方案中,所述的步驟5-l)包括 步驟5-1-1)、獲得參考譯文組Ri中參考答案的個數(shù)lRil,參考答案組Ri中與翻譯系統(tǒng)譯文ti的句類相同的參考答案r的個數(shù)co爐(k" e ;
步驟5-1-2)、獲取機器譯文的句類信息; 步驟5-1-3)、讀取參考譯文的句類轉(zhuǎn)換強度,如果轉(zhuǎn)換強度表明是選擇性轉(zhuǎn)換S_sct,則轉(zhuǎn)步驟5-1-4);如果轉(zhuǎn)換強度表明是零轉(zhuǎn)換N—sct,則轉(zhuǎn)步驟5-1-5);如果轉(zhuǎn)換強度表明是強制性轉(zhuǎn)換F_sct,則轉(zhuǎn)步驟5-1-6); 步驟5-1-4)、對于選擇性轉(zhuǎn)換的轉(zhuǎn)換強度S—sct,根據(jù)下述公式計算出機器譯文的句類轉(zhuǎn)換評價得分 s" —/"/0化}= l + log(l + -
co爐
尺 轉(zhuǎn)步驟5-1-7); 步驟5-1-5)、對于零轉(zhuǎn)換的轉(zhuǎn)換強度N_sct,把機器譯文的句類句式和參考譯文組的句類進(jìn)行對比,然后根據(jù)下述公式計算出機器譯文的句類轉(zhuǎn)換評價得分 — /"X^ }=
尺
1 + log 2 ' 5T」,=^C一i ,. 轉(zhuǎn)步驟5-1-7); 步驟5-1-6)、對于強制性轉(zhuǎn)換的轉(zhuǎn)換強度F—sct,把機器譯文的句類和參考譯文
8組的句類進(jìn)行對比,然后根據(jù)下述公式計算出機器譯文的句類轉(zhuǎn)換評價得分
1
1 + lOg(l +--'/ SC一^ # 7—& € } 轉(zhuǎn)步驟5-1-7); 步驟5-1-7)、對所有機器譯文的句類轉(zhuǎn)換評價得分求平均值,得到句類轉(zhuǎn)換平均評價得分sct」nfo。 上述技術(shù)方案中,所述的步驟5-2)包括 步驟5-2-1)、獲得參考譯文組&中參考答案的個數(shù)I & I ,參考答案組&中與機器譯文ti的句式相同的參考答案r的個數(shù)co"""b—,, ;
步驟5-2-2)、獲取機器譯文的句式信息; 步驟5-2-3)、讀取參考譯文的句式轉(zhuǎn)換強度,如果轉(zhuǎn)換強度表明是選擇性轉(zhuǎn)換S_sft,則執(zhí)行步驟5-2-4);如果轉(zhuǎn)換強度表明是零轉(zhuǎn)換N—sft,則執(zhí)行步驟5-2-5);如果轉(zhuǎn)換強度表明是強制性轉(zhuǎn)換F_sft,則執(zhí)行步驟5-2-6); 步驟5-2-4)、對于選擇性轉(zhuǎn)換的轉(zhuǎn)換強度S—sft,根據(jù)下述公式計算出機器譯文的句式轉(zhuǎn)換評價得分
coww/(k , G《})
祈—l + log(l十-^~~, ,/ S —祈 轉(zhuǎn)步驟5-2-7); 步驟5-2-5)、對于零轉(zhuǎn)換的轉(zhuǎn)換強度N_sft,如果機器譯文進(jìn)行了句式轉(zhuǎn)換,根據(jù)下述公式計算出機器譯文的句式轉(zhuǎn)換評價得分 > / 一/"/0化.}=
l + log(+) 轉(zhuǎn)步驟5-2-7); 步驟5-2-6)、對于強制性轉(zhuǎn)換的轉(zhuǎn)換強度F—sft,根據(jù)下述公式計算出機器譯文
的句式轉(zhuǎn)換評價得分
祈—f"/o化]:
肖^)
l + log(l十-~~L) ^ s/—( ^ s/—s, & s/—f, e 《}
l《l
z/ 祈 轉(zhuǎn)步驟5-2-7); 步驟5-2-7)對所有機器譯文的句式轉(zhuǎn)換評價得分求平均值,得到句式轉(zhuǎn)換平均
9評價得分sft」nfo。 上述技術(shù)方案中,在所述的步驟5-3)中,采用下列公式計算句類句式轉(zhuǎn)換聯(lián)合評價得分scft—info : <formula>formula see original document page 10</formula> 其中,!^。表示發(fā)生句類轉(zhuǎn)換的概率,Psf表示發(fā)生句式轉(zhuǎn)換的概率,sctjnfo表
示句類轉(zhuǎn)換平均評價得分,sft」nfo表示句式轉(zhuǎn)換平均評價得分。 上述技術(shù)方案中,所述13 s。取值為0. 593 ,所述13 sf取值為0. 339 。 本發(fā)明還提供了一種機器翻譯自動評測系統(tǒng),包括待評測數(shù)據(jù)存儲模塊、參考譯
文數(shù)據(jù)庫、參考譯文標(biāo)注數(shù)據(jù)庫、譯文句類句式轉(zhuǎn)換情況獲取模塊、評價打分模塊;其中, 所述的待評測數(shù)據(jù)存儲模塊用于保存機器翻譯所得到的機器譯文、所述機器譯文
的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息; 所述的參考譯文數(shù)據(jù)庫用于保存源語言句以及源語言句的參考譯文; 所述的參考譯文標(biāo)注數(shù)據(jù)庫用于保存所述源語言句的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息
以及所述參考譯文的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息; 所述的譯文句類句式轉(zhuǎn)換情況獲取模塊根據(jù)所述機器譯文的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息分析所述機器譯文的語句結(jié)構(gòu),根據(jù)所述源語言句的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息分析所述源語言句的語句結(jié)構(gòu),根據(jù)所述參考譯文的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息分析所述參考譯文的語句結(jié)構(gòu),然后比較所述源語言句的語句結(jié)構(gòu)以及所述參考譯文的語句結(jié)構(gòu),計算所述參考譯文的語句結(jié)構(gòu)的轉(zhuǎn)換情況; 所述的評價打分模塊比較所述源語言句的語句結(jié)構(gòu)以及所述機器譯文的語句結(jié)構(gòu),計算所述機器譯文的語句結(jié)構(gòu)的轉(zhuǎn)換情況,然后將所述參考譯文的語句結(jié)構(gòu)的轉(zhuǎn)換情況與所述機器譯文的語句結(jié)構(gòu)的轉(zhuǎn)換情況進(jìn)行比較,根據(jù)比較結(jié)果對機器譯文加以評價。
上述技術(shù)方案中,所述參考譯文數(shù)據(jù)庫包括英中參考譯文數(shù)據(jù)庫和中英參考譯文數(shù)據(jù)庫,數(shù)據(jù)庫的格式為(源語言句ID,源語言句,參考譯文1,參考譯文2,……,參考譯文N)。 上述技術(shù)方案中,所述參考譯文標(biāo)注數(shù)據(jù)庫包括英中參考譯文標(biāo)注數(shù)據(jù)庫和中英參考譯文標(biāo)注數(shù)據(jù)庫;該數(shù)據(jù)庫的格式為(源語言句ID,源語言句,源語言句標(biāo)注信息,參考譯文1,參考譯文1標(biāo)注信息,……,參考譯文N,參考譯文N標(biāo)注信息)。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于 1)本發(fā)明突破了傳統(tǒng)機器翻譯自動評測系統(tǒng)和方法一直以來基于字詞匹配的評測原理,利用語義信息對機器譯文進(jìn)行評測,從而切近專家評測的結(jié)果,更加細(xì)致地反映出機器譯文結(jié)果的質(zhì)量; 2)本發(fā)明在HNC(概念層次網(wǎng)絡(luò))自然語言理解框架之下,基于HNC機器翻譯策略,利用句類知識,從句類轉(zhuǎn)換和句式轉(zhuǎn)換入手,針對機器譯文的語句結(jié)構(gòu)質(zhì)量進(jìn)行了有效的評價;很多機器譯文字詞忠實度很高,但是語句結(jié)構(gòu)完全不符合語言習(xí)慣,可讀性很差,而傳統(tǒng)評價得分卻很高,本發(fā)明所涉及的評測方法對于譯文質(zhì)量的評價更加準(zhǔn)確,彌補了傳統(tǒng)評價結(jié)果與語言習(xí)慣相比時有偏差的缺點,克服了傳統(tǒng)評測方法對于譯文語句結(jié)構(gòu)的評價并不有效的缺點,從而使得評測系統(tǒng)對于譯文可讀性的評價更加有效。
圖1表示參考譯文數(shù)據(jù)庫以及參考譯文標(biāo)注數(shù)據(jù)庫的示意圖; 圖2表示本發(fā)明的利用語句結(jié)構(gòu)信息的機器翻譯自動評測方法的流程圖; 圖3表示機器譯文句類轉(zhuǎn)換評價打分流程圖; 圖4表示機器譯文句式轉(zhuǎn)換評價打分流程圖。
具體實施例方式
下面結(jié)合附圖和具體實施方式
對本發(fā)明作進(jìn)一步的詳細(xì)描述。
在對本發(fā)明做詳細(xì)說明之前,首先對本發(fā)明中所涉及的一些概念做簡要說明。
HNC理論概念層次網(wǎng)絡(luò)理論,該理論建立了一種模擬大腦語言感知過程的自然語言表述模式和計算機理解處理模式。在參考文獻(xiàn)l "《HNC(概念層次網(wǎng)絡(luò))理論——計算機理解語言研究的新思路》,黃曾陽著,清華大學(xué)出版社,1998年11月第1版"以及參考文獻(xiàn)2 "《語言概念空間的基本定理和數(shù)學(xué)物理表示式》,黃曾陽著,海洋出版社,2004年7月第1版"中對HNC的詳細(xì)內(nèi)容有具體的說明。 句類HNC中所定義的一種語句結(jié)構(gòu)信息。具體的說,它是指根據(jù)語句中主要概念
團(tuán)塊間的聯(lián)想脈絡(luò)進(jìn)行分類而形成的語句類型體系,即語句的概念類型。 句式HNC中所定義的另一種語句結(jié)構(gòu)信息。具體的說,它是指語句格式,用來表
述語句中主語義塊在句中的出現(xiàn)順序。
源語言句機器翻譯系統(tǒng)翻譯時待翻譯的句子。
機器譯文機器翻譯系統(tǒng)根據(jù)語種要求,對源語言句進(jìn)行翻譯所得的句子。
目標(biāo)語言句、參考譯文表示供評測所用的正確的譯文,是與源語言句相對應(yīng)的概念。
在對上述概念做相關(guān)說明后,下面對本發(fā)明做詳細(xì)說明。 本發(fā)明的機器翻譯自動評測系統(tǒng)包括待評測數(shù)據(jù)存儲模塊、參考譯文數(shù)據(jù)庫、參考譯文標(biāo)注數(shù)據(jù)庫、譯文句類句式轉(zhuǎn)換情況獲取模塊、評價打分模塊。其中,所述的待評測數(shù)據(jù)存儲模塊用于存儲機器翻譯系統(tǒng)所生成的機器翻譯結(jié)果;所述的參考譯文數(shù)據(jù)庫、參考譯文標(biāo)注數(shù)據(jù)庫分別用于存儲參考譯文以及參考譯文標(biāo)注信息;所述的譯文句類句式轉(zhuǎn)換情況獲取模塊用于對機器翻譯系統(tǒng)的翻譯結(jié)果的句類句式轉(zhuǎn)換情況進(jìn)行評價,并獲取相應(yīng)的評價結(jié)果;所述的評價打分模塊根據(jù)句類句式轉(zhuǎn)換情況對機器翻譯結(jié)果做評價打分。在下文中將結(jié)合上述模塊,對本發(fā)明的機器翻譯自動評測系統(tǒng)的相關(guān)方法進(jìn)行說明。
待評測的機器翻譯系統(tǒng)對待翻譯的源語言句進(jìn)行翻譯后,會生成源語言句的機器翻譯結(jié)果。根據(jù)HNC理論的相關(guān)知識,本領(lǐng)域技術(shù)人員為機器翻譯系統(tǒng)所生成的機器翻譯結(jié)果標(biāo)注HNC標(biāo)注信息。在得到前述的機器翻譯結(jié)果以及機器翻譯結(jié)果的HNC標(biāo)注信息后,將這些信息存儲在待評測數(shù)據(jù)存儲模塊中。 一般來說,待翻譯的源語言句與后面所提到的參考譯文之間存在對應(yīng)關(guān)系,即出于評測的需要,機器翻譯系統(tǒng)所翻譯的源語言句在機器翻譯自動評測系統(tǒng)中應(yīng)當(dāng)存在相應(yīng)的參考譯文,以使得所述源語言句的翻譯結(jié)果可以與參考譯文進(jìn)行比較。 機器翻譯自動評測系統(tǒng)的目的在于對機器翻譯系統(tǒng)的翻譯結(jié)果進(jìn)行評測。為了使得機器翻譯系統(tǒng)的翻譯結(jié)果有一個被比較的對象,由參考譯文數(shù)據(jù)庫以及參考譯文標(biāo)注數(shù)據(jù)庫來存儲參考譯文數(shù)據(jù)以及參考譯文標(biāo)注數(shù)據(jù)。具體的說,所述的參考譯文數(shù)據(jù)庫用于存儲源語言句、對源語言句的參考譯文。所述的參考譯文標(biāo)注數(shù)據(jù)庫則用于存放參考譯文的HNC標(biāo)注信息。例如,假設(shè)機器翻譯自動評測系統(tǒng)用于對中英文互譯的機器翻譯系統(tǒng)進(jìn)行評測,則其參考譯文數(shù)據(jù)庫包括英中參考譯文數(shù)據(jù)庫以及中英參考譯文數(shù)據(jù),而參考譯文標(biāo)注數(shù)據(jù)庫也包括英中參考譯文標(biāo)注數(shù)據(jù)庫以及中英參考譯文標(biāo)注數(shù)據(jù)庫。在圖1中給出了上述參考譯文數(shù)據(jù)庫以及參考譯文標(biāo)注數(shù)據(jù)庫的示意圖。對于參考譯文數(shù)據(jù)庫B1而言,該數(shù)據(jù)庫的格式為(源語言句ID,源語言句,參考譯文1,參考譯文2,……,參考譯文N),若為英中參考譯文數(shù)據(jù)庫B11,則源語言句用英文表示,參考譯文用中文表示,相反,若為中英參考譯文數(shù)據(jù)庫B12,則源語言句用中文表示,參考譯文用英文表示。從上述說明也可以看出,對于同一個源語言句,其參考譯文可以有多個,以利于更好地對翻譯結(jié)果進(jìn)行評測。對于參考譯文標(biāo)注數(shù)據(jù)庫B2而言,該數(shù)據(jù)庫的格式為(源語言句ID,源語言句,源語言句標(biāo)注信息,參考譯文1 ,參考譯文1標(biāo)注信息,……,參考譯文N,參考譯文N標(biāo)注信息),類似的,若為英中參考譯文標(biāo)注數(shù)據(jù)庫B21 ,則源語言句用英文表示,參考譯文用中文表示,若為中英參考譯文標(biāo)注數(shù)據(jù)庫B22,則源語言句用中文表示,參考譯文用英文表示。在前文中已經(jīng)提到,參考譯文標(biāo)注信息的具體內(nèi)容可由本領(lǐng)域技術(shù)人員根據(jù)HNC的相關(guān)知識生成,在本發(fā)明中不關(guān)心如何生成參考譯文標(biāo)注信息,而是直接利用已有的參考譯文標(biāo)注信息。
由于源語言句在經(jīng)過機器翻譯系統(tǒng)翻譯后,其包括句類句式在內(nèi)的語句結(jié)構(gòu)信息可能會發(fā)生變化,而翻譯結(jié)果的句類句式信息與參考譯文的句類句式也可能會有所不同,因此需要對翻譯結(jié)果的句類句式轉(zhuǎn)換情況進(jìn)行評價。在評價時,首先根據(jù)翻譯結(jié)果所對應(yīng)的HNC句類標(biāo)注信息分析出機器譯文的句類句式,然后從前面所提到的參考譯文數(shù)據(jù)庫以及參考譯文標(biāo)注數(shù)據(jù)庫中提取出源語言句、參考譯文以及它們所對應(yīng)的HNC標(biāo)注信息,由這些信息可得到源語言句和參考譯文的句類句式,最后就可以將翻譯結(jié)果的句類句式和源語言、參考譯文的句類句式分別加以比較,從而知道翻譯結(jié)果的句類句式與源語言句相比是否有了不同,與參考譯文的句類句式轉(zhuǎn)換情況是否一致。 在本發(fā)明中,對參考譯文的句類句式轉(zhuǎn)換情況用句類轉(zhuǎn)換強度和句式轉(zhuǎn)換強度分別予以說明。其中,對參考譯文的句類轉(zhuǎn)換強度做如下定義 (1)與源語言句的句類進(jìn)行對比,參考譯文組中,有一些參考譯文的句類發(fā)生了改變,而有一些沒有發(fā)生改變,則認(rèn)為是句類選擇性轉(zhuǎn)換,標(biāo)記為S_sct ; (2)與源語言句的句類進(jìn)行對比,參考譯文組中所有參考譯文的句類都沒有發(fā)生改變,則認(rèn)為是句類零轉(zhuǎn)換,標(biāo)記為N_sct ; (3)與源語言句的句類進(jìn)行對比,參考譯文組中所有參考譯文的句類都發(fā)生了改變,則認(rèn)為是句類強制性轉(zhuǎn)換,標(biāo)記為F_sct。
對參考譯文的句式轉(zhuǎn)換強度做如下定義 (1)與源語言句的句式進(jìn)行對比,參考譯文組中,有一些參考譯文的句式發(fā)生了改變,而有一些沒有發(fā)生改變,認(rèn)為是句式選擇性轉(zhuǎn)換,標(biāo)記為S_sft ; (2)與源語言句的句式進(jìn)行對比,參考譯文組中所有參考譯文的句式都沒有發(fā)生改變,認(rèn)為是句式零轉(zhuǎn)換,標(biāo)記為N_sft ; (3)與源語言句的句式進(jìn)行對比,參考譯文組中所有參考譯文的句式都發(fā)生了改
12變,認(rèn)為是句式強制性轉(zhuǎn)換,標(biāo)記為F_sft。 根據(jù)上述定義,可以知道某一參考譯文的句類句式轉(zhuǎn)換情況。例如,一個源語言 句"The People' s Bank of China, the central bank, raised interest rateson March
8.",存在如下標(biāo)注信息
0100] 〈root>
0101] 0102]
=〃 〃
0103] 0104]
0105]
=〃 〃
0106] 0107] 0108]
=〃 〃
0109] 0110]
sc
0
XY40*21J' 〃 role
format ,,,A
red
〈S connect = 〃 〃 〃 〈Ch皿k cat '"""plug="""" >
The People' s Bank of China, the central bank
role format
EK'
red
〈Ch皿k cat = """"plug ,raised
role
XY40
role format
red
〈Ch皿k cat = 〃 """plug="" interest rates
role
YC
role format
red
0112] 0113] 0114] 0115]
〈Ch皿k cat = 〃 〃 〃 plug=' on March 18.
role
Cn
role format
《>
/root〉
0116] 根據(jù)上述標(biāo)注信息知道該源語言句的句類sc是XY4(^21J,句式format是! 0(即 決省);
0117] 通過查找數(shù)據(jù)庫可以知道該源語言句存在以下多個參考譯文。
0118] 參考譯文1 "中國人民銀行這個核心銀行在3月18日提高了利率。"同樣根據(jù)標(biāo)
注信息,句類是XY40*21J,句式是! 0 ; 0119] 參考譯文2"三月18號,中國人民銀行,即央行,提升了銀行利率。"根據(jù)標(biāo)注信息,
句類是XY4(^21J,句式是! 0;
0120] 參考譯文3 "中國的中央銀行-一 中國人民銀行-一三月十八日提高了利率。"根 據(jù)標(biāo)注信息,句類是XY40*21J,句式是! 0 ;
0121] 參考譯文4 "中央銀行,中國人民銀行3月18日提高利率。"根據(jù)標(biāo)注信息,句類 是XY4(^21J,句式是! 0;
0122] 在這個例子中,所有參考譯文的句類都跟源語言句的句類相同(XY4(^21J),所有 參考譯文的句式都跟源語言句的句式相同(! O),所以根據(jù)轉(zhuǎn)換強度定義是句類零轉(zhuǎn)換 N—sct),句式零轉(zhuǎn)換(N_sft)。
0123] 在由譯文句類句式轉(zhuǎn)換情況獲取模塊得到機器翻譯結(jié)果的句類句式轉(zhuǎn)換情況后,進(jìn)一步地由評價打分模塊進(jìn)行評測。評價打分模塊包括對機器翻譯結(jié)果句類轉(zhuǎn)換情況的評 價打分、對機器翻譯結(jié)果句式轉(zhuǎn)換情況的評價打分,并根據(jù)句類轉(zhuǎn)換的分值以及句式轉(zhuǎn)換 的分值計算句類句式轉(zhuǎn)換的綜合分值。如圖3所示,對句類轉(zhuǎn)換情況的評價打分過程包括
步驟11)、獲得參考譯文組&中參考答案的個數(shù)& I ,參考答案組&中與機器譯
文ti的句類相同的參考答案r的個數(shù)c做""b^ e《j); 步驟12)、獲取機器譯文的句類; 步驟13)、讀取參考譯文的句類轉(zhuǎn)換強度,如果轉(zhuǎn)換強度表明是選擇性轉(zhuǎn)換(S_ sct),則轉(zhuǎn)步驟14);如果轉(zhuǎn)換強度表明是零轉(zhuǎn)換(N—sct),則轉(zhuǎn)步驟15);如果轉(zhuǎn)換強度表 明是強制性轉(zhuǎn)換(Fjct),則轉(zhuǎn)步驟16); 步驟14)、對于選擇性轉(zhuǎn)換的轉(zhuǎn)換強度(S_sct),那么對于機器譯文來講句類轉(zhuǎn)換 的評價對最后的得分并沒有太大的影響,權(quán)值可以大于等于1。根據(jù)下述公式計算出機器譯 文的句類轉(zhuǎn)換評價得分 5^一/">仏}= l + log(l +-Y"f-^")' z/ ^一W
一 — (1) 然后轉(zhuǎn)步驟17); 步驟15)、對于零轉(zhuǎn)換的轉(zhuǎn)換強度(N—sct),如果機器譯文進(jìn)行了句類轉(zhuǎn)換,則給 予較低的權(quán)值,即機器譯文所進(jìn)行的轉(zhuǎn)換可能是不合適的,反之如果機器譯文沒有進(jìn)行句 類的轉(zhuǎn)換,則權(quán)值應(yīng)該大于等于1。根據(jù)下述公式計算出機器譯文的句類轉(zhuǎn)換評價得分 W
(2)
l + log2 , 然后轉(zhuǎn)步驟17); 步驟16)、對于強制性轉(zhuǎn)換的轉(zhuǎn)換強度(F_sct),機器譯文的情況可以分為三種, 一是機器譯文沒有進(jìn)行句類轉(zhuǎn)換,那么譯文的句類基本上可以認(rèn)為是錯誤的,給予小于1 的權(quán)值;二是機器譯文進(jìn)行了句類轉(zhuǎn)換,但是轉(zhuǎn)換后的句類類型不在參考譯文的句類類型 之內(nèi),那么譯文的句類有可能是錯誤的,給予小于等于1的權(quán)值;三是機器譯文不僅進(jìn)行了 句類轉(zhuǎn)換,且其句類類型在參考譯文的句類類型之內(nèi),那么譯文句類認(rèn)為是合理的,權(quán)值可
以大于等于1。根據(jù)下述公式計算出機器譯文的句類轉(zhuǎn)換評價得分
5C, jw/0"}=
1 + log(l +--!/* sc一t # (§; sK e {sc—代}
(3) 然后轉(zhuǎn)步驟17); 步驟17)、對所有機器譯文的句類轉(zhuǎn)換評價得分求平均值,得到整個機器翻譯系統(tǒng) 的句類轉(zhuǎn)換平均評價得分sctjnfo。 沿用上面的例子,對于源語言句"The People' s Bank of China, the
14centralbank, raised interest rates on March 18.,,某一機器翻譯系統(tǒng)英譯漢的結(jié)果 (即機器譯文)為"中國人民銀行中國,中央銀行調(diào)高利率,在3月18日。" 根據(jù)此機器譯文的HNC句類標(biāo)注信息,得到其句類是Y40,句式是! 0。 由于此例在上面轉(zhuǎn)換強度判斷時得到的結(jié)論是,參考譯文的句類轉(zhuǎn)換強度表明是
零轉(zhuǎn)換,根據(jù)句類轉(zhuǎn)換評價的打分方法,因此需要采用步驟15)中的公式(2)。由于機器譯
文的句類(Y40)與參考譯文的句類(XY40*21J)是不同的,所以根據(jù)公式計算,得到的句類
轉(zhuǎn)換評價得分是0. 3979,表示此機器譯文的句類是不合理的,得分較低。 如圖4所示,對句式轉(zhuǎn)換情況的評價打分過程包括 步驟21)、獲得參考譯文組Ri中參考答案的個數(shù)lRil,參考答案組Ri中與機器譯 文tj勺語句格式(即句式)相同的參考答案r的個數(shù)cow""bj,ei ,j);
步驟22)、獲取機器譯文的句式; 步驟23)、讀取參考譯文的句類句式轉(zhuǎn)換強度,如果轉(zhuǎn)換強度表明是選擇性轉(zhuǎn)換 (S—sft),則轉(zhuǎn)步驟24);如果轉(zhuǎn)換強度表明是零轉(zhuǎn)換(N—sft),則轉(zhuǎn)步驟25);如果轉(zhuǎn)換強度 表明是強制性轉(zhuǎn)換(F—sft),則轉(zhuǎn)步驟26); 步驟24)、對于選擇性轉(zhuǎn)換的轉(zhuǎn)換強度(S_sft),那么對于機器譯文來講句式轉(zhuǎn)換 的評價對最后的得分并沒有太大的影響,權(quán)值可以大于等于1。根據(jù)下述公式計算出機器譯 文的句式轉(zhuǎn)換評價得分 <formula>formula see original document page 15</formula>
轉(zhuǎn)步驟27); 步驟25)、對于零轉(zhuǎn)換的轉(zhuǎn)換強度(N_sft),如果機器譯文進(jìn)行了句式轉(zhuǎn)換,則給 予較低的權(quán)值,即機器譯文所進(jìn)行的轉(zhuǎn)換可能是不合適的,反之如果機器譯文沒有進(jìn)行句 式的轉(zhuǎn)換,則權(quán)值應(yīng)該大于等于1。根據(jù)下述公式計算出機器譯文的句式轉(zhuǎn)換評價得分<formula>formula see original document page 15</formula> 轉(zhuǎn)步驟27); 步驟26)、對于強制性轉(zhuǎn)換的轉(zhuǎn)換強度(F_sft),機器譯文的情況可以分為三種, 一是機器譯文沒有進(jìn)行句式轉(zhuǎn)換,那么譯文的句式基本上可以認(rèn)為是錯誤的,給予小于1 的權(quán)值;二是機器譯文進(jìn)行了句式轉(zhuǎn)換,但是轉(zhuǎn)換后的句式類型不在參考譯文的句式類型 之內(nèi),那么譯文的句式有可能是錯誤的,給予小于等于1的權(quán)值;三是機器譯文不僅進(jìn)行了 句式轉(zhuǎn)換,且其句式類型在參考譯文的句式類型之內(nèi),那么譯文句式被認(rèn)為是合理的,權(quán)值
可以大于等于1。根據(jù)下述公式計算出機器譯文的句式轉(zhuǎn)換評價得分
轉(zhuǎn)步驟27); 步驟27)對所有機器譯文的句式轉(zhuǎn)換評價得分求平均值,得到整個系統(tǒng)的句式轉(zhuǎn) 換平均評價得分sftjnfo。 沿用前面所提到的例子,已經(jīng)得到的機器譯文"中國人民銀行中國,中央銀行調(diào)高 利率,在3月18日。"的句式是! 0。 由于此例在上面轉(zhuǎn)換強度判斷時得到的結(jié)論是參考譯文的句式轉(zhuǎn)換強度表明是
零轉(zhuǎn)換,因此根據(jù)句式轉(zhuǎn)換評價的打分方法,采用步驟25)中的公式(5)。由于機器譯文的
句式(! O)與參考譯文的句式(! 0)是相同的,所以根據(jù)公式計算,得到的句式轉(zhuǎn)換評價
得分是1. 3010,表示此機器譯文的句式較為合理,句式轉(zhuǎn)換評價得分較高。 在獲得系統(tǒng)的句類轉(zhuǎn)換平均評價得分和句式轉(zhuǎn)換平均評價得分后,評價打分模塊
還要進(jìn)一步計算句類句式轉(zhuǎn)換聯(lián)合評價得分。對句類句式轉(zhuǎn)換聯(lián)合評價得分scft」nfo的
計算可以采用以下公式
. S"」"/OxAc+祈一爭xA/ 4 一 =-^-^-^ 其中,13 s。是發(fā)生句類轉(zhuǎn)換的概率,取值0. 593 ; 13 sf是發(fā)生句式轉(zhuǎn)換的概率,取值 0. 339。這兩個概率值是對參考譯文數(shù)據(jù)庫進(jìn)行統(tǒng)計后所得到的。 在前面所提到的例子中,sctjnfo值為0. 3979, sftjnfo值為1. 3010,根據(jù)上述 聯(lián)合評價得分公式進(jìn)行計算,最后的得分scft」nfo為0. 7125。 評價打分模塊在計算出句類轉(zhuǎn)換評價得分sctjnfo、句式轉(zhuǎn)換評價得分sft_
info和聯(lián)合評價得分scft」nfo后,會將這些得分作為評價結(jié)果返回。 本發(fā)明所涉及的機器翻譯自動評測方法與傳統(tǒng)的機器翻譯自動評測方法有很大
的不同。傳統(tǒng)評測方法并不需要理解譯文句子的語義,即并不關(guān)心譯文的語句結(jié)構(gòu)是怎么
樣的以及應(yīng)該是什么樣的。傳統(tǒng)方法完全只是在字詞層面上,將翻譯結(jié)果與參考答案進(jìn)行
字詞的直接對比和匹配,然后對統(tǒng)計結(jié)果進(jìn)行一些計算,得到評價得分。這些方法完全是依
賴字詞、短語的匹配,嚴(yán)重影響了評測結(jié)果的準(zhǔn)確性。而本發(fā)明方法的實現(xiàn)建立在在理解句
子的基礎(chǔ)上。本發(fā)明的方法首先從機器譯文和參考譯文中抽取出句類句式信息,也就是是
直接獲得它們的語句結(jié)構(gòu)信息,然后再對機器譯文和參考譯文的語句結(jié)構(gòu)進(jìn)行對比、統(tǒng)計
和計算,從而得到評價結(jié)果。這樣的評價方式非常直觀和有針對性,可以非常有效地評價出
譯文句子結(jié)構(gòu)的好壞,同時語句結(jié)構(gòu)的好壞也可以直接地反映出語句的通順性和可讀性。
1權(quán)利要求
一種機器翻譯自動評測方法,包括步驟1)、讀取機器翻譯所得到的機器譯文、所述機器譯文的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息以及所述機器譯文在被翻譯前所對應(yīng)的源語言句;步驟2)、根據(jù)所述機器譯文的源語言句,讀取該源語言句的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息、該源語言句的參考譯文、所述參考譯文的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息;步驟3)、根據(jù)所述機器譯文的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息分析所述機器譯文的語句結(jié)構(gòu),根據(jù)所述源語言句的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息分析所述源語言句的語句結(jié)構(gòu),根據(jù)所述參考譯文的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息分析所述參考譯文的語句結(jié)構(gòu);步驟4)、比較所述源語言句的語句結(jié)構(gòu)以及所述參考譯文的語句結(jié)構(gòu),計算所述參考譯文的語句結(jié)構(gòu)的轉(zhuǎn)換情況;步驟5)、比較所述源語言句的語句結(jié)構(gòu)以及所述機器譯文的語句結(jié)構(gòu),計算所述機器譯文的語句結(jié)構(gòu)的轉(zhuǎn)換情況,然后將所述參考譯文的語句結(jié)構(gòu)的轉(zhuǎn)換情況與所述機器譯文的語句結(jié)構(gòu)的轉(zhuǎn)換情況進(jìn)行比較,根據(jù)比較結(jié)果對機器譯文加以評價。
2. 根據(jù)權(quán)利要求1所述的機器翻譯自動評測方法,其特征在于,所述的語句結(jié)構(gòu)用句類信息和句式信息表示,所述的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息用HNC標(biāo)注信息表示;所述的步驟4)包括步驟4-1)、比較所述源語言句的句類信息以及所述參考譯文的句類信息,計算所述參考譯文的句類轉(zhuǎn)換強度;步驟4-2)、比較所述源語言句的句式信息以及所述參考譯文的句式信息,計算所述參考譯文的句式轉(zhuǎn)換強度。
3. 根據(jù)權(quán)利要求2所述的機器翻譯自動評測方法,其特征在于,所述的步驟4-l)包括步驟4-1-1)、將所述參考譯文的句類與所述源語言句的句類進(jìn)行對比,在由所述參考譯文所形成的參考譯文組中,當(dāng)一些參考譯文的句類發(fā)生了改變,而另一些沒有發(fā)生改變,則認(rèn)為是句類選擇性轉(zhuǎn)換,標(biāo)記為S_sct ;步驟4-1-2)、將所述參考譯文的句類與所述源語言句的句類進(jìn)行對比,當(dāng)所述參考譯文組中所有參考譯文的句類都沒有發(fā)生改變,則認(rèn)為是句類零轉(zhuǎn)換,標(biāo)記為N_sct ;步驟4-1-3)、將所述參考譯文的句類與所述源語言句的句類進(jìn)行對比,當(dāng)所述參考譯文組中所有參考譯文的句類都發(fā)生了改變,則認(rèn)為是句類強制性轉(zhuǎn)換,標(biāo)記為F—sct。
4. 根據(jù)權(quán)利要求2所述的機器翻譯自動評測方法,其特征在于,所述的步驟4-2)包括步驟4-2-1)、將所述參考譯文的句式與所述源語言句的句式進(jìn)行對比,在由所述參考譯文所形成的參考譯文組中,當(dāng)有一些參考譯文的句式發(fā)生了改變,而另一些沒有發(fā)生改變,則認(rèn)為是句式選擇性轉(zhuǎn)換,標(biāo)記為S_sft ;步驟4-2-2)、將所述參考譯文的句式與所述源語言句的句式進(jìn)行對比,當(dāng)所述參考譯文組中所有參考譯文的句式都沒有發(fā)生改變,則認(rèn)為是句式零轉(zhuǎn)換,標(biāo)記為N_sft ;步驟4-2-3)、將所述參考譯文的句式與源語言句的句式進(jìn)行對比,當(dāng)所述參考譯文組中所有參考譯文的句式都發(fā)生了改變,則認(rèn)為是句式強制性轉(zhuǎn)換,標(biāo)記為F—sft。
5. 根據(jù)權(quán)利要求2所述的機器翻譯自動評測方法,其特征在于,所述的步驟5)包括步驟5-1)、獲取所述機器譯文的句類信息,然后根據(jù)所述參考譯文的句類轉(zhuǎn)換強度計算所述機器譯文的句類轉(zhuǎn)換得分,進(jìn)而得到多個機器譯文的句類平均轉(zhuǎn)換得分;步驟5-2)、獲取所述機器譯文的句式信息,然后根據(jù)所述參考譯文的句式轉(zhuǎn)換強度計算所述機器譯文的句式轉(zhuǎn)換得分,進(jìn)而得到多個機器譯文的句式平均轉(zhuǎn)換得分;步驟5-3)、由所述多個機器譯文的句類平均轉(zhuǎn)換得分以及句式平均轉(zhuǎn)換得分計算相應(yīng)機器翻譯的句類句式聯(lián)合評價得分。
6.根據(jù)權(quán)利要求5所述的機器翻譯自動評測方法,其特征在于,所述的步驟5-l)包括步驟5-1-1)、獲得參考譯文組Ri中參考答案的個數(shù)lRil,參考答案組Ri中與翻譯系統(tǒng)譯文ti的句類相同的參考答案r的個數(shù)co贈(j、,, e ;步驟5-1-2)、獲取機器譯文的句類信息;步驟5-1-3)、讀取參考譯文的句類轉(zhuǎn)換強度,如果轉(zhuǎn)換強度表明是選擇性轉(zhuǎn)換S_sct,則轉(zhuǎn)步驟5-1-4);如果轉(zhuǎn)換強度表明是零轉(zhuǎn)換N—sct,則轉(zhuǎn)步驟5-1-5);如果轉(zhuǎn)換強度表明是強制性轉(zhuǎn)換F—sct,則轉(zhuǎn)步驟5-1-6);步驟5-1-4)、對于選擇性轉(zhuǎn)換的轉(zhuǎn)換強度S—sct,根據(jù)下述公式計算出機器譯文的句類轉(zhuǎn)換評價得分<formula>formula see original document page 3</formula>轉(zhuǎn)步驟5-1-7);步驟5-1-5)、對于零轉(zhuǎn)換的轉(zhuǎn)換強度N_sct,把機器譯文的句類句式和參考譯文組的句類進(jìn)行對比,然后根據(jù)下述公式計算出機器譯文的句類轉(zhuǎn)換評價得分<formula>formula see original document page 3</formula>轉(zhuǎn)步驟5-1-7);步驟5-1-6)、對于強制性轉(zhuǎn)換的轉(zhuǎn)換強度F—sct,把機器譯文的句類和參考譯文組的句類進(jìn)行對比,然后根據(jù)下述公式計算出機器譯文的句類轉(zhuǎn)換評價得分<formula>formula see original document page 3</formula>轉(zhuǎn)步驟5-1-7);步驟5-1-7)、對所有機器譯文的句類轉(zhuǎn)換評價得分求平均值,得到句類轉(zhuǎn)換平均評價得分sct—info。
7.根據(jù)權(quán)利要求5所述的機器翻譯自動評測方法,其特征在于,所述的步驟5-2)包括步驟5-2-1)、獲得參考譯文組Ri中參考答案的個數(shù)lRil,參考答案組Ri中與機器譯文ti的句式相同的參考答案r的個數(shù)co""/"r(,, e ;步驟5-2-2)、獲取機器譯文的句式信息;步驟5-2-3)、讀取參考譯文的句式轉(zhuǎn)換強度,如果轉(zhuǎn)換強度表明是選擇性轉(zhuǎn)換S_sft, 則執(zhí)行步驟5-2-4);如果轉(zhuǎn)換強度表明是零轉(zhuǎn)換N—sft,則執(zhí)行步驟5-2-5);如果轉(zhuǎn)換強度 表明是強制性轉(zhuǎn)換F_sft,則執(zhí)行步驟5-2-6);步驟5-2-4)、對于選擇性轉(zhuǎn)換的轉(zhuǎn)換強度S—sft,根據(jù)下述公式計算出機器譯文的句 式轉(zhuǎn)換評價得分<formula>formula see original document page 4</formula>轉(zhuǎn)步驟5-2-7);步驟5-2-5)、對于零轉(zhuǎn)換的轉(zhuǎn)換強度N—sft,如果機器譯文進(jìn)行了句式轉(zhuǎn)換,根據(jù)下述 公式計算出機器譯文的句式轉(zhuǎn)換評價得分祈」"/。{,,}=<formula>formula see original document page 4</formula>轉(zhuǎn)步驟5-2-7);步驟5-2-6)、對于強制性轉(zhuǎn)換的轉(zhuǎn)換強度F—sft,根據(jù)下述公式計算出機器譯文的句 式轉(zhuǎn)換評價得分1 <formula>formula see original document page 4</formula>轉(zhuǎn)步驟5-2-7);步驟5-2-7)對所有機器譯文的句式轉(zhuǎn)換評價得分求平均值,得到句式轉(zhuǎn)換平均評價 得分sft」nfo。
8. 根據(jù)權(quán)利要求5所述的機器翻譯自動評測方法,其特征在于,在所述的步驟5-3)中, 采用下列公式計算句類句式轉(zhuǎn)換聯(lián)合評價得分scft」nfo :<formula>formula see original document page 4</formula>其中,!^。表示發(fā)生句類轉(zhuǎn)換的概率,!^f表示發(fā)生句式轉(zhuǎn)換的概率,sct」nfo表示句 類轉(zhuǎn)換平均評價得分,sft」nfo表示句式轉(zhuǎn)換平均評價得分。
9. 根據(jù)權(quán)利要求5所述的機器翻譯自動評測方法,其特征在于,所述!^。取值為 0. 593,所述Psf取值為0. 339。
10. —種機器翻譯自動評測系統(tǒng),其特征在于,包括待評測數(shù)據(jù)存儲模塊、參考譯文數(shù) 據(jù)庫、參考譯文標(biāo)注數(shù)據(jù)庫、譯文句類句式轉(zhuǎn)換情況獲取模塊、評價打分模塊;其中,所述的待評測數(shù)據(jù)存儲模塊用于保存機器翻譯所得到的機器譯文、所述機器譯文的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息;所述的參考譯文數(shù)據(jù)庫用于保存源語言句以及源語言句的參考譯文;所述的參考譯文標(biāo)注數(shù)據(jù)庫用于保存所述源語言句的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息以及 所述參考譯文的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息;所述的譯文句類句式轉(zhuǎn)換情況獲取模塊根據(jù)所述機器譯文的關(guān)于語句結(jié)構(gòu)的標(biāo)注信 息分析所述機器譯文的語句結(jié)構(gòu),根據(jù)所述源語言句的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息分析所述 源語言句的語句結(jié)構(gòu),根據(jù)所述參考譯文的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息分析所述參考譯文的 語句結(jié)構(gòu),然后比較所述源語言句的語句結(jié)構(gòu)以及所述參考譯文的語句結(jié)構(gòu),計算所述參 考譯文的語句結(jié)構(gòu)的轉(zhuǎn)換情況;所述的評價打分模塊比較所述源語言句的語句結(jié)構(gòu)以及所述機器譯文的語句結(jié)構(gòu),計 算所述機器譯文的語句結(jié)構(gòu)的轉(zhuǎn)換情況,然后將所述參考譯文的語句結(jié)構(gòu)的轉(zhuǎn)換情況與所 述機器譯文的語句結(jié)構(gòu)的轉(zhuǎn)換情況進(jìn)行比較,根據(jù)比較結(jié)果對機器譯文加以評價。
11. 根據(jù)權(quán)利要求io所述的機器翻譯自動評測系統(tǒng),其特征在于,所述參考譯文數(shù)據(jù)庫包括英中參考譯文數(shù)據(jù)庫和中英參考譯文數(shù)據(jù)庫,數(shù)據(jù)庫的格式為(源語言句ID,源語 言句,參考譯文1,參考譯文2,……,參考譯文N)。
12. 根據(jù)權(quán)利要求IO所述的機器翻譯自動評測系統(tǒng),其特征在于,所述參考譯文標(biāo)注 數(shù)據(jù)庫包括英中參考譯文標(biāo)注數(shù)據(jù)庫和中英參考譯文標(biāo)注數(shù)據(jù)庫;該數(shù)據(jù)庫的格式為(源 語言句ID,源語言句,源語言句標(biāo)注信息,參考譯文l,參考譯文1標(biāo)注信息,……,參考譯 文N,參考譯文N標(biāo)注信息)。
全文摘要
本發(fā)明公開了一種機器翻譯自動評測方法,包括讀取機器翻譯所得到的機器譯文、機器譯文的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息以及源語言句;根據(jù)源語言句,讀取該源語言句的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息、源語言句的參考譯文、參考譯文的關(guān)于語句結(jié)構(gòu)的標(biāo)注信息;分析所述機器譯文的語句結(jié)構(gòu),分析所述源語言句的語句結(jié)構(gòu),分析所述參考譯文的語句結(jié)構(gòu);比較源語言句的語句結(jié)構(gòu)以及參考譯文的語句結(jié)構(gòu),計算參考譯文的語句結(jié)構(gòu)的轉(zhuǎn)換情況;比較源語言句的語句結(jié)構(gòu)以及機器譯文的語句結(jié)構(gòu),計算所述機器譯文的語句結(jié)構(gòu)的轉(zhuǎn)換情況,然后將所述參考譯文的語句結(jié)構(gòu)的轉(zhuǎn)換情況與所述機器譯文的語句結(jié)構(gòu)的轉(zhuǎn)換情況進(jìn)行比較,根據(jù)比較結(jié)果對機器譯文加以評價。
文檔編號G06F17/28GK101777044SQ201010103639
公開日2010年7月14日 申請日期2010年1月29日 優(yōu)先權(quán)日2010年1月29日
發(fā)明者丁澤亞, 張全, 繆建明, 袁毅, 韋向峰, 黃曾旸 申請人:中國科學(xué)院聲學(xué)研究所