專利名稱:面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種統(tǒng)計(jì)機(jī)器翻譯技術(shù),具體的說(shuō)是一種面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法。
背景技術(shù):
統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation, SMT)系統(tǒng)的訓(xùn)練需要大規(guī)模的雙語(yǔ)平行語(yǔ)料的支持,語(yǔ)料的質(zhì)量和數(shù)量會(huì)對(duì)機(jī)器翻譯系統(tǒng)的性能帶來(lái)很大的影響。一般來(lái)說(shuō),訓(xùn)練語(yǔ)料規(guī)模的增加有助于獲得穩(wěn)定的模型參數(shù)并提高SMT系統(tǒng)的翻譯性能。但是語(yǔ)料規(guī)模越大,系統(tǒng)的執(zhí)行代價(jià)就越高,訓(xùn)練和解碼需要的時(shí)間也越長(zhǎng)。另外,更大規(guī)模的語(yǔ)料也就意味著可能存在更多的噪聲數(shù)據(jù),會(huì)在一定程度上影響到系統(tǒng)訓(xùn)練的可靠性。
姚樹(shù)杰等人(2010)曾提出了一種基于句對(duì)質(zhì)量和覆蓋度的統(tǒng)計(jì)機(jī)器翻譯訓(xùn)練語(yǔ)料選取的方法,他們通過(guò)綜合考慮覆蓋度和句對(duì)質(zhì)量?jī)煞矫娴囊蛩?,從已有的平行語(yǔ)料中獲取高質(zhì)量小規(guī)模訓(xùn)練子集,以達(dá)到同使用全部訓(xùn)練語(yǔ)料相當(dāng)?shù)姆g性能。在姚樹(shù)杰等人提出的模型中,有五個(gè)質(zhì)量評(píng)價(jià)特征,各個(gè)特征的權(quán)重采用人工設(shè)定經(jīng)驗(yàn)值的方法得到。人工的方法需要大量的實(shí)驗(yàn)支撐,耗時(shí)耗力,并且在特征數(shù)量增加的時(shí)候,變得非常不可用。
發(fā)明內(nèi)容
針對(duì)基于句對(duì)質(zhì)量和覆蓋度的統(tǒng)計(jì)機(jī)器翻譯技術(shù)中的質(zhì)量評(píng)價(jià)特征采用人工設(shè)定經(jīng)驗(yàn)值的方法得到,耗時(shí)耗力,并且在特征數(shù)量增加時(shí)變得非常不可用等不足之處,本發(fā)明要解決的技術(shù)問(wèn)題是提供一種可自動(dòng)生成特征權(quán)重,能夠提供更豐富的句對(duì)質(zhì)量評(píng)價(jià)特征的面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法。為解決上述技術(shù)問(wèn)題,本發(fā)明采用的技術(shù)方案是本發(fā)明面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法包括以下步驟權(quán)重自動(dòng)獲取采用小規(guī)模語(yǔ)料對(duì)權(quán)重自動(dòng)獲取模型進(jìn)行訓(xùn)練,以得到特征的權(quán)重和分類臨界值;句對(duì)質(zhì)量評(píng)價(jià)將上述權(quán)重和分類臨界值與原始大規(guī)模平行語(yǔ)料一起做為輸入,由句對(duì)質(zhì)量評(píng)價(jià)線性模型對(duì)大規(guī)模平行語(yǔ)料進(jìn)行分類,生成各個(gè)語(yǔ)料子集;高質(zhì)量語(yǔ)料子集選取在上述各個(gè)語(yǔ)料子集的基礎(chǔ)上,考慮覆蓋度的影響,選取高質(zhì)量語(yǔ)料做為統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的訓(xùn)練數(shù)據(jù)。所述句對(duì)質(zhì)量評(píng)價(jià)線性模型為
權(quán)利要求
1.一種面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法,其特征在于包括以下步驟 權(quán)重自動(dòng)獲取 采用小規(guī)模語(yǔ)料對(duì)權(quán)重自動(dòng)獲取模型進(jìn)行訓(xùn)練,以得到特征的權(quán)重和分類臨界值;句對(duì)質(zhì)量評(píng)價(jià)將上述權(quán)重和分類臨界值與原始大規(guī)模平行語(yǔ)料一起做為輸入,由句對(duì)質(zhì)量評(píng)價(jià)線性模型對(duì)大規(guī)模平行語(yǔ)料進(jìn)行分類,生成各個(gè)語(yǔ)料子集; 高質(zhì)量語(yǔ)料子集選取在上述各個(gè)語(yǔ)料子集的基礎(chǔ)上,考慮覆蓋度的影響,選取高質(zhì)量語(yǔ)料做為統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的訓(xùn)練數(shù)據(jù)。
2.按權(quán)利要求I所述的面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法,其特征在于所述句對(duì)質(zhì)量評(píng)價(jià)線性模型為
3.按權(quán)利要求I所述的面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法,其特征在于所述高質(zhì)量句對(duì)為 句對(duì)中源語(yǔ)句和目標(biāo)語(yǔ)句都是流暢的句子,且源語(yǔ)句和目標(biāo)語(yǔ)句的互譯程度高。
4.按權(quán)利要求I所述的面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法,其特征在于句對(duì)質(zhì)量評(píng)價(jià)特征包括高質(zhì)量翻譯短語(yǔ)特征和基于實(shí)詞的質(zhì)量評(píng)價(jià)特征,其中 高質(zhì)量翻譯短語(yǔ) 在高質(zhì)量短語(yǔ)翻譯表中,查找提取的短語(yǔ)對(duì)是否存在,其特征公式如下
5.按權(quán)利要求4所述的面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法,其特征在于所述句對(duì)質(zhì)量評(píng)價(jià)特征還包括基于IBM model I的翻譯概率的質(zhì)量評(píng)價(jià)特征、基于IBM model I的最大化翻譯概率(MTP)的質(zhì)量評(píng)價(jià)特征、基于詞匯化翻譯概率(LexicalWeighting,LW)的質(zhì)量評(píng)價(jià)特征、基于詞典的質(zhì)量評(píng)價(jià)特征、基于短語(yǔ)表染色機(jī)制的質(zhì)量評(píng)價(jià)特征和基于語(yǔ)言模型的質(zhì)量評(píng)價(jià)特征,其中 基于IBM model I的最大化翻譯概率(MTP)的質(zhì)量評(píng)價(jià)特征通過(guò)以下公式實(shí)現(xiàn)
6.按權(quán)利要求5所述的面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法,其特征在于詞Wi在N元語(yǔ)言模型下的概率P (Wi I &__,..., <)通過(guò)以下公式得到
7.按權(quán)利要求I所述的面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法,其特征在于 在權(quán)重自動(dòng)獲取步驟中,采用小規(guī)模語(yǔ)料對(duì)權(quán)重自動(dòng)獲取模型進(jìn)行訓(xùn)練通過(guò)Pranking算法實(shí)現(xiàn),通過(guò)訓(xùn)練數(shù)據(jù)自動(dòng)調(diào)整各個(gè)特征的權(quán)重,訓(xùn)練集中的每組數(shù)據(jù)執(zhí)行調(diào)整過(guò)程后,得到新的權(quán)重向量與臨界值向量,做為下一組數(shù)據(jù)計(jì)算的初始值;當(dāng)多組訓(xùn)練數(shù)據(jù)全部執(zhí)行完成后,所得的權(quán)重向量與臨界值向量即為最終結(jié)果。
8.按權(quán)利要求I所述的面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法,其特征在于所述考慮基于句對(duì)質(zhì)量和覆蓋度的語(yǔ)料選取包括以下步驟 使用句對(duì)質(zhì)量評(píng)價(jià)模型將訓(xùn)練語(yǔ)料分為質(zhì)量高低不同的k個(gè)等級(jí),k為Pranking算法訓(xùn)練數(shù)據(jù)標(biāo)注的等級(jí)數(shù); 采用翻譯短語(yǔ)對(duì)作為覆蓋度的度量標(biāo)準(zhǔn),一個(gè)句子對(duì)覆蓋度的貢獻(xiàn),是其中包含的不同的未知翻譯短語(yǔ)對(duì)的個(gè)數(shù); 選取數(shù)據(jù)首先從質(zhì)量等級(jí)最高的數(shù)據(jù)中選取句對(duì),當(dāng)全部剩余句對(duì)已經(jīng)無(wú)法增加訓(xùn)練子集的覆蓋度時(shí),再?gòu)馁|(zhì)量次之的等級(jí)中選??;當(dāng)高質(zhì)量句對(duì)的覆蓋度貢獻(xiàn)值小于設(shè)定的閾值a時(shí),優(yōu)先考慮從質(zhì)量較低集合中選取覆蓋度貢獻(xiàn)大的句對(duì),同時(shí),將高質(zhì)量的未被選取句對(duì)的覆蓋度加上一個(gè)常數(shù)b,與質(zhì)量較低的數(shù)據(jù)一同參選; 在選取數(shù)據(jù)時(shí),從包含詞對(duì)齊信息的句對(duì)中抽取出翻譯短語(yǔ)對(duì),以句子包含的翻譯短語(yǔ)對(duì)的數(shù)量作為各個(gè)句子的初始覆蓋度貢獻(xiàn)值; 訓(xùn)練語(yǔ)料子集對(duì)應(yīng)的短語(yǔ)對(duì)集合每增加一個(gè)新的短語(yǔ)對(duì),則相應(yīng)的所有包含該短語(yǔ)對(duì)的句子的覆蓋度貢獻(xiàn)減I ; 每次從語(yǔ)料中選取覆蓋度貢獻(xiàn)最大的句子加入語(yǔ)料子集中,然后更新所有未被選取的句子的覆蓋度貢獻(xiàn)值; 迭代進(jìn)行此過(guò)程,直至選取的子集達(dá)到目標(biāo)規(guī)模。
9.按權(quán)利要求8所述的面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法,其特征在于所述考慮覆蓋度的影響選取高質(zhì)量語(yǔ)料還包括特征評(píng)價(jià)結(jié)果縮放步驟 對(duì)基于IBM model I的最大化翻譯概率的質(zhì)量評(píng)價(jià)特征fMTP、基于IBMmodel I翻譯概率的質(zhì)量評(píng)價(jià)特征,BM、基于語(yǔ)言模型的質(zhì)量評(píng)價(jià)特征φ!Λ!以及基于語(yǔ)言模型的質(zhì)量評(píng)價(jià)特征fLW的結(jié)果進(jìn)行縮放,采用公式(14)將[O,-⑴]區(qū)間縮放至[O,I]區(qū)間
全文摘要
本發(fā)明涉及一種面向統(tǒng)計(jì)機(jī)器翻譯的訓(xùn)練語(yǔ)料質(zhì)量評(píng)價(jià)及選取方法,步驟為權(quán)重自動(dòng)獲取采用小規(guī)模語(yǔ)料對(duì)權(quán)重自動(dòng)獲取模型進(jìn)行訓(xùn)練,以得到特征的權(quán)重和分類臨界值;句對(duì)質(zhì)量評(píng)價(jià)將上述權(quán)重和分類臨界值與原始大規(guī)模平行語(yǔ)料一起做為輸入,由句對(duì)質(zhì)量評(píng)價(jià)線性模型對(duì)大規(guī)模平行語(yǔ)料進(jìn)行分類,生成各個(gè)語(yǔ)料子集;高質(zhì)量語(yǔ)料子集選取在上述各個(gè)語(yǔ)料子集的基礎(chǔ)上,考慮覆蓋度的影響,選取高質(zhì)量語(yǔ)料做為統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的訓(xùn)練數(shù)據(jù)。本發(fā)明提出更豐富的句對(duì)質(zhì)量評(píng)價(jià)特征,實(shí)現(xiàn)了特征權(quán)重的自動(dòng)學(xué)習(xí),當(dāng)子集規(guī)模達(dá)到30%時(shí)性能可能夠達(dá)到100%甚至更好;可以對(duì)任意輸入的句對(duì)劃分其所屬的等級(jí),可以為高質(zhì)量語(yǔ)料數(shù)據(jù)選取等任務(wù)提供幫助。
文檔編號(hào)G06F17/28GK102945232SQ20121046917
公開(kāi)日2013年2月27日 申請(qǐng)日期2012年11月16日 優(yōu)先權(quán)日2012年11月16日
發(fā)明者朱靖波, 張 浩, 肖桐, 李強(qiáng) 申請(qǐng)人:沈陽(yáng)雅譯網(wǎng)絡(luò)技術(shù)有限公司