專利名稱:一種統(tǒng)計機器翻譯中的在線翻譯模型選擇方法
技術(shù)領(lǐng)域:
本發(fā)明涉及統(tǒng)計機器翻譯技術(shù)領(lǐng)域,特別涉及統(tǒng)計機器翻譯系統(tǒng)的在線翻譯模型選擇方法。
背景技術(shù):
隨著信息時代的到來以及互聯(lián)網(wǎng)的迅猛發(fā)展,各國間的交流日益廣泛,人們對于機器翻譯的需求也越來越迫切。近年來,機器翻譯研究取得了很大的發(fā)展,尤其是以統(tǒng)計機器翻譯技術(shù)為代表的機器翻譯新技術(shù)取得了一定程度的突破,成為目前機器翻譯研究的主流。
機器翻譯方法可分為基于規(guī)則的機器翻譯方法(即規(guī)則機器翻譯方法)和基于統(tǒng)計的機器翻譯方法(統(tǒng)計機器翻譯方法)。在傳統(tǒng)的基于規(guī)則的機器翻譯方法中,翻譯知識主要體現(xiàn)為詞典和規(guī)則,而詞典和規(guī)則主要依靠人類專家來編寫。這種方法存在的主要問題有人類專家編寫語言知識需要耗費大量的人力物力和時間;人類專家編寫的知識很難全面覆蓋真實翻譯環(huán)境中面臨的各種問題;人類專家編寫的語言知識在面臨沖突時沒有好的解決辦法;人類專家編寫的語言知識不方便移植到不同的語種和領(lǐng)域。而在統(tǒng)計機器翻譯中,所有的翻譯知識全部來源于真實的雙語平行語料庫(parallel corpus),通過統(tǒng)計建模,自動學(xué)習(xí)雙語平行語料庫中的翻譯知識,因此克服了人類專家編寫知識所面臨的主要問題,而且容易移植到新的領(lǐng)域和語種上。由于具有嚴(yán)格的統(tǒng)計模型為依據(jù),在克服知識的沖突上有比較合理的解決辦法,總體上可以到達(dá)較好的翻譯結(jié)果。這是目前基于統(tǒng)計的機器翻譯方法的翻譯質(zhì)量可以超過基于規(guī)則的機器翻譯方法的主要原因。
統(tǒng)計機器翻譯系統(tǒng)的建立通常包括兩個主要過程訓(xùn)練和解碼。所謂訓(xùn)練就是根據(jù)一定的算法從語料庫資源中自動估計出統(tǒng)計翻譯模型的參數(shù);所謂解碼就是根據(jù)訓(xùn)練過程得到的模型參數(shù)對輸入文本進(jìn)行翻譯的過程,因此解碼通常也直接稱為翻譯。在參考文獻(xiàn)1“Peter F.Brown,Stephen A.Della Pietra,Vincent J.Della Pietra,andPobert L.Mercer.1993,The Mathematics of Statistical Machine TranslationParameterEstimation,Computational Linguistics[J],vol.19,no.2,pages263-311”;參考文獻(xiàn)2“Philipp Koehn,F(xiàn)ranz Joseph Och,and Daniel Marcu.2003.Statistical phrase-basedtranslation.In Proceedings of Human Language Technology Conference/North Americanchapter of the Association for Computational Linguistics annual meeting 2003,pages127-133”;參考文獻(xiàn)3“Franz J.Och and Hermann Ney.2002.Discriminative trainingand maximum entropy models for statistical machine translation.In Proceedings of the40th Annual Meeting of Association for Computational Linguistics 2002,pages295-302.”中都有對現(xiàn)有技術(shù)中訓(xùn)練和解碼過程的說明。
統(tǒng)計機器翻譯的訓(xùn)練過程中的一個重要的資源就是雙語平行語料庫,即包含兩種語言對照翻譯的文本的集合。由于統(tǒng)計機器翻譯系統(tǒng)中的翻譯知識全部來源于雙語平行語料庫,因此雙語平行語料庫的規(guī)模和質(zhì)量直接影響到翻譯系統(tǒng)的翻譯質(zhì)量。一般來說,用于訓(xùn)練翻譯模型的雙語平行語料庫規(guī)模越大,訓(xùn)練得到的模型參數(shù)越穩(wěn)定,越接近于真實情況,翻譯質(zhì)量越高。因此很多研究者提出了自動搜集雙語語料庫的方法,如從Web上自動獲取雙語平行語料庫或從可比文本中獲取雙語平行語料庫等。但是,目前搜集的雙語平行語料庫往往具有很強的領(lǐng)域性,如目前在漢英統(tǒng)計機器翻譯訓(xùn)練中常用的幾個規(guī)模比較大的雙語平行語料庫分別來自于香港議會會議錄、香港法律、新華社新聞等相差很遠(yuǎn)的若干領(lǐng)域。簡單地將這些領(lǐng)域相差很遠(yuǎn)的語料庫合并進(jìn)行訓(xùn)練并不能明顯提高翻譯質(zhì)量。利用某一領(lǐng)域的語料庫訓(xùn)練得到的翻譯模型在該領(lǐng)域可以得到很好的翻譯結(jié)果,而將該模型應(yīng)用于其它領(lǐng)域翻譯時翻譯質(zhì)量就會下降很多,即統(tǒng)計機器翻譯系統(tǒng)對于訓(xùn)練語料和翻譯文本的領(lǐng)域非常敏感。在實際應(yīng)用中,大多情況下系統(tǒng)無法預(yù)知用戶輸入的待翻譯文本的領(lǐng)域,如果用一個統(tǒng)一的模型來翻譯不同領(lǐng)域的文本,勢必會影響系統(tǒng)的翻譯質(zhì)量。因此,如何提高統(tǒng)計機器翻譯系統(tǒng)對不同翻譯文本的領(lǐng)域適應(yīng)能力,改善統(tǒng)計機器翻譯系統(tǒng)的翻譯質(zhì)量、推進(jìn)統(tǒng)計機器翻譯系統(tǒng)的實用性是人們迫切需要解決的問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有的統(tǒng)計機器翻譯系統(tǒng)不能同時適應(yīng)不同領(lǐng)域翻譯文本的缺陷,提供一種根據(jù)所要翻譯的文本選擇翻譯模型的方法,從而對于不同領(lǐng)域的翻譯輸入都能取得較好翻譯結(jié)果。
為了實現(xiàn)上述目的,本發(fā)明提供了一種統(tǒng)計機器翻譯中候選翻譯模型生成方法,包括以下步驟步驟101)、收集雙語平行語料庫,根據(jù)類型,將雙語平行語料庫劃分到不同的子語料庫中,從而構(gòu)建不同類型的子語料庫;步驟102)、根據(jù)步驟101)得到的子語料庫,訓(xùn)練候選翻譯模型;步驟103)、為步驟101)得到的子語料庫建立索引,得到語料庫索引文件。
上述技術(shù)方案中,在所述的步驟101)中,劃分雙語平行語料庫時,根據(jù)雙語平行語料庫中數(shù)據(jù)的所屬領(lǐng)域、主題和用詞,采用分類或聚類方法將具有相似的領(lǐng)域、主題和用詞的雙語平行語料庫劃分到同一個子語料庫中。
所述的分類或聚類方法包括k均值聚類法或k近鄰分類法或最大熵分類法。
上述技術(shù)方案中,在所述的步驟102)中,對劃分好的每個子語料庫進(jìn)行翻譯模型的訓(xùn)練,得到對應(yīng)的子翻譯模型,同時,利用所有的雙語平行語料庫進(jìn)行訓(xùn)練,得到一個通用的翻譯模型。
上述技術(shù)方案中,在所述的步驟103)中,為雙語平行語料庫中每個翻譯句對的源語言句子建立索引,所述索引包括翻譯句對的源語言句子所在子語料庫的信息。
采用Lemur信息檢索工具建立索引。
本發(fā)明還提供了一種統(tǒng)計機器翻譯中利用候選翻譯模型進(jìn)行翻譯的方法,包括以下步驟步驟201)、輸入待翻譯文本,從語料庫索引文件中檢索與待翻譯文本中的句子相似的句子;步驟202)、根據(jù)步驟201)的檢索結(jié)果,得到與相似句子所在子語料庫所對應(yīng)的候選翻譯模型,從所有的候選翻譯模型中選擇最終翻譯模型;步驟203)、根據(jù)步驟202)所確定的最終翻譯模型對輸入的待翻譯文本進(jìn)行翻譯,得到最后的翻譯結(jié)果。
上述技術(shù)方案中,在所述的步驟201)中,采用相似度檢索模型計算所述的待翻譯文本與語料索引文件中所有索引文檔之間的相似度,然后根據(jù)相似度大小為所有的計算結(jié)果按從大到小依次排序,選擇相似度最高的至少一個句子,所選擇的句子包括該句子所在子語料庫的信息。
采用向量空間模型及TF-IDF相似度計算方法實現(xiàn)相似句子的檢索。
上述技術(shù)方案中,在所述的步驟202)中,設(shè)定選擇策略,根據(jù)選擇策略從所有的候選翻譯模型中選擇一個候選翻譯模型或幾個候選翻譯模型的組合作為所述的最終翻譯模型。
所述的選擇策略包括根據(jù)同一子語料庫中所包含相似句子的個數(shù)確定候選翻譯模型,或結(jié)合相似度的數(shù)值來確定候選翻譯模型。
本發(fā)明又提供了一種統(tǒng)計機器翻譯的在線翻譯模型選擇方法,包括訓(xùn)練和翻譯兩個階段,其特征在于,所述的訓(xùn)練階段包括以下步驟步驟101)、收集雙語平行語料庫,根據(jù)類型,將雙語平行語料庫劃分到不同的子語料庫中,從而構(gòu)建不同類型的子語料庫;步驟102)、根據(jù)步驟101)得到的子語料庫,訓(xùn)練候選翻譯模型;步驟103)、為步驟101)得到的子語料庫建立索引,得到語料庫索引文件;所述的翻譯階段包括以下步驟步驟201)、輸入待翻譯文本,從步驟103)得到的語料庫索引文件中檢索與待翻譯文本中的句子相似的句子;步驟202)、根據(jù)步驟201)的檢索結(jié)果,得到與相似句子所在子語料庫所對應(yīng)的候選翻譯模型,從所有的候選翻譯模型中選擇最終翻譯模型;步驟203)、根據(jù)步驟202)所確定的最終翻譯模型對輸入的待翻譯文本進(jìn)行翻譯,得到最后的翻譯結(jié)果。
本發(fā)明又提供了一種統(tǒng)計機器翻譯中的在線翻譯模型選擇系統(tǒng),包括訓(xùn)練模塊和翻譯模塊,所述的訓(xùn)練模塊包括語料庫收集單元、候選翻譯模型訓(xùn)練單元和索引建立單元,所述的翻譯模塊包括檢索單元、候選翻譯模型選擇單元和翻譯單元;其中所述的語料庫收集單元用于收集雙語平行語料庫,并根據(jù)所收集雙語平行語料庫的類型,構(gòu)建子語料庫;所述的候選翻譯模型訓(xùn)練單元用于為所述的子語料庫訓(xùn)練候選翻譯模型;所述的索引建立單元為所述的子語料庫建立索引,得到語料庫索引文件;所述的檢索單元用于根據(jù)輸入的待翻譯文本,從所述的語料庫索引文件中檢索與待翻譯文本中的句子相似的句子;所述的候選翻譯模型選擇單元用于根據(jù)檢索結(jié)果,得到與相似句子所在子語料庫對應(yīng)的候選翻譯模型,從所有的候選翻譯模型中選擇最終翻譯模型;所述的翻譯單元根據(jù)所選擇的最終翻譯模型對待翻譯文件進(jìn)行翻譯。
本發(fā)明的優(yōu)點在于
1.本發(fā)明提供的這種在線翻譯模型選擇方法,使得統(tǒng)計機器翻譯系統(tǒng)可以根據(jù)輸入的待翻譯文本,在線選擇適合的翻譯模型進(jìn)行翻譯,很好地解決了統(tǒng)計機器翻譯系統(tǒng)不能適應(yīng)不同領(lǐng)域輸入文本的問題,能夠有效地提高統(tǒng)計機器翻譯系統(tǒng)的翻譯質(zhì)量,為統(tǒng)計機器翻譯系統(tǒng)的實用化提供了可行的方案。
2.本發(fā)明提供的在線翻譯模型選擇方法,與具體的統(tǒng)計機器翻譯方法的建模、訓(xùn)練和解碼過程是獨立的,可以適用于各種統(tǒng)計機器翻譯方法,如基于詞匯的統(tǒng)計機器翻譯方法、基于短語的統(tǒng)計機器翻譯方法,基于句法的統(tǒng)計機器翻譯方法等。因此該發(fā)明具有適應(yīng)性好,實施簡單等優(yōu)點。
圖1為本發(fā)明的統(tǒng)計機器翻譯的在線翻譯模型選擇方法中模型訓(xùn)練部分的示意圖;圖2為統(tǒng)計機器翻譯的在線翻譯模型選擇方法中在線翻譯部分的示意圖。
具體實施例方式
下面結(jié)合附圖和具體實施方式
對本發(fā)明作進(jìn)一步詳細(xì)描述本發(fā)明的統(tǒng)計機器翻譯的在線翻譯模型選擇方法包括模型訓(xùn)練和在線翻譯兩大部分,下面分別進(jìn)行詳細(xì)說明。
如圖1所示,本發(fā)明的模型訓(xùn)練過程具體包括以下步驟步驟101、收集雙語平行語料庫,根據(jù)類型,將雙語平行語料庫劃分到不同的子語料庫中,從而構(gòu)建不同類型的子語料庫。在本步驟中,所收集的雙語平行語料庫一般是句子對齊的雙語語料庫,該語料庫中包含句子的對照翻譯。在把雙語平行語料庫劃分到不同類型的子語料庫中時,應(yīng)當(dāng)使得同一個子語料庫中的數(shù)據(jù)盡可能具有相似的領(lǐng)域、主題和用詞等,不同的子語料庫之間的數(shù)據(jù)的領(lǐng)域、主題及用詞等的差距盡可能大。在將雙語平行語料庫劃分到不同類型的子語料庫中時,可采用分類或聚類的方法,現(xiàn)有的分類或聚類方法都可應(yīng)用于本發(fā)明,如常用的k均值聚類、k近鄰分類、最大熵分類等方法。此外,在收集雙語語料庫時,往往可以知道語料庫的來源和領(lǐng)域,這時可以按照語料庫的來源和領(lǐng)域直接將語料庫分成幾個領(lǐng)域不同的子語料庫。
通過上述操作,所收集的雙語平行語料庫被劃分成幾個子語料庫。所劃分的子語料庫個數(shù)不宜過多,要保證每個子語料庫包含一定規(guī)模的語料(即翻譯句對),以避免子語料庫規(guī)模過小而對翻譯質(zhì)量造成的影響。另外,在子語料庫劃分過程中,原有語料庫中的一個翻譯句對也可能同時分在不同的子語料庫中,也就是說劃分完的子語料庫中允許包含相同的翻譯句對。
步驟102、根據(jù)步驟101得到的子語料庫,訓(xùn)練候選翻譯模型。在訓(xùn)練候選翻譯模型時,對劃分好的每個子語料庫進(jìn)行翻譯模型的訓(xùn)練,得到對應(yīng)的子翻譯模型。同時,利用所有的雙語平行語料庫進(jìn)行訓(xùn)練,得到一個通用的翻譯模型。
在本步驟中,翻譯模型的訓(xùn)練是成熟的現(xiàn)有技術(shù),可以采用常用的翻譯模型訓(xùn)練方法,例如,在本實施例中可采用參考文獻(xiàn)1中所披露的EM訓(xùn)練法;在參考文獻(xiàn)2中所披露的最大似然訓(xùn)練法;和在參考文獻(xiàn)3中所披露的判別訓(xùn)練方法等。
通過本步驟得到的翻譯模型就是在后續(xù)的翻譯階段所要用到的候選翻譯模型。
步驟103、為子語料庫建立索引,得到語料庫索引文件。對子語料庫中的每個翻譯句對的源語言句子建立索引,在所建立的索引中包括翻譯句對的源語言句子所在子語料庫的信息。建立索引的目的是使得在后續(xù)翻譯過程中可以方便、快速地檢索查找到與給定文本最相似的N個句子,同時可以知道這些句子來源于哪一個或哪幾個子語料庫。為子語料庫建立索引的工作采用成熟的現(xiàn)有技術(shù)即可,在本實施例中可使用Lemur信息檢索工具建立索引。在建立索引的過程中把每個翻譯句對的源語言句子看作一個文檔,同時在文檔的路徑信息中記錄了該文檔所屬的子語料庫信息。
通過上述的操作,完成了對翻譯模型的訓(xùn)練過程,下面對在線翻譯的過程進(jìn)行具體的說明。
如圖2所示,本發(fā)明的統(tǒng)計機器翻譯的在線翻譯模型選擇方法中的在線翻譯方法包括以下步驟步驟201、輸入待翻譯文本,從語料庫索引文件中檢索與待翻譯文本中的句子相似的訓(xùn)練句子。
對待翻譯文件檢索相似句子時,可利用相似度檢索方法從訓(xùn)練語料庫的索引中檢索出最相似的N個句子,每個句子同時包含其對應(yīng)的子語料庫信息,即該句子屬于哪一個子語料庫。
其中,上述的相似度檢索方法具有多種實現(xiàn)方式,如Dice系數(shù)法、編輯距離法、余弦函數(shù)法等。在本實施例中可采用信息檢索中常用的向量空間模型及TF-IDF相似度計算方法來實現(xiàn)相似句子的檢索,具體說明如下在向量空間模型檢索過程中,將用戶輸入的查詢和系統(tǒng)中的文檔都使用向量表示,假設(shè)共有n個單詞,則每篇文檔(或查詢)Di都可視為一個n維向量(wi1,wi2,...,win),其中的wij表示文檔Di中的第j維的權(quán)值,對該權(quán)值的計算可按如下的TF-IDF方法進(jìn)行wij=tfij×log(idfj)其中,tfij是指單詞j在文檔Di中出現(xiàn)的頻次,tfij的值越大,表示單詞j對于文檔Di越重要;而idfj稱為逆文本頻率指數(shù),為包含有單詞j的文檔數(shù)目的倒數(shù),計算時一般使用文檔總數(shù)除以含有單詞j的文檔數(shù)。idfj越小,包含單詞j的文檔數(shù)目越多,表示單詞j在衡量文檔相似性方面的作用越低。
當(dāng)用戶輸入待翻譯文本時,檢索系統(tǒng)首先計算待翻譯文本與所有索引文檔向量之間的相似度,然后根據(jù)相似度大小為所有的計算結(jié)果從大到小依次排序。在計算相似度時,常采用向量之間的夾角余弦或者內(nèi)積來表示相似度大小。
在步驟103中提到可以采用Lemur信息檢索工具建立索引,在本步驟中,同樣可利用Lemur信息檢索工具實現(xiàn)基于向量空間模型及TF-IDF相似度的相似句子檢索。通過檢索,可獲得前N個與待翻譯文本最相似的訓(xùn)練句子,同時可以獲得每個句子的所屬訓(xùn)練子語料庫信息。
步驟202、根據(jù)步驟201中檢索的結(jié)果選擇翻譯模型。在步驟201得到所檢索到的相似句子后,還得到了相似句子所屬子語料庫的信息。根據(jù)步驟102中的相關(guān)描述信息,一個子語料庫對應(yīng)有一個候選翻譯模型,而在步驟201所得到的多個相似句子可能從屬于不同的子語料庫,因此也會對應(yīng)不同的候選翻譯模型,在本步驟中就是要根據(jù)一定的選擇策略選擇其中的一個候選模型或幾個候選模型的組合作為最后的翻譯模型。所述的選擇策略可以根據(jù)實際需要確定,如既可以根據(jù)子語料庫相似句子的個數(shù),也可以結(jié)合相似度的數(shù)值來確定選擇策略。假設(shè)對一個待翻譯的句子,它有5個相似句子,其中3個相似句子屬于子語料庫1,1個相似句子屬于子語料庫2,1個相似句子屬于子語料庫3,則根據(jù)子語料庫相似句子個數(shù)的選擇策略,將子語料庫1對應(yīng)的候選翻譯模型作為最終的翻譯模型。又假設(shè)對一個待翻譯的句子,它有5個相似句子,它們的相似度分別為0.9、0.7、0.5、0.3、0.1,其中,第1和第2個相似句子屬于子語料庫1,第3、4、5個相似句子屬于子語料庫2,則根據(jù)相似度數(shù)值的選擇策略,由于子語料庫1的相似度總值為1.6(0.9+0.7),而子語料庫2的相似度總值為0.9(0.5+0.3+0.1),因此,盡管子語料庫2包含的相似句子更多,但仍然選擇子語類庫1所對應(yīng)的候選翻譯模型作為最終的翻譯模型。
下面采用一個簡單的模型選擇策略對本步驟的具體實現(xiàn)過程進(jìn)行說明if Proportion(max_model)>0.5δ0=0;δi=max_model=1;δi≠max_model=0;elseδ0=1;δi=0;其中,δ0表示通用翻譯模型的權(quán)重,δi表示第i個子翻譯模型的權(quán)重,i=(1...M)。Max_model是占有最大比例的那個模型。函數(shù)Proportion(Max_model)表示檢索到的相似句子中,屬于Max_model所對應(yīng)的子語料庫的句子所占的比例。
在確定模型的權(quán)重δ0和δi后,最終的翻譯模型為這些候選模型的對數(shù)線性插值e^=argmaxe(δ0log(p0(e|c))+Σi=1Mδilog(pi(e|c)))]]>其中,c表示待翻譯的漢語句子,e表示候選翻譯結(jié)果, 表示概率最大的翻譯結(jié)果。p0是利用通用翻譯模型得到的翻譯概率,pi是利用第i個翻譯模型得到的翻譯概率。
根據(jù)該公式及上面的模型選擇策略,當(dāng)最大比例的模型Max_model所占的比例大于0.5時,使用Max_model作為最后的翻譯模型,否則,使用通用模型作為最后的翻譯模型。當(dāng)然,也可以定義更復(fù)雜的模型選擇策略,如下面的策略是根據(jù)檢索到的相似句子中每個子語料庫所占的比例來決定各個子模型的權(quán)重If Proportion(max_model)>0.5δ0=0;δi=proportion(modeli);elseδ0=0.5;δi=0.5×proportion(modeli);步驟203、根據(jù)步驟202所確定的翻譯模型對輸入的待翻譯文本進(jìn)行翻譯,得到最后的翻譯結(jié)果。
本步驟與現(xiàn)有的統(tǒng)計機器翻譯系統(tǒng)中的翻譯實現(xiàn)過程相類似,因此,在本發(fā)明中不再做詳細(xì)說明。
上面是對本發(fā)明的統(tǒng)計機器翻譯中的在線翻譯模型選擇方法實現(xiàn)過程的具體說明,與現(xiàn)有技術(shù)相比,本發(fā)明為收集到的雙語平行語料庫按照類別進(jìn)行了劃分,并為每個子語料庫建立了相應(yīng)的翻譯模型,為所有的雙語平行語料庫建立了通用模型,并為源語言句子建立了相應(yīng)的索引文件。當(dāng)輸入待翻譯文本后,首先搜索相似句子,根據(jù)相似句子選擇翻譯模型,避免了現(xiàn)有技術(shù)采用單一的翻譯模型所造成的翻譯精確度不高,對不同領(lǐng)域翻譯文本適應(yīng)能力弱的缺陷。
根據(jù)本發(fā)明提出的統(tǒng)計機器翻譯中的在線模型選擇方法,本發(fā)明還提出了與之相適應(yīng)的在線翻譯模型選擇系統(tǒng),該系統(tǒng)包括訓(xùn)練模塊和翻譯模塊,其中的訓(xùn)練模塊包括語料庫收集單元、候選翻譯模型訓(xùn)練單元和索引建立單元,翻譯模塊包括檢索單元、候選翻譯模型選擇單元和翻譯單元。
語料庫收集單元用于收集雙語平行語料庫,并根據(jù)所收集雙語平行語料庫的類型,構(gòu)建子語料庫。
候選翻譯模型訓(xùn)練單元用于為子語料庫訓(xùn)練候選翻譯模型。
索引建立單元為子語料庫建立索引,得到語料庫索引文件。
檢索單元用于根據(jù)輸入的待翻譯文本,從語料庫索引文件中檢索與待翻譯文本中的句子相似的句子。
候選翻譯模型選擇單元用于根據(jù)檢索結(jié)果,得到與相似句子所在子語料庫對應(yīng)的候選翻譯模型,從所有的候選翻譯模型中選擇最終翻譯模型。
翻譯單元根據(jù)所選擇的最終翻譯模型對待翻譯文件進(jìn)行翻譯。
最后所應(yīng)說明的是,以上實施例僅用以說明本發(fā)明的技術(shù)方案而非限制。盡管參照實施例對本發(fā)明進(jìn)行了詳細(xì)說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,都不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
1.一種統(tǒng)計機器翻譯中候選翻譯模型生成方法,包括以下步驟步驟101)、收集雙語平行語料庫,根據(jù)類型,將雙語平行語料庫劃分到不同的子語料庫中,從而構(gòu)建不同類型的子語料庫;步驟102)、根據(jù)所述子語料庫,訓(xùn)練候選翻譯模型;步驟103)、為所述子語料庫建立索引,得到語料庫索引文件。
2.根據(jù)權(quán)利要求1所述的統(tǒng)計機器翻譯中候選翻譯模型生成方法,其特征在于,在所述的步驟101)中,將雙語平行語料庫劃分到不同的子語料庫中,是指劃分雙語平行語料庫時,根據(jù)雙語平行語料庫中數(shù)據(jù)的所屬領(lǐng)域、主題和用詞,采用分類或聚類方法將具有相似的領(lǐng)域、主題和用詞的雙語平行語料庫劃分到同一個子語料庫中。
3.根據(jù)權(quán)利要求2所述的統(tǒng)計機器翻譯中候選翻譯模型生成方法,其特征在于,所述的分類或聚類方法為k均值聚類法或k近鄰分類法或最大熵分類法。
4.根據(jù)權(quán)利要求1所述的統(tǒng)計機器翻譯中候選翻譯模型生成方法,其特征在于,所述的步驟102)中,還包括下列步驟對每個子語料庫進(jìn)行翻譯模型的訓(xùn)練,得到對應(yīng)的子翻譯模型;對所有的子語料庫進(jìn)行翻譯模型的訓(xùn)練,得到一個通用的翻譯模型。
5.根據(jù)權(quán)利要求1所述的統(tǒng)計機器翻譯中候選翻譯模型生成方法,其特征在于,在所述的步驟103)中,所述子語料庫建立索引,是指子語料庫中每個翻譯句對的源語言句子建立索引,所述索引包括翻譯句對的源語言句子所在子語料庫的信息。
6.根據(jù)權(quán)利要求5所述的統(tǒng)計機器翻譯中候選翻譯模型生成方法,其特征在于,采用Lemur信息檢索工具建立索引。
7.一種統(tǒng)計機器翻譯中利用候選翻譯模型進(jìn)行翻譯的方法,包括以下步驟步驟201)、輸入待翻譯文本,從語料庫索引文件中檢索與待翻譯文本中的句子相似的句子,得到檢索結(jié)果;步驟202)、根據(jù)所述檢索結(jié)果,得到與相似句子所在子語料庫所對應(yīng)的候選翻譯模型,從所有的候選翻譯模型中選擇最終翻譯模型;步驟203)、根據(jù)所述最終翻譯模型對輸入的待翻譯文本進(jìn)行翻譯,得到最后的翻譯結(jié)果。
8.根據(jù)權(quán)利要求7所述的統(tǒng)計機器翻譯中利用候選翻譯模型進(jìn)行翻譯的方法,其特征在于,在所述的步驟201)中,所述從語料庫索引文件中檢索與待翻譯文本中的句子相似的句子,是指采用相似度檢索方法計算所述的待翻譯文本與語料索引文件中所有索引文檔之間的相似度,然后根據(jù)相似度大小為所有的計算結(jié)果按從大到小依次排序,選擇相似度最高的至少一個句子,所選擇的句子包括該句子所在子語料庫的信息。
9.根據(jù)權(quán)利要求8所述的統(tǒng)計機器翻譯中利用候選翻譯模型進(jìn)行翻譯的方法,其特征在于,所述相似度檢索方法為向量空間模型及TF-IDF相似度計算方法。
10.根據(jù)權(quán)利要求7所述的統(tǒng)計機器翻譯中利用候選翻譯模型進(jìn)行翻譯的方法,其特征在于,在所述的步驟202)中,所述從所有的候選翻譯模型中選擇最終翻譯模型,是指設(shè)定選擇策略,根據(jù)選擇策略從所有的候選翻譯模型中選擇一個候選翻譯模型或幾個候選翻譯模型的組合作為所述的最終翻譯模型。
11.根據(jù)權(quán)利要求10所述的統(tǒng)計機器翻譯中利用候選翻譯模型進(jìn)行翻譯的方法,其特征在于,所述的選擇策略為根據(jù)同一子語料庫中所包含相似句子的個數(shù)確定候選翻譯模型,或結(jié)合相似度的數(shù)值來確定候選翻譯模型。
12.一種統(tǒng)計機器翻譯中的在線翻譯模型選擇方法,包括訓(xùn)練和翻譯兩個階段,其特征在于,所述的訓(xùn)練階段包括以下步驟步驟101)、收集雙語平行語料庫,根據(jù)類型,將雙語平行語料庫劃分到不同的子語料庫中,從而構(gòu)建不同類型的子語料庫;步驟102)、根據(jù)所述子語料庫,訓(xùn)練候選翻譯模型;步驟103)、為所述子語料庫建立索引,得到語料庫索引文件;所述的翻譯階段包括以下步驟步驟201)、輸入待翻譯文本,從所述語料庫索引文件中檢索與待翻譯文本中的句子相似的句子,得到檢索結(jié)果;步驟202)、根據(jù)所述檢索結(jié)果,得到與相似句子所在子語料庫所對應(yīng)的候選翻譯模型,從所有的候選翻譯模型中選擇最終翻譯模型;步驟203)、根據(jù)所述最終翻譯模型對輸入的待翻譯文本進(jìn)行翻譯,得到最后的翻譯結(jié)果。
13.一種統(tǒng)計機器翻譯中的在線翻譯模型選擇系統(tǒng),包括訓(xùn)練模塊和翻譯模塊,其特征在于,所述的訓(xùn)練模塊包括語料庫收集單元、候選翻譯模型訓(xùn)練單元和索引建立單元,所述的翻譯模塊包括檢索單元、候選翻譯模型選擇單元和翻譯單元;其中所述的語料庫收集單元用于收集雙語平行語料庫,并根據(jù)所收集雙語平行語料庫的類型,構(gòu)建子語料庫;所述的候選翻譯模型訓(xùn)練單元用于為所述的子語料庫訓(xùn)練候選翻譯模型;所述的索引建立單元為所述的子語料庫建立索引,得到語料庫索引文件;所述的檢索單元用于根據(jù)輸入的待翻譯文本,從所述的語料庫索引文件中檢索與待翻譯文本中的句子相似的句子;所述的候選翻譯模型選擇單元用于根據(jù)檢索結(jié)果,得到與相似句子所在子語料庫對應(yīng)的候選翻譯模型,從所有的候選翻譯模型中選擇最終翻譯模型;所述的翻譯單元根據(jù)所選擇的最終翻譯模型對待翻譯文件進(jìn)行翻譯。
全文摘要
本發(fā)明公開了一種統(tǒng)計機器翻譯的在線翻譯模型選擇方法,包括訓(xùn)練和翻譯兩個階段,訓(xùn)練階段包括收集雙語平行語料庫,根據(jù)類型,將雙語平行語料庫劃分到不同的子語料庫中;為子語料庫訓(xùn)練候選翻譯模型;為子語料庫建立索引,得到語料庫索引文件;翻譯階段包括輸入待翻譯文本,從語料庫索引文件中檢索與待翻譯文本中的句子相似的句子;根據(jù)檢索結(jié)果,得到與相似句子所在子語料庫所對應(yīng)的候選翻譯模型,從所有的候選翻譯模型中選擇最終翻譯模型;根據(jù)最終翻譯模型對輸入的待翻譯文本進(jìn)行翻譯,得到最后的翻譯結(jié)果。本發(fā)明很好地解決了統(tǒng)計機器翻譯系統(tǒng)不能適應(yīng)不同領(lǐng)域輸入文本的問題,能夠有效地提高統(tǒng)計機器翻譯系統(tǒng)的翻譯質(zhì)量。
文檔編號G06F17/30GK101079028SQ20071009972
公開日2007年11月28日 申請日期2007年5月29日 優(yōu)先權(quán)日2007年5月29日
發(fā)明者呂雅娟, 劉群, 黃瑾 申請人:中國科學(xué)院計算技術(shù)研究所