專利名稱::一種基于非連續(xù)短語的泛化重排序統(tǒng)計(jì)翻譯方法及裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及自然語言處理
技術(shù)領(lǐng)域:
,是一種新的基于非連續(xù)短語的泛化重排序統(tǒng)計(jì)翻譯方法及裝置。
背景技術(shù):
:在統(tǒng)計(jì)機(jī)器翻譯中,基于短語的翻譯模型已經(jīng)改善了基于詞的翻譯模型。在基于短語的翻譯模型中,短語是任意一個(gè)沒有句法限制的連續(xù)的子串,它能夠?qū)W習(xí)到一些局部知識(shí),例如局部排序,或者多詞表達(dá)的翻譯,以及與局部上下文相關(guān)的詞的插入和刪除。但是,在基于短語的翻譯模型中,缺少非連續(xù)短語、較弱的短語重排序能力和泛化能力等關(guān)鍵問題仍然沒有得到有效的解決。為了改善基于短語的翻譯模型,兩個(gè)問題必須要解決。一是短語的類型,既要包括連續(xù)短語,又要涉及到非連續(xù)短語。二是短語的重排序問題?;诰浞ǖ姆g模型利用句法信息在這兩個(gè)問題上做了有益的探索,成為統(tǒng)計(jì)機(jī)器翻譯中的一個(gè)熱點(diǎn)。一般情況下,基于句法的翻譯模型按照句法知識(shí)源可以劃分為兩類基于語言學(xué)句法的翻譯模型和基于形式句法的翻譯模型?;谡Z言學(xué)句法的翻譯模型利用的句法結(jié)構(gòu)來源于句法理論。它們的句法樹要么來自短語結(jié)構(gòu)的分析器,要么來自依存句法分析器。所有這些語言學(xué)句法的翻譯方法使用句法結(jié)構(gòu)知識(shí)來增強(qiáng)它們的重排序能力,也使用了非連續(xù)短語來獲得短語的泛化能力。但是,這些模型高度依賴于句法分析器,翻譯模型的表現(xiàn)也受到句法分析器的準(zhǔn)確性的限制。基于形式句法的翻譯模型釆用了一個(gè)簡單并且有效的機(jī)制,它利用同步上下文無關(guān)文法,并不依賴于任何句法標(biāo)注就可以從平行文本中歸納出文法,改善了基于短語的翻譯模型。吳德凱的括號(hào)轉(zhuǎn)錄文法(BTG)能夠?qū)θ我鈨蓚€(gè)相鄰的待翻譯文種的字符串的翻譯進(jìn)行順序或者逆序的6重排序。由于BTG能夠很好地平衡算法的有效性和語言的表達(dá)能力之間的關(guān)系,所以它在統(tǒng)計(jì)機(jī)器翻譯中得到了廣泛的應(yīng)用。熊德意提出一個(gè)基于最大熵的重排序模型來加強(qiáng)BTG(MEBTG,又稱為最大熵括號(hào)轉(zhuǎn)錄文法),但是無論在BTG還是MEBTG中,短語都只涉及到連續(xù)的字符串。蔣偉提出的基于層次短語的翻譯模型(HPTM)通過將子短語歸約為變量來組織層次短語,不僅對短語進(jìn)行了重排序,而且將一些短語的泛化整合到模型的全局。
發(fā)明內(nèi)容一、要解決的技術(shù)問題現(xiàn)存的基于短語的翻譯的基于短語的翻譯模型有的不能處理非連續(xù)短語,有的只是通過規(guī)則來重排短語,缺乏有效的重排序模型;本發(fā)明的目的在于引入非連續(xù)短語,與一個(gè)重排序的子模型結(jié)合,實(shí)現(xiàn)了短語的局部和全局的重排序,從而完成從待翻譯文種到翻譯文種的翻譯,為此而提供一種基于非連續(xù)短語的泛化重排序統(tǒng)計(jì)翻譯方法及裝置。二、解決技術(shù)問題的技術(shù)方案為達(dá)成所述目的,本發(fā)明第一方面,是提供基于非連續(xù)短語的泛化重排序統(tǒng)計(jì)翻譯方法,分為訓(xùn)練過程和翻譯過程兩部分,具體過程如下-訓(xùn)練過程包括a)對待翻譯文種和翻譯文種的平行訓(xùn)練語料,利用GIZA+十工具,從待翻譯文種到翻譯文種和翻譯文種到待翻譯文種兩個(gè)方向,得到雙向的012八++的詞對齊結(jié)果,并應(yīng)用啟發(fā)式的修正規(guī)則為每一個(gè)句子對獲取一個(gè)多對多的詞對齊。b)使用SRILM工具對訓(xùn)練語料的翻譯文種進(jìn)行訓(xùn)練,生成三元或者多元的語言模型。c)在訓(xùn)練語料詞對齊結(jié)果的基礎(chǔ)上,抽取連續(xù)和非連續(xù)的短語翻譯對并統(tǒng)計(jì)其概率信息;d)在訓(xùn)練語料詞對齊結(jié)果的基礎(chǔ)上,抽取連續(xù)短語的重排序?qū)嵗?,?xùn)練最大熵分類器。e)利用最小錯(cuò)誤訓(xùn)練算法在開發(fā)集上訓(xùn)練我們的翻譯模型參數(shù)。7翻譯過程包括在抽取的連續(xù)和非連續(xù)短語翻譯對以及訓(xùn)練出的最大熵分類器的基礎(chǔ)上,應(yīng)用我們的翻譯模型參數(shù),使用我們的規(guī)則進(jìn)行推導(dǎo),相當(dāng)于對待翻譯文種句子進(jìn)行翻譯及順序的調(diào)整,直至完成翻譯。也就是我們的解碼過程。為達(dá)成所述目的,本發(fā)明第二方面,是提供一種基于非連續(xù)短語的泛化重排序統(tǒng)計(jì)翻譯裝置,由詞對齊模塊、語言模型模塊、抽取短語模塊、訓(xùn)練最大熵分類器模塊,最小錯(cuò)誤訓(xùn)練模塊以及解碼器組成,其中詞對齊模塊接收訓(xùn)練語料,用于對待翻譯文種和翻譯文種平行訓(xùn)練語料,利用GIZA+十工具從待翻譯文種到翻譯文種和翻譯文種到待翻譯文種兩個(gè)方向,得到雙向的012八++詞對齊結(jié)果并應(yīng)用啟發(fā)式修正規(guī)則為每一個(gè)句子對獲取并輸出一個(gè)多對多的詞對齊結(jié)果;語言模型模塊接收訓(xùn)練語料,使用SRILM工具對訓(xùn)練語料的翻譯文種訓(xùn)練,生成三元或者多元的語言模型;抽取短語模塊與詞對齊模塊連接,接收詞對齊模塊在訓(xùn)練語料的詞對齊結(jié)果,用于抽取連續(xù)和非連續(xù)的短語翻譯對并統(tǒng)計(jì)其概率信息;訓(xùn)練最大熵分類器模塊與詞對齊模塊連接,接收詞對齊模塊在訓(xùn)練語料的詞對齊結(jié)果,用于抽取連續(xù)短語的重排序?qū)嵗?,?xùn)練并生成最大熵重排序分類器;最小錯(cuò)誤訓(xùn)練模塊接收開發(fā)集,利用最小錯(cuò)誤訓(xùn)練算法在開發(fā)集上訓(xùn)練并輸出翻譯模型參數(shù);解碼器分別與訓(xùn)練最大熵分類器模塊、抽取短語模塊和最小錯(cuò)誤訓(xùn)練模塊連接,接收抽取短語模塊抽取的連續(xù)和非連續(xù)短語翻譯對,用訓(xùn)練最大熵分類器模塊訓(xùn)練出的最大熵分類器、最小錯(cuò)誤訓(xùn)練模塊的翻譯模型參數(shù),并使用規(guī)則組合抽取短語模塊抽取的連續(xù)和非連續(xù)短語翻譯對,對待翻譯文種句子進(jìn)行翻譯及順序的調(diào)整,獲得待翻譯文種的翻譯。本發(fā)明的有益效果受HPTM和MEBTG的啟發(fā),本發(fā)明提出一個(gè)泛化的重排序模型(GREM),它引入非連續(xù)短語,與一個(gè)重排序的子模型(MEBTG)結(jié)合,實(shí)現(xiàn)了短語的局部和全局的重排序。和MEBTG或者BTG相比,我們的模型通過引入非連續(xù)短語具備了更大的泛化能力。較之8HPTM,HPTM沒有這樣一個(gè)基于最大熵的重排序子模型,它只是通過規(guī)則來重排序,而且HPTM的規(guī)則要比我們的模型多,因?yàn)槲覀兊姆沁B續(xù)短語只允許一個(gè)間隔在待翻譯文種端或者翻譯文種端,而HPTM的層次短語可能有2到3個(gè)變量。另外一個(gè)涉及到非連續(xù)短語的工作,是斯瑪?shù)?Simard)第一個(gè)將多詞表達(dá)引入統(tǒng)計(jì)機(jī)器翻譯,它在待翻譯文種端或者翻譯文種端不必是連續(xù)的,遺憾的是該方法中非連續(xù)短語的間隔(Gap)只能允許一個(gè)詞。這樣限制了非連續(xù)短語的泛化能力,我們的模型允許間隔可以被任意連續(xù)的詞序列來填充,而且我們的模型引入了MEBTG具備了更大的全局的重排序能力。該模型不僅能夠抓住短語的局部和全局重排序知識(shí),而且能夠通過非連續(xù)的短語獲得短語的一定的泛化能力。實(shí)驗(yàn)結(jié)果表明我們的模型GREM分別改善了基于最大熵的重排序模型和基于層次短語的翻譯模型大約1.54%and0.66%的雙語評估替代標(biāo)準(zhǔn)(BilingualEvaluationUnderstudy,BLEU)打分。圖1是本發(fā)明中GREM的一個(gè)例子。圖2是本發(fā)明中訓(xùn)練和翻譯的整體框架圖。具體實(shí)施例方式下面詳細(xì)說明本發(fā)明技術(shù)方案中所涉及的各個(gè)細(xì)節(jié)問題。本發(fā)明提出基于非連續(xù)短語的泛化重排序統(tǒng)計(jì)翻譯方法分為訓(xùn)練過程和翻譯過程兩部分,本發(fā)明中的待翻譯文種和翻譯文種以待翻譯中文和翻譯英文為例,具體過程如下-訓(xùn)練過程包括a)對待翻譯中文和翻譯英文平行訓(xùn)練語料,從待翻譯中文到翻譯英文和翻譯英文到待翻譯中文兩個(gè)方向,通過雙向運(yùn)行012八++并應(yīng)用啟發(fā)式(grow-diag-fmal)的修正規(guī)則為每一個(gè)句子對獲取一個(gè)多對多的詞對齊。b)使用SRILM工具對訓(xùn)練語料的翻譯英文進(jìn)行訓(xùn)練,生成三元或者9多元的語言模型。C)在訓(xùn)練語料詞對齊結(jié)果的基礎(chǔ)上,抽取連續(xù)和非連續(xù)的短語翻譯對并統(tǒng)計(jì)其概率信息;d)在訓(xùn)練語料詞對齊結(jié)果的基礎(chǔ)上,抽取連續(xù)短語的重排序?qū)嵗?xùn)練最大熵分類器。e)利用最小錯(cuò)誤訓(xùn)練算法在開發(fā)集上訓(xùn)練我們的翻譯模型參數(shù)。翻譯過程包括在抽取的連續(xù)和非連續(xù)短語翻譯對以及訓(xùn)練出的最大熵分類器的基礎(chǔ)上,應(yīng)用我們的翻譯模型參數(shù),使用我們的規(guī)則進(jìn)行推導(dǎo),相當(dāng)于對待翻譯中文句子進(jìn)行翻譯及順序的調(diào)整,直至完成翻譯。也就是我們的解碼過程。我們定義一個(gè)非連續(xù)的短語為^"2,只允許一個(gè)占位符O來連接兩個(gè)連續(xù)的串;c,和X2。0作為一個(gè)間隔(Gap)能夠被任何一個(gè)連續(xù)的字符串來填充。之所以只考慮帶有一個(gè)間隔的非連續(xù)短語,是因?yàn)檫@種短語具有最簡單的形式,在保證算法效率的基礎(chǔ)上使得翻譯模型具備一定的表達(dá)能力。在這樣的定義下,短語翻譯對具備四種形式(l)x<~>x;(2)xo乂,0x2;;(3)Xj0x2x;(4)j^O:^G^O:^。這里,每一種短語翻譯對允許在待翻譯中文端或者翻譯英文端存在非連續(xù)短語。其中,短語翻譯對xex和x^^0x2在待翻譯中文端的短語是連續(xù)的,而短語翻譯對x,0;^ex和;c,0x2ex,0x2在待翻譯中文端具備非連續(xù)的短語。在翻譯英文端,短語翻譯對xGx和jc,0;c2^x具備連續(xù)的形式而短語翻譯對Jce^0x2和^0x2ex々;c2卻是非連續(xù)的短語。對于一個(gè)給定的待翻譯中文句子中的任何一個(gè)連續(xù)的串,我們利用規(guī)則來獲取盡可能多的連續(xù)的目標(biāo)翻譯,我們的規(guī)則能夠組合待翻譯中文端或者翻譯英文端的連續(xù)短語或者非連續(xù)短語從而擴(kuò)大待翻譯中文字符串的候選翻譯。進(jìn)而通過MEBTG對任意兩個(gè)相鄰的連續(xù)待翻譯中文短語的目標(biāo)翻譯進(jìn)行重排序來得到該待翻譯中文句子的最后的目標(biāo)翻譯。如上所述,我們的思路可以用圖1中的例子來解釋如下給定一個(gè)待翻譯中文句子"在船上我們有一位精通日語的醫(yī)生";10假設(shè)我們有8個(gè)連續(xù)或者非連續(xù)的短語翻譯對(圖l中的第二行)。圖中的箭頭表示待翻譯中文句子中的詞和短語翻譯對之間的對應(yīng)關(guān)系。每一個(gè)圓角長方形表示一個(gè)短語翻譯對,它們的待翻譯中文端或者翻譯英文端是連續(xù)或者非連續(xù)的。在我們的模型中,通過使用不同的組合規(guī)則我們可以獲得位于第3行的新的連續(xù)的短語翻譯對?;诘诙泻偷谌兴械倪B續(xù)的短語翻譯對,分別使用順序或者逆序的重排序規(guī)則來找到任意兩個(gè)相鄰的翻譯英文短語的順序;這樣就得到了最終的目標(biāo)翻譯"WehaveadoctorwhocanunderstandJapaneseverywellintheship"。從例子中我們可以清楚地看到我們的模型不僅可以抓住短語的局部和全局的重排序,而且通過非連續(xù)短語的使用獲得了一定的短語泛化能力。請參見圖2,本發(fā)明中訓(xùn)練和翻譯裝置的整體框架如下所述1.訓(xùn)練過程中的詞對齊模塊0工2八++是一個(gè)可以免費(fèi)得到的實(shí)現(xiàn)IBM翻譯模型的軟件。我們使用這個(gè)軟件來獲取我們的詞對齊。如果翻譯中英方向,012八++得到的詞對齊,對于每一個(gè)翻譯英文詞,可以對齊到多個(gè)待翻譯中文詞,但是,每一個(gè)待翻譯中文詞最多只能對齊到一個(gè)翻譯英文詞。這個(gè)"一對多"的限制對于逆向的012八++也是反過來的。為了獲取"多對多"的詞對齊,對于中英平行訓(xùn)練語料,利用012八++工具,從兩個(gè)方向(待翻譯中文到翻譯英文和翻譯英文到待翻譯中文)實(shí)現(xiàn)詞對齊,并應(yīng)用啟發(fā)式的修正規(guī)則來得到最后的詞對齊。得到詞對齊后,我們根據(jù)這個(gè)詞對齊直接統(tǒng)計(jì)一個(gè)最大似然詞匯化翻譯表,估計(jì)詞翻譯概率w(el/)和w(/le),用于后續(xù)的短語翻譯概率的計(jì)算。2.語言模型模塊SRILM是一個(gè)可以免費(fèi)得到的用于建立統(tǒng)計(jì)語言模型的工具。我們利用這個(gè)工具對訓(xùn)練語料的翻譯英文端進(jìn)行訓(xùn)練,生成三元或者多元的語言模型。3.抽取短語模塊ii我們從詞對齊的雙語語料開始,<。^,^>為三元組,其中C為一個(gè)待翻譯中文的句子,e為一個(gè)翻譯英文的句子,^為C和e之間的詞對齊。目前的基于短語的翻譯模型經(jīng)常獲取滿足定義1的短語翻譯對^"乂L給定一個(gè)詞對齊的句子對〈c,e,j、f或者^為句子C或者e中任意連續(xù)的非空字符串,<5,^>是一個(gè)短語翻譯對的充要條件為(l)Vc,.ef:(/,乂)e力—勺.ee;-根據(jù)我們模型的定義,我們的短語翻譯對具備四種形式(l)jcox;(2);cojc,0;c2;;(3);c,0義2e:c;(4)x,0x2Ox、0;c2。因而在定義1的基礎(chǔ)上,我們抽取滿足下面定義的短語翻譯對^^H給定一個(gè)詞對齊的句子對〈c,e,^4〉,5或者5為句子c或者e中任意連續(xù)的非空字符串,5<^2是一個(gè)非連續(xù)的非空待翻譯中文的字符串,^;c^是一個(gè)非連續(xù)的非空翻譯英文的字符串。一個(gè)待翻譯中文的短語5既可以是一個(gè)連續(xù)的待翻譯中文字符串f,也可以是一個(gè)非連續(xù)的待翻譯中文字符串502,即5£{^5<^2}。一個(gè)翻譯英文的短語要么是一個(gè)連續(xù)的翻譯英文字符串^,要么是一個(gè)非連續(xù)的翻譯英文字符串^5,g口^e(g,^0i^。那么<5^>是一個(gè)短語翻譯對的充要條件為(1)Vc,.e5:(z',力ej4勺";(2)V。"0.,j.)e"c,^.下面給出我們的連續(xù)和非連續(xù)短語翻譯對的抽取算法,12輸入句子對C,e和它們之間的詞對齊j輸出尸尸5""_7,尸尸S"—2和尸尸5"et—么1:尸尸6""」二^,PPSet—2=0,PPSet—4=0;2:for每一個(gè)間隔(/pZ'2)ecdo3:找到與詞對齊J相容的短語翻譯對Zf〈C'W2>,6U/TO"1;'i,力一4:擴(kuò)展一周圍的對空的目標(biāo)詞得到^5:找到與詞對齊/!相容的短語翻譯對zf<c/2,e73<>ey2>,fl力_/46:擴(kuò)展^周圍對空的目標(biāo)詞得到b,二<《,0《2>,Z/uM"—27:for每一個(gè)^二<^,—2〉e尸尸Sd18:for每一個(gè)62=<c;),e々>£尸尸5^1&&a^</3—i</4+1^/2)10:b="<c,—'0KVL,>,6u,"4利用上述算法可以從c到e的詞對齊中抽取類型(1)、(2)和(4)的短語翻譯對。變量尸i^"表示抽取的短語翻譯對集合,尸尸S"一7、P尸Se^2、尸P6^一j和/^&g分別表示上述4種短語翻譯對集合。受蔣偉的層次短語思想的啟發(fā),我們在抽取過程中標(biāo)注了間隔O的方向。對于短語翻譯對xgx,0jc,,如果它的翻譯英文端的間隔O詞對齊于待翻譯中文端;c的13左邊或者右邊,我們就分別標(biāo)注"CL"或者"CR"。對于短語翻譯對x,0x2GX,如果它的待翻譯中文端的間隔O詞對齊于翻譯英文端X的左邊或者右邊,我們就分別標(biāo)注"EL"或者"ER"。類型(1)和(4)的短語翻譯對,不需要這樣的標(biāo)注。在這個(gè)標(biāo)注的幫助下,我們可以像使用層次短語一樣使用我們的非連續(xù)短語。用同樣的方式我們可以從e到c的詞對齊中抽取類型(1)、(2)和(4)的短語翻譯對,進(jìn)而合并這兩個(gè)方向的每一種類型的短語翻譯對,對于類型(4)的短語翻譯對,為了增加準(zhǔn)確性,我們只取兩個(gè)方向的交集。抽取短語結(jié)束后,短語翻譯對的特征計(jì)算類似于基于短語的翻譯模型。在我們的訓(xùn)練過程中,我們只是將間隔O看做一個(gè)普通的詞,每一個(gè)短語翻譯對都有4個(gè)概率,兩個(gè)方向的基于頻率的翻譯概率和兩個(gè)方向的詞匯化概率。我們對每一個(gè)短語翻譯對的同現(xiàn)分配1次計(jì)數(shù),然后在連續(xù)和非連續(xù)短語中平均分配這個(gè)權(quán)重,用這個(gè)權(quán)重作為觀察數(shù)據(jù)來估計(jì)相對頻率,得到兩個(gè)方向的基于頻率的翻譯概率。4.訓(xùn)練最大熵分類器模塊對連續(xù)短語的重排序,我們選擇熊德意的基于最大熵的重排序模型(MEBTG)。該模型可以從兩個(gè)相鄰的連續(xù)短語翻譯對中提取特征進(jìn)行重排序,而不用管這兩個(gè)短語翻譯對是否出現(xiàn)在訓(xùn)練語料中。我們從詞對齊的訓(xùn)練語料中抽取重排序?qū)嵗M(jìn)而對任意兩個(gè)相鄰的連續(xù)短語翻譯對抽取下面這些特征詞匯化特征相鄰的兩個(gè)待翻譯中文短語或者翻譯英文短語的首詞或者尾詞;組合特征詞匯化特征的組合;使用這些特征訓(xùn)練最大熵重排序分類器。5、規(guī)則集以及我們的翻譯模型為了表示方便,我們使用泛化的喬姆斯基范式(GCNF)來給出我們的規(guī)則。對于終結(jié)符規(guī)則,對應(yīng)于我們的四種短語翻譯對,我們只需要翻譯一個(gè)連續(xù)的待翻譯中文短語Z或者非連續(xù)的待翻譯英文短語Z(2)為它們的連續(xù)的翻譯x或者非連續(xù)的翻譯x,0x2。14<formula>formulaseeoriginaldocumentpage15</formula>在這四個(gè)規(guī)則中,非終結(jié)符出現(xiàn)在規(guī)則表達(dá)式的左端(LHS)。左端的非終結(jié)符寫成列的形式,表示我們的短語翻譯對。連續(xù)的非終結(jié)符X表示一個(gè)連續(xù)的待翻譯中文字符串或者翻譯英文字符串,非連續(xù)的非終結(jié)符用它們連續(xù)的片段的數(shù)目來標(biāo)注,如^中的Z(2)對應(yīng)于短語一個(gè)非終結(jié)符的規(guī)則用下面的7種形式表示:<formula>formulaseeoriginaldocumentpage15</formula>在這幾個(gè)非終結(jié)符規(guī)則中,非終結(jié)符出現(xiàn)在規(guī)則表達(dá)式的左端,或者右端的括號(hào)中。在規(guī)則的每一行,一個(gè)角色模板描述了右端非終結(jié)符10'Z[1,2]I[1,2,1]的相鄰狀態(tài)和相對順序。例如在^的頂行,[1,2]表示兩個(gè)非終結(jié)符的順序是順序,在規(guī)則^的底行,[2,1]表示兩個(gè)非終結(jié)符是逆序的。^和^分別對應(yīng)括號(hào)轉(zhuǎn)錄文法(BTG)的順序和逆序規(guī)貝ij。在。的底行,[2,1,2]表示第二個(gè)非終結(jié)符既在第一個(gè)非終結(jié)符的前面,又在第一個(gè)非終結(jié)符的后面。符號(hào)X(表示連接)按照角色模板來重新安排每一種語言中的非終結(jié)符?;谶@些規(guī)則,我們使用一個(gè)對數(shù)線性模型對每一個(gè)規(guī)則的概率進(jìn)行建模其中《是定義在規(guī)則^上的第/個(gè)特征,&是《的權(quán)重。對于非終結(jié)符規(guī)則^和^,我們使用下面的特征Pr,^.A^(2)其中。為應(yīng)用該重排序規(guī)則的概率,通過最大熵分類器來計(jì)算,;tQ為其權(quán)重;A^為語言模型增量,由公式(3)和(4)來計(jì)算,;t^為權(quán)重二LM(xf4)—丄M(xf)—丄M(xb(3)《6M=丄M(《x〖)-丄M(《)-丄M(x〖)(4)這里,如果我們使用"元語言模型的話,^和《分別表示連續(xù)字符串;^的最左端和最右端的w-l個(gè)詞。其他連續(xù)的字符串的對應(yīng)表示有相同的含義。為字符串'的語言模型概率的對數(shù)。對于規(guī)則^到我們使用下面的特征雙向的翻譯概率;雙向的詞匯化概率;規(guī)則懲罰;詞懲罰;語言模型;我們定義推導(dǎo)D為規(guī)則。到rM的應(yīng)用序列,c(D)和分別為D的待翻譯中文和翻譯英文生成。使用對數(shù)線性模型來模擬推導(dǎo)D的概率Pr(李;QPr(/)(5)16其中Pr(/)為應(yīng)用的規(guī)則中第y次規(guī)則的概率.給定待翻譯中文的句子C,使用下面的決策找到最好的推導(dǎo)0*生成最后的翻譯英文句子==e(argmaxPr(D))(6)c(Z))=c6、解碼器我們開發(fā)了一個(gè)自底向上的CKY(0^e-^,。""-r。""ger)風(fēng)格的解碼器。給定待翻譯中文句子,首先通過終結(jié)符規(guī)則5到q使用我們的短語表初始化搜索空間,每一個(gè)連續(xù)或者非連續(xù)的待翻譯中文的短語都有兩個(gè)可能的選擇連續(xù)的或者非連續(xù)的翻譯或者2者兼有。在待翻譯中文端從/到乂的所有可能的推導(dǎo),放在我們的線圖(chart)從/到j(luò)'的模塊格(Z,力中,(/,y')中的任意一個(gè)子模塊格已經(jīng)在(/,乂)之前得到擴(kuò)展。我們采取2步來完成每一個(gè)子模塊格的推導(dǎo)。首先利用規(guī)則^到&得到每一個(gè)子模塊格的初始假設(shè),并通過合并兩個(gè)子推導(dǎo)的打分來計(jì)算新生成的偏假設(shè)的打分。這樣每一個(gè)模塊格中就只包含連續(xù)的偏假設(shè)了。其后,應(yīng)用規(guī)則^和r6,利用最大熵分類器來重排序任意兩個(gè)相鄰的連續(xù)短語,也就是應(yīng)用MEBTG。當(dāng)整個(gè)源句子被覆蓋,解碼結(jié)束。解碼過程中,我們使用了3種剪枝策略重組剪枝,閾值剪枝以及柱狀剪枝來平衡解碼器的速度和表現(xiàn)。7、最小錯(cuò)誤訓(xùn)練模塊為了獲得最好的翻譯效果,我們在開發(fā)集上使用Och的最大化BLEU訓(xùn)練算法對我們的規(guī)則的不同特征的權(quán)重進(jìn)行訓(xùn)練,生成我們的翻譯模型的參數(shù)。8、實(shí)驗(yàn)我們使用了IWSLT07(InternationalWorkshoponSpokenLanguageTranslation2007)的語料作為實(shí)驗(yàn)數(shù)據(jù),表l列出了訓(xùn)練集、開發(fā)集以及測試集詳細(xì)的實(shí)驗(yàn)數(shù)據(jù)的統(tǒng)計(jì)量。請參見下面表1:SetLanguageSentenceVocabularyASLTrainChinese275,88211,6616.217<table>tableseeoriginaldocumentpage18</column></row><table>其中"ASL"表示平均句子長度。我們的訓(xùn)練集包括IWSLT07發(fā)布的39,953個(gè)中英訓(xùn)練句子對以及來自網(wǎng)絡(luò)fto/r〃/薦加7j'fo./f/畫咖謂謂./2加/;>的235,929個(gè)句子對。我們選擇IWSLT2007發(fā)布的開發(fā)集IWSLT07一CE—devset4作為我們的開發(fā)集來調(diào)整參數(shù),直接使用IWSLT2007發(fā)布的測試集作為我們的測試集。我們選擇熊德意的Bmin系統(tǒng)和蔣偉的Hiero系統(tǒng)作為我們的基線系統(tǒng)用于比較,這兩個(gè)系統(tǒng)是我們實(shí)驗(yàn)室分別根據(jù)相關(guān)論文實(shí)現(xiàn)的。對于Hiero系統(tǒng),抽取滿足定義1的短語翻譯對作為初始規(guī)則,然后抽取不多于兩個(gè)非終結(jié)符的規(guī)則。實(shí)驗(yàn)中要求初始規(guī)則的長度不多于9個(gè)詞,其他規(guī)則不多于5個(gè)終結(jié)符和非終結(jié)符。解碼器也是最大化推導(dǎo)概率的CKY風(fēng)格的線圖分析器。搜索空間使用40限制線圖單元格的大小進(jìn)行剪枝,使用IO作為閾值剪枝來去掉那些比單元格中當(dāng)前最好假設(shè)差的翻譯假設(shè)。對于Bmin系統(tǒng),我們抽取滿足定義1的短語翻譯對,短語長度限制也是9個(gè)詞。從訓(xùn)練語料中抽取重排序?qū)嵗?,使用來自網(wǎng)絡(luò)(A即,〃moyg故w"rce/^gg."g//)的最大熵分類器來訓(xùn)練重排序模型,解碼過程中,閾值剪枝和柱狀剪枝同Hiero系統(tǒng)。對于我們的系統(tǒng),主要參數(shù),例如最大熵重排序模型、語言模型和連續(xù)的短語表與Bruin系統(tǒng)完全相同,只是添加了一個(gè)非連續(xù)的短語表。為了比較Hiero系統(tǒng)和我們系統(tǒng)的規(guī)則的數(shù)量,我們使用了一個(gè)包含502個(gè)句子對的人工標(biāo)注詞對齊的語料分別進(jìn)行規(guī)則抽取,對于Hiero規(guī)則,限制非終結(jié)符不超過2個(gè),初始規(guī)則的長度不多于10個(gè)詞,其他規(guī)則不多于5個(gè)終結(jié)符和非終結(jié)符。我們總共得到Hiero的包含最多2個(gè)非終結(jié)符的406458個(gè)規(guī)則,我們的規(guī)則可以覆蓋Hiero規(guī)則所有的只有1個(gè)非終結(jié)符的規(guī)則和一部分2個(gè)非終結(jié)符的規(guī)則。例如,如果一個(gè)Hiero規(guī)則具備這樣的形式"〈^^^7'"gjr2S/n力g,J^/n'唯Z^/n力g〉","string"表示一個(gè)終結(jié)符串,"X"表示一個(gè)非終結(jié)符,我們可以將它看做我們的規(guī)則^和^的組合。表2中列出了Hiero規(guī)則和和本發(fā)明規(guī)則的比較,請參見下面表2:<table>tableseeoriginaldocumentpage19</column></row><table>可以看出,本發(fā)明的規(guī)則可以覆蓋Hiero規(guī)則的76.16%。表3列出了在翻譯過程中3個(gè)系統(tǒng)規(guī)則應(yīng)用的數(shù)目,請參見下面表3:<table>tableseeoriginaldocumentpage19</column></row><table>我們從訓(xùn)練語料中抽取每一種規(guī)則,并用開發(fā)集或者測試集進(jìn)行過濾。對Bmin系統(tǒng),我們只使用了連續(xù)短語。其他這兩個(gè)系統(tǒng),都使用了連續(xù)和非連續(xù)短語。可以看出,我們的規(guī)則比Hiero系統(tǒng)要少得多。表4:不同系統(tǒng)的翻譯效果比較,請參見下面表4:<table>tableseeoriginaldocumentpage20</column></row><table>表4列出了三個(gè)系統(tǒng)的翻譯表現(xiàn),可以看出,我們的方法改善了基線系統(tǒng)Bruin和Hiero大約1.54°/。and0.66%的BLEU打分。實(shí)驗(yàn)分析表明我們模型通過引入非連續(xù)短語,較之Bruin系統(tǒng)獲取了更多的短語泛化能力。我們的模型使用較少的規(guī)則就獲得了與Hiero系統(tǒng)相當(dāng)?shù)姆g效果。我們模型的規(guī)則相當(dāng)于Hiero的規(guī)則的一個(gè)子集,因?yàn)槲覀兊囊?guī)則只允許一個(gè)間隔,而Hiero可以有1個(gè)或者多個(gè)非終結(jié)符。實(shí)驗(yàn)也說明,Hiero的大量規(guī)則可以簡化成一個(gè)相對比較整潔的形式,就像我們的規(guī)則一樣。以上所述,僅為本發(fā)明中的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。權(quán)利要求1、一種基于非連續(xù)短語的泛化重排序統(tǒng)計(jì)翻譯方法,步驟如下訓(xùn)練步驟包括a)對待翻譯文種和翻譯文種的平行訓(xùn)練語料,利用GIZA++工具,從待翻譯文種到翻譯文種和翻譯文種到待翻譯文種兩個(gè)方向,雙向運(yùn)行GIZA++工具并應(yīng)用啟發(fā)式的修正規(guī)則為每一個(gè)句子對獲取一個(gè)多對多的詞對齊;b)使用SRILM工具對訓(xùn)練語料的翻譯文種進(jìn)行訓(xùn)練,生成三元或者多元的語言模型;c)在訓(xùn)練語料詞對齊結(jié)果的基礎(chǔ)上,抽取連續(xù)和非連續(xù)的短語翻譯對并統(tǒng)計(jì)其概率信息;d)在訓(xùn)練語料詞對齊結(jié)果的基礎(chǔ)上,抽取連續(xù)短語的重排序?qū)嵗?,?xùn)練最大熵分類器;e)利用最小錯(cuò)誤訓(xùn)練算法在開發(fā)集上訓(xùn)練翻譯模型參數(shù);翻譯步驟包括在抽取的連續(xù)和非連續(xù)短語翻譯對以及訓(xùn)練出的最大熵分類器的基礎(chǔ)上,應(yīng)用翻譯模型參數(shù),使用規(guī)則對待翻譯文種句子進(jìn)行翻譯及順序的調(diào)整,直至完成解碼、翻譯。2、根據(jù)權(quán)利要求l所述的泛化重排序統(tǒng)計(jì)翻譯方法,其特征在于,所述非連續(xù)的短語為帶有一個(gè)間隔0的非連續(xù)短語x,0;^,只允許一個(gè)占位符O來連接兩個(gè)連續(xù)的非空的字符串x,和x^O作為一個(gè)間隔在翻譯過程中被任何一個(gè)同一文種的連續(xù)的字符串來填充,生成具有最簡單形式的連續(xù)短語用于在保證算法效率的基礎(chǔ)上使得翻譯模型具備一定的表達(dá)能力。3、根據(jù)權(quán)利要求l所述的泛化重排序統(tǒng)計(jì)翻譯方法,其特征在于,所述包含非連續(xù)的短語x,0^的短語翻譯對具備四種形式(2)xGXjO;^;;(3)x0x2Gx;(4);c,0x2Gx,0x2,其中x、x,或者^表示任意連續(xù)的非空的字符串。4、根據(jù)權(quán)利要求3所述的泛化重排序統(tǒng)計(jì)翻譯方法,其特征在于,所述的每一種短語翻譯對允許在源語言端存在非連續(xù)短語,其中,短語翻譯對的形式為xox和;cGjc^&在源語言端具有連續(xù)的短語,而短語翻譯對形式為^<^2ex和;c^a^x,Oj^在源語言端具有非連續(xù)的短語。5、根據(jù)權(quán)利要求3所述的泛化重排序統(tǒng)計(jì)翻譯方法,其特征在于,所述每一種短語翻譯對允許在目標(biāo)語言端存在非連續(xù)短語,其中,短語翻譯對的形式xGx和x,0x2Gx在目標(biāo)語言端具備連續(xù)的形式,而形式xox^x2和形式x^ae、<^2在目標(biāo)語言端是非連續(xù)的短語。6、根據(jù)權(quán)利要求2所述的泛化重排序統(tǒng)計(jì)翻譯方法,其特征在于,對于一個(gè)給定的待翻譯文種的句子中的任何一個(gè)連續(xù)的字符串,利用組合待翻譯文種端或者翻譯文種端的連續(xù)短語或者非連續(xù)短語從而擴(kuò)大該待翻譯文種字符串的候選翻譯的規(guī)則,獲取盡可能多的連續(xù)的目標(biāo)翻譯。7、根據(jù)權(quán)利要求6所述的泛化重排序統(tǒng)計(jì)翻譯方法,其特征在于,規(guī)則包括從^到/;的四個(gè)終結(jié)符規(guī)則和從^到&的7個(gè)非終結(jié)符規(guī)則,其中規(guī)則表達(dá)式為<formula>formulaseeoriginaldocumentpage3</formula>在r,到^的四個(gè)終結(jié)符規(guī)則中,表達(dá)式的左端列的連續(xù)的非終結(jié)符x表示一個(gè)連續(xù)的待翻譯文種的字符串或者翻譯文種的字符串,表示為短語翻譯對;其非連續(xù)的非終結(jié)符用它們連續(xù)的片段的數(shù)目來標(biāo)注,Z(2)對應(yīng)于非連續(xù)短語x,0x2;<formula>formulaseeoriginaldocumentpage3</formula><formula>formulaseeoriginaldocumentpage4</formula>在^到^的7非終結(jié)符規(guī)則中,非終結(jié)符Z在規(guī)則表達(dá)式的左端,或者右端的括號(hào)中;在規(guī)則的每一行,一個(gè)角色模板描述了右端非終結(jié)符的相鄰狀態(tài)和相對順序;在M勺頂行孔2]表示兩個(gè)非終結(jié)符的順序是順序,在規(guī)則^的底行,[2,1]表示兩個(gè)非終結(jié)符是逆序的;〃5和^6分別對應(yīng)括號(hào)轉(zhuǎn)錄文法的順序和逆序規(guī)則;在。的底行,[2,1,2]表示第二個(gè)非終結(jié)符既在第一個(gè)非終結(jié)符的前面,又在第一個(gè)非終結(jié)符的后面;符號(hào)x表示連接,并按照角色模板來重新安排每一種語言中的非終結(jié)符。8、根據(jù)權(quán)利要求6所述的泛化重排序統(tǒng)計(jì)翻譯方法,其特征在于,通過最大熵括號(hào)轉(zhuǎn)錄文法對任意兩個(gè)相鄰的連續(xù)待翻譯文種的短語的目標(biāo)翻譯進(jìn)行重排序來得到該待翻譯文種句子的最后的目標(biāo)翻譯。9、一種基于非連續(xù)短語的泛化重排序統(tǒng)計(jì)翻譯裝置,其特征在于,由詞對齊模塊、語言模型模塊、抽取短語模塊、訓(xùn)練最大熵分類器模塊,最小錯(cuò)誤訓(xùn)練模塊以及解碼器組成;其中詞對齊模塊接收訓(xùn)練語料,用于對待翻譯文種和翻譯文種平行訓(xùn)練語料,利用GIZA十十工具從待翻譯文種到翻譯文種和翻譯文種到待翻譯文種兩個(gè)方向,得到訓(xùn)練語料雙向012八++的詞對齊,并應(yīng)用啟發(fā)式修正規(guī)則為每一個(gè)句子對獲取并輸出一個(gè)多對多的詞對齊結(jié)果;語言模型模塊接收訓(xùn)練語料,使用SRILM工具對訓(xùn)練語料的翻譯文種訓(xùn)練,生成三元或者多元的語言模型;抽取短語模塊與詞對齊模塊連接,接收詞對齊模塊在訓(xùn)練語料的詞對齊結(jié)果,用于抽取連續(xù)和非連續(xù)的短語翻譯對并統(tǒng)計(jì)其概率信息;訓(xùn)練最大熵分類器模塊與詞對齊模塊連接,接收詞對齊模塊在訓(xùn)練語料的詞對齊結(jié)果,用于抽取連續(xù)短語的重排序?qū)嵗?xùn)練并生成最大熵重排序分類器;最小錯(cuò)誤訓(xùn)練模塊接收開發(fā)集,利用最小錯(cuò)誤訓(xùn)練算法在開發(fā)集上訓(xùn)練并輸出翻譯模型參數(shù);解碼器分別與訓(xùn)練最大熵分類器模塊、抽取短語模塊和最小錯(cuò)誤訓(xùn)練模塊連接,接收抽取短語模塊抽取的連續(xù)和非連續(xù)短語翻譯對,用訓(xùn)練最大熵分類器模塊訓(xùn)練出的最大熵分類器、最小錯(cuò)誤訓(xùn)練模塊的翻譯模型參數(shù),并使用規(guī)則組合抽取短語模塊抽取的連續(xù)和非連續(xù)短語翻譯對,對待翻譯文種句子進(jìn)行翻譯及順序的調(diào)整,獲得待翻譯文種的翻譯。10、根據(jù)權(quán)利要求9所述的泛化重排序統(tǒng)計(jì)翻譯裝置,其特征在于,解碼器是一個(gè)自底向上的CKY風(fēng)格的解碼器,使用了三種剪枝策略重組剪枝,閾值剪枝以及柱狀剪枝來平衡解碼器的速度和表現(xiàn)。全文摘要一種基于非連續(xù)短語的泛化重排序統(tǒng)計(jì)翻譯方法及裝置,由詞對齊模塊、語言模型模塊、抽取短語模塊、訓(xùn)練最大熵分類器模塊,最小錯(cuò)誤訓(xùn)練模塊以及解碼器組成裝置,對基于短語的統(tǒng)計(jì)機(jī)器翻譯給出泛化的重排序模型,引入非連續(xù)短語,對于給定的待翻譯文種中的任何一個(gè)連續(xù)的串,利用規(guī)則來組合連續(xù)短語和非連續(xù)短語,來獲取盡可能多的連續(xù)的目標(biāo)翻譯,同時(shí)與一個(gè)重排序的子模型結(jié)合,實(shí)現(xiàn)短語的局部和全局的重排序,得到該源語言句子的最后的目標(biāo)翻譯。該模型能夠抓住短語的局部和全局重排序知識(shí),而且能夠通過非連續(xù)的短語獲得短語的泛化能力。實(shí)驗(yàn)結(jié)果表明模型改善了基于最大熵的重排序模型和基于層次短語的翻譯模型大約1.54%and0.66%的BLEU打分。文檔編號(hào)G06F17/28GK101685441SQ20081022277公開日2010年3月31日申請日期2008年9月24日優(yōu)先權(quán)日2008年9月24日發(fā)明者何彥青,宗成慶申請人:中國科學(xué)院自動(dòng)化研究所