專利名稱:評價、選擇例句對,構建通用例句庫,機器翻譯的方法及裝置的制作方法
技術領域:
本發明涉及信息處理技術,具體地,涉及對進行了對齊的雙語語料庫中的例句對
進行評價,從進行了對齊的雙語語料庫中選擇例句對,利用進行了對齊的雙語語料庫構建 通用例句庫,以及機器翻譯的技術。
背景技術:
基于實例的機器翻譯(Example-based Machine Translation, EBMT)技術的基本 思想是通過修改與輸入句子相似的例句對來生成譯文。該技術首先搜索進行了對齊的雙 語語料庫,以查找與輸入句子相似的匹配例句對,然后識別出輸入句子和匹配例句對之間 的不同之處,最后EBMT模型消除例句對中的不同從而生成譯文。EBMT技術的具體細節可 以參見Harold Somers, Review Article :Example_based Machine Translation, Machine Translation, v. 14n. 2, p. 113-157, June 1999,在此通過參考引入其整個內容。
從EBMT技術的基本思想可以看出,譯文主要來源于匹配例句對,因此,用于EBMT 模型的例句對質量會在很大程度上影響EBMT模型的性能。 然而,在現有的雙語語料庫中,存在大量的不規范例句對,例如,習慣用語,意譯例 句對等等,這些例句對包含了大量的不正式的語法信息。從EBMT技術的基本思想來看,這 些例句對不適合被EBMT模型修改來生成輸入句子的譯文。 此外,EBMT技術受到硬件條件的限制(例如內存、處理器速度等),用于EBMT模型 的例句庫的規模不能太大。 因此,需要一種為EBMT模型選擇通用、可靠的例句對的方法。
發明內容
為了解決上述現有技術中存在的問題,本發明提供了對進行了對齊的雙語語料庫 中的例句對進行評價的方法,從進行了對齊的雙語語料庫中選擇例句對的方法,利用進行 了對齊的雙語語料庫構建通用例句庫的方法,機器翻譯的方法,對進行了對齊的雙語語料 庫中的例句對進行評價的裝置,從進行了對齊的雙語語料庫中選擇例句對的裝置,利用進 行了對齊的雙語語料庫構建通用例句庫的裝置和機器翻譯的裝置。 根據本發明的一個方面,提供了 一種對進行了對齊的雙語語料庫中的例句對進行 評價的方法,上述雙語語料庫包括多對相對應的第一語種和第二語種的例句以及每對例句 之間的對齊信息,上述方法包括以下步驟根據給定的例句對中的第一語種的例句在上述 雙語語料庫中的覆蓋率和/或上述給定的例句對中的上述第一語種的例句和第二語種的 例句之間的一致性,計算上述給定的例句對的得分;其中,基于上述計算出的得分,對上述 給定的例句對進行評價。 根據本發明的另一個方面,提供了一種從進行了對齊的雙語語料庫中選擇例句對 的方法,上述雙語語料庫包括多對相對應的第一語種和第二語種的例句以及每對例句之間的對齊信息,上述方法包括以下步驟根據上述對進行了對齊的雙語語料庫中的例句對進 行評價的方法,計算給定的例句對的得分;以及將上述計算出的得分與給定的閾值進行比 較;其中,如果上述得分大于上述閾值,則將上述給定的例句對選出。 根據本發明的另一個方面,提供了一種利用進行了對齊的雙語語料庫構建通用例 句庫的方法,上述雙語語料庫包括多對相對應的第一語種和第二語種的例句以及每對例句 之間的對齊信息,上述方法包括步驟1 :根據上述對進行了對齊的雙語語料庫中的例句對 進行評價的方法,計算上述雙語語料庫中的每一個例句對的得分;步驟2 :根據上述得分的 降序對上述雙語語料庫中的例句對進行排序;以及步驟3 :確定上述步驟2排序后的第l個 例句對的得分是否大于給定的閾值,其中如果上述第1個例句對的得分大于上述給定的閾 值,則將上述第1個例句對加入上述通用例句庫。 根據本發明的另一個方面,提供了一種機器翻譯的方法,包括以下步驟為待翻譯 的第一語種的句子,在根據上述從進行了對齊的雙語語料庫中選擇例句對的方法選擇出的 例句對或根據上述利用進行了對齊的雙語語料庫構建通用例句庫的方法構建的通用例句 庫中查找相似的第一語種的例句;為上述待翻譯的第一語種的句子與上述相似的第一語種 的例句之間的區別部分準備相應的譯文;以及將與上述相似的第一語種的例句相對應的第 二語種的例句以及上述區別部分的譯文組合,生成參考譯文。 根據本發明的另一個方面,提供了一種對進行了對齊的雙語語料庫中的例句對進 行評價的裝置,上述雙語語料庫包括多對相對應的第一語種和第二語種的例句以及每對例 句之間的對齊信息,上述裝置包括得分計算單元,根據給定的例句對中的第一語種的例句 在上述雙語語料庫中的覆蓋率和/或上述給定的例句對中的上述第一語種的例句和第二 語種的例句之間的一致性,計算上述給定的例句對的得分;其中,基于上述得分計算單元計 算出的得分,對上述給定的例句對進行評價。 根據本發明的另一個方面,提供了一種從進行了對齊的雙語語料庫中選擇例句對 的裝置,上述雙語語料庫包括多對相對應的第一語種和第二語種的例句以及每對例句之間 的對齊信息,上述裝置包括上述對進行了對齊的雙語語料庫中的例句對進行評價的裝置, 用于計算給定的例句對的得分;以及比較單元,用于將上述計算出的得分與給定的閾值進 行比較;其中,如果上述得分大于上述閾值,則將上述給定的例句對選出。
根據本發明的另一個方面,提供了一種利用進行了對齊的雙語語料庫構建通用例 句庫的裝置,上述雙語語料庫包括多對相對應的第一語種和第二語種的例句以及每對例句 之間的對齊信息,上述裝置包括上述對進行了對齊的雙語語料庫中的例句對進行評價的 裝置,用于執行步驟1 :計算上述雙語語料庫中的每一個例句對的得分;排序單元,用于執 行步驟2 :根據上述得分的降序對上述雙語語料庫中的例句對進行排序;以及確定單元,用 于執行步驟3 :確定上述排序單元排序后的第l個例句對的得分是否大于給定的閾值,其中 如果上述第1個例句對的得分大于上述給定的閾值,則將上述第1個例句對加入上述通用 例句庫。 根據本發明的另一個方面,提供了一種機器翻譯的裝置,包括相似例句查找單 元,用于為待翻譯的第一語種的句子,在根據上述從進行了對齊的雙語語料庫中選擇例句 對的裝置選擇出的例句對或根據上述利用進行了對齊的雙語語料庫構建通用例句庫的裝 置構建的通用例句庫中查找相似的第一語種的例句;區別部分譯文準備單元,用于為上述
10待翻譯的第一語種的句子與上述相似的第一語種的例句之間的區別部分準備相應的譯文; 以及參考譯文生成單元,用于將與上述相似的第一語種的例句相對應的第二語種的例句以 及上述區別部分的譯文組合,生成參考譯文。
相信通過以下結合附圖對本發明具體實施方式
的說明,能夠使人們更好地了解本 發明上述的特點、優點和目的。
圖1是根據本發明的一個實施例的對進行了對齊的雙語語料庫中的例句對進行 評價的方法的流程圖;
圖2是根據本發明的另
的方法的流程圖;
圖3是根據本發明的另
句庫的方法的流程-個實施例的機器翻譯的方法的流程圖; ,一個實施例的對進行了對齊的雙語語料庫中的例句對進
個實施例的從進行了對齊的雙語語料庫中選擇例句對 個實施例的利用進行了對齊的雙語語料庫構建通用例 圖4是根據本發明的另
圖5是根據本發明的另
行評價的裝置的方框圖;
圖6是根據本發明的另
的裝置的方框圖;
圖7是根據本發明的另
句庫的裝置的方框圖;以及
圖8是根據本發明的另一
一個實施例的從進行了對齊的雙語語料庫中選擇例句對 一個實施例的利用進行了對齊的雙語語料庫構建通用例 個實施例的機器翻譯的裝置的方框圖。
具體實施例方式
下面就結合附圖對本發明的各個實施例進行詳細的說明。
對講行了對齊的雙語i吾料庫中的例句對講行評價的方法 本實施例的對進行了對齊的雙語語料庫中的例句對進行評價的方法通過使用"覆 蓋率"和"一致性"來綜合評價每個例句對的質量,其中,覆蓋率描述了例句對的通用性,而
一致性描述了例句對被EBMT模型使用時的可靠性。 圖1是根據本發明的一個實施例的對進行了對齊的雙語語料庫中的例句對進行 評價的方法的流程圖。如圖1所示,首先,在步驟101,對于進行了對齊的雙語語料庫中的一 個給定的例句對,計算給定的例句對中的第一語種的例句在雙語語料庫中的覆蓋率。
在本實施例中,進行了對齊的雙語語料庫是由專業人員(例如,翻譯人員)手工或 計算機自動進行了詞對齊的雙語語料庫,其包括多對互為譯文的相對應的第一語種和第二 語種的例句以及每對例句之間的對齊信息。 具體地,在步驟l,首先計算給定的例句對中的第一語種的例句與雙語語料庫中的 任一例句對中的第一語種的例句之間的相似度。在本領域中,有許多方法來計算兩個例句 之間的相似度。在本實施例中,僅以兩個例句之間的編輯距離為例來說明計算相似度的具 體細節,但是應該理解,本發明并不限于此,可以利用本領域的技術人員公知的任何方法來 計算兩個例句之間的相似度。
11
在本實施例中,所謂"編輯距離"是指"從原串轉換到目標串所需要的最少的插入、刪除和替換的數目",或者說"讓字符串l和字符串2變成相同字符串需要的最小的操作(插入、刪除和替換)次數"。該定義最早出現在V.Levenshtein, "Binary codesc即able of correctingspurious insertions and deletions of ones,,, Problems ofInformationTransmission, 1 :8-17, 1965,在此通過參考引入其整個內容。現在,編輯距離廣泛地應用于計算機領域,已經成為了一個經典算法。 具體地,例如,可以利用以下公式(1)計算兩個例句之間的相似度 <formula>formula see original document page 12</formula>(1) 其中,e為上述給定的例句對中的第一語種的例句,ei為上述雙語語料庫中的第i個例句對中的第一語種的例句,|e|為上述例句e中的詞的個數,|eJ為上述例句ei中的詞的個數,S(ei, e)為上述例句e與上述例句ei之間的相似度,以及ED(ei, e)為上述例句e與上述例句ei之間的編輯距離。 在利用上述公式(1)計算得到給定的例句對中的第一語種的例句與雙語語料庫
中的任一例句對中的第一語種的例句之間的相似度之后,計算上述相似度的平均值,作為
上述給定的例句對中的第一語種的例句在上述雙語語料庫中的覆蓋率。 在本實施例中,在計算上述相似度的平均值的過程中,可以使用任何平均值,例如
加權平均值、算術平均值、幾何平均值或其任意組合。 可選地,為了減少計算量,也可以首先根據上述相似度的降序對上述雙語語料庫中的例句對進行排序,然后計算上述排序后的前N個例句對的相似度的平均值作為上述平均值。 具體地,例如,可以利用以下公式(2)計算上述平均值,即覆蓋率
其中,Cov(e)為在步驟101中所要計算的上述給定的例句對中的第一語種的例句
在雙語語料庫中的覆蓋率,以及EN為上述排序后的前N個例句對組成的集合。 返回圖l,下面,本實施例的方法在步驟105中計算給定的例句對中的第一語種的
例句和第二語種的例句之間的一致性。具體地,在本實施例中,計算一致性的算法包括三個部分。 第一部分,根據上述給定的例句對中的上述第一語種的例句的長度,計算上述給定的例句對中的上述第二語種的例句的長度的概率。對于一個確定的語言對來說,目標語句子的長度和源語言句子的長度有一個大致的對應關系,也就是說,如果給定源語言句子的長度,那么可以估計出目標語句子的長度。同樣,利用目標語句子的長度和源語言句子的長度的對應關系,可以估計出目標語句子匹配源語言句子的程度,該匹配程度可以部分地反映雙語例句對的質量。
具體地,例如,可以利用以下公式(3)計算上述概率
L(e, f) = logp(llJ) (3) 其中,e為上述給定的例句對中的上述第一語種的例句,f為上述給定的例句對中的上述第二語種的例句,I為上述例句e的長度,J為上述例句f的長度,以及L(e, f)為上述概率。 第二部分,根據上述雙語語料庫中的對齊信息,計算上述給定的例句對中的上述
第一語種的例句和上述第二語種的例句中被對齊的詞占所有詞的比率。 具體地,例如,可以利用以下公式(4)計算上述比率
餘,/)二log(^---)
(4) 其中,e為上述給定的例句對中的第一語種的例句,f為上述給定的例句對中的第二語種的例句,tWi為上述例句e中的第i個詞,SWj為上述例句f中的第j個詞,x為上述例句e中的任意詞,y為上述例句f中的任意詞,I為上述例句e的長度,J為上述例句f的長度,a為上述對齊信息中的上述例句e與上述例句f之間的對齊信息,以及R(e, f)為上述比率。 第三部分,根據上述雙語語料庫中的對齊信息,計算上述給定的例句對中的上述
第一語種的例句和上述第二語種的例句之間的詞對齊概率。 具體地,例如,可以利用以下公式(5)計算上述詞對齊概率
》0g(; O,1,》)尸0,/)二^^- (5)
a 其中,e為上述給定的例句對中的第一語種的例句,f為上述給定的例句對中的第二語種的例句,tWi為上述例句e中的第i個詞,SWj為上述例句f中的第j個詞,p (tWi I SWj)為上述例句e中的第i個詞tWi與上述例句f中的第j個詞SWj之間的對齊概率,a為上述對齊信息中的上述例句e與上述例句f之間的對齊信息,|a|為上述對齊信息a中對齊的詞對的個數,以及P(e, f)為上述詞對齊概率。 在利用上述公式(3)至公式(5)分別計算得到上述概率L(e,f)、上述比率R(e,f)和上述詞對齊概率P(e, f)之后,計算上述概率L(e, f)、上述比率R(e, f)和上述詞對齊概率P(e, f)的平均值,作為上述給定的例句對中的上述第一語種的例句和上述第二語種的例句之間的一致性。 在本實施例中,在計算上述平均值的過程中,可以使用任何平均值,例如加權平均值、算術平均值、幾何平均值或其任意組合。 具體地,例如,可以利用以下公式(6)計算上述一致性
Con(e, f) = ML(e, f) + A2*R(e, f) + A3*P(e, f) (6)p A 2和A 3分別為上述概率L(e, f)、上述比率R(e, f)和上述詞對齊概率P(e,f)的權重,以及Con(e,f)為在步驟105中所要計算的給定的例句對中的第一語種的例句和第二語種的例句之間的一致性。 返回圖I,最后,在步驟IIO,根據在步驟IOI中計算得到的給定的例句對中的第一語種的例句e在上述雙語語料庫中的覆蓋率Cov(e)和/或在步驟105中計算得到的給定的例句對中的第一語種的例句e和第二語種的例句f之間的一致性Con(e,f),計算上述給定的例句對(e,f)的得分。 在本實施例中,既可以將上述覆蓋率Cov(e)作為上述給定的例句對(e, f)的得分,也可以將上述一致性Con(e,f)作為上述給定的例句對(e,f)的得分,還可以將上述覆蓋率Cov(e)和上述一致性Con(e,f)的平均值作為上述給定的例句對(e, f)的得分,本發明對此沒有任何限制。 在本實施例中,在計算上述覆蓋率Cov(e)和上述一致性Con(e, f)的平均值的過程中,可以使用任何平均值,例如加權平均值、算術平均值、幾何平均值或其任意組合。
具體地,例如,可以利用以下公式(7)計算上述得分
Sore(e, f) = P ^Coy(e) + e^Con(e, f) (7) 其中,|3工和|3 2分別為上述覆蓋率Cov(e)和上述一致性Con(e, f)的權重,以及Sore(e, f)為在步驟110中所要計算給定的例句對的得分。 在本實施例中,雖然參考圖1描述了在步驟101中計算覆蓋率,而在步驟105中計算一致性,但是本發明對計算覆蓋率和一致性的順序沒有任何限制,可以將步驟101和步驟105的順序顛倒。 此外,在本實施例中,雖然描述了在步驟101中計算覆蓋率并在步驟105中計算一致性,但是如果在覆蓋率和一致性已知的情況下,本發明的方法可以直接根據覆蓋率和/或一致性來計算給定的例句對的得分,從而對給定的例句對進行評價。 通過本實施例的對進行了對齊的雙語語料庫中的例句對進行評價的方法,可以利用覆蓋率和一致性對雙語語料庫中的例句對進行評價,從而可以知道那些例句對是通用、可靠的例句對,進而可以為EBMT模型提供有效的信息。
從講行了對齊的雙語i吾料庫中詵擇例句對的方法 在同一發明構思下,圖2是根據本發明的另一個實施例的從進行了對齊的雙語語料庫中選擇例句對的方法的流程圖。下面就結合該圖,對本實施例進行描述。對于那些與前面實施例相同的部分,適當省略其說明。 如圖2所示,首先,在步驟201,利用上述參考圖1的實施例的對進行了對齊的雙語語料庫中的例句對進行評價的方法,具體地,利用上述步驟101、步驟105和步驟IIO,計算雙語語料庫中的一個給定的例句對的得分。 接著,在步驟205,確定在步驟201中計算的得分是否大于一個給定的閾值。這里的閾值可以根據實際需要進行設定。例如,如果要求選出質量很好的例句對,則可以將閾值設得較高,否則,可以將閾值設得較低,本發明對此沒有任何限制。 如果在步驟205中確定給定的例句對的得分小于給定的閾值,則本實施例的方法在步驟215中結束。另一方面,如果給定的例句對的得分大于給定的閾值,則在步驟210中將給定的例句對選出。
14
通過本實施例的從進行了對齊的雙語語料庫中選擇例句對的方法,可以利用上述 參考圖1的實施例的對進行了對齊的雙語語料庫中的例句對進行評價的方法計算例句對 的得分,并將得分較高的例句對從雙語語料庫中選出,從而可以為EBMT模型提供通用、可 靠的例句對,進而可以提高EBMT模型的準確率和效率。
利用講行了對齊的雙語i吾料庫構建通用例句庫的方法 在同一發明構思下,圖3是根據本發明的另一個實施例的利用進行了對齊的雙語 語料庫構建通用例句庫的方法的流程圖。下面就結合該圖,對本實施例進行描述。對于那 些與前面實施例相同的部分,適當省略其說明。 如圖3所示,首先,在步驟301,利用上述參考圖1的實施例的對進行了對齊的雙語 語料庫中的例句對進行評價的方法,具體地,利用上述步驟101、步驟105和步驟IIO,計算 雙語語料庫10中的每一個例句對的得分。 接著,在步驟305,根據在步驟301中計算出的得分的降序對雙語語料庫10中的例 句對進行排序。 接著,在步驟310,確定排序后的第1個例句對的得分是否大于一個給定的閾值。 這里的閾值可以根據實際需要進行設定。例如,如果要求選出質量很好的例句對,則可以將 閾值設得較高,否則,可以將閾值設得較低,本發明對此沒有任何限制。 如果在步驟310中確定排序后的第1個例句對的得分小于給定的閾值,則本實施 例的方法在步驟320中結束。 另一方面,如果排序后的第1個例句對的得分大于給定的閾值,則在步驟315中將 第1個例句對加入通用例句庫20。同時,在步驟315中,將第1例句對從雙語語料庫10中 刪除,或者給第1例句對賦予一個小權重。 然后,本發明的方法返回步驟301,重新計算雙語語料庫10中的每個例句對的得 分,直到排序后的第1個例句對的得分小于給定的閾值。 在本實施例中,雖然每次將排序后的第1個例句對的得分與給定閾值進行比較, 但是也可以將排序后的前N個例句對的得分與給定的閾值進行比較,并將大于給定的閾值 的例句對加入通用例句庫20中,本發明對此沒有任何限制。 通過本實施例的利用進行了對齊的雙語語料庫構建通用例句庫的方法,可以利用 上述參考圖1的實施例的對進行了對齊的雙語語料庫中的例句對進行評價的方法將雙語 語料庫中的通用、可靠的例句對構建為通用例句庫20,從而可以利用通用例句庫20進行 EBMT,提高了 EBMT模型的準確率和效率。
機器翻譯的方法 在同一發明構思下,圖4是根據本發明的另一個實施例的機器翻譯的方法的流程 圖。下面就結合該圖,對本實施例進行描述。對于那些與前面實施例相同的部分,適當省略 其說明。 如圖4所示,首先,在步驟401,為待翻譯的第一語種的句子,在根據上述參考圖2
的實施例的從進行了對齊的雙語語料庫中選擇例句對的方法選擇出的例句對或根據上述
參考圖3的實施例的利用進行了對齊的雙語語料庫構建通用例句庫的方法構建的通用例
句庫20中查找相似的第一語種的例句。 例如,對于待翻譯的第一語種的句子
15This is a pencil.
在上述選出的例句對或通用例句庫中查找到的相似的例句對為
This is a pen .
這是 一支鋼筆' 接著,在步驟405,為上述待翻譯的第一語種的句子與上述相似的第一語種的例句 之間的區別部分準備相應的譯文。也就是說,為上述區別部分"pencil"準備相應的譯文。 在本實施例中,可以利用上述雙語語料庫10為上述區別部分"pencil"準備譯文"鉛筆"。
接著,在步驟410,將與上述相似的第一語種的例句相對應的第二語種的例句以及 上述區別部分的譯文組合,生成參考譯文。也就是說,將上述相似的例句對中的"鋼筆"替 換為"鉛筆"即可得到待翻譯的句子的參考譯文
這是一支鉛筆。 通過本實施例的機器翻譯的方法,可以利用上述參考圖2的實施例的從進行了對 齊的雙語語料庫中選擇例句對的方法選擇出的例句對或上述參考圖3的實施例的利用進 行了對齊的雙語語料庫構建通用例句庫的方法構建的通用例句庫20,進行翻譯,從而可以 提高EBMT的準確率和效率。 對講行了對齊的雙語語料庫中的例句對講行評價的裝置 在同一發明構思下,圖5是根據本發明的另一個實施例的對進行了對齊的雙語語 料庫中的例句對進行評價的裝置的方框圖。下面就結合該圖,對本實施例進行描述。對于 那些與前面實施例相同的部分,適當省略其說明。 本實施例的對進行了對齊的雙語語料庫中的例句對進行評價的裝置通過使用"覆 蓋率"和"一致性"來綜合評價每個例句對的質量,其中,覆蓋率描述了例句對的通用性,而
一致性描述了例句對被EBMT模型使用時的可靠性。 如圖5所示,本實施例的對進行了對齊的雙語語料庫中的例句對進行評價的裝置 500包括覆蓋率計算單元501,用于對于進行了對齊的雙語語料庫中的一個給定的例句 對,計算給定的例句對中的第一語種的例句在雙語語料庫中的覆蓋率。 在本實施例中,進行了對齊的雙語語料庫是由專業人員(例如,翻譯人員)手工或 計算機自動進行了詞對齊的雙語語料庫,其包括多對互為譯文的相對應的第一語種和第二 語種的例句以及每對例句之間的對齊信息。 具體地,本實施例的覆蓋率計算單元501包括相似度計算單元,用于計算給定的 例句對中的第一語種的例句與雙語語料庫中的任一例句對中的第一語種的例句之間的相 似度。在本領域中,有許多方法來計算兩個例句之間的相似度。在本實施例中,僅以兩個例 句之間的編輯距離為例來說明計算相似度的具體細節,但是應該理解,本發明并不限于此, 可以利用本領域的技術人員公知的任何方法來計算兩個例句之間的相似度。
在本實施例中,所謂"編輯距離"是指"從原串轉換到目標串所需要的最少的插 入、刪除和替換的數目",或者說"讓字符串l和字符串2變成相同字符串需要的最小的 操作(插入、刪除和替換)次數"。該定義最早出現在V.Levenshtein, "Binary codescapable of correctingspurious insertions and deletions of ones,,, Problems of InformationTransmission, 1 :8-17, 1965,在此通過參考引入其整個內容。現在,編輯距離 廣泛地應用于計算機領域,已經成為了一個經典算法。 具體地,例如,可以通過相似度計算單元利用以下公式(1)計算兩個例句之間的 相似度 SO,.,e)二log(l--7T^"r^) m
max(|^|,|e|) 山 其中,e為上述給定的例句對中的第一語種的例句,ei為上述雙語語料庫中的第i 個例句對中的第一語種的例句,|e|為上述例句e中的詞的個數,|eJ為上述例句ei中的 詞的個數,S(ei, e)為上述例句e與上述例句ei之間的相似度,以及ED(ei, e)為上述例句 e與上述例句ei之間的編輯距離。 此外,本實施例的覆蓋率計算單元501還包括平均值計算單元,其用于在通過相
似度計算單元利用上述公式(1)計算得到給定的例句對中的第一語種的例句與雙語語料
庫中的任一例句對中的第一語種的例句之間的相似度之后,計算上述相似度的平均值,作
為上述給定的例句對中的第一語種的例句在上述雙語語料庫中的覆蓋率。 在本實施例中,在通過平均值計算單元計算上述相似度的平均值的過程中,可以
使用任何平均值,例如加權平均值、算術平均值、幾何平均值或其任意組合。 可選地,為了減少計算量,本實施例的覆蓋率計算單元501還可以包括排序單元,
其根據上述相似度的降序對上述雙語語料庫中的例句對進行排序,然后平均值計算單元計
算上述排序單元排序后的前N個例句對的相似度的平均值作為上述平均值。 具體地,例如,可以通過平均值計算單元利用以下公式(2)計算上述平均值,即覆
蓋率
c一)二一;』 (2) 其中,Cov(e)為覆蓋率計算單元501所要計算的上述給定的例句對中的第一語種 的例句在雙語語料庫中的覆蓋率,以及EN為上述排序后的前N個例句對組成的集合。
返回圖5,本實施例的對進行了對齊的雙語語料庫中的例句對進行評價的裝置 500還包括一致性計算單元505,用于計算給定的例句對中的第一語種的例句和第二語種 的例句之間的一致性。具體地,在本實施例中,一致性計算單元505包括三個部分。
第一部分為長度概率計算單元,其根據上述給定的例句對中的上述第一語種的例 句的長度,計算上述給定的例句對中的上述第二語種的例句的長度的概率。對于一個確定 的語言對來說,目標語句子的長度和源語言句子的長度有一個大致的對應關系,也就是說, 如果給定源語言句子的長度,那么可以估計出目標語句子的長度。同樣,利用目標語句子的 長度和源語言句子的長度的對應關系,可以估計出目標語句子匹配源語言句子的程度,該 匹配程度可以部分地反映雙語例句對的質量。
具體地,例如,可以通過長度概率計算單元利用以下公式(3)計算上述概率
L(e, f) = logp(llJ) (3) 其中,e為上述給定的例句對中的上述第一語種的例句,f為上述給定的例句對中的上述第二語種的例句,I為上述例句e的長度,J為上述例句f的長度,以及L(e, f)為上述概率。 第二部分為比率計算單元,其根據上述雙語語料庫中的對齊信息,計算上述給定的例句對中的上述第一語種的例句和上述第二語種的例句中被對齊的詞占所有詞的比率。
具體地,例如,可以通過比率計算單元利用以下公式(4)計算上述比率
, /) = !og(^--) 其中,e為上述給定的例句對中的第一語種的例句,f為上述給定的例句對中的第二語種的例句,tWi為上述例句e中的第i個詞,SWj為上述例句f中的第j個詞,x為上述例句e中的任意詞,y為上述例句f中的任意詞,I為上述例句e的長度,J為上述例句f的長度,a為上述對齊信息中的上述例句e與上述例句f之間的對齊信息,以及R(e, f)為上述比率。 第三部分為詞對齊概率計算單元,其根據上述雙語語料庫中的對齊信息,計算上述給定的例句對中的上述第一語種的例句和上述第二語種的例句之間的詞對齊概率。
具體地,例如,可以通過詞對齊概率計算單元利用以下公式(5)計算上述詞對齊概率
尸(")^——;- (5)
- 其中,e為上述給定的例句對中的第一語種的例句,f為上述給定的例句對中的第二語種的例句,tWi為上述例句e中的第i個詞,SWj為上述例句f中的第j個詞,p (tWi I SWj)為上述例句e中的第i個詞tWi與上述例句f中的第j個詞SWj之間的對齊概率,a為上述對齊信息中的上述例句e與上述例句f之間的對齊信息,|a|為上述對齊信息a中對齊的詞對的個數,以及P(e, f)為上述詞對齊概率。 此外,本實施例的一致性計算單元505還包括平均值計算單元,其在上述長度概率計算單元、上述比率計算單元和上述詞對齊概率計算單元分別計算上述概率L(e, f)、上述比率R(e,f)和上述詞對齊概率P(e,f)之后,計算上述概率L(e,f)、上述比率R(e,f)和上述詞對齊概率P(e, f)的平均值,作為上述給定的例句對中的上述第一語種的例句和上述第二語種的例句之間的一致性。 在本實施例中,在平均值計算單元計算上述平均值的過程中,可以使用任何平均值,例如加權平均值、算術平均值、幾何平均值或其任意組合。
18
具體地,例如,可以通過平均值計算單元利用以下公式(6)計算上述一致性
Con(e, f) = A^L(e, f) + A2*R(e, f) + A3*P(e, f) (6) 其中,A p A 2和A 3分別為上述概率L(e, f)、上述比率R(e, f)和上述詞對齊概率P(e,f)的權重,以及Con(e,f)為一致性計算單元505所要計算的給定的例句對中的第一語種的例句和第二語種的例句之間的一致性。 返回圖5,本實施例的對進行了對齊的雙語語料庫中的例句對進行評價的裝置500還包括得分計算單元510,其根據覆蓋率計算單元501計算得到的給定的例句對中的第一語種的例句在上述雙語語料庫中的覆蓋率Cov(e)和/或一致性計算單元505計算得到的上述給定的例句對中的上述第一語種的例句和第二語種的例句之間的一致性Con (e,f),計算上述給定的例句對的得分;其中,基于上述得分計算單元計算出的得分,對上述給定的例句對進行評價。 在本實施例中,既可以將上述覆蓋率Cov(e)作為上述給定的例句對(e, f)的得分,也可以將上述一致性Con(e,f)作為上述給定的例句對(e,f)的得分,還可以將上述覆蓋率Cov(e)和上述一致性Con(e,f)的平均值作為上述給定的例句對(e, f)的得分,本發明對此沒有任何限制。 在本實施例中,得分計算單元510包括平均值計算單元,用于計算上述覆蓋率Cov(e)和上述一致性Con(e,f)的平均值。在計算平均值的過程中,可以使用任何平均值,例如加權平均值、算術平均值、幾何平均值或其任意組合。 具體地,例如,可以通過平均值計算單元利用以下公式(7)計算上述得分
Sore(e, f) = P ^Cov(e) + e^Con(e, f) (7) 其中,|3工和|3 2分別為上述覆蓋率Cov(e)和上述一致性Con(e, f)的權重,以及Sore(e, f)為得分計算單元510所要計算給定的例句對的得分。 在本實施例中,雖然利用覆蓋率計算單元501計算覆蓋率,并利用一致性計算單
元505計算一致性,但是本發明對計算覆蓋率和一致性的順序沒有任何限制。 此外,在本實施例中,雖然描述了裝置500包括用于計算覆蓋率的覆蓋率計算單
元501以及用于計算一致性的一致性計算單元505,但是如果在覆蓋率和一致性已知的情
況下,本發明的裝置500可以在沒有覆蓋率計算單元501以及一致性計算單元505的情況
下,直接根據覆蓋率和/或一致性來計算給定的例句對的得分,從而對給定的例句對進行評價。 通過本實施例的對進行了對齊的雙語語料庫中的例句對進行評價的裝置500,可以利用覆蓋率和一致性對雙語語料庫中的例句對進行評價,從而可以知道那些例句對是通用、可靠的例句對,進而可以為EBMT模型提供有效的信息。
從講行了對齊的雙語i吾料庫中詵擇例句對的裝置 在同一發明構思下,圖6是根據本發明的另一個實施例的從進行了對齊的雙語語料庫中選擇例句對的裝置的方框圖。下面就結合該圖,對本實施例進行描述。對于那些與前面實施例相同的部分,適當省略其說明。 如圖6所示,本實施例的從進行了對齊的雙語語料庫中選擇例句對的裝置600包括上述對進行了對齊的雙語語料庫中的例句對進行評價的裝置500,用于計算給定的例句對的得分;以及比較單元605,用于將上述計算出的得分與給定的閾值進行比較;其中,如果上述得分大于上述閾值,則將上述給定的例句對選出。 具體地,本實施例的裝置600利用上述覆蓋率計算單元501、一致性計算單元505和得分計算單元510,計算雙語語料庫中的一個給定的例句對的得分。 在本實施例中,利用比較單元605確定得分計算單元510計算的得分是否大于一個給定的閾值。這里的閾值可以根據實際需要進行設定。例如,如果要求選出質量很好的例句對,則可以將閾值設得較高,否則,可以將閾值設得較低,本發明對此沒有任何限制。
如果比較單元605確定給定的例句對的得分小于給定的閾值,則本實施例的裝置600結束運行。 另一方面,如果給定的例句對的得分大于給定的閾值,則本實施例的裝置600將給定的例句對選出。 通過本實施例的從進行了對齊的雙語語料庫中選擇例句對的裝置600,可以利用上述參考圖5的實施例的對進行了對齊的雙語語料庫中的例句對進行評價的裝置500計算例句對的得分,并將得分較高的例句對從雙語語料庫中選出,從而可以為EBMT模型提供通用、可靠的例句對,進而可以提高EBMT模型的準確率和效率。
利用講行了對齊的雙語i吾料庫構建通用例句庫的裝置 在同一發明構思下,圖7是根據本發明的另一個實施例的利用進行了對齊的雙語語料庫構建通用例句庫的裝置的方框圖。下面就結合該圖,對本實施例進行描述。對于那些與前面實施例相同的部分,適當省略其說明。 如圖7所示,本實施例的利用進行了對齊的雙語語料庫構建通用例句庫的裝置700包括上述對進行了對齊的雙語語料庫中的例句對進行評價的裝置500,用于執行步驟1 :計算上述雙語語料庫中的每一個例句對的得分;排序單元705,用于執行步驟2 :根據上述得分的降序對上述雙語語料庫中的例句對進行排序;以及確定單元710,用于執行步驟3 :確定上述排序單元排序后的第1個例句對的得分是否大于給定的閾值,其中如果上述第1個例句對的得分大于上述給定的閾值,則將上述第1個例句對加入上述通用例句庫。
具體地,本實施例的裝置700利用上述覆蓋率計算單元501、一致性計算單元505和得分計算單元510,計算雙語語料庫中的每一個例句對的得分。 排序單元705根據得分計算單元510計算出的得分的降序對雙語語料庫10中的例句對進行排序。 確定單元710確定排序后的第1個例句對的得分是否大于一個給定的閾值。這里的閾值可以根據實際需要進行設定。例如,如果要求選出質量很好的例句對,則可以將閾值設得較高,否則,可以將閾值設得較低,本發明對此沒有任何限制。 如果確定單元710確定排序后的第l個例句對的得分小于給定的閾值,則本實施例的裝置700結束運行。 此外,本實施例的裝置700還包括添加單元715,如果排序單元705排序后的第1個例句對的得分大于給定的閾值,則添加單元715將第1個例句對加入通用例句庫20。同時,添加單元715將第1例句對從雙語語料庫10中刪除,或者給第1例句對賦予一個小權重。 此外,本實施例的裝置700可以利用對例句進行評價的裝置500、排序單元705、確定單元710以及添加單元715,重新計算雙語語料庫10中的每個例句對的得分,直到排序后
20的第1個例句對的得分小于給定的閾值。 在本實施例中,雖然每次將排序后的第1個例句對的得分與給定閾值進行比較,但是也可以將排序后的前N個例句對的得分與給定的閾值進行比較,并將大于給定的閾值的例句對加入通用例句庫20中,本發明對此沒有任何限制。 通過本實施例的利用進行了對齊的雙語語料庫構建通用例句庫的裝置700,可以利用上述參考圖5的實施例的對進行了對齊的雙語語料庫中的例句對進行評價的裝置500將雙語語料庫中的通用、可靠的例句對構建為通用例句庫20,從而可以利用通用例句庫20進行EBMT,提高了 EBMT模型的準確率和效率。
機器翻譯的裝置 在同一發明構思下,圖8是根據本發明的另一個實施例的機器翻譯的裝置的方框圖。下面就結合該圖,對本實施例進行描述。對于那些與前面實施例相同的部分,適當省略其說明。 如圖8所示,本實施例的機器翻譯的裝置800包括相似例句查找單元801,用于為待翻譯的第一語種的句子,在根據上述從進行了對齊的雙語語料庫中選擇例句對的裝置600選擇出的例句對或根據上述利用進行了對齊的雙語語料庫構建通用例句庫的裝置700構建的通用例句庫中查找相似的第一語種的例句;區別部分譯文準備單元805,用于為上述待翻譯的第一語種的句子與上述相似的第一語種的例句之間的區別部分準備相應的譯文;以及參考譯文生成單元810,用于將與上述相似的第一語種的例句相對應的第二語種的例句以及上述區別部分的譯文組合,生成參考譯文。
例如,對于待翻譯的第一語種的句子
This is a pencil. 相似例句查找單元801在上述選出的例句對或通用例句庫中查找到的相似的例
句對為
This is a pen .
這是 一支鋼筆 區別部分譯文準備單元805為上述區別部分"pencil"準備相應的譯文。在本實
施例中,可以利用上述雙語語料庫10為上述區別部分"pencil"準備譯文"鉛筆"。 參考譯文生成單元810將上述相似的例句對中的"鋼筆"替換為"鉛筆"即可得到
待翻譯的句子的參考譯文
這是一支鉛筆。 通過本實施例的機器翻譯的裝置800,可以利用上述參考圖6的實施例的從進行了對齊的雙語語料庫中選擇例句對的裝置600選擇出的例句對或上述參考圖7的實施例的利用進行了對齊的雙語語料庫構建通用例句庫的裝置700構建的通用例句庫20,進行翻譯,從而可以提高EBMT的準確率和效率。 以上雖然通過一些示例性的實施例詳細地描述了本發明的對進行了對齊的雙語語料庫中的例句對進行評價的方法,從進行了對齊的雙語語料庫中選擇例句對的方法,利用進行了對齊的雙語語料庫構建通用例句庫的方法,機器翻譯的方法,對進行了對齊的雙語語料庫中的例句對進行評價的裝置,從進行了對齊的雙語語料庫中選擇例句對的裝置,利用進行了對齊的雙語語料庫構建通用例句庫的裝置和機器翻譯的裝置,但是以上這些實施例并不是窮舉的,本領域技術人員可以在本發明的精神和范圍內實現各種變化和修改。因此,本發明并不限于這些實施例,本發明的范圍僅由所附權利要求為準。
權利要求
一種對進行了對齊的雙語語料庫中的例句對進行評價的方法,上述雙語語料庫包括多對相對應的第一語種和第二語種的例句以及每對例句之間的對齊信息,上述方法包括以下步驟根據給定的例句對中的第一語種的例句在上述雙語語料庫中的覆蓋率和/或上述給定的例句對中的上述第一語種的例句和第二語種的例句之間的一致性,計算上述給定的例句對的得分;其中,基于上述計算出的得分,對上述給定的例句對進行評價。
2. 根據權利要求1所述的對進行了對齊的雙語語料庫中的例句對進行評價的方法,其中,在上述根據給定的例句對中的第一語種的例句在上述雙語語料庫中的覆蓋率計算上述給定的例句對的得分的步驟之前,還包括以下步驟計算上述給定的例句對中的第一語種的例句在上述雙語語料庫中的覆蓋率;其中,將上述計算出的覆蓋率作為上述給定的例句對的得分。
3. 根據權利要求1所述的對進行了對齊的雙語語料庫中的例句對進行評價的方法,其中,在上述根據上述給定的例句對中的上述第一語種的例句和第二語種的例句之間的一致性計算上述給定的例句對的得分的步驟之前,還包括以下步驟計算上述給定的例句對中的上述第一語種的例句和上述第二語種的例句之間的一致性;其中,將上述計算出的一致性作為上述給定的例句對的得分。
4. 根據權利要求1所述的對進行了對齊的雙語語料庫中的例句對進行評價的方法,其中,在上述根據給定的例句對中的第一語種的例句在上述雙語語料庫中的覆蓋率和上述給定的例句對中的上述第一語種的例句和第二語種的例句之間的一致性,計算上述給定的例句對的得分的步驟之前,還包括以下步驟計算上述給定的例句對中的第一語種的例句在上述雙語語料庫中的覆蓋率;計算上述給定的例句對中的上述第一語種的例句和上述第二語種的例句之間的一致性;以及計算上述覆蓋率和上述一致性的平均值,作為上述給定的例句對的得分。
5. 根據權利要求2或4所述的對進行了對齊的雙語語料庫中的例句對進行評價的方法,其中,上述計算上述給定的例句對中的第一語種的例句在上述雙語語料庫中的覆蓋率的步驟包括以下步驟計算上述給定的例句對中的第一語種的例句與上述雙語語料庫中的任一例句對中的第一語種的例句之間的相似度;以及計算上述相似度的平均值,作為上述給定的例句對中的第一語種的例句在上述雙語語料庫中的覆蓋率。
6. 根據權利要求5所述的對進行了對齊的雙語語料庫中的例句對進行評價的方法,其中,上述計算上述給定的例句對中的第一語種的例句與上述雙語語料庫中的任一例句對中的第一語種的例句之間的相似度的步驟包括以下步驟根據上述給定的例句對中的第一語種的例句與上述雙語語料庫中的任一例句對中的第一語種的例句之間的編輯距離計算上述相似度。
7. 根據權利要求6所述的對進行了對齊的雙語語料庫中的例句對進行評價的方法,其中,上述根據上述給定的例句對中的第一語種的例句與上述雙語語料庫中的任一例句對中的第一語種的例句之間的編輯距離計算上述相似度的步驟包括以下步驟利用以下公式計算上述相似度<formula>formula see original document page 3</formula>其中,e為上述給定的例句對中的第一語種的例句,ei為上述雙語語料庫中的第i個例句對中的第一語種的例句,|e|為上述例句e中的詞的個數,|eJ為上述例句ei中的詞的個數,S(ei, e)為上述例句e與上述例句ei之間的相似度,以及ED(ei, e)為上述例句e與上述例句ei之間的編輯距離。
8. 根據權利要求5所述的對進行了對齊的雙語語料庫中的例句對進行評價的方法,其中,上述計算上述相似度的平均值的步驟包括以下步驟根據上述相似度的降序對上述雙語語料庫中的例句對進行排序;以及計算上述排序后的前N個例句對的相似度的平均值作為上述平均值。
9. 根據權利要求3或4所述的對進行了對齊的雙語語料庫中的例句對進行評價的方法,其中,上述計算上述給定的例句對中的上述第一語種的例句和上述第二語種的例句之間的一致性的步驟包括以下步驟根據上述給定的例句對中的上述第一語種的例句的長度,計算上述給定的例句對中的上述第二語種的例句的長度的概率;根據上述對齊信息,計算上述給定的例句對中的上述第一語種的例句和上述第二語種的例句中被對齊的詞占所有詞的比率;根據上述對齊信息,計算上述給定的例句對中的上述第一語種的例句和上述第二語種的例句之間的詞對齊概率;以及計算上述概率、上述比率和上述詞對齊概率的平均值,作為上述給定的例句對中的上述第一語種的例句和上述第二語種的例句之間的一致性。
10. 根據權利要求9所述的對進行了對齊的雙語語料庫中的例句對進行評價的方法,其中,上述根據上述對齊信息,計算上述給定的例句對中的上述第一語種的例句和上述第二語種的例句中被對齊的詞占所有詞的比率的步驟包括以下步驟利用以下公式計算上述比率<formula>formula see original document page 3</formula>其中,e為上述給定的例句對中的第一語種的例句,f為上述給定的例句對中的第二語種的例句,tWi為上述例句e中的第i個詞,SWj為上述例句f中的第j個詞,x為上述例句e中的任意詞,y為上述例句f中的任意詞,I為上述例句e的長度,J為上述例句f的長度,a為上述對齊信息中的上述例句e與上述例句f之間的對齊信息,以及R(e, f)為上述比率。
11.根據權利要求9所述的對進行了對齊的雙語語料庫中的例句對進行評價的方法,其中,上述根據上述對齊信息,計算上述給定的例句對中的上述第一語種的例句和上述第二語種的例句之間的詞對齊概率的步驟包括以下步驟 利用以下公式計算上述詞對齊概率其中,e為上述給定的例句對中的第一語種的例句,f為上述給定的例句對中的第二語種的例句,tWi為上述例句e中的第i個詞,SWj為上述例句f中的第j個詞,p (tWi I SWj)為 上述例句e中的第i個詞tWi與上述例句f中的第j個詞sWj之間的對齊概率,a為上述對 齊信息中的上述例句e與上述例句f之間的對齊信息,|a|為上述對齊信息a中對齊的詞 對的個數,以及P(e, f)為上述詞對齊概率。
12. —種從進行了對齊的雙語語料庫中選擇例句對的方法,上述雙語語料庫包括多對 相對應的第一語種和第二語種的例句以及每對例句之間的對齊信息,上述方法包括以下步 驟根據權利要求1-11中任何一項所述的對進行了對齊的雙語語料庫中的例句對進行評 價的方法,計算給定的例句對的得分;以及將上述計算出的得分與給定的閾值進行比較;其中,如果上述得分大于上述閾值,則將上述給定的例句對選出。
13. —種利用進行了對齊的雙語語料庫構建通用例句庫的方法,上述雙語語料庫包括 多對相對應的第一語種和第二語種的例句以及每對例句之間的對齊信息,上述方法包括步驟1 :根據權利要求1-11中任何一項所述的對進行了對齊的雙語語料庫中的例句對進行評價的方法,計算上述雙語語料庫中的每一個例句對的得分;步驟2 :根據上述得分的降序對上述雙語語料庫中的例句對進行排序;以及步驟3 :確定上述步驟2排序后的第1個例句對的得分是否大于給定的閾值,其中如果上述第1個例句對的得分大于上述給定的閾值,則將上述第1個例句對加入上述通用例句庫。
14. 根據權利要求13所述的利用進行了對齊的雙語語料庫構建通用例句庫的方法,其 中在上述步驟3之后還包括步驟4 :將上述第1個例句對加入上述通用例句庫,并將上述第1個例句對從上述雙語 語料庫中刪除或給上述第1個例句對賦予一個小權重;以及針對上述雙語語料庫中的除了上述第1個例句對之外的其它例句對,重復執行上述步 驟1-步驟4,直到在上述步驟3中確定上述步驟2排序后的第1個例句對的得分小于上述 給定的閾值。
15. —種機器翻譯的方法,包括以下步驟為待翻譯的第一語種的句子,在根據權利要求12所述的從進行了對齊的雙語語料庫 中選擇例句對的方法選擇出的例句對或根據權利要求13或14所述的利用進行了對齊的雙 語語料庫構建通用例句庫的方法構建的通用例句庫中查找相似的第一語種的例句;為上述待翻譯的第一語種的句子與上述相似的第一語種的例句之間的區別部分準備 相應的譯文;以及將與上述相似的第一語種的例句相對應的第二語種的例句以及上述區別部分的譯文 組合,生成參考譯文。
16. —種對進行了對齊的雙語語料庫中的例句對進行評價的裝置,上述雙語語料庫包 括多對相對應的第一語種和第二語種的例句以及每對例句之間的對齊信息,上述裝置包 括得分計算單元,根據給定的例句對中的第一語種的例句在上述雙語語料庫中的覆蓋率 和/或上述給定的例句對中的上述第一語種的例句和第二語種的例句之間的一致性,計算 上述給定的例句對的得分;其中,基于上述得分計算單元計算出的得分,對上述給定的例句對進行評價。
17. 根據權利要求16所述的對進行了對齊的雙語語料庫中的例句對進行評價的裝置, 還包括覆蓋率計算單元,用于計算上述給定的例句對中的第一語種的例句在上述雙語語料庫 中的覆蓋率;其中,將上述覆蓋率計算單元計算出的覆蓋率作為上述給定的例句對的得分。
18. 根據權利要求16所述的對進行了對齊的雙語語料庫中的例句對進行評價的裝置, 還包括一致性計算單元,用于計算上述給定的例句對中的上述第一語種的例句和上述第二語 種的例句之間的一致性;其中,將上述一致性計算單元計算出的一致性作為上述給定的例句對的得分。
19. 根據權利要求16所述的對進行了對齊的雙語語料庫中的例句對進行評價的裝置, 還包括覆蓋率計算單元,用于計算上述給定的例句對中的第一語種的例句在上述雙語語料庫 中的覆蓋率;以及一致性計算單元,用于計算上述給定的例句對中的上述第一語種的例句和上述第二語 種的例句之間的一致性;其中,上述得分計算單元包括第一平均值計算單元,用于計算上述覆蓋率和上述一致 性的平均值,作為上述給定的例句對的得分。
20. 根據權利要求17或19所述的對進行了對齊的雙語語料庫中的例句對進行評價的 裝置,其中,上述覆蓋率計算單元包括相似度計算單元,用于計算上述給定的例句對中的第一語種的例句與上述雙語語料庫 中的任一例句對中的第一語種的例句之間的相似度;以及第二平均值計算單元,用于計算上述相似度的平均值,作為上述給定的例句對中的第一語種的例句在上述雙語語料庫中的覆蓋率。
21. 根據權利要求20所述的對進行了對齊的雙語語料庫中的例句對進行評價的裝置, 其中,上述相似度計算單元用于根據上述給定的例句對中的第一語種的例句與上述雙語語料庫中的任一例句對中的 第一語種的例句之間的編輯距離計算上述相似度。
22. 根據權利要求21所述的對進行了對齊的雙語語料庫中的例句對進行評價的裝置, 其中,上述相似度計算單元用于利用以下公式計算上述相似度S(e,, 二 log(l--其中,e為上述給定的例句對中的第一語種的例句,ei為上述雙語語料庫中的第i個例 句對中的第一語種的例句,|e|為上述例句e中的詞的個數,|eJ為上述例句ei中的詞的 個數,S(ei, e)為上述例句e與上述例句ei之間的相似度,以及ED(ei, e)為上述例句e與 上述例句ei之間的編輯距離。
23. 根據權利要求20所述的對進行了對齊的雙語語料庫中的例句對進行評價的裝置, 其中,上述第二平均值計算單元包括排序單元,用于根據上述相似度的降序對上述雙語語料庫中的例句對進行排序; 其中,上述第二平均值計算單元用于計算上述排序單元排序后的前N個例句對的相似 度的平均值作為上述平均值。
24. 根據權利要求18或19所述的對進行了對齊的雙語語料庫中的例句對進行評價的 裝置,其中,上述一致性計算單元包括長度概率計算單元,根據上述給定的例句對中的上述第一語種的例句的長度,計算上 述給定的例句對中的上述第二語種的例句的長度的概率;比率計算單元,根據上述對齊信息,計算上述給定的例句對中的上述第一語種的例句和上述第二語種的例句中被對齊的詞占所有詞的比率;詞對齊概率計算單元,根據上述對齊信息,計算上述給定的例句對中的上述第一語種 的例句和上述第二語種的例句之間的詞對齊概率;以及第三平均值計算單元,用于計算上述概率、上述比率和上述詞對齊概率的平均值,作為 上述給定的例句對中的上述第一語種的例句和上述第二語種的例句之間的一致性。
25. 根據權利要求24所述的對進行了對齊的雙語語料庫中的例句對進行評價的裝置, 其中,上述比率計算單元用于利用以下公式計算上述比率<formula>formula see original document page 6</formula>其中,e為上述給定的例句對中的第一語種的例句,f為上述給定的例句對中的第二語種的例句,tWi為上述例句e中的第i個詞,SWj為上述例句f中的第j個詞,x為上述例句e 中的任意詞,y為上述例句f中的任意詞,I為上述例句e的長度,J為上述例句f的長度,a 為上述對齊信息中的上述例句e與上述例句f之間的對齊信息,以及R(e, f)為上述比率。
26.根據權利要求24所述的對進行了對齊的雙語語料庫中的例句對進行評價的裝置, 其中,上述詞對齊概率計算單元用于利用以下公式計算上述詞對齊概率<formula>formula see original document page 7</formula>其中,e為上述給定的例句對中的第一語種的例句,f為上述給定的例句對中的第二語種的例句,tWi為上述例句e中的第i個詞,SWj為上述例句f中的第j個詞,p (tWi I SWj)為上述例句e中的第i個詞tWi與上述例句f中的第j個詞sWj之間的對齊概率,a為上述對齊信息中的上述例句e與上述例句f之間的對齊信息,|a|為上述對齊信息a中對齊的詞對的個數,以及P(e, f)為上述詞對齊概率。
27. —種從進行了對齊的雙語語料庫中選擇例句對的裝置,上述雙語語料庫包括多對相對應的第一語種和第二語種的例句以及每對例句之間的對齊信息,上述裝置包括根據權利要求16-26中任何一項所述的對進行了對齊的雙語語料庫中的例句對進行評價的裝置,用于計算給定的例句對的得分;以及比較單元,用于將上述計算出的得分與給定的閾值進行比較;其中,如果上述得分大于上述閾值,則將上述給定的例句對選出。
28. —種利用進行了對齊的雙語語料庫構建通用例句庫的裝置,上述雙語語料庫包括多對相對應的第一語種和第二語種的例句以及每對例句之間的對齊信息,上述裝置包括根據權利要求16-26中任何一項所述的對進行了對齊的雙語語料庫中的例句對進行評價的裝置,用于執行步驟1 :計算上述雙語語料庫中的每一個例句對的得分;排序單元,用于執行步驟2 :根據上述得分的降序對上述雙語語料庫中的例句對進行排序;以及確定單元,用于執行步驟3 :確定上述排序單元排序后的第l個例句對的得分是否大于給定的閾值,其中如果上述第1個例句對的得分大于上述給定的閾值,則將上述第1個例句對加入上述通用例句庫。
29. 根據權利要求28所述的利用進行了對齊的雙語語料庫構建通用例句庫的裝置,還包括添加單元,用于執行步驟4 :將上述第1個例句對加入上述通用例句庫,并將上述第1個例句對從上述雙語語料庫中刪除或給上述第1個例句對賦予一個小權重;其中,上述構建通用例句庫的裝置利用上述對例句對進行評價的裝置、上述排序單元、上述確定單元以及上述添加單元,針對上述雙語語料庫中的除了上述第1個例句對之外的其它例句對,重復執行上述步驟1-步驟4,直到在上述步驟3中確定上述排序單元排序后的第1個例句對的得分小于上述給定的閾值。
30. —種機器翻譯的裝置,包括相似例句查找單元,用于為待翻譯的第一語種的句子,在根據權利要求27所述的從進行了對齊的雙語語料庫中選擇例句對的裝置選擇出的例句對或根據權利要求28或29所述的利用進行了對齊的雙語語料庫構建通用例句庫的裝置構建的通用例句庫中查找相似的第一語種的例句;區別部分譯文準備單元,用于為上述待翻譯的第一語種的句子與上述相似的第一語種的例句之間的區別部分準備相應的譯文;以及參考譯文生成單元,用于將與上述相似的第一語種的例句相對應的第二語種的例句以 及上述區別部分的譯文組合,生成參考譯文。
全文摘要
本發明提供了對進行了對齊的雙語語料庫中的例句對進行評價的方法,從進行了對齊的雙語語料庫中選擇例句對的方法,利用進行了對齊的雙語語料庫構建通用例句庫的方法,機器翻譯的方法及裝置。根據本發明的一個方面,提供了一種對進行了對齊的雙語語料庫中的例句對進行評價的方法,上述雙語語料庫包括多對相對應的第一語種和第二語種的例句以及每對例句之間的對齊信息,上述方法包括以下步驟根據給定的例句對中的第一語種的例句在上述雙語語料庫中的覆蓋率和/或上述給定的例句對中的上述第一語種的例句和第二語種的例句之間的一致性,計算上述給定的例句對的得分;其中,基于上述計算出的得分,對上述給定的例句對進行評價。
文檔編號G06F17/28GK101714137SQ20081016598
公開日2010年5月26日 申請日期2008年10月6日 優先權日2008年10月6日
發明者劉占一, 吳華, 王海峰 申請人:株式會社東芝