一種確定多義詞詞義的方法
【技術領域】
[0001] 本發明屬于翻譯技術領域,尤其是一種確定多義詞詞義的方法。
【背景技術】
[0002] 由于大量的詞匯都具有多義性,對于此類詞匯的準確翻譯,即便是具有扎實的語 言和專業基礎的翻譯人員也難免在翻譯過程中出現疏漏。以往為提高此類詞匯翻譯的準確 率,需通過提高翻譯人員的翻譯水平和增加審校、質檢來實現,不但提高了翻譯門檻,降低 了翻譯效率,而且依然無法完全杜絕該類詞匯的翻譯錯譯。
【發明內容】
[0003] 本發明的目的之一是提供一種確定多義詞詞義的方法,以解決現有技術中對于多 義詞的翻譯效率低的問題。
[0004] 在一些說明性實施例中,所述確定多義詞詞義的方法,包括:獲取待判定詞義的多 義詞w的關聯文本,并從所述關聯文本中找出其具有的詞匯w的特征詞;以找出的所述特征 詞在用于判定詞義的決策樹中,按照所述決策樹的生成順序依次進行判定;根據判定結果, 確定所述詞匯w當前應采用的詞義。
[0005] 與現有技術相比,本發明的說明性實施例包括以下優點:
[0006] 本發明提高了多義詞在不同文體和語境下的翻譯準確性,降低了多義詞類文本翻 譯的門檻,提升了翻譯效率,大大節省了人力物力。
【附圖說明】
[0007] 此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發 明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中:
[0008] 圖1是按照本發明的說明性實施例的流程圖;
[0009] 圖2是按照本發明的說明性實施例的流程圖;
[0010] 圖3是按照本發明的說明性實施例的決策樹示例圖;
[0011] 圖4是按照本發明的說明性實施例的決策樹示例圖;
[0012] 圖5是按照本發明的說明性實施例的決策樹示例圖。
【具體實施方式】
[0013] 在以下詳細描述中,提出大量特定細節,以便于提供對本發明的透徹理解。但是, 本領域的技術人員會理解,即使沒有這些特定細節也可實施本發明。在其它情況下,沒有詳 細描述眾所周知的方法、過程、組件和電路,以免影響對本發明的理解。
[0014] 如圖1所示,公開了一種確定多義詞詞義的方法,包括:
[0015] S11、獲取待判定詞義的多義詞w的關聯文本,并從所述關聯文本中找出其具有的 詞匯w的特征詞;
[0016]S12、以找出的所述特征詞在用于判定詞義的決策樹中,按照所述決策樹的生成順 序依次進行判定;
[0017]S13、根據判定結果,確定所述詞匯w當前應采用的詞義。
[0018] 本發明提高了多義詞在不同文體和語境下的翻譯準確性,降低了多義詞類文本翻 譯的門檻,提升了翻譯效率,大大節省了人力物力。
[0019] 在一些說明性實施例中,所述獲取待判定詞義的多義詞w的關聯文本,并從所述 關聯文本中找出其具有的詞匯w的特征詞之前,還包括:從語料庫中隨機選取一定數量的、 包含詞匯w的特定段落;對選取的所述特定段落進行至少一次數據篩選,篩選確定出所述 詞匯w的所述特征詞。
[0020] 其中,所述特定段落為詞匯W在語料庫中的所在句、所在的自然段或詞匯w在語料 庫中如后一定樞圍的詞匯集合。
[0021] 如圖2所示,在一些說明性實施例中,所述對選取的所述特定段落進行至少一次 數據篩選,篩選確定出所述詞匯w的所述特征詞,具體包括:
[0022]S21、對選取的每個特定段落進行分詞處理,去除其中的停用詞,將剩余的詞匯作 為候選關聯詞;
[0023] 具體包括:保留為名稱、動詞、形容詞、副詞、習語或縮略語的詞匯。
[0024] 其中,通過對停用詞的去除,降低了不相關詞匯對特征詞的選取的噪聲影響,提高 了得到的特征詞的可靠性和準確性。
[0025]S22、保留出現概率高于第一閾值的候選關聯詞作為關聯詞,并計算出每個所述關 聯詞與詞匯w的每個詞義的互信息;
[0026] 其中,通過去除詞頻低的詞匯,可以有效的確定針對于詞匯w的更加相關的詞匯, 進一步提高了得到的特征詞的可靠性和準確性。
[0027]S23、將得到的所述互信息高于第二閾值的關聯詞作為與該詞義具有對應關系的 所述特征詞。
[0028] 其中,互信息是計算語言學模型分析的常用方法,可以更有效的篩選出與詞匯w 的詞義更加相關聯的詞匯,確定特征詞,大大提高了得到的特征詞的可靠性和準確性。
[0029] 在一些說明性實施例中,所述計算出每個所述關聯詞與詞匯w的每個詞義為互信 息,具體包括:
[0030] 按照如下公式計算出第i個詞義叫和第j個關聯詞w」的互信息I(mi,Wj):
[0031]
【主權項】
1. 一種確定多義詞詞義的方法,其特征在于,包括: 獲取待判定詞義的多義詞W的關聯文本,并從所述關聯文本中找出其具有的詞匯W的 特征詞; 以找出的所述特征詞在用于判定詞義的決策樹中,按照所述決策樹的生成順序依次進 行判定; 根據判定結果,確定所述詞匯W當前應采用的詞義。
2. 根據權利要求1所述的方法,其特征在于,所述獲取待判定詞義的多義詞w的關聯文 本,并從所述關聯文本中找出其具有的詞匯w的特征詞之前,還包括: 從語料庫中隨機選取一定數量的、包含詞匯w的特定段落; 對選取的所述特定段落進行至少一次數據篩選,篩選確定出所述詞匯W的所述特征 。
3. 根據權利要求2所述的方法,其特征在于,所述對選取的所述特定段落進行至少一 次數據篩選,篩選確定出所述詞匯w的所述特征詞,具體包括: 對選取的每個特定段落進行分詞處理,去除其中的停用詞,將剩余的詞匯作為候選關 聯詞; 保留出現概率高于第一閾值的候選關聯詞作為關聯詞,,并計算出每個所述關聯詞與 詞匯w的每個詞義的互信息; 將得到的所述互信息高于第二閾值的關聯詞作為該詞義的所述特征詞。
4. 根據權利要求3所述的方法,其特征在于,所述計算出每個所述關聯詞與詞匯w的每 個詞義為互信息,具體包括: 按照如下公式計算出第i個詞義叫和第j個關聯詞wj的互信息I(mi,Wj):
其中,POiO為詞匯w的第i個詞義叫的先驗概率,P(Wj)為第j個關聯詞%在所述選 取的所述特定段落中的出現概率,P(miWp為第i個詞義%和第j個關聯詞同時出現的 概率;i為詞匯w的詞義序號,,j為關聯詞的序號。
5. 根據權利要求3所述的方法,其特征在于,在所述以找出的所述特征詞在用于判定 詞義的決策樹中,按照所述決策樹的生成順序依次進行判定之前,還包括: 根據確定的所述特征詞,利用ID3算法或C4. 5算法構建詞匯w用于判定詞義的決策 樹。
6. 根據權利要求5所述的方法,其特征在于,所述利用ID3算法或C4. 5算法構建詞匯 w用于判定詞義的決策樹的過程中,包括: 將每個詞義的對應特征詞作為所述決策樹的判定結點上的特征項; 根據所述特征項的信息增益或信息增益比從大到小的順序生成所述決策樹; 其中,每個所述特征項對應有判定其取值結果的第三閾值。
7. 根據權利要求6所述的方法,其特征在于,所述根據判定結果,確定所述詞匯w當前 應采用的詞義,具體包括: 以所述關聯文本中找出的特征詞,在所述決策樹上按該決策樹的生成順序依次進行判 定; 結果滿足該決策樹上葉子結點的判定,則將該決策樹對應的詞義作為所述詞匯W當前 應采用的詞義。
8. 根據權利要求3所述的方法,其特征在于,所述對選取的每個特定段落進行分詞處 理,去除其中的停用詞,將剩余的詞匯作為候選關聯詞,具體包括: 保留為名稱、動詞、形容詞、副詞、習語或縮略語的詞匯。
9. 根據權利要求2所述的方法,其特征在于,所述特定段落為詞匯w在語料庫中的所在 句、所在的自然段或詞匯w在語料庫中前后一定范圍的詞匯集合。
【專利摘要】一種確定多義詞詞義的方法,包括:獲取待判定詞義的多義詞w的關聯文本,并從所述關聯文本中找出其具有的詞匯w的特征詞;;以找出的所述特征詞在用于判定詞義的決策樹中,按照所述決策樹的生成順序依次進行判定;根據判定結果,確定所述詞匯w當前應采用的詞義。本發明提高了多義詞在不同文體和語境下的翻譯準確性,降低了多義詞類文本翻譯的門檻,提升了翻譯效率,大大節省了人力物力。
【IPC分類】G06F17-28
【公開號】CN104572633
【申請號】CN201410821314
【發明人】江潮, 張芃
【申請人】語聯網(武漢)信息技術有限公司
【公開日】2015年4月29日
【申請日】2014年12月25日