專利名稱:一種互聯網信息自然語言翻譯通用方法和系統的制作方法
技術領域:
本發明涉及一種互聯網信息自然語言翻譯通用方法和系統,更確切地 說,是涉及一種以句子為單元的互聯網信息語義統一編碼人工輔助通用翻譯 方法和系統。
背景技術:
自從互聯網通訊在全球普及,網絡信息多語翻譯服務已經成為億萬用戶的 共同普遍需求。但是,產生于非網絡時代的機器翻譯技術始終無法占領這個顯 而易見的巨大市場1)全自動翻譯——其難以解決的根本問題是翻譯質量無法 保證。2)人工輔助翻譯——用戶必須懂得原文和譯文,市場需求十分有限。
造成上述問題的根本原因是,自然語言符號語義不僅具有多義性,并且具 有用戶可自由約定符號語義、流行既標準的特點(在互聯網通訊中更是如此)。 因此,僅靠計算技術(無論是基于規則還是基于統計)不僅難以準確求解原文 符號語義。并且,即使準確求解出原文語義,其自動生成譯文也會在句子以外 的上下文條件下出現新增理解歧義。因此,機器翻譯技術要想保證機器翻譯的 語義信息傳遞質量,必須通過人機交互以句子為單元準確約定原文語義,并在 譯文端提供以句子為單元的語義標注結果。
本發明的基本原理來自于各種自然語言語義約定通用規律 詞匯語義遞歸約定各種自然語言詞匯(包括各種固定搭配)的語義,均 可用本語言常用基本詞匯進行語義遞歸約定(比如,朗曼英語詞典用1000多常
用詞匯對任意詞匯、固定搭配短語進行語義約定)。并且, 一種自然語言的常用 基本詞匯,可以對其他語言的任意詞匯進行語義遞歸約定。
詞匯語義循環約定各種自然語言常用基本詞匯的語義約定方式為循環約 定(如"好"表示使人滿意,壞的反義詞)。并且,基本詞匯與非基本詞匯之間也 可進行語義循環約定(如"中看美、漂亮、好看")。
語法、句法成分通用約定雖然各種自然語言的基本語法(如時態)、句法 信息(如主、謂、賓、修、補)表達方式不同(例如漢語用詞匯符號表達時態, 俄語在詞匯符號中直接標識主格、賓格表達句子成分),但各種自然語言中的必 要語法、句法成分信息具有通用性。
符號冗余如果自然語言句子(與句子之外上下文無關時)中缺損某個符 號(如漢語中的大量量詞、英語中的不定冠詞)不影響語義理解,并且讀者知 道缺損的是什么符號,說明該符號屬于習慣性表達冗余成分。對于不同自然語 言語義信息傳遞而言,冗余成分不需要進行語義約定。
本發明基于以上客觀規律,提供一種互聯網信息自然語言翻譯通用方法和 系統,以使用戶只需采用母語進行人機交互,即可自動翻譯為多種自然語言譯 文,并且保證機器翻譯結果的語義信息傳遞質量。
發明內容
實現本發明的技術方案是這樣的 一種互聯網信息自然語言翻譯通用方法 和系統。其方法特征包括
A、用戶終端向本系統業務處理主機發出至少一種自然語言的語義統一編碼 詞庫和句法庫、原文語義統一編碼人機交互模板、原文語義自動編碼程序、譯 文及譯文語義標注結果轉換程序等終端應用程序的下載請求,并接收和安裝上 述終端應用程序;
B、 用戶終端調用原文語義統一編碼人機交互模板,根據用戶輸入需翻譯原 文信息后的操作指令,或通過原文語義自動編碼程序調用語義統一編碼對像顯 示于原文語義統一編碼人機交互模板,或發送需翻譯原文至系統業務處理主機, 通過系統業務處理主機內置搜索引擎檢索原文語義編碼語料庫中已有統一編碼 結果相應原文并反饋至用戶終端,由用戶終端原文語義自動編碼程序根據所接 收原文語義統一編碼結果調用語義統一編碼對像顯示于原文端人機交互模板;
C、 當用戶對人機交互模板上所顯示的原文語義統一編碼對像進行調整、添 加并進行確認,則用戶終端獲得原文語義統一編碼最終結果;
D、 用戶終端根據用戶發出的操作指令,或通過互聯網或其它數據通訊方式 發送原文語義統一編碼結果至另一用戶終端及系統業務處理主機,或通過本終 端譯文轉換程序將原文語義統一編碼結果轉換為譯文及譯文語義標注結果;
E、 另一用戶終端接收原文語義統一編碼結果,并通過該用戶終端譯文轉換 程序將原文統一編碼結果自動轉換生成為譯文及譯文語義標注結果;
F、 系統業務處理主機接收原文語義統一編碼結果,將原文及語義統一編碼 結果存儲至原文統一編碼語料庫,將用戶自主擴展詞匯語義統一編碼發送至編 碼結果分析器;
G、 編碼結果分析器接收系統業務處理主機發送的用戶自主擴展詞匯語義統 一編碼,進行用戶自主擴展詞匯語義統一編碼統計、分析,并將統計分析結果 發送至系統業務處理主機;
H、 系統業務處理主機相關應用程序根據統計分析結果處理方法,發出在語 義統一編碼詞庫添加新增用戶自主擴展詞匯語義統一編碼指令。
步驟A所述的自然語言語義統一編碼詞庫的數據內容結構由詞匯語義統一 編碼對像及對應的詞匯語義統一編碼組成;所述的詞匯語義統一編碼對像包括 各種自然語言(如漢、英、法、俄……)詞匯、短語表層符號及所有不同的 語義項;所述的詞匯語義統一編碼是指對各種自然語言詞匯、短語表層符號及 各個不同語義項分別設置的可多語共享語義統一編碼;并且, 一個語義統一編
碼在同一種語言中可對應于多個語義相同的編碼對像。該語義統一編碼用于用 戶終端相關應用程序調用在不同自然語言語義統一編碼詞庫中具有相同語義統 一編碼的編碼對像。
例如漢語語義統一編碼詞庫中有表層符號"好"-義項1:形容詞;與 "壞"相對,優、精、良、妙、出色、到家……0001-1;義項2:名詞;友愛、
友善、友好、和睦、投機……0001-2。 0001-1 、 0001-2為詞匯語義統一編碼, 0001-1、 0001-2前的內容為編碼對像。
如果用戶在原文語義統一編碼人機交互模板上對表層符號漢語詞匯"好" 選擇確認義項1:形容詞;與"壞"相對,優、精、良、妙、出色、到家……, 其詞匯語義統一編碼0001-1可調用英文詞匯語義統一編碼詞庫中詞匯語義統一 編碼0001-1的編碼對像good (表層符號),adj. excellent, essential ,
fine, wonderful, standout , perfect......(語義項)。如果用戶在原文語
義統一編碼人機交互模板上對表層符號漢語詞匯"好"選擇確認義項2,其詞 匯語義統一編碼0001-2可調用英文詞匯語義統一編碼詞庫中詞匯語義統一 編碼 0001-2的對像good (表層符號),n. friendship , frendliness , amity, harmony, interested......(語義項)。
步驟A所述的自然語言語義統一編碼句法庫數據內容結構由各種自然語言 通用的句法信息編碼對像及對應的句法信息統一編碼組成;所述的句法信息編 碼對像至少包括主、謂、賓、修、補等句法成分信息項,過去時、現在時、將 來時等時態信息項;該句法信息統一編碼可由用戶終端相關應用程序調用在不 同自然語言語義統一編碼句法庫中具有相同語義統一編碼的編碼對像。并且, 一個句法信息統一編碼在同一種語言中僅可對應于一個編碼對像。
步驟A所述的原文語義統一編碼人機交互模板是指可實現原文語義統一編 碼對像(原文詞匯、短語文字符號的不同語義描述項、各種句法成分信息項) 調整、添加和確認等人機交互操作的各種類型可視化界面;其人機交互方法包 括,當用戶在原文輸入欄或句子成分信息宋互模板直接輸入的需翻譯原文信息 時顯示用戶用戶輸入信息;當用戶選擇所輸入句子及句子成分并要求進行原文 語義編碼操作,包括拖動所選字符串在句子成分信息可視化交互模板中的所處 位置時,顯示原文語義自動編碼程序調用的語義編碼對像及其它相關信息。
步驟A所述的原文語義自動編碼程序是指可通過原文語義自動編碼方法自 動判別需翻譯原文句子的詞匯、短語表層符號的語義項、各種句法成分信息項 的程序;所述的原文語義自動編碼方法至少包括,當用戶選擇對所輸入原文進 行語義統一編碼時,原文語義自動編碼程序自動切分原文句子中的詞匯和短語, 根據切分結果從原文統一編碼詞庫、句法庫中調用原文句子詞匯和短語的所有 語義項,根據有效句型搭配規則判別原文句子的句法成分信息項、所缺少的句 法成分信息項(如句子核心成分、核心動詞……)、原文句子詞匯和短語的可優 選語義項,并將上述判別結果顯示于原文語義統一編碼人機交互模板;當用戶 在原文語義統一編碼人機交互模板中進行原文語義編碼對像調整、添加、確認, 則獲得以句子為單元的原文詞匯、短語、句法信息語義統一編碼結果。
步驟A所述的譯文自動轉換程序中的譯文自動轉換方法至少包括,用原文 句子語義統一編碼結果調用譯文統一編碼詞庫、句法庫中的統一編碼對像;如 果原文句子語義統一編碼結果在譯文統一編碼詞庫中調用出多個編碼對像,則 根據編碼對像使用頻率等條件對相同語義編碼的多個對像進行優選;根據譯文 自動轉換規則,用譯文編碼對像中的譯文詞匯表層符號自動生成譯文,用譯文 編碼對像中的語義項自動生成譯文語義標注結果;并根據譯文瀏覽用戶選擇, 將譯文或譯文語義標注結果顯示于譯文瀏覽用戶終端。
步驟c所述的當用戶對人機交互模板上所顯示的原文語義統一編碼對像進 行添加的方法和步驟A所述的譯文自動轉換程序中的譯文自動轉換方法還包 括,當用戶在原文語義統一編碼人機交互模板的原文詞匯、短語語義項描述欄 中直接輸入詞匯、短語符號的自定義語義描述項時,相關應用程序循環調用原 文語義統一編碼人機交互模板;當用戶進行該詞匯、短語符號的自定義語義描 述的語義統一編碼人機交互操作后,將自定義語義描述的語義統一編碼結果打 包為該詞匯、短語符號的用戶自主擴展語義統一編碼;當由譯文自動轉換程序 自動生成譯文時,將自定義語義描述的語義統一編碼結果直接轉換生成為語義 描述譯文。
該方法用于原文自動編碼應用程序沒有調用到用戶滿意的原文詞匯、短語 符號語義統一編碼對像、或對像為空時,由用戶自主擴展詞匯語義統一編碼。
例如當漢語用戶在原文語義統一編碼人機交互模板中輸入原文"你別這 么風吹草動的"并要求原文語義自動編碼時,原文語義自動編碼應用程序沒有 調用到用戶滿意的"風吹草動"原文詞匯、短語符號語義統一編碼對像、或編 碼對像為空時,用戶在原文詞匯、短語語義項描述欄中直接輸入對該詞匯、短 語符號的語義描述項"表示反應過度",則相關應用程序循環調用原文語義統一 編碼人機交互模板供用戶進行"表示反應過度"的語義統一編碼人機交互操作, 并將"表示反應過度"的詞匯、短語文字符號的語義描述項、各種句法成分信 息項的語義統一編碼結果打包為該詞匯、短語符號的用戶自主擴展詞匯語義統 一編碼。英語譯文自動轉換程序則在生成譯文時直接生成加有專用括弧的(表 示反應過度)英語譯文。
本發明方法還包括,譯文自動轉換程序可對應于每一譯文句子自動生成并 添加的譯文語義標注結果調用代碼及標識符,終端應用程序可將譯文自動轉換 程序所生成譯文及譯文語義標注結果調用代碼標識符插入到即時通訊、電子郵
件、網頁的文檔信息顯示頁面進行顯示;當用戶在即時通訊、電子郵件、網頁 文檔等信息瀏覽頁面點擊所顯示的每一譯文句子后跟隨的語義標注結果調用代 碼標識符時,則直接調用該句子語義標注結果進行顯示(如直接鏈接該句子語 義標注結果顯示頁面),以實現用戶無需下載終端應用軟件即可瀏覽譯文及査詢 譯文語義標注結果。
步驟G所述的編碼結果分析器進行原文語義編碼結果分析處理的方法包 括,對用戶自主擴展詞匯語義統一編碼進行相似性分析和使用頻率統計,并將 分析、統計結果發送至業務處理主機。
本發明的系統特征包括
系統業務處理主機,用于接收和處理來自應用服務器的信息處理指令,調 用、發送終端應用程序至用戶終端,接收、處理來自編碼結果分析器的信息;
內置搜索引擎,用于檢索原文語義統一編碼語料庫各類數據;
編碼結果分析器,用于進行原文語義編碼結果分析處理,以及發送分析、 統計結果至業務處理主機;
應用服務器,用于解析來自用戶終端的信息處理指令,發送解析后的處理 指令至業務處理主機,并將業務處理主機處理結果轉換為終端可接受數據反饋 至用戶終端;
用戶終端,用于接收、安裝終端應用程序,執行原文語義自動編碼、原文 語義編碼人機交互及譯文轉換程序,向應用服務器發送信息及相關處理指令, 接收應用服務器發送的信息。
系統數據庫,用于存儲系統應用相關數據和終端應用程序,包括各種自然 語言語義統一編碼詞庫、句法庫、原文語義統一編碼語料庫,以及存儲用戶終 端原文語義統一編碼人機交互模板、原文語義自動編碼程序、譯文及譯文語義 標注結果轉換程序的數據庫。
下面結合附圖和實施例進一步說明本發明
附圖1是本發明系統框圖
附圖2是本發明方法主流程圖
附圖3是本發明原文語義統一編碼人機交互模板示意圖
附圖4是本發明譯文及語義標注結果示意圖
附圖5是原文詞匯及短語語義項選擇模板
附圖6是即時通訊信息翻譯瀏覽頁面示意圖
附圖7是原文語義自動編碼流程圖
附圖8是自動生成譯文及譯文瀏覽頁面調用基本流程
圖1各方框中的數字編號是系統硬件設置編號
圖2、 7、 8各框中的數字編號是流程執行步驟編號
圖3-1是原文語義編碼人機交互模板的原文輸入欄,圖3-2'是原文語義編 碼對像相關信息線性排列顯示欄,圖3-3是原文語義編碼對像句子成分信息顯 示模板,顯示模板上方和左側的文字是句法信息輸入框的句子成分信息屬性說 明。例如左上方框為主語修飾成分、左中框為主語核心成分……。圖3-4是 原文子句句子成分信息顯示模板(該圖為賓語子句顯示)
圖4-1是自動生成譯文顯示欄,圖4-2是譯文語義編碼對像相關信息線性 排列顯示欄,圖4-3是譯文句子成分信息顯示模板,圖4-4是譯文子句句子成 分信息顯示模板,顯示模板上方和左側的文字是句法信息輸入框的句子成分信 息屬性說明。
圖5-1是原文語義編碼人機交互用戶點擊原文詞匯調用的原文詞匯及短語 語義項選擇模板;5-l各方框左側是原文詞匯語義項屬性文字說明,各方框中是
原文語義自動編碼程序調用的優選語義統一編碼對像和備選對像,圖5-2下拉 顯示欄是自動編碼程序調用的詞匯語義描述、用戶自主輸入自定義語義描述字 符顯示欄。當用戶自主輸入自定義語義描述字符后點擊圖5-l中的"0K",則可 循環調用圖3。
圖6-1是由譯文自動生成程序自動生成的以句子為單元的語義標注結果調 用代碼標識符,圖6-2是原文語義統一編碼人機交互模板調用符號,圖6-3是 被選中的需翻譯原文
實施例l:本發明應用主流程,參見圖l、 2、 3、 4、 5、 6
執行圖2步驟201:根據用戶操作指令,用戶終端(101-1至101-N)通過 應用服務器(102)向系統業務處理主機(103)發送終端應用程序下載請求, 接收并安裝從數據庫(106)下載的終端應用程序
執行步驟202:根據101-1用戶操作指令,101-1調用原文語義統一編碼人 機交互模板,用戶在如圖3-l、或3-3輸入需翻譯原文
執行步驟203:是否自動檢索已有統一編碼原文?
執行步驟204:是,貝U 101-1發送原文至103, 103內置搜索引擎用所接收 原文(包括原文標題、篇章、在句法信息輸入框內所輸入的含有句法成分信息 的原文句子等)檢索原文語義編碼語料庫(107),并將檢索結果反饋至101-1, 通過101-1原文自動編碼程序調用已編碼對像(原文詞匯、短語文字符號的不 同語義描述項、各種句法成分信息項),如圖3-2、 3-3、 34所示進行顯示
執行步驟205:否,則101-1自動編碼程序調用該詞匯符號可供選擇語義項 及優選原文語義項(原文詞匯、短語文字符號的不同語義項、各種句法成分信 息項),如圖3-2、 3-3、 3"4所示進行顯示
執行步驟206:當用戶在如圖3所示人機交互模板上對原文語義編碼對像進行調整(包括通過拖動原文詞匯、短語文字符號在句子成分信息可視化模板中
所處位置對句子成分信息進行調整)、添加并確認,則101-1相關應用程序獲得 原文語義統一編碼結果;
執行步驟207:是否將編碼結果傳輸至另一指定終端?
執行步驟208:否,則101-1調用本終端譯文轉換程序將統一編碼結果轉換 為指定自然語言譯文顯示于本終端;并根據用戶對譯文句子的選擇,調用如圖 4-2、 4-3、 4-4所示語義項標注結果進行顯示
執行步驟209:是,則101-1將編碼結果通過互聯網或其他數據傳輸方式發 送至該用戶指定另一用戶終端(如101-N)和103,并或通過103、或直接發送 用戶自主擴展詞匯語義編碼至編碼結果分析器(104)
執行步驟210:另一用戶終端101-2至-N中的譯文自動轉換程序將原文語義 統一編碼結果轉換為另一用戶終端用戶指定自然語言譯文及語義標注結果,并 根據用戶選擇指令顯示自然語言譯文或語義標注結果
執行步驟211: 103接收原文統一編碼結果并發送至107,并將用戶自主擴 展詞匯語義編碼發送至104
執行步驟212: 104接收原文統一編碼結果,統計分析用戶自主擴展詞匯語 義編碼,并將統計分析結果發送至103
執行步驟213: 103相應程序根據規則判別是否發出在105該種自然語言語 義統一編碼詞庫添加、調整或刪除編碼對像及編碼的指令
實施例2:原文語義自動標注基本流程,參見圖7 執行步驟701 ,原文語義自動編碼程序自動切分原文句子中的詞匯和短語 執行步驟702,根據切分結果從原文統一編碼詞庫、句法庫中調用原文句子 詞匯和短語的所有語義項,
執行步驟703,根據有效句型搭配規則判別原文句子的句法成分信息項、所 缺少的句法成分信息項(如句子核心成分、核心動詞……)、原文句子詞匯和短 語的可優選語義項,將判別結果顯示于原文語義統一編碼人機交互模板;
執行步驟704,調整還是確認自動優選統一編碼?確認,執行步驟709, 調整,執行步驟705
執行步驟705,是否添加自定義語義描述?否,執行步驟706,是,執行步 驟707,
執行步驟706,根據用戶選擇調用可供調整語義項
執行步驟707,循環調用圖3所示原文語義統一編碼人機交互模板供用戶迸 行自定義語義描述文字的語義統一編碼人機交互操作, 執行步驟708,是否確認原文語義統一編碼?
執行步驟709,獲得以句子為單元的原文詞匯、短語、句法信息語義統一編 碼結果,并將用戶自定義語義描述文字的語義統一編碼(用戶最終確定的詞匯、 短語文字符號的語義描述項、各種句法成分信息項的語義統一編碼)結果打包 為該詞匯、短語符號的用戶自主擴展詞匯語義統一編碼,對應每一譯文句子生 成以句子為單元的語義標注結果調用代碼
實施例3:自動生成譯文及譯文瀏覽頁面調用基本流程,參見圖8、圖6 執行步驟801,譯文自動轉換程序用原文句子語義統一編碼結果調用譯文統
一編碼詞庫、句法庫中的統一編碼對像;
執行步驟802,調用結果是多個編碼對像?是,執行803;否,執行804 執行步驟803,根據編碼對像使用頻率等條件對相同語義編碼的多個對像進
行優選;
執行步驟804,根據譯文自動轉換規則,用譯文編碼對像中的譯文詞匯表
層符號自動生成譯文、用譯文編碼對像中的語義項自動生成譯文語義標注結果 及調用符號
執行步驟805,通過終端應用程序插入如圖6-l所示,在即時通訊、電子郵 件、網頁文檔等信息瀏覽頁面顯示自動生成譯文及譯文語義標注結果調用符 執行步驟806,是否調用譯文語義標注結果?否,返回805,是,執行807 執行步驟807,調用并顯示譯文語義標注結果(如以網頁鏈接顯示如圖4-2、 4-3、 4-4所示以句子為單元的譯文語義標注結果)。
實施例4:參見圖6
當用戶選中6-3所示需翻譯原文,點擊6-2,則調用原文語義標注人機交互
模板,執行實施例l
當用戶點擊6-l語義標注結果調用代碼標識符,則調用或鏈接顯示如圖4-2、 4-3、 4-4所示以句子為單元的譯文語義標注結果
本發明雖然不能像人工翻譯一樣得到自然、流暢的自然語言翻譯結果,但是, 與現有的自動翻譯和人工輔助翻譯方法相比,具有顯而易見的應用優勢。其應 用優勢是1)用戶只需采用母語對原文進行一次人機交互,即可自動翻譯為任 意其它自然語言。2)'可保障譯文語義信息傳遞質量。3)即使用戶自造新詞、 新縮略語、新固定搭配,也能實現語義信息傳遞質量可靠的多語翻譯。4)通過 本系統翻譯服務中心支持,用的人越多翻譯自動化水平越高。因此,特別適用 于進行網絡信息元數據、即時通訊、電子郵件、網頁信息等互聯網通訊信息的 自然語言信息翻譯。
權利要求
1、一種互聯網信息自然語言翻譯通用方法和系統。其方法特征包括A、用戶終端向本系統業務處理主機發出至少一種自然語言的語義統一編碼詞庫和句法庫、原文語義統一編碼人機交互模板、原文語義自動編碼程序、譯文及譯文語義標注結果轉換程序等終端應用程序的下載請求,并接收和安裝上述終端應用程序;B、用戶終端調用原文語義統一編碼人機交互模板,根據用戶輸入需翻譯原文信息后的操作指令,或通過原文語義自動編碼程序調用語義統一編碼對像顯示于原文語義統一編碼人機交互模板,或發送需翻譯原文至系統業務處理主機,通過系統業務處理主機內置搜索引擎檢索原文語義編碼語料庫中已有統一編碼結果相應原文并反饋至用戶終端,由用戶終端原文語義自動編碼程序根據所接收原文語義統一編碼結果調用語義統一編碼對像顯示于原文端人機交互模板;C、當用戶對人機交互模板上所顯示的原文語義統一編碼對像進行調整、添加并進行確認,則用戶終端獲得原文語義統一編碼最終結果;D、用戶終端根據用戶發出的操作指令,或通過互聯網或其它數據通訊方式發送原文語義統一編碼結果至另一用戶終端及系統業務處理主機,或通過本終端譯文轉換程序將原文語義統一編碼結果轉換為譯文及譯文語義標注結果;E、另一用戶終端接收原文語義統一編碼結果,并通過該用戶終端譯文轉換程序將原文統一編碼結果自動轉換生成為譯文及譯文語義標注結果;F、系統業務處理主機接收原文語義統一編碼結果,將原文及語義統一編碼結果存儲至原文統一編碼語料庫,將用戶自主擴展詞匯語義統一編碼發送至編碼結果分析器;G、編碼結果分析器接收系統業務處理主機發送的用戶自主擴展詞匯語義統一編碼,進行用戶自主擴展詞匯語義統一編碼統計、分析,并將統計分析結果發送至系統業務處理主機;H、系統業務處理主機相關應用程序根據統計分析結果處理方法,發出在語義統一編碼詞庫添加新增用戶自主擴展詞匯語義統一編碼指令。
2、 根據權利要求1步驟A所述的自然語言語義統一編碼詞庫的數據內容結 構由詞匯語義統一編碼對像及詞匯語義統一編碼組成;其中的語義統一編碼用 于用戶終端相關應用程序調用在不同自然語言語義統一編碼詞庫中具有相同語 義統一編碼的編碼對像;所述的詞匯語義統一編碼對像包括各種自然語言(如 漢、英、法、俄……)詞匯、短語表層符號及所有不同的語義項;所述的詞匯 語義統一編碼是指對各種自然語言詞匯、短語表層符號及各個不同語義項分別 設置的可多語共享的語義統一編碼;并且, 一個語義統一編碼在同一種語言中 可對應于多個語義相同的編碼對像。
3、 根據權利要求1步驟A所述的自然語言語義統一編碼句法庫數據內容結 構由各種自然語言通用的句法信息編碼對像及對應的句法信息統一編碼組成; 其中的句法信息統一編碼可由用戶終端相關應用程序調用在不同自然語言語義 統一編碼句法庫中具有相同語義統一編碼的編碼對像;所述的句法信息編碼對 像至少包括主、謂、賓、修、補等句法成分信息項,過去時、現在時、將來時 等時態信息項;并且, 一個句法信息統一編碼在同一種語言中僅可對應于一個 編碼對像。
4、 根據權利要求1步驟A所述的原文語義自動編碼程序是指可通過原文語 義自動編碼方法自動判別需翻譯原文句子的詞匯、短語表層符號的語義項、各 種句法成分信息項的程序;所述的原文語義自動編碼方法至少包括,當用戶選 擇對所輸入原文進行語義統一編碼時,原文語義自動編碼程序自動切分原文句子中的詞匯和短語,根據切分結果從原文統一編碼詞庫、句法庫中調用原文句 子詞匯和短語的所有語義項,根據有效句型搭配規則判別原文句子的句法成分 信息項、所缺少的句法成分信息項(如句子核心成分、核心動詞……)、原文句 子詞匯和短語的可優選語義項,并將上述判別結果顯示于原文語義統一編碼人機交互模板;當用戶在原文語義統一編碼人機交互模板中進行原文語義編碼對 像調整、添加、確認,則獲得以句子為單元的原文詞匯、短語、句法信息語義 統一編碼結果。
5、 根據權利要求1步驟A、 D、 E所述的譯文自動轉換程序中的譯文自動轉 換方法至少包括,用原文句子語義統一編碼結果調用譯文統一編碼詞庫、句法 庫中的統一編碼對像;如果原文句子語義統一編碼結果在譯文統一編碼詞庫中 調用出多個編碼對像,則根據編碼對像使用頻率等條件對相同語義編碼的多個 對像進行優選根據譯文自動轉換規則,用譯文編碼對像中的譯文詞匯表層符 號自動生成譯文,用譯文編碼對像中的語義項自動生成譯文語義標注結果;并 根據譯文瀏覽用戶選擇,將譯文或譯文語義標注結果顯示于譯文瀏覽用戶終端。
6、 根據權利要求1步驟C所述的當用戶對人機交互模板上所顯示的原文語 義統一編碼對像進行添加的方法和步驟A、 D、 E所述的譯文自動轉換程序中的 譯文自動轉換方法還包括,當用戶在原文語義統一編碼人機交互模板的原文詞 匯、短語語義項描述欄中直接輸入詞匯、短語符號的自定義語義描述項時,相 關應用程序循環調用原文語義統一編碼人機交互模板;當用戶進行該詞匯、短 語符號的自定義語義描述的語義統一編碼人機交互操作后,將自定義語義描述 的語義統一編碼結果打包為該詞匯、短語符號的用戶自主擴展語義統一編碼; 當由譯文自動轉換程序自動生成譯文時,將自定義語義描述的語義統一編碼結 果直接轉換生成為語義描述譯文。
7、 根據權利要求1步驟G所述的編碼結果分析器進行原文語義編碼結果分 析處理的方法包括,對用戶自主擴展詞匯語義統一編碼進行相似性分析和使用 頻率統計,并將分析、統計結果發送至業務處理主機。
8、 根據權利要求1步驟A所述的原文語義統一編碼人機交互模板是指可實 現原文語義統一編碼對像調整、添加和確認等人機交互操作的各種類型可視化 界面;其人機交互方法包括,當用戶在原文輸入欄或句子成分信息交互模板直 接輸入的需翻譯原文信息時顯示用戶用戶輸入信息;當用戶選擇所輸入句子及 句子成分并要求進行原文語義編碼操作,包括拖動所選字符串在句子成分信息 可視化交互模板中的所處位置時,顯示原文語義自動編碼程序調用的語義編碼 對像及其它相關信息。
9、 根據權利要求1所述的方法還包括,譯文自動轉換程序可對應于每一譯 文句子自動生成并添加的譯文語義標注結果調用代碼及標識符,終端應用程序 可將譯文自動轉換程序所生成譯文及譯文語義標注結果調用代碼標識符插入到 即時通訊、電子郵件、網頁的文檔信息顯示頁面進行顯示;當用戶在即時通訊、 電子郵件、網頁文檔等信息瀏覽頁面點擊語義標注結果調用代碼標識符時,則 直接調用該句子語義標注結果進行顯示(如直接鏈接該句子語義標注結果顯示 頁面)。
10、 本發明的系統特征包括系統業務處理主機,用于接收和處理來自應用服務器的信息處理指令,調 用、發送終端應用程序至用戶終端,接收、處理來自編碼結果分析器的信息; 內置搜索引擎,用于檢索原文語義統一編碼語料庫各類數據; 編碼結果分析器,用于進行原文語義編碼結果分析處理,以及發送分析、 統計結果至業務處理主機;應用服務器,用于解析來自用戶終端的信息處理指令,發送解析后的處理 指令至業務處理主機,并將業務處理主機處理結果轉換為終端可接受數據反饋至用戶終端;用戶終端,用于接收、安裝終端應用程序,執行原文語義自動編碼、原文 語義編碼人機交互及譯文轉換程序,向應用服務器發送信息及相關處理指令, 接收應用服務器發送的信息;系統數據庫,用于存儲系統應用相關數據和終端應用程序,包括各種自然 語言語義統一編碼詞庫、句法庫、原文語義統一編碼語料庫,以及存儲用戶終 端原文語義統一編碼人機交互模板、原文語義自動編碼程序、譯文及譯文語義 標注結果轉換程序的數據庫。
全文摘要
本發明是一種以句子為單元的互聯網信息語義統一編碼人工輔助通用翻譯方法和系統。其優勢在于用戶只需采用母語對原文進行一次人機交互,即可自動翻譯為任意其它語言;可保障譯文語義信息傳遞質量;即使用戶自造新詞、新縮略語、新固定搭配,也能實現語義信息傳遞質量可靠的多語翻譯結果;通過本系統翻譯服務中心支持,用的人越多翻譯自動化水平越高。特別適用于即時通訊、電子郵件、網頁信息等互聯網通訊信息的自然語言翻譯。
文檔編號G06F17/28GK101196883SQ20081000032
公開日2008年6月11日 申請日期2008年1月7日 優先權日2008年1月7日
發明者莎 劉 申請人:莎 劉