專利名稱:一種術語快速標注方法
技術領域:
本發明涉及一種翻譯過程中稿件預處理分析技術,具體說,就是在進行翻譯前先 將稿件中的已知術語快速速標注出來的方法。
背景技術:
目前應用于翻譯領域稿件預處理分析工具的標注主要采用了 “最大正向匹配”或 “最大逆向匹配”的方法,以盡可能獲得一個最長最完整含義的術語。下面就上面兩種方法 做一個簡單介紹。“最大正向匹配”,即從目標術語的最小長度的一個子串開始逐個到術語庫中進行 檢索,每檢索一次字串長度就加1,直到導到字串長度達到某個閥值為止,其中最后一次匹 配到的字串就是目標術語。與“最大正向匹配”相反,“最大逆向匹配”是先從一個設定的最大長度的字串開始 阻隔到術語庫中檢索,每檢索一次字串長度就減1,一旦發現字串與術語庫中的內容匹配就 停止,其中最后一次匹配到的字串就是目標術語。現在以“最大逆向匹配”為例做一個簡單地分析。假設有句子S = “我們將有機 會與中國一批成功的商業人士和慈善家就中國的慈善工作進行交流。”,同時假設術語的最 大長度為10,句子中沒有術語。根據上面的條件如果需要找到句子S中的所有術語則需要從句子S的第一個字開 始在術語庫中檢索第一個長度10的字串,我們記做S(l,10),如果術語庫中沒有檢索到則 繼續S(l,9)依此類推知道找到術語為止,如果到S(l,l)時仍未找到術語則從S(2,10)開 始繼續直到匹配到術語或這一直進行到S(n,1)。具體過程如下表所示
權利要求
一種術語快速標注方法,包括建立前綴表,并將所述前綴表加載到內存中,讀取文字,所述文字包括至少一個子串;提取所述文字中的一個子串,將所述子串在所述前綴表中進行術語的檢索;將當前查找到的子串作為術語記錄下來。
2.如權利要求1所述的術語快速標注方法,其特征在于所述前綴表的結構包括術語 的前綴、術語的最小長度和術語的最大長度。
3.如權利要求2所述的術語快速標注方法,其特征在于如果所述子串的長度在術語 的最小長度和最大長度之間,則檢索術語庫。
4.如權利要求1所述的術語快速標注方法,其特征在于建立術語表,將,所述術語表 加載到內存中,將記錄后的術語在所述術語表中檢索,將所述術語統一到所述術語庫中進 行檢索獲得所述術語的原文、譯文以及附加信息中。
5.如權利要求4所述的術語快速標注方法,其特征在于如果所述子串沒有在術語表 中檢索到,同時所述子串的前綴在前綴表中是存在的,那么當前子串的起始位置不變,將長 度縮短后繼續檢索所述前綴表。
6.如權利要求4所述的術語快速標注方法,其特征在于如果當前子串的長度小于前 綴表中最短術語的長度,改變所述當前子串的起始位置,并重新從最大術語長度開始檢索 所述前綴表。
7.如權利要求4所述的術語快速標注方法,其特征在于如果當前子串的長度大于所 述前綴表中最大術語的長度,改變當前子串的起始位置,并重新從最大術語長度開始檢索 所述前綴表。
8.如權利要求7所述的術語快速標注方法,其特征在于使用所述術語的原文在內存 中的所述術語表中進行檢索,如果檢索到則返回術語的術語唯一標識ID ;將所述術語ID統 一到所述術語庫中進行檢索獲得術語的原文、譯文以及附加信息中。
9.如權利要求4所述的術語快速標注方法,其特征在于所述術語表的數據結構包括 術語的源語言ID、術語的目標語言ID、唯一標識、術語原文和字節數。
全文摘要
本發明公開了一種術語快速標注方法,包括建立前綴表,并將所述前綴表加載到內存中,讀取文字,所述文字包括至少一個子串;提取所述文字中的一個子串,將所述子串在所述前綴表中進行術語的檢索;將當前查找到的子串作為術語記錄下來。本發明在進行術語標注時,借助預先建立的緩存在內存中的術語前綴表做出預判斷大大減少了對術語庫的檢索次數。
文檔編號G06F17/28GK101986308SQ20101054576
公開日2011年3月16日 申請日期2010年11月16日 優先權日2010年11月16日
發明者江潮 申請人:傳神聯合(北京)信息技術有限公司