一種基于云計(jì)算的術(shù)語(yǔ)譯文挖掘方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于云計(jì)算的術(shù)語(yǔ)譯文挖掘方法,包括:云計(jì)算硬件與軟件系統(tǒng)平臺(tái)的搭建和從所述云計(jì)算硬件與軟件系統(tǒng)平臺(tái)中抽取譯文的術(shù)語(yǔ)譯文挖掘技術(shù);所述術(shù)語(yǔ)譯文挖掘技術(shù)包括有效摘要資源的獲取、候選翻譯單元的自動(dòng)抽取和譯文的選擇;所述云計(jì)算硬件與軟件系統(tǒng)平臺(tái)的搭建包括搭建服務(wù)器群,建立并行計(jì)算系統(tǒng),構(gòu)建分布式數(shù)據(jù)庫(kù)系統(tǒng),以網(wǎng)絡(luò)的方式與客戶(hù)端交互,構(gòu)建云計(jì)算系統(tǒng)。通過(guò)上述方式,本發(fā)明能夠應(yīng)用到專(zhuān)業(yè)術(shù)語(yǔ)詞典的編撰、機(jī)器翻譯、信息檢索、問(wèn)答系統(tǒng)、主題內(nèi)容分析等相關(guān)領(lǐng)域;能滿(mǎn)足人們快速獲取互聯(lián)網(wǎng)上某領(lǐng)域的專(zhuān)業(yè)術(shù)語(yǔ)的需要。
【專(zhuān)利說(shuō)明】一種基于云計(jì)算的術(shù)語(yǔ)譯文挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)翻譯【技術(shù)領(lǐng)域】,特別是涉及一種基于云計(jì)算的術(shù)語(yǔ)譯文挖掘方法。
【背景技術(shù)】
[0002]隨著機(jī)器翻譯、跨語(yǔ)言信息檢索、Web挖掘研究的深入和互聯(lián)網(wǎng)資源的迅猛發(fā)展,跨語(yǔ)言知識(shí)和資源的Web挖掘研究領(lǐng)域掀起了新的高潮?;ヂ?lián)網(wǎng)上包含大量雙語(yǔ)對(duì)齊、雙語(yǔ)可比、或者雙語(yǔ)混合網(wǎng)頁(yè),從這些網(wǎng)頁(yè)中挖掘?qū)W習(xí)各種細(xì)粒度的跨語(yǔ)言知識(shí),如翻譯詞典、翻譯模板、雙語(yǔ)術(shù)語(yǔ)、雙語(yǔ)語(yǔ)料庫(kù)等,都能夠?qū)Ω倪M(jìn)傳統(tǒng)的機(jī)器翻譯技術(shù)和跨語(yǔ)言信息檢索技術(shù)提供重要的基礎(chǔ)資源。
[0003]同時(shí),隨著國(guó)際交流的日趨頻繁,如何消除人們的語(yǔ)言文字交流障礙成為最具影響力問(wèn)題之一。大規(guī)??缯Z(yǔ)言資源庫(kù)的構(gòu)建及翻譯知識(shí)自動(dòng)獲取技術(shù)對(duì)于推進(jìn)機(jī)器翻譯、跨語(yǔ)言信息檢索等課題的實(shí)用化具有重要的意義。
[0004]隨著科學(xué)技術(shù)的發(fā)展,專(zhuān)有名詞和新詞不斷地涌現(xiàn),推動(dòng)著自然語(yǔ)言不斷地發(fā)展。盡管存在機(jī)器可讀字典和在線字典,仍不能覆蓋新出現(xiàn)的各種譯文,更不能及時(shí)獲得各學(xué)科、各領(lǐng)域出現(xiàn)的新詞。建立和更新一部字典需要耗費(fèi)大量的人力、物力和財(cái)力,而且耗時(shí)巨大,影響字典的使用價(jià)值。目前在基于網(wǎng)絡(luò)的術(shù)語(yǔ)譯文挖掘方法中還存在著一些不足,需要進(jìn)一步的研究和探索。首先,從知識(shí)挖掘的深度和廣度上,現(xiàn)有研究只能獲取同一網(wǎng)站內(nèi)的雙語(yǔ)文本,不能獲取分布在不同網(wǎng)站內(nèi)的雙語(yǔ)文本和在混合網(wǎng)頁(yè)的雙語(yǔ)資源。其次,每次從搜索引擎輸入術(shù)語(yǔ)進(jìn)行譯文挖掘后,所用的知識(shí)和結(jié)果沒(méi)有保存,下次即使輸入同樣的術(shù)語(yǔ)還要進(jìn)行重復(fù)的工作。對(duì)于這些方面的深入研究無(wú)疑對(duì)基于Web的雙語(yǔ)資源自動(dòng)獲取研究的實(shí)際應(yīng)用具有重要價(jià)值。
【發(fā)明內(nèi)容】
[0005]本發(fā)明主要解決的技術(shù)問(wèn)題是提供一種基于云計(jì)算的術(shù)語(yǔ)譯文挖掘方法,可以應(yīng)用到專(zhuān)業(yè)術(shù)語(yǔ)詞典的編撰、機(jī)器翻譯、信息檢索、問(wèn)答系統(tǒng)、主題內(nèi)容分析等相關(guān)領(lǐng)域;能滿(mǎn)足人們快速獲取互聯(lián)網(wǎng)上某領(lǐng)域的專(zhuān)業(yè)術(shù)語(yǔ)的需要,為研究人員閱讀專(zhuān)業(yè)資料提供翻譯信息,也為專(zhuān)業(yè)詞典的編撰和更新提供資源保障。同時(shí),探索云計(jì)算在不同領(lǐng)域的應(yīng)用,為企業(yè)搭建內(nèi)部云,攻克云計(jì)算中的關(guān)鍵技術(shù),使企業(yè)向社會(huì)提供術(shù)語(yǔ)譯文翻譯服務(wù)成為可能。在保障企業(yè)經(jīng)濟(jì)利益的同時(shí)為社會(huì)提供了服務(wù)。
[0006]為解決上述技術(shù)問(wèn)題,本發(fā)明采用的一個(gè)技術(shù)方案是:提供一種基于云計(jì)算的術(shù)語(yǔ)譯文挖掘方法,包括:云計(jì)算硬件與軟件系統(tǒng)平臺(tái)的搭建和從所述云計(jì)算硬件與軟件系統(tǒng)平臺(tái)中抽取譯文的術(shù)語(yǔ)譯文挖掘技術(shù);所述術(shù)語(yǔ)譯文挖掘技術(shù)包括有效摘要資源的獲取、候選翻譯單元的自動(dòng)抽取和譯文的選擇;所述云計(jì)算硬件與軟件系統(tǒng)平臺(tái)的搭建包括搭建服務(wù)器群,建立并行計(jì)算系統(tǒng),構(gòu)建分布式數(shù)據(jù)庫(kù)系統(tǒng),以網(wǎng)絡(luò)的方式與客戶(hù)端交互,構(gòu)建云計(jì)算系統(tǒng);所述云計(jì)算系統(tǒng)將多個(gè)服務(wù)器及磁盤(pán)陣列組成存儲(chǔ)和運(yùn)算系統(tǒng),各服務(wù)器中安裝分布式數(shù)據(jù)庫(kù),架設(shè)并行計(jì)算系統(tǒng)查找數(shù)據(jù)庫(kù)中的術(shù)語(yǔ)翻譯知識(shí);將術(shù)語(yǔ)翻譯知識(shí)建立多級(jí)標(biāo)簽,先通過(guò)搜索算法在各級(jí)標(biāo)簽中查詢(xún),找到后提供相應(yīng)的術(shù)語(yǔ)翻譯信息,滿(mǎn)足條件時(shí)從庫(kù)中把譯文返回給用戶(hù),如果在內(nèi)部群中無(wú)法找到術(shù)語(yǔ)的譯文,通過(guò)內(nèi)部云與外部云的接口到外部云查找術(shù)語(yǔ)的譯文。
[0007]優(yōu)選的是,所述分布式數(shù)據(jù)庫(kù)系統(tǒng)由邏輯上統(tǒng)一、物理上分散于計(jì)算機(jī)網(wǎng)絡(luò)若干站點(diǎn)上的一組數(shù)據(jù)組成,采用SQL Server (—種關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng))以XML (—種可擴(kuò)展標(biāo)記語(yǔ)言)作為中間媒介,實(shí)現(xiàn)分布式數(shù)據(jù)庫(kù)之間的數(shù)據(jù)協(xié)同查詢(xún)處理。
[0008]優(yōu)選的是,所述有效摘要資源的獲取利用一種基于共現(xiàn)信息的查詢(xún)擴(kuò)展方法,首先將源查詢(xún)?cè)~提交搜索引擎,獲取包含源查詢(xún)的源語(yǔ)言摘要信息,然后利用TF-1DF(—種資訊檢索與資訊探勘加權(quán)技術(shù))從獲得的源語(yǔ)言摘要信息抽取和源查詢(xún)共現(xiàn)的主題詞匯;獲得主題詞匯后,從雙語(yǔ)詞典中查找主題詞匯的譯文,把源查詢(xún)和這些主題詞匯的譯文進(jìn)行跨語(yǔ)言擴(kuò)展,將擴(kuò)展后的查詢(xún)?cè)俅翁峤凰阉饕鎭?lái)獲取雙語(yǔ)摘要資源。
[0009]優(yōu)選的是,所述候選翻譯單元的自動(dòng)抽取采用FCM聚類(lèi)算法從獲得的雙語(yǔ)摘要資源中抽取候選翻譯單元,結(jié)合頻度變化度量和鄰接信息;FCM公式如下:
【權(quán)利要求】
1.一種基于云計(jì)算的術(shù)語(yǔ)譯文挖掘方法,其特征在于,包括:云計(jì)算硬件與軟件系統(tǒng)平臺(tái)的搭建和從所述云計(jì)算硬件與軟件系統(tǒng)平臺(tái)中抽取譯文的術(shù)語(yǔ)譯文挖掘技術(shù);所述術(shù)語(yǔ)譯文挖掘技術(shù)包括有效摘要資源的獲取、候選翻譯單元的自動(dòng)抽取和譯文的選擇;所述云計(jì)算硬件與軟件系統(tǒng)平臺(tái)的搭建包括搭建服務(wù)器群,建立并行計(jì)算系統(tǒng),構(gòu)建分布式數(shù)據(jù)庫(kù)系統(tǒng),以網(wǎng)絡(luò)的方式與客戶(hù)端交互,構(gòu)建云計(jì)算系統(tǒng);所述云計(jì)算系統(tǒng)將多個(gè)服務(wù)器及磁盤(pán)陣列組成存儲(chǔ)和運(yùn)算系統(tǒng),各服務(wù)器中安裝分布式數(shù)據(jù)庫(kù),架設(shè)并行計(jì)算系統(tǒng)查找數(shù)據(jù)庫(kù)中的術(shù)語(yǔ)翻譯知識(shí);將術(shù)語(yǔ)翻譯知識(shí)建立多級(jí)標(biāo)簽,先通過(guò)搜索算法在各級(jí)標(biāo)簽中查詢(xún),找到后提供相應(yīng)的術(shù)語(yǔ)翻譯信息,滿(mǎn)足條件時(shí)從庫(kù)中把譯文返回給用戶(hù),如果在內(nèi)部群中無(wú)法找到術(shù)語(yǔ)的譯文,通過(guò)內(nèi)部云與外部云的接口到外部云查找術(shù)語(yǔ)的譯文。
2.根據(jù)權(quán)利要求1所述的一種基于云計(jì)算的術(shù)語(yǔ)譯文挖掘方法,其特征在于:所述分布式數(shù)據(jù)庫(kù)系統(tǒng)由邏輯上統(tǒng)一、物理上分散于計(jì)算機(jī)網(wǎng)絡(luò)若干站點(diǎn)上的一組數(shù)據(jù)組成,采用SQL Server以XML作為中間媒介,實(shí)現(xiàn)分布式數(shù)據(jù)庫(kù)之間的數(shù)據(jù)協(xié)同查詢(xún)處理。
3.根據(jù)權(quán)利要求1所述的一種基于云計(jì)算的術(shù)語(yǔ)譯文挖掘方法,其特征在于:所述有效摘要資源的獲取利用一種基于共現(xiàn)信息的查詢(xún)擴(kuò)展方法,首先將源查詢(xún)?cè)~提交搜索引擎,獲取包含源查詢(xún)的源語(yǔ)言摘要信息,然后利用TF-1DF從獲得的源語(yǔ)言摘要信息抽取和源查詢(xún)共現(xiàn)的主題詞匯;獲得主題詞匯后,從雙語(yǔ)詞典中查找主題詞匯的譯文,把源查詢(xún)和這些主題詞匯的譯文進(jìn)行跨語(yǔ)言擴(kuò)展,將擴(kuò)展后的查詢(xún)?cè)俅翁峤凰阉饕鎭?lái)獲取雙語(yǔ)摘要資源。
4.根據(jù)權(quán)利要求1所述的一種基于云計(jì)算的術(shù)語(yǔ)譯文挖掘方法,其特征在于:所述候選翻譯單元的自動(dòng)抽取采用FCM聚類(lèi)算法從獲得的雙語(yǔ)摘要資源中抽取候選翻譯單元,結(jié)合頻度變化度量和鄰接信息;FCM公式如下:
其中,S是一中文字符串,f (S)是字符串S的頻度,Xi是3中每一個(gè)字符的頻度,?是S中所有字符的平均頻度。
5.根據(jù)權(quán)利要求1所述的一種基于云計(jì)算的術(shù)語(yǔ)譯文挖掘方法,其特征在于:所述譯文的選擇通過(guò)綜合采用頻度-距離模型、表層模板匹配和音譯模型從候選翻譯單元集合中抽取譯文。
6.根據(jù)權(quán)利要求5所述的一種基于云計(jì)算的術(shù)語(yǔ)譯文挖掘方法,其特征在于:所述頻度-距離模型的公式如下:
其中,S為源查詢(xún),t為其中一個(gè)候選單元,J為所有摘要的總數(shù),K為在一個(gè)摘要中s,t共現(xiàn)的次數(shù),dk(s, t)為s,t在一個(gè)摘要中的第k次共現(xiàn)的距離,maxfre_dis為所有的候選單元中距離的倒數(shù)的最大值。
7.根據(jù)權(quán)利要求5所述的一種基于云計(jì)算的術(shù)語(yǔ)譯文挖掘方法,其特征在于:所述表層模板匹配的貢獻(xiàn)值采用如下公式計(jì)算:
腿x"躍 其中,S是源查詢(xún),t為一候選單元,分子為S,t匹配的模板的總次數(shù),分母為所有候選中匹配次數(shù)的最大值。
8.根據(jù)權(quán)利要求5所述的一種基于云計(jì)算的術(shù)語(yǔ)譯文挖掘方法,其特征在于:所述音譯模型將源英語(yǔ)查詢(xún)拆分成英語(yǔ)音節(jié)序列,然后計(jì)算英語(yǔ)音節(jié)與候選漢語(yǔ)單元中漢字字符的匹配概率,進(jìn)而計(jì)算源查詢(xún)和候選單元之間互為譯文的概率;所述音譯模型的得分通過(guò)以下公式計(jì)算:
其中分子是S,t共現(xiàn)的概率,分母為S和t中不同音節(jié)的數(shù)目,P (S,t)的定義如下:
其中,Y1為平滑系數(shù),prob(ei, Ci)為英語(yǔ)音節(jié)ei與漢字字符Ci匹配的概率,D(s,t)的定義為:D (s, t) = ε +1 m-n 其中,ε為衰減參數(shù),m為源查詢(xún)的英語(yǔ)音節(jié)總數(shù),η為一個(gè)候選單元中漢字字符的總數(shù)。
【文檔編號(hào)】H04L29/08GK104166644SQ201410323357
【公開(kāi)日】2014年11月26日 申請(qǐng)日期:2014年7月9日 優(yōu)先權(quán)日:2014年7月9日
【發(fā)明者】梁穎紅, 姚建民, 洪宇, 鮮學(xué)豐, 葉良 申請(qǐng)人:蘇州市職業(yè)大學(xué)