一種構建多語言網站實時翻譯的方法
【技術領域】
[0001]本發明涉及互聯網信息技術領域,具體涉及一種構建多語言網站實時翻譯的方法。
【背景技術】
[0002]隨著國際化進程的不斷加快,機器翻譯或機器輔助在線翻譯已經公開了極多技術,多語言網站在互聯網中的地位日漸突出,伴隨而來的是海量數據實時翻譯的問題,當前多語言網站實時翻譯大多采用將數據均分到不同的翻譯機進行翻譯的方法。此方法在高并發、數據量大的情況下,翻譯延遲現象比較嚴重,原因主要有兩方面:一是數據方面,由于多語言混雜,翻譯機需要頻繁切換語言接口 ;二是翻譯機本身翻譯速度不同,易發生木桶短板效應。
【發明內容】
[0003]為了解決現有的問題,本發明目的是,提出一種多語言網站實時翻譯的方法,旨在實現高并發、數據量大的情況下的多語言網站實時翻譯。
[0004]本發明技術方案是:一種多語言網站實時翻譯的方法,通過組建翻譯集群、劃分待翻譯數據塊和數據塊翻譯進行高并發、數據量大情況下的多語言網站實時翻譯;
[0005]I)組建翻譯集群方法,具體步驟如下:
[0006]步驟一、所有集群內的翻譯機按名稱排序,便于監測其狀態及出現問題時的排查;
[0007]步驟二、按照一定規則,抽取一定數量的翻譯機,形成調度翻譯集群;
[0008]步驟三、剩余的翻譯機,按待翻譯的語言種類平均分配,形成多個有語言種類特色的獨立翻譯集群,若為各個獨立翻譯集群平均分配整數臺翻譯機后有剩下的余數,再逐個分配,各個語言種類的獨立翻譯集群的翻譯機數量差不超過一臺;
[0009]2)劃分待翻譯數據塊方法,具體步驟如下:
[0010]步驟一、將所有待翻譯數據按待翻譯的語言種類劃分,形成不同語言種類的待翻譯數據集合;
[0011]步驟二、將各類語言種類的待翻譯數據集合,按對應語言種類獨立翻譯集群的翻譯機數量動態平均分配,形成多個待翻譯數據塊;
[0012]3)數據塊翻譯方法,具體步驟如下:
[0013]步驟一、將待翻譯數據塊發送到對應的獨立翻譯集群中的翻譯機翻譯;
[0014]步驟二、由于每個獨立翻譯集群的翻譯速度不盡相同,對待翻譯數據的處理速度不一樣,調度翻譯集群會協助翻譯速度最慢的那個獨立翻譯集群一起翻譯,待調度翻譯集群翻譯完成后,尋找下一個需要幫助的翻譯集群。
[0015]進一步,將翻譯機按待翻譯的語言種類形成獨立翻譯集群,大大減少翻譯機切換語言的頻率,有效地減少翻譯機卡機、死機,翻譯錯位等問題。
[0016]2)中步驟二的翻譯機數量動態平均分配,具體如下,首先將各類語言的待翻譯數據量,按對應語言獨立翻譯集群的翻譯機數量平均分配,若為各個翻譯機平均分配整數條數據后有剩下的余數,再逐條分配各個翻譯機,各個翻譯機的翻譯數據量差不超過一條;下一次翻譯數據分配前,統計獨立翻譯集群內各翻譯機未翻譯完的數據量,再分配,使得每一次分配后,一個獨立翻譯集群內的各個翻譯機的數據量差不超過一條,如此保證所有翻譯機的平均翻譯速度,提升獨立翻譯集群的整體翻譯速度。
[0017]調度翻譯集群判斷后協助翻譯速度最慢的那個獨立翻譯集群一起翻譯,調度翻譯集群在翻譯時采用翻譯機數量動態平均分配的方法,如此提升各個獨立翻譯集群的翻譯速度,使得在數據量大、高并發的情況下,各類語言網站的實時翻譯不阻塞。
[0018]本發明的有益效果,與現有技術相比,其顯著優點為:
[0019](I)將翻譯機按待翻譯的語言種類形成獨立翻譯集群,不需頻繁切換語言接口,有效地減少翻譯機卡機、死機,翻譯錯位等問題。
[0020](2)按一個獨立翻譯集群內的各翻譯機的翻譯速度,動態平均分配翻譯數據量,如此保證所有翻譯機的平均翻譯速度,提升獨立翻譯集群的整體翻譯速度。
[0021](3)設有調度翻譯集群,會協助翻譯速度最慢的那個獨立翻譯集群一起翻譯,如此提升各個獨立翻譯集群的翻譯速度,使得在數據量大、高并發的情況下,不易發生木桶短板效應。
【附圖說明】
[0022]圖1為本發明實施例組建翻譯集群的示意圖。
[0023]圖2為本發明實施例劃分待翻譯數據塊的示意圖。
[0024]圖3為本發明實施例數據塊翻譯的示意圖。
【具體實施方式】
[0025]為了使本發明的目的、技術方案和優點更加清楚,下面結合附圖和具體實施例對本發明進行詳細描述。
[0026]如圖1所示,為本發明實施例組建翻譯集群的示意圖,具體為:
[0027]步驟一、所有翻譯機按名稱排序,便于監測其狀態及出現問題時的排查。本實施例假設名稱為翻譯機的IP。
[0028]步驟二、按照一定規則,抽取一定數量的翻譯機,形成調度翻譯集群。本實施例假設數量為X臺翻譯機。X可為語言種類的數量的1-3倍。
[0029]步驟三、剩余的翻譯機,按待翻譯的語言種類平均分配,形成多個有語言特色的獨立翻譯集群,若為各個獨立翻譯集群平均分配整數臺翻譯機后有剩下的余數,再逐個分配,各個獨立翻譯集群的翻譯機數量差不超過一臺。本實施例假設待翻譯的語言種類為N類,各個獨立翻譯集群分配到的翻譯機數量為Y臺或Z臺,則Y = Z或Y - Z = I。
[0030]如圖2所示,為本發明實施例劃分待翻譯數據塊的示意圖,具體為:
[0031]步驟一、將所有待翻譯數據按待翻譯的語言種類劃分,形成不同種類語言的待翻譯數據集合。本實施例假設待翻譯的語言種類為N類。
[0032]步驟二、將各類語言的待翻譯數據集合,按對應語言獨立翻譯集群的翻譯機數量動態平均分配,形成多個待翻譯數據塊;
[0033]步驟二的動態平均分配具體為首先將各類語言的待翻譯數據量,按對應語言獨立翻譯集群的翻譯機數量平均分配,若為各個翻譯機平均分配整數條數據量后有剩下的余數,再逐條分配,各個翻譯機的數據量差不超過一條;下一次分配前,統計獨立翻譯集群內各翻譯機未翻譯完的數據量,再分配,使得每一次分配后,一個獨立翻譯集群內的各個翻譯機的數據量差不超過一條。本實施例將各類語言的待翻譯數據集合,按對應語言獨立翻譯集群的翻譯機數量(Y臺或Z臺,且Y = Z或Y-Z = I)動態平均分配,使得每一次分配后,一個獨立翻譯集群內的各個翻譯機的數據量差不超過一條。
[0034]如圖3所示,為本發明實施例數據塊翻譯的示意圖,具體為:
[0035]步驟一、將待翻譯數據塊發送到對應的獨立翻譯集群中的翻譯機翻譯。
[0036]步驟二、由于每個獨立翻譯集群的翻譯速度不盡相同,對待翻譯數據的處理速度不一樣,調度翻譯集群會協助翻譯速度最慢的那個獨立翻譯集群一起翻譯,待翻譯完成后,尋找下一個需要幫助的翻譯集群。本實例假設當前防疫速度最慢的獨立翻譯集群為法語翻譯集群。調度翻譯集群在翻譯時亦參照翻譯機數量動態平均分配的方法。如此保證所有翻譯機的平均翻譯速度,提升獨立翻譯集群的整體翻譯速度。
[0037]以上所述僅為本發明專利的實施例而已,并不用以限制本發明專利,凡在本發明專利的精神和原則之內所做的任何修改、等同替換和改進等,均以包含在本發明專利的保護范圍之內。
【主權項】
1.一種多語言網站實時翻譯的方法,其特征在于通過組建翻譯集群、劃分待翻譯數據塊和數據塊翻譯進行高并發、數據量大情況下的多語言網站實時翻譯; 1)組建翻譯集群方法,具體步驟如下: 步驟一、所有集群內的翻譯機按名稱排序,便于監測其狀態及出現問題時的排查; 步驟二、按照一定規則,抽取一定數量的翻譯機,形成調度翻譯集群; 步驟三、剩余的翻譯機,按待翻譯的語言種類平均分配,形成多個有語言種類特色的獨立翻譯集群,若為各個獨立翻譯集群平均分配整數臺翻譯機后有剩下的余數,再逐個分配,各個語言種類的獨立翻譯集群的翻譯機數量差不超過一臺;語言獨立翻譯集群的翻譯機 2)劃分待翻譯數據塊方法,具體步驟如下: 步驟一、將所有待翻譯數據按待翻譯的語言種類劃分,形成不同語言種類的待翻譯數據集合; 步驟二、將各類語言種類的待翻譯數據集合,按對應語言種類獨立翻譯集群的翻譯機數量動態平均分配,形成多個待翻譯數據塊; 3)數據塊翻譯方法,具體步驟如下: 步驟一、將待翻譯數據塊發送到對應的獨立翻譯集群中的翻譯機翻譯; 步驟二、由于每個獨立翻譯集群的翻譯速度不盡相同,對待翻譯數據的處理速度不一樣,調度翻譯集群判斷后協助翻譯速度最慢的那個獨立翻譯集群一起翻譯,待調度翻譯集群翻譯完成后,尋找下一個需要幫助的翻譯集群。2.根據權利要求1所述的組建翻譯集群方法,其特征在于將翻譯機按待翻譯的語言種類形成獨立翻譯集群,大大減少翻譯機切換語言的頻率,有效地減少翻譯機卡機、死機,翻譯錯位等問題。3.根據權利要求1所述的劃分待翻譯數據塊方法,其特征在于2)中步驟二的翻譯機數量動態平均分配,具體如下,首先將各類語言的待翻譯數據量,按對應語言獨立翻譯集群的翻譯機數量平均分配,若為各個翻譯機平均分配整數條數據后有剩下的余數,再逐條分配各個翻譯機,各個翻譯機的翻譯數據量差不超過一條;下一次翻譯數據分配前,統計獨立翻譯集群內各翻譯機未翻譯完的數據量,再分配,使得每一次分配后,一個獨立翻譯集群內的各個翻譯機的數據量差不超過一條,如此保證所有翻譯機的平均翻譯速度,提升獨立翻譯集群的整體翻譯速度。4.根據權利要求3所述的數據塊翻譯方法,其特征在于調度翻譯集群判斷后協助翻譯速度最慢的那個獨立翻譯集群一起翻譯,調度翻譯集群在翻譯時采用翻譯機數量動態平均分配的方法。
【專利摘要】一種多語言網站實時翻譯的方法,1)組建翻譯集群方法,所有集群內的翻譯機按名稱排序,便于監測其狀態及出現問題時的排查;按照一定規則,抽取一定數量的翻譯機,形成調度翻譯集群;剩余的翻譯機,按待翻譯的語言種類平均分配,形成多個有語言種類特色的獨立翻譯集群;2)劃分待翻譯數據塊方法,將所有待翻譯數據按待翻譯的語言種類劃分,形成不同語言種類的待翻譯數據集合;3)數據塊翻譯方法,將待翻譯數據塊發送到對應的獨立翻譯集群中的翻譯機翻譯;調度翻譯集群判斷后協助翻譯速度最慢的那個獨立翻譯集群一起翻譯,待調度翻譯集群翻譯完成后,尋找下一個需要幫助的翻譯集群。
【IPC分類】G06F17/28
【公開號】CN105159891
【申請號】CN201510475481
【發明人】張麗, 楊晨, 賀鵬, 褚一帆, 王煒
【申請人】焦點科技股份有限公司
【公開日】2015年12月16日
【申請日】2015年8月5日