一種翻譯網絡信息的方法及翻譯系統的制作方法
【專利摘要】一種翻譯網絡信息的方法,包括:獲取目標元素鏈接的目標頁面的源代碼;獲取所述源代碼中的數據內容;將獲取到的所述數據內容按照用戶設定的目標語言進行翻譯;建立數據窗口顯示經過所述翻譯后得到的譯文。本發明還公開了一種翻譯系統。本發明無需用戶在手動將文本導入到翻譯引擎,實現自動翻譯,提高用戶瀏覽頁面的效率,簡便的用戶操作,改善了用戶體驗。
【專利說明】一種翻譯網絡信息的方法及翻譯系統
【技術領域】
[0001] 本發明涉及網絡信息【技術領域】,尤其是涉及一種翻譯網絡信息的方法及翻譯系 統。
【背景技術】
[0002] 對于現在的網站來說,一個網頁上加載了大量的各種信息,例如頁面的正文、各種 廣告、相關新聞等等;但是對于用戶來講許多信息是用戶所不關注的,因此可以將頁面的正 文作為有效信息,而其他信息則是無效信息,對于一些用戶來說只需要查看有效信息,而無 效信息的存在首先會加大用戶所使用的設備的工作量,造成設備處理效率慢的問題,再有 無效信息也會妨礙用戶對有效信息的瀏覽。
[0003] 目前,許多用戶在瀏覽網頁的過程中,由于語言能力導致用戶無法理解,又或者用 戶需要目標頁面的譯文時,往往是通過用戶手動將所需查看的內容導入到網絡翻譯引擎中 進行翻譯,用戶操作復雜,影響用戶查看理解瀏覽網絡信息。
【發明內容】
[0004] 本發明的目的之一是提供一種翻譯網絡信息的方法,以解決現有技術中需要用戶 手動將待譯文本導入到網絡翻譯引擎的問題。
[0005] 在一些說明性實施例中,所述翻譯網絡信息的方法,包括:獲取目標元素鏈接的目 標頁面的源代碼;獲取所述源代碼中的數據內容;將獲取到的所述數據內容按照用戶設定 的目標語言進行翻譯;建立數據窗口顯示經過所述翻譯后得到的譯文。
[0006] 本發明的再一個目的是提供一種翻譯系統。
[0007] 在一些說明性實施例中,所述翻譯系統,包括:信息收集模塊,用于獲取目標頁面 的源代碼中的數據內容;文本選取模塊,用于選取所述數據內容中的文本數據;超文本選 取模塊,用于選取所述數據內容的超文本數據;信息展示模塊,用于建立數據窗口顯示所述 文本數據、所述文本數據的譯文、以及超文本數據;翻譯引擎和翻譯語料庫,用于翻譯所述 文本數據,并將其譯文傳輸給信息展示模塊;以及,展示配置模塊和基數數據庫,用于接收 并存儲用戶設置的配置信息;其中,所述配置信息中至少包含有以下之一:所述數據窗口 的大小、透明度、顏色樣式、主從窗口,以及所述文本數據的目標語言。
[0008] 與現有技術相比,本發明的說明性實施例包括以下優點:
[0009] 自動將用戶所需查看的目標頁面中的數據內容進行翻譯,無需用戶手動導入,提 高了用戶查看瀏覽頁面的效率,簡化的用戶操作,改善了用戶體驗。
【專利附圖】
【附圖說明】
[0010] 此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發 明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中:
[0011] 圖1是按照本發明的說明性實施例的流程圖。
[0012] 圖2是按照本發明的說明性實施例的流程圖;
[0013] 圖3是按照本發明的說明性實施例的翻譯系統的結構示意圖。
【具體實施方式】
[0014] 在以下詳細描述中,提出大量特定細節,以便于提供對本發明的透徹理解。但是, 本領域的技術人員會理解,即使沒有這些特定細節也可實施本發明。在其它情況下,沒有詳 細描述眾所周知的方法、過程、組件和電路,以免影響對本發明的理解。
[0015] 現在參照圖1,圖1示出了在一些說明性實施例中的流程圖。
[0016] 如圖1所示,在一些說明性實施例中,公開了一種翻譯網絡信息的方法,包括:
[0017] S11、獲取目標元素鏈接的目標頁面的源代碼;
[0018] 其中,元素是指頁面中的標題所對應的該頁面的源代碼中的相應的元素;標題對 應的元素在源代碼中存在訪問該標題的頁面的超鏈接,通過超鏈接對應的網絡地址可以訪 問到目標頁面。
[0019] S12、獲取所述源代碼中的數據內容;
[0020] 其中,數據內容是指網頁中的標題、正文、以及相關的圖片、圖表等主題相關的有 效信息。
[0021] S13、將獲取到的所述數據內容按照用戶設定的目標語言進行翻譯;
[0022] S14、建立數據窗口顯示經過所述翻譯后得到的譯文。
[0023] 自動將用戶所需查看的目標頁面中的數據內容進行翻譯,無需用戶手動導入,提 高了用戶查看瀏覽頁面的效率,簡化的用戶操作,改善了用戶體驗。
[0024] 在一些說明性實施例中,將獲取到的所述數據內容按照用戶設定的目標語言進行 翻譯,包括:
[0025] 將獲取到的所述數據內容作為待譯文件進行存儲;
[0026] 將存儲后的所述待譯文件推送給翻譯引擎進行翻譯。其中,翻譯引擎可以是機器 翻譯引擎,也可以是基于譯員的翻譯系統;機器翻譯引擎例如在線翻譯引擎,例如谷歌、有 道等。
[0027] 優選地,根據獲取到的數據內容建立待譯文件,存儲在數據庫中,再將待譯文件從 數據庫中提取給翻譯引擎進行翻譯
[0028] 在一些說明性實施例中,在獲取目標元素鏈接的目標頁面的源代碼之前,還包 括:
[0029] 確定所述當前頁面的所有標題數據,以及每個所述標題數據在當前頁面的源代碼 中對應的元素,以及所述元素的超鏈接;其中,標題數據可以是具有標題性質的文本數據和 超文本數據,例如具有超鏈接的標題或圖片;
[0030] 建立每個所述標題數據的區域數據;
[0031] 建立每個所述標題數據的所述區域數據與該標題數據的所述元素的超鏈接的關 聯關系。
[0032] 如圖2所示,在一些說明性實施例中,獲取目標元素鏈接的目標頁面的源代碼的 過程,包括:
[0033] S21、識別光標在當前頁面上指示的區域數據;
[0034] 當用戶拖動光標在網頁上移動時,用戶將光標停留在用戶所要查看的標題上,在 停留時間超過時間閾值時,確定當前光標所處的區域為目標區域。
[0035] S22、確定所述區域數據關聯的目標元素;
[0036] 元素是指頁面中的標題所對應的該頁面的源代碼中的相應的元素;標題對應的元 素在源代碼中存在訪問該標題的頁面的超鏈接,通過超鏈接對應的網絡地址可以訪問到目 標頁面。
[0037] S23、調取所述目標元素鏈接的目標頁面的源代碼。
[0038] 在一些說明性實施例中,步驟S12中獲取所述源代碼中的數據內容的過程,過程:
[0039] 從目標頁面的源代碼中的特定標簽下的數據內容。
[0040] 其中,特定標簽至少包括以下之一:
[0041] 1)、<h>〈/h> ;標題標簽;用于標記文本標題;
[0042] 2)、<a>〈/a> ;超文本鏈接標簽,用于標記超文本數據信息的鏈接;
[0043] 3)、<span>〈/span> ;文本標簽,用于標記文本,例如正文;
[0044] 4)、<img>〈/img> ;屬性標簽,用于標簽文本或超文本的屬性特征;
[0045] 5)、<p>〈/p> ;段落標簽,用于標記文本或超文本行號段落。
[0046] 通過特定標簽獲取有效信息,可以有效的過濾掉頁面中的無效信息,便于用戶瀏 覽有效信息,并且用戶設備只需要加載有效信息,并進行顯示,大大減小了用戶設備的工作 量,進而可以提供用戶設備的工作效率。
[0047] 在一些說明性實施例中,對于與標題對應的文本信息和圖片信息使用的是一類特 定的標簽,例如標題標簽<h>〈/h>、超文本鏈接標簽<a>〈/a>、文本標簽〈span>〈/span>、屬 性標簽<img>〈/img>和段落標簽<p>〈/p>等等;
[0048] 其中,每個標簽具有一個標簽頭和一個標簽尾,位于兩者之間的數據即為該標簽 所對應的數據內容;例如網頁源代碼片段"〈h2>-笨拙的手,畫下自由而不會流淚的眼睛 </h2>";所采用的是二級標題標簽<h2X/h2> ;標簽頭為<h2>,標簽尾為</h2> ;〈h2>……〈/ h2>之間的文本就是該網頁中的二級標題"笨拙的手,畫下自由而不會流淚的眼睛";
[0049] 通過采用特定標簽檢索目標頁面的源代碼,可以找到用戶所關注的有效信息,再 將檢索到的標簽的標簽頭和標簽尾之間的數據內容提取出來。
[0050] 在一些說明性實施例中,提取所述數據內容的過程,包括:
[0051] 在所述源代碼中建立并記錄每個所述特定標簽的標簽頭和標簽尾的二維坐標 (Xn, Yn);
[0052] 其中,二維坐標(Χη,Υη)中的橫坐標XjP縱坐標¥"分別為特定標簽η的標簽頭或 標簽尾在所述源代碼中的列號和行號。
[0053] 例如段落標簽找建立坐標起始點,標簽頭<ρ>所在的行號第15行,所在的列號為 第3列,則該標簽頭的二維坐標為(3,15);標簽尾</ρ>所在的行號為第15行,所在的列號 為第20列,則該標簽尾的二維坐標為(20, 15);記錄下兩個二維坐標,通過坐標在源代碼中 索引,將二維坐標(3, 15)和二維坐標(20, 15)之間的數據內容提取出來。
[0054] 由于網頁源代碼中的特定標簽也并不唯一,因此通過建立具有唯一性質的坐標 系,可以快速的通過坐標在源代碼中找到有效內容。
[0055] 在一些說明性實施例中,通過二維坐標,將提取出來的數據內容保持在源代碼中 指示的位置一致,顯示在建立的窗口內。
[0056] 在一些說明性實施例中,窗口的大小可以根據用戶設定的閾值進行調整,在窗口 中顯示的數據內容可以根據窗口大小的改變成比例相應改變;將得到的所述譯文在所述數 據窗口中與所述數據內容對照顯示。
[0057] 通過建立二維坐標可以確定窗口顯示的數據內容與目標網頁顯示一致,保證用戶 的瀏覽體驗與用戶瀏覽頁面的體驗一致。
[0058] 現在參照圖3,圖3示出了根據一些說明性實施例中翻譯系統的結構示意圖。
[0059] 如圖3所示,在一些說明性實施例中,公開了一種翻譯系統,包括:
[0060] 信息收集模塊1、文本選取模塊2、超文本選取模塊3、信息展示模塊4、翻譯引擎7、 翻譯語料庫8、展示配置模塊5和基礎數據庫6。
[0061] 其中,信息收集模塊分別與文本選取模塊和超文本選取模塊連接,文本選取模塊 和超文本選取模塊分別與信息展示模塊連接,信息展示模塊分別與翻譯引擎和展示配置模 塊連接,翻譯引擎與翻譯語料庫連接,展示配置模塊與基礎數據庫連接。
[0062] 信息收集模塊,用于獲取目標頁面的源代碼中的數據內容;文本選取模塊,用于從 所述信息收集模塊獲取的數據內容中選取文本數據;超文本選取模塊,用于從所述信息收 集模塊獲取的數據內容中選取超文本數據;信息展示模塊,用于建立數據窗口顯示所述文 本數據、所述文本數據的譯文、以及超文本數據;翻譯引擎和翻譯語料庫,用于翻譯所述文 本數據,并將其譯文傳輸給信息展示模塊;以及,展示配置模塊,用于接收用戶設置的配置 信息,并將其保存在基礎數據庫中。
[0063] 在一些說明性實施例中,所述配置信息中至少包含有以下之一:所述數據窗口的 大小、透明度、顏色樣式、主從窗口,以及所述文本數據的目標語言、涉及行業等。
[0064] 在一些說明性實施例中,文本數據存儲在基礎數據庫中。
[0065] 在翻譯引擎翻譯文本數據時,是根據基礎數據庫中的設定的文本數據、目標語言, 以及涉及行業在翻譯語料庫中選取相應的語種、行業的語料進行翻譯。
[〇〇66] 以上實施例的說明只是用于幫助理解本發明的方法及其核心思想;同時,對于本 領域的一般技術人員,依據本發明的思想,在【具體實施方式】及應用范圍上均會有改變之處, 綜上所述,本說明書內容不應理解為對本發明的限制。
【權利要求】
1. 一種翻譯網絡信息的方法,其特征在于,包括: 獲取目標元素鏈接的目標頁面的源代碼; 獲取所述源代碼中的數據內容; 將獲取到的所述數據內容按照用戶設定的目標語言進行翻譯; 建立數據窗口顯示經過所述翻譯后得到的譯文。
2. 根據權利要求1所述的方法,其特征在于,所述翻譯的過程,包括: 將獲取到的所述數據內容作為待譯文件進行存儲; 將存儲后的所述待譯文件推送給翻譯引擎進行翻譯。
3. 根據權利要求1所述的方法,其特征在于,所述獲取目標元素鏈接的目標頁面的源 代碼的過程,包括: 識別光標在當前頁面上指示的區域數據; 確定所述區域數據關聯的目標元素; 調取所述目標元素鏈接的目標頁面的源代碼。
4. 根據權利要求3所述的方法,其特征在于,在確定光標在當前頁面上指示的區域數 據之前,還包括: 確定所述當前頁面的所有標題數據,以及每個所述標題數據在當前頁面的源代碼中對 應的元素,以及所述元素的超鏈接; 建立每個所述標題數據的在其所在頁面中的區域數據; 建立每個所述標題數據的所述區域數據與該標題數據的所述元素的超鏈接的關聯關 系; 根據所述關聯關系確定所述區域數據關聯的目標元素。
5. 根據權利要求4所述的方法,其特征在于,所述標題數據包括:文本數據和超文本數 據。
6. 根據權利要求1所述的方法,其特征在于,獲取所述源代碼中特定標簽下的數據內 容。
7. 根據權利要求6所述的方法,其特征在于,所述特定標簽至少包括以下之一: 標題標簽、超文本鏈接標簽、文本標簽、屬性標簽和段落標簽。
8. 根據權利要求7所述的方法,其特征在于,每個所述特定標簽具有標簽頭和標簽尾; 所述提取所述數據內容的過程,包括: 在所述源代碼中建立并記錄每個所述特定標簽的標簽頭和標簽尾的二維坐標 (Xn, Yn); 根據所述二維坐標提取每個所述特定標簽下的數據內容。
9. 根據權利要求8所述的方法,其特征在于,在所述數據窗口中按照所述二維坐標對 應的位置格式顯示所述數據內容; 將得到的所述譯文在所述數據窗口中與所述數據內容對照顯示。
10. -種翻譯系統,其特征在于,包括: 信息收集模塊,用于獲取目標頁面的源代碼中的數據內容; 文本選取模塊,用于選取所述數據內容中的文本數據; 超文本選取模塊,用于選取所述數據內容的超文本數據; 信息展示模塊,用于建立數據窗口顯示所述文本數據、所述文本數據的譯文、以及超文 本數據; 翻譯引擎和翻譯語料庫,用于翻譯所述文本數據,并將其譯文傳輸給信息展示模塊;以 及, 展示配置模塊和基數數據庫,用于接收并存儲用戶設置的配置信息;其中,所述配置信 息中至少包含有以下之一:所述數據窗口的大小、透明度、顏色樣式、主從窗口,以及所述文 本數據的目標語言。
【文檔編號】G06F17/28GK104090869SQ201410292444
【公開日】2014年10月8日 申請日期:2014年6月25日 優先權日:2014年6月25日
【發明者】江潮, 王杰 申請人:武漢傳神信息技術有限公司