基于移動瀏覽器的網頁處理方法及系統的制作方法【專利摘要】本發明提供了一種基于移動瀏覽器的網頁處理方法及系統,其中的方法包括:根據用戶發送的網站訪問請求中所含有的更新時間參數,確定網站的結構類型為偽靜態網站時,通過判斷偽靜態網站中的偽靜態網頁的title標簽和meta標簽是否含有預設的關鍵字,確定偽靜態網頁是否符合重建要求;當偽靜態網頁符合重建要求時,抽取網頁元素白名單中含有的偽靜態網頁的核心元素,并根據所抽取的核心元素,對偽靜態網頁進行轉碼重建。通過本發明能夠自動和準確找到使用模板系統所搭建的特定內容的偽靜態網頁,并保證將其進行轉碼重建,重建后的網頁給用戶提供無廣告、清爽的差異化視覺體驗,并且還能降低網站的維護成本,提高重建的效率。【專利說明】基于移動瀏覽器的網頁處理方法及系統【
技術領域:
】[0001]本發明涉及移動瀏覽器【
技術領域:
】,更為具體地,涉及一種基于移動瀏覽器的網頁處理方法及系統。【
背景技術:
】[0002]隨著網絡的高速發展,人們通過訪問網站,可以隨時隨地獲取自己想要的資訊或者服務。在目前的網站建設過程中,大多數的中小型網站都采用模板系統搭建而成,例如視頻網站、小說網站等。[0003]但是,采用模板系統搭建而成的網站會不可避免地存在以下問題:由于廣告是網站的主要營收手段,因此,采用模板系統所搭建的網站廣告多,使網站頁面不清爽,這是其一;其二,由于網站采用模板系統搭建而成,即使是不同的網站也有可能采用同一模板系統,因此,采用同一模板系統生成的網站,其用戶界面結構基本一致,相似度如此高的網站不利于用戶的體驗;其三,為了搜索引擎優化,方便爬蟲的抓取和收錄,采用模板系統搭建的網站均采用偽靜態化的頁面,造成網站承受力低、偽靜態頁面和動態頁面重復等,并且網站數據的更新也非實時更新,而是使用定時更新或者手動后臺更新,造成數據更新不及時等問題。[0004]針對上述采用模板系統搭建而成的網站所存在的問題,現有的處理方法是基于域名進行判斷,即直接把網站的網址加到域名白名單中。其中,一個域名白名單對應一個網頁。用戶在訪問網站時,服務器只要判斷出用戶所請求訪問的網址存在于白名單中,即可將進行單獨轉碼后的新頁面提供給用戶。[0005]然而,由于采用模板系統所搭建的網站會經常發生域名變換,因此,在基于域名白名單方式進行轉碼時,一旦網站的域名發生變化,那么該網站的網址就不會在白名單中出現,服務器也就不會對該網站進行轉碼轉換并生成新的頁面提供給用戶。如果要保證服務器能將網站進行轉碼并生成新的頁面提供給用戶,則需要人工及時更新域名白名單,這不僅工作效率低、人工維護成本高,并且用戶的體驗也不好。【
發明內容】[0006]鑒于上述問題,本發明的目的是提供一種基于移動瀏覽器的網頁處理方法及系統,以解決服務器在使用模板系統所搭建的網站進行轉碼并生成新頁面提供給用戶時,受域名白名單影響的問題,降低網站的維護成本,提高工作效率和用戶體驗。[0007]根據本發明的一個方面,提供一種基于移動瀏覽器的網頁處理方法,包括:[0008]根據用戶發送的網站訪問請求中所含有的該網站的更新時間參數,確定網站的結構類型;其中,[0009]當確定網站的結構類型為偽靜態網站時,通過判斷偽靜態網站中的偽靜態網頁的head標簽下的title標簽和meta標簽是否含有預設的關鍵字,確定偽靜態網站中的偽靜態網頁是否符合重建要求;其中,當偽靜態網頁的head標簽下的title標簽和meta標簽含有預設的關鍵字時,確定所述偽靜態網頁符合重建要求;[0010]當偽靜態網頁符合重建要求時,抽取網頁元素白名單中含有的偽靜態網頁的核心元素,并根據所抽取的核心元素,對偽靜態網頁進行轉碼重建。[0011]其中,在根據用戶發送的網站訪問請求中所含有的該網站的更新時間參數確定網站的結構類型的過程中,中間件截獲用戶發送的網站訪問請求,當網站訪問請求中含有LastModified參數時,即確定網站的結構類型為偽靜態網站;或者,中間件截獲用戶發送的網站訪問請求,通過調用JS接口的document.1astmodified參數獲取網站服務器的最后更新時間,如果網站服務器的最后更新時間不是當前時間,則確定網站的結構類型為偽靜態網站。[0012]其中,網頁元素白名單由偽靜態網頁的標簽下的核心元素構成,其中,標簽包括body標簽中的div標簽和/或table標簽。[0013]根據本發明的另一方面,提供一種基于移動瀏覽器的網頁處理系統,包括:[0014]網站結構類型確定單元,用于根據用戶發送的網站訪問請求中所含有的該網站的更新時間參數,確定網站的結構類型;[0015]網頁重建確定單元,用于當網站結構類型確定單元,確定網站的結構類型為偽靜態網站時,通過判斷偽靜態網站中的偽靜態網頁的head標簽下的title標簽和meta標簽是否含有預設的關鍵字,確定偽靜態網站中的偽靜態網頁是否符合重建要求;其中,當偽靜態網頁的head標簽下的title標簽和meta標簽含有預設的關鍵字時,確定偽靜態網頁符合重建要求;[0016]網頁核心元素抽取單元,用于當網頁重建確定單元確定偽靜態網頁符合重建要求時,抽取網頁元素白名單中含有的偽靜態網頁的核心元素;[0017]頁面重建單元,用于根據核心元素抽取單元所抽取的核心元素,對偽靜態網頁進行轉碼重建。[0018]利用上述根據本發明的基于移動瀏覽器的網頁處理方法及系統,通過選擇特定參數自動對特定類型的網站進行篩選和抽取,能夠自動和準確找到使用模板系統所搭建的特定內容的偽靜態網站,方便進行資源聚合和網頁轉碼,且不受域名白名單影響,保證將使用模板系統所搭建的網站進行轉碼處理,并形成新頁面提供給用戶,從而降低網站的維護成本,提高工作效率和用戶體驗。[0019]為了實現上述以及相關目的,本發明的一個或多個方面包括后面將詳細說明并在權利要求中特別指出的特征。下面的說明以及附圖詳細說明了本發明的某些示例性方面。然而,這些方面指示的僅僅是可使用本發明的原理的各種方式中的一些方式。此外,本發明旨在包括所有這些方面以及它們的等同物。【專利附圖】【附圖說明】[0020]通過參考以下結合附圖的說明及權利要求書的內容,并且隨著對本發明的更全面理解,本發明的其它目的及結果將更加明白及易于理解。在附圖中:[0021]圖1為根據本發明實施例的基于移動瀏覽器的網頁處理方法的第一流程示意圖;[0022]圖2為根據本發明實施例的基于移動瀏覽器的網頁處理方法的第二流程示意圖;[0023]圖3為根據本發明實施例的基于移動瀏覽器的網頁處理系統邏輯結構框圖。[0024]在所有附圖中相同的標號指示相似或相應的特征或功能。【具體實施方式】[0025]以下將結合附圖對本發明的具體實施例進行詳細描述。[0026]為了更為清楚地描述本發明的技術方案,下面先對本發明中所涉及的某些概念進行說明:[0027]偽靜態:偽靜態是相對真實靜態來講的,通常為了增強搜索引擎的友好面,都將文章內容生成靜態頁面,但是有時為了實時的顯示一些信息,或者還想運用動態腳本解決一些問題,則不能用靜態的方式來展示網站內容,但不用靜態的方式便會損失對搜索引擎的友好面。偽靜態則是這兩者之間的中間方法,既能增強搜索引擎的友好面,又能展現動態腳本的優勢。[0028]偽靜態網站:使用模板建站系統建立的,通過模板后臺生成的,前端是靜態的,以方便搜索引擎收錄的站點。[0029]偽靜態網頁:偽靜態網站中的某一張網頁。[0030]網站的結構類型:包括動態網站和偽靜態網站。[0031]網站的內容類型:具有某種內容的網站,如視頻網站,小說網站,圖片網站。[0032]為了說明本發明提供的基于移動瀏覽器的網頁處理方法,圖1示出了根據本發明實施例的基于移動瀏覽器的網頁處理方法的第一流程。[0033]如圖1所示,本發明提供的基于移動瀏覽器的網頁處理方法包括:[0034]SllO:根據用戶發送的網站訪問請求中所含有的該網站的更新時間參數,確定網站的結構類型。[0035]由于動態網頁的最后更新時間是當前服務器時間,偽靜態網頁的最后更新時間一般不是當前服務器時間。因此,根據動態網頁與偽靜態網頁的最后更新時間的差異性,通過更新時間參數能夠準確判斷出網站的結構類型。[0036]其中,在根據用戶發送的網站訪問請求中所含有的更新時間參數確定網站的結構類型的過程中,中間件截獲用戶發送的網站訪問請求,當該網站訪問請求中含有LastModified參數(其中,該參數一般在網站訪問請求的請求頭中)時,即確定該網站的結構類型為偽靜態網站;或者,中間件截獲用戶發送的網站訪問請求,通過調用JS接口的document.1astmodified參數,獲取網站服務器的最后更新時間,如果網站服務器的最后更新時間不是當前時間,則進行驗證,確定該網站的結構類型為偽靜態網站。[0037]具體地,一般模板系統所搭建的網站都是在后臺采集資源,為了方便搜索引擎收錄,通過動態頁面(例如ASP頁面)生成靜態頁面(即HTML頁面)。因此,手動生成或定時生成的偽靜態網頁的修改時間,和需要與數據庫實時交互的動態頁面的時間會有時間差,如此便造成模板系統生成的頁面的時間一般不會是當前服務器的時間,利用這一特征便能夠判斷網站的結構類型是否屬于偽靜態網頁。[0038]通過步驟S110,能夠實現過濾大量動態網站的目的,留下的站點一般包含有模板系統所搭建的偽靜態網站。即該步驟能夠確定網站的結構類型是偽靜態網站還是動態網站。[0039]S120:當確定網站的結構類型為偽靜態網站時,通過判斷偽靜態網站中的偽靜態網頁的head標簽下的title標簽和meta標簽是否含有預設的關鍵字,確定偽靜態網站中的偽靜態網頁是否符合重建要求;其中,當偽靜態網頁的head標簽下的title標簽和meta標簽含有預設的關鍵字時,確定該偽靜態網頁符合重建要求。[0040]為了能夠使用戶看到干凈清爽的網頁內容,需要去除網頁中其他不必要的元素,例如網頁中所嵌入的廣告元素,只留下用戶想要看到的網頁的主要元素,如此便需要對網頁進行定制(即重建)。通常情況下,需要定制的網頁,其內容一般都會與某些特定的關鍵字相關,例如“視頻”、“小說”等,其可以根據定制的需要進行預設。[0041]具體地,將某些特定的關鍵字預先存入關鍵字庫中,以作為判斷網頁是否符合重建要求的依據。例如,預先將“視頻”、“笑話”、“小說”等特定關鍵字存入關鍵字庫中,當用戶想要定制一個視頻網站的內容時,則只需要將所訪問的視頻網站中的偽靜態網頁的head標簽下的title標簽和meta標簽(含keywords、description)所含的關鍵字與關鍵字庫進行匹配,如果該關鍵字與關鍵字庫匹配成功,則可以確定用戶所訪問的視頻網站中的偽靜態網頁符合重建的要求。[0042]另外,為了搜索引擎優化,方便爬蟲的抓取和收錄,網站的站長通常會將網站的核心關鍵字放進網站首頁的title標簽和meta標簽。因此,通過偽靜態網站中的偽靜態網頁的head標簽下的title標簽和meta標簽所含的關鍵字,確定偽靜態網站中的偽靜態網頁的內容類型,以將含有該關鍵字的同一內容類型的偽靜態網頁進行資源聚合。由于模板系統所搭建的網站其頁面結構基本相似,因此,將同一內容類型的偽靜態網頁進行資源聚合有利于更有針對性的對資源進行收集和分發。[0043]也就是說,通過對所訪問的偽靜態網站中的偽靜態網頁的內容類型的確定,能夠進一步提高命中網站的精準度。如此既實現了判斷用戶所訪問的偽靜態網站中的偽靜態網頁是否符合重建要求,又能夠將同一內容類型的網站進行聚合,以方便同類型網站的收集。[0044]S130:當偽靜態網頁符合重建要求時,抽取網頁元素白名單中含有的偽靜態網頁的核心元素,并根據所抽取的核心元素,對偽靜態網頁進行轉碼重建。[0045]網頁的核心元素作為網頁的關鍵識別碼,其可以避免域名改變所導致的網站無法識別的情況。因為網頁的域名雖然改變的,但網頁的核心元素卻始終不會改變。因此在抽取偽靜態網頁的核心元素時,通過網頁元素白名單,能夠提高對網頁元素抽取的精準度。網頁元素白名單與現有的域名白名單相比,其優勢在于不必擔心因為域名變換而導致網頁元素抽取失敗的情況發生。[0046]其中,網頁元素白名單由偽靜態網頁的標簽下的核心元素構成。其中,該標簽包括body標簽中的div標簽和/或table標簽。另外,一個網頁元素白名單包含同一內容類型的網站下的所有偽靜態網頁的核心元素。[0047]需要說明的是,一個網頁元素白名單指的是針對網頁的關鍵所定義的,其也可以稱作classid白名單。網頁元素白名單可以有多個,其中,在區分多個網頁元素白名單時,可以用class和id的值來進行區分。也就是說,一個網頁元素白名單對應的是同一內容類型的網頁。[0048]具體地,根據網頁中是否含有設定的核心元素確認是否對網頁元素進行抽取,如果網頁中沒有設定的核心元素,則不對網頁元素進行抽取,在后續則只能展示原網頁給用戶;如果網頁中含有設定的核心元素,則對網頁元素進行抽取。[0049]也就是說,首先應判斷網頁元素白名單中是否含有偽靜態網頁的核心元素,如果有,抽取該偽靜態網頁的核心元素,即只要網頁的核心元素存在于網頁元素白名單中的同一類網站,都能夠抽取其網頁的核心元素。[0050]例如,網頁導航標簽的寫法有〈divclass=〃menu〃>,〈divclass=〃nav〃>、〈divclass="navigation">、〈divclass="dh">等,將class作為網頁的核心兀素,將menu、nav、navigation,dh加入到網頁元素白名單,凡是網頁結構中含有這些class的,均可認為該網頁是類型為導航的相似結構,可以進行抽取。[0051]需要說明的是,一個網頁元素白名單對應同一內容類型的一類網頁,即是一個網頁元素白名單可以對應多個網頁,如此便能夠有效地從結構本質上對域名經常變換的一類網站進行定位,從而減少域名白名單的人工維護成本。[0052]由于該重建的偽靜態網頁只是抽取的網頁的核心元素進行轉碼重建,因此過濾了廣告,只含有原網頁的核心內容,可以給用戶提供無廣告、清爽的差異化視覺體驗。[0053]本發明利用特定參數自動篩選出網站的結構類型,當確定網站的結構類型為偽靜態網站時,通過偽靜態網站中的偽靜態網頁的head標簽內的ti11e標簽確定該偽靜態網站中的偽靜態網頁符合重建要求,然后通過網頁元素白名單機制,抽取偽靜態網頁的核心元素進行轉碼重建。[0054]通過上述流程可以看出,本發明提供的基于移動瀏覽器的網頁處理方法能夠自動和準確找到使用模板系統所搭建的特定內容的偽靜態網站,且能夠保證將使用模板系統所搭建的網站進行轉碼處理,并形成新頁面提供給用戶,從而實現這類站點的識別并進行重新排版展示,不僅人工維護成本低、重建網頁的效率高,還能使電腦頁面更適合手機用戶瀏覽,還能提升用戶的體驗。[0055]為了更為清楚地說明本發明提供的基于移動瀏覽器的網頁處理方法,圖2示出了根據本發明實施例的基于移動瀏覽器的網頁處理方法的第二流程。如圖2所示:[0056]S210:在用戶訪問網站時,中間件截獲用戶訪問網站的請求。[0057]S220:判斷該請求的HTTP請求頭中是否含有LastModified參數,以確定用戶所訪問的網站的結構類型是否屬于偽靜態網頁。如果該請求的HTTP請求頭中含有LastModified參數,則進入步驟S230,否則進入步驟S260。[0058]具體地,如果該請求的HTTP請求頭中不含有LastModified參數,貝U說明用戶所訪問的網站的結構類型不屬于偽靜態網頁,那么只能將原網頁內容展示給用戶。[0059]S230:判斷網頁的head標簽下的title標簽和mtea標簽是否含有預設關鍵字,以確定用戶所訪問的偽靜態網頁是否符合重建的要求。如果title標簽和mtea標簽包含預設關鍵字,則進入步驟S240,否則進入步驟S260。[0060]具體地,該預設關鍵字可保存在關鍵字庫中,在判斷用戶所訪問的偽靜態網頁是否符合重建的要求時,只需將網頁的head標簽下的title標簽和meta標簽所含的關鍵字與關鍵字庫進行匹配,如果匹配成功,則可以確定用戶所訪問的偽靜態網頁滿足重建的要求,接下來則對網頁元素白名單進行校驗;如果匹配不成功,則說明該偽靜態網頁不符合重建要求,那么只能將原網頁內容展示給用戶。[0061]S240:判斷網頁元素白名單中是否含有偽靜態網頁的核心元素,如果有則進入步驟S250,否則進入步驟S260。[0062]S250:抽取該偽靜態網頁的核心元素,通過中間件給出定制的新頁面(即重建后的頁面)展示給用戶,然后將重建后的網頁的域名記錄至域名白名單。[0063]具體地,在對網頁元素白名單進行校驗時,即在判斷網頁元素白名單中是否含有偽靜態網頁的核心元素時,如果網頁元素白名單中含有偽靜態網頁的核心元素(例如class或id),則抽取該偽靜態網頁的核心元素,通過中間件給出定制的新頁面(即重建后的頁面)展示給用戶,然后將重建后的網頁的域名記錄至域名白名單。[0064]S260:將原網頁內容展示給用戶。[0065]下述以基于移動瀏覽器的視頻網站為例,對本發明提供的網頁處理方法作詳細說明。[0066]用戶在使用移動瀏覽器請求訪問某視頻網站時,中間件截獲該請求,判斷該網站的結構類型是否為偽靜態網頁;其中,當該請求中含有LastModified參數時,確定該視頻網站的結構類型為偽靜態網站;然后通過判斷該偽靜態網站的偽靜態網頁的title標簽和meta標簽是否含有“視頻”這一預設關鍵字,確定該偽靜態網頁是否符合重建要求。其中,當該偽靜態網頁的title標簽和meat標簽含有“視頻”這一預設關鍵字時,確定該偽靜態網頁符合重建要求。[0067]由于同一內容類型的網站具有相似的網頁結構,因此當確定該偽靜態網頁符合重建要求時,采用網頁元素白名單的抽取規則,抽取視頻網站中的網頁標簽下的核心元素,根據所抽取的核心元素,對該偽靜態網頁進行重新排版后呈現給用戶。[0068]重新排版后的頁面效果為:一級頁面為資源導航頁,二級頁面為視頻、專區頁,三級頁面為視頻內容展示頁。[0069]與上述方法相對應,本發明還提供一種基于移動瀏覽器的網頁處理系統。圖3示出了根據本發明實施例的基于移動瀏覽器的網頁處理系統邏輯結構。[0070]如圖3所示,本發明提供的基于移動瀏覽器的網頁處理系統包括:網站結構類型確定單元310、網站內容類型確定單元320、網頁核心元素抽取單元330和頁面重建單元340。[0071]其中,網站結構類型確定單元310用于根據用戶發送的網站訪問請求中所含有的更新時間參數,確定網站的結構類型。[0072]其中,網站結構類型確定單元310,在根據用戶發送的訪問網站的請求中所含有的網頁的更新時間參數,確定網站的結構類型的過程中,中間件截獲用戶發送的網站訪問請求,當網站訪問請求中含有LastModified參數時,即確定網站的結構類型為偽靜態網站;或者中間件截獲用戶發送的訪問網站的請求,通過調用JS接口的document.1astmodified參數獲取網站服務器的最后更新時間,如果網站服務器的最后更新時間不是當前時間,則確定網站的結構類型為偽靜態網頁。[0073]通過網站結構類型確定單元310能夠過濾大量動態網站,留下的站點一般包含有模板系統所搭建的偽靜態網站。[0074]網頁重建確定單元320用于當網站結構類型確定單元310確定出網站的結構類型為偽靜態網頁時,通過判斷偽靜態網站中的偽靜態網頁的head標簽下的ti11e標簽和meta標簽是否含有預設的關鍵字,確定偽靜態網站中的偽靜態網頁是否符合重建要求;其中,當偽靜態網頁的head標簽下的title標簽和meta標簽含有預設的關鍵字時,確定偽靜態網頁符合重建要求。[0075]其中,網頁重建確定單元320通過偽靜態網站中的偽靜態網頁的head標簽下的title標簽和meta所含的關鍵字,能夠進一步提聞命中網站的精準度。如此既實現了判斷用戶所訪問的偽靜態網站中的偽靜態網頁是否符合重建要求,還能夠將同一內容類型的網站進行聚合,方便同類型網站的收集。[0076]網頁核心元素抽取單元330用于當網頁重建確定單元320確定偽靜態網頁符合重建要求時,抽取網頁元素白名單中含有的偽靜態網頁的核心元素。[0077]其中,在網頁核心元素抽取單元330中,網頁元素白名單由偽靜態網頁的標簽下的核心元素構成,其中,標簽包括body標簽中的div標簽和/或table標簽。并且一個網頁元素白名單包含同一內容類型的網站下的所有偽靜態網頁的核心元素。[0078]頁面重建單元340用于根據網頁核心元素抽取單元330所抽取的核心元素,對偽靜態網頁進行轉碼重建。[0079]通過上述可以看出,本發明提供的基于移動瀏覽器的網頁處理方法及系統通過選擇特定參數自動對特定類型的網站進行篩選,自動和準確找到使用模板系統所搭建的特定內容的偽靜態網站,并對其網頁核心元素進行抽取,且不受域名白名單影響,保證將使用模板系統所搭建的網站進行轉碼重建。重建后的網頁過濾了廣告,只含有原網頁的核心內容,在給用戶提供無廣告、清爽的差異化視覺體驗的同時,還能夠降低網站的維護成本,提高重建的效率。[0080]如上參照附圖以示例的方式描述了根據本發明的基于移動瀏覽器的網頁處理方法及系統。但是,本領域技術人員應當理解,對于上述本發明所提出的基于移動瀏覽器的網頁處理方法及系統,還可以在不脫離本【
發明內容】的基礎上做出各種改進。因此,本發明的保護范圍應當由所附的權利要求書的內容確定。【權利要求】1.一種基于移動瀏覽器的網頁處理方法,包括:根據用戶發送的網站訪問請求中所含有的該網站的更新時間參數,確定所述網站的結構類型;其中,當確定所述網站的結構類型為偽靜態網站時,通過判斷所述偽靜態網站中的偽靜態網頁的head標簽下的title標簽和meta標簽是否含有預設的關鍵字,確定所述偽靜態網站中的偽靜態網頁是否符合重建要求;其中,當所述偽靜態網頁的head標簽下的title標簽和meta標簽含有預設的關鍵字時,確定所述偽靜態網頁符合重建要求;當所述偽靜態網頁符合重建要求時,抽取網頁元素白名單中含有的所述偽靜態網頁的核心元素,并根據所抽取的核心元素,對所述偽靜態網頁進行轉碼重建。2.如權利要求1所述的基于移動瀏覽器的網頁處理方法,其中,在所述根據用戶發送的網站訪問請求中所含有的該網站的更新時間參數,確定所述網站的結構類型的過程中,中間件截獲用戶發送的網站訪問請求,當所述網站訪問請求中含有LastModified參數時,即確定所述網站的結構類型為偽靜態網站;或者,中間件截獲用戶發送的網站訪問請求,通過調用JS接口的document.1astmodifiedS數獲取網站服務器的最后更新時間,如果所述網站服務器的最后更新時間不是當前時間,則確定所述網站的結構類型為偽靜態網站。3.如權利要求1或2所述的基于移動瀏覽器的網頁處理方法,其中,所述網頁元素白名單由所述偽靜態網頁的標簽下的核心元素構成,其中,所述標簽包括body標簽中的div標簽和/或table標簽。4.如權利要求3所述的基于移動瀏覽器的網頁處理方法,其中,一個網頁元素白名單包含同一內容類型的網站下的所有偽靜態網頁的核心元素。5.一種基于移動瀏覽器的網頁處理系統,包括:網站結構類型確定單元,用于根據用戶發送的網站訪問請求中所含有的該網站的更新時間參數,確定所述網站的結構類型;網頁重建確定單元,用于當所述網站結構類型確定單元,確定所述網站的結構類型為偽靜態網站時,通過判斷所述偽靜態網站中的偽靜態網頁的head標簽下的title標簽和meta標簽是否含有預設的關鍵字,確定所述偽靜態網站中的偽靜態網頁是否符合重建要求;其中,當所述偽靜態網頁的head標簽下的title標簽和meta標簽含有預設的關鍵字時,確定所述偽靜態網頁符合重建要求;網頁核心元素抽取單元,用于當所述網頁重建確定單元確定所述偽靜態網頁符合重建要求時,抽取網頁元素白名單中含有的所述偽靜態網頁的核心元素;頁面重建單元,用于根據所述核心元素抽取單元所抽取的核心元素,對所述偽靜態網頁進行轉碼重建。6.如權利要求5所述的基于移動瀏覽器的網頁處理系統,其中,所述網站結構類型確定單元,在根據用戶發送的網站訪問請求中所含有的該網站的更新時間參數確定所述網站的結構類型的過程中,中間件截獲用戶發送的網站訪問請求,當所述網站訪問請求中含有LastModified參數時,即確定所述網站的結構類型為偽靜態網站;或者,中間件截獲用戶發送的網站訪問請求,通過調用JS接口的document.1astmodifiedS數獲取網站服務器的最后更新時間,如果所述網站服務器的最后更新時間不是當前時間,則確定所述網站的結構類型為偽靜態網站。7.如權利要求5或6所述的基于移動瀏覽器的網頁處理系統,其中,在所述網頁核心元素抽取單元中,所述網頁元素白名單由所述偽靜態網頁的標簽下的核心元素構成,其中,所述標簽包括body標簽中的div標簽和/或table標簽。8.如權利要求7所述的基于移動瀏覽器的網頁處理系統,其中,一個網頁元素白名單包含同一內容類型的網站下的所有偽靜態網頁的核心元素。【文檔編號】G06F17/30GK103761257SQ201310744595【公開日】2014年4月30日申請日期:2013年12月30日優先權日:2013年12月30日【發明者】梁捷,董洲申請人:優視科技有限公司