網頁鏈接有效性驗證方法及裝置制造方法
【專利摘要】本發明公開了一種網頁鏈接有效性驗證方法及裝置。該網頁鏈接有效性驗證方法包括:確定待驗證的網頁鏈接地址;判斷待驗證的網頁鏈接地址對應的網頁是否可以訪問;如果待驗證的網頁鏈接地址對應的網頁可以訪問,則獲取待驗證的網頁鏈接地址對應的網頁;判斷待驗證的網頁鏈接地址對應的網頁中是否包含預設域名或預設關鍵詞;如果待驗證的網頁鏈接地址對應的網頁中包含預設域名或者預設關鍵詞,則確定待驗證的網頁鏈接地址為有效的網頁鏈接地址。通過本發明,解決了通過人工驗證網站鏈接有效性導致的準確性差、效率低的問題,通過判斷網頁中是否包含預設域名或預設關鍵詞,達到了自動高效地驗證網頁鏈接地址有效性的效果。
【專利說明】網頁鏈接有效性驗證方法及裝置
【技術領域】
[0001] 本發明涉及互聯網領域,具體而言,涉及一種網頁鏈接有效性驗證方法及裝置。
【背景技術】
[0002] 通常情況下,網站為增加訪客流量,會在眾多網站上通過合作或收費的方式部署 指向到自身網站的鏈接,稱之為該網站的外部鏈接(也叫反向鏈接或友情鏈接)。這些鏈接 的部署往往由相關的代理商承接,因此涉及到計算虛擬資源的業務。在計算時,理想的情況 是要根據鏈接網頁的真實存活情況來確定最終的計算結果;而對于未存活的鏈接是不應該 計算在內的。視為未存活的鏈接包括被部署的網站不能被有效訪問、被部署的網站能夠有 效訪問但網頁上并不存在指定的鏈接內容兩種情況。
[0003] 為避免代理商利用死鏈接或者刪除鏈接等虛假手段偽造虛擬資源,需要檢測代理 商所提供的鏈接是否有效,進而準確計算網頁鏈接虛擬資源。
[0004] 現有方法是通過人工訪問鏈接所在的頁面來驗證鏈接是否有效。一個網站的鏈接 部署往往是數以千計的,因此,利用該方法工作量巨大,時效性往往難以保證;通過肉眼查 看頁面中是否包含指定的鏈接關鍵詞,難以得到全面和準確的結果;同時,在鏈接的部署驗 證中,預匹配的統一資源定位符和關鍵詞是批量的,并且二者的存在是或的關系,因此,校 驗邏輯的復雜性也導致了現有方法獲得的驗證結果精確性較差。
[0005] 針對相關技術中通過人工驗證網頁鏈接有效性導致的準確性差、效率低的問題, 目前尚未提出有效的解決方案。
【發明內容】
[0006] 針對現有的通過人工驗證網站鏈接有效性導致的準確性差、效率低的問題而提出 本發明,為此,本發明的主要目的在于提供一種網站鏈接有效性驗證方法及裝置,以解決上 述問題。
[0007] 為了實現上述目的,根據本發明的一個方面,提供了一種網頁鏈接有效性驗證方 法。該方法包括:確定待驗證的網頁鏈接地址;判斷待驗證的網頁鏈接地址對應的網頁是 否可以訪問;如果待驗證的網頁鏈接地址對應的網頁可以訪問,則獲取待驗證的網頁鏈接 地址對應的網頁;解析待驗證的網頁鏈接地址對應的網頁,判斷待驗證的網頁鏈接地址對 應的網頁中是否包含預設域名或預設關鍵詞,其中,通過預設關鍵詞可以鏈接到預設域名 對應的網站;如果待驗證的網頁鏈接地址對應的網頁中包含預設域名或者預設關鍵詞,則 確定待驗證的網頁鏈接地址為有效的網頁鏈接地址。
[0008] 進一步地,判斷待驗證的網頁鏈接地址對應的網頁是否可以訪問包括:向待驗證 的網頁鏈接地址發出訪問請求;獲取待驗證的網頁鏈接地址返回的對應訪問請求的狀態 碼;根據狀態碼判斷待驗證的網頁鏈接地址對應的網頁是否可以訪問。
[0009] 進一步地,通過解析待驗證的網頁鏈接地址對應的網頁,判斷待驗證的網頁鏈接 地址對應的網頁中是否包含預設域名或預設關鍵詞包括:讀取預設域名;將讀取的預設域 名與待驗證的網頁鏈接地址對應的網頁進行對比,判斷讀取的預設域名是否出現在待驗證 的網頁鏈接地址對應的網頁中;如果讀取的預設域名沒有出現在待驗證的網頁鏈接地址對 應的網頁中,則讀取預設關鍵詞;以及將讀取的預設關鍵詞與待驗證的網頁鏈接地址對應 的網頁進行對比,以及判斷讀取的預設關鍵詞是否出現在待驗證的網頁鏈接地址對應的網 頁中,或者,讀取預設關鍵詞;將讀取的預設關鍵詞與待驗證的網頁鏈接地址對應的網頁進 行對比,判斷讀取的預設關鍵詞是否出現在待驗證的網頁鏈接地址對應的網頁中;如果讀 取的預設關鍵詞沒有出現在待驗證的網頁鏈接地址對應的網頁中,則讀取預設域名;以及 將讀取的預設域名與待驗證的網頁鏈接地址對應的網頁進行對比,判斷讀取的預設域名是 否出現在待驗證的網頁鏈接地址對應的網頁中。
[0010] 進一步地,確定待驗證的網頁鏈接地址包含確定多個待驗證的網頁鏈接地址,確 定待驗證的網頁鏈接地址為有效的網頁鏈接地址之后,該方法還包括:統計待驗證的網頁 鏈接地址的數量;統計有效的網頁鏈接地址的數量;根據有效的網頁鏈接地址的數量和待 驗證的網頁鏈接地址的數量計算網頁鏈接存活率。
[0011] 進一步地,確定待驗證的網頁鏈接地址為有效的網頁鏈接地址之后,該方法還包 括:獲取預設網頁鏈接虛擬資源結算公式,其中,預設網頁鏈接虛擬資源結算公式用于根據 有效的網頁鏈接地址的數量計算網頁鏈接虛擬資源;按照預設網鏈頁接虛擬資源結算公式 計算網頁鏈接虛擬資源。
[0012] 進一步地,按照預設網頁鏈接虛擬資源結算公式計算網頁鏈接虛擬資源包括按照 以下方式計算網頁鏈接虛擬資源:統計有效的網頁鏈接地址的數量;確定網頁鏈接單價; 按照以下公式計算網頁鏈接虛擬資源:Q = S*p,其中,Q為網頁鏈接虛擬資源,S為有效的 網頁鏈接地址的數量,P為網頁鏈接單價。
[0013] 進一步地,判斷待驗證的網頁鏈接地址對應的網頁是否可以訪問之后,該方法還 包括:如果待驗證的網頁鏈接地址對應的網頁不可訪問,則刪除待驗證的網頁鏈接地址。
[0014] 進一步地,判斷待驗證的網頁鏈接地址對應的網頁中是否包含預設域名或者預設 關鍵詞之后,該方法還包括:如果待驗證的網頁鏈接地址對應的網頁中不包含預設域名和 預設關鍵詞,則刪除待驗證的網頁鏈接地址。
[0015] 為了實現上述目的,根據本發明的另一方面,提供了一種網頁鏈接有效性驗證裝 置,該裝置包括:第一確定單元,用于確定待驗證的網頁鏈接地址;第一判斷單元,用于判 斷待驗證的網頁鏈接地址對應的網頁是否可以訪問;獲取單元,用于在待驗證的網頁鏈接 地址對應的網頁可以訪問時,獲取待驗證的網頁鏈接地址對應的網頁;第二判斷單元,用于 解析待驗證的網頁鏈接地址對應的網頁,判斷待驗證的網頁鏈接地址對應的網頁中是否包 含預設域名或預設關鍵詞,其中,通過預設關鍵詞可以鏈接到預設域名對應的網站;第二確 定單元,用于在待驗證的網頁鏈接地址對應的網頁中包含預設域名或者預設關鍵詞時,確 定待驗證的網頁鏈接地址為有效的網頁鏈接地址。
[0016] 進一步地,第一判斷單元包括:訪問模塊,用于向待驗證的網頁鏈接地址發出訪問 請求;獲取模塊,用于獲取待驗證的網頁鏈接地址返回的對應訪問請求的狀態碼;判斷模 塊,用于根據狀態碼判斷待驗證的網頁鏈接地址對應的網頁是否可以訪問。
[0017] 通過本發明,采用包括以下步驟的方法:確定待驗證的網頁鏈接地址;判斷待驗 證的網頁鏈接地址對應的網頁是否可以訪問;如果待驗證的網頁鏈接地址對應的網頁可以 訪問,則獲取待驗證的網頁鏈接地址對應的網頁;解析待驗證的網頁鏈接地址對應的網頁, 判斷待驗證的網頁鏈接地址對應的網頁中是否包含預設域名或預設關鍵詞,其中,通過預 設關鍵詞可以鏈接到預設域名對應的網站;如果待驗證的網頁鏈接地址對應的網頁中包含 預設域名或者預設關鍵詞,則確定待驗證的網頁鏈接地址為有效的網頁鏈接地址,解決了 通過人工驗證網站鏈接有效性導致的準確性差、效率低的問題,通過判斷待驗證的網頁鏈 接地址對應網頁的可訪問性,獲取并解析可訪問的待驗證的網頁鏈接地址對應的網頁,進 而判斷獲取的網頁中是否包含預設域名或預設關鍵詞,達到了自動高效地驗證網頁鏈接地 址的有效性的效果。
【專利附圖】
【附圖說明】
[0018] 構成本申請的一部分的附圖用來提供對本發明的進一步理解,本發明的示意性實 施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中:
[0019] 圖1是根據本發明的網頁鏈接有效性驗證方法的第一實施例的流程圖;
[0020] 圖2是根據本發明的網頁鏈接有效性驗證方法的第二實施例的流程圖;
[0021] 圖3是根據本發明的網頁鏈接有效性驗證方法的第三實施例的示意圖;
[0022] 圖4是根據本發明的計算網頁鏈接存活率及網頁鏈接虛擬資源的示意圖;以及
[0023] 圖5是根據本發明的網頁鏈接有效性驗證裝置的第一實施例的示意圖。
【具體實施方式】
[0024] 為了使本【技術領域】的人員更好地理解本發明方案,下面將結合本發明實施例中的 附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是 本發明一部分的實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術 人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都應當屬于本發明保護的范 圍。
[0025] 需要說明的是,本發明的說明書和權利要求書及上述附圖中的術語"第一"、"第 二"等是用于區別類似的對象,而不必用于描述特定的順序或先后次序。此外,術語"包括" 和"具有"以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單 元的過程、方法、系統、產品或設備不必限于清楚地列出的那些步驟或單元,而是可包括沒 有清楚地列出的或對于這些過程、方法、產品或設備固有的其它步驟或單元。
[0026] 在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將 參考附圖并結合實施例來詳細說明本發明。
[0027] 圖1是根據本發明的網頁鏈接有效性驗證方法的第一實施例的流程圖。如圖1所 示,該方法包括步驟S102至步驟S110。
[0028] 步驟S102,確定待驗證的網頁鏈接地址。
[0029] 網站為增加訪客訪問量,往往在眾多其他網站上通過合作或者收費的方式部署指 向自身網站的鏈接,稱之為該網站的外部鏈接、反向鏈接或者友情鏈接。這些鏈接的部署 一般由代理商承接。由于一個網站部署的外部鏈接可能是數以千計的,因此,優選地,通過 代理商獲取所有待驗證的網頁鏈接地址。獲取的所有待驗證的網頁鏈接地址可以存儲在表 中,如表1所示。
[0030] 表 I
[0031]
【權利要求】
1. 一種網頁鏈接有效性驗證方法,其特征在于,包括: 確定待驗證的網頁鏈接地址; 判斷所述待驗證的網頁鏈接地址對應的網頁是否可以訪問; 如果所述待驗證的網頁鏈接地址對應的網頁可以訪問,則獲取所述待驗證的網頁鏈接 地址對應的網頁; 解析所述待驗證的網頁鏈接地址對應的網頁,判斷所述待驗證的網頁鏈接地址對應的 網頁中是否包含預設域名或預設關鍵詞,其中,通過所述預設關鍵詞可以鏈接到所述預設 域名對應的網站;以及 如果所述待驗證的網頁鏈接地址對應的網頁中包含所述預設域名或者所述預設關鍵 詞,則確定所述待驗證的網頁鏈接地址為有效的網頁鏈接地址。
2. 根據權利要求1所述的方法,其特征在于,判斷所述待驗證的網頁鏈接地址對應的 網頁是否可以訪問包括: 向所述待驗證的網頁鏈接地址發出訪問請求; 獲取所述待驗證的網頁鏈接地址返回的對應所述訪問請求的狀態碼;以及 根據所述狀態碼判斷所述待驗證的網頁鏈接地址對應的網頁是否可以訪問。
3. 根據權利要求1所述的方法,其特征在于,通過解析所述待驗證的網頁鏈接地址對 應的網頁,判斷所述待驗證的網頁鏈接地址對應的網頁中是否包含所述預設域名或所述預 設關鍵詞包括: 讀取所述預設域名; 將讀取的預設域名與所述待驗證的網頁鏈接地址對應的網頁進行對比,判斷所述讀取 的預設域名是否出現在所述待驗證的網頁鏈接地址對應的網頁中; 如果所述讀取的預設域名沒有出現在所述待驗證的網頁鏈接地址對應的網頁中,則讀 取所述預設關鍵詞;以及 將讀取的預設關鍵詞與所述待驗證的網頁鏈接地址對應的網頁進行對比,判斷所述讀 取的預設關鍵詞是否出現在所述待驗證的網頁鏈接地址對應的網頁中, 或者, 讀取所述預設關鍵詞; 將讀取的預設關鍵詞與所述待驗證的網頁鏈接地址對應的網頁進行對比,判斷所述讀 取的預設關鍵詞是否出現在所述待驗證的網頁鏈接地址對應的網頁中; 如果所述讀取的預設關鍵詞沒有出現在所述待驗證的網頁鏈接地址對應的網頁中,則 讀取所述預設域名;以及 將讀取的預設域名與所述待驗證的網頁鏈接地址對應的網頁進行對比,判斷所述讀取 的預設域名是否出現在所述待驗證的網頁鏈接地址對應的網頁中。
4. 根據權利要求1所述的方法,其特征在于,確定待驗證的網頁鏈接地址包含確定多 個待驗證的網頁鏈接地址,確定所述待驗證的網頁鏈接地址為有效的網頁鏈接地址之后, 所述方法還包括: 統計所述待驗證的網頁鏈接地址的數量; 統計所述有效的網頁鏈接地址的數量;以及 根據所述有效的網頁鏈接地址的數量和所述待驗證的網頁鏈接地址的數量計算網站 鏈接存活率。
5. 根據權利要求1所述的方法,其特征在于,確定所述待驗證的網頁鏈接地址為有效 的網頁鏈接地址之后,所述方法還包括: 獲取預設網頁鏈接虛擬資源結算公式,其中,所述預設網頁鏈接虛擬資源結算公式用 于根據所述有效的網頁鏈接地址的數量計算網頁鏈接虛擬資源;以及 按照所述預設網頁鏈接虛擬資源結算公式計算網頁鏈接虛擬資源。
6. 根據權利要求5所述的方法,其特征在于,按照所述預設網頁鏈接虛擬資源結算公 式計算網頁鏈接虛擬資源包括按照以下方式計算所述網頁鏈接虛擬資源: 統計所述有效的網頁鏈接地址的數量; 確定網頁鏈接單價;以及 按照以下公式計算所述網頁鏈接虛擬資源: Q = S*P, 其中,Q為所述網頁鏈接虛擬資源,S為所述有效的網頁鏈接地址的數量,P為所述網頁 鏈接單價。
7. 根據權利要求1所述的方法,其特征在于,判斷所述待驗證的網頁鏈接地址對應的 網頁是否可以訪問之后,所述方法還包括:如果所述待驗證的網頁鏈接地址對應的網頁不 可訪問,則刪除所述待驗證的網頁鏈接地址。
8. 根據權利要求1所述的方法,其特征在于,判斷所述待驗證的網頁鏈接地址對應的 網頁中是否包含所述預設域名或者所述預設關鍵詞之后,所述方法還包括:如果所述待驗 證的網頁鏈接地址對應的網頁中不包含所述預設域名和所述預設關鍵詞,則刪除所述待驗 證的網頁鏈接地址。
9. 一種網頁鏈接有效性驗證裝置,其特征在于,包括: 第一確定單元,用于確定待驗證的網頁鏈接地址; 第一判斷單元,用于判斷所述待驗證的網頁鏈接地址對應的網頁是否可以訪問; 獲取單元,用于在所述待驗證的網頁鏈接地址對應的網頁可以訪問時,獲取所述待驗 證的網頁鏈接地址對應的網頁; 第二判斷單元,用于解析所述待驗證的網頁鏈接地址對應的網頁,判斷所述待驗證的 網頁鏈接地址對應的網頁中是否包含預設域名或預設關鍵詞,其中,通過所述預設關鍵詞 可以鏈接到所述預設域名對應的網站;以及 第二確定單元,用于在所述待驗證的網頁鏈接地址對應的網頁中包含所述預設域名或 者所述預設關鍵詞時,確定所述待驗證的網頁鏈接地址為有效的網頁鏈接地址。
10. 根據權利要求9所述的裝置,其特征在于,所述第一判斷單元包括: 訪問模塊,用于向所述待驗證的網頁鏈接地址發出訪問請求; 獲取模塊,用于獲取所述待驗證的網頁鏈接地址返回的對應所述訪問請求的狀態碼; 以及 判斷模塊,用于根據所述狀態碼判斷所述待驗證的網頁鏈接地址對應的網頁是否可以 訪問。
【文檔編號】G06F17/30GK104317938SQ201410602695
【公開日】2015年1月28日 申請日期:2014年10月31日 優先權日:2014年10月31日
【發明者】楊韜, 王曉群, 余德樂, 譚紫萱 申請人:北京國雙科技有限公司