具有報錯特征的網頁識別方法和裝置制造方法
【專利摘要】本發明公開了一種具有報錯特征的網頁識別方法和裝置,其中,方法包括:將多個網頁進行聚類,得到一個或多個網頁集合;判斷網頁集合中各網頁內容是否都包含預設的否定詞,將網頁集合中的各網頁內容都包含否定詞的網頁集合作為待驗證報錯網頁集合;提取待驗證報錯網頁集合的一個或多個屬性特征,根據屬性特征驗證待驗證報錯網頁集合得到報錯網頁集合,并提取報錯網頁集合的相關信息;根據報錯網頁集合識別報錯網頁。根據該方案,無需結合每個頁面和其特定的報錯句子,效率更高,并且,通過實時地自動挖掘生成報錯網頁集合,并且對網頁報錯詞句的變化不敏感,降低了識別的滯后性。
【專利說明】具有報錯特征的網頁識別方法和裝置
【技術領域】
[0001]本發明涉及互聯網【技術領域】,具體涉及一種具有報錯特征的網頁識別方法和裝置。
【背景技術】
[0002]互聯網中充斥著各種低質量的網頁,這類頁面中不具備實際內容。搜索引擎在抓取、分析、建庫、索引時需要識別并且剔除這些低質量的網頁。這些低質量網頁不僅占用了搜索引擎的資源、降低引擎效率,而且如果未被及時識別、剔除,還會出現在搜索結果頁面中,而用戶點擊訪問后無法獲得有效信息,這嚴重影響了用戶體驗。
[0003]低質量網頁種類較多,其中一種是具有報錯特征的網頁,即具有明顯的報錯詞句的網頁。比如打開網頁后提示:“網頁已刪除”、“404not found”、“頁面不存在”等等。
[0004]現有技術中對這類具有報錯特征的網頁的識別方法主要依靠人工識別網站下的報錯句子,各站點的報錯句子,可能互不相同,采取站點和報錯句子結合的方法來挖掘報錯網頁,一旦站點匹配并且網頁中含有已經識別的報錯句子則認為這個網頁為報錯網頁。
[0005]人工識別報錯句子的缺點是覆蓋面有限而且不及時。人工識別一般是發現一種報錯類型的句子則添加生效一種,主站點下各個子站點頁面的報錯特征可能不同而且可能隨時變化,每個子站點對應的頁面都需要采用結合站點和報錯句子進行識別,因此,采用這種方式進行大面積的識別報錯句子時,人工代價太大,效率很低。并且這種方法具有滯后性,一旦頁面改變了報錯句子則無法識別,需要人工重新添加新的報錯詞句。
【發明內容】
[0006]鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的具有報錯特征的網頁識別方法和裝置。
[0007]根據本發明的一個方面,提供了一種具有報錯特征的網頁識別方法,包括:將多個網頁進行聚類,得到一個或多個網頁集合;判斷網頁集合中各網頁內容是否都包含預設的否定詞,將網頁集合中的各網頁內容都包含否定詞的網頁集合作為待驗證報錯網頁集合;提取待驗證報錯網頁集合的一個或多個屬性特征,根據屬性特征驗證待驗證報錯網頁集合得到報錯網頁集合,并提取報錯網頁集合的相關信息;根據報錯網頁集合識別報錯網頁。
[0008]可選地,所述將所述網頁集合中的各網頁內容都包含所述否定詞的網頁集合作為待驗證報錯網頁集合具體為:將所述網頁集合中每個網頁均包含同一否定詞的網頁集合作為待驗證報錯網頁集合;
[0009]所述方法還包括:將包含所述否定詞的句子作為該待驗證報錯網頁集合的報錯句子。
[0010]可選地,所述對多個網頁進行聚類具體為:針對一主站點,根據路徑信息對該主站點中的各個鏈接網頁進行聚類;
[0011]所述報錯網頁集合的相關信息包括以下信息中的一項或多項:所述報錯網頁集合在主站點中的路徑信息、主站點信息、報錯句子以及其簽名信息。
[0012]可選地,所述根據路徑信息對該主站點中的各個鏈接網頁進行聚類進一步包括:
[0013]計算所述主站點中的各個鏈接網頁的路徑信息;
[0014]對計算得到的路徑信息進行去重處理,計算所述去重處理后獲得的路徑信息的簽名;
[0015]根據所述路徑信息的簽名進行聚類,將路徑信息的簽名相同的鏈接網頁加入同一網頁集合中。
[0016]可選地,所述待驗證報錯網頁集合的屬性特征包括以下特征的一項或多項的組合:
[0017]所述待驗證報錯網頁集合中包含的不同網頁數量;
[0018]所述待驗證報錯網頁集合中全部網頁和/或單個網頁所包含的句子的總數;
[0019]所述待驗證報錯網頁集合中全部網頁中包含的不同句子的數量;
[0020]所述待驗證報錯網頁集合的報錯句子的長度;
[0021]同一主站點包含同一報錯句子的不同網頁集合數量。
[0022]可選地,所述根據所述屬性特征驗證所述待驗證報錯網頁集合得到報錯網頁集合具體為:選取屬性特征符合以下預設策略中一項或多項的待驗證報錯網頁集合作為報錯網頁集合:
[0023]報錯句子在待驗證報錯網頁集合中所有的網頁中被包含;
[0024]待驗證報錯集合中包含的不同網頁數量大于對應預設閾值的網頁集合;
[0025]待驗證報錯集合中全部網頁和/或單個網頁所包含的句子的總數小于對應預設閾值的網頁集合;
[0026]待驗證報錯集合中全部網頁包含的不同句子的數量小于對應預設閾值的網頁集合;
[0027]所述報錯句子長度小于對應預設閾值的網頁集合;
[0028]同一主站點包含同一報錯句子的不同網頁集合數量小于對應預設閾值。
[0029]可選地,所述根據所述報錯網頁集合識別報錯網頁具體包括:
[0030]獲取待識別網頁對應的主站點、所述待識別網頁在所述主站點中的路徑信息、以及所述待識別網頁中包含預設否定詞的句子和該句子的簽名;
[0031]查詢所述待識別網頁對應的主站點、所述待識別網頁在所述主站點中的路徑信息、以及所述待識別網頁中包含預設否定詞的句子是否與所述主站點中的任一報錯網頁集合的信息匹配,若匹配,則確定所述待識別網頁為報錯網頁。
[0032]根據本發明的另一方面,提供了一種具有報錯特征的網頁識別裝置,包括:聚類模塊,用于將多個網頁進行聚類,得到一個或多個網頁集合;判斷模塊,用于判斷聚類模塊得到的一個或多個網頁集合中是否都包含預設的否定詞,將集合中的各網頁內容都包含所述否定詞的網頁集合作為待驗證報錯網頁集合;報錯集合生成模塊,用于提取待驗證報錯網頁集合的一個或多個屬性特征,根據屬性特征驗證待驗證報錯網頁集合得到報錯網頁集合,并提取報錯網頁集合的相關信息;識別模塊,用于根據所述報錯網頁集合識別報錯網頁。
[0033]可選地,所述判斷模塊具體用于:判斷所述網頁集合中各網頁內容是否都包含同一預設的否定詞,將所述網頁集合中每個網頁均包含同一否定詞的網頁集合作為待驗證報錯網頁集合。
[0034]可選地,所述聚類模塊具體用于:針對一主站點,根據路徑信息對該主站點中的各個鏈接網頁進行聚類;
[0035]所述報錯網頁集合的相關信息包括以下信息中的一項或多項:所述報錯網頁集合在主站點中的路徑信息、主站點信息、報錯句子以及其簽名信息。
[0036]可選地,所述聚類模塊具體包括:
[0037]路徑信息計算單元,用于計算所述主站點中的各個鏈接網頁的路徑信息;
[0038]簽名計算單元,用于對計算得到的路徑信息進行去重處理,計算所述去重處理后獲得的路徑信息的簽名;
[0039]聚類單元,用于根據所述路徑信息的簽名進行聚類,將路徑信息的簽名相同的鏈接網頁加入同一網頁集合中。
[0040]可選地,所述待驗證報錯網頁集合的屬性特征包括以下特征的一項或多項的組合:
[0041]所述待驗證報錯網頁集合中包含的不同網頁數量;
[0042]所述待驗證報錯網頁集合中全部網頁和/或單個網頁所包含的句子的總數;
[0043]所述待驗證報錯網頁集合中全部網頁中包含的不同句子的數量;
[0044]所述待驗證報錯網頁集合的報錯句子的長度;
[0045]同一主站點包含同一報錯句子的不同網頁集合數量。
[0046]可選地,所述報錯集合生成模塊具體用于:選取屬性特征符合以下預設策略中一項或多項的待驗證報錯網頁集合作為報錯網頁集合:
[0047]報錯句子在網頁集合中所有的網頁中被包含;
[0048]待驗證報錯集合中包含的不同網頁數量大于對應預設閾值的網頁集合;
[0049]待驗證報錯集合中全部網頁和/或單個網頁所包含的句子的總數小于對應預設閾值的網頁集合;
[0050]待驗證報錯集合中全部網頁包含的不同句子的數量小于對應預設閾值的網頁集合;
[0051]所述報錯句子長度小于對應預設閾值的網頁集合;
[0052]同一主站點包含同一報錯句子的不同網頁集合數量小于對應預設閾值。
[0053]可選地,所述識別模塊具體包括:
[0054]提取單元,用于提取所述報錯網頁集合的相關信息;
[0055]獲取單元,用于獲取待識別網頁對應的主站點、所述待識別網頁在所述主站點中的路徑信息、以及所述待識別網頁中包含預設否定詞的句子;
[0056]查詢單元,用于查詢所述待識別網頁對應的主站點、所述待識別網頁在所述主站點中的路徑信息、以及所述待識別網頁中包含預設否定詞的句子是否與所述提取單元提取的主站點中的任一條報錯網頁集合的信息匹配,若匹配,則確定所述待識別網頁為報錯網頁。
[0057]根據本發明的具有報錯特征的網頁識別方法和裝置,對大量網頁進行聚類分析,形成多個網頁集合。通過聚類方法生成的每個網頁集合中的網頁具有相同的報錯特征,包含相同的否定詞或報錯句子,如果一個網頁集合中的每個網頁內容都包含否定詞,將該集合作為一個待驗證的報錯網頁集合,通過分析該待驗證報錯網頁集合的屬性特征,確定真正的報錯網頁集合,并提取出相關信息。然后,根據報錯網頁集合及相關信息對任意給定的網頁進行識別。根據該方案,以具有相同報錯特征的網頁集合作為識別的參照,每個報錯集合可用于識別多個報錯網頁,而無需結合每個頁面和其特定的報錯句子,效率更高,并且,通過實時地自動挖掘生成報錯網頁集合,并且對網頁報錯詞句的變化不敏感,降低了識別的滯后性。
[0058]上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,并且為了讓本發明的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本發明的【具體實施方式】。
【專利附圖】
【附圖說明】
[0059]通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的,而并不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0060]圖1示出了根據本發明一個實施例的具有報錯特征的網頁識別方法的流程圖;
[0061]圖2示出了根據本發明一個實施例的生成報錯集合的方法的流程圖;
[0062]圖3示出了根據本發明一個實施例的利用報錯集合對具有報錯特征的網頁進行識別的方法的流程圖;
[0063]圖4示出了根據本發明一個實施例的具有報錯特征的網頁識別裝置的結構框圖。【具體實施方式】
[0064]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。
[0065]圖1示出了根據本發明一個實施例的具有報錯特征的網頁識別方法的流程圖,如圖1所示,該方法包括如下步驟:
[0066]步驟S110,將多個網頁進行聚類,得到一個或多個網頁集合。
[0067]該步驟在服務器進行,服務器采用一定的網頁聚類方法對抓取、收錄的網頁,或一定目標范圍內的網頁進行聚類。該步驟中聚類的目的是將具有相同報錯特征的網頁加入到同一個集合中,而不同集合內之間的報錯特征相異。
[0068]可通過多種聚類方法實現該目的,例如,基于域名和文本內容的聚類,將同一主站點域名下文本內容相似的網頁形成一個集合,認為集合中的網頁具有相同的報錯特征;或者根據頁面鏈接和頁面標簽進行聚類,頁面標簽可反映頁面的標題等描述信息,也能夠提供頁面的結構信息,因此,可以認為在頁面結構中位于相似節點、位置的鏈接指向同類頁面,而同類頁面具有相同的報錯特征。其他能實現此目的的聚類方法不再一一列舉。
[0069]步驟S120,判斷網頁集合中各網頁內容是否都包含預設的否定詞,將網頁集合中的各網頁內容都包含否定詞的網頁集合作為待驗證報錯網頁集合。[0070]具有報錯特征的網頁一般通過包含否定詞的句子提示用戶,否定詞可以是“已刪除”、“頁面不存在”、“不可用”、“Not Found”等。
[0071]對集合中的每個網頁提取頁面內容,將頁面內容與上述預設的否定詞相匹配,如果存在一個網頁集合,該集合中的每個網頁都能與一個或多個否定詞匹配,將該網頁集合作為待驗證的報錯網頁集合。
[0072]步驟S130,提取待驗證報錯網頁集合的一個或多個屬性特征,根據屬性特征驗證待驗證報錯網頁集合得到報錯網頁集合,并提取報錯網頁集合的相關信息。
[0073]網頁內容豐富多樣,上述否定詞在網頁中可能作為正常的文字內容而并不用于報錯提示。該步驟結合網頁集合的多個屬性特征對待驗證的報錯網頁集合進行判斷。作為示例,可以獲取集合內的不同網頁數量作為屬性特征,為該屬性特征預設一個閾值,例如,閾值設為20。如果該集合中的網頁數量大于20,并且每個網頁中都包含預設的否定詞,則將該待驗證報錯集合確認為報錯集合。
[0074]步驟S140,提取報錯網頁集合的相關信息并根據報錯網頁集合的相關信息識別報錯網頁。
[0075]利用得到的報錯網頁集合進行報錯網頁的識別,該步驟的具體過程對應于步驟S110,例如,步驟SllO中對一主站點根據頁面標簽對其中的鏈接進行了聚類,則上述相關信息可以包括該報錯網頁集合對應的否定詞,標簽的節點、位置信息,主站點域名等。
[0076]則識別過程是:對一給定的待識別網頁,獲取該網頁中的否定詞,標簽節點信息和主站點域名,查看是否與任意報錯集合的相關信息匹配,將匹配的待識別網頁識別為報錯網頁。
[0077]根據本發明上述實施例提供的方法,對大量網頁進行聚類分析,形成多個網頁集合。通過聚類方法生成的每個網頁集合中的網頁具有相同的報錯特征,包含相同的否定詞或報錯句子,如果一個網頁集合中的每個網頁內容都包含否定詞,將該集合作為一個待驗證的報錯網頁集合,通過分析該待驗證報錯網頁集合的屬性特征,確定真正的報錯網頁集合,并提取出相關信息。然后,根據報錯網頁集合及相關信息對任意給定的網頁進行識別。根據該方案,以具有相同報錯特征的網頁集合作為識別的參照,每個報錯集合可用于識別多個報錯網頁,而無需結合每個頁面和其特定的報錯句子,效率更高,并且,報錯網頁集合的生成過程實時地自動進行,因此對網頁報錯詞句的變化不敏感,降低了識別的滯后性。
[0078]圖2示出了根據本發明另一個實施例的生成報錯網頁集合的方法的流程圖,如圖2所示,該方法以一個主站點為例,示出了對該站點下的網頁進行聚類、篩選得到報錯網頁集合的方法,該方法包括如下步驟:
[0079]步驟S210,針對一主站點,根據路徑信息對該主站點中的各個鏈接進行聚類。
[0080]路徑信息指該主站點下各鏈接的在頁面中的位置信息。一般地,格式良好的頁面的樣式和布局是有規律的,具有相同或相似路徑信息的鏈接指向同類的頁面,或參數不同的同一頁面,這些頁面具有相同的報錯特征。
[0081]具體地,該步驟中采用Xpath聚類方法對一主站點下的鏈接網頁進行聚類,Xpath可用于遍歷頁面中的標簽和屬性,表示標簽和屬性在頁面中的路徑信息。Xpath方法將頁面表示為DOM樹結構,頁面中的每個標簽作為DOM樹的一個葉節點,采用深度優先的遍歷策略,提取DOM樹中的每一個葉節點,通過比較其Xpath,將其添加到具有最大相似度的Xpath聚類中,在本發明中,即是遍歷主站點源碼中包含的全部URL鏈接,獲取每個鏈接的路徑信息,添加到兩個Xpath節點相同的聚類中。
[0082]下面以一主站點的源碼為例,說明Xpath聚類過程,假設頁面的主站點源碼為:
[0083]
【權利要求】
1.一種具有報錯特征的網頁識別方法,包括: 將多個網頁進行聚類,得到一個或多個網頁集合; 判斷所述網頁集合中各網頁內容是否都包含預設的否定詞,將所述網頁集合中的各網頁內容都包含所述否定詞的網頁集合作為待驗證報錯網頁集合; 提取所述待驗證報錯網頁集合的一個或多個屬性特征,根據所述屬性特征驗證所述待驗證報錯網頁集合得到報錯網頁集合; 提取所述報錯網頁集合的相關信息并根據所述報錯網頁集合的相關信息識別報錯網頁。
2.根據權利要求1所述的方法,所述將所述網頁集合中的各網頁內容都包含所述否定詞的網頁集合作為待驗證報錯網頁集合具體為:將所述網頁集合中每個網頁均包含同一否定詞的網頁集合作為待驗證報錯網頁集合; 所述方法還包括:將包含所述否定詞的句子作為該待驗證報錯網頁集合的報錯句子。
3.根據權利要求1-2任一項所述的方法,所述對多個網頁進行聚類具體為:針對一主站點,根據路徑信息對該主站點中的各個鏈接網頁進行聚類; 所述報錯網頁集合的相關信息包括以下信息中的一項或多項:所述報錯網頁集合在主站點中的路徑信息、主站點信息、報錯句子以及其簽名信息。
4.根據權利要求1-3任一項所述的方法,所述根據路徑信息對該主站點中的各個鏈接網頁進行聚類進一步包括:` 計算所述主站點中的各個鏈接網頁的路徑信息; 對計算得到的路徑信息進行去重處理,計算所述去重處理后獲得的路徑信息的簽名; 根據所述路徑信息的簽名進行聚類,將路徑信息的簽名相同的鏈接網頁加入同一網頁^ 由:? 口卞 O
5.根據權利要求1-4任一項所述的方法,所述待驗證報錯網頁集合的屬性特征包括以下特征的一項或多項的組合: 所述待驗證報錯網頁集合中包含的不同網頁數量; 所述待驗證報錯網頁集合中全部網頁和/或單個網頁所包含的句子的總數; 所述待驗證報錯網頁集合中全部網頁中包含的不同句子的數量; 所述待驗證報錯網頁集合的報錯句子的長度; 同一主站點包含同一報錯句子的不同網頁集合數量。
6.根據權利要求1-5任一項所述的方法,所述根據所述屬性特征驗證所述待驗證報錯網頁集合得到報錯網頁集合具體為:選取屬性特征符合以下預設策略中一項或多項的待驗證報錯網頁集合作為報錯網頁集合: 報錯句子在待驗證報錯網頁集合中所有的網頁中被包含; 待驗證報錯集合中包含的不同網頁數量大于對應預設閾值的網頁集合; 待驗證報錯集合中全部網頁和/或單個網頁所包含的句子的總數小于對應預設閾值的網頁集合; 待驗證報錯集合中全部網頁包含的不同句子的數量小于對應預設閾值的網頁集合; 所述報錯句子長度小于對應預設閾值的網頁集合; 同一主站點包含同一報錯句子的不同網頁集合數量小于對應預設閾值。
7.根據權利要求1-6任一項所述的方法,所述根據所述報錯網頁集合識別報錯網頁具體包括: 獲取待識別網頁對應的主站點、所述待識別網頁在所述主站點中的路徑信息、以及所述待識別網頁中包含預設否定詞的句子和該句子的簽名; 查詢所述待識別網頁對應的主站點、所述待識別網頁在所述主站點中的路徑信息、以及所述待識別網頁中包含預設否定詞的句子是否與所述主站點中的任一報錯網頁集合的信息匹配,若匹配,則確定所述待識別網頁為報錯網頁。
8.一種具有報錯特征的網頁識別裝置,包括: 聚類模塊,用于將多個網頁進行聚類,得到一個或多個網頁集合; 判斷模塊,用于判斷所述聚類模塊得到的一個或多個網頁集合中是否都包含預設的否定詞,將集合中的各網頁內容都包含所述否定詞的網頁集合作為待驗證報錯網頁集合; 報錯集合生成模塊,用于提取所述待驗證報錯網頁集合的一個或多個屬性特征,根據所述屬性特征驗證所述待驗證報錯網頁集合得到報錯網頁集合;識別模塊,用于提取所述報錯網頁集合的相關信息并根據所述報錯網頁集合的相關信息識別報錯網頁。
9.根據權利要求8所述的裝置,所述判斷模塊具體用于:判斷所述網頁集合中各網頁內容是否都包含同一預設的否定詞,將所述網頁集合中每個網頁均包含同一否定詞的網頁集合作為待驗證報錯網頁集合。
10.根據權利要求8-9任一項所述的裝置,所述聚類模塊具體用于:針對一主站點,根據路徑信息對該主站點中的各個鏈接網頁進行聚類; 所述報錯網頁集合的相關信息包括以下信息中的一項或多項:所述報錯網頁集合在主站點中的路徑信息、主 站點信息、報錯句子以及其簽名信息。
【文檔編號】G06F17/30GK103870590SQ201410122361
【公開日】2014年6月18日 申請日期:2014年3月28日 優先權日:2014年3月28日
【發明者】王智廣 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司