本申請涉及互聯網,尤其涉及一種網頁信息的采集方法、裝置、存儲介質及電子設備。
背景技術:
1、隨著網絡的迅速發展,互聯網成為大量信息的載體,帶來了提取海量網頁信息并快速分配隊列采集的需求。
2、目前,可基于統一資源定位符(uniform?resource?locator,url)地址列表,使用網絡爬蟲采集每個url地址對應的網頁信息。
3、然而,url地址列表中會存在無效url地址,網絡爬蟲對這些無效url地址進行網頁信息采集時會出現異常,導致網頁信息采集的效率較低。
技術實現思路
1、有鑒于此,本申請提供了一種網頁信息的采集方法、裝置及電子設備,主要目的在于改善目前url地址列表中會存在無效url地址,網絡爬蟲對這些無效url地址進行網頁信息采集時會出現異常,導致網頁信息采集的效率較低的技術問題。
2、第一方面,本申請提供了一種網頁信息的采集方法,包括:
3、對url地址列表進行url地址的有效性校驗;
4、從url地址列表中,篩選出通過有效性校驗的第一url地址,以及未通過有效性校驗的第二url地址;
5、對第二url地址進行補全地址處理,并從第二url地址中,獲取經補全地址處理后通過有效性校驗的第三url地址;
6、根據第一url地址和第三url地址進行網頁信息的采集。
7、第二方面,本申請提供了一種網頁信息的采集裝置,包括:
8、校驗模塊,被配置為對url地址列表進行url地址的有效性校驗;
9、篩選模塊,被配置為從url地址列表中,篩選出通過有效性校驗的第一url地址,以及未通過有效性校驗的第二url地址;
10、補全模塊,被配置為對第二url地址進行補全地址處理,并從第二url地址中,獲取經補全地址處理后通過有效性校驗的第三url地址;
11、采集模塊,被配置為根據第一url地址和第三url地址進行網頁信息的采集。
12、第三方面,本申請提供了一種計算機可讀存儲介質,其上存儲有計算機程序,計算機程序被處理器執行時實現第一方面的通信處理方法。
13、第四方面,本申請提供了一種電子設備,包括存儲介質、處理器及存儲在存儲介質上并可在處理器上運行的計算機程序,處理器執行計算機程序時實現第一方面的通信處理方法。
14、借由上述技術方案,本申請提供的一種網頁信息的采集方法、裝置及電子設備,對url地址列表進行url地址的有效性校驗;從url地址列表中,篩選出通過有效性校驗的第一url地址,以及未通過有效性校驗的第二url地址;對第二url地址進行補全地址處理,并從第二url地址中,獲取經補全地址處理后通過有效性校驗的第三url地址;根據第一url地址和第三url地址進行網頁信息的采集。與目前現有技術相比,本申請能夠對url地址列表進行有效性校驗,對未通過有效性校驗的url地址進行補全地址處理,充分利用網頁數據,提高url地址利用率,避免在網頁信息采集過程中發生異常情況,提高網頁信息采集效率。
15、上述說明僅是本申請技術方案的概述,為了能夠更清楚了解本申請的技術手段,而可依照說明書的內容予以實施,并且為了讓本申請的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本申請的具體實施方式。
1.一種網頁信息的采集方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述對url地址列表進行url地址的有效性校驗,包括:
3.根據權利要求2所述的方法,其特征在于,所述根據正則表達式判斷所述url地址列表中的url地址是否合法,包括:
4.根據權利要求2所述的方法,其特征在于,所述根據url地址特征信息,判斷所述url地址列表中的url地址是否合法,包括:
5.根據權利要求1至4中任一項所述的方法,其特征在于,對所述第二url地址進行補全地址處理,包括:
6.根據權利要求1所述的方法,其特征在于,根據所述第一url地址和所述第三url地址進行網頁信息的采集,包括:
7.根據權利要求6所述的方法,其特征在于,所述基于ocr技術,對所述目標網頁中包含驗證信息的圖像進行圖像字符識別,并結合iou,分析得到所述驗證信息,包括:
8.根據權利要求7所述的方法,其特征在于,所述方法還包括:
9.根據權利要求1所述的方法,其特征在于,在根據所述第一url地址和所述第三url地址進行網頁信息的采集之后,所述方法還包括:
10.根據權利要求1所述的方法,其特征在于,所述方法還包括:
11.一種網頁信息的采集裝置,其特征在于,包括:
12.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至10中任一項所述的方法。
13.一種電子設備,包括存儲介質、處理器及存儲在存儲介質上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現權利要求1至10中任一項所述的方法。