專利名稱:一種基于互聯網定向站點網頁數據采集的方法及裝置的制作方法
技術領域:
本發明屬于計算機互聯網技術領域,特別涉及一種基于互聯網定向站點網頁數據 采集的方法及裝置。
背景技術:
互聯網一直處于高速發展狀態,信息數量高速膨脹。更多的公眾通過互聯網查詢 相關信息。雖然使用公共的搜索引擎可以搜索各種信息,但這些搜索引擎的結果存在著不 少的缺陷實時性不夠,不能直接看到詳細的正文信息等等。由此誕生了很多網絡采集系 統。這些采集系統一般都是配置要采集的站點,設置起始的URL,采集系統就自動地按照網 站結構的層次來設置URL的優先級,并按照這個級別進行網頁的抓取。這種機制基本保證 了數據的“采全性”,但卻不能滿足用戶的“時效性”。比如一篇新聞被分為10個頁面分別 顯示,在采集到第一個頁數據后,同時取到了其他分頁的URL,這些頁面被稱之為與之前采 集的頁面內容關聯的頁面,無論這片新聞第一頁URL的優先級是高是低,在采集完第一頁 數據后,剩余的頁面都應該盡快地采集下來,從而保證讓用戶最快的看到完成的新聞信息。從以上問題可以看出現有技術中采集系統無法保證對采集站點及時、有效的進行 數據采集。
發明內容
為了解決現有技術文件采集系統無法保證對采集站點及時、有效的進行數據采集 的問題,本發明實施例提供了一種基于互聯網定向站點網頁數據采集的方法,包括根據待采集網頁的統一資源定位器URL的優先級值,將待采集網頁的URL加入到 具有對應優先級的待訪問URL隊列中;根據各URL隊列中的URL數量、URL隊列優先級值和權值因子確定各URL隊列權 值,權值因子為用于刷新和獲取內容頁鏈接的列表頁刷新后,列表頁中新的URL鏈接數量;對權值最高的待訪問URL隊列中的URL進行訪問,并根據訪問的URL采集網頁數 據同時本發明實施例還提供一種基于互聯網定向站點網頁數據采集的裝置,包括隊列生成模塊用于根據待采集網頁的統一資源定位器URL的優先級值,將待采 集網頁的URL加入到具有對應優先級的待訪問URL隊列中;權值確定模塊用于根據各URL隊列中的URL數量、URL隊列優先級值和權值因子 確定各URL隊列權值,權值因子為用于刷新和獲取內容頁鏈接的列表頁刷新后,列表頁中 新的URL鏈接數量;獲取模塊用于對權值最高的待訪問URL隊列中的URL進行訪問,并根據訪問的 URL采集網頁數據。由本發明提供的具體實施方案可以看出,正是由于計算得到URL隊列權值,進而 從權值最高的URL隊列中獲取URL,進而實現及時、有效的進行數據采集。
圖1為本發明提供的第一實施例方法流程圖;圖2為本發明提供的第二實施例系統結構圖。
具體實施例方式為了解決現有技術中采集系統無法保證對采集站點及時、有效的進行數據采集的 問題,本發明實施例提供了一種基于互聯網定向站點網頁數據采集的方法,尤其是針對URL 的優先級和采集隊列(即采集系統的待訪問隊列)的優先級管理,具體包括配置采集任 務,其中包括起始URL和采集的深度。根據指定的起始URL采集網頁數據,按照URL分類機 制對分析出的新的URL(即待采集URL)設定不同的優先級,并插入相應的優先級隊列本實 施例中的待采集URL是指待采集下來加入到待訪問URL隊列中的URL,。當網頁下載模塊向URL管理模塊請求訪問一個可用URL時,URL管理模塊根據不 同優先級URL隊列的長度、優先級級別和權值因子計算各URL隊列的權值,優先從權值最大 的URL隊列中取URL訪問。進一步同時兼顧禮貌訪問問題,避免對某些站點訪問數過大而 被拒絕。使用該方法既能夠保證任務刷新的及時性以及內容關聯的網頁采集的時效性,也 能夠避免低優先級的URL被“餓死”,同時兼顧站點訪問友好性,實現高效穩定的數據采集。本發明提供的第一實施例是一種基于互聯網定向站點網頁數據采集的方法,為了 實現本實施例中的方法,采用URL分類機制,具體定義列表頁鏈接URLB。arf,不保存網頁數據,只用于刷新和獲取內容頁鏈接的鏈接,如 一個網站的首頁(不保存網頁數據)的URL就是一個列表頁鏈接;內容頁鏈接URLc。ntent,保存有網頁數據的鏈接,如新聞正文、帖子、博客的日志 等,進行保存,如一個博客日志的URL就是內容頁鏈接;翻頁鏈接URLPageup,包括 URLB。ard 類 URL
Pageup
和 URLconlent 類 URLpageup ; URLeoard 類 URLpageup 指翻頁鏈接 URLpagwp 為列表頁鏈接 URLB。a,d,URLcontent 類 URLpageup 指翻頁鏈接 URLpagwp 為內容頁鏈接URLfontent,如一個搜索引擎搜索完畢后的搜索結果展示網頁中用于進入多個 其它搜索結果展示頁面的URL即為URL。 類URLpageup,或一篇新聞網頁中用于進入多個新 聞內容關聯的頁面的URL即為URLB。a,d類URLPageup。內容分析返回的鏈接URLKrtum,指將內容頁鏈接的內容頁面分析后獲取的內容關 聯的頁面鏈接,包括URLC 類URLpageup和URLQthCT(如圖片鏈接、附件鏈接等);其他的鏈接=URLmict,包括圖片鏈接、附件鏈接等;優先級的自動設定,本實施例中采集系統中的最高優先級值nValPrimax = TASK_ PRIORIGY_VALUE ;已采集下來的URL的優先級值nValPri。urPage,其取值范圍為[1,TASK_PRI0RITY_ VALUE];本實施例中,首先配置要采集的的站點,設置起始URL,根據配置的采集任務中預 先設定的采集所需的各起始URL的優先級值,將各起始URL作為待采集URL加入到對應優 先級的待訪問URL隊列中,例如配置任務中設定有2起始URL分別為URLl和URL2,URL1的優先級值為5,URL2的優先級值為3,將URLl加入到優先級值為5的待訪問URL隊列中,將 URL2加入到優先級值為3的待訪問URL隊列中,這樣在后續步驟中,采集系統通過對優先級 值為3和優先級值為5的待訪問URL隊列進行訪問,就可以采集到URLl和URL2。基于此, 其它待采集URL (非起始URL)通過已訪問的URL直接得到,待采集URL的優先級定義如下對于通過已訪問的URL直接得到的待采集URL中,類別為URLKeturn的URL,其優先 級值 nValPriKeturnUri = nValPrimax ;對于通過已訪問的URL直接得到的待采集URL中,類別為URLB。arf類URLpageup類別 的 URL,其優先級值 nValPriPageuptel = nVaIPricurpage ;除了 URLKeturn和URLB。arf類URLpageup之外的其他通過已訪問的URL直接得到的待采 集 URL,其優先級值 IiValPriurl = nValPri。urPage-l。隨著采集系統的長期運行,系統存儲的已訪問的歷史記錄也會越來越多。以一個 采集系統一天刷新采集的頁面為40萬為例,設定一個URL的平均長度為200個字節計算, 一天記錄的歷史URL信息就是約76MB,一周的訪問歷史為約532MB,URL消重將成為采集系 統性能的一大障礙。進一步,為了避免重復采集,在執行本實施例的方法前,需進行URL快速消重,待 采集URL加入待訪問隊列前,根據MD5算法計算待采集URL的MD5散列值,與待訪問隊列已 訪問的URL、正在訪問的URL和未訪問的URL的MD5散列值進行比較,如果是新聞或博客站 點的URL,同時在系統記錄的所有URL的MD5信息中未找到,則將其插入對應優先級的帶采 集URL隊列中;如果是論壇帖子的URL,則需要進一步判斷該帖子的回復數是否有更新,若 已更新則插入待采集URL隊列,若均不相同則加入對應優先級的URL隊列中。否則拋棄,待 訪問隊列指與待采集URL具有對應優先級的URL隊列。具體過程為,對待加入到待訪問URL隊列的待采集URL進行解析,拼成一個絕對路
徑的 URLAbs。lute,計算 URLAbs。lute 的 MD5 值 URLm5。其中計算URLAbs。lute的MD5值URLm5如下,補充URLAbs。lute的長度為512位的整數倍, 補充后的URL信息為StrTempurl,對StrTempuri按照512位進行分組,分組數目為nNumGroup ;引入MD5算法四個32位鏈接變量(chaining variable),分別為A = 0x01234567,B = 0x89abcdef,C = 0xfedcba98, D = 0x76543210 ;將 A、B、C、D 分別賦值給 a, b, c, d進入算法的四輪循環運算,循環的次數nNumCycle = nNumGroup。FF(a, b,C,d,x
FF (d,a,b,C,x[l,S12,0xe8c7b756)
FF (c,d,a,b,χ [2,S13,0x242070db)/*3*/
FF (b,C,d,a,χ [3,S14,Oxclbdceee)
FF (a,b,C,d,χ [4,Sll,0xf57c0faf)
FF (d,a,b,C,χ [5,S12,0x4787c62a)/*6*/
FF (c,d,a,b,χ [6,S13,0xa8304613)/*7*/
FF (b,C,d,a,x [7,S14,0xfd469501)/*8*/
FF (a,b,C,d,χ [8,Sll,0x698098d8)/*9*/
FF (d,a,b,C,χ [9,S12,0x8b44f7af)/*10*
FFC,d,a,b,x[10],S13,0xffff5bbl)/*11*/
FFb,C,d,a,x[ll],S14,0x895cd7be)/*12*/
FFa,b,C,d,x[12],Sll,0x6b901122)/氺13氺/
FFd,a,b,C,x[13],S12,0xfd987193)/*14*/
FFC,d,a,b,x[14],S13,0xa679438e)/*15*/
FFb,C,d,a,x[15],S14,0x49b40821)/*16*/
/*Round 2*/
GGa,b,C,d,x[l],S21,0xf61e2562) ;//氺17氺/
GGd,a,b,C,x [6],S22,0xc040b340) ;/418*/
GGC,d,a,b,x[ll],S23,0x265e5a51)/*19*/
GGb,C,d,a,x
,S24,0xe9b6c7aa) ;/420*/
GGa,b,C,d,x [5],S21,0xd62fl05d) ;/ζ氺21氺/
GGd,a,b,C,x[10],S22,0x2441453) ;/ζ氺22氺/
GGC,d,a,b,x[15],S23,0xd8ale681)
GGb,C,d,a,x [4],S24,0xe7d3fbc8) ;/ζ氺24氺/
GGa,b,C,d,x [9],S21,0x21elcde6) ;/
GGd,a,b,C,x[14],S22,0xc33707d6)
GGC,d,a,b,x [3],S23,0xf4d50d87) ;/ζ氺27氺/
GGb,C,d,a,x [8],S24,0x455al4ed) ;/
GGa,b,C,d,x[13],S21,0xa9e3e905)
GGd,a,b,C,x [2],S22,0xfcefa3f8) ;/430*/
GGC,d,a,b,x [7],S23,0x676f02d9) ;/ 31*/
GGb,C,d,a,x[12],S24,0x8d2a4c8a)
/*Round 3*/
HHa,b,C,d,x [5],S31,0xfffa3942) ;/ζ氺33氺/
HHd,a,b,C,x [8],S32,0x8771f681) ;/
HHC,d,a,b,x[ll],S33,0x6d9d6122)
HHb,C,d,a,x[14],S34,0xfde5380c)
HHa,b,C,d,x[l],S31,0xa4beea44) ;/ζ氺37氺/
HHd,a,b,C,x [4],S32,0x4bdecfa9) ;/
HHC,d,a,b,x [7],S33,0xf6bb4b60) ;/>39*/
HHb,C,d,a,x[10],S34,0xbebfbc70)/*40*/
HHa,b,C,d,x[13],S31,0x289b7ec6)/*41*/
HHd,a,b,C,x
,S32,0xeaal27fa) ;/ζ氺42氺/
HHC,d,a,b,x [3],S33,0xd4ef3085) ;/
HHb,C,d,a,x [6],S34,0x4881d05) ;/*44*/
HHa,b,C,d,x [9],S31,0xd9d4d039) ;/ζ氺45氺/
HHd,a,b,C,x[12],S32,0xe6db99e5)/*46*/
HHC,d,a,b,x[15],S33,0xlfa27cf8)/*47*/
HH(b, c, d, a, χ[2], S34,0xc4ac5665) ;/*48*//*Round 4*/II(a,b, c, d, x
, S41,0xf4292244) ;/*49*/II (d, a, b, c, χ[7], S42,0x432aff97) ;/*50*/II (c, d, a, b, χ[14], S43,0xab9423a7) ;/*51*/II(b, c, d, a, χ[5], S44,0xfc93a039) ;/氺52氺/II(a,b, c, d, x[12], S41,0x655b59c3) ;/*53*/II (d, a, b, c, x[3], S42,0x8f0ccc92) ;/氺54氺/II(c, d, a, b, χ[10], S43,Oxffeff47d) ;/*55*/II(b, c, d, a, x[l], S44,0x85845ddl) ;/*56*/II (a, b, c, d, x[8], S41,0x6fa87e4f) ;/*57*/II (d, a, b, c, x[15], S42,0xfe2ce6e0) ;/*58*/II (c, d, a, b, x[6], S43,0xa3014314) ;/*59*/II(b,c, d, a, x[13], S44,0x4e0811al) ;/*60*/II(a, b, c, d, x[4], S41,0xf7537e82) ;/*61*/II (d, a, b, c, x[ll], S42,0xbd3af235) ;/*62*/II (c, d, a, b, χ[2], S43,0x2ad7d2bb) ;/*63*/II(b, c, d, a, x[9], S44,0xeb86d391) ;/*64*/上述計算最終輸出4個32位分組,對其進行級聯后生成了一個128位的散列值, 即為16個字節的URLm5。系統使用URLtffi5進行消重驗證,URLm5表示URL的MD5散列值采集系統的待訪問URL隊列中包括全部待訪問URL的數組為 ArrayQueueunvisited [TASK_PRIORITY_VALUE],其對應的 MD5 信息結構表示為 MapUrlMd5mvisited ;正在訪問的URL對應的MD5信息結構表示為MapUrlMd5visitmg ;已訪問URL的MD5信息結構表示為MapUrlMd5visited。使用URLffil5 依次在 MapUrlMd5visited、MapUrlMd5visitmg 和 MapUrlMd5mvisited 進行查找, 若找到則直接拋棄該URL,若未找到則作為一個新URL插入待訪問隊列。本發明提供的第一實施例是一種基于互聯網定向站點網頁數據采集的方法,方法 流程如圖1所示,包括步驟101 計算各個待訪問 URL 隊列 ArrayQueueunvisited[i-Ι],i e [1,TAKS_ PRIORITY_VALUE]的權值 dValPr、。步驟102 對 ClValPrii 從高到低進行排序 Sort(ClValPrii)。步驟103 從ClValPrii最大的隊列中按FIFO的原則確定當前待訪問URL。步驟104 判斷當前待訪問URL所屬站點的是否符合預定訪問策略。如果符合,則 當前待訪問URL即可進行訪問;如果不符合,則繼續從該隊列中取后續的URL依次進行判 斷;如果該隊列都沒有合適的URL,則從(^斤!^次大的隊列中取URL進行訪問,依次類推, 直到獲得合適的URL進行訪問為止,并根據訪問的URL采集網頁數據。其中步驟101中,根據各URL隊列中的URL數量、URL隊列優先級值和權 值因子確定各URL隊列權值ClValPrii,權值ClValPrii計算具體為,double ClValPrii=QueLeni/pow(iFactor, TASK_PRIORITY_VALUE-Vali),其中 Vali 表示 URL 隊列 ArrayQueueunvisited[i-Ι]優先級的值,URL 隊列 ArrayQueueunvisited[i_l]存儲的是所有優先 級為Vali的URL的信息,QueLeni表示URL隊列ArrayQueueunvisited[i_l]的長度即URL隊 列ArrayQueueunvisited[i-Ι]中的URL數量,iFactor表示權值因子,權值因子為互聯網網絡 頁面刷新后,平均一個列表頁的新頁面增加的數量,如一個列表頁的新頁面增加為2。故 iFactor初始值為2。進一步,還可以根據各URL隊列中的URL數量、URL隊列優先級值、采 集該URL隊列中URL的線程數量和權值因子確定各URL隊列權值ClValPrii。其中步驟104中,由于網絡采集系統遇到的另外一個問題就是拒絕訪問的問題, 為了盡可能快的抓取數據,采集系統往往最大可能的向站點請求數據,從而造成不友好的 訪問,或被認作攻擊行為,最終不能再進行采集。因此為了避免造成不友好的訪問,在本步 驟中進一步需要判斷當前待獲取URL所屬站點的禮貌訪問。通過上述的方案,本實施例通過對URL進行分類,按照類別設定優先級,保證了內 容相關聯的頁面能夠快速采集完整,解決了要等一段時間延遲才能得到完整的內容信息的 問題,進一步,本實施例通過計算隊列權值并結合禮貌訪問機制的方式,保證了對站點的友 好訪問以及照顧到低優先級的URL也能獲取系統資源進行采集。本發明提供的第二實施例是一種基于互聯網定向站點網頁數據采集的裝置,其結 構如圖2所示,包括隊列生成模塊201 用于根據待采集網頁的統一資源定位器URL的優先級值,將待 采集網頁的URL加入到具有對應優先級的待訪問URL隊列中;權值確定模塊202 用于根據各URL隊列中的URL數量、URL隊列優先級值和權值 因子確定各URL隊列權值,權值因子為用于刷新和獲取內容頁鏈接的列表頁刷新后,列表 頁中新的URL鏈接數量;獲取模塊203 用于對權值最高的待訪問URL隊列中的URL進行訪問,并根據訪問 的URL采集網頁數據。進一步,權值確定模塊202 還用于根據各URL隊列中的URL數量、URL隊列優先級 值、權值因子和訪問該URL隊列中URL的線程數量確定各URL隊列權值。進一步,權值確定模塊202 還用于根據如下公式計算URL隊列權值ClValPrii double (IValPrii = QueLeni/RowQFactorJASI^PRIORITYJALUE-Vali),其中為, QueLeni表示URL隊列中的URL數量,Vali表示URL隊列的優先級值,iFactor表示權值因 子,TASK_PRI0RITY_VALUE表示最高優先級值。進一步,隊列生成模塊201 還用于根據MD5算法計算待采集URL的MD5散列值,與 各待訪問URL隊列已訪問的URL、正在訪問的URL和未訪問的URL的MD5散列值進行比較, 若均不相同,或者相同且待采集URL對應網頁中包括的針對該網頁內容的回復數信息有更 新,則加入對應優先級的URL隊列中,否則拋棄。進一步,獲取模塊203 還用于從權值最高的URL隊列中按FIFO的原則訪問URL, 如果訪問的URL所屬站點符合預定訪問策略,則對該URL進行訪問,否則,則繼續從該URL 所屬的隊列中選取后續的URL依次進行判斷,如果該隊列都沒有合適的URL,則按優先級由 高到低依次訪問其它URL隊列中的URL。顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和范圍。這樣,倘若本發明的這些修改和變型屬于本發明權利要求及其等同技術的范圍 之內,則本發明也意圖包含這些改動和變型在內。
權利要求
1.一種基于互聯網定向站點網頁數據采集的方法,其特征在于,包括根據待采集網頁的統一資源定位器URL的優先級值,將待采集網頁的URL加入到具有 對應優先級的待訪問URL隊列中;根據各URL隊列中的URL數量、URL隊列優先級值和權值因子確定各URL隊列權值,權 值因子為用于刷新和獲取內容頁鏈接的列表頁刷新后,列表頁中新的URL鏈接數量;對權值最高的待訪問URL隊列中的URL進行訪問,并根據訪問的URL采集網頁數據。
2.如權利要求1所述的方法,其特征在于,根據各URL隊列中的URL數量、URL隊列優 先級值、權值因子和訪問該URL隊列中URL的線程數量確定各URL隊列權值。
3.如權利要求1所述的方法,其特征在于,確定各URL隊列權值具體為根據如下公式計算URL隊列權值dValft^ double dValPrij = QueLeniZpow(iFactor, TASK_PRIORITY_VALUE-Vali),其中為, QueLeni表示URL隊列中的URL數量,Vali表示URL隊列的優先級值,iFactor表示權值因 子,TASK_PRIORITY_VALUE表示最高優先級值。
4.如權利要求1所述的方法,其特征在于,根據待采集URL的優先級,將待采集URL加 入到具有對應優先級的待訪問URL隊列中具體為根據MD5算法計算待采集URL的MD5散 列值,與各待訪問URL隊列已訪問的URL、正在訪問的URL和未訪問的URL的MD5散列值進 行比較,若均不相同,或者相同且待采集URL對應網頁中包括的針對該網頁內容的回復數 信息有更新,則加入對應優先級的URL隊列中,否則拋棄。
5.如權利要求1所述的方法,其特征在于,從權值最高的待訪問URL隊列中獲取URL具 體為從權值最高的URL隊列中按FIFO的原則訪問URL,如果訪問的URL所屬站點符合預 定訪問策略,則對該URL進行訪問,否則,則繼續從該URL所屬的隊列中選取后續的URL依 次進行判斷,如果該隊列都沒有合適的URL,則按優先級由高到低依次訪問其它URL隊列中 的 URL。
6.如權利要求1所述的方法,其特征在于,待采集URL的優先級值的定義如下若待采集URL為采集所需的起始URL,則從配置的采集任務中獲取各起始URL優先級值;若待采集URL為非起始URL,對于通過已訪問的URL直接得到的待采集URL,類別為內 容分析返回的鏈接的URL,其優先級值最大,內容分析返回的鏈接指將內容頁鏈接的內容頁 面分析后獲取的內容關聯的頁面鏈接;若待采集URL為非起始URL,對于通過已訪問的URL直接得到的待采集URL,類別為列 表頁鏈接類翻頁鏈接的URL,其優先級值IiValI^ipageupllri = ηVaIPricurpage, ηVaIPricurpage表示 已采集下來的URL優先級值,列表頁鏈接指不保存網頁數據,只用于刷新和獲取內容頁鏈 接的鏈接;若待采集URL為非起始URL,對于除類別為內容分析返回的鏈接的URL和類別為列表頁 鏈接類翻頁鏈接的URL之外的,其他通過已訪問的URL直接得到的待采集URL,其優先級值 IiValPriurl = nValPricurPage_l。
7.一種基于互聯網定向站點網頁數據采集的裝置,其特征在于,包括隊列生成模塊用于根據待采集網頁的統一資源定位器URL的優先級值,將待采集網 頁的URL加入到具有對應優先級的待訪問URL隊列中;權值確定模塊用于根據各URL隊列中的URL數量、URL隊列優先級值和權值因子確定 各URL隊列權值,權值因子為用于刷新和獲取內容頁鏈接的列表頁刷新后,列表頁中新的 URL鏈接數量;獲取模塊用于對權值最高的待訪問URL隊列中的URL進行訪問,并根據訪問的URL采 集網頁數據。
8.如權利要求7所述的裝置,其特征在于,權值確定模塊還用于根據各URL隊列中的 URL數量、URL隊列優先級值、權值因子和訪問該URL隊列中URL的線程數量確定各URL隊 列權值。
9.如權利要求7所述的裝置,其特征在于,權值確定模塊還用于根據如下公式計算 URL 隊列權值 dVall^rii double dVal Prii = QueLeniZpow(iFactor, TASK_PRIORITY_VALUE-Vali),其中為, QueLeni表示URL隊列中的URL數量,Vali表示URL隊列的優先級值,iFactor表示權值因 子,TASK_PRIORITY_VALUE表示最高優先級值。
10.如權利要求7所述的裝置,其特征在于,隊列生成模塊還用于根據MD5算法計算 待采集URL的MD5散列值,與各待訪問URL隊列已訪問的URL、正在訪問的URL和未訪問的 URL的MD5散列值進行比較,若均不相同,或者相同且待采集URL對應網頁中包括的針對該 網頁內容的回復數信息有更新,則加入對應優先級的URL隊列中,否則拋棄。
11.如權利要求7所述的裝置,其特征在于,獲取模塊還用于從權值最高的URL隊列 中按FIFO的原則訪問URL,如果訪問的URL所屬站點符合預定訪問策略,則對該URL進行訪 問,否則,則繼續從該URL所屬的隊列中選取后續的URL依次進行判斷,如果該隊列都沒有 合適的URL,則按優先級由高到低依次訪問其它URL隊列中的URL。
全文摘要
為了解決現有技術文件采集系統無法保證對采集站點及時、有效的進行數據采集的問題,本發明公開了一種基于互聯網定向站點網頁數據采集的方法及裝置,該方法包括根據待采集URL的優先級值,將待采集URL加入到具有對應優先級的URL隊列中,根據各URL隊列中的URL數量、URL隊列優先級值和權值因子確定各URL隊列權值,權值因子為用于刷新和獲取內容頁鏈接的列表頁刷新后,列表頁中新的URL鏈接數量,從權值最高的URL隊列中獲取URL,計算得到URL隊列權值,進而對權值最高的待訪問URL隊列中的URL進行訪問,并根據訪問的URL采集網頁數據,進而實現及時、有效的進行數據采集。
文檔編號G06F17/30GK102117275SQ20091021750
公開日2011年7月6日 申請日期2009年12月31日 優先權日2009年12月31日
發明者吳新麗, 尹小剛, 楊建武, 藍康泰 申請人:北京北大方正電子有限公司, 北京大學, 北京方正電子政務信息科技有限公司, 北大方正集團有限公司