用于網絡資源處理的調度方法、設備、系統及子調度器的制造方法
【專利摘要】本發明提供一種用于網絡資源處理的調度方法、設備、系統及子調度器,方法包括:第一子調度器從至少一個網絡爬蟲設備獲取網絡資源的地址信息;當第一子調度器的網絡資源的地址信息的數量超過設定的調度閾值時,將超過調度閾值的超出部分的網絡資源的地址信息發送給總調度器,以使總調度器根據接收的超出部分的網絡資源的地址信息生成至少一個總調度任務;與第一子調度器不同的第二子調度器接收總調度器分發的總調度任務;第二子調度器根據總調度任務和未超過調度閾值的網絡資源的地址信息生成子調度任務;第二子調度器發送子調度任務給對應的網絡爬蟲設備。本發明實現了僅在網絡資源處理量超負荷時,請求總調度器重新調度,降低了總調度器的負載。
【專利說明】
用于網絡資源處理的調度方法、設備、系統及子調度器
技術領域
[0001]本發明涉及互聯網技術領域,尤其涉及一種用于網絡資源處理的調度方法、設備、系統及子調度器。
【背景技術】
[0002]搜索引擎作為網絡信息搜尋的工具,它以一定的策略在互聯網中搜集、發現信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務。1994年,爬蟲程序被應用到索引程序中,Yah00、G00gle等相繼出現。網絡爬蟲是搜索引擎系統中十分重要的組成部分,它負責從互聯網中搜集網頁,這些頁面用于建立索引從而為搜索引擎提供支持。
[0003]但至今,功能再強大的搜索引擎都仍然存在信息丟失、更新率低、精準率低等問題。用戶需要更快、更準、更方便、更有效的查詢服務成為搜索引擎技術發展研究追求的目標。而面對越來越龐大的網絡資源,提高爬蟲程序的速度已成為當前搜索領域的一個焦點問題,但現有的爬蟲程序顯然不能滿足高速爬取的需求。
【發明內容】
[0004]本發明的目的在于,提供一種用于網絡資源處理的調度方法、設備、系統及子調度器,以實現僅在網絡資源處理量超負荷時,請求總調度器重新分配調度任務,降低總調度器的負載,使得網絡資源更快速進入搜索引擎。
[0005]根據本發明的一方面,提供一種用于網絡資源處理的調度方法,包括:第一子調度器從至少一個網絡爬蟲設備獲取網絡資源的地址信息;當所述第一子調度器的網絡資源的地址信息的數量超過設定的調度閾值時,所述第一子調度器將超過所述調度閾值的超出部分的網絡資源的地址信息發送給總調度器,以使所述總調度器根據接收的超出部分的網絡資源的地址信息生成至少一個總調度任務;與第一子調度器不同的第二子調度器接收所述總調度器分發的所述總調度任務;所述第二子調度器根據總調度任務和未超過所述調度閾值的網絡資源的地址信息生成子調度任務;所述第二子調度器發送所述子調度任務給對應的網絡爬蟲設備。
[0006]優選地,所述總調度器根據接收的超出部分的網絡資源的地址信息生成至少一個總調度任務的處理包括:
[0007]所述總調度器獲取其他子調度器當前處理網絡資源的地址信息的數量和對應的調度閾值;
[0008]根據其他子調度器的每一個的調度閾值和當前處理網絡資源的地址信息的數量的差值,所述總調度器生成至少一個總調度任務,所述至少一個總調度任務用于指定對應的第二子調度器處理所述超出部分的網絡資源的地址信息。
[0009]優選地,所述方法還包括:所述第一子調度器發送所述網絡資源的地址信息給子去重器,以使所述子去重器判斷所述網絡資源的地址信息與所述子去重器本地存儲的網絡資源的地址信息是否一致,如果一致,則不再對判斷一致的網絡資源的地址信息進行后續的處理。
[0010]優選地,所述方法還包括:如果不一致,則所述子去重器將判斷不一致的網絡資源的地址信息發送給總去重器,以使所述總去重器判斷所述網絡資源的地址信息與所述總去重器本地存儲的網絡資源的地址信息是否一致;如果不一致,則所述第一子調度器接收所述總去重器發送的判斷不一致的網絡資源的地址信息。
[0011]根據本發明的另一方面,提供一種用于網絡資源處理的調度設備,包括:地址信息獲取模塊,用于第一子調度器從至少一個網絡爬蟲設備獲取網絡資源的地址信息;地址信息發送模塊,用于當所述第一子調度器的網絡資源的地址信息的數量超過設定的調度閾值時,所述第一子調度器將超過所述調度閾值的超出部分的網絡資源的地址信息發送給總調度器,以使所述總調度器根據接收的超出部分的網絡資源的地址信息生成至少一個總調度任務;調度任務接收模塊,用于與第一子調度器不同的第二子調度器接收所述總調度器分發的所述總調度任務;調度任務生成模塊,用于所述第二子調度器根據總調度任務和未超過所述調度閾值的網絡資源的地址信息生成子調度任務;調度任務發送模塊,用于所述第二子調度器發送所述子調度任務給對應的網絡爬蟲設備。
[0012]優選地,所述地址信息發送模塊具體用于所述總調度器獲取其他子調度器當前處理網絡資源的地址信息的數量和對應的調度閾值;根據其他子調度器的每一個的調度閾值和當前處理網絡資源的地址信息的數量的差值,生成至少一個總調度任務,所述至少一個總調度任務用于指定對應的第二子調度器處理所述超出部分的網絡資源的地址信息。
[0013]優選地,所述地址信息發送模塊還用于所述第一子調度器發送所述網絡資源的地址信息給子去重器,以使所述子去重器判斷所述網絡資源的地址信息與所述子去重器本地存儲的網絡資源的地址信息是否一致,如果一致,則不再對判斷一致的網絡資源的地址信息進行后續的處理。
[0014]優選地,所述地址信息發送模塊還用于如果不一致,則所述子去重器將判斷不一致的網絡資源的地址信息發送給總去重器,以使所述總去重器判斷所述網絡資源的地址信息與所述總去重器本地存儲的網絡資源的地址信息是否一致;
[0015]所述調度設備還包括:地址信息接收模塊,用于如果不一致,則所述第一子調度器接收所述總去重器發送的判斷不一致的網絡資源的地址信息。
[0016]根據本發明的另一方面,提供一種子調度器,包括:信息獲取模塊,用于從至少一個網絡爬蟲設備獲取網絡資源的地址信息;信息發送模塊,用于當本地的網絡資源的地址信息的數量超過設定的調度閾值時,將超過所述調度閾值的超出部分的網絡資源的地址信息發送給總調度器,以使所述總調度器根據接收的超出部分的網絡資源的地址信息生成至少一個總調度任務;任務接收模塊,用于當本地的網絡資源的地址信息的數量未超過設定的調度閾值時,接收所述總調度器分發的所述總調度任務;任務生成模塊,用于根據所述總調度任務對應的網絡資源的地址信息和未超過設定的調度閾值的網絡資源的地址信息生成子調度任務;任務發送模塊,用于發送所述子調度任務給對應的網絡爬蟲設備。
[0017]根據本發明的另一方面,提供一種用于網絡資源處理的調度系統,包括:總調度器和分別與所述總調度器通信連接的至少一個如前述實施例所述的子調度器,所述總調度器接收超過設定調度閾值的超出部分的網絡資源的地址信息,并根據接收的超出部分的網絡資源的地址信息生成至少一個總調度任務,分別發送給對應的子調度器。
[0018]根據本發明實施例提供的用于網絡資源處理的調度方法、設備、系統及子調度器,通過子調度器在網絡資源的地址信息的數量超過設定調度閾值時,發送超過調度閾值的超出部分的網絡資源的地址信息給總調度器,使其重新分配調度任務,進一步其他未超過調度閾值的子調度器根據總調度器分發的總調度任務和未超過調度閾值的網絡資源的地址信息生成子調度任務,并發送給對應的網絡爬蟲設備。實現了僅在網絡資源處理量超負荷時,請求總調度器重新分配調度任務,從而降低了總調度器的負載,使得網絡資源更加快速地進入搜索引擎。
【附圖說明】
[0019]圖1是示出根據本發明實施例一的用于網絡資源處理的調度方法的流程圖;
[0020]圖2是示出根據本發明實施例二的用于網絡資源處理的調度設備的邏輯框圖;
[0021 ]圖3是示出根據本發明實施例三的子調度器的邏輯框圖;
[0022]圖4是示出根據本發明實施例四的用于網絡資源處理的調度系統的結構示意圖。
【具體實施方式】
[0023]本發明的基本構思是,提供一種基于網絡資源處理的兩重調度的技術方案。具體來說,在網絡資源的地址信息的數量超過設定調度閾值時,發送超過調度閾值的超出部分的網絡資源的地址信息給總調度器,使其重新分配調度任務,進一步其他未超過調度閾值的子調度器根據總調度器分發的總調度任務和未超過調度閾值的超出部分的網絡資源的地址信息生成子調度任務,并發送給對應的網絡爬蟲設備。實現了僅在網絡資源處理量超負荷時,請求總調度器重新分配調度任務,從而降低了總調度器的負載,使得網絡資源更加快速地進入搜索引擎。
[0024]此外,還可增加兩重去重處理,即總去重器和子去重器實現,同理可知,子去重器使得總去重器的負載降低,極大地提升網絡資源處理的效率和速度。
[0025]下面結合附圖詳細描述本發明的示例性實施例用于網絡資源處理的調度方法、設備、系統及子調度器。
[0026]實施例一
[0027]圖1是示出根據本發明實施例一的用于網絡資源處理的調度方法的流程圖。以下以子調度器為本發明實施例的執行主體進行詳細說明。
[0028]參照圖1,在步驟S110,第一子調度器從至少一個網絡爬蟲設備獲取網絡資源的地址信息。
[0029]需要說明的是,網絡資源的地址信息可為網頁的統一資源定位符URL。也就是說,網絡爬蟲設備在發現URL之后,并不是直接就根據URL進行網絡資源的下載,而是將URL告知子調度器,由此,子調度器就可獲取到網絡爬蟲設備發送的網絡資源的地址信息。
[0030]在步驟S120,當第一子調度器的網絡資源的地址信息的數量超過設定調度閾值時,第一子調度器將超過調度閾值的超出部分的網絡資源的地址信息發送給總調度器,以使總調度器根據接收的超出部分的網絡資源的地址信息生成至少一個總調度任務。
[0031]具體來說,第一子調度器在獲取到網絡爬蟲設備發送的網絡資源的地址信息之后,會判斷自身的網絡資源處理量是否超負荷,如果超負荷,就將超出部分(即超過調度閾值的網絡資源的地址信息)發送給總調度器。
[0032]根據本發明的優選實施例,前述總調度器根據接收的超出部分的網絡資源的地址信息生成至少一個總調度任務的處理可以包括:總調度器獲取其他子調度器當前處理網絡資源的地址信息的數量和對應的調度閾值;根據其他子調度器的每一個的調度閾值和當前處理網絡資源的地址信息的數量的差值,總調度器生成至少一個總調度任務,至少一個總調度任務用于指定對應的第二子調度器處理超出部分的網絡資源的地址信息。
[0033]也就是說,總調度器需要先獲取其他子調度器的網絡資源處理情況,即前處理網絡資源的地址信息的數量和對應的調度閾值,例如,某子調度器當前處理的網絡資源的地址信息的數量為900,調度閾值為1000,可見該子調度器為未超負荷的子調度器,假設前述超出部分網絡資源的地址信息數量為200,那么可將其中的100個生成一個總調度任務發送給該未超負荷的子調度器。同理,另外100個生成一個總調度任務發送給另一未超負荷的子調度器。
[0034]在步驟S130,與第一子調度器不同的第二子調度器接收總調度器分發的總調度任務。
[0035]這里需要強調的是,“第一”、“第二”只是一種用于區別不同子調度器的指代,并不用以限定具體的子調度器。具體地,第二子調度器就是如前所述的網絡資源處理量未超負荷的子調度器,從而接收總調度器發送的總調度任務,繼續做相應的處理。
[0036]在步驟S140,第二子調度器根據總調度任務的網絡資源的地址信息和未超過調度閾值的網絡資源的地址信息生成子調度任務。
[0037]在步驟SI 50,第二子調度器發送子調度任務給對應的網絡爬蟲設備。
[0038]在具體的實現方式中,通常,由子調度器對16個網絡爬蟲設備進行調度和管理。這其中包括了 URL打散、URL比例再分配、設置URL的優先級等等。因此,需要子調度器根據總調度任務和未超過調度閾值的URL生成子調度任務,然后將子調度任務分發給這16個網絡爬蟲設備。
[0039]本發明實施例的用于網絡資源處理的調度方法,通過子調度器在網絡資源的地址信息的數量超過設定調度閾值時,發送超過調度閾值的超出部分的網絡資源的地址信息給總調度器,使其重新分配調度任務,進一步其他未超過調度閾值的子調度器根據總調度器分發的總調度任務和未超過調度閾值的網絡資源的地址信息生成子調度任務,并發送給對應的網絡爬蟲設備。實現了僅在網絡資源處理量超負荷時,請求總調度器重新分配調度任務,從而降低了總調度器的負載,使得網絡資源更加快速地進入搜索引擎。
[0040]在上述實施例的基礎之上,為了避免由于重復爬取降低了網絡爬蟲設備的網絡資源處理效率,進一步地,用于網絡資源處理的調度方法還可包括:第一子調度器發送網絡資源的地址信息給子去重器,以使子去重器判斷網絡資源的地址信息與子去重器本地存儲的網絡資源的地址信息是否一致,如果一致,則不再對判斷一致的網絡資源的地址信息進行后續的處理。
[0041 ] 更進一步地,用于網絡資源處理的調度方法還可包括:如果不一致,則子去重器將判斷不一致的網絡資源的地址信息發送給總去重器,以使總去重器判斷網絡資源的地址信息與總去重器本地存儲的網絡資源的地址信息是否一致;如果不一致,則第一子調度器接收總去重器發送的判斷不一致的網絡資源的地址信息。
[0042]在實際應用中,URL去重是網絡資源處理中一項關鍵步驟,由于運行中的網絡爬蟲主要阻塞在網絡交互中,因此避免重復的網絡交互至關重要。網絡爬蟲一般會將待抓取的URL放在一個隊列中,從抓取后的網頁中提取到新的URL,在新的URL被放入隊列之前,首先要確定這些新的URL是否被抓取過,如果之前已經抓取過了,就不再放入隊列了。因此,基于同樣的技術構思,設置兩重去重,同樣地,子去重器使得總去重器的負載降低,極大地提升網絡資源處理的效率和速度。
[0043]實施例二
[0044]基于相同的技術構思,圖2是示出根據本發明實施例二的用于網絡資源處理的調度設備的邏輯框圖。可用于執行如圖1所示的實施例的方法步驟。
[0045]參照圖2,用于網絡資源處理的調度設備包括地址信息獲取模塊210、地址信息發送模塊220、調度任務接收模塊230、調度任務生成模塊240和調度任務發送模塊250。
[0046]地址信息獲取模塊210用于第一子調度器從至少一個網絡爬蟲設備獲取網絡資源的地址信息;
[0047]地址信息發送模塊220用于當第一子調度器的網絡資源的地址信息的數量超過設定的調度閾值時,第一子調度器將超過調度閾值的超出部分的網絡資源的地址信息發送給總調度器,以使總調度器根據接收的超出部分的網絡資源的地址信息生成至少一個總調度任務;
[0048]調度任務接收模塊230用于與第一子調度器不同的第二子調度器接收總調度器分發的總調度任務;
[0049]調度任務生成模塊240用于第二子調度器根據總調度任務和未超過調度閾值的網絡資源的地址信息生成子調度任務;
[0050]調度任務發送模塊250用于第二子調度器發送子調度任務給對應的網絡爬蟲設備。
[0051]具體地,地址信息發送模塊220可用于總調度器獲取其他子調度器當前處理網絡資源的地址信息的數量和對應的調度閾值;根據其他子調度器的每一個的調度閾值和當前處理網絡資源的地址信息的數量的差值,生成至少一個總調度任務,至少一個總調度任務用于指定對應的第二子調度器處理超出部分的網絡資源的地址信息。
[0052]進一步地,地址信息發送模塊220還可用于第一子調度器發送網絡資源的地址信息給子去重器,以使子去重器判斷網絡資源的地址信息與子去重器本地存儲的網絡資源的地址信息是否一致,如果一致,則不再對判斷一致的網絡資源的地址信息進行后續的處理。
[0053]更進一步地,地址信息發送模塊220還可用于如果不一致,則子去重器將判斷不一致的網絡資源的地址信息發送給總去重器,以使總去重器判斷網絡資源的地址信息與總去重器本地存儲的網絡資源的地址信息是否一致;
[0054]調度設備還可包括:地址信息接收模塊(圖中未示出)用于如果不一致,則第一子調度器接收總去重器發送的判斷不一致的網絡資源的地址信息。
[0055]本發明實施例的用于網絡資源處理的調度設備,通過子調度器在網絡資源的地址信息的數量超過設定調度閾值時,發送超過調度閾值的超出部分的網絡資源的地址信息給總調度器,使其重新分配調度任務,進一步其他未超過調度閾值的子調度器根據總調度器分發的總調度任務和未超過調度閾值的網絡資源的地址信息生成子調度任務,并發送給對應的網絡爬蟲設備。實現了僅在網絡資源處理量超負荷時,請求總調度器重新分配調度任務,從而降低了總調度器的負載,使得網絡資源更加快速地進入搜索引擎。
[0056]實施例三
[0057]基于相同的技術構思,圖3是示出根據本發明實施例三的子調度器的邏輯框圖。
[0058]參照圖3,子調度器包括信息獲取模塊310、信息發送模塊320、任務接收模塊330、任務生成模塊340和任務發送模塊350。
[0059]信息獲取模塊310用于從至少一個網絡爬蟲設備獲取網絡資源的地址信息。
[0060]這里,網絡資源的地址信息可為網頁的統一資源定位符URL。
[0061]信息發送模塊320用于當本地的網絡資源的地址信息的數量超過設定的調度閾值時,將超過調度閾值的超出部分的網絡資源的地址信息發送給總調度器,以使總調度器根據接收的超出部分的網絡資源的地址信息生成至少一個總調度任務。
[0062]任務接收模塊330用于當本地的網絡資源的地址信息的數量未超過設定的調度閾值時,接收總調度器分發的總調度任務。
[0063]任務生成模塊340用于根據總調度任務對應的網絡資源的地址信息和未超過設定的調度閾值的網絡資源的地址信息生成子調度任務。
[0064]任務發送模塊350用于發送子調度任務給對應的網絡爬蟲設備。
[0065]本發明實施例的子調度器,一方面,通過在網絡資源的地址信息的數量超過設定調度閾值時,發送超過調度閾值的超出部分的網絡資源的地址信息給總調度器,使其重新分配調度任務;另一方面,當本地的網絡資源的地址信息的數量未超過設定的調度閾值時接收總調度器分發的總調度任務,進一步根據總調度任務對應的網絡資源的地址信息和未超過設定的調度閾值的網絡資源的地址信息生成子調度任務,并發送給對應的網絡爬蟲設備。實現了僅在網絡資源處理量超負荷時,請求總調度器重新分配調度任務,從而降低了總調度器的負載。并且在網絡資源處理量未超負荷時,接收總調度器分發的總調度任務進行相應處理,使得網絡資源更加快速地進入搜索引擎。
[0066]實施例四
[0067]本發明實施例還提供一種用于網絡資源處理的調度系統,圖4是示出根據本發明實施例四的用于網絡資源處理的調度系統的結構示意圖。
[0068]參照圖4,用于網絡資源處理的調度系統包括:總調度器410和分別與總調度器通信連接的至少一個如前述實施例的子調度器420,總調度器410接收超過設定調度閾值的超出部分的網絡資源的地址信息,并根據接收的超出部分的網絡資源的地址信息生成至少一個總調度任務,分別發送給對應的子調度器420。在實際應用中,與總調度器通信的是16個子調度器,由總調度器對這16個子調度器進行控制和管理。
[0069]本發明實施例的用于網絡資源處理的調度系統,在網絡資源的地址信息的數量超過設定調度閾值時,子調度器發送超過調度閾值的超出部分的網絡資源的地址信息給總調度器,使其重新分配調度任務,總調度器根據接收的網絡資源的地址信息生成至少一個總調度任務,分別發送給對應的子調度器。實現了僅在網絡資源處理量超負荷時,請求總調度器重新分配調度任務,從而降低了總調度器的負載,使得網絡資源更加快速地進入搜索引擎。
[0070]需要指出,根據實施的需要,可將本申請中描述的各個部件/步驟拆分為更多部件/步驟,也可將兩個或多個部件/步驟或者部件/步驟的部分操作組合成新的部件/步驟,以實現本發明的目的。
[0071]上述根據本發明的方法可在硬件、固件中實現,或者被實現為可存儲在記錄介質(諸如CD R0M、RAM、軟盤、硬盤或磁光盤)中的軟件或計算機代碼,或者被實現通過網絡下載的原始存儲在遠程記錄介質或非暫時機器可讀介質中并將被存儲在本地記錄介質中的計算機代碼,從而在此描述的方法可被存儲在使用通用計算機、專用處理器或者可編程或專用硬件(諸如ASIC或FPGA)的記錄介質上的這樣的軟件處理。可以理解,計算機、處理器、微處理器控制器或可編程硬件包括可存儲或接收軟件或計算機代碼的存儲組件(例如,RAM、ROM、閃存等),當所述軟件或計算機代碼被計算機、處理器或硬件訪問且執行時,實現在此描述的處理方法。此外,當通用計算機訪問用于實現在此示出的處理的代碼時,代碼的執行將通用計算機轉換為用于執行在此示出的處理的專用計算機。
[0072]以上所述,僅為本發明的【具體實施方式】,但本發明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發明揭露的技術范圍內,可輕易想到變化或替換,都應涵蓋在本發明的保護范圍之內。因此,本發明的保護范圍應以所述權利要求的保護范圍為準。
【主權項】
1.一種用于網絡資源處理的調度方法,其特征在于,所述方法包括: 第一子調度器從至少一個網絡爬蟲設備獲取網絡資源的地址信息; 當所述第一子調度器的網絡資源的地址信息的數量超過設定的調度閾值時,所述第一子調度器將超過所述調度閾值的超出部分的網絡資源的地址信息發送給總調度器,以使所述總調度器根據接收的超出部分的網絡資源的地址信息生成至少一個總調度任務; 與第一子調度器不同的第二子調度器接收所述總調度器分發的所述總調度任務; 所述第二子調度器根據總調度任務和未超過所述調度閾值的網絡資源的地址信息生成子調度任務; 所述第二子調度器發送所述子調度任務給對應的網絡爬蟲設備。2.根據權利要求1所述的方法,其特征在于,所述總調度器根據接收的超出部分的網絡資源的地址信息生成至少一個總調度任務的處理包括: 所述總調度器獲取其他子調度器當前處理網絡資源的地址信息的數量和對應的調度閾值; 根據其他子調度器的每一個的調度閾值和當前處理網絡資源的地址信息的數量的差值,生成至少一個總調度任務,所述至少一個總調度任務用于指定對應的第二子調度器處理所述超出部分的網絡資源的地址信息。3.根據權利要求1所述的方法,其特征在于,所述方法還包括: 所述第一子調度器發送所述網絡資源的地址信息給子去重器,以使所述子去重器判斷所述網絡資源的地址信息與所述子去重器本地存儲的網絡資源的地址信息是否一致,如果一致,則不再對判斷一致的網絡資源的地址信息進行后續的處理。4.根據權利要求3所述的方法,其特征在于,所述方法還包括: 如果不一致,則所述子去重器將判斷不一致的網絡資源的地址信息發送給總去重器,以使所述總去重器判斷所述網絡資源的地址信息與所述總去重器本地存儲的網絡資源的地址信息是否一致; 如果不一致,則所述第一子調度器接收所述總去重器發送的判斷不一致的網絡資源的地址信息。5.—種用于網絡資源處理的調度設備,其特征在于,所述調度設備包括: 地址信息獲取模塊,用于第一子調度器從至少一個網絡爬蟲設備獲取網絡資源的地址信息; 地址信息發送模塊,用于當所述第一子調度器的網絡資源的地址信息的數量超過設定的調度閾值時,所述第一子調度器將超過所述調度閾值的超出部分的網絡資源的地址信息發送給總調度器,以使所述總調度器根據接收的超出部分的網絡資源的地址信息生成至少一個總調度任務; 調度任務接收模塊,用于與第一子調度器不同的第二子調度器接收所述總調度器分發的所述總調度任務; 調度任務生成模塊,用于所述第二子調度器根據總調度任務和未超過所述調度閾值的網絡資源的地址信息生成子調度任務; 調度任務發送模塊,用于所述第二子調度器發送所述子調度任務給對應的網絡爬蟲設備。6.根據權利要求5所述的調度設備,其特征在于,所述地址信息發送模塊具體用于所述總調度器獲取其他子調度器當前處理網絡資源的地址信息的數量和對應的調度閾值;根據其他子調度器的每一個的調度閾值和當前處理網絡資源的地址信息的數量的差值,生成至少一個總調度任務,所述至少一個總調度任務用于指定對應的第二子調度器處理所述超出部分的網絡資源的地址信息。7.根據權利要求5所述的調度設備,其特征在于,所述地址信息發送模塊還用于所述第一子調度器發送所述網絡資源的地址信息給子去重器,以使所述子去重器判斷所述網絡資源的地址信息與所述子去重器本地存儲的網絡資源的地址信息是否一致,如果一致,則不再對判斷一致的網絡資源的地址信息進行后續的處理。8.根據權利要求7所述的調度設備,其特征在于,所述地址信息發送模塊還用于如果不一致,則所述子去重器將判斷不一致的網絡資源的地址信息發送給總去重器,以使所述總去重器判斷所述網絡資源的地址信息與所述總去重器本地存儲的網絡資源的地址信息是否一致; 所述調度設備還包括:地址信息接收模塊,用于如果不一致,則所述第一子調度器接收所述總去重器發送的判斷不一致的網絡資源的地址信息。9.一種子調度器,其特征在于,所述子調度器包括: 信息獲取模塊,用于從至少一個網絡爬蟲設備獲取網絡資源的地址信息; 信息發送模塊,用于當本地的網絡資源的地址信息的數量超過設定的調度閾值時,將超過所述調度閾值的超出部分的網絡資源的地址信息發送給總調度器,以使所述總調度器根據接收的超出部分的網絡資源的地址信息生成至少一個總調度任務; 任務接收模塊,用于當本地的網絡資源的地址信息的數量未超過設定的調度閾值時,接收所述總調度器分發的所述總調度任務; 任務生成模塊,用于根據所述總調度任務對應的網絡資源的地址信息和未超過設定的調度閾值的網絡資源的地址信息生成子調度任務; 任務發送模塊,用于發送所述子調度任務給對應的網絡爬蟲設備。10.—種用于網絡資源處理的調度系統,其特征在于,所述調度系統包括總調度器和分別與所述總調度器通信連接的至少一個如權利要求9所述的子調度器,所述總調度器接收超過設定調度閾值的超出部分的網絡資源的地址信息,并根據接收的超出部分的網絡資源的地址信息生成至少一個總調度任務,分別發送給對應的子調度器。
【文檔編號】H04L29/08GK105897841SQ201510921205
【公開日】2016年8月24日
【申請日】2015年12月11日
【發明人】高強
【申請人】樂視網信息技術(北京)股份有限公司