一種面向用戶生成內容的分布式采集方法與系統的制作方法
【技術領域】
[0001]本發明涉及信息采集技術領域,具體地說,本發明涉及一種面向用戶生成內容的分布式采集方法與系統。
【背景技術】
[0002]用戶生成內容簡稱為UGC(User Generated Content)。UGC新聞是在社會媒體(例如微博、博客、社交網絡等)中用戶們自發上傳或分享的新聞事件信息。UGC內容由于其具有反應及時、傳播快等特點,也成為傳統媒體的一個主要信息來源。目前,隨著互聯網技術的深入人心和WEB2.0技術的蓬勃發展,普通用戶成為互聯網上的內容的主要生產者。然而,由于UGC新聞的門檻低,任何用戶都可以向互聯網上傳內容,UGC新聞缺乏有效監管,其中存在著大量的虛假新聞。
[0003]基于UGC的新聞認證預警是基于互聯網中的海量數據進行分析并對新聞信息進行真實程度預警的自動化認證方案。其基礎就是對海量數據的深度采集和結構化組織。由于新聞認證預警是一項實時性任務并且需要針對特定但多樣的信息頁面,因而對數據采集系統的高效性、復雜性和分析能力都有很高的要求。
[0004]從國內外技術進展來看,一方面,已有的分布式采集方案并不注重效率,而是注重持續性和穩定性,因而已有的分布式采集方案并不能滿足新聞認證預警對系統實時性的要求;另一方面,目前的采集任務需求集中于面向單一頁面采集,每個子節點通常采集一個頁面,這種方案不能滿足新聞認證預警中特定但多樣的頁面采集需求。總之,新聞認證預警需要收集的UGC信息類型復雜、實時性要求高,目前還沒有相應的數據解決方案。
【發明內容】
[0005]因此,本發明的任務是克服現有技術的不足,提供一種具有高實時性的UGC新聞分布式采集解決方案。
[0006]本發明提供了一種面向用戶生成內容的分布式采集方法,包括下列步驟:
[0007]I)根據采集頁面的采集量和采集難度劃分頁面類型,基于頁面類型構建采集任務并將其加入采集隊列;其中,所述采集任務包括復合采集任務,所述復合采集任務是根據采集量和采集難度將多個同類型的采集頁面劃入同一采集任務所形成的采集任務;
[0008]2)并發地從所述采集任務隊列取出采集任務,執行該采集任務并返回所采集的信息。
[0009]其中,所述步驟I)還包括:根據采集量和采集難度將部分采集任務進一步劃分為多個子任務并將子任務加入所述采集隊列;
[0010]所述步驟2)還包括:并發地從所述采集任務隊列取出所述子任務,執行該子任務并返回所采集的信息。
[0011]其中,所述步驟I)中,所述采集難度包括頁面對采集頻率的限制,以及是否需要身份認證確定。
[0012]本發明還提供了一種面向用戶生成內容的分布式采集系統,包括采集集群,所述采集集群包括主控節點和多個子節點,所述主控節點用于構建并維護采集任務隊列,根據所接收的采集頁面的采集量和采集難度劃分頁面類型,然后基于頁面類型構建采集任務并加入所述采集隊列,其中采集任務包括所述復合采集任務;各個所述子節點用于并發地從所述采集任務隊列取出采集任務,執行該采集任務并返回所采集的信息。
[0013]其中,所述主控節點還用于根據采集量和采集難度將所述采集任務隊列中部分采集任務劃分為多個子任務,所述子節點還用于并發地從所述采集任務隊列取出所述子任務,執行該子任務并返回所采集的信息。
[0014]其中,所述分布式采集系統還包括登陸管理模塊,所述登陸管理模塊用于管理并向各個所述子節點提供各常用新聞采集網站的登陸信息。
[0015]其中,登錄管理模塊還用于維護可用賬號池,完成賬號的分配,回收,異常處理和新添;所述采集子節點還用于向登錄管理模塊申請可用賬號,完成賬號的模擬登錄,將登錄異常的賬號和使用過程中出現異常的賬號匯報給登錄管理模塊,向登錄管理模塊申請添加賬號等功能。
[0016]其中,其特征在于還包括反監控模塊,所述反監控模塊用于通過預設的采集策略來實現反監控,所述預設的采集策略包括:將任務分配至多個采集子節點上采集,單個采集子節點采用多個賬號輪循采集,根據不同的采集頁面設定相應的采集間隔和并發采集量中一項或多項。
[0017]本發明還提供了一種基于前述的分布式采集系統的分布式采集方法,其特征在于,包括下列步驟:
[0018]I)主控節點根據所接收的采集頁面的采集量和采集難度劃分頁面類型,然后構建相應的米集任務;
[0019]2)主控節點根據頁面類型和采集難度,將所構建的采集任務加入任務隊列,所述采集任務包括所述復合采集任務,主控節點還根據根據頁面類型和采集難度將所構建的采集任務細分,將細分后的子任務加入任務隊列;
[0020]3)各子節點并發地從任務隊列獲取采集任務或者子任務,執行該采集任務后者子任務并返回所采集的信息。
[0021]其中,所述步驟3)還包括:各子節點一旦空閑就去競爭獲得分布式鎖,如果獲得分布式鎖,則立即去任務隊列取任務,任務完成后采集子節點將采集結果放入約定好的臨時存儲空間,并通知主控節點。
[0022]其中,其特征在于還包括步驟:
[0023]4)當同批次的子任務完成后,主控節點完成采集結果的合并;如果在約定時間內,所有同批次采集任務還未完全返回,采集主節點則丟棄返回的部分結果,對本次任務做超時處理。
[0024]其中,所述步驟3)還包括,在子節點執行采集任務時,所述子節點還從所采集的頁面中抽取出表征頁面監控措施的狀態信息,所述分布式采集系統根據所述表征頁面監控措施的狀態信息調整用于反監控的采集策略,所述用于反監控的采集策略包括:將任務分配至多個采集子節點上采集,單個采集子節點采用多個賬號輪循采集,根據不同的采集頁面設定相應的采集間隔和并發采集量中的一項或多項。
[0025]與現有技術相比,本發明具有下列技術效果:
[0026]1、本發明的采集速度快,顯著地提高了 UGC新聞采集的實時性。
[0027]2、本發明可以適用于各種不同類型頁面的采集,可執行多樣化的采集任務。
[0028]3、對于采取了監控措施的采集對象,本發明能夠進行規避并順利完成相應的新聞米集任務。
[0029]4、本發明可應用于多種對信息采集實時性要求較高的領域,例如新聞認證預警,多層次的輿情信息挖掘服務,以及熱點事件分析服務等。
【附圖說明】
[0030]以下,結合附圖來詳細說明本發明的實施例,其中:
[0031]圖1示出了本發明一個實施例的UGC新聞分布式采集系統的框架圖。
【具體實施方式】
[0032]圖1示出了本發明一個實施例的UGC新聞分布式采集系統的框架圖,包括:線索預處理模塊,采集實體選取模塊,采集集群,存儲管理模塊,登陸管理模塊以及反封堵管理模塊。下面分別介紹這些模塊。
[0033]1、線索預處理模塊
[0034]線索預處理模塊用于對采集線索進行預處理。采集線索包括新聞的簡短描述或短語、新聞可能發生的起始時間、終止時間等。它包含各種新聞要素,但往往不適合直接作為后續數據處理的輸入。所以線索預處理模塊對采集線索進行分詞、關鍵詞提取、無效詞過濾、語義實體識別等預處理,提取其中的新聞要素。這些新聞要素將為采集任務的分配和定向米集提供參考。
[0035]2、采集實體選取模塊
[0036]采集實體選取模塊用于根據輸入的新聞要素得到相應的采集頁面。該模塊根據線索預處理的結果,獲取相關關鍵詞、相關新聞內容地址(例如與采集線索相關的微博、博客、社交網絡等UGC新聞地址)、相關用戶地址等信息構成采集目標候選集合。進一步地,還可以通過對目標候選集合中目標的重要性對各類采集目標(即采集實體)進行排序,選取排序前η個對象作為最終的采集目標,如關鍵微博、關鍵用戶等