息,完成登錄過程的操作。主要通過模擬點擊“登錄”后與服務器交互的請求進行。一些網站的登錄比較復雜,會進行多次請求才能完成登錄。
[0040]代理ip設置可以達到通過變化代理ip確定更快訪問網站的方式。
[0041 ] 特殊驗證信息處理接口主要用于驗證碼的識別,短信或者語音驗證等。
[0042]優選地,在本發明的一實施例中,還包括:設計監控規則,根據所述監控規則對所述信息采集規則進行監控,以確定每一條所述信息采集規則的異常。使用預警監控來保證能夠盡快發現由于采集規則不當引起的采集過程中出現的問題。當規則運行發生異常或者整體運行情況不符合規律時,預警監控設置的采集規則,有限提醒管理維護人員,盡快進行跟進和修改,避免問題的持續影響。在監控過程中,可以建立一存疑任務列表,經異常任務添加到該列表中。比如非法格式,數據內容為空,異常任務等,添加到存疑任務列表中,以便進行二次提取以及人工審核。
[0043]當檢測到任務發送錯誤時(包括異常數據,任務中斷等情況),自動把異常任務添加到存疑任務列表,然后根據機器使用情況,在合適的時間把異常任務重新添加到主要任務隊列中。
[0044]對于發生錯誤的任務,根據錯誤類型、錯誤次數,會按照設定規則進行后續多種處理,包括自動重試、更改參數重試、添加到存疑任務列表人工接入、忽略等等。
[0045]圖2為本發明實施例二信息采集方法流程圖;如圖2所示,其包括:
[0046]S201、獲取信息源網站,對所述信息源網站進行分析,根據對所述信息源網站的分析結果定制對應的信息采集規則;
[0047]本實施例中,信息采集規則可以包括上述實施例一中的站點結構設置、采集區域及欄目設置、采集鏈路邏輯設置、模擬http請求數據設置、具體信息采集設置、網址模式匹配和排除規則和附件處理規則。在此不再贅述。
[0048]S202、根據定制的采集規則以及采集執行參數設置,調度信息采集請求;
[0049]當完成不同任務的時間、性能開銷存在較大差異時,資源利用會存在空閑等等,任務本身在采集規則定義時可實現自然拆分,在執行任務的流程中,通過調度發送任務相關信息給具體執行者(worker),執行者本身是通用的進程/線程,根據要求完成后反饋調度,重新獲取新任務。調度可以根據某個類型子任務的待完成數量情況自動調整分配優先級。
[0050]S203、從所述信息源網站的地址中抓取非結構化的目標信息;
[0051]本實施例中,抓取是根據上述采集規則來對信息源網站完成網站解析、獲取到發布有目標信息的最終url。
[0052]S204、對抓取到的非結構化的目標信息進行結構化處理。
[0053]本實施例中,結構化處理包括從最終url頁面中提取目標信息,比如如果是政府采購信息的話,包括:常規的“標題”、“發布時間”、“正文”,以及其他能夠比較方便直接提取的信息。
[0054]圖3為本發明實施例三信息采集裝置的結構示意圖;如圖3所示,其包括:規則配置單元301以及采集單元302 ;其中:
[0055]規則配置單元301用于獲取信息源網站,對所述信息源網站進行分析,根據對所述信息源網站的分析結果定制對應的信息采集規則;
[0056]采集單元302用于根據定制的采集規則以及采集執行參數設置,調度信息采集請求,以從所述信息源網站的地址中抓取非結構化的目標信息并進行結構化處理。
[0057]圖4為本發明實施例四信息采集裝置的結構示意圖;如圖4所示,其包括上述規則配置單元301以及采集單元302,還包括調度模塊304、抓取單元305以及處理單元306 ;所述調度模塊304用于調度信息采集請求;所述抓取單元305用于從所述信息源網站的地址中抓取非結構化的目標信息;所述處理單元306用于對所述非結構信息進行結構化處理。
[0058]調度模塊304、抓取單元305可以進行分布式部署。
[0059]本申請的實施例所提供的裝置可通過計算機程序實現。本領域技術人員應該能夠理解,上述的單元以及模塊劃分方式僅是眾多劃分方式中的一種,如果劃分為其他單元或模塊或不劃分塊,只要信息對象的具有上述功能,都應該在本申請的保護范圍之內。
[0060]需要說明的是,上述實施例中的目標信息可以是政府采購信息,信息源網站可以是發布有政府采購信息的所有政府網站。
[0061 ] 本技術領域普通技術人員在上述實施例的啟發下,無須創造性勞動也可以將上述本發明的技術方案應用到其他信息的采集,詳細不再贅述。
[0062]本領域的技術人員應明白,本申請的實施例可提供為方法、裝置(設備)、或計算機程序產品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產品的形式。
[0063]本申請是參照根據本申請實施例的方法、裝置(設備)和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0064]這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0065]這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0066]盡管已描述了本申請的優選實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權利要求意欲解釋為包括優選實施例以及落入本申請范圍的所有變更和修改。顯然,本領域的技術人員可以對本申請進行各種改動和變型而不脫離本申請的精神和范圍。這樣,倘若本申請的這些修改和變型屬于本申請權利要求及其等同技術的范圍之內,則本申請也意圖包含這些改動和變型在內。
【主權項】
1.一種信息采集方法,其特征在于,包括: 獲取信息源網站,對所述信息源網站進行分析,根據對所述信息源網站的分析結果定制對應的信息采集規則; 根據定制的采集規則以及采集執行參數設置,調度信息采集請求,以從所述信息源網站的地址中抓取非結構化的目標信息并進行結構化處理。2.根據權利要求1所述的方法,其特征在于,所述獲取信息源網站,對所述信息源網站進行分析包括: 獲取所述信息源網站的起始頁面、網頁結構以及包含有所述目標信息的最終url地址以及訪問所述最終URL地址所需迭代采集的次數。3.根據權利要求1所述的方法,其特征在于,所述信息采集規則包括:其中的一種或任意組合:站點結構設置、采集區域及欄目設置、采集鏈路邏輯設置、模擬http請求數據設置、具體信息采集設置;所述站點結構設置用于設置站點采集的起始頁面或起始頁面規則;所述采集區域及欄目設置以及采集鏈路邏輯設置用于分析網頁結構,迭代逐層獲取到所述目標信息的最終url地址;所述采集鏈路用于控制迭代采集的次數;所述模擬http請求數據設置用于配置訪問所述信息源網站的請求;所述具體信息采集設置用于針對需要的信息項定制的頁面獲取邏輯,獲取初步結構化的目標信息。4.根據權利要求1所述的方法,其特征在于,所述采集規則還包括網址模式匹配和排除規則和附件處理規則,所述網址模式匹配和排除規則用于使用url pattern模式限制采集的范圍,所述附件處理設置用于針對需要信息源網站中目標信息包括的附件的采集設置。5.根據權利要求1所述的方法,其特征在于,所述采集執行參數設置包括時間設置和任務設置,所述時間設置用于控制所述信息采集規則在匹配的時間進行運行,所述任務設置于對不同的信息采集請求進行優先級排序。6.根據權利要求5所述的方法,其特征在于,所述采集執行參數設置還包括:模擬登錄設置、代理ip設置、特殊驗證信息處理接口。7.根據權利要求1所述的方法,其特征在于,還包括:設計監控規則,根據所述監控規則對所述信息采集規則進行監控,以確定每一條所述信息采集規則的異常。8.根據權利要求1所述的方法,其特征在于,所述根據對所述信息源網站的分析結果定制對應的信息采集規則包括:通過圖形化配置頁面定制對應的信息采集規則。9.一種信息采集裝置,其特征在于,包括: 規則配置單元,用于獲取信息源網站,對所述信息源網站進行分析,根據對所述信息源網站的分析結果定制對應的信息采集規則; 采集單元,用于根據定制的采集規則以及采集執行參數設置,調度信息采集請求,以從所述信息源網站的地址中抓取非結構化的目標信息并進行結構化處理。10.根據權利要求9所述的采集裝置,其特征在于,還包括:調度模塊,用于調度信息采集請求;抓取單元,用于從所述信息源網站的地址中抓取非結構化的目標信息;處理單元,用于對所述非結構信息進行結構化處理。
【專利摘要】本申請公開了一種信息采集方法及裝置,用于克服現有技術中的上述技術問題。方法包括:獲取信息源網站,對所述信息源網站進行分析,根據對所述信息源網站的分析結果定制對應的信息采集規則;根據定制的采集規則以及采集執行參數設置,調度信息采集請求,以從所述信息源網站的地址中抓取非結構化的目標信息并進行結構化處理,從而避免了現有技術中注入政府采購信息更多的依賴于人工采集和整理后進行結構化恢復導致采集或者收集政府采購信息的過程繁瑣,成本較高等問題。
【IPC分類】G06F17/30
【公開號】CN105468664
【申請號】CN201510239833
【發明人】萬如意, 黃偉聰, 顧正嘉
【申請人】北京眾標網絡科技有限公司
【公開日】2016年4月6日
【申請日】2015年5月12日