一種信息采集方法及裝置的制造方法
【技術領域】
[0001]本申請屬于信息采集技術領域,具體地說,涉及一種信息采集方法及裝置。
【背景技術】
[0002]政府采購(Government Procurement)是指國家各級政府為從事日常的政務活動或為了滿足公共服務的目的,利用國家財政性資金和政府借款購買貨物、工程和服務的行為。
[0003]政府采購信息通常以招投標公告和附件的非結構化文本、文件形式公開在網頁等渠道中,這些文本或者文件一般都是由人工維護編寫。而且政府采購信息的發布渠道來源非常多和雜,可能會在相關的各級省市區縣地的政府網站、商業網站、其他機構等網站上發布。發布站點經常是綜合站,甚至有些采購信息發布的欄目也會同時發布其他綜合信息。同時,發布中會經常出現一則采購公告信息,該采購公告信息可能會在在多級政府站點上多次發布,且不同發布站點上發送的內容格式還可能存在差異。
[0004]上述政府采購信息更多的依賴于人工采集和整理后進行結構化恢復。但是,一方面,由于發布的公文由人工維護編寫,經常會出現疏漏錯誤,公文格式沒有統一的規范,公文有可能受限于發布網站的技術限制通常會直接用圖片展現文件;另外一方面,由于發布的渠道多而雜。上述這兩方面導致采集或者收集政府采購信息的過程繁瑣,成本較高。
【發明內容】
[0005]本申請所要解決的技術問題是提供一種信息采集方法及裝置,用于克服現有技術中的上述技術問題。
[0006]為了解決上述技術問題,本申請提供了一種信息采集方法,其包括:
[0007]獲取信息源網站,對所述信息源網站進行分析,根據對所述信息源網站的分析結果定制對應的信息采集規則;
[0008]根據定制的采集規則以及采集執行參數設置,調度信息采集請求,以從所述信息源網站的地址中抓取非結構化的目標信息并進行結構化處理。
[0009]優選地,在本發明的一實施例中,所述獲取信息源網站,對所述信息源網站進行分析包括:
[0010]獲取所述信息源網站的起始頁面、網頁結構以及包含有所述目標信息的最終url地址以及訪問所述最終URL地址所需迭代采集的次數。
[0011]優選地,在本發明的一實施例中,所述信息采集規則包括:其中的一種或任意組合:站點結構設置、采集區域及欄目設置、采集鏈路邏輯設置、模擬http請求數據設置、具體信息采集設置;所述站點結構設置用于設置站點采集的起始頁面或起始頁面規則;所述采集區域及欄目設置以及采集鏈路邏輯設置用于分析網頁結構,迭代逐層獲取到所述目標信息的最終url地址;所述采集鏈路用于控制迭代采集的次數;所述模擬http請求數據設置用于配置訪問所述信息源網站的請求;所述具體信息采集設置用于針對需要的信息項定制的頁面獲取邏輯,獲取初步結構化的目標信息。
[0012]優選地,在本發明的一實施例中,所述采集規則還包括網址模式匹配和排除規則和附件處理規則,所述網址模式匹配和排除規則用于使用url pattern模式限制采集的范圍,所述附件處理設置用于針對需要信息源網站中目標信息包括的附件的采集設置。
[0013]優選地,在本發明的一實施例中,所述采集執行參數設置包括時間設置和任務設置,所述時間設置用于控制所述信息采集規則在匹配的時間進行運行,所述任務設置于對不同的信息采集請求進行優先級排序。
[0014]優選地,在本發明的一實施例中,所述采集執行參數設置還包括:模擬登錄設置、代理ip設置、特殊驗證信息處理接口。
[0015]優選地,在本發明的一實施例中,還包括:設計監控規則,根據所述監控規則對所述信息采集規則進行監控,以確定每一條所述信息采集規則的異常。
[0016]優選地,在本發明的一實施例中,所述根據對所述信息源網站的分析結果定制對應的信息采集規則包括:通過圖形化配置頁面定制對應的信息采集規則。
[0017]為了解決上述技術問題,本申請提供了一種信息采集裝置,其包括:
[0018]規則配置單元,用于獲取信息源網站,對所述信息源網站進行分析,根據對所述信息源網站的分析結果定制對應的信息采集規則;
[0019]采集單元,用于根據定制的采集規則以及采集執行參數設置,調度信息采集請求,以從所述信息源網站的地址中抓取非結構化的目標信息并進行結構化處理。
[0020]優選地,在本發明的一實施例中,還包括:調度模塊,用于調度信息采集請求;抓取單元,用于從所述信息源網站的地址中抓取非結構化的目標信息;處理單元,用于對所述非結構信息進行結構化處理。
[0021]與現有的方案相比,本申請所獲得的技術效果:首先,獲取信息源網站,對所述信息源網站進行分析,根據對所述信息源網站的分析結果定制對應的信息采集規則;其次,根據定制的采集規則以及采集執行參數設置,調度信息采集請求,以從所述信息源網站的地址中抓取非結構化的目標信息并進行結構化處理,從而避免了現有技術中注入政府采購信息更多的依賴于人工采集和整理后進行結構化恢復導致采集或者收集政府采購信息的過程繁瑣,成本較高等問題。
【附圖說明】
[0022]圖1為本申請實施例一信息采集方法的流程示意圖;
[0023]圖2為本申請實施例二彳目息米集方法的流程不意圖;
[0024]圖3為本申請實施例三信息采集方法的流程示意圖;
[0025]圖4為本申請實施例四信息采集方法的流程示意圖。
【具體實施方式】
[0026]以下將配合圖式及實施例來詳細說明本申請的實施方式,藉此對本申請如何應用技術手段來解決技術問題并達成技術功效的實現過程能充分理解并據以實施。
[0027]下述本申請實施例中,通過獲取信息源網站,對所述信息源網站進行分析,根據對所述信息源網站的分析結果定制對應的信息采集規則;其次,根據定制的采集規則以及采集執行參數設置,調度信息采集請求,以從所述信息源網站的地址中抓取非結構化的目標信息并進行結構化處理,從而避免了現有技術中注入政府采購信息更多的依賴于人工采集和整理后進行結構化恢復導致采集或者收集政府采購信息的過程繁瑣,成本較高等問題。
[0028]圖1為本申請實施例一信息采集方法的流程示意圖;如圖1所示,其可以包括:
[0029]S101、獲取信息源網站,對所述信息源網站進行分析,根據對所述信息源網站的分析結果定制對應的信息采集規則;
[0030]本實施例中,步驟S101中,所述獲取信息源網站,對所述信息源網站進行分析具體可以包括:
[0031]獲取所述信息源網站的起始頁面、網頁結構以及包含有所述目標信息的最終url地址以及訪問所述最終URL地址所需迭代采集的次數。
[0032]起始頁面一般是指站點的主頁,主頁是一個網站的開始,一般主頁的名稱是固定的index, htm或index, html等。對于網頁結構來說就是一個一個的頁面之間用超級鏈接組合起來,一般一個站點有一個主頁面,然后就分級別逐層向下,不斷鏈接。目標信息可能存在于3級頁面之下,因此,通常需要一個列表打開后還有一個列表頁,如此3層才是最終的內容頁。所謂迭代采集的次數是指一起始頁面開始,打開幾層次級頁面才能最終發現目標?目息。
[0033]因此,所述信息采集規則包括其中的一種或任意組合:站點結構設置、采集區域及欄目設置、采集鏈路邏輯設置、模擬http請求數據設置、具體信息采集設置;所述站點結構設置用于設置站點采集的起始頁面或起始頁面規則;所述采集區域及欄目設置以及采集鏈路邏輯設置用于分析網頁結構,比如從主頁到“招標”、“中標”等欄目,再從這些欄目的列表頁面到公告內容明細頁;所述采集鏈路用于控制迭代采集的次數,與采集區域及欄目設置操作和采集鏈路邏輯設置配合一起完成迭代逐層獲取到所述目標信息的最終url地址。采集區域包括頁面展現中哪部分區域是有效的url產生區域,根據這個區域中url獲取再次迭代的url部分;所述模擬http請求數據設置用于配置訪問所述信息源網站的請求,即實現模擬登錄,該模擬登陸過程主要是用程序模擬在瀏覽器頁面上填寫用戶名、密碼等信息,完成登錄過程的操作;所述具體信息采集設置用于針對需要的信息項定制的頁面獲取邏輯,獲取初步結構化的目標信息。
[0034]所述采集規則還包括網址模式匹配和排除規則和附件處理規則,所述網址模式匹配和排除規則用于使用url pattern模式限制采集的范圍。網址模式匹配和排除主要方便簡化設置復雜度,用url pattern模式限制范圍,可以限制采集鏈路中任何一個環節的。比如可以限制url必須是http://www.XXX.com/id/1234這種模式的,或者url中不能包含test文本等。所述附件處理設置用于針對需要信息源網站中目標信息包括的附件的采集設置。附件包括網頁中的圖片、網頁中的附件。附件處理設置會包括圖片附件下載異步進行、下載驗證、下載文件的保存方式等,避免和采集網頁同時進行會比較慢,干擾正常流量,下載之后如zip, rar壓縮文件的處理等。
[0035]本實施例中,所述根據對所述信息源網站的分析結果定制對應的信息采集規則包括:通過圖形化配置頁面定制對應的信息采集規則,通過可視化的操作界面,實現方便快速地配置針對具體網站信息采集的規則配置過程。
[0036]S102、根據定制的采集規則以及采集執行參數設置,調度信息采集請求,以從所述信息源網站的地址中抓取非結構化的目標信息并進行結構化處理。
[0037]本實施例中,所述采集執行參數設置包括時間設置和任務設置,所述時間設置用于控制所述信息采集規則在匹配的時間進行運行,所述時間設置包括間隔、周期、觸發等。所述任務設置用于對不同的信息采集請求進行優先級排序。所述任務設置還用于重試、差異識別等設置。重試是指采集任務發生失敗,重新提交采集任務。差異識別是指根據歷史采集記錄發現從同一站點采集的內容大小以及信息條數出現異常。
[0038]優選地,在本發明的一實施例中,所述采集執行參數設置還包括:模擬登錄設置、代理ip設置、特殊驗證信息處理接口以及流量設置。由于信息源網站可能有訪問流量的限制,因此為了防止過多的訪問信息源網站進行了流量設置,即當信息采集的流量超過預設的限額,則不再訪問信息源網站。
[0039]由于較多網站需要驗證當前訪問者的用戶身份后服務器才能正常使用,模擬登錄的過程主要是用程序模擬在瀏覽器頁面上填寫用戶名、密碼等信