一種搜悅采集方法
【技術領域】
[0001]本發明涉及一種采集方法,具體涉及一種搜悅采集方法。
【背景技術】
[0002]隨著信息技技術與網絡的發展,互聯網已經成為人們生活密不可分的一部分。基于Internet的網絡系統擁有者巨大的信息資源。但是這些資源大都形式分散,分布廣,給用戶查看信息帶來了很大的難度。
[0003]搜索引擎則根據用戶的需求,各種各樣是搜索應用,使得用戶可以快捷的查看的自己想要的數據。互聯網中的資源信息,就像列表以不同的格式分散在成千上萬的網頁中,很好的采集這些數據以備使用就尤為重要。信息采集是一個重要的領域,它是以系統代替人工實現對網頁的數據的采集、整理等處理,提高工作效率,節省勞動力。
[0004]但目前人們希望在手機端也可以隨時查看相關信息,手機端APP隨之產生。搜悅則在這樣的背景下產生的,作為移動個人門戶的入口,可以讓用戶感受到更好的新聞閱讀體驗。搜悅采集系統架構完成信息的采集、整理等工作,存儲到搜悅檢索庫中,以備搜悅使用。搜悅采集系統的關鍵在于信息采集,缺點是網絡中資訊信息噪音多,來源廣泛且雜。
【發明內容】
[0005]為了克服上述現有技術的不足,本發明提供一種搜悅采集方法,能夠高效、準確采集數據,數據來源準確,處理快速、結果更精準,避免了普通的采集資訊中大量噪音數據影響的不足。
[0006]為了實現上述發明目的,本發明采取如下技術方案:
[0007]本發明提供一種搜悅采集方法,所述方法包括以下步驟:
[0008]步驟1:監聽數據,并對數據進行處理,得到待處理URL數據;
[0009]步驟2:對待處理URL數據進行下載、轉碼和抽取。
[0010]所述步驟I中,監聽的數據來源包括以下三種:
[0011](I)統一資源定位器發送的Missing數據;
[0012](2)資訊排重系統發送的ADD數據;
[0013](3)重新處理已入庫的數據,而發起的Refresh數據。
[0014]所述步驟I具體包括以下步驟:
[0015]步驟1-1:監聽數據,校驗后保存數據到數據文件;
[0016]步驟1-2:處理監聽得到的數據文件。
[0017]所述步驟1-1中,監聽端口接收數據后解析并校驗得到URL數據,并將得到的URL數據根據各自的來源寫入相應的數據文件,Missing數據、ADD數據和Refresh數據的處理優先級從左往右依次遞減。
[0018]所述步驟1-2中,按照以上數據文件的處理優先級依次取得URL數據,將URL數據由黑名單過濾,且排重后得到URL數據增量,推入待下載任務隊列;推入待下任務隊列時依然按照Missing數據、ADD數據至Refresh數據的處理優先級,在待下載任務隊列中排序,優先級高的數據放在隊列頭,以確保后續處理的優先級。
[0019]所述步驟2包括以下步驟:
[0020]步驟2-1:將待下載任務隊列的URL數據推送到下載器,由下載器下載URL數據;
[0021]步驟2-2:從下載器得到下載結果,并校驗處理,區分下載結果為圖片或詳情頁;
[0022]步驟2-3:對圖片的下載結果和詳情頁的下載結果分別進行處理,得到URL數據信息;
[0023]步驟2-4:分析URL數據信息。
[0024]所述步驟2-2中,針對圖片的下載結果,首先分析圖片信息,并處理圖片尺寸,根據實踐經驗得到最小經驗值,小于最小經驗值尺寸的圖片視為垃圾圖片,則丟棄,根據需求,小于需求尺寸則無須壓縮處理,而大于需求尺寸的圖片則壓縮到需求的尺寸;然后將符合要求的圖片信息上傳圖片服務器,得到圖片ID及圖片地址,并將下載結果中原文的圖片鏈接替換成處理后的圖片地址。
[0025]所述步驟2-3中,針對詳情頁的下載結果,分析下載結果,并對下載結果進行轉碼,成功轉碼后,對其進行自動抽取,在下載結果中抽取出所需要的信息。任何一步失敗則丟棄當前詳情頁,均直接執行步驟2-4。
[0026]所述步驟2-3中,在對圖片的下載結果和詳情頁的下載結果分別進行處理的過程中,任何一步失敗則丟棄當前圖片或當前詳情頁,均直接執行步驟2-4。
[0027]所述步驟2-4中,首先查看URL數據信息是否有待處理的圖片鏈接;然后查看URL數據信息是否有待處理的翻頁鏈接;
[0028]如有待處理的圖片鏈接或者翻頁鏈接,則將URL數據信息推入待下載隊列繼續處理,重復以上各步驟;如無任何待處理的圖片鏈接或者翻頁鏈接,且URL數據信息完整,則寫入發送文件,當前URL數據信息采集完成。
[0029]與現有技術相比,本發明的有益效果在于:
[0030]本發明中數據來源主要依賴資訊排重系統,資訊排重系統的數據經過前面的處理,信息更準確,質量更好,避免內容重復;從而采集過程中不需要擔心劣質數據的混淆,減少噪音數據干擾。客戶端的Missing數據的優先處理,即快速而又準確的補充了用戶關心的部分漏缺數據。同時,該方法簡單,速度快。
【附圖說明】
[0031]圖1是本發明實施例中搜悅采集方法流程圖;
[0032]圖2是本發明實施例中數據監聽流程圖;
[0033]圖3是本發明實施例中數據采集流程圖。
【具體實施方式】
[0034]下面結合附圖對本發明作進一步詳細說明。
[0035]如圖1,本發明提供一種搜悅采集方法,所述方法包括以下步驟:
[0036]步驟1:監聽數據,并對數據進行處理,得到待處理URL數據;
[0037]步驟2:對待處理URL數據進行下載、轉碼和抽取。
[0038]所述步驟I中,監聽的數據來源包括以下三種:
[0039](I)統一資源定位器發送的Missing數據;
[0040](2)資訊排重系統發送的ADD數據;
[0041](3)重新處理已入庫的數據,而發起的Refresh數據。
[0042]如圖2,所述步驟I具體包括以下步驟:
[0043]步驟1-1:監聽數據,校驗后保存數據到數據文件;
[0044]步驟1-2:處理監聽得到的數據文件。
[0045]所述步驟1-1中,監聽端口接收數據后解析并校驗得到URL數據,并將得到的URL數據根據各自的來源寫入相應的數據文件,Missing數據、ADD數據和Refresh數據的處理優先級從左往右依次遞減。