技術編號:6638193
提示:您尚未登錄,請點 登 陸 后下載,如果您還沒有賬戶請點 注 冊 ,登陸完成后,請刷新本頁查看技術詳細信息。本發明提供一種面向用戶的WEB信息自動提取方法,該方法主要用于用戶指定的一個或多個網站內容的快速定位與自動提取。具體為首先根據給定的鏈接地址(URL),遍歷整個網站,獲得用戶所關注的頁面;然后存儲相應頁面的鏈接地址;再抽取關注頁面的信息標題,發布時間、主要內容等信息;最后將抽取的信息存儲于數據庫和文件系統中,并且去除抽取的重復信息。本發明應用于信息檢索或咨詢類網站的信息采集,能夠從大量的WEB頁面中提取用戶關注的信息,并且能快速定位用戶所關注的內容。專利說...
注意:該技術已申請專利,請尊重研發人員的辛勤研發付出,在未取得專利權人授權前,僅供技術研究參考不得用于商業用途。
該專利適合技術人員進行技術研發參考以及查看自身技術是否侵權,增加技術思路,做技術知識儲備,不適合論文引用。
請注意,此類技術沒有源代碼,用于學習研究技術思路。