專利名稱::一種信息采集方法及裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),尤指一種信息采集方法及裝置。
背景技術(shù):
:互聯(lián)網(wǎng)信息在急劇地膨脹,搜索引擎為人們?cè)诨ヂ?lián)網(wǎng)上檢索需要的信息提供了方便?,F(xiàn)有的搜索引擎,比如google、百度等,使用一種稱為網(wǎng)絡(luò)爬蟲如Crawler、Spider等應(yīng)用程序從互聯(lián)網(wǎng)上獲得原始信息。實(shí)現(xiàn)方式是通過網(wǎng)絡(luò)爬蟲程序從一份特定的資源定位符(URL,UniformResourceLocator)列表,一般情況下是一些門戶網(wǎng)站的列表,開始獲取網(wǎng)頁(yè)的內(nèi)容,并從這些信息中提取關(guān)鍵詞等信息組成搜索引擎所需要使用的數(shù)據(jù)庫(kù),同時(shí)從這些網(wǎng)頁(yè)信息中提取指向其它資源的URL,并將這些新的URL作為新的起點(diǎn)開始新一輪的信息采集。由于互聯(lián)網(wǎng)的高度連通,這個(gè)循環(huán)一般會(huì)無(wú)休止地進(jìn)行下去,搜索引擎通過一定的算法,比如搜索的深度限制等,來(lái)結(jié)束這個(gè)循環(huán),這樣搜索引擎將會(huì)得到一個(gè)綜合的信息數(shù)據(jù)庫(kù)。當(dāng)用戶在搜索引擎中輸入要搜索的關(guān)鍵詞后,搜索引擎就會(huì)檢索自己的數(shù)據(jù)庫(kù),將搜索結(jié)果返回給用戶完成一次搜索過程。目前多數(shù)大型網(wǎng)站采用了動(dòng)態(tài)網(wǎng)頁(yè)和靜態(tài)網(wǎng)頁(yè)相結(jié)合的方法。其中,動(dòng)態(tài)網(wǎng)頁(yè)和靜態(tài)網(wǎng)頁(yè)的區(qū)別在于動(dòng)態(tài)網(wǎng)頁(yè)是指Web服務(wù)器根據(jù)用戶的訪問情況臨時(shí)生成的網(wǎng)頁(yè),需要根據(jù)用戶"輸入內(nèi)容"或者進(jìn)行"選擇"、以及一些用戶相關(guān)信息作為參數(shù)來(lái)動(dòng)態(tài)生成;而靜態(tài)網(wǎng)頁(yè)是預(yù)先已經(jīng)存在的網(wǎng)頁(yè)無(wú)需動(dòng)態(tài)生成。動(dòng)態(tài)網(wǎng)頁(yè)的數(shù)量要遠(yuǎn)遠(yuǎn)大于靜態(tài)網(wǎng)頁(yè)。從用戶的角度看,動(dòng)態(tài)網(wǎng)站非常不錯(cuò),豐富了站點(diǎn)的功能,但是對(duì)于搜索引擎來(lái)說情況就不同了。態(tài)網(wǎng)頁(yè)時(shí),根本的問題在于"輸入,,和"選擇",網(wǎng)絡(luò)爬蟲程序無(wú)法進(jìn)行"輸入"和"選擇"的操作,也就無(wú)法進(jìn)行信息采集的操作。因此,如何進(jìn)行動(dòng)態(tài)網(wǎng)頁(yè)的信息采集,是建立搜索引擎數(shù)據(jù)庫(kù)一個(gè)亟待解決的技術(shù)問題。
發(fā)明內(nèi)容有鑒于此,本發(fā)明的主要目的在于提供一種信息采集方法及裝置,應(yīng)用本發(fā)明所述提供的技術(shù)方案能夠?qū)崿F(xiàn)動(dòng)態(tài)網(wǎng)頁(yè)的搜索。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的本發(fā)明提供了一種信息采集方法,該方法包括獲取用戶瀏覽Web網(wǎng)頁(yè)的訪問信息;其中,訪問信息包括所述Web網(wǎng)頁(yè)對(duì)應(yīng)的超文本標(biāo)記語(yǔ)言HTML文件;將獲取的訪問信息發(fā)送至搜索引擎數(shù)據(jù)庫(kù)。本發(fā)明還提供了一種信息采集裝置,該裝置包括荻取單元和發(fā)送單元;所述獲取單元,用于獲取用戶瀏覽Web網(wǎng)頁(yè)的訪問信息,并發(fā)送至所述發(fā)送單元;其中,訪問信息包括所述Web網(wǎng)頁(yè)對(duì)應(yīng)的超文本標(biāo)記語(yǔ)言HTML文件;所述發(fā)送單元,用于將獲取的訪問信息發(fā)送至搜索引擎數(shù)據(jù)庫(kù)。本發(fā)明所提供的一種信息采集方法及裝置,通過將用戶瀏覽Web網(wǎng)頁(yè)的訪問信息發(fā)送給搜索引擎數(shù)據(jù)庫(kù),實(shí)現(xiàn)了搜索引擎數(shù)據(jù)庫(kù)采集動(dòng)態(tài)網(wǎng)頁(yè)的發(fā)明目的。通過WEB服務(wù)器與搜索引擎互相合作,可以為網(wǎng)絡(luò)用戶提供更準(zhǔn)確、及時(shí)的搜索內(nèi)容。不僅如此,供搜索引擎數(shù)據(jù)庫(kù)使用的信息是位于Web服務(wù)器側(cè)的發(fā)送側(cè)發(fā)起的,可以很好地解決版權(quán)及隱私問題。另外,由于本發(fā)明的技術(shù)方案獲取的是用戶瀏覽Web網(wǎng)頁(yè)的信息,因此能夠真實(shí)掌握Web網(wǎng)頁(yè)的用戶使用情況,并有理由認(rèn)為用戶訪問量大的信息就是重要的信息,所以這些采集到的信息中已經(jīng)融合了用戶對(duì)網(wǎng)頁(yè)知識(shí)的判斷智慧,為搜索引擎對(duì)網(wǎng)頁(yè)的排序可以起到重要的參考作用,具有任何一種數(shù)學(xué)方法或人工調(diào)節(jié)方法所無(wú)法比擬的準(zhǔn)確程度。圖1為本發(fā)明提供的信息采集裝置的結(jié)構(gòu)圖;圖2為本發(fā)明較佳實(shí)施例提供的方法流程圖。具體實(shí)施例方式本發(fā)明提供了一種信息采集方法,具體為獲取用戶瀏覽Web網(wǎng)頁(yè)的訪問信息;其中,訪問信息包括所述Web網(wǎng)頁(yè)對(duì)應(yīng)的超文本標(biāo)記語(yǔ)言(HTML,HyperTextMark-upLanguage)文件;然后,將獲取的訪問信息發(fā)送至搜索引擎數(shù)據(jù)庫(kù)。HTML文件反映了用戶瀏覽的Web網(wǎng)頁(yè)的情況,HTML文件既能反映靜態(tài)網(wǎng)頁(yè),又能反映動(dòng)態(tài)網(wǎng)頁(yè),因此通過截獲Web服務(wù)器發(fā)送給客戶端的HTML文件,就能夠獲得動(dòng)態(tài)網(wǎng)頁(yè)的有關(guān)信息,使搜索引擎數(shù)據(jù)庫(kù)能夠采集Web服務(wù)器中有關(guān)動(dòng)態(tài)網(wǎng)頁(yè)的信息。另外,為了使搜索引擎數(shù)據(jù)庫(kù)能夠更進(jìn)一步掌握用戶瀏覽Web網(wǎng)頁(yè)的情況。訪問信息中還可以進(jìn)一步包括客戶端IP地址、服務(wù)器IP地址、URL、訪問時(shí)間。那么相應(yīng)的,獲取用戶瀏覽Web網(wǎng)頁(yè)的訪問信息則包括獲取所述用戶所在客戶端IP地址、提供所述Web網(wǎng)頁(yè)的Web服務(wù)器IP地址、瀏覽Web網(wǎng)頁(yè)的URL、所述用戶瀏覽所述Web網(wǎng)頁(yè)的訪問時(shí)間,以及所述Web月良務(wù)器發(fā)送給用戶客戶端的所述Web網(wǎng)頁(yè)對(duì)應(yīng)的HTML文件。在訪問信息中還可以進(jìn)一步包括訪問次數(shù)。相應(yīng)的,所述獲取用戶瀏覽Web網(wǎng)頁(yè)的訪問信息中可以進(jìn)一步包括在設(shè)定的時(shí)間內(nèi),統(tǒng)計(jì)所述用戶瀏覽所述Web網(wǎng)頁(yè)的次數(shù)。這樣,訪問信息中的訪問時(shí)間可以是該用戶最后一次瀏覽該Web網(wǎng)頁(yè)的時(shí)間。用戶對(duì)Web服務(wù)器訪問量是巨大的,為了減少發(fā)送訪問信息的數(shù)據(jù)量。在本發(fā)明的技術(shù)中,可以對(duì)Web服務(wù)器提供的HTML文件編碼,設(shè)置編碼字典,將HTML文件與對(duì)應(yīng)的編碼記錄在編碼字典中。這樣,本發(fā)明的技術(shù)方案不僅可以直接將Web網(wǎng)頁(yè)對(duì)應(yīng)的HTML文件攜帶訪問信息中發(fā)送,還可以利用編碼字典的記錄對(duì)訪問信息中的HTML文件進(jìn)行編碼,通過發(fā)送編碼,使搜索引擎數(shù)據(jù)庫(kù)接收HTML文件,減少數(shù)據(jù)的傳輸量。即根據(jù)Web服務(wù)器發(fā)送給用戶客戶端訪問信息中的HTML文件,利用編碼字典獲取與所述HTML文件對(duì)應(yīng)的編碼;用編碼代替訪問信息中的HTML文件;發(fā)送攜帶編碼的訪問信息。同時(shí),在將獲取的訪問信息發(fā)送至所述搜索引擎數(shù)據(jù)庫(kù)之前,根據(jù)所述編碼字典獲得與訪問信息中編碼對(duì)應(yīng)的HTML文件,然后將獲得的HTML文件發(fā)送至搜索引擎數(shù)據(jù)庫(kù)。#>據(jù)前面的介紹,Web網(wǎng)頁(yè)分為靜態(tài)網(wǎng)頁(yè)和動(dòng)態(tài)網(wǎng)頁(yè)。對(duì)于靜態(tài)網(wǎng)頁(yè)而言,網(wǎng)頁(yè)形式固定,不會(huì)發(fā)生變化,對(duì)于每個(gè)靜態(tài)網(wǎng)頁(yè)都可以編碼;而對(duì)于動(dòng)態(tài)網(wǎng)頁(yè)而言,動(dòng)態(tài)網(wǎng)頁(yè)是根據(jù)用戶的不同選擇生成的,如果針對(duì)每個(gè)動(dòng)態(tài)網(wǎng)頁(yè)均進(jìn)行編碼的話,勢(shì)必使編碼字典過于龐大。為了減少編碼字典的條目數(shù),可以采用以下方式對(duì)動(dòng)態(tài)網(wǎng)頁(yè)編碼。分析動(dòng)態(tài)網(wǎng)頁(yè)的構(gòu)成不難發(fā)現(xiàn),動(dòng)態(tài)網(wǎng)頁(yè)通常是由網(wǎng)頁(yè)模板和變量組成。這樣,在對(duì)動(dòng)態(tài)網(wǎng)頁(yè)進(jìn)行編碼時(shí),可以分別對(duì)網(wǎng)頁(yè)模板、變量進(jìn)行編碼,將網(wǎng)頁(yè)模板、變量與編碼的對(duì)應(yīng)關(guān)系記錄至編碼字典。例如,對(duì)于內(nèi)容為"您瀏覽的A商品價(jià)格為60元"的動(dòng)態(tài)網(wǎng)頁(yè),它其實(shí)是由網(wǎng)頁(yè)模板"您瀏覽的X商品價(jià)格為Y元,,,以及X和Y兩個(gè)變量組成。其中X表示商品名稱、Y表示具體的價(jià)格。Web服務(wù)器根據(jù)不同用戶的選擇以及用戶的優(yōu)先級(jí),確定X和Y值,向用戶顯示。因此,在對(duì)這個(gè)動(dòng)態(tài)網(wǎng)頁(yè)進(jìn)4亍編碼時(shí),可以對(duì)組成該動(dòng)態(tài)網(wǎng)頁(yè)的三個(gè)量進(jìn)行編碼,即網(wǎng)頁(yè)模板,變量X和Y。這樣,獲取動(dòng)態(tài)網(wǎng)頁(yè)對(duì)應(yīng)編碼的過程可以是根據(jù)Web服務(wù)器依據(jù)網(wǎng)頁(yè)模板和變量生成動(dòng)態(tài)網(wǎng)頁(yè)的過程、以及編碼字典中該網(wǎng)頁(yè)模板和變量對(duì)應(yīng)的編碼,獲取該動(dòng)態(tài)網(wǎng)頁(yè)對(duì)應(yīng)的編碼。其中,由于X和Y是變量,取值不固定。因此為了使搜索引擎數(shù)據(jù)庫(kù)側(cè)能夠通過編碼恢復(fù)動(dòng)態(tài)網(wǎng)頁(yè),獲取動(dòng)態(tài)網(wǎng)頁(yè)時(shí),除了發(fā)送動(dòng)態(tài)網(wǎng)頁(yè)對(duì)應(yīng)網(wǎng)頁(yè)模板和變量對(duì)應(yīng)的編碼,還要根據(jù)當(dāng)前動(dòng)態(tài)網(wǎng)頁(yè)的內(nèi)容獲得變量對(duì)應(yīng)的值。這樣,在發(fā)送動(dòng)態(tài)網(wǎng)頁(yè)對(duì)應(yīng)HTML文件時(shí),發(fā)送獲得的編碼以及變量對(duì)應(yīng)的值。相應(yīng)的,在發(fā)送至搜索搜索引起數(shù)據(jù)庫(kù)之前,需要根據(jù)所述編碼字典獲得與編碼對(duì)應(yīng)的網(wǎng)頁(yè)模板和變量,根據(jù)網(wǎng)頁(yè)模板、變量以及變量對(duì)應(yīng)的值重新生成HTML文件,然后發(fā)送至搜索引擎數(shù)據(jù)庫(kù)。當(dāng)Webl良務(wù)器提供新的HTML文件時(shí),可以對(duì)該HTML文件進(jìn)行編碼,并將該HTML文件與編碼的對(duì)應(yīng)關(guān)系記錄至編碼字典,用于在用戶訪問該Web網(wǎng)頁(yè)時(shí)使用。同樣,當(dāng)Web服務(wù)器不再提供對(duì)某個(gè)Web網(wǎng)頁(yè)的瀏覽時(shí),也可以刪除編碼字典中對(duì)應(yīng)的條目,以節(jié)約編碼字典的空間。對(duì)編碼字典的更新可以是由人工執(zhí)行,也可以是設(shè)置專門的編碼單元,對(duì)編碼字典進(jìn)行管理。另外,在本發(fā)明的技術(shù)方案,為了進(jìn)一步減少發(fā)送數(shù)據(jù)的次數(shù),還可以進(jìn)一步獲取用戶瀏覽Web服務(wù)器提供的多個(gè)Web網(wǎng)頁(yè)的訪問信息,將所述多個(gè)訪問信息合并成一條消息,發(fā)送至所述搜索引擎數(shù)據(jù)庫(kù)。參見圖1,圖1為本發(fā)明實(shí)施例提供的一種信息采集裝置,該裝置包括獲取單元和發(fā)送單元。其中,所述獲取單元,用于獲取用戶瀏覽Web網(wǎng)頁(yè)的訪問信息,并發(fā)送至所述發(fā)送單元;其中,訪問信息包括所述Web網(wǎng)頁(yè)對(duì)應(yīng)的超文本標(biāo)記語(yǔ)言HTML文件;所述發(fā)送單元,用于將獲取的訪問信息發(fā)送至搜索引擎數(shù)據(jù)庫(kù)。在大多數(shù)情況,發(fā)送單元通過互聯(lián)網(wǎng)將采集的訪問信息發(fā)送至搜索引擎數(shù)據(jù)庫(kù)。所述獲取單元,還可以進(jìn)一步用于獲取所述用戶所在客戶端IP地址、提供所述Web網(wǎng)頁(yè)的Web服務(wù)器IP地址、瀏覽Web網(wǎng)頁(yè)的URL以及所述用戶瀏覽所述Web網(wǎng)頁(yè)的訪問時(shí)間;將獲取的客戶端IP地址、服務(wù)器IP地址、URL以及訪問時(shí)間攜帶在所述訪問信息中,發(fā)送至發(fā)送單元。另外,還可進(jìn)一步用于在設(shè)定的時(shí)間內(nèi)統(tǒng)計(jì)所述用戶瀏覽所述Web網(wǎng)頁(yè)的次數(shù),并將訪問次數(shù)攜帶在訪問信息中,發(fā)送至所述發(fā)送單元;其中,所述訪問信息中的訪問時(shí)間為所述用戶最后一次瀏覽所述Web網(wǎng)頁(yè)的時(shí)間。另外,該裝置還可進(jìn)一步包括接收側(cè)編碼字典數(shù)據(jù)庫(kù)、發(fā)送側(cè)編碼字典數(shù)據(jù)庫(kù)和接收接口單元。其中,所述接收側(cè)編碼字典數(shù)據(jù)庫(kù)和發(fā)送側(cè)編碼字典數(shù)據(jù)庫(kù),分別用于記錄Web服務(wù)器提供的HTML文件對(duì)應(yīng)的編碼。相應(yīng)的,所述獲取單元,用于在獲取訪問信息中的HTML文件時(shí),根據(jù)Web服務(wù)器發(fā)送給客戶端的HTML文件,利用接收側(cè)編碼字典數(shù)據(jù)庫(kù)獲取與所述HTML文件對(duì)應(yīng)的編碼;用獲取的編碼代替訪問信息中的HTML文件,發(fā)送攜帶HTML文件對(duì)應(yīng)編碼的訪問信息至所述發(fā)送單元;所述接收接口單元,用于接收發(fā)送單元發(fā)送給搜索引擎數(shù)據(jù)庫(kù)的訪問信息,對(duì)于訪問信息中攜帶的編碼,根據(jù)所述發(fā)送側(cè)編碼字典數(shù)據(jù)庫(kù)獲得所述編碼對(duì)應(yīng)的HTML文件,將攜帶HTML文件的訪問信息發(fā)送至搜索引擎數(shù)據(jù)庫(kù)。在動(dòng)態(tài)網(wǎng)頁(yè)的情況下,所述接收側(cè)編碼字典數(shù)據(jù)庫(kù)和發(fā)送側(cè)編碼字典數(shù)據(jù)庫(kù),用于在記錄動(dòng)態(tài)網(wǎng)頁(yè)對(duì)應(yīng)的編碼時(shí),記錄組成動(dòng)態(tài)網(wǎng)頁(yè)的網(wǎng)頁(yè)才莫板和變量對(duì)應(yīng)的編碼。相應(yīng)的,所述獲取單元,用于在獲取動(dòng)態(tài)網(wǎng)頁(yè)對(duì)應(yīng)的編碼時(shí),根據(jù)Web服務(wù)器依據(jù)網(wǎng)頁(yè)模板和變量生成動(dòng)態(tài)網(wǎng)頁(yè)的過程、以及發(fā)送側(cè)編碼字典數(shù)據(jù)庫(kù)中該網(wǎng)頁(yè)模板和變量對(duì)應(yīng)的編碼,獲取該動(dòng)態(tài)網(wǎng)頁(yè)對(duì)應(yīng)的編碼;并根據(jù)當(dāng)前動(dòng)態(tài)網(wǎng)頁(yè)的內(nèi)容獲得變量對(duì)應(yīng)的值;用獲得編碼以及變量對(duì)應(yīng)的值代替訪問信息中動(dòng)態(tài)網(wǎng)頁(yè)對(duì)應(yīng)的HTML文件,發(fā)送攜帶編碼以及變量值的訪問信息至所述發(fā)送單元;所述接收接口單元,用于在接收動(dòng)態(tài)網(wǎng)頁(yè)對(duì)應(yīng)的編碼后,根據(jù)所述接收側(cè)編碼字典獲得與編碼對(duì)應(yīng)的網(wǎng)頁(yè)模板和變量,根據(jù)網(wǎng)頁(yè)模板、變量以及變量對(duì)應(yīng)的值重新生成HTML文件,將攜帶該HTML文件的訪問信息發(fā)送至搜索引擎數(shù)據(jù)庫(kù)。另外,該裝置進(jìn)一步編碼單元。所述編碼單元,用于對(duì)所述Web服務(wù)器提供的HTML文件進(jìn)行編碼,并將HTML文件以及對(duì)應(yīng)的編碼發(fā)送至發(fā)送側(cè)編碼字典數(shù)據(jù)庫(kù)和接收側(cè)編碼字典數(shù)據(jù)庫(kù);并負(fù)責(zé)更新所述發(fā)送側(cè)編碼字典數(shù)據(jù)庫(kù)和接收側(cè)編碼字典數(shù)據(jù)庫(kù)中的編碼。所述獲取單元,進(jìn)一步用于獲取用戶瀏覽Web服務(wù)器提供多個(gè)Web網(wǎng)頁(yè)的訪問信息,將所獲得的多個(gè)訪問信息合并成一條消息,發(fā)送至所述發(fā)送單元。在信息采集裝置中,可以將編碼單元、發(fā)送側(cè)編碼字典數(shù)據(jù)庫(kù)、獲取單元和發(fā)送單元稱為發(fā)送側(cè);將接收接口單元和接收側(cè)編碼字典數(shù)據(jù)庫(kù)稱為接收側(cè)。由于搜索引擎數(shù)據(jù)庫(kù)需要采集不同地點(diǎn)、不同廠家的多個(gè)Web服務(wù)器的提供的訪問信息,因此可以在多個(gè)Web服務(wù)器側(cè)分別設(shè)置發(fā)送側(cè)所包含的能夠單元,發(fā)送側(cè)和接收側(cè)在實(shí)際應(yīng)用中是一對(duì)多的關(guān)系。以下列舉一較佳實(shí)施例對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步詳細(xì)的說明。在本較佳實(shí)施例中,可以參見表一所示的形式建立編碼字典。編碼字典由多個(gè)字典條目組成,每個(gè)字典條目至少包含條目編號(hào)和條目?jī)?nèi)容,還可以進(jìn)一步包括條目?jī)?nèi)容長(zhǎng)度、條目重要程度。<table>tableseeoriginaldocumentpage12</column></row><table>表一其中,條目編號(hào)為對(duì)Web服務(wù)器提供HTML的唯一編號(hào)。當(dāng)由一個(gè)Web服務(wù)器群提供Web服務(wù)時(shí),可以采用字典條目編碼+Web服務(wù)器IP形式。在編碼字典中可以占用位寬為32比特(bit),四個(gè)字節(jié)。具體對(duì)HTML文件進(jìn)行編碼的方式可以參見前述部分的介紹,在此不再詳述。另外,條目長(zhǎng)度,在編碼字典可以占用位寬32bit,當(dāng)條目長(zhǎng)度值為OxFFFFFFFF時(shí),表示此條目為變量條目。變量條目的內(nèi)容是Web服務(wù)器根據(jù)用戶的選擇動(dòng)態(tài)生成的,因此在變量條目中條目?jī)?nèi)容為空。優(yōu)先級(jí)在編碼字典中可以占用位寬8bit。這樣,每個(gè)字典條目可以有256種優(yōu)先級(jí)可以選擇,數(shù)值越大表示信息越重要。優(yōu)先級(jí)的設(shè)置有利于搜索引擎對(duì)Web服務(wù)器中的信息進(jìn)行區(qū)分,使搜索引擎更準(zhǔn)確理解Web網(wǎng)頁(yè)。條目?jī)?nèi)容的位寬由條目長(zhǎng)度決定。由于條目長(zhǎng)度值為OxFFFFFFFF時(shí),表示的是動(dòng)態(tài)網(wǎng)頁(yè)中的變量,因此僅當(dāng)條目長(zhǎng)度的值為0-0xFFFFFFFE時(shí),條目?jī)?nèi)容中記載的內(nèi)容才有效。條目?jī)?nèi)容中具體記錄了條目編碼對(duì)應(yīng)的HTML文件的內(nèi)容。另外,對(duì)于不重要或者涉及隱私的Web網(wǎng)頁(yè)可以不進(jìn)行編碼,/人而忽略掉搜索引擎對(duì)這些信息的搜索,達(dá)到規(guī)避隱私問題、突出其它重要信息和減少搜索引擎數(shù)據(jù)庫(kù)容量的目的。Webill務(wù)器啟動(dòng)后,可以向發(fā)送側(cè)編碼字典數(shù)據(jù)庫(kù)以及接收側(cè)編碼字典數(shù)據(jù)上報(bào)編碼字典。另外,在Web服務(wù)器中Web網(wǎng)頁(yè)的信息更新時(shí),可以將更新信息上報(bào)給發(fā)送側(cè)和接收側(cè)的編碼字典,以便對(duì)其進(jìn)行正確編碼以及恢復(fù)。本發(fā)明提供了如表二所示的三種字典維護(hù)消息。其中,添加和更新字典條目消息中,條目編號(hào)、長(zhǎng)度、內(nèi)容三個(gè)字段全部有效。刪除字典條目時(shí),只要指定字典條目就可以了<table>tableseeoriginaldocumentpage13</column></row><table>表二以上介紹的編碼字典的格式以及內(nèi)容,僅為本實(shí)施例所提供的技術(shù)方案,并不為編碼字典的唯一形式。在進(jìn)行完編碼字典的編制后,本實(shí)施例可以如圖2所示的流程進(jìn)行信息的采集。在本實(shí)施例中,訪問信息包括HTML文件、客戶端IP地址、月良務(wù)器IP地址、URL、訪問時(shí)間及訪問次數(shù)。在步驟201中,獲取用戶當(dāng)前瀏覽Web網(wǎng)頁(yè)的HTML文件、客戶端IP地址、ll務(wù)器IP地址、URL和訪問時(shí)間。具體包括獲取用戶所在客戶端IP地址、提供所述Web網(wǎng)頁(yè)的Web服務(wù)器IP地址、瀏覽Web網(wǎng)頁(yè)的URL、所述用戶瀏覽所述Web網(wǎng)頁(yè)的訪問時(shí)間,以及所述Web服務(wù)器發(fā)送給用戶客戶端的所述Web網(wǎng)頁(yè)對(duì)應(yīng)的HTML文件。對(duì)于用戶客戶端IP地址、服務(wù)器IP地址、URL和訪問時(shí)間的獲取,信接以及HTTP信息來(lái)獲的。當(dāng)Web服務(wù)器與用戶客戶端建立TCP連接時(shí),記錄下客戶端的IP地址、服務(wù)器的IP地址、建立連接的時(shí)間。當(dāng)Web服務(wù)器接收到客戶端的HTTPGET請(qǐng)求時(shí),記錄下URL信息,GET請(qǐng)求的時(shí)間。在HTTP1.0以前的版本中,一次TCP連接支持一次HTTP會(huì)話。在HTTP1.1以后的版本中,一次TCP連接可能支持多次HTTP會(huì)話,既當(dāng)一次HTTP會(huì)話結(jié)束后,客戶可能會(huì)使用該TCP啟動(dòng)下一次HTTP會(huì)話,Web服務(wù)器可以繼續(xù)采集對(duì)應(yīng)的信息。當(dāng)TCP連接關(guān)閉時(shí),Web服務(wù)器完成了一次信息采集過程。對(duì)應(yīng)訪問信息中的HTML文件,無(wú)論客戶端請(qǐng)求的是靜態(tài)網(wǎng)頁(yè)還是動(dòng)態(tài)網(wǎng)頁(yè),當(dāng)Web服務(wù)器為客戶端準(zhǔn)備好HTML文件時(shí),采集裝置中的獲取單元?jiǎng)t可以根據(jù)編碼字典中條目?jī)?nèi)容查找得到對(duì)應(yīng)的編碼。對(duì)于動(dòng)態(tài)網(wǎng)頁(yè),獲取單元根據(jù)Web服務(wù)器依據(jù)網(wǎng)頁(yè)模板和變量生成動(dòng)態(tài)網(wǎng)頁(yè)的過程、以及編碼字典中該網(wǎng)頁(yè)模板和變量對(duì)應(yīng)的編碼,獲取該動(dòng)態(tài)網(wǎng)頁(yè)對(duì)應(yīng)的編碼以及變量對(duì)應(yīng)的值;對(duì)于靜態(tài)網(wǎng)頁(yè),則直接根據(jù)編碼字典獲得對(duì)應(yīng)的編碼。用獲得的編碼代替訪問信息中HTML文件。在步驟202中,在設(shè)定的時(shí)間內(nèi),統(tǒng)計(jì)當(dāng)前用戶瀏覽當(dāng)前Web網(wǎng)頁(yè)的次數(shù),將訪問次數(shù)攜帶在訪問信息中。相應(yīng)的,訪問信息中的訪問時(shí)間可以為該用戶最后一次瀏覽當(dāng)前Web網(wǎng)頁(yè)的時(shí)間。具體設(shè)定時(shí)間的長(zhǎng)短可以根據(jù)用戶瀏覽Web網(wǎng)頁(yè)的頻率或者經(jīng)驗(yàn)來(lái)確定。在步驟203中,獲取用戶瀏覽Web服務(wù)器提供的多個(gè)Web網(wǎng)頁(yè)的訪問信息,將多個(gè)訪問信息合并成一條消息。信息采集裝置中的獲取單元可以持續(xù)監(jiān)聽Web服務(wù)器與用戶客戶端之間的交互,對(duì)一段時(shí)間內(nèi)的監(jiān)聽結(jié)果進(jìn)行整理,將用戶瀏覽多個(gè)Web網(wǎng)頁(yè)的訪問信息合并為一條消,t、。合并后的消息格式可以參見表三、四和五,但不限于此。ServerIPClientIPmsglmsgOmsg2msg[msg—count-1]表三在表三中,ServerIP表示W(wǎng)eb服務(wù)器的IP地址,長(zhǎng)度可選為32bit。ClientIP表示用戶的IP地址,長(zhǎng)度可選為32bit。msg—count表示此消息包中包含的消息個(gè)數(shù),長(zhǎng)度可選為6bit,這樣每個(gè)消息包中最多包含65536個(gè)消息。msgx表示每個(gè)具體的消息,即客戶端瀏覽的一個(gè)Web網(wǎng)頁(yè)的情況。其中,msg的具體格式可參見表四所示。urllenurl.url...accesstimecountdietcountdietitemOdietitemldiet—item[diet—count-1]表四在表四中,url—len表示url字符串的長(zhǎng)度,長(zhǎng)度為選為16bit。ulr表示url字符串,占用url—len定義的長(zhǎng)度。access—time表示用戶訪問網(wǎng)頁(yè)的時(shí)間,如果多次訪問,則記錄最后一次訪問時(shí)間。access_count表示用戶訪問該信息的次數(shù)。diet—count信息表示該msg中包含的字典條目個(gè)數(shù),即組成該Web網(wǎng)頁(yè)的字典條目數(shù)目。dictjtemx表示字典條目,其中包括字典條目的編碼,以及在字典條目為變量的情況下該變量的值。參見表五,表五為dict_item的格式_diet—index__value—1en__value_表五在表五中,diet—index表示字典條目編碼。value一len表示變量條目?jī)?nèi)容占用的字符個(gè)數(shù)。如果dict一index為常量條目,則該值為0,value字段內(nèi)容為空。這是由于對(duì)于常量條目來(lái)說,編碼對(duì)應(yīng)唯一確定的內(nèi)容,在接收側(cè)接收接口單元能夠根據(jù)編碼字典得到唯一確定的內(nèi)容。而如果diet—index為變量條目,則value字段中表示變量元素的值,這是由于變量條目對(duì)應(yīng)的值不確定。對(duì)于動(dòng)態(tài)網(wǎng)頁(yè)的情況,網(wǎng)頁(yè)模板為常量條目。這樣,當(dāng)發(fā)送動(dòng)態(tài)網(wǎng)頁(yè)對(duì)應(yīng)的編碼時(shí),需要根據(jù)當(dāng)前動(dòng)態(tài)網(wǎng)頁(yè)的內(nèi)容獲得變量對(duì)應(yīng)的值,發(fā)送動(dòng)態(tài)網(wǎng)頁(yè)對(duì)應(yīng)網(wǎng)頁(yè)模板和變量對(duì)應(yīng)的編碼,以及變量對(duì)應(yīng)的Y直。另外,在信息釆集裝置中,發(fā)送單元向接收接口單元發(fā)送的消息除了訪問消息外,還有字典維護(hù)消息。由于字典維護(hù)消息有三種類型,因此發(fā)送單元發(fā)送的消息可以采用以下格式消息類型(2字節(jié))+消息長(zhǎng)度(2字節(jié))+消息體。其中消息類型定義可以參見表六<table>tableseeoriginaldocumentpage16</column></row><table>表在步驟204中,將獲得的訪問信息發(fā)送至搜索引擎數(shù)據(jù)庫(kù)。在訪問信息中采用了編碼的技術(shù)手段,因此為了使搜索引擎數(shù)據(jù)庫(kù)能夠識(shí)別收到的訪問信息,還需對(duì)訪問信息中的編碼進(jìn)行解碼。即對(duì)于靜態(tài)網(wǎng)頁(yè),信息采集裝置中的接收接口單元根據(jù)接收側(cè)編碼字典數(shù)據(jù)庫(kù)獲得與編碼對(duì)應(yīng)的HTML文件;對(duì)于動(dòng)態(tài)網(wǎng)頁(yè),接收接口單元根據(jù)接收側(cè)編碼字典數(shù)據(jù)庫(kù)獲得與編碼對(duì)應(yīng)的網(wǎng)頁(yè)模板和變量,根據(jù)網(wǎng)頁(yè)模板、變量以及變量對(duì)應(yīng)的值重新生成HTML文件。這里,接收接口單元可以直接向發(fā)送單元發(fā)送字典請(qǐng)求消息。消息格式可以為命令類型(2字節(jié))+消息長(zhǎng)度(2字節(jié))+消息體。由于一個(gè)消息類型,可以定義命令類型為1,消息長(zhǎng)度為0,沒有消息體。當(dāng)編碼單元通過發(fā)送單元收到接收接口單元發(fā)送的字典請(qǐng)求消息后,則可以將自身當(dāng)前的編碼發(fā)送至接收接口單元,用于接收接口單元記錄編碼字典或者對(duì)編碼字典進(jìn)行更新。另外,在信息采集裝置中,發(fā)送側(cè)和接收側(cè)通常通過互聯(lián)網(wǎng)來(lái)傳遞信息。接收接口單元通常通過Internet網(wǎng)絡(luò)接收攜帶編碼的消息。如果采用安全措施,很容易受到攻擊??梢圆扇〉陌踩胧┛梢允欠旨?jí)認(rèn)證、限制容量、限制信息接收速率等方法。其中可以是對(duì)為各Web服務(wù)器配置的發(fā)送單元配置固定的主機(jī)域名,這樣接收接口單元可以通過主機(jī)域名對(duì)發(fā)送單元做身份識(shí)別。還可以是,接收接口單元根據(jù)發(fā)送側(cè)提供信息的認(rèn)可程度、信息的效率、誠(chéng)信程度等采取不同的認(rèn)證級(jí)別。對(duì)不同的認(rèn)證級(jí)別的發(fā)送側(cè)可以授予不同的信息接收速率,從而規(guī)范發(fā)送側(cè)信息發(fā)送。其中,認(rèn)可程度可以通過用戶訪問網(wǎng)頁(yè)的次數(shù)來(lái)評(píng)價(jià)。另外,還可以是,接收接口單元在一段時(shí)間內(nèi)保存發(fā)送側(cè)發(fā)送的用戶訪問信息,然后將一段時(shí)間內(nèi)保存的用戶訪問信息發(fā)送至搜索引擎數(shù)據(jù)庫(kù)。這樣,接收接口單元就能有效的對(duì)收到的用戶訪問信息的容量進(jìn)行限制,超過限制后覆蓋時(shí)間較早的信息或優(yōu)先級(jí)低的信息,一方面限制了用戶訪問信息在搜索引擎數(shù)據(jù)庫(kù)上占用的空間,另外一方面也提高了信息的重要程度和及時(shí)程度。通過本實(shí)施例上述技術(shù)方案的介紹不難發(fā)現(xiàn),通過將用戶訪問瀏覽Web網(wǎng)頁(yè)的訪問信息發(fā)送給搜索引擎數(shù)據(jù)庫(kù),實(shí)現(xiàn)了搜索引擎數(shù)據(jù)庫(kù)采集動(dòng)態(tài)網(wǎng)頁(yè)的發(fā)明目的。不僅如此,供搜索引擎數(shù)據(jù)庫(kù)使用的信息是位于Web服務(wù)器側(cè)的發(fā)送側(cè)發(fā)起的,可以很好地解決版權(quán)及隱私問題。Web服務(wù)器最清楚自己的信息,可以通過編碼字典的優(yōu)先級(jí)或忽略一些信息的編碼,來(lái)突出自己重要的網(wǎng)頁(yè)內(nèi)容。通過WEB服務(wù)器與搜索引擎互相合作,可以為網(wǎng)絡(luò)用戶提供更準(zhǔn)確、及時(shí)的搜索內(nèi)容。另外,由于本發(fā)明的技術(shù)方案獲取的是用戶瀏覽Web網(wǎng)頁(yè)的信息,因此能夠真實(shí)掌握Web網(wǎng)頁(yè)的用戶使用情況,并有理由認(rèn)為用戶訪問量大的信息就是重要的信息,所以這些采集到的信息中已經(jīng)融合了用戶對(duì)網(wǎng)頁(yè)知識(shí)的判斷智慧,為搜索引擎對(duì)網(wǎng)頁(yè)的排序可以起到重要的參考作用,具有任何一種數(shù)學(xué)方法或人工調(diào)節(jié)方法所無(wú)法比擬的準(zhǔn)確程度。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。權(quán)利要求1、一種信息采集方法,其特征在于,該方法包括獲取用戶瀏覽Web網(wǎng)頁(yè)的訪問信息;其中,訪問信息包括所述Web網(wǎng)頁(yè)對(duì)應(yīng)的超文本標(biāo)記語(yǔ)言HTML文件;將獲取的訪問信息發(fā)送至搜索引擎數(shù)據(jù)庫(kù)。2、根據(jù)權(quán)利要求1所述的方法,其特征在于,所述訪問信息進(jìn)一步包括客戶端IP地址、服務(wù)器IP地址、URL、訪問時(shí)間;所述獲取用戶瀏覽Web網(wǎng)頁(yè)的訪問信息包括獲取所述用戶所在客戶端IP地址、提供所述Web網(wǎng)頁(yè)的Web服務(wù)器IP地址、瀏覽Web網(wǎng)頁(yè)的URL、所述用戶瀏覽所述Web網(wǎng)頁(yè)的訪問時(shí)間,以及所述Web服務(wù)器發(fā)送給用戶客戶端的所迷Web網(wǎng)頁(yè)對(duì)應(yīng)的HTML文件。3、根據(jù)權(quán)利要求2所述的方法,其特征在于,所述訪問信息進(jìn)一步包括訪問次數(shù);所述獲取用戶瀏覽Web網(wǎng)頁(yè)的訪問信息中進(jìn)一步包括在設(shè)定的時(shí)間內(nèi),統(tǒng)計(jì)所述用戶瀏覽所述Web網(wǎng)頁(yè)的次^t;其中,所述訪問時(shí)間為所述用戶最后一次瀏覽所述Web網(wǎng)頁(yè)的時(shí)間。4、根據(jù)權(quán)利要求l、2或3所述的方法,其特征在于,該方法進(jìn)一步包括對(duì)Web服務(wù)器提供的HTML文件進(jìn)行編碼;設(shè)置編碼字典,將HTML文件與對(duì)應(yīng)的編碼記錄在編碼字典中;所述獲取HTML文件包括根據(jù)Web服務(wù)器發(fā)送給客戶端的HTML文件,利用編碼字典獲取與所述HTML文件對(duì)應(yīng)的編碼;用編碼代替訪問信息中的HTML文件;將獲取的訪問信息發(fā)送至所述搜索引擎數(shù)據(jù)庫(kù)之前,進(jìn)一步根據(jù)所述編碼字典獲得與訪問信息中編碼對(duì)應(yīng)的HTML文件,將獲得的HTML文件發(fā)送至搜索引擎數(shù)據(jù)庫(kù)。5、根據(jù)權(quán)利要求4所述的方法,其特征在于,當(dāng)所述HTML文件對(duì)應(yīng)動(dòng)態(tài)網(wǎng)頁(yè)時(shí),所述對(duì)Web服務(wù)器提供的HTML文件進(jìn)行編碼包括對(duì)組成所述動(dòng)態(tài)網(wǎng)頁(yè)的網(wǎng)頁(yè)模板和變量分別進(jìn)行編碼;并將網(wǎng)頁(yè)模板、變量與編碼的對(duì)應(yīng)關(guān)系記錄至所述編碼字典;所述根據(jù)Web服務(wù)器發(fā)送給客戶端的HTML文件,利用編碼字典獲取與所述HTML文件對(duì)應(yīng)的編碼包括根據(jù)Web服務(wù)器依據(jù)網(wǎng)頁(yè)模板和變量生成動(dòng)態(tài)網(wǎng)頁(yè)的過程、以及編碼字典中該網(wǎng)頁(yè)模板和變量對(duì)應(yīng)的編碼,獲取該動(dòng)態(tài)網(wǎng)頁(yè)對(duì)應(yīng)的編碼;并沖艮據(jù)當(dāng)前動(dòng)態(tài)網(wǎng)頁(yè)的內(nèi)容獲得變量對(duì)應(yīng)的值;在發(fā)送動(dòng)態(tài)網(wǎng)頁(yè)對(duì)應(yīng)HTML文件時(shí),發(fā)送獲得的編碼以及變量對(duì)應(yīng)的值;所述才艮據(jù)編碼字典獲得與訪問信息中編碼對(duì)應(yīng)的HTML文件包括根據(jù)所述編碼字典獲得與編碼對(duì)應(yīng)的網(wǎng)頁(yè)模板和變量,根據(jù)網(wǎng)頁(yè)模板、變量以及變量對(duì)應(yīng)的值重新生成HTML文件。6、沖艮據(jù)權(quán)利要求4所述的方法,其特征在于,當(dāng)所述Web服務(wù)器提供新的HTML文件時(shí),對(duì)該HTML文件進(jìn)行編碼,并將該HTML文件與編碼的對(duì)應(yīng)關(guān)系記錄至所述編碼字典。7、根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法進(jìn)一步包括獲取用戶瀏覽Web服務(wù)器提供的多個(gè)Web網(wǎng)頁(yè)的訪問信息,將所述多個(gè)訪問信息合并成一條消息,發(fā)送至所述搜索引擎數(shù)據(jù)庫(kù)。8、一種信息采集裝置,其特征在于,該裝置包括獲取單元和發(fā)送單元;所述獲取單元,用于獲取用戶瀏覽Web網(wǎng)頁(yè)的訪問信息,并發(fā)送至所述發(fā)送單元;其中,訪問信息包括所述Web網(wǎng)頁(yè)對(duì)應(yīng)的超文本標(biāo)記語(yǔ)言HTML文件;所述發(fā)送單元,用于將獲取的訪問信息發(fā)送至搜索引擎數(shù)據(jù)庫(kù)。9、根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述獲取單元,進(jìn)一步用于獲取所述用戶所在客戶端IP地址、提供所述Web網(wǎng)頁(yè)的Web服務(wù)器IP地址、瀏覽Web網(wǎng)頁(yè)的URL以及所述用戶瀏覽所述Web網(wǎng)頁(yè)的訪問時(shí)間;將獲取的客戶端IP地址、服務(wù)器IP地址、URL以及訪問時(shí)間攜帶在所述訪問信息中,發(fā)送至發(fā)送單元。10、根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述獲取單元,進(jìn)一步用于在設(shè)定的時(shí)間內(nèi)統(tǒng)計(jì)所述用戶瀏覽所述Web網(wǎng)頁(yè)的次數(shù),并將訪問次數(shù)攜帶在訪問信息中,發(fā)送至所述發(fā)送單元;其中,所述訪問信息中的訪問時(shí)間為所述用戶最后一次瀏覽所述Web網(wǎng)頁(yè)的時(shí)間。11、根據(jù)權(quán)利要求8、9或10所述的裝置,其特征在于,該裝置進(jìn)一步包括接收側(cè)編碼字典數(shù)據(jù)庫(kù)、發(fā)送側(cè)編碼字典數(shù)據(jù)庫(kù)和接收接口單元;所述接收側(cè)編碼字典數(shù)據(jù)庫(kù)和發(fā)送側(cè)編碼字典數(shù)據(jù)庫(kù),分別用于記錄Web服務(wù)器提供的HTML文件對(duì)應(yīng)的編碼;所述獲取單元,用于在獲取訪問信息中的HTML文件時(shí),根據(jù)Web服務(wù)器發(fā)送給客戶端的HTML文件,利用接收側(cè)編碼字典數(shù)據(jù)庫(kù)獲取與所述HTML文件對(duì)應(yīng)的編碼;用獲取的編碼代替訪問信息中的HTML文件,發(fā)送攜帶HTML文件對(duì)應(yīng)編碼的訪問信息至所述發(fā)送單元;所述接收接口單元,用于接收發(fā)送單元發(fā)送給搜索引擎數(shù)據(jù)庫(kù)的訪問信息,對(duì)于訪問信息中攜帶的編碼,根據(jù)所述發(fā)送側(cè)編碼字典數(shù)據(jù)庫(kù)獲得所述編碼對(duì)應(yīng)的HTML文件,將攜帶HTML文件的訪問信息發(fā)送至搜索引擎數(shù)據(jù)庫(kù)。12、根據(jù)權(quán)利要求ll所述的裝置,其特征在于,所述接收側(cè)編碼字典數(shù)據(jù)庫(kù)和發(fā)送側(cè)編碼字典數(shù)據(jù)庫(kù),用于在記錄動(dòng)態(tài)網(wǎng)頁(yè)對(duì)應(yīng)的編碼時(shí),記錄組成動(dòng)態(tài)網(wǎng)頁(yè)的網(wǎng)頁(yè)才莫板和變量對(duì)應(yīng)的編碼;所述獲取單元,用于在獲取動(dòng)態(tài)網(wǎng)頁(yè)對(duì)應(yīng)的編碼時(shí),根據(jù)Web服務(wù)器依據(jù)網(wǎng)頁(yè)模板和變量生成動(dòng)態(tài)網(wǎng)頁(yè)的過程、以及發(fā)送側(cè)編碼字典數(shù)據(jù)庫(kù)中該網(wǎng)頁(yè)模板和變量對(duì)應(yīng)的編碼,獲取該動(dòng)態(tài)網(wǎng)頁(yè)對(duì)應(yīng)的編碼;并才艮據(jù)當(dāng)前動(dòng)態(tài)網(wǎng)頁(yè)的內(nèi)容獲得變量對(duì)應(yīng)的值;用獲得編碼以及變量對(duì)應(yīng)的值代替訪問信息中動(dòng)態(tài)網(wǎng)頁(yè)對(duì)應(yīng)的HTML文件,發(fā)送攜帶編碼以及變量值的訪問信息至所述發(fā)送單元;所述接收接口單元,用于在接收動(dòng)態(tài)網(wǎng)頁(yè)對(duì)應(yīng)的編碼后,根據(jù)所述接收側(cè)編碼字典獲得與編碼對(duì)應(yīng)的網(wǎng)頁(yè)模板和變量,根據(jù)網(wǎng)頁(yè)模板、變量以及變量對(duì)應(yīng)的值重新生成HTML文件,將攜帶該HTML文件的訪問信息發(fā)送至搜索引擎數(shù)據(jù)庫(kù)。13、根據(jù)權(quán)利要求11所述的裝置,其特征在于,該裝置進(jìn)一步編碼單元;所述編碼單元,用于對(duì)所述Web服務(wù)器提供的HTML文件進(jìn)行編碼,并將HTML文件以及對(duì)應(yīng)的編碼發(fā)送至發(fā)送側(cè)編碼字典數(shù)據(jù)庫(kù)和接收側(cè)編碼字典數(shù)據(jù)庫(kù);并負(fù)責(zé)更新所述發(fā)送側(cè)編碼字典數(shù)據(jù)庫(kù)和接收側(cè)編碼字典數(shù)據(jù)庫(kù)中的編碼。14、根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述獲取單元,進(jìn)一步用于獲取用戶瀏覽Web服務(wù)器提供多個(gè)Web網(wǎng)頁(yè)的訪問信息,將所獲得的多個(gè)訪問信息合并成一條消息,發(fā)送至所述發(fā)送單元。全文摘要本發(fā)明公開了一種信息采集方法及裝置。本發(fā)明的技術(shù)方案通過將用戶瀏覽Web網(wǎng)頁(yè)的訪問信息發(fā)送給搜索引擎數(shù)據(jù)庫(kù),實(shí)現(xiàn)了搜索引擎數(shù)據(jù)庫(kù)采集動(dòng)態(tài)網(wǎng)頁(yè)的發(fā)明目的。另外,在本發(fā)明的技術(shù)方案中,由于獲取的是用戶瀏覽Web網(wǎng)頁(yè)的信息,因此能夠真實(shí)掌握Web網(wǎng)頁(yè)的用戶使用情況,這樣也為搜索引擎對(duì)網(wǎng)頁(yè)的排序起到了重要的參考作用。文檔編號(hào)G06F17/30GK101477539SQ20081024745公開日2009年7月8日申請(qǐng)日期2008年12月31日優(yōu)先權(quán)日2008年12月31日發(fā)明者葛長(zhǎng)忠申請(qǐng)人:杭州華三通信技術(shù)有限公司