1.一種基于用戶日志的數(shù)據(jù)處理系統(tǒng),其包括收集用戶日志端和數(shù)據(jù)處理端,所述收集用戶日志端實(shí)時(shí)收集用戶端的操作日志,并將收集的用戶日志傳輸至所述數(shù)據(jù)處理端,其特征在于,
所述數(shù)據(jù)處理端包括:
選擇模塊,所述選擇模塊對(duì)實(shí)時(shí)收集的用戶日志進(jìn)行選擇,獲得有效的用戶日志,建立第一數(shù)據(jù)集;
標(biāo)記模塊,所述標(biāo)記模塊對(duì)所述第一數(shù)據(jù)集中的用戶日志進(jìn)行標(biāo)記,標(biāo)記后的用戶日志建立第二數(shù)據(jù)集;
預(yù)算模塊,所述預(yù)算模塊在所述第二數(shù)據(jù)集中進(jìn)行實(shí)時(shí)預(yù)算,建立動(dòng)態(tài)預(yù)算數(shù)據(jù)集;
匹配模塊,所述匹配模塊將用戶的查詢字段與所述動(dòng)態(tài)預(yù)算數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行匹配,匹配成功的數(shù)據(jù)將作為查詢結(jié)果推送給用戶;
提取模塊,所述提取模塊從所述第二數(shù)據(jù)集中提取與用戶查詢字段具有相似度的用戶日志數(shù)據(jù),構(gòu)建第三數(shù)據(jù)集;
分類模塊,所述分類模塊對(duì)所述第三數(shù)據(jù)集中的用戶日志數(shù)據(jù)進(jìn)行分類,將相同或相似的查詢字段作為查詢串,或者標(biāo)記符號(hào)聚類相同的用戶日志進(jìn)行分類,或者查詢頻率時(shí)間相同的用戶日志進(jìn)行分類,所述分類模塊構(gòu)建第四數(shù)據(jù)集;
第一處理模塊,所述第一處理模塊根據(jù)查詢規(guī)則建立線性回歸模型,將與查詢字段匹配的用戶日志放入線性回歸模型中,得到處理后的復(fù)合模型,計(jì)算出每一個(gè)查詢字段的關(guān)聯(lián)度;
查詢模塊,所述查詢模塊在所述第四數(shù)據(jù)集中查詢到與用戶輸入的查詢字段相匹配的用戶日志作為查詢集,構(gòu)建第五數(shù)據(jù)集;
第二處理模塊,所述第二處理模塊在所述第五數(shù)據(jù)集中,根據(jù)所述第一數(shù)據(jù)處理模塊得到的關(guān)聯(lián)度進(jìn)行排序處理,最后確定N個(gè)結(jié)果作為查詢結(jié)果,推送給用戶。
2.根據(jù)權(quán)利要求1所述的基于用戶日志的數(shù)據(jù)處理系統(tǒng),其特征在于,還包括暫存模塊,所述暫存模塊對(duì)收集的所述用戶日志進(jìn)行暫存。
3.根據(jù)權(quán)利要求1所述的基于用戶日志的數(shù)據(jù)處理系統(tǒng),其特征在于,所述收集用戶日志端能夠自定義用戶日志,根據(jù)自定義日志格式、日志類型、日志內(nèi)容、日志關(guān)鍵字符,有選擇地收集用戶日志。
4.根據(jù)權(quán)利要求1所述的基于用戶日志的數(shù)據(jù)處理系統(tǒng),其特征在于,所述標(biāo)記模塊的標(biāo)記符號(hào)包括:歷史查詢字段、查詢串、時(shí)間、聚類名稱。
5.根據(jù)權(quán)利要求1所述的基于用戶日志的數(shù)據(jù)處理系統(tǒng),其特征在于,所述1≤N≤10,N為整數(shù)。