本發明涉及信息技術領域,具體涉及一種基于用戶日志的數據處理系統。
背景技術:
日志文件在系統運行過程中產生,其能夠記錄系統的運行狀況和用戶的操作行為,當系統運行緩慢或異常時,可以通過查看日志文件,解決系統問題,恢復正常運行。用戶日志也是一種重要的信息來源,在社交網站或者商務網站中,可以通過對用戶日志的挖掘找出用戶的潛在訪問模式,設計出更方便用戶訪問的網頁。
用戶日志應用在搜索領域中,基于日志的查詢分為:關聯規則推薦、聚類方法推薦、時間分布推薦。關聯規則的方法中,把查詢短語視為關聯規則的項,把查詢日志看作會話的集合,從而推薦會話中的高頻詞匯;聚類方法是將查詢串進行聚類發現相關查詢,該方法需要大量豐富的日志數據做支撐;時間分布推薦,需要考慮相似查詢的搜索頻率在時間分布上是相似的,特殊的時間點通常有特殊的查詢和推薦,這類方法可以作為其它方法的補充。
傳統的查詢方式是在用戶查詢時,服務器才進行相關查詢字段的計算,無法實現實時計算,計算量大,相對查詢速度較慢,而且對數據庫的要求較高,不再能適應現在的檢索系統發展需求。
技術實現要素:
本發明的目的在于克服現有技術存在的以上問題,提供一種基于用戶日志的數據處理系統,本發明的數據處理系統是基于用戶日志的方式,實時計算,能夠較快速地檢索并獲得查詢結果。
為實現上述技術目的,達到上述技術效果,本發明通過以下技術方案實現:
一種基于用戶日志的數據處理系統,其包括收集用戶日志端和數據處理端,所述收集用戶日志端實時收集用戶端的操作日志,并將收集的用戶日志傳輸至所述數據處理端,
所述數據處理端包括:
選擇模塊,所述選擇模塊對實時收集的用戶日志進行選擇,獲得有效的用戶日志,建立第一數據集;
標記模塊,所述標記模塊對所述第一數據集中的用戶日志進行標記,標記后的用戶日志建立第二數據集;
預算模塊,所述預算模塊在所述第二數據集中進行實時預算,建立動態預算數據集;
匹配模塊,所述匹配模塊將用戶的查詢字段與所述動態預算數據集中的數據進行匹配,匹配成功的數據將作為查詢結果推送給用戶;
提取模塊,所述提取模塊從所述第二數據集中提取與用戶查詢字段具有相似度的用戶日志數據,構建第三數據集;
分類模塊,所述分類模塊對所述第三數據集中的用戶日志數據進行分類,將相同或相似的查詢字段作為查詢串,或者標記符號聚類相同的用戶日志進行分類,或者查詢頻率時間相同的用戶日志進行分類,所述分類模塊構建第四數據集;
第一處理模塊,所述第一處理模塊根據查詢規則建立線性回歸模型,將與查詢字段匹配的用戶日志放入線性回歸模型中,得到處理后的復合模型,計算出每一個查詢字段的關聯度;
查詢模塊,所述查詢模塊在所述第四數據集中查詢到與用戶輸入的查詢字段相匹配的用戶日志作為查詢集,構建第五數據集;
第二處理模塊,所述第二處理模塊在所述第五數據集中,根據所述第一數據處理模塊得到的關聯度進行排序處理,最后確定N個結果作為查詢結果,推送給用戶。
優選地,還包括暫存模塊,所述暫存模塊對收集的所述用戶日志進行暫存。
優選地,所述收集用戶日志端能夠自定義用戶日志,根據自定義日志格式、日志類型、日志內容、日志關鍵字符,有選擇地收集用戶日志。
優選地,所述標記模塊的標記符號包括:歷史查詢字段、查詢串、時間、聚類名稱。
優選地,所述1≤N≤10,N為整數。
本發明的有益效果是:
本發明的數據處理系統是基于用戶日志的方式,實時計算,能夠較快地出現檢索推薦結果,該系統的預算模塊能夠提前預算結果,再通過匹配模塊進行匹配,如果匹配成功則直接推送至用戶,提前預算結果提高了推送結果的效率,如果沒有提前預算到結果,則進行計算。
上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,并可依照說明書的內容予以實施,以下以本發明的較佳實施例并配合附圖詳細說明如后。本發明的具體實施方式由以下實施例及其附圖詳細給出。
附圖說明
為了更清楚地說明本發明實施例技術中的技術方案,下面將對實施例技術描述中所需要使用的附圖做簡單的介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其它的附圖。
圖1是本發明的系統原理圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
實施例
參照圖1所示,本實施例中一種基于用戶日志的數據處理系統,其包括收集用戶日志端和數據處理端,上述收集用戶日志端實時收集用戶端的操作日志,并將收集的用戶日志傳輸至上述數據處理端。
上述收集用戶日志端能夠自定義用戶日志,根據自定義日志格式、日志類型、日志內容、日志關鍵字符,有選擇地收集用戶日志。
上述數據處理端能夠對實時收集的用戶日志進行計算,提前預算結果,能夠較快速地推送查詢結果,如果提前沒有預算到,則重新計算。
具體的,上述數據處理端包括:選擇模塊,標記模塊,預算模塊,匹配模塊,提取模塊,分類模塊,第一處理模塊,查詢模塊,第二處理模塊,暫存模塊。
其中,上述選擇模塊對實時收集的用戶日志進行選擇,獲得有效的用戶日志,建立第一數據集。
上述標記模塊對上述第一數據集中的用戶日志進行標記,標記后的用戶日志建立第二數據集,上述標記模塊的標記符號包括:歷史查詢字段、查詢串、時間、聚類名稱。
上述預算模塊從上述第二數據集中進行實時預算,建立動態預算數據集。
上述匹配模塊將用戶的查詢字段與上述動態預算數據集中的數據進行匹配,匹配成功的將確定的結果作為查詢結果推送給用戶。
上述提取模塊從上述第二數據集中提取與用戶查詢字段具有相似度的用戶日志數據,構建第三數據集。
上述分類模塊對上述第三數據集中的用戶日志數據進行分類,將相同或相似的查詢字段作為查詢串,或者標記符號聚類相同的用戶日志進行分類,或者查詢頻率時間相同的用戶日志進行分類,上述分類模塊構建第四數據集。
上述第一處理模塊根據查詢規則建立線性回歸模型,將與查詢字段匹配的用戶日志放入線性回歸模型中,得到處理后的復合模型,計算出每一個查詢字段的關聯度。
上述查詢模塊在上述第四數據集中查詢到與用戶輸入的查詢字段相匹配的用戶日志作為查詢集,構建第五數據集。
上述第二處理模塊在上述第五數據集中,根據上述第一數據處理模塊得到的關聯度進行排序處理,最后確定N個結果作為查詢結果,推送給用戶,上述1≤N≤10,N為整數。
上述暫存模塊對收集的上述用戶日志進行暫存。
上述系統的預算模塊能夠提前預算結果,再通過匹配模塊進行匹配,如果匹配成功則直接推送至用戶,提前預算結果提高了推送結果的效率,如果沒有提前預算到結果,則進行計算。
對所公開的實施例的上述說明,使本領域專業技術人員能夠實現或使用本發明。對這些實施例的多種修改對本領域的專業技術人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發明的精神或范圍的情況下,在其它實施例中實現。因此,本發明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。