基于Web用戶時間屬性的序列模式挖掘方法
【專利摘要】本發明涉及一種基于Web用戶時間屬性的序列模式挖掘方法。針對個體用戶訪問模式存在的時間偏好進行分析,挖掘用戶時間特征上的個性,進而對用戶個體進行建模,從而形成用戶個性化的訪問模式。為此提出UFAP-雙親索引森林,刻畫用戶訪問序列模式。結合個人用戶訪問時間偏好——駐留時間、時間間隔,分別對用戶訪問的網頁類內Web頁面的駐留時間和網頁類與類之間的時間間隔進行K-means聚類,最終構建出用戶個性化的時間偏好訪問模式。本發明實現細粒度、全方位的個性化推薦,使推薦不僅僅局限在站內,甚至可以形成站間的互動,對于電子商務網站生態圈的優化和實施個性化服務具有深遠意義。
【專利說明】基于Web用戶時間屬性的序列模式挖掘方法
【技術領域】
[0001]本發明涉及一種新的Web用戶時間屬性方面的序列模式挖掘方法。
【背景技術】
[0002]基于Web日志序列模式挖掘技術的研究方向將網頁與個人瀏覽習慣相關聯,針對用戶上網存在的固定特征刻畫出Web用戶訪問模式,從而發現用戶的興趣愛好、固有瀏覽習慣等。網站運營商則據此優化網站結構,合理投放廣告,甚至提供給用戶相關個性化推薦。
[0003]由于Web日志中包含了大量用戶的訪問記錄,因此根據記錄可以挖掘出用戶訪問網頁的頻繁路徑,構建用戶的頻繁訪問序列模式。如Yao-Te Wang與Anthony J.T.Lee提出的通過用戶頻繁訪問序列中存在的網頁鏈的關系,構建用戶的頻繁路徑訪問超圖。然而傳統的頻繁訪問序列模式的挖掘,如GSP、Aprior1、PrefixSpan等,是通過不斷迭代增加候選序列的長度從而挖掘頻繁訪問序列,其缺點是產生大量的中間候選序列,存儲代價大。為了實現訪問序列的高壓縮化并兼顧訪問序列的有效挖掘,Jian Pei, Jiawei Han等提出了WAP-tree算法,它采用一種新的數據結構,有效避免了大量候選序列的產生。
[0004]然而傳統的序列模式挖掘算法忽略了用戶的駐留時間、時間間隔等時間特征,于是針對用戶駐留時間特征,任家東,張嘯劍等設計了一種網頁駐留時間約束的極大頻繁頁面集挖掘MFPSM算法,有效減少對冗余網頁的挖掘。針對時間間隔約束條件也設計了相應算法,如Tony Cheng-Kui Huang的模糊時間間隔序列模式挖掘、多用戶加權時間間隔序列模式挖掘。
[0005]從上文基于Web日志序列模式挖掘的討論中可以認識到迄今為止大多數時間特征序列模式的相關研究側重點是面向多用戶的行為共性特征的分析、提取及分類,通過挖掘用戶時間特征的算法將時間作為約束條件,按時間屬性相似度分類,并沒有單獨將時間作為個人用戶行為習慣或固有偏好進行提取刻畫。
【發明內容】
[0006]本發明目的在于公開一種基于Web用戶時間屬性的序列模式挖掘方法,通過研究個體用戶時間特征的上網習慣所形成的頻繁訪問序列,從中刻畫出個人用戶時間偏好的上網行為模式。
[0007]本發明給出的技術方案為:
一種基于Web用戶時間屬性的序列模式挖掘方法,其特征在于,針對個體用戶訪問模式存在的時間偏好進行分析,挖掘用戶時間特征上的個性,進而對用戶個體進行建模,從而形成用戶個性化的訪問模式,具體包括步驟:
步驟一,數據預處理。根據用戶瀏覽日志,剔除冗余網頁,進行網頁分類處理,再根據用戶訪問時間戳對原始數據進行排序,生成所需會話集,最終得到所需格式日志。
[0008]步驟二,構建Web用戶訪問樹。根據預處理后的日志,統計頻繁訪問網頁類,生成頻繁會話集,創建一種輔助表的數據結構并在其中加以記錄,再根據輔助表中記錄的用戶頻繁會話模式,并在字典樹的基礎上提出Web用戶訪問樹——UFAP-雙親索引樹。
[0009]步驟三,生成Web用戶頻繁訪問森林。根據輔助表中網頁類間的置信度統計UFAP-雙親索引樹的強關聯邊,進一步調整UFAP-雙親索引樹,使其網頁類間邊的關系符合強關聯。通過UFAP-雙親索引樹的調整得到UFAP-雙親索引主樹和輔助表中記錄的以頻繁訪問網頁類為根的UFAP-雙親索引子樹。
[0010]步驟四,Web用戶頻繁訪問森林中抽取用戶時間偏好一駐留時間、時間間隔,通過度量用戶網頁駐留時間與訪問網頁類的時間間隔推測用戶是否對網頁感興趣。通過K-means方法對頻繁訪問網頁類的駐留時間集進行聚類,并對網頁類間跳轉時間間隔也進行聚類,再結合所生成的Web用戶頻繁訪問森林最終得到了用戶時間屬性的訪問模式——Web用戶時間偏好訪問森林。
[0011]與現有技術相比,本發明技術方案的創新點體現在:1)提出了一種UFAP-雙親索引森林的數據結構。2) 對個體用戶訪問的網頁類內Web頁面的駐留時間和網頁類與類之間的時間間隔屬性使用了 K-means聚類。本發明利用傳統中的模型實現細粒度、全方位的個性化推薦,使推薦不僅僅局限在站內,甚至可以形成站間的互動,對于電子商務網站生態圈的優化和實施個性化服務具有深遠意義。并且利用該時間偏好訪問模式還可以達到個人用戶行為身份識別的目的。
【專利附圖】
【附圖說明】
[0012]下面結合附圖和實施方式對本發明作進一步的詳細說明:
圖1是根據表I構造初始化UFAP-雙親索引樹。
[0013]圖2是鄰接表統計出的強關聯邊結果示意圖。
[0014]圖3是根據圖2強關聯邊調整圖1后的UFAP-雙親索引樹。
[0015]圖4為本發明算法流程圖。
【具體實施方式】
[0016]以下結合附圖對本發明技術方案作進一步說明。
[0017]本發明的大致思路為:針對個體用戶訪問模式存在的時間偏好進行分析,挖掘用戶時間特征上的個性,進而對用戶個體進行建模,從而形成用戶個性化的訪問模式。為此提出了一種新的數據結構——UFAP-雙親索引森林,刻畫用戶訪問序列模式。并結合個人用戶訪問時間偏好一駐留時間、時間間隔,分別對用戶訪問的網頁類內Web頁面的駐留時間和網頁類與類之間的時間間隔進行K-means聚類,最終構建出用戶個性化的時間偏好訪問模式。
[0018]本發明算法流程圖4如下所示,整個算法實現流程圖描述:
I)數據預處理。根據用戶瀏覽日志,剔除駐留時間小于5s的冗余網頁,并進行簡單網頁分類處理,再根據用戶訪問時間戳對原始數據進行排序,生成所需會話集,最終得到所需格式日志。
[0019]2)構建Web用戶訪問樹。根據預處理后的日志,統計頻繁訪問網頁類,生成頻繁會話集,創建一種輔助表的數據結構并在其中加以記錄,再根據輔助表中記錄的用戶頻繁會話模式,并在字典樹的基礎上提出Web用戶訪問樹——UFAP-雙親索引樹。
[0020]3)生成Web用戶頻繁訪問森林。根據輔助表中網頁類間的置信度統計UFAP-雙親索引樹的強關聯邊,進一步調整UFAP-雙親索引樹,使其網頁類間邊的關系符合強關聯。通過UFAP-雙親索引樹的調整得到UFAP-雙親索引主樹和輔助表中記錄的以頻繁訪問網頁類為根的UFAP-雙親索引子樹。
[0021]4) Web用戶頻繁訪問森林中抽取用戶時間偏好一駐留時間、時間間隔。由于網頁駐留時間與訪問網頁類的時間間隔是用戶興趣度的重要體現,所以通過度量用戶網頁駐留時間與訪問網頁類的時間間隔可以有效推測用戶是否對網頁感興趣。通過K-means方法對頻繁訪問網頁類的駐留時間集進行聚類,同理對網頁類間跳轉時間間隔也進行K-means聚類處理,再結合所生成的Web用戶頻繁訪問森林最終得到了用戶時間屬性的訪問模式——Web用戶時間偏好訪問森林。
[0022]
【權利要求】
1.一種基于Web用戶時間屬性的序列模式挖掘方法,其特征在于,針對個體用戶訪問模式存在的時間偏好進行分析,挖掘用戶時間特征上的個性,進而對用戶個體進行建模,從而形成用戶個性化的訪問模式,具體包括步驟: 步驟一,數據預處理;根據用戶瀏覽日志,剔除冗余網頁,進行網頁分類處理,再根據用戶訪問時間戳對原始數據進行排序,生成所需會話集,最終得到所需格式日志; 步驟二,構建Web用戶訪問樹;根據預處理后的日志,統計頻繁訪問網頁類,生成頻繁會話集,創建一種輔助表的數據結構并在其中加以記錄,再根據輔助表中記錄的用戶頻繁會話模式,并在字典樹的基礎上提出Web用戶訪問樹——UFAP-雙親索引樹; 步驟三,生成Web用戶頻繁訪問森林;根據輔助表中網頁類間的置信度統計UFAP-雙親索引樹的強關聯邊,進一步調整UFAP-雙親索引樹,使其網頁類間邊的關系符合強關聯;通過UFAP-雙親索引樹的調整得到UFAP-雙親索引主樹和輔助表中記錄的以頻繁訪問網頁類為根的UFAP-雙親索引子樹; 步驟四,Web用戶頻繁訪問森林中抽取用戶時間偏好一駐留時間、時間間隔,通過度量用戶網頁駐留時間與訪問網頁類的時間間隔推測用戶是否對網頁感興趣;通過K-means方法對頻繁訪問網頁類的駐留時間集進行聚類,并對網頁類間跳轉時間間隔也進行聚類,再結合所生成的Web用戶頻繁訪問森林最終得到了用戶時間屬性的訪問模式——Web用戶時間偏好訪問森林。
【文檔編號】G06F17/30GK103744957SQ201410004623
【公開日】2014年4月23日 申請日期:2014年1月6日 優先權日:2014年1月6日
【發明者】蔣昌俊, 陳閎中, 閆春鋼, 丁志軍, 于汪洋, 陳英華 申請人:同濟大學