一種基于上網日志挖掘和用戶活動識別的信息推送方法
【技術領域】
[0001] 本發明設及信息推送技術領域,具體設及一種基于上網日志挖掘和用戶活動識別 的信息推送方法。
【背景技術】
[0002] 隨著互聯網時代的逐步深入,"信息爆炸"與"信息孤島"成為人們需求信息時面臨 的一對矛盾。一方面信息產生速度非常之快,新的信息源源不斷;另一方面人們在復雜而又 龐大的信息面前顯得手足無措。在此背景下,信息推送服務也就有了巨大的發展空間。信息 推送服務是利用推送技術自動捜索網絡上用戶感興趣的信息,并主動推送給用戶服務,也 可W稱為基于"推"模式的網絡信息服務。
[0003] 向不同的用戶推送不同的、能夠滿足用戶個性需求的信息就是個性化信息推送服 務。傳統的個性化信息推送服務在進行用戶畫像方面主要有W下兩類方式:
[0004] 第一類是通過用戶提交需求特征。在用戶首次使用信息推送服務時,用戶通過設 計好的表單向推送系統提交用戶的興趣愛好、網絡使用習慣、使用信息的目的、關注的信息 領域和網站、表達信息需求的關鍵詞等個人信息,初步建立用戶畫像。
[0005] 但運種方式對用戶輸入有較強的依賴,當用戶不向信息提供商提交個人信息時, 此類方法無法工作,當提交的信息不夠詳細時,此類方法無法對用戶的信息需求進行準確 描述。
[0006] 第二類是用戶興趣挖掘方式。通過跟蹤用戶使用信息推送服務的行為,利用機器 學習或者屯、理學分析的方式推測用戶潛在的興趣愛好和信息需求。但運種方式的前提是用 戶已經使用過一段時間的信息推送服務,因此存在冷啟動問題,那些首次使用的用戶無法 得到個性化的信息推送。此外,傳統的個性化信息推送方法往往不考慮用戶當前的情境是 否適合接收信息,隨時隨地地向用戶推送信息,導致用戶體驗不佳。
【發明內容】
[0007] 本發明提供的基于上網日志挖掘和用戶活動識別的信息推送方法,通過挖掘上網 日志數據,發現對信息感興趣的潛在用戶,當有新信息產生時,將其適時的推送給潛在用 戶,從而提高信息推送效率。
[000引一種基于上網日志挖掘和用戶活動識別的信息推送方法,依次包括在服務器端進 行的數據預處理階段、潛在推送用戶篩選階段W及在客戶端進行的適時推送階段,其中,數 據預處理階段包括:
[0009] 步驟1-1、輸入信息分類樹和用戶上網日志數據;
[0010] 步驟1-2,提取用戶訪問的歷史網頁的特征,對網頁進行畫像;
[0011] 步驟1-3,依據信息分類樹對用戶訪問的歷史網頁進行層次化分類,并打上標簽;
[0012] 步驟1-4,根據用戶訪問的歷史網頁,構建用戶的偏好層次結構,對用戶進行畫像;
[0013] 潛在推送用戶篩選階段包括:
[0014] 步驟2-1、根據網頁的畫像計算得到網頁的相似性矩陣;
[0015] 步驟2-2、根據用戶的偏好層次結構計算得到用戶的相似性矩陣;
[0016] 步驟2-3、根據用戶上網日志數據,構建用戶-網頁矩陣并補全矩陣;
[0017] 步驟2-4、利用矩陣分解的方法篩選潛在推送用戶,并向潛在推送用戶的客戶端推 送信息;
[0018] 適時推送階段包括:
[0019] 步驟3-1、獲取情境信息;
[0020] 步驟3-2、依據情景信息識別用戶當前活動;
[0021] 步驟3-3、向用戶推送與當前活動相適應的信息。
[0022] 本發明針對當前信息推送準確性和適時性不足的問題,研發基于上網日志大數據 挖掘和活動識別的信息推送方法,本發明主要由=部分組成,包括數據預處理階段、潛在推 送用戶篩選階段和基于客戶端感知的適時推送階段。
[0023] 數據預處理階段主要是為后續階段提供支持,包括網頁畫像、網頁層次化分類和 用戶畫像。
[0024] 潛在推送用戶篩選階段利用基于矩陣分解的方法求新信息與用戶訪問的歷史網 頁之間的相似性,篩選出可能對新信息感興趣的潛在推送用戶。
[0025] 基于客戶端(移動智能終端,例如手機)感知的適時推送階段包括基于移動智能設 備的情境信息獲取和活動識別,W及活動情境適應的信息適時推送,在此階段,當有新信息 產生時,服務器端在篩選出推送用戶后立即推送給用戶,但在客戶端上本方法會結合用戶 當前的活動情境,并根據事先定義好的規則庫確定向用戶顯示信息的最佳時機。
[0026] 作為優選,提取用戶訪問的歷史網頁的特征時,提取統計特征、語義特征、和結構 特征。
[0027] 作為優選,采用信息分類樹表示用戶的畫像,利用如下公式計算兩個用戶的相似 性:
[002引
[0029]
[0030]
[0031] 其中Sim(u,u/ )表示兩個用戶的相似性;LevelSimU,,1)表示兩個用戶的畫像 在第1層的相似性;D(u,l)表示用戶畫像中第1層中用戶U偏好的多樣性;D(u',l)表示用戶 畫像中第1層中用戶U'偏好的多樣性;111表示用戶畫像中層次結構的層數;e = 2i;Ci表示第 1層的信息類別集合,C是Cl中的一個元素;U.Wc表示用戶U的畫像中信息類別C的權值;U'.Wc 表示用戶U'的畫像中信息類別C的權值;U.P(C)表示用戶U訪問信息類別為C的信息的概率。
[0032] 作為優選,采用基于用戶相似性和網頁相似性的協同過濾方法對用戶-網頁矩陣 進行補全,計算公式如下:
[0033] a'=SU*A*SP
[0034] 其中心€股MXW為經過補全的用戶-網頁矩陣,A為根據用戶的上網日志構造用 戶-網頁矩陣,S"為用戶的相似性矩陣,SP為網頁的相似性矩陣。
[0035] 作為優選,利用矩陣分解的方法篩選潛在推送用戶包括如下步驟:
[0036] 步驟2-4-1、將經過補全的用戶-網頁矩陣分解成矩陣U G膠Mxk和矩陣 F e臟WXW,然后將矩陣V分解為矩陣X e藍心巧日矩陣Y €股txw,計算公式如下:
[0037] A' 一U ? V [003引 yT 一 X.Y;
[0039] 步驟2-4-2、當有新的信息產生時,提取該信息的相關特征,形成新信息的畫像 a E膠t,然后通過下列公式將畫像a降維為k維的一個向量棵'G股k,計算公式如下:
[0040] a'=a.(xT;)-i;
[0041] 步驟2-4-3、將畫像〇/分別與矩陣V中的每一列做相似性計算,找到與新信息最相 似的前N個網頁組成集合T,從補全后的用戶-網頁矩陣y中刪去不屬于集合T的網頁列,得 到矩陣A";
[0042] 步驟2-4-4、在矩陣A"中對每個用戶對應的行求和得到該用戶潛在推送的一個分 數,最后確定潛在的推送用戶為分數最大的前S個網頁用戶。
[0043] 作為優選,情景信息W本地文件的形式存儲在客戶端。
[0044] 作為優選,客戶端接收服務器端推送的信息后,在識別用戶的當前活動后,基于預 定的推送規則,確定將服務器端推送過來的信息顯示給用戶的最佳時機。
[0045] 本發明的優點包括:
[0046] 1)通過用戶上網日志數據挖掘對用戶進行畫像,不僅能對用戶進行準確刻畫,而 且由于上網日志的泛在性,還能避免傳統個性化信息服務中存在的冷啟動問題;
[0047] 2)基于信息分類樹的用戶畫像,可W更加準確的計算用戶間的相似度;
[0048] 3)基于矩陣分解的潛在推送用戶篩選,在篩選時充分利用用戶和信息的屬性來提 高信息篩選的計算效率和準確性;
[0049] 4)利用活動識別確定合適的推送時機,減少信息推送對用戶的