基于先驗知識的人口屬性預測方法
【技術領域】
[0001 ]本發明屬于計算機技術領域,特別設及基于先驗知識的人口屬性預測方法。
【背景技術】
[0002] 人口屬性的信息在互聯網個性化服務中起到重要的作用。在線互聯網行為定向廣 告通過獲取用戶行為,分析其用戶屬性,從而實現定向投放的廣告。然而獲得用戶的屬性非 常困難,例如:獲取用戶的性別、年齡等數據往往十分困難。
[0003] 現有技術主要是通過用戶瀏覽、點擊和購買等行為作為模型預測的特征。具體步 驟為:首先,通過問卷調查或者公司自有數據庫信息,生成已知確定人口屬性的樣本集合; 然后使用邏輯回歸模型對用戶人口屬性進行預測。此種方法需要依靠已知人口屬性的樣本 集合才能實現用戶人口屬性的預測,由于樣本集合需要花費大量的人力、物力,往往很難收 集到;并且由于調查問卷是具有地域性的,導致數據經常是有偏差的,例如收集的大部分是 上海的數據,在預測全國用戶的人口屬性時不具有說服力和普遍性,就會存在很大的偏差。
[0004] 因此,計算機技術領域急需基于先驗知識的人口屬性預測方法,不需要依賴于任 何具體的已知人口屬性的用戶樣本集合,而是通過相對易得的熱口網站人口屬性分布數 據,W及統計機器學習的方式,再根據用戶的網站訪問記錄預測出非熱口網站的人口屬性; 全自動化,無需人為操作,克服了人為因素、地域因素的影響,更加科學、可靠。
【發明內容】
[0005] 本發明提供了基于先驗知識的人口屬性預測方法,技術方案如下:
[0006] 基于先驗知識的人口屬性預測方法,包括如下步驟:
[0007] 步驟一,確認需要預測人口屬性的用戶,查看和整理該類用戶的一周訪問記錄; [000引步驟二,獲取熱口網站的人口屬性分布數據;
[0009] 步驟Ξ,通過熱口網站人口屬性分布的數據推測非熱口網站人口屬性分布,具體 步驟為:
[0010] 針對每個非熱口網站,選取出相似度最高的η個熱口網站,提取選定的每個熱口網 站用戶的一周訪問矩陣Α;
[0011] 進一步地,根據熱口網站的訪問矩陣Α,計算得出非熱口網站與熱口網站的相似 度,相似度公式為:
[0012]
[0013] 其中,用戶訪問過網站記錄為1,未訪問過網站則記錄為0,sim(i,j)表示非熱口網 站j與熱口網站i的相似度,A康示用戶訪問過熱口網站i的矩陣,A康示用戶訪問過非熱口 網站j的矩陣,|Ai|表示Ai矩陣中非零元素的個數,lAiflAjl表示Ai與Aj交集矩陣中非零元素 的個數,I Ai U Aj I表示Ai與A說集矩陣中非零元素的個數;
[0014] 進一步地,計算每個熱口網站i的人口屬性分布的平均值取作為熱口網站i的人口 屬性分布;
[0015]
[001 W 其中,Ra表示熱口網站i的第a個人口屬性,m表示熱口網站i的人口數量;
[0017]進一步地,計算全網的人口屬性分布的平均值瓦品,作為全網的人口屬性分布;
[001 引
[0019]其中,η表示熱口網站i的數量;
[0020] 進一步地,根據非熱口網站與熱口網站的相似度sim(i,j)、熱口網站i的人口屬性 分布的平均值露和全網的人口屬性分布的平均值記品.計算得出非熱口網站j的人口屬性 分布,具體公式如下:
[0021]
[0022] 其中,的表示非熱口網站的人口屬性分布,叫表示非熱口網站的數量。
[0023] 優選的,在上述基于先驗知識的人口屬性預測方法中,步驟二中還包括:對獲取的 熱口網站的人口屬性分布數據進行優化,具體步驟為:
[0024] (1)將一天中用戶訪問過的網站的行為表示為矩陣A、B,xd表示熱口網站在維度d 上標注的用戶屬性值,標注的用戶屬性值通過矩陣表示,進而得出網站男女性比例,當用戶 P訪問過網站q,則Ap, q = 1,Bq,P = 1 /nq,nq表示訪問網站q的用戶總數;當表示用戶P未訪問過 網站q,則Ap,q = 0,Bq,p = 0,矩陣A中的元素用Ap,q表示,矩陣B中的元素用Bq,p表示;
[0025] (2)假設每個熱口網站中每個維度d上的權重值為Wd,則得出所有用戶在維度d上 的用戶屬性值Rd,具體公式如下:
[0026]
[0027] 其中,Dim表示每個網站中包含的維度數量;
[0028] (3)根據所有用戶在維度d上的用戶屬性值Rd,預測出該熱口網站的用戶屬性值Rm, 具體公式如下:
[0029] Rm=BXRd
[0030] 進一步地,計算網站預測的用戶屬性值和網站標注的用戶屬性值的差,即為 I悼況.…A'dll!;
[0031] (4)為了防止過擬合作用對網站的影響,我們對目標函數進行優化,優化的目標函 數f為:
[0032]
[003引其中,C I!味I!:!表示相鄰維度上標注的屬性值之間的差距值,為優化公式的L2正則 項;
[0034] (5)依據BFGS算法對優化的目標函數f進行求解;
[0035] 首先,設初始X日為話,權重W的初始值W日夫
1日表示單位矩陣,即
[0036] 目標函數f的導數F/為:
[0037] 盡?二化U…萬if%.、.,巧執mO
[003引其中式:f是目標函數f對權重wi變量進行偏導,即:
[0039]
[0040] 然后,根據相鄰維度權重值之間的公式W及黃金分割算法計算得出ak值,具體公 式如下:
[0041 ]
[0042] 進一步地,采用BFGS算法,進行循環往復計算,直至|fk+i-fk|含ε,ε=〇.〇1,求出最 優權重W;
[00創其中,康示用戶在維度k+1上的權重值,^<表示用戶在維度k上的權重值,Qk表示 步長,化表示維度k上的上的正定矩陣,。發是目標函數f對權重Wk變量進行的偏導,fk+l表示 用戶在維度k+1上的目標函數,fk表示用戶在維度k上的目標函數;
[0044] (6)將最優權重W代入(2)的公式中,求出用戶的最優人口屬性值Rm,再將用戶訪問 過該熱口網站的不同維度上的所有用戶的最優人口屬性值Rm求取平均值,得到該熱口網站 的優化人口屬性分布。
[0045] 優選的,在上述基于先驗知識的人口屬性預測方法中,還包括步驟四,根據熱口網 站的人口屬性W及計算出的非熱口網站的人口屬性分布數據,計算得出用戶的平均屬性。
[0046] 本發明的有益效果:
[0047] 1、本發明無需通過問卷調查或者公司自有數據庫信息,無需花費大量的人力、物 力;本發明通過現有購買的熱口網站的人口屬性分布數據,即可W能夠計算出非熱口網站 的人口屬性分布數據,克服了調查問卷所產生的地域性的、數據偏差的影響,計算更加科 學,實用,經濟型強。
[004引2、本發明進一步地對購買的熱口網站的人口屬性分布數據進行了優化處理,克服 了熱口網站人口屬性分布的誤差,使計算出來的非熱口網站的人口屬性分布更加精確、科 學、可靠。
[0049] 3、本發明無需人工操作,實現了自動化,具有深遠的意義。
【附圖說明】
[0050] 下面結合附圖和【具體實施方式】來詳細說明本發明:
[0051 ]圖1是基于先驗知識的人口屬性預測方法的流程圖。
【具體實施方式】
[0052]為了使本發明技術實現的措施、創作特征、達成目的與功效易于明白了解,下面將 結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然, 所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施 例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于 本發明保護的范圍。
[0化3]實施例1:
[0054] 圖1是基于先驗知識的人口屬性預測方法的流程圖。
[0055] 如圖1