一種面向大規模媒體數據的在線廣告推薦系統及方法
【專利摘要】一種面向大規模媒體數據的在線廣告推薦系統及方法,涉及計算廣告學【技術領域】。本發明在線廣告推薦系統中的廣告調度引擎模塊分別與用戶端、廣告管理模塊、流量分析模塊連接。流量分析模塊分別與廣告檢索模塊、用戶行為查詢模塊、網頁管理模塊之間進行參數交換。用戶行為挖掘模塊分別與廣告管理模塊、用戶行為查詢模塊連接,且廣告管理模塊還與廣告檢索模塊連接。本發明在線廣告推薦方法,完成了當用戶訪問網頁時,根據用戶信息識別用戶,查詢用戶興趣和理解用戶行為,并根據預測的用戶行為檢索匹配廣告,最終將在線廣告推薦給用戶。本發明具有良好的自學習能力,能有效提升廣告推薦的智能水平,適合大數據背景下的在線廣告推薦。
【專利說明】一種面向大規模媒體數據的在線廣告推薦系統及方法
【技術領域】
[0001]本發明涉及計算廣告學【技術領域】,具體來講是一種面向大規模媒體數據的在線廣告推薦系統及方法。
【背景技術】
[0002]利用網站上的廣告橫幅、文本鏈接、多媒體等在互聯網刊登或發布廣告,并通過網絡傳遞到互聯網用戶的廣告運作方式,與傳統的四大傳播媒體(報紙、雜志、電視、廣播)廣告相比,互聯網廣告具有得天獨厚的優勢,是實施現代營銷媒體戰略的重要手段。
[0003]目前,互聯網廣告的代表性廣告形式為電子商務個性化推薦廣告。該廣告形式主要通過將用戶的瀏覽歷史構建精準匹配表來預測用戶可能的點擊傾向性。這種廣告投放方法是基于文本精確匹配技術的掃描策略,盡管該方法處理速度快,但是其存在模糊識別能力不強、學習能力不足的缺點。近年來,隨著媒體數據規模的爆炸式增長以及用戶規模的急劇攀升,該缺點引發的問題越來越突出。例如,將隨機抽取一天中100萬電信運營商客戶的瀏覽數據作為采樣,發現瀏覽器的訪問請求地址在2億7千萬條。在這種規模下,幾乎無法用傳統的精確匹配方式來在線推薦廣告。因此,傳統的精確匹配查詢方式不適合大數據背景下的在線廣告推薦。
【發明內容】
[0004]針對現有技術中存在的缺陷,本發明的目的在于提供一種面向大規模媒體數據的在線廣告推薦系統及方法,具有良好的自學習能力,能在不降低廣告預測準確度的前提下,有效提升廣告推薦的智能水平,適合大數據背景下的在線廣告推薦。
[0005]為達到以上目的,本發明提供一種面向大規模媒體數據的在線廣告推薦系統,包括廣告管理模塊、廣告檢索模塊、用戶行為挖掘模塊、用戶行為查詢模塊、網頁管理模塊、流量分析模塊以及廣告調度引擎模塊。所述廣告調度引擎模塊分別與用戶端、廣告管理模塊、流量分析模塊連接,用于完成整個廣告調度執行的環境引導。所述流量分析模塊分別與廣告檢索模塊、用戶行為查詢模塊、網頁管理模塊之間進行參數交換,并完成廣告排序。所述用戶行為挖掘模塊分別與廣告管理模塊、用戶行為查詢模塊連接,用于對用戶的行為進行分析及預測。所述廣告檢索模塊與廣告管理模塊連接,用于完成廣告數據索引的構建,并對廣告數據索引進行檢索。所述廣告管理模塊,用于存儲最新的廣告投放策略集合。所述用戶行為查詢模塊,用于完成用戶行為信息的查詢。所述網頁管理模塊,用于完成網頁數據的管理。
[0006]在上述技術方案的基礎上,所述用戶行為挖掘模塊包括策略更新部分和行為流檢測部分。所述策略更新部分通過在線構造雙Buffer動態數據區來完成最新策略的實時更新和并發使用。所述行為流檢測部分用于以web服務的形式接收在線日志,并通過建立基于倒排表的索引結構來完成用戶行為傾向性的預測。
[0007]在上述技術方案的基礎上,所述在線日志包含用戶的最新點擊行為或者搜索行為。
[0008] 在上述技術方案的基礎上,所述索引結構由兩部分組成,一部分為分類器級別的信息列表,包含分類器ID、分類器權重、分類器內部的核心參數以及分類器包含的支持向量數量;另一部分為由哈希表構成的倒排索引,所述倒排索引的每一個key代表一個詞,value表示包含這個詞的支持向量集合。
[0009]在上述技術方案的基礎上,所述倒排索引的每一個支持向量通過ID進行唯一標識,其中支持向量ID是一個無符號64bit的整數,高32bit用于存儲支持向量所在的分類器ID,低32bit用于存儲該支持向量在對應的分類器中的相對ID。
[0010]本發明還提供一種面向大規模媒體數據的在線廣告推薦方法,具有如下步驟:
[0011]S1:當用戶訪問網頁時,廣告調度引擎模塊從用戶端獲取用戶ip、ua、url、region信息,并將所述信息傳遞給流量分析模塊的請求端。
[0012]S2:網頁管理模塊和用戶行為查詢模塊分別從流量分析模塊處獲取所需的用戶參數,并按專家知識權重歸并計算,完成用戶興趣的查詢和近期行為的理解。
[0013]S3:廣告檢索模塊根據廣告基礎分類體系,聯合用戶行為挖掘模塊在線預測的結果,對廣告數據索引進行檢索,得到滿足投放條件的廣告列表。
[0014]S4:流量分析模塊獲取到滿足投放條件的廣告列表后,完成廣告預測排序,并返回給廣告調度引擎模塊。
[0015]S5:廣告調度引擎模塊將最終的廣告排序返回給用戶端并進行展示。
[0016]在上述技術方案的基礎上,步驟S3中,所述用戶行為挖掘模塊在線預測結果的步驟為:
[0017]S31:用戶行為挖掘模塊對所接收的用戶在線日志按照詞典進行快速的分詞。
[0018]S32:依次獲取到每一個詞,按照其在詞典中的詞典序,在所建立的索引結構中進行檢索,得到包含該詞的所有支持向量。
[0019]S33:按照公式
【權利要求】
1.一種面向大規模媒體數據的在線廣告推薦系統,其特征在于:包括廣告管理模塊(I)、廣告檢索模塊(2)、用戶行為挖掘模塊(3)、用戶行為查詢模塊(4)、網頁管理模塊(5)、流量分析模塊(6)以及廣告調度引擎模塊(7);所述廣告調度引擎模塊(7)分別與用戶端、廣告管理模塊(I)、流量分析模塊(6)連接,用于完成整個廣告調度執行的環境引導;所述流量分析模塊(6)分別與廣告檢索模塊(2)、用戶行為查詢模塊(4)、網頁管理模塊(5)之間進行參數交換,并完成廣告排序;所述用戶行為挖掘模塊(3)分別與廣告管理模塊(I)、用戶行為查詢模塊(4)連接,用于對用戶的行為進行分析及預測;所述廣告檢索模塊(2)與廣告管理模塊(I)連接,用于完成廣告數據索引的構建,并對廣告數據索引進行檢索;所述廣告管理模塊(1),用于存儲最新的廣告投放策略集合;所述用戶行為查詢模塊(4),用于完成用戶行為信息的查詢;所述網頁管理模塊(5),用于完成網頁數據的管理。
2.如權利要求1所述的一種面向大規模媒體數據的在線廣告推薦系統,其特征在于:所述用戶行為挖掘模塊(3)包括策略更新部分和行為流檢測部分;所述策略更新部分通過在線構造雙Buffer動態數據區來完成最新策略的實時更新和并發使用;所述行為流檢測部分用于以web服務的形式接收在線日志,并通過建立基于倒排表的索引結構來完成用戶行為傾向性的預測。
3.如權利要求2所述的一種面向大規模媒體數據的在線廣告推薦系統,其特征在于:所述在線日志包含用戶的最新點擊行為或者搜索行為。
4.如權利要求2所述的一種面向大規模媒體數據的在線廣告推薦系統,其特征在于:所述索引結構由兩部分組成,一部分為分類器級別的信息列表,包含分類器ID、分類器權重、分類器內部的核心參數以及分類器包含的支持向量數量;另一部分為由哈希表構成的倒排索引,所述倒排索引的每一個key代表一個詞,value表示包含這個詞的支持向量集合。
5.如權利要求4所述的一種面向大規模媒體數據的在線廣告推薦系統,其特征在于:所述倒排索引的每一個支持向量通過ID進行唯一標識,其中支持向量ID是一個無符號64bit的整數,高32bit用于存儲支持向量所在的分類器ID,低32bit用于存儲該支持向量在對應的分類器中的相對ID。
6.一種基于權利要求1所述的面向大規模媒體數據的在線廣告推薦方法,其特征在于,包括如下步驟: S1:當用戶訪問網頁時,廣告調度引擎模塊(7)從用戶端獲取用戶的ip、ua、url、region信息,并將所述信息傳遞給流量分析模塊(6)的請求端; S2:網頁管理模塊(5)和用戶行為查詢模塊(4)分別從流量分析模塊(6)處獲取所需的用戶參數,并按專家知識權重歸并計算,完成用戶興趣的查詢和近期行為的理解; S3:廣告檢索模塊(2)根據廣告基礎分類體系,聯合用戶行為挖掘模塊(3)在線預測的結果,對廣告數據索引進行檢索,得到滿足投放條件的廣告列表; 54:流量分析模塊(6)獲取到滿足投放條件的廣告列表后,完成廣告預測排序,并返回給廣告調度引擎模塊(7); 55:廣告調度引擎模塊(7)將最終的廣告排序返回給用戶端并進行展示。
7.如權利要求6所述的面向大規模媒體數據的在線廣告推薦方法,其特征在于:步驟S3中,所述用戶行為挖掘模塊(3)在線預測結果的步驟為:S31:用戶行為挖掘模塊(3)對所接收的用戶在線日志按照詞典進行快速的分詞; S32:依次獲取到每一個詞,按照其在詞典中的詞典序,在所建立的索引結構中進行檢索,得到包含該詞的所有支持向量; S33:按照公式
8.如權利要求7所述的面向大規模媒體數據的在線廣告推薦方法,其特征在于:所述步驟S32中,所述索引結構由兩部分組成,一部分為分類器級別的信息列表,包含分類器ID、分類器權重、分類器內部的核心參數以及分類器包含的支持向量數量;另一部分為由哈希表構成的倒排索引,所述倒排索引的每一個key代表一個詞,value表示包含這個詞的支持向量集合。
9.如權利要求8所述的面向大規模媒體數據的在線廣告推薦方法,其特征在于:所述索引結構是通過以下步驟離線建立的: S321:基于一定時間內所截獲的大量用戶的原始瀏覽和搜索行為數據,按照蒙特卡洛分布比例進行樣本隨機抽取,得到一個SVM分類器的訓練樣本集,基于這種方式在每一個訓練樣本集中均能訓練出一個SVM分類器; S322:將訓練得到的一個SVM分類器按照支持向量進行提取,按照每一個支持向量包含的詞,插入到倒排索引中; S323:判斷當前分類器的支持向量是否全部插入,如果是,轉入S326,如果否,轉入S324 ; S324:判斷倒排索引中哈希表的槽位沖突比是否超過λ,如果是,轉入S325,如果否,轉入S322 ; S325:自動調整哈希表來完成倒排索引的重構,之后轉入S322 ; S326:將該分類器的信息插入到分類器級別的信息列表中; S327:判斷所有分類器是否全部插入,如果是,結束,如果否,轉入S322。
10.如權利要求9所述的面向大規模媒體數據的在線廣告推薦方法,其特征在于:所述索引結構建立以后,根據分類器的ID,獲取到分類器中包含的第一個支持向量地址P ;當指針P為非空時,沿著指針P依次進行刪除操作,當支持向量列表為空,刪除該key對應的支持向量鏈,當支持向量列表為非空,將該支持向量從雙向鏈表中摘除;當指針P為空時,刪除相應的分類器信息。
【文檔編號】G06F17/30GK103955842SQ201410148218
【公開日】2014年7月30日 申請日期:2014年4月14日 優先權日:2014年4月14日
【發明者】糜萬軍, 金俏, 李軍, 李馥岑, 邱建剛, 楊緒升 申請人:武漢烽火普天信息技術有限公司