一種數據推送方法及裝置的制造方法
【專利摘要】本發明實施例涉及一種數據推送方法和裝置,其中方法包括:獲取用戶的用戶行為信息,所述用戶行為信息包括用戶的具體操作行為和所述具體操作行為對應的多媒體數據;獲取所述多媒體數據對應的多媒體屬性標簽;根據所述具體操作行為和所述多媒體屬性標簽,解析出所述用戶的興趣分類標簽;根據所述用戶的興趣分類標簽,推送多媒體數據給用戶。裝置包括用戶行為信息獲取模塊、多媒體屬性標簽獲取模塊、解析模塊、推送模塊。本發明挖掘了視頻用戶的興趣分類標簽興趣分類,從興趣分類標簽維度進行用戶畫像,基于個性化的用戶畫像實現視頻數據的個性化精準推送。
【專利說明】
一種數據推送方法及裝置
技術領域
[0001]本發明實施例屬于互聯網技術領域,尤其涉及一種數據推送方法及系統。
【背景技術】
[0002]隨著移動互聯網時代的到來,視頻服務的訪問量越來越大,電影、電視劇、體育、文化、娛樂、教育等各式各樣的視頻內容層出不窮,五花八門。面對海量的資源,怎樣讓人們找到自己需要的視頻顯得越來越重要。因此用戶和視頻內容之間的連接形式由傳統的搜索方式逐步向推薦方式過渡,怎樣去給使用視頻服務的人推薦更好的內容,個性化顯得尤為重要。在現有的技術方案中一般采用建立用戶畫像的方式來推薦視頻,但是現有的建立用戶畫像的過程只是根據用戶訪問視頻的ID歷史以及人工打上的標簽建立用戶畫像,畫像層次性不清晰,而且人工標簽有好有壞,重要性難以把握,同時不能覆蓋所有重要的用戶行為,從而建立的用戶畫像不能向用戶實現精準的視頻推薦。
【發明內容】
[0003]基于上述背景,本發明實施例提供了一種數據推送方法及系統,本發明實施例的目的是通過為用戶建立個性化的用戶畫像,從而實現個性化的數據內容推送。
[0004]本發明實施例第一方面提供了一種數據推送方法,具體技術方案包括:
[0005]獲取用戶的用戶行為信息,所述用戶行為信息包括用戶的具體操作行為和所述具體操作行為對應的多媒體數據;
[0006]獲取所述多媒體數據對應的多媒體屬性標簽;
[0007]根據所述具體操作行為和所述多媒體屬性標簽,解析出所述用戶的興趣分類標簽;
[0008]根據所述用戶的興趣分類標簽,推送多媒體數據給用戶。
[0009]本發明實施例第二方面提供一種數據推送裝置,具體包括:
[0010]用戶行為信息獲取模塊,用于獲取用戶的用戶行為信息,獲取的用戶行為信息包括用戶的具體操作行為和所述具體操作行為對應的多媒體數據;
[0011]多媒體屬性標簽獲取模塊,用于獲取所述多媒體數據對應的多媒體屬性標簽;
[0012]解析模塊,根據所述具體操作行為和所述多媒體屬性標簽,解析出所述用戶的興趣分類標簽;
[0013]推送模塊,用于根據所述用戶的興趣分類標簽,推送多媒體數據給用戶。
[0014]本發明實施例具有如下有益效果:根據用戶操作行為中挖掘視頻用戶的興趣分類標簽,從而實現了個性化的用戶畫像,基于用戶畫像實現視頻數據的個性化精準推送。
【附圖說明】
[0015]為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0016]圖1為本發明實施例一提供的數據推送方法流程圖;
[0017]圖2為本發明實施例二提供的解析用戶興趣分類標簽的流程圖;
[0018]圖3為本發明實施例二提供的解析用戶興趣分類標簽的另一流程圖;
[0019]圖4為本發明實施例三提供的數據推送方法流程圖;
[0020]圖5為本發明實施例三提供的擴展興趣分類標簽的流程圖;
[0021]圖6為本發明實施例三提供的用戶屬性信息獲取流程圖;
[0022]圖7為本發明實施例三提供的推送多媒體數據的處理流程圖;
[0023]圖8為本發明實施例四提供的數據推送裝置結構框圖;
[0024]圖9為本發明實施例五提供的解析模塊的結構示意圖。
[0025]圖10為本發明實施例六提供的數據推送裝置結構框圖;
[0026]圖11為本發明實施例六提供的擴展興趣分類標簽模塊的結構示意圖;
[0027]圖12為本發明實施例六提供的用戶屬性信息獲取模塊模塊的結構示意圖。
【具體實施方式】
[0028]為了使本技術領域的人員更好地理解本發明方案,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述。顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例,附圖中給出了本發明的較佳實施例。本發明可以以許多不同的形式來實現,并不限于本文所描述的實施例,相反地,提供這些實施例的目的是使對本發明的公開內容的理解更加透徹全面。基于本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
[0029]除非另有定義,本文所使用的所有的技術和科學術語與屬于本發明的技術領域的技術人員通常理解的含義相同。本文中在本發明的說明書中所使用的術語只是為了描述具體的實施例的目的,不是旨在于限制本發明。本發明的說明書和權利要求書及上述附圖中的術語“第一”、“第二”等是用于區別不同對象,而不是用于描述特定順序。此外,術語“包括”和“具有”以及它們任何變形,意圖在于覆蓋不排他的包含。例如包含了一系列步驟或單元的過程、方法、系統、產品或設備沒有限定于已列出的步驟或單元,而是可選地還包括沒有列出的步驟或單元,或可選地還包括對于這些過程、方法、產品或設備固有的其他步驟或單元。
[0030]在本文中提及“實施例”意味著,結合實施例描述的特定特征、結構或特性可以包含在本發明的至少一個實施例中。在說明書中的各個位置出現該短語并不一定均是指相同的實施例,也不是與其它實施例互斥的獨立的或備選的實施例。本領域技術人員顯式地和隱式地理解的是,本文所描述的實施例可以與其它實施例相結合。
[0031 ] 實施例一
[0032]參閱圖1所示的流程圖,圖1為本發明實施例提供的一種數據推送方法流程圖,具體包括:
[0033]S1、獲取用戶的用戶行為信息,所述用戶行為信息包括用戶的具體操作行為和所述具體操作行為對應的多媒體數據;
[0034]具體地,獲取用戶在不同終端和/或不同平臺上的用戶行為信息。視頻內容提供商向用戶提供視頻服務,一般的呈現形式有兩種,一種是通過專門的客戶端呈現,如視頻播放器,采用的是C/S架構,一種是通過瀏覽器網頁呈現,采用的是B/S架構。相應地,視頻內容提供商通過視頻播放器客戶端和網頁兩個基本途徑來采集用戶行為信息。
[0035]在本發明實施例中,所述的終端平臺是指可以連接網絡的不同類型硬件終端設備,硬件終端設備包括但不限于PC(個人電腦)、智能移動終端(手機)或者是智能電視,在這些終端平臺上,可通過視頻內容提供商所提供的專用視頻播放器或者通過網頁來獲取用戶行為信息。
[0036]為了確保收集的用戶行為信息有意義,必須確定所獲得的用戶行為信息是屬于同一個用戶,除了根據用戶登錄的注冊賬號來確認之外,還可以通過高頻使用的硬件設備來確定。比如現有硬件設備A,如果某一注冊賬號Admin在一定時間段內多次登錄硬件設備A,則視頻內容提供商即可判斷從此硬件設備A收集的用戶使用信息屬于注冊賬號Admin,其中一定時間段是系統預設的閾值,根據本實施例的一種方案,如果已經判斷為硬件設備A收集的用戶使用信息屬于注冊賬號Admin,賬號Admin在沒有登陸的情況下,用戶使用硬件設備A時執行的視頻瀏覽播放操作,如果這些操作在前述的時間段閾值范圍內,那么這些操作將默認為是隸屬于賬號Admin的用戶行為信息。
[0037]實際上用戶的行為信息包括兩個大類,一類是與用戶相關的行為信息,主要指用戶的具體操作行為,包括但不限于觀看、點擊、收藏、關注、搜索等操作行為;另一類是基于用戶操作得到的衍生行為信息,主要指用戶操作的多媒體所對應的多媒體數據信息,比如視頻名稱、視頻關鍵詞、視頻標簽、視頻所屬分類等。
[0038]可選地,從不同平臺獲取用戶行為信息具體是指抓取用戶存儲在不同互聯網終端平臺上的不同用戶行為信息進行鏡像備份。由于不同平臺保存的用戶行為信息會存在差異,基于不同平臺的用戶行為信息鏡像備份,方便信息整合。
[0039]S2、獲取所述多媒體數據對應的多媒體屬性標簽;
[0040]在本實施例中,多媒體數據指具體的視頻數據,視頻數據相應地包括視頻的名稱和人工標注的視頻分類標簽等信息。可選地,多媒體屬性標簽具體地指人工標注的視頻分類標簽。獲得多媒體數據對應的多媒體屬性標簽后,可以刪除所述多媒體數據對應的多媒體屬性標簽中不合理的標簽。
[0041]S3、根據用戶的具體操作行為和多媒體屬性標簽,解析出用戶的興趣分類標簽;
[0042]在本步驟中根據用戶的具體操作行為和操作對應的多媒體數據的多媒體屬性標簽,解析得到用戶感興趣的多媒體屬性標簽,即得到了用戶的興趣分類標簽。可選地,用戶興趣分類標簽儲存在系統的緩存數據庫中,或者存儲在Hadoop分布式文件系統(HDFS)上。[0043 ] S4、根據所述用戶興趣分類標簽,推送多媒體數據。
[0044]具體的,通過在多媒體數據庫中匹配包含所述興趣分類標簽的多媒體數據,將篩選后的多媒體數據推送到用戶的不同終端和/或不同平臺上。視頻數據的個性化推薦及推送的精準率,取決于用戶的使用行為信息的積累,用戶每一次的操作都會影響用戶興趣分類標簽,用戶行為信息數量與個性化推送精準率之間呈現非線性正相關。
[0045]通過本發明實施例,從用戶的用戶行為信息中挖掘了行為信息對應的多媒體數據,進而獲得多媒體數據的標簽,基于用戶行為信息和多媒體的標簽即可得到用戶的興趣分類標簽,從而實現個性化的用戶畫像,并且基于個性化的用戶畫像可實現視頻數據的個性化精準推送。
[0046]實施例二
[0047]基于實施例一,一并參閱圖2所示的流程圖,圖2所示為根據所述具體操作行為和所述多媒體屬性標簽,解析出所述用戶的興趣分類標簽的具體實現過程,具體包括如下步驟:
[0048]S31、將所述具體操作行為進行分類,對每類所述具體操作行為賦予權重值。
[0049]一方面,對用戶的具體操作行為進行分類標注。用戶具體操作行為屬于用戶行為信息的一種,對用戶行為信息的標注方式可以有多種,如名稱標注、操作類型標注、關鍵詞標注等。在本實施例中,用戶行為信息指用戶的具體操作行為和其對應的多媒體數據,用戶的具體操作行為包含不同的類型,相應地為了區分不同類型的用戶具體操作行為信息,需要對各類型具體操作行為信息進行標注,例如可以標注為點擊、播放、收藏、關注等。每個從硬件平臺抓取的鏡像備份信息都可以根據不同的角度做不同的標注。可選地,基于不同的用戶行為信息,系統可以預設多個標簽,具體標注時,只需將預設標簽與用戶行為信息關聯。
[0050]另一方面,對分類標注后的用戶行為信息執行權重賦值操作。具體地,不同的用戶行為信息對應不同的權重,根據本實施例的一種可選方案,基于用戶行為信息與個性化推薦的關聯度,預設用戶視頻播放行為的權重高于用戶點擊行為的權重,用戶點擊行為的權重高于用戶搜索行為的權重。
[0051]可選地,為預設的多個標簽分配預設權重,根據預設的權重對標注后的用戶行為信息執行賦值操作。比如預設前述用戶視頻播放行為、用戶點擊行為、用戶搜索行為的權重比例為3:2:1。
[0052]S32、獲取所述多媒體屬性標簽對應的所述具體操作行為的統計數據。
[0053]前文提到,用戶行為信息包括基于用戶操作得到的衍生行為信息,具體的,用戶行為包括一系列的操作,如觀看、點擊、關注、收藏、搜索等,這些操作對應的操作目標即為視頻數據,每個視頻數據對應獨立的標簽。獲取多媒體屬性標簽對應的具體操作行為的統計數據具體指統計視頻數據的標簽所對應的用戶的各種操作行為的發生次數,比如點擊次數,播放次數,收藏次數、關注次數等。
[0054]S33、根據每類所述具體操作行為的權重值和所述多媒體屬性標簽對應的所述具體操作行為的統計數據,獲得所述多媒體屬性標簽的權重值;
[0055]可選地,視頻數據的標簽采用權重加權的方式獲得各標簽權重,標簽權重有如下計算公式:
[0056]W=al*Bl+a2*B2+."+an*Bn (η為正整數)
[0057]W指標簽權重;
[0058]an為具體操作行為的權重,Bn為標簽對應的用戶具體操作行為的發生次數。
[0059]S34、根據所述多媒體屬性標簽的權重值得到所述用戶的興趣分類標簽。
[0060]對于單層級標簽,若其中某個標簽M的權重最高,那么判斷用戶喜好標簽是M,可以設定一個閾值,將權重大于閾值的所有標簽均判斷為用戶的興趣分類標簽。
[0061]通過用戶的具體操作行為和操作行為對應的多媒體數據,可以快速準確地獲得用戶的興趣分類標簽。
[0062]作為本實施例的可選實施方式,如圖3所示為根據所述具體操作行為和所述多媒體屬性標簽,解析出所述用戶的興趣分類標簽的另一種實現過程,具體包括如下步驟:
[0063]S’31、將所述具體操作行為進行分類,對每類所述具體操作行為賦予權重值。
[0064]一方面,對用戶的具體操作行為進行分類標注。
[0065]用戶具體操作行為屬于用戶行為信息的一種,對用戶行為信息的標注方式可以有多種,如名稱標注、操作類型標注、關鍵詞標注等。在本可選實施例中,用戶行為信息指用戶的具體操作行為和其對應的多媒體數據,用戶的具體操作行為包含不同的類型,相應地為了區分不同類型的用戶具體操作行為信息,需要對各類型具體操作行為信息進行標注,例如可以標注為點擊、播放、收藏、關注等。每個從硬件平臺抓取的鏡像備份信息都可以根據不同的角度做不同的標注。可選地,基于不同的用戶行為信息,系統可以預設多個標簽,具體標注時,只需將預設標簽與用戶行為信息關聯。
[0066]另一方面,對分類標注后的用戶行為信息執行權重賦值操作。
[0067]具體地,不同的用戶行為信息對應不同的權重,根據本實施例的一種可選方案,基于用戶行為信息與個性化推薦的關聯度,預設用戶視頻播放行為的權重高于用戶點擊行為的權重,用戶點擊行為的權重高于用戶搜索行為的權重。
[0068]可選地,為預設的多個標簽分配預設權重,根據預設的權重對標注后的用戶行為信息執行賦值操作。比如預設前述用戶視頻播放行為、用戶點擊行為、用戶搜索行為的權重比例為3:2:1。
[0069]S’32、獲取多層標簽中底層標簽對應的具體操作行為的統計數據。
[0070]根據本實施例可選方案,具體操作行為對應的操作目標為視頻數據,每個視頻數據對應獨立的層次化的標簽,可選地所述層次化的標簽具體分為三層,分別為大類、子類和實體標簽,視頻數據的層次化標簽中,大類標簽處于上層,子類標簽處于中間層,實體標簽位于底層。大類例如為電視劇、電影等,子類例如喜劇、古裝劇等,實體標簽例如劉德華、故宮等人物或者具體建筑,不同的大類,其子類的名稱有可能相同,比如大類電視劇,其子類包括古裝劇、都市劇,同時大類電影的子類也可以包括古裝劇、都市劇,每個視頻對應的大類至實體標簽逐層精細化,且三層結構標簽為人為預設,可選地,預設可以來自兩個方面,一方面是視頻數據提供商設定的標簽,另一方面是用戶在觀看視頻時留下的對該視頻的描述。因此獲取所述多媒體數據對應的層次化標簽具體是指解析三個層次的標簽具體內容,比如電影美人魚,通過解析得到其大類便簽對應為電影,子類標簽對應為喜劇,實體標簽可對應但不限于周星馳,進一步地,得到的“電影-喜劇-周星馳”三層標簽即為與所述用戶行為信息相關聯的層次化的興趣分類標簽。
[0071]可選地,用戶具體操作行為包括一系列的操作,如觀看、點擊、關注、收藏、搜索等,因此獲取底層標簽對應的用戶具體操作行為的統計數據具體指統計視頻數據的實體標簽所對應的用戶的各種操作行為的發生次數,比如點擊次數,播放次數,收藏次數、關注次數等。
[0072]可選地,視頻數據每一層不限于一個分類標簽,比如電影“西游降魔篇”可以包含喜劇片、魔幻片等多個子類標簽。
[0073]可選地,獲得多媒體數據對應的層次化標簽后,刪除所述多媒體數據對應的層次化標簽中不合理的標簽,具體為對不合理的標簽采用清洗技術進行刪除,建立層次化的分類標簽。在本實施例中,清洗技術是刪除無意義的標簽如非法字符等,使結果更加準確。
[0074]S’33、根據每類所述具體操作行為的權重值和所述底層標簽對應的所述用戶具體操作行為的統計數據,獲得所述多層標簽中各層標簽的權重值;
[0075]視頻數據的底層實體標簽采用權重加權的方式獲得實體標簽權重,實體標簽權重有如下公式:
[0076]W=al*Bl+a2*B2+."+an*Bn (η為正整數)
[0077]W指標簽權重;
[0078]an為具體操作行為的權重,Bn為標簽對應的用戶具體操作行為的發生次數。
[0079]根據本方案的可選的實施方式,上文提到,用戶視頻播放行為、用戶點擊行為、用戶搜索行為的權重比例為3:2:1,在本實例中,設置播放行為權重為3,點擊權重為2,搜索權重為1,若用戶Ul對視頻Vl播放2次,點擊4次,搜索I次,視頻Vl的標簽為“體育”、“籃球”、“科比,,,則“科比”的權重為W(科比)=3*2+2*4+1*1 = 15;
[0080]根據可選實施例,若該用戶Ul的層次化標簽中有“體育-籃球-科比/喬丹/奧尼爾/姚明”,那么子類“籃球”的權重為其子標簽(實體標簽)“科比喬丹”/“奧尼爾”/“姚明”的權重平均值。
[0081]根據可選實施例,大類“體育”的權重同樣為其子標簽(子類)的權重平均值。
[0082]S’34、根據所述各層標簽的權重值得到用戶的興趣分類標簽。
[0083]若同層級標簽中某個標簽Ml的權重最高,那么判斷用戶喜好標簽是Ml。如果同層級標簽中所有標簽的權重持平,那么設定一個調試好的閾值threshold,將上一層標簽權重乘以閾值thr esho I d與當前層級標簽的權重進行比較,如果當前層級中某個標簽M2的權重大于上一層標簽權重乘以閾值threshold,則判斷用戶喜好標簽是當前層級中的標簽M2,如果當前層級中所有標簽的權重都小于上一層標簽權重乘以閾值threshold,那么判斷當前層級的上一級標簽為用戶的喜好標簽。
[0084]根據可選實施例,以層次化標簽“體育-籃球-科比/喬丹/奧尼爾/姚明”為例,計算用戶興趣標簽時,若同級實體標簽中籃球權重最高,則判斷該用戶喜好標簽是“籃球”;若各子標簽權重分布較平均,如果W(子標簽KW(籃球)*threShold,則該用戶喜好為“籃球”;如果W(科比)>W(籃球)*threshold,則喜好標簽為“科比”。
[0085]綜上所述,本發明實施例對包含標簽的多媒體數據,通過權重運算獲得各標簽的權重值,將指標量化,方便快速獲取興趣分類便簽,特別地,對于多層便簽的多媒體數據,挖掘了視頻用戶的層次化的興趣分類標簽,從寬泛類別到精細化類別,便于在推薦排序中進行標簽特征的組合,提高推薦的準確效果。
[0086]實施例三
[0087]基于實施例一或實施例二,本發明實施例提供的數據推送方法還包括擴展興趣分類標簽和獲取用戶的用戶屬性信息,如圖4所示,本實施例提供的數據推送方法具體包括如下步驟:
[0088]S’1、獲取用戶的用戶行為信息,所述用戶行為信息包括用戶的具體操作行和所述具體操作行為對應的多媒體數據;
[0089]S’2、獲取所述多媒體數據對應的多媒體屬性標簽;
[0090]S’3、根據所述具體操作行為和所述多媒體屬性標簽,解析出所述用戶的興趣分類標簽;多媒體屬性標簽可以是單層也可以是多層。
[0091]S’4、擴展趣分類標簽;
[0092]具體的,擴展的標簽可以是單層或者多層,有這樣的情況,由于沒有編輯各層級標簽,有些視頻數據缺少標簽或者層次化標簽不完善,需要通過機器學習的方式(比如采用樸素貝葉斯分類算法或者LDA聚類算法)來補全這些缺少或者不完善的標簽,如圖5所示,具體的,擴展興趣分類標簽的過程如下:
[0093]S’41、獲取包含多媒體屬性標簽的多媒體數據的輔助信息;
[0094]獲取包含層次化標簽的多媒體數據的輔助信息,其中輔助信息包括多媒體數據的名稱、人工標注,這些包含層次化標簽的多媒體數據是用戶擴展興趣分類標簽的原始數據。
[0095]S’42、根據所述輔助信息和所述多媒體屬性標簽建立第一貝葉斯分類模型;
[0096]S’43、獲取缺失標簽的多媒體數據的輔助信息并輸入第一貝葉斯分類模型,得到缺失標簽;
[0097]根據可選實施例,對于包含多層標簽的多媒體數據,缺失標簽是指這些視頻數據缺失的大類標簽、子類標簽和實體標簽。
[0098]S’44、將得到的所述缺失標簽與所述興趣分類標簽中的標簽合并,獲取所述合并后的興趣分類標簽中各標簽的權重值,得到擴展的興趣分類標簽。
[0099]根據可選的實施例,權重值的計算與前述計算方式相同,從而得到擴展的興趣分類標簽。
[0100]S’5、獲取用戶的屬性信息,
[0101]可選地,根據用戶的興趣分類標簽推送多媒體數據給用戶具體為根據用戶興趣分類標簽和用戶屬性信息推送多媒體數據給用戶,如圖4所示。
[0102]用戶屬性包含多個維度,比如性別、年齡VIP等級、活躍度、等基礎屬性。然后有些用戶在平臺上并沒有屬性信息,或者屬性信息不完整,則可以通過如下方式獲取用戶的用戶屬性信息,如圖6所示:
[0103]S’51、獲取樣本用戶的用戶屬性信息;
[0104]S’52、獲取所述樣本用戶的興趣分類標簽;
[0105]S’53、根據所述樣本用戶的用戶屬性信息和興趣分類標簽建立第二貝葉斯分類模型;
[0106]S’54、獲取所述用戶的興趣分類標簽并輸入所述第二貝葉斯分類模型,得到所述用戶的用戶屬性信息。
[0107]根據本實施例的可選方案,具體獲取過程如下:獲取現有樣本用戶的屬性信息,包括用戶性別、年齡;獲取現有樣本用戶對應的播放記錄、興趣分類標簽;根據所述現有樣本用戶的人口屬性數據和對應的播放記錄、興趣分類標簽建立貝葉斯分類模型;獲取新用戶的播放記錄、興趣分類標簽并輸入貝葉斯分類模型,得到新用戶的用戶屬性信息。
[0108]其中得到的新用戶的用戶屬性信息屬于根據模型推測出來的數據,為了提升模型推測數據的準確率,可通過利用新的用戶的用戶屬性信息來訓練模型。同樣的用戶屬性信息還可以包括用戶職業。
[0109]根據本實施例的可選方案,如圖7所示,根據所述用戶興趣分類標簽和所述用戶屬性,推送多媒體數據具體包括:
[0110]S’61、獲取包含所述興趣分類標簽的多媒體數據,所述多媒體數據與用戶屬性關聯;
[0111]多媒體數據與用戶屬性關聯,具體的指用戶可獲取的視頻資源根據不同的用戶屬性而存在差異,比如在視頻網站中的付費資源關聯至VIP會員;根據某用戶的定位,相應關聯與位置相關的資源等。
[0112]S’62、根據所述用戶屬性篩選所述多媒體數據;
[0113]可選地,以VIP為例,現有付費資源,根據用戶的興趣分類標簽匹配到了該付費資源,在向用戶推送該資源時,首先判斷該用戶是否是VIP會員,若是則推送給用戶,否則將該付費資源從推薦列表中刪除或者選擇性地推薦給用戶。如何選擇性推薦給用戶,以用戶活躍度為例,比如當用戶活躍度比較高時,在其不是VIP會員的情況下,依然向其推薦該付費資源,以引導該活躍度較高的用戶開通VIP會員。
[0114]S’63、將篩選后的所述多媒體數據推送給所述用戶。
[0115]本實施例中將多個的體系形成畫像維度,比如用戶興趣分類標簽,用戶屬性、人口屬性等等,基于多個畫像維度可建立用戶畫像。具體的,通過聚合用戶興趣分類標簽和用戶屬性等維度的數據,在多媒體數據庫中匹配包含所述興趣分類標簽的多媒體數據,根據所述用戶屬性篩選匹配的多媒體數據,將篩選后的多媒體數據推送到不同終端和/或不同平臺上。聚合的用戶興趣分類標簽和用戶屬性是一個動態的用戶個性化信息數據綜合。視頻數據的個性化推薦及推送的精準率,取決于用戶的使用行為信息的積累,用戶每一次的操作都會影響用戶興趣分類標簽和用戶屬性,用戶行為信息量與個性化推送精準率之間呈現非線性正相關。
[0116]本發明實施例通過擴展興趣分類標簽,可以增加用戶可獲得推薦的視頻資源的數量,使得興趣分類標簽這一維度的數據更加精細全面,同時再增加用戶屬性信息這一維度的數據來給用戶畫像,有利于個性化的用戶畫像,對不同用戶實現精準的視頻推薦。
[0117]實施例四
[0118]如圖8所示,本發明實施例三提供一種數據推送裝置,裝置具體包括用戶行為信息獲取模塊O1、多媒體屬性標簽獲取模塊02、解析模塊03、推送模塊04。其中:
[0119]用戶行為信息獲取模塊01用于獲取用戶的用戶行為信息,所述用戶行為信息包括用戶的具體操作行和所述具體操作行為對應的多媒體數據,具體的獲取用戶在不同終端和/或不同平臺上的用戶行為信息,用戶行為信息模塊01從不同終端和/或不同平臺獲取用戶行為信息具體是指抓取用戶存儲在不同互聯網終端平臺上的不同用戶行為信息進行鏡像備份。其中互聯網終端平臺包括電腦、手機、電視等,抓取的用戶行為具體包括觀看、點擊、收藏、關注、搜索等操作。
[0120]多媒體屬性標簽獲取模塊02用于獲取每個所述用戶行為信息對應的多媒體數據的屬性標簽,多媒體數據具體指獲取用戶觀看、點擊、收藏、關注、搜索等操作所針對的視頻或者視頻合集。
[0121]可選地,多媒體屬性標簽獲取模塊02包括篩選子單元,用于刪除多媒體數據對應的標簽中不合理的標簽。具體的,篩選子單元對不合理的標簽采用清洗技術進行刪除。
[0122]解析模塊03用于根據用戶行為信息獲取模塊01獲得的用戶具體操作行為和多媒體屬性標簽獲取模塊02獲得多媒體屬性標簽,解析出用戶的興趣分類標簽。
[0123]推送模塊04根據用戶興趣分類標簽,推送多媒體數據給用戶。具體的,推送模塊04在檢測到用戶的相關操作時,如打開視頻內容提供商提供的專用視頻播放器,或者打開視頻內容提供商的視頻網站時,根據用戶的興趣分類標簽匹配相應的視頻資源,向用戶的互聯網終端設備推送個性化的視頻數據。
[0124]通過本發明實施例,從用戶的用戶行為信息中挖掘了行為信息對應的多媒體數據,進而獲得多媒體數據的標簽,基于用戶行為信息和多媒體的標簽即可得到用戶的興趣分類標簽,從而實現個性化的用戶畫像,并且基于個性化的用戶畫像可實現視頻數據的個性化精準推送。
[0125]實施例五
[0126]基于實施例四,根據本發明實施例的一種可選方案,如圖9所示,解析模塊03具體包括:賦值單元031,統計單元032,標簽權重獲取單元033,興趣分類標簽獲取單元034,其中:
[0127]賦值單元031用于將所述具體操作行為進行分類,對每類所述具體操作行為賦予權重值。具體的,對用戶行為信息進行分析歸類,對不同類型的用戶行為信息進行多角度、多類型的標注,每一項用戶行為信息對應獨立的標注,以對各類型用戶行為信息加以區分,然后對標注后的信息賦予權重值,具體的,賦值單元031根據預設的權重比例對不同的用戶行為信息進行賦予相應的權重。
[0128]可選地,賦值單元031不對具體操作行為進行分類,在執行賦予權重值的操作前,用戶的具體操作行為已經被分類。
[0129]統計單元032用于獲取多媒體屬性標簽對應的用戶行為的發生次數,具體地,統計單元032獲取實體標簽所對應的用戶的各種行為操作的發生次數,比如點擊次數,播放次數,收藏次數、關注次數等。
[0130]標簽權重獲取單元033用于根據分類標注后的用戶行為信息的權重值和所述底層標簽對應的用戶行為的發生次數,獲得層次化標簽各層標簽的權重值。
[0131 ]標簽權重獲取單元033具體執行如下加權公式:
[0132]W=al*Bl+a2*B2+…+an*Bn (η為正整數)
[0133]W指標簽權重;
[0134]an為具體操作行為的權重,Bn為標簽對應的用戶具體操作行為的發生次數。
[0135]基于實施例四,根據本發明實施例的一種可選方案,如圖9所示,解析模塊的包含的各個單元處理的內容如下:
[0136]賦值單元031將具體操作行為進行分類,對每類具體操作行為賦予權重值。
[0137]統計單元032獲取多層標簽中的底層標簽對應的具體操作行為的統計數據。可選地,多媒體數據包含的多層標簽,多層標簽具體分為三層,分別為大類標簽、子類標簽和實體標簽。
[0138]統計單元032用于獲取底層標簽對應的用戶行為的發生次數,具體地,統計單元032獲取實體標簽所對應的用戶的各種行為操作的發生次數,比如點擊次數,播放次數,收藏次數、關注次數等。
[0139]標簽權重獲取單元033用于根據分類標注后的用戶行為信息的權重值和所述底層標簽對應的用戶行為的發生次數,獲得層次化標簽各層標簽的權重值。
[0140]可選地,標簽權重獲取單元033具體執行如下加權公式:
[0141]W=al*Bl+a2*B2+."+an*Bn (η為正整數)
[0142]W指實體標簽權重;
[0143]an為權重,Bn為底層標簽對應的用戶行為的發生次數。
[0144]可選地,標簽權重獲取單元033同時還通過計算子標簽的權重平均值得到父標簽的權重值。
[0145]興趣分類標簽獲取單元034用于根據所述各層標簽的權重值得到用戶的興趣分類標簽。具體地,興趣分類標簽獲取單元034’通過比較兩種類型的權重的來判斷獲得用戶的興趣分類標簽。
[0146]第一種是同層級標簽權重比較;具體的選取同層級中權重最大的標簽作為用戶的興趣分類標簽;
[0147]第二種是相鄰層級標簽權重比較;將父標簽的權重乘以預設的閾值threshold,與子標簽的權重進行比較,若前者大與后者,則選取父標簽作為用戶的興趣分類標簽,反之則選取子標簽為用戶的興趣分類標簽。
[0148]本發明實施例對包含標簽的多媒體數據,通過權重運算獲得各標簽的權重值,將指標量化,方便快速獲取興趣分類便簽,特別地,對于多層便簽的多媒體數據,挖掘了視頻用戶的層次化的興趣分類標簽,從寬泛類別到精細化類別,便于在推薦排序中進行標簽特征的組合,提高推薦的準確效果。
[0149]實施例六
[0150]本發明實施例提供另一種可選實施例,基于實施例四和實施例五提供的數據推送裝置的可選實施例,數據推送裝置還包括擴展興趣分類標簽模塊和用戶屬性信息獲取模塊,具體如圖1O所示,數據推送裝置包括:
[0151]用戶行為信息獲取模塊01、多媒體屬性標簽獲取模塊02、解析模塊03、推送模塊
04、擴展興趣分類標簽模塊05、用戶屬性信息獲取模塊06。
[0152]用戶行為信息獲取模塊01用于獲取用戶的用戶行為信息,所述用戶行為信息包括用戶的具體操作行和所述具體操作行為對應的多媒體數據。
[0153]多媒體屬性標簽獲取模塊02獲取所述多媒體數據對應的多媒體屬性標簽。
[0154]解析模塊03根據所述具體操作行為和所述多媒體屬性標簽,解析出所述用戶的興趣分類標簽。多媒體屬性標簽可以是單層,也可以是多層。
[0155]擴展興趣分類標簽模塊05用于擴展趣分類標簽,具體的,擴展的標簽可以是單層或者多層,擴展興趣分類標簽模塊05的結構包含如下部分,如圖11所示:
[0156]輔助信息獲取單元051、第一建模單元052、缺失標簽獲取單元053、擴展興趣分類標簽獲取單元054。
[0157]輔助信息獲取單元051用于包含多媒體屬性標簽的多媒體數據的輔助信息
[0158]第一建模單元052用于根據輔助信息和多媒體屬性標簽建立第一貝葉斯分類模型;
[0159]缺失標簽獲取單元053用于獲取缺失標簽的多媒體數據的輔助信息并輸入第一貝葉斯分類模型,得到缺失標簽;
[0160]擴展興趣分類標簽獲取單元054用于將得到的缺失標簽與興趣分類標簽中的標簽合并,獲取合并后的興趣分類標簽中各標簽的權重值,得到擴展的興趣分類標簽。
[0161]根據可選的實施例,權重值的計算與前述計算方式相同,從而得到擴展的興趣分類標簽。
[0162]用戶屬性信息獲取模塊06用于獲取用戶在不同平臺的用戶屬性信息。具體的,用戶屬性信息獲取模塊06具體獲取比如人口屬性,以及VIP、位置、活躍度、觀看歷史等基礎屬性,可選地,存儲所述用戶屬性,比如存儲在Hadoop分布式文件系統(HDFS)和/或緩存數據庫中。
[0163]用戶屬性信息獲取模塊06的結構包含如下部分,如圖12所示:
[0164]樣本用戶屬性信息獲取單元061、樣本用戶興趣分類標簽獲取單元062、第二建模單元063、用戶屬性信息獲取單元064。
[0165]樣本用戶屬性信息獲取單元061獲取樣本用戶的用戶屬性信息;
[0166]樣本用戶興趣分類標簽獲取單元062獲取所述樣本用戶的興趣分類標簽;
[0167]第二建模單元063根據所述樣本用戶的用戶屬性信息和興趣分類標簽建立第二貝葉斯分類模型;
[0168]用戶屬性信息獲取單元064獲取所述用戶的興趣分類標簽并輸入所述第二貝葉斯分類模型,得到所述用戶的用戶屬性信息。
[0169]可選地,以挖掘人口屬性為例,用于根據現有用戶的人口屬性數據和對應的播放記錄、興趣分類標簽建立第二貝葉斯分類模型,并將新用戶的播放記錄、興趣分類標簽輸入所述第二貝葉斯分類模型,得到新用戶的人口屬性數據。
[0170]可選地,推送模塊04根據所述用戶興趣分類標簽和所述用戶屬性,推送多媒體數據。具體的,推送模塊04在檢測到用戶的相關操作時,如打開視頻內容提供商提供的專用視頻播放器,或者打開視頻內容提供商的視頻網站時,匹配用戶的興趣分類標簽和用戶屬性,根據興趣分類標簽和用戶屬性定時或者不定時向用戶的互聯網終端設備推送個性化的視頻數據。
[0171]本發明實施例提供的數據推送裝置,通過擴展興趣分類標簽,可以增加用戶可獲得推薦的視頻資源的數量,使得興趣分類標簽這一維度的數據更加精細全面,同時再增加用戶屬性信息這一維度的數據來給用戶畫像,有利于個性化的用戶畫像,對不同用戶實現精準的視頻推薦。
[0172]以上僅為本發明的優選實施例,但并不限制本發明的專利范圍,盡管參照前述實施例對本發明進行了詳細的說明,對于本領域的技術人員來而言,其依然可以對前述各【具體實施方式】所記載的技術方案進行修改,或者對其中部分技術特征進行等效替換。凡是利用本發明說明書及附圖內容所做的等效結構,直接或間接運用在其他相關的技術領域,均同理在本發明專利保護范圍之內。
【主權項】
1.一種數據推送方法,其特征在于,包括: 獲取用戶的用戶行為信息,所述用戶行為信息包括用戶的具體操作行為和所述具體操作行為對應的多媒體數據; 獲取所述多媒體數據對應的多媒體屬性標簽; 根據所述具體操作行為和所述多媒體屬性標簽,解析出所述用戶的興趣分類標簽; 根據所述用戶的興趣分類標簽,推送多媒體數據給用戶。2.根據權利要求1所述的數據推送方法,其特征在于,所述根據所述具體操作行為和所述多媒體屬性標簽,解析出所述用戶的興趣分類標簽具體包括: 將所述具體操作行為進行分類,對每類所述具體操作行為賦予權重值; 獲取所述多媒體屬性標簽對應的所述具體操作行為的統計數據; 根據每類所述具體操作行為的權重值和所述多媒體屬性標簽對應的所述具體操作行為的統計數據,獲得所述多媒體屬性標簽的權重值; 根據所述多媒體屬性標簽的權重值得到所述用戶的興趣分類標簽。3.根據權利要求1所述的數據推送方法,其特征在于,所述多媒體屬性標簽為多層標簽;所述根據所述具體操作行為和所述多媒體屬性標簽,解析出所述用戶的興趣分類標簽具體包括: 將所述具體操作行為進行分類,對每類所述具體操作行為賦予權重值; 獲取所述多層標簽中底層標簽對應的所述具體操作行為的統計數據; 根據每類所述具體操作行為的權重值和所述底層標簽對應的所述用戶具體操作行為的統計數據,獲得所述多層標簽中各層標簽的權重值; 根據所述各層標簽的權重值得到所述用戶的興趣分類標簽。4.根據權利要求2或3所述的數據推送方法,其特征在于,還包括: 獲取包含多媒體屬性標簽的多媒體數據的輔助信息; 根據所述輔助信息和所述多媒體屬性標簽建立第一貝葉斯分類模型; 獲取缺失標簽的多媒體數據的輔助信息并輸入所述第一貝葉斯分類模型,得到所述缺失標簽; 將得到的所述缺失標簽與所述興趣分類標簽中的標簽合并,獲取所述合并后的興趣分類標簽中各標簽的權重值,得到擴展的興趣分類標簽。5.根據權利要求1至3任意一項所述的數據推送方法,其特征在于,還包括獲取用戶的用戶屬性信息;所述根據所述用戶的興趣分類標簽,推送多媒體數據給用戶具體為:根據所述用戶興趣分類標簽和所述用戶屬性信息,推送多媒體數據給用戶。6.根據權利要求5所述的數據推送方法,其特征在于,獲取用戶的用戶屬性信息包括: 獲取樣本用戶的用戶屬性信息; 獲取所述樣本用戶的興趣分類標簽; 根據所述樣本用戶的用戶屬性信息和興趣分類標簽建立第二貝葉斯分類模型; 獲取所述用戶的興趣分類標簽并輸入所述第二貝葉斯分類模型,得到所述用戶的用戶屬性信息。7.根據權利要求5所述的數據推送方法,其特征在于,所述根據所述用戶興趣分類標簽和所述用戶屬性信息,推送多媒體數據給用戶,具體為: 獲取包含所述興趣分類標簽的多媒體數據,所述多媒體數據與用戶屬性關聯; 根據所述用戶屬性篩選所述多媒體數據; 將篩選后的所述多媒體數據推送給所述用戶。8.一種數據推送裝置,其特征在于,包括: 用戶行為信息獲取模塊,用于獲取用戶的用戶行為信息,獲取的用戶行為信息包括用戶的具體操作行為和所述具體操作行為對應的多媒體數據; 多媒體屬性標簽獲取模塊,用于獲取所述多媒體數據對應的多媒體屬性標簽; 解析模塊,根據所述具體操作行為和所述多媒體屬性標簽,解析出所述用戶的興趣分類標簽; 推送模塊,用于根據根據所述用戶的興趣分類標簽,推送多媒體數據給用戶。9.根據權利要求8所述的數據推送裝置,其特征在于,所述解析模塊具體包括: 賦值單元,用于將所述具體操作行為進行分類,對每類所述具體操作行為賦予權重值; 統計單元,用于獲取所述多媒體屬性標簽對應的所述具體操作行為的統計數據; 標簽權重獲取單元,用于根據每類所述具體操作行為的權重值和所述多媒體屬性標簽對應的所述具體操作行為的統計數據,獲得所述多媒體屬性標簽的權重值; 興趣分類標簽獲取單元,用于根據所述多媒體屬性標簽的權重值得到所述用戶的興趣分類標簽。10.根據權利要求8所述的數據推送裝置,其特征在于,所述多媒體屬性標簽獲取模塊獲取的多媒體數據標簽為多層標簽,所述解析模塊具體包括: 賦值單元,用于將所述具體操作行為進行分類,對每類所述具體操作行為賦予權重值;統計單元,用于獲取所述多層標簽的底層標簽對應的所述具體操作行為的統計數據;標簽權重獲取單元,用于根據每類所述具體操作行為的權重值和所述底層標簽對應的所述具體操作行為的統計數據,獲得所述多層標簽中各層標簽的權重值; 興趣分類標簽獲取單元,用于根據所述各層標簽的權重值得到所述用戶的興趣分類標簽。11.根據權利要求9或10所述的數據推送裝置,其特征在于,還包括 輔助信息獲取單元,獲取包含多媒體屬性標簽的多媒體數據的輔助信息; 第一建模單元,用于根據所述輔助信息和所述多媒體屬性標簽建立第一貝葉斯分類模型; 缺失標簽獲取單元,用戶獲取缺失多媒體屬性標簽的多媒體數據的輔助信息并輸入所述第一貝葉斯分類模型,得到所述缺失標簽; 擴展單元,用于將得到的所述缺失多媒體屬性標簽與所述興趣分類標簽對應的多媒體屬性標簽合并,獲取所述合并后的興趣分類標簽中各多媒體屬性標簽的權重值,得到擴展的興趣分類標簽。12.根據權利要求8至10任意一項所述的數據推送裝置,其特征在于,還包括用戶屬性信息獲取模塊,用于獲取用戶的用戶屬性信息;推送模塊根據所述用戶興趣分類標簽和所述用戶屬性信息,推送多媒體數據給用戶。13.根據權利要求12所述數據推送裝置,其特征在于,所述用戶屬性信息獲取模塊具體包括: 樣本信息獲取單元,用于獲取樣本用戶的用戶屬性信息; 樣本興趣分類標簽獲取單元,用于獲取所述樣本用戶的興趣分類標簽; 第二建模單元,用于根據所述樣本用戶的用戶屬性信息和興趣分類標簽建立第二貝葉斯分類模型; 用戶屬性信息獲取單元,用戶獲取所述用戶的興趣分類標簽并輸入所述第二貝葉斯分類模型,得到所述用戶的用戶屬性信息。14.根據權利要求13所述的數據推送裝置,其特征在于,所述推送模塊具體包括: 匹配單元,用于獲取包含所述興趣分類標簽的多媒體數據,所述多媒體數據與用戶屬性關聯; 篩選單元,用于根據所述用戶屬性篩選所述多媒體數據; 推送單元,用于將篩選后的所述多媒體數據推送給所述用戶。
【文檔編號】G06F17/30GK106055617SQ201610357738
【公開日】2016年10月26日
【申請日】2016年5月26日
【發明人】李彥
【申請人】樂視控股(北京)有限公司, 樂視網信息技術(北京)股份有限公司