本發明涉及信息技術領域,尤其涉及一種用戶特征提取方法及裝置。
背景技術:
隨著信息技術的發展,閱讀應用服務的智能化越來越高。例如,可以通過用戶特征的提取,僅向用戶推薦其感興趣的信息和/或避免向用戶推薦其不感興趣的信息,從而滿足用戶的個性需求,避免用戶在海量的信息中查找自己感興趣的信息,更好的利用了電子設備的軟硬件資源,優化了用戶閱讀。要實現用戶的個性推薦,則用戶特征提取的精確性就非常重要了。現有技術中提供了很多種提取用戶特征的方法,但是使用這些方式提取的用戶特征進行信息推薦時,發現還不能滿足預期的精確度。故如何提升用戶特征提取的精確度是現有技術中進一步亟待解決的技術問題。
技術實現要素:
有鑒于此,本發明實施例期望提供的一種用戶特征提取方法及裝置,至少部分用于解決用戶特征提取不夠精確的問題。
為達到上述目的,本發明的技術方案是這樣實現的:
本發明實施例第一方面提供一種用戶特征提取方法,包括:
獲取用戶操作行為數據;
解析所述操作行為數據,生成用戶特征;
根據所述用戶操作行為數據所在的操作時間窗,確定所述用戶特征的生效時間窗;
其中,所述用戶特征用于控制所述生效時間窗內的第一類信息的推薦概率。
基于上述方案,所述解析所述操作行為數據,生成用戶特征,包括:
基于所述第一操作時間窗內的所述操作行為數據生成短期用戶特征,并基于第二操作時間窗內的所述操作行為數據,生成長期用戶特征;其中,第二操作時間窗的時長大于所述第一操作時間窗的時長;
所述根據所述用戶操作行為數據所在的操作時間窗,確定所述用戶特征的生效時間窗,包括:
根據所述操作時間窗的時長,生成所述短期用戶特征的第一生效時間窗和所述長期用戶特征的第二生效時間窗;其中,所述第二生效時間窗的時長大于所述第一生效時間窗的時長。
基于上述方案,所述基于第二操作時間窗內的所述操作行為數據,生成長期用戶特征,包括:
解析所述操作行為數據,獲取潛在長期特征集合中潛在長期特征的出現頻次;
確定潛在長期特征集合中包括的第一潛在長期特征對應的反向特征,是否是正式用戶特征集合中的正式用戶特征;
若所述第一潛在長期特征不是所述正式用戶特征,則確定所述第一潛在特征為所述長期用戶特征。
基于上述方案,所述基于第二操作時間窗內的所述操作行為數據,生成長期用戶特征,還包括:
若所述第一潛在長期特征為所述正式用戶特征集合中的第一類正式用戶特征,則將所述第一潛在長期特征從所述潛在長期特征集合中刪除;所述第一類正式用戶特征為評分值的排序在預定范圍內的正式用戶特征;其中,所述評分值所述評分值,用于控制與所述正式用戶特征對應的信息的推薦概率。
基于上述方案,所述基于第二操作時間窗內的所述操作行為數據,生成長期用戶特征,還包括:
若所述第一潛在長期特征為所述正式用戶特征集合中的第二類正式用戶特征,則調整所述第一潛在長期特征對應的正式用戶特征的評分值;所述第二類正式用戶特征為所述評分值在所述預定范圍之外的特征。
基于上述方案,所述基于第二操作時間窗內的所述操作行為數據,生成長期用戶特征,還包括:
統計所述短期用戶特征在所述第二操作時間窗內的出現頻次;
當所述出現頻次大于預定閾值時,將所述短期用戶特征轉化為所述長期用戶特征。
基于上述方案,所述基于所述第一操作時間窗內的所述操作行為數據生成短期用戶特征,并基于第二操作時間窗內的所述操作行為數據,生成長期用戶特征,還包括:
解析所述第一操作時間窗內的負向操作行為數據,生成短期負向特征;解析所述第二操作時間窗內的負向操作行為數據,生成長期負向特征;
其中,所述負向操作行為數據表征的負向操作行為是減少信息顯示的操作。
基于上述方案,所述負向操作行為包括:刪除操作和/或第一類關閉操作;所述第一類關閉操作包括信息鏈接的關閉操作,和/或,詳細頁面顯示時間小于第一預定時長的關閉操作;所述信息鏈接是:進入所述信息鏈接對應的詳細信息顯示的詳細頁面的鏈接。
本發明實施例第二方面提供一種用戶特征提取裝置,包括:
獲取單元,用于獲取用戶操作行為數據;
解析單元,用于解析所述操作行為數據,生成用戶特征;
確定單元,用于根據所述用戶操作行為數據所在的操作時間窗,確定所述用戶特征的生效時間窗;
其中,所述用戶特征用于控制所述生效時間窗內的第一類信息的推薦概率。
基于上述方案,所述解析單元,用于基于所述第一操作時間窗內的所述操作行為數據生成短期用戶特征,并基于第二操作時間窗內的所述操作行為數據,生成長期用戶特征;其中,第二操作時間窗的時長大于所述第一操作時間窗的時長;
所述確定單元,具體用于根據所述操作時間窗的時長,生成所述短期用戶特征的第一生效時間窗和所述長期用戶特征的第二生效時間窗;其中,所述第二生效時間窗的時長大于所述第一生效時間窗的時長。
基于上述方案,所述解析單元,具體用于解析所述操作行為數據,獲取潛在長期特征集合中潛在長期特征的出現頻次;確定潛在長期特征集合中包括的第一潛在長期特征對應的反向特征,是否是正式用戶特征集合中的正式用戶特征;若所述第一潛在長期特征的反向特征不是所述正式用戶特征,則根據所述出現頻次,確定所述第一潛在特征為所述長期用戶特征。
基于上述方案,所述解析單元,還具體用于若所述第一潛在長期特征的反向特征為所述正式用戶特征集合中的第一類正式用戶特征,則將所述第一潛在長期特征從所述潛在長期特征集合中刪除;所述第一類正式用戶特征為評分值的排序在預定范圍內的正式用戶特征;其中,所述評分值所述評分值,用于控制與所述正式用戶特征對應的信息的推薦概率。
基于上述方案,所述解析單元,還具體用于若所述第一潛在長期特征為所述正式用戶特征集合中的第二類正式用戶特征,則調整所述第一潛在長期特征的反向特征的評分值;所述第二類正式用戶特征為所述評分值在所述預定范圍之外的特征。
基于上述方案,所述解析單元,具體用于統計所述短期用戶特征在所述第二操作時間窗內的出現頻次;當所述出現頻次大于預定閾值時,將所述短期用戶特征轉化為所述長期用戶特征。
基于上述方案,所述解析單元,還用于解析所述第一操作時間窗內的負向操作行為數據,生成短期負向特征;解析所述第二操作時間窗內的負向操作行為數據,生成長期負向特征;其中,所述負向操作行為數據表征的負向操作行為是減少信息顯示的操作。
基于上述方案,所述負向操作行為包括:刪除操作和/或第一類關閉操作;所述第一類關閉操作包括信息鏈接的關閉操作,和/或,詳細頁面顯示時間小于第一預定時長的關閉操作;所述信息鏈接是:進入所述信息鏈接對應的詳細信息顯示的詳細頁面的鏈接。
本發明實施例提供的一種用戶特征提取方法及裝置,會獲取用戶行為數據,并根據用戶行為數據對應的操作時間窗,確定生效時間窗。顯然,這樣相對于現有技術,避免了一旦用戶特征生成,就作為永久用戶特征使用的現象。因為用戶的喜好會發生變化,且在用戶特征的提取過程中很難做到百分百準確。若一旦提取了一個特征就作為永久特征,隨著時間的推移或若特征提取出現偏差的時候,會長期導致用戶特征的不精確,若依據這種不精確的用戶特征持續用戶信息推送等處理,不僅可以實現用戶個性化信息推送,反而招致用戶反感且導致用戶感興趣的數據的無法有效傳播。而本實施例中通過根據操作時間窗為用戶特征設置生效時間窗,可以很好的解決上述問題,提升了用戶特征的精確度。
附圖說明
圖1為本發明實施例提供的第一種用戶特征提取方法的流程示意圖;
圖2為本發明實施例提供的一種信息鏈接的顯示示意圖;
圖3為本發明實施例提供的一種信息的詳細頁面的顯示示意圖;
圖4為本發明實施例提供的另一種信息的詳細頁面的顯示示意圖;
圖5為本發明實施例提取短期用戶特征的流程示意圖;
圖6為本發明實施例提供的用戶特征提取裝置的結構示意圖;
圖7為本發明實施例提供的一種信息架構的結構示意圖;
圖8為本發明實施例提供的又一種用戶特征提取方法的流程示意圖;
圖9為本發明實施例提供的又一種用戶特征提取裝置的結構示意圖。
具體實施方式
以下結合說明書附圖及具體實施例對本發明的技術方案做進一步的詳細闡述。
如圖1所示,本實施例提供一種用戶特征提取方法,包括:
步驟S110:獲取用戶操作行為數據;
步驟S120:解析所述操作行為數據,生成用戶特征;
步驟S130:根據所述用戶操作行為數據所在的操作時間窗,確定所述用戶特征的生效時間窗;
其中,所述用戶特征用于控制所述生效時間窗內的第一類信息的推薦概率。
本實施例所述的用戶特征提取方法,可為應用于具有數據處理的各種服務器等電子設備中。
所述步驟S110獲取用戶行為數據,可包括從業務支撐系統(Business and Operation Support System,Boss)系統獲取所述用戶行為數據,或接收客戶端上報的所述用戶行為數據。
所述用戶行為數據可包括操作客戶端顯示的各種信息的各種操作而產生的數據。例如,點擊數據、閱讀行為數據、關閉行為數據、刪除行為數據、添加黑名單行為數據、訂閱行為數據等各種用戶操作行為的用戶行為數據。
按照預定時間間隔獲取所述用戶操作行為數據;其中,所述第一預定時間至少包括兩個所述預定時間間隔。
所述步驟S110可包括:按照預定時間間隔獲取的用戶操作行為數據,這里的預定時間間隔可為均等預定時間間隔,即按照周期性獲取用戶操作行為數據,也可以非均等預定時間間隔,即并非周期性獲取用戶操作行為數據。總之在本實施例中,按照預定時間間隔獲取用戶操作行為數據,并根據多個預定時間間隔的用戶操作行為數據,實現短期用戶特征向長期用戶特征的轉化,以實現用戶特征的精確化。
所述步驟S120可包括:解析在所述操作時間窗內是否有執行預定操作,預定操作執行次數或頻次等信息。
在本實施例中所述方法還包括步驟S130,這里的步驟S130會根據操作時間窗生成對應用戶特征的失效時間窗。通常情況下,生效時間窗的時長與所述操作時間窗的時長正比。因為操作時間窗越長,則對應的用戶操作行為數據就越多,更能體現用戶的穩定喜好,且體現的精確度越高,故在本實施例中生成的所述生效時間窗的時長與所述操作時間窗的時長。
在本實施例中所述用戶特征一旦提取之后,還引入了生效時間窗的概念,一旦所述生效時間窗生效之后,所述用戶特征就失效了。例如,在數據庫中情清空了對應的用戶特征,這樣的話,若用戶的喜好等用戶屬性發生了變化,這種用戶特征的失效,就能夠避免用戶特征一致生效導致的不精確的問題,提升了用戶特征提取的精確度。
例如,所述步驟S120可包括:
基于所述第一操作時間窗內的所述操作行為數據生成短期用戶特征,并基于第二操作時間窗內的所述操作行為數據,生成長期用戶特征;其中,第二操作時間窗的時長大于所述第一操作時間窗的時長;
所述步驟S130可包括:
根據所述操作時間窗的時長,生成所述短期用戶特征的第一生效時間窗和所述長期用戶特征的第二生效時間窗;其中,所述第二生效時間窗的時長大于所述第一生效時間窗的時長。
在本實施例中所述用戶特征至少包括兩種類型,一種短期用戶特征,一種長期用戶特征。由于用戶的心情也會發生變化,例如,某一個時間內對一些信息感興趣,但是該時間段過后,用戶的興趣又變回去了。但是該中用戶特征對應的用戶操作行為數據,在第二操作時間窗內是不會被視為長期用戶特征提取的。為了兼顧用戶的長期喜好和短期喜好,在本實施例中將會至少生成兩種用戶特征,分別是短期用戶特征和長期用戶特征,短期用戶特征的生效時間更短。一旦用戶特征失效,根據該用戶特征確定的信息推薦概率需要重新確認。
所述短期用戶特征可用于表征用戶目前喜好的用戶特征。這里的短期用戶行為特征作用的生效時間窗口為所述第一生效時間窗口。所述第一生效時間窗口可為24小時、預定天數、一周或一個月等。
所述長期用戶特征可為第二生效時間窗的時長大于所述第一生效時間窗。
總之,本實施例提供了一種同時能夠兼顧用戶短期喜好和長期喜好的用戶特征提取方法,再次提升了用戶特征的精確性。
在具體的實施過程中,所述步驟S120可包括:利用第一解析方式提取短期用戶特征,利用第二解析方式提取長期用戶特征;所述第一解析方式不同于第二解析方式。在本實施例中第一解析方式和第二解析方式可以根據短期用戶特征和長期用戶特征的特點進行設置。例如,由于短期用戶特征的生效時長短,為了降低數據處理復雜度,降低數據處理量,可以使得所述第一解析方式的復雜度低于所述第二解析方式的復雜度,復雜度可體現出數據解析的操作步驟數量、引入的不同維度或不同類型的數據處理對象和/或單個步驟的計算量等。這樣就可以很好的滿足不同生效時長的用戶特征的個性需求,例如,很好的平衡計算量和用戶特征的精確性需求。
以下分別介紹短期用戶特征和長期用戶特征的提取方式:
短期用戶特征的生成:
所述步驟S120可包括:
解析所述第一操作時間窗內的用戶行為數據,確定各操作行為的出現頻次;
根據所述出現頻次確定所述短期用戶特征。
例如,利用聚類方法對所述用戶行為數據進行聚類處理。若該出現頻次大于特定閾值,可生成所述短期用戶特征,選擇出現頻次最高的一個或多個所述操作行為生成所述短期用戶特征。所述短期用戶特征的提取方式有多種,不局限于上述任意一種。
長期用戶特征提取:
所述步驟S120可包括:
解析所述操作行為數據,確定潛在長期特征集合中潛在長期特征對應的操作行為的出現頻次;
確定潛在長期特征集合中包括的第一潛在長期特征對應的反向特征,是否是正式用戶特征集合中的正式用戶特征;
若所述第一潛在長期特征的反向特征不是所述正式用戶特征,則根據所述出現頻次,確定所述第一潛在特征為所述長期用戶特征。
這里的正式用戶特征集合中為歷史時刻確定的用戶特征。第一潛在長期特征的反向特征為表征用戶喜好與第一潛在長期特征相反的特征。例如,所述潛在長期特征為指示用戶不喜歡A類信息,該潛在長期特征的反向特征為用戶喜歡A類信息,若用戶喜歡A類信息的特征不存在于當前的正式用戶特征集合中,顯然就是在第二操作時間窗內,提煉出的表征用戶不喜歡A類信息的長期用戶特征。這里的所述用戶喜歡A類信息的特征和用戶不喜歡A類信息的特征,互為反向特征。
若一個潛在長期特征不在所述正式用戶特征,則根據出現頻次確定過是否正式的長期用戶特征。例如,所述正式的長期用戶特征的確定可包括:通過解析所述操作行為數據,獲得某一個操作行為的出現頻次,當所述出現頻次滿足預設條件,則可認為是潛在長期特征。例如,所述出現頻次大于閾值或所述出現頻次排序靠前都可視為滿足所述預設條件,則可確認是正式的長期用戶特征。
進一步地,所述步驟S120還包括:
若所述第一潛在長期特征為所述正式用戶特征集合中的第一類正式用戶特征,則將所述第一潛在長期特征從所述潛在長期特征集合中刪除;所述第一類正式用戶特征為評分值的排序在預定范圍內的正式用戶特征;其中,所述評分值所述評分值,用于控制與所述正式用戶特征對應的信息的推薦概率。
所述正式用戶特征可至少分為兩類。所述第一類正式用戶特征為評分值在預設范圍內的特征。在本實施例中所述評分值的高低是與提取生成對應用戶特征的操作行為的出現頻次正相關的。例如,若評分值越高,推薦概率越高,則若一個預定操作行為出現的頻次越高,則對應的用戶特征的評分值就越高。當然,在具體實現時也可以是,評分值越低,推薦概率越低,則若一個預定操作行為出現的頻次越高,則對應的用戶特征的評分值就越低。在本實施例中所述第一類用戶特征為其對應的推薦概率大于閾值或推薦概率排序在前的用戶特征,此時的推薦概率為從高到低排序。
若一個潛在長期特征的反向特征為所述第一類正式特征,則可能當前生成所述潛在長期特征的操作行為是用戶的誤操作,故為了剔除這種誤操作的用戶特征的提取,在本實施例中會將該潛在長期特征從對應的集合中刪除,以提高用戶特征的正確性。
在另一些實施例中,所述步驟S120,還包括:
若所述第一潛在長期特征的反向特征為所述正式用戶特征集合中的第二類正式用戶特征,則調整所述第一潛在長期特征的反向特征的評分值;所述第二類正式用戶特征為所述評分值在所述預定范圍之外的特征。
所述第二類正式用戶特征為第一類正式用戶特征以外的用戶特征。在本實施例中為了調整對應的推薦概率,在本實施例中會調整對應的反向特征的評分值,從而實現推薦概率的調整。
例如,在本實施例中所述第二類正式用戶特征為所述第一類正式用戶特征之外的特征,即表示用戶喜歡某一類信息或執行某一操作的程度比較低。故,在本實施例中所述第一潛在長期特征對應的第一正式特征為第二類正向特征,會調整所述評分值,以降低與所述第一正向特征對應的信息的推薦概率。例如,若所述評分值越高,表明用戶喜歡的程度越高;則所述第二類正向特征的評分值相對于所述第一類正向特征的評分值是相對較低的,則本實施例中調整所述評分值為降低所述評分值。在本實施例中所述評分值為向用戶推薦某一個類信息的推薦概率。故在本實施例中將評分值的調整,以降低所述推薦概率;此外在長期用戶特征確定的過程中,通過所述評分值的調整,實現了對正式用戶特征的評分中的調整,從而實現了推薦概率的再次校正。
所述步驟S120,還包括:統計所述短期用戶特征在所述第二操作時間窗內的出現頻次;當所述出現頻次大于預定閾值時,將所述短期用戶特征轉化為所述長期用戶特征。例如,所述第二操作時間是所述第一操作時間窗的整數倍,若一個短期用戶特征在所述第二操作時間窗內頻繁出現,可能表針該短期用戶特征是用戶的穩定特征,可以轉化為所述長期用戶特征。在本實施例中利用短期用戶特征的處理結果,來確定長期用戶特征,可以降低長期用戶特征的提取復雜度,節省計算量。
在本實施例中會繼續統計所述短期用戶特征在第二操作時間內的出現頻次,最后根據出現頻次確定是否將該短期用戶特征轉化為長期用戶特征。例如,以24小時為一個統計周期,確定所述短期用戶特征。例如,短期用戶特征A表征用戶不喜歡A類信息。所述第一預定時間可為3天,若在3天內,所述短期用戶特征A出現的頻次低于所述預定閾值,則不進行所述短期用戶特征A的轉化,若大于所述預定閾值,則將所述短期用戶特征轉換為長期用戶特征A。根據所述短期用戶特征A,在一周內禁止A類信息的推薦,根據長期用戶特征A,在一個月內禁止A類信息的推薦。這里的一周可為所述第一生效時間窗,所述一個月可為所述第二生效時間窗。在當所述短期用戶特征及長期用戶特征作用的生效時間窗失效后,可以再次嘗試這些用戶特征對應的信息的推薦,以再次進行用戶特征的提取,以免用戶喜好的變遷導致的用戶特征的不再適用現象。
本實施例中所述用戶特征可包括正向用戶特征和負向用戶特征。所述正向用戶特征為表示用戶喜好某一個類信息的特征;所述負向用戶特征表示用戶不喜歡或厭惡某一類信息的特征。
所述步驟S120可包括:
解析所述第一操作時間窗內的負向操作行為數據,生成短期負向特征;解析所述第二操作時間窗內的負向操作行為數據,生成長期負向特征;其中,所述負向操作行為數據表征的負向操作行為是減少信息顯示的操作。
這里的長期負向特征和短期負向特征均為前述負向用戶特征的一種,區別在于生效時間窗的不同。
所述負向操作可包括:刪除操作和/或第一類關閉操作;所述第一類關閉操作包括信息鏈接的關閉操作,和/或,詳細頁面顯示時間小于第一預定時長的關閉操作;所述信息鏈接是:進入所述信息鏈接對應的詳細信息顯示的詳細頁面的鏈接。
例如,在社交應用的信息顯示平臺,顯示某一個信息;用戶執行了該信息的屏蔽操作,該信息顯示的關閉操作,刪除該信息等,來減少信息顯示的負向操作為。總之,這種反向操作為用戶通過主動操作去減少某一個信息的顯示。
如圖2所示,在第一信息顯示頁面顯示有進入到詳細頁面的信息鏈接,用戶直接刪除了所述信息鏈接或關閉該信息鏈接。這里的信息鏈接可為以某一個信息的標題或摘要形成的進入到詳細頁面的信息鏈接。所述信息鏈接可分為文字鏈接和圖片鏈接,當然在具體的實現過程中還包括綜合了文字和圖片的圖文鏈接。在圖2中,所述文字鏈接包括文字鏈接a、文字鏈接b以及文字鏈接c。所述圖片鏈接包括圖片鏈接a、圖片鏈接b以及圖片鏈接c。圖3可認為是一個詳細頁面,顯然圖3所示的詳細頁面為某一個條消息的正文或主要內容的顯示頁面,而并標題和/或摘要等信息鏈接中信息的顯示頁面。
再比如,用戶雖然點開了一個信息鏈接,然后進入到某一個詳細頁面,在該詳細頁面內顯示了某一個信息,但是用戶進入該頁面之后,很快就關閉了該詳細頁面,顯然用戶對詳細頁面內的顯示內容是不感興趣的。這種快速關閉的操作同樣是前述的反向操作的一種。例如,公眾號A,在信息推送的過程中,用戶屏蔽了該公眾號A,那么其他與公眾號A同類信息的公眾號,推送給該用戶的概率就可以降低了。這里的屏蔽公眾號A的操作,即為前述反向操作的一種。
如圖4所示,進入詳細頁面之后,在詳細頁面上顯示關閉控件和計時信息的顯示。在圖4中所述關閉控件和計時信息都顯示在詳細頁面的右上角。若在1秒種內就直接叉掉了該詳細頁面或退出了該詳細頁面進入了如圖2所示的主頁面。總之,這里叉掉了該詳細頁面或退出了詳細頁面的都是為前述關閉該信息頁面的操作。
在一些實施例中,信息類推送應用向用戶的客戶端在一周內推送了N次B類信息。在該推送周內的第一天推送了n1條B類消息,用戶在沒有進入詳細頁的情況下,直接關閉了m1次,這里的m1小于所述n1的正整數。通過步驟S110和步驟S120根據該B類消息的關閉操作,生成了用戶不喜歡B類消息的短期負向特征。在第二天至第五天減少了B類信息的推送頻次,但是還是有推送。通過第二條到第五天內,用戶還是關掉了B類消息,且關閉的頻次比較高或越來越高,則此時,這一周以后可以將用戶不喜歡B類消息的短期負向特征轉換長期負向特征。在本實施例中所述信息類推送應用可包括閱讀類應用或具有信息推送的社交應用。所述閱讀類應用可包括各種新聞推送應用、評論推送應用等應用,所述社交應用可如微信或QQ等各種具有社交功能的應用。
總之,在本實施例中在進行用戶操作行為數據,生成短期負向特征和長期負向特征。且短期負向特征和長期負向特征,失效時間窗的時間長度是不一致,這樣避免反向特征一旦確定就作為永久特征導致的反向特征的精確度不夠的問題。此外,反向特征,分為了短期負向特征以及長期負向特征,一方面通過特征提取,預先當前利用反向特征進行后續信息推送的處理,另一方面在反向特征的應用過程中,長期負向特征是基于短期負向特征確定的,這樣的話,相當于延長了長期負向特征的確定操作、確定流程及確定依據,這樣確保了長期負向特征的參考參數的維度,提升了長期負向特征的確定精確度。
在一些實施例中,如圖5所示,所述步驟S120可包括:
步驟S121:解析所述用戶操作行為數據,確定所述用戶操作行為對應的信息對象;
步驟S122:提取所述信息對象的信息特征,生成信息標簽;
步驟S123:解析所述用戶操作行為數據,獲取所述用戶操作行為的行為類型及行為參數;
步驟S124:基于所述行為類型及所述行為參數,生成表征用戶對所述信息標簽對應的信息是否感興趣的用戶特征。
在本實施例中所述用戶操作行為數據可包括操作對象、行為類型等其他行為參數。這里的操作對象可包括所述信息對象。所述行為類型可分為反向操作以及正向操作。所述反向操作可為減少信息顯示的操作;所述正向操作為用戶主動閱讀某一個類信息或增加某一個類信息的操作。這里的閱讀例如在詳細頁面停留的時間超過時間閾值。所述增加某一個類信息的操作,可包括轉發該類信息或向朋友的該信息的操作,或收藏該類信息的操作。所述行為參數可包括閱讀某一個信息的時長、對該信息的具體操作,例如,選中了其中某一個文字,或將某一個信息復制的操作等。
如圖6所示,本實施例提供了一種用戶特征提取裝置,包括:
獲取單元110,用于獲取用戶操作行為數據;
解析單元120,用于解析所述操作行為數據,生成用戶特征;
確定單元130,用于根據所述用戶操作行為數據所在的操作時間窗,確定所述用戶特征的生效時間窗;
其中,所述用戶特征用于控制所述生效時間窗內的第一類信息的推薦概率。
本實施例提供的用戶特征提取裝置,可應用于各種能夠進行用戶特征提取的電子設備或服務器中。
所述獲取單元110、解析單元120及確定單元130可對應于處理器或處理電路。所述處理器可包括中央處理器CPU、微處理器MCU、數字信號處理器DSP、應用處理器AP或可編程陣列PLC等。所述處理電路可包括專用集成電路ASIC。所述處理器或處理電路可通過可執行代碼的執行實現上述功能單元的操作。
在本實施例中在提取用戶特征的同時,還會確定生效時間窗,這樣生成的用戶特征一旦超過所述生效時間窗,則就認為失效。如此,首先避免了一旦一個用戶特征提取之后直接作為永久用戶特征導致的用戶特征不精確的問題,與此同時通過將短期用戶特征轉化為長期用戶特征的處理,可以減少在某些情況下因用戶操作,直接形成了一個永久用戶特征導致的用戶特征提取的不精確問題。
在一些實施例中,所述解析單元120,具體用于根據所述操作時間窗的時長,生成所述短期用戶特征的第一生效時間窗和所述長期用戶特征的第二生效時間窗;其中,所述第二生效時間窗的時長大于所述第一生效時間窗的時長。
本實施例中所述解析單元120,通過長期用戶特征和短期用戶特征的提取,可以兼顧用戶的短期興趣和長期用戶興趣,從而使得提取的用戶特征盡可能指示出用戶的興趣,提升用戶特征的精確性。
在一些實施例中,所述解析單元120,還具體用于若所述第一潛在長期特征的反向特征為所述正式用戶特征集合中的第一類正式用戶特征,則將所述第一潛在長期特征從所述潛在長期特征集合中刪除;所述第一類正式用戶特征為評分值的排序在預定范圍內的正式用戶特征;其中,所述評分值所述評分值,用于控制與所述正式用戶特征對應的信息的推薦概率。
通過與正式用戶特征的交集處理,可以減少誤操作形成的用戶特征,再次提升了用戶特征提取的精確度。
在一些實施例中,所述解析單元120,還具體用于若所述第一潛在長期特征為所述正式用戶特征集合中的第二類正式用戶特征,則調整所述第一潛在長期特征的反向特征的評分值;所述第二類正式用戶特征為所述評分值在所述預定范圍之外的特征。
通過評分值的調整,這樣在用戶出現某一個正式用戶特征的反向興趣的過程中,通過評分值的調整,實現推薦概率的動態調整,以盡可能的滿足用戶當前的需求或興趣。
在一些實施例中,所述解析單元120,具體用于統計所述短期用戶特征在所述第二操作時間窗內的出現頻次;當所述出現頻次大于預定閾值時,將所述短期用戶特征轉化為所述長期用戶特征。
在本實施例中利用短期用戶特征和長期用戶特征進行轉換,以減少數據處理量,降低數據處理復雜度。
在一些實施例中,所述解析單元120,還用于解析所述第一操作時間窗內的負向操作行為數據,生成短期負向特征;解析所述第二操作時間窗內的負向操作行為數據,生成長期負向特征;其中,所述負向操作行為數據表征的負向操作行為是減少信息顯示的操作。
例如,所述負向操作行為包括:刪除操作和/或第一類關閉操作;所述第一類關閉操作包括信息鏈接的關閉操作,和/或,詳細頁面顯示時間小于第一預定時長的關閉操作;所述信息鏈接是:進入所述信息鏈接對應的詳細信息顯示的詳細頁面的鏈接。
這里的負向操作行為數據和負向操作行為可以參見前述的實施例,在此就不重復了。
以下結合上述實施例提供幾個具體示例:
示例一:
本示例根據用戶輸入的不喜歡行為進行劃分,主要分為短期行為和長期行為,并針對兩種類型的行為采取不同的策略對待,得到短期用戶特征和長期用戶特征。所述短期行為表達,一定時間窗內對行為上的全部特征進行打壓,超過該時間窗則嘗試再次露出,觀察用戶的持續表達結果,得到所述短期用戶特征。而長期行為,通過累積某個特征的歷史不喜歡出現次數和對比用戶的正向行為的畫像特征,綜合判斷得到用戶對某個標簽/分類的厭惡程度,得到長期用戶特征。本示例,一方面尊重了用戶的主動行為表達,同時兼顧了用戶的歷史行為和正向畫像特征,最大程度降低了前述針對單一用戶行為進行過濾方案中造成的誤判。這里的正向畫像特征即為前述正向特征的集合。
示例二:
如圖7所示,本示例提供了一種信息系統架構,包括:
業務運營支撐(Business and Operation Support System,BOSS)上報系統、數據庫(Data Base,DB)、不喜歡數據索引系統、文章/視頻映射系統、文章標簽系統、視頻標簽系統以及用戶畫像系統。
BOSS上報系統,進行實時訂閱解析處理,將解析得到的用戶操作行為數據發送給數據庫和不喜歡數據索引系統,不喜歡數據索引系統的索引處理,從而進行短期不喜歡特征提取和長期不喜歡特征提取,得到不喜歡特征。這里的不喜歡特征可用于用戶畫像和/或不喜歡特征的存儲。
所述文章/視頻映射系統,主要用于從文章索引中提取出視頻索引。
所述文章標簽系統可主要用于提取圖文文章標簽。這里的文章標簽相當于信息標簽。所述信息標簽為信息特征,用于描述某一個信息的信息類型或信息內容等。視頻標簽系統用于視頻文章的標簽的提供。用戶畫像系統主要存儲有當前時刻以前的原始用戶畫像特征。這里的原始畫像特征為用戶特征集合。
不喜歡特征提取策略:
數據來源:用戶操作行為數據來自Boss上報系統從Boss系統的提取和上報,通過實時訂閱獲得用戶的流水數據,解析后的數據存入不喜歡數據索引系統,同時備份寫入數據庫DB。這里的流水數據為日程進行操作的產生的各種流水記錄的數據。
觸發計算時機:
每收到一條用戶的新增不喜歡行為,則觸發計算用戶的不喜歡畫像特征,從而使得用戶的表達得到快速反饋。
定期獲取DB中一段時間內有不喜歡行為的用戶列表,觸發計算其對應的不喜歡畫像特征,從而使得用戶的短期不喜歡特征得到釋放,同時解決歷史特征計算中用戶基礎畫像特征變化帶來的改變;
輸出結果:包括兩部分,一部分是明確判定為不喜歡的標簽/分類特征,該類特征在后續的推薦中將進行嚴格打擊過濾;一部分是判定為可能不喜歡的標簽/分類,需要對原始用戶畫像進行降權的特征,該類特征在后續的推薦中將降低出現概率;
如圖8所示,用戶特征提取可包括:
步驟1:獲取用戶不喜歡文章索引,可具體包括,獲取用戶的索引全部文章列表,從所述全部文正列表中查找到通過用戶操作明確表示了用戶不喜歡的文章的索引。這里的文章可包括各種形式的消息,例如,圖文消息和視頻消息。所述圖文消息為包括僅包括文字的純文本消息,還可僅包括圖片的純圖片消息,還可包括同時包括文字和圖片的圖文混合消息。所述視頻消息可為包括視頻的消息。
步驟2:通過文章到視頻標識(Identity,ID)的映射,將原始數據分成圖文類文章和視頻類文章。這里的圖文類文章即為前述的圖文消息,所述視頻類文章即為所述視頻消息。
步驟3:分別獲取圖文文章的標簽/分類信息和視頻文章的標簽/分類信息;
步驟4:判斷不喜歡操作的發生時間,這里按照不喜歡操作時間以最近24小時為界,分成短期用戶特征提取和長期用戶特征提取兩個過程。這里的不喜歡操作即為前述的反向操作的一種。
步驟5:短期用戶特征提取:
聚合標簽/分類,例如,可包括:圖文類文章和視頻文章的標簽/分類,全部判定為用戶明確不喜歡的特征。
步驟6:長期用戶特征提取:
步驟6.1:聚合標簽/分類,統計次數;可包括:針對圖文類文章和視頻類文章的標簽/分類進行聚合,獲得各標簽/分類出現的次數。
步驟6.2:獲取用戶原始畫像(通過播放等正向隱性行為進行的特征提取),和當前不喜歡的標簽/分類集合取交集,交集內的說明該分類/標簽上有正向行為特征,執行步驟6.3;交集外的則執行步驟6.4。
步驟6.3:當用戶原始畫像上該標簽/分類的分數高于前20的分數閾值時,認為是用戶真實喜歡的標簽/分類,忽略該不喜歡特征;反之,對于低于前20的分數閾值的標簽/分類,則根據累積出現的次數對原始畫像分數進行降權,降低其在推薦中出現的概率。這里的分數即為前述評分值的一種。
步驟6.4:比較該標簽/分類出現次數,當出現次數大于規定的閾值(各個標簽/分類可根據各自的特征規定不同的閾值)時,則判定為明確的不喜歡特征;否則,認為累積不夠充分,暫時不做判斷輸出。
步驟7:合并短期不喜歡特征和長期不喜歡特征提取結果,輸出用戶明確的不喜歡特征列表和需要對原始畫像進行分數降低的特征列表。這里的短期不喜歡特征即為前述的短期負向特征。所述長期不喜歡特征即為前述的長期負向特征。
基于本用戶不感興趣行為特征提取方案,會帶來的有益效果包括如下:
(1)通過歷史數據積累和用戶短期行為向長期行為的轉化分析,更加準確的分析提取用戶不感興趣的特征,為后繼推薦提供更準確的用戶畫像依據,更大程度上避免因畫像誤傷造成的內容損失;
(2)當用戶畫像特征更加準確時,對推薦內容的整體點擊率和播放完成度也會有比較好的提升。
示例三:
如圖9所示,本示例提供一種用戶特征提取裝置的一個可選的硬件結構示意圖,包括處理器11、輸入/輸出接口13(例如顯示屏、觸摸屏、揚聲器),存儲介質14以及網絡接口12,組件可以經系統總線15連接通信。相應地,存儲介質14中均存儲有用于執行本發明實施例記載的服務處理方法的可執行指令。圖9中示出的各硬件模塊可根據需要部分實施、全部實施或實施其他的硬件模塊,各類型硬件模塊的數量可以為一個或多個,各硬件模塊可以在同一地理位置實施,或者分布在不同的地理位置實施,可以用于執行上述圖1、圖5及圖8所示的用戶特征提取方法。
在本申請所提供的幾個實施例中,應該理解到,所揭露的設備和方法,可以通過其它的方式實現。以上所描述的設備實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,如:多個單元或組件可以結合,或可以集成到另一個系統,或一些特征可以忽略,或不執行。另外,所顯示或討論的各組成部分相互之間的耦合、或直接耦合、或通信連接可以是通過一些接口,設備或單元的間接耦合或通信連接,可以是電性的、機械的或其它形式的。
上述作為分離部件說明的單元可以是、或也可以不是物理上分開的,作為單元顯示的部件可以是、或也可以不是物理單元,即可以位于一個地方,也可以分布到多個網絡單元上;可以根據實際的需要選擇其中的部分或全部單元來實現本實施例方案的目的。
另外,在本發明各實施例中的各功能單元可以全部集成在一個處理模塊中,也可以是各單元分別單獨作為一個單元,也可以兩個或兩個以上單元集成在一個單元中;上述集成的單元既可以采用硬件的形式實現,也可以采用硬件加軟件功能單元的形式實現。
本領域普通技術人員可以理解:實現上述方法實施例的全部或部分步驟可以通過程序指令相關的硬件來完成,前述的程序可以存儲于一計算機可讀取存儲介質中,該程序在執行時,執行包括上述方法實施例的步驟;而前述的存儲介質包括:移動存儲設備、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質。
以上所述,僅為本發明的具體實施方式,但本發明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發明揭露的技術范圍內,可輕易想到變化或替換,都應涵蓋在本發明的保護范圍之內。因此,本發明的保護范圍應以所述權利要求的保護范圍為準。