本公開涉及數據處理,尤其涉及一種用戶畫像模型的訓練方法及裝置、電子設備和存儲介質。
背景技術:
1、隨著智能手機、智能平板等移動終端設備的普及使用,每時每刻都有用戶使用終端上網看資訊、玩游戲、上網課等等,進而在電信運營商的服務器中產生并存儲了海量的上網行為記錄。
2、目前,針對這部分上網行為記錄數據進行用戶建模,并應用于特定人群畫像是大數據合理變現的基礎,更是行業發展的必然趨勢。現有的網絡行為數據用戶建模方法,通常為將各個節點的網絡行為日志數據傳輸到云節點,并在云節點對數據進行篩選,并根據篩選后的網絡行為日志統一進行模型訓練。
3、上述方法雖然能夠實現對特定人群畫像的生成,但是云節點將邊緣節點的數據合并在一起,開展集中式的模型訓練,由于各地人口不同、風俗差異,人口數量少的地區(網絡行為數據相對較少)的地域上網行為特征被弱化,容易引起畫像模型訓練結果過度擬合,模型不再適用某些省份、地區。
技術實現思路
1、本公開提供了一種用戶畫像模型的訓練方法、裝置、電子設備和存儲介質。其主要目的在于解決畫像模型訓練結果過度擬合,模型不再適用某些省份、地區的問題。
2、根據本公開的第一方面,提供了一種用戶畫像模型的訓練方法,其中,包括:
3、分別獲取各邊緣節點中的各目標用戶的上網日志url記錄及用戶信息;
4、根據各所述目標用戶的上網日志url記錄,計算url特征向量;
5、根據各所述目標用戶的用戶信息,生成共有屬性特征向量及特有特征向量;
6、根據預設算法及所述url特征向量、共有屬性特征向量、特有特征向量以及每個特征向量對應的權重系數,計算模型輸入特征向量;
7、根據所述模型輸入特征向量與訓練用畫像樣本數據對預設用戶畫像模型進行訓練,得到訓練好的預設畫像模型。
8、可選的,在分別獲取各邊緣節點中的各目標用戶的上網日志記錄及用戶信息之后,所述方法還包括:
9、根據每個邊緣節點中每個目標用戶的上網日志url記錄,分別生成每個目標用戶的上網日志url記錄集合;
10、根據每個邊緣節點中的每個所述目標用戶的用戶信息,生成每個邊緣節點的用戶屬性集合。
11、可選的,所述根據各所述目標用戶的上網日志記錄,計算url特征向量包括:
12、根據各所述目標用戶的上網日志url記錄集合,計算每個邊緣節點的上網日志url記錄集合的第一目標交集;
13、將所述第一目標交集內的每條url記錄按照各自的標簽關鍵字進行標注,并將具有相同標簽的url記錄置于同一分組內,得到url特征向量;其中,所述url特征向量中包含全部所述url分組。
14、可選的,所述根據各所述目標用戶的用戶信息,生成共有屬性特征向量及特有特征向量還包括:
15、根據所述每個邊緣節點的用戶屬性,計算所述每個邊緣節點的用戶屬性的交集,得到共有屬性特征向量;
16、根據所述第二目標交集,分別計算每個邊緣節點的用戶屬性的差集,得到每個邊緣節點的特有屬性特征向量。
17、可選的,所述根據預設算法及所述url特征向量、共有屬性特征向量及特有特征向量,計算模型輸入特征向量包括:
18、根據預設算法及所述url特征向量、第一權重系數、共有屬性特征向量、第二權重系數、特有特征向量、第三權重系數,計算模型輸入特征向量。
19、可選的,在根據預設算法及所述url特征向量、第一權重系數、共有屬性特征向量、第二權重系數、特有特征向量、第三權重系數,計算模型輸入特征向量之前,所述方法還包括:
20、獲取初始第一權重系數、初始第二權重系數及初始第三權重系數;
21、基于梯度下降法及預設迭代次數,分別對所述初始第一權重系數、初始第二權重系數及初始第三權重系數進行迭代減弱;
22、分別根據各個邊緣節點對應的預設訓練數據及預設迭代算法,對迭代計算后的所述初始第一權重系數、初始第二權重系數及初始第三權重系數進行迭代增強,得到各個邊緣節點對應的訓練好的初始第一權重系數、初始第二權重系數及初始第三權重系數;
23、根據各個邊緣節點對應的訓練好的初始第一權重系數、初始第二權重系數及初始第三權重系數進行匯總,得到第一權重系數、第二權重系數及第三權重系數;
24、重復上述訓練過程,直至第一權重系數、第二權重系數及第三權重系數都滿足預設收斂條件后,停止訓練,得到訓練好的第一權重系數、第二權重系數及第三權重系數。
25、可選的,在根據預設訓練數據及預設迭代算法,對迭代計算后的所述第一權重系數、初始第二權重系數及初始第三權重系數進行迭代增強之前,所述方法還包括:
26、獲取各個邊緣節點的預設時間間隔內的上網日志記錄;
27、根據所述url特征向量與所述各個邊緣節點的上網日志記錄分別進行計算,得到各個邊緣節點分別對應的第三目標交集;
28、分別確定所述第三目標交集內每條上網日志url記錄對應的上網用戶,并根據所述第三目標交集與所述第三目標交集內的上網日志url記錄對應的上網用戶生成所述預設訓練數據。
29、根據本公開的第二方面,提供了一種用戶畫像模型的訓練裝置,包括:
30、第一獲取單元,用于分別獲取各邊緣節點中的各目標用戶的上網日志url記錄及用戶信息;
31、第一計算單元,用于根據各所述目標用戶的上網日志url記錄,計算url特征向量;
32、生成單元,用于根據各所述目標用戶的用戶信息,生成共有屬性特征向量及特有特征向量;
33、第二計算單元,用于根據預設算法及所述url特征向量、共有屬性特征向量、特有特征向量以及每個特征向量對應的權重系數,計算模型輸入特征向量;
34、訓練單元,用于根據所述模型輸入特征向量與訓練用畫像樣本數據對預設用戶畫像模型進行訓練,得到訓練好的預設畫像模型。
35、可選的,所述裝置還包括:
36、生成單元,還用于在第一獲取單元分別獲取各邊緣節點中的各目標用戶的上網日志url記錄及用戶信息之后,根據每個邊緣節點中每個目標用戶的上網日志url記錄,分別生成每個目標用戶的上網日志url記錄集合;
37、生成單元,還用于根據每個邊緣節點中的每個所述目標用戶的用戶信息,生成每個邊緣節點的用戶屬性集合。
38、可選的,所述第一計算單元還用于:
39、根據各所述目標用戶的上網日志url記錄集合,計算每個邊緣節點的上網日志url記錄集合的第一目標交集;
40、將所述第一目標交集內的每條url記錄按照各自的標簽關鍵字進行標注,并將具有相同標簽的url記錄置于同一分組內,得到url特征向量;其中,所述url特征向量中包含全部所述url分組。
41、可選的,所述生成單元還用于:
42、根據所述每個邊緣節點的用戶屬性,計算所述每個邊緣節點的用戶屬性的交集,得到共有屬性特征向量;
43、根據所述第二目標交集,分別計算每個邊緣節點的用戶屬性的差集,得到每個邊緣節點的特有屬性特征向量。
44、可選的,所述第二計算單元還用于:
45、根據預設算法及所述url特征向量、第一權重系數、共有屬性特征向量、第二權重系數、特有特征向量、第三權重系數,計算模型輸入特征向量。
46、可選的,所述裝置還包括:
47、第二獲取單元,用于在第二計算單元根據預設算法及所述url特征向量、第一權重系數、共有屬性特征向量、第二權重系數、特有特征向量、第三權重系數,計算模型輸入特征向量之前,獲取初始第一權重系數、初始第二權重系數及初始第三權重系數;
48、迭代計算單元,用于基于梯度下降法及預設迭代次數,分別對所述初始第一權重系數、初始第二權重系數及初始第三權重系數進行迭代減弱;
49、迭代計算單元,還用于分別根據各個邊緣節點對應的預設訓練數據及預設迭代算法,對迭代計算后的所述初始第一權重系數、初始第二權重系數及初始第三權重系數進行迭代增強,得到各個邊緣節點對應的訓練好的初始第一權重系數、初始第二權重系數及初始第三權重系數;
50、匯總單元,用于根據各個邊緣節點對應的訓練好的初始第一權重系數、初始第二權重系數及初始第三權重系數進行匯總,得到第一權重系數、第二權重系數及第三權重系數;
51、訓練單元,還用于重復上述訓練過程,直至第一權重系數、第二權重系數及第三權重系數都滿足預設收斂條件后,停止訓練,得到訓練好的第一權重系數、第二權重系數及第三權重系數。
52、可選的,所述裝置還包括:
53、獲取單元,用于在迭代計算單元根據預設訓練數據及預設迭代算法,對迭代計算后的所述第一權重系數、初始第二權重系數及初始第三權重系數進行迭代增強之前,獲取各個邊緣節點的預設時間間隔內的上網日志記錄;
54、第三計算單元,用于根據所述url特征向量與所述各個邊緣節點的上網日志記錄分別進行計算,得到各個邊緣節點分別對應的第三目標交集;
55、確定單元,用于分別確定所述第三目標交集內每條上網日志url記錄對應的上網用戶,并根據所述第三目標交集與所述第三目標交集內的上網日志url記錄對應的上網用戶生成所述預設訓練數據。
56、根據本公開的第三方面,提供了一種電子設備,包括:
57、至少一個處理器;以及
58、與所述至少一個處理器通信連接的存儲器;其中,
59、所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行前述第一方面所述的方法。
60、根據本公開的第四方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,其中,所述計算機指令用于使所述計算機執行前述第一方面所述的方法。
61、根據本公開的第五方面,提供了一種計算機程序產品,包括計算機程序,所述計算機程序在被處理器執行時實現如前述第一方面所述的方法。
62、本公開提供的用戶畫像模型的訓練方法、裝置、電子設備和存儲介質,主要技術方案包括:分別獲取各邊緣節點中的各目標用戶的上網日志url記錄及用戶信息;
63、根據各所述目標用戶的上網日志url記錄,計算url特征向量;根據各所述目標用戶的用戶信息,生成共有屬性特征向量及特有特征向量;根據預設算法及所述url特征向量、共有屬性特征向量及特有特征向量,計算模型輸入特征向量;根據所述模型輸入特征向量與訓練用畫像樣本數據對預設用戶畫像模型進行訓練,得到訓練好的預設畫像模型。與相關技術相比,本技術實施例通過根據各個邊緣節點中的數據,進行計算得到特征向量值后,根據各個特征向量值的權重系數計算最終的輸入特征向量;通過預設的權重系數確定各個特征向量值在最終的輸入特征向量的占比,而不是通過各個邊緣節點的數據量進行確定,使數據量較少的邊緣節點的地域特征在輸入特征向量中也能夠保留,使得預設用戶畫像模型使用輸入特征向量進行用戶畫像時能更好地區分不同地域、不同用戶群體的特征,避免數據量少的邊緣節點的地域特征被弱化。
64、應當理解,本部分所描述的內容并非旨在標識本技術的實施例的關鍵或重要特征,也不用于限制本技術的范圍。本技術的其它特征將通過以下的說明書而變得容易理解。