確定用戶標識的關聯性的方法和裝置的制造方法
【技術領域】
[0001] 本申請涉及計算機技術領域,具體涉及信息匹配技術領域,尤其涉及一種確定用 戶標識的關聯性的方法和裝置。
【背景技術】
[0002] 隨著互聯網技術的發展,各種網絡平臺,例如網絡社交平臺(如QQ社交平臺)、搜索 平臺(如必應搜索平臺)、網上交易平臺(如京東商城)等等,逐漸成為人們生活的重要組成 部分。用戶可以通過相同或不同的賬號或終端設備等訪問各種網絡平臺。這些賬號或終端 設備的標識信息等可以用用戶標識(i d e n t i f i c a t i ο η,ID)來表示。對這些用戶標識之間的 關聯性進行分析,具有應用于各種領域的重要意義,例如網頁廣告推送、網絡社交平臺中的 好友推薦、犯罪分子追蹤等等。
[0003] 現有的確定用戶標識的關聯性的方法中,通常將用戶標識兩兩之間的屬性信息相 匹配從而確定其是否相關聯。然而,這種匹配方法,往往通過已確定關聯性的用戶標識預先 訓練的模型對待確定關聯性的用戶標識進行預測,建立在已確定關聯性的用戶標識之間的 關聯關系與待確定關聯性的用戶標識之間的關聯關系具有相同的規律和分布的假設基礎 上。因此,這種匹配方法沒有考慮待確定關聯性的用戶標識之間的關聯關系對預測模型的 影響,導致在上述假設不成立時,確定的用戶標識的關聯性準確度不高。
【發明內容】
[0004] 本申請的目的在于提出一種改進的方法和裝置,來解決以上【背景技術】部分提到的 技術問題。
[0005] -方面,本申請提供了一種確定用戶標識的關聯性的方法,所述方法包括:分別提 取待確定關聯性的多組用戶標識的相似度向量,其中,每組用戶標識包括至少兩個用戶標 識;利用預先訓練的關聯度模型將各個相似度向量進行計算分別得到第一關聯度;基于所 述第一關聯度對所述待確定關聯性的多組用戶標識分別生成預確定關聯關系;根據所述預 確定關聯關系,將所述待確定關聯性的多組用戶標識作為更新樣本集對所述關聯度模型更 新得到預測模型;對待確定關聯性的各組用戶標識,分別利用所述預測模型對所述相似度 向量進行計算得到第二關聯度;對于第二關聯度大于預設閾值的各組用戶標識,確定組內 的用戶標識間具有關聯性。
[0006] 在一些實施例中,所述分別提取待確定關聯性的多組用戶標識的相似度向量包 括:針對各組用戶標識,執行如下步驟:獲取每個用戶標識的屬性信息;對所述屬性信息中 的每一項,計算用戶標識之間的屬性相似度;由所述屬性相似度生成所述相似度向量。
[0007] 在一些實施例中,所述基于所述第一關聯度對所述待確定關聯性的多組用戶標識 分別生成預確定關聯關系包括:對所述第一關聯度通過聚類算法進行分類,以將所述待確 定關聯性的多組用戶標識分為兩類;根據分類結果對所述多組用戶標識生成預確定關聯關 系。
[0008] 在一些實施例中,所述聚類算法的聚類中心通過迭代方法計算得到,具體方法包 括:查找步驟:遍歷待確定關聯性的各組用戶標識,查找使下列函數具有最小值的一組用戶 標識,加入集合c (1):
[0009]
[0010] 其中,x(1)表示第i組用戶標識的相似度向量此表示集合c(1)所代表聚類的聚類中 心的相似度向量;表示第i組用戶標識的第一關聯度; 11.,#)表示集 合c(1)所代表聚類的聚類中心的第一關聯度;λ表示第一關聯度的權重;計算步驟:對于集合 c(1)中的至少一組用戶標識,計算各組用戶標識的相似度向量的平均值,具體計算公式為:
[0011]
[0012] 迭代步驟:用所述平均值作為集合c(1)所代表聚類的聚類中心的相似度向量,重復 以上查找步驟和計算步驟,直至集合c (1)穩定;確定步驟:將使集合c(1)穩定時的μ」確定為集 合c(1)所代表聚類的聚類中心的第一關聯度。
[0013] 在一些實施例中,λ包括將作為驗證樣本集的多組用戶標識分成兩類時,使得生成 的預確定關聯關系與已知的關聯關系的匹配度最高時的取值。
[0014] 在一些實施例中,仏(J = 11 )由所述關聯度模型將4進行計算得到。
[0015] 在一些實施例中,所述根據分類結果對所述多組用戶標識生成預確定關聯關系包 括:對兩類中每一類待確定關聯性的多組用戶標識,將各個第一關聯度與預設的關聯度閾 值相比較;如果大于預設的關聯度閾值的第一關聯度個數超過小于預設的關聯度閾值的第 一關聯度個數,確定該類中待確定關聯性的多組用戶標識的預確定關聯關系都為具有關聯 性。
[0016] 第二方面,本申請提供了一種確定用戶標識的關聯性的裝置,所述裝置包括:提取 模塊,配置用于分別提取待確定關聯性的多組用戶標識的相似度向量,其中,每組用戶標識 包括至少兩個用戶標識;第一計算模塊,配置用于利用預先訓練的關聯度模型將各個相似 度向量進行計算分別得到第一關聯度;生成模塊,配置用于基于所述第一關聯度對所述待 確定關聯性的多組用戶標識分別生成預確定關聯關系;更新模塊,配置用于根據預確定的 關聯關系,將所述待確定關聯性的多組用戶標識作為更新樣本集對所述關聯度模型更新得 到預測模型;第二計算模塊,配置用于對待確定關聯性的各組用戶標識,分別利用所述預測 模型對所述相似度向量進行計算得到第二關聯度;確定模塊,配置用于對于第二關聯度大 于預設閾值的各組用戶標識,確定組內的用戶標識間具有關聯性。
[0017] 在一些實施例中,所述提取模塊包括針對各組用戶標識進行處理的以下單元:獲 取單元,配置用于獲取每個用戶標識的屬性信息;計算單元,配置用于對所述屬性信息中的 每一項,計算用戶標識之間的屬性相似度;生成單元,配置用于由所述屬性相似度生成所述 相似度向量。
[0018] 在一些實施例中,生成模塊包括:分類單元,配置用于對所述第一關聯度通過聚類 算法進行分類,以將所述待確定關聯性的多組用戶標識分為兩類;生成單元,配置用于根據 分類結果對所述多組用戶標識生成預確定關聯關系。
[0019] 在一些實施例中,所述分類單元還包括:查找子單元:遍歷待確定關聯性的各組用 戶標識,查找使下列函數具有最小值的一組用戶標識,加入集合c (1):
[0020]
[0021] 其中,x(1)表示第i組用戶標識的相似度向量;^表示集合c(1)所代表聚類的聚類中 心的相似度向量;辦=11 表示第i組用戶標識的第一關聯度;=11 y#)表示集 合c(1)所代表聚類的聚類中心的第一關聯度;λ表示第一關聯度的權重;計算子單元:對于集 合c(1)中的至少一組用戶標識,計算各組用戶標識的相似度向量的平均值,具體計算公式 為:
[0022]
[0023]迭代子單元:用所述平均值作為集合c(1)所代表聚類的聚類中心的相似度向量,重 復以上查找步驟和計算步驟,直至集合c(1)穩定;確定子單元:將使集合c(1)穩定時的μ」確定 為集合c (1)所代表聚類的聚類中心的第一關聯度。
[0024]在一些實施例中,λ包括將作為驗證樣本集的多組用戶標識分成兩類時,使得生成 的預確定關聯關系與已知的關聯關系的匹配度最高時的取值。
[0025] 在一些實施例中,A、()' = 11 X(~)由所述關聯度模型將…進行計算得到。
[0026] 在一些實施例中,所述生成單元還配置用于:對兩類中每一類待確定關聯性的多 組用戶標識,將各個第一關聯度與預設的關聯度閾值相比較;如果大于預設的關聯度閾值 的第一關聯度個數超過小于預設的關聯度閾值的第一關聯度個數,確定該類中待確定關聯 性的多組用戶標識的預確定關聯關系都為具有關聯性。
[0027] 本申請提供的確定用戶標識的關聯性的方法和裝置,通過分別提取待確定關聯性 的多組用戶標識相似度向量,然后利用預先訓練的關聯度模型將上述相似度向量進行計算 得到第一關聯度,接著基于第一關聯度對待確定關聯性的多組用戶標識分別生成預確定關 聯關系,然后根據預確定的關聯關系,將待確定關聯性的多組用戶標識作為更新樣本集對 關聯度模型更新得到預測模型,然后對待確定關聯性的各組用戶標識,分別利用預測模型 對上述相似度向量進行計算得到第二關聯度,并對于第二關聯度大于預設閾值的各組用戶 標識,確定組內的用戶標識間具有關聯性,由于通過基于關聯度模型對待確定關聯性的多 組用戶標識生成的預確定關聯關系對關聯度模型進行更新,并通過更新得到的預測模型對 待確定關聯性的多組用戶標識的關聯性進行確定,從而充分考慮待確定關聯性的多組用戶 標識對預先訓練的關聯度模型的影響,提高了確定用戶標識的關聯性的準確性。
【附圖說明】
[0028] 通過閱讀參照以下附圖所作的對非限制性實施例的詳細描述,本申請的其它特 征、目的和優點將會變得更明顯:
[0029]圖1示出了可以應用本申請實施例的示例性系統架構;
[0030] 圖2是根據本申請的確定用戶