人車關系的識別方法及裝置的制造方法
【技術領域】
[0001]本申請涉及數據挖掘領域,具體涉及一種人車關系的識別方法及裝置。
【背景技術】
[0002]目前,各行各業都在廣泛地收集用戶數據,并通過算法從大量的數據中搜索出隱藏于其中的有用信息,即:數據挖掘。如何利用有限的數據,盡可能地還原用戶的場景、更精準地捕捉用戶的真實需求已經成為各個行業、領域的重要研究問題。
[0003]上述問題在汽車消費領域中,體現為如何利用有限的數據,還原人車關聯的場景,識別人車關系的問題。在數據化運營、資產評估中,常常需要判斷某個人是否有車。現有的人車識別方法主要包括以下兩種:
[0004]I)基于人車登記信息進行識別。
[0005]此類信息最為準確,因為只有用戶真正擁有車輛才會進行登記。通過該方法,可以直接得到用戶身份標識、車輛標識之間的關系。然而,此類信息只有車管所、汽車銷售網站、汽車4s服務店才可能有,由于信息比較敏感,難以開放分享給其他行業使用,例如:電商、社交平臺等行業。
[0006]2)基于人在電商平臺的汽車用品消費記錄進行識別。
[0007]在電商平臺購買汽車用品的用戶,很有可能是擁有汽車的,此類信息也能夠比較準確地識別人、車的關系,甚至可以根據購買的汽車用品,識別出汽車的型號。然而,由于購買習慣的不同,很多人并不通過電商平臺購買汽車用品,而到線下的汽車4s服務店購買,因此,該方法的缺點是人、車數據覆蓋范圍不廣。
[0008]綜上所述,一方面,車管所、汽車銷售網站、汽車4s服務店具有人車關聯的數據,但數據敏感很少公開,更不能為其他行業大批量使用。另一方面,由于人、車是獨立的實體,而電商平臺、社交平臺等在線系統在收集數據時,只能獲取數量非常有限的人車關聯的數據。
[0009]因此,現有技術存在只能根據數量有限的、真實的人車關聯數據識別人車關系的問題。
【發明內容】
[0010]本申請提供一種人車關系的識別方法和裝置,以解決現有技術存在只能根據數量有限的、真實的人車關聯數據識別人車關系的問題。
[0011]本申請提供一種人車關系的識別方法,包括:
[0012]根據人的時空數據和車的時空數據,計算各個人車組合的相關性系數;
[0013]遍歷各個人車組合,判斷所述相關性系數是否大于等于相關性系數閾值;若是,則將所述人車組合作為待標識的人車關系;
[0014]采用預設的規則,將所述待標識的人車關系標識為一車對一人或一車對多人的人車關系。
[0015]可選的,在所述根據人的時空數據和車的時空數據,計算各個人車組合的相關性系數之前,還包括:
[0016]獲取所述人的時空數據和車的時空數據。
[0017]可選的,所述人的時空數據包括身份標識、經度、瑋度和時間;所述車的時空數據包括導航設備標識、經度、瑋度和時間;所述相關性系數是指人和車之間時間和地理位置均相同的次數。
[0018]可選的,在所述根據人的時空數據和車的時空數據,計算各個人車組合的相關性系數之前,還包括:
[0019]將所述人的時空數據和車的時空數據的每一對所述經度和瑋度數據轉換為geohash編碼的字符串。
[0020]可選的,所述geohash編碼的位數是可調節的。
[0021]可選的,所述人的時空數據和車的時空數據,是指在預設的時間間隔范圍內的平均地理位置。
[0022]可選的,在所述根據人的時空數據和車的時空數據,計算各個人車組合的相關性系數之前,還包括:
[0023]根據地圖POI數據,將所述人的時空數據和車的時空數據中的與特定地理位置相關的數據刪除;所述地圖POI數據包括名稱、類別、經度和瑋度。
[0024]可選的,所述根據人的時空數據和車的時空數據,計算各個人車組合的相關性系數包括:
[0025]根據人的時空數據和車的時空數據,生成所有人車組合;
[0026]遍歷各個人車組合,獲取與所述人車組合相關人的時空數據和車的時空數據,并根據所述相關人的時空數據和車的時空數據,計算所述人車組合的相關性系數。
[0027]可選的,所述采用預設的規則,將所述待標識的人車關系標識為一車對一人或一車對多人的人車關系包括:
[0028]若所述待標識的人車關系中的人只與一輛車存在人車關系,并且所述待標識的人車關系中的車只與一個人存在人車關系,則判定所述待標識的人車關系為一車對一人的人車關系;
[0029]若所述待標識的人車關系中的人分別與多輛車之間存在待標識的人車關系,或者所述待標識的人車關系中的車分別與多個人之間存在待標識的人車關系,則判定所述相關性系數最大的待標識的人車關系為一車對一人的人車關系;
[0030]若所述待標識的人車關系中的車分別與多個人之間存在待標識的人車關系,則判定該車與所述多個人之間為一車對多人的人車關系。
[0031]可選的,所述相關性系數閾值采用如下步驟生成:
[0032]在所述人的時空數據中,選取第一預設個數的具有車和移動設備的人,作為第一樣本;
[0033]根據所述第一樣本,在所述人的時空數據和車的時空數據中,獲取所述第一樣本中每一個人的所述人的時空數據和該人擁有的車的時空數據,作為第一待計算數據;
[0034]計算所述第一待計算數據中的每個人和每輛車的相關性系數;
[0035]計算所述第一待計算數據中的每個人和每輛車的相關性系數的平均值,作為所述相關性系數閾值。
[0036]可選的,所述相關性系數閾值采用如下步驟生成:
[0037]在所述人的時空數據中,選取第一預設個數的具有車和移動設備的人,作為第一樣本;
[0038]根據所述第一樣本,在所述人的時空數據和車的時空數據中,獲取所述第一樣本中每一個人的所述人的時空數據和該人擁有的車的時空數據,作為第一待計算數據;
[0039]計算所述第一待計算數據中的每個人和每輛車的相關性系數;
[0040]計算所述第一待計算數據中的每個人和每輛車的相關性系數的平均值,作為第一平均相關性系數;
[0041]在所述人的時空數據中,選取第二預設個數的只具有移動設備而不具有車的人,作為第二樣本;
[0042]根據所述第二樣本,在所述人的時空數據中,獲取所述第二樣本中每一個人的所述人的時空數據,將其與所述車的時空數據作為第二待計算數據;
[0043]計算所述第二待計算數據中的每個人和每輛車的相關性系數;
[0044]在所述第二待計算數據中的每個人和每輛車的相關性系數中,選取相關性系數最高的預設比例的相關性系數,作為待計算的相關性系數;并將所述待計算的相關性系數的平均值加第三預設個數,作為第二平均相關性系數;
[0045]選取所述第一平均相關性系數和第二平均相關性系數中的最大值,作為所述相關性系數閾值。
[0046]可選的,所述車的時空數據還包括車輛型號和車牌號碼。
[0047]本申請還提供一種人車關系的識別裝置,包括:
[0048]計算單元,用于根據人的時空數據和車的時空數據,計算各個人車組合的相關性系數;
[0049]判斷單元,用于遍歷各個人車組合,判斷所述相關性系數是否大于等于相關性系數閾值;若是,則將所述人車組合作為待標識的人車關系;
[0050]標識單元,用于采用預設的規則,將所述待標識的人車關系標識為一車對一人或一車對多人的人車關系。
[0051]可選的,還包括:
[0052]獲取單元,用于獲取所述人的時空數據和車的時空數據。
[0053]可選的,還包括:
[0054]轉碼單元,用于將所述人的時空數據和車的時空數據的每一對經度和瑋度數據轉換為geohash編碼的字符串。
[0055]可選的,還包括:
[0056]刪除單元,用于根據地圖POI數據,將所述人的時空數據和車的時空數據中的與特定地理位置相關的數據刪除;所述地圖POI數據包括名稱、類別、經度和瑋度。
[0057]可選的,所述計算單元包括:
[0058]組合子單元,用于根據人的時空數據和車的時空數據,生成所有人車組合;
[0059]計算子單元,用于遍歷各個人車組合,獲取與所述人車組合相關人的時空數據和車的時空數據,并根據所述相關人的時空數據和車的時空數據,計算所述人車組合的相關性系數。
[0060]可選的,所述標識單元包括:
[0061]第一標識子單元,用于如果所述待標識的人車關系中的人只與一輛車存在人車關系,并且所述待標識的人車關系中的車只與一個人存在人車關系,則判定所述待標識的人車關系為一車對一人的人車關系;
[0062]第二標識子單元,用于如果所述待標識的人車關系中的人分別與多輛車之間存在待標識的人車關系,或者所述待標識的人車關系中的車分別與多個人之間存在待標識的人車關系,則判定所述相關性系數最大的待標識的人車關系為一車對一人的人車關系;
[0063]第三標識子單元,用于如果所述待標識的人車關系中的車分別與多個人之間存在待標識的人車關系,則判定該車與所述多個人之間為一車對多人的人車關系。<