互聯網二手車行業垃圾數據識別方法
【專利摘要】本發明公開了一種互聯網二手車行業垃圾數據識別方法,包括如下步驟:步驟一:從若干個互聯網網站通過搜索算法提取賣車信息;步驟二:對賣車信息進行賣車數據匯總;步驟三:對賣車數據進行來源分類;步驟四:對賣車數據進行有效性分級。本發明取代人工處理互聯網賣車數據,對數據進行分類、分級。提高業務運營效率,幫助客服更準確把握客戶賣車迫切程度。
【專利說明】
互聯網二手車行業垃圾數據識別方法
技術領域
[0001]本發明涉及一種互聯網二手車行業垃圾數據識別方法,屬于汽車技術領域。
【背景技術】
[0002]據
【申請人】了解結合機器學習技術,同時結合互聯網賣車信息特征,通過海量數據分析,進行數據建模,實現數據來源分類、數據有效性分級。
[0003]現有方法,有如下的問題:人工識別,效率低下,無法從多數據來源進行交叉對比。無法通過歷史數據對現有數據進行過濾。
[0004]數據來源分類:在傳統行業對于海量的互聯網數據進行個人客戶和商家客戶人為分類成本很高、效率很低,而計算機恰巧可以通過大數據來進行特征提取,識別分類。
[0005]數據有效性分級:通過客戶在多平臺、持續性發布賣車信息對客戶數據有效性等級進行分級處理。同時跟蹤客戶發布信息的刪除時間,賣車信息的存活時間同樣對數據有效性分級有影響。
【發明內容】
[0006]本發明的目的在于:針對上述現有技術存在的問題,提出一種互聯網二手車行業垃圾數據識別方法。
[0007]本發明具體技術方案如下:互聯網二手車行業垃圾數據識別方法,包括如下步驟: 步驟一:從若干個互聯網網站通過搜索算法提取賣車信息;
步驟二:對賣車信息進行賣車數據匯總;
步驟三:對賣車數據進行來源分類;
步驟四:對賣車數據進行有效性分級。
[0008]進一步地,所述步驟一中,搜索算法是利用計算機的高性能來有目的的窮舉一個問題解空間的部分或所有的可能情況,從而求出問題的解的一種方法,網絡搜索是通過訪問一個網站的首頁遞歸該網站的所有可訪問鏈接收錄該網頁的文本信息,從文本信息中提取賣車信息。
[0009]進一步地,所述步驟二中,具體過程如下:搜索引擎對不同的網站搜索結果保存到一個指定的地方,通過添加標識來標記數據的來源網站,每條數據都使用統一的格式,最終將賣車數據匯總。
[0010]進一步地,所述步驟三中,通過計算相似度來對賣車數據進行來源分類,相似度是指2個字符串之間的差值比率該算法引用了著名的Levenshtein算法;數據相似度的計算:這里首先需要使用排列組合,取3天內的數據,每天計算一次,每次計算以當天時間往前取2天,所有數據進行全組合排列,每個組合2條數據,計算每個組合的字符串相似度,對于所有相似度高于80%的是需要處理的數據,對于手機號相同數據都相似的判定為有效數據,全不相似或有部分不相似的判定為經銷商數據,對于不同號碼的大量數據相似判定為垃圾數據。
[0011]進一步地,所述步驟四中,對賣車數據的有效性分級是是通過數據相似度和用戶發布賣車信息的次數決定,當一個用戶多次發布相同的賣車信息,判定該用分級較高,多次發布不同信息,該用戶分級降低,平臺每半小時會全量掃描一次指定平臺的所有開放信息,同時會采集用戶發布信息的時間,通過指定手機號在采集歷史里面查找該用戶的發布信息間隔。
[0012]本發明通過搜索算法收錄互聯網上海量的賣車信息,對數據進行特征抽樣,當海量數據特征相似,確認該數據為無效數據,或重復數據,以及分析出客戶賣車意愿強烈度,為后續數據針對性處理跟蹤提供信息參考。
[0013]本發明的有益效果如下:取代人工處理互聯網賣車數據,對數據進行分類、分級,提高業務運營效率,幫助客服更準確把握客戶賣車迫切程度。基于大數據的特征提取對數據來源進行分類,對單一號碼從多平臺進行搜索進行數據有效性分級。本發明建立特定模型,通過機器學習來實現數據的分類、分級;本發明同時通過海量數據進行人工分析數據特征,使用該特征和未知數據進行匹配,根據數據的匹配度進行數據的分類、分級。
[0014]本發明效率高,能夠從多數據來源進行交叉對比,并通過歷史數據對現有數據進行過濾,提高了效率,解決了人工識別效率低下并且繁瑣的問題。
【附圖說明】
[0015]下面結合附圖對本發明作進一步的說明。
[0016]圖1為本發明的技術流程圖。
【具體實施方式】
[0017]如圖1所示,本發明互聯網二手車行業垃圾數據識別方法,包括如下步驟:
步驟一:從若干個互聯網網站通過搜索算法提取賣車信息;
步驟二:對賣車信息進行賣車數據匯總;
步驟三:對賣車數據進行來源分類;
步驟四:對賣車數據進行有效性分級。
[0018]本發明所述步驟一中,搜索算法是利用計算機的高性能來有目的的窮舉一個問題解空間的部分或所有的可能情況,從而求出問題的解的一種方法,網絡搜索是通過訪問一個網站的首頁遞歸該網站的所有可訪問鏈接收錄該網頁的文本信息,從文本信息中提取賣車信息。
[0019]本發明所述步驟二中,具體過程如下:搜索引擎對不同的網站搜索結果保存到一個指定的地方,通過添加標識來標記數據的來源網站,每條數據都使用統一的格式,最終將賣車數據匯總。
[0020]本發明所述步驟三中,通過計算相似度來對賣車數據進行來源分類,相似度是指2個字符串之間的差值比率該算法引用了著名的Levenshtein算法;數據相似度的計算:這里首先需要使用排列組合,取3天內的數據,每天計算一次,每次計算以當天時間往前取2天,所有數據進行全組合排列,每個組合2條數據,計算每個組合的字符串相似度,對于所有相似度高于80%的是需要處理的數據,對于手機號相同數據都相似的判定為有效數據,全不相似或有部分不相似的判定為經銷商數據,對于不同號碼的大量數據相似判定為垃圾數據。
[0021]本發明所述步驟四中,對賣車數據的有效性分級是是通過數據相似度和用戶發布賣車信息的次數決定,當一個用戶多次發布相同的賣車信息,判定該用分級較高,多次發布不同信息,該用戶分級降低,平臺每半小時會全量掃描一次指定平臺的所有開放信息,同時會采集用戶發布信息的時間,通過指定手機號在采集歷史里面查找該用戶的發布信息間隔。
[0022]本發明通過搜索算法收錄互聯網上海量的賣車信息,對數據進行特征抽樣,當海量數據特征相似,確認該數據為無效數據,或重復數據,以及分析出客戶賣車意愿強烈度,為后續數據針對性處理跟蹤提供信息參考。
[0023]本發明取代人工處理互聯網賣車數據,對數據進行分類、分級,提高業務運營效率,幫助客服更準確把握客戶賣車迫切程度。基于大數據的特征提取對數據來源進行分類,對單一號碼從多平臺進行搜索進行數據有效性分級。本發明建立特定模型,通過機器學習來實現數據的分類、分級;本發明同時通過海量數據進行人工分析數據特征,使用該特征和未知數據進行匹配,根據數據的匹配度進行數據的分類、分級。本發明效率高,能夠從多數據來源進行交叉對比,并通過歷史數據對現有數據進行過濾,提高了效率,解決了人工識別效率低下并且繁瑣的問題。
[0024]除上述實施例外,本發明還可以有其他實施方式。凡采用等同替換或等效變換形成的技術方案,均落在本發明要求的保護范圍。
【主權項】
1.互聯網二手車行業垃圾數據識別方法,其特征在于:包括如下步驟: 步驟一:從若干個互聯網網站通過搜索算法提取賣車信息; 步驟二:對賣車信息進行賣車數據匯總; 步驟三:對賣車數據進行來源分類; 步驟四:對賣車數據進行有效性分級。2.根據權利要求1所述的互聯網二手車行業垃圾數據識別方法,其特征在于:所述步驟一中,搜索算法是利用計算機的高性能來有目的的窮舉一個問題解空間的部分或所有的可能情況,從而求出問題的解的一種方法,網絡搜索是通過訪問一個網站的首頁遞歸該網站的所有可訪問鏈接收錄該網頁的文本信息,從文本信息中提取賣車信息。3.根據權利要求1所述的互聯網二手車行業垃圾數據識別方法,其特征在于:所述步驟二中,具體過程如下:搜索引擎對不同的網站搜索結果保存到一個指定的地方,通過添加標識來標記數據的來源網站,每條數據都使用統一的格式,最終將賣車數據匯總。4.根據權利要求1所述的互聯網二手車行業垃圾數據識別方法,其特征在于:所述步驟三中,通過計算相似度來對賣車數據進行來源分類,相似度是指2個字符串之間的差值比率該算法引用了著名的Levenshtein算法;數據相似度的計算:這里首先需要使用排列組合,取3天內的數據,每天計算一次,每次計算以當天時間往前取2天,所有數據進行全組合排列,每個組合2條數據,計算每個組合的字符串相似度,對于所有相似度高于80%的是需要處理的數據,對于手機號相同數據都相似的判定為有效數據,全不相似或有部分不相似的判定為經銷商數據,對于不同號碼的大量數據相似判定為垃圾數據。5.根據權利要求1所述的互聯網二手車行業垃圾數據識別方法,其特征在于:所述步驟四中,對賣車數據的有效性分級是是通過數據相似度和用戶發布賣車信息的次數決定,當一個用戶多次發布相同的賣車信息,判定該用分級較高,多次發布不同信息,該用戶分級降低,平臺每半小時會全量掃描一次指定平臺的所有開放信息,同時會采集用戶發布信息的時間,通過指定手機號在采集歷史里面查找該用戶的發布信息間隔。
【文檔編號】G06F17/30GK106096044SQ201610490319
【公開日】2016年11月9日
【申請日】2016年6月28日
【發明人】劉遵尚
【申請人】江蘇車置寶信息科技股份有限公司