電子商務網站銷售數據分析方法
【專利摘要】本發明一種電子商務網站銷售數據分析方法,所述方法包括:獲取用戶行為記錄數據、抓取電子網站的公開數據;結合用戶行為記錄數據、抓取電子網站的訪問數據進行數據處理,得到處理后的數據,其中所述數據處理包括數據提取、轉換和加載;對處理后的數據基于預定的算法模型和業務模型進行數據挖掘,獲得最終的銷售數據的結果數據。
【專利說明】電子商務網站銷售數據分析方法
【技術領域】
[0001]本發明涉及電子商務網站銷售數據分析方法。
【背景技術】
[0002]目前,電商的數據分析,限于各大電商網站內部,對自身數據本身的分析,比如,阿里巴巴的數據魔方。這些技術,無法做到對于全網全部電商數據的橫向挖掘,更沒有結合全網用戶訪問行為,進行相關分析。對于全網電商數據的抓取,涉及數據量巨大,而且需要將不同電商網站的非結構化數據,解析成結構化數據,無論從數據量本身、數據的抓取還是解析都有著極大的難度。
[0003]各個電商平臺的產品銷量數據,是無法從公開渠道獲取的。每家電商自身,也只能知道自己平臺相關產品的銷量數據。而一般的通過電商平臺的公開數據,來推測銷量的方式,具有很大的片面性。這樣推測出來的數據,會和真實的銷量數據差距較大,而且很不穩定。
【發明內容】
[0004]針對上述問題,本發明提供一種電子商務網站銷售數據分析方法。
[0005]本發明電子商務網站銷售數據分析方法,所述方法包括:
獲取用戶行為記錄數據、抓取電子網站的公開數據;
結合用戶行為記錄數據、抓取電子網站的訪問數據進行數據處理,得到處理后的數據,其中所述數據處理包括數據提取、轉換和加載;
對處理后的數據基于預定的算法模型和業務模型進行數據挖掘,獲得最終的銷售數據的結果數據。
[0006]進一步地,所述用戶行為數據至少包括購買產品的行為數據;所述電子網站的公開數據至少包括產品評論數據、產品排名數據、產品訪問數據。
[0007]進一步地,所述算法模型,包括聚類和分類算法,以及關聯規則和時間序列;所述業務模型,包括通過產品評論數據、產品排名數據和產品訪問量數據分別統計出產品的銷量,對產品評論數據、產品排名數據和產品訪問量數據取中位數,作為置信度最高的銷量值。
[0008]進一步地,所述銷售數據的獲取方法包括:
直接獲得銷售數據;或
通過對用戶行為記錄、抓取電子網站的公開數據進行數據提取、轉換和加載,得到多維度的數據;
對多維度的數據分別基于產品的評論數、產品的排名、產品的訪問量幾個維度分別計算產品的銷量值;
對基于產品的評論數獲得的銷量值、產品的排名獲得的銷量值、產品的訪問量獲得的銷量值取中位數,得到產品的銷量值。
[0009]進一步地,基于產品評論數計算產品銷量數的方法為:在抓取數據中,獲取到每個產品,每天的評論數,計算出預定時間段內的評論數增量,同一時間段內,每個網站的銷量和評論數成正比,通過檢驗數據,獲得每個網站的這一系數,用評論數乘以該系數,得到所述產品的銷量值。
[0010]進一步地,基于產品訪問量計算出銷量的方法為:在抓取數據中,獲取產品詳情頁的URL特征,該特征使用正則表達式來表示,在用戶訪問記錄中,匹配并計算出每個產品的訪問數,統計出每個品類,對應的所有產品的訪問總數,用每個產品的訪問數,除以對應品類的訪問總數,再乘以又評論數計算出的這個品類的總銷量,就得到了基于產品訪問量計算出的銷量。
[0011]進一步地,基于產品排名計算出銷量的方法為:在抓取數據中,獲取每個產品在對應品類的排名,計算一個時間段,每個排名的平均評論數,然后每個產品按照排名,得到這個按排名的平均評論數,然后乘以,在基于產品評論數計算出銷量的具體過程中的對應網站的系數,就得到了基于產品排名計算出的銷量。
[0012]本發明有益效果:
本發明,可以大規模獲取全網電商相關數據,同時結合海量用戶訪問記錄,根據獨有的分析模型,挖掘出有價值的信息和知識。本專利通過電商平臺的公開數據,比如,產品評論和排名,并且,結合海量用戶訪問記錄,通過本專利的獨特銷量統計分析模型,可以獲得準確度非常高的,跨電商平臺的產品銷量數據。
【專利附圖】
【附圖說明】
[0013]圖1本發明的電子商務網站銷售數據分析方法流程圖;
圖2本發明的電子商務網站銷售數據分析方法具體流程圖。
【具體實施方式】
[0014]下面結合說明書附圖對本發明做進一步的描述。
[0015]電商數據的抓取,采用分布式集群進行海量數據的抓取。分布式集群,底層技術采用成熟的Hadoop生態系統。可以對不同站點,進行極高的個性化配置,滿足不同站點的各自抓取和數據結構化解析的需求。可以通過配置規則,而不用增加代碼的方式,對不同站點進行數據結構化解析。支持多種數據的格式,包括,HTML,XML,JS0N。多種防反抓取策略,包括,使用代理,控制并發和單位時間訪問次數。對全網電商各個維度數據進行抓取解析,包括,產品詳情,產品參數,價格,促銷信息,評論。定時跟蹤,增量更新相關數據。
[0016]對全網電商數據,進行橫向挖掘。抓取的電商數據,結合全網用戶訪問行為,對這些海量數據,進行多維度的深入挖掘。
[0017]獨有的銷量估算模型,除淘寶、天貓外,其他的大型電商網站,無法直接獲取到銷量。通過產品評論、產品排名和產品訪問量,從這幾個方面,分別統計出這個產品的銷量,然后對這幾個值取中位數,作為置信度最高的銷量值。
[0018]按產品評論數計算出銷量的具體過程是,在抓取數據中,可以直接獲取到每個產品,每天的評論數。這樣可以計算出,一段時間的評論數增量。同一段時間內,每個商城銷量和評論數成正比,通過檢驗數據,可以獲得每個商城的這一系數。于是,用評論數乘以這個系數,就可以得到對應的銷量。
[0019]按產品訪問量計算出銷量的具體過程是,在抓取數據中,獲取產品詳情頁的URL特征,這一特征使用正則表達式來表示,然后在用戶訪問記錄中,匹配并計算出每個產品的訪問數。統計出每個品類,對應的所有產品的訪問總數,用每個產品的訪問數,除以對應品類的訪問總數,再乘以又評論數計算出的這個品類的總銷量,就得到了按產品訪問量計算出的銷量。
[0020]按產品排名計算出銷量的具體過程是,在抓取數據中,獲取每個產品在對應品類的排名,計算一個時間段,每個排名的平均評論數,然后每個產品按照排名,可以得到這個按排名的平均評論數,然后乘以,在“按產品評論數計算出銷量的具體過程”中的對應商城的系數,就得到了按產品排名計算出的銷量。
[0021]在圖1中,本實施例電子商務網站銷售數據分析方法,所述方法包括:
獲取用戶行為記錄數據、抓取電子網站的公開數據;
結合用戶行為記錄數據、抓取電子網站的訪問數據進行數據處理,得到處理后的數據,其中所述數據處理包括數據提取、轉換和加載;
對處理后的數據基于預定的算法模型和業務模型進行數據挖掘,獲得最終的銷售數據的結果數據。
[0022]如圖2所示,所述的電子商務網站的數據銷售分析方法,所述用戶行為數據至少包括購買產品的行為數據;所述電子網站的公開數據至少包括產品評論數據、產品排名數據、產品訪問數據。
[0023]所述的電子商務網站的數據銷售分析方法,所述銷售數據的獲取方法包括:
直接獲得銷售數據;或
通過對用戶行為記錄、抓取電子網站的公開數據進行數據提取、轉換和加載,得到多維度的數據;
對多維度的數據分別基于產品的評論數、產品的排名、產品的訪問量幾個維度分別計算產品的銷量值;
對基于產品的評論數獲得的銷量值、產品的排名獲得的銷量值、產品的訪問量獲得的銷量值取中位數,得到產品的銷量值。
[0024]基于產品評論數計算產品銷量數的方法為:在抓取數據中,獲取到每個產品,每天的評論數,計算出預定時間段內的評論數增量,同一時間段內,每個網站的銷量和評論數成正比,通過檢驗數據,獲得每個網站的這一系數,用評論數乘以該系數,得到所述產品的銷量值。
[0025]基于產品訪問量計算出銷量的方法為:在抓取數據中,獲取產品詳情頁的URL特征,該特征使用正則表達式來表示,在用戶訪問記錄中,匹配并計算出每個產品的訪問數,統計出每個品類,對應的所有產品的訪問總數,用每個產品的訪問數,除以對應品類的訪問總數,再乘以又評論數計算出的這個品類的總銷量,就得到了基于產品訪問量計算出的銷量。
[0026]基于產品排名計算出銷量的方法為:在抓取數據中,獲取每個產品在對應品類的排名,計算一個時間段,每個排名的平均評論數,然后每個產品按照排名,得到這個按排名的平均評論數,然后乘以,在基于產品評論數計算出銷量的具體過程中的對應網站的系數,就得到了基于產品排名計算出的銷量。
[0027]在圖1中,通過抓取系統,對全網電商數據,進行抓取、提取、傳輸,得到抓取數據。結合用戶行為數據,按照業務需求,對數據進行綜合的ETL清洗。對清洗后的數據,根據業務需求,進行各種模型的挖掘。
[0028]在圖2中,結合全網電商的抓取數據和全網用戶訪問記錄,分別清洗出,按產品評論數計算出的銷量、按產品訪問量計算出的銷量、按產品排名計算出的銷量。然后對這幾個值取中位數,作為置信度最高的銷量值。
[0029]本發明,算法模型是采用開源、通用的。
[0030]算法模型,包括常用的聚類和分類算法,以及關聯規則和時間序列。
[0031]業務模型,在【具體實施方式】中,已經詳細描述。即,如下的部分。
[0032]“通過產品評論、產品排名和產品訪問量,從這幾個方面,分別統計出這個產品的銷量,然后對這幾個值取中位數,作為置信度最高的銷量值。
[0033]按產品評論數計算出銷量的具體過程是,在抓取數據中,可以直接獲取到每個產品,每天的評論數。這樣可以計算出,一段時間的評論數增量。同一段時間內,每個商城銷量和評論數成正比,通過檢驗數據,可以獲得每個商城的這一系數。于是,用評論數乘以這個系數,就可以得到對應的銷量。
[0034]按產品訪問量計算出銷量的具體過程是,在抓取數據中,獲取產品詳情頁的URL特征,這一特征使用正則表達式來表示,然后在用戶訪問記錄中,匹配并計算出每個產品的訪問數。統計出每個品類,對應的所有產品的訪問總數,用每個產品的訪問數,除以對應品類的訪問總數,再乘以又評論數計算出的這個品類的總銷量,就得到了按產品訪問量計算出的銷量。
[0035]按產品排名計算出銷量的具體過程是,在抓取數據中,獲取每個產品在對應品類的排名,計算一個時間段,每個排名的平均評論數,然后每個產品按照排名,可以得到這個按排名的平均評論數,然后乘以,在“按產品評論數計算出銷量的具體過程”中的對應商城的系數,就得到了按產品排名計算出的銷量。”
本發明的優點:
各個電商平臺的產品銷量數據,是無法從公開渠道獲取的。每家電商自身,也只能知道自己平臺相關產品的銷量數據。而一般的通過電商平臺的公開數據,來推測銷量的方式,具有很大的片面性。這樣推測出來的數據,會和真實的銷量數據差距較大,而且很不穩定。本專利通過電商平臺的公開數據,比如,產品評論和排名,并且,結合海量用戶訪問記錄,通過本專利的獨特銷量統計分析模型,可以獲得準確度非常高的,跨電商平臺的產品銷量數據。
[0036]本發明要挖掘的數據:
本專利要挖掘的數據,就是跨電商平臺的產品銷量數據。這些數據有很大的商業價值,t匕如,某品牌的冰箱廠商,可以通過這些數據,了解自己和競爭對手,在各個電商平臺的具體銷售情況,以此來擬定自己的營銷策略。
[0037]英文名詞解釋:
URL:Uniform Resoure Locator統一資源定位器,是Wffff頁的地址。
[0038]ETL:Extract-Transform_Load 的縮寫,是數據抽取(Extract)、清洗(Cleaning)、轉換(Transform)、裝載(Load)的過程。是構建數據倉庫的重要一環,用戶從數據源抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。
[0039]Hadoop =Hadoop是在分布式服務器集群上存儲海量數據并運行分布式分析應用的一種方法。允許在集群服務器上使用簡單的編程模型對大數據集進行分布式處理。Hadoop被設計成能夠從單臺服務器擴展到數以千計的服務器,每臺服務器都有本地的計算和存儲資源。Hadoop的高可用性并不依賴硬件,其代碼庫自身就能在應用層偵測并處理硬件故障,因此能基于服務器集群提供高可用性的服務。
[0040]HTML:HyperText Markup language超文本標記語言。“超文本”就是指頁面內可以包含圖片、鏈接,甚至音樂、程序等非文字元素。
[0041]XML Extensible Markup Language可擴展標記語言,標準通用標記語言的子集,一種用于標記電子文件使其具有結構性的標記語言。
[0042]JSON:JSON(JavaScript Object Notat1n)是一種輕量級的數據交換格式。它基于 JavaScript (Standard ECMA-262 3rd Edit1n - December 1999)的一個子集。JSON采用完全獨立于語言的文本格式,但是也使用了類似于C語言家族的習慣(包括C,C++,c#, Java, JavaScript, Perl, Python等)。這些特性使JSON成為理想的數據交換語言。易于人閱讀和編寫,同時也易于機器解析和生成。
[0043]對本發明應當理解的是,以上所述的實施例,對本發明的目的、技術方案和有益效果進行了進一步詳細的說明,以上僅為本發明的實施例而已,并不用于限定本發明,凡是在本發明的精神原則之內,所作出的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內,本發明的保護范圍應該以權利要求所界定的保護范圍為準。
【權利要求】
1.一種電子商務網站銷售數據分析方法,其特征在于:所述方法包括: 獲取用戶行為記錄數據、抓取電子網站的公開數據; 結合用戶行為記錄數據、抓取電子網站的訪問數據進行數據處理,得到處理后的數據,其中所述數據處理包括數據提取、轉換和加載; 對處理后的數據基于預定的算法模型和業務模型進行數據挖掘,獲得最終的銷售數據的結果數據。
2.根據權利要求1所述的電子商務網站銷售數據分析方法,其特征在于:所述用戶行為數據至少包括購買產品的行為數據;所述電子網站的公開數據至少包括產品評論數據、產品排名數據、產品訪問數據。
3.根據權利要求2所述的電子商務網站銷售數據分析方法,其特征在于:所述算法模型,包括聚類和分類算法,以及關聯規則和時間序列;所述業務模型,包括通過產品評論數據、產品排名數據和產品訪問量數據分別統計出產品的銷量,對產品評論數據、產品排名數據和產品訪問量數據取中位數,作為置信度最高的銷量值。
4.根據權利要求2所述的電子商務網站的數據銷售分析方法,其特征在于:所述銷售數據的獲取方法包括: 直接獲得銷售數據;或 通過對用戶行為記錄、抓取電子網站的公開數據進行數據提取、轉換和加載,得到多維度的數據; 對多維度的數據分別基于產品的評論數、產品的排名、產品的訪問量幾個維度分別計算產品的銷量值; 對基于產品的評論數獲得的銷量值、產品的排名獲得的銷量值、產品的訪問量獲得的銷量值取中位數,得到產品的銷量值。
5.根據權利要求4所述的電子商務網站的數據銷售分析方法,其特征在于:基于產品評論數計算產品銷量數的方法為:在抓取數據中,獲取到每個產品,每天的評論數,計算出預定時間段內的評論數增量,同一時間段內,每個網站的銷量和評論數成正比,通過檢驗數據,獲得每個網站的這一系數,用評論數乘以該系數,得到所述產品的銷量值。
6.根據權利要求5所述的電子商務網站的數據銷售分析方法,其特征在于: 基于產品訪問量計算出銷量的方法為:在抓取數據中,獲取產品詳情頁的URL特征,該特征使用正則表達式來表示,在用戶訪問記錄中,匹配并計算出每個產品的訪問數,統計出每個品類,對應的所有產品的訪問總數,用每個產品的訪問數,除以對應品類的訪問總數,再乘以又評論數計算出的這個品類的總銷量,就得到了基于產品訪問量計算出的銷量。
7.根據權利要求6所述的電子商務網站的數據銷售分析方法,其特征在于: 基于產品排名計算出銷量的方法為:在抓取數據中,獲取每個產品在對應品類的排名,計算一個時間段,每個排名的平均評論數,然后每個產品按照排名,得到這個按排名的平均評論數,然后乘以,在基于產品評論數計算出銷量的具體過程中的對應網站的系數,就得到了基于產品排名計算出的銷量。
【文檔編號】G06Q10/06GK104134108SQ201410285931
【公開日】2014年11月5日 申請日期:2014年6月25日 優先權日:2014年6月25日
【發明者】楊偉慶 申請人:上海艾瑞市場咨詢有限公司