校正商品的后臺屬性的屬性值的方法和裝置的制造方法
【專利摘要】本發明公開了一種校正商品的后臺屬性的屬性值的方法和裝置,屬于計算機通信技術領域。所述方法包括:獲取N個商品中每個所述商品的識別符;將N個所述商品劃分為M個可共享后臺屬性商品子集;統計每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個原始屬性值的出現次數;根據每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,確定每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的校正屬性值;將每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值修改為所述校正屬性值。
【專利說明】
校正商品的后臺屬性的屬性值的方法和裝置
技術領域
[0001]本發明涉及計算機通信技術領域,具體涉及一種校正商品的后臺屬性的屬性值的方法和裝置。
【背景技術】
[0002]隨著計算機通信技術的發展,越來越多的商家通過網絡售賣商品,通過網絡售賣商品時,商品的后臺屬性是描述商品的重要信息,商品的后臺屬性影響搜索、導購、推薦等商品呈現給消費者的效果,因此商品的后臺屬性很重要。然而,現有大量商品存在漏填、錯填后臺屬性的屬性值等問題,例如:舉女包類目的后臺屬性“款式”(該屬性包括貝殼包、劍橋包、保齡球包等三十余種屬性值)為例。消費者在通過關鍵字“貝殼包”搜索,或在導購路徑點擊“貝殼包”標簽,或期望推薦系統為其推薦更多“貝殼包”時,如果某商品實質上為貝殼包但是漏填款式屬性的屬性值,從而導致消費者在通過關鍵字“貝殼包”搜索時,該商品不會展現給消費者,造成漏召回;如果平臺中某商品實質上為其他款式(如托特包)但是款式屬性的屬性值被錯填為貝殼包,從而導致消費者在通過關鍵字“貝殼包”搜索,或在導購路徑點擊“貝殼包”標簽,或期望推薦系統為其推薦更多“貝殼包”時,該商品被錯誤地呈現給消費者,造成錯召回。后臺屬性的屬性值漏填導致的漏召回會給消費者造成平臺商品不豐富的印象;后臺屬性的屬性值錯填導致的錯召回會給消費者造成平臺搜索、導購或推薦產品效果不準確的印象。因此,需要定期對商品的后臺屬性的屬性值進行補充、校正等修改。
[0003]現有校正商品的后臺屬性的屬性值的方法是,通過人工抽查或用戶舉報等方式人工發現問題,然后督促商家或運營小二手工進行補充、校正等修改。
[0004]然而,現有校正商品的后臺屬性的屬性值的方法主要依靠人工完成,效率非常低。
【發明內容】
[0005]為了解決現有技術的問題,本發明提供了一種校正商品的后臺屬性的屬性值的方法和裝置,可以自動對商品的后臺屬性的屬性值進行修改,不需要依靠人工完成,可以提高修改效率。
[0006]為了解決上述問題,本發明公開了一種校正商品的后臺屬性的屬性值的方法,所述方法包括:
[0007]獲取N個商品中每個所述商品的識別符;其中,所述N為自然數;
[0008]根據每個所述商品的識別符,將N個所述商品劃分為M個可共享后臺屬性商品子集;其中,所述M為自然數,所述M小于所述N ;
[0009]統計每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個原始屬性值的出現次數;
[0010]根據每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,確定每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的校正屬性值;
[0011]將每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值修改為所述校正屬性值。
[0012]進一步地,每個所述商品的識別符包括:
[0013]每個所述商品對應的圖片的鏈接地址、每個所述商品對應的圖片的內容簽名、或每個所述商品的貨號。
[0014]進一步地,每個所述商品對應的圖片包括:
[0015]每個所述商品對應的主展示圖片、每個所述商品對應的補充展示圖片、每個所述商品對應的款式色號展示圖片、或每個所述商品對應的細節展示圖片。
[0016]進一步地,根據每個所述商品的識別符,將N個所述商品劃分為M個可共享后臺屬性商品子集,包括:
[0017]為N個所述商品中的每個所述商品構建一條二元組,其中,所述二元組的第一個元素為每個所述商品的識別符、所述二元組的其他元素為每個所述商品的身份標識,以及每個所述商品的后臺屬性、所述后臺屬性的原始屬性值;
[0018]將所有的所述二元組按照所述第一個元素進行排序,并將所述第一個元素相同的所述二元組聚在一起構成M個二元組集合,其中,每個所述二元組集合代表一個所述可共孚后臺屬性商品子集。
[0019]進一步地,根據每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,確定每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的校正屬性值,包括:
[0020]將M個所述可共享后臺屬性商品子集中的第一個所述可共享后臺屬性商品子集作為當前所述可共享后臺屬性商品子集;
[0021]將當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,與當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的所有所述原始屬性值的總的出現次數進行比例計算,得到當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的分布比例;
[0022]將得到的當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的分布比例,與預設的修改比例閾值進行比較;
[0023]如果得到的當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性中存在某個所述原始屬性值的分布比例,大于預設的修改比例閾值,則確定某個所述原始屬性值為當前所述可共享后臺屬性商品子集中包括的所有所述商品的與某個原始屬性值對應的后臺屬性的校正屬性值。
[0024]進一步地,統計每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個原始屬性值的出現次數,包括:
[0025]將M個所述可共享后臺屬性商品子集中的第一個所述可共享后臺屬性商品子集作為當前所述可共享后臺屬性商品子集;
[0026]判斷當前所述可共享后臺屬性商品子集中包括的所述商品的個數是否大于預設的修改數量閾值;
[0027]如果大于預設的修改數量閾值,則統計當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數;
[0028]相應地,根據每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,確定每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的校正屬性值,包括:
[0029]根據當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,確定當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的校正屬性值;
[0030]相應地,將每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值修改為所述校正屬性值,包括:
[0031]將當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值修改為校正屬性值。
[0032]進一步地,判斷當前所述可共享后臺屬性商品子集中包括的所述商品的個數是否大于預設的修改數量閾值之后,還包括:
[0033]如果小于等于預設的修改數量閾值,則判斷所述當前可共享后臺屬性商品子集是否是第M個所述可共享后臺屬性商品子集;
[0034]如果不是第M個所述可共享后臺屬性商品子集,則將當前所述可共享后臺屬性商品子集的下一個所述可共享后臺屬性商品子集作為當前所述可共享后臺屬性商品子集,然而執行判斷當前所述可共享后臺屬性商品子集中包括的所述商品的個數是否大于預設的修改數量閾值的步驟;
[0035]如果是第M個所述可共享后臺屬性商品子集,則結束。
[0036]進一步地,獲取N個商品中每個所述商品的識別符之后,還包括:
[0037]將N個所述商品中每個所述商品的識別符映射為一個整數;
[0038]將每個所述商品對應的整數對預設的并行運算計算機臺數P取余數;其中,所述P為自然數;
[0039]將每個所述商品分配到所述余數對應的編號的并行運算計算機;
[0040]相應地,根據每個所述商品的識別符,將N個所述商品劃分為M個可共享后臺屬性商品子集,包括:
[0041]通過每臺所述并行運算計算機根據每臺所述并行運算計算機中的每個所述商品的識別符,一起將N個所述商品劃分為M個所述可共享后臺屬性商品子集;
[0042]相應地,統計每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個原始屬性值的出現次數,包括:
[0043]通過每臺所述并行運算計算機統計每臺所述并行運算計算機中的每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數;
[0044]相應地,根據每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,確定每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的校正屬性值,包括:
[0045]通過每臺所述并行運算計算機根據每臺所述并行運算計算機中的每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,確定每臺所述并行運算計算機中的每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的校正屬性值;
[0046]相應地,將每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值修改為所述校正屬性值,包括:
[0047]通過每臺所述并行運算計算機將每臺所述并行運算計算機中的每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值修改為校正屬性值。
[0048]為了解決上述問題,本發明還公開了一種校正商品的后臺屬性的屬性值的裝置,所述裝置包括:
[0049]獲取模塊,用于獲取N個商品中每個所述商品的識別符;其中,所述N為自然數;
[0050]劃分模塊,用于根據每個所述商品的識別符,將N個所述商品劃分為M個可共享后臺屬性商品子集;其中,所述M為自然數,所述M小于所述N ;
[0051]統計模塊,用于統計每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個原始屬性值的出現次數;
[0052]確定模塊,用于根據每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,確定每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的校正屬性值;
[0053]修改模塊,用于將每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值修改為所述校正屬性值。
[0054]進一步地,每個所述商品的識別符包括:
[0055]每個所述商品對應的圖片的鏈接地址、每個所述商品對應的圖片的內容簽名、或每個所述商品的貨號。
[0056]進一步地,每個所述商品對應的圖片包括:
[0057]每個所述商品對應的主展示圖片、每個所述商品對應的補充展示圖片、每個所述商品對應的款式色號展示圖片、或每個所述商品對應的細節展示圖片。
[0058]進一步地,所述劃分模塊包括:
[0059]構建單元,用于為N個所述商品中的每個所述商品構建一條二元組,其中,所述二元組的第一個元素為每個所述商品的識別符、所述二元組的其他元素為每個所述商品的身份標識,以及每個所述商品的后臺屬性、所述后臺屬性的原始屬性值;
[0060]排序單元,用于將所有的所述二元組按照所述第一個元素進行排序,并將所述第一個元素相同的所述二元組聚在一起構成M個二元組集合,其中,每個所述二元組集合代表一個所述可共享后臺屬性商品子集。
[0061]進一步地,所述確定模塊包括:
[0062]第一處理單元,用于將M個所述可共享后臺屬性商品子集中的第一個所述可共享后臺屬性商品子集作為當前可共享后臺屬性商品子集;
[0063]計算單元,用于將當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,與當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的所有所述原始屬性值的總的出現次數進行比例計算,得到當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的分布比例;
[0064]比較單元,用于將得到的當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的分布比例,與預設的修改比例閾值進行比較;
[0065]屬性值確定單元,用于如果得到的當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性中存在某個所述原始屬性值的分布比例,大于預設的修改比例閾值,則確定某個所述原始屬性值為當前所述可共享后臺屬性商品子集中包括的所有所述商品的與某個原始屬性值對應的后臺屬性的校正屬性值。
[0066]進一步地,所述統計模塊包括:
[0067]第二處理單元,用于將M個所述可共享后臺屬性商品子集中的第一個所述可共享后臺屬性商品子集作為當前所述可共享后臺屬性商品子集;
[0068]第一判斷單元,用于判斷當前所述可共享后臺屬性商品子集中包括的所述商品的個數是否大于預設的修改數量閾值;
[0069]統計單元,用于如果大于預設的修改數量閾值,則統計當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數;
[0070]相應地,所述確定模塊包括:
[0071]當前確定單元,用于根據當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,確定當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的校正屬性值;
[0072]相應地,所述修改模塊包括:
[0073]當前修改單元,用于將當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值修改為校正屬性值。
[0074]進一步地,所述統計模塊還包括:
[0075]第二判斷單元,用于如果小于等于預設的修改數量閾值,則判斷所述當前可共享后臺屬性商品子集是否是第M個所述可共享后臺屬性商品子集;
[0076]通知單元,用于如果不是第M個所述可共享后臺屬性商品子集,則將當前所述可共享后臺屬性商品子集的下一個所述可共享后臺屬性商品子集作為當前所述可共享后臺屬性商品子集,然而通知所述第一判斷單元執行判斷當前所述可共享后臺屬性商品子集中包括的所述商品的個數是否大于預設的修改數量閾值的步驟;
[0077]結束單元,用于如果是第M個所述可共享后臺屬性商品子集,則結束。
[0078]進一步地,所述裝置還包括:
[0079]映射模塊,用于將N個所述商品中每個所述商品的識別符映射為一個整數;
[0080]余數計算模塊,用于將每個所述商品對應的整數對預設的并行運算計算機臺數P取余數;其中,所述P為自然數;
[0081]分配模塊,用于將每個所述商品分配到所述余數對應的編號的并行運算計算機;
[0082]相應地,所述劃分模塊包括:P個劃分單元,每個所述劃分單元分別設置在每臺所述并行運算計算機中;
[0083]P個所述劃分單元,用于根據每臺所述并行運算計算機中的每個所述商品的識別符,一起將N個所述商品劃分為M個所述可共享后臺屬性商品子集;
[0084]相應地,所述統計模塊包括:P個次數統計單元,每個所述次數統計單元分別設置在每臺所述并行運算計算機中;
[0085]每個所述次數統計單元,分別用于統計每臺所述并行運算計算機中的每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數;
[0086]相應地,所述確定模塊包括:P個確定單元,每個所述確定單元分別設置在每臺所述并行運算計算機中;
[0087]每個所述確定單元,分別用于根據每臺所述并行運算計算機中的每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,確定每臺所述并行運算計算機中的每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的校正屬性值;
[0088]相應地,所述修改模塊包括:P個修改單元,每個所述修改單元分別設置在每臺所述并行運算計算機中;
[0089]每個所述修改單元,分別用于將每臺所述并行運算計算機中的每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值修改為校正屬性值。
[0090]與現有技術相比,本發明可以獲得包括以下技術效果:
[0091]I)根據每個商品的識別符,將N個商品劃分為M個可共享后臺屬性商品子集,根據每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的出現次數,確定每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的校正屬性值,將每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值修改為校正屬性值,可以自動對商品的后臺屬性的屬性值進行修改,不需要依靠人工完成,可以提高修改效率。
[0092]2)通過P臺并行運算計算機進行并行修改,可以極大地加速運算,進一步提高修改效率。
[0093]當然,實施本發明的任一產品必不一定需要同時達到以上所述的所有技術效果。
【附圖說明】
[0094]此處所說明的附圖用來提供對本發明的進一步理解,構成本發明的一部分,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中:
[0095]圖1是本發明實施例的第一種校正商品的后臺屬性的屬性值的方法流程圖;
[0096]圖2是本發明實施例的第二種校正商品的后臺屬性的屬性值的方法流程圖;
[0097]圖3是本發明實施例的第三種校正商品的后臺屬性的屬性值的方法流程圖;
[0098]圖4是本發明實施例的第四種校正商品的后臺屬性的屬性值的方法流程圖;
[0099]圖5是本發明實施例的第一種校正商品的后臺屬性的屬性值的裝置結構示意圖;
[0100]圖6是本發明實施例的第二種校正商品的后臺屬性的屬性值的裝置結構示意圖。
【具體實施方式】
[0101]以下將配合附圖及實施例來詳細說明本發明的實施方式,藉此對本發明如何應用技術手段來解決技術問題并達成技術功效的實現過程能充分理解并據以實施。
[0102]在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出接口、網絡接口和內存。
[0103]內存可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內存等形式,如只讀存儲器(ROM)或閃存(flash RAM)。內存是計算機可讀介質的示例。
[0104]計算機可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現信息存儲。信息可以是計算機可讀指令、數據結構、程序的模塊或其他數據。計算機的存儲介質的例子包括,但不限于相變內存(PRAM)、靜態隨機存取存儲器(SRAM)、動態隨機存取存儲器(DRAM)、其他類型的隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內存技術、只讀光盤只讀存儲器(CD-ROM)、數字多功能光盤(DVD)或其他光學存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設備或任何其他非傳輸介質,可用于存儲可以被計算設備訪問的信息。按照本文中的界定,計算機可讀介質不包括非暫存電腦可讀媒體(transitory media),如調制的數據信號和載波。
[0105]如在說明書及權利要求當中使用了某些詞匯來指稱特定組件。本領域技術人員應可理解,硬件制造商可能會用不同名詞來稱呼同一個組件。本說明書及權利要求并不以名稱的差異來作為區分組件的方式,而是以組件在功能上的差異來作為區分的準則。如在通篇說明書及權利要求當中所提及的“包含”為一開放式用語,故應解釋成“包含但不限定于”。“大致”是指在可接收的誤差范圍內,本領域技術人員能夠在一定誤差范圍內解決所述技術問題,基本達到所述技術效果。此外,“耦接”一詞在此包含任何直接及間接的電性耦接手段。因此,若文中描述一第一裝置耦接于一第二裝置,則代表所述第一裝置可直接電性耦接于所述第二裝置,或通過其他裝置或耦接手段間接地電性耦接至所述第二裝置。說明書后續描述為實施本發明的較佳實施方式,然所述描述乃以說明本發明的一般原則為目的,并非用以限定本發明的范圍。本發明的保護范圍當視所附權利要求所界定者為準。
[0106]還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的商品或者系統不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種商品或者系統所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的商品或者系統中還存在另外的相同要素。
[0107]實施例描沐
[0108]下面以一實施例對本發明方法的實現作進一步說明。如圖1所示,為本發明實施例的一種校正商品的后臺屬性的屬性值的方法流程圖,該方法包括:
[0109]SlOl:獲取N個商品中每個商品的識別符;其中,N為自然數。
[0110]具體地,N個商品可以是一個或多個交易平臺中的所有商品,也可以是一個或多個交易平臺中的同一類目下的所有商品等,對此不做具體限定,本實施例的方法適用于任何的商品。
[0111]其中,每個商品的識別符包括:每個商品對應的圖片的鏈接地址、每個商品對應的圖片的內容簽名(比如MD5或其他專門設計的圖像簽名等)、或每個商品的貨號等。每個商品對應的圖片包括:每個商品對應的主展不圖片(可簡稱主圖)、每個商品對應的補充展不圖片(可能有多個)、每個商品對應的款式色號展示圖片(SKU圖)、或每個商品對應的細節展示圖片(詳情圖)等。
[0112]需要說明的是,如果兩個商品,例如:商品A和商品B,如果商品A的圖片與商品B的圖片有某種相等性,如商品A的圖片與商品B的圖片源自同一個鏈接地址(也就是說商品A和商品B引用了同一張圖片),或如商品A的圖片與商品B的圖片的內容簽名一致(也就是說商品A和商品B的圖片的內容一致),或如商品A的貨號與商品B的貨號相同(也就是說商品A和商品B的款式相同),那么商品A和商品B很有可能是同一種商品,也就是說商品A和商品B的后臺屬性應該是一致(可共享)的。
[0113]根據上面的說明,顯然可知,商品A與商品A自己肯定是可共享后臺屬性關系,因此可以說這個關系是“自反”的;如果商品A對商品B來說是可共享后臺屬性關系,那么商品B對商品A也是可共享后臺屬性關系,可以說這個關系是“對稱”的。如果商品A與商品B引用了同一張主展示圖片,而這張主展示圖片也被商品B與商品C作為主展示圖片所共同引用,那么商品A與商品C也是共享后臺屬性關系,顯然這個關系是可以“傳遞”的。根據離散數學的定義,符合這三個條件的關系一一商品間的可共享后臺屬性關系是一種“等價關系”。
[0114]需要說明的是,一般來說,商品的主展示圖片要遵從嚴格的規范,要求其一定要完整展示商品全貌且不能包含無關信息(也就是說商品的主展示圖片與所屬商品是高度相關的),通過商品的主展示圖片的重復引用關系建立的商品間的可共享后臺屬性關系的可靠性更高,因此優選將商品對應的主展示圖片的鏈接地址、或商品對應的主展示圖片的內容簽名作為商品的識別符。
[0115]S102:根據每個商品的識別符,將N個商品劃分為M個可共享后臺屬性商品子集;其中,M為自然數,M小于N。
[0116]具體地,根據每個商品的識別符,將N個商品劃分為M個可共享后臺屬性商品子集,包括:
[0117]為N個商品中的每個商品構建一條二元組,其中,二元組的第一個元素為每個商品的識別符、二元組的其他元素為每個商品的身份標識,以及每個商品的后臺屬性、后臺屬性的原始屬性值。
[0118]例如:對于N個商品中任一商品K,為其構建一條二兀組,表不為PairK:keyK-nidK, <pid0, vidK, 0>, <pidl, vidK, 1>…。二元組 PairK 中,keyK 為商品 K 的識別符(例如具體可以為商品K對應的主展示圖片的鏈接地址),是二元組的第一個元素;二元組的其他元素由以下成員組成:nidK(為商品K的身份標識ID), <pid0, vidK, 0>, <pidl, vidK, 1>…(為商品K的后臺屬性/屬性值對(即商品K的后臺屬性,商品K的后臺屬性的屬性值)。<pid0, vidK, 0>,<pidl, vidK, 1>…比如代表 < 款式-貝殼 >,< 衣長-短款 >,< 鞋頭-魚嘴>等意思。
[0119]將所有的二元組按照第一個元素進行排序,并將第一個元素相同的二元組聚在一起構成M個二元組集合,其中,每個二元組集合代表一個可共享后臺屬性商品子集。
[0120]S103:統計每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的出現次數。
[0121]具體地,因為二元組集合中的商品有相同的識別符(例如有相同的主展示圖片),所以二元組集合中的商品很有可能代表同一種商品,二元組集合中的商品的后臺屬性的屬性值也應該是一致的。但是,在一個可共享后臺屬性商品子集中,由于這些商品來自不同賣家,雖然它們的后臺屬性理應統一,但實際情況往往各異。因此需要統計每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的出現次數,根據統計結果來確定每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的校正屬性值。
[0122]S104:根據每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的出現次數,確定每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的校正屬性值。
[0123]具體地,可以根據出現次數,確定出現次數最多的某原始屬性值,為每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的校正屬性值。
[0124]然而,雖然某原始屬性值的出現次數最多,但是因為別的賣家都沒有填該種類型的后臺屬性的屬性值,或者出現次數最多的某原始屬性值是賣家易錯填的等,上述各種情況下,出現次數最多的某原始屬性值也不一定是校正屬性值。為穩定性考慮,可以設置當某原始屬性值的分布比例達到一定的修改比例閾值時,才確定某原始屬性值為每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的校正屬性值,如果某原始屬性值的出現次數是最多,但其分布比例達不到一定的修改比例閾值,那么則認為該種類型的后臺屬性的屬性情況復雜,不做任何修改。
[0125]具體地,為穩定性考慮,參見圖2,根據每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的出現次數,確定每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的校正屬性值,包括:
[0126]S104a:將M個可共享后臺屬性商品子集中的第一個可共享后臺屬性商品子集作為當如可共孚后臺屬性商品子集。
[0127]S104b:將當前可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的出現次數,與當前可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的所有原始屬性值的總的出現次數進行比例計算,得到當前可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的分布比例。
[0128]S104c:將得到的當前可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的分布比例,與預設的修改比例閾值進行比較,如果得到的當前可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性中存在某個原始屬性值的分布比例,大于預設的修改比例閾值,則執行S104d ;如果得到的當前可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性中不存在某個原始屬性值的分布比例,大于預設的修改比例閾值,則執行S104f。
[0129]具體地,預設的修改比例閾值可以根據實際應用狀況進行設置,比如對可靠性有更高要求的監控處罰類產品,預設的修改比例閾值可以設置為75%或者更高等,來減小檢驗的失誤率;對補充/校正的覆蓋率要求高的產品,則可以適當放松要求,預設的修改比例閾值可以設置為30%等。
[0130]S104d:確定某個原始屬性值為當前可共享后臺屬性商品子集中包括的所有商品的與某個原始屬性值對應的后臺屬性的校正屬性值。
[0131]需要說明的是,當大于預設的修改比例閾值的原始屬性值存在二個以上時,可以從中選擇分布比例最大的原始屬性值作為校正屬性值。
[0132]S104e:將當前可共享后臺屬性商品子集中包括的所有商品的與某個原始屬性值對應的后臺屬性的每個原始屬性值修改為校正屬性值,然后執行S104g。
[0133]S104f:確定不修改當如可共孚后臺屬性商品子集中包括的所有商品的與某個原始屬性值對應的后臺屬性的每個原始屬性值,然后執行S104g。
[0134]S104g:判斷當前可共享后臺屬性商品子集是否是第M個可共享后臺屬性商品子集,如果不是,則執行S104h ;否則,結束。
[0135]S104h:將當前可共享后臺屬性商品子集的下一個可共享后臺屬性商品子集作為當如可共孚后臺屬性商品子集,然后執彳丁 S104bo
[0136]S105:將每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值修改為校正屬性值。
[0137]具體地,將每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值修改為校正屬性值,具體是:如果每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的某原始屬性值與校正屬性值相同,則保留;如果每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的某原始屬性值與校正屬性值不相同,則校正;如果每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的某原始屬性值缺失,則補充。
[0138]優選地,參見圖3,在一優選的實施例中,S103-S105可以包括:
[0139]S201:將M個可共享后臺屬性商品子集中的第一個可共享后臺屬性商品子集作為當如可共孚后臺屬性商品子集。
[0140]S202:判斷當前可共享后臺屬性商品子集中包括的商品的個數是否大于預設的修改數量閾值,如果大于預設的修改數量閾值,則執行S203 ;如果小于等于預設的修改數量閾值,則執行S206。
[0141]具體地,當可共享后臺屬性商品子集中包含一定數量的商品時,才進行統計,例如:如果只包含一個商品,則沒有修改的依據和必要。
[0142]其中,預設的修改數量閾值可以根據實際應用狀況進行設置,如可以設置為2個、20個等。
[0143]S203:統計當前可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的出現次數。
[0144]S204:根據當前可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的出現次數,確定當前可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的校正屬性值。
[0145]S205:將當前可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值修改為校正屬性值。
[0146]S206:判斷當前可共享后臺屬性商品子集是否是第M個可共享后臺屬性商品子集,如果不是第M個可共享后臺屬性商品子集,則執行S207 ;如果是第M個可共享后臺屬性商品子集,則結束。
[0147]S207:將當前可共享后臺屬性商品子集的下一個可共享后臺屬性商品子集作為當前可共享后臺屬性商品子集,然而執行S202。
[0148]對于平臺級的產品來說,需要處理的商品的量級可能在億級以上,如果僅在單臺計算機上實現,耗時仍然是不可接受的。不過,本實施例的方法是可以高度并行的,因此對于海量商品來說處理速度也是很快。假設有N個商品,通過P臺并行運行計算機來處理,具體地,參見圖4,在一優選的實施例中,S102-S105可以包括:
[0149]S301:將N個商品中每個商品的識別符映射為一個整數。
[0150]具體地,每個商品的識別符key可以看做是一個字符串,對key求hashcode即可以將key映射為一個整數。假設key = cOcb-cL由L個字符組成,那么其對應的整數(記為HCL)的計算方法為:
[0151]HCO = O;
[0152]HCL = HCL_l*Z+cL。
[0153]其中,Z為任意一個質數,通常設為31 ;字符c按其ASCII碼(整數)表示。
[0154]并不限于通過上述方法將商品的識別符映射為一個整數,可以通過任何可行的方式實現,對此不做具體限定。
[0155]S302:將每個商品的整數對預設的并行運算計算機臺數P取余數;其中,P為自然數。
[0156]S303:將每個商品分配到余數對應的編號的并行運算計算機。
[0157]具體地,P臺并行運算計算機的編號分別為0-P-1。
[0158]對于每個商品,按其key對應的HC對P取余數來分發。這樣所有待處理的商品會被基本均勻地分發到P臺并行運算計算機之上。相當于對任務全集按余數做了一遍預切分。
[0159]S304:通過每臺并行運算計算機根據每臺并行運算計算機中的每個商品的識別符,一起將N個商品劃分為M個可共孚后臺屬性商品子集。
[0160]具體地,按照商品的識別符將N個商品分配到P臺并行運算計算機(每臺并行運算計算機中的商品個數小于N,P臺并行運算計算機中的商品個數之和為N),每臺并行運算計算機與一臺計算機劃分可共享后臺屬性商品子集時的方法一樣,具體如下:每臺并行運算計算機為每臺并行運算計算機中的每個商品建一條二元組,其中,二元組的第一個元素為每個商品的識別符、二元組的其他元素為每個商品的身份標識,以及每個商品的后臺屬性、后臺屬性的原始屬性值;將所有的二元組按照第一個元素進行排序,并將第一個元素相同的二元組聚在一起構成多個二元組集合(每臺并行運算計算機得到的二元組集合的個數小于M,P臺并行運算計算機得到的二元組集合的個數之和為M),其中,每個二元組集合代表一個可共享后臺屬性商品子集。
[0161]需要說明的是,由于同一種商品的識別符key是相同的,HC也相同,所以不管是在整體排序還是在切分后的部分排序中,同一種商品都會被分配到同一個可共享后臺商品屬性子集中。因此,通過任務切分后獲得的可共享后臺商品屬性子集與在單臺計算機上整體排序后獲得的可共享后臺商品屬性子集在數量和內容上是一模一樣的。也就是說,對于每臺并行運算計算機來說,與采用一臺計算機實現時的流程是一樣的。任務切分不會影響整個流程的正確性。
[0162]S305:通過每臺并行運算計算機統計每臺并行運算計算機中的每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的出現次數。
[0163]S306:通過每臺并行運算計算機根據每臺并行運算計算機中的每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的出現次數,確定每臺并行運算計算機中的每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的校正屬性值。
[0164]S307:通過每臺并行運算計算機將每臺并行運算計算機中的每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值修改為校正屬性值。
[0165]具體地,通過并行策略可以極大地加速運算,原因如下:1)將全集排序轉化為在P臺并行運算計算機上的部分排序,不但利用了 P臺并行運算計算機的并行計算能力,且將計算復雜度極大地降低了。假設全集有N個商品,那么最優的排序算法對全集排序的復雜度是N.1gN ;而如果轉化為P臺并行運算計算機的部分排序,假設均勻切分的話復雜度為P.(N/P).log(N/P) = N.log(N/P) = N.(1gN-1ogP),因此相比全集排序節省了 N.1gP的運算量。2)通過P臺并行運算計算機并行修改N個商品,對于每臺并行運算計算機雖然從整個流程來看沒有降低運算復雜度,但由P臺并行運算計算機并行修改N個商品,N個商品的總體修改耗時會降為1/P。
[0166]本實施例所述的校正商品的后臺屬性的屬性值的方法,根據每個商品的識別符,將N個商品劃分為M個可共享后臺屬性商品子集,根據每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的出現次數,確定每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的校正屬性值,將每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值修改為校正屬性值,可以自動對商品的后臺屬性的屬性值進行修改,不需要依靠人工完成,可以提高修改效率。通過P臺并行運算計算機進行并行修改,可以極大地加速運算,進一步提高修改效率。
[0167]如圖5所示,是本發明實施例的一種校正商品的后臺屬性的屬性值的裝置結構圖,該裝置包括:
[0168]獲取模塊401,用于獲取N個商品中每個商品的識別符;其中,N為自然數;
[0169]劃分模塊402,用于根據每個商品的識別符,將N個商品劃分為M個可共享后臺屬性商品子集;其中,M為自然數,M小于N ;
[0170]統計模塊403,用于統計每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的出現次數;
[0171]確定模塊404,用于根據每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,確定每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的校正屬性值;
[0172]修改模塊405,用于將每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個所述原始屬性值修改為校正屬性值。
[0173]進一步地,每個商品的識別符包括:
[0174]每個商品對應的圖片的鏈接地址、每個商品對應的圖片的內容簽名、或每個商品的貨號。
[0175]進一步地,每個商品對應的圖片包括:
[0176]每個商品對應的主展不圖片、每個商品對應的補充展不圖片、每個商品對應的款式色號展示圖片、或每個商品對應的細節展示圖片。
[0177]進一步地,劃分模塊402包括:
[0178]構建單元,用于為N個商品中的每個商品構建一條二元組,其中,二元組的第一個元素為每個商品的識別符、二元組的其他元素為每個商品的身份標識,以及每個商品的后臺屬性、所述后臺屬性的原始屬性值;
[0179]排序單元,用于將所有的二元組按照第一個元素進行排序,并將第一個元素相同的二元組聚在一起構成M個二元組集合,其中,每個二元組集合代表一個可共享后臺屬性商品子集。
[0180]進一步地,確定模塊包括:
[0181]第一處理單元,用于將M個可共享后臺屬性商品子集中的第一個可共享后臺屬性商品子集作為當前可共享后臺屬性商品子集;
[0182]計算單元,用于將當前可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的出現次數,與當前可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的所有原始屬性值的總的出現次數進行比例計算,得到當前可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的分布比例;
[0183]比較單元,用于將得到的當前可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的分布比例,與預設的修改比例閾值進行比較;
[0184]屬性值確定單元,用于如果得到的當前可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性中存在某個原始屬性值的分布比例,大于預設的修改比例閾值,則確定某個原始屬性值為當前可共享后臺屬性商品子集中包括的所有商品的與某個原始屬性值對應的后臺屬性的校正屬性值。
[0185]進一步地,統計模塊403包括:
[0186]第二處理單元,用于將M個可共享后臺屬性商品子集中的第一個可共享后臺屬性商品子集作為當前可共享后臺屬性商品子集;
[0187]第一判斷單元,用于判斷當前可共享后臺屬性商品子集中包括的商品的個數是否大于預設的修改數量閾值;
[0188]統計單元,用于如果大于預設的修改數量閾值,則統計當前可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的出現次數;
[0189]相應地,確定模塊404包括:
[0190]當前確定單元,用于根據當前可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的出現次數,確定當前可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的校正屬性值;
[0191]相應地,修改模塊405包括:
[0192]當前修改單元,用于將當前可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值修改為校正屬性值。
[0193]進一步地,統計模塊403還包括:
[0194]第二判斷單元,用于如果小于等于預設的修改數量閾值,則判斷所述當前可共享后臺屬性商品子集是否是第M個可共享后臺屬性商品子集;
[0195]通知單元,用于如果不是第M個可共享后臺屬性商品子集,則將當前可共享后臺屬性商品子集的下一個可共享后臺屬性商品子集作為當前可共享后臺屬性商品子集,然而通知第一判斷單元執行判斷當前可共享后臺屬性商品子集中包括的商品的個數是否大于預設的修改數量閾值的步驟;
[0196]結束單元,用于如果是第M個可共享后臺屬性商品子集,則結束。
[0197]進一步地,參見圖6,該裝置還包括:
[0198]映射模塊406,用于將N個商品中每個商品的識別符映射為一個整數;
[0199]余數計算模塊407,用于將每個商品對應的整數對預設的并行運算計算機臺數P取余數;其中,P為自然數;
[0200]分配模塊408,用于將每個商品分配到所述余數對應的編號的并行運算計算機;[0201 ] 相應地,劃分模塊402包括:P個劃分單元402a,每個劃分單元402a分別設置在每臺并行運算計算機中;
[0202]P個劃分單元402a,用于根據每臺并行運算計算機中的每個商品的識別符,一起將N個商品劃分為M個可共享后臺屬性商品子集;
[0203]相應地,統計模塊403包括:P個次數統計單元403a,每個次數統計單元403a分別設置在每臺并行運算計算機中;
[0204]每個次數統計單元403a,分別用于統計每臺并行運算計算機中的每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的出現次數;
[0205]相應地,確定模塊404包括:P個確定單元404a,每個確定單元分別設置在每臺并行運算計算機中;
[0206]每個確定單元,分別用于根據每臺并行運算計算機中的每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的出現次數,確定每臺并行運算計算機中的每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的校正屬性值;
[0207]相應地,修改模塊405包括:P個修改單元405a,每個修改單元分別設置在每臺并行運算計算機中;
[0208]每個修改單元405a,分別用于將每臺并行運算計算機中的每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值修改為校正屬性值。
[0209]本實施例所述的校正商品的后臺屬性的屬性值的裝置,根據每個商品的識別符,將N個商品劃分為M個可共享后臺屬性商品子集,根據每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值的出現次數,確定每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的校正屬性值,將每個可共享后臺屬性商品子集中包括的所有商品的同一類型的后臺屬性的每個原始屬性值修改為校正屬性值,可以自動對商品的后臺屬性的屬性值進行修改,不需要依靠人工完成,可以提高修改效率。通過P臺并行運算計算機進行并行修改,可以極大地加速運算,進一步提高修改效率。
[0210]所述裝置與前述的方法流程描述對應,不足之處參考上述方法流程的敘述,不再
--贅述。
[0211]上述說明示出并描述了本發明的若干優選實施例,但如前所述,應當理解本發明并非局限于本文所披露的形式,不應看作是對其他實施例的排除,而可用于各種其他組合、修改和環境,并能夠在本文所述發明構想范圍內,通過上述教導或相關領域的技術或知識進行改動。而本領域人員所進行的改動和變化不脫離本發明的精神和范圍,則都應在本發明所附權利要求的保護范圍內。
【主權項】
1.一種校正商品的后臺屬性的屬性值的方法,其特征在于,所述方法包括: 獲取N個商品中每個所述商品的識別符;其中,所述N為自然數; 根據每個所述商品的識別符,將N個所述商品劃分為M個可共享后臺屬性商品子集;其中,所述M為自然數,所述M小于所述N ; 統計每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個原始屬性值的出現次數; 根據每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,確定每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的校正屬性值; 將每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值修改為所述校正屬性值。2.如權利要求1所述的方法,其特征在于,每個所述商品的識別符包括: 每個所述商品對應的圖片的鏈接地址、每個所述商品對應的圖片的內容簽名、或每個所述商品的貨號。3.如權利要求2所述的方法,其特征在于,每個所述商品對應的圖片包括: 每個所述商品對應的主展示圖片、每個所述商品對應的補充展示圖片、每個所述商品對應的款式色號展示圖片、或每個所述商品對應的細節展示圖片。4.如權利要求1所述的方法,其特征在于,根據每個所述商品的識別符,將N個所述商品劃分為M個可共享后臺屬性商品子集,包括: 為N個所述商品中的每個所述商品構建一條二元組,其中,所述二元組的第一個元素為每個所述商品的識別符、所述二元組的其他元素為每個所述商品的身份標識,以及每個所述商品的后臺屬性、所述后臺屬性的原始屬性值; 將所有的所述二元組按照所述第一個元素進行排序,并將所述第一個元素相同的所述二元組聚在一起構成M個二元組集合,其中,每個所述二元組集合代表一個所述可共享后臺屬性商品子集。5.如權利要求1所述的方法,其特征在于,根據每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,確定每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的校正屬性值,包括: 將M個所述可共享后臺屬性商品子集中的第一個所述可共享后臺屬性商品子集作為當前所述可共享后臺屬性商品子集; 將當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,與當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的所有所述原始屬性值的總的出現次數進行比例計算,得到當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的分布比例; 將得到的當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的分布比例,與預設的修改比例閾值進行比較; 如果得到的當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性中存在某個所述原始屬性值的分布比例,大于預設的修改比例閾值,則確定某個所述原始屬性值為當前所述可共享后臺屬性商品子集中包括的所有所述商品的與某個原始屬性值對應的后臺屬性的校正屬性值。6.如權利要求1所述的方法,其特征在于,統計每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個原始屬性值的出現次數,包括: 將M個所述可共享后臺屬性商品子集中的第一個所述可共享后臺屬性商品子集作為當前所述可共享后臺屬性商品子集; 判斷當前所述可共享后臺屬性商品子集中包括的所述商品的個數是否大于預設的修改數量閾值; 如果大于預設的修改數量閾值,則統計當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數; 相應地,根據每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,確定每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的校正屬性值,包括: 根據當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,確定當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的校正屬性值; 相應地,將每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值修改為所述校正屬性值,包括: 將當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值修改為校正屬性值。7.如權利要求6所述的方法,其特征在于,判斷當前所述可共享后臺屬性商品子集中包括的所述商品的個數是否大于預設的修改數量閾值之后,還包括: 如果小于等于預設的修改數量閾值,則判斷所述當前可共享后臺屬性商品子集是否是第M個所述可共享后臺屬性商品子集; 如果不是第M個所述可共享后臺屬性商品子集,則將當前所述可共享后臺屬性商品子集的下一個所述可共享后臺屬性商品子集作為當前所述可共享后臺屬性商品子集,然而執行判斷當前所述可共享后臺屬性商品子集中包括的所述商品的個數是否大于預設的修改數量閾值的步驟; 如果是第M個所述可共享后臺屬性商品子集,則結束。8.如權利要求1-7任一權利要求所述的方法,其特征在于,獲取N個商品中每個所述商品的識別符之后,還包括: 將N個所述商品中每個所述商品的識別符映射為一個整數; 將每個所述商品對應的整數對預設的并行運算計算機臺數P取余數;其中,所述P為自然數; 將每個所述商品分配到所述余數對應的編號的并行運算計算機; 相應地,根據每個所述商品的識別符,將N個所述商品劃分為M個可共享后臺屬性商品子集,包括: 通過每臺所述并行運算計算機根據每臺所述并行運算計算機中的每個所述商品的識別符,一起將N個所述商品劃分為M個所述可共享后臺屬性商品子集; 相應地,統計每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個原始屬性值的出現次數,包括: 通過每臺所述并行運算計算機統計每臺所述并行運算計算機中的每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數; 相應地,根據每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,確定每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的校正屬性值,包括: 通過每臺所述并行運算計算機根據每臺所述并行運算計算機中的每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,確定每臺所述并行運算計算機中的每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的校正屬性值; 相應地,將每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值修改為所述校正屬性值,包括: 通過每臺所述并行運算計算機將每臺所述并行運算計算機中的每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值修改為校正屬性值。9.一種校正商品的后臺屬性的屬性值的裝置,其特征在于,所述裝置包括: 獲取模塊,用于獲取N個商品中每個所述商品的識別符;其中,所述N為自然數; 劃分模塊,用于根據每個所述商品的識別符,將N個所述商品劃分為M個可共享后臺屬性商品子集;其中,所述M為自然數,所述M小于所述N ; 統計模塊,用于統計每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個原始屬性值的出現次數; 確定模塊,用于根據每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,確定每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的校正屬性值; 修改模塊,用于將每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值修改為所述校正屬性值。10.如權利要求9所述的裝置,其特征在于,每個所述商品的識別符包括: 每個所述商品對應的圖片的鏈接地址、每個所述商品對應的圖片的內容簽名、或每個所述商品的貨號。11.如權利要求10所述的裝置,其特征在于,每個所述商品對應的圖片包括: 每個所述商品對應的主展示圖片、每個所述商品對應的補充展示圖片、每個所述商品對應的款式色號展示圖片、或每個所述商品對應的細節展示圖片。12.如權利要求9所述的裝置,其特征在于,所述劃分模塊包括: 構建單元,用于為N個所述商品中的每個所述商品構建一條二元組,其中,所述二元組的第一個元素為每個所述商品的識別符、所述二元組的其他元素為每個所述商品的身份標識,以及每個所述商品的后臺屬性、所述后臺屬性的原始屬性值; 排序單元,用于將所有的所述二元組按照所述第一個元素進行排序,并將所述第一個元素相同的所述二元組聚在一起構成M個二元組集合,其中,每個所述二元組集合代表一個所述可共享后臺屬性商品子集。13.如權利要求9所述的裝置,其特征在于,所述確定模塊包括: 第一處理單元,用于將M個所述可共享后臺屬性商品子集中的第一個所述可共享后臺屬性商品子集作為當前可共享后臺屬性商品子集; 計算單元,用于將當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,與當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的所有所述原始屬性值的總的出現次數進行比例計算,得到當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的分布比例; 比較單元,用于將得到的當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的分布比例,與預設的修改比例閾值進行比較; 屬性值確定單元,用于如果得到的當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性中存在某個所述原始屬性值的分布比例,大于預設的修改比例閾值,則確定某個所述原始屬性值為當前所述可共享后臺屬性商品子集中包括的所有所述商品的與某個原始屬性值對應的后臺屬性的校正屬性值。14.如權利要求9所述的裝置,其特征在于,所述統計模塊包括: 第二處理單元,用于將M個所述可共享后臺屬性商品子集中的第一個所述可共享后臺屬性商品子集作為當前所述可共享后臺屬性商品子集; 第一判斷單元,用于判斷當前所述可共享后臺屬性商品子集中包括的所述商品的個數是否大于預設的修改數量閾值; 統計單元,用于如果大于預設的修改數量閾值,則統計當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數;相應地,所述確定模塊包括: 當前確定單元,用于根據當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,確定當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的校正屬性值; 相應地,所述修改模塊包括: 當前修改單元,用于將當前所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值修改為校正屬性值。15.如權利要求14所述的裝置,其特征在于,所述統計模塊還包括: 第二判斷單元,用于如果小于等于預設的修改數量閾值,則判斷所述當前可共享后臺屬性商品子集是否是第M個所述可共享后臺屬性商品子集; 通知單元,用于如果不是第M個所述可共享后臺屬性商品子集,則將當前所述可共享后臺屬性商品子集的下一個所述可共享后臺屬性商品子集作為當前所述可共享后臺屬性商品子集,然而通知所述第一判斷單元執行判斷當前所述可共享后臺屬性商品子集中包括的所述商品的個數是否大于預設的修改數量閾值的步驟; 結束單元,用于如果是第M個所述可共享后臺屬性商品子集,則結束。16.如權利要求9-15任一權利要求所述的裝置,其特征在于,所述裝置還包括: 映射模塊,用于將N個所述商品中每個所述商品的識別符映射為一個整數; 余數計算模塊,用于將每個所述商品對應的整數對預設的并行運算計算機臺數P取余數;其中,所述P為自然數; 分配模塊,用于將每個所述商品分配到所述余數對應的編號的并行運算計算機; 相應地,所述劃分模塊包括:P個劃分單元,每個所述劃分單元分別設置在每臺所述并行運算計算機中; P個所述劃分單元,用于根據每臺所述并行運算計算機中的每個所述商品的識別符,一起將N個所述商品劃分為M個所述可共享后臺屬性商品子集; 相應地,所述統計模塊包括:P個次數統計單元,每個所述次數統計單元分別設置在每臺所述并行運算計算機中; 每個所述次數統計單元,分別用于統計每臺所述并行運算計算機中的每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數; 相應地,所述確定模塊包括:P個確定單元,每個所述確定單元分別設置在每臺所述并行運算計算機中; 每個所述確定單元,分別用于根據每臺所述并行運算計算機中的每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值的出現次數,確定每臺所述并行運算計算機中的每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的校正屬性值; 相應地,所述修改模塊包括:p個修改單元,每個所述修改單元分別設置在每臺所述并行運算計算機中; 每個所述修改單元,分別用于將每臺所述并行運算計算機中的每個所述可共享后臺屬性商品子集中包括的所有所述商品的同一類型的后臺屬性的每個所述原始屬性值修改為校正屬性值。
【文檔編號】G06Q30/06GK106033456SQ201510119332
【公開日】2016年10月19日
【申請日】2015年3月18日
【發明人】曹陽
【申請人】阿里巴巴集團控股有限公司