本申請涉及計算機技術中的數據采集技術領域,尤其涉及一種數據采集方法及裝置。
背景技術:
隨著大數據時代的來臨,在利用大數據進行分析或處理之前,最關鍵的步驟就是數據采集。采集到的數據的質量對后續大數據應用將產生至關重要的影響。
例如,電子商務的交易環節包括以下幾個步驟:
1)信息發布,賣家發布商品信息,提供商品信息,包括商品標題、商品圖片、價格、庫存、以及屬性信息,如:品牌、型號、顏色等;
2)信息采集,電子商務平臺收集并存儲賣家發布的商品信息;
3)信息披露,披露商品的詳細信息,包括商品描述、庫存、價格等;
4)商品購買,包括下單支付等操作;
5)售后維權,針對商品的真實性進行各種售后舉證、維權活動。
上述環節中,如果電子商務平臺采集到的賣家發布的商品信息與商品的真實信息不一致,就會嚴重損害消費者的利益,產生交易糾紛,并需要花費大量的工作對錯誤的數據進行糾正。
由此可見,目前亟需一種數據采集方案,能夠提高數據采集的可信度。
技術實現要素:
本申請實施例提供一種數據采集方法及裝置,用以提高數據采集的可信度。
本申請實施例提供了一種數據采集方法,包括:
獲取被采集對象的第一屬性信息,根據所述被采集對象的第一屬性信息獲取對應的數據采集模板,所述數據采集模板用于指示需要采集的數據;
根據所述被采集對象的第一屬性信息查詢資質信息庫中是否存在所述被采集對象的資質信息;
若存在,則獲取基于所述數據采集模板采集得到的所述被采集對象的第二屬性信息,根據所述被采集對象的資質信息、第一屬性信息以及第二屬性信息生成所述被采集對象的描述信息;
若不存在,則獲取所述被采集對象的資質信息,對所述被采集對象的資質信息進行驗證,并在驗證通過后,將所述被采集對象的資質信息存儲到所述資質信息庫,根據所述被采集對象的資質信息、第一屬性信息以及基于所述數據采集模板采集得到的所述被采集對象的第二屬性信息生成所述被采集對象的描述信息。
較佳的,所述獲取被采集對象的第一屬性信息,包括:
獲取所述被采集對象的標識,得到所述被采集對象的第一屬性信息,所述標識包括二維碼或條形碼。
較佳的,所述資質信息包括文本信息和圖片;
所述對所述被采集對象的資質信息進行驗證,包括:
對所述被采集對象的資質信息中的圖片進行圖像識別,得到該圖片上的文本信息;
判斷所述被采集對象的資質信息中的文本信息是否與識別出的文本信息一致,若一致,則對所述被采集對象的資質信息驗證通過。
較佳的,所述被采集對象的描述信息存儲于對象信息庫中;
所述方法還包括:
接收對象信息查詢請求消息,所述對象信息查詢請求消息中攜帶有二維碼或條形碼;
根據所述二維碼或條形碼在所述對象信息庫中查詢與所述二維碼或條形碼 對應的對象描述信息;
返回描述信息查詢請求響應消息,所述描述信息查詢請求響應消息中攜帶有查詢到的與所述二維碼或條形碼對應的對象描述信息。
較佳的,所述被采集對象的描述信息存儲于對象信息庫中;
所述方法還包括:
接收驗證請求消息,所述驗證請求消息中攜帶有從待驗證對象采集到的第一屬性信息和資質信息;
根據所述待驗證對象的第一屬性信息在所述資質信息庫或者所述對象信息庫中查詢與所述待驗證對象的第一屬性信息對應的資質信息;
若查詢到對應的資質信息且查詢到的資質信息與所述待驗證請求消息中攜帶的資質信息相匹配,則返回驗證通過的響應消息,否則返回驗證失敗的響應消息。
較佳的,所述根據所述被采集對象的資質信息、第一屬性信息以及第二屬性信息生成所述被采集對象的描述信息,包括:
若從所述識別出的文本信息中除了包括與所述被采集對象的資質信息中的文本信息一致的文本信息以外,還包括其他文本信息,則根據所述其他文本信息、所述被采集對象的資質信息、第一屬性信息以及第二屬性信息,生成所述被采集對象的描述信息。
較佳的,所述被采集對象為商品;
所述第一屬性信息包括所述商品類別、商品品牌、商品標識中的一種或多種;
所述第二屬性信息包括商品庫存信息、商品價格、商品標題中的一種或多種;
所述資質信息包括以下任意一種或幾種的組合:商品類別,商品品牌,商品標識,商品名稱,商品圖片,商品規格,生產日期,保質期,商品產地;其 中,所述商品規格包括顏色、型號、材質中的一種或多種。
本申請實施例提供了一種數據采集裝置,包括:
第一獲取單元,用于獲取被采集對象的第一屬性信息;
第二獲取單元,用于根據所述被采集對象的第一屬性信息獲取對應的數據采集模板,所述數據采集模板用于指示需要采集的數據;
查詢單元,用于根據所述被采集對象的第一屬性信息查詢資質信息庫中是否存在所述被采集對象的資質信息;
所述第一獲取單元,還用于在所述資質信息庫中存在所述被采集對象的資質信息時,獲取基于所述數據采集模板采集得到的所述被采集對象的第二屬性信息;
描述信息生成單元,用于根據所述查詢單元查詢到的所述被采集對象的資質信息以及所述第一獲取單元獲取到的所述被采集對象的第一屬性信息和第二屬性信息生成所述被采集對象的描述信息;
所述第一獲取單元,還用于在所述資質信息庫中不存在所述被采集對象的資質信息時,獲取所述被采集對象的資質信息以及基于所述數據采集模板采集得到的所述被采集對象的第二屬性信息;
第一驗證單元,用于對所述第一獲取單元獲取到的所述被采集對象的資質信息進行驗證,并在驗證通過后,將所述被采集對象的資質信息存儲到所述資質信息庫;
所述描述信息生成單元,還用于根據所述第一驗證單元驗證通過的所述被采集對象的資質信息以及所述第一獲取單元獲取到的所述被采集對象的第一屬性信息和第二屬性信息生成所述被采集對象的描述信息。
較佳的,所述第一獲取單元具體用于:
獲取所述被采集對象的標識,得到所述被采集對象的第一屬性信息,所述標識包括二維碼或條形碼。
較佳的,所述資質信息包括文本信息和圖片;
所述第一驗證單元具體用于:
對所述被采集對象的資質信息中的圖片進行圖像識別,得到該圖片上的文本信息;
判斷所述被采集對象的資質信息中的文本信息是否與識別出的文本信息一致,若一致,則對所述被采集對象的資質信息驗證通過。
較佳的,所述第一驗證單元具體用于:
若從所述識別出的文本信息中除了包括與所述被采集對象的資質信息中的文本信息一致的文本信息以外,還包括其他文本信息,則根據所述其他文本信息、所述被采集對象的資質信息、第一屬性信息以及第二屬性信息,生成所述被采集對象的描述信息。
較佳的,所述被采集對象的描述信息存儲于對象信息庫中;
所述數據采集裝置還包括:
查詢處理單元,用于接收對象信息查詢請求消息,所述對象信息查詢請求消息中攜帶有二維碼或條形碼;根據所述二維碼或條形碼在所述對象信息庫中查詢與所述二維碼或條形碼對應的對象描述信息;返回描述信息查詢請求響應消息,所述描述信息查詢請求響應消息中攜帶有查詢到的與所述二維碼或條形碼對應的對象描述信息。
較佳的,所述被采集對象的描述信息存儲于對象信息庫中;
所述數據采集裝置還包括:
第二驗證單元,用于接收驗證請求消息,所述驗證請求消息中攜帶有從待驗證對象采集到的第一屬性信息和資質信息;根據所述待驗證對象的第一屬性信息在所述資質信息庫或者所述對象信息庫中查詢與所述待驗證對象的第一屬性信息對應的資質信息;若查詢到對應的資質信息且查詢到的資質信息與所述待驗證請求消息中攜帶的資質信息相匹配,則返回驗證通過的響應消息,否則返回驗證失敗的響應消息。
較佳的,所述被采集對象為商品;
所述第一屬性信息包括所述商品類別、商品品牌、商品標識中的一種或多種;
所述第二屬性信息包括商品庫存信息、商品價格、商品標題中的一種或多種;
所述資質信息包括以下任意一種或幾種的組合:商品類別,商品品牌,商品標識,商品名稱,商品圖片,商品規格,生產日期,保質期,商品產地;其中,所述商品規格包括顏色、型號、材質中的一種或多種。
根據本申請實施例提供的數據采集方法及裝置,在采集被采集對象的資質信息時,先通過資質信息庫確定是否存在該被采集對象的資質信息,若存在,則直接獲取資質信息庫中的資質信息,并基于該資質信息生成被采集對象的描述信息,否則基于數據采集模板采集被采集對象的資質信息,并對采集到的所述被采集對象的資質信息進行驗證,并在驗證通過之后才將所述被采集對象的資質信息存儲到資質信息庫,由于資質信息庫中的資質信息均是經過驗證的,具有一定的可信度,從而避免了現有技術中因采集到的資質信息與被采集對象的真實資質信息不一致的情況發生,提高了采集到的數據的可信度。
附圖說明
為了更清楚地說明本申請實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡要介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領域的普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本申請實施例提供的一種數據采集模板示意圖;
圖2為本申請實施例提供的另一種數據采集模板示意圖;
圖3為本申請實施例提供的一種數據采集方法流程示意圖;
圖4為本申請實施例提供的一種商品數據采集方法流程示意圖;
圖5為本申請實施例提供的一種數據采集裝置結構示意圖;
圖6為本申請實施例提供的另一種數據采集裝置結構示意圖;
圖7為本申請實施例提供的另一種數據采集裝置結構示意圖。
具體實施方式
為了使本申請的目的、技術方案和優點更加清楚,下面將結合附圖對本申請作進一步地詳細描述,顯然,所描述的實施例僅僅是本申請一部份實施例,而不是全部的實施例。基于本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其它實施例,都屬于本申請保護的范圍。
為了規范采集到的數據,提高采集數據的效率,本申請實施例中會為被采集對象確定一個與之匹配的數據采集模板,數據采集模板中包括一系列枚舉值,提供了需要采集的數據的類型。不同的被采集對象所對應的數據采集模板可以不同,這樣就能根據不同的被采集對象,準確、全面地采集數據。
舉例來說,被采集對象為商品,數據采集模板中的數據類型可以包括以下任意一種或幾種的組合:
商品所屬的類別;商品所屬的品牌;商品的商品名稱;商品的條形碼或二維碼;商品的圖片信息,可以包括商品的吊牌圖片、水洗標圖片、外包裝圖片、配置說明圖片等;商品的規格,比如,商品的顏色,商品的材質,商品的型號等;商品的生產日期、保質期;商品的產地等。
被采集對象所對應的數據采集模板與該被采集對象的第一屬性信息有關,通過第一屬性信息可以索引到與之對應的數據模板庫,具有相同第一屬性信息的被采集對象所對應的數據采集模板相同。可以事先根據不同的第一屬性信息建立一個數據采集模板庫,為數據采集模板庫中每個數據采集模板與被采集對象的第一屬性信息之間建立對應關系,這樣就能根據被采集對象的第一屬性信息在數據采集模板庫中確定一個數據采集模板,然后直接使用該數據采集模板進行數據采集。
其中,第一屬性信息可以是條形碼或二維碼,也可以是類別信息,或者是其他能夠描述對象屬性的信息,通過第一屬性信息可以查詢到相應的數據采集模板。本申請實施例對第一屬性信息的具體內容和類型不做限制。
舉例來說,若被采集對象為商品,則一個商品所對應的數據采集模板與該商品所屬的類別和品牌有關。屬于相同類別、屬于不同品牌的商品所對應的數據采集模板相同;屬于不同類別的商品所采用的數據采集模板不相同,比如家電類別的商品與化妝品類別的商品所采用的數據采集模板就不相同。
舉例來說,商品A和商品B分別屬于不同的類別,商品A所使用的數據采集模板可以如圖1所示,商品B所使用的數據采集模板可以如圖2所示。
圖1所示的商品A所使用的數據采集模板定義了以下輸入項和/或顯示項的內容:所屬的類別和品牌;條形碼;商品名稱;商品規格,例如200ml;圖片信息,商品的背面包裝圖。當然,可以根據描述一個商品所需的內容對數據采集模板中的內容進行調整,使得采集到的數據全面而準確。
圖2所示的商品B所使用的數據采集模板中定義了以下輸入項和/或顯示項的內容:商品的類別和品牌;條形碼;商品的商品名稱;商品的材質,例如純棉;商品的顏色,例如紅色;圖片信息,例如商品的吊牌圖片和水洗標圖片。同樣的,可以根據實際情況對數據采集模板中的內容進行調整,使得采集到的數據全面而準確。
此外,該數據采集模板還可進一步定義上述這些輸入項和顯示項在數據采集界面中的排版格式,其排版格式如圖1或圖2所示。其中,輸入項指示出了需要采集的內容,在數據采集界面中可使用輸入框或選擇框等控件采集用戶輸入的內容,顯示項是指僅用于顯示的內容。一項內容是作為輸入項還是顯示項在數據采集界面中顯示,可根據資質信息的查詢結果來決定,具體請參見后續描述。
數據采集模板的生成方式可以有多種。比如,如果商品A屬于第一類別,商品B屬于第二類別,第一類別和第二類別相似,商品A所屬類別的數據采集 模板已經創建,則可以對商品A所屬類別的數據采集模板進行修改,得到所述第二類別的商品的數據采集模板。再比如,也可以直接創建第二類別的商品的數據采集模板。
數據采集模板可存儲于數據采集模板庫中。
一個對象的資質信息用于描述該對象的某些屬性,屬于同一類的對象通常應具有相同的資質信息。資質信息可包括文本信息和/或圖片。比如,資質信息可包括以下任意一種或幾種的組合:商品類別,商品品牌,商品標識,商品名稱,商品圖片,商品規格,生產日期,保質期,商品產地等;其中,所述商品規格包括顏色、型號、材質中的一種或多種。以上僅示例性地列舉出了資質信息的內容,根據對象所述的類別,資質信息的具體內容可能在上述內容的基礎上有所增加或刪除。
同類別的對象的資質信息通常是相同的,即資質信息可描述某類對象的共同屬性。由于資質信息的上述特點,在電子商務領域,資質信息可以作為后續維權的依據,因此資質信息需要經過驗證,以保證其準確性和真實性。
資質信息可存儲于資質信息庫中。一個對象的資質信息可通過該對象的第一屬性進行查詢。
資質信息庫中的資質信息的來源,可以是預先將真實準確的資質信息存儲到資質信息庫中,也可以是對用戶輸入的資質信息進行驗證,比如,對其真實性和準確性進行驗證,將驗證通過的資質信息存入資質信息庫。對資質信息的驗證方法,請參見后續描述。
基于上述數據采集模板和資質信息庫,圖3示出了本申請實施例提供的一種數據采集方法流程圖,該方法包括:
步驟301:獲取被采集對象的第一屬性信息,根據所述被采集對象的第一屬性信息獲取對應的數據采集模板,所述數據采集模板用于指示需要采集的數據;
步驟302:根據所述被采集對象的第一屬性信息查詢資質信息庫中是否存在所述被采集對象的資質信息;
步驟303:若存在,則獲取基于所述數據采集模板采集得到的所述被采集對象的第二屬性信息,根據所述被采集對象的資質信息、第一屬性信息以及第二屬性信息生成所述被采集對象的描述信息;
步驟304:若不存在,則獲取所述被采集對象的資質信息,對所述被采集對象的資質信息進行驗證,并在驗證通過后,將所述被采集對象的資質信息存儲到所述資質信息庫,根據所述被采集對象的資質信息、第一屬性信息以及基于所述數據采集模板采集得到的所述被采集對象的第二屬性信息生成所述被采集對象的描述信息。
被采集對象的第一屬性信息能夠反映被采集對象的類別等信息。舉例來說,被采集對象為商品時,第一屬性信息包括商品類別、商品品牌、商品標識中的一種或多種。其中,所述商品標識可以包括商品的二維碼或條形碼等標識。
如前所述,通過被采集對象的第一屬性信息可以確定被采集對象所對應的數據采集模板。比如,可以根據被采集對象的第一屬性信息在數據采集模板庫中查詢出該被采集對象的數據采集模板。
步驟301中,可以通過多種方式實現獲取被采集對象的第一屬性信息。
一種可能的實現方式為間接獲取被采集對象的第一屬性信息:通過獲取所述被采集對象的二維碼或條形碼,得到所述被采集對象的第一屬性信息。舉例來說,可以通過二維碼或條形碼采集裝置,掃描被采集對象的二維碼或條形碼,從而獲取被采集對象的二維碼或條形碼。
另一種可能的實現方式為直接獲取被采集對象的第一屬性信息。舉例來說,可以為用戶提供輸入界面,獲取用戶根據該輸入界面輸入或選擇的對象類別,該對象類別即屬于第一屬性信息。
在步驟302中,在獲取到被采集對象的第一屬性信息之后,可以根據被采集對象的第一屬性信息查詢資質信息庫中是否存在所述被采集對象的資質信息。
如果在步驟302中根據被采集對象的第一屬性信息在資質信息庫中查詢到 被采集對象的資質信息,說明該被采集對象的資質信息已經存在且已經被驗證通過,則在步驟303中,只需要對被采集對象的其他屬性信息(這里稱為第二屬性信息)進行采集,以便用來生成該被采集對象的完整的描述信息。
其中,被采集對象的第一屬性信息和資質信息為被采集對象本身的信息,而被采集對象的第二屬性信息為與被采集對象相關的信息,舉例來說,被采集對象為商品時,被采集對象的第二屬性信息為被采集對象的庫存、價格、商品標題等信息。
在步驟303中,在對被采集對象的第二屬性信息進行采集時,可使用步驟301中獲取到的數據采集模板。
具有相同資質信息的對象可能被多次采集信息,特別是被采集對象為商品時,在電商平臺中,一個類別的商品可能被多個賣家同時出售,如果對同一類的多個商品都要采集其全部屬性信息,將導致采集的效率很低。為了提高數據采集的效率,避免同一類別的對象被重復采集信息,本申請實施例中,如果針對當前被采集對象查詢到其資質信息,則可以對獲取到的該對象對應的數據采集模板進行處理,使該模板中定義的資質信息輸入項不在數據采集界面上顯示,以避免用戶輸入資質信息,或者,也可以對獲取到的該對象對應的數據采集模板進行處理,使資質信息的內容僅作為顯示項顯示在數據采集界面中,不允許用戶輸入資質信息。
通過上述方式,也可避免對已經被驗證過的資質信息被任意修改。如果需要對該資質信息進行修改,只能通過申訴等方式進行修改,此時修改的內容還需要經過驗證后才能確認是否接受修改。
在獲取到被采集對象的第二屬性信息之后,可根據所述被采集對象的資質信息、第一屬性信息以及第二屬性信息生成所述被采集對象的描述信息,并可進一步將被采集對象的描述信息存儲到對象庫中,以便后續發布。
在生成被采集對象的描述信息的過程中,可對重復內容進行數據查重處理,以保證數據的一致性。
舉例來說,被采集對象為商品時,賣家通過終端采集商品的二維碼或條形碼,并在根據采集到的二維碼或條形碼從資質信息庫中查詢到該商品的資質信息之后,根據采集到的第二屬性信息以及采集到的二維碼或條形碼和查詢到的資質信息(如庫存、價格、商品標題等信息)進行查重處理后,生成該商品的描述信息。由于資質信息庫中的資質信息是已經經過驗證過的信息,可以保證該商品信息的真實性,所以賣家直接在電商平臺上發布該商品,這樣賣家只需通過終端進行商品的快速發布,極大的簡化了賣家輸入信息的過程,提高了信息采集的效率。
如果在步驟302中根據被采集對象的第一屬性信息在資質信息庫中未查詢到被采集對象的資質信息,說明該對象的資質信息未保存在資質信息庫中,比如該被采集對象的信息未被采集過,此時在步驟304中采集被采集對象的資質信息,然后對采集到的資質信息進行驗證。
在步驟304中,在采集被采集對象的資質信息時,可使用步驟301中獲取到的數據采集模板。
優選地,如果針對當前被采集對象未查詢到其資質信息,則可以對獲取到的該對象對應的數據采集模板進行處理,使該模板中定義的資質信息輸入項在數據采集界面上顯示,以指示用戶輸入資質信息。
對采集到的資質信息進行驗證可以有多種方式,比如,可采用人工方式對資質信息進行驗證。
如前所述,資質信息中可包括文本信息和圖片,相應地,一種優選的驗證方式是確定采集到的資質信息中的文本信息與圖片描述的是否一致,如果一致,則驗證通過。
具體地,先對被采集對象的資質信息中的圖片進行圖像識別,得到該圖片上的文本信息,可以通過文字圖像識別技術識別圖片中的文本信息;然后判斷被采集對象的資質信息中的文本信息是否與識別出的文本信息一致,若一致,則確定所述被采集對象的資質信息驗證通過;若被采集對象的資質信息中的文 本信息是否與識別出的文本信息不一致,則結束對所述被采集對象進行數據采集的過程,從而避免采集到虛假的數據。
舉例來說,被采集對象為商品,對通過電商平臺采集到的賣家輸入的資質信息中的圖片進行圖像識別,識別出的文本信息為:“材質:純棉”;而通過電商平臺采集到的賣家輸入的資質信息為:“材質:亞麻”;此時可以確定采集到的資質信息中的文本信息與從圖片中識別出的文本信息不一致,從而不允許該商品在電商平臺進行發布。
在被采集對象的資質信息驗證通過之后,可根據所述被采集對象的資質信息、第一屬性信息以及第二屬性信息生成所述被采集對象的描述信息,并可進一步將被采集對象的描述信息存儲到對象庫中,以便后續發布。
從采集到的資質信息中的圖片中識別出的文本信息,除了可以作為資質信息的內容以外,還可能包含其他內容,比如生產廠家地址,而這些其他內容并沒有在數據采集模板中定義。為了盡可能的采集到與被采集對象相關的數據,可選地,在步驟304中,若從所述被采集對象的資質信息中的圖片中識別出的文本信息還包括與所述被采集對象的資質信息中的文本信息一致的文本信息以外的其他文本信息,則根據所述其他文本信息、所述被采集對象的資質信息以及第二屬性信息,生成所述被采集對象的描述信息。
步驟304中,在所述被采集對象的資質信息驗證通過后,將所述被采集對象的資質信息存儲到資質信息庫,以便對所述被采集對象進行重復采集時提高采集效率。
可選地,為了進一步保證采集到的被采集對象的信息與被采集對象的真實信息一致,對由驗證通過后的資質信息與第二屬性信息生成的描述信息再次進行驗證,在描述信息驗證通過后,才對該描述信息進行存儲等操作;如果驗證不通過,則可以直接終止數據采集的過程,或者也可以生成驗證信息,驗證信息中描述了驗證不通過的原因。
舉例來說,被采集對象為商品時,賣家通過終端采集商品的二維碼或條形 碼,根據采集到的二維碼或條形碼從資質信息庫中未查詢到該商品的資質信息,此時賣家根據電商平臺提供的數據采集模板輸入該商品的資質信息以及該商品的第二屬性信息,如庫存、價格、商品標題等信息。電商平臺對該商品的資質信息進行驗證,在驗證通過后生成該商品的描述信息,然后再對生成的描述信息進行驗證,驗證通過后才允許賣家發布該商品的描述信息。
被采集對象的描述信息可以存儲于對象信息庫中,在需要展示描述信息時,可以從對象信息庫中查詢相應的描述信息進行展示。一種可能的從對象信息庫中查詢描述信息的方式可以包括以下步驟1至步驟3:
步驟1、接收對象信息查詢請求消息,所述對象信息查詢請求消息中攜帶有二維碼或條形碼。
舉例來說,可以通過掃描設備掃描二維碼或條形碼,并將掃描到的二維碼或條形碼攜帶于對象信息查詢請求消息發送出去。
需要說明的是,對象信息查詢請求消息中也可以攜帶該對象的其他唯一標識信息來代替該對象的條形碼或二維碼,作為查詢該對象的描述信息的關鍵字。
步驟2、根據所述二維碼或條形碼在所述對象信息庫中查詢與所述二維碼或條形碼對應的對象描述信息。
步驟3、返回描述信息查詢請求響應消息,所述描述信息查詢請求響應消息中攜帶有查詢到的與所述二維碼或條形碼對應的對象描述信息。
舉例來說,通過移動終端查詢對象信息庫中的描述信息時,可以先打開移動終端上的客戶端的查詢界面,查詢界面中可以包括獲取二維碼或條形碼按鈕以及查詢按鈕。通過觸發獲取二維碼或條形碼按鈕進入掃描二維碼或條形碼階段,并通過觸發查詢按鈕將掃描到的二維碼或條形碼攜帶于對象信息查詢請求消息進行發送。網絡側的服務端(比如本申請實施例中的數據采集裝置)根據接收到的對象信息查詢請求消息查詢對象信息庫。如果查詢到對應的對象的描述信息,則將查詢到的對象的描述信息攜帶于對象查詢響應消息返回給該客戶端,該客戶端將查詢結果在界面中進行展示,如果未查詢到對應的對象的描述 信息,則也可以返回表示查詢失敗的對象查詢響應消息。
在展示描述信息時,還可以展示與描述信息相關的其他信息。舉例來說,被采集對象為商品時,在展示商品的描述信息的同時,還可以展示該商品的廣告信息等營銷信息。
上述對象信息查詢流程,實現了通過對象的唯一標識,比如條形碼或二維碼,查詢該對象的描述信息的過程。
在實際應用中,本申請實施例的一種應用場景為:商家針對其需要出售的商品,將該商品的描述信息在電商平臺上進行發布。其中,商品的描述信息的采集過程可通過本申請實施例的方式實現。用戶使用電商平臺客戶端應用程序查詢商家發布的商品信息,選擇需要的商品后進行交易。用戶購買對應的商品后,相關的商品信息以及訂單信息會保存到交易數據庫。
由于采集到的資質信息以及生成的描述信息等均經過驗證,因此可以保證其真實性。舉例來說,被采集對象為商品時,用戶在購買商品后,若發現購買的商品與商家展示的商品的描述信息不符,則該用戶可以通過各種電商平臺的評價系統進行反饋,作出相應的評價。由于商家展示的商品的描述信息是經過本申請實施例提供的方法進行驗證的,因此基于該商品的描述信息所作出的評價可以具有較高的參考價值。
進一步地,如果用戶發現購買的商品與商家展示的商品的描述信息不符,還可以發起維權過程。在維權過程中,用戶可從其購買的商品上采集資質信息作為維權證據,攜帶于驗證請求消息發送給服務端,由服務端將用戶從購買的商品上采集的資質信息與對象信息庫或資質信息庫中的相應對象的資質信息進行比對,根據比對結果協助用戶進行維權。
可以看出,維權過程中比較重要的環節是驗證從對象采集到的資質信息是否與對象信息庫或資質信息庫中的相應對象的資質信息匹配或一致,因此,本申請實施例給出了以下對象資質信息的驗證流程。
為描述方便,將需要驗證的對象稱為待驗證對象。舉例來說,待驗證對象 可以是用戶購買到的商品。
具體的,可以通過以下步驟1至步驟3進行驗證:
步驟1、接收驗證請求消息,所述驗證請求消息中攜帶有從待驗證對象采集到的第一屬性信息和資質信息。
該步驟中,獲取待驗證對象的第一屬性信息以及待驗證對象的資質信息的方法與獲取待采集對象的第一屬性信息以及待采集對象的資質信息的方法相同,在此不再贅述。例如,用戶可掃描其購買的商品上或商品包裝上印刷的二維碼或條形碼,并對該商品或該商品包裝上印刷的資質信息(比如規格、批次、有效期等)進行拍照,將掃描得到的條形碼以及拍照的圖像攜帶于該驗證請求消息。
步驟2、根據所述待驗證對象的第一屬性信息在所述資質信息庫或者所述對象信息庫中查詢與所述待驗證對象的第一屬性信息對應的資質信息。
由于對象信息庫中的對象的資質信息以及資質信息庫中的資質信息均為驗證通過的信息,因此對象信息庫和資質信息庫中存儲的信息均可以作為驗證基礎數據。
步驟3、若查詢到對應的資質信息且查詢到的資質信息與所述待驗證請求消息中攜帶的資質信息相匹配,則返回驗證通過的響應消息,否則返回驗證失敗的響應消息。
該步驟中,如果通過第一屬性信息在資質信息庫或者對象信息庫中查詢到存在與之對應的資質信息或者描述信息,那么再將查詢到的資質信息或者描述信息與該待驗證對象的資質信息進行匹配,如果匹配成功,則返回驗證通過的響應消息,如果匹配失敗,則返回驗證失敗的響應消息。
資質信息庫中的內容除了可以按照本申請實施例的上述流程得到以外,也可以通過批量導入的方式得到。批量導入的資質信息可以來自于第三方提供的信息,為了保證資質信息的準確性,可在批量導入資質信息之前,對需要導入的資質信息進行驗證,具體驗證過程可采用上述對待驗證對象進行驗證的流程。
舉例來說,可以首先確定待驗證的資質信息(即待導入的資質信息)屬于哪些對象,獲取該對象的真實的資質信息,比如以商品為例,從該商品或商品的包裝上采集該商品的資質信息。相應地,該流程可包括:接收驗證請求消息,所述驗證請求消息中攜帶有從待驗證資質信息所對應的對象采集到的第一屬性信息和資質信息;根據所述待驗證對象的第一屬性信息在所述待驗證的資質信息中查詢與所述待驗證對象的第一屬性信息對應的資質信息;若查詢到對應的資質信息且查詢到的資質信息與所述待驗證請求消息中攜帶的資質信息相匹配,則對該待驗證對象的資質信息驗證通過,否則驗證失敗。驗證通過的資質信息被導入到資質信息庫中。
下面通過具體的實施例對上面的過程進行描述。
如圖4所示,為本申請實施例提供的一種商品數據采集方法流程示意圖,被采集對象為商品,通過下面的步驟采集該商品的信息:
步驟401、獲取商品的第一屬性信息,即獲取該商品的商品類別、商品品牌、商品標識中的一種或多種;
可以通過直接獲取商品的第一屬性信息,也可以通過該商品的二維碼或條形碼獲取該商品的第一屬性信息;
步驟402、根據該商品的第一屬性信息在資質信息庫中查詢是否存在該商品的資質信息,若存在,則轉到步驟403,否則轉到步驟405;
步驟403、從資質信息庫中獲取該商品的資質信息,并獲取該商品的第二屬性信息,即該商品的庫存、價格、商品標題等信息;
步驟404、根據該商品的資質信息以及第二屬性信息生成該商品的描述信息,并發布該商品的描述信息;
步驟405、采集該商品的資質信息,并獲取該商品的第二屬性信息,即該商品的庫存、價格、商品標題等信息;
步驟406、對該商品的資質信息進行驗證,判斷該商品的資質信息是否驗證通過,若驗證通過,則轉到步驟407,否則結束整個流程;
可以對所述被采集對象的資質信息中的圖片進行圖像識別,得到該圖片上的文本信息;然后判斷所述被采集對象的資質信息中的文本信息是否與識別出的文本信息一致,若一致,則確定所述被采集對象的資質信息驗證通過;
步驟407、根據采集到的商品的資質信息以及該商品的第二屬性信息生成該商品的描述信息;
步驟408、對生成的描述信息進行驗證,判斷描述信息是否驗證通過,若驗證通過,則轉到步驟409,否則結束整個流程;
步驟409、發布該商品的描述信息。
針對上述方法流程,本申請實施例還提供一種數據采集裝置,該裝置可在網絡側的服務器中實現,該裝置可通過網絡與用戶側的終端進行通信,用戶可所述用戶側的終端向該裝置發送信息。所述網絡可以是有線網絡,也可以是無線通信網絡。該裝置的數據采集流程可以參照上述方法實施,在此不再贅述。
如圖5所示,本申請實施例提供的一種數據采集裝置結構示意圖,包括:
第一獲取單元501,第一獲取單元,用于獲取被采集對象的第一屬性信息;
第二獲取單元502,用于根據所述被采集對象的第一屬性信息獲取對應的數據采集模板,所述數據采集模板用于指示需要采集的數據;
查詢單元503,用于根據所述被采集對象的第一屬性信息查詢資質信息庫中是否存在所述被采集對象的資質信息;
所述第一獲取單元501,還用于在所述資質信息庫中存在所述被采集對象的資質信息時,獲取基于所述數據采集模板采集得到的所述被采集對象的第二屬性信息;
描述信息生成單元504,用于根據所述查詢單元查詢到的所述被采集對象的資質信息以及所述第一獲取單元501獲取到的所述被采集對象的第一屬性信息和第二屬性信息生成所述被采集對象的描述信息;
所述第一獲取單元501,還用于在所述資質信息庫中不存在所述被采集對象的資質信息時,獲取資質信息以及基于所述數據采集模板采集得到的所述被采 集對象的第二屬性信息;
第一驗證單元505,用于對所述第一獲取單元獲取到的所述被采集對象的資質信息進行驗證,并在驗證通過后,將所述被采集對象的資質信息存儲到所述資質信息庫;
所述描述信息生成單元504,還用于根據所述第一驗證單元505驗證通過的所述被采集對象的資質信息以及所述第一獲取單元501獲取到的所述被采集對象的第一屬性信息和基于所述數據采集模板采集得到的所述被采集對象的第二屬性信息生成所述被采集對象的描述信息。所述被采集對象的描述信息存儲于對象信息庫中。
較佳的,所述第一獲取單元501具體用于:
獲取所述被采集對象的標識,得到所述被采集對象的第一屬性信息,所述標識包括二維碼或條形碼。
較佳的,所述資質信息包括文本信息和圖片;
所述第一驗證單元505具體用于:
對所述被采集對象的資質信息中的圖片進行圖像識別,得到該圖片上的文本信息;
判斷所述被采集對象的資質信息中的文本信息是否與識別出的文本信息一致,若一致,則對所述被采集對象的資質信息驗證通過。
較佳的,所述第一驗證單元505具體用于:
若從所述識別出的文本信息中除了包括與所述被采集對象的資質信息中的文本信息一致的文本信息以外,還包括其他文本信息,則根據所述其他文本信息、所述被采集對象的資質信息、第一屬性信息以及第二屬性信息,生成所述被采集對象的描述信息。
較佳的,所述被采集對象為商品;
所述第一屬性信息包括所述商品類別、商品品牌、商品標識中的一種或多種;
所述第二屬性信息包括商品庫存信息、商品價格、商品標題中的一種或多種;
所述資質信息包括以下任意一種或幾種的組合:商品類別,商品品牌,商品標識,商品名稱,商品圖片,商品規格,生產日期,保質期,商品產地;其中,所述商品規格包括顏色、型號、材質中的一種或多種。
在圖5所示的數據采集裝置的基礎上,還可包括查詢處理單元506,如圖6所示。
其中,查詢處理單元506可用于接收對象信息查詢請求消息,所述對象信息查詢請求消息中攜帶有二維碼或條形碼;根據所述二維碼或條形碼在所述對象信息庫中查詢與所述二維碼或條形碼對應的對象描述信息;返回描述信息查詢請求響應消息,所述描述信息查詢請求響應消息中攜帶有查詢到的與所述二維碼或條形碼對應的對象描述信息。
在圖5或圖6所示的數據采集裝置的基礎上,還可包括第二驗證單元507,其中圖7示出了在圖5所示的數據采集裝置的基礎上增加第二驗證單元507后的結構。
其中,第二驗證單元507可用于接收驗證請求消息,所述驗證請求消息中攜帶有從待驗證對象采集到的第一屬性信息和資質信息;根據所述待驗證對象的第一屬性信息在所述資質信息庫或者所述對象信息庫中查詢與所述待驗證對象的第一屬性信息對應的資質信息;若查詢到對應的資質信息且查詢到的資質信息與所述待驗證請求消息中攜帶的資質信息相匹配,則返回驗證通過的響應消息,否則返回驗證失敗的響應消息。
綜上所述,根據本申請實施例提供的數據采集方法及裝置,在采集被采集對象的資質信息時,先通過資質信息庫確定是否存在該被采集對象的資質信息,若存在,則直接獲取資質信息庫中的資質信息,否則基于數據采集模板采集被采集對象的資質信息,并對采集到的所述被采集對象的資質信息進行驗證,并在驗證通過之后才將所述被采集對象的資質信息存儲到資質信息庫,從而避免 了采集到的資質信息與被采集對象的真實信息不一致的情況發生,提高采集到的數據的真實性、可靠性。
本領域內的技術人員應明白,本申請的實施例可提供為方法、系統、或計算機程序產品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器和光學存儲器等)上實施的計算機程序產品的形式。
本申請是參照根據本申請實施例的方法、設備(系統)、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
顯然,本領域的技術人員可以對本申請進行各種改動和變型而不脫離本申請的精神和范圍。這樣,倘若本申請的這些修改和變型屬于本申請權利要求及其等同技術的范圍之內,則本申請也意圖包含這些改動和變型在內。