用于拓展商品品類的數據標注平臺及方法
【技術領域】
[0001]本發明涉及電子商務領域,特別涉及一種用于拓展商品品類的數據標注平臺及采用其進行數據標注的方法。
【背景技術】
[0002]由于網上購物的流行,商家需要處理用戶的各種問題,用戶需要查詢各種商品的信息。當咨詢量過大時,人工客服必然處理不過來,才有了智能客服這一新技術的發展。智能客服的一種實例就是智能應答系統,它是對用戶的歷史問題進行分析,并訓練模型,以達到對用戶的新問題進行判斷,并達到自動回復的目的。用戶的問題數據來源主要來自于用戶與商家客服之間的對話,當然只需要取用戶的問題作為訓練數據進行訓練即可。商家客服是按照商品的品類進行分類的,即用戶咨詢的是某一個品類的商家客服。智能應答系統采用對每一個品類的用戶問題進行分析,模型訓練,即可達到針對該品類問題的有效回答。而當品類十分龐大時,每一個品類的問題都需要客服人員進行人工整理與分類,這是一個非常龐大,非常耗時的工程。
[0003]在現有的數據標注過程中,首先標注人員通過開會,確定需要擴展的品類,以及對應的業務樹,標注規則,然后獲取需要新上線的品類標注數據,并將該品類的標注數據切分到單個的excel表格中,標注人員按照事先確定好的規則和業務樹,對各自負責的數據表格進行標注,標注完后,再由負責人對標注結果進行合并,整理,最后由研發人員對標注結果進行審核以及模型訓練,得到最終的模型文件并執行上線操作。這種標注過程存在以下問題:1.整個標注過程非常復雜,且需要多方人員的共同配合,因此對一個新品類進行數據標注,并給出該品類下完整的應答流程,從時間和人力成本來看已非常高;2.在數據標注過程中,由于打字過程中的拼寫錯誤、保存數據格式的不統一,再加上標注人員的主觀性,因此無法保證標注的準確率,也就無法判斷標注的質量。所以,對于一個大型的網購平臺來說,要想將所有的品類數據都進行標注、訓練模型并上線,將是一個非常耗時、難以保證準確率的任務。
【發明內容】
[0004](一 )要解決的技術問題
[0005]本發明的目的在于提供一種用于拓展商品品類的數據標注平臺及采用其進行數據標注的方法,以解決現有數據標注方式非常耗時、難以保證準確率的問題。
[0006]( 二 )技術方案
[0007]本發明提供一種用于拓展商品品類的數據標注平臺,該平臺包括:
[0008]任務管理模塊,用于導入待標注數據及標注方式;
[0009]數據標注模塊,用于展示出待標注數據及標注方式,并根據所述標注方式對待標注數據進行數據標注,得到標注數據;
[0010]數據校驗模塊,用于展示出標注數據、校驗方式,并根據校驗方式對所述標注數據進行校驗,生成校驗結果;
[0011]模型訓練模塊,用于對校驗后的標注數據進行模型訓練,輸出訓練模型。
[0012]本發明還提供一種采用數據標注平臺進行數據標注的方法,該方法包括:
[0013]SI,任務管理模塊導入待標注數據及標注方式;
[0014]S2,數據標注模塊展示出所述待標注數據及標注方式,并根據標注方式對待標注數據進行數據標注,得到標注數據;
[0015]S3,數據校驗模塊展示出標注數據、校驗方式,并根據校驗方式對標注數據進行校驗,生成校驗結果;
[0016]S4,模型訓練模塊對校驗后的標注數據進行模型訓練,輸出訓練模型。
[0017](三)有益效果
[0018]1、本發明將商品名數據、意圖識別數據、商品屬性數據及文法數據這四類數據集成一個通用的平臺上,能夠對四類標注數據同時進行標注,提高了數據標注的效率。
[0019]2、通過本發明的數據標注平臺,管理員進行標注任務上傳、任務指派以及規則制定;標注人員和校驗人員通過自己的賬號進入系統,查看只屬于自己的標注任務,明確自己的責任;管理員通過平臺看到每個任務的標注進度以及每個人的數據標注準確率,提醒對應的標注人員,注意進度以及標注質量。通過這種方式,提高了數據標注的效率。
[0020]3、本發明將相同的待標注數據分別分配給多個標注人員,通過標注一致率確保多個標注人員標注的準確性,然后通過對標注數據進行校驗來再次提高準確率,最后通過交叉驗證得到模型準確率,在模型準確率小于90%時進行迭代校驗,進一步保證了數據標注的質量。
【附圖說明】
[0021]圖1是本發明提供的用于拓展商品品類的數據標注平臺的結構示意圖。
[0022]圖2是本發明提供的數據標注方法的流程圖。
【具體實施方式】
[0023]為使本發明的目的、技術方案和優點更加清楚明白,以下結合具體實施例,并參照附圖,對本發明進一步詳細說明。
[0024]本發明提供的用于拓展商品品類的數據標注平臺,任務管理模塊導入待標注數據及標注方式,數據標注模塊對待標注數據進行數據標注,得到標注數據,數據校驗模塊對標注數據進行校驗,模型訓練模塊對校驗后的標注數據進行模型訓練,輸出訓練模型。采用這種數據標注平臺,能夠解決現有數據標注方式非常耗時、難以保證準確率的問題。
[0025]如圖1所示,圖1是本發明的用于拓展商品品類的數據標注平臺的結構示意圖,該數據標注平臺包括任務管理模塊10、數據標注模塊20、數據校驗模塊30和模型訓練模塊40,其中:
[0026]任務管理模塊10用于導入待標注數據及標注方式,其中待標注數據的類別至少包括商品名數據、意圖識別數據、商品屬性數據及文法數據。
[0027]數據標注模塊20用于展示出待標注數據及標注方式,將相同的待標注數據分別分配給多個標注人員,根據標注方式對待標注數據進行數據標注,數據標注完成后,判斷多個標注人員的標注一致率,若標注一致率小于50%,則舍棄標注數據,若標注一致率大于等于50%,則將標注數據傳入數據校驗模塊。
[0028]數據校驗模塊30展示出標注數據及校驗方式,并根據校驗方式對標注數據進行校驗,生成校驗結果。
[0029]模型訓練模塊40用于對校驗后的標注數據進行模型訓練,輸出訓練模型,并采用交叉驗證的方法獲取訓練模型的準確率,若準確率小于90%,則將訓練模型輸出的模型預測數據與校驗結果傳送給數據校驗模塊,進行迭代校驗,直到準確率大于等于90%。
[0030]另外,為了方便對該平臺的用戶進行管理,本發明的數據標注平臺還包括用戶管理模塊00,用于對用戶進行劃分,并設置相應的權限,其中,用戶至少包括管理員、標注人員、校驗人員及研發人員。
[0031]另外,為了方便訓練模型的上線,本發明的數據標注平臺還包括模型上傳模塊50,當訓練模型的準確率大于等于90%時,上傳此訓練模型。
[0032]本發明提供的數據標注平臺將商品名數據、意圖識別數據、商品屬性數據及文法數據這四類數據集成在一起,能夠對四類標注數據同時進行標注,提高了數據標注的效率;另外,管理員、標注人員和校驗人員分工明確,管理員通過平臺看到每個任務的標注進度以及每個人的數據標注準確率,提醒對應的標注人員,注意進度以及標注質量,通過這種方式,提高了數據標注的效率;本發明將相同的待標注數據分別分配給多個標注人員,通過標注一致率確保多個標注人員標注的準確性,然后通過對標注數據進行校驗來再次提高準確率,最后通過交叉驗證得到模型準確率,在模型準確率小于90 %時進行迭代校驗,