本申請涉及文本數據處理,特別是涉及一種分類模型訓練方法、裝置、設備、介質及產品。
背景技術:
1、運營商客服熱線電話錄音、工單文本服務數據龐大,判斷這些服務數據中是否包含風險信息,需靠人工做大量的數據分析,效率低且抽查樣本不全;此外,投訴類別不夠全面,不足以支撐輿情導向分析,且現有的文本分類模型在詞向量的預處理過程中,忽略了不同業務類目下詞向量的特性,類別標簽信息未被充分利用,導致最終得到的文本分類模型準確率較低。
技術實現思路
1、本申請提供的一種分類模型訓練方法、裝置、設備、介質及產品,能夠提高分類模型分類的準確率。
2、第一方面,本申請實施例提供一種分類模型訓練方法,方法包括:
3、獲取預設的多個文本類型對應的目標樣本;
4、對于每一目標樣本中的第一詞匯,獲取第一詞匯在目標樣本中出現的頻率,以及第一詞匯的逆向文件頻率idf,idf用于表征詞匯在預設語料庫中的稀有程度;
5、對于每一第一詞匯,根據第一詞匯在所有目標樣本中的出現的頻率,以及第一詞匯的idf,對所有詞匯進行過濾,得到第一篩選詞匯;
6、對于第一篩選詞匯中的每一第二詞匯,獲取第二詞匯屬于每個文本類型的概率,并基于概率確定第二詞匯所屬的目標文本類型;
7、基于第一篩選詞匯以及每個第二詞匯的目標文本類型,對基礎模型進行訓練,得到分類模型。
8、第二方面,本申請提供一種分類模型訓練裝置,該裝置包括:
9、第一獲取模塊,用于獲取預設的多個文本類型對應的目標樣本;
10、第二獲取模塊,用于對于每一目標樣本中的第一詞匯,獲取第一詞匯在目標樣本中出現的頻率,以及第一詞匯的逆向文件頻率idf,idf用于表征詞匯在預設語料庫中的稀有程度;
11、過濾模塊,用于對于每一第一詞匯,根據第一詞匯在所有目標樣本中的出現的頻率,以及第一詞匯的idf,對所有詞匯進行過濾,得到第一篩選詞匯;
12、第三獲取模塊,用于對于第一篩選詞匯中的每一第二詞匯,獲取第二詞匯屬于每個文本類型的概率,并基于概率確定第二詞匯所屬的目標文本類型;
13、訓練模塊,用于基于第一篩選詞匯以及每個第二詞匯的目標文本類型,對基礎模型進行訓練,得到分類模型。
14、第三方面,本申請實施例提供了一種電子設備,該電子設備包括:處理器以及存儲有計算機程序指令的存儲器;
15、處理器執行計算機程序指令時實現如第一方面中任意一個實施例中的分類模型訓練方法。
16、第四方面,本申請實施例提供了一種計算機存儲介質,計算機存儲介質上存儲有計算機程序指令,計算機程序指令被處理器執行時實現如第一方面中任意一個實施例中的分類模型訓練方法。
17、第五方面,本申請實施例提供了一種計算機程序產品,計算機程序產品中的指令由電子設備的處理器執行時,使得電子設備執行實現如上述第一方面中任意一個實施例中的分類模型訓練方法。
18、在本申請實施例提供的一種分類模型訓練方法、裝置、設備、介質及產品中,通過獲取預設的多個文本類型對應的目標樣本;對于每一目標樣本中的第一詞匯,獲取第一詞匯在目標樣本中出現的頻率,以及第一詞匯的逆向文件頻率idf,idf用于表征詞匯在預設語料庫中的稀有程度;對于每一第一詞匯,根據第一詞匯在所有目標樣本中的出現的頻率,以及第一詞匯的idf,對所有詞匯進行過濾,得到第一篩選詞匯;對于第一篩選詞匯中的每一第二詞匯,獲取第二詞匯屬于每個文本類型的概率,并基于概率確定第二詞匯所屬的目標文本類型;基于第一篩選詞匯以及每個第二詞匯的目標文本類型,對基礎模型進行訓練,得到分類模型。通過上述方式,通過獲取目標樣本中第一詞匯的頻率和逆向文件頻率idf,結合第一詞匯在所有目標樣本中的出現頻率和idf,對所有詞匯進行過濾得到第一篩選詞匯。有助于減少冗余特征和提取更具有區分度的詞匯,從而優化特征表達,從而能夠提高最終得到的分類模型分類的準確性,并且采用idf作為特征選擇的依據,可以獲得更具有信息豐富性的特征詞匯,提高分類模型分類的準確率。
1.一種文本分類模型訓練方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述獲取預設的多個文本類型對應的目標樣本,包括:
3.根據權利要求2所述的方法,其特征在于,基于預設詞典,對所述處理樣本中的所有文本語段進行詞匯切分處理,得到多個切分單詞,包括:
4.根據權利要求1所述的方法,其特征在于,所述對于每一所述目標樣本中的第一詞匯,獲取所述第一詞匯在所述目標樣本中出現的頻率,以及所述第一詞匯的逆向文件頻率idf,包括:
5.根據權利要求1所述的方法,其特征在于,所述對于每一第一詞匯,根據所述第一詞匯在所有目標樣本中的出現的頻率,以及所述第一詞匯的idf,對所有詞匯進行過濾,得到第一篩選詞匯,包括:
6.根據權利要求1所述的方法,其特征在于,所述對于第一篩選詞匯中的每一第二詞匯,獲取所述第二詞匯屬于每個文本類型的概率,并基于所述概率確定所述第二詞匯所屬的目標文本類型,包括:
7.根據權利要求1所述的方法,其特征在于,所述基于所述第一篩選詞匯以及每個第二詞匯的目標文本類型,對基礎模型進行訓練,得到分類模型,包括:
8.一種分類模型訓練裝置,其特征在于,所述裝置包括:
9.一種電子設備,其特征在于,所述設備包括:處理器以及存儲有計算機程序指令的存儲器;
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機程序指令,所述計算機程序指令被處理器執行時實現如權利要求1-7任意一項所述的分類模型訓練方法。
11.一種計算機程序產品,其特征在于,所述計算機程序產品中的指令由電子設備的處理器執行時,使得所述電子設備執行如權利要求1-7任意一項所述的分類模型訓練方法。