本文件涉及通信業務數據處理,尤其涉及一種訓練文本分類模型的方法、分類方法及分類系統。
背景技術:
1、客戶滿意度是評估移動通信運營商的客戶服務質量的重要指標之一,與運營商業績預期和未來發展有著密切的關聯性。隨著5g時代的開啟,運營商面向客戶提供高品質特性、低時延、高速率和高可靠通信業務服務。在逐漸完善和健全通信業務服務的過程中,難免存在服務不周之處。為了高效地為客戶解決業務服務問題,運營商推出了智能化機器客服,為客戶提供便捷的投訴自動處理服務。
2、智能化機器客服常采用監督學習、經人工標注樣本訓練后的分類器,對客戶的投訴文本進行分類,確定投訴文本的分類結果,并以該分類結果作為關鍵詞查找相關的響應信息或將分類結果直接作為響應信息,以完成投訴自動處理服務。在各服務地區和面向普遍客戶群體的應用過程中,存在客戶的投訴文本與標注過的文本的分類結果均不相似的情況,且常常出現分類器所確定的分類結果,不符合客戶投訴目標,若以此作為響應信息并執行投訴自動處理服務,則將加劇客戶不滿情緒。此時,需要專職業務人員對這些投訴文本逐個進行人工審查,并憑借經驗,手動指定客戶投訴目標對應的響應信息,以完成投訴人工處理服務。然而,在眾多客戶地區和龐大客戶數量規模的基礎上,人工處理投訴文本的工作繁瑣、成本較高,同時也很難高效地為客戶解決業務服務問題提供信息。
技術實現思路
1、本說明書實施例目的是提供一種訓練文本分類模型的方法、分類方法及分類系統,避免因人工標注的投訴文本樣本規模限制而導致訓練后的文本分類模型在被使用時,得到的投訴文本的分類結果不符合客戶投訴目標,進而實現應用于普遍客戶投訴文本的自動標注和分類,可為投訴自動處理服務提供客戶投訴目標對應的響應信息。
2、為了實現上述目的,本說明書實施例采用下述方案:
3、第一方面,提供一種訓練文本分類模型的方法,該方法包括:
4、獲取目標投訴文本,并在所述目標投訴文本的分詞詞語中,分別確定所述目標投訴文本所包含的至少兩個種子詞的出現頻率,所述至少兩個種子詞屬于種子詞詞典,所述種子詞詞典包括多個類別描述詞和與各類別描述詞對應的種子詞集,任意兩個種子詞集的交集為空集;
5、從所述種子詞詞典中,確定與所述至少兩個種子詞對應的待選類別描述詞集合,并確定所述待選類別描述詞集合中各待選類別描述詞的聚合頻率,各待選類別描述詞的聚合頻率是對應種子詞的出現頻率的加權融合值,其中,用于確定加權融合值的加權系數互不相同,所述加權系數可以是所述種子詞詞典中種子詞與類別描述詞之間的相關性得分;
6、將與最大聚合頻率對應的待選類別描述詞,標注為所述目標投訴文本的偽標簽,以用于形成標注的訓練集;
7、基于所述標注的訓練集,對文本分類模型進行訓練。
8、第二方面,提供一種投訴文本分類方法,該投訴文本分類方法包括:
9、通過分類器確定投訴文本的分類標簽,所述分類器是通過前述訓練文本分類模型的方法訓練的文本分類模型。
10、第三方面,提供一種投訴文本分類系統,該投訴文本分類系統包括:
11、出現頻率確定模塊,用于獲取目標投訴文本,并在所述目標投訴文本的分詞詞語中,分別確定所述目標投訴文本所包含的至少兩個種子詞的出現頻率,所述至少兩個種子詞屬于種子詞詞典,所述種子詞詞典包括多個類別描述詞和與各類別描述詞對應的種子詞集,任意兩個種子詞集的交集為空集;
12、聚合頻率確定模塊,用于從所述種子詞詞典中,確定與所述至少兩個種子詞對應的待選類別描述詞集合,并確定所述待選類別描述詞集合中各待選類別描述詞的聚合頻率,各待選類別描述詞的聚合頻率是對應種子詞的出現頻率的加權融合值,其中,用于確定加權融合值的加權系數互不相同,所述加權系數可以是所述種子詞詞典中種子詞與類別描述詞之間的相關性得分;
13、自標注模塊,用于將與最大聚合頻率對應的待選類別描述詞,標注為所述目標投訴文本的偽標簽,以用于形成標注的訓練集;
14、訓練模塊,用于基于所述標注的訓練集,對文本分類模型進行訓練。
15、第四方面,提供一種電子設備,該電子設備包括:
16、至少一個處理器;
17、存儲器,與所述至少一個處理器連接;
18、其中,所述存儲器存儲有能被所述至少一個處理器執行的指令,所述至少一個處理器通過執行所述存儲器存儲的指令,所述至少一個處理器通過執行所述存儲器存儲的指令實現前述的方法。
19、第五方面,提供一種機器可讀存儲介質,存儲有機器指令,當所述機器指令在機器上運行時,使得機器執行前述的方法。
20、本說明書實施例的方案中,獲取的目標投訴文本包含至少兩個種子詞,通過確定種子詞在分詞詞語中的出現頻率,從而識別在目標投訴文本的分詞詞語中種子詞之間相對的出現特點,種子詞出現頻率越高,體現了目標投訴文本的客戶投訴目標更強調該種子詞對應的響應信息,而直接將該目標投訴文本對應的語義特征進行分類是非常困難的、或容易輸出不符合客戶投訴目標及對應的響應信息的情況,同時,獲取的目標投訴文本不是包含一個關鍵詞的文本,因此也不能自動將關鍵詞作為標簽。待選類別描述詞集合是從種子詞詞典中獲得的,即便類別描述詞未出現在目標投訴文本中,也能通過目標投訴文本的種子詞,從種子詞詞典中獲得,能夠突破與客戶投訴目標或響應信息對應的類別描述詞規模限制;且通過種子詞出現頻率的加權融合值確定類別描述詞的聚合頻率,從而通過種子詞的出現特點在目標投訴文本中找到類別描述詞的出現特點(即便是,類別描述詞未出現于目標投訴文本)。然后,通過各類別描述詞的聚合頻率之間大小特點,取與最大聚合頻率對應的類別描述詞,作為目標投訴文本的偽標簽(可與響應信息一一對應或作為響應信息),如此可得到自動標注樣本的訓練集,通過訓練文本分類模型,能夠使得文本分類模型識別符合客戶投訴目標對應的偽標簽,不需要人工標注樣本且不需要重構文本分類模型的結構。
21、本說明書實施例的其它特征和優點將在隨后的具體實施方式部分予以詳細說明。
1.一種訓練文本分類模型的方法,其特征在于,該方法包括:
2.根據權利要求1所述的訓練文本分類模型的方法,其特征在于,所述在所述目標投訴文本的分詞詞語中,分別確定所述目標投訴文本所包含的至少兩個種子詞的出現頻率,包括:
3.根據權利要求1所述的訓練文本分類模型的方法,其特征在于,所述種子詞詞典的構造方法包括:
4.根據權利要求1所述的訓練文本分類模型的方法,其特征在于,所述確定所述待選類別描述詞集合中各待選類別描述詞的聚合頻率,包括:
5.根據權利要求4所述的訓練文本分類模型的方法,其特征在于,在所述確定所述目標種子詞集中各種子詞的出現頻率和相關性得分之間的乘積值之前,還包括以下任意一項:
6.根據權利要求1所述的訓練文本分類模型的方法,其特征在于,所述基于所述標注的訓練集,對文本分類模型進行訓練,包括:
7.根據權利要求6所述的訓練文本分類模型的方法,其特征在于,所述基于所述標注的訓練集,對文本分類模型進行訓練,還包括:
8.根據權利要求7所述的訓練文本分類模型的方法,其特征在于,所述基于所述未訓練的子集中目標投訴文本的置信度,選擇所述未訓練的子集中目標投訴文本,以選擇的目標投訴文本訓練所述文本分類模型,包括以下至少一項:
9.根據權利要求1所述的訓練文本分類模型的方法,其特征在于,該訓練文本分類模型的方法還包括:
10.一種投訴文本分類方法,其特征在于,該投訴文本分類方法包括:
11.根據權利要求10所述的投訴文本分類方法,其特征在于,該投訴文本分類方法還包括:
12.一種投訴文本分類系統,其特征在于,該投訴文本分類系統包括:
13.一種電子設備,其特征在于,該電子設備包括:
14.一種機器可讀存儲介質,存儲有機器指令,當所述機器指令在機器上運行時,使得機器執行權利要求1至11中任意一項權利要求所述的方法。