本申請涉及自然語言處理,尤其涉及一種文本數據漂移檢測方法、電子設備及計算機程序產品。
背景技術:
1、數據漂移檢測的意義在于及時發現數據分布變化,提前預測模型失效征兆。目前,相關技術常用的數據漂移檢測方法包括統計特征分析、統計分布相似性度量、主題建模和基于領域知識的方法,其中,統計特征分析方法對文本數據的變化敏感度較低,無法捕捉到細微的變化。相似性度量方法對文本數據的表示方式較為敏感,對于不同的表示方法可能會得到不同的結果。此外,通過單變量測量進行漂移檢測,隱含了特征獨立性的假設,無法挖掘特征之間的復雜交互。該方法在面對大規模數據時,計算復雜度也較高。主題建模方法依賴于預定義的主題數量和模型參數,此外對于長文本的處理相對困難,可能會導致信息丟失或失真。基于領域知識的方法依賴于專家的經驗和知識,對于復雜和多樣化的數據漂移難以適應,并且領域知識可能隨著時間的推移而過時,需要不斷更新和維護。
技術實現思路
1、有鑒于此,本申請實施例提供了一種文本數據漂移檢測方法、電子設備、存儲介質及計算機產品。
2、本申請實施例的技術方案是這樣實現的:
3、本申請實施例提供了一種文本數據漂移檢測方法,所述方法包括:
4、確定第一待匹配文本集和第一原始文本集中的所有文本的文本特征;
5、將所述第一待匹配文本集和所述第一原始文本集中的所有文本的文本特征輸入漂移檢測模型,得到所述漂移檢測模型輸出的匹配度;所述漂移檢測模型用于將所述第一待匹配文本集中的文本特征與所述第一原始文本集中的文本特征兩兩組成匹配對,基于各匹配對的匹配關系確定所述第一待匹配文本集和所述第一原始文本集的匹配度;
6、基于所述匹配度確定所述第一待匹配文本集是否發生數據漂移。
7、在上述方案中,所述確定第一待匹配文本集和第一原始文本集中的所有文本的文本特征,包括:
8、將所述第一待匹配文本集和所述第一原始文本集中的所有文本進行分詞處理;
9、對分詞結果進行詞向量映射,得到所述第一待匹配文本集和所述第一原始文本集中的每個文本的文本特征。
10、在上述方案中,所述將所述第一待匹配文本集和所述第一原始文本集中的所有文本的文本特征輸入漂移檢測模型,得到所述漂移檢測模型輸出的匹配度,包括:
11、基于所述漂移檢測模型對所述第一待匹配文本集和所述第一原始文本集中的所有文本進行局部特征提取;
12、基于所述第一待匹配文本集和所述第一原始文本集中的所有文本的局部特征,進行全局特征提取;
13、基于所述全局特征確定所述第一待匹配文本集和所述第一原始文本集的匹配度。
14、在上述方案中,所述基于所述漂移檢測模型對所述第一待匹配文本集和所述第一原始文本集中的所有文本進行局部特征提取,包括:
15、基于第一外部參數矩陣對所述第一待匹配文本集和所述第一原始文本集中的文本特征進行特征增強處理,得到每個文本特征的第一增強特征;
16、基于第二外部參數矩陣對所述第一待匹配文本集和所述第一原始文本集中的文本特征進行特征增強處理,得到每個文本特征的第二增強特征;其中,所述第一外部參數矩陣和所述第二外部參數矩陣的維度不同;
17、將所述第一增強特征和所述第二增強特征分別與原文本特征進行特征融合,得到每個文本特征的第三增強特征和第四增強特征;
18、將每個文本特征第三增強特征、第四增強特征和原文本特征進行拼接,得到每個文本特征的第五加強特征,所述第五加強特征表征為文本的局部特征。
19、在上述方案中,所述基于所述匹配度確定所述第一待匹配文本集是否發生數據漂移,包括:
20、若所述匹配度大于或等于設定值,則確定所述第一待匹配文本集未發生數據漂移;
21、若所述匹配度小于所述設定值,則確定所述第一待匹配文本發生數據漂移。
22、另一方面,本申請實施例還提供了一種模型訓練方法,包括:
23、確定訓練數據集;所述訓練數據集中的訓練數據包括第二待匹配文本集和第二原始文本集,所述訓練數據的標簽表征所述第二待匹配文本集是否發生數據漂移;
24、基于所述訓練數據集訓練所述漂移檢測模型。
25、另一方面,本申請實施例還提供一種電子設備,包括:處理器和用于存儲能夠在處理器上運行的計算機程序的存儲器,其中,所述處理器,用于運行計算機程序時,執行上述方法中的步驟。
26、另一方面,本申請實施例還提供一種計算機存儲介質,所述計算機存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時,實現上述方法中的步驟。
27、另一方面,本申請實施例還提供一種計算機程序產品,包括計算機程序,所述計算機程序在被處理器執行時,實現上述文本數據漂移檢測方法的步驟。
28、另一方面,本申請實施例還提供一種計算機程序產品,包括計算機程序,所述計算機程序在被處理器執行時,實現上述模型訓練方法的步驟。
29、本申請實施例通過確定第一待匹配文本集和第一原始文本集中的所有文本的文本特征,將第一待匹配文本集和第一原始文本集中的所有文本的文本特征輸入漂移檢測模型,得到漂移檢測模型輸出的匹配度。其中,漂移檢測模型用于將第一待匹配文本集中的文本特征與第一原始文本集中的文本特征兩兩組成匹配對,基于各匹配對的匹配關系確定第一待匹配文本集和第一原始文本集的匹配度,基于匹配度確定第一待匹配文本集是否發生數據漂移。本申請實施例將文本數據漂移檢測問題轉換為匹配問題,將第一待匹配文本集和第一原始文本集中的文本特征兩兩組成匹配對,對匹配度進行量化計算,計算復雜度低,提高了文本漂移的檢測精度。并且本申請實施例考慮了各文本特征之間的關聯特征,適合用于復雜數據漂移檢測。
1.一種文本數據漂移檢測方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述確定第一待匹配文本集和第一原始文本集中的所有文本的文本特征,包括:
3.根據權利要求1所述的方法,其特征在于,所述將所述第一待匹配文本集和所述第一原始文本集中的所有文本的文本特征輸入漂移檢測模型,得到所述漂移檢測模型輸出的匹配度,包括:
4.根據權利要求3所述方法,其特征在于,所述基于所述漂移檢測模型對所述第一待匹配文本集和所述第一原始文本集中的所有文本進行局部特征提取,包括:
5.根據權利要求1所述方法,其特征在于,所述基于所述匹配度確定所述第一待匹配文本集是否發生數據漂移,包括:
6.一種模型訓練方法,用于訓練如權利要求1至5任一項所述的漂移檢測模型,其特征在于,所述方法包括:
7.一種電子設備,其特征在于,包括:處理器和用于存儲能夠在處理器上運行的計算機程序的存儲器,其中,
8.一種計算機存儲介質,所述計算機存儲介質上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時,實現權利要求1至5或權利要求6所述的方法的步驟。
9.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序在被處理器執行時,實現權利要求1至5任一項所述的方法的步驟。
10.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序在被處理器執行時,實現權利要求6所述的方法的步驟。