本技術涉及數據處理,尤其涉及一種數據質量的預測方法、裝置、電子設備及存儲介質。
背景技術:
1、相關技術中,通常通過人工處理的方式對通過多種數據源獲取的中小企業大數據進行整理和分析,數據處理效率較低,且缺乏對數據質量進行客觀評估和量化的方法,且無法對數據質量的變化進行有效的監控和預警。
技術實現思路
1、本技術旨在至少在一定程度上解決相關技術中的技術問題之一。
2、第一方面,本技術提出一種數據質量的預測方法,包括:獲取預測對象在多個第一時段中每個所述第一時段的第一指標值;基于所述第一指標值和預設的熵函數獲取每個所述第一時段對應的第一熵值;基于每個所述第一時段對應的第一熵值,確定每個所述第一時段對應的第一數據質量狀態;基于每個所述第一時段對應的第一數據質量狀態,獲取數據質量轉移概率矩陣;基于所述數據質量轉移概率矩陣,獲取所述預測對象的預測數據質量。
3、在一種實現方式中,所述基于所述第一指標值和預設的熵函數獲取每個所述第一時段對應的第一熵值,包括:獲取標準指標值;基于所述第一指標值和所述標準指標值,獲取每個所述第一時段對應的第一數據質量監控值;基于所述第一數據質量監控值和所述熵函數,獲取每個所述第一時段對應的第一熵值。
4、在一種可選地實現方式中,所述熵函數為至少一個,所述基于所述第一數據質量監控值和所述熵函數,獲取每個所述第一時段對應的第一熵值,包括:分別基于每個所述熵函數和每個所述第一時段對應的數據質量監控值,獲取每個所述第一時段對應的至少一個第二熵值;獲取每個所述第一時段對應的至少一個第二熵值的平均值,作為每個所述第一時段對應的所述第一熵值。
5、在一種實現方式中,所述基于每個所述第一時段對應的第一數據質量狀態,獲取數據質量轉移概率矩陣,包括:基于每個所述第一時段對應的第一數據質量狀態,獲取所述多個第一時段中每兩個相鄰時段對應的數據質量狀態轉移信息;基于所述數據質量狀態轉移信息獲取數據質量轉移概率;基于所述數據質量轉移概率獲取所述數據質量轉移概率矩陣。
6、在一種實現方式中,所述基于所述數據質量轉移概率矩陣,獲取所述預測對象的預測數據質量,包括:獲取所述預測對象在第二時段的第二指標值;基于所述第二指標值和所述熵函數獲取所述第二時段對應的第二熵值;基于所述第二熵值確定所述第二時段對應的第二數據質量狀態;基于所述第二數據質量狀態和所述數據質量轉移概率矩陣,獲取所述預測對象的預測數據質量。
7、在一種實現方式中,所述方法還包括:基于所述至少一個第一時段生成時間標簽;基于所述時間標簽將所述第一熵值和所述第一數據質量狀態存儲至時間結構合并樹tsm時序數據庫。
8、在一種實現方式中,所述方法還包括:基于所述時間標簽獲取所述第一熵值和所述第一數據質量狀態對應的存儲時長;響應于所述存儲時長大于或等于預設的時長閾值,將所述第一熵值和所述第一數據質量狀態從所述tsm時序數據庫中刪除。
9、在一種實現方式中,所述方法還包括:獲取所述第一指標值對應的數據質量影響因素;基于所述數據質量影響因素對所述熵函數的參數進行調整。
10、第二方面,本技術提出一種數據質量的預測裝置,包括:獲取模塊,用于獲取預測對象在多個第一時段中每個所述第一時段的第一指標值;第一處理模塊,用于基于所述第一指標值和預設的熵函數獲取每個所述第一時段對應的第一熵值;第二處理模塊,用于基于每個所述第一時段對應的第一熵值,確定每個所述第一時段對應的第一數據質量狀態;第三處理模塊,用于基于每個所述第一時段對應的第一數據質量狀態,獲取數據質量轉移概率矩陣;預測模塊,用于基于所述數據質量轉移概率矩陣,獲取所述預測對象的預測數據質量。
11、在一種實現方式中,所述第一處理模塊具體用于:獲取標準指標值;基于所述第一指標值和所述標準指標值,獲取每個所述第一時段對應的第一數據質量監控值;基于所述第一數據質量監控值和所述熵函數,獲取每個所述第一時段對應的第一熵值。
12、在一種可選地實現方式中,所述熵函數為至少一個,所述第一處理模塊具體用于:分別基于每個所述熵函數和每個所述第一時段對應的數據質量監控值,獲取每個所述第一時段對應的至少一個第二熵值;獲取每個所述第一時段對應的至少一個第二熵值的平均值,作為每個所述第一時段對應的所述第一熵值。
13、在一種實現方式中,所述第三處理模塊具體用于:基于每個所述第一時段對應的第一數據質量狀態,獲取所述多個第一時段中每兩個相鄰時段對應的數據質量狀態轉移信息;基于所述數據質量狀態轉移信息獲取數據質量轉移概率;基于所述數據質量轉移概率獲取所述數據質量轉移概率矩陣。
14、在一種實現方式中,所述預測模塊具體用于:獲取所述預測對象在第二時段的第二指標值;基于所述第二指標值和所述熵函數獲取所述第二時段對應的第二熵值;基于所述第二熵值確定所述第二時段對應的第二數據質量狀態;基于所述第二數據質量狀態和所述數據質量轉移概率矩陣,獲取所述預測對象的預測數據質量。
15、在一種實現方式中,所述裝置還包括:第四處理模塊,用于基于所述至少一個第一時段生成時間標簽;存儲模塊,用于基于所述時間標簽將所述第一熵值和所述第一數據質量狀態存儲至時間結構合并樹tsm時序數據庫。
16、在一種實現方式中,所述裝置還包括:第五處理模塊,用于基于所述時間標簽獲取所述第一熵值和所述第一數據質量狀態對應的存儲時長;刪除模塊,用于響應于所述存儲時長大于或等于預設的時長閾值,將所述第一熵值和所述第一數據質量狀態從所述tsm時序數據庫中刪除。
17、在一種實現方式中,所述裝置還包括:第六處理模塊,用于獲取所述第一指標值對應的數據質量影響因素;參數調整模塊,用于基于所述數據質量影響因素對所述熵函數的參數進行調整。
18、第三方面,本技術提出一種電子設備,包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行如第一方面所述的數據質量的預測方法。
19、第四方面,本技術提出一種計算機可讀存儲介質,用于存儲有指令,當所述指令被執行時,使如第一方面所述的方法被實現。
20、第五方面,本技術提出一種計算機程序產品,包括計算機程序,所述計算機程序在被處理器執行時實現如第一方面所述的數據質量的預測方法的步驟。
21、本技術提供的數據質量的預測方法、裝置、電子設備及存儲介質,可以基于預測對象在每個時段的指標值獲取每個時段對應的第一熵值,以根據每個時段對應的第一熵值確定每個時段對應的詩句質量級別,從而根據每個時段對應的數據質量狀態獲得預測對象的數據質量轉移概率矩陣,以根據數據質量轉移概率矩陣對預測對象的數據質量進行預測。能夠及時對可能發生的數據質量問題進行預警。
22、本技術附加的方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本技術的實踐了解到。