本申請涉及數據處理,尤其涉及一種數據評估方法、裝置、電子設備及存儲介質。
背景技術:
1、在不斷發展的人工智能領域,數據集質量直接影響模型的性能和可用性。一個高質量的數據集可以為模型提供充分、多樣化的信息,有助于提高模型的準確性和魯棒性。然而,現實世界中的數據集往往面臨著各種挑戰,包括數據的不完整性、不一致性、噪聲、偏見等問題。傳統的人工智能(artificial?intelligence,ai)數據集評估方法主要關注數據的內在屬性,依賴于數據本身的分析統計指標,通常對數據的各項指標(如完整性、一致性、及時性、準確性、有效性、唯一性、可用率、異常率、復雜率等)進行加權或融合計算,這種評估方法存在一定的局限性,無法充分評估ai數據集對ai模型訓練的友好程度或其是否能夠支撐建模訓練的需求,進而無法準確的對ai數據集進行評估。
技術實現思路
1、本申請實施例提供的一種數據評估方法、裝置、電子設備及存儲介質,可以準確的對ai數據集進行評估。
2、本申請的技術方案是這樣實現的:
3、本申請實施例提供了一種數據評估方法,包括:
4、基于獲取的待評估數據集的應用類別,確定所述待評估數據集的統計屬性信息;
5、確定所述待評估數據集針對預設處理模型的適配屬性信息;其中,所述預設處理模型用于處理所述應用類別對應的數據;所述適配屬性信息用于表征所述待評估數據集與所述預設處理模型之間的適配度;
6、基于所述統計屬性信息和所述適配屬性信息確定所述待評估數據集的評估結果。
7、上述方案中,所述基于獲取的待評估數據集的應用類別,確定所述待評估數據集的統計屬性信息,包括:
8、基于所述應用類別,確定所述待評估數據集對應的至少一個數據屬性類別;
9、針對所述待評估數據集提取每一所述數據屬性類別對應的屬性指標;
10、基于每一所述屬性指標確定所述統計屬性信息。
11、上述方案中,所述基于每一所述屬性指標確定所述統計屬性信息,包括:
12、將每一所述屬性指標映射至對應的屬性等級;
13、將每一所述屬性等級與對應的第一預設權重進行加權求和得到屬性分值;
14、對所述屬性分值進行歸一化處理確定所述統計屬性信息。
15、上述方案中,所述確定所述待評估數據集針對預設處理模型的適配屬性信息,包括:
16、基于所述應用類別確定所述預設處理模型對所述待評估數據集進行處理時的模型推理指標;其中,所述模型推理指標用于表征所述預設處理模型對所述待評估數據集處理時的適配度;
17、利用所述待評估數據集對所述預設處理模型進行訓練,直至達到預定訓練條件時停止,得到模型訓練指標;其中,所述模型訓練指標用于表征通過所述待評估數據集對所述預設處理模型進行訓練時的適配度;
18、基于所述模型推理指標和所述模型訓練指標確定所述適配屬性信息。
19、上述方案中,所述基于所述應用類別確定所述預設處理模型對所述待評估數據集進行處理時的模型推理指標,包括:
20、基于所述應用類別確定所述預設處理模型,以及所述預設處理模型對應的至少一個指標類別;
21、利用所述預設處理模型處理所述待評估數據集,得到處理結果;
22、基于所述處理結果確定每一所述指標類別對應的所述模型推理指標。
23、上述方案中,所述基于所述模型推理指標和所述模型訓練指標確定所述適配屬性信息,包括:
24、將每一所述模型推理指標映射至對應的模型推理等級,并將每一所述模型訓練指標映射至對應的模型訓練等級;
25、基于每一所述模型推理等級與對應的第二預設權重,以及每一所述模型訓練等級與對應的第三預設權重進行加權求和得到模型適配分值;
26、對所述模型適配分值進行歸一化處理,確定所述適配屬性信息。
27、上述方案中,所述基于所述統計屬性信息和所述適配屬性信息確定所述待評估數據集的評估結果,包括:
28、將所述統計屬性信息與所述適配屬性信息進行加權求和確定質量綜合分值;
29、基于所述質量綜合分值確定所述評估結果。
30、本申請實施例還提供了一種數據評估裝置,包括:
31、屬性確定單元,用于基于獲取的待評估數據集的應用類別,確定所述待評估數據集的統計屬性信息;
32、適配度確定單元,用于確定所述待評估數據集針對預設處理模型的適配屬性信息;其中,所述預設處理模型用于處理所述應用類別對應的數據;所述適配屬性信息用于表征所述待評估數據集與所述預設處理模型之間的適配度;
33、評估單元,用于基于所述統計屬性信息和所述適配屬性信息確定所述待評估數據集的評估結果。
34、本申請實施例還提供了一種電子設備,包括存儲器和處理器,所述存儲器存儲有可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現上述方法中的步驟。
35、本申請實施例還提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現上述方法中的步驟。
36、本申請實施例還提供了一種計算機程序產品,包括計算機程序,所述計算機程序在被處理器執行時實現上述方法中的步驟。
37、本申請實施例中,基于獲取的待評估數據集的應用類別,確定待評估數據集的統計屬性信息;確定待評估數據集針對預設處理模型的適配屬性信息;其中,預設處理模型用于處理應用類別對應的數據;適配屬性信息用于表征待評估數據集與預設處理模型之間的適配度;基于統計屬性信息和適配屬性信息確定待評估數據集的評估結果。這樣,由于本申請在確定評估結果的過程中不僅考慮到了待評估數據集的內部的屬性信息,而且還考慮到了待評估數據集針對對應的預設模型的適配度,相比于現有技術中只依賴于數據本身的分析統計方法,分析的更加全面,可以充分評估待評估數據集對預設處理模型的適配問題,進而提高了待評估數據集的評估準確性。
1.一種數據評估方法,其特征在于,包括:
2.根據權利要求1所述的數據評估方法,其特征在于,所述基于獲取的待評估數據集的應用類別,確定所述待評估數據集的統計屬性信息,包括:
3.根據權利要求2所述的數據評估方法,其特征在于,所述基于每一所述屬性指標確定所述統計屬性信息,包括:
4.根據權利要求1至3任一項所述的數據評估方法,其特征在于,所述確定所述待評估數據集針對預設處理模型的適配屬性信息,包括:
5.根據權利要求4所述的數據評估方法,其特征在于,所述基于所述應用類別確定所述預設處理模型對所述待評估數據集進行處理時的模型推理指標,包括:
6.根據權利要求4所述的數據評估方法,其特征在于,所述基于所述模型推理指標和所述模型訓練指標確定所述適配屬性信息,包括:
7.根據權利要求1至3任一項所述的數據評估方法,其特征在于,所述基于所述統計屬性信息和所述適配屬性信息確定所述待評估數據集的評估結果,包括:
8.一種數據評估裝置,其特征在于,包括:
9.一種電子設備,其特征在于,包括存儲器和處理器,所述存儲器存儲有可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現權利要求1至7任一項所述方法中的步驟。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至7任一項所述方法中的步驟。
11.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序在被處理器執行時實現權利要求1至7任一項所述方法中的步驟。