本發明涉及大數據,尤其涉及一種數據管理方法、裝置、系統、存儲介質、程序產品和設備。
背景技術:
1、在人工智能技術中,廣泛使用深度學習對模型進行訓練,訓練時需要大量的結構化數據和非結構化數據,這些數據如何存儲和管理,以及數據的合規性都至關重要。針對訓練數據的存儲和管理,業界廣泛使用數據湖技術。數據湖是集大數據存儲、處理、分析的一種基礎設施,可以對結構化、非結構化等各種數據進行全量存儲、多模式處理與全生命周期管理。針對數據的合規性,數據是人工智能的基礎,數據的合規和準確直接影響模型最終效果。業界目前的做法是在訓練前,通過自動或者人工等方式對數據進行預處理和校驗,例如對于非結構圖片數據,如果缺少標注數據或者標注數據錯誤,都需要重新生成或者修復標注數據。
2、當前iceberg/hudi/delta等主流的開源數據湖產品在數據入湖時,數據的原始內容也一起存儲在數據湖中,數據類型不同,數據的原始內容也有所差異,圖片、音頻、視頻等非結構化數據會占用較大空間,會嚴重影響數據查詢效率。
技術實現思路
1、為解決現有存在的技術問題,本發明實施例提供一種數據管理方法、裝置、系統、存儲介質、程序產品和設備。
2、為達到上述目的,本發明實施例的技術方案是這樣實現的:
3、第一方面,本發明實施例提供一種數據管理方法,應用于第一服務器;所述方法包括:
4、獲取目標數據對應的第一配置信息,所述第一配置信息至少包括所述目標數據的第一地址信息和數據類型;
5、在基于所述數據類型確定所述目標數據為非結構化數據的情況下,根據所述第一地址信息對所述目標數據進行對象存儲,獲得所述目標數據基于對象存儲的第一索引信息,以及將所述目標數據的第一相關信息記錄在數據湖關聯的數據表中;所述第一相關信息至少包括所述第一地址信息、所述目標數據的第一標識信息和所述第一索引信息;
6、根據所述數據表確定所述第一配置信息對應的第一處理結果。
7、第二方面,本發明實施例還提供一種數據管理方法,應用于第二服務器;所述方法包括:
8、獲取目標數據在數據湖中關聯的數據表的第二配置信息,所述第二配置信息至少包括所述數據表的第二標識信息;
9、根據所述第二標識信息確定所述目標數據的數據類型,在基于所述數據類型確定所述目標數據為非結構化數據的情況下,獲取所述目標數據在所述數據表中的第一索引信息,根據所述第一索引信息獲取所述目標數據,根據所述目標數據確定所述第二配置信息對應的第二處理結果;其中,所述數據表中記錄有至少一個數據各自對應的第一相關信息,所述第一相關信息至少包括數據的地址信息、標識信息以及基于對象存儲的索引信息。
10、第三方面,本發明實施例還提供一種數據管理方法,應用于數據管理平臺;所述方法包括:
11、基于第一用戶輸入獲取第一配置信息,向第一服務器發送所述第一配置信息,所述第一配置信息至少包括目標數據的第一地址信息和數據類型;
12、接收所述第一服務器發送的第一處理結果,所述第一處理結果中包括所述目標數據在數據湖中關聯的數據表;其中,在所述目標數據為非結構化數據的情況下,所述數據表中記錄有所述目標數據的第一相關信息,所述第一相關信息至少包括所述第一地址信息、所述目標數據的第一標識信息和所述目標數據基于對象存儲獲得的第一索引信息;和/或,
13、基于第二用戶輸入獲取第二配置信息,向第二服務器發送所述第二配置信息,所述第二配置信息至少包括所述數據表的第二標識信息;
14、接收所述第二服務器發送的第二處理結果;其中,在所述目標數據為非結構化數據的情況下,所述第二處理結果中至少包括所述目標數據,所述目標數據根據所述第一索引信息獲得。
15、第四方面,本發明實施例還提供一種數據管理裝置,包括第一獲取單元和第一處理單元;其中,
16、所述第一獲取單元,用于獲取目標數據對應的第一配置信息,所述第一配置信息至少包括所述目標數據的第一地址信息和數據類型;
17、所述第一處理單元,用于在基于所述數據類型確定所述目標數據為非結構化數據的情況下,根據所述第一地址信息對所述目標數據進行對象存儲,獲得所述目標數據在所述基于對象存儲的第一索引信息,以及將所述目標數據的第一相關信息記錄在數據湖關聯的數據表中;所述第一相關信息至少包括所述第一地址信息、所述目標數據的第一標識信息和所述第一索引信息;
18、所述第一處理單元,還用于根據所述數據表確定所述第一配置信息對應的第一處理結果。
19、第五方面,本發明實施例還提供一種數據管理裝置,包括第二獲取單元和第二處理單元;其中,
20、所述第二獲取單元,用于獲取目標數據在數據湖中關聯的數據表的第二配置信息,所述第二配置信息至少包括所述數據表的第二標識信息;
21、所述第二處理單元,用于根據所述第二標識信息確定所述目標數據的數據類型,在基于所述數據類型確定所述目標數據為非結構化數據的情況下,獲取所述目標數據在所述數據表中的第一索引信息,根據所述第一索引信息獲取所述目標數據,根據所述目標數據確定所述第二配置信息對應的第二處理結果;其中,所述數據表中記錄有至少一個數據各自對應的第一相關信息,所述第一相關信息至少包括數據的地址信息、標識信息以及基于對象存儲的索引信息。
22、第六方面,本發明實施例還提供一種數據管理裝置,包括輸入單元和通信單元;其中,
23、所述輸入單元,用于基于第一用戶輸入獲取第一配置信息;
24、所述通信單元,用于向第一服務器發送所述第一配置信息,所述第一配置信息至少包括目標數據的第一地址信息和數據類型;接收所述第一服務器發送的第一處理結果,所述第一處理結果中包括所述目標數據在數據湖中關聯的數據表;其中,在所述目標數據為非結構化數據的情況下,所述數據表中記錄有所述目標數據的第一相關信息,所述第一相關信息至少包括所述第一地址信息、所述目標數據的第一標識信息和所述目標數據基于對象存儲獲得的第一索引信息;和/或,
25、所述輸入單元,用于基于第二用戶輸入獲取第二配置信息;
26、所述通信單元,用于向第二服務器發送所述第二配置信息,所述第二配置信息至少包括所述數據表的第二標識信息;接收所述第二服務器發送的第二處理結果;其中,在所述目標數據為非結構化數據的情況下,所述第二處理結果中至少包括所述目標數據,所述目標數據根據所述第一索引信息獲得。
27、第七方面,本發明實施例還提供一種數據管理系統,所述系統包括數據管理平臺、第一服務器和第二服務器;其中,所述第一服務器用于實現前述第一方面所述方法的步驟;所述第二服務器用于實現前述第二方面所述方法的步驟;所述數據管理方法用于實現前述第三方面所述方法的步驟。
28、第八方面,本發明實施例還提供一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現前述第一方面、第二方面或第三方面所述方法的步驟。
29、第九發明,本發明實施例還提供一種計算機程序產品,包括計算機程序,所述計算機程序在被處理器執行時實現前述第一方面、第二方面或第三方面所述方法的步驟。
30、第十發明,本發明實施例還提供一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現前述第一方面、第二方面或第三方面所述方法的步驟。
31、本發明實施例的數據管理方法、裝置、系統、存儲介質、程序產品和設備,第一服務器可在確定待入湖的目標數據為非結構化數據的情況下,對目標數據進行對象存儲生成對應的第一索引信息,并將所述第一索引信息連同目標數據的第一地址信息和第一標識信息存儲在數據湖關聯的數據表中,能夠解決數據湖在存儲非結構化數據時內容列過大、檢索緩慢的問題。