本申請涉及數據查詢,特別是涉及一種基于星座數據模型的模型訓練方法以及數據查詢方法。
背景技術:
1、隨著大數據時代的到來,數據倉庫作為數據存儲和分析的核心工具,其重要性日益凸顯。數據倉庫中的多維數據模型(如星座數據模型)支持復雜的業務分析和決策制定,其中包括多維操作字段(如同比、同期增長率等)的計算,這些字段通常涉及mdx(多維表達式)或用戶自定義的計算公式,對于用戶而言,準確表達這些查詢需求具有一定的挑戰性。
2、現有的自然語言處理技術,特別是借助大語言模型進行的數據查詢轉換方案,雖然能夠在一定程度上將用戶的自然語言查詢問句轉換為數據庫查詢語句,但在處理涉及多維操作字段的復雜查詢時顯得力不從心。主要原因在于用戶對于多維操作字段的表述方式多樣且靈活,而現有模型缺乏針對特定數據倉庫多維數據模型的深入理解和訓練,難以準確捕捉并解析這些復雜查詢的意圖,導致生成的查詢語句不準確,進而影響查詢效果。
技術實現思路
1、基于此,本申請的目的在于,提供一種基于星座數據模型的模型訓練方法,顯著提升了數據查詢大模型對復雜多維查詢的理解識別能力,能夠支持對特定的數據倉庫的各種復雜多維查詢。
2、本申請實施例提供的基于星座數據模型的模型訓練方法,包括以下步驟:
3、獲取目標數據倉庫對應的星座數據模型中的若干目標多維操作字段;所述星座數據模型記錄若干數據表、各個數據表包含的基礎字段以及至少部分基礎字段綁定的多維操作字段;
4、根據所述若干目標多維操作字段構建若干第一自然查詢語句;其中,所述第一自然查詢語句包含至少一個目標多維操作字段;
5、針對每個所述第一自然查詢語句,生成若干具有相同查詢意圖但表述形式不同的第二自然查詢語句;
6、根據各個所述第二自然查詢語句、預設的第一任務執行文本以及所述第二自然查詢語句對應的查詢標簽信息,構建訓練數據集;其中,所述查詢標簽信息包括所述第二自然查詢語句對應的第一自然查詢語句中包含的所述目標多維操作字段;所述第一任務執行文本用于提示預訓練文本模型輸出符合所述第二自然查詢語句的查詢意圖的查詢信息,所述查詢信息包括查詢字段;
7、將所述訓練數據集輸入預訓練文本模型進行訓練;將訓練完成的模型確定為所述目標數據倉庫對應的數據查詢大模型。
8、本申請實施例還提供了基于本申請實施例任一項模型訓練方法得到的數據查詢大模型的數據查詢方法,包括以下步驟:
9、獲取用戶在目標數據倉庫的查詢界面輸入的自然查詢語句;
10、獲取所述目標數據倉庫對應的星座數據模型;根據所述自然查詢語句從所述星座數據模型中確定若干相關的基礎字段為候選基礎字段;若所述候選基礎字段綁定有多維操作字段,將綁定的多維操作字段確定為候選多維操作字段;
11、根據所述候選基礎字段、所述候選多維操作字段、所述自然查詢語句以及預設的查詢任務執行文本,構建任務處理指令;其中,所述查詢任務執行文本用于提示數據查詢大模型輸出符合所述自然查詢語句的查詢意圖的查詢信息,所述查詢信息根據所述候選基礎字段以及所述候選多維操作字段確定;
12、將所述任務處理指令輸入至所述目標數據倉庫對應的數據查詢大模型,獲得輸出的查詢信息;
13、根據所述查詢信息以及所述星座數據模型,從所述目標數據倉庫中查詢得到對應的業務數據。
14、本申請實施例提出的基于星座數據模型的模型訓練方法,通過集成化、系統化的方法深度整合目標數據倉庫的星座數據模型特性,顯著提升了數據查詢大模型在處理復雜多維查詢任務時的理解識別能力以及綜合能力。該方法的核心在于,充分利用了目標數據倉庫的星座數據模型,特別是其中的多維操作字段,構建了一個高度定制化的訓練數據集。這一數據集不僅反映了數據倉庫的具體業務邏輯和查詢需求,還通過多樣化的查詢語句構建,模擬了用戶在實際查詢過程中的各種表述習慣。通過訓練數據集的訓練,預訓練文本模型得以深入學習和理解多維操作字段的復雜性和多樣性,從而能夠更準確地捕捉用戶的查詢意圖。訓練完成后得到的數據查詢大模型,能夠生成更加精確、符合用戶需求的查詢信息,特別是對于涉及復雜計算和自定義公式的多維操作字段查詢,其準確性和效率得到了顯著提升。因此,本申請實施例的技術方案不僅在技術層面實現了對現有技術的突破和創新,更在實際應用中帶來了顯著的效益。為用戶提供了更加便捷、高效的數據查詢體驗,同時也為企業和組織的數據分析和決策制定提供了強有力的支持。
15、為了更好的理解和實施,下面結合附圖詳細說明本申請。
1.一種基于星座數據模型的模型訓練方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于星座數據模型的模型訓練方法,其特征在于,所述獲取目標數據倉庫對應的星座數據模型中的若干目標多維操作字段步驟之前,包括步驟:
3.根據權利要求1所述的基于星座數據模型的模型訓練方法,其特征在于,所述根據所述若干目標多維操作字段構建若干第一自然查詢語句的步驟,包括:
4.根據權利要求3所述的基于星座數據模型的模型訓練方法,其特征在于,所述自然查詢語句模板包括待填寫基礎字段以及多維操作字段的第一自然查詢語句模板;
5.根據權利要求1-4任一項所述的基于星座數據模型的模型訓練方法,其特征在于,所述針對每個所述第一自然查詢語句,生成若干具有相同查詢意圖但表述形式不同的第二自然查詢語句的步驟,包括:
6.根據權利要求5所述的基于星座數據模型的模型訓練方法,其特征在于,所述第二任務執行文本還用于提示智能語言模型從所述第一自然查詢語句的候選多維操作字段中確定所述第一自然查詢語句中的目標多維操作字段,并且生成的與所述第一自然查詢語句具有相同查詢意圖的第二自然查詢語句不包含所述目標多維操作字段;
7.根據權利要求5所述的基于星座數據模型的模型訓練方法,其特征在于,至少部分所述第一自然查詢語句包含查詢條件信息,所述查詢條件信息用于限定所述第一自然查詢語句查詢的數據需要滿足的條件;所述第二自然查詢語句的查詢標簽信息還包括所述第二自然查詢語句對應的第一自然查詢語句中的查詢條件信息;所述第一任務執行文本還用于提示預訓練文本模型輸出的所述查詢信息包括查詢條件信息。
8.根據權利要求1所述的基于星座數據模型的模型訓練方法,其特征在于,所述方法還包括步驟:
9.根據權利要求1所述的基于星座數據模型的模型訓練方法,其特征在于,所述獲取目標數據倉庫對應的星座數據模型中的若干目標多維操作字段的步驟之前,包括步驟:
10.一種基于權利要求1-9任一項方法得到的數據查詢大模型的數據查詢方法,其特征在于,包括以下步驟: