本公開的各個方面涉及用于訓練語言模型的設備和方法。
背景技術:
1、近年來,語言模型(lm)的發展已是自然語言處理(nlp)中最重要的進步之一。在以語言建模為目標的大量自然語言語料庫上進行訓練后,lm已在各種nlp任務中表現出了令人印象深刻的性能。此外,最近的進展表明lm能夠進行零命中任務泛化,這意味著它們可以適應未見過的任務,而無需對這些任務進行任何特定的微調。以此方式,一個很有前景的方向是指令調優。通過微調lm以在不同任務中遵循指令,指令調優使得lm能夠在未接受過訓練的任務中表現出色。盡管指令調優方法很受歡迎,但大多數現有指令調優方法都集中在用于指令調優的眾包(crowd-sourced)人工任務或模型生成的任務上,而這些任務的數量或質量受到限制。由于在不同維度上擴展語言模型已顯示出有望突破零命中性能的界限,因此尋找高質量和可擴展的指令調優任務已變得越來越重要。
2、因此,允許對大型語言模型進行有效微調的方法是可取的。
技術實現思路
1、各種實施例涉及一種用于訓練語言模型的方法,其包括生成訓練數據以及使用所生成的訓練數據執行語言模型的指令調優(微調以遵循指令),其中訓練數據包括符號任務和自然語言任務以及針對符號任務和自然語言任務的目標輸出。
2、根據一個實施例,訓練數據包括訓練輸入,每個訓練輸入包括符號任務和執行符號任務的指令或者自然語言任務和執行自然語言任務的指令。
3、根據一個實施例,該方法包括確定針對自然語言任務的語言模型的輸出與針對自然語言任務的目標輸出之間的損失,并調適語言模型的參數以減少該損失。
4、根據一個實施例,該方法包括確定針對符號任務的語言模型的輸出與針對符號任務的目標輸出之間的損失,并調適語言模型的參數以減少該損失。
5、根據一個實施例,該語言模型包括神經網絡,并且該參數包括神經網絡權重。
6、根據一個實施例,至少一些符號任務中的每一個是數據庫查詢語言中的查詢。
7、根據一個實施例,該數據庫查詢語言是結構化查詢語言。
8、根據一個實施例,該方法包括使用訓練數據集訓練語言模型,該訓練數據集包括第一訓練數據元素并且包括第二訓練數據元素,每個第一訓練數據元素包括相應符號任務的規范和針對符號任務的目標輸出(用于損失計算),每個第二訓練數據元素包括相應自然語言任務的規范和針對自然語言任務的目標輸出(用于損失計算)。
9、根據一個實施例,該方法包括使用訓練數據集訓練語言模型,該訓練數據集包括訓練數據,每個訓練數據元素包括相應符號任務的規范、針對符號任務的目標輸出(如輸入中所展示)和自然語言任務來作為訓練輸入并且包括針對自然語言任務的目標輸出(用于損失計算)。
10、根據一個實施例,符號任務的規范包括數據庫表,并且符號任務是數據庫表的查詢。
11、根據一個實施例,語言模型是大型語言模型。
12、語言模型是預先訓練語言模型,并且該方法包括使用所生成的訓練數據對預先訓練語言模型進行微調(例如,用于零命中泛化)。
13、根據一個實施例,提供一種數據處理系統,其被配置為執行如上述實施例中任一個所述的方法。
14、根據一個實施例,提供一種包括程序指令的計算機程序元件,這些程序指令在被一個或多個處理器執行時促使一個或多個處理器執行如上述實施例中任一個所述的方法。
15、根據一個實施例,提供一種包括程序指令的計算機可讀介質,這些程序指令在被一個或多個處理器執行時促使一個或多個處理器執行如上述實施例中任一個所述的方法。
1.一種用于訓練語言模型的方法,包括:
2.根據權利要求1所述的方法,其中所述訓練數據包括訓練輸入,每個訓練輸入包括符號任務和執行所述符號任務的指令或者自然語言任務和執行所述自然語言任務的指令。
3.根據權利要求1或2所述的方法,其包括確定針對所述自然語言任務的所述語言模型的輸出與針對所述自然語言任務的所述目標輸出之間的損失,并調適所述語言模型的參數以減少所述損失。
4.根據權利要求1至3中任一項所述的方法,其包括確定針對所述符號任務的所述語言模型的輸出與針對所述符號任務的所述目標輸出之間的損失,并調適所述語言模型的參數以減少所述損失。
5.根據權利要求4所述的方法,其中所述語言模型包括神經網絡,并且所述參數包括神經網絡權重。
6.根據權利要求1至5中任一項所述的方法,其中至少一些所述符號任務中的每一個是數據庫查詢語言中的查詢。
7.根據權利要求6所述的方法,其中所述數據庫查詢語言是結構化查詢語言。
8.根據權利要求1至7中任一項所述的方法,其包括使用訓練數據集訓練所述語言模型,所述訓練數據集包括第一訓練數據元素并且包括第二訓練數據元素,每個第一訓練數據元素包括相應符號任務的規范和針對所述符號任務的目標輸出,每個第二訓練數據元素包括相應自然語言任務的規范和針對所述自然語言任務的目標輸出。
9.根據權利要求1至7中任一項所述的方法,其包括使用訓練數據集訓練所述語言模型,所述訓練數據集包括訓練數據,每個訓練數據元素包括相應符號任務的規范、針對所述符號任務的目標輸出和自然語言任務來作為訓練輸入并且包括針對所述自然語言任務的目標輸出。
10.根據權利要求8或9所述的方法,其中所述符號任務的所述規范包括數據庫表,并且所述符號任務是所述數據庫表的查詢。
11.根據權利要求1至10中任一項所述的方法,其中所述語言模型是大型語言模型。
12.根據權利要求1至11中任一項所述的方法,其中所述語言模型是預先訓練語言模型,并且所述方法包括使用所生成的訓練數據對所述預先訓練語言模型進行微調。
13.一種數據處理系統,其被配置為執行如權利要求1至12中任一項所述的方法。
14.一種計算機程序元件,其包括程序指令,所述程序指令在被一個或多個處理器執行時促使所述一個或多個處理器執行如權利要求1至12中任一項所述的方法。
15.一種計算機可讀介質,其包括程序指令,所述程序指令在被一個或多個處理器執行時促使所述一個或多個處理器執行如權利要求1至12中任一項所述的方法。