本技術屬于信息交互領域,特別涉及一種人機交互方法、裝置、系統、設備、介質和產品。
背景技術:
1、相關技術中,文本和語音上的跨模態人機交互方案是指在文本模態和語音模態上均實現人機對話的方案,然而,相關技術的跨模態人機交互方案,是在僅考慮文本模態的特征表示和語音模態的特征表示的前提下實現的,相關技術的跨模態人機交互方案忽略了不同模態之間的內在聯系,因此,采用相關技術的跨模態人機交互方案得出的對話回復信息的準確性較低。
技術實現思路
1、本技術實施例提供一種人機交互方法、裝置、系統、設備、介質和產品。
2、本技術實施例提供一種人機交互方法,所述方法包括:
3、使用預先構建的語音對話數據集對語言模型進行繼續訓練,得到能夠針對文本輸入信息和語音輸入信息生成回復信息的多模態模型;
4、根據跨模態對齊數據集對所述多模態模型的參數進行調整,得到參數調整后的多模態模型,所述跨模態對齊數據集包括對齊的文本數據和語音數據;
5、根據所述參數調整后的多模態模型,處理用戶輸入信息,得到所述用戶輸入信息對應的回復信息。
6、在一些實施例中,所述使用預先構建的語音對話數據集對語言模型進行繼續訓練,得到能夠針對文本輸入信息和語音輸入信息生成回復信息的多模態模型,包括:根據所述預先構建的語音對話數據集確定語音表示的詞嵌入矩陣;語音表示為音頻模態的詞表;獲取所述語言模型的詞嵌入矩陣;根據所述語言模型的詞嵌入矩陣和所述語音表示的詞嵌入矩陣,調整所述語言模型的參數,得到所述多模態模型。
7、可以看出,本技術實施例中,可以根據預先構建的語音對話數據集,較為準確地確定語音表示的詞嵌入矩陣,從而,可以在考慮語言模型的詞嵌入矩陣和語音表示的詞嵌入矩陣的基礎上,合理地調整語言模型的參數;本領域技術人員可知,語言模型是用于在文本模態上生成回復信息的模型,而語音表示的詞嵌入矩陣可以反映語音模態的數據,因此,本技術實施例可以在同時考慮語音模態和文本模態的數據的基礎上,調整語言模型的參數,從而有利于得到能夠實現跨模態人機交互的多模態模型。
8、在一些實施例中,所述根據所述預先構建的語音對話數據集確定語音表示的詞嵌入矩陣,包括:根據所述語音對話數據集,確定所述音頻模態的詞表的大小;根據所述音頻模態的詞表的大小、以及所述預設的詞嵌入的維度,構建所述語音表示的詞嵌入矩陣;所述獲取語言模型的詞嵌入矩陣,包括:根據所述語言模型的詞表的大小、以及預設的詞嵌入的維度,構建所述語言模型的詞嵌入矩陣。
9、可以看出,本技術實施例中,可以根據語音對話數據集,合理地確定音頻模態的詞表的大小,從而可以根據音頻模態的詞表的大小、以及預設的詞嵌入的維度,較為合理地構建語音表示的詞嵌入矩陣;并且,還可以語言模型的詞表的大小、以及預設的詞嵌入的維度,較為合理地構建語言模型的詞嵌入矩陣。
10、在一些實施例中,所述根據所述語言模型的詞嵌入矩陣和所述語音表示的詞嵌入矩陣,調整所述語言模型的參數,得到所述多模態模型,包括:根據所述語言模型的詞嵌入矩陣和所述語音表示的詞嵌入矩陣,并使用低秩自適應(low-rank?adaptation,lora)方法調整所述語言模型的參數,得到所述多模態模型。
11、可以看出,通過使用lora方法調整語言模型的參數,可以降低語言模型所需調整的參數的參數量。
12、在一些實施例中,所述根據所述參數調整后的多模態模型,處理用戶輸入信息,得到所述用戶輸入信息對應的回復信息,包括:根據歷史對話信息和所述歷史對話信息對應的用戶評價信息,訓練所述參數調整后的多模態模型對應的獎勵模型;所述歷史對話信息為人機交互形式的對話信息,所述獎勵模型用于反映所述參數調整后的多模態模型輸出的回復信息的質量;根據所述獎勵模型,對所述參數調整后的多模態模型進行強化學習訓練,得到強化學習模型;利用所述強化學習模型處理用戶輸入信息,得到所述用戶輸入信息對應的回復信息。
13、可以看出,本技術實施例中,可以根據歷史對話信息和所述歷史對話信息對應的用戶評價信息,更加精準地對訓練參數調整后的多模態模型對應的獎勵模型進行訓練,進而,可以根據獎勵模型,對參數調整后的多模態模型進行針對性地強化學習訓練,得到能夠生成更加符合用戶需求的回復信息的強化學習模型;進而,利用強化學習模型處理用戶輸入信息,可以得到更為精準的回復信息。
14、在一些實施例中,所述利用所述強化學習模型處理用戶輸入信息,得到所述用戶輸入信息對應的回復信息,包括:獲取所述用戶輸入信息對應的業務資源以及所述用戶輸入信息對應的本輪對話的歷史記錄;將所述用戶輸入信息、所述業務資源和所述歷史記錄輸入至所述強化學習模型中,利用所述強化學習模型對所述用戶輸入信息、所述業務資源和所述歷史記錄進行處理,得到所述用戶輸入信息對應的回復信息。
15、可以看出,本技術實施例可以根據用戶輸入信息對應的業務資源以及用戶輸入信息對應的本輪對話的歷史記錄,更加準確地生成用戶輸入信息對應的回復信息。
16、在一些實施例中,所述根據所述參數調整后的多模態模型,處理用戶輸入信息,得到所述用戶輸入信息對應的回復信息,包括:獲取所述用戶輸入信息對應的業務資源以及所述用戶輸入信息對應的本輪對話的歷史記錄;將所述用戶輸入信息、所述業務資源和所述歷史記錄輸入至所述參數調整后的多模態模型中,利用所述參數調整后的多模態模型對所述用戶輸入信息、所述業務資源和所述歷史記錄進行處理,得到所述用戶輸入信息對應的回復信息。
17、可以看出,本技術實施例可以根據用戶輸入信息對應的業務資源以及用戶輸入信息對應的本輪對話的歷史記錄,更加準確地生成用戶輸入信息對應的回復信息。
18、在一些實施例中,所述獲取所述用戶輸入信息對應的業務資源,包括:獲取用戶輸入信息對應的表示向量;根據所述用戶輸入信息對應的表示向量、以及預先建立的業務資料與表示向量的對應關系,確定與所述用戶輸入信息對應的表示向量匹配的目標業務資料;將所述目標業務資料確定為所述用戶輸入信息對應的業務資源。
19、可以看出,本技術實施例可以根據用戶輸入信息對應的表示向量、以及預先建立的業務資料與表示向量的對應關系,較為準確地確定目標業務資料,即,可以較為準確地確定用戶輸入信息對應的業務資源。
20、本技術實施例還提供了一種人機交互裝置,所述裝置包括:
21、第一處理模塊,用于使用預先構建的語音對話數據集對語言模型進行繼續訓練,得到能夠針對文本輸入信息和語音輸入信息生成回復信息的多模態模型;
22、第二處理模塊,用于根據跨模態對齊數據集對所述多模態模型的參數進行調整,得到參數調整后的多模態模型,所述跨模態對齊數據集包括對齊的文本數據和語音數據;
23、第三處理模塊,用于根據所述參數調整后的多模態模型,處理用戶輸入信息,得到所述用戶輸入信息對應的回復信息。
24、本技術實施例還提供了一種電子設備,所述電子設備包括處理器和用于存儲能夠在處理器上運行的計算機程序的存儲器;其中,所述處理器用于運行所述計算機程序以執行上述任意一種人機交互方法。
25、本技術實施例還提供了一種計算機存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現上述任意一種人機交互方法。
26、本技術實施例還提供了一種計算機程序產品,包括計算機程序,所述計算機程序在被處理器執行時實現上述任意一種人機交互方法。
27、可以看出,本技術實施例可以根據對齊的文本數據和語音數據,對多模態模型的參數進行調整,得到參數調整后的多模態模型,對齊的文本數據和語音數據可以反映文本模態與語音模態之間的內在聯系,因此,本技術實施例可以在考慮文本模態與語音模態之間的內在聯系的基礎上,得到參數調整后的多模態模型;進而采用參數調整后的多模態模型得出的回復信息的準確性較高。