本申請(qǐng)涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種基于多模態(tài)大模型的文檔生成方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、在金融領(lǐng)域中,營銷類場景的ppt都是基于ppt模板結(jié)構(gòu)的方法生成,用戶通過將ppt文案內(nèi)容結(jié)構(gòu)化,在特定字段,例如主標(biāo)題、副標(biāo)題、內(nèi)容、數(shù)據(jù)等,填入相應(yīng)的內(nèi)容,再通過字段的名稱和個(gè)數(shù)匹配相應(yīng)的ppt模板。
2、現(xiàn)有ppt生成方法雖然省去了用戶制作ppt的大部分過程,但是ppt的內(nèi)容都需要手動(dòng)輸入;且由于模板個(gè)數(shù)有限制,而ppt內(nèi)容的形式多種多樣,同時(shí)受限于ppt內(nèi)容的字?jǐn)?shù)、ppt內(nèi)容的形式,容易導(dǎo)致ppt模板和ppt內(nèi)容不匹配的問題,需要人為對(duì)ppt模板或ppt內(nèi)容進(jìn)行調(diào)整,使得ppt生成效率低下。
3、因此,如何提高演示文檔的生成效率成為目前亟待解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)?zhí)峁┝艘环N基于多模態(tài)大模型的文檔生成方法、裝置、設(shè)備及介質(zhì),旨在提高演示文檔的生成效率。
2、第一方面,本申請(qǐng)?zhí)峁┮环N基于多模態(tài)大模型的文檔生成方法,所述基于多模態(tài)大模型的文檔生成方法包括以下步驟:
3、基于多模態(tài)大模型,對(duì)輸入文本進(jìn)行大綱內(nèi)容提取,并對(duì)提取的大綱內(nèi)容進(jìn)行結(jié)構(gòu)化處理,輸出結(jié)構(gòu)化文本;
4、基于文本解析器,對(duì)所述結(jié)構(gòu)化文本進(jìn)行內(nèi)容解析,獲得所述結(jié)構(gòu)化文本對(duì)應(yīng)的文本屬性;
5、基于文檔生成模型,對(duì)所述結(jié)構(gòu)化文本以及所述結(jié)構(gòu)化文本對(duì)應(yīng)的文本屬性進(jìn)行自適應(yīng)元素匹配,生成目標(biāo)文檔。
6、第二方面,本申請(qǐng)還提供一種基于多模態(tài)大模型的文檔生成裝置,所述基于多模態(tài)大模型的文檔生成裝置包括:
7、結(jié)構(gòu)化文本輸出模塊,基于多模態(tài)大模型,對(duì)輸入文本進(jìn)行大綱內(nèi)容提取,并對(duì)提取的大綱內(nèi)容進(jìn)行結(jié)構(gòu)化處理,輸出結(jié)構(gòu)化文本;
8、文本屬性解析模塊,用于基于文本解析器,對(duì)所述結(jié)構(gòu)化文本進(jìn)行內(nèi)容解析,獲得所述結(jié)構(gòu)化文本對(duì)應(yīng)的文本屬性;
9、演示文稿生成模塊,用于基于文檔生成模型,對(duì)所述結(jié)構(gòu)化文本以及所述結(jié)構(gòu)化文本對(duì)應(yīng)的文本屬性進(jìn)行自適應(yīng)元素匹配,生成目標(biāo)文檔。
10、第三方面,本申請(qǐng)還提供一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括處理器、存儲(chǔ)器、以及存儲(chǔ)在所述存儲(chǔ)器上并可被所述處理器執(zhí)行的計(jì)算機(jī)程序,其中所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),實(shí)現(xiàn)如上述的基于多模態(tài)大模型的文檔生成方法的步驟。
11、第四方面,本申請(qǐng)還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,其中所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)如上述的基于多模態(tài)大模型的文檔生成方法的步驟。
12、本申請(qǐng)?zhí)峁┮环N基于多模態(tài)大模型的文檔生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),本申請(qǐng)方法包括基于多模態(tài)大模型,對(duì)輸入文本進(jìn)行大綱內(nèi)容提取,并對(duì)提取的大綱內(nèi)容進(jìn)行結(jié)構(gòu)化處理,輸出結(jié)構(gòu)化文本;基于文本解析器,對(duì)所述結(jié)構(gòu)化文本進(jìn)行內(nèi)容解析,獲得所述結(jié)構(gòu)化文本對(duì)應(yīng)的文本屬性;基于文檔生成模型,對(duì)所述結(jié)構(gòu)化文本以及所述結(jié)構(gòu)化文本對(duì)應(yīng)的文本屬性進(jìn)行自適應(yīng)元素匹配,生成目標(biāo)文檔。通過上述方式,本申請(qǐng)通過結(jié)合多模態(tài)大模型和文本解析器,實(shí)現(xiàn)了對(duì)輸入文本的自動(dòng)化大綱提取和結(jié)構(gòu)化處理,進(jìn)而文檔生成模型通過自適應(yīng)元素匹配技術(shù),將結(jié)構(gòu)化文本和其屬性智能匹配到最合適的演示文檔模板上,不僅減少了手動(dòng)調(diào)整模板和內(nèi)容的時(shí)間,還增加了演示文檔模板的多樣性,從而顯著提高了演示文檔的生成效率和成果質(zhì)量。
1.一種基于多模態(tài)大模型的文檔生成方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于多模態(tài)大模型的文檔生成方法,其特征在于,所述基于多模態(tài)大模型,對(duì)輸入文本進(jìn)行大綱內(nèi)容提取,并對(duì)提取的大綱內(nèi)容進(jìn)行結(jié)構(gòu)化處理,輸出結(jié)構(gòu)化文本,包括:
3.根據(jù)權(quán)利要求1所述的基于多模態(tài)大模型的文檔生成方法,其特征在于,所述基于多模態(tài)大模型,對(duì)輸入文本進(jìn)行大綱內(nèi)容提取,并對(duì)提取的大綱內(nèi)容進(jìn)行結(jié)構(gòu)化處理,輸出結(jié)構(gòu)化文本之前,還包括:
4.根據(jù)權(quán)利要求3所述的基于多模態(tài)大模型的文檔生成方法,其特征在于,所述基于第一數(shù)據(jù)集,對(duì)圖片分類模型進(jìn)行圖像單模態(tài)訓(xùn)練,直至所述圖片分類模型的損失值收斂,包括:
5.根據(jù)權(quán)利要求3所述的基于多模態(tài)大模型的文檔生成方法,其特征在于,所述基于第二數(shù)據(jù)集,對(duì)所述圖片分類模型和預(yù)訓(xùn)練的第一語言模型進(jìn)行圖像文本多模態(tài)訓(xùn)練,直至所述圖片分類模型和所述第一語言模型的損失值收斂,包括:
6.根據(jù)權(quán)利要求1所述的基于多模態(tài)大模型的文檔生成方法,其特征在于,所述基于文檔生成模型,對(duì)所述結(jié)構(gòu)化文本以及所述結(jié)構(gòu)化文本對(duì)應(yīng)的文本屬性進(jìn)行自適應(yīng)元素匹配,生成目標(biāo)文檔之前,還包括:
7.根據(jù)權(quán)利要求1所述的基于多模態(tài)大模型的文檔生成方法,其特征在于,所述輸入文本包括圖片文本、文字文本以及prompt文本中的一種或多種。
8.一種基于多模態(tài)大模型的文檔生成裝置,其特征在于,所述基于多模態(tài)大模型的文檔生成裝置包括:
9.一種計(jì)算機(jī)設(shè)備,其特征在于,所述計(jì)算機(jī)設(shè)備包括處理器、存儲(chǔ)器、以及存儲(chǔ)在所述存儲(chǔ)器上并可被所述處理器執(zhí)行的計(jì)算機(jī)程序,其中所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的基于多模態(tài)大模型的文檔生成方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,其中所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的基于多模態(tài)大模型的文檔生成方法的步驟。