本發明屬于自然語言處理、多模態,尤其涉及一種聯合蘊含推理結構生成的可解釋性多模態多跳推理問答方法。
背景技術:
1、多模態多跳問題回答(mmqa)是一項復雜的任務,涉及到多個輸入來源,如文本、表格和圖像。它需要通過不同的模態進行推理,以生成準確和完整的答案。目前,大多數多模態多跳問題回答方法采用將多模態信息轉化為文本描述的方法,即通過將圖像通過圖像標題模型進行轉換,將表格通過自然語言描述進行轉換,然后使用大規模語言模型(llms)生成答案。這種方法的顯著優點是可以利用llms強大的語言理解和生成能力,以及文本描述的可解釋性。然而,這種方法不加區分地將所有多模態信息轉化為文本描述,必然會產生大量的冗余信息。
2、多模態多跳問答是基于多模態問答的任務,但它需要進行多跳推理才能生成最終答案。vqa首次提出了從純視覺輸入中回答問題的方法。后來,webqa和multimodalqa要求整合自由文本、圖像或半結構化表格等信息,以回答多跳推理問題。為了解決從多個信息源中找到答案的挑戰,murag設計了一個多模態transformer架構,接受文本和圖像特征輸入,并構建了一個百萬規模的數據集來預訓練模型。使用圖像字幕模型和表格線性化方法將多模態信息統一轉化為文本,提出了一種新的多模態問答范式,但在轉換過程中沒有限制,導致了大量的信息冗余,影響了模型的性能。此外,目前有許多使用大型模型進行多模態問答的研究。訓練圖像字幕模型為gpt-3生成圖像字幕,以理解圖像并生成回答;使用多模態大模型llava生成更準確的圖像字幕,然后根據每個模態構建不同的上下文學習模板,使得gpt-3能夠充分發揮其在這個任務中的強大性能。這兩種方法都需要為大型語言模型生成圖像字幕以理解問題,但在圖像字幕生成階段沒有條件限制;或者在直接基于多跳問題生成圖像字幕時,問題中包含了單個圖像無法回答的信息,導致圖像字幕生成階段出現錯誤。
技術實現思路
1、為解決上述技術問題,本發明提出了一種聯合蘊含推理結構生成的可解釋性多模態多跳推理問答方法,以解決上述現有技術存在的問題。
2、為實現上述目的,本發明提供了一種聯合蘊含推理結構生成的可解釋性多模態多跳推理問答方法,包括:
3、對多步問題進行分解,基于分解結果構建事實庫;
4、基于所述事實庫獲得前提語料庫,根據預定義符號、所述前提語料庫與原始問題生成蘊含樹結構;
5、將所述蘊含樹結構進行分割,獲得多個子樹的集合,根據所述多個子樹的集合的長度對所述蘊含樹結構進行細化,獲得完整蘊含樹;
6、構建專家混合模型,基于所述完整蘊含樹與所述專家混合模型獲得整體特征,基于整體特征與迭代反饋機制對所述完整蘊含樹進行優化,獲得更新的事實集合與答案。
7、可選的,構建事實庫的過程包括:
8、基于多步問題檢索獲得多模態證據集合,基于所述多模態證據集合對所述多步問題進行分解,生成多個子問題與對應證據,基于對應證據的模式對子問題與對應證據進行轉換并存儲,獲得事實庫。
9、可選的,生成蘊含樹結構的過程包括:
10、基于所述事實庫獲得前提語料庫,根據預定義符號對所述前提語料庫與多個子問題進行符號表示,將符號表示輸入至自然語言處理模型中,生成蘊含樹結構。
11、可選的,根據所述多個子樹的集合的長度對所述蘊含樹結構進行細化,獲得完整蘊含樹的過程包括:
12、若集合的長度大于1,則將集合中的子樹分割為節點集合,遍歷節點集合中的節點,若節點在所述事實庫中存在對應信息,則采用對應信息進行替換,若不存在對應信息,則基于節點集合中的其他節點生成中間節點的內容,直至集合的長度等于1,獲得完整蘊含樹。
13、可選的,獲得多個子樹集合的過程包括:
14、從構建的蘊含樹結構的根節點開始,獲取由非葉子節點nr及其子節點組成的子樹,并添加到集合中,獲得子樹集合,直至遍歷所有節點,獲得多個子樹集合。
15、可選的,基于所述完整蘊含樹與所述專家混合模型獲得事實索引與問題答案的過程包括:
16、基于所述完整蘊含樹提取每個事實的特征,獲得事實特征集合;將所述蘊含樹轉換為自然語言描述;基于所述事實特征集合與所述自然語言描述獲得最終特征;將所述最終特征輸入至所述專家混合模型,獲得整體特征。
17、可選的,所述專家混合模型包括兩個門控網絡、兩個任務特定專家網絡和一個共享專家網絡;
18、將所述最終特征輸入至所述專家混合模型,通過門控網絡在給定的若干個可訓練專家中選擇事實檢索生成任務專家與問答任務專家,所述最終特征分別進入事實檢索生成任務專家與問答任務專家對應的任務特定專家網絡、共享專家網絡,將輸出與所述最終特征相加,獲得整體特征。
19、可選的,將事實檢索生成解碼器、所述事實特征集合和所述最終特征進行交叉注意力操作,將問題回答解碼器與所述自然語言描述進行交叉注意力操作,直至交叉熵損失滿足要求,獲得事實索引與最終答案。
20、可選的,對所述完整蘊含樹進行優化的過程包括:
21、將事實索引替換為事實庫中對應的事實,將替換得到的事實集合與所述最終答案連接,輸入至自然語言處理模型中,對所述完整蘊含樹進行優化。
22、與現有技術相比,本發明具有如下優點和技術效果:
23、本發明對多步問題進行分解,基于分解結果構建事實庫;基于所述事實庫獲得前提語料庫,根據預定義符號、所述前提語料庫與原始問題生成蘊含樹結構;將所述蘊含樹結構進行分割,獲得多個子樹集合,根據所述多個子樹集合的長度對所述蘊含樹結構進行細化,獲得完整蘊含樹;構建專家混合模型,基于所述完整蘊含樹與所述專家混合模型獲得整體特征,基于整體特征與迭代反饋機制對所述完整蘊含樹進行優化,獲得更新的事實集合與答案。
24、本發明采用蘊含推理結構生成與答案生成任務聯合學習;采用迭代反饋機制,指導大模型生成更為合理的蘊含樹,反之更為合理的蘊含樹,提供更為合理的事實,幫助事實證據抽取與答案生成聯合任務。利用問題分解策略,借助大模型,把多模態信息轉化為文本模態信息,構造從證據到答案的可解釋性推理過程。
1.一種聯合蘊含推理結構生成的可解釋性多模態多跳推理問答方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的聯合蘊含推理結構生成的可解釋性多模態多跳推理問答方法,其特征在于,
3.根據權利要求2所述的聯合蘊含推理結構生成的可解釋性多模態多跳推理問答方法,其特征在于,
4.根據權利要求1所述的聯合蘊含推理結構生成的可解釋性多模態多跳推理問答方法,其特征在于,
5.根據權利要求1所述的聯合蘊含推理結構生成的可解釋性多模態多跳推理問答方法,其特征在于,
6.根據權利要求1所述的聯合蘊含推理結構生成的可解釋性多模態多跳推理問答方法,其特征在于,
7.根據權利要求6所述的聯合蘊含推理結構生成的可解釋性多模態多跳推理問答方法,其特征在于,
8.根據權利要求6所述的聯合蘊含推理結構生成的可解釋性多模態多跳推理問答方法,其特征在于,
9.根據權利要求8所述的聯合蘊含推理結構生成的可解釋性多模態多跳推理問答方法,其特征在于,