本公開涉及計算機和人工智能領域,尤其涉及一種視覺問答方法、裝置、設備、介質及產品。
背景技術:
1、推理是人類智能的基本要素,也是人工智能中的重大挑戰。視覺問答是一項典型且重要的多模態推理任務。
2、在相關技術中,推理模型通常只提供答案,而不提供其推理的解釋,這大大限制了模型的適用性,尤其是在安全敏感的情況下,例如在醫療保健、交通和金融等領域中,需要對模型推理的合理性和準確性進行驗證,若缺乏對其推理過程的解釋,則會導致模型的透明度不足,以至于用戶的信任程度不高,限制了模型的應用場景。
技術實現思路
1、本申請本公開提供一種視覺問答方法、裝置、設備、介質及產品,以至少解決相關技術中缺乏對推理任務的推理過程解釋而導致模型的透明度不高、用戶信任度不高的問題。本公開的技術方案如下:
2、根據本公開的第一方面,提供一種視覺問答方法,所述視覺問答方法包括:獲取目標圖像以及與所述目標圖像相關的目標提問數據;對所述目標提問數據進行解析,得到問題分析程序,其中,所述問題分析程序用于基于所述目標圖像對所述目標提問數據進行分析;基于所述目標圖像,執行所述問題分析程序,得到針對所述目標提問數據的預測答案以及所述問題分析程序的執行過程數據;基于所述執行過程數據,得到對所述預測答案的多模態預測解釋,其中,所述多模態預測解釋包含由自然語言形成的文本信息以及所述文本信息中涉及的視覺目標在所述目標圖像中的定位信息。
3、可選地,通過以下方式得到所述問題分析程序:基于預設的程序提示,對所述目標提問數據進行解析,得到問題分析程序,其中,所述問題分析程序具有與所述預設的程序提示相同的格式,其中,所述預設的程序提示包括多個程序提示示例,所述程序提示示例展示問題與程序之間的對應關系。
4、可選地,通過以下方式得到所述預測答案和所述執行過程數據:對所述目標圖像進行目標檢測,確定執行所述問題分析程序所需的視覺目標在所述目標圖像中的標記信息;基于所述標記信息,執行所述問題分析程序,得到所述預測答案和所述執行過程數據。
5、可選地,所述執行過程數據以文本形式表達,所述執行過程數據中不包含所述問題分析程序中的視覺框變量的值。
6、可選地,通過以下方式得到所述多模態預測解釋:基于預設的解釋提示,對所述執行過程數據進行分析,得到文本解釋數據,其中,所述文本解釋數據具有與所述預設的解釋提示相同的格式;基于所述文本解釋數據以及與所述文本解釋數據相關的視覺目標,得到所述多模態預測解釋,其中,所述預設的解釋提示包括多個解釋提示示例,所述解釋提示示例展示程序執行過程與標準自然語言解釋之間的對應關系,并且包含表示問題分析程序中的視覺框變量的標記。
7、可選地,所述文本解釋數據包含對所述目標圖像進行目標檢測得到的視覺框變量信息,其中,還通過以下方式得到所述多模態預測解釋:檢測所述文本解釋數據中的所有視覺框變量信息;確定所述視覺框變量信息在所述目標圖像中的定位信息;基于所述文本解釋數據和所述定位信息,得到所述多模態預測解釋。
8、可選地,所述文本信息為由自然語言形成的語句,所述定位信息以標記的形式嵌入在所述語句中,并且位于所述文本信息中相應的視覺目標的名稱處。
9、可選地,所述問題分析程序和所述多模態預測解釋均通過大語言模型得到,所述預測答案和所述執行過程數據基于開放世界多模態工具得到。
10、根據本公開的第二方面,提供一種視覺問答裝置,所述視覺問答裝置包括:獲取單元,被配置為獲取目標圖像以及與所述目標圖像相關的目標提問數據;分析單元,被配置為對所述目標提問數據進行解析,得到問題分析程序,其中,所述問題分析程序用于基于所述目標圖像對所述目標提問數據進行分析;執行單元,被配置為基于所述目標圖像,執行所述問題分析程序,得到針對所述目標提問數據的預測答案以及所述問題分析程序的執行過程數據;預測單元,被配置為基于所述執行過程數據,得到對所述預測答案的多模態預測解釋,其中,所述多模態預測解釋包含由自然語言形成的文本信息以及所述文本信息中涉及的視覺目標在所述目標圖像中的定位信息。
11、根據本公開的第三方面,提供一種電子設備,所述電子設備包括:處理器;用于存儲所述處理器可執行指令的存儲器,其中,所述處理器可執行指令在被所述處理器運行時,促使所述處理器執行根據本公開所述的視覺問答方法。
12、根據本公開的第四方面,提供一種計算機可讀存儲介質,當所述計算機可讀存儲介質中的指令由電子設備的處理器執行時,使得所述電子設備能夠執行根據本公開所述的視覺問答方法。
13、根據本公開的第五方面,提供一種計算機程序產品,包括計算機可執行指令,所述計算機可執行指令被至少一個處理器執行時實現根據本公開所述的視覺問答方法。
14、本公開提供的技術方案至少帶來以下有益效果:
15、采用本公開,可以對目標提問數據進行解析,得到問題分析程序,并且基于目標圖像,執行問題分析程序,得到針對目標提問數據的預測答案以及問題分析程序的執行過程數據,基于該執行過程數據,可以進一步得到對預測答案的多模態預測解釋,這里,多模態預測解釋可以包含由自然語言形成的文本信息以及文本信息中涉及的視覺目標在目標圖像中的定位信息。如此,可以在給出推理任務的預測答案時同步給出預測解釋,并且該預測解釋可以包含文本和視覺這樣的多模態解釋,不僅能夠提高模型的透明度和可信度,還可以降低對用戶專業性的要求,使得用戶更容易閱讀和理解這樣的多模態解釋。
16、應當理解的是,以上的一般描述和后文的細節描述僅是示例性和解釋性的,并不能限制本公開。
1.一種視覺問答方法,其特征在于,所述視覺問答方法包括:
2.根據權利要求1所述的視覺問答方法,其特征在于,通過以下方式得到所述問題分析程序:
3.根據權利要求2所述的視覺問答方法,其特征在于,通過以下方式得到所述預測答案和所述執行過程數據:
4.根據權利要求3所述的視覺問答方法,其特征在于,所述執行過程數據以文本形式表達,所述執行過程數據中不包含所述問題分析程序中的視覺框變量的值。
5.根據權利要求1所述的視覺問答方法,其特征在于,通過以下方式得到所述多模態預測解釋:
6.根據權利要求5所述的視覺問答方法,其特征在于,所述文本解釋數據包含對所述目標圖像進行目標檢測得到的視覺框變量信息,其中,還通過以下方式得到所述多模態預測解釋:
7.一種視覺問答裝置,其特征在于,所述視覺問答裝置包括:
8.一種電子設備,其特征在于,所述電子設備包括:
9.一種計算機可讀存儲介質,其特征在于,當所述計算機可讀存儲介質中的指令由電子設備的處理器執行時,使得所述電子設備能夠執行根據權利要求1至6中任一項所述的視覺問答方法。
10.一種計算機程序產品,包括計算機可執行指令,其特征在于,所述計算機可執行指令被至少一個處理器執行時實現根據權利要求1至6中任一項所述的視覺問答方法。