視覺問答方法、裝置、設備、存儲介質和產品與流程

文檔序號：39718404發布日期：2024-10-22 13:05閱讀：3來源：國知局

本發明涉及人工智能，尤其涉及一種視覺問答方法、裝置、設備、存儲介質和產品。

背景技術：

1、視覺問答(vqa，visual?question?answering)是一種涉及計算機視覺和自然語言處理的多模態學習任務，vqa系統將圖片和關于圖片的自然語言問題作為輸入，以期望產生自然語言答案作為輸出。vqa涉及到文本和圖片兩種模態的數據，因此需要使用計算機視覺和自然語言處理兩個領域的技術進行協同處理，這也意味著vqa系統面臨著更為巨大的挑戰。而現實場景中，很多圖片中所包含的信息，往往不足以回復自然語言問題，導致輸出的答案與圖片的真實表達意圖不符合，無法生成準確的答復。

技術實現思路

1、本發明實施例的目的是提供一種視覺問答方法、裝置、設備、存儲介質和產品，能有效提高視覺問答任務的準確性，從而輸出準確的答復。

2、為實現上述目的，本發明實施例提供了一種視覺問答方法，包括：

3、獲取圖片中的自然語言描述和物體標簽；

4、根據所述自然語言描述、所述物體標簽和問題生成候選答案和所述候選答案的支持依據；

5、根據所述候選答案和所述問題生成所述問題的陳述語句；

6、將所述陳述語句和所述支持依據作為檢索器的輸入，得到至少一個檢索片段；

7、將所述檢索片段和所述問題輸入到語言模型中，以使所述語言模型輸出所述問題的答復。

8、作為上述方案的改進，所述根據所述自然語言描述、所述物體標簽和問題生成候選答案和所述候選答案的支持依據，包括：

9、將所述自然語言描述、所述物體標簽和所述問題輸入到語言模型中，以使所述語言模型輸出候選答案；

10、將所述自然語言描述、所述物體標簽、所述問題和所述候選答案輸入到語言模型中，以使所述語言模型輸出所述候選答案的支持依據。

11、作為上述方案的改進，所述候選答案包括第一候選答案、第二候選答案和第三候選答案；則，所述將所述自然語言描述、所述物體標簽和所述問題輸入到語言模型中，以使所述語言模型輸出候選答案，包括：

12、將所述問題輸入到語言模型中，以使所述語言模型輸出第一候選答案；

13、將所述自然語言描述和所述問題輸入到語言模型中，以使所述語言模型輸出第二候選答案；

14、將所述自然語言描述和所述物體標簽輸入到語言模型中，以使所述語言模型輸出第三候選答案。

15、作為上述方案的改進，所述根據所述候選答案和所述問題生成陳述語句，包括：

16、將所述候選答案和所述問題輸入到語言模型中，以使所述語言模型輸出陳述語句。

17、作為上述方案的改進，在得到至少一個檢索片段后，所述方法還包括：

18、當所述檢索片段的數量大于3時，確定每一檢索片段和所述問題的相關度；

19、根據所述相關度對所有檢索片段進行排序。

20、作為上述方案的改進，所述語言模型輸出的預測結果根據所有分類器的權重及其對應的輸入數據得到；其中，所述語言模型包括若干個分類器，所述分類器用于根據輸入數據輸出預測結果。

21、作為上述方案的改進，每一所述分類器在訓練前根據上一分類器的預測結果來調整樣本數據中的樣本權重；其中，當上一分類器預測錯誤時，增加預測錯誤的樣本的權重；當上一分類器預測正確時，減少預測正確的樣本的權重。

22、作為上述方案的改進，所述分類器的權重與所述分類器的誤差負相關。

23、為實現上述目的，本發明實施例還提供了一種視覺問答裝置，包括：

24、數據獲取模塊，用于獲取圖片中的自然語言描述和物體標簽；

25、支持依據生成模塊，用于根據所述自然語言描述、所述物體標簽和問題生成候選答案和所述候選答案的支持依據；

26、陳述語句生成模塊，用于根據所述候選答案和所述問題生成所述問題的陳述語句；

27、檢索片段生成模塊，用于將所述陳述語句和所述支持依據作為檢索器的輸入，得到至少一個檢索片段；

28、答復輸出模塊，用于將所述檢索片段和所述問題輸入到語言模型中，以使所述語言模型輸出所述問題的答復。

29、為實現上述目的，本發明實施例還提供了一種視覺問答設備，包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執行的計算機程序，所述處理器執行所述計算機程序時實現如上述任一實施例所述的視覺問答方法。

30、為實現上述目的，本發明實施例還提供了一種計算機可讀存儲介質，所述計算機可讀存儲介質包括存儲的計算機程序，其中，在所述計算機程序運行時控制所述計算機可讀存儲介質所在設備執行如上述任一實施例所述的視覺問答方法。

31、為實現上述目的，本發明實施例還提供了一種計算機程序產品，包括計算機程序，該計算機程序被處理器執行時實現如上述任一實施例所述的視覺問答方法。

32、相比于現有技術，本發明公開的視覺問答方法、裝置、設備、存儲介質和產品，利用成熟的目標檢測和圖片描述技術，將圖片中的語義信息進行自然語言化，得到自然語言描述和物體標簽這些增強特征，從而基于這些增強特征能夠更好地獲取問答任務所必需的額外信息，將自然語言描述和物體標簽視為輸入，能夠幫助語言模型生成更好的回復，增強視覺問答的準確性和透明性。另外，由于自然語言作為主要流通數據，給出了相對透明化的可解釋推理過程。

技術特征：

1.一種視覺問答方法，其特征在于，包括：

2.如權利要求1所述的視覺問答方法，其特征在于，所述根據所述自然語言描述、所述物體標簽和問題生成候選答案和所述候選答案的支持依據，包括：

3.如權利要求2所述的視覺問答方法，其特征在于，所述候選答案包括第一候選答案、第二候選答案和第三候選答案；則，所述將所述自然語言描述、所述物體標簽和所述問題輸入到語言模型中，以使所述語言模型輸出候選答案，包括：

4.如權利要求1所述的視覺問答方法，其特征在于，所述根據所述候選答案和所述問題生成陳述語句，包括：

5.如權利要求1所述的視覺問答方法，其特征在于，在得到至少一個檢索片段后，所述方法還包括：

6.如權利要求1～5中任一項所述的視覺問答方法，其特征在于，所述語言模型輸出的預測結果根據所有分類器的權重及其對應的輸入數據得到；其中，所述語言模型包括若干個分類器，所述分類器用于根據輸入數據輸出預測結果。

7.如權利要求6所述的視覺問答方法，其特征在于，每一所述分類器在訓練前根據上一分類器的預測結果來調整樣本數據中的樣本權重；其中，當上一分類器預測錯誤時，增加預測錯誤的樣本的權重；當上一分類器預測正確時，減少預測正確的樣本的權重。

8.如權利要求6所述的視覺問答方法，其特征在于，所述分類器的權重與所述分類器的誤差負相關。

9.一種視覺問答裝置，其特征在于，包括：

10.一種視覺問答設備，其特征在于，包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執行的計算機程序，所述處理器執行所述計算機程序時實現如權利要求1至8中任意一項所述的視覺問答方法。

11.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質包括存儲的計算機程序，其中，在所述計算機程序運行時控制所述計算機可讀存儲介質所在設備執行如權利要求1至8中任意一項所述的視覺問答方法。

12.一種計算機程序產品，包括計算機程序，其特征在于，該計算機程序被處理器執行時實現如權利要求1至8中任意一項所述的視覺問答方法。

技術總結
本發明公開了一種視覺問答方法、裝置、設備、存儲介質和產品，利用成熟的目標檢測和圖片描述技術，將圖片中的語義信息進行自然語言化，得到自然語言描述和物體標簽這些增強特征，從而基于這些增強特征能夠更好地獲取問答任務所必需的額外信息，將自然語言描述和物體標簽視為輸入，能夠幫助語言模型生成更好的回復，增強視覺問答的準確性和透明性。另外，由于自然語言作為主要流通數據，給出了相對透明化的可解釋推理過程。

技術研發人員：劉杰,郝亦凡
受保護的技術使用者：中國移動通信有限公司研究院
技術研發日：
技術公布日：2024/10/21

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：劉杰,郝亦凡
技術所有人：中國移動通信有限公司研究院
我是此專利的發明人

上一篇：智能家居設備及其控制方法與流程
上一篇：包含改造的白介素12的溶瘤病毒及其用途的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！