本發明涉及人工智能,尤其涉及一種視覺問答方法、裝置、設備、存儲介質和產品。
背景技術:
1、視覺問答(vqa,visual?question?answering)是一種涉及計算機視覺和自然語言處理的多模態學習任務,vqa系統將圖片和關于圖片的自然語言問題作為輸入,以期望產生自然語言答案作為輸出。vqa涉及到文本和圖片兩種模態的數據,因此需要使用計算機視覺和自然語言處理兩個領域的技術進行協同處理,這也意味著vqa系統面臨著更為巨大的挑戰。而現實場景中,很多圖片中所包含的信息,往往不足以回復自然語言問題,導致輸出的答案與圖片的真實表達意圖不符合,無法生成準確的答復。
技術實現思路
1、本發明實施例的目的是提供一種視覺問答方法、裝置、設備、存儲介質和產品,能有效提高視覺問答任務的準確性,從而輸出準確的答復。
2、為實現上述目的,本發明實施例提供了一種視覺問答方法,包括:
3、獲取圖片中的自然語言描述和物體標簽;
4、根據所述自然語言描述、所述物體標簽和問題生成候選答案和所述候選答案的支持依據;
5、根據所述候選答案和所述問題生成所述問題的陳述語句;
6、將所述陳述語句和所述支持依據作為檢索器的輸入,得到至少一個檢索片段;
7、將所述檢索片段和所述問題輸入到語言模型中,以使所述語言模型輸出所述問題的答復。
8、作為上述方案的改進,所述根據所述自然語言描述、所述物體標簽和問題生成候選答案和所述候選答案的支持依據,包括:
9、將所述自然語言描述、所述物體標簽和所述問題輸入到語言模型中,以使所述語言模型輸出候選答案;
10、將所述自然語言描述、所述物體標簽、所述問題和所述候選答案輸入到語言模型中,以使所述語言模型輸出所述候選答案的支持依據。
11、作為上述方案的改進,所述候選答案包括第一候選答案、第二候選答案和第三候選答案;則,所述將所述自然語言描述、所述物體標簽和所述問題輸入到語言模型中,以使所述語言模型輸出候選答案,包括:
12、將所述問題輸入到語言模型中,以使所述語言模型輸出第一候選答案;
13、將所述自然語言描述和所述問題輸入到語言模型中,以使所述語言模型輸出第二候選答案;
14、將所述自然語言描述和所述物體標簽輸入到語言模型中,以使所述語言模型輸出第三候選答案。
15、作為上述方案的改進,所述根據所述候選答案和所述問題生成陳述語句,包括:
16、將所述候選答案和所述問題輸入到語言模型中,以使所述語言模型輸出陳述語句。
17、作為上述方案的改進,在得到至少一個檢索片段后,所述方法還包括:
18、當所述檢索片段的數量大于3時,確定每一檢索片段和所述問題的相關度;
19、根據所述相關度對所有檢索片段進行排序。
20、作為上述方案的改進,所述語言模型輸出的預測結果根據所有分類器的權重及其對應的輸入數據得到;其中,所述語言模型包括若干個分類器,所述分類器用于根據輸入數據輸出預測結果。
21、作為上述方案的改進,每一所述分類器在訓練前根據上一分類器的預測結果來調整樣本數據中的樣本權重;其中,當上一分類器預測錯誤時,增加預測錯誤的樣本的權重;當上一分類器預測正確時,減少預測正確的樣本的權重。
22、作為上述方案的改進,所述分類器的權重與所述分類器的誤差負相關。
23、為實現上述目的,本發明實施例還提供了一種視覺問答裝置,包括:
24、數據獲取模塊,用于獲取圖片中的自然語言描述和物體標簽;
25、支持依據生成模塊,用于根據所述自然語言描述、所述物體標簽和問題生成候選答案和所述候選答案的支持依據;
26、陳述語句生成模塊,用于根據所述候選答案和所述問題生成所述問題的陳述語句;
27、檢索片段生成模塊,用于將所述陳述語句和所述支持依據作為檢索器的輸入,得到至少一個檢索片段;
28、答復輸出模塊,用于將所述檢索片段和所述問題輸入到語言模型中,以使所述語言模型輸出所述問題的答復。
29、為實現上述目的,本發明實施例還提供了一種視覺問答設備,包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執行的計算機程序,所述處理器執行所述計算機程序時實現如上述任一實施例所述的視覺問答方法。
30、為實現上述目的,本發明實施例還提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質包括存儲的計算機程序,其中,在所述計算機程序運行時控制所述計算機可讀存儲介質所在設備執行如上述任一實施例所述的視覺問答方法。
31、為實現上述目的,本發明實施例還提供了一種計算機程序產品,包括計算機程序,該計算機程序被處理器執行時實現如上述任一實施例所述的視覺問答方法。
32、相比于現有技術,本發明公開的視覺問答方法、裝置、設備、存儲介質和產品,利用成熟的目標檢測和圖片描述技術,將圖片中的語義信息進行自然語言化,得到自然語言描述和物體標簽這些增強特征,從而基于這些增強特征能夠更好地獲取問答任務所必需的額外信息,將自然語言描述和物體標簽視為輸入,能夠幫助語言模型生成更好的回復,增強視覺問答的準確性和透明性。另外,由于自然語言作為主要流通數據,給出了相對透明化的可解釋推理過程。
1.一種視覺問答方法,其特征在于,包括:
2.如權利要求1所述的視覺問答方法,其特征在于,所述根據所述自然語言描述、所述物體標簽和問題生成候選答案和所述候選答案的支持依據,包括:
3.如權利要求2所述的視覺問答方法,其特征在于,所述候選答案包括第一候選答案、第二候選答案和第三候選答案;則,所述將所述自然語言描述、所述物體標簽和所述問題輸入到語言模型中,以使所述語言模型輸出候選答案,包括:
4.如權利要求1所述的視覺問答方法,其特征在于,所述根據所述候選答案和所述問題生成陳述語句,包括:
5.如權利要求1所述的視覺問答方法,其特征在于,在得到至少一個檢索片段后,所述方法還包括:
6.如權利要求1~5中任一項所述的視覺問答方法,其特征在于,所述語言模型輸出的預測結果根據所有分類器的權重及其對應的輸入數據得到;其中,所述語言模型包括若干個分類器,所述分類器用于根據輸入數據輸出預測結果。
7.如權利要求6所述的視覺問答方法,其特征在于,每一所述分類器在訓練前根據上一分類器的預測結果來調整樣本數據中的樣本權重;其中,當上一分類器預測錯誤時,增加預測錯誤的樣本的權重;當上一分類器預測正確時,減少預測正確的樣本的權重。
8.如權利要求6所述的視覺問答方法,其特征在于,所述分類器的權重與所述分類器的誤差負相關。
9.一種視覺問答裝置,其特征在于,包括:
10.一種視覺問答設備,其特征在于,包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執行的計算機程序,所述處理器執行所述計算機程序時實現如權利要求1至8中任意一項所述的視覺問答方法。
11.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質包括存儲的計算機程序,其中,在所述計算機程序運行時控制所述計算機可讀存儲介質所在設備執行如權利要求1至8中任意一項所述的視覺問答方法。
12.一種計算機程序產品,包括計算機程序,其特征在于,該計算機程序被處理器執行時實現如權利要求1至8中任意一項所述的視覺問答方法。