本發明涉及視覺問答,具體地說,涉及一種基于單模態監督對比學習和推理增強的視覺問答方法、系統、設備及介質。
背景技術:
1、電信資源系統視覺問答需要模型方法對圖像進行理解并回答相關問題,其過程包括圖像的特征提取、問題特征的提取、圖像和問題的特征融合、答案生成等步驟。對比學習方法將相似的樣本稱為正樣本,將不相似的樣本稱為負樣本,學習表征映射函數將正樣本在潛空間中距離更近,負樣本在潛空間中的距離更遠,來獲得可區分的表征。視覺問答領域適合采用對比學習的方法獲得圖像特征和文本表征。moco將負樣本的編碼器和訓練的批次大小解耦,用隊列維護負樣本候選項,對負樣本的參數,采用動量更新的方式,在大規模的數據集上取得了優秀的訓練效果。simclr利用隨機數據增強模塊和神經網絡基礎編碼器從增強數據實例中提取表示向量,強調了更大的訓練批次、更長的訓練周期、更強的數據增強方法對于對比學習預訓練的重要性,在imagenet?ilsvrc-2012數據集比之前的最先進性能相對提高了7%。
2、除了上述的單模態表征學習,多模態的對比學習方法也被廣泛探索。一些常見的方法利用跨模態對比匹配對齊不同的模態并學習模態間的對應關系。cpc通過自回歸模型預測潛空間中的未來狀態來學習編碼表征,使用概率對比損失引導潛空間捕獲對預測未來樣本最有用的信息,在語音、圖像、文本、3d環境實現了良好的性能。xmc-gan、crosspoint也為表征學習引入了模態內的對比。crossclr從負樣本中去除高度相關的樣本,以免錯誤負樣本造成的偏差。gmc在特定模態表征和所有模態的全局表征之間建立了對比學習過程。還有一些工作專注于視覺-語言的對比學習。clip把圖像、文本編碼到潛空間,用余弦距離作為損失,在大量圖像、文本對上進行預訓練,廣泛適用于多種下游任務。blip通過引入引導式標題生成的方式有效利用噪聲網絡數據,標題生成器生成標題,過濾器刪除噪聲標題,訓練出多模態編碼器解碼器混合模型,適應多種視覺語言下游任務。blip2提出了一種輕量級的transformer,利用凍結的預訓練圖像編碼器和大型語言模型,改善了視覺語言預訓練的效率和性能。hidisc通過自監督對比學習框架,使用患者-幻燈片-圖像路徑的數據層次結構定義正樣本對,無需過多的數據增強就能學習高質量的視覺表征。但是上述對比學習方法,沒有考慮到部分不可信、質量差的樣本對對比學習預訓練過程產生的負面影響,進行不同模態樣本的有效性校驗,使得獲得的圖像、文本的特征變差,從而對下游視覺問答任務產生不利影響。
3、視覺問答任務在計算機視覺和自然語言處理領域具有重要地位。它要求系統理解圖像內容并回答相關問題,測試模型的綜合能力。視覺問答在醫療、教育、智能家居等實際應用中有著廣泛的潛力,同時也推動了多模態技術的發展。動態記憶網絡dmn在問答任務中的架構融合了記憶和注意力機制。dmn模型在語言任務上取得了較高的準確性,但在視覺問答和在訓練過程中未標記支持事實時存在一定局限性。dmn+模型對dmn進行改進,包括針對文本和圖像的新輸入模塊結構、對記憶更新機制和注意力機制的增強,使模型能夠回答視覺問題而無需標記支持事實,在文本問答和視覺問答數據集上均優于先前模型。vahidkazema等使用lstm單元來編碼問題,使用深度殘差網絡來計算圖像特征,以及軟性注意機制,該模型在vqa?1.0和vqa?2.0數據集上實現了高準確率。jiasen?lu等提出了一種新穎的針對視覺問答問題的協同注意力機制,同時實現了問題引導的視覺注意力和圖像引導的問題注意力,這一機制通過兩種策略進行探索,即并行和交替協同注意力;其次,在問題的表示上構建了一個分層架構,從而在三個不同級別上構建了圖像-問題協同注意力圖:詞級別、短語級別和問題級別,這些協同注意力特征然后在詞級別到問題級別遞歸地組合用于最終的答案預測;另外,在短語級別上,提出了一種自適應選擇短語大小的卷積池化策略,其表示傳遞給問題級別表示,大幅度提高了視覺問答的準確率。mcb通過將圖像和文本表示隨機投影到更高維空間來近似外積,然后通過在fast?fourier變換空間中使用逐元素乘積來高效地將兩個向量卷積,用于視覺問答任務中的答案預測和位置預測。
4、上述方法,由于部分場景中涉及的設備和環境具有高度的專業性和復雜性,通常需要特定的領域知識和精細的圖像分析能力,超出了常規視覺問答方法的覆蓋范圍,效果并不好。
技術實現思路
1、本發明針對現有的視覺問答方法需要大量的訓練數據和數據增強方法,計算資源消耗大的問題,提出一種基于單模態監督對比學習和推理增強的視覺問答方法、系統、設備及介質;該方法在對比學習訓練階段,考慮單模態信息的有效性,將圖像的類型和文本內容的類型表示為類型點,并將類型點作為弱監督的方法引導自監督對比學習的過程,減輕不可信、質量差的樣本對對比學習效果的影響;在問答任務的微調階段,分別不同問題類型的推理能力,并通過問題類型注意力引導融合得出答案,提高了問答模型的推理能力和可解釋性。
2、本發明具體實現內容如下:
3、一種基于單模態監督對比學習和推理增強的視覺問答方法,所述基于單模態監督對比學習和推理增強的視覺問答方法具體包括以下步驟:
4、步驟s1:預訓練從電信資源系統獲取的圖像數據和文本數據,進行單模態監督的自監督對比學習;
5、步驟s2:將圖像數據的類型和文本數據的類型作為類型點,將類型點作為弱監督的方法引導自監督對比學習,校驗自監督對比學習的有效性;
6、步驟s3:將transformer模型的架構作為問答任務的推理模塊,結合問題類型調用注意力機制引導融合得到推理信息,更新視覺問答模型。
7、為了更好地實現本發明,進一步地,所述步驟s1具體包括以下步驟:
8、步驟s11:預訓練從電信資源系統獲取圖像數據和文本數據;
9、步驟s12:將預訓練后的圖像數據和文本數據進行自監督對比學習,對齊圖像和文本。
10、為了更好地實現本發明,進一步地,所述步驟s11具體包括以下步驟:
11、步驟s111:將從電信資源系統獲取的圖像數據和文本數據進行隨機掩碼;
12、步驟s112:在隨機掩碼后的圖像數據和文本數據開頭添加特殊標記,得到預訓練后的圖像數據和文本數據。
13、為了更好地實現本發明,進一步地,所述步驟s2具體包括以下步驟:
14、步驟s21:將圖像數據類型和文本數據類型作為類型點;
15、步驟s22:調用cotnet152結構訓練圖像類型點分類模型,調用bert微調的策略訓練文本類型點分類模型;
16、步驟s23:將對比學習預測得到的類型點與類型點分類模型輸出的類型點比較,得到比較結果;
17、步驟s24:根據比較結果,采用弱監督的方式校驗模態的有效性。
18、為了更好地實現本發明,進一步地,所述s24具體包括以下步驟:
19、步驟s241:根據不同類型點的數量、不同類型點的枚舉變量、不同模態的枚舉變量、當前樣本的類型點、當前模態下樣本預測為目標類型點的概率,計算單模態預測損失losspred;
20、步驟s242:根據設定的預訓練樣本劃分規則,將單模態預測結果進行劃分;
21、步驟s243:根據劃分后的預測結果、圖像在潛空間中的表征、文本在潛空間中的表征、判斷表征性的映射函數、設定的溫度超參數,計算圖像模態和文本模態的對比損失lossuscl;
22、步驟s244:根據掩碼數量、掩碼的實際值、掩碼的預測值,計算遮蔽圖像建模任務的損失lossmim;
23、步驟s245:根據交叉熵損失函數、圖像文本對的總體期望,計算遮蔽語言建模任務的損失lossmlm;
24、步驟s246:根據交叉熵損失函數、圖像文本對的總體期望,計算圖像文本匹配任務的損失lossitm;
25、步驟s247:根據當前樣本的表示、當前樣本的正樣本、當前樣本的負樣本、設定的溫度超參數、樣本相似度、負樣本的枚舉變量,計算圖像文本對齊任務的損失lossita;
26、步驟s248:根據單模態預測損失losspred、對比損失lossuscl、遮蔽圖像建模任務的損失lossmim、遮蔽語言建模任務的損失lossmlm、圖像文本匹配任務的損失lossitm、圖像文本對齊任務的損失lossita,構建損失函數。
27、為了更好地實現本發明,進一步地,所述步驟s3具體包括以下步驟:
28、步驟s31:根據預訓練權重初始化圖像編碼器、文本編碼器、多模態編碼器,得到問題類型分類器;
29、步驟s32:根據bert模型將輸入的視覺問題編碼至設定的維度空間;
30、步驟s33:拼接編碼后的視覺問題,根據激活函數提取融合特征,并根據注意力機制分類問題類型,根據問題類型得到對應的推理信息,更新視覺問答模型。
31、為了更好地實現本發明,進一步地,所述步驟s33中根據注意力機制分類問題類型具體包括以下步驟:
32、步驟s331:根據封閉型問題的推理模型參數、封閉型問題的多模態編碼器輸出的融合特征,得到封閉型問題的特征;
33、步驟s332:根據開放型問題的推理模型參數、開放型問題的多模態編碼器輸出的融合特征,得到開放型問題的特征;
34、步驟s333:根據問題類型、封閉型問題的特征、開放型問題的特征,結合注意力機制得到視覺答案。
35、基于上述提出的基于單模態監督對比學習和推理增強的視覺問答方法,為了更好地實現本發明,進一步地,提出一種基于單模態監督對比學習和推理增強的視覺問答系統,用于執行上述的基于單模態監督對比學習和推理增強的視覺問答方法;預訓練單元、校驗單元、微調單元;
36、所述預訓練單元,用于包括預訓練從電信資源系統獲取的圖像數據和文本數據,進行單模態監督的自監督對比學習;
37、所述校驗單元,用于將圖像數據的類型和文本數據的類型作為類型點,將類型點作為弱監督的方法引導自監督對比學習,校驗自監督對比學習的有效性;
38、所述微調單元,用于將transformer模型的架構作為問答任務的推理模塊,結合問題類型調用注意力機制引導融合得到推理信息,更新視覺問答模型。
39、基于上述提出的基于單模態監督對比學習和推理增強的視覺問答方法,為了更好地實現本發明,進一步地,提出一種電子設備,包括存儲器和處理器;所述存儲器上存儲有計算機程序;當所述計算機程序在所述處理器上執行時,實現上述的基于單模態監督對比學習和推理增強的視覺問答方法。
40、基于上述提出的基于單模態監督對比學習和推理增強的視覺問答方法,為了更好地實現本發明,進一步地,提出一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機指令;當所述計算機指令在上述的電子設備上執行時,實現上述的基于單模態監督對比學習和推理增強的視覺問答方法。
41、本發明具有以下有益效果:
42、(1)本發明更加輕量級,不需要太多的訓練數據和數據增強方法,需要消耗的計算資源很小,更新后的模型具有較強的可解釋性,提高了視覺問答任務的準確率。
43、(2)本發明把對比學習過程中預測的類型點估計和類型點分類模型的事先預測結果進行比較,根據結果評估訓練樣本的有效性,減輕質量較差、不可信的樣本對對比學習預訓練過程的嚴重負面影響。
44、(3)本發明對于不同模態的預測結果相反的樣本,鼓勵在單模態預測的弱監督下,無效的模態和有效的模態相互對齊進行學習。
45、(4)本發明采用transformer的架構作為問答任務的推理模塊,分別學習封閉式和開放式問答任務的不同推理技能,并通過問題類型注意力引導融合,不僅考慮了多模態特征的融合來實現的,而且還可以對融合后的表征進行額外的轉換確定特定問題的推理信息,提高了模型的推理能力和問答任務的準確率。