本發明涉及圖像處理,尤其是一種圖像自動標注方法、系統、電子設備及存儲介質。
背景技術:
1、圖像自動標注是指計算機系統能夠自動為一張數字圖像分配元數據,通常以圖像說明或關鍵詞的形式展現,這一技術主要應用于圖像檢索系統,幫助組織和定位數據庫中的感興趣圖像,其基本思想是利用已標注圖像集或其他可獲得的信息,自動學習語義概念空間與視覺特征空間的潛在關聯或映射關系,從而為未知圖像添加文本關鍵詞。
2、現有的圖像自動標注方法存在以下缺陷:
3、1)很多情況下,同一副圖像中會存在不同尺度特征,現有的標注方法對于較小尺度對象在特征識別中缺乏足夠特征,自動標注過程中對小尺度對象的標注性能較差;
4、2)現有卷積神經網絡模型在識別多標簽的圖像時,往往集中在一個主體區域中,容易忽略圖像的局部微小區域,無法全面描述圖像的特征;
5、3)對于復雜圖像的自動標注時,現有識別模型的識別精度較低,在處理冗長復雜的文本時,模型處理速度較慢,且當對于問句的回答出現錯誤時,難以在復雜文本中定位錯誤所在位置,修正較為困難和麻煩。
技術實現思路
1、本發明的目的在于至少一定程度上解決現有技術中存在的技術問題之一。
2、為此,本發明實施例的一個目的在于提供一種圖像自動標注方法,該方法提高了圖像自動標注的全面性和準確性。
3、本發明實施例的另一個目的在于提供一種圖像自動標注系統。
4、為了達到上述技術目的,本發明實施例所采取的技術方案包括:
5、一方面,本發明實施例提供了一種圖像自動標注方法,包括以下步驟:
6、第一步,基于特征融合機制和注意力機制構建多模態大模型;
7、第二步,獲取預設的標注數據集,將所述標注數據集輸入到所述多模態大模型,得到訓練好的圖像標注模型;
8、第三步,獲取目標圖像和對應的初始描述語句,將所述初始描述語句拆解為多個最小化問句,并將所述目標圖像和所述最小化問句輸入到所述圖像標注模型,得到各所述最小化問句對應的目標標注結果;
9、第四步,根據所述目標標注結果對所述最小化問句進行篩選和內容重組,得到所述目標圖像的目標描述語句。
10、進一步地,在本發明的一個實施例中,所述多模態大模型包括卷積層、注意力模塊、空間金字塔池化層、特征融合層以及全連接層,所述卷積層用于提取輸入圖像的第一圖像特征,所述注意力模塊用于基于通道注意力機制和空間注意力機制對所述第一圖像特征進行特征加強得到第二圖像特征,所述空間金字塔池化層用于對所述第二圖像特征進行不同尺度的池化操作得到多尺度圖像特征,所述特征融合層用于對所述多尺度圖像特征進行特征融合得到多模態融合特征,所述全連接層用于根據所述多模態融合特征輸出對應的圖像標注結果。
11、進一步地,在本發明的一個實施例中,所述將所述標注數據集輸入到所述多模態大模型,得到訓練好的圖像標注模型,其具體包括:
12、第一步,對所述標注數據集進行數據清洗,得到多個樣本圖像和對應的真實標注結果;
13、第二步,將所述樣本圖像輸入到所述多模態大模型,得到預測標注結果;
14、第三步,根據所述預測標注結果和所述真實標注結果確定損失值,根據所述損失值更新所述多模態大模型的模型參數,得到所述圖像標注模型。
15、進一步地,在本發明的一個實施例中,所述將所述初始描述語句拆解為多個最小化問句,其具體為:
16、將預設的提示語句和所述初始描述語句輸入到預先訓練好的語義大模型,得到所述最小化問句;
17、其中,所述提示語句用于引導所述語義大模型對所述初始描述語句進行拆解。
18、進一步地,在本發明的一個實施例中,所述將所述目標圖像和所述最小化問句輸入到所述圖像標注模型,得到各所述最小化問句對應的目標標注結果,其具體包括:
19、第一步,通過所述圖像標注模型對所述目標圖像進行識別,得到所述目標圖像的預測標注信息;
20、第二步,根據所述預測標注信息確定各所述最小化問句對應的所述目標標注結果;
21、其中,所述目標標注結果包括所述最小化問句和對應的答句,所述答句為是或否。
22、進一步地,在本發明的一個實施例中,所述根據所述目標標注結果對所述最小化問句進行篩選和內容重組,得到所述目標圖像的目標描述語句,其具體包括:
23、第一步,根據所述答句對所述最小化問句進行篩選,確定所述答句為是的若干個最小化問句為目標問句;
24、第二步,將所述目標問句轉換為目標肯定句,并對所述目標肯定句進行內容重組,得到所述目標描述語句。
25、進一步地,在本發明的一個實施例中,所述根據所述目標標注結果對所述最小化問句進行篩選和內容重組之前,還包括:
26、確定各所述目標標注結果的置信度,并根據所述置信度對所述目標標注結果進行修正。
27、另一方面,本發明實施例提供了一種圖像自動標注系統,包括:
28、模型構建模塊,用于基于特征融合機制和注意力機制構建多模態大模型;
29、模型訓練模塊,用于獲取預設的標注數據集,將所述標注數據集輸入到所述多模態大模型,得到訓練好的圖像標注模型;
30、模型標注模塊,用于獲取目標圖像和對應的初始描述語句,將所述初始描述語句拆解為多個最小化問句,并將所述目標圖像和所述最小化問句輸入到所述圖像標注模型,得到各所述最小化問句對應的目標標注結果;
31、標注重組模塊,用于根據所述目標標注結果對所述最小化問句進行篩選和內容重組,得到所述目標圖像的目標描述語句。
32、另一方面,本發明實施例提供了一種電子設備,所述電子設備包括存儲器、處理器、存儲在所述存儲器上并可在所述處理器上運行的程序以及用于實現所述處理器和所述存儲器之間的連接通信的數據總線,所述程序被所述處理器執行時實現如前面所述的圖像自動標注方法。
33、另一方面,本發明實施例還提供了一種存儲介質,所述存儲介質為計算機可讀存儲介質,用于計算機可讀存儲,所述存儲介質存儲有一個或者多個程序,所述一個或者多個程序可被一個或者多個處理器執行,以實現如前面所述的圖像自動標注方法。
34、本發明的優點和有益效果將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到:
35、本發明實施例基于特征融合機制和注意力機制構建多模態大模型,獲取預設的標注數據集,將標注數據集輸入到多模態大模型,得到訓練好的圖像標注模型,獲取目標圖像和對應的初始描述語句,將初始描述語句拆解為多個最小化問句,并將目標圖像和最小化問句輸入到圖像標注模型,得到各最小化問句對應的目標標注結果,根據目標標注結果對最小化問句進行篩選和內容重組,得到目標圖像的目標描述語句。本發明實施例通過引入特征融合機制提高了圖像標注模型對不同尺度對象的識別能力,通過引入注意力機制以提取對標注任務最相關、最顯著的特征,通過將初始描述語句拆解為多個最小化問句,使得訓練得到的圖像標注模型可以更準確地識別并理解圖像中的各個元素,避免對復雜的描述語句進行模糊處理,提高了圖像標注模型的識別精度,從而提高了圖像自動標注的全面性和準確性。