本發明屬于計算機視覺和自然語言處理,具體涉及一種引入外部知識的農作物病害視覺問答方法、系統及設備,尤其適用于智慧農業應用場景。
背景技術:
1、農作物病害是主要的農業災害之一,需加力加密監測,及時采取有效措施防控,努力減輕產量損失。而現有的農作物病害檢測模型,例如農作物病害目標檢測模型和農作物病害分類模型,這些模型僅僅能給出農作物病害的標簽,而不能針對不同病害給出圖像以外的知識以及具體的防治措施,例如,對于不同時期的蘋果炭疽病,早期和晚期的蘋果炭疽病的防治方法分別為50%退菌特可濕性粉劑600-800倍液和40%多菌靈膠劑800倍+40%毒死蜱1500倍液,這個任務是目標檢測和分類模型無法做到的。傳統的農作物病害視覺問答模型僅僅能將農作物病害圖像的視覺信息反映出來。因而如何能將病原體、化學防治藥劑、農作物種植方法等知識引入視覺問答模型中,使模型將這些知識文本反映給問題提出者,比如農業研究員、農民等農業從業者,具有重要的意義,而傳統的視覺問答模型無法解決上述問題。
技術實現思路
1、本發明的目的在于提出一種引入外部知識的農作物病害視覺問答方法,能夠有效地回答有關農作物病害圖像的視覺特征以及涉及與病害圖像相關的外部知識的問題。
2、本發明為了實現上述目的,采用如下技術方案:
3、一種引入外部知識的農作物病害視覺問答方法,包括如下步驟:
4、步驟1.?基于外部知識的農作物病害視覺問答數據采集、預處理和標注,針對農作物病害圖像標注涉及外部知識的問題,得到基于外部知識的農作物病害視覺問答數據集;
5、步驟2.?搭建基于外部知識的農作物病害視覺問答模型,其包括圖像特征提取器、目標檢測模型、圖像字幕生成模型、文本特征提取器、注意力機制、編碼器以及解碼器;
6、首先利用預訓練的圖像特征提取器提取農作物病害圖像特征,并利用目標檢測模型和圖像字幕生成模型處理農作物病害圖像,得到圖像字幕信息;
7、其中圖像字幕信息為帶有目標框、目標標簽和對圖像的文本描述;
8、步驟3.?使用步驟2的農作物病害圖像特征在農作物病害知識庫中檢索農作物病害顯性知識文本,使用問題文本、圖像字幕文本以及目標標簽檢索農作物病害隱性知識文本;
9、步驟4.?對步驟2提取的農作物病害圖像特征,利用注意力機制對圖像模態內的密集交互進行建模,得到具有注意力重點的圖像特征;
10、步驟5.?利用預訓練的文本特征提取器提取問題特征、步驟2中圖像字幕文本特征及步驟3中農作物病害顯性知識和隱性知識文本特征,與步驟4中經過注意力機制處理的圖像特征進行編碼,得到編碼后的融合特征;
11、步驟6.利用步驟5所得到的融合特征,輸入到解碼器中輸出答案。
12、此外,在引入外部知識的農作物病害視覺問答方法的基礎上,本發明還提出了一種與之對應的引入外部知識的農作物病害視覺問答系統,其采用如下方案:
13、一種引入外部知識的農作物病害視覺問答系統,包括如下模塊:
14、預處理模塊,用于基于外部知識的農作物病害視覺問答數據采集、預處理和標注,針對農作物病害圖像標注涉及外部知識的問題,得到基于外部知識的農作物病害視覺問答數據集;
15、特征提取模塊,用于首先利用預訓練的圖像特征提取器提取農作物病害圖像特征,并利用目標檢測模型和圖像字幕生成模型處理農作物病害圖像,得到圖像字幕信息;
16、其中圖像字幕信息為帶有目標框、目標標簽和對圖像的文本描述;
17、外部知識處理模塊,用于將外部知識分為顯性知識和隱性知識,分別在農作物病害知識庫和預訓練的大語言模型中進行知識檢索,得到農作物病害顯性知識和隱性知識;
18、注意力機制模塊,用于對提取的農作物病害圖像特征,利用注意力機制對圖像模態內的密集交互進行建模,得到具有注意力重點的圖像特征;
19、編碼模塊,用于利用預訓練的文本特征提取器提取問題特征、圖像字幕文本特征及農作物病害顯性知識和隱性知識文本特征,與經過注意力機制處理的圖像特征進行編碼,得到編碼后的融合特征;
20、以及預測模塊,用于將得到的融合特征輸入到解碼器中輸出答案;
21、其中,搭建的農作物病害視覺問答模型其包括圖像特征提取器、目標檢測模型、圖像字幕生成模型、文本特征提取器、注意力機制、編碼器以及解碼器。
22、此外,在引入外部知識的農作物病害視覺問答方法的基礎上,本發明還提出了一種計算機設備,該計算機設備包括存儲器和一個或多個處理器。在存儲器中存儲有可執行代碼。當處理器執行可執行代碼時,用于實現上述引入外部知識的農作物病害視覺問答方法。
23、本發明具有如下優點:
24、如上所述,本發明述及了一種引入外部知識的農作物病害視覺問答方法,該方法搭建了一種引入外部知識的農作物病害視覺問答模型,此模型在專業的農作物病害知識庫中引入了顯性知識,得益于大語言模型gpt-3中訓練的大量各個領域的專業知識,很多現有的視覺問答模型引入了預訓練的gpt-3中的專業知識,本發明在預訓練的大語言模型gpt-3中引入了農作物病害隱性知識,并且在這兩種外部知識的檢索過程中使圖像信息得到深度參與,降低了文本偏差,將農作物病害使用目標檢測模型和圖像字幕生成模型處理后,使用特征提取器提取病害圖像特征,然后利用圖像特征檢測顯性知識文本,使用圖像字幕文本和目標標簽文本合成文本提示在預訓練的大語言模型gpt-3中檢索隱性知識文本,然后使用大型語言編碼器t5模型提取問題文本、顯性知識和隱性知識文本的文本特征,相比于lstm和小規模的transformer模型,預訓練的大型語言編碼器t5模型可以更完整的提取出文本特征,最后將這兩種不同模態的特征輸入編碼器-解碼器的網絡中,這種結構被證明可以有效處理多模型特征信息,被改造成了多種其他模型,最后生成答案。本發明所提出的農作物病害視覺問答模型,能夠有效回答有關農作物病害圖像的視覺特征以及涉及與病害圖像相關的外部知識的問題,為智慧農業發展中農作物病害具體信息的獲取和防治策略的制定提供參考。
1.一種引入外部知識的農作物病害視覺問答方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的引入外部知識的農作物病害視覺問答方法,其特征在于,
3.根據權利要求1所述的引入外部知識的農作物病害視覺問答方法,其特征在于,
4.根據權利要求1所述的引入外部知識的農作物病害視覺問答方法,其特征在于,
5.根據權利要求1所述的引入外部知識的農作物病害視覺問答方法,其特征在于,
6.根據權利要求1所述的引入外部知識的農作物病害視覺問答方法,其特征在于,
7.根據權利要求6所述的引入外部知識的農作物病害視覺問答方法,其特征在于,
8.根據權利要求7所述的引入外部知識的農作物病害視覺問答方法,其特征在于,
9.一種引入外部知識的農作物病害視覺問答系統,其特征在于,包括如下模塊:
10.一種計算機設備,該計算機設備包括存儲器和一個或多個處理器;在存儲器中存儲有可執行代碼;其特征在于,當處理器執行可執行代碼時,用于實現上述權利要求1至8中任一項所述的引入外部知識的農作物病害視覺問答方法。