本發明具體涉及信息檢索領域,具體涉及一種基于深度學習的跨媒體中草藥植物圖像檢索方法。
背景技術:
:中草藥植物圖像檢索技術屬于微差圖像檢索的一部分,意在根據用戶輸入的圖片及描述文本(二者至少取其一),得到用戶所檢索的中草藥圖像的類別,增加描述信息意在解決僅根據圖像進行圖像檢索時遇到的準確率問題,增加相應的植物描述信息如葉片情況等能夠提高圖像檢索的準確率。目前常用圖像檢索中,通常利用局部特征描述算子如SIFT等生成局部特征,之后利用特征編碼方法如BagofVisualWords(BoV)進行特征編碼,之后使用非線性核函數支持向量機(SVM)進行特征分類,訓練分類模型。在實際操作中,非線性核函數支持向量機(SVM)往往需要較長時間進行數據處理,當面對較大數據集時時間復雜度導致的性能衰減非常明顯。同時僅根據用戶上傳圖像進行圖像檢索需要用戶所上傳圖像具有較好的圖像質量。中草藥圖像中往往含有復雜背景,被攝主體不明確等情況,增加額外的文本描述信息,并在最終系統中增加描述信息的內容有助于提高圖像檢索準確度。技術實現要素:目前比較通用圖像檢索方法由于時間和背景的約束,無法應用在中草藥植物圖像的檢索上,需要考慮增加文本描述信息來輔助圖像檢索匹配技術進行準確率的提升。以及在面對較大訓練集的圖片數據庫時,傳統的非線性SVM分類器的性能會有明顯衰減,需要謀求一種使用線性SVM分類器的模型進行圖像分類訓練。在圖像檢索過程中,增加描述文本需要考慮如何將表征描述文本,以及如何表征圖像特征,如何進行兩者的結合。為實現上述目的,本發明采用如下技術方案:一種基于深度學習的跨媒體中草藥植物圖像檢索方法,包括以下步驟:1)通過OCR、文本結構化處理,從植物分類數據中提取結構化植物分類描述;2)使用中文分詞工具,對所有植物分類描述進行預處理,預處理包括分詞和去停用詞,并建立詞典;3)在步驟2)建立的詞典基礎上,用word2vec模型根據所有植物分類描述構建詞向量;4)利用FisherVector特征編碼方法,根據植物分類描述中所包含的詞的詞向量,生成植物分類描述的特征;5)根據已有圖像數據庫及圖像類別,利用卷積神經網絡進行模型訓練;6)根據步驟5)訓練出的卷積神經網絡模型,根據每張圖片在神經網絡中得到的倒數第二層全連接層的輸出即4096維特征向量作為圖片特征;7)將植物類別對應的文本特征與圖像特征進行特征融合;8)將步驟7)生成的融合特征送入線性SVM分類器進行模型構建;9)用戶檢索時輸入的圖像或/和植物描述文本,根據輸入的植物描述文本,在步驟2)建立的詞典基礎上,利用word2vec模型生成描述文本詞向量表示;根據輸入的圖像,利用步驟6)生成植物圖像特征向量;然后利用步驟7)將描述文本詞向量和圖像特征向量進行編碼,得到融合的特征向量,最后利用步驟8)得到用戶檢索圖像類別。更具體地,對于植物分類描述詞向量構建所使用的word2vec的參數有:使用skip-gram模型,輸出詞向量維數為80,訓練窗口大小為8,詞最低出現頻率為5,采樣閾值為10-4。對于利用FisherVector特征編碼方法,根據植物分類描述中所包含的詞的詞向量,生成植物分類描述的特征具體做法為:在所有植物分類描述80維詞向量上計算參數K為256的高斯混合模型GMM,利用該模型,將每類植物描述用長度為2KD=2*256*80=40960的FisherVector替代。用于圖像特征提取的卷積神經網絡結構定義為:名稱卷積核大小/步長卷積核數量網絡深度全連接層神經元個數conv-13x3/1641/conv-23x3/1642/conv-33x3/11283/conv-43x3/12564/conv-53x3/12565/conv-63x3/12566/conv-73x3/15127/conv-83x3/15128/conv-93x3/15129/fc-1//104096fc-2//114096fc-3//12276對于最終的融合特征,首先將植物分類描述特征與圖像特征進行拼接,之后利用PCA將維度減少到12800維所述的中文分詞工具包括Java的IKAnalyzer和Python的Jieba。神經網絡訓練方式使用Caffe。本發明相對于現有技術的有益效果為:1)提高中草藥圖像檢索的準確性和速度;2)可以使用描述文本結合圖像數據進行結合檢索;3)在大數據集情況下,模型性能不會產生衰減;4)本發明所闡述方法具有一般性,可適用于其他領域的圖像檢索。附圖說明圖1為圖像檢索模型建立的整體流程。其中實線部分為模型訓練流程,虛線部分為用戶檢索流程;圖2為實施例中利用word2vec生成的百合的描述文本的詞向量。具體實施方式以下結合具體實例以及附圖對本發明作進一步詳細說明。首先按照圖1中的實現流程進行模型訓練,分為兩塊,這兩塊步驟不分先后。1)通過OCR,文本結構化處理,從植物分類書籍中提取結構化植物分類描述;2)使用中文分詞工具,對所有植物描述文本包括分詞和去停用詞在內的預處理,并建立詞典;3)用word2vec模型根據所有植物分類描述文本構建詞向量,并把每段植物分類文本替換成詞向量所構成的矩陣表示;4)利用FisherVector特征編碼方法,根據植物分類描述中所包含的詞的詞向量,生成植物分類描述的特征;以上步驟完成對于中草藥植物文本描述的特征向量化方式,得到文本描述的特征。5)根據已有圖像數據庫及圖像類別,利用卷積神經網絡進行模型訓練;6)根據步驟5)訓練出的卷積神經網絡模型,根據每張圖片在神經網絡中得到的倒數第二層全連接層的輸出作為圖片特征;以上步驟根據中草藥圖像數據庫中的圖像進行訓練,基于卷積神經網絡的訓練提取出中草藥圖像的圖像特征。之后將圖片對應的描述文本與圖像特征進行結合,進行下面的步驟:7)將植物類別對應的文本特征與圖像特征進行特征融合;8)將特征送入線性SVM分類器進行模型構建;以上完成整個模型的構建,即圖1中實現部分流程。用戶檢索階段對應圖1虛線部分流程,主要可分為如下步驟:1)將用戶的檢索輸入圖片(若有)送進卷積神經網絡中得到圖像特征向量;將用戶輸入的描述文本(若有)進行分詞后利用計算好的word2vec得到描述文本詞結合FisherVector模型,構建用戶輸入的描述文本特征向量。2)將文本特征向量與圖像特征向量進行編碼整合,用以表征用戶該次檢索;3)利用已經訓練好的SVM分類器得到用戶檢索內容。實施例植物百合描述文本:鱗莖球形,直徑2-4.5厘米;鱗片披針形,長1.8-4厘米,寬0.8-1.4厘米,無節,白色。莖高0.7-2米,有的有紫色條紋,有的下部有小乳頭狀突起。葉散生,通常自下向上漸小,披針形、窄披針形至條形,長7-15厘米,寬(0.6-)1-2厘米,先端漸尖,基部漸狹,具5-7脈,全緣,兩面無毛。花單生或幾朵排成近傘形;花梗長3-10厘米,稍彎;苞片披針形,長3-9厘米,寬0.6-1.8厘米;花喇叭形,有香氣,乳白色,外面稍帶紫色,無斑點,向外張開或先端外彎而不卷,長13-18厘米;外輪花被片寬2-4.3厘米,先端尖;內輪花被片寬3.4-5厘米,蜜腺兩邊具小乳頭狀突起;雄蕊向上彎,花絲長10-13厘米,中部以下密被柔毛,少有具稀疏的毛或無毛;花藥長橢圓形,長1.1-1.6厘米;子房圓柱形,長3.2-3.6厘米,寬4毫米,花柱長8.5-11厘米,柱頭3裂。蒴果矩圓形,長4.5-6厘米,寬約3.5厘米,有棱,具多數種子。花期5-6月,果期9-10月。利用開源的中文分詞工具對所有植物類別描述文本進行預處理,預處理包括分詞和去停用詞,并建立詞典,分詞結果如下:鱗莖|球形|,|直徑|2|4.5|厘米|;|鱗片|披針|形|,|長|1.8|4|厘米|,|寬|0.8|1.4|厘米|,|無節|,|白色|。|莖|高|0.7|2|米|,|有|的|有|紫色|條紋|,|有|的|下部|有|小|乳頭狀|突起|。|葉散生|,|通常|自下|向上|漸|小|,|披針|形|、|窄|披針|形至|條形|,|長|7|15|厘米|,|寬|0.6|1|2|厘米|,|先端|漸尖|,|基部|漸|狹|,|具|5|7|脈|,|全緣|,|兩面|無毛|。|花單生|或|幾朵|排成|近|傘形|;|花梗|長|3|10|厘米|,|稍|彎|;|苞片|披針|形|,|長|3|9|厘米|,|寬|0.6|1.8|厘米|;|花|喇叭形|,|有|香氣|,|乳白色|,|外面|稍帶|紫色|,|無|斑點|,|向外|張開|或|先端|外彎|而|不卷|,|長|13|18|厘米|;|外輪|花被|片|寬|2|4.3|厘米|,|先端|尖|;|內輪|花被|片|寬|3.4|5|厘米|,|蜜腺|兩邊|具小|乳頭狀|突起|;|雄蕊|向上|彎|,|花絲|長|10|13|厘米|,|中部|以下|密|被|柔毛|,|少有|具|稀疏|的|毛|或|無毛|;|花藥|長|橢圓形|,|長|1.1|1.6|厘米|;|子房|圓柱形|,|長|3.2|3.6|厘米|,|寬|4|毫米|,|花柱|長|8.5|11|厘米|,|柱頭|3|裂|。|蒴果|矩|圓形|,|長|4.5|6|厘米|,|寬約|3.5|厘米|,|有|棱|,|具|多數|種子|。|花期|5|6|月|,|果期|9|10|月|。結合word2vec模型,得到詞向量如圖2,共80維。利用FisherVector模型,設置其GMM參數K=256,得到百合描述文本特征向量共40960維。利用當前已有的中草藥基源數據庫,訓練卷積神經網絡,得到卷積神經網絡模型,將一張百合圖片送入模型中,得到模型倒數第二層全連接層輸出,將其作為圖像特征共4096維。之后利用特征拼接將植物分類描述特征與圖片特征進行融合得到45056特征向量,再使用PCA進行降維得到百合的12800維融合特征向量。最后將融合特征送入SVM分類器后得到可得到類別信息,即百合。當前第1頁1 2 3