本發明涉及文本檢測,具體涉及基于損失權重模塊與dbnet網絡的文本檢測方法。
背景技術:
1、作為語言的書寫形式,文本使得信息能夠跨越時空進行傳播和獲取。文本中包含精確且豐富的語義信息,被廣泛地應用于現實場景,幫助我們更為深刻地理解周圍的世界。
2、目前,隨著智能時代的興起,自然場景文本檢測正成為計算機視覺領域的一個關鍵研究方向,越來越多人把精力都放在研究如何把文字從復雜場景檢測出來。該領域的研究進展為多領域下游任務的解決提供了有力支撐。
3、文本檢測是對文本進行識別的前提,是ocr(光學字符識別,optical?characterrecognition)領域重要的研究熱點。目前,文本檢測方法主要分為:基于anchor的文本檢測方法和基于pixel的文本檢測方法、基于dbnet的的文本檢測方法。
4、其中,wang?et?al.(2019)提出的psenet算法通過將網絡提取出的特征進行融合,然后利用分割的方式將提取出的特征進行像素分類,最后利用像素的分類結果通過一些后處理得到文本檢測結果。liao?et?al.(2019)提出了dbnet算法,該算法通過引入可微分的二值化模塊,將二值化操作插入到分割網絡中進行聯合優化,使得圖像中每一個像素點的閾值均由網絡學習得到,從而可較好地區分前景和背景的像素。但其對于背景復雜的圖片仍存在檢測不準確的問題。
5、基于分割的場景文本檢測近年來備受關注,受益于其在像素級的預測結果,它可以描述各種形狀的文本。但是,大多數基于分割的方法都需要復雜的后處理才能將像素級預測結果分組到檢測到的文本實例中,從而導致推理過程花費大量時間,而dbnet網絡由于其能夠得到的高度穩健的二值化圖,從而極大地簡化了后處理操作。
6、但是dbnet網絡依舊存在以下問題:芯片數據集樣本過少,在訓練過程中,原有dbnet網絡無法較好地學習到圖片的特征,導致網絡整體的檢測準確率較低。
7、基于此,本發明設計了基于損失權重模塊與dbnet網絡的文本檢測方法以解決上述問題。
技術實現思路
1、針對現有技術所存在的上述缺點,本發明提供了基于損失權重模塊與dbnet網絡的文本檢測方法。
2、為實現以上目的,本發明通過以下技術方案予以實現:
3、基于損失權重模塊與dbnet網絡的文本檢測方法,包括以下步驟:
4、一、將圖像輸入特征提取主干網絡中,進行特征提取;
5、二、通過特征金字塔網絡采樣得到相同尺寸的圖像,并進行特征級聯得到特征圖f;
6、三、特征圖f用于預測概率圖p和閾值圖t;
7、四、概率圖p和閾值圖t通過可微分的二值化模塊計算得到近似二值圖b;
8、五、引入損失權重模塊,參與計算概率圖p、閾值圖t、近似二值圖b的損失函數;
9、六、通過概率圖p或近似二值圖b得到文本包圍框。
10、更進一步的,定義概率圖p的損失函數focal-bce?loss,即lfb,引入損失權重模塊作為其權重。
11、更進一步的,定義近似二值圖b的損失函數focal-dice?loss,即lfd,引入損失權重模塊作為dice?loss的權重。
12、更進一步的,定義閾值圖t的損失函數focal-l1loss,即lfl,引入損失權重模塊作為其權重。
13、更進一步的,定義focal?loss為損失權重模塊,公式如下:
14、lfocal=-η(1-pt)γlog(pt)
15、其中,pt反映了與真實值之間的接近程度,pt越大,說明越接近真實值,即檢測越準確;η,γ均為超參數,本發明根據經驗將η設為1,γ設為2。
16、更進一步的,概率圖p的損失函數focal-bce?loss的計算公式如下:
17、
18、其中,xi表示預測值,yi表示真實值,s1表示特征向量空間。
19、更進一步的,近似二值圖b的損失函數focal-dice?loss(lfd)的計算公式如下:
20、
21、其中,tp表示將正類預測為正類數;fp表示將負類預測為正類數,即誤報;fn表示將正類預測為負類數,即漏報。
22、更進一步的,閾值圖t的損失函數focal-l1?loss(lfl)的計算公式如下:
23、
24、其中,n表示特征空間像素點的個數,f(x)表示模型輸出值,即預測值,xi表示模型輸入特征值,yi表示真實值。
25、本發明相較于現有技術,其有益效果為:
26、本發明為了保證在較少樣本的情況下仍能保持較高的檢測準確率,通過設計損失權重模塊并將其嵌入到原本的dbnet網絡中形成fldbnet網絡,來提高網絡對于少樣本數據集特征的學習能力,進而提高網絡整體的檢測性能。
27、本發明通過引入損失權重模塊,提高了檢測不準確樣本的損失值在總損失值中的權重,增強了網絡對少樣本數據集的特征學習能力,提高了模型對數據集的文本檢測性能。
28、本發明的fldbnet網絡對芯片數據集的文本檢測效果優于dbnet網絡。
1.基于損失權重模塊與dbnet網絡的文本檢測方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于損失權重模塊與dbnet網絡的文本檢測方法,其特征在于,定義概率圖p的損失函數focal-bce?loss,即lfb,引入損失權重模塊作為其權重。
3.根據權利要求2所述的基于損失權重模塊與dbnet網絡的文本檢測方法,其特征在于,定義近似二值圖b的損失函數focal-dice?loss,即lfd,引入損失權重模塊作為diceloss的權重。
4.根據權利要求3所述的基于損失權重模塊與dbnet網絡的文本檢測方法,其特征在于,定義閾值圖t的損失函數focal-l1?loss,即lfl,引入損失權重模塊作為其權重。
5.根據權利要求4所述的基于損失權重模塊與dbnet網絡的文本檢測方法,其特征在于,定義focal?loss為損失權重模塊,公式如下:
6.根據權利要求5所述的基于損失權重模塊與dbnet網絡的文本檢測方法,其特征在于,概率圖p的損失函數focal-bce?loss的計算公式如下:
7.根據權利要求6所述的基于損失權重模塊與dbnet網絡的文本檢測方法,其特征在于,近似二值圖b的損失函數focal-dice?loss的計算公式如下:
8.根據權利要求7所述的基于損失權重模塊與dbnet網絡的文本檢測方法,其特征在于,閾值圖t的損失函數focal-l1?loss的計算公式如下: