本發明涉及圖像處理技術領域,具體涉及一種基于多通道極值區域(er)的自然場景文本檢測方法。
背景技術:
隨著計算機技術、人工智能等先進技術的迅速發展,圖像處理技術向更深層次發展,人們開始研究如何用計算機系統來模擬人類視覺系統,進而按照人類視覺認知過程來解析和理解外部世界。自然場景中不僅有大量的圖形信息,還存在蘊含豐富內涵的文本信息,例如,街道名稱、建筑物門牌號、公共汽車站牌、商店名稱、公告板和廣告牌上的文字等等。這些文本字符對場景視覺信息的表達具有重要價值,是描述和理解場景內容的關鍵線索。因此將場景圖像中的文字抽取出來,有利于場景圖像的內容分析、檢索,可以廣泛應用于,視頻檢索與分析、盲人導航、無人駕駛、智能交通等多個領域。
目前,已存在的自然場景文本檢測方法大致可以分為四類:基于連通域的方法、基于邊緣的方法、基于紋理的方法和復合方法,基于連通域分析的方法是假設同一區域的字符具有相似的顏色和亮度,并且與背景區域的顏色存在較大差異的基礎上,從圖像中提取連通區域,然后利用幾何約束構造啟發式規則進行連通域分析,將子區域合并得到最終的文本區域。基于邊緣特征的方法是利用文本區域具有豐富的邊緣信息這一特點進行文本區域檢測,首先采用某種邊緣檢測算子從原圖像中檢測出邊緣,然后通過形態學方法將邊緣連接成文本塊,最后利用一些啟發式規則進行篩選,得到最終的文本區域。基于紋理的方法把文本區域看作是一種可與背景區分開來的特殊的紋理,通常采用gabor變換、小波變換和傅里葉變換等方法檢測圖像中文本區域的紋理特征。復合方法通常是多種方法結合在一起,取長補短,綜合性能,構造出新的文本定位框架。
由于自然場景中文本的大小、格式、方向和對齊方式等變化多樣,受字符對比度較低、背景復雜、低分辨率等條件的制約,使得圖像中文本認知是一項極具挑戰性的任務。由此可見,自然場景中文本檢測技術具有非常重大的理論意義和實用價值。
技術實現要素:
本發明的目的在于針對現有技術中自然場景文本的大小、字體、背景等諸多因素導致的檢測難點,提供一種基于多通道極值區域的自然場景文本檢測方法,該檢測方法利用自然場景中的文本灰度基本穩定且與周圍背景存在較大差異這一特點,通過多通道提取極值區域得到候選的文本區域,然后通過機器學習的方法過濾非文本區域,進而形成文本行并再次用機器學習方法進行驗證達到檢測的目的。
為解決上述技術問題,本發明公開的一種基于多通道極值區域的自然場景文本檢測方法,其特征在于,它包括如下步驟:
步驟1:輸入待檢測rgb(紅、綠、藍三色)圖像;
步驟2:將待檢測rgb圖像轉換到hsi(色調、色飽和度和強度)顏色空間,分別提取hsi顏色空間中待檢測圖像的色調、飽和度和灰度,并分別對hsi顏色空間中待檢測圖像的色調、飽和度和灰度取反得到6個單獨通道圖像;
步驟3:對步驟2中的6個單獨通道圖像分別進行極值區域檢測,得到對應的多個初步候選文本區域;
步驟4:將圖像數據集的訓練集中的每張圖片依次進行極值區域檢測,對每張圖片檢測時,計算當前檢測圖片得到的極值區域的面積,將這些極值區域的面積與當前檢測圖片中的真實文本區域計算面積重疊率,若檢測得到的極值區域的面積與當前檢測圖片中真實文本區域的面積重疊率大于面積重疊率閾值,則將這個極值區域歸為正樣本,否則,將這個極值區域歸為負樣本,然后對所有正負樣本進行圖像大小歸一化處理;
步驟5:隨機選取正樣本a個,負樣本2a個,對每個正樣本和負樣本分別提取梯度方向直方圖和局部二值模式特征,并根據提取的梯度方向直方圖和局部二值模式特征構建特征向量;
步驟6:將步驟5得到的特征向量構建成正負樣本特征矩陣,并構建對應的標簽集,將帶有標簽集的正負樣本特征矩陣輸入支持向量機(svm,supportvectormachine)進行訓練,得到一個分類器模型;
步驟7:將步驟3得到不同通道的每個初步候選文本區域分別提取梯度方向直方圖和局部二值模式特征,并將提取的梯度方向直方圖和局部二值模式特征輸入支持向量機進行預測,保留預測的文本區域,濾除預測的非文本區域;
步驟8:將不同通道經過支持向量機保留下來的文本區域綜合,確定單個文本區,并去除重復的文本區域;
步驟9:對步驟8得到的單個文本區域進行聚合得到初始文本行,主要方法為提取相鄰兩個文本區域中文本的平均筆畫寬度比rsw,相鄰兩個文本區域的高度比rh,相鄰兩個文本區域的質心縱坐標差cy,相鄰兩個文本區域的灰度強度差i,相鄰兩個文本區域的水平間距d,選取滿足rsw∈[1,2.5],rh∈[0,2],i∈[0,30],d∈[0,1.4],cy∈[0,30]的兩兩連通域將其聚集成鏈,最后形成一系列文本行,此時得到的初始文本行既包含真文本行也包含上述步驟濾除不完全的非文本區域而聚合的假的文本行,其中,rsw、rh和i無單位,cy和d單位為像素;
步驟10:對步驟9得到的初始文本行提取梯度方向直方圖和局部二值模式特征輸入到步驟6訓練得到的文本行分類器模型中,進一步濾除錯誤文本行。
本發明的有益效果:
本發明利用場景文本的特點結合機器學習的方法,采用多通道的極值區域檢測提取候選文本區域,能夠檢測出更多候選文本,進而提升整體召回率,同時,采用啟發式規則與機器學習相結合的方法,去除大量重復區域,運用經典的支持向量機構建單個字符文本和文本行的兩個分類器模型,有效的濾除非文本區域,能夠較好的提升準確率。本發明系統簡單方便,通用性高,運用成熟的算法和特征并結合機器學習方法,能達到較好的檢測效果。
附圖說明
圖1為本發明所述方法流程示意圖;
圖2為待檢測圖像;
圖3為單字符正負樣本示意圖;
圖4為局部二值模式特征提取示意圖;
圖5為多通道分別經過支持向量機濾除綜合后的示意圖;
圖6為經過多通道去重后的示意圖;
圖7為初步形成的文本行示意圖;
圖8為文本行驗證后的示意圖。
具體實施方式
以下結合附圖和具體實施例對本發明作進一步的詳細說明:
本發明的一種基于多通道極值區域的自然場景文本檢測方法,如圖1所示,它包括如下步驟:
步驟1:輸入待檢測rgb圖像,如圖2;
步驟2:將待檢測rgb圖像轉換到hsi顏色空間,分別提取hsi顏色空間中待檢測圖像的色調(hue)、飽和度(sat)和灰度(gray),并分別對hsi顏色空間中待檢測圖像的色調、飽和度和灰度取反得到6個單獨通道圖像;
步驟3:對步驟2中的6個單獨通道圖像分別進行極值區域檢測,得到對應的多個初步候選文本區域;
步驟4:構建正負樣本集,將圖像數據集的訓練集中的每張圖片依次進行極值區域檢測,對每張圖片檢測時,計算當前檢測圖片得到的極值區域的面積,將這些極值區域的面積與當前檢測圖片中的真實文本區域計算面積重疊率,若檢測得到的極值區域的面積與當前檢測圖片中真實文本區域的面積重疊率大于面積重疊率閾值,則將這個極值區域歸為正樣本,否則,將這個極值區域歸為負樣本,然后對所有正負樣本進行圖像大小歸一化處理,如圖3;
步驟5:隨機選取正樣本a個,負樣本2a個,對每個正樣本和負樣本分別提取梯度方向直方圖(histogramoforientedgradient)和局部二值模式特征(localbinarypattern),并根據提取的梯度方向直方圖和局部二值模式特征構建特征向量;
步驟6:將步驟5得到的特征向量構建成正負樣本特征矩陣,并構建對應的標簽集,將帶有標簽集的正負樣本特征矩陣輸入支持向量機進行訓練,得到一個分類器模型;
步驟7:將步驟3得到不同通道的每個初步候選文本區域分別提取梯度方向直方圖和局部二值模式特征,并將提取的梯度方向直方圖和局部二值模式特征輸入支持向量機進行預測,保留預測為1的文本區域,濾除預測為0的非文本區域,如圖5;
步驟8:將不同通道經過支持向量機保留下來的文本區域綜合,確定單個文本區,并去除重復的文本區域;由于多個通道檢測對于同一區域的檢測結果大致一樣,所以可用通過對比每個矩形區域左上和右下兩個頂點的坐標,計算兩矩形對應坐標差,將坐標差在[-4,4]內的矩形歸為同一類,并計算同一類中每個矩形的面積,選取面積最大者以達到去除重復的目的,如圖6;
步驟9:對步驟8得到的單個文本區域進行聚合得到初始文本行,主要方法為提取相鄰兩個文本區域中文本的平均筆畫寬度比rsw,相鄰兩個文本區域的高度比rh,相鄰兩個文本區域的質心縱坐標差cy,相鄰兩個文本區域的灰度強度差i,相鄰兩個文本區域的水平間距d,選取滿足rsw∈[1,2.5],rh∈[0,2],i∈[0,30],d∈[0,1.4],cy∈[0,30的兩兩連通域將其聚集成鏈,最后形成一系列文本行,如圖7,此時得到的初始文本行既包含真文本行也包含上述步驟濾除不完全的非文本區域而聚合的假的文本行,其中,rsw、rh和i無單位,cy和d單位為像素;
步驟10:對步驟9得到的初始文本行提取梯度方向直方圖和局部二值模式特征輸入到步驟6訓練得到的文本行分類器模型中,進一步濾除錯誤文本行,提升準確率,如圖8。
計算上述步驟10得到的結果的準確率,召回率,f值的防守如下:
準確率和召回率是信息檢索和數據分類中普遍使用的兩個度量值,f值用于評價算法整體性能。準確率越高,說明得到的結果中真實的文本越多;召回率越高,說明漏掉的文本越少;f值綜合評價算法性能,越高表示算法性能越好。利用這三個指標對算法進行評價,通過數據集提供的真實矩形和算法輸出的區域最小外接矩形的匹配程度來計算,兩矩形r1和r2的匹配程度mp,定義為r1和r2重疊區域的面積除以同時包含r1、r2的最小外接矩形的面積,mp∈[0,1]。單個矩形r與矩形集合r的最佳匹配m(r;r)定義為:
m(r;r)=max{mp(r;r′)|r′∈r}
設t為圖片中真實文本區域外接矩形集合,e為算法輸出文本區域外接矩形集合,|·|表示集合內元素的數量,則準確率(pre)、召回率(recall)及f值定義如下:
其中,
計算出來的準確率為76%,召回率為78%,f值為77,表明了本發明的有效性。
上述技術方案中,所述相鄰兩個文本區域中文本的平均筆畫寬度比rsw,相鄰兩個文本區域的高度比rh,相鄰兩個文本區域的質心縱坐標差cy,相鄰兩個文本區域的灰度強度差i,相鄰兩個文本區域的水平間距d,計算公式如下:
相鄰兩個文本區域中文本的平均筆畫寬度比rsw:
其中,swi和swj分別表示連通域中相鄰兩個文本區域中文本的平均筆畫寬度;
相鄰兩個文本區域的高度比rh:
其中,hi和hj分別表示連通域中相鄰兩個文本區域的高度;
相鄰兩個文本區域的灰度強度差i:
i=abs(ii-ij)
其中,ii和ij分別表示連通域中相鄰兩個文本區域的灰度強度,abs表示取絕對值;
相鄰兩個文本區域的質心縱坐標差cy:
cy=abs(tiy-tjy)
其中,tiy和tjy分別表示連通域中相鄰兩個文本區域的質心坐標,abs表示取絕對值;
相鄰兩個文本區域的水平間距d:
其中,cx和cy分別表示連通域中相鄰兩個文本區域的x軸質心坐標差和y軸質心坐標差,wi和wj分別表示連通域中相鄰兩個文本區域的寬度。
上述技術方案的步驟5中,隨機選取正樣本a個,負樣本2a個,對每個正樣本和負樣本分別提取梯度方向直方圖和局部二值模式特征,并根據提取的梯度方向直方圖和局部二值模式特征構建特征向量的具體方法為:
步驟5.1:梯度方向直方圖特征是一種在計算機視覺和圖像處理中用來進行物體檢測的特征描述子,它通過計算和統計圖像局部區域的梯度方向直方圖來構成特征,計算過程如下:
步驟5.1.1:將待檢測rgb圖像灰度化;
步驟5.1.2:采用gamma校正法對輸入圖像進行顏色空間的歸一化,目的是調節圖像的對比度,降低圖像局部的陰影和光照變化所造成的影響,同時可以抑制噪音的干擾;
步驟5.1.3:計算待檢測rgb圖像每個像素的梯度(包括大小和方向);主要是為了捕獲輪廓信息,同時進一步弱化光照的干擾;
步驟5.1.4:將待檢測rgb圖像劃分成多個8*8像素的圖片單元(cell);
步驟5.1.5:統計每個圖片單元的梯度直方圖,即可形成每個圖片單元的描述(descriptor);
步驟5.1.6:將每四個圖片單元組成一個塊(本文選取2*2個圖片單元/塊),一個塊內所有圖片單元的特征描述串聯起來便得到該塊的方向梯度直方圖特征描述;
步驟5.1.7:將待檢測rgb圖像內的所有塊的方向梯度直方圖特征描述串聯起來就可以得到該圖片的方向梯度直方圖特征向量;
步驟5.2:局部二值模式特征是一種用來描述圖像局部紋理特征的算子,它具有旋轉不變性和灰度不變性等顯著的優點,計算過程如下:
步驟5.2.1:對待檢測rgb圖像中每個像素點的3x3鄰域,以窗口中心像素為基準,將相鄰的8個像素的灰度值與其進行比較,若周圍像素灰度值大于中心像素灰度值,則該像素點的位置被標記為1,否則為0,從左上角開始按順時針方向將8個標記值級聯,得到8位二進制數,將二進制數轉化為十進制作為中心像素點的局部二值模式值(lbp,localbinarypatterns),如圖4;
步驟5.2.2:統計步驟5.2.1中每個局部二值模式值出現的次數;得到局部二值模式直方圖;
步驟5.2.3:對步驟5.2.2得到的局部二值模式直方圖歸一化得到特征向量,即該圖像的局部二值模式紋理特征向量。
上述技術方案中,所述步驟5中隨機選取正樣本為2000個,負樣本4000個。
上述技術方案中,所述步驟6中標簽集為正樣本為1,負樣本為0。
上述技術方案中,所述步驟4中,對所有正負樣本進行圖像大小歸一化處理將正負樣本歸一化為64x64像素大小,如圖3。
本說明書未作詳細描述的內容屬于本領域專業技術人員公知的現有技術。