專利名稱:一種確定一組不同特征的級聯分類器的連接順序和特征閾值的方法
技術領域:
本分明涉及一種數字圖像處理領域,尤其涉及一種確定一組不同特征的級聯分類器的連接順序和特征閾值的方法,以及利用由該方法形成的級聯分類器組從圖像中獲取選定的圖像的方法。
背景技術:
自然場景中的文本檢測和分割有很多應用。隨著高性能、低價格、便攜式數碼影像設備的增加,場景文本識別的應用急速擴展。通過使用和手機、PDA或其他專用數碼設備相連的攝像機,我們能輕易地捕取身邊的文本例如路名、廣告、交通警告、飯店菜單等等。對這些文本的自動識別、翻譯和發音能夠對海外游客、視覺障礙人士和視頻檢索程序、會議處理等起到很大的幫助。
從圖像特別是自然場景圖像中全自動地提取文本,始終是一個具有挑戰性的問題。其難點包括字符的字體、大小、復雜背景、非均勻光照、陰影和圖像噪聲等。而且,對圖像處理速度的要求也越來越高。
近年來,針對自然場景圖像中文本獲取的工作有了較快的發展。目前有兩類從自然場景圖像中獲取文本的方法。
第一類是基于紋理的方法。Shin等人在2000年發表的《基于支持向量機的數字視頻文本檢測》中使用星型像素模板來揭示文本的內在特征。在2000年9月發表的《使用局部化度量方法獲取文本區域》中,P.Clark等人仔細地提出了5種局部化的度量方法,并將這些度量組合來求得候選文本區域。頻域方法也被用于檢測類似文本的紋理,例如短掃描行的傅立葉變換,離散余弦變換,Gabor變換,小波分解,多分辨率邊緣檢測。我們發現對于相對較小的字符,如菜單或文檔中的文本行,這些方法效果良好,因為小文本通常擁有強紋理響應。然而,對于大字符,例如路旁或店名,對于復雜背景的強紋理響應會誤導這些算法,從而留下很多大字符沒有被發現。
第二類方法是基于連通分量(Connected-Component,CC)的方法。彩色量化,數學形態學操作和對稱鄰域濾波通常被用于將原始圖像分解為候選連通分量。這些算法能有效地處理大字符和小字符。但如何從候選連通分量中提取文本連通分量,人們往往使用啟發式的方法,例如長寬比,對齊與合并分析,布局分析,多層連通分量分析。這類方法的缺點在于,所有啟發式的規則是固定的順序,而且其閾值是手動輸入的經驗值,通常不穩定,不能保證得到魯棒的檢測結果。另外,還可以用一種強分類器(例如支持向量機,SupportVector Machine,SVM)從候選連通分量中提取文本連通分量,這類方法的缺點是對每個連通分量必須計算其全部特征,計算量和耗費的時間都太大了。
本發明受到人臉檢測技術的啟發,利用級聯分類器組從候選連通分量中提取要選定的連通分量(例如,文本連通分量),在提高圖像處理速度的同時能獲得很高的檢測率。
發明內容
本發明的目的之一在于提出一種確定一組不同特征(F1,F2,...,FM)的級聯分類器(h1,h2,...,hM)的連接順序和特征閾值的方法。該級聯分類器組用于從由圖像分解而得的候選連通分量中提取要選定的連通分量,這里的不同特征與要選定的圖像相關,該方法包括以下步驟a.通過分解至少一幅圖像而獲得多個連通分量作為當前樣例,并將M個不同特征的級聯分類器作為當前各個特征的級聯分類器,所述當前樣例包括正例集合P和反例集合N,所述正例是要選定的連通分量,所述反例是非選定的連通分量;b.將當前樣例并行送入當前各個特征的級聯分類器中,進行i次循環訓練中的一次訓練,其中i為0<i≤M的正整數,依次選取參與每次訓練的當前所有特征中最大虛警率對應的特征,由此確定各個不同特征的級聯分類器的連接順序,其中所述虛警率為每次訓練中被級聯分類器誤認為要選定的連通分量而實際為非選定的連通分量的數量與當前反例數量之比;c.每次選取特征后,再將當前樣例送入此次選取的特征對應的級聯分類器中進行訓練,在此訓練過程中,虛警率和檢測率都不斷變化,并根據該特征被允許的最小檢測率獲取所述特征的閾值區間,由此確定各個不同特征的級聯分類器的特征閾值區間;所述檢測率為一個級聯分類器正確檢測出的選定連通分量的數量與正例數量之比;以及d.在執行步驟b和c之后,刪除步驟b中被選取的特征和該特征的分類器以更新當前特征和當前各個特征的分類器,并且將該次訓練中的正例集合保持不變以及將步驟c中獲得特征的閾值區間時被級聯分類器誤認為要選定的連通分量而實際為非選定的連通分量作為新的反例集合來更新當前樣例,用于下次循環訓練。
上述步驟a中將圖像分解為連通分量進一步包括以下步驟a1.用非線性Niblack閾值化方法處理所述圖像;和a2.將所述處理后的圖像分解為連通分量。
其中,非線性Niblack閾值化方法在標準Niblack方法的背景濾波器和前景濾波器中各增加了一個統計順序濾波器。
本發明的另一目的在于提供一種從圖像中獲取要選定的圖像的方法,包括以下步驟A.將圖像分解為連通分量;B.將該連通分量送入根據前述方法所級聯起來的一組不同特征的級聯分類器的第一級,該特征與要選定的圖像相關,每一個級聯分類器丟棄非選定連通分量,并向下一級分類器輸出要選定的連通分量;以及C.將級聯分類器組中最后一級分類器輸出的要選定的連通分量組合形成要選定的圖像。
本發明的又一目的在于提供一種從圖像中獲取要選定的圖像的裝置,該裝置包括分解裝置,用于將圖像分解為連通分量;根據前述方法級聯起來的一組不同特征的級聯分類器,將該連通分量輸入該級聯分類器的第一級,每一個級聯分類器丟棄非選定的連通分量,并向下一級分類器輸出要選定的連通分量;以及圖像合成裝置,用于將級聯分類器組中最后一級分類器輸出的要選定的連通分量組合形成要選定的圖像。
由于本發明方法使用了新的非線性Niblack方法來處理原始圖像,可以高效地將灰度圖像分解為多個候選連通分量,提高了連通分量的質量。另外,上述方法訓練成的級聯分類器組能夠容易地去除大多數非文本連通分量,并快速關注認為可能是文本的連通分量。這樣,既降低了本方法的計算量,提高了圖像處理速度,又能得到很高的檢測率。
附圖簡要說明
圖1是根據本發明一個實施例的確定一組不同特征的級聯分類器的連接順序和特征閾值的方法的流程圖;
圖2是根據本發明第二實施例的從圖像中獲取文本圖像的方法的流程圖;以及圖3是根據本發明第三實施例的從圖像中獲取文本圖像的裝置圖。
具體實施例方式
下面將結合附圖和具體實施方式
對本發明作進一步的詳細描述。
如前述提到的,本發明方法受到人臉檢測技術的啟發,利用級聯分類器組從候選連通分量中提取文本連通分量,候選連通分量通過分解原始圖像而得到,原始圖像可以是自然場景圖像。將文本連通分量組合起來形成文本圖像,這樣,我們就可以從自然場景圖像中獲取文本圖像了。
那么,上述的級聯分類器組怎樣才能從候選連通分量中提取文本連通分量呢?首先,我們提出了12種不同的特征,這12種特征能夠有效地區分文本或非文本連通分量。再將這12個特征對應級聯分類器組中的每個分類器,并且對該級聯分類器組進行訓練,以確定這組不同特征的級聯分類器的連接順序和特征閾值。這樣級聯起來的級聯分類器組能夠快速地丟棄非文本連通分量,輸出文本連通分量。
接下來先具體描述揭示文本連通分量的內在本質特性的12種特征,包括幾何特征,邊緣對比度特征,形狀正則特征,筆劃特征以及空間一致性特征。
1.幾何特征幾何特征包括面積比率(Area Ratio),長度比率(Length Ratio)和長寬比(Aspect Ratio)。它們能夠很有效地排除大量的顯然是非文本的連通分量,而且計算的代價很小。因此它們能急劇降低整個算法的執行時間。
面積比AreaRatio為連通分量的包圍盒(BoundingBox)面積與圖像面積之比,用于排除太大或太小的連通分量,其公式為Feature_AreaRatio=Area(CC)Area(Picture)---(1)]]>長度比LengthRatio用于排除太長或太短的連通分量Feature_LengthRatio=max{w,h}max{PicW,PicH}---(2)]]>長寬比AspectRatio用于提出太細的連通分量Feature_AspectRatio=max{width(CC)height(CC),height(CC)width(CC)}---(3)]]>
上述公式中(2),(3)中,w表示所述連通分量包圍盒寬度,h表示所述連通分量包圍盒的高度,W表示圖像的寬度,以及H表示圖像的高度。
2.邊緣對比度特征邊緣對比度特征包括邊緣對比度(Edge Contrast),邊緣對比度為連通分量的邊界和原始圖像的邊緣圖像的重合度與連通分量的邊界之比,其公式為EdgeContrast=Border(CC)∩Edge(Picture)Border(CC)---(4)]]>其中,Border(CC)是連通分量的邊界像素,Edge(Picture)是原始圖像的邊緣檢測圖像,為Canny算子和Sobel算子的并集,其公式為Edge(Picture)=Canny(Picture)∪Sobel(Picture)(5)邊緣對比度特征是最重要的特征。提出這個特征是基于非常通用的視角,不考慮復雜背景和非均勻光照,文本連通分量通常被其邊緣響應“高度包圍”。因此,我們使用等式(4)來測量一個連通分量的邊緣包圍程度。這個特征非常充分地利用了基于紋理檢測算法的優勢,而其對于大字符也有很強的響應。而且,此特征提供了一種獨立于圖像的衡量每個連通分量邊緣對比度的方法。
3.形狀正規化特征文本連通分量往往比自然場景中的噪聲連通分量擁有更多的正規化形狀。基于這種觀點,我們提出了4個特征空洞數、輪廓粗糙度、緊致度和占空比。我們發現文本連通分量在空洞數和輪廓粗糙度上具有較小的值,在緊致度和占空比上具有較大的值;而非文本的連通分量則恰恰相反。這些特征用于抑制具有不規則形狀但卻擁有較強紋理響應的連通分量。
Feature_ContourRoughness=|CC-open(imfill(CC),2×2)||CC|---(6)]]>Feature_CCHoles=|imholes(CC)| (7)Feature_Compact=Area(CC)[Perimeter(CC)]2---(8)]]>Feature_OccupyRatio=Area(CC)Area(BoundingBox(CC))---(9)]]>上述公式中,imfill(CC)是填補連通分量內部洞的操作,2×2是形態學開運算的結構元素(structure element),形態學開運算(open)是對連通分量進行平滑的操作。
4.筆畫統計特征字符是由筆畫組成的,因此我們提出2個計算相對復雜的特征,來揭示連通分量的筆畫統計信息。這兩個特征其實是在字符筆畫的方面檢查連通分量的“非規則性”。
第一個特征是平均筆畫寬度MeanStrokeWidth,我們基于這樣一種觀點字符的筆畫寬度通常都比較小Feature_Stroke_Mean=Mean(strokeWidth(skeleton(CC))) (10)第二個特征是歸一化的筆畫寬度標準差,我們基于這樣的觀點同個字符的筆畫往往具有相似的寬度,在筆畫寬度標準差特征上具有非常大的值的連通分量,更可能是噪聲Feature_Stroke_Std=Deviation(strokeWidth(skeleton(CC)))Mean(strokeWidth(skeleton(CC)))---(11)]]>上述公式中,skeleton為形態學骨架算法,將連通分量抽骨架而得到骨架圖,strokeWidth為對于所述骨架圖上每一點求出的筆劃寬度,Mean為對于所述骨架圖上所有點求平均值,得到平均寬度。
5.空間一致性特征最后兩個空間一致性特征探索了空間一致性信息,來濾除非文本連通分量。噪聲往往具有較小的空間規則性和聚合性,于是我們提出了這兩個特征。空間一致性特征包括空間一致性面積比率(Spatial Coherence Area Ratio)和空間一致性邊界特征(Spatial CoherenceBoundary Touching),其中,Feature_AreaRatio_S=Area(imdilate(CC,5×5))Area(Picture)---(12)]]>Feature_Boundary_S=Bound(imdilate(CC,5×5)) (13)上述公式中,imdilate是對連通分量進行膨脹的操作,5×5為膨脹操作的結構元素(structureelement)。
在很多顯然非文本的連通分量已經被排除的情況下,在每一層中(Niblack具有黑和白兩個顏色層),如果經過一個小結構元素的膨脹之后,某個連通分量擴展得非常厲害,那么它很有可能是空間相關的隨機噪聲。而文本連通分量則不會這樣,由于字符串的結構本質,字符間往往具有一點的間距,膨脹之后不會互相粘連而擴展為一個很大的連通分量。通過使用空間一致性濾波器,我們可以有效降低圖像噪聲。
提出了上述12個能夠有效地區分文本或非文本連通分量的特征后,將12個特征對應級聯分類器組中的每個分類器,并且對該級聯分類器組進行訓練。我們的訓練方法要解決兩個問題,一,以什么順序來排列這些特征;二,在每個特征上的閾值應該為多少。其優點在于使級聯分類器組能以先弱后強的方式級聯,既保證了獲取圖像的精度,又提高了圖像處理速度。圖1是根據本發明第一實施例的確定一組不同特征的級聯分類器的連接順序和特征閾值的方法的流程圖。
要進行訓練,首先要確定訓練樣例(步驟110)。例如,我們可以從圖片庫中隨機選取200幅圖片,將這200幅圖片分解成多個連通分量作為訓練樣例(將原始圖片分解為連通分量的方法將在下文詳細描述)。該訓練樣率包括正例集合P和反例集合N。正例是我們手動標注為文本的連通分量,反例是我們手動標注為非文本的連通分量。
對于每一個訓練樣例(即一個連通分量),它有兩個布爾值一個是標注真值(GroundTruth),也就是此樣本是否為文本,true為文本,false為非文本;另一個是分類器輸出值,也就是分類器認為此樣本是否為文本,輸出positive為文本,negative為非文本。按此意義,虛警率false-positive表示被分類器誤認為是文本的非文本樣例與所有非文本樣例之比;檢測率detection rate實際就是true-positive,表示被分類器正確認為是文本的文本樣例與所有文本樣例之比;false-rejection就是false-negative,表示被分類器正確認為不是文本的非文本樣例與所有非文本樣例之比。
P作為正例集合,在整個訓練過程中沒有變化,因為我們期望每個正例(文本連通分量)能夠通過所有的分類器,也就是說每個分類器必須“認識”這些正例,即要學習它們。而對于反例集合N,由于每個分類器都會“攔截”一部分反例,對于級聯中的每個分類器而言,它們看到的反例是不同的。第一個分類器看到所有的反例,第二個只能看到被第一個錯分為文本的那些反例...從后一個分類器的角度來說,它只需要關注前面那些分類器沒有能夠正確區分的問題,就是說它要處理的反例僅僅是通過前面所有分類器的非文本連通分量。所以,我們需要在訓練的每次循環中改變反例集合N。
如上提到的,接下來詳細描述將原始圖片分解為連通分量的方法。
眾所周知,將圖像分解為連通分量是基于連通分量方法中非常關鍵的一步。如果分解步驟取得的結果很差,那么整個算法的性能就會急劇下降。現有的分解方法,主要追求有效性和魯棒性。
本實施例使用了一種新的將圖像分解為連通分量的分解方法,包括兩個步驟首先用非線性Niblack閾值化方法處理原始圖像;再將處理后的圖像分解為連通分量。
Niblack方法的關鍵在于它認為人們所關心的那些文本像素點,其強度會和其鄰域平均強度有一定的差距,這個差距大于其鄰域強度標準差的k倍。其原被用于對圖像進行二值化處理。本實施例中,我們用該方法先對圖像進行處理,然后再將處理后的圖像分解為候選的連通分量,這樣能在現有的有效性和魯棒性的基礎上還得到高效性和實現的低復雜性。
其中,非線性Niblack閾值化方法在標準Niblack方法的背景濾波器和前景濾波器中各增加了一個統計順序濾波器。非線性Niblack閾值化方法的公式為NLNiblack(x,y)=1,f(x,y)>T+(x,y)-1,f(x,y)<T-(x,y)0,other---(14)]]>T±(x,y)=μ^p1(x,y,WB)±K·σ^p2(x,y,WF)]]>μ^p1=Order[Mean(f(x,y),WB),p1,WB]]]>σ^p2=Order[Deviation(f(x,y),WF),p2,WF]]]>其中k是根據標準Niblack方法的經驗值,被設為0.17-0.19之間的數值,較佳地,本實施例中被設為0.18。f(x,y)是輸入圖像的(x,y)位置處的像素點強度,Mean(,W)是窗口寬度為W的均值濾波器,Deviate(,W)是窗口寬度為W的標準差濾波器,Order[,p,W]是以p為百分比,W為寬度的順序統計濾波器。
本實施例中,在背景濾波器 中,濾波器寬度WB設為原始圖像寬度的1/16,百分比p1設為50%。這是因為大的中值濾波器可以在提取背景對象的同時不排除它們的高頻分量。這個背景濾波器可以應付自然場景中的非均勻光照情況。
在前景濾波器 中,寬度WF是WB的1/5,p2設為80%。對于具有較大方差的小塊區域,這個高百分比的濾波器可以有效地將其影響傳播到鄰近的區域,同時能有效地抑制局部噪聲。
當然,上述的濾波器寬度和百分比都可以根據實際需要進行調整。
另外,值得一提的是,上述圖像分解步驟也可以不用非線性Niblack方法處理圖像,而用現有的將圖像分解為連通分量的技術,同樣也能達到本發明的目的,但是由于用現有技術獲得的連通分量質量差一些,因而使得本方法的總體效果也會有所下降。
接下來,進行設定和初始化操作(步驟120)。
設定該級聯分類器組(h1,h2,...h12)的系統總體目標檢測率Dtarget=0.95;并手動輸入該目標檢測率。
初始化變量設置總體檢測率D0=1.0,反例集合N1=N,循環次數i=0,i的范圍為0<i≤M,即0<i≤12,以及初始化特征集合,該特征集合包含12個特征(F1,F2,...F12)。分類器與特征是一一對應。
令循環次數i=i+1(步驟130)。
判斷i是否大于M(步驟140)。如果i不大于M,則進行i次循環計算中的一次。例如,i=1,那么就進行第一次循環計算。下面以第一次循環計算為例進行詳細說明。
將該正例集合P以及當前反例集合N1中的樣例并行送入每個級聯分類器中進行訓練(步驟150)。每個分類器都計算所有樣例的特征值。例如,如果第一個分類器對應的特征為幾何特征“面積比率”,那么就計算所有樣例的面積比率,即樣例連通分量包圍盒的面積和整個圖片的面積之比。
得到所有樣例的特征值后,以特征值為橫坐標,連通分量的數量為縱坐標,形成正例P和反例N1的特征值分布圖。
針對每個特征,設一初始值為(-∞,+∞)的閾值區間,如果一個樣例的特征值在該閾值區間之外,則該樣例被該特征對應的級聯分類器判為非文本的連通分量;如果一個樣例的特征值在該閾值區間之外,則該樣例被該特征對應的級聯分類器判為文本的連通分量。
在該閾值區間(-∞,+∞)時,所有的樣例都符合該閾值區間,因此,每個分類器的檢測率d為1,虛警率f也為1。針對每個特征,將該閾值區間不斷縮小,使得越來越多樣例的特征值不符合該閾值區間,正例和反例被不斷判為非文本連通分量,每個級聯分類器的檢測率dlj和虛警率flj不斷下降,當第1次循環訓練的某個分類器的檢測率d1i下降到不小于前次循環后的總體檢測率Di-l時,停止縮小所述閾值區間。這里Di-l=D0=1.0。由于實際計算時分布的離散性,d1i不可能降到等于D0,只會稍微大一些。
在此閾值區間時,計算得到每個級聯分類器的檢測率d1j,虛警率f1j以及正確丟棄非文本連通分量的概率FR1j,其中,FR1j=1-f1j,為一個級聯分類器正確丟棄非文本連通分量的數量與當前反例數量之比。
在當前的特征集合中,即12個特征中,選取最大虛警率f1j對應的特征featurek(步驟160)。該被選取的特征featurek為第一個特征,其對應的分類器即為該級聯分類器組的第一個分類器。
選取最大虛警率對應的特征,是因為通過上述的一輪計算可以看出,在同等的條件下,最大虛警率對應的特征最多地將非文本樣例認為是文本樣例,那么該特征就被認為是最無效的特征,其分類能力最差,因此要將它放在級聯分類器組的最前面,依此類推,以使得用該方法級聯起來的分類器組具有先弱后強的級聯方式。
接下來,計算該被選取的特征featurek的質量比例以及其被允許的最小檢測率(步驟170)。
被選取的特征featurek的質量比例γ=FRk/ΣFR1j,其中,FRk為第1次循環訓練中被選取的特征featurek對應的級聯分類器正確丟棄非文本連通分量的概率,相當于該分類器的質量,該值由步驟160中得到;ΣFR1j表示第1次循環訓練中所有特征features對應的級聯分類器正確丟棄非文本連通分量的概率之和。兩者之比即為該被選取的特征對應的級聯分類器的質量比例,用于衡量該特征區分文本連通分量和非文本連通分量的能力強弱。
根據檢測率分配公式di=(Dtarget/Di-1)γ,計算該特征featurek被允許的最小檢測率dmin,Di-1為前次循環訓練后的總體檢測率,i為循環次數。由于是第一次循環訓練,這里Di-1=D0=1.0,dmin=(Dtarget)γ。
下面具體描述該檢測率分配公式是如何得到的。
假設我們將把一些連通分量串行送入一組M個不同特征的級聯分類器中,一級級地進行分類,如果任何一個分類器認為一個連通分量是非文本連通分量,即將其去除,如果認為是文本連通分量,即輸出給下一級分類器再次進行分類。這樣,我們很容易得到如下關系F=Πi=1Mfi,D=Πi=1Mdi---(15)]]>對于M個分類器中的每個都有一個檢測率di,對于這個di有一個虛警率fi,為了簡化表達,我們把di組成一個向量{d1,d2,...dM},此時總體檢測率為D=Πi=1Mdi,]]>總體虛警率為F=Πi=1Mfi.]]>如果對于這M個分類器我們設定另一組檢測率{d1′,d2′,...dM′},則對應的虛警率為{f1′,f2′,..fM′},總體檢測率D′=Πi=1Mdi′,]]>總體虛警率為F′=Πi=1Mf′i.]]>在D=D′的情況下,未必有F=F′。我們的目的是,在總體檢測率D=Dtarget的情況中,選擇具有最小虛警率F的那組檢測率向量。那么如何在D固定的情況下,最小化F呢?通過對等式(15)基本形式的對數轉換,我們發現總體檢測率線性地分配給所有的分類器log(F)=Σi=1Mlog(fi),log(D)=ΣI=1Mlog(di)---(16)]]>假設總體檢測率D根據分類器的“質量”線性地分配給所有分類器,第i個分類器的“質量”為Qi,所有分類器質量之和為Q=Σi=1MQi,]]>第i個分類器的質量比例γi定義為γi=QiΣj=1MQj---(17)]]>令D為總體檢測率,我們可以將分配公式表達如下,第i個分類器分配到的檢測率di為di=(D)γI---(18)]]>由等式1)我們有D=Πi=1Mdi=Πi=1M(D)γi=DΣi=tMγi=DΣi=1MQiQ=D---(19)]]>這說明我的分配算法首先在數值上是正確的。
因為D∈
,其指數函數是一個單調遞減函數。一個分類器的“質量”越好,γ越大,分配到的檢測率d越小。因為“質量”好意味著這個分類器能夠最有效地排除非文本,所以我們允許它的檢測率d小一些,讓它可以有更多的空間去排除非文本連通分量。降低檢測率代表了設置更為嚴格的條件,這樣就可以排除更多的非文本連通分量。分類器的“質量”可以由正確排除非文本的概率來衡量。
在得到選取的特征featurek被允許的最小檢測率后,將所有正例集合P以及當前反例集合N1中的樣例送入選取的特征對應的級聯分類器hk中進行訓練(步驟180)。
該分類器計算所有樣例的特征值。例如,如果該特征是長度比率,則計算所有樣例的長度比率,計算公式參照上文的描述。
設一初始值為(-∞,+∞)的閾值區間,當一個樣例的特征值在該閾值區間之外,則該樣例被級聯分類器hk判為非文本連通分量。
將該閾值區間不斷縮小,使得正例和反例被不斷判為非文本連通分量,級聯分類器hk的檢測率dk和虛警率fk不斷下降,當dk下降到不小于步驟180中獲得的被允許的最小檢測率dmin時,停止縮小所述閾值區間;此時的閾值區間即為該選取的特征featurek的閾值區間。
到目前為止,選取特征以及確定特征閾值區間的工作都已完畢。
接下來要更新變量,以用于下一次循環訓練(步驟190)。
刪除上述被選取的特征和該特征的分類器以更新當前特征集合和當前各個特征的分類器。將步驟180中獲得特征的閾值區間時被級聯分類器誤認為文本連通分量的非文本連通分量作為新的反例集合Ni+1,正例集合P保持不變,從而更新當前樣例。再更新當前總體檢測率Di=Di-1*dmin,用于下次循環訓練。
接下來的循環計算與上述第一次的完全相同,每次選出一個特征并獲得該特征的閾值區間。每次選出的特征對應的分類器序號即為該次循環的次數i。直到i大于M,則結束循環計算。
按上述方法確定的連接順序級聯起來的級聯分類器組可以快速地排除非文本連通分量,而將更多的時間花費在計算可能是文本的連通分量上。
本實施例中提出的特征與文本圖像相關,可以有效地區分文本或者非文本連通分量,因此,該組特征對應的級聯分類器組可以從候選連通分量中獲取文本連通分量,從而,通過組合文本連通分量,獲得我們需要的文本圖像。但是,本領域的技術人員應該熟知,如果提出的特征與其它要選定的內容相關,該內容可以是我們希望從原始圖像中獲取的任何內容,那么與該組特征對應的級聯分類器組可以從候選連通分量中獲取要選定的連通分量,從而組合形成我們要選定的圖像,而并不限于文本圖像。因此,由本實施例中的方法確定的級聯分類器組可以根據與要選定的內容相關的特征,獲取要選定的連通分量。
圖2是根據本發明第二實施例的從圖像中獲取文本圖像的方法的流程圖。
首先,將原始圖像分解為多個候選連通分量(步驟210)。這里的原始圖像可以是自然場景圖像。該步驟中可以先用非線性Niblack閾值化方法處理該原始圖像;然后再將處理后的圖像分解為多個連通分量。這里用非線性Niblack閾值化方法處理該原始圖像的方法與第一實施例中的處理方法是相同的,此處不再贅述。用非線性Niblack閾值化方法可以快速而魯棒地獲取候選連通分量。
其次,將多個候選連通分量送入根據第一實施例的方法所級聯起來的一組不同特征的級聯分類器的第一級,該特征與文本圖像相關,每一個級聯分類器丟棄非文本連通分量,并向下一級分類器輸出文本連通分量(步驟220)。該級聯分類器組的連接順序和特征閾值按照第一實施例的方法確定。
具體地,在多個候選連通分量輸入級聯分類器組的第一級后,第一分類器根據自己對應的特征,計算接收到的所有連通分量的特征值。將所有連通分量的特征值分別與該特征的閾值區間進行比較;最后將特征值在該閾值區間之外的連通分量作為非文本連通分量丟棄;將特征值在該閾值區間內的連通分量作為文本連通分量輸出給第二級分類器。也就是說,被第一分類器拒絕的連通分量,將不再被輸入第二分類器,不需要在對其進行進一步的計算和判斷了,因此,可以節約大量的計算時間。
第二個分類器接收到第一個分類器輸出的連通分量后,再進行相同的計算和分類工作,依此類推,直到最后一個分類器丟棄非文本連通分量,輸出文本連通分量。
可選地,上述級聯分類器組輸出的文本連通分量還可以再輸入一個強分類器(步驟230)。該強分類器為由標準Adaboost方法進行訓練的分類器,該強分類器的特征與前述級聯分類器組的特征相同。該強分類器對前述級聯分類器組輸出的每個連通分量的所有特征值進行線性組合并判斷該連通分量是否為文本連通分量,從而丟棄非文本連通分量,輸出文本連通分量。由于每個連通分量的所有特征值在級聯分類器組中都已計算過了,因此在這個強分類器中只要進行線性組合,就能得到該連通分量的總的特征值。這樣,可以花費較少的計算時間,進一步提高精度。
當然,這里不使用強分類器,也能達到本發明的目的、加了強分類器,可以進一步提高最終形成圖像的精度。
最后,將步驟230中輸出的文本連通分量組合形成文本圖像(步驟240)。這樣,我們就從原始圖像中獲得了我們需要的文本圖像。
在本實施例的方法中,由于使用了新的非線性Niblack方法來處理原始圖像,可以高效地將灰度圖像分解為多個候選連通分量,提高了連通分量的質量。另外,級聯分類器組能夠容易地去除大多數非文本連通分量,并快速關注認為可能是文本的連通分量。這樣,降低了本方法的計算量,提高了圖像處理速度,并能得到很高的檢測率。
本領域的技術人員應該熟知,雖然本實施例中級聯分類器組的特征與文本圖像相關,但是該特征也可以和其它要選定的內容相關,那么本實施例中的方法也可以用于從圖像中獲取要選定的任何圖像,而不限于文本圖像。
圖3是根據本發明第三實施例的從圖像中獲取文本圖像的裝置圖。裝置300包括分解裝置310,級聯分類器組320,強分類器330以及圖像合成裝置340。
分解裝置310用于將原始圖像分解為多個連通分量。該分解裝置310還包括處理裝置312和圖像分解裝置316。處理裝置312用非線性Niblack閾值化方法先處理原始圖像,這里非線性Niblack閾值化方法與第一實施例相同。圖像分解裝置316將處理后的圖像分解為多個連通分量。
級聯分類器組320是根據第一實施例的方法級聯起來的一組不同特征(F1,F2,...,F12)的級聯分類器(h1,h2,...h12),這些特征與文本圖像相關。將該連通分量輸入級聯分類器組的第一級,每一個級聯分類器丟棄非文本連通分量,并向下一級分類器輸出文本連通分量。
每個分類器中還包括計算裝置,比較裝置和輸出裝置。計算裝置,用于根據本分類器對應的特征,計算接收到的所有連通分量的特征值。比較裝置,將所有連通分量的特征值分別與該特征的閾值區間進行比較。輸出裝置,將特征值在該閾值區間之外的連通分量作為非文本連通分量丟棄;將特征值在該閾值區間內的連通分量作為文本連通分量輸出給下一級分類器。
強分類器330,該強分類器為由標準Adaboost方法進行訓練的分類器,該強分類器的特征與級聯分類器組320的特征相同,即該強分類器的特征包含級聯分類器組320的所有特征。強分類器330對級聯分類器組320輸出的連通分量的所有特征值進行線性組合,并判斷該連通分量是否為文本連通分量,從而丟棄非文本連通分量,輸出文本連通分量。
圖像合成裝置340,用于將強分類器330輸出的文本連通分量組合形成要文本圖像。
本領域的技術人員應該熟知,雖然本實施例中級聯分類器組320的特征與文本圖像相關,但是該特征也可以和其它要選定的內容相關,那么本實施例中的裝置也可以用于從圖像中獲取要選定的任何圖像,而不限于文本圖像。
本發明結合上述典型實施例進行了詳細描述,各種選擇、修改、變化、改進和/或基本的等同技術,目前已知的或者是(可能)未知的內容,對本領域的普通技術人員是熟知的。因此,本發明的上述的典型實施例,在與闡明而不在于限制本發明。在不脫離本發明的精神和范圍之內可以做多種改變。因此,本發明可以包含所有已知的或者以后發展的選擇、修改、變化、改進和/或基本的等同技術。
權利要求
1.一種確定一組不同特征(F1,F2,…,FM)的級聯分類器(h1,h2,…,hM)的連接順序和特征閾值的方法,所述方法形成的級聯分類器組用于從圖像中獲取要選定的圖像,所述不同特征與要選定的圖像相關,其中,M為≥1的正整數,其特征在于,包括以下步驟a.通過分解至少一幅圖像而獲得多個連通分量作為當前樣例,并將M個不同特征的級聯分類器作為當前各個特征的級聯分類器,所述當前樣例包括正例集合P和反例集合N,所述正例是標注為要選定的連通分量,所述反例是標注為非選定的連通分量;b.將當前樣例并行送入當前各個特征的級聯分類器中,進行i次循環訓練中的一次訓練,其中i為0<i≤M的正整數,依次選取參與每次訓練的當前所有特征中最大虛警率對應的特征,由此確定各個不同特征的級聯分類器的連接順序,其中所述虛警率為每次訓練中被級聯分類器誤認為要選定的連通分量而實際為非選定的連通分量的數量與當前反例數量之比;c.每次選取特征后,再將當前樣例送入此次選取的特征對應的級聯分類器中進行訓練,在此訓練過程中,虛警率和檢測率都不斷變化,并根據該特征被允許的最小檢測率獲取所述特征的閾值區間,由此確定各個不同特征的級聯分類器的特征閾值區間;所述檢測率為一個級聯分類器正確檢測出的選定連通分量的數量與正例數量之比;以及d.在執行步驟b和c之后,刪除步驟b中被選取的特征和該特征的分類器以更新當前特征和當前各個特征的分類器,并且將該次訓練中的正例集合保持不變以及將步驟c中獲得特征的閾值區間時被級聯分類器誤認為要選定的連通分量而實際為非選定的連通分量作為新的反例集合來更新當前樣例,用于下次循環訓練。
2.如權利要求1所述的方法,其特征在于,步驟a中將圖像分解為連通分量進一步包括以下步驟a1.用非線性Niblack閾值化方法處理所述圖像;a2.將所述處理后的圖像分解為連通分量。
3.如權利要求2所述的方法,其特征在于,所述非線性Niblack閾值化方法在標準Niblack方法的背景濾波器和前景濾波器中各增加了一個統計順序濾波器。
4.如權利要求3所述的方法,其特征在于,所述非線性Niblack閾值化方法的公式為NLNiblack(x,y)=1,f(x,y)>T+(x,y)-1,f(x,y)<T-(x,y)0,other]]>T±(x,y)=μ^p1(x,y,WB)±k·σ^p2(x,y,WF)]]>μ^p1=Order[Mean(f(x,y),WB),p1,WB]]]>σ^p2=Order[Deviation(f(x,y),WF),p2,WF]]]>其中k根據標準Niblack方法被設為0.17-0.19;f(x,y)是輸入圖像的(x,y)位置處的像素點強度;Mean(,W)是窗口寬度為W的均值濾波器;Deviate(,W)是窗口寬度為W的標準差濾波器;Order[,p,W]是以p為百分比,W為寬度的順序統計濾波器。
5.如權利要求4所述的方法,其特征在于,在背景濾波器 中,濾波器寬度WB設為圖像寬度的1/16,百分比p1設為50%;在前景濾波器 中,寬度WF是WB的1/5,p2設為80%。
6.如權利要求5所述的方法,其特征在于,在步驟b進行循環訓練之前先進行設定和初始化操作,進一步包括以下步驟設定所述級聯分類器組(h1,h2,…hj,0<j<=M,M>1)的系統總體目標檢測率Dtarget;初始化變量總體檢測率D0=1.0,反例集合N1=N,循環次數i=0,i的范圍為0<i≤M,以及初始化特征集合,所述特征集合包含j個特征(F1,F2,…Fj),0<j<=M,M>1。
7.如權利要求6所述的方法,其特征在于,步驟b中的循環訓練進一步包括以下步驟b1.將所述正例集合P以及當前反例集合Ni中的樣例并行送入每個級聯分類器中,計算所有樣例的特征值,b2針對每個特征,設一初始值為(-∞,+∞)的閾值區間,當一個樣例的特征值在所述閾值區間之外,則所述樣例被所述特征對應的級聯分類器判為非選定的連通分量;b3針對每個特征,將所述閾值區間不斷縮小,使得正例和反例被不斷判為非選定連通分量,每個級聯分類器的檢測率dij和虛警率fij不斷下降,當第i次循環訓練的某個分類器的檢測率di下降到不小于前次循環后的總體檢測率Di-1時,停止縮小所述閾值區間;以及b4獲取當前閾值區間時每個級聯分類器的檢測率dij,虛警率fij以及正確丟棄非選定連通分量的概率FRij,其中,FRij=1-fij,為一個級聯分類器正確丟棄的非選定連通分量的數量與當前反例數量之比;以及b5.在當前的特征集合中,選取虛警率fij最大的特征featurek,所述被選取的特征featurek對應的級聯分類器的序號即為當前循環次數i。
8.如權利要求7所述的方法,其特征在于,步驟b5之后還包括以下步驟b6.根據步驟b5的結果,計算所述被選取的特征featurek的質量比例γ=FRk/∑FRij,其中,FRk為第i次循環訓練中被選取的特征featurek對應的級聯分類器正確丟棄非選定連通分量的概率,相當于所述級聯分類器的質量,∑FRij為第i次循環訓練中所有級聯分類器正確丟棄非選定連通分量的概率之和;以及b7.根據檢測率分配公式di=(Dtarget/Di-1)γ,計算所述特征featurek被允許的最小檢測率dmin,Di-1為前次循環訓練后的總體檢測率,i為循環次數;以及b8.更新當前總體檢測率Di=Di-1*dmin。
9.如權利要求8所述的方法,其特征在于,所述步驟b7中的檢測率分配公式用如下方法獲得假設總體檢測率D根據級聯分類器的“質量”線性地分配給所有級聯分類器,第i個級聯分類器的“質量”為Qi,所有級聯分類器質量之和為Q=Σi=1MQi,]]>第i個級聯分類器的質量比例γi定義為γi=QiΣj=1MQj]]>則檢測率分配公式表達如下,即第i個分類器分配到的檢測率di為di=(D)γi.]]>
10.如權利要求9所述的方法,其特征在于,步驟c進一步包括以下步驟c1.將所述正例集合P以及當前反例集合Ni中的樣例送入所述選取的特征對應的級聯分類器hk中,計算所有樣例的特征值;c2.設一初始值為(-∞,+∞)的閾值區間,當一個樣例的特征值在所述閾值區間之外,則所述樣例被所述級聯分類器hk判為非選定連通分量;以及c3.將所述閾值區間不斷縮小,使得正例和反例被不斷判為非選定連通分量,所述級聯分類器hk的檢測率dk和虛警率fk不斷下降,當dk下降到不小于步驟b7中獲得的被允許的最小檢測率dmin時,停止縮小所述閾值區間;此時的閾值區間即為所述選取的特征featurek的閾值區間。
11.如權利要求1-10所述的方法,其特征在于,所述要選定的圖像為文本圖像,所述要選定的連通分量為文本連通分量,所述非選定的連通分量為非文本的連通分量,與文本圖像相關的特征包括幾何特征,邊緣對比度特征,形狀正則特征,筆劃特征以及空間一致性特征。
12.如權利要求11所述的方法,其特征在于,所述幾何特征包括面積比率(Area Ratio),長度比率(Length Ratio)和長寬比(Aspect Ratio),其中,面積比率為連通分量的包圍盒(BoundingBox)面積與圖像面積之比,其公式為Feature_AreaRatio=Area(CC)Area(Picture)]]>長度比率的公式為Feature_MLengthRatio=max{w,h}max{PicW,PicH}]]>長寬比的公式為Feature_AspectRatio=max{w/h,h/w}上述公式中,w表示所述連通分量包圍盒寬度,h表示所述連通分量包圍盒的高度,W表示圖像的寬度,以及H表示圖像的高度。
13.如權利要求11所述的方法,其特征在于,所述邊緣對比度特征包括邊緣對比度(Edge Contrast),所述邊緣對比度為連通分量的邊界和原始圖像的邊緣圖像的重合度與連通分量的邊界之比,其公式為EdgeContrast=Border(CC)∩Edge(Picture)Border(CC)]]>其中,Border(CC)是連通分量的邊界,Edge(Picture)是原始圖像的邊緣檢測圖像,為Canny算子和Sobel算子的并集,其公式為Edge(Picture)=Canny(Picture)∪Sobel(Picture)。
14.如權利要求11所述的方法,其特征在于,所述形狀正則特征包括連通分量邊界粗糙度(Contour Roughness),空洞數目(Holes),緊致性(Compactness)以及占空比(OccupyRatio),其公式為,Feature_ContourRoughness=|CC-open(imfill(CC),2×2)||CC|]]>Feature_CCHoles=|imholes(CC)|Feature_Compact=Area(CC)[Perimeter(CC)]2]]>Feature_OccupyRatio=Area(CC)Area(BoundingBox(CC))]]>上述公式中,imfill(CC)是填補連通分量內部洞的操作,2×2是形態學開運算的結構元素(structure element),形態學開運算(open)是對連通分量進行平滑的操作。
15.如權利要求11所述的方法,其特征在于,所述筆劃特征包括筆劃平均寬度(StrokeWidth)和筆劃寬度標準差(Stroke Width Deviation),其中,Feature_Stroke_Mean=Mean(strokeWidth(skeleton(CC)))Feature_Stroke_std=Deviation(strokeWidth(skeleton(CC)))Mean(strokeWidth(skeleton(CC)))]]>上述公式中,skeleton為形態學骨架算法,將連通分量抽骨架而得到骨架圖,strokeWidth為對于所述骨架圖上每一點求出的筆劃寬度,Mean為對于所述骨架圖上所有點求平均值,得到平均寬度。
16.如權利要求11所述的方法,其特征在于,所述空間一致性特征包括空間一致性面積比率(Spatial Coherence Area Ratio)和空間一致性邊界特征(Spatial Coherence BoundaryTouching),其中,Feature_AreaRatio_S=Area(imdilate(CC,5×5))Area(Picture)]]>Feature_Boundary_S=Bound(imdilate(CC,5×5))上述公式中,imdilate是對連通分量進行膨脹的操作,5×5為膨脹操作的結構元素(structureelement)。
17.一種從圖像中獲取要選定的圖像的方法,其特征在于,包括以下步驟A.將圖像分解為連通分量;B.將所述連通分量送入根據權利要求1的方法所級聯起來的一組不同特征的級聯分類器的第一級,所述特征與要選定的圖像相關,每一個級聯分類器丟棄非選定連通分量,并向下一級分類器輸出要選定的連通分量;以及C.將級聯分類器組中最后一級分類器輸出的要選定的連通分量組合形成要選定的圖像。
18.如權利要求17所述的方法,其特征在于,步驟A進一步包括以下步驟A1.用非線性Niblack閾值化方法處理所述圖像;A2.將所述處理后的圖像分解為連通分量。
19.如權利要求18所述的方法,其特征在于,所述非線性Niblack閾值化方法在標準Niblack方法的背景濾波器和前景濾波器中各增加了一個統計順序濾波器。
20.如權利要求19所述的方法,其特征在于,所述非線性Niblack閾值化方法的公式為NLNiblack(x,y)=1,f(x,y)>T+(x,y)-1,f(x,y)<T-(x,y)0,other]]>T±(x,y)=μ^p1(x,y,WB)±k·σ^p2(x,y,WF)]]>μ^p1=Order[Mean(f(x,y),WB),p1,WB]]]>σ^p2=Order[Deviation(f(x,y),WF),p2,WF]]]>其中k根據標準Niblack方法被設為0.17-0.19;f(x,y)是輸入圖像的(x,y)位置處的像素點強度;Mean(,W)是窗口寬度為W的均值濾波器;Deviate(,W)是窗口寬度為W的標準差濾波器;Order[,p,W]是以p為百分比,W為寬度的順序統計濾波器。
21.如權利要求20所述的方法,其特征在于,在背景濾波器 中,濾波器寬度WB設為圖像寬度的1/16,百分比p1設為50%;在前景濾波器 中,寬度WF是WB的1/5,p2設為80%。
22.如權利要求21所述的方法,其特征在于,步驟B中所述級聯分類器組中的每一級分類器丟棄非選定連通分量并向下一級分類器輸出選定連通分量的方法包括以下步驟B1.根據每一級分類器對應的特征,計算接收到的所有連通分量的特征值;B2.將所有連通分量的特征值分別與所述特征的閾值區間進行比較;以及B3.將特征值在所述閾值區間之外的連通分量作為非選定連通分量丟棄;將特征值在所述閾值區間內的連通分量作為要選定的連通分量輸出給下一級分類器。
23.如權利要求22所述的方法,其特征在于,將所述級聯分類器組輸出的連通分量再輸入一個強分類器,所述強分類器為由標準Adaboost方法進行訓練的分類器,所述強分類器的特征與所述級聯分類器組的特征相同。
24.如權利要求23所述的方法,其特征在于,所述強分類器對所述級聯分類器組輸出的連通分量的所有特征值進行線性組合并判斷該連通分量是否為要選定的連通分量,從而丟棄非選定連通分量,輸出要選定的連通分量。
25.如權利要求17-24中任一項所述的方法,其特征在于,所述要選定的圖像為文本圖像,所述要選定的連通分量為文本連通分量,所述非選定的連通分量為非文本的連通分量,與文本圖像相關的特征包括幾何特征,邊緣對比度特征,形狀正則特征,筆劃特征以及空間一致性特征。
26.如權利要求25所述的方法,其特征在于,所述幾何特征包括面積比率(Area Ratio),長度比率(Length Ratio)和長寬比(Aspect Ratio),其中,面積比率為連通分量的包圍盒(BoundingBox)面積與圖像面積之比,其公式為Feature_AreaRatio=Area(CC)Area(Picture)]]>長度比率的公式為Feature_MLengthRatio=max{w,h}max{PicW,PicH}]]>長寬比的公式為Feature_AspectRatio=max{w/h,h/w}上述公式中(2),(3)中,w表示所述連通分量包圍盒寬度,h表示所述連通分量包圍盒的高度,W表示圖像的寬度,以及H表示圖像的高度。
27.如權利要求25所述的方法,其特征在于,所述邊緣對比度特征包括邊緣對比度(Edge Contrast),所述邊緣對比度為連通分量的邊界和原始圖像的邊緣圖像的重合度與連通分量的邊界之比,其公式為EdgeContrast=Border(CC)∩Edge(Picture)Border(CC)]]>其中,Border(CC)是連通分量的邊界,Edge(Picture)是原始圖像的邊緣檢測圖像,為Canny算子和Sobel算子的并集,其公式為Edge(Picture)=Canny(Picture)∪Sobel(Picture)。
28.如權利要求25所述的方法,其特征在于,所述形狀正則特征包括連通分量邊界粗糙度(Contour Roughness),空洞數目(Holes),緊致性(Compactness)以及占空比(OccupyRatio),其公式為,Feature_ContourRoughness=|CC-open(imfill(CC),2×2)||CC|]]>Feature_CCHoles=|imholes(CC)|Feature_Compact=Area(CC)[Perimeter(CC)]2]]>Feature_OccupyRatio=Area(CC)Area(BoundingBox(CC))]]>上述公式中,imfill(CC)是填補連通分量內部洞的操作,2×2是形態學開運算的結構元素(structure element),形態學開運算(open)是對連通分量進行平滑的操作。
29.如權利要求25所述的方法,其特征在于,所述筆劃特征包括筆劃平均寬度(StrokeWidth)和筆劃寬度標準差(Stroke Width Deviation),其中,Feature_Stroke_Mean=Mean(strokeWidth(skeleton(CC)))Feature_Stroke_std=Deviation(strokeWidth(skeleton(CC)))Mean(strokeWidth(skeleton(CC)))]]>上述公式中,skeleton為形態學骨架算法,將連通分量抽骨架而得到骨架圖,strokeWidth為對于所述骨架圖上每一點求出的筆劃寬度,Mean為對于所述骨架圖上所有點求平均值,得到平均寬度。
30.如權利要求25所述的方法,其特征在于,所述空間一致性特征包括空間一致性面積比率(Spatial Coherence Area Ratio)和空間一致性邊界特征(Spatial Coherence BoundaryTouching),其中,Feature_AreaRatio_S=Area(imdilate(CC,5×5))Area(Picture)]]>Feature_Boundary_S=Bound(imdilate(CC,5×5))上述公式中,imdilate是對連通分量進行膨脹的操作,5×5為膨脹操作的結構元素(structureelement)。
31.一種從圖像中獲取要選定的圖像的裝置,其特征在于,所述裝置包括分解裝置,用于將圖像分解為連通分量;根據權1的方法級聯起來的一組不同特征的級聯分類器,將所述連通分量輸入所述級聯分類器組的第一級,每一個級聯分類器丟棄非選定的連通分量,并向下一級分類器輸出要選定的連通分量;以及圖像合成裝置,用于將級聯分類器組中最后一級分類器輸出的要選定的連通分量組合形成要選定的圖像。
32.如權利要求31所述的裝置,其特征在于,所述分解裝置進一步包括處理裝置,用非線性Niblack閾值化方法處理所述圖像;圖像分解裝置,用于將所述處理后的圖像分解為連通分量。
33.如權利要求32所述的裝置,其特征在于,所述非線性Niblack閾值化方法在標準Niblack方法的背景濾波器和前景濾波器中各增加了一個統計順序濾波器。
34.如權利要求33所述的裝置,其特征在于,所述非線性Niblack閾值化方法的公式為NLNiblack(x,y)=1,f(x,y)>T+(x,y)-1,f(x,y)<T-(x,y)0,other]]>T±(x,y)=μ^p1(x,y,WB)±k·σ^p2(x,y,WF)]]>μ^p1=Order[Mean(f(x,y),WB),p1,WB]]]>σ^p2=Order[Deviation(f(x,y),WF),p2,WF]]]>其中k根據標準Niblack方法被設為0.17-0.19;f(x,y)是輸入圖像的(x,y)位置處的像素點強度;Mean(,W)是窗口寬度為W的均值濾波器;Deviate(,W)是窗口寬度為W的標準差濾波器;Order[,p,W]是以p為百分比,W為寬度的順序統計濾波器。
35.如權利要求34所述的裝置,其特征在于,在背景濾波器 中,濾波器寬度WB設為圖像寬度的1/16,百分比p1設為50%;在前景濾波器 中,寬度WF是WB的1/5,p2設為80%。
36.如權利要求35所述的裝置,其特征在于,所述級聯分類器組中的每一級分類器包括計算裝置,用于根據每一級分類器對應的特征,計算接收到的所有連通分量的特征值;比較裝置,將所有連通分量的特征值分別與所述特征的閾值區間進行比較,以及輸出裝置,將特征值在所述閾值區間之外的連通分量作為非選定連通分量丟棄;將特征值在所述閾值區間內的連通分量作為要選定的連通分量輸出給下一級分類器。
37.如權利要求36所述的裝置,其特征在于,所述級聯分類器組后還可以增加一個強分類器,所述強分類器為由標準Adaboost方法進行訓練的分類器,所述強分類器的特征與所述級聯分類器組的特征相同。
38.如權利要求37所述的裝置,其特征在于,所述強分類器對所述級聯分類器組輸出的連通分量的所有特征值進行線性組合并判斷該連通分量是否為要選定的連通分量,從而丟棄非選定的連通分量,輸出選定的連通分量。
39.如權利要求31-38所述的裝置,其特征在于,所述要選定的圖像為文本圖像,所述要選定的連通分量為文本連通分量,所述非選定的連通分量為非文本的連通分量,與文本圖像相關的特征包括幾何特征,邊緣對比度特征,形狀正則特征,筆劃特征以及空間一致性特征。
40.如權利要求39所述的裝置,其特征在于,所述幾何特征包括面積比率(Area Ratio),長度比率(Length Ratio)和長寬比(Aspect Ratio),其中,面積比率為連通分量的包圍盒(BoundingBox)面積與圖像面積之比,其公式為Feature_AreaRatio=Area(CC)Area(Picture)]]>長度比率的公式為Feature_MLengthRatio=max{w,h}max{PicW,PicH}]]>長寬比的公式為Feature_AspectRatio=max{w/h,h/w}上述公式中(2),(3)中,w表示所述連通分量包圍盒寬度,h表示所述連通分量包圍盒的高度,W表示圖像的寬度,以及H表示圖像的高度。
41.如權利要求39所述的裝置,其特征在于,所述邊緣對比度特征包括邊緣對比度(Edge Contrast),所述邊緣對比度為連通分量的邊界和原始圖像的邊緣圖像的重合度與連通分量的邊界之比,其公式為EdgeContrast=Border(CC)∩Edge(Picture)Border(CC)]]>其中,Border(CC)是連通分量的邊界,Edge(Picture)是原始圖像的邊緣檢測圖像,為Canny算子和Sobel算子的并集,其公式為Edge(Picture)=Canny(Picture)∪Sobel(Picture)。
42.如權利要求39所述的裝置,其特征在于,所述形狀正則特征包括連通分量邊界粗糙度(Contour Roughness),空洞數目(Holes),緊致性(Compactness)以及占空比(OccupyRatio),其公式為,Feature_ContourRoughness=|CC-open(imfill(CC),2×2)||CC|]]>Feature_CCHoles=|imholes(CC)|Feature_Compact=Area(CC)[Perimeter(CC)]2]]>Feature_OccupyRatio=Area(CC)Area(BoundingBox(CC))]]>上述公式中,imfill(CC)是填補連通分量內部洞的操作,2×2是形態學開運算的結構元素(structure element),形態學開運算(open)是對連通分量進行平滑的操作。
43.如權利要求39所述的裝置,其特征在于,所述筆劃特征包括筆劃平均寬度(StrokeWidth)和筆劃寬度標準差(Stroke Width Deviation),其中,Feature_Stroke_Mean=Mean(strokeWidth(skeleton(CC)))Feature_Stroke_std=Deviation(strokeWidth(skeleton(CC)))Mean(strokeWidth(skeleton(CC)))]]>上述公式中,skeleton為形態學骨架算法,將連通分量抽骨架而得到骨架圖,strokeWidth為對于所述骨架圖上每一點求出的筆劃寬度,Mean為對于所述骨架圖上所有點求平均值,得到平均寬度。
44.如權利要求39所述的裝置,其特征在于,所述空間一致性特征包括空間一致性面積比率(Spatial Coherence Area Ratio)和空間一致性邊界特征(Spatial Coherence BoundaryTouching),其中,Feature_AreaRatio_S=Area(imdilate(CC,5×5))Area(Picture)]]>Feature_Boundary_S=Bound(imdilate(CC,5×5))上述公式中,imdilate是對連通分量進行膨脹的操作,5×5為膨脹操作的結構元素(structureelement)。
全文摘要
本發明提出了一種確定一組不同特征的級聯分類器的連接順序和特征閾值的方法。該級聯分類器組用于從由圖像分解而得的候選連通分量中提取要選定的連通分量。該方法包括以下步驟首先通過分解至少一幅圖像而獲得多個連通分量作為當前樣例,再將當前樣例并行送入當前各個特征的級聯分類器中,進行循環訓練,從而確定各個不同特征的級聯分類器的連接順序以及特征閾值區間。本發明還提出了一種從圖像中獲取要選定的圖像的方法,利用根據前述方法級聯起來的分類器組,能夠快速去除非選定的連通分量,而將更多時間花費在計算可能是選定的連通分量上,既提高了圖像處理速度,又提高了獲取圖像的精度。
文檔編號G06K9/62GK1920852SQ200510099439
公開日2007年2月28日 申請日期2005年8月26日 優先權日2005年8月26日
發明者戚飛虎, 朱凱華, 蔣人杰, 徐立, 相澤知禎 申請人:歐姆龍株式會社, 上海交通大學