非數(shù)字區(qū)域,可以按照預(yù)設(shè)大小進(jìn)行切割和獲?。换蛘?,也可以事后進(jìn)行統(tǒng)一的歸一化處理,比如歸一化為20X 10(單位為像素)。由于非數(shù)字區(qū)域的范圍較大,且對(duì)象的樣式可能較多,因而負(fù)樣本的數(shù)量可以比較大,比如采用的數(shù)量可以為100萬(wàn)。
[0075]3)訓(xùn)練過程:
[0076]基于準(zhǔn)備好的訓(xùn)練樣本(包括I)中的正樣本和2)中的負(fù)樣本),在一示例性實(shí)施例中,對(duì)區(qū)域分類器進(jìn)行訓(xùn)練的過程可以包括:
[0077]A.獲取每個(gè)訓(xùn)練樣本的HOG特征;
[0078]B.利用LDA算法對(duì)HOG特征進(jìn)行線性投影,得到每個(gè)訓(xùn)練樣本對(duì)應(yīng)的第一分類器,該第一分類器可以為弱分類器;
[0079]C.利用Adaboost算法對(duì)所有的第一分類器進(jìn)行級(jí)聯(lián)組合,構(gòu)成最終的第二分類器,以作為區(qū)域分類器,該第二分類器可以為相對(duì)于第一分類器的強(qiáng)分類器。
[0080]在該訓(xùn)練過程中,利用了 Adaboost算法的級(jí)聯(lián)特性,通過對(duì)各個(gè)訓(xùn)練樣本對(duì)應(yīng)的第一分類器的級(jí)聯(lián),從而極大地提升了區(qū)域分類器的識(shí)別準(zhǔn)確度;同時(shí),通過選用訓(xùn)練樣本的HOG特征,使得能夠根據(jù)梯度分布來(lái)更好地描述區(qū)域訓(xùn)練樣本;進(jìn)一步地,通過LDA投影對(duì)HOG特征進(jìn)行降維處理,從而有助于降低第二分類器的訓(xùn)練難度,提高訓(xùn)練效率。
[0081]其中,區(qū)域分類器的訓(xùn)練過程可以預(yù)先離線完成,然后通過將其配置于移動(dòng)終端內(nèi),則當(dāng)移動(dòng)終端需要識(shí)別對(duì)象的數(shù)字區(qū)域時(shí),即可通過調(diào)用該區(qū)域分類器(即步驟104),以完成識(shí)別操作。
[0082]2、識(shí)別數(shù)字區(qū)域
[0083]下面結(jié)合圖4至圖6,對(duì)步驟106中通過區(qū)域分類器來(lái)識(shí)別數(shù)字區(qū)域的過程進(jìn)行詳細(xì)描述。其中,圖4是根據(jù)一示例性實(shí)施例示出的利用區(qū)域分類器進(jìn)行區(qū)域識(shí)別的示意流程圖;圖5A-5C是根據(jù)一示例性實(shí)施例示出的利用區(qū)域分類器進(jìn)行區(qū)域識(shí)別的示意流程圖;圖6是根據(jù)一示例性實(shí)施例示出的基于金字塔掃描的方式實(shí)現(xiàn)區(qū)域識(shí)別的示意圖。
[0084]如圖4所示,對(duì)應(yīng)于步驟106,根據(jù)一示例性實(shí)施例示出的利用區(qū)域分類器進(jìn)行區(qū)域識(shí)別的過程包括:
[0085]在步驟402中,在待識(shí)別圖像上依次選取預(yù)設(shè)大小的候選區(qū)域。
[0086]其中,候選區(qū)域的大小可以根據(jù)實(shí)際需求進(jìn)行預(yù)先設(shè)置,當(dāng)候選區(qū)域較大時(shí)有助于提升識(shí)別效率,而當(dāng)候選區(qū)域較小時(shí)則有助于提升識(shí)別精準(zhǔn)度。比如圖5A所示,根據(jù)預(yù)配置信息,在手機(jī)充值卡(即對(duì)象)的待識(shí)別圖像上示出了候選區(qū)域502。
[0087]在步驟404中,通過所述區(qū)域分類器判別每個(gè)所述候選區(qū)域的類型。
[0088]針對(duì)圖5A所示的手機(jī)充值卡的待識(shí)別圖像,通過對(duì)每個(gè)候選區(qū)域的類型識(shí)別,假定得到了圖5B中的判別結(jié)果為數(shù)字區(qū)域類型的候選區(qū)域。
[0089]在步驟406中,將判別結(jié)果為數(shù)字區(qū)域類型的候選區(qū)域進(jìn)行合并,包括:根據(jù)數(shù)字區(qū)域的形狀特征和/或數(shù)字區(qū)域在所述對(duì)象中的分布特征,即僅根據(jù)數(shù)字區(qū)域的形狀特征、或者僅根據(jù)數(shù)字區(qū)域在所述對(duì)象中的分布特征、或者同時(shí)根據(jù)數(shù)字區(qū)域的形狀特征和數(shù)字區(qū)域在所述對(duì)象中的分布特征,從而篩除被判定為數(shù)字區(qū)域類型的候選區(qū)域中與數(shù)字區(qū)域無(wú)關(guān)的候選區(qū)域,并對(duì)剩余的數(shù)字類型的候選區(qū)域進(jìn)行合并。
[0090]其中,數(shù)字區(qū)域的形狀特征包括:數(shù)字區(qū)域呈矩形、與對(duì)象的邊沿平行、數(shù)字區(qū)域內(nèi)的數(shù)字字符排列為一排或多排、數(shù)字區(qū)域?yàn)轭A(yù)設(shè)長(zhǎng)度等;而數(shù)字區(qū)域在對(duì)象中的分布特征包括:數(shù)字區(qū)域在對(duì)象上的相對(duì)設(shè)置位置、數(shù)字區(qū)域與對(duì)象之間的相對(duì)顯示比例等。通過僅依據(jù)數(shù)字區(qū)域的形狀特征、或僅依據(jù)數(shù)字區(qū)域的分布特征、或同時(shí)依據(jù)數(shù)字區(qū)域的形狀特征和數(shù)字區(qū)域的分布特征,即可篩除不符合要求的候選區(qū)域,消除誤判斷的影響;同時(shí),通過合并符合要求的數(shù)字區(qū)域類型的候選區(qū)域,從整體上得到組成待識(shí)別圖像上的數(shù)字區(qū)域。
[0091]參考圖5B,對(duì)于右側(cè)上部的兩個(gè)候選區(qū)域,由于每個(gè)候選區(qū)域都獨(dú)立,即長(zhǎng)度較短,且不符合數(shù)字區(qū)域在手機(jī)充值卡上的相對(duì)位置(位于下方),因而需要被篩除;對(duì)于左側(cè)豎向排列的7個(gè)候選區(qū)域,雖然連續(xù)排列且長(zhǎng)度較長(zhǎng),但由于實(shí)際上的數(shù)字區(qū)域采用橫向排列,因而需要被篩除;對(duì)于右側(cè)下部的5個(gè)候選區(qū)域,由于形成兩排,且每排的長(zhǎng)度都不足,因而需要被篩除;對(duì)于中部下方的6個(gè)候選區(qū)域,由于其橫向排列且長(zhǎng)度較長(zhǎng),容易與真實(shí)的數(shù)字區(qū)域混淆,因而需要根據(jù)如數(shù)字區(qū)域在手機(jī)充值卡上的相對(duì)位置進(jìn)行篩除。
[0092]因此,能夠確定圖5B中,位于中部偏下的9個(gè)候選區(qū)域?qū)?yīng)于最終的數(shù)字區(qū)域,并且由于9個(gè)候選區(qū)域連續(xù)排列,能夠合并得到圖5C所示的最終的數(shù)字區(qū)域506。
[0093]此外,在步驟106中,還可以包括:
[0094]如圖6所示,按照預(yù)設(shè)比例對(duì)所述待識(shí)別圖像進(jìn)行縮放操作,以得到多個(gè)顯示比例的待識(shí)別圖像。然后,采用類似圖5A-5C所示的方式,根據(jù)所述區(qū)域分類器識(shí)別每個(gè)顯示比例的待識(shí)別圖像中的數(shù)字區(qū)域;最終,根據(jù)識(shí)別出的每個(gè)數(shù)字區(qū)域在相應(yīng)的待識(shí)別圖像中的相對(duì)位置,合并所有顯示比例的待識(shí)別圖像中識(shí)別出的數(shù)字區(qū)域,以作為所述待識(shí)別圖像中的數(shù)字區(qū)域。
[0095]在該技術(shù)方案中,通過基于圖像縮放操作的金字塔掃描,使得在不同顯示比例的待識(shí)別圖像上分別實(shí)現(xiàn)區(qū)域特征識(shí)別,有助于消除顯示比例的差異而導(dǎo)致的識(shí)別誤差。
[0096]3、區(qū)域優(yōu)化
[0097]在步驟106中,已經(jīng)基于區(qū)域分類器實(shí)現(xiàn)了對(duì)數(shù)字區(qū)域的識(shí)別,但由于數(shù)字區(qū)域中可能既包含數(shù)字字符,又包含數(shù)字字符周圍的非數(shù)字字符。因此,為了避免非數(shù)字字符對(duì)數(shù)字字符的識(shí)別造成干擾,可以對(duì)基于區(qū)域分類器識(shí)別出的數(shù)字區(qū)域進(jìn)一步處理,以期篩除其中包含的非數(shù)字字符。
[0098]因此,在步驟106之后,還可以包括:將所述區(qū)域分類器識(shí)別出的數(shù)字區(qū)域作為候選數(shù)字區(qū)域,并對(duì)每個(gè)候選數(shù)字區(qū)域中的字符進(jìn)行切分操作;調(diào)用預(yù)配置的數(shù)字判別器,并根據(jù)所述數(shù)字判別器識(shí)別切分得到的每個(gè)字符;篩除所述候選數(shù)字區(qū)域中的非數(shù)字字符,并將剩余字符對(duì)應(yīng)的區(qū)域作為所述待識(shí)別圖像中的數(shù)字區(qū)域。
[0099]在該技術(shù)方案中,當(dāng)區(qū)域分類器對(duì)應(yīng)的區(qū)域訓(xùn)練樣本中包含至少兩個(gè)數(shù)字字符時(shí),其更傾向于整體區(qū)域特征的識(shí)別,從而導(dǎo)致識(shí)別出的數(shù)字區(qū)域中可能包含有非數(shù)字字符。因此,將區(qū)域分類器得到的數(shù)字區(qū)域重新作為候選數(shù)字區(qū)域,并實(shí)現(xiàn)基于數(shù)字判別器的字符類型識(shí)別,能夠有效消除候選數(shù)字區(qū)域中包含的非數(shù)字字符,避免影響后續(xù)的OCR處理等。
[0100]I)數(shù)字判別器:
[0101]數(shù)字判別器由對(duì)應(yīng)于所述對(duì)象中的數(shù)字區(qū)域內(nèi)的數(shù)字字符和非數(shù)字區(qū)域內(nèi)的非數(shù)字字符的字符訓(xùn)練樣本生成,且所述字符訓(xùn)練樣本來(lái)自所述對(duì)象的樣本圖像。
[0102]如圖7A和7B所示,分別對(duì)圖3A和圖3B對(duì)應(yīng)的數(shù)字區(qū)域內(nèi)的數(shù)字字符進(jìn)行切分,并得到僅包含單個(gè)數(shù)字字符的正樣本(即字符訓(xùn)練樣本中的正樣本)。為了便于學(xué)習(xí)訓(xùn)練,可以對(duì)所有正樣本進(jìn)行格式統(tǒng)一,比如歸一化為20X20(單位為像素)。同時(shí),還需要對(duì)對(duì)象上的非數(shù)字區(qū)域進(jìn)行切分,從而得到非數(shù)字字符的負(fù)樣本。為了便于學(xué)習(xí)訓(xùn)練,可以對(duì)所有正樣本進(jìn)行格式統(tǒng)一,比如使得負(fù)樣本和正樣本的規(guī)格相同,即歸一化為20X20(單位為像素)。作為一示例性實(shí)施例,正樣本和負(fù)樣本的數(shù)量可以分別選為5萬(wàn)個(gè)。
[0103]2)訓(xùn)練過程:
[0104]基于準(zhǔn)備好的訓(xùn)練樣本(包括上述的正樣本和負(fù)樣本),在一示例性實(shí)施例中,對(duì)數(shù)字判別器進(jìn)行訓(xùn)練的過程可以包括:
[0105]A.獲取每個(gè)訓(xùn)練樣本的HOG特征;
[0106]B.利用SVM(Support Vector Machine,支持向量機(jī))算法對(duì)HOG特征進(jìn)行訓(xùn)練,以得到數(shù)字判別器。當(dāng)然,本領(lǐng)域技術(shù)人員應(yīng)該理解的是:顯然也可以利用其它的模式識(shí)別算法來(lái)替代SVM算法,均能夠?qū)崿F(xiàn)本公開的目的,其差別僅在于識(shí)別模式的不同。
[0107]其中,數(shù)字判別器的訓(xùn)練過程可以預(yù)先離線完成,然后通過將其配置于移動(dòng)終端內(nèi),則當(dāng)移動(dòng)終端需要識(shí)別候選數(shù)字區(qū)域中的數(shù)字字符時(shí),即可通過調(diào)用該數(shù)字判別器,以完成識(shí)別操作。
[0108]3)識(shí)別過程:
[0109]以圖5C中識(shí)別出的數(shù)字區(qū)域506為例,說(shuō)明對(duì)其中的數(shù)字字符進(jìn)行識(shí)別的過程。當(dāng)然,此處應(yīng)當(dāng)將該數(shù)字區(qū)域506作為候選數(shù)字區(qū)域。
[0110]首先,需要對(duì)候選數(shù)字區(qū)域進(jìn)行切分,比如通過水平/垂直投影算法實(shí)現(xiàn),從而得到如圖8A所示的切分結(jié)果。通過觀察可見,圖8A最左側(cè)和最右側(cè)實(shí)際上并非數(shù)字字符,而是由未刮干凈的涂層構(gòu)成。因此,通過調(diào)用預(yù)配置的數(shù)字判別器,對(duì)切分得到的每個(gè)字符進(jìn)行識(shí)別,即可識(shí)別并篩除最左側(cè)和最右側(cè)的非數(shù)字字符,并最終得到圖SB所示的數(shù)字區(qū)域,排除了周圍的非數(shù)字字符的影響。
[0111]由于數(shù)字判別器是預(yù)先基于對(duì)象的樣本圖像的樣本訓(xùn)練而得到,使得在利用該數(shù)字判別器對(duì)字符類型進(jìn)行識(shí)別時(shí),其分類依據(jù)實(shí)際上來(lái)源于對(duì)象自身的字符特點(diǎn),從而不僅能夠適用于多種環(huán)境條件(每個(gè)樣本圖像均可以認(rèn)為對(duì)應(yīng)于一種環(huán)境條件),而且具有更強(qiáng)的識(shí)別能力和更好的識(shí)別效果,從而準(zhǔn)確識(shí)別出非數(shù)字字符,使最終得到的數(shù)字區(qū)域更加準(zhǔn)確。
[0112]圖9是根據(jù)一示例性實(shí)施例示出的一種數(shù)字區(qū)域的識(shí)別裝置的示意框圖。
[0113]如圖9所示,根據(jù)一示例性實(shí)施例示出的一種數(shù)字區(qū)域的識(shí)別裝置900,包括:圖像獲取單元902、分類器調(diào)用單元904、區(qū)域識(shí)別單元906、圖像縮放單元908、區(qū)域合并單元910、字符切分單元912、字符識(shí)別單元91