數(shù)字區(qū)域的識(shí)別方法和識(shí)別裝置、移動(dòng)終端的制作方法
【技術(shù)領(lǐng)域】
[0001]本公開涉及圖像處理技術(shù)領(lǐng)域,尤其涉及數(shù)字區(qū)域的識(shí)別方法、數(shù)字區(qū)域的識(shí)別裝置和移動(dòng)終端。
【背景技術(shù)】
[0002]隨著科技的不斷發(fā)展,終端設(shè)備能夠執(zhí)行越來越多的功能,尤其是智能手機(jī)等移動(dòng)終端,已經(jīng)成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧?br>[0003]舉例而言,OCR (Optical Character Recognit1n,光學(xué)字符識(shí)別)幾乎成為所有終端設(shè)備必備的功能,使得很多原本需要用戶手動(dòng)輸入的場景下,可以通過OCR技術(shù)自動(dòng)識(shí)別和輸入信息,比如在使用“充值卡”時(shí),無需用戶手動(dòng)輸入賬戶名和密碼,而直接通過OCR技術(shù)自動(dòng)識(shí)別即可,有助于提高用戶的工作效率。
[0004]具體地,終端設(shè)備需要首先獲取“充值卡”的圖像,再從該圖像中識(shí)別出賬戶名和密碼等數(shù)字。然而,該“充值卡”的圖像上顯然還會(huì)包含很多其他信息,從而造成對賬戶名和密碼等數(shù)字的干擾和影響,導(dǎo)致誤識(shí)別或無法識(shí)別等情況的發(fā)生。
【發(fā)明內(nèi)容】
[0005]為克服相關(guān)技術(shù)中存在的問題,本公開提供一種數(shù)字區(qū)域的識(shí)別方法、數(shù)字區(qū)域的識(shí)別裝置和移動(dòng)終端。
[0006]根據(jù)本公開實(shí)施例的第一方面,提供一種數(shù)字區(qū)域的識(shí)別方法,包括:
[0007]獲取對象的待識(shí)別圖像;
[0008]調(diào)用預(yù)配置的對應(yīng)于所述對象的區(qū)域分類器,所述區(qū)域分類器由對應(yīng)于所述對象中的數(shù)字區(qū)域和非數(shù)字區(qū)域的區(qū)域訓(xùn)練樣本生成,且所述區(qū)域訓(xùn)練樣本來自所述對象的樣本圖像;
[0009]根據(jù)所述區(qū)域分類器識(shí)別出所述待識(shí)別圖像中的數(shù)字區(qū)域,以供對所述數(shù)字區(qū)域進(jìn)行光學(xué)字符識(shí)別。
[0010]在該技術(shù)方案中,由于區(qū)域分類器是預(yù)先基于對象的樣本圖像的樣本訓(xùn)練而得至IJ,使得在利用該區(qū)域分類器對對象進(jìn)行分類識(shí)別時(shí),其分類依據(jù)實(shí)際上來源于對象自身的區(qū)域設(shè)置特點(diǎn),不僅能夠適應(yīng)于多種環(huán)境條件(每個(gè)樣本圖像均可以認(rèn)為對應(yīng)于一種環(huán)境條件),而且具有更強(qiáng)的識(shí)別能力和更好的識(shí)別效果,從而準(zhǔn)確識(shí)別出待識(shí)別圖像中的數(shù)字區(qū)域,便于執(zhí)行后續(xù)的OCR處理。
[0011]在一示例性實(shí)施例中,所述區(qū)域分類器是由每個(gè)區(qū)域訓(xùn)練樣本對應(yīng)的第一分類器級聯(lián)得到的第二分類器。在該技術(shù)方案中,通過對第一分類器的級聯(lián)優(yōu)化,使得到的第二分類器融合了所有區(qū)域訓(xùn)練樣本的樣本特征,從而有助于提升識(shí)別的準(zhǔn)確度。
[0012]在一示例性實(shí)施例中,每個(gè)所述第一分類器是由相應(yīng)區(qū)域訓(xùn)練樣本的方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征經(jīng)過線性判別分析(LinearDiscriminant Analysis, LDA)投影后得到。在該技術(shù)方案中,通過采用HOG特征,使得能夠根據(jù)梯度分布來更好地描述區(qū)域訓(xùn)練樣本;同時(shí),通過LDA投影對HOG特征進(jìn)行降維處理,從而有助于降低第二分類器的訓(xùn)練難度,提高訓(xùn)練效率。
[0013]在一示例性實(shí)施例中,對應(yīng)于數(shù)字區(qū)域的每個(gè)區(qū)域訓(xùn)練樣本包括至少兩個(gè)數(shù)字字符。在該技術(shù)方案中,通過使每個(gè)區(qū)域訓(xùn)練樣本中包含多個(gè)數(shù)字字符,從而能夠表達(dá)出單個(gè)字符無法表達(dá)出的區(qū)域結(jié)構(gòu)特征,有助于提升訓(xùn)練得到的區(qū)域分類器的區(qū)域識(shí)別準(zhǔn)確度。其中,區(qū)域訓(xùn)練樣本中應(yīng)當(dāng)包含兩位數(shù)字字符下的所有情況(如00、01……99),以避免遺漏而導(dǎo)致后期識(shí)別失敗;此外,每個(gè)區(qū)域訓(xùn)練樣本中也可以包含其他數(shù)量的數(shù)字字符,則也應(yīng)當(dāng)確保包含相應(yīng)數(shù)量的數(shù)字字符下的所有情況(如000、001……999)。
[0014]在一示例性實(shí)施例中,根據(jù)所述區(qū)域分類器識(shí)別所述待識(shí)別圖像中的數(shù)字區(qū)域包括:在所述待識(shí)別圖像上依次選取預(yù)設(shè)大小的候選區(qū)域;通過所述區(qū)域分類器判別每個(gè)所述候選區(qū)域的類型;將判別結(jié)果為數(shù)字區(qū)域類型的候選區(qū)域進(jìn)行合并。
[0015]在該技術(shù)方案中,通過依次選取候選區(qū)域并識(shí)別其類型,從而將判別為數(shù)字區(qū)域類型的候選區(qū)域合并,以得到最終的數(shù)字區(qū)域。其中,候選區(qū)域的大小可以根據(jù)實(shí)際需求進(jìn)行預(yù)先設(shè)置,當(dāng)候選區(qū)域較大時(shí)有助于提升識(shí)別效率,而當(dāng)候選區(qū)域較小時(shí)則有助于提升識(shí)別精準(zhǔn)度。
[0016]在一示例性實(shí)施例中,將判別結(jié)果為數(shù)字類型的候選區(qū)域進(jìn)行合并包括:根據(jù)數(shù)字區(qū)域的形狀特征和/或數(shù)字區(qū)域在所述對象中的分布特征,篩除被判定為數(shù)字區(qū)域類型的候選區(qū)域中與數(shù)字區(qū)域無關(guān)的候選區(qū)域,并對剩余的數(shù)字類型的候選區(qū)域進(jìn)行合并。
[0017]在該技術(shù)方案中,數(shù)字區(qū)域的形狀特征包括:數(shù)字區(qū)域呈矩形、與對象的邊沿平行、數(shù)字區(qū)域內(nèi)的數(shù)字字符排列為一排或多排、數(shù)字區(qū)域?yàn)轭A(yù)設(shè)長度等;而數(shù)字區(qū)域在對象中的分布特征包括:數(shù)字區(qū)域在對象上的相對設(shè)置位置、數(shù)字區(qū)域與對象之間的相對顯示比例等?;跀?shù)字區(qū)域的形狀特征和/或分布特征,即可篩除不符合要求的候選區(qū)域,消除誤判斷的影響;同時(shí),通過合并符合要求的數(shù)字區(qū)域類型的候選區(qū)域,從整體上得到組成待識(shí)別圖像上的數(shù)字區(qū)域。
[0018]在一示例性實(shí)施例中,還包括:按照預(yù)設(shè)比例對所述待識(shí)別圖像進(jìn)行縮放操作,以得到多個(gè)顯示比例的待識(shí)別圖像;根據(jù)所述區(qū)域分類器識(shí)別每個(gè)顯示比例的待識(shí)別圖像中的數(shù)字區(qū)域;以及,根據(jù)識(shí)別出的每個(gè)數(shù)字區(qū)域在相應(yīng)的待識(shí)別圖像中的相對位置,合并所有顯示比例的待識(shí)別圖像中識(shí)別出的數(shù)字區(qū)域,以作為所述待識(shí)別圖像中的數(shù)字區(qū)域。
[0019]在該技術(shù)方案中,通過基于圖像縮放操作的金字塔掃描,使得在不同顯示比例的待識(shí)別圖像上分別實(shí)現(xiàn)區(qū)域特征識(shí)別,有助于消除顯示比例的差異而導(dǎo)致的識(shí)別誤差。
[0020]在一示例性實(shí)施例中,在根據(jù)所述區(qū)域分類器識(shí)別出所述待識(shí)別圖像中的數(shù)字區(qū)域之后,還包括:將所述區(qū)域分類器識(shí)別出的數(shù)字區(qū)域作為候選數(shù)字區(qū)域,并對每個(gè)候選數(shù)字區(qū)域中的字符進(jìn)行切分操作;調(diào)用預(yù)配置的數(shù)字判別器,并根據(jù)所述數(shù)字判別器識(shí)別切分得到的每個(gè)字符;篩除所述候選數(shù)字區(qū)域中的非數(shù)字字符,并將剩余字符對應(yīng)的區(qū)域作為所述待識(shí)別圖像中的數(shù)字區(qū)域。
[0021]在該技術(shù)方案中,當(dāng)區(qū)域分類器對應(yīng)的區(qū)域訓(xùn)練樣本中包含至少兩個(gè)數(shù)字字符時(shí),其更傾向于整體區(qū)域特征的識(shí)別,從而導(dǎo)致識(shí)別出的數(shù)字區(qū)域中可能包含有非數(shù)字字符。因此,將區(qū)域分類器得到的數(shù)字區(qū)域重新作為候選數(shù)字區(qū)域,并實(shí)現(xiàn)基于數(shù)字判別器的字符類型識(shí)別,能夠有效消除候選數(shù)字區(qū)域中包含的非數(shù)字字符,避免影響后續(xù)的OCR處理等。
[0022]在一示例性實(shí)施例中,所述數(shù)字判別器由對應(yīng)于所述對象中的數(shù)字區(qū)域內(nèi)的數(shù)字字符和非數(shù)字區(qū)域內(nèi)的非數(shù)字字符的字符訓(xùn)練樣本生成,且所述字符訓(xùn)練樣本來自所述對象的樣本圖像。在該技術(shù)方案中,由于數(shù)字判別器是預(yù)先基于對象的樣本圖像的樣本訓(xùn)練而得到,使得在利用該數(shù)字判別器對字符類型進(jìn)行識(shí)別時(shí),其分類依據(jù)實(shí)際上來源于對象自身的字符特點(diǎn),從而不僅能夠適用于多種環(huán)境條件(每個(gè)樣本圖像均可以認(rèn)為對應(yīng)于一種環(huán)境條件),而且具有更強(qiáng)的識(shí)別能力和更好的識(shí)別效果,從而準(zhǔn)確識(shí)別出非數(shù)字字符,使最終得到的數(shù)字區(qū)域更加準(zhǔn)確。
[0023]在一示例性實(shí)施例中,所述數(shù)字判別器是由相應(yīng)訓(xùn)練樣本的方向梯度直方圖特征經(jīng)過支持向量機(jī)的訓(xùn)練而得到。
[0024]根據(jù)本公開實(shí)施例的第二方面,提供一種數(shù)字區(qū)域的識(shí)別裝置,包括:
[0025]圖像獲取單元,用于獲取對象的待識(shí)別圖像;
[0026]分類器調(diào)用單元,用于調(diào)用預(yù)配置的對應(yīng)于所述對象的區(qū)域分類器,所述區(qū)域分類器由對應(yīng)于所述對象中的數(shù)字區(qū)域和非數(shù)字區(qū)域的區(qū)域訓(xùn)練樣本生成,且所述區(qū)域訓(xùn)練樣本來自所述對象的樣本圖像;
[0027]區(qū)域識(shí)別單元,用于根據(jù)所述區(qū)域分類器識(shí)別出所述待識(shí)別圖像中的數(shù)字區(qū)域,以供對所述數(shù)字區(qū)域進(jìn)行光學(xué)字符識(shí)別。
[0028]在該技術(shù)方案中,由于區(qū)域分類器是預(yù)先基于對象的樣本圖像的樣本訓(xùn)練而得至IJ,使得在利用該區(qū)域分類器對對象進(jìn)行分類識(shí)別時(shí),其分類依據(jù)實(shí)際上來源于對象自身的區(qū)域設(shè)置特點(diǎn),不僅能夠適應(yīng)于多種環(huán)境條件(每個(gè)樣本圖像均可以認(rèn)為對應(yīng)于一種環(huán)境條件),而且具有更強(qiáng)的識(shí)別能力和更好的識(shí)別效果,從而準(zhǔn)確識(shí)別出待識(shí)別圖像中的數(shù)字區(qū)域,便于執(zhí)行后續(xù)的OCR處理。
[0029]在一示例性實(shí)施例中,所述區(qū)域分類器是由每個(gè)區(qū)域訓(xùn)練樣本對應(yīng)的第一分類器級聯(lián)得到的第二分類器。在該技術(shù)方案中,通過對第一分類器的級聯(lián)優(yōu)化,使得到的第二分類器融合了所有區(qū)域訓(xùn)練樣本的樣本特征,從而有助于提升識(shí)別的準(zhǔn)確度。
[0030]在一示例性實(shí)施例中,每個(gè)所述第一分類器是由相應(yīng)區(qū)域訓(xùn)練樣本的方向梯度直方圖特征經(jīng)過線性判別分析投影后得到。在該技術(shù)方案中,通過采用HOG特征,使得能夠根據(jù)梯度分布來更好地描述區(qū)域訓(xùn)練樣本;同時(shí),通過LDA投影對HOG特征進(jìn)行降維處理,從而有助于降低第二分類器的訓(xùn)練難度,提高訓(xùn)練效率。
[0031]在一示例性實(shí)施例中,對應(yīng)于數(shù)字區(qū)域的每個(gè)區(qū)域訓(xùn)練樣本包括至少兩個(gè)數(shù)字字符。在該技術(shù)方案中,通過使每個(gè)區(qū)域訓(xùn)練樣本中包含多個(gè)數(shù)字字符,從而能夠表達(dá)出單個(gè)字符無法表達(dá)出的區(qū)域結(jié)構(gòu)特征,有助于提升訓(xùn)練得到的區(qū)域分類器的區(qū)域識(shí)別準(zhǔn)確度。其中,區(qū)域訓(xùn)練樣本中應(yīng)當(dāng)包含兩位數(shù)字字符下的所有情況(如00、01……99),以避免遺漏而導(dǎo)致后期識(shí)別失??;此外,每個(gè)區(qū)域訓(xùn)練樣本中也可以包含其他數(shù)量的數(shù)字字符,則也應(yīng)當(dāng)確保包含相應(yīng)數(shù)量的數(shù)字字符下的所有情況(如000、001……999)。
[0032]在一示例性實(shí)施例中,所述區(qū)域識(shí)別單元包括:區(qū)域選取子單元,用于在所述待識(shí)別圖像上依