專利名稱:一種表格圖像幾何畸變的數(shù)字校正方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)信息領(lǐng)域的圖像處理技術(shù),特別涉及一種對(duì)畸變的表格圖像校正的方法。
背景技術(shù):
畸變表格的校正是一種非常有用的圖像處理技術(shù),一般有兩類校正方法一類是通過分析表格圖像,得出表格傾斜角度,根據(jù)傾斜角度校正;另一類是分析表格圖像,得到并擬合畸變的表格線,然后把畸變的表格線校正為直線。
對(duì)于前一類,一般的做法是通過一定的方法,在圖像上得到表格線的傾斜角度,作為校正的依據(jù),比如分析得到表格線和水平直線的夾角α,然后根據(jù)tanα計(jì)算表格線上每一點(diǎn)的偏移量,從而進(jìn)行校正。如文獻(xiàn)“基于游程的傾斜表格圖像的快速檢測(cè)和校正”[作者管繼斌,明德烈,華中科技大學(xué)學(xué)報(bào),文章編號(hào)是1671.4512(2005)08-0069]。
對(duì)于后一類,由于對(duì)非特定畸變的表格,只通過分析表格傾斜角度來校正難度極大,所以需要分析表格畸變的特征來進(jìn)行后期處理。
對(duì)于將表格文稿掃描為圖像而言,其目的大多是用于資料保存、文字識(shí)別(OCR)等場(chǎng)合。在OCR的運(yùn)用中,對(duì)于掃描時(shí)已經(jīng)展開的文稿或者書本,只是因放置不正而引起的表格傾斜,由于不會(huì)改變表格的直線表達(dá),因此可以使用第一類方法解決;對(duì)于掃描時(shí)沒有展開的文稿或者書本,數(shù)碼相機(jī)拍攝的圖像以及其它途徑得到的圖像,極有可能會(huì)改變表格原來的直線表達(dá),可以用第二類方法解決這類問題。
在OCR的運(yùn)用中,表格區(qū)域的畸變不僅影響到美觀,更會(huì)嚴(yán)重影響表格識(shí)別、表格內(nèi)文字的行切分等圖像處理的準(zhǔn)確性,甚至使這些操作無法進(jìn)行,如彎曲嚴(yán)重的表格基本無法進(jìn)行識(shí)別,更不要說分離其內(nèi)部文字并識(shí)別這些文字。因此表格校正質(zhì)量的好壞,不僅影響到表格的主觀質(zhì)量評(píng)價(jià),還會(huì)直接影響到對(duì)表格后續(xù)處理的環(huán)節(jié)。此外,由于在OCR運(yùn)用中表格和表格內(nèi)容都需要識(shí)別,因此在OCR中,不但對(duì)表格進(jìn)行校正同時(shí)也要對(duì)表格內(nèi)容進(jìn)行校正,避免影響對(duì)表格內(nèi)容的識(shí)別。
表格圖像的來源最常見的有兩類通過掃描儀對(duì)文稿進(jìn)行掃描或通過數(shù)碼相機(jī)、拍照手機(jī)、攝像頭等對(duì)文稿進(jìn)行拍照獲得。用掃描儀進(jìn)行掃描時(shí),通過將書稿拆開或展平后進(jìn)行再掃描,一般可避免圖像產(chǎn)生畸變。但在實(shí)際操作過程中,其畸變很難避免,而且其畸變的形式要復(fù)雜得多,比如彎曲的程度可能很嚴(yán)重。彎曲不僅發(fā)生在書籍,在其它區(qū)域也普遍存在;彎曲的方向不是只有凸或只有凹狀彎曲,而是在同一條文本行中呈現(xiàn)多處凸凹相間的彎曲;畸變可能呈現(xiàn)放射性、不平行性。如圖2的上部區(qū)域呈凸?fàn)顝澢?,而下部呈凹狀彎曲。這些現(xiàn)象會(huì)導(dǎo)致現(xiàn)有技術(shù)中分析表格的方法完全失效(1)由于表格線不呈直線,很難找到準(zhǔn)確的表格直線,更不要說找傾斜角度了。(2)由于尋找表格直線不準(zhǔn)確,則很難確定表格內(nèi)容的位置,進(jìn)而無法進(jìn)行表格內(nèi)容的識(shí)別。
可見,現(xiàn)有技術(shù)只有對(duì)純文本畸變圖像校正,而對(duì)表格圖像畸變無法校正,現(xiàn)有技術(shù)只處理了工整的、彎曲程度輕微或者單純傾斜的表格圖像,而無法處理彎曲程度嚴(yán)重的表格圖像。
發(fā)明內(nèi)容
為了克服上述缺陷,本發(fā)明的目的在于提出一種對(duì)幾何畸變的表格圖像進(jìn)行數(shù)字校正的方法,即利用采樣表格線校正帶動(dòng)表格內(nèi)容進(jìn)行校正。
為達(dá)到上述目的,本發(fā)明一種表格圖像幾何畸變的數(shù)字校正方法,包括以下步驟(1)對(duì)表格圖像進(jìn)行二值化預(yù)處理,通過版面分析獲得表格區(qū)域;(2)確定有效表格線段的最小長(zhǎng)度,并根據(jù)該長(zhǎng)度,在二值化表格圖像的表格區(qū)域中進(jìn)行搜索,得到N條有效表格線段,其中N為正整數(shù);(3)根據(jù)有效表格線段的位置信息合并有效表格線段并形成表格線域;(4)根據(jù)所述表格線域中包含的有效表格線段信息,計(jì)算出與采樣表格線域?qū)?yīng)的采樣表格線;(5)確定采樣表格線要校正到的目標(biāo)位置,將采樣表格線映射到該目標(biāo)位置;(6)表格內(nèi)其他像素在采樣表格線校正帶動(dòng)下校正。
其中,所述步驟(4)具體為a)選擇垂直方向上任意一條表格線域?yàn)椴蓸颖砀窬€域或最上面和最下面的兩條表格線域?yàn)椴蓸颖砀窬€域;b)根據(jù)所述采樣表格線域包含的有效表格線段信息,計(jì)算出與采樣表格線域?qū)?yīng)的采樣表格線。
其中,所述步驟b)具體為求出采樣表格線域中有效線段集合的水平方向上的上下外輪廓,即曲線的上下沿,對(duì)每一對(duì)上下沿求平均值,得到中點(diǎn),這些相鄰的中點(diǎn)連接起來形成采樣表格線域的采樣表格線,若采樣表格線不連續(xù),則采用曲線擬合方式連接,其中,所述的曲線擬合方式為多項(xiàng)式擬合、貝塞爾曲線擬合、B樣條擬合或橢圓曲線擬合。
其中,在所述步驟(3)和步驟(4)之間,還有一步驟刪除不滿足表格線特征的表格線域及其包含的有效線段。
其中,所述步驟(2)具體為有效表格線段的長(zhǎng)度為表格圖像中漢字寬度的四分之一,并根據(jù)該長(zhǎng)度在二值化表格圖像的表格區(qū)域中進(jìn)行搜索,得到N條有效表格線段,其中N為正整數(shù)。
其中,所述步驟(3)具體為,若有效表格線段左右并且上下相鄰則合并,有效表格線段合并后形成表格線域的個(gè)數(shù)為一個(gè)或一個(gè)以上,每個(gè)表格線域具有上、下沿和寬度,表格線域是屬于它的有效表格線段的集合。
其中,所述步驟(5)具體為目標(biāo)位置確定是采用采樣表格線上每一點(diǎn)到水平邊框的垂直距離的平均值,目標(biāo)位置確定后,再將采樣表格線映射到該目標(biāo)位置。
其中,所述步驟(6)具體為根據(jù)采樣表格線擬合后的位置來定位并以平移或插值填充的方式來校正采樣表格線外的區(qū)域。
采用本發(fā)明所述的方法,原來畸變的表格圖像通過使用該方法,表格被很好得校正過來,提高了表格主觀質(zhì)量,特別是在OCR的運(yùn)用中,保證表格內(nèi)容的完整性,從而對(duì)后續(xù)識(shí)別做了很好的準(zhǔn)備,有效提高OCR的識(shí)別率。
圖1是本發(fā)明一種表格圖像幾何畸變的數(shù)字校正方法的流程圖;圖2是待校正的畸變表格圖像;圖3是圖2二值化后左上角表格線的放大效果圖;圖4是在圖3所示的效果圖上搜索有效表格線段示意圖;圖5是在圖4上求出表格線域的上下沿示意圖;圖6是在圖5上求出表格線域的中點(diǎn)示意圖;圖7是圖2校正之后的表格圖像;圖8是待校正的畸變表格圖像;圖9是圖8校正之后的表格圖像。
具體實(shí)施例方式
下面結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步詳細(xì)的描述。
本發(fā)明的基本原理是首先將對(duì)表格圖像進(jìn)行二值化處理,通過對(duì)二值化表格圖像的分析,粗略確定表格線域,取垂直方向上的最上和最下兩條表格線域作為采樣域,或者僅取垂直方向上任意一條表格線域作為采樣域,進(jìn)行表格線采樣,得到與采樣表格線域?qū)?yīng)的采樣表格線,然后對(duì)采樣表格線做擬合和校正。表格內(nèi)的其他像素在采樣表格線的帶動(dòng)下進(jìn)行校正。
如圖1所示,本發(fā)明的具體實(shí)施步驟如下1、對(duì)表格圖像進(jìn)行二值化處理和版面分析。對(duì)非二值化的表格圖像(如圖2所示),先進(jìn)行表格圖像的自動(dòng)閾值二值化處理;對(duì)已經(jīng)是二值化的圖像,則無需進(jìn)行二值化處理。然后對(duì)二值化圖像進(jìn)行版面分析,獲得二值化圖像中的表格區(qū)域。
2、確定有效表格線段長(zhǎng)度,在二值化的表格圖像中搜索有效表格線段,獲得n條有效表格線段。一般情況下,有效表格線段長(zhǎng)度可以為表格圖像中漢字寬度的四分之一,漢字的寬度可由版面分析獲得,如果版面分析不能獲得漢字寬度,就采用經(jīng)驗(yàn)值,經(jīng)驗(yàn)值為6像素左右。有效線段的搜索就是,對(duì)圖像的某一行從左至右掃描,記錄連續(xù)的黑像素,確定一個(gè)固定長(zhǎng)度值,經(jīng)驗(yàn)值為6像素左右,認(rèn)為連續(xù)的黑像素長(zhǎng)度大于等于這個(gè)固定長(zhǎng)度值的線段為有效線段,如圖4中的黑色線段就是對(duì)圖3進(jìn)行掃描搜索得到的7條有效線段。
3、合并有效表格線段,得到一系列水平表格線域列表。按先左后右,先上后下的順序檢查分析有效表格線段,即對(duì)每一條有效表格線段,看它與前面的有效表格線段的位置關(guān)系,以確定是否需要合并(如圖4、圖5所示)。有效表格線段合并為表格線域的步驟如下a)創(chuàng)建一條表格線域,里面包含第一條有效表格線段。
b)對(duì)于下一條有效表格線段,看它是否與某一表格線域呈被包含或相鄰關(guān)系,表格線域?qū)⒂行П砀窬€段在水平方向上包含進(jìn)來,或與該有效表格線段在水平方向上相鄰,就是比較當(dāng)前有效表格線段和所有表格線域中的有效表格線段的位置關(guān)系。
位置關(guān)系的判斷方法為對(duì)于兩條水平方向的有效表格線段,設(shè)兩條有效表格線段A、B的位置(即y方向坐標(biāo))分別為Apos、Bpos,兩條有效表格線段的起始點(diǎn)(x方向的坐標(biāo))分別為Astart、Bstart,終止點(diǎn)分別為Aend、Bend。如兩條有效表格線段滿足下列關(guān)系式Apos-1<=Bpos&&Bpos<=Apos+1(1)(Astart<=Bend+α&&Astart>=Bstartα)||(Bstart<=Aend+α&&Bstart>=Astart-α)(2)則認(rèn)為兩條有效表格線段同屬于一條表格線域。其中,α是0或正整數(shù)常數(shù),表示可合并的兩條有效表格線段之間的在x方向上的最小間距。經(jīng)驗(yàn)值一般為不要超過有效表格線段長(zhǎng)度的一半。
c)如果當(dāng)前有效表格線段不與任何表格線域中的有效表格線段屬于同一表格線域,則創(chuàng)建一個(gè)新的表格線域,里面包含這條線段。
d)如果當(dāng)前有效表格線段與其中一個(gè)表格線域中的有效表格線段屬于同一表格線域,則將此線段加入該表格線域。
e)如果當(dāng)前有效表格線段與多個(gè)表格線域中的有效表格線段屬于同一表格,則合并這些表格線域,然后將此線段加入合并后的表格線域。
f)重復(fù)步驟b)至步驟e),直到所有的有效表格線段都存在于一個(gè)表格線域中。表格線域是一個(gè)有效線段的集合,具有寬度和高度,一個(gè)表格線域包括n條有效線段;這些表格線域互不相交,即一條有效表格線段只存在于一個(gè)表格線域內(nèi)。
另外,還要?jiǎng)h除不滿足表格線特征的表格線域及其包含的有效表格線段。
4、當(dāng)表格圖像中的上下兩條表格線彎曲趨勢(shì)大致相同時(shí)(如圖2所示),選取最長(zhǎng)的或任意一條表格線域作為采樣表格線域,求出該采樣表格線域的上下沿及中點(diǎn)序列,連接中點(diǎn)序列中的所有中點(diǎn)形成一條曲線,該曲線就是該采樣表格線域的采樣表格線(如圖5、圖6所示)。
當(dāng)表格圖像上下兩條表格線嚴(yán)重彎曲時(shí),比如,表格線畸變呈放射狀的表格圖像,或表格線呈波浪形畸變,此時(shí),需要選擇垂直方向上最上面的一個(gè)表格線域和最下面的一個(gè)表格線域作為采樣域進(jìn)行分析,根據(jù)表格線域包含的有效線段位置信息和實(shí)際圖像中的位置信息,求它們的上、下沿和中心線。中心線上的點(diǎn)序列就是采樣點(diǎn)集,而一個(gè)表格線域中的采樣點(diǎn)集能夠反映該表格線的彎曲趨勢(shì)。表格線域的中心線是畸變表格的采樣表格線。以下是獲得采樣表格線的具體步驟I)分析表格線域集合,對(duì)于不滿足表格線特征的表格線域進(jìn)行刪除(如長(zhǎng)度太短);選取任意一條或者在垂直方向上位置最小和最大的兩條表格線域作為采樣表格線。
II)根據(jù)選中的表格線域中的線段集合,可以獲得一條連續(xù)(或者中間有部分?jǐn)嗔?的曲線,即表格線域的中心線。
獲得上述曲線的具體方法如下設(shè)表格線域內(nèi)所有線段的橫坐標(biāo)最大、最小值分別為X1、X0,對(duì)于每一個(gè)x(X0<=x<=X1),找到包含x的每一條線段,統(tǒng)計(jì)這些線段的最大、最小垂直方向的坐標(biāo)值(即表格線該x坐標(biāo)上的上沿和下沿),求最大、最小的平均值,作為表格線在該x坐標(biāo)上對(duì)應(yīng)的y坐標(biāo)值。當(dāng)所有的x坐標(biāo)都求到了相應(yīng)的y坐標(biāo)的值,就形成了上述的曲線。
III)上述曲線如果連續(xù),即所有x都有相對(duì)應(yīng)的正確y值,這條曲線就是一條采樣線;如果中間有斷裂,則可通過曲線擬和的方式求出那些缺失的點(diǎn)。
具體可采用的擬合形式為(自適應(yīng))多項(xiàng)式擬合、貝塞爾曲線擬合、B樣條擬合、橢圓曲線等,本實(shí)施例中采用3階多項(xiàng)式擬合,在采用多項(xiàng)式擬合時(shí),若采用固定階數(shù)的多項(xiàng)式擬合,則階數(shù)不宜定得過高,否則易發(fā)生震蕩現(xiàn)象,一般3階就足夠描述實(shí)際圖像中嚴(yán)重彎曲的區(qū)域了。
5、計(jì)算采樣表格線要校正到的目標(biāo)位置,將表格線校正到該目標(biāo)位置。
該步驟中,計(jì)算采樣表格線要校正到的目標(biāo)位置的計(jì)算方法為取表格線域的中心線上采樣點(diǎn)的平均Y值,做為其在Y方向的缺省目標(biāo)位置。確定目標(biāo)位置后,將表格線校正到目標(biāo)位置設(shè)校正的目標(biāo)Y值為yd,則采樣表格線上所有點(diǎn)x坐標(biāo)不變,y坐標(biāo)均改為yd。
6、求出目標(biāo)位置后,表格內(nèi)的其他像素在校正采樣表格線的帶動(dòng)下,按照平移或插值填充的方式校正。
當(dāng)只有一條表格線為參考時(shí),采用平移的方式校正設(shè)表格線中的任意一個(gè)需要被校正的點(diǎn)坐標(biāo)為(x,y),表格線的校正目標(biāo)為yd,任意相同x處的表格區(qū)域上點(diǎn)的坐標(biāo)為(x,yf),則該點(diǎn)在校正后的坐標(biāo)為(x,yf+(yd-y))。
當(dāng)有兩條表格線為參考時(shí),則采用插值的方式來填充兩條表格線之間的區(qū)域。當(dāng)表格線彎曲嚴(yán)重時(shí)候,兩條采樣表格線在原圖中的距離D1和校正后之間的距離D2可能會(huì)不相等,因此使用插值算法,填補(bǔ)空缺的部分。設(shè)表格中任意垂直方向上,兩表格線相應(yīng)的點(diǎn)坐標(biāo)為(x,y1)、(x,y2),表格線的校正目標(biāo)為yd1、yd2,任意相同x處的表格區(qū)域上點(diǎn)的坐標(biāo)為(x,yf),則該點(diǎn)在校正后的坐標(biāo)為(x,yd1+(yf-y1)(yd2-yd1)/(y2-y1))。由其校正后的結(jié)果圖,如圖7和圖9所示,效果很理想。
通過本實(shí)施例可以看到,原來畸變的表格圖像(如圖2和圖8)通過使用該方法,表格被很好得校正過來(如圖7和圖9)。本發(fā)明的方法提高了表格主觀質(zhì)量,特別是在OCR的運(yùn)用中,保證表格內(nèi)容的完整性,從而對(duì)后續(xù)識(shí)別做了很好的準(zhǔn)備,有效提高OCR的識(shí)別率。
權(quán)利要求
1.一種表格圖像幾何畸變的數(shù)字校正方法,其特征在于,包括以下步驟(1)對(duì)表格圖像進(jìn)行二值化預(yù)處理,通過版面分析獲得表格區(qū)域;(2)確定有效表格線段的最小長(zhǎng)度,并根據(jù)該長(zhǎng)度,在二值化表格圖像的表格區(qū)域中進(jìn)行搜索,得到N條有效表格線段,其中N為正整數(shù);(3)根據(jù)有效表格線段的位置信息合并有效表格線段并形成表格線域;(4)根據(jù)所述表格線域中包含的有效表格線段信息,計(jì)算出與采樣表格線域?qū)?yīng)的采樣表格線;(5)確定采樣表格線要校正到的目標(biāo)位置,將采樣表格線映射到該目標(biāo)位置;(6)表格內(nèi)其他像素在采樣表格線校正帶動(dòng)下校正。
2.按照權(quán)利要求1所述的表格圖像幾何畸變的數(shù)字校正方法,其特征在于,所述步驟(4)具體為a)選擇垂直方向上任意一條表格線域?yàn)椴蓸颖砀窬€域或最上面和最下面的兩條表格線域?yàn)椴蓸颖砀窬€域;b)根據(jù)所述采樣表格線域包含的有效表格線段信息,計(jì)算出與采樣表格線域?qū)?yīng)的采樣表格線。
3.按照權(quán)利要求2所述的表格圖像幾何畸變的數(shù)字校正方法,其特征在于,所述步驟b)具體為求出采樣表格線域中有效線段集合的水平方向上的上下外輪廓,即曲線的上下沿,對(duì)每一對(duì)上下沿求平均值,得到中點(diǎn),這些相鄰的中點(diǎn)連接起來形成采樣表格線域的采樣表格線,若采樣表格線不連續(xù),則采用曲線擬合方式連接,其中,所述的曲線擬合方式為多項(xiàng)式擬合、貝塞爾曲線擬合、B樣條擬合或橢圓曲線擬合。
4.按照權(quán)利要求1、2或3所述的表格圖像幾何畸變的數(shù)字校正方法,其特征在于,在所述步驟(3)和步驟(4)之間,還有一步驟刪除不滿足表格線特征的表格線域及其包含的有效線段。
5.按照權(quán)利要求4所述的表格圖像幾何畸變的數(shù)字校正方法,其特征在于,所述步驟(2)具體為有效表格線段的長(zhǎng)度為表格圖像中漢字寬度的四分之一,并根據(jù)該長(zhǎng)度在二值化表格圖像的表格區(qū)域中進(jìn)行搜索,得到N條有效表格線段,其中N為正整數(shù)。
6.按照權(quán)利要求4所述的表格圖像幾何畸變的數(shù)字校正方法,其特征在于,所述步驟(3)具體為,若有效表格線段左右并且上下相鄰則合并,有效表格線段合并后形成表格線域的個(gè)數(shù)為一個(gè)或一個(gè)以上,每個(gè)表格線域具有上、下沿和寬度,表格線域是屬于它的有效表格線段的集合。
7.按照權(quán)利要求4所述的表格圖像幾何畸變的數(shù)字校正方法,其特征在于,所述步驟(5)具體為目標(biāo)位置確定是采用采樣表格線上每一點(diǎn)到水平邊框的垂直距離的平均值,目標(biāo)位置確定后,再將采樣表格線映射到該目標(biāo)位置。
8.按照權(quán)利要求4所述的表格圖像幾何畸變的數(shù)字校正方法,其特征在于,所述步驟(6)具體為根據(jù)采樣表格線擬合后的位置來定位并以平移或插值填充的方式來校正采樣表格線外的區(qū)域。
全文摘要
本發(fā)明涉及計(jì)算機(jī)信息領(lǐng)域的圖像處理技術(shù),具體涉及一種表格圖像幾何畸變的數(shù)字校正方法。為解決現(xiàn)有技術(shù)中只能有效的對(duì)畸變文本行進(jìn)行校正,當(dāng)文稿中出現(xiàn)畸形表格非文本區(qū)域時(shí),無法進(jìn)行后續(xù)識(shí)別的問題而發(fā)明。本發(fā)明所述的方法通過對(duì)表格圖像進(jìn)行分析,在二值化圖像上搜索并分析有效表格線段,得到屬于表格的采樣表格線,分析、擬合采樣表格線,并將其映射到目標(biāo)位置,由采樣表格線帶動(dòng)表格內(nèi)部文字而很好地校正。本發(fā)明不但能準(zhǔn)確地校正畸形表格,而且對(duì)于表格內(nèi)部文字的矯正也達(dá)到很好的效果。
文檔編號(hào)G06T5/00GK101064007SQ20061007899
公開日2007年10月31日 申請(qǐng)日期2006年4月29日 優(yōu)先權(quán)日2006年4月29日
發(fā)明者劉芝, 康凱, 杜鵬飛 申請(qǐng)人:北大方正集團(tuán)有限公司, 北京北大方正技術(shù)研究院有限公司, 北京大學(xué)