專利名稱:一種通用的用于符號識別的特征描述方法
技術領域:
本發明屬于模式識別和人工智能技術領域,具體是一種通用的用于符號識別的特征描述方法,可用于各種圖紙和文檔中的以及筆輸入的符號和字符識別,例如電路圖、工程圖紙、地圖、建筑圖紙、樂譜、商標、數學公式、光學字符、筆輸入字符等各個領域的符號識別。
背景技術:
符號識別是模式識別、圖形識別、文檔分析與識別領域重要的研究內容之一,在電路圖(見參考文獻[1][2])、工程圖紙(見參考文獻[3][4])、地圖(見參考文獻[5][6])、建筑圖(見參考文獻[7-9])、樂譜(見參考文獻[10][11])、商標(見參考文獻[12][13])、數學公式(見參考文獻[14][15])、光學字符(見參考文獻[16][17])的自動理解和識別方面扮演著重要的角色。本領域目前的研究已取得了一定的成果,但是,對于實用系統的研發而言還是遠遠不夠的。目前面臨的難點是能否找到一個在通用性、可擴充性、抗噪聲和變形干擾能力、旋轉和伸縮不變性等各個方面都表現優異、具有優秀的綜合性能的方法。找到一個在某一方面表現突出的方法相對而言并不困難,但要找到在各個方面都表現優異的、綜合性能優秀的方法卻并不容易,到目前為止,有關研究還在進行之中。
一個符號識別系統的性能很大程度上取決于所采用特征描述方法。根據所采用的描述方法,現有的符號識別方法可以分為兩大類結構方法和統計方法。下面將討論這兩類中一些有代表性的方法。
關于結構方法,符號的特征描述大致都具有以下特點首先將符號分解為一些基本的幾何元素,這些基本幾何元素以及他們之間的相互關系構成一個符號的描述。這類描述方法很自然地會和圖模型聯系起來,大量的符號識別方法是利用圖模型進行特征描述(見參考文獻[1][9][16])。屬性關系圖(ARG)是最經典的一種圖模型,在參考文獻[16]中,關鍵點之間的相對位置和連通性作為屬性被用于描述印刷體漢字。參考文獻[9]中提出了一種叫做區域鄰接圖(RAG)的新模型,這里,圖的節點表示一個多邊形,圖的弧表示兩個多邊形之間是否存在公共邊界。文獻[9]中還報道了基于區域鄰接圖的建筑符號識別的案例研究。另一類結構方法是基于基本元素之間的幾何約束(見參考文獻[4][7])。在參考文獻[4]中,首先將符號分解為基本幾何元素,如直線、弧、環等,然后對給定符號的基本元素之間的幾何約束進行一些假設,再對假設進行檢驗,看其是否滿足對應于每個理想符號預先定義的一組規則,從而識別出符號。參考文獻[4]給出了關于工程圖紙中符號識別的研究結果。其它的結構方法還包括利用基于線段的可變形模板與輸入符號進行匹配(見參考文獻[8])。以上這些方法的缺點在于系統性能很大程度上取決于圖像質量。這些方法的共同之處在于首先要將符號分解為基本幾何元素。當噪聲和變形出現在圖像中時,基本幾何元素往往不能被準確地檢測出來;同樣,也很難準確地獲得基本元素之間的關系。這意味著符號特征描述的正確性將無法保證,從而會引起識別正確率的下降。
與結構特征不同,統計特征不需要對直線、弧、環、關鍵點等基本幾何元素進行檢測,統計特征基本上是基于點的。對于二值圖像,點是最自然不過的基本元素(見參考文獻[18]),可直接輸入到分類器用于符號識別;但是,這樣的分類方法很難保證旋轉、伸縮、平移不變性。最經典的具有旋轉、伸縮、平移不變性的統計特征是不變矩(見參考文獻[19]);但是,不變矩所提供的信息非常有限,系統的可擴充能力無法得到保證,尤其是對大字符集合的識別。環投影是另一種具有旋轉不變能力的統計特征(見參考文獻[17]),其計算方法如下首先選定一個中心,以此中心向外作同心圓切割字符,組成字符的點落在各個圓上的個數作為對字符形狀的描述;此方法的缺點是當字符存在各種變形時,很難找到一個穩定的圓心,因此,此方法不適用于含有變形的手寫字符的識別。Shape Context是最近提出的一種形狀描述方法(見參考文獻[20]),它的計算如下(1)以每個點為中心,作一個直方圖,統計其它的點在這點周圍如何分布。(2)通過搜索兩個形狀之間各個點的對應關系來完成形狀匹配程度的計算。Shape Context是一種具有很好抗噪聲和變形干擾能力的形狀描述方法,其旋轉不變性是通過如下方法獲得的在計算以每一點為中心的直方圖時,以這點的切線作為x軸。但是,這樣的計算方法不能象所預期的那樣可靠地保證旋轉不變性,理由如下在噪聲干擾下,往往不能得到確切的邊界,且邊界形狀往往會變形,不可能象在理想狀況下那樣輕易地獲得在每個點的穩定的切線。
以上所述的各種方法有各自的優點,也有各自的弱點,到目前為止,還沒有一個方法能夠具備優秀的綜合性能,即在通用性、抗噪聲和變形干擾、旋轉和伸縮不變性、可擴充性等各個方面都有令人滿意的表現。
參考文獻[1]Groen,F.,Sanderson,A.,Schlag,F.Symbol recognition in electrical diagrams usingprobabilistic graph matching.Pattern Recognition Letters 3(1985)343-350[2]Okazaki A.,Kondo T.,Mori K.,Tsunekawa S.,and Kawamoto E,An automatic circuitdiagram reader with loop-structure-based symbol recognition,IEEE T-PAMI 10(1988)331-341 Filipski,A. J.,Flandrena,R.Automated conversion of engineering drawings to CAD form.Proceedings of the IEEE 80(1992)1195-1209[4]Luo,Y.,Liu,W.,Y.Engineering drawings recognition using a case-based approach. InInternational Conference on Document Analysis and Recognition 2003,Edinburgh,UK[5]Boatto,L.,Consorti,V.,Del Buono,M.,Di Zenzo,S.,Eramo,V.,Espossito,A.,Melcame,F.,Meucci,M.,Morelli,A.,Mosciatti,M.,Scarci,S.,Tucci,M.An interpretation system for landregister maps.Computer 25(1992)25-33. Samet,H.,Soffer,A.MarcoMap retrieval by content.IEEE T-PAMI 18(1996)783-797[7]Ah-Soon,C.,Tombre,K.Architectural symbol recognition using a network of constraints.Pattern Recognition Letters 22(2001)231-248[8]Valveny E.,Marti E.A model for image generation and symbol recognition through thedeformation of linear shapes. Pattern Recognition Letters 24(2003)2857-2867[9]Llados J.,Marti E.,Villanueva J. J.Symbol recognition by error-tolerant subgraph matchingbetween region adjacency graphs.IEEE T-PAMI 23(2001)1137-1143[10]Yadid-Pecht,O.,Gerner,M.,Dvir,L.,Brutman,E.,Shimony,U.Recognition ofhandwritten musical notes by a modified neocognitron. Machine Vision and Applications 9(1996)65-72[11]Rossant F.A global method for music symbol recognition in typeset music sheets. PatternRecognition Letters 23(2002)1129-1141[12]Chang,M.,Chen,S.Deformed trademark retrieval based on 2D pseudo-hidden Markovmodel.Pattern Recognition 34(2001)953-967[13]Cortelazzo,G.,Mian,G.,Vezzi,G.,Zamperoni,P.Trademark shapes description by stringmatching techniques.Pattern Recognition 27(1994)1005-1018[14]Lee,H. J.,Lee,M. C.Understanding mathematical expression in a printed document.Proceedings of the 2nd International Conference on Document Analysis and Recognition,1993,502-505[15]Chaudhuri,B.B.,Garain,U.An approach for recognition and interpretation ofmathematical expressions in printed document.Pattern analysis and applications 3(2000)120-131[16]Huang X.,Gu J.,Wu Y.A constraint approach to multifont Chinese character recognition.IEEE T-PAMI 15(1993)838-843[17]Yuen P.C.,Feng G.C.,Tang Y.Y.Printed Chinese character similarity measurement usingring projection and distance transformation.International Journal of Pattern Recognition andArtificial Intelligence 12(1998)209-221[18]Schurmann J.Pattern classification,a unified view of statistical and neural approach. JohnWiley & Sons(New York)1996[19]Hu M.K.Visual pattern recognition by moment invariants.IRE Transaction onInformation Theory 8(1962)179-187[20]Belogie S.,Malik J.,Puzicha J.Shape matching and object recognition using shapecontexts.IEEE T-PAMI 24(2002)509-520[21]Chen,K.Z.,Zhang,X.W.,Ou,Z.Y.,Feng,X.A.Recognition of digital curves scannedfrom paper drawings using genetic algorithm,Pattern Recognition 36(2003)123-130[22]Electronic Proceedings of 5th IAPR International Workshop on Graphics Recognition(GREC 2003),2003,Barcelona,Spain[23]www.cvc.uab.es/grec2003。
發明內容
本發明的目的在于克服現有技術的不足之處,提供一種具備優秀綜合性能的、通用的、可用于符號識別的特征描述方法(特征向量的構造方法)。
本發明提出的通用的用于符號識別的特征描述方法(特征向量的構造方法),具體步驟如下(a)將符號分割為點,以點和點之間的幾何約束作為符號形狀描述的基本元素;當點和點之間的幾何約束的定義不同時,相應地將得到不同的特征描述;(b)當任何一個點被選作參考點(原點)時,對其它各點兩兩之間的幾何約束進行統計可得到一個相應的直方圖;分別以各個點作為參考點,則對應于每個點分別得到一個直方圖;(c)將對應于所有點的直方圖的每個區間的值進行統計意義或數學意義上的綜合以構造出一個對應的特征描述(特征向量),當采用不同的計算方法對各直方圖進行綜合時,可相應地得到不同的特征描述;(d)將兩種以上不同的特征描述相組合,可構成一個新的特征描述。
本發明中,所述的點和點之間的幾何約束可定義如下以這兩點和參考點為頂點形成一個三角形,以三角形的頂點、邊長、夾角為自變量的任何形式的函數以及與其數學上等價的量。
本發明中,所述的點和點之間的幾何約束的定義,可以是這兩個點分別和參考點連接所構成的連線之間的夾角。
本發明中,所述的點和點之間的幾何約束的定義,還可以是這兩個點分別和參考點連接所得到的連線中較短的直線段和較長的直線段之間的長度比。
本發明中,所述的將對應于所有點的直方圖的每個區間的值進行統計意義或數學意義上的綜合以構造出一個對應的特征描述,其計算方法可以是對各個直方圖落在每一個區間內的值進行統計,對應于每個區間可得到一個新的直方圖;所有這些新的直方圖的值及其任何形式的函數的值構成一個對應的特征描述。
本發明中,所述的將對應于所有點的直方圖的每個區間的值進行統計意義或數學意義上的綜合以構造出一個對應的特征描述,其計算方法也可以是對各個直方圖落在每一個區間內的值進行統計,求平均值、N階中心矩、N階原點矩、以及上述統計量的任何形式的函數,N為實數;所有區間求得的這些量構成一個特征描述。
本發明中,所述的將對應于所有點的直方圖的每個區間的值進行統計意義或數學意義上的綜合以構造出一個對應的特征描述,其計算方法還可以是對各個直方圖落在每一個區間內的值先求N次方后再求和,N為實數,例如,2≤N≤1000;各個區間求得的和的任何形式的函數的值構成一個特征描述。
本發明提出的符號識別特征描述方法具有可擴充、抗噪聲和變形干擾、旋轉和伸縮不變的特點,可用于各種圖紙和文檔中的以及筆輸入的符號和字符識別。
圖1以P0為參考點時其它兩點之間幾何約束的示意圖具體實施方式
一個符號識別系統通常由以下步驟組成預處理、特征提取、分類。這里,預處理采用參考文獻[21]中提出的方法對符號進行瘦化;分類器采用最近鄰法(一種最簡單的分類器);特征提取采用本發明提出的方法,具體實施方式
如下實施例1(1)假設由預處理提取出的符號骨架由N個點組成,記作P0,P1,...,PN-1。分別以P0,P1,...,PN-1作為參考點,求其它各點兩兩之間的幾何約束。這里,兩點之間幾何約束定義為這兩個點分別和參考點連接所構成的連線之間的夾角。例如圖1所示,以P0為參考點,Pi和Pj之間的幾何約束為∠PiP0Pj,這里,Pi∈{P1,P2,...,PN-1}且Pj∈{P1,P2,...,PN-1}。
(2)以Pk為參考點時,將Pi和Pj之間的幾何約束記作Cij(Pk),對{Cij(Pk)|i=0,1,...,N-2;j=i+1,i+2,...,N-1}進行統計,可以得到一個直方圖,記作H(Pk),這里,i≠k且j≠k。分別以P0,P1,...,PN-1作為參考點,可得到N個對應的直方圖H(P0),H(P1),...,H(PN-1)。
(3)每個直方圖可以表示為一個向量,假設每個直方圖各有M個區間,直方圖H(Pk)的向量形式記作H(Pk)=[H1(Pk),H2(Pk),...,HM(Pk)],k=0,1,...,N-1;這里,Hj(Pk)表示直方圖H(Pk)中第j個區間的值;對各直方圖的第i個區間的值{Hi(P0),Hi(P1),...,Hi(PN-1)}進行統計,可以得到一個新的直方圖,記作F(i);按照上述方式,對應于每個區間可以得到一個新的直方圖,共可得到M個直方圖{F(i)|i=1,2,...,M};假設直方圖F(i)有L個區間,其向量形式記作F(i)=[F1(i),F2(i),...,FL(i)],i=1,2,...,L;這里,Fj(i)表示直方圖F(i)第j個區間的值;[Fj(i)|i=1,2,...,M;j=1,2,...,L]即為所求的用于符號描述的特征向量。
實施例2與實施例1相比,除了兩點之間幾何約束的定義外,其余部分完全相同。這里,兩點之間幾何約束定義為這兩個點分別和參考點連接所得到的連線中較短的直線段和較長的直線段之間的長度比。例如圖1所示,以P0為參考點,Pi和Pj之間的幾何約束為min{|P0Pi|/|P0Pj|,|P0Pj|/|P0Pi|},這里,|P0Pi|和|P0Pj|分別表示線段P0Pi和P0Pj的長度。
實施例3實施例1和實施例2各生成一個獨立的特征向量,分別記作[Fj(i)|i=1,2,...,M;j=1,2,...,L]和[Gj(i)|i=1,2,...,M;j=1,2,...,L),將這兩個向量首尾相連排成一個向量即為實施例3所求的特征向量。
基于實施例3的特征描述方法,發明人設計了相應的符號識別程序。經測試,多項測試正確識別率達到100%,只有一項低于90%,為86.4%。所有71項測試中,與其它方法相比,68項性能是最好的,包括所有抗噪聲、變形、噪聲加變形、旋轉的測試,以及部分抗伸縮、伸縮加旋轉的測試等。測試方法是輸入一幅圖像,找到與它最相似的模型(理想圖像)。共測試了6850幅圖像。詳細測試結果見表1~5。平均識別時間為每個符號少于1秒。
表1理想圖像的識別率
表2旋轉與尺寸伸縮圖像的識別率
表3變形圖像的識別率
表4含噪聲圖像的識別率
表5噪聲加變形圖像的識別率(模型數15;符號數15;圖像數75)
權利要求
1.一種通用的用于符號識別的特征描述方法,其特征在于(1)將符號分割為點,以點和點之間的幾何約束作為符號形狀描述的基本元素;(2)任選一個點作參考點,對其它各點兩兩之間的幾何約束進行統計,得到一個相應的直方圖;分別以各個點作為參考點,則對應于每個點分別得到一個直方圖;(3)將對應于所有點的直方圖的每個區間的值進行統計意義或數學意義上的綜合以構造出一個對應的特征描述;(4)將兩種以上不同的特征描述相組合,得到一個新的特征描述。
2.根據權利要求1所述的方法,其特征在于所述的點和點之間的幾何約束定義如下以這兩點和參考點為頂點形成一個三角形,以三角形的頂點、邊長、夾角為自變量的任何形式的函數以及與其數學上等價的量。
3.根據權利要求1或2所述的方法,其特征在于所述的點和點之間的幾何約束的定義如下這兩個點分別和參考點連接所構成的連線之間的夾角。
4.根據權利要求1或2所述的方法,其特征在于所述的點和點之間的幾何約束的定義如下這兩個點分別和參考點連接所得到的連線中較短的直線段和較長的直線段之間的長度比。
5.根據權利要求1所述的方法,其特征在于所述的將對應于所有點的直方圖的每個區間的值進行統計意義或數學意義上的綜合以構造出一個對應的特征描述,其計算方法如下對各個直方圖落在每一個區間內的值進行統計,對應于每個區間可得到一個新的直方圖;所有這些新的直方圖的值及其任何形式的函數的值構成一個對應的特征描述。
6.根據權利要求1所述的方法,其特征在于所述的將對應于所有點的直方圖的每個區間的值進行統計意義或數學意義上的綜合以構造出一個對應的特征描述,其計算方法如下對各個直方圖落在每一個區間內的值進行統計,求平均值、N階中心矩、N階原點矩、以及上述統計量的任何形式的函數,N為實數;所有區間求得的這些量構成一個特征描述。
7.根據權利要求1所述的方法,其特征在于所述的將對應于所有點的直方圖的每個區間的值進行統計意義或數學意義上的綜合以構造出一個對應的特征描述,其計算方法如下對各個直方圖落在每一個區間內的值先求N次方后再求和,N為實數;各個區間求得的和的任何形式的函數的值構成一個特征描述。
全文摘要
本發明是一種通用的符號識別特征描述方法,具有可擴充、抗噪聲和變形干擾、旋轉和伸縮不變的特點,可用于各種圖紙和文檔中的以及筆輸入的符號和字符識別。其特征在于(1)將符號分割為點,以點和點之間的幾何約束作為符號形狀描述的基本元素。(2)當任何一個點被選作參考點時,對其它各點兩兩之間的幾何約束進行統計可得到一個相應的直方圖;分別以各個點作為參考點,則對應于每個點分別得到一個直方圖。(3)將對應于所有點的直方圖的每個區間的值進行統計意義或數學意義上的綜合以構造出對應的特征描述。本發明方法與其它方法相比,71項性能測試中,68項最好,3項第二,識別率只有1項低于90%。
文檔編號G06K9/52GK1560790SQ20041001673
公開日2005年1月5日 申請日期2004年3月4日 優先權日2004年3月4日
發明者楊夙, 楊 夙 申請人:復旦大學