滿文單詞中軸線的定位方法
【技術領域】
[0001] 本發明設及一種文字處理方法,特別是一種滿文單詞中軸線的定位方法。
【背景技術】
[0002] 隨著科學技術的發展,計算機已經能夠對多種圖像格式的文字進行識別和辨認 巧曰英文、日文),滿文作為世界語言的一種,還無法做到供計算機自動識別。如果能夠讓計 算機做到自動識別、辨認滿文,則可W將大量的滿文文獻進行電子化處理,運對于滿文文獻 的研究與保存,乃至滿族文化的研究與保存都有著十分重要的意義,而要想實現運一目標, 首先需要對滿文的中軸線進行定位。
【發明內容】
[0003] 本發明是為了解決現有技術所存在的上述不足,提出一種準確率高,有助于計算 機對滿文單詞進行正確分隔各識別的滿文單詞中軸線的定位方法。
[0004] 本發明的技術解決方案是:一種滿文單詞中軸線的定位方法,其特征在于:所述 的方法依次由滿文單詞圖像預處理、確定滿文單詞中軸線的寬度、確定滿文單詞中軸線左 右邊界位置Ξ個步驟組成,其中: 滿文單詞圖像預處理的步驟為:掃描滿文文檔,獲得滿文文檔的彩色圖像,并對滿文文 檔的彩色圖像進行二值化,采用垂直投影法提取每一列滿文文檔的圖像,獲得列圖像,并對 列圖像采用水平投影法提取滿文單詞圖像,然后對滿文單詞圖像進行位置歸一化處理,歸 一化處理的步驟是找到滿文單詞圖像最外側上、下、左、右四個點的坐標位置,W運四個點 為邊界,重新確定滿文單詞圖像的大小,并用I、W、Η分別表示歸一化處理后的二值滿文單 詞圖像、二值滿文單詞圖像的寬度數值和二值滿文單詞圖像的高度數值, 確定滿文單詞中軸線寬度的步驟為:對二值滿文單詞圖像I采用數學形態學進行處 理,具體方法是采用長度為2的水平方向直線型形態學結構元素,對二值滿文單詞圖像I 進行腐蝕處理,得到I的腐蝕圖像le,并求二值滿文單詞圖像I與腐蝕圖像le的縱向邊緣 圖像IV,即IV=I-Ie,提取到滿文單詞的縱向邊緣,然后對縱向邊緣圖像IV進行垂直 投影,統計縱向邊緣圖像IV的每一列中所包含的黑色像素的個數,垂直投影序列Wvpl表 示,取向量vpl中不重復的元素,并按照數值從大到小的降序方式進行排列,得到新的向量 vp2,并取vp2中的前3個元素分別標記為indl、ind2和ind3,用wd表示中軸線的寬度, W血in表示最小中軸線寬度,賦值W血in=0,W血ax表示最大中軸線寬度,T為最大中軸線寬 度的闊值,賦值Τ=1/3,則最大中軸線寬度wdmax為對TXW的結果向下整后的值,即wdmax =TxirJ, 分別定義wdl、wd2、wd3為3個候選中軸線寬度,wd表示最終確定的中軸線寬度,其中wdl=Iindl-ind2I-l,wd2=Iindl-ind3I-l,wd3 =Iind2-ind3I-1, 如果(w血in<wdl<w血ax)并且(w血;?η<'\¥(12<'\¥?3χ)并且(w血;?η<'\¥(13<'\¥?3χ),則wd= wdl, 如果(w血in<wdl<w血ax)并且(w血;?η<'\¥(12<'\¥?3χ)并且(wd3<=w血in或者wd3〉=wdmax),則取wdl和wd2中值較大的一個做為wd的輸出值,即wd=max(wdl,wd2), 如果(w血in<wdl<w血ax)并且(w血并且(wd2<=w血in或者wd2〉=wdmax),則取wdl和wd3中值較大的一個做為wd的輸出值,即wd=max(wdl,wd3), 如果(w血in<wd2<w血ax)并且(w血in<wd3<w血ax)并且(wdl<=w血in或者wdl〉 =wdmax),則取wd2和wd3中值較大的一個做為wd的輸出值,即wd=max(wd2,wd3), 如果(w血in<wdl<w血ax)并且(wd2<=w血in或者wd2〉=w血ax)并且(wd3<=w血in或者wd3〉= wdmax),貝Ij wd = wdl, 如果(w血;[]1<'\¥(12<'\¥血日《)并且(wdl<=w血in或者wdl〉=w血ax)并且(wd3<=w血in或者wd3〉= wdmax),貝Ij wd = wd2, 如果(w血;[]1<'\¥(13<'\¥血日《)并且(wdl<=w血in或者wdl〉=w血ax)并且(wd2<=w血in或者wd2〉= wdmax),貝Ij wd = wd3, 女曰果(wdl<=w血in或者wdl〉=w血ax)并且(wd2<=w血in或者wd2〉=w血ax)并且(wd3<=wdmin或者wd3〉= wdmax),貝Ij wd = wdmax, 確定滿文單詞中軸線左右邊界位置的步驟為:用baseline_left表示中軸線最左側 的邊界,對于縱向邊緣圖像IV按照從左至右的順序逐列掃描,掃描范圍為從第1列至第 W-wd+1列,設當前為第i列,則1《iW-wd+1),用TB表示第i列至第i+wd-1列的黑 色像素點的個數,則baseline_left為具有最大TB值所對應的列, 用baseline_;ri曲t表不中軸線最右側的邊界,則baseline_;ri曲t=baseline_ left+wd-1, 因此在二值滿文單詞圖像I中,baseline_left為該滿文單詞中軸線的左邊界,baseline_ri曲t為該滿文單詞中軸線的右邊界,wd為該滿文單詞中軸線的寬度,從而定位 出該滿文單詞的中軸線。 陽0化]本發明同現有技術相比,具有如下優點: 利用本發明所公開的方法,能夠快速、準確地確定出滿文單詞的中軸線(包括中軸線的 左右邊界位置和中軸線的寬度),而滿文單詞的中軸線的確定,是計算機能夠正確分隔并識 別滿文文字的前提和基礎,本種方法的出現,讓滿文的計算機識別和電子化處理得到進一 步的發展,對于滿文文獻的研究與保存,和滿族文化的研究與保存都是有著重大意義的,因 此可W說該方法具有多種優點,特別適合于在本領域中推廣應用,其市場前景廣泛,科研意 義重大。
【具體實施方式】
[0006] 下面將說明本發明的【具體實施方式】。
[0007] 一種滿文單詞中軸線的定位方法,按照滿文單詞圖像預處理、確定滿文單詞中軸 線的寬度、確定滿文單詞中軸線左右邊界位置Ξ個步驟進行操作, 滿文單詞圖像預處理的步驟為:掃描滿文文檔,獲得滿文文檔的彩色圖像,并對滿文文 檔的彩色圖像進行二值化,采用垂直投影法提取每一列滿文文檔的圖像,獲得列圖像,并對 列圖像采用水平投影法提取滿文單詞圖像,然后對滿文單詞圖像進行位置歸一化處理,歸 一化處理的步驟是找到滿文單詞圖像最外側上、下、左、右四個點的坐標位置,W運四個點 為邊界,重新確定滿文單詞圖像的大小,并用I、W、Η分別表示歸一化處理后的二值滿文單 詞圖像、二值滿文單詞圖像的寬度數值和二值滿文單詞圖像的高度數值, 確定滿文單詞中軸線寬度的步驟為:對二值滿文單詞圖像I采用數學形態學進行處 理,具體方法是采用長度為2的水平方向直線型形態學結構元素,對二值滿文單詞圖像I 進行腐蝕處理,得到I的腐蝕圖像le,并求二值滿文單詞圖像I與腐蝕圖像le的縱向邊緣 圖像IV,即IV=I-Ie,提取到滿文單詞的縱向邊緣,然后對縱向邊緣圖像IV進行垂直 投影,統計縱向邊緣圖像IV的每一列中所包含的黑色像素的個數,垂直投影序列Wvpl表 示,取向量vpl中不重復的元素,并按照數值從大到小的降序方式進行排列,得到新的向量 vp2,并取vp2中的前3個元素分別標記為indl、ind2和ind3,用wd表示中軸線的寬度, W血in表示最小中軸線寬度,賦值W血in=0,W血ax表示最大中軸線寬度,T為最大中軸線寬 度的闊值,賦值Τ=1/3,則最大中軸線寬度wdmax為對TXW的結果向下整后的值,即wdmax =/xSTj, 分別定義wdl、wd2、wd3為3個候選中軸線寬度,wd表示最終確定的中軸線寬度,其中wdl=Iindl-ind2I-l,wd2=Iindl-ind3I-l,wd3 =Iind2-ind3I-1, 如果(w血in<wdl<w血ax)并且(w血in<wd2<w血ax)并且(w血in<wd3<w血ax),說明wdl、wd2、wd3均在合理寬度范圍內,則wd = wdl, 如果(w血in<wdl<w血ax)并且(w血;?η<'\¥(12<'\¥?3χ)并且(wd3<=w血in或者wd3〉=wdmax),說明wdl、wd2在合理