專利名稱:一種多語言混合手寫文本行的識別方法及裝置的制作方法
技術領域:
本發明屬于輸入法技術領域,涉及一種多語言混合手寫文本行的識別方法,特別是涉及一種多語言混合手寫文本行的識別方法及裝置。
背景技術:
隨著移動終端和觸控技術的發展,手寫技術以其方便、快速的優勢得到了更加廣泛的應用。對手寫文本的識別也逐步從單個字符的識別發展到文本行的識別,中文和英文兩種語言類別的文本行識別是目前應用最多的。現有的大部分手寫文本行識別技術中,通常只支持單一語言的手寫文本行識別, 當需要識別不同語言的手寫文本行時,通過在一個終端上加載相應的識別語言包來實現特定語言的手寫文本行輸入。該方法無法在同一個終端上同時加載多種語言包,無法識別多種語言的手寫文本行,當需要識別其他語言的手寫文本行時,需要首先卸載當前識別語言包,然后,再安裝另一種識別語言包,使用起來非常不方便。一種改進的手寫文本行識別技術的應用是同時加載多個識別語言包,進行手寫文本行識別之前,首先指定手寫文本行的語言類別,在用戶完成文本行的輸入后,只能按照指定的語言類別對輸入的文本行進行識別。這種應用,要求使用者在每次輸入不同語言類別的文本行之前,首先設置識別的文本行的語言類別,用戶使用起來非常不方便,也影響輸入的速度。出現上述問題的原因是目前的手寫識別技術還無法準確的識別一行不同語言混合輸入的文本,如既包括中文輸入又包括英文輸入的中英文混合的手寫文本行。
發明內容
本發明的目的在于提供一種多語言混合手寫文本行的識別方法及裝置,能夠自動識別多種語言混合的手寫文本行,在進行手寫文本行識別之前,不需要用戶手動設置手寫文本行的識別范圍,方便用戶進行多語言的文本行輸入,也提高了輸入的速度。本發明提供了如下方案一種多語言混合手寫文本行的識別方法,包括根據獲得的手寫文本行的筆跡數據,將手寫文本行分割成多個筆畫幾何塊;分別提取每個筆畫幾何塊的特征,根據提取的筆畫幾何塊的特征識別所述筆畫幾何塊的語言類別;將相鄰的具有相同語言類別的筆畫幾何塊進行合并,得到該語言類別的筆畫語言塊;分別采用相應的語言類別的字符串識別核心識別所述筆畫語言塊,獲得各筆畫語言塊的識別結果;合并各筆畫語言塊的識別結果,得到該手寫文本行的識別結果。其中,所述將手寫文本行分割成多個筆畫幾何塊,包括從手寫文本行的筆跡數據中提取所有筆畫,并將每個筆畫初始化為相應的筆畫塊;通過合并水平投影重疊的筆畫塊,將多個筆畫塊合并成至少一個筆畫幾何塊。所述筆跡數據包括手寫文本行中構成筆畫的筆跡點坐標和筆畫結束標志,所述筆畫幾何塊包括至少一個筆畫。所述通 過合并水平投影重疊的筆畫塊,將多個筆畫塊合并成至少一個筆畫幾何塊,包括a、依 序取兩 個相鄰的筆畫塊;b、判斷所述兩個相鄰的筆畫塊的水平投影是否重疊,如果重疊,將所述兩個相鄰的筆畫塊合并為合并筆畫塊;C、依序取與所述合并筆畫塊相鄰的筆畫塊,并判斷所述合并筆畫塊和該相鄰的筆畫塊的水平投影是否重疊,如果重疊,將所述合并筆畫塊和該相鄰的筆畫塊合并為另一合并筆畫塊,轉至d ;否則,所述合并筆畫塊形成一個筆畫幾何塊,轉至a,直至所有筆畫塊合并完成;d、重復C,直至所有筆畫塊合并完成。其中,所述合并筆畫塊為包括至少兩個筆畫的筆畫塊。所述相鄰筆畫塊指筆畫書寫順序相鄰的筆畫塊。所述筆畫幾何塊的特征包括第一預設語言的字符識別可信度、筆跡長度、筆跡方向和筆畫重疊度。所述根據提取的特征識別所述筆畫幾何塊的語言類別,包括計算筆畫幾何塊的第一預設語言的可信度,當所述預設語言的可信度大于設定閾值時,識別該筆畫幾何塊的語言類別為第一預設語言。所述第i個筆畫幾何塊的預設語言的可信度P(Bi)通過公式
權利要求
1.一種多語言混合手寫文本行的識別方法,其特征在于,包括根據獲得的手寫文本行的筆跡數據,將手寫文本行分割成多個筆畫幾何塊;分別提取每個筆畫幾何塊的特征,根據提取的筆劃幾何塊特征識別所述筆畫幾何塊的語言類別;將相鄰的具有相同語言類別的筆畫幾何塊進行合并,得到該語言類別的筆畫語言塊;分別采用相應的語言類別的字符串識別核心識別所述筆畫語言塊,獲得各筆畫語言塊的識別結果;合并各筆畫語言塊的識別結果,得到該手寫文本行的識別結果。
2.根據權利要求1所述的方法,其特征在于,所述將手寫文本行分割成多個筆畫幾何塊,包括從手寫文本行的筆跡數據中提取所有筆畫,并將每個筆畫初始化為相應的筆畫塊;通過合并水平投影重疊的筆畫塊,將多個筆畫塊合并成至少一個筆畫幾何塊;其中,所述筆跡數據包括手寫文本行中構成筆畫的筆跡點坐標和筆畫結束標志,所述筆畫幾何塊包括至少一個筆畫。
3.根據權利要求2所述的方法,其特征在于,所述通過合并水平投影重疊的筆畫塊,將多個筆畫塊合并成至少一個筆畫幾何塊,包括a、依序取兩個相鄰的筆畫塊;b、判斷所述兩個相鄰的筆畫塊的水平投影是否重疊,如果重疊,將所述兩個相鄰的筆畫塊合并為合并筆畫塊;C、依序取與所述合并筆畫塊相鄰的筆畫塊,并判斷所述合并筆畫塊和該相鄰的筆畫塊的水平投影是否重疊,如果重疊,將所述合并筆畫塊和該相鄰的筆畫塊合并為另一合并筆畫塊,轉至d ;否則,所述合并筆畫塊形成一個筆畫幾何塊,轉至a,直至所有筆畫塊合并完成;d、重復c,直至所有筆畫塊合并完成,其中,所述合并筆畫塊為包括至少兩個筆畫的筆畫塊。
4.根據權利要求3所述的方法,其特征在于,所述相鄰筆畫塊指筆畫書寫順序相鄰的筆畫塊。
5.根據權利要求4所述的方法,其特征在于,所述筆畫幾何塊的特征包括第一預設語言的字符識別可信度、筆跡長度、筆跡方向和筆畫重疊度。
6.根據權利要求5所述的方法,其特征在于,所述根據提取的特征識別所述筆畫幾何塊的語言類別,包括計算筆畫幾何塊的第一預設語言的可信度,當所述預設語言的可信度大于設定閾值時,識別該筆畫幾何塊的語言類別為第一預設語言。
7.根據權利要求6所述的方法,其特征在于,所述第i個筆畫幾何塊的預設語言的可信N度P(Bi)通過公式= ⑷⑷X7^))計算得到,k=\\ 1 X{I{k)) > T{k)其中,5{X{I{k)\m) =,I (k)表示通過N輪迭代訓練筆畫語言塊[0 AyJyk)) < Iyk)分類器過程中第k輪迭代選中的特征維數,T(k)表示第k輪迭代選中的閾值;所述ω(10 表示第k輪迭代的權重。
8.根據權利要求1所述的方法,其特征在于,所述分別采用相應的語言類別的字符串識別核心識別所述筆畫語言塊,獲得各筆畫語言塊的識別結果,包括判斷當前筆畫語言塊的語言類別是否為第一預設語言,若是,采用第一預設語言的字符串識別核心識別當前筆畫語言塊;否則,采用第二預設語言的字符串識別核心識別當前筆畫語言塊,得到當前筆畫語言塊的識別結果;取另一個筆畫語言塊,直至所有筆畫語言塊識別完畢,所述識別結果包括候選字符串及該候選字符串的候選得分。
9.根據權利要求8所述的方法,其特征在于,所述合并各筆畫語言塊的識別結果,得到手寫文本行的識別結果,包括將每個筆畫語言塊的識別候選字符串按照候選得分由大到小的順序進行排列,得分最高的識別候選字符串作為第一識別候選;分別提取每個筆畫語言塊的第一識別候選,按照筆畫語言塊在手寫文本行中的排列順序合并提取的第一識別候選,得到混合手寫文本行的識別結果。
10.根據權利要求6或9所述的方法,其特征在于,所述語言類別包括中文、西文,所述第一預設語言為中文。
11.一種多語言混合手寫文本行的識別裝置,其特征在于,包括分割單元,用于根據獲得的手寫文本行的筆跡數據,將手寫文本行分割成多個筆畫幾何塊;語言類別識別單元,用于分別提取每個筆畫幾何塊的特征,根據提取的筆畫幾何塊的特征識別所述筆畫幾何塊的語言類別;筆畫幾何塊合并單元,用于將相鄰的具有相同語言類別的筆畫幾何塊進行合并,得到該語言類別的筆畫語言塊;筆畫語言塊識別單元,分別采用相應的語言類別的字符串識別核心識別所述筆畫語言塊,獲得各筆畫語言塊的識別結果;合并單元,用于合并各筆畫語言塊的識別結果,得到該手寫文本行的識別結果。
全文摘要
本發明公開了一種多語言混合的手寫文本行的識別方法及裝置,屬于輸入法技術領域。該方法包括根據獲得的手寫文本行的筆跡數據,將手寫文本行分割成多個筆畫幾何塊;分別提取每個筆畫幾何塊的特征,根據提取的特征識別所述筆畫幾何塊的語言類別;將相鄰的具有相同語言類別的筆畫幾何塊進行合并,得到該語言類別的筆畫語言塊;分別采用相應的語言類別的字符串識別核心識別所述筆畫語言塊,獲得各筆畫語言塊的識別結果;合并各筆畫語言塊的識別結果,得到該手寫文本行的識別結果。通過該方法,使得用戶在進行多語言手寫文本行輸入時,不必要預先指定手寫文本行的語言類別,方便了用戶進行手寫文本輸入,同時有效地提高了手寫輸入的速度。
文檔編號G06K9/68GK102208039SQ20111014704
公開日2011年10月5日 申請日期2011年6月1日 優先權日2011年6月1日
發明者郭育生 申請人:漢王科技股份有限公司