專利名稱:聯機文字識別裝置、方法及程序和計算機可讀存儲介質的制作方法
技術領域:
本發明涉及從通過坐標輸入裝置被手寫輸入的文字串筆跡(筆劃串)信息中隨時自動提取文字加以識別并顯示結果的聯機文字識別裝置,特別涉及最適合于文字連續書寫輸入的聯機文字識別裝置及方法及計算機可以讀取的存儲介質以及聯機文字識別程序。
背景技術:
以往,在從經由坐標輸入板等的坐標輸入裝置手寫輸入的文字串筆跡信息中,自動地提取文字進行識別,并顯示結果的聯機文字識別裝置中,一般適用以下4種識別技術(識別方法),即(1)準備多個文字框,通過在1個文字框中順序寫入1個字,提取文字進行識別的技術;(2)從坐標輸入板上檢測到筆已離開一定時間,判定為文字書寫結束,提取文字進行識別的技術;(3)通過用識別執行按鈕等明確指示1個文字書寫結束由此提取文字進行識別的技術;(4)用特殊的一筆寫法定義1個文字,在輸入筆劃并檢測到筆已離開書寫板時判定為1個文字輸入,提取文字進行識別的技術。
發明內容
但是,上述以往的識別技術,例如在(1)中,由于用戶在文字書寫時必須注意文字框的大小和位置,因而存在不能自然輸入的問題。另外,在考慮到安裝在小型信息機上的情況下,因為不能確保充分大的文字書寫區域,所以如果準備多個文字框,則每個文字書寫區域的面積減小,對用戶來說存在難以書寫的問題。
另一方面,在以往的識別技術(2)、(3)中,因為不需要準備多個文字框,所以每個文字可以獲得大的書寫區域,可以避免(1)的問題。但是,在(2)中,在連續輸入多個文字時,在每書寫1個文字時,筆必須離開書寫板一定時間。另外,在(3)中,每輸入1個文字按壓一下識別執行按鈕這種文字記錄,在每輸入1個文字時需要進行和書寫沒有關系的操作。因此,(2)、(3)的識別技術存在文字串的平滑輸入困難的問題。
另外,在以往的識別技術(4)中,雖然可以避免上述(1)、(2)、(3)中的問題,但對用戶來說必須預先記住各文字的一筆書寫法。因此,特別是在成為識別對象的文字存在很多的情況下,對用戶來說是非常痛苦的事。
本發明就是考慮到上述問題而提出的,其目的在于設置成即使用戶不注意文字劃分,只連續書寫文字時,也可以自動地識別文字串。
本發明的另一目的在于,可以進行文字的重疊書寫輸入。
本發明,是在坐標輸入裝置上從筆接觸該坐標輸入裝置到離開期間,以用該坐標輸入裝置檢測出的筆尖的坐標序列表示的筆劃的串為基礎進行文字識別,并在顯示裝置上顯示識別結果的聯機文字識別裝置,其特征在于在每次檢測出上述筆劃時,對于此前被檢測出的筆劃的形狀以及連續書寫的各2個文字的組合,根據該2個文字間的筆劃的位置關系求最適宜的文字串,把該文字串顯示在上述顯示裝置上。如果采用本發明,則即使用戶不注意文字的劃分,在坐標輸入裝置上連續寫入文字時,也可以判定并顯示最相似的文字串(識別確定文字串)。在此,因為還考慮了構成文字間的各文字的筆劃位置關系,所以可以進行文字的重疊書寫輸入。因而,即使在只準備了小書寫區域的小型信息及機器中,也可以提供舒適的手寫輸入單元。
另外,本發明,是在坐標輸入裝置上從筆接觸該坐標輸入裝置到離開期間,以用該坐標輸入裝置檢測出的筆尖的坐標序列表示的筆劃的串為基礎進行文字識別,并在顯示裝置上顯示識別結果的聯機文字識別裝置,其特征在于上述坐標輸入裝置,具有用于用上述筆書寫文字的1個文字份的書寫區域,在每次檢測到在上述書寫區域上書寫的上述筆劃時,對此前檢測到的筆劃的形狀以及重疊書寫的各2個文字的組合,根據該2個文字間的筆劃的位置關系求最適宜的文字串,把該文字串顯示在上述顯示裝置上。如果采用本發明,則即使在用戶不注意文字的劃分,在坐標輸入裝置上重疊寫入文字時,也可以判定并顯示最相似的文字串(識別確定文字串)。因為也還考慮到構成文字間的各文字的筆劃位置關系,所以可以進行文字的重疊寫入。因而,即使在只能準備小的書寫空間的小型信息機中,也可以提供舒適的手寫文字輸入單元。
本發明的聯機文字識別裝置,其特征在于具備文字構造詞典,它對于許多可以識別的文字的各自,記錄有構成該文字的筆劃的形狀信息,以及記述筆劃間的構造關系的詞典信息;文字間構造詞典,對于上述多個可以識別的文字中連續書寫的各2個文字的組合,記錄有記述了該2個文字間的構造關系的詞典信息;筆跡信息取得單元,在坐標輸入裝置上逐次取得從筆接觸該坐標輸入裝置到離開期間,用由該坐標輸入裝置檢測出的筆尖的坐標序列表示的筆劃;識別候補文字串生成單元,在用該筆跡信息取得單元每次取入筆跡時,對于包含該筆劃的需要識別的已取得的筆劃串生成可以成為識別候補的識別候補文字串;核對單元(文字串相似計算單元),它對該被生成的每一識別候補文字串,根據構成該識別候補文字串的各候補文字在上述文字構成詞典中的詞典信息和連續的2個文字候補之間在上述文字間構造詞典中的詞典信息,制作與該識別候補文字串對應的文字串構造詞典,把已獲得的筆劃串分別和該每一識別候補文字串的文字串構造詞典核對,進行確定該筆劃串中的哪些筆劃構成哪個候補文字的文字提取;輸入文字串判定單元,對上述各識別候補文字串把從開頭的上述文字提取的結果相同的文字串部分作為識別確定文字串判定并輸出;識別結果顯示單元,顯示該被判定出的識別確定文字串。
在這種構成中,因為,在每次輸入筆劃(筆跡)時,對于把該筆劃作為最后的筆劃的識別對象筆劃串的每一識別候補文字串,生成組合了文字構造詞典中對應的詞典信息和文字間構造詞典中對應的詞典信息的文字串構造詞典,并把該每一識別候補文字串的文字串構造詞典分別和識別對象筆劃串(輸入筆跡)核對,所以,即使在用戶不注意文字的劃分,在坐標輸入裝置上連續寫入文字時,也可以判定并顯示最相似的輸入文字串(識別確定文字串)。在此,因為還考慮到文字間的構造關系,所以通過準備以文字的重疊書寫為前提的文字間構造詞典,也可以進行文字的重疊寫入。因而,即使在只能準備小的書寫空間的小型信息機等中,也可以提供舒適的手寫文字輸入單元。
在此,如果在設置用于儲存由筆跡信息取得單元取得的筆劃(輸入筆劃)的筆劃緩沖存儲器,和用于存儲由識別候補文字串生成單元生成的識別候補文字串的識別候補緩沖存儲器的同時,設置成把采用核對單元的筆劃串(輸入筆劃串)和各識別候補文字串的文字串構造詞典的核對結果,與該識別候補文字串對應地存儲在識別候補緩沖存儲器內,則可以在聯機文字識別裝置中進行高效率地處理。
另外,在用筆跡信息取得單元在筆劃緩沖存儲器中存儲輸入筆劃時,在筆跡信息取得單元中抽出該筆劃的特征(例如形狀特征),以及該筆劃和前面的筆劃之間的特征(例如構造特征),在該識別候補文字串生成單元中,最好根據在筆跡信息取得單元中抽出的構成該筆劃串的各筆劃的特征以及各筆劃間的特征,生成相對筆劃緩沖存儲器內的筆劃串的識別候補文字串。
另外,在在上述核對單元內的核對處理中,在設置成把輸入筆劃串作為識別候補文字串計算筆跡的相似程度(表示相似程度的例如相似度)的同時,輸入文字串判定單元由下述的2個單元,即,判定上述識別確定文字串并輸出的識別確定文字串判定單元,和判定識別未確定文字串以及識別未確定筆劃串信息并輸出的識別未確定文字串以及識別未確定筆劃串信息判定單元構成,進一步在識別結果顯示單元中,最好設置成在顯示從識別確定文字串判定單元輸出的識別確定文字串的同時,顯示從識別未確定文字串以及識別未確定筆劃串信息判定單元輸出的識別未確定文字串和識別未確定筆劃串信息。
在這種構成中,用戶即使在坐標輸入裝置上通過重疊書寫連續書寫文字,因為在每寫1個筆劃時,顯示在此時的識別確定文字和識別未確定文字和識別未確定筆劃串信息,所以可以在畫面上逐次確認自己的筆跡的識別處理結果,可以進行舒適的文字輸入。在此,最好附加顯示可以識別識別確定文字串和識別未確定文字串的顯示屬性。另外,即使對于識別未確定筆劃串信息,最好也顯示可以識別識別未確定筆劃串的有無。
另外,如果設置在每次用上述識別結果顯示單元顯示識別確定文字串時,在從上述筆劃緩沖存儲器中刪除與該識別確定文字串對應的輸入筆劃的同時,從上述識別候補緩沖存儲器中去除與該識別確定文字串對應的信息的緩沖存儲器更新單元,則可以減少處理量。
另外,由于采用對于識別候補緩沖存儲器內的全部的識別候補文字串,在進行和筆劃緩沖存儲器內的輸入筆劃串的核對后,把在該核對中為每個識別候補文字串求得的,將輸入筆劃串的作為該識別候補文字串書寫的相似程度(相似度)和預先確定的相似程度(相似度的閾值)比較,相似程度低的識別候補文字串,全部從識別候補緩沖存儲器中刪除這種構成,因而可以減少處理量。
另外,如果設置在最后的筆劃被輸入后,在經過預先確定的一定時間期間,仍未檢測到下一的筆劃輸入的檢測單元(筆操作判定單元),和根據該檢測單元的檢測結果把上述識別未確定文字串作為上述識別確定文字串輸出的識別文字串確定單元,則可以進一步通過用戶的文字輸入操作性。
在此,也可以在設置成上述坐標輸入裝置被重疊配置在上述顯示裝置的顯示面上,并且在該坐標輸入裝置的輸入面上分開確保文字書寫區域和識別結果顯示區域的結構的同時,設置檢測在該文字書寫區域上檢測筆接觸的檢測單元(筆操作判定單元)。
此外,也可以在設置成在坐標輸入裝置的輸入面上確保兼作文字書寫區域和識別結果顯示區域的公共區域的結構的同時,代替上述檢測單元和識別文字串確定單元分別設置判定單元,它在筆尖留在上述公共區域的一定范圍內一定時間以上時,判定為該筆尖輸入是以識別結果顯示的光標移動為目的的姿態,在除此以外的情況下判定為是以文字書寫為目的的輸入(筆操作判定單元);識別文字串確定單元,當用該判定單元判定為筆輸入是姿態的情況下,把上述識別未確定文字串作為上述識別確定文字串輸出。
另外,最好設置1個文字后刪除指示單元,它用于指示操作1個文字后退刪除;識別結果編輯單元,當由該1文字后退刪除單元指示1文字后退刪除的情況下,在識別未確定筆劃串存在的狀態下,刪除該識別未確定筆劃串,在識別未確定筆劃串不存在而識別未確定文字串存在的狀態下,在把該識別未確定文字串的最后尾后退1個文字刪除的同時,把剩下的識別未確定文字串作為識別確定文字串,在識別未確定筆劃串以及識別未確定文字串都不存在的狀態下,把識別確定文字串后退1個文字刪除。
在這種構成中,可以平滑地進行文字的刪除、文字的書寫操作。
另外,可以設置成在包含該識別未確定文字串的識別候補文字串的相似程度滿足預先設定的條件時,或者,包含此次判定的上述識別未確定文字串的上述識別候補文字串的相似程度,滿足基于包含前次判定的上述識別未確定文字串的上述識別候補文字串的相似程度的預先設定的條件時,把此次判定的識別未確定文字串換為前次判定的上述識別未確定文字串,并顯示此次判定的上述識別未確定文字串。因為,在每次1筆劃輸入時,可以包含該輸入筆劃,逐次顯示在此前已輸入的輸入筆劃中最適宜的識別結果,所以,用戶可以在書寫后立即確認識別結果,可以進行高效率的手寫文字輸入。
另外,因為,用于用坐標輸入裝置的上述筆書寫文字的文字書寫區域被重疊地配置在顯示裝置的筆跡顯示區域上,在每次在文字書寫區域上書寫上述筆劃時,通過在筆跡顯示區域上顯示包含該最新的筆劃的最新規定的N條(N是整數)筆劃,適宜地顯示被輸入的筆跡,所以,可以向用戶提供舒適的文字書寫環境。
另外,也可以設置成具備檢測在筆從上述坐標輸入裝置上離開后,超過預先確定的一定時間上述筆仍未接觸上述坐標輸入裝置的情況,或者檢測除了上述筆劃的書寫以外的筆操作的檢測單元,根據該檢測單元的檢測結果,刪除被顯示在上述筆跡顯示區域上的筆劃。
另外,當在筆跡顯示區域上顯示上述預先確定的多個筆劃時,可以通過改變各筆劃的顏色和粗細和表示該筆劃的線種類之一顯示。
上述各單元,也可以通過硬件實現,但也可以通過把具有作為該單元功能的程序讀入計算機的CPU實現。這種情況下,可以很容易用便攜信息終端等的信息機實現本發明的聯機文字識別裝置。
進而,涉及以上的聯機文字識別裝置的本發明,作為涉及方法(聯機文字識別方法)的發明也成立。
另外,本發明,作為涉及儲存有用于使計算機執行相當于本發明的順序(或者使計算機具有作為相當于本發明的各單元的功能的,或者使計算機實現相當于本發明的功能的)的程序的計算機可讀存儲介質的發明也成立,進而涉及該程序自身的發明也成立。
圖1是展示涉及實現本發明的一實施方案的聯機文字識別裝置的信息機的硬件構成的方框圖。
圖2是展示本發明的一實施方案的聯機文字識別裝置的功能的方框圖。
圖3是用于說明在圖2的聯機文字識別裝置中的聯機文字識別處理全部順序的流程圖。
圖4是展示用圖1的信息機實現的聯機文字識別的更詳細功能構成的方框圖。
圖5是展示圖1的信息機的外觀圖。
圖6是展示圖4中的筆劃緩沖存儲器208的數據構造例子的圖。
圖7是展示圖4中的識別候補緩沖存儲器209的數據構造例子的圖。
圖8是展示圖4中的文字構造詞典211的數據構造例子的圖。
圖9是展示圖4中的文字間構造詞典212的數據構造例子的圖。
圖10是用于說明用圖1的信息機實現的圖4的聯機文字識別裝置中的聯機文字識別處理全部順序的流程圖。
圖11是用于說明在圖10中的步驟802中的詳細處理順序的流程圖。
圖12是用于說明在圖10中的步驟803中的詳細處理順序的流程圖。
圖13是用于說明在圖12中的步驟1010中的詳細處理順序的流程圖。
圖14是用于說明在圖12中的步驟1008中的詳細處理順序的流程圖。
圖15是用于說明在圖13中的步驟1011中的詳細處理順序的流程圖。
圖16是用于說明在圖10中的步驟804中的詳細處理順序的流程圖。
圖17是用于說明在圖16中的步驟1403中的詳細處理順序的流程圖。
圖18是用于說明在圖16中的步驟1404中的詳細處理順序的流程圖。
圖19是用于說明在圖16中的步驟1406中的詳細處理順序的流程圖。
圖20是用于說明在圖10中的步驟805中的詳細處理順序的流程圖。
圖21是用于說明在圖20中的步驟1801中的詳細處理順序的流程圖。
圖22是用于說明在圖20中的步驟1802中的詳細處理順序的流程圖。
圖23是用于說明在圖10中的步驟807中的詳細處理順序的流程圖。
圖24是用于說明在圖10中的步驟808中的詳細處理順序的流程圖。
圖25是用于說明輸入特征和詞典特征之間的核對關系的圖。
圖26是展示識別結果顯示例子的圖。
圖27是用于說明識別確定文字串和識別未確定文字串的顯示處理動作的流程圖。
圖28是用于說明識別確定文字串和識別未確定文字串的顯示處理動作的流程圖。
圖29是展示每次書寫筆劃時被判定的識別確定文字串、識別未確定文字串的顯示例子的圖。
圖30是展示用圖1的信息機實現的聯機文字識別裝置的更詳細的功能構成的方框圖,在圖4所示的構成中進一步追加了筆跡顯示單元、筆操作判定單元。
圖31是用于說明筆跡顯示單元的筆跡顯示處理動作的流程圖。
圖32是展示筆跡的顯示例子的圖。
圖33是展示把N設定為“2”時的筆跡顯示例子的圖。
圖34是用于說明在為了把書寫中的筆劃和書寫同時實時顯示在書寫板的處理動作的流程圖。
圖35是展示最新的N條筆劃的顯示例子的圖。
圖36是展示圖1的信息機的外觀的變形例的圖。
具體實施例方式
以下,參照
本發明的實施方案。
(聯機文字識別裝置的構成及動作)圖1展示實現本發明的一實施方案的聯機文字識別裝置的信息機的硬件構成。
圖1的信息機,例如是便攜式信息終端等的小型信息機,由CPU1、ROM2、RAM3、書寫板(書寫裝置)4、顯示器(顯示裝置)5、數據讀入裝置6、存儲介質7,以及接口(I/F)8、9、10等構成。
CPU1,構成圖1的信息機的中樞,是用于各種數據處理的運算和進行系統整體控制的運算·控制單元。
ROM2是預先存儲有基本軟件等的非易失性存儲器(存儲介質),RAM3是被用作CPU1的作業區域等的非易失性存儲器。
書寫板4是可以輸入筆劃數據的坐標輸入裝置,顯示器5是顯示各種信息的液晶顯示器等的顯示裝置。
存儲介質7是硬盤、軟盤、CD-ROM、光盤等計算機可讀存儲介質。在該存儲介質7中,存儲有數據以及程序。數據讀入裝置6,是可以讀取被存儲在存儲介質7中的數據和程序的硬盤驅動器、軟盤驅動器、CD-ROM驅動器、光盤驅動器等的數據讀入單元。
接口8、接口9以及接口10,分別作為書寫板4、顯示器5以及數據讀入裝置6的接口。
在存儲介質7中,作為上述程序,預先存儲有用于進行輸入筆跡的文字識別的聯機文字識別程序。該聯機文字識別程序,在裝置的起動時由數據讀入裝置6讀入并存儲在RAM3中。CPU1根據被存儲在RAM3中的聯機文字識別程序進行輸入筆跡的文字識別處理。
進而,也可以預先在ROM2中存儲聯機文字識別程序。這種情況下,CPU1只要根據該ROM內的聯機文字識別程序進行輸入筆跡的文字識別處理即可。另外,也可以在裝置的起動時,從ROM2向RAM3傳送聯機文字識別程序,根據該RAM3內的聯機文字識別程序進行輸入筆跡的文字識別處理。另外,也可以經由通信線路下載聯機文字識別程序。
書寫板4例如是透明的,被重疊配置在顯示器5的顯示畫面上。在書寫板4的輸入面上設置文字書寫區域301(參照圖5)。如果在該書寫區域上用戶用專用筆P書寫文字,則其筆劃數據(坐標值的時間系列信息)由書寫板裝置4檢測出,通過接口8被傳送到CPU1。
圖2是展示用圖1的信息機實現的聯機文字識別裝置的功能構成的方框圖。
該聯機文字識別裝置,由相當于圖1中的書寫板4的手寫文字輸入裝置101、筆跡信息取得單元102、識別單元103,識別結果顯示單元104等各功能單元、文字構造詞典106以及文字間構造詞典107等各詞典、相當于圖1中的顯示器5的顯示器105構成。
筆跡信息取得單元102、識別單元103、識別結果顯示單元104,通過圖1中的CPU1讀入被存儲在RAM3中的聯機文字識別程序并執行。文字識別處理時產生的(生成的)各種數據,例如被暫時存儲在RAM3上。
文字構造詞典106以及文字間構造詞典107,和上述聯機文字識別程序一同例如被預先存儲在圖1中的存儲介質7中,當該程序用數據讀入裝置6讀入并存儲在RAM3中時,被存儲在該RAM3中。進而,也可以把文字構造詞典106以及文字間構造詞典107預先存儲在ROM2中。
手寫文字輸入裝置101,例如是書寫板,以一定的時間間隔采集表示筆P接觸該書寫板期間的筆尖位置的2維坐標數據。把得到的坐標數據發送到筆跡信息取得單元102。
筆跡信息取得單元102,作為被稱為一筆完成的數據,使用從筆P接觸書寫板到離開期間的坐標數據串,即筆跡的坐標數據串,把它作為筆劃數據取得。在筆跡信息取得單元102中每次取得筆劃數據時,把它送到識別單元103。
識別單元103,在筆劃數據每次輸入時,從此前被輸入的筆劃數據中,用文字構造詞典106以及文字間構造詞典107,識別最適宜的文字串。
文字構造詞典106,是記錄有表示為識別對象的各文字的構造的數據(文字構造詞典信息),即,對各文字來說構成該文字的筆劃的形狀和筆劃間的位置關系(構造)等的特征信息的詞典。
文字間構造詞典107,是對已被記錄在文字構造詞典106中的多個文字中連續書寫的各2個文字的組合,記錄了表示這2個文字間的構造關系的數據(文字間詞典信息)的詞典。
在書寫板上,既有連續的2個文字左右并排書寫的情況,又有重疊書寫的情況(例如,用于以筆書寫文字的文字書寫區域只夠1個文字的情況)。前者所謂的文字間詞典信息,是2個文字左右并排書寫時一個文字的筆劃和另一個文字的筆劃間的位置關系(構造)的特征信息,后者所謂的文字間詞典信息,是2個文字重疊書寫時一個文字的筆劃和另一個文字的筆劃之間的位置關系(構造)的特征信息。
識別單元103,在筆劃數據每次輸入時,使用上述文字構造詞典106和文字間構造詞典107,根據此前已輸入的筆劃的形狀以及筆劃間的位置關系,求最相似的、最適宜的文字串。
識別結果顯示單元104,把在識別單元103中求得的最適宜的文字串輸出到顯示器105。
進而,書寫板的文字書寫區域,有確保多個文字的書寫區域的類型,和只確保1個文字的書寫區域的類型,但無論在哪種情況下,本實施方案都可以適用。兩者的不同點只是上述的文字間詞典信息。
以下,參照圖3的流程圖說明在如圖2所示構成的聯機文字識別裝置中的聯機文字識別處理的順序。
在步驟S1中,如果在文字書寫區域內寫下1條筆劃,則其筆劃的坐標數據串,即筆劃數據被筆跡信息取得單元102取入,送到識別單元103。
在步驟S2中,識別單元103,從此前輸入的筆劃數據中,使用文字構造詞典106以及文字間構造詞典107,識別最適宜的文字串。例如,通過該識別處理,可以在此前被輸入的筆劃中相似地判定可以斷定為該文字串已被書寫完的識別確定文字;最象它的文字(識別未確定文字);書寫過程中的文字的筆劃(識別未確定筆劃)。
在步驟S3中,識別結果顯示單元104,把在文字識別單元103中識別的最適宜的文字串(例如,識別確定文字串和識別未確定文字串)顯示在顯示器105上。
以上的步驟S1~S3,在筆劃的輸入結束前,或者此前被輸入的全部的輸入筆劃被判定為識別確定文字串前反復進行(步驟S4)。由此,在用戶不注意文字的劃分,只在手寫文字輸入裝置101上連續寫字時,在圖2的聯機文字識別裝置中,可以把其筆跡自動地識別為文字串。
圖4是進一步詳細展示用圖1的信息機實現的聯機文字識別裝置的功能構成的方框圖。
該聯機文字識別裝置,由相當于圖1中的書寫板4的書寫板201;筆跡信息取得單元202;識別候補文字串生成單元203;文字串相似度計算單元204;輸入文字串判定單元205;緩沖存儲器更新單元206;識別結果顯示單元207等各功能單元;筆劃緩沖存儲器208;識別候補緩沖存儲器209以及識別結果緩沖存儲器210等各緩沖存儲器;文字構造詞典211以及文字間構造詞典212等各詞典;相當于圖1中的顯示器5的顯示器213構成。
筆跡信息取得單元202、識別候補文字串生成單元203、文字串相似度計算單元204、輸入文字串判定單元205、緩沖存儲器更新單元206,以及識別結果顯示單元207,可以通過圖1中的CPU1執行讀入被存儲在RAM3中的聯機文字識別程序來實現。
筆劃緩沖存儲器208、識別候補緩沖存儲器209以及識別結果緩沖存儲器210,例如被確保在RAM3上。
文字構造詞典211以及文字間構造詞典212,和上述聯機文字識別程序一同被預先儲存在例如圖1中的存儲介質7中,當該程序由數據讀入裝置6讀入并被存儲在RAM3中時,被存儲在該RAM3中。進而,也可以把文字構造詞典211以及文字間構造詞典212預先存儲在ROM2中。
圖4的筆跡信息讀取單元202,與圖2的筆跡信息取得單元102對應,圖4的識別候補文字串生成單元203和文字串相似度計算單元204和輸入文字串判定單元205和緩沖存儲器更新單元206與圖3的識別單元對應,圖4的識別結果顯示單元207與圖2的識別結果顯示單元104對應。另外,圖4的文字構造詞典211與圖2的文字構造詞典106對應,圖4的文字間構造詞典212與圖2的文字間構造詞典107對應。
書寫板201,以一定時間間隔采集表示筆P接觸該書寫板201期間的筆尖位置的2維坐標數據。把得到的坐標數據發送到筆跡信息取得單元202。
筆跡信息取得單元202,作為被稱為筆劃的一筆完成數據使用從筆P接觸書寫板201到離開期間的坐標數據串,即筆跡的坐標數據串,并存儲在筆劃緩沖存儲器208中。
識別候補文字串生成單元203,生成相對筆劃緩沖存儲器208內的筆劃(筆劃數據)串來說成為識別候補的識別候補文字串群,并存儲在識別候補緩沖存儲器209中。
文字串相似度計算單元204,對于識別候補緩沖存儲器209內的各識別候補文字串,根據文字構造詞典211和文字間構造詞典212制作其核對用詞典(文字串構造詞典),把它和筆劃緩沖存儲器208中的筆劃串進行核對。文字相似度計算單元204,對識別候補文字串的各自,作為筆劃串和識別候補文字串的核對結果,取得該筆劃串是其文字串的相似程度(相似度),和表示該筆劃串中的哪些筆劃與哪個文字對應的文字提取結果。文字串相似度計算單元204,把取得的每一識別候補文字串的核對結果與該識別候補文字串對應地存儲在識別候補緩沖存儲器209中。
輸入文字串判定單元205,從識別候補緩沖存儲器209內的識別候補文字串和其核對結果中,求識別確定文字串、識別未確定文字串,以及識別未確定筆劃串信息,并存儲在識別結果緩沖存儲器210中。所謂識別確定文字串,在用筆劃串(輸入筆劃串)構成的文字串中,是可以判定為該文字串已被輸入的文字串部分。所謂識別未確定文字串,在用輸入筆劃串構成的文字串中,是雖然不能斷定但可以推測為該文字串已被輸入的文字串部分。所謂識別未確定筆劃串信息,是表示被推測為是1個文字書寫過程中的筆劃的筆劃在輸入筆劃串中是否存在的信息。
識別結果顯示單元206,把用輸入文字串判定單元205判定的識別結果緩沖存儲器210內的判定輸入文字串(識別確定文字串、識別未確定文字串,以及識別未確定筆劃串信息)輸出到顯示器213。
緩沖更新單元207,以識別結果緩沖存儲器210內的信息為基礎,從筆劃緩沖存儲器208和識別候補緩沖存儲器209中刪除與識別確定文字串對應的部分的信息來更新內容。
圖5展示圖1的信息機的外觀。
如圖所示,在圖1的信息機的主面上,即在顯示器5(213)的顯示畫面上積層了透明的書寫板4(201)的面上,確保為了用戶以筆P在書寫板4(201)上書寫文字的文字書寫區域301、顯示把在該文字書寫區域301上書寫的筆跡作為文字串識別的結果和表示文字插入位置的光標C的識別結果顯示區域302、指示光標位置之前的文字刪除的1文字后退刪除鈕303。
圖6展示圖4中的筆劃緩沖存儲器208的數據構造。
被存儲在筆劃緩沖存儲器208中的筆劃串信息,由表示該緩沖存儲器208內的筆劃的數目(筆劃數)的NSTRK和NSTRK個筆劃數據構成。第I個筆劃數據(I=1~NSTRK),由構成它(表示坐標點的數)的坐標點數NPOINT[I],和NPOINT[I]個x,y坐標數據組成。在此,第I個筆劃數據的第J點(J=1~NPOINT[I])的x,y坐標數據表示成x[I][J],y[I][J]。
圖7展示識別候補緩沖存儲器209的數據構造例子。
識別候補緩沖存儲器209,用于存儲對于筆劃緩沖存儲器208內的筆劃串成為識別候補文字串和核對結果。在本實施方案中被存儲在識別候補緩沖存儲器209中的信息(識別候補信息),由表示候補(識別候補文字串)數的NCAND和NCAND個候補(候補數據)構成。
候補#I,即第I候補(I=1~NCAND)的數據包含文字提取結果。該文字提取結果,由以下部分構成表示第I候補是否是識別廢棄對象的廢棄標志CNAD_REJFLAG[I];構成其候補的文字串(識別候補文字串)的文字數CAND_NCODE[I];CAND_NCODE[I]個文字(第J文字(J=1~CAND_NCODE[I]))的各個文字構造詞典211中的輸入號碼CAND_REFID[I];其候補文字串的總筆劃數CAND_NSTRK[I]、與其候補文字串的最終文字對應的筆劃緩沖存儲器208內的輸入筆劃的條數CAND_STRKCTR[I];與CAND_NCODE[I]個文字(第J個文字)各自對應的筆劃緩沖存儲器208內的輸入筆劃串的開始筆劃號碼CAND_BS[I][J]以及結束筆劃號碼CAND_BS[I][J]。
第I候補(I=1~NCAND)的數據,由以下部分構成上述的文字提取結果;核對CAND_NCODE[I]個文字(第J個文字)的文字構造詞典211和對應的輸入筆劃串的結果的相似度的對數值(對數相似度)CAND_L1[I][J];核對第J文字和第J+1文字間的文字間構造詞典212和對應的輸入筆劃間構造特征(第J文字的最后的筆劃和接著的第J+1文字的最初的筆劃之間的構造特征)的結果的對數相似度CAND_L2[I][J];對數相似度的總和,即核對第I候補的文字串和輸入筆劃串全部結果的對數相似度CAND_L[I]。
在圖7的例子中,識別候補緩沖存儲器209內的候補(識別候補文字串)存在第1候補(候補#1)至第10候補(候補#10)的10個。對于第1候補,廢棄標志被設置成0,識別候補文字串是由文字構造詞典211的第1輸入“ぁ”和第2輸入“ぃ”構成的2個文字長的文字串“ぁぃ”。該識別候補文字串的總筆劃數是5條。在此,存儲至識別候補文字串“ぁぃ”的最后文字“ぃ”的第1筆劃被輸入后核對的結果。與識別候補文字串“ぁぃ”的第1文字“ぁ”對應的輸入筆劃是從第1筆至第3筆的3條。與識別候補文字串“ぁぃ”的第2文字“ぃ”對應的輸入筆劃只有第4筆的1條。即只輸入到“ぃ”的左側的1劃。
核對識別候補文字串“ぁぃ”的第1文字“ぁ”的文字構造詞典211,和從第1筆至第3筆的輸入筆劃串的結果的相似度的對數值(對數相似度)是-0.70。把“ぁ”和“ぃ”之間的文字間構造詞典212、第3筆劃(“ぁ”的最后的筆劃)和第4筆劃(“ぃ”的最初筆劃)的筆劃間構造進行核對的結果的相似度的對數值(對數相似度)是-0.36。核對“ぃ”的文字構造詞典211中的開頭筆劃部分,和輸入筆劃串的第4筆劃的結果的相似度的對數值(對數相似度)是-0.22。“ぁ”的對數相似度、“ぁ”和“ぃ”的文字間對數相似度、“ぃ”的最初的筆劃的對數相似度相加的整個對數相似度是-1.28。
圖8展示文字構造詞典211的數據構造例子。
文字構造詞典211是記錄有表示成為識別對象的文字構造的數據(文字構造詞典信息)的詞典。該文字構造詞典211,由表示成為識別對象的文字個數的NREF,和NREF個文字各自的構造詞典組成。
第I(I=1~#NREF)個文字的構造詞典(詞典#I),由以下部分構成用代碼(例如SHIFT-JIS代碼)表示其文字的REF_CODE[I];構成其文字的總筆劃數REF_NSTRK[I];作為REF_NSTRK[I]個筆劃(第J筆劃(J=1~REF_NSTRK[I]))的特征的形狀特征的平均向量s[I][J][1~6]以及協方差向量σ[I][J][1~6]);第J-1筆劃和第J筆劃之間的筆劃間構造特征的平均向量s2[I][J][1~2]以及協方差向量σ2[I][J][1~2]構成。在此假設s[I][J][1~6]表示由s[I][J][1],s[I][J][2],……s[I][J][6]組成的6維向量。σ[I][J][1~6],s2[I][J][1~2],σ2[I][J][1~2]也是同樣的向量表示。有關筆劃形狀特征和筆劃間構造特征后述。
圖9展示文字間構造詞典212的數據構造例子。
文字間構造詞典212,是記錄有對已被記錄在文字構造詞典211中的NREF個文字(可以識別的文字)中連續書寫的各2個文字的組合,表示這2個文字間的構造關系的數據(文字間詞典信息)的詞典。在圖9中展示對于1組的2個文字表示該文字間的構造關系的文字間構造詞典信息的數據構造。該文字間構造信息,由文字間構造特征的平均向量z[1~2]和協方差向量θ[1~2]構成。作為文字間構造特征,使用前面文字的最后筆劃和后面的文字開頭筆劃間的筆劃構造特征。
以下,適宜地參照圖10至圖24的流程圖說明如上述構成的聯機文字識別裝置中的聯機文字識別處理順序。
首先,根據圖10的流程圖說明全部的處理。
步驟801是初始化聯機文字識別裝置內的各緩沖存儲器的初始化步驟。
在步驟802中,如果在文字書寫區域301內寫1筆筆劃,則該筆劃的坐標數據串,即筆劃數據由筆跡信息取得單元202取入筆劃緩沖存儲器208,該筆劃數據的特征被抽出。
在步驟803中,由識別候補文字串生成單元203生成對被取入到筆劃緩沖存儲器208的筆劃串來說可以成為識別候補的候補文字串(識別候補文字串),并存儲在識別候補緩沖存儲器209中。
在步驟804中,用文字串相似度計算單元204核對在步驟803中生成的在識別候補緩沖存儲器209內的識別候補文字串和在步驟802中取入的筆劃串,作為其識別候補文字串計算已書寫筆劃串的相似程度。
在步驟805中,根據在步驟804中和各識別候補文字串的核對結果,在輸入文字串判定單元205中判定在輸入筆劃串中可以可靠地判定為該識別候補文字串已被書寫的識別確定文字串、最象它的文字串(識別未確定文字串)部分、文字書寫中途的筆劃串(識別未確定筆劃串)部分。
在步驟806中,在步驟805中的判定結果用識別結果顯示單元207顯示在識別結果顯示區域302上。
在步驟807、808中,用緩沖存儲器更新單元206更新筆劃緩沖存儲器208和識別候補緩沖存儲器209。
在把全部的輸入筆劃串判定為識別確定文字串之前(識別候補緩沖存儲器209變為空之前),重復以上的步驟802~808(步驟809)。由此,在用戶不注意文字的劃分,而只是在文字書寫板301上連續書寫文字時,在圖4的聯機文字識別裝置中,可以自動地把筆跡識別為文字。
以下,詳細說明圖10的流程圖中的各步驟的處理內容。
首先,在步驟801中,進行筆劃緩沖存儲器208以及識別候補緩沖存儲器209的初始化。在此,在具有圖6所示的數據構造的筆劃緩沖存儲器208內的筆劃數NSTRK,和具有圖7所示的數據構造的識別候補緩沖存儲器209內的識別候補文字串數NCAND中,分別置“0”,由此進行兩緩沖存儲器208、209的初始化。
下一步驟802,在用戶在被確保于(在顯示器5的顯示畫面上重疊配置的)書寫板201上的文字書寫區域301上用筆P每寫下一劃時執行。被寫下的筆劃的數據(坐標數據)用書寫板201獲取。在步驟802中,用該書寫板201獲取的筆劃數據,用筆跡信息取得單元202取入并被存儲在筆劃緩沖存儲器208中。另外,在步驟802中,執行抽出被存儲在筆劃緩沖存儲器208中的筆劃數據(所示的筆劃形狀)的特征的處理。
參照圖11的流程圖詳細說明采用此筆跡信息取得單元202的步驟802的處理。
首先,在步驟901中,把圖6的數據構造的筆劃緩沖存儲器208內的筆劃數NSTRK增加1。
在從以下的步驟902到步驟905中,把從筆P離開書寫板201前期間用該書寫板201獲取的筆尖的x坐標以及y坐標數據逐次取入筆劃緩沖存儲器208。在此,第I筆劃的第J點的x坐標、y坐標,在圖6所示的筆劃緩沖存儲器208內被分別設置為x[I][J],y[I][J]。
在步驟906中,把從筆P離開書寫板201前期間取入的(構成1劃)坐標點數設置于NPOINT[I]。
在步驟907中,從被取入到筆劃緩沖存儲器208中的最新的筆劃中,即第NSTRK筆劃數據中,抽出表示筆劃形狀的筆劃形狀特征向量u[1~6]。在此假設u[1~6]表示由u[1],u[2],……u[6]組成的6維向量。作為形狀特征,例如假設使用表示在傅立葉展開復數數值函數得到的P形傅立葉描述符的2次以下的低階成分的6個系數,而該復數數值函數是在指數函數的指數部分中具有筆劃數據的全部曲率函數的函數。對于P形傅立葉描述符的計算順序,使用在文獻“以線圖形的曲折為特征的聯機手寫漢字識別”(電子信息通信學會論文志1990年4月Vol.J73-D-IINo.4 pp.519-525)中詳細敘述的方法。
在被輸入的筆劃在第2劃以下的情況下,在步驟909中,抽出表示第NSTRK筆劃和在前1筆輸入的第NSTEK-1劃之間的構造關系的2維筆劃間構造特征向量u2[1~2]。作為構造特征,例如使用把從第NTRK-1筆劃的終點連接第NSTRK筆劃的始點的向量范數歸一化為1的向量。
以上,是步驟802中的詳細的處理順序。
以下,在步驟803中,用識別候補文字串生成單元203,更新識別候補緩沖存儲器209內的識別候補文字串。步驟803,是在此時刻生成對于被存儲在筆劃緩沖存儲器208中的輸入筆劃串可以成為識別候補的文字串的處理。
參照圖12的流程圖詳細說明該步驟803的處理。
首先,在步驟1002中,根據識別候補緩沖存儲器209中表示目前的識別候補文字串數的NCAND,判斷識別候補文字串存在還是不存在。
在不存在(NCAND=0)的情況下,跨入步驟1010,進行把被記錄在圖8所示的數據構造的文字構造詞典211中的NREF個文字的各自作為CAND_NCODE[1](I=1~NREF)是“1”的第I識別候補文字串(新識別候補文字串)存儲(生成)在識別候補緩沖存儲器209中的處理。圖13的流程圖展示了在該步驟1010中詳細的處理順序。
另一方面,當在識別候補緩沖存儲器209中已存在識別候補文字串(NCAND>0)的情況下,對各第I識別候補文字串進行以下的處理。
首先在步驟1005中,根據筆劃緩沖存儲器208內的筆劃數NSTRK是否超過第I識別候補文字串的總筆劃數CAND_NSTRK[I],判斷目前書寫輸入的筆劃是否是接著現在的第I識別候補文字串的下一個新的文字的最初的筆劃。
當判定為不是新的1個文字的最初的筆劃的情況下,在步驟1006中,只把表示構成第I識別候補文字串的最終文字的筆劃數的計數器CAND_STRKCTR[I]增加1。
與此相反,在判定為是新的1個文字的最初的筆劃的情況下,在步驟1008中,進行生成在目前的第I識別候補文字串上追加1個文字的新的識別候補文字串并記錄在識別候補緩沖存儲器209中的處理。追加的1個文字是包含在文字構造詞典211中的NREF個文字的全部,只以此數在識別候補緩沖存儲器209中記錄新的第K識別候補文字串(K=1~NREF)。圖14展示在步驟1008中的詳細的處理順序。
對于目前的第I識別候補文字串,在步驟1009中作為舊識別候補文字串產生廢棄標志。
這樣對NCAND個全部的識別候補文字串,如果分別在識別候補緩沖存儲器209中生成記錄NREF個新識別候補文字串(步驟1004),則在從識別候補緩沖器209中除去已產生了廢棄標志的舊識別候補文字串的同時,在步驟1011中進行排列新識別候補文字串的識別候補文字串更新處理。圖15的流程圖展示該步驟1011中的詳細的處理順序。
以上,是在步驟803中的詳細的處理順序。
以下,在步驟804中,對識別候補緩沖存儲器209內的各識別候補文字串,由文字串相似度計算單元204進行和筆劃緩沖儲存器208內的輸入筆劃串的核對,其核對結果(相似度計算結果)被存儲在識別候補緩沖存儲器209中。
參照圖16的流程圖詳細說明本步驟804的處理。
首先,在步驟1403中,對識別候補緩沖存儲器209的各第I識別候補文字串,制成用于輸入筆劃串的核對的文字串構造詞典。在以下的步驟1404中,進行輸入筆劃串和被制成的文字構造詞典的核對。
在上述步驟1403中的第I識別候補文字串的文字串構造詞典的制作處理,根據圖17的流程圖進行如下。首先,在步驟1502中根據在該緩沖存儲器208內的筆劃數NSTR是否比1大,判斷在筆劃緩沖存儲器208中是否存在2條以上的筆劃。在只存在一條筆劃的情況下跨入步驟1506。在2條以上的情況下,在步驟1503中,判斷最新筆劃是否是第I識別候補文字串的最終文字的最初的筆劃。
當是最初的筆劃的情況下,被看作此筆劃和前1筆劃之間是文字間。這種情況下,在步驟1504中,從文字間構造詞典212中取出對應的文字間的文字間構造詞典信息,在構成該詞典信息的平均向量z[1~2]以及協方差向量θ[1~2],分別被設定為v2[1~2]以及Φ2[1~2]后,進入步驟1506。
另一方面,在不是最初的筆劃的情況下,被看作該筆劃和前1個筆劃之間是第I識別候補文字串的最終文字內的筆劃間,在步驟1505中,在被記述在有關最終文字的文字構造詞典211中的詞典信息內的對應的筆劃間構造特征的平均向量以及協方差向量,分別被設置成v2[1~2]以及Φ2[1~2]后,進入步驟1506。
在步驟1506中,對于與最新輸入筆劃對應的最終文字,被記述在文字構造詞典211中的詞典信息內的筆劃形狀特征的平均向量以及協方差向量,分別被設置成v[1~6]以及Φ[1~6]。
以下,在上述步驟1404中的第I識別候補文字串的文字串構造詞典和輸入筆劃串的核對處理,根據圖18的流程圖進行如下。
首先,在步驟1602中,和上述步驟1502中一樣判斷在筆劃緩沖存儲器208中是否存在2條以上的筆劃。在只存在1條筆劃的情況下跨入步驟1607。在2條以上的情況下,在步驟1603中,判斷最新筆劃是否是目前的第I識別候補文字串的最終文字的最初的筆劃。
在是最初的筆劃的情況下,被看作該筆劃和前1筆劃之間是文字間。這種情況下,在步驟1604中,在前面的步驟909中抽出的輸入筆劃間構造特征向量u2[1~2]和在步驟1504中被設置的文字間構造特征的平均向量v2[1~2]以及協方差向量Φ2[1~2]之間進行相似度計算,在其對數值logf(u2|v2,Φ2)將作為與第I識別候補文字串對應的文字間構造部分,即把最新的筆劃的前1個筆劃作為最后的筆劃的文字和下一個文字(目前的第I識別候補文字串的最后文字)的文字間構造部分的對數相似度設置后,進入步驟1606。
在此,上述相似度,在把將平均向量設置成v2[1~2]、將協方差向量設置成Φ2[1~2]的多元無相關正態分布作為概率密度函數的情況下的,作為輸入向量u2[1~2]的概率密度函數值,用下式(1)計算。
式1f(u2|v2,φ2)=Πi=1212πφ2[i]2e-12Σi=121φ2[i]2(u2[i]-v2[i])2----(1)]]>另一方面,當在步驟1603中判定為最新的筆劃不是目前的第1識別候補文字串的最終文字的最初筆劃的情況下,該筆劃和前1個筆劃之間被看作是第I識別候補文字串的最終文字內的筆劃間。這種情況下,在步驟1605中,在步驟909中被抽出的輸入筆劃間構造特征的平均向量u2[1~2]和在步驟1505中被設置的筆劃間構造特征的平均向量v2[1~2]以及協方差向量Φ2[1~2]之間進行相似度計算,其對數值log f(u2|v2,Φ2)在被累計設置成與第I識別候補文字串對應的文字構造部分,即目前的第I識別候補文字串的最終文字的文字構造部分的對數相似度后,進入步驟1606。在相似度的計算中使用和步驟1604相同形式的概率密度函數。
在步驟1606中,在該步驟1606之前進行的步驟1604或者在1605中算出的相似度的對數值logf(u2|v2,Φ2),被累計設置為在至此時求得的,核對第I識別候補文字串和輸入筆劃串全體的結果的對數相似度CAND_L[I]。
在步驟1607中,在步驟907中抽出的輸入筆劃的形狀特征向量u[1~6]和與第I識別候補文字串的最終文字的文字構造詞典對應的筆劃形狀特征的平均向量v[1~6]以及協方差向量Φ[1~6]之間進行相似度計算,求其對數值logf(u|v,Φ)。
在此上述相似度,把將平均向量設置成v[1~6],將協方差向量設置成Φ[1~6]的多元無相關正態分布作為概率密度函數情況下的,作為輸入向量u[1~6]的概率密度函數值,用下式(2)算出。
式2f(u|v,φ)=Πi=1612πφ[i]2e-12Σi=161φ[i]2(u[i]-v[i])2----(2)]]>在步驟1608中,在步驟1607中求得的對數值logf(u|v,Φ),即核對筆劃形狀特征得到的相似度的對數值logf(u|v,Φ),被累計設置成第I識別候補文字串的對應的文字構造部分,即第I識別候補文字串的最終文字的文字構造部分的對數相似度。
在步驟1609中,在步驟1607中取得的對數值logf(u|v,Φ),被累計設置成在至目前取得的,核對第I識別候補文字串和輸入筆劃串全體結果的對數相似度CAND_L[I]。
對于識別候補緩沖存儲器209內的全部識別候補文字,如果進行和筆劃緩沖存儲器208內的輸入筆劃串的核對(步驟1405),則在步驟1406中進行識別候補文字串的輸入。
在該步驟1406中的聚焦處理根據圖19的流程圖執行。在此,當對識別候補緩沖存儲器209內的各第I識別候補文字串(I=1~NCAND)取得的對數相似度的總和,即核對第I識別候補文字串和輸入筆劃串全體的結果的對數相似度CAND_L[I],未滿足預先設定的閾值α的情況下,被判定為該識別候補文字串被輸入的可能性低(步驟1703)。這種情況下,從識別候補緩沖存儲器209中刪除該識別候補文字串。
另一方面,對數相似度CAND_L[I]超過閾值α的識別候補文字串,被判定輸入其識別候補文字串的可能性高,作為第J識別候補文字串留在識別候補緩沖存儲器209內(步驟1704)。
有關在文字書寫區域301內重疊書寫“ぁぃ”這一文字的筆跡,和識別候補文字串“ぁぃ”之間的相似度的具體例子,參照圖25以筆劃順序說明在如上所述的圖16的流程圖(對在步驟804中的識別候補文字串的相似度計算處理的詳細順序)中的步驟1403以及步驟1404的處理。
首先,如果書寫最初的筆劃,則在從該筆劃(第1輸入筆劃)中抽出的形狀特征u[1~6]和“ぁ”的文字構造詞典的第1筆劃的形狀特征s[1][1][1~6]、σ[1][1][1~6]之間進行核對。
如果書寫第2輸入筆劃,則在和前一輸入筆劃(第1輸入筆劃)之間的筆劃間構造特征u2[1~2]、“ぁ”的文字構造詞典的第1筆劃和第2筆劃之間的筆劃間構造特征s2[1][1][1~2]、σ2[1][1][1~2]之間進行核對的同時,還在第2輸入筆劃的形狀特征u[1~6]和“ぁ”的文字構造詞典的第2筆劃的形狀特征s[1][2][1~6]、σ[1][2][1~6]之間進行核對。
對于第3輸入筆劃也進行同樣的相似度計算,而對于第4輸入筆劃,因為判定該筆劃是“ぃ”的最初的筆劃,所以在“ぁ”和“ぃ”的文字間構造詞典特征z[1~2]、θ[1~2]之間,核對第3輸入筆劃和第4輸入筆劃間的輸入筆劃間構造特征u2[1~2]。通過這些核對計算的相似度的對數值的累計值,成為輸入筆劃串和識別候補文字串之間的對數相似度。
在步驟804的下一步驟805中,從被存儲在識別候補緩沖存儲器209中的各識別候補文字串和該每一識別候補文字串的進行核對結果中,用輸入文字串判定單元205,確定識別確定文字串、識別未確定文字串,以及識別未確定筆劃串信息。
圖20是用于說明在步驟805中的處理順序的流程圖。如該流程圖所示,步驟805的輸入文字識別判定處理,由識別確定文字串的判定步驟1801、識別未確定文字串以及識別未確定筆劃信息的判定步驟1802組成。
圖21是用于說明在步驟1801中的詳細處理順序的流程圖。在此,對于識別候補緩沖存儲器209內的全部的第I識別候補文字串(I=1~NCAND)(步驟1902,1906,1908),以第1識別候補文字串為基礎,把由從開始就相同的NSTRING1個文字構成的文字串部分的文字代碼STRING1[J]的串(J=1~NSTRING1)作為識別確定文字串STRING1抽出(步驟1907),設置在識別結果緩沖存儲器210中。在步驟1907中,還求NSTRING1個文字的總筆劃數NSTRK1,并與識別確定文字串STRING1對應地設置在識別結果緩沖存儲器210中。
圖22是用于說明在步驟1802中的處理順序的流程圖。在此,首先在識別候補緩沖存儲器209內的全部的第I識別候補文字串(I=1~NCAND)中求對數相似度CAND_L[I]最大的第MI識別候補文字串(最相似的識別候補文字串)(MI是1~NCAND之一)(步驟2001~2005)。
接著對求得的最相似的識別候補文字串,根據與該最終文字串對應的輸入筆劃串的最終筆劃號碼CAND_ES[MI][CAND_NCODE[MI]]是否比表示該候補文字串的總筆劃數的CAND_NSTRK[MI]值小,判定該候補文字串的最終文字串是否在書寫過程中(步驟2006)。
如果,最相似識別候補文字串的最后文字處于書寫過程中,則把識別未確定筆劃串信息USTRK_FLAG設置成“1”,進而從最相似候補文字串中取出由識別確定文字串和除去最后文字的NSTRING2個文字組成的文字串部分,把該文字串部分的文字代碼STRING2[J]的串(J=1~NSTRING2)作為識別未確定文字串STEING2設置在識別結果緩沖存儲器210中(步驟2007,2009~2011)。這時,包含該識別未確定文字串的最適宜識別候補文字串的對數相似度,也可以和該識別未確定文字串STRING2一同存儲在識別結果緩沖存儲器210中。被存儲在識別結果緩沖存儲器210中的該最適宜識別候補文字串的對數相似度,此后,還可以在識別結果顯示裝置207中顯示該識別未確定文字串STRING2時使用。
另一方面,當最相似識別候補文字串的最后文字的筆劃被全部書寫的情況下,把識別未確定筆劃信息USTRK_FLAG設置成“0”,進而從最相似識別候補文字串中取出由除去識別確定文字串的NSTRING2個文字組成的文字串部分,把該文字串部分的文字代碼STRING2[J]的串(J=1~NSTRING2)作為識別未確定文字串STRING2設置在識別結果緩沖存儲器210中(步驟2008~2011)。
從以上的說明可知,識別確定文字串STRING1,在輸入筆劃串中,是用以后的書寫不能改變判定結果的已被判定的部分的文字串。同樣,識別未確定文字串STRING2,具有用以后的書寫改變判定結果的可能性,但是是在當前相似度最大的最相似的部分的文字串。而后,識別未確定筆劃串信息USTRK_FLAG,表示有無還未寫完文字的筆劃串。
在步驟805的下一步驟806中,用識別結果顯示單元207,把識別結果緩沖存儲器210內的識別確定文字串、識別未確定文字串以及識別未確定筆劃串信息變換為顯示圖形,顯示在顯示器213的顯示畫面中的識別結果顯示區域302中。
把這樣的每次書寫筆劃時判定的識別確定文字串、識別未確定文字串以及識別未確定筆劃串信息的顯示例子,與在文字書寫區域301內重疊書寫了叫做“ぁぃ”的文字的筆跡的各筆劃(輸入筆劃)和筆劃號碼對應起來,展示于圖26的第3列。
在同一圖中,黑色方形的記號是表示文字插入位置的光標,相當于圖5中的光標C。另外,沒有下劃線的文字串部分表示識別確定文字串,有下劃線的文字串部分表示識別未確定未串。另外,記號“”在識別未確定筆劃串信息USTRK_FLAG是“1”的情況下被顯示在識別未確定文字串的下一文字位置上,表示識別未確定筆劃串存在。
這樣在本實施方案中,因為附加用戶容易識別(看到)識別確定文字串、識別未確定文字串以及識別未確定筆劃串信息的顯示屬性,并在每次筆劃輸入時顯示在畫面上,所以用戶可以逐次確認自己的筆跡的識別處理結果,可以進行快速舒適的文字輸入。
如果步驟806結束,則通過緩沖存儲器更新單元206,在步驟807中進行識別候補緩沖存儲器209的更新,在步驟808中進行筆劃緩沖存儲器208的更新。
圖23的流程圖展示在步驟807中的詳細處理順序。其中,當識別確定文字串NSTRING1存在的情況下,對識別候補緩沖存儲器209內的各第I識別候補文字串(I=1~NCAND),從該各候補文字串中除去相當于識別確定文字串NSTRNG1的部分的信息。
以下在圖24的流程圖中展示步驟808中的詳細處理順序。在此,在筆劃緩沖存儲器208內的NSTRK個第I筆劃數據(I=1~NSTRK)中,通過把I=NSTRK1+1~NSTRK的第I筆劃數據,即第NSTRK1+1筆劃數據~第NSTRK筆劃數據作為新的NSTRK個(新NSTRK=舊NSTRK-NSTRK1)第J筆劃數據,進行從該筆劃緩沖存儲器208中除去與識別確定文字串NSTRING1對應的(由第1筆劃數據~第NSTRK1筆劃數據組成)輸入筆劃串數據的筆劃緩沖存儲器更新處理。
該緩沖存儲器更新處理,大致分為步驟2107、2108的循環,和步驟2109~2111。在步驟2107、2108的循環中,從筆劃緩沖存儲器208中刪除與除去識別確定文字串NSTRING1中的最終文字的文字串對應的輸入筆劃串數據,在步驟2109~2111中,從筆劃緩沖存儲器208中刪除與識別確定文字串NSTRING1中的最終文字對應的輸入筆劃串數據。
在步驟808的下一步驟809中,用例如緩沖存儲器更新單元206進行識別候補緩沖存儲器209是否是空的判定,當識別候補文字串存在的情況下返回步驟802過渡到在筆跡信息取得單元202中控制,進行下一筆劃的獲取。
與此相反,在識別候補緩沖存儲器209是空的情況下,對被輸入的筆劃串全部顯示輸出識別結果已確定的文字串,識別處理結束。
因而,在本實施方案中的聯機文字識別裝置中,通過如上述那樣的處理順序,可以高精度地識別輸入用戶不注意文字的劃分而連續書寫的文字串。
(識別結果的顯示方法)圖4的識別結果顯示單元207,如上所述,把識別結果緩沖存儲器210內的識別確定文字串、識別未確定文字串以及識別未確定筆劃串信息變換為顯示圖形,顯示于顯示器213的顯示畫面中的識別結果顯示區域302。
以下,參照圖27所示的流程圖說明在圖10的步驟806中的識別結果顯示單元207中的識別結果的顯示順序的一例。圖27所示的流程圖,在識別結果中,是展示顯示識別確定文字串和識別未確定文字串的順序的圖,尤其具有,在顯示識別未確定文字串時,比較其相似度和預先確定的閾值,進行顯示更新這一特征。所謂識別未確定文字串的相似度,是在當在輸入文字串判定單元205中判定了識別未確定文字串時,包含該識別未確定文字串的最相似識別候補文字串的對數相似度。該對數相似度,假設和該識別未確定文字串一同被存儲在識別結果緩沖存儲器210中。
首先,識別結果顯示單元207,從識別結果緩沖存儲器210中取出并顯示識別確定文字串。即,把該識別確定文字串變換為顯示圖形,顯示在顯示器213的顯示畫面中的識別結果顯示區域302中(步驟S11)。
以下,應該進行識別未確定文字串的顯示,而其中,首先,從識別結果緩沖存儲器210中,取出識別未確定文字串和與該識別未確定文字串一同存儲的對數相似度。而后,在該對數相似度的值比預先設定的閾值大(或者,在閾值以上)時,顯示此次識別未確定文字串。即,把該識別未確定文字串變換為顯示圖形,顯示在顯示器213的顯示畫面中的識別結果顯示區域302上(步驟S12、步驟S13)。
另一方面,當與該識別未確定文字串一同存儲的對數相似度的值在預先設定的閾值以下(或者,比閾值小)時,不顯示此次識別未確定文字串,而原樣顯示現在正在顯示的識別未確定文字串(步驟S12,步驟S14)。
以下,參照圖28所示的流程圖說明圖10的步驟806中的在識別結果顯示單元207中的識別結果顯示順序的另一例子。圖28所示的流程圖,也是展示在識別結果中顯示識別確定文字串和識別未確定文字串的順序的圖,但尤其具有在顯示識別未確定文字串時,比較其相似度和現在顯示的識別未確定文字串的相似度,進行顯示更新這一特征。進而,所謂識別未確定文字串的相似度,是在輸入文字串判定單元205中判定了識別未確定文字串時,包含該識別未確定文字串的最相似識別候補文字串的對數相似度。該對數相似度,假設和該識別未確定文字串一同,存儲在識別結果緩沖存儲器210中。
首先,識別結果顯示單元207,從識別結果緩沖存儲器210中取出并顯示識別確定文字串。即,把該識別確定文字串變換為顯示圖形,顯示在顯示器213的顯示畫面中的識別結果顯示區域302上(步驟S21)。
以下,應該進行識別未確定文字串的顯示,而其中,首先,從識別結果緩沖存儲器210中,取出識別未確定文字串和與該識別未確定文字串一同存儲的對數相似度。而后,該對數相似度的值,在比現在顯示的識別未確定文字串的相似度(被保持在識別結果顯示單元207中)的值大(或者,在其上)時,顯示此次識別未確定文字串。即,把該識別未確定文字串變換為顯示圖形,顯示在顯示器213的顯示畫面中的識別結果顯示區域302中(步驟S22,步驟S23)。而后,保持此次顯示的識別未確定文字串的相似度(步驟S24)。
另一方面,當和該識別未確定文字串一同存儲的對數相似度的值,在現在顯示的識別未確定文字串的相似度(被保持在識別結果顯示單元207)的值以下(或者,小)時,不顯示此次識別未確定文字串,而原樣顯示現在正在顯示的識別未確定文字串(步驟S22,步驟S25)。
把這樣的在每次書寫筆劃時判定的識別確定文字串、識別未確定文字串的顯示例子,與在文字書寫區域301內重疊書寫“てがき”這一文字的筆跡的各筆劃(“て”的第1劃,が的第1劃、第2劃、…)、每次書寫筆劃時判定后的識別確定文字串和識別未確定文字串對應起來,展示在圖29的第4列中。
在同一圖第4列中,沒有下劃線的文字串部分表示識別確定文字串,劃有下劃線的文字串部分表示識別未確定文字串。
這樣在本實施方案中,因為附加用戶容易識別(看出)識別確定文字串、識別未確定文字串那樣的顯示屬性,在每次筆劃輸入時顯示在畫面上,所以用戶可以逐次確認自己的筆劃識別處理結果,可以舒適且高效率地進行手寫文字輸入。
(筆跡顯示方法)當在文字書寫區域301上書寫文字時,如果其筆跡不能全部顯示,因為不能確認前一筆劃的位置,所以接著書寫的筆劃偏離原本想要輸入的位置,不僅不能輸入正確的文字,而且還成為誤識別的原因。另外,特別是在僅有1個文字大小的文字書寫區域301上重疊書寫文字的情況下,如果輸入的筆劃全部被顯示,因為當前輸入中的文字以外的筆劃被顯示,所以反而難以辨認。
以下,說明被書寫在書寫板201的文字書寫區域301上的筆劃的顯示方法。
圖30是展示具有用于顯示被書寫在書寫板201的文字書寫區域310上的筆劃的筆跡顯示單元的聯機文字識別裝置的構成圖。進而,在圖30中,和圖4相同的部分上標注相同的符號,只說明不同的部分。即,新追加有上述筆跡顯示單元220和筆操作判定單元221。另外,書寫板201是透明的,而且該書寫板被設置在用于顯示被書寫在該文字書寫區域上的筆跡的顯示器213的筆跡顯示區域上,如果在顯示器213上,顯示用戶用筆P在書寫板201上書寫的筆劃的話,則用戶經由該書寫板201,可以看到該被顯示的筆劃。
筆跡顯示單元220,用在筆跡信息取得單元202中取得的筆劃數據在顯示器213上的筆跡顯示區域上顯示筆跡。
因為用筆跡信息取得單元202取得在筆P接觸該書寫板時表示筆尖位置的坐標數據,所以筆操作判定單元221,以該坐標數據為基礎,判定筆操作的種類,根據該判定結果,在筆跡顯示單元220中進行規定的指示。
筆跡顯示單元220,顯示包含現在輸入中的筆劃在內的最新的N條輸入筆劃。所顯示的筆劃數N被預先設定。
以下,參照圖31所示的流程圖,說明筆跡顯示單元220的筆跡顯示處理動作。進而,圖31所示的處理,在圖3的步驟S1中執行。
為了進行最新的N條輸入筆劃的顯示控制,筆跡顯示單元220,具有在達到N之前計數在書寫板201上輸入的筆劃數的筆劃計數器M、存儲輸入筆劃數據的筆劃緩沖存儲器B、表示該筆劃緩沖存儲器上的存儲位置的環形緩沖存儲器指針P。筆劃緩沖存儲器B具有存儲從第1至第N的N個輸入筆劃數據的區域,環形緩沖存儲器指針P,按照從筆劃緩沖存儲器B的第1存儲區域開始至第2、第3、第4的順序指示,由于在達到了第N時再次返回第1,因而環狀地指明筆劃緩沖存儲器B的存儲區域。進而,在此,為了說明的簡單,把環形緩沖存儲器指針P取得的值作為從筆劃緩沖存儲器B的筆劃數據的從第1至第N的各存儲區域的值,即,1~N,把筆劃緩沖存儲器B的第P個存儲區域表示成B(P)。
首先,在用筆P進行手寫文字輸入開始的同時,初始化筆跡顯示單元220。所謂初始化,例如,如果當前在筆跡顯示區域上存在顯示著的筆跡,則刪除它,把筆劃計數器N和環形緩沖存儲器指針P設置為“0”(步驟S101)。
在輸入1個筆劃時(步驟S102),比較此時的環形緩沖存儲器P的值和N,如果P和N不相等(步驟S103),進入步驟S104,把環形緩沖存儲器指針P增加1。另一方面,在步驟S103中,如果P和N相等,則進入步驟S105,如環形緩沖存儲器指針P指明筆劃緩沖存儲器B的第1存儲區域那樣,使環形緩沖存儲器指針P的值返回“1”。
接著,進入步驟S106。在步驟S106中,在筆劃緩沖存儲器B的第P個存儲區域上,存儲在步驟S102中輸入的該筆劃數據(步驟S106)。而后,在目前已輸入的筆劃數M比N還小(或者,在N以下)時(步驟S107),進入步驟S108,在使筆劃計數器M增加1后,在步驟S109中,從筆劃緩沖存儲器B中取出包含此次被存儲在第P個存儲區域中的筆劃數據的最新的P條筆劃,進行筆跡顯示。這種情況下,被存儲在筆劃緩沖存儲器B中的筆劃數據,如果從新的開始順序排列,則成為B(P),B(P-1),……B(1)。
另一方面,在步驟S107中,在目前已輸入的筆劃的數M在N以上(或者,比N小)時,不進行筆劃計數器M的更新,進入步驟S110,從筆劃緩沖存儲器B中取出包含此次被存儲在第P個存儲區域中的筆劃數據的最新的N條筆劃,進行筆跡的顯示。這種情況下,被存儲在筆劃緩沖存儲器B中的筆劃數據,如果從新的開始順序排列,則成為B(p),B(P-1),……B(1),B(N),B(1),B(2),……B(P+1)。
在此,說明筆劃數據的顯示方法。如上所述,各筆劃數據,是表示筆P接觸書寫板201期間筆尖位置的2維坐標數據串。假設1條筆劃由J個坐標數據組成。把各坐標數據表示為(x[j],y[j])。在此,j=1~J。例如,圖32展示用戶書寫“の”這一文字(用1筆構成的文字)時的筆跡顯示例子。因為構成這種情況下的輸入筆劃的坐標點全部有12個,所以可以順序連接該12個坐標數據串(x[j],y[j]),j=1~J用折線表示該輸入筆劃。
如果用圖31所示的順序進行輸入筆劃的筆跡的顯示,則例如,在N被設定為“2”的情況下,在顯示器213的筆跡顯示區域上,顯示如圖33所示那樣的筆跡。圖33(a)展示,在書寫板201的文字書寫區域301上,輸入完“ぃ”這一文字的第2筆劃時的筆跡顯示例子。圖33(b)展示,在書寫板201的文字書寫區域301上,輸入完“ぁ”這一文字的第3筆劃時的筆跡顯示例子。從同一圖可知,第1筆劃不顯示。同樣,圖33(c)展示在書寫板201的文字書寫書寫301上,輸入完“た”這一文字的第4劃時的筆跡顯示例子。從同一圖中可知,未顯示第1和第2筆劃。
在顯示器213的筆跡顯示區域上,用戶用筆P書寫在書寫板201上的筆劃,希望和書寫同時實時顯示。參照圖34所示的流程圖,說明為此的筆跡顯示單元221的處理動作。進而,圖34所示的輸入中的筆劃的顯示處理,在圖31的步驟S102中執行。
如上所述,在筆跡信息取得單元202中取得表示筆P接觸該書寫板期間筆尖位置的坐標數據。即,用戶書寫1筆期間取得的坐標數據應該輸入筆跡顯示單元221,而此時,在前次筆尖離開書寫板后(即,1筆書寫后)在筆尖開始接觸書寫板,最初坐標數據輸入時刻開始顯示筆跡。首先,把用于計數坐標點數的變量K設置成“0”(步驟S201)。而后,把變量K增加1(步驟S202),取得此時的坐標數據(x[K],y[K])(步驟S203)。包含此次取得的坐標數據,在開始筆跡顯示后取得的坐標數據是1時,即,K=1時(步驟S204),進入步驟S206,進行該坐標點的顯示。另一方面,在開始筆跡顯示后取得的坐標數據是第2個以上時,即,K>1時,進入步驟S205,在假設此次的坐標數據是(x[K],y[K])時,顯示連接此次的坐標點和前一次的坐標點(x[K-1],y[K-1])的線段。在檢測出筆尖離開書寫板之前(1筆的書寫結束)重復以上步驟S202~步驟S206(步驟S207)。
進而,1筆的書寫結束的判定,可以是筆操作判定單元220檢測出筆尖離開書寫板,把它通知給筆跡顯示單元221,也可以是筆跡顯示單元221把來自筆跡信息取得單元202的坐標數據的輸入暫時中斷的時刻判定為1筆的書寫結束。
另外,在顯示N條筆劃時,最好是可以區分顯示每筆筆劃。例如,可以通過改變各筆劃的顏色和粗細顯示,也可以如圖35所示,把各筆劃以實線、虛線、曲線等不同的線種類顯示。
進而,上述N的值,可以是用戶可以設定的期望值,也可以是是否表示N條輸入筆劃也由用戶設定。由此,對于每一用戶,可以提供對該用戶來說最佳的手寫文字輸入環境。
筆操作判定部分220,如上所述,判定筆P接觸書寫板上的哪個位置,判定筆操作的種類。在筆操作的種類中,例如有用于書寫(文字)輸入的操作,和其它的操作(例如光標移動等)。
可以在筆P接觸了書寫板上的規定的文字書寫區域時,判定為書寫(文字)輸入的開始。如果判定為文字輸入已開始,則進行圖3和圖31所示的處理動作。
例如,可以在筆P接觸書寫板上規定的文字書寫區域以外的規定區域時,和在從筆P接觸書寫板后在預先確定的規定時間,以該接觸點為基準筆尖限于預先設定的規定范圍內時,判定為是書寫輸入以外的操作。
另外,測量筆尖離開書寫板后的時間,在超過預先設定的時間的情況下,進行筆跡顯示單元221的初始化,在此時,也可以刪除被顯示在顯示器213的筆跡顯示區域上的筆跡。
這樣,如重疊書寫輸入文字那樣,即使在文字的劃分位置不明確的情況下,也可以適宜地顯示被輸入的筆跡,可以提供容易輸入手寫文字的環境。
(聯機文字識別裝置的附加功能)以下,參照圖30所示的聯機文字識別裝置的構成例子,說明其附加功能。
在此前已說明的實施方案中,如圖5所示,分為文字書寫區域301和識別結果顯示區域302。但是,即使在識別結果顯示區域302中,也可以實現指示表示文字插入位置的光標C移動的筆輸入。即,在本實施方案中,當在顯示器213上有筆跡顯示區域和識別結果顯示區域的情況下,設置透明的書寫板201使其覆蓋在它們之上,用戶通過該書寫板201,在可以看見被顯示在顯示器213內的筆跡的同時,通過用筆P指定識別結果顯示區域302內的任意的位置,就可以對作為識別結果得到的文字串進行編輯操作。還有把用于該編輯操作的指示稱為“姿態(gesture)”的。
例如,在圖30所示的構成中,當由筆操作判定單元220檢測出用筆P指定了(接觸了)識別結果顯示區域302內的任意位置的情況下,判定為進行了光標移動指示,對于現在書寫中的文字串的書寫已完成。而后,對于輸入文字串判定單元205,當此時存在識別未確定文字串的情況下,把其作為確定文字串,執行由識別結果顯示單元207進行顯示在識別結果顯示區域302上的確定處理的指示(確定指示)。另外,這時,輸入文字串判定單元205,在有識別未確定筆劃串的情況下,從筆劃緩沖存儲器208中刪除該識別未確定筆劃串。也可以用緩沖存儲器更新單元206進行該刪除處理。
由此,可以平滑地反復進行文字插入位置的指示、文字串書寫操作,可以進行舒適的文字輸入。進而,上述筆操作判定單元220,和各單元202~207一樣,可以通過圖1的信息機中的CPU1執行聯機文字識別程序實現。
另外在本實施方案中的構成是,在輸入了最后的筆劃后,由上述筆操作判定單元220檢測超過預先確定的一定時間沒有下一筆劃輸入的情況。而后,當檢測出在超過一定時間沒有下一筆劃輸入的情況下,也在筆操作判定單元220中,看作目前書寫中的文字串的書寫已完成,并進行和上述同樣的確定處理。
把這樣的確定處理前后的顯示畫面的變更例子,與重疊書寫“ぁした”這一文字的筆跡的各筆劃(輸入筆劃)和筆劃號對應起來展示在圖26的第3列以及第5列。
另外,也可以把圖5所示的文字書寫區域301和識別結果顯示區域302如圖36所示那樣通用。在這種構成中,當筆尖的坐標在超過一定時間沒有從一定坐標范圍內移動的情況下,筆操作判定單元220,判定為筆輸入是指示表示識別文字插入位置的光標C移動的姿態。在由筆操作判定單元220判定為筆輸入是姿態的情況下,輸入文字串判定單元205只要進行把識別未確定文字串作為識別確定文字串輸出的和上述同樣的確定處理即可。
本實施方案的聯機文字識別裝置,作為用于刪除錯誤輸入的文字的編輯操作單元(1文字后退刪除指示單元),具有圖5所示的1文字后退刪除按鈕303。用戶如果用筆P觸動該1字后退刪除按鈕303,則筆操作判定單元220,因為其坐標數據在1字后退刪除按鈕303的區域內,所以判定是進行了1字后退刪除指示,可以指示刪除光標C所指的文字位置之前的文字。
在本實施方案中,設置了識別結果編輯單元(未圖示),如圖26的第3列所示,當在識別結果顯示區域302上顯示表示識別未確定筆劃串存在的記號“”的狀態下進行了1文字后退刪除指示的情況下,刪除該“”。
該識別結果編輯單元,當在識別未確定筆劃串不存在而識別未確定文字串存在的狀態下發出了1文字后退刪除指示的情況下,在對識別未確定文字串的最后進行1文字后退刪除的同時,把剩余的識別未確定文字串作為識別確定文字串確定顯示。另外識別結果編輯單元,當在識別未確定筆劃串和識別未確定文字串都不存在的狀態下發出了1文字后退刪除指示的情況下,對確定文字串進行1文字后退刪除。
通過執行這種處理,就可以連續平滑地進行文字的刪除、文字的書寫操作,可以實現舒適的文字編輯環境。把1文字后退刪除指示前后的顯示畫面的變更例子,與重疊書寫“ぁした”這一文字的筆跡的各筆劃(輸入筆劃)和筆劃號碼對應起來,展示在圖26的第3列以及第4列上。
上述的1文字后退刪除指示并不限于由按鈕(1文字后退刪除按鈕303)實行。例如,筆操作判定單元220,也可以把書寫在文字書寫區域301上的特定形狀的筆劃,判定為是指示1文字后退刪除的姿態。除此以外,可以把例如不是通常的文字書寫的輸入的,從右至左方向的直線形的筆劃輸入定義為1文字后退刪除的姿態。筆操作判定單元220,也可以很容易通過在文字識別中使用的筆劃形狀特征的核對實現。
進而,本發明,并不限于上述實施方案,在實施階段中在不脫離其主旨的范圍內可以有各種各樣的變形。進而,在上述實施方案中包含有各個階段的發明,通過在被揭示的多個構成要件中的適宜的組合可以抽出各種發明。例如,當即使從實施方案所示的全部構成要件中刪除幾個構成要件,也可以解決在發明要解決的問題中所述的問題的至少1個,可以得到在發明效果中所述的效果中的至少一個的情況下,可以把刪除該構成要件的構成作為發明抽出。
如果采用以上詳細敘述的本發明,則在用戶書寫文字串的情況下,即使不注意文字的劃分而只連續書寫文字時,也可以通過還考慮了文字間的構造關系的識別處理自動地識別文字串,因而可以實現平滑的文字連續書寫輸入。
例如如果采用本發明,因為還可以進行文字重疊書寫輸入,所以即使只準備小書寫區域的便攜信息終端等的小型信息機中,也可以提供舒適的手寫文字輸入環境。
權利要求
1.一種聯機文字識別裝置,以在坐標輸入裝置上從筆接觸該坐標輸入裝置到離開期間由該坐標輸入裝置檢測出的筆尖的坐標序列表示的筆劃串為基礎進行文字識別,并在顯示裝置上顯示識別結果,其特征在于在每次檢測出上述筆劃時,對于此前被檢測出的筆劃的形狀以及連續書寫的各2個文字的組合,根據該2個文字間的筆劃的位置關系求最適宜的文字串,把該文字串顯示在上述顯示裝置上。
2.一種聯機文字識別裝置,以在坐標輸入裝置上從筆接觸該坐標輸入裝置到離開期間由該坐標輸入裝置檢測出的筆尖的坐標序列表示的筆劃串為基礎進行文字識別,并在顯示裝置上顯示識別結果,其特征在于上述坐標輸入裝置具有用于用上述筆書寫文字的1個文字份的文字書寫區域,在每次檢測出被書寫在上述書寫區域上的上述筆劃時,對于此前被檢測出的筆劃的形狀以及重疊書寫的各2個文字的組合,根據該2個文字間的筆劃的位置關系求最適宜的文字串,把該文字串顯示在上述顯示裝置上。
3.一種聯機文字識別裝置,以在坐標輸入裝置上從筆接觸該坐標輸入裝置到離開期間由該坐標輸入裝置檢測出的筆尖的坐標序列表示的筆劃串為基礎進行文字識別,并在顯示裝置上顯示識別結果,其特征在于包括文字構造詞典,對多個可識別文字的每一個,記錄有構成該文字的筆劃的形狀信息,以及記述有筆劃間的構造關系的詞典信息;文字間構造詞典,對于上述多個可以識別文字中連續書寫的各2個文字的組合,記錄有記述了該2個文字間的構造關系的詞典信息;筆跡信息取得單元,逐次取入由上述坐標輸入裝置檢測出的筆劃;識別候補文字串生成單元,在每次由上述筆跡信息取得單元取得筆劃時,對于包含該筆劃的需要識別的已取入的筆劃串生成可以成為識別候補的識別候補文字串;核對單元,對于上述每一識別候補文字串,根據對于構成該識別候補文字串的各候補文字的上述文字構造詞典中的詞典信息和對于連續的2個候補文字間的上述文字間構造詞典中的詞典信息,制作與該識別候補文字串對應的文字串構造詞典,通過把上述已取得的筆劃串分別和該每一識別候補文字串的文字串構造詞典核對,進行確定該筆劃串中的哪些筆劃構成哪個候補文字的文字提取;輸入文字串判定單元,對于上述各識別候補文字串把從開頭開始的上述文字提取結果共同的文字串部分作為識別確定文字串判定并輸出;識別結果顯示單元,顯示由上述輸入文字串判定單元輸出的上述識別確定文字串。
4.一種聯機文字識別裝置,以在坐標輸入裝置上從筆接觸該坐標輸入裝置到離開期間由該坐標輸入裝置檢測出的筆尖的坐標序列表示的筆劃串為基礎進行文字識別,并在顯示裝置上顯示識別結果,其特征在于包括文字構造詞典,對多個可識別文字的每一個,記錄有構成該文字的筆劃的形狀信息,以及記述有筆劃間的構造關系的詞典信息;文字間構造詞典,對于上述多個可以識別文字中連續書寫的各2個文字的組合,記錄有記述了該2個文字間的構造關系的詞典信息;筆劃緩沖存儲器,用于存儲由上述坐標輸入裝置檢測出的筆劃;筆跡信息取得單元,逐次取入由上述坐標輸入裝置檢測出的筆劃并存儲在上述筆劃緩沖存儲器中;識別候補緩沖存儲器,用于存儲對于上述筆劃緩沖存儲器內的筆劃串成為識別候補的識別候補文字串群;識別候補文字串生成單元,在每次通過上述筆跡信息取得單元在上述筆劃緩沖存儲器中存儲上述筆劃時,生成對于該筆劃緩沖存儲器內的筆劃串可以成為識別候補的識別候補文字串并存儲在上述識別候補緩沖存儲器中;核對單元,對于每個上述識別候補緩沖存儲器內的識別候補文字串,根據對于構成該識別候補文字串的各候補文字的上述文字構造詞典中的詞典信息和對于連續的2個候補文字間的上述文字間構造詞典中的詞典信息,制成與該識別候補文字串對應的文字串構造詞典,通過把上述筆劃存儲器內的筆劃串分別與該每一識別候補文字串的文字串構造詞典核對,進行確定該筆劃串中的哪些筆劃構成哪個候補文字的文字提取,把其結果與該識別候補文字串對應起來存儲在上述識別候補緩沖存儲器內;輸入文字串判定單元,對于上述識別候補緩沖存儲器內的全部識別候補文字串把從開頭開始的上述文字提取結果共同的文字串部分作為識別確定文字串判定并輸出;識別結果顯示單元,顯示由上述輸入文字串判定單元輸出的上述識別確定文字串。
5.一種聯機文字識別裝置,以在坐標輸入裝置上從筆接觸該坐標輸入裝置到離開期間由該坐標輸入裝置檢測出的筆尖的坐標序列表示的筆劃串為基礎進行文字識別,并在顯示裝置上顯示識別結果,其特征在于上述坐標輸入裝置具有用于用上述筆書寫文字的1個文字份的文字書寫區域,上述文字識別裝置包括文字構造詞典,對于多個可識別文字的每一個,記錄有構成該文字的筆劃的形狀信息,以及記述有筆劃間的構造關系的詞典信息;文字間構造詞典,對于上述多個可識別文字中的重疊書寫在上述文字書寫區域上的各2個文字的組合,記錄有記述了該2個文字間構造關系的詞典信息;筆跡信息取得單元,逐次取得由上述坐標輸入裝置檢測出的筆劃;識別候補文字串生成單元,在每次由上述筆跡信息取得單元取得筆劃時,對于包含該筆劃的需要識別的已取得的筆劃串生成可以成為識別候補的識別候補文字串;核對單元,對于上述每一識別候補文字串,根據對于構成該識別候補文字串的各候補文字的上述文字構造詞典中的詞典信息,和對于重疊的2個候補文字間的上述文字間構造詞典中的詞典信息,制作與該識別候補文字串對應的文字串構造詞典,通過把上述已取得的筆劃串分別和該每一識別候補文字串的文字串構造詞典核對,進行確定該筆劃串中的哪些筆劃構成哪個候補文字的文字提取;輸入文字串判定單元,對于上述各識別候補文字串把從開頭開始的上述文字提取結果共同的文字串部分作為識別確定文字串判定并輸出;識別結果顯示單元,顯示由上述輸入文字串判定單元輸出的上述識別確定文字串。
6.一種聯機文字識別裝置,以在坐標輸入裝置上從筆接觸該坐標輸入裝置到離開期間由該坐標輸入裝置檢測出的筆尖的坐標序列表示的筆劃串為基礎進行文字識別,并在顯示裝置上顯示識別結果,其特征在于上述坐標輸入裝置具有用于用上述筆書寫文字的1個文字份的文字書寫區域,上述文字識別裝置包括文字構造詞典,對于多個可識別文字的每一個,記錄有構成該文字的筆劃的形狀信息,以及記述有筆劃間的構造關系的詞典信息;文字間構造詞典,對于上述多個可識別文字中的重疊書寫在上述文字書寫區域上的各2個文字的組合,記錄有記述了該2個文字間構造關系的詞典信息;筆劃緩沖存儲器,用于存儲由上述坐標輸入裝置檢測出的筆劃;筆跡信息取得單元,逐次取得由上述坐標輸入裝置檢測出的筆劃并存儲在筆劃緩沖存儲器中;識別候補緩沖存儲器,用于存儲對于上述筆劃緩沖存儲器內的筆劃串成為識別候補的識別候補文字串群;識別候補文字串生成單元,在每次通過上述筆跡信息取得單元在上述筆劃緩沖存儲器中存儲上述筆劃時,生成對于該筆劃緩沖存儲器內的筆劃串可以成為識別候補的識別候補文字串并存儲在上述識別候補緩沖存儲器中;核對單元,對于上述識別候補緩沖存儲器內的每一識別候補文字串,根據對于構成該識別候補文字串的各候補文字的上述文字構造詞典中的詞典信息和對于重疊的2個候補文字間的上述文字間該詞典中的詞典信息,制成與該識別候補文字串對應的文字串構造詞典,通過把上述筆劃存儲器內的筆劃串分別與該每一識別候補文字串的文字串構造詞典核對,進行確定該筆劃串中的哪些筆劃構成哪個文字候補的文字提取,把其結果與該識別候補文字串對應起來存儲在上述識別候補緩沖存儲器內;輸入文字串判定單元,對于上述識別候補緩沖存儲器內的全部識別候補文字串,把從開頭開始的上述文字提取結果共同的文字串部分判定為識別確定文字串并輸出;識別結果顯示單元,顯示由上述輸入文字串判定單元輸出的上述識別確定文字串。
7.權利要求3~6的任意1項所述的聯機文字識別裝置,其特征在于上述核對單元,通過把上述筆劃串和上述每一識別候補文字串的上述文字串構造詞典進行核對,計算把該筆劃串作為該識別候補文字串書寫的相似程度,上述輸入文字串判定單元包含識別確定文字串判定單元,判定上述識別確定文字串并輸出;識別未確定文字串以及識別未確定筆劃串信息判定單元,對于根據上述核對單元的核對結果確定的上述各識別候補文字串中最相似的識別候補文字串,根據構成最后文字的筆劃是否已全部被書寫輸入,在輸出表示識別未確定筆劃串不存在或者存在的識別未確定筆劃串信息的同時,當上述識別未確定筆劃串不存在的情況下,從上述最相似的識別候補文字串中把除去上述識別確定文字串的文字串判定為識別未確定文字串并輸出,當上述識別未確定筆劃串存在的情況下,從上述最相似的識別候補文字串中把除去上述識別確定文字串和最后的1個文字之后得到的文字串判定為識別未確定文字串并輸出,上述識別結果顯示單元,除顯示上述識別確定文字串之外,進一步至少顯示上述識別未確定文字串。
8.權利要求7所述的聯機文字識別裝置,其特征在于上述識別結果顯示單元,在包含該識別未確定文字串的上述識別候補文字串的上述相似程度滿足預先確定的條件時,顯示上述識別未確定文字串。
9.權利要求7所述的聯機文字識別裝置,其特征在于上述識別結果顯示單元,在包含此次被判定的上述識別未確定文字串的上述識別候補文字串的相似程度,滿足根據包含前次被判定的上述識別未確定文字串的上述識別候補文字串的相似程度預先確定的條件時,替換為前次被判定的上述識別未確定文字串并顯示此次判定的上述識別未確定文字串。
10.權利要求4或者6所述的聯機文字識別裝置,其特征在于進一步具備緩沖存儲器更新單元,它在每次由上述識別結果顯示單元顯示上述識別確定文字串時,在從上述筆劃緩沖存儲器中刪除與該識別確定文字串對應的輸入筆劃串的同時,從上述識別候補緩沖存儲器中去除與該識別確定文字串對應的信息。
11.權利要求7所述的聯機文字識別裝置,其特征在于進一步具備檢測單元,在輸入最后的筆劃后,檢測出在超過預先設定的一定時間以上時沒有下一筆輸入的狀態;識別文字串確定單元,根據上述檢測單元的檢測結果,把上述識別未確定文字串作為上述識別確定文字串輸出。
12.權利要求7所述的聯機文字識別裝置,其特征在于上述坐標輸入裝置在被重疊配置在上述顯示裝置的顯示面上的同時,在該坐標輸入裝置的輸入面上分開確保用于用上述筆書寫文字的文字書寫區域和顯示上述識別結果的識別結果顯示區域;所述聯機文字識別裝置進一步具有檢測單元,檢測上述筆已接觸上述文字書寫區域的狀態;識別文字串確定單元,根據上述檢測單元的檢測結果把上述識別未確定文字串作為上述識別確定文字串輸出。
13.權利要求3~6的任意1項所述的聯機文字識別裝置,其特征在于上述坐標輸入裝置在被重疊配置在上述顯示裝置的顯示面上的同時,在該坐標輸入裝置的輸入面上確保兼用作用于用上述筆書寫文字的文字書寫區域和顯示上述識別結果的識別結果顯示區域的公用區域;所述聯機文字識別裝置進一步具有判定單元,當上述筆尖在上述公用區域的一定坐標范圍內存在一定時間以上的情況下,判定為其筆輸入是以識別結果顯示的光標移動為目的的姿態,在除此以外的情況下判定為是以文字書寫為目的的輸入;識別文字串確定單元,在由上述判定單元判定為筆輸入是姿態的情況下,把上述識別未確定文字串作為上述識別確定文字串輸出。
14.權利要求7所述的聯機文字識別裝置,其特征在于進一步具有1個文字后退刪除指示單元,用于指示操作1個文字的后退刪除;識別結果編輯單元,當由上述1個文字后退刪除指示單元指示了1個文字后退刪除的情況下,在上述識別未確定筆劃串存在的狀態下,刪除該識別未確定筆劃串,在上述識別未確定筆劃串不存在而上述識別未確定文字串存在的狀態下,在對該識別未確定文字串的最后尾進行1文字后退刪除的同時把剩余的該識別未確定文字串作為上述識別確定文字串,在上述識別未確定筆劃串以及上述識別未確定文字串都不存在的狀態下,對上述識別確定文字串進行1文字后退刪除。
15.權利要求1~6的任意1項所述的聯機文字識別裝置,其特征在于用于用上述坐標輸入裝置的上述筆書寫文字的文字書寫區域被重疊配置在上述顯示裝置的筆跡顯示區域上,每次在上述文字書寫區域上書寫上述筆劃時,把包含該最新筆劃的最新的規定的N條筆劃顯示上述筆跡顯示區域上,其中N是整數。
16.權利要求15所述的聯機文字識別裝置,其特征在于具備檢測單元,它在筆離開上述坐標輸入裝置后,檢測在預先確定的一定時間以上期間,上述筆未接觸上述坐標輸入裝置或者上述筆劃的書寫以外的筆操作,根據該檢測單元的檢測結果,刪除被顯示在上述筆跡顯示區域上的筆劃的顯示。
17.權利要求15所述的聯機文字識別裝置,其特征在于在上述筆跡顯示區域上顯示上述預先設定的多條筆劃時,通過改變各筆劃的顏色和粗細和表示該筆劃的線的種類其中之一進行顯示。
18.一種聯機文字識別方法,在坐標輸入裝置上以表示用筆書寫的文字的筆劃串為基礎進行文字識別,包括以1筆劃單位逐次取入由上述坐標輸入裝置檢測出的筆尖的坐標序列的步驟;在上述取得步驟中每次取得筆劃時,對包含該筆劃的需要識別的已取得的筆劃串生成可以成為識別候補的識別候補文字串的步驟;對上述每一生成的識別候補文字串,根據對于該識別候補文字串中的各候補文字構成該候補文字的筆劃的形狀信息以及記述了筆劃間的構造關系的文字構造詞典信息,和對于該識別候補文字串中的各候補文字間記述了該候補文字間的構造關系的文字間構造詞典信息,制作與該識別候補文字串對應的文字串構造詞典的步驟;在每次制作上述文字串構造詞典時,通過在此時把取得的上述已取得的筆劃串分別和上述被生成的每一識別候補文字串的文字串構造詞典核對,進行確定該筆劃串中的哪些筆劃構成哪個候補文字的文字提取的步驟;對于上述被生成的各識別候補文字串把從開頭開始的上述文字提取的結果相同的文字串部分判定為識別確定文字串后輸出的步驟。
19.一種存儲有聯機文字識別程序的存儲介質,該程序是以表示在坐標輸入裝置上用筆書寫的文字的筆劃串為基礎進行文字識別的聯機文字識別程序,它使計算機執行以下步驟以1筆劃單位逐次取得由上述坐標輸入裝置檢測出的筆尖的坐標序列;在上述取得步驟中每次取得筆劃時,對包含該筆劃的需要識別的已取得的筆劃串生成可以成為識別候補的識別候補文字串;對上述每一生成的識別候補文字串,根據對于該識別候補文字串中的各候補文字構成該候補文字的筆劃的形狀信息以及記述了筆劃間的構造關系的文字構造詞典信息,和對于該識別候補文字串中的各候補文字間記述了該候補文字間的構造關系的文字間構造詞典信息,制作與該識別候補文字串對應的文字串構造詞典;在每次制作上述文字串構造詞典時,通過在此時把取得的上述已取得的筆劃串分別和上述被生成的每一識別候補文字串的文字串構造詞典核對,進行確定該筆劃串中的哪些筆劃構成哪個候補文字的文字提取;對于上述被生成的各識別候補文字串把從開頭開始的上述文字提取的結果相同的文字串部分判定為識別確定文字串后輸出。
20.一種聯機文字識別程序,是以表示在坐標輸入裝置上用筆書寫的文字的筆劃串為基礎進行文字識別的聯機文字識別程序,它使計算機執行以下步驟以1筆劃單位逐次取得由上述坐標輸入裝置檢測出的筆尖的坐標序列;在上述取得步驟中每次取得筆劃時,對包含該筆劃的需要識別的已取得的筆劃串生成可以成為識別候補的識別候補文字串;對上述每一生成的識別候補文字串,根據對于該識別候補文字串中的各候補文字構成該候補文字的筆劃的形狀信息以及記述了筆劃間的構造關系的文字構造詞典信息,和對于該識別候補文字串中的各候補文字間記述了該候補文字間的構造關系的文字間構造詞典信息,制作與該識別候補文字串對應的文字串構造詞典;在每次制作上述文字串構造詞典時,通過在此時把取得的上述已取得的筆劃串分別和上述被生成的每一識別候補文字串的文字串構造詞典核對,進行確定該筆劃串中的哪些筆劃構成哪個候補文字的文字提取;對于上述被生成的各識別候補文字串把從開頭開始的上述文字提取的結果相同的文字串部分判定為識別確定文字串后輸出。
全文摘要
連續書寫文字也能自動識別文字串。筆跡信息取得單元202以1筆劃為單位把筆劃取入緩沖存儲器208。識別候補文字串生成單元203生成識別候補文字串存儲在緩沖存儲器209中。文字相似度計算單元204對于每一識別候補文字串生成組合了文字構造詞典211和文字間構造詞典212的文字串構造詞典并和輸入筆劃串核對。輸入文字串判定單元205把從開頭開始的文字串提取結果共同的文字串部分判定為識別確定文字串并顯示在顯示器213上。
文檔編號G06K9/22GK1351310SQ01135999
公開日2002年5月29日 申請日期2001年10月31日 優先權日2000年10月31日
發明者河村聰典, 登內洋次郎 申請人:株式會社東芝