專利名稱:十口格漢字書寫模板的制作方法
技術領域:
本發明屬于中文信息處理技術領域。
本發明提出的中文人機交互書寫界面的格式化方法及其衍生出的手寫輸入法,可以應用于漢語的識字、習字,以及漢語字詞的手寫輸入和模糊查找等方面。
背景技術:
基于計算機的信息技術迅速發展使西方的“鍵盤文化”在中國大興其道,而以書寫為基礎的漢語識字和習字教育,因缺乏與信息化同步的現代教學工具,呈現出令人擔憂的狀況。
中文手寫輸入技術的進步,使得人們能夠擺脫對鍵盤的完全依賴,甚至在手持信息設備的文字輸入上,筆顯示出優于鍵盤的強勢。但是人們用筆書寫文字的傳統習慣并沒有因此得到回歸,而且漢字書寫的熱情和興趣呈現持續下降的趨勢。相對于鍵盤,用筆逐字書寫的確又慢又累。至今為止還沒有一種能夠與鍵盤輸入相媲美的輕松高效的中文手寫輸入方法,更沒有能夠喚起人們尤其是年輕人對漢字書寫文化的普遍興趣的漢語習用工具。
發明內容
本發明用十字型垂直交叉線和口字型方框相疊加,在人機交互書寫界面上形成一個可稱之為“十口格”的漢字書寫方格。十口格的作用是將漢字書寫區域劃分成可以覆蓋絕大多數漢字結構類型的漢字部件書寫位置和邊界。其特點在于在十口格上書寫漢字,不僅可以獲得筆跡坐標、而且能夠提取部件位置和漢字結構的信息。因此對于相當一部分漢字(尤其是筆畫繁多的漢字),只需要書寫漢字的任意兩個部件就可以將目標漢字與其他漢字區分開來,即使只書寫一個漢字部件,也可以有效縮小候選漢字的范圍。利用多個十口格可以進一步實現中文詞語的模糊輸入。
十口格的構造如附圖1所示。
漢字最常見的結構是上下結構、左右結構和內外結構。為此本發明用十字型垂直交叉線和口字型方框相疊加,將漢字書寫方格內的書寫區域從縱向、橫向和內外等三個維度上進行多種分割,主要包括●十字線將書寫區域從縱橫兩個方向劃分成二等分;●口字內框將書寫區域從縱橫兩個方向劃分成三等分;●十字線與口字外框將書寫區域從縱橫兩個方向劃分成四等分;●口字外框將書寫區域分成內外兩部分。
以上的四種分割,以及不同分割的組合,對漢字書寫界面進行格式化,從而形成十口格漢字書寫模板。格式化后的漢字書寫方格與絕大多數漢字字型結構形成了一一對應的關系。
具體如表1所示。
表1十口格與漢字結構的對應關系
(續表1)
在十口格上書寫漢字,不僅可以得到書寫筆跡信息,而且還能提取到漢字部件的位置信息和漢字結構信息,從而為機器識別提供了更豐富更完整的數據。本發明將這三方面的信息統稱為漢字的“字形三維信息”。
漢字部件手寫輸入法是本發明總體構思下的衍生方法,該方法包括(1)在十口格漢字書寫模板上書寫任意一個(并非第一個)或幾個(并非相鄰)漢字部件;(2)提取包括書寫筆跡、部件位置和漢字結構等在內的字形三維信息,提供給漢字識別系統進行識別;(3)漢字部件不僅是指在漢字中反復出現的固定筆畫組合塊,而且還包括漢字的首筆、末筆,以及中軸筆等特殊筆畫。
將漢字部件手寫輸入法用于中文詞語的手寫輸入,從而衍生出中文詞語模糊輸入法。該方法包括(1)將兩個或兩個以上的十口格排列起來,形成中文詞語手寫輸入界面;(2)按照漢字部件手寫輸入法(1)書寫詞語中的任意一個或幾個漢字;(3)可以任意選擇詞語中的部分漢字,省略不寫;(4)按照漢字部件手寫輸入法(2),對至少書寫了一個部件的漢字進行識別;(5)根據識別出的漢字在詞語中所處位置以及詞語的長度,推斷目標詞語。
本發明的作用主要包括以下幾個方面(1)十口格與絕大多數漢字在結構上有著一一對應的關系,用本發明進行識字教學,可以強化識字者對漢字結構和部件的記憶。
(2)十口格規范了漢字部件的書寫位置和邊界,用本發明進行習字練習,有助于習字者寫出布局合理美觀的方塊字。
(3)在漢字手寫輸入方面,本發明以漢字部件為最小書寫單位,無須整字書寫,每個漢字均可以自由選擇書寫任意一個或多個部件,從而降低了漢字手寫輸入系統對人的書寫要求,同時也降低了對漢字機器識別能力的要求。
(4)兩個以上十口格排列起來,可以構成中文詞語手寫輸入界面。在詞語輸入的場合,不僅可以省略一個漢字的某些部件,而且可以省略詞語中的部分漢字。從而進一步提高中文手寫輸入的效率,進一步降低對輸入者的漢字書寫要求。
(5)漢字部件手寫輸入法的本質之一是“模糊輸入”。漢字中不會寫的部件可以不寫,詞語中的記不住的漢字可以省略。諸如提筆忘字,難字只會寫半邊,詞到用時想不起來等困惑我們寫作的問題,一般的手寫輸入方法是無能為力的,基于本發明的漢字部件輸入法則可以應付自如。
(6)以本發明為基礎可以形成一種漢字和詞語的模糊查找服務,通過互聯網提供給廣大網民使用。以便人們隨時隨地查找那些記不清寫不全的漢字和詞語。以該服務為核心可以發展成為一種基于互聯網的漢語習用服務新模式。
(7)漢字部件手寫輸入法的本質之二是“自由省略”。由于省略的部分不同,省略的程度不同,從某種意義上說,識別漢字變成了猜字,識別詞語變成了猜詞。猜出來的字和詞可能是一個,也可能是多個。如果是多個字或詞,那一定是在結構和部件上有著某些共同特征的一組字或詞,對于中文輸入來說,可稱其為候選字詞,而對于漢語造字構詞的研究來說,本發明提供了一種新的分類方法和解析工具。
(8)漢字部件手寫輸入法是讓機器依據有限的筆跡、位置和結構信息,猜出輸入者所寫的漢字或詞語。這樣的過程讓人來做,便是猜字游戲。把人猜出的結果與機器猜出的結果加以對照,給出評分,從而加深已學字詞的記憶,同時學習新的字詞。這便是本發明獨特的游戲化漢語學習過程。
(9)自由省略的另一個好處是將漢字手寫輸入變成一個可以不斷追求更高效率的過程。省略什么,省略多少,完全由自己決定。經過不斷的嘗試和總結,一定能夠做到“寫的最少,輸入最多”。這類似于闖關游戲。本發明可以做成漢字手寫輸入競賽游戲,既可以自己和自己比,也可以多人競賽。把漢語學習寓于娛樂之中,提高人們尤其是年輕人學習漢語的樂趣。
圖1十口格的構造和各部分比例關系。
圖2單字書寫界面。其中主要部分是十口格漢字書寫模板。候選字詞列表框和工具條是附屬部分,具體作用參見本說明書中“具體實施方式
”一節中的說明。
圖3雙字詞書寫界面。
圖4三字以上詞匯書寫界面(也可以書寫單字和雙字詞)。
圖5只書寫漢字的偏旁,目標漢字出現在候選字中。
圖6只書寫漢字的兩個部件,候選漢字中只有目標漢字。
圖7只書寫雙字詞中第一個漢字的一個部件,目標詞出現在候選詞中。
圖8每個漢字各書寫一個部件,候選漢字中只有目標詞。
圖9只書寫短語中部分漢字各一個部件,候選漢字中只有目標短語。
具體實施例方式
本發明的一個具體實施例是用十口格漢字書寫模板組成的漢語字詞模糊輸入的人機界面軟件。該軟件是基于B/S模式的客戶端程序(以下簡稱實施程序)。
實施程序既可以運行在裝有Windows XP Tablet中文操作系統的平板電腦上,也能運行在其他Windows系列計算機上。二者的區別在于前者是以觸摸筆為書寫工具,后者是以鼠標為書寫工具。
以下結合附圖對本發明作進一步的說明。
實施程序主要由兩個文件組成,一個是HTML文件skg.html,另一個是JAVASCRIPT文件skg.js,在skg.html中需要用到。
在IE瀏覽器中打開skg.html,出現如圖2所示的界面。該界面由三部分組成,其中包括●十口格漢字書寫模板。用來書寫單個漢字;●候選字詞列表框。用來顯示候選漢字或詞組;●工具條。其中有5個按鈕,分別用來增減書寫格、擦除筆跡、上下翻頁。
點擊工具條上的加號按鈕,變成雙字詞書寫界面(如圖3所示),再次點擊加號按鈕,出現三字以上詞組書寫界面(如圖4所示)。減號按鈕的作用與加號按鈕相反。
單個漢字的模糊輸入是指無需書寫整個漢字,只要求書寫漢字的任意一個或幾個部件。實施程序將所書寫的漢字字形三維信息通過WEB服務器發送給后臺處理程序(后臺處理程序不在本發明范圍),該后臺處理程序的任務是將漢字字形三維信息轉換為漢字內碼。如果只書寫一個部件,大多數情況下不能直接定位到目標漢字,而是如圖5所示給出包含所書寫部件的一組候選漢字。如果書寫兩個部件,大多數情況下可以直接定位到目標漢字(圖6)。
雙字詞的模糊輸入無需書寫整個詞語,每個字按照單字模糊輸入的要求書寫,并且還可以完全省略其中某一個漢字(圖76)。如果每個漢字各書寫一個部件,往往可以直接定位到目標詞(圖8)。
三字以上詞組的模糊輸入不僅不需要書寫整個詞語,而且可以省略兩個以上漢字(至少要書寫任意一個漢字的任意一個部件),圖9給出的示例說明,雖然只有四個書寫格,但是可以輸入超過四個漢字的大詞組。顯然詞組越大,書寫越簡單,輸入效率也越高。
權利要求
1.一種漢字書寫界面的格式化方法,該方法包括(1)用十字型垂直交叉線和口字型方框相疊加,將漢字書寫方格內的書寫區域從縱向、橫向和內外等三個維度上進行多種分割,主要包括●十字線將書寫區域從縱橫兩個方向劃分成二等分;●口字內框將書寫區域從縱橫兩個方向劃分成三等分;●十字線與口字外框將書寫區域從縱橫兩個方向劃分成四等分;●口字外框將書寫區域分成內外兩部分。(2)通過以上四種分割,以及不同分割的組合,對漢字書寫界面進行格式化,從而形成十口格漢字書寫模板;(3)格式化后的漢字書寫方格與絕大多數漢字字型結構形成一一對應的關系。
2.漢字部件手寫輸入法,該輸入法包括(1)在十口格漢字書寫模板上書寫任意一個(并非第一個)或幾個(并非相鄰)漢字部件;(2)提取包括書寫筆跡、部件位置和漢字結構等在內的字形三維信息,并提供給漢字識別系統進行識別;(3)漢字部件不僅是指在漢字中反復出現的固定筆畫組合塊,而且還包括漢字的首筆、末筆,以及中軸筆等特殊筆畫。
3.中文詞語模糊輸入法,該方法包括(1)將兩個或兩個以上的十口格排列起來,形成中文詞語手寫輸入界面;(2)按照漢字部件手寫輸入法(1)書寫詞語中的任意一個或幾個漢字;(3)可以任意選擇詞語中的部分漢字,省略不寫;(4)按照漢字部件手寫輸入法(2),對至少書寫了一個部件的漢字進行識別;(5)根據識別出的漢字在詞語中所處位置以及詞語的長度,推斷目標詞語。
全文摘要
一種漢字書寫界面的格式化方法。本發明目的是為漢語的識字和習字教學,中文字詞的模糊輸入提供高效的人機交互方式。為此本發明用十字型垂直交叉線和口字型方框相疊加,在人機交互界面上形成一個可稱之為“十口格”的漢字書寫方格,作用是將漢字書寫區域劃分成可以覆蓋絕大多數漢字結構類型的漢字部件書寫位置和邊界。其特點在于在十口格上書寫漢字,不僅可以獲得筆跡坐標、而且能夠提取部件位置和漢字結構的信息。對于相當一部分漢字,只需要書寫漢字的任意兩個部件就可以將目標漢字與其他漢字區分開來,既使只書寫一個漢字部件,也能有效縮小候選漢字的范圍。用多個十口格可以進一步實現中文詞語的模糊輸入。
文檔編號G06F3/041GK101059734SQ20061007567
公開日2007年10月24日 申請日期2006年4月18日 優先權日2006年4月18日
發明者董為群, 高靜敏 申請人:高靜敏, 董為群