專利名稱:一種數字碼輸入法的制作方法
技術領域:
本發明涉及一種漢字輸入的方法,特別是一種將一個漢字分拆成多個基本的、可以共用的末級部件(中文字母)并通過數字鍵進行輸入的方法。
背景技術:
隨著信息技術的不斷發展,中文處理,即如何在計算機中輸入、保存、顯示和打印漢字,變得越來越重要。要進行中文處理,首先必須將漢字數字化存儲在計算機中。然而,漢字的產生不像英文、法文、德文和拉丁文等西方文字,是用有限而固定,數量也不多的字母組合而成的。中文最大的特色是每一個漢字都是通過六書,即象形、指示、會意、形聲、轉注和假借等六種方法演變而來的,其中絕大多數漢字包含多個部件,有的部件表示漢字的讀音,有的部件表示漢字的意思,有些部件是從左至右組合的,有的部件是從上至下組合的,有的部件是由外而內組合的。目前世界上尚無一種編碼的方法能夠直接表達漢字的所有特性。現在常用的漢字編碼方法,即我們常說的內碼,都是采用一字一碼的方法來表示的。例如,國家標準的GB2312和GB18030,臺灣、香港和澳門常用的BIG5,國際標準的UNICODE等各種編碼方式都是取一定數量的漢字,或者根據漢字的讀音,或者根據漢字的筆畫多少,或者根據漢字的偏旁部首進行排序,再按照所排的順序對每個漢字賦一個數字(碼位)作為編碼。在一些編碼方案中還會留出一部份區域作為造字區,用戶可以造出自己需要的字放在造字區。但是除非兩個用戶使用同一個字庫,否則一個用戶所造的字在另一個用戶的計算機里是無法正確處理的。
由于內碼和漢字之間是采用一字一碼方式建立的一一對應關系,漢字的音、形、意與內碼之間沒有任何關系,為了方便漢字輸入,人們發明了很多種不同的漢字輸入法。這些漢字輸入法基本上可以分為三類整字輸入法,部件輸入法和筆畫輸入法。
整字輸入法以拼音輸入法為代表,包括國內常用的全拼、雙拼、智能拼音和臺灣常用的注音等許多種輸入法。它的主要特點就是不對漢字進行拆分,而是直接輸入整個漢字。以拼音輸入法為例,由于漢字的發音主要是由聲母、韻母和音調三部分組成,拼音輸入法通過在鍵盤按鍵與漢字聲母和韻母之間建立對應關系來輸入聲母和韻母,再通過聲母、韻母與內碼的對應關系來查找相應的漢字。有些拼音輸入法還可以輸入音調來減少重碼率。整字輸入法的一個重要問題是重碼率的問題。由于沒有利用漢字的形和意,而漢字有很多字的讀音是相同的,整字輸入之后常常需要從很多漢字選出需要的一個,這對于輸入的速度和準確率會產生很大的影響。同時,由于我國幅員遼闊,方言眾多,各地對很多漢字的發音都有所不同,有口音的人士很難用拼音輸入法進行準確的輸入。
部件輸入法主要是將漢字拆解成部件進行輸入,有代表性的部件輸入法包括國內常用的五筆、鄭碼和臺灣的倉頡等多種輸入法。部件輸入法首先建立一個部件到鍵盤上的按鍵的對應關系,在內部則根據部件的順序對漢字內碼建立一個索引。用戶每按一次鍵,即輸入了與按鍵相對應一個或多個部件,系統則根據用戶所輸入的部件在索引中進行搜索,直到找到用戶所輸入的字。部件輸入法的一個問題是很難找到一個部件與按鍵的自然對應關系。由于部件數量相當多,而鍵盤上的按鍵只有大約40個(字母+數字+符號),一個按鍵必須對應多個部件,這造成對應關系難以記憶,目前的部件輸入法通常很難學習。同時漢字的拆分也是一大難點。根據漢字左右、上下和外內的自然分隔的拆分原則和“部首不可拆分、交重結構不可拆分、獨體不可拆分”的文字學原則,漢字的部件數大約在500到1000之間,如國家語委公布的《信息處理用GB13000.1字符集漢字部件規范》中收錄了560個部件。完全依照此規范進行拆解將使部件過多,鍵盤上每個按鍵平均要對應14個部件,從而造成部件和鍵盤之間的映射過于復雜,增加記憶的困難。目前多數部件輸入法將部首、交重結構和獨體進行了不同程度的拆解來將部件的數量減少到200個左右,以簡化部件和鍵盤的映射方案。然而,這造成了拆分規則的不標準,學習拆分規則的難度增加。
隨著手機的日益普及,由于上述兩類輸入法的輸入元素很多,很難在手機的小鍵盤實現中文輸入,筆畫輸入法開始受到越來越多人的重視。筆畫輸入法主要是根據漢字“點、橫、豎、撇、捺、折、鉤”等基本筆畫,歸納出幾種(多數輸入法采用五種或六種)筆畫,并將筆畫與數字相對應,按數字鍵輸入相應的筆畫。系統則在內部根據漢字筆畫的順序建立索引,用戶每輸入一個筆畫,系統排除掉一部份的字,直到用戶找到想要輸入的字為止。筆畫輸入法的主要問題是輸入的筆畫順序問題。由于部分漢字沒有確定的筆畫順序,同時部分人寫字的筆畫順序也不標準,筆畫輸入必須建立一定的模糊辨認技術,這大大增加了筆畫輸入法的復雜度。另外,筆畫輸入法的另一個問題是輸入比較慢,由于很多漢字的筆畫很多,用筆畫輸入法輸入全部筆畫會造成輸入碼過長,目前一些輸入法采用輸入部分筆畫的方法,如選擇漢字四個角的筆畫進行輸入,又會造成重碼過多,而且選擇輸入筆畫的規則也難以記憶。
另外,現有的輸入法都是建立在一字一碼的內碼基礎上的,這些輸入法都是對漢字庫里的漢字建立一個輸入法的索引,再根據用戶所輸入的編碼(外碼)通過索引找到對應的內碼,再通過內碼在漢字庫里找出相應的字。這樣做一方面導致輸入的內部處理過于復雜,漢字輸入系統占用的系統資源太大,另一方面要輸入字庫里沒有的字(包括用戶自己造的字和字庫中沒有收錄的字)必須對整個輸入碼表進行修改。由于從古至今所用的漢字數量非常大,可以達到數以十萬計,而隨著時代的變化和科技的發展,新的漢字也不斷涌現,用一字一碼和現有的輸入方法限制了漢字的造字能力,大大限制了中文在計算機、手機和PDA等信息設備中的表達能力。
發明內容
針對上述問題,本發明提供一種將漢字拆解成多個末級部件,并利用數字筆畫輸入末級部件,再由多個末級部件組成漢字的方法,以克服上述幾類漢字輸入方法的不足。
本發明提供一種包含選擇步驟和輸入步驟的數字碼輸入的方法。選擇步驟為首先按照組成漢字的部件優選出560個末級部件作為基本的編碼碼元。具體部件可詳見基于國家語委1997年12月頒布的《信息處理用GB13000.1字符集漢字部件規范》歸納出來的“漢字規范部件表(見附件1取自www.clyrics.com/stonec/hanzi/gb13000.htm)。每個部件的輸入碼是以其前四個筆畫的筆畫碼來表示的,不足四個筆畫的以0補齊。
本發明所述的數字碼輸入法的輸入步驟為首先判斷要輸入的漢字是否包含四個或更多的部件,如果組成該漢字的部件數大于等于四,則直接用數字按鍵輸入四個部件的輸入碼即可;如果組成該漢字的部件數小于等于三,則首先用數字按鍵輸入該漢字全部部件的輸入碼,如果部件數小于三還要用0作為輸入碼將部件個數補齊到三個部件,然后用數字按鍵輸入表示漢字前三個部件的位置關系的第四個輸入碼來減少重碼(見附圖1)。
本發明所述的數字碼輸入法中表示漢字的四個部件可以取組成漢字的前面四個部件,也可以取前三個部件和最后一個部件。
本發明的優點在于,只要會寫的漢字,都可以用所述的數字碼輸入法進行輸入,不需要學習部件拆分法即可掌握;在所述數字碼輸入法中的重碼很少,而且所輸入的筆畫最多只有16個,漢字的輸入速度高于現有筆畫輸入法;所述數字碼輸入法只需要用0到6共7個數字鍵,適合在手機、PDA和遙控器上實現漢字輸入;通過所輸入的四個部件,直接與字形對應,省去了在一字一碼的內碼系統中需要進行編碼對照的工作,提高了漢字處理的性能;另外,字庫中沒有的和用戶新造的字也可以直接通過數字碼輸入法進行輸入,大大提高了用戶造字的能力,擴展了中文在計算機中表達信息的能力。
圖1是本發明所述的數字碼輸入法的流程圖;圖2是本發明所述的數字碼輸入法所對應的計算機小鍵盤的筆畫鍵位圖。
圖3是本發明所述的數字碼輸入法所對應的手機鍵盤的筆畫鍵位圖。
具體實施例方式
通過下面結合附圖對本發明的數字碼漢字輸入方法的實施例進行詳細描述,可以更好地理解本發明的其他目的、特性和優點。
參見圖1描述數字碼輸入的方法。在數字碼輸入法中,組成漢字的部件是用其構成筆畫的輸入碼方式來輸入的,如可以用1代表一(橫),2代表/(撇),3代表|(豎),4代表、(點)和\(捺),5代表 (左彎鉤),6代表乚(右彎鉤),每個部件輸入其前四個筆畫的筆畫碼,不足四個筆畫的用0補齊。每個漢字則是用輸入四個部件的輸入碼方式來輸入的。步驟S1首先判斷漢字所包含的末級部件的數量是否大于等于四。如果漢字包含四個或更多的部件,則在步驟S2中直接輸入相應部件的輸入碼即可。如果漢字包含的部件數小于等于三,則在步驟S3中首先輸入漢字所包含的所有部件的輸入碼,如果漢字包含的部件數小于三還要用0補齊輸入碼,使部件個數到三個部件。然后在步驟S4中輸入表示前面輸入的部件的位置關系的第四個輸入碼。
第四個輸入碼的構成方式為第一位為0,表示后續筆畫碼指示了前面部件的位置關系,第二位表示第一個部件和第二個部件的關系,第三位表示第一個部件和第三個部件的關系,第四位表示第二個部件和第三個部件的關系。
第四個輸入碼中的部件位置關系與數字的對應關系可設定為左右關系用1表示,上下關系用2表示,外內關系用3表示,如果漢字中不包含兩個部件中的一個,則這兩個部件的關系為0。
參見圖2描述在計算機小鍵盤上的筆畫鍵位圖。本發明所述的數字碼輸入法可設定為只用0-6共7個數字按鍵輸入實現,1代表—(橫),2代表/(撇),3代表|(豎),4代表、(點)和\(捺),5代表 (左彎鉤),6代表 (右彎鉤),0則表示該漢字不包含相應的筆畫或部件,在計算機小鍵盤上占用最下面三排數字鍵。
參見圖3描述在手機鍵盤上的筆畫鍵位圖。與在計算機小鍵盤上相同,本發明所述的數字碼輸入法只用到0-6共7個數字按鍵,1代表一(橫),2代表/(撇),3代表|(豎),4代表、(點)和\(捺),5代表 (左彎鉤),6代表乚(右彎鉤),0則表示該漢字不包含相應的筆畫或部件,在手機鍵盤上占用上面兩排數字鍵1-6和最下一排中間的0鍵。
下面以利用計算機進行數字碼輸入的具體實例來詳細說明本發明。
王只包含一個部件“王”王的書寫順序為“橫橫豎橫”,根據筆畫的對應關系,王的筆畫碼是1131,其中前四個筆畫為1131,因此部件“王”的輸入碼為1131。
由于王字只包含一個部件,所有的部件關系都是0,所以(數字鍵盤順序)輸入1131 0 0 0000,屏幕上就會出現一個王字。
杜包含兩個部件“木”和“土”木的書寫順序為“橫豎撇捺”,根據筆畫的對應關系,木的筆畫碼是1324,其中前四個筆畫為1324,因此部件“木”的輸入碼是1324。
土的書寫順序為“橫豎橫”,根據筆畫的對應關系,土的筆畫碼是131,其中前四個筆畫為1310,因此部件“土”的輸入碼為1310。
杜字部件的排列順序為左右排列,兩個部件之間的關系為1,因此輸入1324 1310 0 0100,屏幕上就會出現一個杜字。
類包含兩個部件“米”和“大”米的書寫順序為“點點橫豎撇捺”,根據筆畫的對應關系,米的筆畫碼是441324,其中前四個筆畫為4413,因此部件“米”的輸入碼是4413。
大的書寫順序為“橫撇捺”,根據筆畫的對應關系,大的筆畫碼是124,其中前四個筆畫為1240,因此部件“大”的輸入碼為1240。
類字部件的排列順序為上下排列,兩個部件之間的關系為2,因此輸入4413 1240 0 0200,屏幕上就會出現一個類字。
回包含兩個部件“口”和“口”口的書寫順序為“豎左彎橫”,根據筆畫的對應關系,口的筆畫碼是351,其中前四個筆畫為3510,因此部件“口”的輸入碼是3510。
回字部件的排列順序為外內排列,兩個部件之間的關系為3,因此輸入3510 3510 0 0300,屏幕上就會出現一個回字。
樹包含三個部件“木”、“又”和“寸”木的書寫順序為“橫豎撇捺”,根據筆畫的對應關系,木的筆畫碼是1324,其中前四個筆畫為1324,因此部件“木”的輸入碼是1324。
又的書寫順序為“左彎捺”,根據筆畫的對應關系,又的筆畫碼是54,其中前四個筆畫為5400,因此部件“又”的輸入碼是5400。
寸的書寫順序為“橫左彎點”,根據筆畫的對應關系,寸的筆畫碼是154,其中前四個筆畫為1540,因此部件“寸”的輸入碼是1540。
樹字部件的排列順序為左中右排列,“木”和“又”之間的關系為1(左右),“木”和“寸”之間的關系為1(左右),“又”和“寸”之間的關系也為1(左右),因此輸入1324 5400 1540 0111,屏幕上就會出現一個樹字。
盟包含三個部件“日”、“月”和“皿”日的書寫順序為“豎左彎橫橫”,根據筆畫的對應關系,日的筆畫碼是3511,其中前四個筆畫為3511,因此部件“日”的輸入碼是3511。
月的書寫順序為“撇左彎橫橫”,根據筆畫的對應關系,月的筆畫碼是2511,其中前四個筆畫為2511,因此部件“月”的輸入碼是2511。
皿的書寫順序為“豎左彎豎豎橫”,根據筆畫的對應關系,皿的筆畫碼是35331,其中前四個筆畫為3533,因此部件“皿”的輸入碼是3533。
由于盟字是左右下排列的,根據本發明所述的輸入方法,“日”和“月”之間的關系是1(左右),“日”和“皿”、“月”和“皿”的關系都是2(上下),因此輸入3511 2511 3533 0122,屏幕上就會出現一個盟字。
圓包含三個部件“口”、“口”和“貝”口的書寫順序為“豎左彎橫”,根據筆畫的對應關系,口的筆畫碼是351,其中前四個筆畫為3510,因此部件“口”的輸入碼是3510。
貝的書寫順序為“豎左彎撇點”,根據筆畫的對應關系,貝的筆畫碼是3524,其中前四個筆畫為3524,因此部件“貝”的輸入碼是3524。
由于圓字是外上下排列的,根據本發明所述的輸入方法,第一個“口”和第二個“口”、第一個“口”和“貝”之間的關系都是3(外內),第二個“口”和“貝”之間的關系是2(上下),因此輸入35103510 3524 0332,屏幕上就會出現一個圓字。
叄包含五個部件“厶”、“厶”、“厶”,“人”和“三”厶的書寫順序為“右彎點”,根據筆畫的對應關系,厶的筆畫碼是64,其中前四個筆畫為6400,因此部件“厶”的輸入碼是6400。
三的書寫順序為“橫橫橫”,根據筆畫的對應關系,三的筆畫碼是111,其中前四個筆畫為1110,因此部件“三”的輸入碼是1110。
叄的部件超過四個,取前三后一部件厶厶厶三,因此,輸入64006400 6400 1110,屏幕上就會出現一個叄字。
明和冐所包含的部件都是“日”和“月”兩個,用筆畫輸入法輸入時的輸入碼都是35112511(假定用本發明中同樣的筆畫與數字的映射法),用現有的部件輸入法和筆畫輸入法均無法進行區分,采用本發明所述的數字碼輸入法,明的部件是左右排列(1)而冐是上下排列(2),因此明的輸入碼為3511 2511 0 0100而冐的輸入碼為35112511 0 0200,利用漢字字形信息順利消除了重碼。
(吉吉)在多數漢字系統中都沒有這個字,用戶造字以后除非采用內碼輸入,否則沒有辦法用現有輸入法直接進行輸入。采用本發明所述的數字碼輸入法,(吉吉)包含四個部件,兩個“士”和兩個“口”,“士”的輸入碼為1310,“口”的輸入碼為2510,因此輸入1310 25101310 2510,(吉吉)即可直接顯示在屏幕上。
以上所述僅為本發明的部分應用實例,而不應該被視為對本發明的局限。根據本發明所公開的概念,本領域的技術人員可以很容易地設計出其他類似的實施方案。本發明的權利要求書應被視為包含那些不背離本發明宗旨的類似設計。
權利要求
1.一種數字碼輸入法,其特征在于該方法包括如下步驟選擇步驟從構成漢字的部件中優選560個末級部件作為本輸入法的基本編碼碼元,而每個部件的輸入碼是采用其前四個筆畫的筆畫碼來構成的,不足四個筆畫的以0補齊四個筆畫的筆畫碼;輸入步驟1)判斷要輸入的漢字包含的部件數是否大于等于四;2)如果部件數大于等于四,直接按照順序輸入四個部件的輸入碼;3)如果部件數小于等于三,i)首先按照順序輸入所有部件的輸入碼;ii)用0補齊部件輸入碼使部件個數達到三個;iii)輸入描述前面輸入的部件的位置關系的第四個輸入碼。
2.根據權利要求1所述的數字碼輸入法,其特征在于所述數字碼輸入法中的四個部件可以選擇漢字的前四個部件,也可以選擇前三個部件和最后一個部件。
3.根據權利要求1所述的數字碼輸入法,其特征在于所述數字碼輸入法中的筆畫與數字的對應關系為1代表一(橫),2代表/(撇),3代表丨(豎),4代表、(點)和\(捺),5代表 (左彎鉤),6代表乚(右彎鉤)。
4.根據權利要求1所述的數字碼輸入法,其特征在于所述數字碼輸入法中的表示部件位置關系的第四個輸入碼的構成方式為第一位為0;第二位描述第一個部件和第二個部件的關系;第三位描述第一個部件和第三個部件的關系;第四位描述第二個部件和第三個部件的關系。
5.根據權利要求4所述的數字碼輸入法,其特征在于所述表示部件位置關系的第四個輸入碼中的部件位置關系與數字的對應關系為左右關系用1表示,上下關系用2表示,外內關系用3表示,如果漢字中不包含兩個部件中的一個,則這兩個部件的關系為0。
全文摘要
本發明系一種依照字型的末級部件組合方式,按書寫筆劃順序,先上下、后左右、由外而內之優先級,以筆畫碼轉換為部件,再由部件直接產生字形,不需經過內碼轉換的中文輸入法。
文檔編號G06F3/023GK1536470SQ0310927
公開日2004年10月13日 申請日期2003年4月8日 優先權日2003年4月8日
發明者陳昌江, 陳阿民, 葉健欣, 劉銳, 孫勇 申請人:孫勇, 孫 勇