專利名稱:一種計算機漢字和漢字部件的輸入方法及其鍵盤的制作方法
技術領域:
本發明涉及一種漢字輸入方法,特別是指一種計算機漢字和漢字部件輸入方法及其鍵盤。
背景技術:
目前的計算機漢字輸入方法,主要分為形碼、音碼和結合音形信息的音形碼或形音碼。 音碼是一種以字音信息為基礎的漢字編碼,目前大陸流行的音碼是"拼音輸入法", 拼音輸入法的優點是容易學習、上手快,缺點是重碼率高,對于非常用的字詞和不懂發音 的漢字輸入較為困難。形碼是一種以字形信息為基礎的漢字編碼,多數以字根為編碼基礎, 如五筆字型、鄭碼等,它們的優點是重碼率比拼音碼大大降低,輸入速度較快,但缺點是 學習掌握的難度較大,需要記憶的東西太多, 一段時間不用就很容易忘記,而且多數的部 件拆分不符合字源字理,不利于漢字文化的傳承、教育和發展。另外也有一些結合音形或 者筆畫信息的漢字編碼,但基本上都一樣無法兼顧易學、高效、科學的矛盾。
我們大家知道,漢字最早是一些象形符號,隨著社會的不斷發展,這些符號按照一些 規則組合成更加復雜的形體,代表更加復雜的意義。這些規則就是我們常說的六書。古代 把那些象形符號稱為"文",而合成出來的符號稱為"字",就是所謂的"獨體為文,合體 為字"之說。六書包含了漢字的造字法和用字法象形、指事、會意、形聲、假借、轉注。 漢代的許慎著述的《說文解字》對漢字的字源、字構、意義,有著較科學全面的整理和記 述。漢字雖然經過了幾千年的演變,但是這些基本的構造原則一直沒有變化,也正是因為 漢字的這種巧妙的設計,使得它成為如今世上僅存的一種表意文字。現代漢字的獨體字, 就相當于古代的"文",是負載有一定文化含義的基本元素。而現代漢字的合體字,就相 當于古代的"字"。除了少量的指事、會意字外,約80%以上的合體字屬于形聲字。由于 經過漫長的演變,漢字產生了較大的形體改變,部分甚至出現了訛誤。從造字用字的角度 看,出現了大量用字分化、假借、弓l申、繁化、簡化、變異等形態,從而出現了大量的新 漢字和異體字,使得漢字這個家族的成員日趨龐大。但統計表明,在同一個時代里的實際
使用漢字數量并不是很多,大約在5千 1萬左右。特別是常用的漢字,非常集中。因為 漢字的使用不是均等的,不同漢字具有不同的使用頻度,它們符合一定的分布規律。
既然漢字本來就是通過一些基本字形元素,通過一些原則組合起來的,那么就一定可 以分解還原出這些基本元素來。并對這些元素進行序列化和編碼,從而得到漢字的完全信 息編碼。按照信息理論,不難證明這樣的方法是最佳的編碼方法。因為基本元素本身是信 息的高度聚合體,它不是隨機的筆畫組合,而是具有穩定形體的、負荷一定內涵的筆畫組
合o
發明內容
本發明的主要目的在于克服現有技術中計算機漢字輸入方法難學、不科學的缺點,提 供一種易學、高效、科學的計算機漢字、漢字部件輸入方法及其鍵盤。
在對本發明的技術方案進行詳細描述之前,對一些基本術語定義如下
構件由一組筆畫組成,是組成漢字或部件的字形元素(零件)。
子字是組成漢字的一組具有穩定形體和含義的筆畫組合。它是負荷有一定含義 的構件,是組建復雜漢字的元素。也可稱為"偏旁"、"字塊"、"合成部件"等。
部件即不能繼續拆分的子字,是具備一定含義的最小漢字構造單位,又稱為"字 根"、"基元"、"基礎部件"等。在本說明書中"部件"主要用來描述漢字的基本編碼元素, "字根"主要用來表述原始的拆分構件。
義件漢字結構中和漢字意義關聯的部件。合體字一般都有一個或一個以上的"義 件",不過經過長期演變,部分漢字"義件"的含義關聯己經不明顯或者完全丟失。
部首統領一組漢字意義歸屬的基礎部件,它代表一族漢字的意義特征或共性歸 納,也是一般字典歸部的依據。
部首層次拆分首先拆出漢字的部首,剩下相應的子字,再用同樣的方法拆出該 子字的部首,如此重復直到不可再拆為止,于是產生了一個部首序列。此過程即稱為部首 層次拆分。
義并是根據字根的字源、含義進行歸并,凡是屬于"同源"的字根,雖然形體 產生了較大的演變,但他們的含義是一致的,所以看作是"等價字根",歸并為一個部件,
比如"水?氺"、"火"、、"、"心十"、"艸卄"等,它們的篆書字形其實是完全一樣的,含 義也是完全一樣的。
形并將一些形體接近,容易造成書寫、識認錯誤的字根進行歸并,如"日曰口"、 "人入"、"*、卄"等,它們的本身雖然含義不同,形體也可以區分,但是他們在構字過 程中經常發生混淆、訛變。比如"最曾喝慢替"里面實際存在的是"曰"部件,但我們 很難和"日"區分。再比如"內全"里面的"入"如今已經訛變成了 "人"。為了不給大 眾造成太大的困擾,我們也將他們編碼歸并。但對于含義有別的成字部件一般都單獨設立 了自己的專用小類碼,以便區別。
部件認同原則有一些字根雖然形狀不同但字源相同,含義也相同,我們把它視 作等價部件;還有一些字根可能字源和含義未必相同,但字形幾乎一樣,那么我們也將之 視作等價部件;在我們的編碼系統里它們被視作相同的元素,這就是部件認同原則。
本發明是一種計算機漢字輸入方法,采用具有26個英文字母鍵的計算機鍵盤,其特 征在于包括如下步驟
(1)首先將漢字按照字源及構字機理拆分為字根序列,并把這些字根(約400多個) 按照部件認同原則整理歸納為300個左右的部件,作為漢字的基本編碼元素。
注這里之所以給出300個左右的部件這個約數,是考慮到由于受到漢字集大小的影 響,當我們分別考慮國標GB2312-80字集的6763個漢字和大字符集7萬多個漢字時,部 件的數量可能會略有增減,但相差極少。 一般一些極罕用的部件都已經根據形并或者義并 的原則加以歸并。可能的部件數目范圍為280 310。
然后,再將這些部件按照字源文化內涵或者形似特征的原則進行歸類,主要是采用義 并和形并的原則以及含義關聯程度進行歸納,形成下面所示的28個大類。對于組字時容 易混淆或者難以區分的形似部件按照形似依附處理,比如"日、曰"組字時一般難以區分, 所以讓"曰"依附于"日",并入"日"類,不必理會"曰"含義是否和"日"有關,在組 字時它們使用同樣代碼B。對于一些含義不明確的部件也采取形似認定或依據它在組字中 的多數字源傾向進行認定和歸并,盡量做到最合理的分類,并保持編碼的一致性。
每個大類均按照形狀或讀音的聯想對應到一個英文字母上,形成部件的大類碼,即是
部件的簡易碼
自然日月金木水火土 B D J M S W T; 生命蟲草人體心口手K C R E Q 0 F; 民生民言衣食住行財N I Y U A L G;
字形八叉橫豎撇點折V X H S P D Z;
其中,"月"、"點"均對應到D字母,"水"、"豎"均對應到"S"字母。
上述的28大類的編碼映射,主要是根據象形和諧音來設計,以便幫助學習和記憶。 部分還二者兼備,這使得學習起來非常容易,列舉如下-
象形日B月D金(刀J)木M水S火W 土t蟲(動物K)人R <M r)體(耳E) 心Q口O手F言(ii)衣Y食U住A行L財G;
諧音草C民(女N)金J木M水S 土T人R體(耳E)。
(2) 部件的編碼和輸入每個部件由1 2個字母組成編碼,少數還允許由3個字母 組成。第一個字母即該部件的大類碼。第二、三個字母稱為部件的小類碼(或稱小碼、子 碼)。小類碼是按照部件的音形信息對應到26個字母,即部件編碼=部件大類碼+部件小 類碼,部分部件僅有大類碼,而小類碼為空。
在實際運用時,部件的小類碼是可以任意省略的,這時部件編碼就是部件的簡易碼。 部件的編碼就是部件的計算機表示方式,是本發明的核心內容,通過部件編碼就可以把部 件輸入到計算機中,也可以由它拼裝出眾多的漢字或詞語,此外還可以結合拼音、筆畫等 其他信息得到更多的運用。
(3) 單字的編碼和輸入將漢字拆分成部件序列,并按照書寫順序或者部首層次拆
分順序排列,然后把部件替換為相應的部件編碼,形成漢字的編碼,將之輸入計算機,即
可得到相應漢字。
使用不省略小類碼的部件碼構成的漢字碼,稱為漢字的全息碼。 如果部分或全部部件省略了小類碼,那么構成的編碼稱為該字的簡易碼。
少數復雜的漢字還可以使用"子字組合法"來編碼,就是把漢字拆成2-4塊,看作一 個詞語,然后進行輸入。比如"警"也可以看作"敬言"或者"茍夂言"這個詞語,再運
用詞語編碼規則進行輸入,此法同樣適用于拼音輸入法(稱為子字拼音法)。
(注本發明所說的單字或漢字,為廣義的漢字字符,包括UnJcode有編碼的各種象 形或表意符號、偏旁部首、部件等。)
(4) 少數部件在單獨輸入或者屬于漢字最末尾部件時,允許設立有專用的小類碼。 所謂專用小碼,就是該小碼并不參與該部件的其他組字場合的編碼,也就是說僅僅當它處 于單獨狀態或者字的末部件狀態時才使用。
(5) 詞語的編碼和輸入順序輸入組成詞語的各個漢字的編碼(全息碼或簡易碼) 即可。其中每個漢字的編碼可以不必完整輸入,僅輸入其前面兩個或更多的字母即可;當 詞語為髙頻詞語或者總碼長達到4個字母以上時,每個漢字的編碼可以省略為一個或更多 的字母。 一般對普通的雙字詞可以要求每個字輸入2碼,以減少重碼的幾率。
(注本發明所說的詞語為廣義的詞語,包括詞組、短語等漢字串。)
前面所述的部件,具體的編碼映射安排如下,并附上簡單的設計理由和助記特征
日B日、顏色。B是日的象形符號。 日B(r)曰B(v) 冒B(m)白By黑Bw黃Bx。
月D月。D是月亮的象形符號。 月D(v)夕D(x)丹D(a)且Dh。
金J金屬、兵器。J是金的拼音符號,也是刀的象形符號。
刀J金Jr戈Jg斤Jn弓Jg戊Jp殳Jx矢Js弋Jy _介J干Jg 臨J矛Jm ~ 歸J %臧Ja。
木M木。M是木的拼音符號。 木M未Mv。
水S水。S是"水"的象形符號,也是"水"的拼音符號。 水S 7 S(b) 當S川S(c)。
火W火、天象、小字形。W是火的象形符號,也是"多筆對稱體"的表征符號。 小W(x)火W(u)云Wy _亦講不Wb雨Wv尚Wa風Wf氣Wq光Wr。土T土、 土山、石頭、懸崖、山谷。T是土的拼音符號。
土T [5 Te廠T(c)山Ta石Ti 士T(h)谷Tv阜Tf邑Ty。
蟲K動物。K是動物的象形符號。蟲是古代對動物的總稱。 牛Kn犬Kq隹Kz羊Ky蟲Kc馬Km魚Kv豕Ks鳥Ki巴Kb盧Kh亥Kr ^ K j 象Kx龍Kl兔Kt鹿Kl秀Kz鼠Ks烏Kw雖Ki龜Kg。
草C草、十、植物。C是草的拼音符號。
廿(T禍C—六Cv升Cg十C(s)生C豐C(f)屮C生Cp廿Ch井Cj冊C(x)丌C 卅C(s)。
人R人形。R是人的拼音符號,也是人的象形符號。 人R兒R(e) ARj個Rj入R(u) " R。
體E軀體、器官。E是"目eye、耳ear"的英文符號,是"耳、而"的拼音符號, 也是"耳"的象形符號。
目E尸Ei老El耳Ee見Er頁Ey自Ez欠Eq廣Eb而Eh舌Eo歹Ed皮Ep羽 Ev角Ej身Es面Ea毛Em骨Eg牙Ey髟Eb齒Ec飛Ef血Ex ft Eg囟Ex鼻Eb肉 Er卵El。
心Q心理、鬼神。Q是心的象形符號,也是情的拼音符號。 心Q卜Q(b) 〃 Q示Qs —乍Q非Qv _才Q鬼Qg丄Q。
口 0口。 O是口的象形符號。 PI 0。
手F手、手部動作。F是手的象形符號。 手F寸Fd力Fl工Fg _于F _舉F。
民N人類繁衍、人際。N是女的拼音符號。 大N(r)女Nv子Nz夫Nf母Nm氏Ns民Ni臣Nc毋Nw。
言I文化、i頭。I是"i "的象形符號。
言I工I方If六Iv ~享Io文Ix音lb高Io亡Iz冊Ic齊Ij直Iz曲Iq 熏 la龠Iv。衣Y衣飾。Y是衣的拼音符號,也是衣的象形符號。
糸Y(s)衣Yi巾Yj也Y鄉Y幺Y(a)縣Yc革Yg韋Yw麻Ym -故Yb鄉Yx。食U食物、食器、器具。U是食器的象形符號。
匕U(b)禾U(h)竹Uz米Um甘Ug U U食Us酉Uy _化Uh皿Um兩Ul臼Uj豆 Ud斗Ud辛Ux北Uv吿Uf瓦Uw耒Ul鬲Ul瓜Ug香Ub麥Um卣Ul鼎Ud韭U j鬯 Uc。
住A居住A是房子的象形符號。
A^門A 口 Ak門Am廣Ag TO As戶Ah穴Av面Ax爿Aq -罕Av片Ap西Ax四 As肉Ac鬥Am wAx。
行L腳部動作、出行。L是的象形符號。
i_L夂L止Lz立Li車Lc 4 L疋L(s)足Lu走Lt行Lx舟Lz之L LL—年L ^ L內La丼L —條L亍L(c)。
財G財寶。G是"厶"和玉佩的象形符號。 厶G(s)田G(a)王G(w)貝Gb由Gy玉Gd壬Gr。
八V二、八字形。V是"、/"的象形符號,也是"雙筆對稱體"的表征符號。 八V(b) 二V(e)。
叉X叉形、手、爪。X是"叉形"的象形符號。 又X 乂 X大X夂Xq 3 Xj爪Xz聿Xv支Xc _丈X釆Xm %臼Xx。
橫H橫筆、橫起筆部件。H是橫的拼音符號。 一H可Ho尤Hy匚Hk 丁 Hd七Hz五Hu甫Hp無H j辰Hc。
豎S豎筆。S是豎的拼音符號。
I S。
撇P撇筆、撇起筆部件。P是撇的拼音符號。
J P勺Pk幾P用Pv千Pq及Px九Pj丸Pd凡Pd 樂Pz 卬Pz。
點D點捺筆。D是點的拼音符號。
、Dc
折Z折筆、折起筆部件。Z是折的拼音符號和象形符號。
"Z L Z厶Z "] Zk卩Zj艮Zg 7 zj己Zj巳Z(s)乙Zy 已Z 發Z Lj Zs丑Zt。 注
1. 以上帶括號的小類碼代表專用小碼,僅僅限于該部件單獨運用或屬于漢字的末部件 時使用,不參與其他組字情況的編碼。
2. 由于一些部件無法輸入電腦,本文采取了變通表示法,用前綴下劃線"—"、波浪號 " "、百分號等符號來分別表示截取該字的前部件、后部件、或字架結構。" "則
表示取其前一個部件,如"~歸"表示去掉右邊"日"后的字形,"~已"表示去掉后面的 "L"以后的形狀;"_"表示取后面字的后一個部件,如"一介"表示去掉"人"后的形 狀,"_六"表示去掉"、"后的形狀;"%"表示字架部件,如"%臧"表示去掉臣后的框 架,"%臼"臼分開為兩邊的框架。
所有用這樣方法表示的部件如下-
%臧%臼;
一丈—舉—乍_于—亦 一介—六—化—年—才—條;
~發~臨~樂 享 冒~北~卬 己 歸 當~留 前~稟 敝~罕。
3. 一般一個大類里安排有一個或幾個代表性部件,稱為主根,通常設為單字母編碼, 而其余的字根則稱為副根。同一個大類的部件(字根)亦稱為同族字根。
小類碼的編碼是根據拼音或特征小部件來編碼,這些設計原則可以幫助初學者學習和 記憶
a)對于形體上可以進一步分解的部件,我們一般取末尾構件的類別作為小類碼,如 "見"可以細分為"目兒"所以小類碼為"R"(兒);但盡量避開同類的構件,如行走類 的"走"可細分為土 + —足,但不取"一足"而取"土",因為"_足"也屬于"行走" 類。
說明這里所謂的可以細分,只是形體上的拆分,而不是"部件拆分",因為我們編 碼的對象已經是"部件","部件"的定義我們給出了它是最小的不可以拆分的部件了,所
以為了避免混亂,這里細分的元素暫且稱之為"構件"。某種意義上,有些部件確實也算 是可以拆分的,理應屬于合成部件,但由于這些"合成部件"多數是長期穩定使用的傳統 部首,它們已經形成了自己的獨立意義,所以我們依然把它看作不可拆分的部件。
比如鼻=自畀(從自畀聲),殳=幾又(從又持幾),支=口又(從又持 卜),都可以進一步拆開解釋,但它們整體的含義已經相對地獨立了。
此外有些形體雖然可拆,但拆開的構件已經發生了訛變。
比如"香"小篆應該拆解為黍甘,但楷書訛變為禾日,而且"香"本身已經有 了特定的含義了,所以我們把它作為基礎部件。
這就好比詞語是可以獨立運用的最小語法單位。 一些詞語必須看作一個整體,不能 拆開為單字道理一樣,比如"馬上"不能理解為"馬的上面","馬上"從"詞語"層次來
說是不能拆分的,但從"字"級別看自然可以分解為"馬"和"上"。同理,部件"見" 從部件層次說,是最小不可分的元素。但從構件一級看,可以再分解為"目兒"。
但本發明的編碼方法的最小編碼元素是"部件",雖然對于小類碼的編碼借助了一些 更細致的"構件分解",但僅限于"小類碼"編碼設計這個環節的討論。
b)對于字形較為復雜,或者獨體的不易分解的基礎部件,我們多數使用聲母首字母 來作為小碼,少數使用韻母首字母。比如動物類的"馬ma"用m,"虎hu"用h。 一般 遇到"yu"或其開頭的音,我們用"v"作為小碼,比如"魚Kv"、"聿Xv"、"羽Ev"、"月 Dv"等,這些都是很容易學習的。少部分用的是韻母首字母,比如"尸shi"小類碼i、 "石shi"小類碼i、"山shan"小類碼a。
為了保持編碼的一致性,類似動物類這樣元素較多的類別基本上都統一用拼音來做小 碼。 一般同類型的部件小碼設計方法盡量保持一致,比如""見=目兒"、"光=火兒"都是 符合字源的拆法,它們的小碼都是"兒r"。
當然也有少數小類碼需要稍多點的記憶。比如"面"用的是用"口"的類碼A做小 類碼,"金"用的是"人"的類碼R做小類碼。"且"細分為"月一",大類碼歸"月D", 小類碼取"一h"。
每個大類的代表部件或者頻度很高的部件設計為單碼部件(沒有小類碼)。
前述一種計算機漢字、漢字部件輸入方法,在進行中英文模式切換時,采用計算機鍵 盤上的Caps Lock鍵。
前述一種計算機漢字、漢字部件輸入方法,在計算機鍵盤上設有異體鍵,用于顯 示目前候選字的異體字、形近字、關聯字、訛誤字等密切有關的字,具體鍵位可自定義。
前述一種計算機漢字、漢字部件輸入方法,在計算機鍵盤上設有罕字鍵,用于顯 示罕用字的候選,具體鍵位可自定義。
前述一種計算機漢字、漢字部件輸入方法,在計算機鍵盤上設有簡繁鍵,用于簡 繁字的轉換,具體鍵位可自定義。按下該功能鍵時,如果已經處在輸入過程中,當前候選 立即產生轉換。
前述一種計算機漢字、漢字部件輸入方法,在計算機鍵盤上設有詞語鍵,用于對 第一個候選的"詞語"進行自動上屏,具體鍵位可自定義,缺省為;。
前述一種計算機漢字、漢字部件輸入方法,在計算機鍵盤上設有單字鍵,用于過 濾掉詞語候選,只剩下單字候選,具體鍵位可以自定義,缺省為'或-,'除了 是拼音的音節分隔符外,在部件碼中也可以作為詞語中各個單字的分隔符,當它位于編碼 末尾時,則具有單字過濾功能,將把前面的編碼或從上一個分隔符起的編碼,僅看作單字 編碼,不會進行智能切割。
前述一種計算機漢字、漢字部件輸入方法,在計算機鍵盤上設有精確鍵,按下時, 則只匹配全部部件都已經輸入的字詞,其余一律屏蔽,具體鍵位可自定義。
前述一種計算機漢字、漢字部件輸入方法,在計算機鍵盤上設有切詞鍵將自動把 候選中的詞語全部拆散為單字,供選取,具體鍵位可以自定義。
前述一種計算機漢字、漢字部件輸入方法,在計算機鍵盤上設有幫助鍵,激活幫 助索引,導引初學者了解常用功能,或者進入幫助文檔,具體鍵位可以自定義,缺省為?
鍵。
前述一種計算機漢字、漢字部件輸入方法,在計算機鍵盤上設有通配鍵,允許用 來替代某個不會輸入的編碼,具體鍵位可以自定義,缺省為?,模糊通配符為*。 由于經過精心設計,我們有了一份完美、科學的"部件"表。這些部件確保了我們對
漢字的拆分是容易的、直觀的、和自然的,同時拆分結果也是符合漢字字源字理,能夠很 好地傳承漢字的文化內涵。
由于漢字結構的復雜性,在實際的部件拆分中也有少數需要注意的規范和特殊規則。 基本規則
(1) 盡量按照書寫筆順拆分,盡量讓部件數量最少,常見部件優先于罕見部件。 例如章拆為音十,不拆為立日十。
例如"辛、殳、羽、音、香、鼻、欠"均為基本部件,不再拆開。
(2) 在滿足(1)的前提下,能拆分離的就不拆相接的;能拆相接的就不拆交叉的。 例如"主"拆為、王分離,不拆為工土相接。
例如"半"拆為分離,不拆為D十交叉。 例如"朱"拆為j未相接,不拆為〃木交叉。
(3) 在滿足(1)、 (2)前提下,盡量避免單筆畫部件。 例如"午"拆為〃十,不拆為J干。
特例規則
(4) 字架結構有些部件由于與其他部件重疊或交錯的緣故,導致書寫時并非一次 性寫完,稱為"字架"部件。其部件間的順序以其首筆次序為準。
字架部件主要有"□、匚、戈(弋戊臧)、衣、木、禾、大、工、戈",例如 "衷"=衣+中
"束"=木+口
"哉"=十+戈+口。 "秉"=禾+3
"乘"=禾+北
(5) 共享結構兩個部件由于組字時某個筆畫發生"串接"(連筆)或者"重疊"(疊 筆),導致了該筆畫變成"共享筆畫"。對此情景應該把該共享筆畫復制一份看待。以下是 一些判定原則和舉例
(5.1)若不共享會讓部件數增多,而共享了部件數會減少,那么就共享。
連筆舉例
"我"=j凈戈,橫筆連在一起了,應剪斷處理。
"制"=牛巾u,豎筆連在一起了,應剪斷處理。 "里"=田土
"重"=千田土
"垂"=千卄士
"養戠戢"等,同理處理。
"果"=田木,豎筆連在一起了,應剪斷處理。(未穿透的筆畫,有用則留)
疊筆舉例
"彖"=互豕
(5.2) 能簡單拆開的則盡量不使用共享法則。例如 "哉"=十+戈+口,不拆為土+口+戈。
"卸"="一止,因為"午"不是字根。
(5.3) 穿插筆畫如非必要,則不共享。
若居后的某部件的一個筆畫,貫穿了前面的部件時,而且抽離該筆對其不產生壞作用 (比如令部件數增多或使拆分復雜化),則抽離。
"棄"=一 曰—足","—足"的豎筆上伸入"一3",均為穿透,而且抽離后也不
影響那兩個部件。所以抽離處理。以下同理。 "事"=一口中
"史"=口乂
"串"=口口 I
"曳"=日< J
"兼"=n曰 一亦
"隸"=曰氺
"妻"=一中女
"禹"=J 口內
(5.4)如果該筆為非穿透狀態,并對前面部件的構成有作用,則剪斷處理。例如 "果"=田木。木的豎筆并未穿透上個部件,所以上個部件保留該筆,視作"田"。 "制"=牛巾U。"巾"的豎筆延伸到上面部件,構成了 "牛"部件,抽離則不成 部件,故共享。
(6)以下幾個漢字的下部的六"一八字形,從字源來看一般是"升"或"丌" 的變體,是"用雙手捧著"或"基腳"的意思。拆分時需把它拆開如下 共=* —六
其=甘_六
具=目_六,"真"字類推。 興=7 _六
兵=斤—六
典=冊—六
輿=n車—六,"興與舉"類推。
本發明還可以派生出一種漢字部件鍵盤,把部件或者大類標識直接印在英文字母鍵盤 的相應的鍵帽上,形成漢字部件鍵盤。
和現有技術相比,本發明的計算機漢字、漢字部件輸入方法具有如下特征及優點
(1) 基于漢字的字源和構字原理進行拆分,以傳統的部首為基礎,符合語文規范,
很好地實現漢字文化的傳承;
(2) 包含漢字形體結構的全部信息,是一種全息編碼。不僅能見字識碼,而且能見 碼識字,這是現有的所有編碼做不到的;
(3) 所有的部件幾乎都有唯一的編碼(1-2字母),所以幾乎不丟失漢字的信息;
(4) 將部件科學地歸納為28個大類,初學者只需要記住這28大類就可以開始打字, 幾乎沒有學習難度;
(5) 編碼擷取了全部的漢字部件信息,不做類似"前三末一"的殘缺選擇,不做碼 長的限制,漢字的編碼是由它的全部部件的編碼羅列而成,而部件本身編碼幾乎是唯一的,
所以漢字信息幾乎不丟失;
(6) 母字和子字的編碼機理一致,漢字子字的編碼, 一定包含在母字編碼之中,而 且彼此編碼原理完全一樣,比如"菇"包含了子字"姑",那么"菇"的編碼CNC0, 一 定包含"姑"的編碼NC0;同理"姑"包含了子字"古",那么"姑"的編碼NCO, —定
包含"古"的編碼C0;
(7) 詞語和單字編碼機理一致,"詞語是由一組漢字組成",和"漢字是由一組部件
組成",可以類比看待,也就是說,詞語編碼和漢字編碼原理是統一的,所以不需要另外
學習詞語規則比如"日月"這個詞的編碼是BD,"明"這個字的編碼也是BD,因為他們 的部件序列是一致的,你可以把"樹"字假想成"木又寸"這個"詞語",進行編碼。所 以,本編碼方法是一種真正的全息編碼。
和現有技術相比,本發明的計算機漢字、漢字部件輸入方法還具有如下優點
1,部件拆分符合字源字理,漢字的拆分是根據漢字造字的原理進行的,300個左右 的部件幾乎都是傳統漢字部首;
2,按照部件的文化內涵進行分類,把部件歸納為28個大類,符合漢字造字的科學性;
3, 幾乎不受新舊字形和簡繁字形的干擾,換句話說, 一般同一個字,我們怎么輸入, 港臺人士也可以怎么輸入,不需要分為兩套編碼,比如"鮮、鮮"是KvKy,"說、説、說" 都是IV0V;
4, 幾乎不受筆順爭議的影響,這是許多基于筆畫信息的編碼無法做到的;
5, 可以適應已經收入到Unicode中的全部7萬多個漢字的輸入,并且可以無限擴展;
6, 沒有碼長限制,沒有人為的部件取舍,有多少部件就取多少部件,確保漢字信息 不損耗。
總之,本發明的一種計算機漢字、漢字部件輸入方法易學、高效、科學,對于繼承中 華民族幾千年的漢字文化具有重大意義,值得大力推廣使用。
圖1為本發明的漢字部件鍵盤的部分結構示意圖。
具體實施例方式
本發明的計算機漢字、漢字部件輸入方法,首先將組成漢字的所有字根按照義并和形 并的原則歸納為300個左右的部件(見前面的列表),
再將這些部件按照含義接近、互相關聯、形體類似的原則歸類,形成28個大類(見 前面的列表)。
并給每個部件定義了 l-2個字母的編碼(見前面列表)。
在將部件編碼完成后,將漢字或詞語拆分成部件,進行編碼,按照編碼順序由計算機 鍵盤上的26個英文字母鍵輸入計算機。
當我們打開本輸入法,并處于"部件輸入模式"時,我們敲入一個漢字的的全息編碼 或者簡易碼,就可以輸入相應的漢字。全息編碼和任意省略小類碼的簡易碼,均可以無切 換地輸入,它們統稱為"部件碼"。
在實際輸入時,只需要輸入編碼的前面部分,軟件就會把部分匹配字詞顯示出來,供 選擇。如果需要的漢字已經處于首選位置,那么直接敲入空格就可以上屏。如果處在其他 序號位置,那么需要敲入相應的序號進行輸入。如果第一頁沒有看到,也可以用翻頁鍵進 行翻頁,直到看到需要的漢字,再輸入相應的序號。 一般地,對于初學者,只需要輸入一 個漢字的前面兩三個部件的簡易碼就可以了,常用漢字一定會出現在首選或者首頁,罕用 漢字則需要進行翻頁。對于詞語, 一般也是輸入4個字母左右就可以得到該詞語。對于熟 練的盲打者,最好輸入較完整的編碼,也就是對于單、雙部件的漢字盡量輸入全息碼,多 部件漢字則多數可以輸入為3至4碼的簡易碼,少數較罕用的漢字有可能需要輸入5碼或 更多碼。
由于全息碼的精心設計,實際上只要熟練掌握一些常用漢字的輸入,基本上就解決了 全部漢字的輸入。因為,本方案的全息特征確保了任何一個"子字"的編碼和母字保持相 包容的關系。
比如
你會輸入"姑NCO"就一定會輸入"菇CNCO",因為只要前面增加"*C",其后面則 完全照打。你會輸入"寺TFd",就會輸入"等UTF"、"特KTF"、"持FTF"、"待LTF"、"詩 ITF"等等。你會輸入"青CD",就會輸入"情QCD"、"請ICD"、"清SCD"、"精UCD"、"靜
CDR"等等。哪怕是從來不認識的字,如"錆JCD"、"戠CDW",也是一瞬間輸入,因為都 包含"青CD"這個"子字的編碼"。熟練后,幾乎就會變成下意識的習慣動作。不像其他 的編碼,需要類似"前三末一"這樣的取碼規則,那樣將造成以上特征不一定成立。這就 是"全息"的好處。 實施例一漢字全息編碼輸入
按照漢字的書寫順序得到的部件序列,稱為漢字的全息部件序列。把部件替換成相應 的字母編碼后,得到的字母序列,我們稱之為漢字的全息字母編碼,簡稱為漢字全息部件 碼(或全息碼),在不會和后述的"簡易碼"產生混淆時也可以直接簡稱為部件碼。部件 序列不限制長度,必須包括全部的漢字部件,同樣轉譯成字母也是。所以稱之為全息碼。
全息碼示例
漢=?又=S X;
字=A子=A Nz;編=纟戶冊=Y Ah Ic;碼=石馬=Ti Km;示=示=Qs;例=4歹iJ=R Ed J。
我們使用大寫字母表示大類碼,小寫字母表示小類碼,這樣容易區分,并確保編碼連 寫的時候可以區隔部件邊界,但是在本編碼用于本發明的計算機漢字輸入時,則可以不區 分大小寫。
實施例二漢字簡易碼輸入
編碼方案給出了全息碼的簡易編碼形式。簡易碼也就是全息部件編碼省略了全部或 部分小類碼的編碼。
簡易碼設計的目的是
(1) 給初學者很低的門檻,只需要懂28個大類就可以打字。
(2) 縮短復雜漢字的碼長, 一般3個部件以上的漢字,鼓勵使用簡易碼輸入。
由于經過精心的互斥設計,同一大類的部件互斥度很高,小類碼負荷的信息量不高, 省略它造成的信息損失不多,僅僅在雙部件漢字中重碼較為明顯。如果一個漢字由三個部 件或以上組成時,實際上簡易碼已經很少會重碼。所以即便是"熟練的盲打者",只要遇 到三個部件或更多部件的漢字,大可以直接輸入簡易碼。
但對于單部件或者雙部件漢字來說,簡易碼重碼會比較多,所以除了常用字以外,可 能需要進行重碼選擇。不過重碼還是比拼音少得非常多,而且對于多數常用字來說由于髙 頻先見的排列,基本上屬于首選,直接空格就可以。
對于初學者來說,簡易碼大大降低了學習的難度,幾乎介紹完28個大類,及各自包 含的部件后,就可以上機打字了。而且對于復雜構造的漢字,簡易碼避免的冗長的全息編 碼輸入,大大提高輸入效率。
對于全部省略小類碼的部件碼,我們稱為"純簡易碼",簡稱簡易碼,或簡碼。對于 省略部分小類碼的部件碼,我們也泛稱之為"簡易碼"或"簡略碼"。如果拿目前流行的 "全拼、簡拼、混拼"來類比,那么這里的"全息部件碼、純簡易碼、簡略碼"就可以稱 為"全形、簡形、混形"了。
一般情況下,對二部件漢字,建議至少對其中一個部件增加小類碼,做成3個字母的 編碼,這樣就幾乎沒有了重碼。
簡易碼示例
部=立口|5=全息Li 0 Te=簡易LiOT=純簡易L 0 T;輸=車A月ij=全息Lc Rj D J=簡易LRjDJ=純簡易L R D J。 實施例三詞語簡易碼輸入
詞語也有相應的"簡易編碼",除了擷取單字的簡易編碼組成的詞語簡易碼外,我們
還允許對每個單字的編碼進行省略(允許縮短到前2個字母或更多),由此構成詞語的簡 易編碼。而且,對于常用詞語,只要總碼長達到4個字母或者詞語屬于高頻詞語時,那么 也允許每個漢字碼縮短為第一個字母。如果一個漢字本身的全息碼就比允許省略的長度還 短,那么就用全碼即可。 比如
計算機=i十竹目升木幾=全息I~C Uz-M-P=簡易ICUECMP=簡
略ICUEMP=最簡略IUMP=最簡略ICUM。
人家=人a豕=全息碼R AKs=簡易碼RAK。
我們=j孑戈4門=全息PFJg RAm=簡易PFJRA=簡易PFRA。
中國人民=全息0S AkGd R Ni=省略小碼OS AG R N=部分省略字尾OS Ak
R N=最簡略0ARN。
(碼長夠4個字符,所以每個漢字可以簡省到l個字符就夠了)
實施例四部首碼
對于漢字的編碼, 一般按照書寫順序排列拆分出來的部件,遇到某個部件不是一次性 書寫時,只要考慮第一筆即可,即第一筆寫了就等同該部件寫了。這是最自然和常用的編 碼方式。
此外,漢字的編碼還可以設計成以"部首層次拆分"順序來排列部件,通常應用于字 典正文的編排。這樣的話,總是各層次的部首優先在前面,優點是(1)相同部首的漢字 會排列在一起,有利于字典按義部編排。(2)—般部首是比較醒目的部件,也是漢字的"義 件",有利于迅速抓住漢字特征。當然,部首優先也有其弊端,因為有許多漢字部首位置 并不容易確定,在實際應用時可根據需要選擇。 以下是部首全息碼的例子
運=1_云=LWy
動=力云=FlWy;
例=< I』歹=RJEd。 實施例五部件的編碼和輸入方法-
部件是構成漢字和詞語的基本元素,根據本發明設計的部件編碼,很容易對各種部件進行 編碼表示和計算機輸入,如
"口"=0,"木,,=M,""=S、"羊"=Ky,"馬"=Km,"卑"=Yi
實施例六 一種漢字部件鍵盤
參照圖l,為本發明的一種漢字部件鍵盤的部分結構示意圖,把大類標識直接印在英
文字母鍵盤的相應的鍵帽上,形成漢字部件鍵盤,鍵盤的其他部分結構同普通的PC鍵盤
相同。
上述僅為本發明的幾個具體實施例,但本發明的設計構思并不局限于此,凡利用此構 思對本發明進行非實質性的改動,均應屬于侵犯本發明保護范圍的行為。 附錄 一些字根變體清單
一些字根由于屬于同源、同形、簡繁體、新舊字形等關系而被看作等價部件或變體部 件,在本說明書中它們視作同一個編碼元素,一般使用其代表性的主形字根來表達,如"水" 就可以代表"?氺"等。以下是一些常見的變體
門( 周)、囪囪、戶戶戸 所、門門、4爿、^兩、黑黒、黃黃、
廿艸卄(++)、豐舉、月冃、丹円、面靣、齒齒、歹步、飛飛、骨fl、老少、
身D 、見見、頁頁、手凈、工-、無先、匚匸、尤尤、言i 、冊冊、齊齊斉、 高髙、聿中*—爭、刀IJ勿U 州、戈~堯、金韋、龜龜亀、虎產、鳥鳥( 島)、 黽黽、互~錄、龍龍、馬馬、牛年&、犬3 、兔兎、魚魚、烏烏、羊^圭、疋正、
夂夂夕、;L定、內(—禺)、車車、足足、止(—足)、木本、毋毋、卜 占、
心十小、、示灃、々夕、水?氺_豕—眾~益、川(〈U〈—巟、7 、、、 I J 、廠廠、
兩0両兩、鹵鹵鹵卣、麥麥、食個食、酉菲、竹"、八v、—亦 業(業_亞 一亜—虛)、
小、"、火,、、、、尚a、風風、乂、又^、 3(~隸)、夂支、爪^、糸纟糸、縣長長、
衣卑、韋韋、~已(-)、 h勺、< 〈口厶、~即艮、卩卩卩。
權利要求
1、一種計算機漢字輸入方法,采用具有26個英文字母鍵的計算機鍵盤,其特征在于包括如下步驟(1)首先將全部漢字按照字源及構字機理拆分為字根序列,并把這些字根按照部件認同原則歸納為280~310個部件,即編碼元素,再將這些部件按照字源文化內涵或者形似特征的關聯性原則進行歸類,形成如下所示的28個大類日月金木水火土;蟲草人體心口手;民言衣食住行財;八叉橫豎撇點折;每個大類按照形狀或讀音的聯想對應到一個英文字母上,形成部件的大類碼;(2)每個部件由1~2個字母組成編碼,個別的允許為3個字母,第一個字母為該部件的大類碼,第二、三個字母稱為部件的小類碼,即部件編碼=部件大類碼+部件小類碼,部分高頻部件僅有大類碼,而小類碼為空;小類碼是按照部件的音形信息對應到26個英文字母;部件編碼在實際應用時其小類碼允許任意省略;(3)單字的編碼和輸入將漢字拆分成部件序列,并按照書寫順序或者部首層次拆分順序排列,然后把部件替換為相應的部件編碼,形成漢字的編碼,將之輸入計算機,即可得到相應漢字;在輸入計算機時可采用由完整的部件編碼構成的漢字編碼來輸入,即全息碼輸入;也可采用部分或全部部件省略了小類碼的漢字編碼輸入,即簡易碼輸入。
2、 如權利要求1所述的一種計算機漢字輸入方法,其特征在于(1) 少數部件在單獨編碼或者屬于漢字最末尾部件時,允許設立其專用的小類碼;(2) 詞語的編碼和輸入順序輸入組成詞語的各個漢字的編碼(全息碼或簡易碼) 即可,其中每個漢字的編碼可以省略為前面兩個或更多的字母;當詞語為髙頻詞語或者總 碼長達到4個字母以上時,每個漢字的編碼可以省略為一個或更多的字母。
3、 一種計算機漢字部件輸入方法,采用具有26個英文字母鍵的計算機鍵盤,其特征 在于 (1) 首先將全部漢字按照字源及構字機理拆分為字根序列,并把這些字根按照部件 認同原則歸納為280 310個部件,即編碼元素,再將這些部件按照字源文化內涵或者形 似特征的關聯性原則進行歸類,形成如下所示的28個大類日月金木水火土; 蟲草人體心口手;民言衣食住行財; 八叉橫豎撇點折;每個大類按照形狀或讀音的聯想對應到一個英文字母上,形成部件的大類碼;(2) 每個部件由1 2個字母組成編碼,個別的允許為3個字母,第一個字母為部件 的大類碼,第二、三個字母為部件的小類碼,即部件編碼=部件大類碼+部件小類碼,部 分高頻部件僅有大類碼,而小類碼為空;小類碼是按照部件的音形信息對應到26個英文 字母;(3) 部件本身的輸入以及它在包含部件的各種編碼應用時,均可按照上述編碼方法 輸入計算機,在輸入過程中小類碼允許任意省略。
4、 如權利要求3所述的一種計算機漢字部件輸入方法,其特征在于部分典型的大 類編碼設置如下金J木M水S火W土T蟲K草C人R心Q 口O手F言I衣Y。
5、 如權利要求3所述的一種計算機漢字部件輸入方法,其特征在于所述28個部件 大類與26個英文字母的映射關系如下日月金木水火土 B D J M S W T; 蟲草人體心口手K C R E Q 0 F; 民言衣食住行財N I Y U A L G; 八叉橫豎撇點折V X H S P D Z。
6、 如權利要求3所述的一種計算機漢字部件輸入方法,其特征在于所述部件的小 類碼的編碼按照以下原則制定(1)對于形體上可以進一步分解的部件,取其末尾構件的大類碼作為小類碼,當末 尾構件的大類碼與部件的大類碼相同時,則取除末尾構件外的其他構件的大類碼作為小類 碼;(2) 對于獨體的或者字形較為復雜不易分解的部件,使用聲母首字母或韻母首字母 作為小類碼;(3) 每個大類的代表部件或者頻度很髙的部件設計為單碼部件(沒有小類碼);(4) 盡量保持同類編碼的一致性;少數部件為了避免小類碼沖突時,可采取特殊指 定的小類碼。
7、如權利要求3所述的一種計算機漢字部件輸入方法,其特征在于部分典型的部 件編碼設置如下曰日B(r);月月D(V);金刀J金Jr;木木M未Mv;水水S;火小W(X)—亦W;土土T山Ta石Ti;蟲犬Kq羊Ky蟲Kc馬Km魚Kv產Kh象Kx兔Kt;草卄C 承C豐C(f)屮C廿Ch井Cj;人人R入R(u);體目E自Ez舌Eo歹Ed皮Ep羽Ev角Ej;心心Q示Qs鬼Qg;□no;手手F;民女Nv子Nz夫Nf母Nm氏Ns;言言I工I六IV 享l0文IX;衣糸Y(s)衣Yi巾Yj縣Yc韋Yw; 食禾U(h)竹Uz UU食Us酉Uy擊Uf;住A^門A穴Av面Ax西Ax;行i_L車Lc《L i_L;財王G(w)貝Gb;八八V(b);叉乂X大X;橫一H可Ho尤Hy;豎I S;撇〗P幾P;點、D;折"z Lz Z_Z。
8、如權利要求3所述的一種計算機漢字部件輸入方法,其特征在于所述部件的編 碼安排如下日日B(r)曰B(v) 冒B(m)白By黑Bw黃Bx;月月D(v)夕D(x)丹D(a)且Dh;金刀J金Jr戈Jg斤Jn弓Jg戊Jp殳Jx矢Js弋Jy _介J干Jg 臨J矛 Jm ~歸J %臧Ja;木木M未Mv;水水S 7 S(b) &'S川S(C);火小W(x)火W(u)云Wy 一亦W不Wb雨Wv尚Wa風Wf氣Wq光Wr;土土T |5 Te廠T(c)山Ta石Ti 士T(h)谷Tv阜Tf邑Ty;蟲牛Kn犬Kq隹Kz羊Ky蟲Kc馬Km魚Kv豕Ks鳥Ki巴Kb產Kh亥Kr互 Kj象Kx龍Kl兔Kt鹿Kl豸Kz鼠Ks烏Kw黽Ki龜Kg;草廿C tSH六Cv升Cg十C(s)主C豐C(f)屮C生Cp廿Ch井Cj冊C(x) 丌C卅C(s);人人R兒R(e) ARj^Rj入R(u)々R;體目E尸Ei老El耳Ee見Er頁Ey自Ez欠Eq廣Eb而Eh舌Eo歹Ed皮 Ep羽Ev角Ej身Es面Ea毛Em骨Eg牙Ey髟Eb齒Ec飛Ef血Ex ft Eg囟Ex鼻 Eb肉Er;心心Q卜Q(b) 〃Q示Qs _乍(3非Qv 一才Q鬼Qg丄Q;□no;手手F寸Fd力Fl工Fg _于F _舉F;民大N(r)女Nv子Nz夫Nf母Nm氏Ns民Ni臣Nc毋Nw;言言I工I方If六Iv 享Io文Ix音lb高Io亡Iz冊Ic齊Ij直Iz曲 Iq -豕la龠Iv;衣糸Y(s)衣Yi巾Yj也Y鄉Y幺Y(a)縣Yc革Yg韋Yw麻Ym -故Yb鄉Yx;食匕U(b)禾U(h)竹Uz米Um甘Ug U U食Us酉Uy —化Uh皿Um兩Ul臼 Uj豆Ud斗Ud辛Ux北Uv缶Uf瓦Uw耒Ul鬲Ul瓜Ug香Ub麥Um卣Ul鼎Ud韭 Uj鬯Uc;住A^門A 口 Ak門Am廣Ag TO As戶Ah穴Av面Ax爿Aq ~罕Av片Ap西 Ax四As閨Ac鬥Am岡Ax;行LL夂L止Lz立Li車Lc ^ L疋L(s)足Lu走Lt行Lx舟Lz之L J_ L _年L ^ L內La丼L _條L亍L(c);財厶G(s)田G(a)王G(w)貝Gb由Gy玉Gd壬Gr;八八V(b) 二V(e);叉又X 乂 X大X夂Xq 3 Xj爪Xz聿Xv支Xc _丈X釆Xm %臼Xx;橫一H可Ho尤Hy匚Hk 丁Hd七Hz五Hu甫Hp先H j辰Hc;豎I S;撇j P勺Pk幾P用Pv千Pq及Px九Pj丸Pd凡Pd 樂Pz 卬Pz;點、D;折"Z L Z厶Z "1 Zk P Zj艮Zg 7 Zj己Zj巳z(s)乙Zy 已Z 發Z 4 Zs丑Zt;(括號中的小類碼表示專用小類碼)。
9、 一種漢字編碼鍵盤,其特征在于根據權利要求1或3所述的漢字部件分類和編 碼方案,把代表性部件或者大類名稱直接印在英文字母鍵盤的相應的鍵位上,形成漢字編 碼鍵盤。
全文摘要
本發明描述了一種漢字和漢字部件的計算機輸入方法,將組成漢字的部件,按照字源含義和形似特征劃分成28個大類,對應到計算機鍵盤上的26個英文字母,形成部件的大類碼。此外,多數部件還根據其音形信息配置了一個實際使用時可以省略的小類碼,使得每個部件被表達為1~2個字母的編碼。而后將漢字按照書寫順序或者部首拆分順序拆分成部件序列,并代之以部件編碼,從而實現漢字和詞語的編碼表達及其計算機輸入。本輸入法易學難忘、合理高效,值得推廣。其編碼方案符合漢字的構造機理,有利于漢字文化的繼承,還可適用于字典編纂、文字教學、漢字排序和檢索等領域。
文檔編號G06F3/023GK101393482SQ20081017472
公開日2009年3月25日 申請日期2008年10月24日 優先權日2008年7月18日
發明者謝振斌 申請人:謝振斌