專利名稱:一種服從用戶拆分的筆序形碼漢字信息處理系統的制作方法
技術領域:
本發明涉及漢字編碼、計算機及鍵盤,是一種采用數字編碼、單手操作計算機標準鍵盤的數字小鍵盤,規則簡單、性能完善,可服從用戶拆分的筆序形碼漢字信息處理系統。本明發的目的是在漢字編碼方案性能完善的條件下,解決不同文化程度的用戶對漢字拆分的二義性問題,使其能在全國范圍普遍使用,有利于電腦、電話及類似器件的開發應用,有利于電腦進入家庭等。
與現有技術相比,本發明的創造性、新穎性,就在于不僅編碼性能完善,還引入了服從用戶對漢字拆分二義性的嶄新概念,在漢字編碼領域中首先把“用戶服從發明人(方案)改寫為“發明入(方案)服從用戶”,在漢字編碼發展方向上這是一種根本性的轉變。
近十多年來,漢字編碼技術蓬勃發展,目前,漢字編碼方案已上千種,實際使用的也有幾十種,其編碼方案大致分為音碼、形碼、音形碼三大類;不管什么方案,其發明人都在做同一件事,就是“盡量使一個漢字對應一個編碼”,并且都認為“一個漢字對應一個編碼”是最科學的,這一點以形碼做得最好,這是因為漢字的音、形、意屬性,只有形及其書寫筆序在全國是統一的;而且每一個漢字的形都是有差異的,所以形碼(尤其是筆序形碼)能夠最容易找到一個“一個漢字對應一個編碼”做得最好的方案,且可在全國范圍使用。然而,從用戶的角度來看,不同的用戶使用時,總是有相當一部分漢字不是一個漢字對應一個編碼,而是一個漢字對應著兩個編碼或多個編碼,即是用戶在使用編碼方案時要產生二義性,尤其是形碼是如此。在漢字編碼方案中,要求規則簡單,然而常常在幾條簡單的編碼規則下,總是不能解決用戶對漢字拆分的二義性。因為用戶的文化程度不同、對漢字的理解和掌握不同,所以這種對漢字拆分的二義性是客觀存在的,而且是形碼推廣使用的最大障礙,甚至有關專家評論道“漢字輸入法的重要性是不言而喻的,但是至今為止還沒有哪種漢字輸入法可以徹底解決漢字輸入困難的問題”、“而其中最令人頭痛的問題恐帕就是漢字拆分的二義性問題”。
在漢字編碼方案中,盡量減少用戶產生二義性,是必需的。但是,過去的方案都不允許用戶產生二義性,換句話說就是用戶必須服從發明人;本發明認為從觀念上必須根本轉變,發明人必須服從用戶,因為任何編碼方案,最后必須通過用戶的使用才能產生效益,既然不同的用戶,特別是不同文化程度的用戶,在編碼規則的限定下,二義性是客觀存在的,所以發明入必須允許用戶產生二義性,就解決了用戶學習和使用的最大困難,尤其有利于形碼的普遍推廣。然而,由于漢字太復雜,如果允許用戶產生二義性,就大大增加了編碼難度,這種難度主要包括兩個方面第一是要求產生的二義性編碼,不會重碼(實際上只能作到重碼率很低),這就要求發明人首先分析方案中對于不同用戶的二義性,其次是對于眾多漢字對應著兩個或多個編碼的情況下,去尋找滿足這些漢字不重碼的必需的兩個或多個空位空間,這就大大增加了尋找空位空間的難度;第二是編碼方案的詞碼是根據字碼來編碼的,如果一個漢字出現了多個編碼,那么用戶用其中任何一個字碼,都能對詞碼進行編碼。從解決二義性的難度可以看出,解決的方法有兩個①增加編碼的空間;②優化編碼構件(字根)。增加編碼空間,可降低發明人的難度,對用戶來講就增加了擊鍵數,即增加了擊鍵難度,是不利的,例如,目前一般都用26個英文字母來編碼,用戶擊鍵已經感到困難,所以本發明采用了優化字根的辦法來解決漢字拆分的二義性,而且只用了13個鍵,顯然用戶擊13個鍵比擊26個鍵要容易得多,用13個鍵編碼可以采用數字鍵,更適合中國入使用。用13個鍵編碼,編碼用的空間比26個鍵小16倍,其編碼難度要遠遠超過16倍。(26鍵的編碼空間約為26×26×26×26=456976;13鍵的編碼空間約為13×13×13×13=28561;456976÷28561=16(倍))上述介紹了本發明的創造性、新穎性。下面就本發明的編碼規則、允許用戶產生二義性或多義性進行具體說明。
一.字根表第一部分(普通版字根)鍵(碼 *-.0 1 234 5 67 89基根 冫 亠 艸 一 忄 |丿 丶 ∠ 勹讠 廾 丷ㄋ ㄑㄣマ 冂 扌氵 冖 フ乀 纟 冖 宀乛乚 ク夂 灬匚ㄨユ彐 鍵(碼)* -.0 12345 6 7 8 9主根日 女 止 廠心 工火 了口木月人钅 土亻廣士予入十鍵(碼)** *. *3-* -- -. -3 -7 0* 00 041- 10 15 2* 2.次根小 大 申 辶 寸 臼 幺 殳 戈 車 雨 王 未廴還弋 戔 2225 3* 3- 39 4- 44 58 65 66 67 69 7* 8* 80 9.礻子 甲 兆 丁 囗 由 目 已 禾 厶 犭夕衤孑 豸 虍 癶(疒=02 丬=23習=72勻=92飛=92 米=27 走=5.)第二部分(專職版增加字根)鍵(碼)*- *3 *6 *8 -1 -4 .- .6 .7 0- 01 08 1* 11 12 13 19次根辟 古 比 肖 執 長 關 革 貝 天 為 尢不 甫 占 束2- 20 22 24 30 33 34 4. 41 45 46 5* 5- 57 58 59 6*右 歹 爾 井 回 也 手 且 舟 氏 自 失 午 丑 無 蟲刂 氶6- 68 7. 70 73 77 78 79 8- 8. 81 86 89 9- 90牛 匕 尸 皮 馬 音 耳 分 斤 魚 非 夫 隹 夾牜彳二.字碼規則(一).依筆序、字根、大根優先,首2旁2,取首4碼。依書寫筆序,照“字根碼表”,大根優先,按首2旁2,把漢字轉換為1-4個號碼。例①(筆序、字根)筆= 丿 二 =4442 字根“”碼為“44”44 4 2 8字根“丿”碼為“4”數字“二”碼為“2”例②(大根優先)產= 亠 丿 =-.4 (而不亠丷廠=-20)∵比丷的筆劃多,為大根。
-. 4^例③(首2旁2)(大于2碼的‘字’或‘構件’在字首或為旁,只取首2碼;第3碼取緊接著該‘字’或‘構件’的字根的碼)。
崇=出 二小=.32*(‘出’在首,只取首2碼;接著取‘示’的碼。).3.2 **叟= フ =-775 (‘ ’視為一個完整的構件在字首,-73 7 5只取2碼;接著取“又=フ=75”)飄= 丿 ㄟ 乂=2149212** 4 9 2 肇= 戶 攵 聿=57*5 (‘戶攵’視為一個構件在‘肇’之首,“戶”574 52 *5 視為旁,“57”兩個碼既是首2;又是旁2。)
灣= 氵 亦 弓=3-27(‘亦’在‘彎’之首,也只取2碼。首23 -2.79旁2的規則在對漢字的拆分中是通用的。)(二).點為5;角點為0;兩點為2;3點為3;4點為4。①點為5例太=大 、=*.5*. 5^②角點為0漢字(或部件)右角上的點,碼為0。
例犬=大 、=*.0 厭=廠 大 、=0*.0*. 0 0*. 0^^③兩點為2;3點為3;4點為4;例咚=口夊冫=632 羔=土灬=.546 3 2^. 5 4 ^例興= 一八=318- (數字在末碼時,不足4碼者用“-”補足到4碼。)3 1 8^(三).逢“口”、“已”取完(即該二字不依筆序)。
例 咽=口 口 大 =66*.
6 6 *. ^(注口=6,口=58,這對不熟習漢字的入是難以區分的,為此特規定“咽”字的第2個‘囗’為口=2,“因”字的‘囗’為口=58,即“囗”外面沒有任何筆劃的為口=58;一但‘口’外面有筆劃就為口=6)同理∵巳=69∴巴=693(取“已”還剩丨=3)(四).在一個漢字中,取完1個構件;緊接著又是1個全同的構件,該構件只取1碼。
例雙=又 又=757毳=毛 毛 毛=424475 75 428 428 428^^^(五).“辶”以上的構件取3碼。
例逼=一 口 田 辶 =166-16 60 --(六).“冖”以上(包括冖)只取2碼。
例亭=亠 囗 冖 丁=-639- 6 4 39
堂= 冖 口 土=*45(視‘尚’字在首,只取2碼。)^^^=*465(不視為‘尚’字在首)(七).數字作字根用時只取“數”1碼。
例干=二丨=23托=扌丿七=147-2 3^1 4 7^三.詞碼規則兩字詞每字取首2碼。
三字詞每字取首1碼。
四字詞前三字取首1碼,末字取首2碼。
五至六字詞每字取首1碼。
七字以上詞前五字取首1碼,再取末字首1碼。
四.允許二義性本發明是根據漢字的形和編碼規則進行編碼的,其中漢字的“形”是不變的,不產生二義性;而編碼規則在相當多的一部分漢字中要產生二義性。本發明的編碼規則實質上主要是一條,“依筆序、字根、大根優先、首2旁2、取首4碼”。用戶對漢字拆分時,規則中的字根、筆序、首2和旁2,都可能產生二義性,甚至產生多義性1. “字根”產生的二義性例①重=丿一日土=41*5 (視字根“車”≠“車”)4 1 * 5②重=丿車一=41-1(視字根“車”=“車”)4 1 - 12.“筆序”產生的二義性例如,對于“母”字,用戶的文化程度不同,可能寫的筆序就不同,產生多義性①母=∠ 一=8721(正確筆序拆分)8 7 2 1②母=∠ 一=8712(二義性筆序拆分)8 7 1 2③母=∠ 亠、=87-5(多義性筆序拆分)8 7 - 5類推,“姆”也要產生多義性①姆=女∠ =-872 (正確筆序拆分)- 8 7 2② 姆=女∠ 一=-871 (二義性筆序拆分)- 8 7 1③ 姆=女∠ 亠=-87- (多義性筆序拆分)- 8 7 -
同樣,“每”、“坶”等等……都要產生二義性。
3.“首2旁2”產生的二義性首2旁2取碼規則,對于某個漢字取碼時,可能有不同的結果。本發明“首2旁2”的解釋是大于2碼的‘字’或‘構件’在字首或為旁,只取首2碼,第3碼取緊接著該‘字’或‘構件’的字根的碼。其中‘構件’是指筆畫連結在一起,而又不是一個漢字的,例如, ‘ ’、‘ ’等。
(1).“首2”產生的二義性例如,“真”的首字為‘直’;但也有看不出‘直’在首的用戶,或者有的用戶根本就不認識‘直’字,“真”的取碼就有二義性①真=直 八=0.8- (正確首2拆分)0.4 8-
②真=十 且 八=0.48 (二義性首2拆分)0 .4 8-
又如,“怠”的首為‘臺’字,有的用戶認不出‘臺’字在首,或者認為“怠”由厶、口、心3個部件構成,“怠”的取碼就有二義性①怠=臺 心=8*1(正確首2取碼)8*6 1^^^②怠=厶 口 心=8*61 (二義性首2取碼)8*6 1再如,“輿”的首為‘ ’,有的用戶不把‘ ’當成一個構件,“輿”的首2取碼就有二義性①輿= 八=928-(正確首2取碼)921-7218-②輿=亻= 車=一八=921-(二義性首2取碼)9 2 1-7 2 1 8-
甚至,“溘”的首2取碼也有二義性,有用戶可認為‘法’字在首① 溘=氵 去 皿=358. (正確首2取碼)3 58* .331
② 溘=法 皿 =35.3(二義性首2取碼)358* .331(2).“旁2”產生的二義性例如,“假”的旁一般認為是‘亻’;‘ ’又是“ ”的旁;照意理解‘亻’是‘叚’的旁,對漢字不熟悉的用戶可認為‘ ’為旁,而且在手寫體時‘殳’與‘ ’容易分不清,這樣一來,對于不同的用戶,“假”的旁2取碼就產生了多義性①假=亻 =9737(正確旁2取碼)9 732 775②假=亻 叚 =9732 (二義性旁2取碼)9 732775③假=亻 殳=9730(多義性旁2取碼)9 732 00④假==9777 (多義性旁2取碼)9732 775⑤假= 殳=9700 (多義性旁2取碼)973200^^(“假”字至少有5個編碼,且都不會重碼。)又如,“做”的旁為‘亻’,‘古’又為‘文’的旁;有的用戶認‘估’是一個漢字作為旁,故此“做”的旁2取碼就產生了二義性
①做=亻 古 攵=9065 (正確旁2取碼)9 06 52
②做=估 攵=9052 (二義性旁2取碼)906 52
同理類推,測、傲、倒、例……等等,都有二義性。
由上述看出,有相當多的漢字都要產生二義性編碼,以首2旁2的二義性編碼最多。這些二義性編碼,本發明都允許用戶使用,而且重碼率很低;不管是二義性或多義性編碼,首2碼都是相同的,這就給用戶使用詞碼帶來了方便,因為詞碼都是取每個字的首1碼或首2碼,所以用戶不管使用哪一個字碼,對于詞的輸入都是一樣的。
漢字編碼有一個重要特征,必須各種性能都是最優的,這稱“性能完善”。只有性能完善的編碼,才能達到用戶易學、便用、快速的目的。本發明是在編碼性能完善的條件下,解決對漢字拆分的二義性的,故此本發明在性能完善方面更富一定的新穎性,現將本發明編碼性能完善簡述如下一.采用數字鍵編碼。
本發明輸入鍵是計算機標準鍵盤的右手數字小鍵盤,其鍵名為“*-.0123456789”共十三個鍵。中國人打數字鍵比打英文字母鍵要容易得多,打數字鍵可單手操作,無須專門的指法練習。有利于各種年齡的人普遍使用,有利于電腦進入家庭。由于漢字編碼太復雜,普遍都用26個鍵編碼,采用數字鍵編碼的方案成功的不多。本發明用13個鍵編碼,比用26個鍵編碼的空間約小16倍,在小16倍的空間內,還要解決漢字拆分的二義性,其困難遠不止16倍了,因為尋找二義性或多義性編碼的不重碼的空間位置,比尋找非二義性編碼(即1字1碼)的不重碼的空間位置要困難得多。
二.分普通版和專職版,且兩個版本兼容。
本發明分普通版和專職版,且兩個版本兼容,即兩個版本僅僅是記憶字根數量的多少不同,其編碼規則和編碼范圍等等都是相同的。專職版適合于專職操作員使用,普通版適合非專職操作員使用。學了普通版后,若要追求更快的速度,可輕松地改學專職版,只加記55個字根就行了。
三.記憶字根少。
本發明的記憶量主要是字根。普通版記憶98個字根;專職版記憶141個字根(相似字根只算一個,例如辶=廴只算一個根)。如果每一個字根都算,普通版為137個,專職版為192個字根。
四.規則簡單。
本發明的規則實質上主要是一條,“依筆序、字根,大根優先,首2旁2,取首4碼”,使取碼如流水一般,減輕了腦力勞動,克服了補末筆、補拼音、看字型、轉返取碼等缺點。
五.碼長短。
本發明碼長為4個數字,比4個英文字母的碼長要短一半。因此,擊鍵時手移動的路程,要短一半。
六.重碼率低。
一級漢字的重碼率,專職版與CN85104343相當(4%);普通版一級漢字的重碼率約為7%。
七.詞匯豐富。
詞碼近4萬條,占普通詞匯使用頻率的98%以上,免棄了記憶詞庫的困難。
八.能輸入字符。
GB2312-80中的682個字符均有編碼,尤其是標點符號的編碼是象形的,用戶使用起來十分方便。
九.有簡碼。
一些常用漢字,本來為4碼,可用前3碼輸入(即簡碼)。可用3碼輸入的一級漢字占50%以上。
十.對重碼字,有變為“不重碼”的輸入法。
本發明對于重碼字,有一條規則,可把重碼變成不重碼。這對于專職操作員很有好處,本來重碼字就不多,專職操作員稍加記憶,就相當于沒有重碼字了。
本發明的鍵盤為計算機標準鍵盤的右手數字小鍵盤,見說明書附圖
。
現將鍵操作說明如下(對照說明書附圖)(1).Num,Lock是輸入狀態和光標控制狀態的開關。在輸入狀態,Insert是輸入數字和漢字的開關;在光標控制狀態,Insert是插入和改寫的開關。
(2).輸入狀態下①“*-.0 1 2 3 4 5 6 7 8 9”是輸入鍵。
②“+”是字結束鍵。(重碼不能選,只能再敲結束鍵,這種方式叫“送”重碼,其優點是手不移動就可輸入重碼字。)③“→”、“Enter”都是詞結束鍵。(可送重碼詞)④“Delete”是西文編輯環境和中文編輯環境的開關。
⑤“End”是學習鍵。再按End則向后翻提示屏……;按Home則向前翻提示屏。這時用大鍵盤的數字鍵選擇提示屏的字,被選擇的字就顯示在屏幕上的光標位置;而該字的編碼就會顯示在提示屏上。
⑥“PageUP”為向左刪除已輸上屏幕的字符。
“PageDown”為刪除已敲的錯碼。
權利要求
1.一種服從用戶拆分的筆序形碼漢字信息處理系統,利用它對漢字進行編碼,并在鍵盤上敲擊這些碼,就可向計算機、電話及類似器件輸入處理漢字信息,其特征在于1).選擇基根65個、主根23個、次根104,共192個字根;2).將上述192個字根分別指令到鍵盤*-.0 1 2 3 4 5 6 7 8 9的數字鍵上,對應關系如下鍵隅) *一 .0 123 45 6789基根 氵 亠 艸 一 忄 丨 丿 丶 亅 ∠ 勹 讠 廾 丷 ㄋ <ㄣマ 冂 扌 氵 冖 フ纟 冖 宀 一凵ク 夂 灬 匚 ㄨ ュ 彐 鍵(碼)* 一.0123456789主根 日 女止 廠 心 工火 了 口 木 月 人钅 丆土亻廣 士 予 入十鍵(碼) ** *. *3.-* -- -.-3 -70* 00 041- 10 15 2* 2.次根 小 大 申 辶 寸 臼幺 殳 戈 車 兩 王 未廴 還弋 戔22 25 3* 3- 39 4-44 58 65 6667 69 7* 8* 80 9.衤 子 甲 兆 丁 口 由 目已 禾 厶 犭夕衤 孑 豸 癶(疒=02丬=23習=72勻=92飛=92 米=27 走=5.)鍵(碼) *- *3 *6 *88 -1 -4 .- .6 .7 0- 01 08 1* 11 12 13 19次根 辟 古 比 肖 執 長 關 革 貝 天 為 尢不 甫 占 束2- 20 22 24 30 33 34 4. 41 45 46 5* 5- 57 58 59 6*右 歹 爾 井 回 也 手 且 舟 氏 自 失 午 丑 無 蟲刂 氶6- 68 7. 70 73 77 78 79 8- 8. 81 86 89 9- 90牛匕 尸 皮 馬 音 耳 分 斤 魚 非 夫 隹 夾牜 彳3).利用上述鍵盤的相應鍵位依次輸入漢字信息的代碼;
2.根據權利要求1所述的一種服從用戶拆分的筆序形碼漢字信息處理系統,其特征在于漢字信息的取碼規則有字碼規則和詞碼規則;1).字碼規則①依筆序、字根、大根優先,首2旁2,取首4碼;②點為5,角點為0;兩點為2;3點為3;4點為4;③逢“口”、“已”取完(即該二字不依筆序);④在一個漢字中,取完一個構件;緊接著又是一個全同的構件,該構件只取1碼;⑤“辶”以上的構件取3碼;⑥“冖”以上(包括冖)只取2碼;⑦漢字字符中的數字,碼與該數字相同;2).詞碼規則兩字詞每字取首2碼;三字詞每字取首1碼;四字詞前三字取首1碼,末字取首2碼;五至六字詞每字取首1碼;七字以上詞前五字取首1碼,再取末字首1碼。
全文摘要
本發明《一種服從用戶拆分的筆序形碼漢字信息處理系統》,涉及漢字編碼、計算機及鍵盤,是一種允許用戶對漢字拆分產生二義性或多義性,服從用戶拆分編碼的漢字信息處理系統。它由優選的192個字根和對應的碼值;照筆序、字根、大根優先、首2旁2、取漢字首4碼的編碼規則;13個數字輸入碼及鍵盤有機組成。能對GB2312-80的全部漢字、字符進行編碼,在鍵盤上敲這些編碼,就能把漢字、字符和詞語傳輸到計算機、電話及類似器件。
文檔編號G06F3/023GK1151046SQ96117689
公開日1997年6月4日 申請日期1996年9月2日 優先權日1996年9月2日
發明者王勤 申請人:王勤