專利名稱:數形碼漢字鍵盤輸入技術的制作方法
表9
…COOT.
③常用字的重碼對數必須降到高速輸入能夠承受的范圍。也就是說,在按漢字的字根取碼后加附加信息時,重碼對數要與五筆字型相當,即少于70對;在不加字根信息以外的附加信息的情況下,重碼對數應少于150對。為了易學而放棄對低重碼的追求,其結果充其量只能造就一個“易學一陣子,慢了一輩子”的漢字輸入法,而推廣這種輸入法的結果也只能是誤人子弟。十多年來所謂“普及型編碼”無法與五筆字型競爭的實踐結果,證明了重碼不是很低(更不用說重碼很高)的“普及型編碼”是沒有辦法普及的,因為它們不能滿足用戶的生產要求、考核要求、求職要求。
④編碼一定要易學易記,即使多時不用也不會忘卻。編碼搞得太復雜,所謂重碼少、盲打,對非專業用戶來說,不過是一個望梅止渴的目標,因為許多字編錯、不會編,經常要使用模糊查詢或切換到拼音碼才能把字打出來。
⑤經過定量的重碼統計,能夠得出這樣一個重要的結論如果一個鍵對應過多的字根,反而會造成大量的重碼。這一結論,確認了研制低重碼的易學型編碼的可能性。
目前,社會上仍存在一大批對使用拼音存在心理障礙的人,為了解決這部分人輸入漢字難的問題,研制易學高速且不用聲母表示字根的形碼仍有其相當的必要性。為此,數形碼設計了如下的字根鍵位圖。
這個字根鍵位圖可以簡單地用順口溜“1直2蓋3點水,4撇5橫67折,8人開草9口十,金(斤)幾木聲手寸Y”來描述,不但極易記憶,而且字根不多,很容易制作成面積較小的鍵貼。
這個數形碼的字根安排對于懂拼音的人也是極為友好的,字根中有“文、阝、亻、兒、土、丶、攵、工、戈、金、斤、幾、開、木、女、小、心、忄、止、丨”的聲母就是所在鍵位的字母。
數形碼按照客觀存在的漢字結構對構成漢字的各部件進行有長度限制的編碼,因而能夠比較全面地獲得漢字的比較全面的信息,因此重碼比較少。經重碼統計,若不加附加信息,在3755個一級漢字中有重碼133對;若對不滿四碼的重碼漢字追加聲母作附加信息,重碼降到57對;若對重碼漢字追加第五鍵(不加聲母作附加信息),重碼為105對。顯然,它的各種重碼指標均少于上面第一表中同類的最小值264,62和105(蒼頡碼的統計范圍是3000個字,而不是3755個字),數形碼的字根數與一表中的諸碼相比是最少的,字根與鍵位對應關系極其規則,總的記憶量也最小。
數形碼在編碼時需要按漢字的結構(包括上下、左右、包圍、左上右下、右上左下五種結構),并結合成字原則、自然分離、部首原則對漢字進行分解。通常盡可能將漢字一分三,分不成三就分二,分不成二就是獨體字。
對于獨體字至多可取四碼,對于非獨體字中的末部件,至多可取三碼,非末部件最多可取二碼。
其詳細的拆分過程如下1.是否是獨體字?如是,進入步驟3。
2.將漢字按五種結構一分為二后①第一部分是否只由一個字根構成,如不是轉②。如是,再看第二部分是否可按五種結構一分為二。如不可以,對第二部分按“取大優先”的辦法取字根,最多取三個,以字根首筆的筆順的先后作為取字根的順序;如可以,則取第二部分中的首部的兩個字根,取第二部分末部一個字根;若第二部分首部只有一個字根,則末部可取兩個字根。如第二部分中沒有自然分離部分,但按“成字原則”可以分出非單筆劃的漢字或部首時,仍要劃分,如“埠”、“啤”。如果第二部分中的首部只有一個字根,而末部還可按五種結構一分為二,則還要分,分成的四部分各取一碼;否則按字根起筆筆順取第二部分中的末部的兩個字根;如果第二部分中的末部只有一個字根,則第四鍵加聲母,或用空格、數字選入。②若第一部分由兩個字根構成,或第一部分為新華字典中的部首,則按字根首筆順序取第一部分的兩個字根后,再按五種結構拆分第二部分,并各取一個首字根;如第二部分不能分,則按字根筆順取二碼。如只有一碼,第四鍵加聲母,或用空格、數字選入。③若第一部分由兩個以上字根構成且非新華字典中的部首,則首先看第一部分是否自然分離的兩個小漢字,如是,而第一部分中的首部又可取二碼,則第一部分中的末部取一碼,第二部分取一碼;如第一部分中的首部只有一碼,則第一部分中的末部取二碼,第二部分取一碼。如第一部分不能分為兩個小漢字而第二部分卻可分為自然分離的兩個小漢字,則將漢字分為第一部分、第二部分首部、第二部分末部三個部分,第一部分按字根起筆筆順取二碼,第二、第三部分各取首字根。如第一部分、第二部分中均無自然分離的兩個小漢字,則看第一部分是否“自然分離”,如“自然分離”,則漢字已一分為三;否則,看第二部分是否“自然分離”,如“自然分離”漢字也已一分為三。若兩部分均不“自然分離”,則先看從第一部分相互粘連的筆劃組合中中能否拆分出非單筆劃的小漢字或部首,如不能分,再看從第二部分相互粘連的筆劃中能否拆分出非單筆劃的小漢字或部首,盡可能將漢字分為三部分。對于兩部分均無法拆分的漢字,每部分各按字根起筆順序取兩個字根,如第二部分只有一個字根,加聲母或用空格、數字選入。對于可以分為兩個相同部分的漢字,每部分各按字根起筆順序取兩個字根,不拆為三部分。
3.獨體字首先看是否可拆分出非單筆劃的漢字或部首。如可以,則第一部分可取一至二碼,第二部分可取三至一碼,合起來至多取四碼;不足四碼加聲母或用空格、數字選入。如不可以,則按字根首筆筆順為序進行編碼,至多取四碼,不夠四碼加聲母或用空格、數字選入。
4.字根字按對應字母后選入。
上述步驟說起來繁瑣,實際使用起來卻是非常簡單的。
數形碼認為,漢字編碼既要兼容于漢字的寫字筆劃,使用戶不因之而形成倒筆劃的壞習慣,另一方面還要“兼顧直觀”。漢字編碼不是寫字,應該看上去像什么就編什么,不要機械地完全按照書寫筆劃來拆分字根和部件,從而把部件拆得支離破碎、面目全非。因為漢字在書寫時,并非總是寫完了一個字根或部件再寫另一個字根或部件。但為了減少與書寫筆順的矛盾,則規定以字根首筆筆順的先后來決定取字根的順序。對于有多筆交叉的部件,數形碼采用割開來的辦法,也是為了“兼顧直觀”。譬如“豐”,我們看到有三個交點,就把它分為三個“十”。如完全按照筆劃取大優先地劃分,只能劃成“三”和“|”,完全看不到有相交的跡象。再如“栽”,將其分割為“土”、“木”和“戈”也是符合漢字本身的意義的(即用“戈”挖“土”種“木”)。
關于“口”和“口”的差別在于“口”代表當中沒有其他筆劃的小“口”及只有一筆穿過的“口”,如果有多筆穿過或內部有一至多筆,則都用“口”例“數”分為“米”(im)、“女”(n)、“攵”(f)“盤”分為“舟”(fa)、“皿”(az)“熟”分為“享”(wo)、“丸”(o)、“灬”(c)“輿”分為“ ”(fz)、“車”(u)、“八(i)”“琢”分為“王”(gt)、“豕”(b)、“丶”(d)“甄”分為“西”(g1)、“土”(t)、“瓦”(g)“夾”分為“ナ”(b)、“丷”(i)、“大”(b)“主”分為“亠”(w)、“土”(t)“選”分為“ ”(ft)、“兒”(r)、“辶”(s)“卸”分為“ ”(jp)、“卩”(ez)“尊”分為“酋”(il)、“寸”(y)“兼”分為“”(i)、“彐”、“ ,”“靜”分為“十、土”(pt)、“月”(a)、“ク”(v)
權利要求
1.一種數形碼漢字鍵盤輸入技術,其特征之一在于進行編碼所依據的字根的類別在計算機通用鍵盤上是按各字母鍵列向對齊的數字的形狀、起筆來分布的;其特征之二在于使用字根對按照漢字的結構進行分解后得到的部件進行有長度限制的編碼末部件至多取三個字根,非末部件至多取二個字根,一個漢字至多取四個字根。
2.根據權利要求1,數形碼進行漢字編碼輸入所依據的數字~字母~字根對應關系如下1區 Q-不對應字根;A-月骨冂;Z-止山丨卜;2區 W-二亠文言讠乙;S-之辶宀冖;X-心小忄 3區 E-三了阝;D- 廣疒;C-水冫氵 灬 ;4區 R-四兒亻;F-丿攵的;V-犭勹ク夂多;5區 T-土士5;G-一工戈;B-廠石ナ大;6區 Y-六 扌手寸;H-纟厶幺鄉;N-女∠L く;7區 U-七匕7彐予;J-金钅斤幾刂亅;M-木;8區 I-八ソ人;K-開卄9區 O-九口;L-口日曰目田凹凸 (“ ”指其他包圍形);0區 P-十。
3.根據權利要求1~2,對于由兩個形狀相同(或基本相同)的部分構成的漢字,如果該部分本身是權利要求2所述之字根,則各取一碼,否則,各部分按構成其的字根的起筆的先后各取兩碼。如“哥”、“兢”可分為兩個基本相同的部件“可”和“克”。
4.根據權利要求1~3,對于不屬于權利要求3的漢字,數形碼應首先按漢字所屬的左右型、上下型、包圍型、左上右下型、右上左下型五種結構的自然分離結合成字原則,將漢字一分為二,然后盡可能按“成字原則”、“非末部件的部首不分解原則”、“自然分離原則”、“成部首原則”次序的優先級別(次序先,優先級為高),盡可能將這兩部分之一再劃分為一次,使漢字分為3個“部件”。如“孵”,屬于左右型結構,結合“成字原則”,應將其分為“卵”和“孚”,然后將“卵”再一分二。如果可以根據漢字本身的結構分為兩個部件,則按如下步驟設法再分出第三個“部件”。①第一部件是否由三個以上字根構成,如果第一部件只有兩個字根,或第一部件為新華字典所定義之部首,不拆第一部件,而進行步驟③、⑤、⑦。②觀察第一部件是否可以分為兩個“自然分離”的漢字。③如不能,則看第二部件是否可分為兩個“自然分離”的漢字。④如②、③均不能分,觀察第一部件內是否自然分離。⑤如不能,再觀察第二部件內是否自然分離。⑥觀察能否從第一部件中拆出非單筆劃的部首。⑦觀察能否從第二部件中拆出非單筆劃的部首。如“懿”中的“壹”不能分為兩個漢字,而“恣”可分為“次”和“心”,故進行到步驟③,即能完成對漢字的分解。
5.根據權利要求1、2、4,如果可以劃分為三個部件,則按三部件編碼分配規則“如果第一部件可取二碼,則二、三部件各取一碼;如果第一部件只能取一碼而第二部件可取二碼,則在第二部件取二碼后第三部件取一碼;如果一、二部件均只能取一碼,則對不可分的第三部件按可分解出的字根的首筆的書寫順序取一至二碼,若第三部件還可按‘自然分離’或‘部首原則’分解為兩部件,則取分解后兩部件的首字根的編碼”進行編碼。如果漢字只能劃分為兩個部件,則按二部件編碼分配規則“若首部件只有一碼,末部件至多可按該部件各字根首筆劃順序的先后取三碼;否則,首部件、末部件均至多按字根首筆先后取二碼,合起來整個漢字至多取四碼”進行編碼。如“惡”,無法從“亞”和“心”中再分出非單筆劃的部首,所以對“亞”取“一”和“ ”,再取“心”。如果是無法按照結構的自然分離進行劃分的獨體字,首先應根據“成字原則”和“成部首原則”(單筆劃除外)嘗試對獨體字一分二、二分三的劃分。劃分后按照權利要求4取碼。如不能分,則按“書寫順序”及“取大字根優先”的原則對該漢字取碼,碼長最長為四。如“阜”,根據“成字原則”可分為“ ”和“十”然后取第一部件前兩個字根“丿”和“丨”,再取第二部件“十”對應的字母。這里對“成字原則”、“成部首原則”要補充的是如“阜”那樣只要其中能拆出一個非單筆劃的字,就是貫徹了“成字”、“成部首”原則,并非一定要拆出兩個字或部首。當然,在有漢字-漢字、漢字-部首、漢字-非部首、部首-非部首多種拆法的情況下,以漢字-漢字的優先級最高,其他按序降級。對于無法拆分的字根字,按對應字母后用數字選入。
6.權利要求1~5述及的“取大字根優先”必須盡可能避免字根之間互相穿插,必須盡可能避免破壞本部首與下一部首的完整性。如“生”第一碼應取“丿”,因為取“”會造成“”與“土”的交叉。“成”應分為“戈”和“勹”。如第一字根取“廠”就把“戈”、“勹”拆得支離破碎。“歹”應分為“一”、“夕”,因為取“丆”會破壞“夕”的完整。實際上本規定是“自然分離”、“成字”、“成部首”原則的拓展。
7.為了避免字根間的穿插,能夠直觀地分解字根,規定對于“ ”丶“豐”及“ ”“ ”拆成兩(在非末部件中)或兩至三(在單字或末部件中)個“十”或“ナ”。如不這樣規定,勢必把“ ”拆成“二”、“丨”兩個看不出有任何相交痕跡的部件,不符合快速取碼的“直觀”要求。同樣,對“井”,規定將它拆為兩個“卄”;對于“ ”,規定將它拆為“卄”和“曰”。
8.“丷”總是依附于它下面的部分成為一個部件。對于“羊”、“ ”“ ”統一取“丷”和“一”對應的字根“ig”;“關”、“酋”和“蘭”,第一字根取“”;“半”丶“”、“ ”、“ ”,第一字根取“ ”。
9.所謂“部首”,指新華字典所定義的部首,但對“辰、麻、其、音、青、老”這些在常用字中不起或很少起表意作用且本身內部又有自然分離的部首,在本編碼中不作為“部首”,即當它們不處于末部件時,仍可以分為兩個部件。
10.對于采用其他拆分部件方法的漢字編碼所采用的字根表,也不得有與權利要求3所述字根表有70%的相同。
全文摘要
一種名為數形碼的漢字鍵盤輸入技術,其特征之一在于進行編碼所依據的字根的類別在計算機通用鍵盤上是按各字母鍵列向對齊的數字的形狀、起筆來分布的;其特征之二在于使用字根對按照漢字的結構進行分解后得到的部件進行有長度限制的編碼;末部件至多取三個字根,非末部件至多取二個字根,一個漢字至多取四個字根。由于其字根少、鍵位分布規則、根據漢字自然結構的分離來取碼,比較全面地獲得了漢字的信息,因而不但易學,而且重碼少。
文檔編號G06F3/023GK1150666SQ9511334
公開日1997年5月28日 申請日期1995年11月23日 優先權日1995年11月23日
發明者周憲 申請人:周憲