專利名稱:漢字形態數碼的制作方法
技術領域:
本發明涉及一種漢字與詞語的編碼方法,適用于電腦輸入與查字典。
漢字編碼方法已有幾百種,各有所長,也各有其短。常見的有字形編碼(如五筆字型),首尾碼,拼音碼,區位碼,自然碼等等。拼音碼易學易掌握,但重碼較多,翻頁選字相當麻煩。區位碼無重碼,但不便記憶。五筆字型輸入速度快,效率高,容易實現盲打,但掌握比較困難,基本字根130個,拆字往往搞不準,特別是末筆識別碼帶來許多麻煩。
本發明的目的是提供一種易學易記,電腦輸入速度較快,重碼選擇基本不翻頁的漢字編碼方法,同時將編碼應用于查字典,使漢字電腦輸入與查字典融為一體。
本發明的目的是這樣實現的將漢字依據基本結構分成23類字基,即獨點、獨線、縱離、單折、單交、口形、人形、雙折、橫離、雙交10類單碼字基,依次用0~9數字表示,以及疒、立、禾、衤、石、魚、蟲、讠、門、西、金、王、竹13類雙碼字基,分別用00,01,02,……09,10,11,12表示。根據漢字書寫筆順和字基出現的先后順序將漢字編成4碼,用4位數字表示。復雜漢字,取首尾各2碼;簡單漢字不足4碼,后面可以添0湊4碼。字基辨別原則是取基宜大,同等優先,單筆隨離,相離隨人,線折隨口,一切隨交。詞語編碼為每個詞語共6碼,即2字詞語取每字前3碼;3字詞語取每字前2碼;4字以上詞語,前2字各取前2碼,第3字和尾字各取前1碼;相應碼位不足的添0湊足。
下面對本發明作詳細說明
本編碼將漢字基本結構(字基)分為23類,前10類為單碼字基,其余13類為雙碼字基,代號如下 一、字基含義(括號內為例字)0獨點。表示單獨一點(不夕私勁)1獨線。表示單獨一線,如一丨丿 (干個血瓜刁),可有弧度,無鉤。
2縱離。表示點、線從上到下相離排列,如二三冫氵亠 彡 (目叁北習漢文參飛聚)相離部分也可被隔開,如“母”之兩點。
3單折。單獨一折或兩筆頭相接成折,有一個角。如 廠 (買公丫庫后心)有的還另帶一小鉤,如 (習飛)。
4單交。一筆穿過一筆,有一交點。如十×又力巾 (古父麥勞幅晚丙)。
5口形。四面全封,如口尸 巳 巨(國吃戶良巴且骨巨),另外, 已未全封亦歸此類(臼,已經的“已”)。
6人形。一線端點接另一線中間,有一接點。如人入亻 丆(合入仁農百)一點沾在一線上亦屬之,如 卜(惠仆)。從相交字基(4,9)非端點處引出的點或線亦作6,如大內才長夫頭。注意,如果引出的是折,則仍作3,如尢記為43。另外,戊的左邊“丿”是從端點引出的,廠看作一筆,不屬人形, 作9。
7雙折。連續兩折,有兩個角。有的還可另帶一小鉤,如順雙折冂冖幾匚凵卩(同罕風區 兇卻留),反雙折 (之與鼎),另規定ク勹阝亦作7(陪夕勾)。注意“ ”不屬雙折(丑),“丑”記為 十一341,“彐”記為32。
8橫離。點、線、單折以左到右相離排列,如八丷兒刂 灬忄小巛川州(父關元劃學杰示怕恭巡荒洲),相離部分也可被隔開(木辦)。有時同縱離不易區別,如“豕、聚”左下的“ ”,前者在“ ”下邊,有從左到右趨勢,故從8,后者在直線左旁,有從上到下趨勢,從2。“為”的兩點,即不作8,也不作2,記作兩個獨點。相離各部分若有包含或半包含,則不屬相離,如“刁”作31,不作8或2,規定“水”中的“ ”構成8,“永”中的“ ”亦構成8。
9雙交。一筆穿過兩筆,有兩個交點。如艸 扌 中甲由(共隹譯打如戈毛鹿兩黑弟丹衷央鬼軸),規定“奐”的下邊作央96。若一筆穿過三筆,或連續三交有三個交點者,一律記作49,如豐韋車尹 申電 (耕偉較伊史帶果伸黽母革),若一筆穿過四筆以上或連續四交以上有四個交點以上者,一律記作99,如 吏 弗聿事串曲毋冊井冉肅(輔使便費律事竄曲毋柵進再庸)注意“孝”上的“ ”不是9,而作44,規定“龜”下邊作電。
雙碼字基編碼如下(括號為字例)00疒(病疼) 07讠(講儲邊)01立(音位) 08門宀(闊們安)02禾禾(禾余)09西(要酉曬)03衤衣(初裔裴) 10金钅(鑒針)04石(硬巖) 11王壬(瑰主丟妊)05魚(魷魯鯊)12竹(竹笠)06蟲(蚯蠱雖)
二、取基原則(一)取基宜大應盡量先取雙碼字基,如蟲06,不作96;立01,不作281。“乘”從禾北。
(二)同等優先如親作立木,不作亠丷禾。
(三)單筆隨離若“單筆”是相離字基(2,8)的一個組成部分,則服從相離字基。如汁作24,不作0004;文作24,不作014;爪作38,不作311。
(四)相離隨人若相離兩筆中有一筆同他筆構成人形,則服從人形字基。如彳作16,不作21。若雖相接而不構成人形,則相離不受影響,如亍作23,不是16。另外規定如果相離各部分同旁端點共接一線,相離亦不受影響,如兀作18;光作818,非作282,業881(上面看作 丷),故相離字基接線原則是“全或無”式的。
(五)線折隨口如果線、折圍成口形,則服從口形,如 作5,不作71;骨的上邊 作5,不作77, 作53,不作737;局作535,不作775,巨作5,不作77(注 7151,與臣511不同)。
(六)一切隨交各種形態被它筆穿過,則服從相交字基,被穿過的部分根據交點的個數而分別記為4,9,49,99,未被穿過的部分脫出另記。例如,一豎穿過兩橫,成“ ”,作9,若這一豎只穿過下面一橫,成“干”,則上面的“一”脫出另記,“干”作14;規定口形,雙折被穿過(即使是部分穿過),未被穿過的部分亦不脫出,是為例外,如免的下邊的 作4,不作74;巾作4,不作14;耳作624,不作52,注意 不是口形)。
三、記碼順序記碼順序基本上同漢字筆順,例如(一)從左到右乃133 及134 扎93 兆282 77水86(二)從上到下匕13 寸40 歹170 饣73 出47 包75 貝78 月72冬142 倉633 己73 叟844 大46 內46 才46 長646 片67 34 心83 必84可153 永086,另外“萬”規定為17,不作63,(如豕1786);“方”作27,不作063。
(三)由外到內日51 田54 且52 皿58 臼58 圖5142 面6582。
(四)先中間后兩邊辦48 木48“齏”的順序是文非一‖。“函”的順序是 亅 凵。“暴”下的 322。但是,規定“犀”中的牛 “率”中的 幺 ,“豐”上的 丨 ,“兜”上的 仍按從左到右記碼,是為例外。
(五)先兩邊后中間火86 脊22672 拳89619都有從上到下趨勢。
(六)之廴在字尾這2407 建9934。
(七)右上角獨點記在右下角之前弋04 戈09 尤403 犬406 龍404 術408 甫099;弋戈(戊)在字的右邊時一律作末2基,如忒8304 咸1509(注戊09,不作609,因左邊“丿”不是相交基非端點處引出,而是從端點引出,“廠”看作一筆。“鳶”的順序鳥、戈。
(八)相交字基按交點位置記碼,如義04,寸40,叉04,丹09,母492,臾846,黑8918。雙交被八隔開,先記雙交基,如本98,夾986,來988,柬4988。
(九)連續相接成多個人形,按接點記碼,如上66,下66(注下面一點沾在豎上,故作6,而詞典中,“不”的一點未沾上,故“不”作660)止666疋6666,正6666。
(十)特殊規定足(足)只記56,頁只記67,纟只記33(即都只計前兩碼)。
四、查字方法(一)四碼以上的復雜漢字,取首二碼,末二碼,如鐫1033 殷1574 藏9309 作662 所1536 兩1966 鬼1930(二)不足四碼,依次取之,在后面添0湊足四碼,如依6030 單8490 夕7000 電4900 計0740 仁6200(三)廣丫礻位于字首時獨點不計碼,如
慶3460 鹿3913 麻3448 福3654 丫3000,如果不在字首,其點照記,如擴9030 吖5030。注意“廣”不是“疒”,“礻”不是“衤”,應予區別。
如果有重碼,輸入電腦時,需加按序號碼。因此,有重碼的漢字輸入電腦時為五碼。如果用作查詞典,則四碼均可。
五、詞語編碼每個詞語不論字數多少,均是六碼,且無重碼。
(一)二字詞語,取每字前三碼,如勞動974230 考查441485 美國811511 幽會330623 具體528698(二)三字詞語,取每字前二碼,如地質學413487 以色列307517 科威特021919 烏拉圭779041(三)四字以上詞語,取第一、二字各前二碼,第三字和末尾字各前一碼,如恩將仇報542169 添枝加葉214845 割雞焉用牛刀084763牛頭不對馬嘴192465 北大西洋公約組織214603(四)相應碼位不足的添0湊足,如也許900076 回憶550830 人生觀601947 中國共產黨905198有關漢字編碼表和詞語編碼表的說明(一)《漢字編碼表》收漢字7500多個,其中包括了國標區位碼的全部漢字6700多個。
(二)部分漢字有重碼,另有九個字需要換頁,它們是弗,聿,冉,毋,妯,摶,芄,芾,曳(均在9900)。
(三)《詞語編碼表》共收常用詞語二萬余條,無重碼。(有重碼的詞語約占4%,本表未收)。如果輸入時無相應詞語碼,則按單個漢字輸入。
(四)所收漢字和詞語都以《現代漢語詞典》和《新華詞典》為準,二者相互補充,如中間(900085),前者載而后者無,取。孔子(343340)前者無而后者有,取。
(五)為了照顧人們不同的用詞習慣,將義同而詞異者一概錄用之,例如拔苗助長949556網開三面741926疾惡如仇001896揠苗助長979556網開一面741916嫉惡如仇901896附二十三類字基記憶歌訣西江月二八相離五口,四九相交六人;三七含折點為零,一線單碼確定。
雙碼雖然義簡,卻須首次分清;立禾衫石魚蟲評,門西金王竹病。①注①衫評病只取部首偏旁衤讠疒,是為上口而設。立禾衫石魚是一二三四五的諧音。
由于采用數字編碼,不但可簡化鍵盤,制成筆記本式的袖珍電腦,而且操作輸入簡便,記住數字鍵就行,因此可提高輸入速度。本編碼只有10類單碼字基和13類雙碼字基,且界限清楚,不易混淆,便于記憶。
本編碼方案,可作為檢字表查字典用,較四角號碼查字法快捷,同碼字少,號碼容易確定。
權利要求
1.一種漢字編碼方法,根據漢字的基本結構和筆順編碼,本發明的特征在于該方法包括字基編碼規則;取基原則、記碼順序、字詞編碼;字基編碼是將漢字基本結構分成23類,其中獨點、獨線、縱離、單折、單交,口形、人形、雙折、橫離、雙交10類為單碼字基,依次用0,1,2,……9表示;疒、立、禾、衤、石、魚、蟲、讠、門(宀)西、金、王、竹13類為雙碼字基、分別用00,01,02,……09,10,11,12表示;根據漢字書寫筆順和字基出現的先后順序將漢字編成4碼,復雜漢字,取首、末各2碼;簡單漢字不足4碼,后面可以添0湊足4碼。
2.根據權利要求1所述的編碼方法,其特征是獨點(0)即單獨一點;獨線(1)即單獨一線,包括一丨 丿 ,獨線無折無鉤;縱離(2)包括二三冫氵亠 彡 ,即點或線從上到下相離排列;單折(3)包括 廠 ,即單獨一折或兩筆頭相接成折,有一個角,有的還可帶一小鉤,如 ;單交(4)包括×十又力巾 ,即一筆穿過一筆,只有一個交點;口形(5)包括口尸 巳 巨,即四面封閉或包圍,還包括 已;人形(6)包括人入亻 丆卜,即一線的端點接另一線的中間,或一點粘在一線上,有一接點;另外從相交字基非端點處引出的點或線亦作6;雙折(7)包括冂冖幾匚凵卩 ,即一筆有2折或2筆頭連成2折,有兩個角,另外ク勹阝,亦作7;橫離(8)包括八丷兒刂川州忄小巛灬,即點、線、單折從左到右相離排列,互不包含;雙交(9)包括艸 扌 中由甲,即一筆穿過兩筆,有兩個交點;若一筆穿過三筆或連續3交,有3個交點者,一律記作49;若一筆穿過4筆或連續4交有4個交點以上者,一律記作99。
3.根據權利要求1所述的漢字編碼方法,其特征是字基辨別有以下原則a、取基宜大應盡量先取雙碼字基;b、同等優先如“親”作立木,不作亠丷禾;c、單筆隨離若“單筆”是相離字基(2,8)的一個組成部分,則服從相離字基;d、相離隨人若相離2筆中有一筆同它筆構成人形,則服從人形字基6,如果相離各部分同旁端點共接一線,仍視為相離字基;e、線折隨口如線、折圍成口形,則服從口形5;f、一切隨交各種形態被他筆穿過,則服從相交字基。
4.根據權利要求1所述的編碼方法,其特征是記碼順序為從左到右,從上到下,由外到內,先中間后兩邊,先兩邊后中間,右上角獨點記在右下角字基之前,相交字基按交點位置記碼,連續相接成人形,按接點記碼,特殊規定的有(足)、頁、纟都只記前2碼。
5.根據權利要求1所述的編碼方法,其特征是詞語編碼規則為每個詞語不論字數多少均是6個數碼;二字詞取每字前3碼,三字詞取每字前2碼,四字以上詞,取第一、二字各前2碼,第三字和末字各前1碼,相應碼位不足的添0湊足。
全文摘要
一種漢字編碼方法。根據漢字的基本結構和筆順編碼,其特征是,將漢字基本結構分成10類單碼字基和13類雙碼字基,分別用0,1,2……9和00,01,02……09,10,11,12表示,并根據漢字筆順和字基出現的先后順序將漢字編成4碼,將詞語編成6碼。字基辨別原則是取基宜大,同等優先,單筆隨離,相離隨人,線折隨口,一切隨交。本編碼文案易學易記,電腦輸入速度較快,單個漢字重碼率低,詞語碼無重碼。也可用于查字典、詞典,將漢字電腦輸入和查詞典融為一體。
文檔編號G06F3/023GK1133989SQ9511489
公開日1996年10月23日 申請日期1995年4月28日 優先權日1994年8月5日
發明者李善成 申請人:李善成