專利名稱:計算機漢字部首音標輸入方法
技術領域:
本發明涉及計算機使用的漢字編碼輸入方法,特別是計算機漢字部首音標輸入方法。
隨著計算機在我國各行各業的廣泛應用,漢字輸入技術也在日新月異地發展,僅漢字編碼就已達千余種,其中有些編碼的速度已大大超過西文而達到了較高的水平,為進一步提高計算機漢字編碼技術水平打下了良好的基礎。盡管如此,這些各有千秋的編碼都還存在著一個共同的缺陷——不能與語文教學同步。其原因在于背棄了漢字“部首構字”的傳統習慣。部首首創于許慎的《說文解字》,始為540部、明代梅膺祚在《字匯》中將其減為214部,《新華字典》等現代字(詞)典均設定為188 191部。長期以來,不管漢字經歷了怎樣的變革和發展,也不管部首的數量發生了什么樣的變化,部首作為漢字的零部件,其整體的構字能力卻有增無減。任何人要想學習漢字,都得從部首開始。由幾個單筆部首到一百多個復筆部首,再到成千上萬、千姿百態的漢字,部首是最基本的。在計算機漢字編碼中,部首同樣是最完整、最規范和最穩定的部件體系。遺憾的是,在如此眾多的漢字編碼中,幾乎都因取碼不足,不得不大肆增減部首,改換字根字元或設置一些古怪離奇的輔助取碼方法,而將這完整的部件體系攪得支離破碎,面目全非,其結果使得漢字編碼無一例外地偏離了漢語語文教學的軌道。
本發明的目的在于提供一種簡單易學、準確高效、與漢語語文教學嚴格同步,既可以用于計算機漢字輸入,又可用于漢字檢索的編碼與計算機輸入方法。
“部首音標法”選用鄧家智《漢語字典新編》(湖南出版社93年版)部中首系列做漢字構件,不設任何補碼。它遵循“部首構字”的基本原理漢字由部首構成,較大的部首由較小的部首構成。它一反漢字一次拆分慣常作法,按需要可對部首進行多次再拆分。“首部音標法”是根據每個部首名稱中第一個漢字的讀音為它們確定了一個漢語拼音字母作為各自的音標,將不同形態而具有同一音標的部首歸附在同一鍵位,使操作者能夠迅速準確地“見部定鍵”,順利輸入。
以下詳細敘述計算機漢字部首音標輸入方法。
附錄1為本發明的漢字部首名稱音標編碼表,表中給出190個部首歸屬于25個音標,并給出全名稱,簡名音節,拆分和編碼。
附錄2為本發明的漢字難拆件(字)容錯拆分表。
本發明的實施方案一、部首系列選用鄧家智《漢語字典新編》湖南出版社93年版)中的部首系列(共190個正部、左、右雙耳合為一個),并做以下規定1、將14個與正部形態相似的漢字部件附列在相應的正部下冫( )——棗、家 彐 ——隸乙( )——氏 ——民、樂、舜氵(三 )——應、學、杰 刂 ——喬、面刀 ——萬 厶(マ)——甬2、下面8個成字附列部首的讀音與對應的正部不同,在它們單獨成字時按一般字處理(自動失去音標)尢(y)部下的兀(wu), 鳥(N)部下的烏(wu),己(j)部下的巳(shl),肀(s)部下的聿(yu),子(z)部下的孑(jie),王(w)部下的玉(yu),毋(w)部下的母(mu), 日(R)部下的曰(yue)。
全部部首見附錄1,(注“_”作“丨”, 作“丶”, 作“一”)。
二、部首名稱與音標給部首規定一個名稱是為了讓這個部首取得一個確定的音標,以便“按音定鍵”,具有唯一性。因此,本輸入法規定,所有部首的音標必須取自該部首名稱的第一個音節(簡名音節),并且,還必須是這個音節中聲母或韻母的第一個字母。凡選用聲母做音標的叫聲標,選用韻母作音標的叫韻標,其中音標186個,韻標只有6個。為了離散重碼,選作韻標的部首都是構字能力極強部首以及具有某種相同特征的部首。它們分別是氵—三點水—三—san—A扌—提手旁—提—Ti—I彡—三撇兒—三—san—A巛—三拐兒—三—san—A口—口—kou—o木—木—mu—u所有部首名稱和音標分別按以下三種情況規定1、成字部首的名稱均取《漢語字典新編》中該字字名,其音標為該字音節聲母(木、口為韻母),例如殳—su—s麻—ma-M,乂—x—yi—y采—bian—B豸—zhi—z,豕—si—s2、非成字部首的名稱取《漢語字典新編》中所列之通用名稱,其音標為該部首名稱首字音節的聲母(氵、扌為韻母),例如
纟—絞絲旁—絞—jiao—J夂—冬字頭—冬—dong—D肀—肅字頭—肅—su—S勹—勾字頭—勾—gou—G3、對以下部首進行歸類定名,其音標為該類部首名稱首字音節的聲母宀冖蓋部—蓋—gai—G火灬火部—火—huo—H口凵冂匚框部—框—kuang—K人亻彳人部—人—ren—R犬犬部—犬—quan—Q全部部首名稱、音標見附錄1三、漢字拆分部首構成漢字,較小的部首構成較大的部首。為了取得足夠的編碼信息,需要對漢字和部首進行拆分取部(西文單詞拆分后取字母,十分簡易),而有些漢字和部首的構成比較復雜,因此,在對漢字進行拆分“一次拆分”和對部首進行“再拆分”時必須遵循“一依三先”的基本原則。
1、依照筆順。象手寫漢字一樣,按照先左后右,先上后下,先外后內及先中間后兩邊的順序拆出部首。例如拉—扌、立, 按—扌、宀、女,卡—_、一、卜, 豎— 、又、立回—口、口, 有—一、丿、月,兆—兒、冫、 ,連—車、辶。
2、先緊后松。所謂松緊即構字(部)過程中,各個部首離連交錯的程度。部首音標法規定,當一個部首(主要是單筆部首)往前、往后都可能屬于另一個更大的部首時,應根據其松緊程度,按先交(交串),次連(粘連),后離(離開)的原則,將這個部首劃屬另一個較大的部首,但必須是部首,否則無條件歸屬部首,當與前后兩個部首的松緊程度一樣,且這兩個部首又能自成另一部首時,便自成部首。否則,先起先行。例如成—戈、丿、 (“一”與“戈”交,與廠連,屬“戈”), —牛、巾(“丨”與 交,與“巾”交,與“一”交均成部,按“先起先行”,“先取為大”,屬“牛”)夫—二,人(“人”與兩個“一”均相交成部,都不屬,兩個“一”成“二”,“人”屬“人”),牛—_、十(“丨”與“_”、“一”均交,前不成部,后成部,屬“十”)。
3、先起先成。根據“先緊后松”的原則,首先確定每次取部時的第一筆(始筆)屬于哪一個部首,我們就認為這個部首先被構成,于是就先把這個部首取出來。這樣依次取下去,直到取足。例如國—囗、玉、(起筆“丨”屬“囗”,先取“囗”),眉—尸、丨、目(起筆 屬“尸”,先“尸”)。
4、先取為大。結構不清楚的漢字和部首,往往存在多種拆法,為了得到一種統一的拆法,每一次取用的部首都必須是最大的,即取到不管再增加幾個部首,都不能構成部首時為止。例如且— 、一( 中再增加“一”,便還源成“且”),
食—人、艮(“人”和“艮”再增加“丶”都不成部),忽—勹、丿、丿、心(各增一至幾筆,均不成部),呼—口、丿、丷、十(各增幾筆,均不成部)。
(部首拆分時,只取首末兩部,先將首部取到最大,后將末部取到最大)四、漢字取碼弄清了漢字和部首的拆分,取碼便是水到渠成的事,只要根據已取出部首的音標順次編碼即可。我們先約定,將漢字作第一次拆分所取出來的部首(碼)叫本部(本碼),將部首作“再拆分”所取出來的部首(碼)叫分部(分碼)。現根據漢字中所含本部的個數分別說明1、部首編碼,所有部首均取三碼,其方法是先取這個部首的本碼;再將這個部首作“再拆分”,依次取出首末兩分碼,即本碼+首分碼+末分碼,例如音—音、立、日—YLR,耳—耳、一、三—EHA,口—口、冂、一—KKH,瓜—瓜、丿、丶—GPD。
全部部首編碼見附錄12、二部漢字。先取二個本碼,然后將后一個部首“再拆分”,依次取出首末兩個分碼,即1本碼+2本碼+首分碼+末分碼。例如拉—扌、立、亠、一、—ILWH(拆分“立”部),刮—舌、刂、丨、_、—SLSS(拆分“刂”部),
竺—_、二、一、一、—ZEHH(拆分“二”部),觚—角、瓜、丿、丶、—JGPO(拆分“瓜”部)。
3、三部漢字。先取三個本碼,然后將最后一個部首“再拆分”,取出首分碼,即1本碼+2本碼+3本碼+首分碼。例如貌—豸、臼、兒、丿—ZBEP(拆分“兒”部),踝-足、日、木、十—ZRUS(拆分“木”部)罷—罒、土、厶、厶—STSW(拆分“厶”部),載—十、戈、車、一—SGCH(拆分“車”部)。
4、四部漢字。依次取完四個本部,不對部首作“再拆分”。例如戥—日、牛、一、戈—RRTG踖—_、艸、一、日—ZCHR慘 忄、厶、大、彡 XSDA匐—勹、一、口、田—GHOT5、五部及五部以上漢字。依次取1本碼+2本碼+3本碼+末本碼。例如兼—丷、一、_、八—BHLB禽—人、文、凵、厶—RWKS輾—車、尸、卄、丶—CSCD察—宀、夕、丶、示—GXDS(注意最后一個部首一定要取得最大)6、詞語編碼兩字詞語均取每字前兩碼,例如漢字—氵、又、宀、子—AYGZ部首—立、口、丷、一—LOBH
科學—禾、 、冖—HLAG排列—扌、 、歹、刂—ILDL三字詞語分別取每字第一碼。例如計算機—讠、_、木—YZU,活生生—氵、牛、牛—ARR,消防隊一氵、阝、阝—AEE,北京市—丬、亠、亠—JWW。
四字詞語(含成語、熟語)分別取每字第一碼,例如兵不血刃—斤、一、血、刀—JHXD現代漢語—王、亻、氵、讠—WRWA分崩離析一八、山、文、木—RSWU信息資源一亻、自、冫、氵—RZLA五字及五字以上詞、短語分別取一、二、三、末字的第一碼。例如打腫臉沖胖子—扌、月、月、子—IYYZ開門七件事—一、門、一、一—HMHH吃力不討好—口、力、一、女—OLHN曾經淪海難為水,除卻巫山不是云— 、纟、氵、二—BJAE7、常用符號編碼。部首音標碼可以對任何有形有名符號進行編碼。其方法是先給符號定名(形態相似的符號采用歸類定名,重碼輸入)然后將名稱前兩字的第一碼取出編成二級簡碼。例如∽—相似號—相似—木、亻—UR∫—積分號—積分—禾、八—HB口( 、■)正方塊—正方—一、二—HW
○(●、◎)圓形號—圓形—口、一—KH五、漢字輸入部首音標輸入法是一種以輸入詞語為主的方法,共設置一至四級及準四級編碼,其輸入內容分別如下一級簡碼。25個聲母或韻母與鍵名相同的高頻字用一級簡碼輸入,同時也可以象其他漢字一樣用準四級碼輸入A B C D E F G H I J K L M大 本 產 的 這 分 個 和 地 級 可 了 們N O P Q R S T U W X Y Z年 我 批 前 人 是 他 不 為 學 一 在二級簡碼。重碼字中的最常用詞,方位、數、量、代詞及虛詞中的單音詞、常用符號作二級簡碼輸入,除常用符號外,取漢字的前兩碼。例如往 彳、丶 RD趁 土、 TZ于—一、十—HS用— 、丨-RY三級簡碼輸入部首和三字詞語。
四級簡碼輸入二、四字及四字以上詞語、短語。
一、二、三級簡碼均需按空格鍵才能提前結束,四級全碼自動結束。
準四級全碼除部首外所有漢字用準四碼輸入。輸入準四碼前需按一次“V”鍵,此時計算機進入準四碼狀態,輸入結束后,自動返回到“四碼”準態。(由于以輸入詞語為主,“準四碼”極少用到)。
自定義碼用戶可以根據需要自已建立起自定義詞庫,其編碼同前或仿照其他碼自編。
容錯碼對于結構模糊、拆法很難統一的極少數漢字采取容錯碼輸入(如“夫”、“來”、“末”、“末”)。
六、部首音標碼檢字法,將全部需檢漢字的編碼排序、排版、分頁、按西文檢索方法檢索。編排結果與《漢語字典新編》中漢字排列差不多,不同的是所有居前部首相同的漢字排到了一起。例如部首檢字時,“朱,乖,秉”排在“丿”部,編碼檢字時,則分屬“牛”(朱),“丿”乖,“禾”(秉)部,但并不影響字典的各種功能。
本發明與已有技術相比具有下列優點1、與漢語語文教學嚴格同步,簡單易學,準確高效。它整體地使用了現代字典詞典中通用的部首系列做漢字構件并歸類為25個音標,不設任何補碼方法,只要學會了查字典,就能準確地識別這些部首和25個音標,無需重新學習專門記憶。
2、采用以輸入詞語為主方式,改漢字三級簡碼為三字詞語三級簡碼輸入(部首仍作三級簡碼輸入),二字、四字或以上詞語、成語和短語均可作四級全碼輸入,重碼中常用字、構詞能力較差的單音虛詞及常用符號作二級簡碼輸入,而其余漢字改為“準四碼”輸入,這比“詞中選字”更方便和更符合習慣,并提高了輸入效率。整個系統可容納《現代漢語詞典》中的全部字詞,滿足一般輸入需要。
3、部首多次“再拆分”減少了重碼,重碼率5%。解決了取碼不足問題,同時極大地利用和擴充了漢字編碼資源。
4、建立了“部首音標碼檢字系統”,擴展了編碼的功能。
附錄1漢字部首名稱、音標、編碼表
附圖
2漢字難拆件(字)容錯拆分表
權利要求
1.一種計算機漢字部首音標輸入方法,包括部首系列選用規定,部首名稱與音標規定,漢字拆分原則,漢字取碼規則,漢字輸入方法,其特征在于①部首系列選用鄧家智《漢語字典新編》(湖南出版社93年版)中的部首系列,190個正部(左、右雙耳合為一個),并作以下規定a)將14個與正部形態相似的漢字部件附列在相應的正部下如冫 ——棗、家彐——隸乙 ——氏、民匚——尸、樂、舜氵(三 )——應、學、杰 ——喬、面刀 ——萬 厶(マ)——令b)下面8個成字附列部首的讀音與對應的正部不同,在它們單獨成字時按一般字處理并自動失去音標如尢(y)部下的兀(wu), 鳥(N)部下的烏(wu),己(j)部下的巳(shl),肀(s)部下的聿(yu),子(z)部下的孑(jie),王(w)部下的玉(yu),毋(w)部下的母(mu), 日(R)部下的曰(yue)。②、部首名稱與音標的規定給各個漢字部首定一個名稱和一個音標,該音標取自該部首名稱的第一個音節(簡名音節)中聲母或韻母的第一個字母成字部首名稱取其字名。其音標為該字音節聲母(木、口為韻母u,o);非成字部首名稱字典中所列之通用名稱,其音標為首字音節的聲母(三、彡、巛、扌為韻母A、I);其余歸類定名部首,其音標為該類部首名稱首字音節的聲母;③漢字拆分基本原則對漢字“一次拆分”,部首“再拆分”時依照“一依三先”即a)依照筆順先左后右,先上后下,先外后內,先中間后兩邊;b)先緊后松先交(交串),次連(粘連),后離(離開);c)先起先成確定每次取部的第一筆后,按先緊后松原則,依次拆取,直至取足;d)先取為大每次取部都取到最大,即取到再增加部首也不能構成部首時為止,部首拆分時,只將首末兩部取到最大;④漢字取碼部首編碼,取三碼方式是本碼+首分碼+末分碼;二部漢字取碼,方式是1本碼+2本碼+首分碼+末分碼;三部漢字取碼,方式是1本碼+2本碼+3本碼+首分碼;四部漢字取碼,依次取完四個本部,不對部首作“再拆分”;五部及以上漢字取碼,方式是依次取1本碼+2本碼+3本碼+末本碼;詞語編碼兩字詞語,均取每字前兩碼,三字詞語分別取每字第一碼,四字詞語,分別取每字第一碼,五字及以上詞語分別取一、二、三、末字的第一碼;常用符號編碼定名符號前兩字的第一碼編成二級簡碼;⑤漢字輸入以輸入詞語為主的方法,共設置一至四級及準四級編碼除V外的25個聲、韻母與鍵名相同的高頻字適用一級簡碼或準四級簡碼輸入,二級簡碼適用重碼字中的常用字,方位數量代詞及虛詞中的單音字、常用符號;三級簡碼輸入部首和三字詞語;四級全碼適用輸入二、四字及四字詞語;準四級全碼適用于除部首外所有漢字輸入,輸入前按一次“V”鍵,進入準四碼狀態,輸入結束后,自動返回到“四碼”準態。
2.如權利要求1所述的計算機漢字部首音標輸入方法,其特征在于對結構模糊、拆分法很難統一的極少數漢字采取容錯碼輸入。
3.如權利要求1所述的計算機漢字部首音標輸入方法,其特征在于設有為用戶建立自己的自定義詞庫用的自定義碼。
4.如權利要求1所述的計算機漢字部首音標輸入方法,其特征在于采取三字詞語三級簡碼輸入,提高了輸入效率。
5.如權利要求1所述的計算機漢字部首音標輸入方法,其特征在于利用“部首音標碼”建立了“部首音標碼檢字系統。
全文摘要
計算機漢字部首音標輸入方法,它利用傳統漢字部首的構字功能用音標的定鍵作用,將190個漢字部首轉化為25個西文字母或漢語拼音字母來進行漢字的計算機輸入,簡單易學,準確快速,且與漢語語文教學完全同步,適合于任何年齡的使用者,特別適合于各級各類學校的計算機教學。
文檔編號G06F3/023GK1139776SQ9611801
公開日1997年1月8日 申請日期1996年1月12日 優先權日1996年1月12日
發明者伍道金 申請人:伍道金