專利名稱:鼎立世界碼及其改進兼容鍵盤的制作方法
一種中文的編碼,由漢字及詞語的音碼與形碼和全角碼有機地組合而成。用普通英美鍵盤,當然更好是用其改進兼容鍵盤,對電子計算機等進行中文輸入;也可用于字典詞典等,對漢字及其詞語進行排序和檢索;也可用于用漢字及其詞語命名的事物進行排序和檢索。
漢字及其詞語的輸入法已不下千種,而鍵盤編碼輸入仍是主流。鍵盤輸入法有三種類型,音碼、形碼及音形混合碼。音碼有易學、創意輸入和聽讀輸入時不打斷思維、會讀不會寫的字和詞語也可輸入、好的音碼輸入碼短輸入速度也快等優點,但也有受方言限制和不會讀的字詞不能輸入的缺點。形碼一般重碼率低,錄入時很少使用數字選擇鍵,因此錄入速度快。另外,形碼雖然有不受方言限制的優點,但不能輸入會讀而不會寫的字和詞語。而音形混合碼,不但不能收到取長補短的效果,反而常常兩者之短相兼,而兩者之長又不能充分發揮。傳統的鍵盤輸入法,音碼、形碼或音形混合碼,各自自成體系相互需要切換進入,不能互相取長補短。現在的鍵盤輸入法也有幾百上千種,然而就裝入計算機以供使用的而論,不過十多種,而大家津津稱道的不過五六種,其中包括全拼、簡拼、雙拼、自然碼等普通話拼音輸入法。用漢語拼音方案輸入,如全拼輸入法,對于標準普通話者而且又有一定的拼音基礎的,可以說是一種不用學習的輸入法,但其輸入碼長,輸入速度慢。傳統的簡化拼音輸入法,如簡拼、雙拼、自然碼等,單純進行復韻母和雙碼聲母的單鍵化,即用一個碼鍵代替雙字母的聲母或復韻母,雖然達到了縮短輸入碼提高輸入速度的目的,但新定義的碼鍵多,有十幾個或三十多個,而且一個鍵常常具有兩三重意義,因此學習使用者的記憶量大而且又是機械記憶。這些簡化拼音輸入法,仍然沒有解決受方言限制問題,即對于方言者和普通話不標準者,為了分清一些聲母和韻母常感非常困惑,造成很大的輸入障礙。音碼還由于重碼多輸入時常需在十幾個或幾十個同音字詞中確定選擇鍵,很影響輸入速度,這是那些專業錄入人員很不喜歡的。這些便是音碼不太受歡迎的三大原因。有鑒于這些原因,對于絕大多數的鍵盤輸入法的使用者,拼音輸入法都只在用形碼無法輸入時才使用一下。傳統形碼,多為構件拼合碼,常有上百個構件(也有的叫字根、部件等等),多者可達兩三百,如五筆字型、表形碼等,而且不少構件很不符合傳統的識字教學規范。這么多的構件記住了還不行,還得理解掌握若干條界定不清的規則,因此學習困難使用時又難以把握,只好靠艱苦的強化訓練來解決,這便是如今“電腦培訓班”多如牛毛的原因。由此鍵盤輸入法的學習使用者,常感嘆道“速度快好用的實在難學,而易學的又實在難用。”在電腦已經成為“家用電器”進入尋常人家的今天,漢字及其詞語的輸入已經不是少數專業計算機或錄入人員的事,因此對輸入法不只是要求輸入速度快,更重要的是易學好用,當然速度快也得兼顧。本編碼中的音碼是普通話的簡化拼音碼,與傳統簡化拼音碼單純使用單鍵化不同,它主要根據漢語語音的內在規律對拼音方案進行改造和簡化,并配合適量的復韻母單鍵化。既達到了使記憶量更小和音節碼更短,同時還提高了對方言的適應能力。因此,比傳統的簡化拼音碼更易學好用也更快。本編碼中的形碼不是一般的構件拼合碼,而是一種具有漢字結構形態特征的雙筆形碼。它用二分法分得配件回避了對漢字構件的記憶,用雙筆數字碼區位定位法回避了復雜的碼和鍵的對應關系,二分法規則簡單界定確切容易把握,記憶量小容易學習使用,重碼率也很低,輸入時基本上不使用數字選擇鍵,因而輸入速度也很快。本編碼以音碼為核心,配以全角標點符號碼,然后引接入形碼和全角碼,三部分編碼分流而共存于一體(各占部分編碼空間互不產生重碼),使用時隨意輸入而不用切換,因此本編碼不僅達到了使音碼形碼相互取長補短的目的,而且實現了中文書面語音碼、形碼、全角碼全功能的鍵盤輸入。故這個《鼎立世界》中的三種碼的有機組合能使輸入碼更好用和更有利于提高輸入速度。
下面分別說明三部分碼的編碼方法,再說明《鼎立世界》的組織。
漢語拼音方案(可簡稱為國標拼音,參考《新華字典》附錄),產生于五十年代前期,當時的電子技術及信息處理技術水平很低,不存在漢字及其詞語輸入問題,或輸入只是少數計算機專家的事。該方案只考慮了為漢字標準注音并過度到用“拼音文字”替代漢字,沒有照顧到漢字及詞語的編碼輸入問題。按二十六個字母,最長音節六碼計算,可以產生約三百一十兆不同的編碼。這么大的編碼空間,只為了四百多個音節編碼,可見此方案必有大量的冗余成分可以縮減簡化,或有大量的空碼可以利用。另外北方方言的長江流域地區,即西南官話分區和下江官話分區,是南北焦匯之地,人口密度最大,經濟最發達。根據漢語學家們的研究,這些地方的北方方言共同有的語音現象,是一些聽覺相近的聲母韻母不加區分。其他的南方方言,甚至北方方言區的其他一些地方,在不同的程度上也有類似的現象,參看〔翟時雨《漢語方言與方言調查》西南師范大學出版社1988年5月;張志公《現代漢語》上冊人民教育出版社1983年7月〕。由此看來該方案把北京的方音定成普通話的標準音,本身就沒有照顧到漢語各方言的這一語音現實,也更沒有照顧到漢語各方言語音的共司發展的趨勢。根據漢語學家們的研究,漢語語音的發展,不管從聲母、韻母或聲調看,時至今日都有了很大的簡化。既然如此從現在起,以后有更進一步的簡化也不是不可能的。因為隨著科技和經濟的高度發展,特別是在現代傳媒的條件之下,人們之間用語言交流會更加頻繁,范圍也會更加廣闊,由此可知方言的近音性合并簡化恐怕也是一種客觀的趨勢。有鑒于這些原因,本拼音碼,著眼于改造漢語拼音方案,提出了近音合并、近音縮減及合理縮減三項技術,下面逐一進行解釋(一)近音合并是在聽覺上讀音相近而在不少的方言區又不加區分的一些聲母和韻母的合并。這雖然會造成有關音節重碼即同音字成倍地增加,但音碼重碼本來就很多,輸入時在幾十個與一百來個中進行選擇其難度實際上是差不多的,而方言者輸入時的語音障礙才是影響輸入的真正的主要矛盾。這樣做,在保證標準普通話者順利輸入的條件下,在無須使用方言容錯碼的條件下,縮短簡化音碼的同時又擴大了方言適應能力,這實在是一舉兩得的事。
(二)近音縮減是從復韻母或音節中縮減一些字母而又能在聽覺上維持相近的讀音或能產生與英文字母或國際音標相似的讀音,同時還要求不增加或極少增加重碼。
(三)合理縮減是在復韻母或音節中縮減一些字母而又不增加或極少增加重碼。
本發明把以漢語拼音方案為基礎,使用近音合并、近音縮減和合理縮減并配合適量的復韻母單鍵化所得到的漢字及其詞語的普通話拼音編碼,叫做普通話漢字及其詞語的科學簡化拼音編碼,簡稱科學簡拼碼。下面首先說明科學簡拼初級碼的I型碼,簡稱初級I型碼(CJI)的編碼,只說明相對于國標變化了的聲母和韻母,因為漢字的編碼即為其讀音的音節碼,也就是聲母和韻母的拼音。
(1)近音合并翹舌聲母到平舌聲母即ch合并到c、sh合并到s和zh合并到z;鼻音聲母n合并到邊音聲母l;定義字符/為韻母ü。為了簡單,分別用表達式表示之C(c,ch) S(s,sh) Z(z,zh) L(l,n)/(ü)表達式中,()外為碼鍵或碼鍵串,()中為其可以輸入的國標聲母、韻母或音節,每一項用西文逗號隔開。后面出現類似的表達式不再作說明。
(2)漢語拼音方案中字母y只用于拼外來語、少數民族語和方言,字母w是u的零聲母,y是i及ü的零聲母。實際上是三個不表示普通話語音的空閑字母,在此改用于分別單鍵化結合力最強的三個a行復韻母ai、an和ao。分別用表達式表示之V(ai) W(an) Y(ao)(3)縮減輔音韻尾ng的字母g。這樣韻母ang和ong實現了合理縮減,韻母en與eng和韻母in與ing實現了近音合并。分別用表達式表示之AN(ang) ON(ong) IN(in,ing) EN(en,eng)(4)其實韻母(eng),極少數情況下所拼得的音節或復韻母與韻母(en)所拼得的在聽覺上也明顯不同,即beng(崩)peng(碰)meng(盟)feng(風)ueng(翁)與ben(本)pen(噴)men(們)fen(分)uen(問)因此必須將它們分離開來。為此,除這極少數例外中的韻母(eng)單鍵化為/(eng)而外,其他情況下的韻母en(en,eng),都進一步近音縮減成n,即都進一步近音縮減成N(en,eng)。
(5)韻母uo、iou和ei及er分別近音縮減成o、iu、e和r,即可分別表示成O(uo) IU(iou) E(ei) R(er)。
(6)單韻母音節gu、ku、fu、hu合理縮減其單韻母u;其它聲母的單i韻母音節合理縮減其單韻母i,其中聲母j、q、x擴展到合理縮減它們的任意音節中的i。
聲母不能自成音節,因此為了便于呼叫和學習記憶,把規則(6)確定的單韻母音節取名叫做聲母音節,其對應的漢字(不考慮聲調)取名叫做聲母字。韻母除少數而外都能自成音節,不再引入相應的概念,自然也各有其對應的韻母字。現把科學簡拼的聲母及其對應的聲母字的代表字羅列于下g kf h ,bp m ,dt l ,jq x ,zc sr。
固 苦 復 護 比 批 米 地 體 力 級 起 系 子 此 是 日共計17個,既可以用這些字母鍵輸入科學簡拼音節的聲母,據規則(6)也可以用它們輸入所對應的聲母字。這17個科學簡拼聲母與國標聲母是完全相通的,所不同的是少了一個聲母碼n,和c、s、z及l四個聲母實際上具有雙重國標聲母功能。
初級I型碼的韻母如下,其后跟的漢字,是各自的韻母字的代表字。
單碼韻母a阿e俄i-n恩o喔我u無/于?w安v愛y奧,共十個;雙碼韻母ia壓ie也in應英io喲iu有iw驗iy要ua挖ue為un問u/翁uw完uv外/e月/n運/w員an昂on?ou歐,共十九個;三碼韻母ian樣uan往ion用,共三個。
以上所列韻母,不能自成音節無韻母字的有兩個(用?標注),即轟的韻母on(ong)和哼的韻母/(eng),后者只用于拼音節“崩碰盟風翁”。
初級I型碼的音節碼長1-4碼,其中只有ian uan兩韻母與聲母組成四碼音節。
初級I型碼有如下的優點和特點1.記憶量少。新定義的碼只有v、w、y和/四個(簡拼的單鍵化碼鍵為十二個,雙拼為三十來個),雖然合并縮減聲母韻母有十個以上,但有近音規律可循或是規則化的。2.碼短。音節碼長1-4碼,按使用頻度排序前千個漢字,積累頻度在90%以上,計算其單字平均輸入碼長小于1.98,低于簡拼2.22碼和雙拼。3.由于近音合并近音縮減,能在不影響標準普通話者順利輸入的前提下,和能在不加方言容錯碼的前提下,大大減輕方言者和普通話不純者的語音障礙,特別適合西南及長江中下游地區的北方方言者使用。4.不加容錯碼,不僅僅是可以減少重碼選擇的干擾。若堅持使用,還可以糾正那些聽覺上明顯不同的漢字的方音和錯誤讀音,令其逐漸皈依一種“準普通話”,這對推廣標準普通話是有利的。5.只有一碼為非字母鍵,容易實現DOS系統的命令及文件名的漢語拼音化。6.韻母碼和聲母碼完全分離(字母n的聲母功能已經合并,只有韻母功能,韻母中的字母g,已被縮減。),音節碼大多能自然分斷。7.從近音意義上看,除碼/(ü,eng)有兩個意義而外,一個碼表示一個意義。
要進一步使音碼好用和提高它的輸入速度,還可強化詞語輸入、對軟件優化和智能化。雖然這些屬于軟件的構思和編程問題,但編碼的特征也應當有利于此。第6.7.兩點,對于優化和智能化是非常有利的。由以上的特點可以說明,初級I型碼,由于記憶量更少碼更短又有強的方言適應能力,故更加易學好用和輸入速度也更快。事實上,就是對于沒有拼音基礎的初學者,只要讀準了十七聲母字和十來個韻母字,并借助它們記住相應的聲母韻母,就等于學會了本拼音輸入法。所謂的聲母字和韻母字,借鑒于古反切注音的“標目字”,但經過了改造和簡化一般說來是很容易掌握的。
如果對韻母an(ang)單鍵化,便能將它組成的少數幾個四碼音節轉變成三碼音節。當然,如果適當擴充更多的單鍵化韻母,不僅可以大大降低音節的平均輸入碼長,也可以使編碼的性能得到改善。在CJI碼的基礎上,擴充如下的復韻母的單鍵化](ang)[(in,ing)\(ong)(ou)其他保持與CJI碼上述(1)至(6)大體相同,則得到另一種改進了的科學簡拼碼,將其簡稱為科簡I型碼(KJI)。KJI碼只有單碼韻母和雙碼韻母,沒有三碼韻母。因此其音節碼長1-3碼與簡拼相同,按使用頻度排序前千個單字的平均輸入碼長為1.84碼,比CJI碼有了較大的降低,比簡拼和雙拼都短得多。單碼韻母十四個,除I、U和/(ü)外,都是音節的自然結束碼,即大大的提高了音節碼的自然分斷能力,這對于輸入軟件的優化和智能化是很有利的。KJI碼的聲母及聲母字與CJI碼完全相同,現只將其韻母及其代表韻母字羅列于下。
單碼韻母a阿 e俄 i-o喔我 n恩 u無/于? w安 v愛 y奧[應英]昂\?歐,共十四個;雙碼韻母ia壓 ie也 io喲 iw驗 iy要 i]樣 i\用 i有 ua挖 ue為 un問 uw完uv外 u]往 u/翁/e月/n運/w員,共十八個。
最后明說科學簡拼O型碼的編碼。雖然科簡I型碼有較高的音節自然分斷能力,但仍不能完全分斷。為此對于前述兩種科學簡拼碼,定義字符碼’、;和,分別為韻母i、u和/(ü)的“零聲母”,和用字符做“隔音符”,便可得到兩種音節能完全自然分斷的O型碼,即初級O型碼(CJO)和科簡O型碼(KJO)。
零聲母的使用法輸入雙碼韻母字、三碼韻母字或詞語中的韻母字時(包括單碼韻母字),首碼如果為i、u和/(ü),分別用字符碼’、;和,替換之。如漢字驗、挖和月,它們的的KJI碼分別為iw、ua和/e,使用零聲母變成KJO碼則分別為’w、;a和,e。漢字一、無和于,輸入它們的單字時,KJI和KJO的碼都分別為i、u和/,但在詞語中KJO的碼得分別改用其零聲母。如詞語一個、無限和于是KJI碼分別為ige、uxw和/s,KJO碼分別為’ge、;xw和,s。又如詞語第一、事務和給予KJI碼分別為di、su和ge/,KJO碼分別為d’、s;和ge。
隔音符的使用法輸入詞語中的韻母字時(包括單碼韻母字),如果首碼非i、u、/(ü),其碼前加隔音符。如漢字額、安和藹,它們的KJI或KIO音節碼都為e、w、和v,但詞語額外、安全和和藹,它們的KJI分別為euv、wq/w和hev,KJO碼則分別為e;v、wq/w和he,v。要注意,為了減少輸入鍵數,輸入單碼韻母字單字時不使用隔音符,也不使用零聲母。
O型碼比起I型碼有如下的兩大優點和特點其一是韻母碼和聲母碼完全分離,音節碼完全能自然分斷;其二是凡以單碼韻母開頭的兩碼以上的碼,必然是非科學簡拼碼,即它的空碼。前者對輸入軟件的優化和智能化很有利,而后者是使用單碼韻母,引接入全角碼和其他種類的漢字及其詞語的編碼,使其只占據科學簡拼碼的空碼空間而不會與它產生重碼的原因。簡單地說,這便是科學簡拼O型碼能與其他編碼組成《鼎立世界》的根據。
科學簡拼單字碼及詞語碼漢字的科學簡拼碼便是它們的音節碼,雙字詞便是兩個漢字的音節碼。音節碼的絕大多數是由聲母和韻母兩部分組成,但聲母字和單碼韻母字只用其對應的單碼,雙碼韻母字或三碼韻母字雖然也有兩碼或三碼,但也沒有聲母。三字詞語由前兩字的音節首碼和末字的音節碼組成;四字與四字以上的詞語由前三字音節的首碼和末字的音節碼組成。自然這些首碼對于O型碼都應該使用零聲母或隔音符,特別值得注意的是那些只取首碼的韻母字的碼實際上變成了零聲母’、;、,或隔音符.。例如詞語安全第一其碼為.qd’,又如詞語營業員其碼為.’,w。
本發明中的形碼叫做配件雙筆碼,下面說明它的編碼法。
漢字的基本單元是筆畫,筆劃在漢字中又常常組成一些中間層次的結構——構件。漢字的筆畫繁多、結構及形態復雜,所合有的信息非常豐富,其編碼不必也不可能包含它的所有信息。但提取哪些信息才最有效,使規則最簡單,使記憶量最少又更符合傳統,使編碼短而重碼率又低,以達到最容易學、最好使用輸入速度又最快,這卻是個很大的難題。最簡單易學的形碼莫過于“筆畫碼”,特別是依筆順的筆畫碼,但難于克服的毛病是碼長重碼率高。其次是構件拼合碼,雖然能做到碼短重碼率低,但構件(字根)太多,其中不少與傳統的又很不相符,很難記憶,漢字的拆分規則及碼與鍵的對應關系復雜,不易學習和把握。本形碼的實質無非是漢字的選打雙筆碼法,所謂漢字的結構形態解析方法等,不過是為了建立一種科學的漢字雙筆碼的選擇規則。(1)漢字的構件一般的說,漢字是一種構件和筆畫的組合。根據傳統,構件分成部件和字件兩種,分別解釋于下部件——兩筆畫或兩筆畫以上的非漢字偏旁部首,因此簡稱部件,以《新華字典》的部首表為標準。
字件——兩筆畫或兩筆畫以上的字中字,因此簡稱字件,包括《新華字典》的部首表中羅列的漢字部首及漢字中某些筆畫略有變化的近似漢字。(2)結構形態解析法及漢字的結構形態序列1.解析手段及禁戒。漢字的結構復雜,形態萬千,一般都認為復雜得不得了,如果不用某種規則限定,必然造成解析過細而不切實用的毛病。本形碼只用兩種手段在一定的規則下對漢字的結構形態進行解析,即用“剖”法和“挖剝”法。分別解釋于下剖——對構件橫排列或縱排列的結構分別施行縱剖或橫剖法。注意每次剖出的兩部分中必須起碼有一部分是構件,而且任一部分不能是單筆畫。例如“軋”,如果對它施行縱剖,兩部分中雖然有一部分是部件車旁,但另一部分是單筆畫,因此被認為是“不可分的”。再如“奉”,按照一般的理解是一種上下結構字,可以施行橫剖法。但是,上部分雖然有人把它叫做“春字頭”,可是《新華字典》的部首表中并沒有把它列成部首,因此不認為它是部件,即不是構件。而下面部分,也既不是部件更不是字件,即不是構件,所以也被認為是“不可分的”。對于“插”,第一次縱剖出左面的部件扌后,還可第二次橫剖出上面的字件 和剩下下面的字件臼。
挖剝——對包夾型結構施行挖剝法。挖剝法的禁戒較剖法為寬,即分出的兩部分中盡可能有一部分是構件,但任一部分仍然不能是單筆畫。如上所舉的“插”字還可進行第三分,在字件臼中“挖”出一個非構件--余下一個非構件 雖然兩部分都不是構件,但因為是包圍結構所以這種分法也是許可的。所謂包夾,是漢字的一種結構形態,包括如下的一些情況包某一角的兩方者,如遠、屆、戒、頭等等。包三方者,如匡、 向、而等等。包四方者,如國等。夾分成兩種情況,一是某一可獨立使用的漢字被分成兩部分其間夾入一物,如哀、衡、胤等;其二是橫或縱三排列漢字,其左右或上下兩邊形態相近,如辯、胤等。另外對于少量櫻花形結構漢字,如器等也把它歸入包夾型漢字。
構件或筆畫組合間,有相交或共同的筆畫是絕對不可分的。例如“東”,其中的小五筆字型碼把它看成是一個字根,在此也可認為它是一個字件。可是,如果對它施行橫剖必傷及它的豎鉤,因此被認為是“不可分的”。又如“重”,可以看成是字件“千、里”或“千、甲、土”或“千、申、土”或“千、由、土”等組成,可是不管怎么剖都必傷及字件間的共同堅劃,所以也被認為是“不可分的”。
2.解析規則。有了1.中的解析禁戒,對漢字實施解析實際上是不夠的,因為常常出現多種不同的分解可能性,這樣編碼中必然出現大量的冗余碼。為此每次的解析的著落處的確定必須遵從如下的優先規則從字件處分、從部件處分、從大件處分、從前件處分。例如“塞”,第一分就有兩種可能的橫剖法,按從字件處分的規則應該分出字件土而不是部件宀。第二分也有兩種可能的橫剖法,但應分出的是字件 而不是雖然大但是部件的宀。第三分按從部件處分的規則才橫剖出部件宀,最后剩下一個不可分的筆畫組合 又如“寨”,只能按從部件處分的規則橫剖出部件宀,余下的部分汬雖然很復雜而且其中還有字件 但為不可分的。因為其下部的 非木非水,《新華字典》的部首表中也沒有,因此木水既不是部件更不是字件,看似三部分縱排列,但也不屬于包夾結構,以至于剖挖都無法施行。再如“產”,有三種可能的橫剖法,從部件亠處分、從字件廠處分或從字件立處分,但按從字件處分和從大件處分的規則,應該在立字處分,可是這樣分出現了單筆畫丿,因而產字是不可分的。再看“貴”,其中有兩個相等的字件,按從前件處分的規則應橫剖出字件 剩下的筆畫構件組合頁不能再分了,因為按從字件處分或從大件處分的規則分出字件貝會出現單筆畫。
3.配件及主體以及漢字的結構形態序列。用兩種解析手段將漢字一分為二,把筆劃較少的部分叫“配件”,另一部分稱之為“主體”。按此可分出如下六種結構形態的漢字左配件型、右配件型、下配件型、上配件型、核配件型和殼配件型,加上不可分的獨體型共計七種結構形態。如果漢字所分成的兩部分的筆劃數相等,將其分別歸入右配件型、下配件型或核配件型。當然,如果符合條件,對于“主體”仍可繼續分解之,而且仍然可能產生出如上的七種結構形態的主體來。因此,兩種解析手段不僅使用于漢字,也推廣使用于解析漢字的過程中產生的“主體”。“不可分的”獨體型也是漢字的一種結構形態,可以把它看成是無配件型,它有兩種情況。其一是純筆畫組合,如事、東、重等。其二是雜散構件,如釋、能、疑等,注意它們雖然都有兩個以上的離散構件但都是不可分的。
由以上的敘述可以看出,對一個漢字重復一分為二地解析之,總能將它分解成以不可分的主體結束的配件序列,對于這些配件和最后主體的有序總體,不妨把它叫做該漢字的結構形態序列。如“插”第一分得左配件扌、第二分得上配件千、第三分得核配件非構件 第四分得右配件非構件 最后剩下一個雖是部首但不可分的主體 即“插”的結構形態序列為扌 漢字的結構形態序列,是漢字的一種特征信息,可以用它作為漢字的編碼信息,配件雙筆碼實際上就是建立在這個的基礎之上的。(3)雙筆碼1.筆型碼及雙筆碼。漢字的筆畫可以分成很多種類型,而且分法各有不同,可以用數字1-9做它們的編碼。但從雙筆的兩個數字碼在鍵盤上的區位定位轉變成字母或字符碼(簡稱雙筆碼)的需要,一般以分成三到十種為宜。這樣在鍵盤上按區位定位可產生九到一百種雙筆碼,太少實用價值不大,太多會使鍵盤太大也不符合實際使用。在此推薦分成如下五種筆型,可產生二十五種雙筆碼適合于普通計算機鍵盤,()中為其各自的筆型數字碼橫(1);豎(2);撇挑(3);點捺(4);彎折鉤(5)。
2.雙筆數字碼。漢字的結構形態序列中的配件或最后主體,按筆順首末、第二第三、第四第五和第六第七等,直到無筆畫或剩余一個單筆畫為止,取一對或多對雙筆數字碼。但對于只有三劃者,卻不按首末而按第一第二取一對雙筆數字碼。
3.雙筆碼在鍵盤上的實現。在普通英美鍵盤上,把二十五個字母鍵分成五個區每區分成五個位,按2.中得到的兩個筆型數字碼,其前筆畫的數字碼對應于區號,后筆畫的數字碼對應于該區的位號,則按下此鍵就相當于打入此雙筆畫。字母碼鍵與區位的對應關系可規定如說明書附圖
(一)。與此類似,在鼎立世界碼改進的兼容鍵盤上,字母字符碼鍵與區位的對應關系可規定如說明書附圖(二)。(4)字型碼漢字可以分成很多種類型,而且分法各有不同,可以按漢字的讀音、形體、某部位的筆形或構件、結構形態等等進行分類。但類型總數以少于科學簡拼碼的單碼韻母數的總和為宜,以便用其做引接碼。在此為配合O型碼的需要用漢字的結構形態信息把字型分成如下的十種,()中即為科學簡拼的十個單碼韻母定義的“字型碼”左下(v),左上(e),左包夾(w),左其它(a);右上下(o),右其它(/);包夾(y);下(n);上(u);獨體(i)。下面分別于以解釋之1.左配件型漢字特別多,其次是右配件型,因此按第一分左配件型或右配件型和第二分的配件型,將左配件型分裂成四種字型,將右配件型分裂成兩種字型。例如“插”,第一分為左配件扌,第二分為上配件 因此插字屬左上型,其字型碼為e。2.核配件型和殼配件型漢字比較少,因此將兩者合成一種字型——包夾。3.其他三種配件型漢字,各自獨立成為一種字型。(5)漢字碼漢字的編碼,一般說來由一個字型碼和零到多個雙筆碼組成。在此以最多取四個雙筆碼為限,即加上字型碼漢字的總碼數小于等于五。第一碼為引接碼字型碼,接著按漢字的結構形態序列,每一個配件取一個雙筆碼,第一分如果為右、下或核配件四劃以上取兩個雙筆碼。不足四個雙筆碼者,用最后主體的雙筆碼添補到最多四個雙筆碼。多于四個雙筆碼者,用最后一個配件的雙筆碼做第四雙筆碼。對于獨體字型中的純筆畫組合漢字,按無配件型對待在字型碼i后取0-4個雙筆碼添補。對于獨體字型中的雜散構件型漢字,在字型碼i后,按書寫次序每構件取一雙筆碼,不足四碼者把剩余的筆畫組合起來取雙筆碼添補之,多于四碼者以最后構件的雙筆碼作第四雙筆碼,對可分漢字的最后主體是雜散構件型的也如法炮制。
下面例子的雙筆碼的區位參看附圖(一)。例如“插”,恰好四個配件一個最后主體,字型碼左上型碼為e,其后依次為第一分左配件扌碼為a,第二分上配件 碼為t,第三分核配件非構件 碼為g,第四分右配件非構件 碼為n,得漢字碼eatgn。可以看出,對于最后主體 不管不問。再如“譫”,共有六個配件一個最后主體,字型碼也是左上型碼為e,其后依次第一分左配件讠碼為p,第二分上配件 碼為q,第三分殼配件廠碼為d,最后取第六分下配件 碼為g,得漢字碼epqdg。可以看出,中間第四配件 和第五配件 不取雙筆碼,對于最后主體一仍然不管不問。又如“貴”,只有一個配件一個主體,字型碼上型碼為u,其后是上配件 碼為j,然后取主體頁的雙筆 碼為s和雙筆 碼為 添補之,得漢字碼ujsm。可以看出,主體只有五劃只能添補兩個雙筆碼,共有三個雙筆碼,如果主體的筆劃數在六劃以上便能夠補足到四個雙筆碼。如“寨”的編碼應該為uosfh。由這個例子可知“是”字的編碼應該是nldhn,其中下配件非構件 取兩個雙筆碼,主體字件 添補兩個雙筆碼。如果配件雙筆碼與科學簡拼O型碼分離使用,因為無須引接碼,也可以把字型碼放在最后作為重碼區分碼。(6)詞語碼雙字詞的編碼由第一字的字型碼和前兩個雙筆碼加第二字的前兩個雙筆碼組成;三字和四字詞語的編碼由第一字的字型碼和各字的首雙筆碼組成;五字及五字以上的詞語的編碼由第一字的字型碼和前三字及最后一字的首雙筆碼組成。如果配件雙筆碼與科學簡拼O型碼分離使用,因為無須字型碼做引接碼,則可以使用詞語的最后一字的字型碼并放在詞語碼的最后作重碼區分碼。
用鼎立世界碼改進兼容鍵盤的十個數字碼與十個字型碼的鍵位關系建立對應關系,獨立使用的配件雙筆碼,在字或詞編碼之后的字型碼還可改作數字碼,即字型碼a、w、e、v、n、y、u、i、o及/分別改作數字碼1、2、3、4、5、6、7、8、9及0。如此,重碼區分碼又兼作輸入碼的結束碼,輸入時可以大量減少空格鍵的擊打以提高輸入速度。(7)為了第一雙筆碼的均衡和減少重碼,安排了如下的調配碼第一分下配件心字底只取一個雙筆碼;第一分左配件主體是部首“隹”或字件“頁”時,左配件四劃以上取兩個雙筆碼。漢字第一分氵旁左配件取非區位字母字符作碼,即用z代替其碼o;第一分犭和馬旁左配件分別取區位碼為41和51,即分別取碼為y和n,或對于鼎立世界碼改進兼容鍵盤即取碼t和y;作為配件的口或日曰,以首劃以外的筆劃數做位碼,即分別取j或k;第一分為钅旁和火旁左配件的漢字,用字母i做字型碼。
配件雙筆碼對國標GB2312-80漢字的編碼的重碼率為5.86%(被合并的重碼數與字詞總數之比)。加上詞語后,總編碼數達21574,計算所得重碼率為4.46%。其中單字的重碼較高的原因是只有一個或兩個雙筆碼的簡單單字的重碼所造成的,因此有字詞集越大重碼率越低的現象。由于其重碼率低,如果對重碼漢字按使用頻度進行排序,輸入時基本上可以不使用數字選擇鍵。把UCDOS中的WB.IND文件(五筆字型編碼文件)反編譯,其總編碼數為24167,計算重碼率為6.98%。除去容錯碼、簡碼和同碼同字者,得總編碼數為19572重碼率實為6.56%。對其進行配件雙筆編碼,然后計算所得的重碼率為4.51%。從上面的數據比較可知,配件雙筆最長碼比五筆字型多一碼但重碼率更低。由于規定漢字的部件以《新華字典》的部首表為標準,本編碼不僅適合于簡體漢字,也能含蓋繁體漢字的編碼。如果在更大的漢字集(如中日韓漢字統一編碼集)和更大的漢字詞語集的情況下,那些最長碼四碼的25碼元的形碼,其重碼率可能增大到使使用者無法忍受的程度。可是配件雙筆碼,一因為其編碼空間要大十倍以上,二因為五劃以下的簡單漢字的重碼率會更小,因此可以期望重碼率比4.46%更低的結果。配件雙筆碼除了以上所說的重碼率低而外,還可看出,它的基本概念自然而簡單,界定確切,符合六書造字規律,符合傳統識字教學規范。分取配件的規則及雙筆碼區位定位規則簡單而界定確切,容易理解把握。構件之中,除去字件無需記憶而外,部件不過五六十個。都是大家所熟知的并不需要查看《新華字典》的部首表,而且在分取配件時,只在一些情況下作是否有構件的判斷,并不象其他形碼那樣處處都要進行構件識別取碼,因此對這些部件實際上也根本不需要加以記憶。利用本編碼輸入漢字時,實際上相當于先看字的大體形態打入字型碼,然后再深入字的細微結構筆畫選打一些雙筆畫,符合一般的閱讀識字的心理習慣。通過這些可以說明配件雙筆碼,記憶量少、碼不太長、規則簡單、重碼率低、符合對漢字的傳統理解和使用習慣,是一種易學好用速度快的漢字及其詞語的編碼。
全角標點符號碼全角標點符號直接使用相對應的西文字符做編碼,從鍵帽上的符號就可得到其編碼或有關的聯想信息,無須特別如以記憶,配合數字鍵選擇可輸入全部的全角標點符號,現將其全部編碼羅列子下,{}外為碼鍵,{}中為可輸入的全角標點符號,每一個用空格隔開。
]]{『 』}``{、~‘’}’{′″“”},{,<>} .{。《》……} //{?!/};{;§} [[{()〔〕「 」〖〗}全角字符碼中文非漢字部首可以用引接碼]及日本假名可以用引接碼\加上其各自的配件雙筆碼作編碼;其他全角字符可以用引接碼\加上它們的助記名稱的簡化KJI碼進行編碼。如下所示,{}外的助記名稱之后為其碼串,非漢字部首及日本假名無助記名,{}中為其可輸入的全角字符,每個字符間由空格隔開,同名的字符用數字鍵選擇確定,下面為編碼舉例。
非漢字部首碼 日本假名的舉例從略。
數\s{1 2 3 4 5 6 7 8 9 0}序\x{1.2.3.4.5.6.7.8.9.10.⑴⑵⑶⑷⑸⑹⑺⑻⑼⑽①②③④⑤⑥⑦⑧⑨⑩㈠㈡㈢㈣㈤㈥㈦㈧㈨㈩}制表符有橫\hn,橫上\hs,橫豎\hsu,橫下\hx,角右上\jis,角右下\jix,角左上\jzs,角左下\jzx,豎右\si豎\su;豎左\sz,虛橫\xh,其具體內容從略。
數理符號數理\sl其具體內容從略。
西文字母字母\zm??表示某字母對應的鍵盤字母,其具體內容從略。
鼎立世界碼的組織。科學簡拼有十個或十四個單碼韻母,如果需要和可能還可擴充更多的單鍵化韻母。以單碼韻母做首碼兩碼以上的都是科學簡拼O型碼的空碼。配件雙筆碼用O型碼的十個單碼韻母定義了漢字的字型碼,如果用它與KJO型碼組成《鼎立世界》,還余下、[、]和\四個韻母鍵所轄的空碼空間,可保留作其他特殊碼的編碼空間。上面所述及的部首碼、日本假名碼和全角字符碼就是利用的單碼韻母]和\所轄的空碼空間。再加上全角標點符號碼,組成了能實現中文書面語全功能輸入的鼎立世界碼。只要用O型碼的這十個字型碼做引接碼,也可以用其他的漢字及其詞語的形碼替換配件雙筆碼組成另一種《鼎立世界》。例如,將五筆字型的編碼前加入漢字及其詞語的首字的字型碼,就可組織成適合會五筆字型的人輸入的《鼎立世界》。
科簡O型碼共有324個音節,其中單碼音節(聲母字和單碼韻母字)30個,雙碼音節215個,三碼音節79個不足總音節數的四分之一。在已經熟練或經過訓練的情況下,許多常用的字詞的選擇鍵或能記得或有印象,把它當做形碼的簡碼使用,其功能遠比一般形碼的簡碼強得多,因為數量很多又無須記憶。例如按頻度排序前一百個漢字中,科簡碼的單碼字有二十個,三碼字有九個,其余都是雙碼字,而且它們的絕大多數都是可以用空格代替選擇鍵的。五筆字型對應的情況分別是二十五個單碼字,八個三碼或四碼字,其余也是雙碼字,情況基本上相當。但是事實上,把按頻度排序的前千個漢字當做簡碼看待,也是絕對不會增加新記憶的,而且能自然地擴展到它們的詞語的輸入。使用科學簡拼還可以輸入不會寫的字和避免出現錯別字。反之,許多不常用字、冷僻字和不能認讀的,用配件雙筆碼或其他形碼又可避免用科學簡拼需要查字典和進行重碼選擇。由以上分析可以看出,兩種碼結合在一起確實能相互取長補短,再加上全角標點符號、字符、非漢字部首、日本假等等,隨意輸入而不用切換,自然是一種非常良好的使用狀態,能使輸入碼更好用和更有利于提高輸入速度。
鼎立世界碼的普通英美鍵盤功能定位,如說明書附圖(一),鼎立世界碼的改進兼容鍵盤的功能定位,如說明書附圖(二),其中只列出了有關的字母及字符鍵,每一個矩形方格表示一個字母或字符鍵,在方格最上部之左標出了該鍵的本然鍵符,即西文字母字符功能即漢語拼音方案的字母功能,除鍵N、V、W和Y科學簡拼已移作他用而外與科學簡拼是相通的。字母字符之右的漢字是其聲母字,其下是韻母字或是用國標拼音標注的科學簡拼附加功能,表格中帶*的是i、u或ü的零聲母或隔音符,其他是配件雙筆碼的附加的功能。可以看出,鼎立世界碼的改進兼容鍵盤只是把普通英美鍵盤的一些字母字符鍵的位置作了調整,即主要把KJO碼的單碼韻母鍵調整到靠近數字鍵的第一行上。這種鍵盤既可有利于幫助功能記憶也有利于輸入時兩手的規律移動(音碼輸入時聲母→韻母→數字;形碼輸入時引接碼即韻母→普通字母字符→空格)。兩圖中附加標注的功能,在實際鍵帽上并不需要標注,因為其數量很少而且很有規律,很容易記憶。
本發明在UCDOS 5.0V進行了實施,對GB2312-80的6763個漢字和約一萬五千漢字詞語進行編碼并附加了全角標點符號和常見字符的編碼,編譯成了CJI.IMD、KJI.IMD、PJ.IMD、DL.IMD和KJWB.IMD五個碼表文件。其中CJI是初級I型碼,KJI是科簡I型碼,都是一種獨立使用的科學簡拼碼,后者比前者增加了四個單鍵化復韻母,前者記憶量最少后者平均輸入碼最短,都能自定義詞語,兩者的方言適應能力都很強特別適合于長江流域的北方方言者,前者還可用于為DOS文件名及命令進行漢語拼音化。PJ是獨立使用的配件雙筆碼,采用模糊搜索模式,字型碼做區分碼放在輸入碼的最后,輸入時可不予以輸入,初學時可以不學習記憶字型碼,學習使用起來更容易一些,有的人對拼音特別困難只學形碼的可學習使用PJ碼。CJI、KJI、PJ都各自都配備了全角碼,以方便輸入。DL是鼎立世界碼,是本發明最健全的輸入編碼方案,學習時由CJI到KJI和PJ,再到DL并不會是走彎路,不過循序漸進而已,但直接學習DL也并不難。KJWB是KJO、五筆字型及全角碼組成的《鼎立世界》,會五筆字型的人想使用科學簡拼碼可以使用它。
權利要求
1.一種中文編碼,最長碼6碼,用英美鍵盤的35個下檔字母字符作碼元,余下的兩個下檔字母字符及十個數字鍵供作重碼選擇之用,其特征音碼、形碼及全角碼共存于一體而各占部分編碼空間,使用時不用切換,而相互間不產生重碼;其中音碼主要根據語音內在規律對漢語拼音方案進行改造簡化并配合適量的復韻母單鍵化,聲母和韻母碼是完全分離的,并使各聲母韻母碼在近音意義上只有一個意義,首碼為i、u、ü的韻母各有一個零聲母,其他韻母有一個共同的隔音符;用音碼的單碼韻母做引接碼,引接入全角碼(其中全角標點符號直接用相應的西文字符做編碼)和某種形碼。
2.根據1.的敘述其特征聲母c和ch、s和sh、z和zh以及l和n分別近音合并成c、s、z以及l;用字符/定義韻母ü,國標音節beng,peng,meng,feng,ueng中的韻母eng單鍵化成字符/,其他情況下的韻母en和eng都近音合并后再近音縮減成n,韻母in和ing近音合并后再單鍵化成字符[;韻母ai、an、ao、ang、ong和ou分別單鍵化成字母字符v、w、y、]、\和;韻母uo、ei和er分別近音縮減成o、e和r;音節gu、ku、fu和hu合理縮減其單韻母u,其他聲母與單韻母i拼得的音節合理縮減其單韻母i(其中聲母j、q和x縮減i擴展到任意音節);以i、u、ü為首碼的韻母分別定義字符’、;和,為零聲母,其他韻母定義字符.為隔音符;用漢字的第一分、或第一與第二分的結構形態信息,將下列十個單碼韻母定義成字型碼以做漢字字詞形碼的引接碼,左下型編碼為v、左上型編碼為e、左包夾型編碼為w、左其他型編碼為a,右上下型編碼為o、右其他型編碼為/,包夾型編碼為y、獨體型編碼為i、下型編碼為n、上型編碼為u。
3.根據2.的敘述其特征解除復韻母[(in,ing)、](ang)、\(ong)和(ou)的單鍵化并縮減韻尾ng的字母g,復韻母iou近音縮減成iu。
4.根據2.或3.的敘述其特征引接碼后的形碼編碼是解析漢字得到的結構形態序列中的配件與最后主體的雙筆碼,而且這些雙筆碼是該雙筆的筆型數字碼在鍵盤上按區位定位得到的。
5.根據4.的敘述,其特征是一分為二解析漢字時受下列解析規則制約5.1分解出的兩部分不能有某一部是分單筆畫,構件間、筆畫組合間或構件筆畫組合間有相交或公用筆畫不能分解。5.2剖出的兩部分,起碼有一部分是構件;挖剝時要盡量使某一部分是構件。5.3解析漢字時注意遵從在字件處分、在部件處分、在大件處分、在前件處分,這四個規則有所列的優先次序。
6.根據5.的敘述其特征定義下列五種筆型數字碼,橫編碼為1、豎編碼為2、撇挑編碼為3、點捺編碼為4、彎折鉤編碼為5;漢字的結構形態序列的配件或最后主體按筆順首末、第二第三、第四第五、……順序取雙筆數字碼,但只有三劃者按筆順第一第二取雙筆數字碼;漢字每一配件取一個雙筆碼,但第一分右配件、下配件和核配件四劃以上取兩個雙筆碼,最后主體的雙筆碼數只受自身的筆畫數限制。
7.根據6.的敘述,其特征是每一漢字最多取四個雙筆碼,配件雙筆碼多于四個者取最后配件雙筆碼做第四雙筆碼,配件雙筆碼不足四個者用最后主體的雙筆碼添補到最多四個雙筆碼;作為配件的口或日曰,用首劃筆型數字碼做區碼剩余筆劃數做位碼即各取j或k作碼;漢字第一分下配件心字底只取一個雙筆碼,漢字第一分左配件的主體是部首“隹”或“頁”時,其左配件四劃以上取兩個雙筆碼;第一分左配件氵旁用非區位字母字符作碼即用字母z替換o;第一分左配件犭或馬旁各取41和51作區位數字碼,即各取碼y和n或對于改進兼容鍵盤各取碼y和t;第一分左配件钅或火旁漢字用i做字型碼。
8.根據7.的敘述,其特征是音碼獨立使用,或不使用零聲母’、;、,和隔音符。的情況下獨立使用音碼。
9.根據7.的敘述,其特征是獨立使用形碼,或改字型碼為字詞的最后漢字的字型碼(或再將字型碼a、w、e、v、n、y、u、i、o及/分別改成數字碼1、2、3、4、5、6、7、8、9及0)并放在編碼的最后獨立使用。
10.一種電子計算機輸入鍵盤,其特征是將普通英美鍵盤的單碼韻母鍵A、V、N和/掉換到最靠近數值鍵的一行上,使十個單碼韻母鍵的順序如下AWEVNYUIO/。
全文摘要
鼎立世界碼,內含字詞的音碼科學簡拼、形碼配件雙筆和全角字符碼。三種碼共用英美鍵盤的35個下檔字母字符碼元,互不產生重碼,隨意輸入而不用切換,實現了音碼形碼相互取長補短,實現了中文書面語的鍵盤全功能輸入,各碼鍵的功能可參看附圖。音碼音節1—3碼,單字的平均輸入碼長約1.84,碼短輸入速度快學習記憶量也很小,方言適應能力很強,特別適合于西南和長江流域的北方方言者使用,但又不影響標準普通話者輸入。形碼,不記構件(字根),只記五個筆型數字碼和十個字型碼,輸入時打入一個字型碼和按規則選打零到四個雙筆碼,規則簡單易學好記,它的重碼率低輸入速度很快,特別適合于輸入不常見和冷僻字詞。
文檔編號G06F3/023GK1285542SQ00125930
公開日2001年2月28日 申請日期2000年8月30日 優先權日1999年9月16日
發明者陳遠云 申請人:陳遠云