專利名稱:音型結合漢字編碼法的制作方法
技術領域:
本發明涉及電子計算機領域中的漢字編碼技術。
迄今,涉及漢字編碼的方案有幾百種,這些方案可簡略地劃分為下述三類第一類為《數字命名法》,即指定某漢字為某碼,如常見的《區位碼》、《電報碼》等等。在區位碼中指定“歡迎”兩字的編碼分別為“2722”和“5113”;在電報碼中指定“浙江”兩字編碼分別為“3181”和“3068”。這一類編碼的特點是漢字與編碼之間是一一對應的關系,即每一個漢字對應唯一的編碼,同時每一個編碼也對應唯一的漢字。其主要缺陷是規律性不強,又加上有上萬字的漢字編號,在使用時很難記住。
第二類是《拼音編碼法》,即用漢字的拼音來代替一個漢字。其特點是簡單易學,目前應用較廣。但其主要缺陷是“重碼”多,是一種“高重碼”類的漢字編碼。如在計算機上用《拼音編碼法》找“瀑”字,先輸入“PU”,由于讀“PU”音的字有近二十個,而“瀑”字在第十五個,于是計算機就是全部顯示出來讓人選擇,這樣會使挑字速度受到較大的限制。同時由于受地域的影響,對普通話發音不準確的人在應用上仍有不便之處。
第三類是《拼型編碼法》,即根據漢字方塊字的特點,將它拆分成幾個部分,每個部分用一個字符來表示。如APPLEⅡ上使用的《倉頡編碼法》和PC機上使用的《五筆字型》以及某些字典上使用的《四角號碼查字法》都屬于這一類編碼。其特點是借助“口訣”記憶來獲得某漢字(或字根)與字符的對應關系,在熟練的基礎上使用,此類的編碼正確性高,處理得當,可減少“重碼率”。但其缺點是在剛開始學習時要記的東西較多,常常使很多人望而卻步。
本發明的目的是提供一種由拼型編碼和拼音編碼相結合的、適于計算機上應用的音型結合漢字編碼法;另一目的是由單字全碼、單字簡碼和詞匯編碼音型結合漢字編碼法。
本發明音型結合漢字編碼法,由拼型碼和識別碼所組成,先將漢字進行拆分,對拆分后的每個部分用規定的代碼來表示。所謂每個部分用的規定代碼是取自拆分讀音的第一位字母,即稱為拼型碼;所謂的識別碼是取自漢字沒有拆分的讀音的第一位拼音字母。
本發明音型結合漢字編碼法與已有技術相比,具有如下優點一是編碼簡單易記。本法在編碼上采用了語音記憶和形象記憶,使編碼簡單,記憶量減少,記憶難度降低。克服已有《拼型法》由口決來記憶部首代碼的缺點。“識別碼”是減少重碼的關鍵,《五筆字型》中采用的15個末筆字型交叉識別碼,必須死記后才能靈活運用,而本法采用該字拼音的第一位字母作為“識別碼”,記憶容易;二是“重碼”機會少。已有重碼數最少的《五筆字型》漢字編碼,它為了區別如“旭、旮”和“叭、只”等漢字用了15個末筆字型交叉識別碼,而本法根據漢字讀音的不同用了23個拼音碼來區分;三是受語音限制性少。《拼音編碼法》對普通話發音準確性要求高。而本法在編碼時只取漢字(部首)讀音的第一位拼音字母,所以對一些分不清聲母Z和ZH、C和CH、S和SH以及韻母ian和ie、en和eng、in和ing等的人來說,不會引起編碼上的困難;四是拆字更為直觀。在“五筆字型”中,由于只有130個字根,于是出現很多日常的部首需要拆分的現象,如“牛”字旁就得拆成“丿”和“才”,“犭”旁拆成“
”和“丿”,“饣”旁拆成“
”和“
”等,“犢”字要拆成“丿才十大”,這樣造成了一定程度上的不直觀,而本法基本上不存在這種問題,如“犢”拆分為“牛十買”,“型”拆分為“開刂土”等,拆后直觀。
下面結合實例對本發明作詳細說明。
《拼型編碼法》是根據漢字方塊字的特點,把漢字拆分為幾個部分,每個部分用規定的代碼來表示。但本發明的代碼基本上是取自拆分部分讀音的第一位拼音字母,如“音”字拆分為“立”和“日”兩個部分,在取代碼時則取它們讀音的第一位拼音字母,由“立”的拼音為LI,“日”的拼音為RI,得拼型碼LR。為了有效地區分諸如“旭”(Xù)和“旮”(gā)這一類拆分部分的編碼相同而實際上不相同的漢字,本發明應用了識別碼-拼音碼,該碼取自漢字讀音的第一位拼音字母,如“音”字讀yín,則它的拼音碼為Y,得《音型結合碼》為LRY。又如“旭”字的編碼為JRX,“旮”字的編碼為JRG,其中X和G是由“旭”的拼音XU和“旮”的拼音GA,取它們各自拼音的第一個字母而獲得。
本發明取碼的注意事項和常用部首代碼日常使用的字典中,一般有180-300個部首(包括部首變形)。這些部首絕大部分有一個習慣讀音,所以我們取它第一位拼音字母作為該部首的代碼。為了克服因地域而造成的發音問題以及為了漢字能均勻地分散到各代碼為首的編碼中,在取碼時注意以下幾點
1、因很多人不能很好地區分“L,N”這兩個聲母,這里規定所有聲母為“N”的部首或漢字,其代碼及拼音碼均以“L”來代替。如部首“牛”“女”的代碼都用“L”,“孬”字的編碼為“BLZL”。
2、規定讀YO及以后至YUN(包括YO、YOU、YU、YUAN、YUE、YUN)音的部首和漢字,代碼規定為“U”,如部首“魚”“雨”“月”的代碼均為“U”,“韻”字的編碼為“LRUU”。
3、規定部首“蟲”的代碼為“Q”,部首“木”的代碼為“F”,如“蠢”字編碼為“CQQC”,“蝶”字的編碼為“QSFD”。
4、規定“氵”“
”的代碼為“A”,“纟”的代碼為“E”,“扌”的代碼為“I”,“亻”的代碼為“P”。
例漢字拆分拼型碼拼音碼總編碼浙氵扌斤AIJZAIJZ紅纟工EGHEGH您亻爾心PEXLPEXL肥月巴UBFUBF鯊氵少魚ASUSASUS湘氵木目AFMXAFMX捐扌口月IKUJIKUJ5、規定漢字的基本筆畫及代碼筆畫代碼助記一
O 漢字中最簡單的丨I丨→I丿P"撇"的拼音碼
G1、戈(gē)、戊讀音H 1、虍禾、
讀音I 扌、丨、
丨→I扌→I
→IJ己、巳、已钅九、尢巾、
柬(jiǎn) 讀音K口開讀音L1、耒(lěi)讀音2、女、牛、"N"轉為"L"M母、毌讀音N
、丶、亠、冫、灬讀音。"丶"是"
"的變形O1、囗囗→O2、一P1、片、丬、爿讀音2、亻Q 1、犭、豸、且、
讀音2、蟲R1、人、入、八、彳讀音S饣四豕束、朿讀音山、屮礻代碼部首助記T天、夭、土、士、圭、
、不在第一部分)讀音U讀yo、you、yu、yuan、yue、yun音的漢字及部首W文、夂、攵讀音X 西、
、酉小、心、忄、讀音Y 讠衤、
弋(yì)幺(yāo)讀音Z爪、爫辶、廴主、(
在第一部分) 讀音漢字拆分與編碼(一)單字的拆分與編碼任何一個漢字都可以歸入以下五大類,第一類“不大于三筆”,如“丁”“口”等。第二類“三合字”,如“樹”、“淡”等。第三類“多合字”,如“椒”“驟”等。第四類“雙合字”,如“淚”、“村”等。第五類“獨體字”,如“自”、“雨”等。這是力求以流程圖為主結合文字敘述和舉例來說明1、“不大于三筆”的漢字應按書寫順序逐筆拆分編碼漢字拆分拼型碼編碼丁一亅OAOAD丈一丿
OPN OPNZ也丨乚AIAAIAY之丶
NAN NANZ力丿PAPAL
乃
丿 AP APL2、“三合字”,按各部分書寫順序拆分。若第一部分是“草字頭”,要去掉“草字頭”,再編碼。“草字頭”,再編碼。“草字頭”包括“艸
”樹木又寸FUCFUCS淡氵火火AHHAHHD漢字拆分拼型碼編碼備注草艸日十RSRSZ"草字頭"在第一部分要去掉常口巾KJKJC"草字頭"在第一部分要去掉陪阝立口ELKELKP悄忄月XXUXXUQ滿氵艸兩ACLACLM不在第一部分的"草字頭"要編碼3、“多合字”先看能否合成“三合字”,若能,則按“三合字”拆分編碼。
如:
漢字拆分拼型碼編碼楷木比白FBBFBBK縮纟宀佰EBBEBBS覆西彳復XRFXRFF境土音兒TYETYEJ解角刀牛JDLJDLJ警茍攵言WYWYJ若不能合成三合字,則按“循規定,取中間,看三角,按順序,去草頭,再編碼。”
循規定是指要按一些規定的程序取碼、編碼。
(1)對于以“辶廴”為部首的多合字,應按書寫順序選取第一部分,最后的第二部分,最后部分。
如漢字拆分拼型碼編碼遨攵辶ZWZZWZA邀白方攵辶BWZBWZY(2)對于如“
”這一類字,在取拼型碼時應取彳、
、攵三個代碼。
如漢字拆分拼型碼編碼微彳山一幾攵RJWRJWW徽彳山一幺小攵RXWRXWII取中間是指如“攀、贏、嬴、燕”等字,總體上是上中下結構,但其中上部,中部,或下部就單體而言為左中右結構,這些單體又不成為漢字,對于這類漢字,在這部分取碼應取中間部分。
例漢字拆分拼型碼編碼備注贏亡口月貝凡WKBWKBY嬴亡口月女凡WKLWKLY攀木乂乂木大手AASAASP規定這樣編樊木乂乂木大AADAADF規定這樣編燕廿丬口匕灬KNKNY去掉"草字頭"看三角是指如“督、割、剜”等字,左上角或左下角由二部分組成,這兩部分又不能合并為一部分,則取外三角。
例漢字拆分拼型碼編碼督上小又目SUMSUMD割宀口刂BKDBKDG剜宀夕
BXD BXDW按順序是指按拆分順序取一、二、末三碼為拼型碼例漢字拆分拼型碼編碼椒木上小又FSUFSUJ瞎目宀口MBKMBKX鍍钅廣廿又JGUJGUD4、雙合字先按以下四個方面去考慮它能否拆成三合字。
(1)第二部分固定拆分碰到以下漢字在第二部分時必需如下拆分、編碼戈→弋丿→YP及→乃丶→LN農→冖
→DY 禺→田冂→TD鳥→烏丶→WN扁→戶冂→HD尤→九丶→JN禹→丿冂→PD龍→尤丿→UP兆→兒丶→EN酉→西一→XO交→亠父→NF出→山山→SS
→丿コ→PD缶→午凵→WD咸→戊口→GK皮→
又→PU 或→戈丿→GO
→尸コ→SD由→日丨→RI(2)第二部分去首筆后仍為一個漢字,如戔→一戈,自→丿目等。
(3)第二部分去末筆后仍為一個漢字,如甲→日丨,子→了一等。
注意“中”去末筆后的“囗”要用“O”為代碼。
(4)第一部分固定拆分,主要有令→今丶,酉→西-兩字。
(“酉”僅在以“酉”為部首,第二部分無法按前三條拆分的字進行)綜合舉例如下漢字拆分拼型碼編碼備注極木乃
FLN FLNJ 第二部分固定拆分優亻尢丶PJNPJNU第二部分固定拆分編纟戶冂EHDEHDB第二部分固定拆分官宀尸
BSD BSDG 第二部分固定拆分訪讠丶萬YNWYNWF第二部分去首筆成字病疒一內BOLBOLB第二部分去首筆成字拍扌丿日IPRIPRP第二部分去首筆成字汪氵一土AOTAOTW第二部分去首筆成字好女了一LLOLLOH第二部分去末筆成字鏟钅立丿JLPJLPC第二部分去末筆成字匣匚日丨DRIDRIX第二部分去末筆成字鐘钅立丿JOIJOIZ第二部分去末筆成字鄰今、阝JNEJNEJ第一部分固定拆分酊西一丁XODXODD第一部分固定拆分凡不能按上述四個部分拆分的雙合字,按兩部分拆分,拆分編碼時須遵守以下三點原則(1)雙合字中第一部分是“草字頭”,編碼時要去掉“草字頭”并且要在拼型碼與拼音碼之間加上該字的末筆碼。
漢字拆分拼型碼末筆碼編碼蘋艸平PIPIP苗艸田TOTOM(2)第一部分不是“草字頭”,同時拼音碼與拼型碼之一相同時,編碼時要在拼音碼之后加上末筆碼。
漢字拆分拼型碼拼音碼末筆碼編碼髦髟毛CMMACMMA蛐蟲曲QQQOQQQO(3)不符合以上兩條的按三碼編碼漢字拆分拼型碼編碼淚氵目AMAML位亻立PLPLW5、獨體字先按以下幾方面去考慮它能否拆成雙合字或三合字,再按雙合字和三合字去編碼。
(1)該獨體字為固定拆分固定拆分的獨體字禺→田冂丶→TDNU咸→戊一口→GOKX扁→戶冂艸→HDCB或→戈口→GKOH禹→丿口冂→PODU半→丷二丨→BEIB兆→兒丷八→EBBZ鬼→白兒丶→BENG交→丶一父→NOFJ事→十囗亅→SOAS凹→凵一凵→DODA凸→冂一凵→DODT成→卩戈→EGC其→艸三八→SBQ(去草字頭)
日→囗一→OOR目→囗一一→OOOM(2)去首筆成字,則按雙合字編碼,(這里及下面所提的成字是指成為漢字或部首)如白→丿日→PRZ生→丿主→PZS(3)去末筆成字,則按雙合字編碼,如少→小丿→XPS。
(4)去首、末筆成字,則按三合字編碼,如丞→フ水一→ASOC(5)去前兩筆成字,則按三合字編碼,如擊→一一山→OOSJ(6)去末兩筆成字,則按三合字編碼,如木→十丿丶→SPNM(7)取一、二、末三筆,按三合字編碼,如五→一丨一→OIOW(二)簡碼,一切漢字都可采用拆分的單字全碼,為了提高輸入速度和減少重碼,對于一些常用的漢字采用取其前面一到三碼的方式來構成簡碼。
“音型結合漢字編碼法”中的簡碼可分以下四級1、特級簡碼現代漢語中最最常用的字為“的”,為了讓該字有最簡便的輸入法,特將該字按排在空格鍵上,即按一下空格鍵就有一個“的”字。
2、一級簡碼從A~Z這26個字母鍵,每鍵都按排了一個以該字母帶頭的最為常用的漢字(V鍵特殊,是規定的)這類字只要按該鍵再加上空格鍵一次,就可輸入。
了(A)實(B)過(C)可(D)級(E)
機(F)應(G)和(H)上(I)就(J)黨(K)產(L)間(M)這(N)一(O)人(P)重(Q)是(R)出(S)地(T)用(U)大(V)我(W)要(X)說(Y)表(Z)注(1)我→“W”由拼音來確定,(2)大→“V”是規定的。(3)其他各字由部首來確定。
3、二級簡碼二級簡碼ABCDEFGHIJKLMNOPQRSTUWXYZA 子測源學敢游左灰在沒右滾潤以已小活溫承法有發消藝清B 痛比寬則完米額災止塞戰安瘺餐關疲宜桌家單前美水普定C 輕原厝厭辱輔廄轷勞暫輯歷盛較輿顏蠢輪輾壓軸勵蔥順轉D區色軍列那卿匾巴匝召夯冤態同醫殂內殖周角煞爭農達E 經聯陣阿頑綁成編節紀織陪繼統線維組階續結取降緣繕績F 缺樣村規標林根樺檻析杏極想術本株颶查植棵權放翻楊返G弘彈度劃即床弧引鞏或磨粥弱威府庭底鞋序攻夠項退H私剩烘利燒秋虎程委燜房種彪燭焊穗烤肩烽移煩稻I 山把播打報搏擲揪業投損接藍搞撫師插提據持堅熱控揚抓J 風群導解鑷雜毀銹臣帆幟幢盞領民鐵觸鉀針鈍鍵改銷鏡進K 叫只哄員啊呆喊噴啪常品別嗎咬號形器吃葉堂嘆鳴吵裳吼L 勞蘇娠制先新菇犏患耕部好媽襲妹辦姐意端特奴物妙她邊M 斷粘睡料聞柔眼騙遴闌問數闖糧類閥粗驗駛驕毽繁悶馳精N之立卒次效減稟門冷高為馮斗主義資刻言凌茺方離率衷O與平開兩四困夷菌中無回廿來 于不更革到國互亞正P 力化升所毛體做偏片段保件們個后任俱但質裝反修將他作Q 縣具獵歐卻氟狠氮獅斯敵助螞狡狂狗獲氛基螺期蜂氯獄猜R 電傘時分年茶很斜由微命暗每今量星曛得德徹會金晃顯題S 局其展帶餌博硬矮非饑克協看尺事長直神社署支整砂罰速T 去增圳切城果域墟蕎垛喜培坶壤苗者堪都里封均略思場教U 甩黃對觀需霜艱鰍鰹零鱷動鱗腦腫勝腳臉肚膨雙散雪預運W芒處弄現玩條瑰琥葦玲各務盲班劑球珍瑞理望琴忘警違X 快外異突舉窺恨靈桀憂名酷慣驚光性然容剝蓄削熟多辯情Y 訊補訓調誠欒式談襤設識幼謎議證被話論計課變語恩試請Z孔些簧受跳采第篇籃起籍算毒踐麥蛋齒策等青政步素踩二級簡碼由單字全碼中的前兩碼構成,被選為二級簡碼的漢字只需打前兩碼再加空格鍵即可。
4、三級簡碼即取單字全碼中的前三碼構成,輸入時只要打入前三碼再加空格鍵即可。
例浙AIJZ(全碼)談YHHT(全碼)AIJ(簡碼)YHH(簡碼)三級簡碼計有4000多字。
(三)詞匯編碼所有的詞匯編碼均取四碼,取碼規則分以下四種1、雙字詞組雙字詞組的編碼是由這兩字的拼型首碼和拼音碼組成。如漢語AHYU前進BQJJ文明NWRM2、三字詞組它的編碼是由這三個字的拼音碼加上第三個字的末筆碼構成。
如共產黨GCDA現代化XDHA氣象局QXJO3、四字詞組它的編碼是由這四個字的拼音碼組成。
如大顯身手DXSS科技市場KJSC共產主義GCZY4、多字詞組它的編碼是由前三字和最后一字的拼音碼組成。
如中華人民共和國ZHRG中國科學院ZGKU國務院辦公廳GWUT注詞匯數量應視機器內存容量而定。
圖1是音型結合漢字編碼法編碼流程圖。
下面對圖1作詳細說明。
矩形框表示要按框內語句執行,菱形框表示要按框內語句進行判斷,箭頭表示執行順序的流向,Y表示條件滿足時的執行方向,N表示條件不滿足時的執行方向。
權利要求
1.音型結合漢字編碼法,由拼型碼和識別碼所組成,先將漢字進行拆分,對拆分后的每個部分用規定的代碼來表示,其特征在于所謂每個部分用的規定代碼是取自拆分部分讀音的第一位拼音字母,即稱為拼型碼;所謂的識別碼是取自漢字沒有拆分的讀音的第一位拼音字母。
2.如權利要求1所述的音型結合漢字編碼法,其特征在于拆分的單字全碼與單字簡碼和詞匯編碼並用。
全文摘要
音型結合漢字編碼法,涉及電子計算機領域中的漢字編碼技術,由拼型碼和識別碼所組成。先將漢字進行拆分,對拆分后的每個部分用規定的代碼來表示。所謂每個部分用的規定代碼是取自拆分部分讀音的第一位拼音字母,即稱為拼型碼;所謂的識別碼是取自漢字沒有拆分的讀音的第一位拼音字母。本發明編碼法與已有技術相比,具有簡單易記,“重碼率”低,受語音程度影響少,拆字直觀。
文檔編號G06F3/023GK1073786SQ9211021
公開日1993年6月30日 申請日期1992年9月8日 優先權日1992年9月8日
發明者黃文勇 申請人:黃文勇