專利名稱::漢字鍵盤輸入技術的制作方法
技術領域:
:本發明涉及一種文字編碼的方法,屬文字信息輸入與處理領域。本發明說明書中涉及的技術術語主要源于《漢字鍵盤輸入技術與理論基礎》(陳一凡、胡宣華著,清華大學出版社、廣西科學技術出版社,94年5月)和《漢字信息處理》(彭壽全、黃可編著,電子科技大學出版社,94年7月)。本發明引入動態編碼概念,協調了碼長與編碼空間的矛盾;使用對稱原理,照應多方系統工程要求;利用均勻分布思想,在詞語編碼中取得滿意的成效。是一種適于盲打、以詞語輸入為主導,立足單字,面向語句,高效率的編碼方案。如果認為適于盲打、以詞語輸入為主導、高效率的編碼方案至少應同時滿足下述三個條件,則國內現有流行編碼方案尚無一個能夠勝任,甚至可以說,其詞庫容量在低重碼率條件下遠未達到標準。1.綜合動態字詞重碼率不超過2%,(不能用重碼鍵選率代替該項指標,因為利用高頻自動上屏技術只能部分地減少重碼選擇的擊鍵時間,但不能減少人機互交時間,而人機互交的時間開銷遠大于擊鍵動作的完成。兩者的差異,在大容量詞語編碼以至用戶無法記全重碼首選字詞時尤為明顯)。2.具有覆蓋率大于98%的公共詞庫,再加上專業詞庫、個人詞庫和GB2312-80中的漢字,共約4萬多的編碼對象。3.所有編碼對象(而不僅是單字)的綜合動態平均碼長(含分隔符和重碼選擇鍵)不超過四碼,并且非聯想方式的速度碼長不大于2.0(鍵/字)。理由如下現有形碼類(含筆畫碼、形音碼、聲形碼、字根音化碼)對大容量詞庫的編碼能力在四碼范圍內均小于音碼類(含音形碼),而音碼類中編碼能力最強的是全拼方案,其對占總詞匯量80-90%的雙字詞的編碼空間小于4102=1.68×105(聲韻聲韻碼式),顯然,不可能在滿足2%重碼率條件下在該空間內編入兩萬條以上的雙字詞。本發明同時解決了音碼和形碼類中上述這些國內至今未能解決的難題。除此之外,其獨創性和優越性還體現在以下幾個方面。1.立足于“字為基礎”,字詞編碼空間分開,無字詞沖突之憂,包括分隔符和重碼選擇鍵在內的字碼碼長最大為4碼,純單字輸入動態重碼鍵選率<0.5%,含分隔符非聯想非詞語純單字輸入的速度碼長<2.3(鍵/字)。(考慮詞語輸入時的重碼鍵選率和速度碼長指標還將有很大的提高)。另外,字編碼對象以GB2312-80為基礎,但只需按同樣的編碼規則增加一位形碼,將字編碼的基本碼碼長擴充為4碼,并將原字斷碼鍵作為動態補充碼,就能方便地實現向ISO10646字集以至大漢字集的擴充。2.有利于實現基于理解的漢字鍵盤輸入,是一種面向語句、面向未來的編碼方案。例如,分別用天宇音碼的聲碼、韻碼和字斷碼去替代“拼音語句漢字輸入系統InSun”(王曉龍,中文信息學報,1993.9)的聲碼、韻碼和調碼,則該系統未能解決、妨礙其實用的最大難題,即由于語法語義分類相同,或語義歸類不當等原因引起的絕大部分錯誤將輕易得以解決。3.根據不同對象提供三個版本,三個版本均同時具備滿足初學者、一般用戶、專業人士不同需要的性能,區別僅在指法及對簡碼字、詞掌握的熟練成度上,不再存在不同檔次方案間(如字根通用碼)復雜的銜接問題。既使對初學者,通過屏選也不難達到較高的錄入速度。4.各版本均編入180個一級簡碼字和約三千個二級簡碼字,簡碼字動態覆蓋率大于96%。另外還有150個一級簡碼詞和近四千個二級簡碼詞。由于可采用所謂逆向排除法的記憶方式(即只需記住數百個以sp鍵斷碼的高頻簡碼字和極個別沒有簡碼的常用字,剩下的常用字簡碼就不需要專門記憶),使專業人士盲打錄入數千個簡碼字成為可能。在保證高頻覆蓋前提下,簡碼詞的編碼是全碼(基本碼)的截尾碼,既使記憶有誤也不影響輸入。而一般編碼方案為了保證高頻覆蓋,其簡碼詞的碼序與全碼不同,例如自然碼中雙字詞簡碼的取碼方式為聲聲碼式,與全碼碼式聲韻聲韻不同,因此一旦記憶有誤就會影響輸入。5.提供86%以上的機會以左右手交替擊鍵的方式錄入漢字。由于同手異指連擊和同手同指越排連擊比交替擊鍵要慢25-150%,因此采用交替擊鍵能極大地縮短擊鍵時間當量,提高擊鍵效率。6.全對稱的鍵盤鍵位設計,可取得左右手的生理平衡,并減少選鍵時間開銷和一半的鍵位記憶量。7.人機互交時間是影響輸入效率的重要因素之一,其時間消耗遠大于鍵位選擇和擊健動作的完成。本方案主要采用模糊信息勾通入機關系,并運用鍵位預報和滯后補碼技術使人機互交時間趨于零。8.一般人的視像存儲工作記憶單元約為7個,本方案將提示行字、詞信息分別固定顯示在屏幕兩邊,每類5-7個,適應了人的這種生理特點。9.提供高指標的鍵盤鍵位利用率和大容量的有效編碼空間。天宇碼中上述指標相對較低的通用版(TY2.0),在多達30個鍵元集上使聲韻組合的鍵位利用率約達92%,比現行優秀音碼(如自然碼)高32個百分點,而后者的鍵元集不過26個;對雙字詞(聲韻聲韻碼式)的有效編碼空間是現行方案中指標最高的全拼方案的440%,若進一步考慮到天宇方案中字與詞、雙字詞與多字詞的全碼空間互不相同,以及動態編碼技術的運用,這種差距實際上將擴大到近百倍。10.字形編碼主要以筆畫、筆順信息為主,并將其歸并到3×5的矩陣坐標上,有助于記憶,記憶量甚至少于音碼類,且沒有相交筆畫拆分,符合認知要求,是一種易學易用的形碼編碼方法。11.音碼編碼中前兩碼采用雙拼形式以提高效率,在聲韻聲韻組合上解決了大部分同音詞重碼問題。另外,對不會讀音的漢字,可在無切換(不需引導符)方式下用全形碼輸入。12.天宇音碼通用版(TY2.0)在適于盲打的前提下,將聲母z、c、s、l、f分別與zh、ch、sh、n、h共鍵,韻母in、en、an、ian、uan分別與ing、eng、ang、iang、uang共鍵,使南北調歸于一,東西音大一統,讓每個國人第一次有可能用上低重碼高效率的音碼而不為地方口音所困惑。13.天宇音碼專用版(TY2.1)將易混淆的聲母、韻母分開,主要面向中小學生以利正音,并具有更高的鍵位利用率和有效編碼空間。同時通過盡量把同族韻母合并的方式達到既有雙拼的簡捷,又能大致實現聲介合一的教學效果,有利于協調漢語拼音和注音字符兩類碼式在大中華圈內的通用,兼顧多項指標。為了達到上述目的,本發明主要采用了下列方法。1.利用對稱編碼技術將漢字的基本碼每位碼元分為主元和下標,同位主元在鍵盤上依下標對稱分布在對稱線的兩邊,對稱線由“T、G、B”與“Y、H、N”的分界線構成。(1)下標表征漢字的某種分類信息,利用二元對立偶分法分為左標和右標,記為“一”和“十”,并對應鍵盤的左半部和右半部。a.用漢字筆畫作下標時,橫、豎為“一“,非橫豎為“十”。例如,以首筆作下標時中→-林→-征→+又→+b.用漢字字型作下標時,左右型為“一”,非左右型為“十”。例如中→+林→-征→-又→+(2)同位主元共十五個,表征漢字的主要特征信息。a.形碼主元由3×5矩陣坐標定位,其中行標1、2、3分別由漢字筆畫的豎和點(含捺)、橫、撇和折構成,列標1、2、3、4、5分別由漢字筆畫的豎、橫、撇、點(含捺)、折構成,行標、列標所代表的筆畫為相連兩筆畫,其鍵盤鍵位分布為例如,由下述漢字首兩筆畫構成的形碼主元分別是中→15征→33又→34高→12b.音碼通用版(TY2.0)的聲母、韻母主元構成及在鍵盤上的位置為(其中“v”表示韻母ü)</tables>其中,上述主元在鍵盤上的位置是可以調整的。c.音碼專用版(TY2.1)的聲母、韻母主元構成及在鍵盤上的位置為(其中“v”表示韻母ü)</tables>其中,上述主元在鍵盤上的位置是可以調整的。2.主元、下標中的筆形信息是通過漢字的字首、字余來決定的。字首、字余的劃分為(1)凡漢字前部(按筆順)含有《新華字典》中兩筆畫以上的偏旁部首,則取其為字首并實行取大不取小的原則,剩下部分為字余。例如,技字首→扌,字余→支;韻字首→音,字余→勻。(2)不屬(1)中所述漢字,但能分為兩個獨立部分,且每部分由兩筆畫以上構成。a.如前部為一獨立漢字,則取其為字首,并實行取小不取大的原則,剩下部分為字余。例如,敷字首→甫,字余→;述字首→術,字余→辶。b.前部不是一個獨立漢字,但后部是一個獨立的漢字,則取前部為字首,并實行取小不取大原則,剩下部分為字余。例如,祭字首→,字余→示;曹首字→,字余→曰。c.不屬a、b兩種情況,但前部筆畫在形態上是連在一起的,并且前、后部近似構成對稱形,則取前部為字首,剩下部分為字余。例如,非字首→,字余→;拜字首→,字余→(3)當構成漢字的筆面不足四筆時,取第一筆為字首,剩下部分為字余;但由一筆構成的漢字,字首、字余都重復取該筆畫。例如,上字首→丨,字余→二。(4)其它漢字取前兩筆畫為字首,剩下部分為字余。3.將鍵盤上數字鍵分為1、2、3、4、5和0、9、8、7、6兩組,并根據擊鍵過程中是否按標準指法采用了交替擊鍵而分別稱為順手鍵、同手鍵。例如,擊Q鍵后再擊9鍵或者擊8鍵后再擊3鍵,均稱為順手擊鍵,9鍵、3鍵稱為相對于Q鍵、8鍵的順手鍵;擊Q鍵后再擊3鍵則稱為同手擊鍵,并稱3鍵是相對于Q鍵的同手鍵。(1)順手鍵用于字(含簡碼字)斷碼以及詞語動態補充碼。(2)同手鍵用于簡碼詞斷碼和字詞重碼選擇。(3)字斷碼鍵和詞語動態補充碼根據漢字末筆筆畫選定,其中豎、橫、撇和折、點、捺分別按順序對應上述兩組數字鍵。例如,以→4或7,據→2或9,使→5或6。4.字編碼全碼由基本碼三碼加字斷碼(即順手鍵)構成。(1)天宇形碼(TY1.0)基本碼的正常編碼為純形碼,第一碼下標由字余首筆構成,主元由字首前兩筆構成;第二碼下標由字余次筆構成,主元由字余三、四筆構成;第三碼下標由字型構成,主元由字余五、六筆構成。例如,鋒→+32+12-22/.OS(全碼是.OSO)幅→-15-32-15/TXT(全碼是TXT9)痛→+12+15+22/OYL(全碼是OYL1)a.為分化重碼,由“、蟲、讠、月、魚、艸、口、木、日”等部件前兩筆構成的形碼主元,分別定義為→14,蟲→22,讠→23,月(魚)→13,艸→34,口→24,木→11,日→25。例如嘲→-24-25-22/FGSb.決定形碼主元的筆畫一般不取漢字最后一筆,如筆畫不足,可重復末前筆;由一筆構成的漢字,重復取該筆畫。例如,根→+11-25-33/PGCc.當字余筆畫少于六筆時,第二、三主元從漢字第三筆往下取,但如果漢字筆畫少于六筆,則第三碼取該字拼音首字母(此時不再需要第三碼下標)。例如,吏→+21-32+33/;X,余→-34-22+33/VS,外→-35+11W/BPW乙→+35+35Y/NNY(2)天宇音碼通用版(TY2.0)的基本碼正常編碼為音形結合碼,其中聲母、韻母主元按1.(2).b中規定選取,屬雙拼形式。第一碼下標由字型構成,主元由聲母構成;第二碼下標由字首首筆構成,主元由韻母構成;第三碼下標由字首末筆構成,主元由字余首兩筆構成。例如,安(an)→+零聲母+an+33/IH,歪(wai)→+零聲母-uai+21/IX;期(qi)→-q-i+35/QFNa.主元筆畫一般不取漢字最后一筆,如筆畫不足,可重復取末前筆,但由一筆構成的漢字,可重復取該筆。例如,早(zao)→+z-ao-22//SS乙(yi)→+零聲母+i+35/IJNb.如果字余也是一個漢字,且字余讀音與全字相同(不考慮音調),則第三碼下標、主元從字首第二筆依次往下取。例如,“搬”的第三碼是+23/K“神”的第三碼是+14/Uc.對不會讀的漢字可在無切換方式下輸入全形碼,其基本碼編碼為第一碼下標由字型構成,主元由字首前兩筆構成;第二碼下標由字首末筆構成,主元由字余前兩筆構成;第三碼下標由字余第三筆構成,主元由“24”(即鍵位“F”或“J”)構成。(正常字編碼第三碼很少用到“F、J”兩鍵)(3)天宇音碼專用版(TY2.1)的基本碼編碼規則除聲母、韻母主元按1.(2).c中規定選取外,與通用版(TY2.0)相同。5.詞語編碼由基本碼四碼加動態補充碼構成。(1)詞語基本碼由組成該詞語的字的部分基本碼構成。雙字詞由每字前兩碼構成,三字詞由每字首碼加第三字次碼構成,三字以上詞由前三字首碼加末字首碼構成。(2)動態補充碼碼長與組成詞語的字數相同,對應每一字的動態補充碼與該字斷碼鍵同碼。取碼順序是,從構成詞語的最后一字開始,逆序往前取,每字取一碼。動態補充碼隨時可根據需要由輸入的下一字詞自動提前結束。例如,下述詞語的天宇形碼(TY1.0)全碼(其中最后的數字鍵表示動態補充碼)分別是信息→+31-22+31+32//S/.49計算機→-15-14+11+34/TRPM301電子計算機→-15+35-15+11/TNTP301936.字編碼中省略基本碼的二、三碼,并用順手鍵斷碼而構成一、二級簡碼,其中高頻字可用sp鍵斷碼而構成一、二級高頻簡碼;詞編碼中省略基本碼后三碼或后兩碼,并用同手鍵斷碼而構成一、二級詞簡碼,詞斷碼(同手鍵)鍵位是與該詞最后一字的字斷碼鍵(順手鍵)相對稱的數字鍵。例如,下述字詞的天宇形碼(TY1.0)簡碼為一→SSY2/S級→NHC6/N5類→E;M5/E;5可以→XM,48/;7提供→GLZW75/GL7另外,輸入單字基本碼三碼后,可以用sp鍵輸入常用字。加上高頻簡碼字,可以用sp鍵斷碼的單字近6千個,而詞語輸入不用簡碼時很少用到上排數字鍵,因此如果愿意,可以基本上將擊鍵范圍限制在下三排鍵位及sp鍵上。7.提示行字、詞信息分別固定顯示在屏幕兩邊,每類5-7個當輸入基本碼一碼或兩碼后,提示行左邊顯示簡碼字,右邊顯示簡碼詞;輸入三碼后,提示行左邊顯示常用字,右邊顯示重碼字;輸入四碼后,如果詞語基本碼有重碼,提示行左邊顯示常用詞,右邊顯示重碼詞。8.當詞語基本碼重碼時,提供三種狀態的模糊預提示信息一、需要使用一位動態補充碼;二、需要使用一位以上動態補充碼;三、需要使用重碼選擇鍵。具體三種狀態的提示信息是a.如果某一詞語需使用兩位動態補充碼才能唯一確定該詞語時,當輸入完基本碼后,系統給出第二種信息;輸入完第一位補充碼后,系統給出第一種信息。因此,這種提示具有全預提示的作用。b.當系統依一定概率判斷,既使使用動態補充碼也很可能出現重碼時,將給出第三種提示信息。10.當使用者高速盲打錄入詞語并感知到基本碼重碼的模糊提示信息時,由于反應遲緩等生理原因,可能已開始錄入下一個字詞。為此,方案提供滯后補碼的可能,即允許輸入完下一個字詞后,再補充輸入前一個詞語的動態補充碼。如果后一個詞語基本碼也是重碼,則前一個詞語的動態補充碼輸入完后應鍵入sp鍵作分隔符,然后再輸入后一個詞語的動態補充碼。當然,也可以在輸入完詞語基本碼后直接輸入動態補充碼。11.將字編碼基本碼碼長限制在三碼,主要是為了提高效率。如果將天宇音碼字編碼碼長擴充到四碼(增加一位形碼),并將編碼鍵元集按前述類似方法擴充到四十鍵位而構成普及版(TY2.2),則不需任何特殊編碼,其在一級字庫內的重碼組數不到二十對,在聲韻組合上對雙字詞編碼的有效空間相當于全拼方案的十倍以上。權利要求1.一種“漢字鍵盤輸入技術”的文字處理編碼輸入方法及特征元歸并辦法,特征在于由字音、筆畫、字型、字首、字余等文字特征信息結合組成的碼元,斷碼及動態補充碼鍵位安排,滯后補碼,模糊信息預提示等。根據不同碼元的組合形成三個版本,即天宇形碼(TY1.0)、天宇音碼通用版(TY2.0)和專用版(TY2.1)。2.如同權利要求1所述,特征在于字編碼基本碼碼長為三碼,并用特殊斷碼鍵斷碼。3.如同權利要求1所述,特征在于利用動態編碼技術將詞語編碼分為基本碼和動態補充碼,其中基本碼碼長為四碼,動態補充碼每字一碼。4.如同權利要求1、2、3所述,特征在于將數字鍵分為“1、2、3、4、5”和“0、9、8、7、6”兩組,并根據擊鍵過程中是否采用交替擊鍵而分別稱為順手鍵、同手鍵。(1)順手鍵用于字(含簡碼字)斷碼和詞語動態補充碼,同手鍵用于簡碼詞斷碼和字詞重碼選擇。(2)字斷碼鍵和詞語動態補充碼根據漢字末筆筆畫選定,其中豎、橫、撇和折、點、捺分別按順序對應上述兩組數字鍵。5.如同權利要求1所述,特征在于字首、字余的劃分。(1)凡漢字前部(按筆順)含有《新華字典》中兩筆畫以上的偏旁部首,則取其為字首,剩下部分為字余。(2)不屬(1)中所述漢字,但能分為兩個獨立部分,且每部分由兩筆畫以上構成。a.如前部為一獨立漢字,則取其為字首,剩下部分為字余。b.前部不是獨立漢字,但后部是一獨立漢字,則取前部為字首,剩下部分為字余。c.不屬a、b兩種情況,但前部筆畫在形態上連在一起,且前、后部近似成對稱形,則取前部為字首,剩下部分為字余。(3)當構成漢字的筆畫不足四筆時,取第一筆為字首,剩下部分為字余。但由一筆構成的漢字,字首、字余都重復取該筆畫。(4)其它漢字取前兩筆畫為字首,剩下部分為字余。6.如同權利要求1所述,特征在于利用對稱編碼技術將編碼對象同位碼元劃分為主元和下標。(1)下標表征漢字的對稱分類信息,并利用二元對立偶分法將其分為左標和右標,記為“一”和“十”。a.用漢字筆畫作下標時,橫、豎為“一”,非橫、豎為“十”。b.用字型作下標時,左右型為“一”,非左右型為“十”。(2)同位主元共十五個。在鍵盤上,每個主元依下標對稱分布在對稱線的兩邊,對稱線由鍵位“T、G、B”與“Y、H、N”的分界線構成。a.形碼主元由3×5矩陣坐標定位,其中行標1、2、3分別由漢字筆畫的豎和點(含捺)、橫、撇和折構成,列標1、2、3、4、5分別由漢字筆面的豎、橫、撇、點(含捺)、折構成,行標、列標所代表的筆畫為相連兩筆面,其鍵盤鍵位分布為</tables>b.音碼主元包括聲母主元和韻母主元兩類。天宇音碼通用版(TY2.0)的聲母、韻母主元歸類為(其中“0”表示零聲母,“v”表示韻母“ü”)</tables>天宇音碼專用版(TY2.1)的聲母、韻母主元歸類為(其中“o”表示零聲母,“v”表示韻母“ü”)</tables>7.根據權利要求1、2、5、6所述,特征在于漢字基本碼的編碼。(1)天宇形碼(TY1.0)單字基本碼的正常編碼為純形碼。第一碼下標由字余首筆構成,主元由字首前兩筆構成;第二碼下標由字余次筆構成,主元由字余三、四筆構成;第三碼下標由字型構成,主元由字余五、六筆構成。(2)天宇音碼單字基本碼的正常編碼為音形結合碼。第一碼下標由字型構成,主元由聲母構成;第二碼下標由字首首筆構成,主元由韻母構成;第三碼下標由字首末筆構成,主元由字余首兩筆構成。根據聲母、韻母主元的不同歸并,天宇音碼可分為通用版(TY2.0)和專用版(TY2.1)。8.如同權利要求1、3所述,特征在于當詞語基本碼出現重碼時,主要根據聲音、屏幕亮度、屏幕色彩等變化同時提供三種狀態的模糊預提示信息一、需要使用一位動態補充碼;二、需要使用一位以上動態補充碼;三、需要使用重碼選擇鍵。9.如同權利要求1、3所述,特征在于前一個詞語的動態補充碼,可以在后一個字詞編碼輸入完后再補充輸入。全文摘要本發明涉及一種文字編碼方法。與現有技術相比,它在編碼層次上顯著提高了鍵位有效利用率,大大降低了詞語重碼率,其特點在于獨特的由字音、筆畫、字型等特征信息在同一碼元中的有機結合,斷碼及補充碼鍵位安排,滯后補碼,模糊信息預提示等,以及形碼坐標定位和兼顧大多數地方口音的通用版與易于教學的專用版音碼特征元歸并。同時,它也是綜合運用動態編碼技術,對稱編碼技術的第一個實用方案。文檔編號G06F3/023GK1153337SQ95116039公開日1997年7月2日申請日期1995年10月10日優先權日1995年10月10日發明者陳京寧,聶陽申請人:陳京寧,聶陽