專利名稱:計算機漢字拼音智能輸入法的制作方法
技術領域:
本發明涉及一種計算機輸入方法,更確切地說是涉及一種漢字的計算機輸入法。
漢字的計算機輸入方法,大體包括純字型輸入法、純拼音輸入法和字型與拼音相結合的輸入法。純字型輸入法重碼率較低,但記憶量較大,達到快速熟練地輸入需花費相當的學習時間與精力,特別不適于非專職錄入人員使用。純拼音輸入法易學易用,但重碼率太高,輔以人工選擇又嚴重影響輸入速度,不適于專業錄入員使用。字型與拼音相結合的輸入法,由于仍存在字型因素,從整體性能上并未帶來改觀。目前,上述輸入法雖又提供了聯想以及改善輸入環境以提高輸入速度的措施,并有按詞組輸入的方法,但使用效果仍不十分理想,因為詞組輸入受詞組庫中詞組數量的影響。
本發明的目的是設計一種計算機漢字拼音智能輸入法,在純拼音輸入法的基礎上,開發出一種符合漢語語言規則的智能化判斷技術,既可充分發揮拼音輸入易學易用的特點,同時又以不為輸入人員察覺的智能化判斷方法代替人工選擇而解決重碼問題,自動選擇合適的同音字輸入。
本發明的計算機漢字拼音智能輸入法是一種完全不同于音形結合的“音字”結合輸入法,包括取25組漢語拼音聲母、韻母A IA ZH、B UN üN、C UAN、D IANGUAI、E、F EN UE、G ENG、H ANG、I CH、J AN、K AO、L AI、M UAIAO、NIN、P OU、Q IU、R UO、S ONG IONG、F UI、U SH、 üOUANG、EI W、XIAN、Y ING、ZIE,按組一一順序分配到西文鍵盤除O以外的25個字母鍵位上,并以鍵名為其代碼,按漢字的聲母+韻母+音階1或2或3或4編碼輸入單字詞及按漢字的聲母、韻母結合編碼輸入雙字詞、三字詞和四字詞,其特征在于還包括在有重碼的雙字詞中按出現概率最高、彼此間關系及在單字詞中的重碼情況選擇出156個漢字,以一個西文字母加一個數字或加一個符號的簡碼方式輸入該漢字,包括1或空格 2或, 3或 4或/ 5或; 6或′A 著極示意例子B不按還手節氣C被服由于接到D的倒最近機會E而編限見工地F每天市場行情G個越假期起止H和緊直至前任I或經自費計時J及側交警線路K可長只身進出L了解失業指數M沒感主要難題N你致作家保重O有望相同事跡P評勢完整合并Q其它正負全清R人均非凡成就S所帶電視原理T他曾反復調試U是明生化中心V一級預報對立W為使限制流速X向想無形力量Y以便實物教書Z在住辦公部門輸入有簡碼的單字詞時以其西文字母加數字的方式輸入,組成雙字詞的字各有簡碼時,均以其西文字母加符號的簡碼方式順序輸入,組成雙字詞的字有一個有簡碼時,無簡碼的字按其聲母+韻母編碼輸入,有簡碼的字按其西文字母加符號的簡碼方式輸入;還包括按各種可能的外部語言環境建立的詞組的判斷字庫,字庫基本結構為字或詞組的編碼+具有相同編碼的一個字或一個詞組+判斷方式代碼+參與判斷基本為簡碼字的特征字或特征詞+表示字段結束標志或幾個有重碼詞組的分界標志,所述的判斷方式包括按當前詞單元前邊一個字來判斷、按當前詞單元前邊十個字范圍內特定詞組來判斷、按當前詞單元前邊的詞組來判斷、按整個文章中特定詞組判斷、按當前字單元后邊擔子判斷、按當前字單元后邊詞組判斷、按當前詞單元前邊十個字范圍內特定字來判斷、按當前詞單元的詞性來判斷和按當前詞單元前邊一個字或字符數字來判斷,當輸入字或詞組的編碼有重碼時,以判斷字庫中所對應列舉的特征字、詞按判斷方式代碼的內容作相應方式的判斷,取符合判斷原則的字或詞組輸入。
漢字數字的輸入方法為功能鍵Tab加對應的阿拉伯數字鍵。
十個漢語標點符號。.℃、×÷±¥°‰的輸入方法為連擊兩個西文字母VV鍵再分別擊數字鍵1至0輸入。
本發明輸入方法的特點是以純拼音方式輸入漢字,并以詞組輸入為主,通過精心并科學地選擇簡碼字,并以簡碼字為“釘子”,再利用這些釘子來判斷、選擇重碼字或詞,使本發明的“音字”結合輸入法得以形成,從而使拼音輸入法可在漢字的計算機輸入領域內大有作為。
下面結合實施例進一步說明本發明的方法。
本發明所選擇的聲母、韻母及其在鍵位上的歸類分布,可減少重碼率,并將字母O鍵空出,使其作為功能鍵使用。
本發明將可一次輸入到計算機內可由幾個字所組成的字串稱作字單元,從而形成四種字單元形式,分別為單字詞、雙字詞、三字詞和四字詞。其分型原則是再不能分解出可以獨立使用的雙字詞,如單字詞“用、相”,雙字詞“北京、相互”,三字詞“莫須有、阿根廷”,四字詞“不了了之、澳大利亞”,而“社會主義”由于可分解成雙字詞“社會”與“主義”,因而不作四字詞輸入。
輸入單字詞的一般規律是聲母+韻母+音階,如“京”的編碼為JYI,魚的編碼為YV2,如輸入編碼LG3,可輸入“冷”字或其他同音的重碼字,具體輸入了什么字,則由智能化判斷的結果決定或者說由文稿中的語言詞法來決定。
當單字詞是本發明所特別定義的簡碼字時(包括156個漢字和十個漢字數字),則必須按其第一種簡碼方式輸入,即一個英文字母鍵加一個數字鍵輸入。
本發明的簡碼字是依據計算機對重碼雙字詞的統計結果選擇的,對于解決重碼率特別是解決常用字詞的重碼率起著舉足輕重的作用,由于判斷字庫中的特征字、詞通常用簡碼字,因而科學地選擇簡碼字大大提高了輸入方法中整體判斷的能力。上述簡碼字的選擇原則不同于常規的按使用頻度的選擇原則,如“能、好”,就沒有定為簡碼字,因為前者無重碼現象,后者的重碼字“郝”使用頻度低且與“好”的語言環境對比度太大。
為方便操作,可將前述簡碼表中第一列漢字著、不、被、的、而、每、個、和、或、及、可、了、沒、你、有、評、其、人、所、他、是、一、為、向、以、在的簡碼,以字母鍵O代替其數字鍵輸入。
輸入雙字詞的一般規律是第一個字的聲母+第一個字的韻母+第二個字的聲母+第二個字的韻母,如“管理”、“關系”的編碼分別為GCLI、GCXI。
當雙字詞是地名或名牌上的一些特殊詞時,以第一個字的聲母+第一個字的韻母+字母O鍵+第二個字的聲母+第二個字的韻母輸入,如“北京”的編碼可為BWOJY,“遼寧”的編碼可為LMONY。
當組成雙字詞的兩個字均為簡碼字或其中一個是簡碼字時,必須以其簡碼輸入該字,但此時的簡碼字需以其第二種簡碼方式輸入,即一個英文字母鍵加一個符號鍵,以區別簡碼單字輸入的情況,雙字詞中不是簡碼字的字則以其聲母+韻母輸入。如“小時”,其中“時”為簡碼字,其編碼為XMI′;“消失”,其中“失”為簡碼字,其編碼為XML.;“動物”,其中“物”為簡碼字,其編碼為DSY/;“事件”,其中“事”為簡碼字,其編碼為O;JX;“時間”,其中“時”為簡碼字,其編碼為I′JX;“實踐”,其中“實”為簡碼字,其編碼為Y.JX。
當按上述方法輸入含有簡碼字的雙字詞后,漢字輸入系統首先從簡碼表中提取已知的簡碼字(唯一性),同時提取該簡碼字相應的拼音編碼(如物WU),再將其(如WU)與另一個字(非簡碼字)的拼音編碼一起轉到雙字詞的處理程序中,并設定輸入方式標記,在原來的雙字詞處理程序中,如果判斷為上述輸入方式(含簡碼字),則系統在眾多的重碼詞組中進行判斷,但該判斷已具有了一個相當有利的條件,即其中的一個字是已確定的字,使判斷具有排他性,此時如果重碼詞組中有兩個以上的該字,則系統會根據原來的智能化判斷方式進行判斷,但這種情況已大大減少了。
輸入三字詞的一般規律是;第1字的聲母+第2字的聲母+第3字的聲母+回車。如“莫須有”的編碼為“MXY空格”,“加拿大”的編碼為“JND空格”。
輸入四字詞的一般規律是字母O+第1字聲母+第2字聲母+第3字聲母+第4字聲母。例如“不了了之”的編碼為“OBLLA”,“蔚然成風”的編碼為“OWRIF”。
本發明實施例除了按常規技術建立單字字庫、雙字詞庫、三字詞庫、四字詞庫和特殊地名詞庫外,還建立了單字詞判斷字庫和雙字詞詞組判斷字庫。
單字詞判斷字庫的基本結構是編碼 字 判斷方式 特征字或詞 判斷方式特征字或詞……A。如TX2甜01很不太挺03糖∧田03畝∧,其中01表示判斷方式1,表示是按當前詞單元前邊一個字來判斷;03表示判斷方式3,表示是按當前詞單元前邊10個字范圍內特定字來判斷。上述判斷結構表示甜的語言使用環境是很甜、不甜、太甜、挺甜或甜字前十個字的范圍內有糖字,田字前十個字的范圍內有畝字(A為判斷內容結束標記或幾個重碼字間的分隔符)。
雙字詞詞組判斷字庫的基本結構是編碼 雙字詞 判斷標記 特征字或詞……∧,如JIDA擊打01力地兒02我他她它∧極大02地∧,其中02表示判斷方式2,表示是按當前字單元后邊擔子判斷。上述判斷結構表示*擊打”的語言使用環境是……力擊打、……地擊打、……兒擊打、……擊打我、擊打他、擊打她、擊打它,“極大”的語言使用環境是“極大地”。
除了上述實施例中涉及的01、02、03方式外,本發明實施例還設定了05方式,表示按當前詞單元的詞性來判斷,如形容詞的前向特征字取“很、常、較、最、別、太、挺、多么”,一旦當前詞前邊的字為上述特征字中的一個,則該形容詞可確定;06方式,表示按當前詞單元前邊一個字或字符數字來判斷,如對眾多量詞的判斷,其集中定義的特征數詞有一、二、某、幾等,一旦當前詞前邊的字為上述特征數詞中的一個時,則該量詞可確定;11方式,表示按當前單元前邊的詞組來判斷,如11幫助學習進行01的……∧;13方式,表示按當前詞單元前邊十個字范圍內特定詞組(03方式為特定詞)來判斷,如判斷“仁慈”與“人次”,“人次”判斷庫中的內容為RFCI人次03議觀∧,表示參加會議或參觀展覽等的人次,由于“仁慈”與“議”、“觀”在同一句子中出現的機會太少,因而將“議、觀”作為特征字;14方式,表示按整個文章中特定詞組判斷,如區別“疏松”與“訴訟”兩重碼詞,采用14方式是把“法院”、“原告”、“被告”作為“訴訟”的特征詞,而“疏松”與“訴訟”在同一文本中出現的機會相當少;22方式,按當前字單元后邊詞組判斷。
此外,本發明實施例在處理使用頻度對比度較大的兩重碼雙字詞時,盡量列舉使用頻度小的詞組的所有判斷條件,當在文本輸入時,一旦出現該詞組,就可立即確定,否則則為使用頻度高的詞組。如“公私”與“公司”,“公私”的判斷庫結構是GSSI公私22分別兼顧合營∧。
上述方式01、11、02、22的選擇原則是寧少勿濫,如果判斷結果為“真”,則判斷結果百分之百正確,方式03、13、14、05、06的判斷結果為“真”,則判斷結果百分之九十五以上正確。
判斷詞庫中可以綜合使用多種判斷方式,以獲得理想的判斷結果。下面即以雙字詞的智能判斷過程為例說明該判斷技術。
本發明實施例以標志flagsL22定義為智能判斷結果,當結果為1時表示肯定正確,當結果為2時表示無意義(未判斷),當結果為3時表示95%程度以上正確。如輸入JIDA,程序進入雙字詞智能判斷程序,在雙字詞詞組判斷字庫中查找到JIDA編碼,將其第一個詞組“擊打”送到暫存字存貯器Z11和Z12中,再依次讀入字庫結構中的判斷方式標志01,程序按該標志將文本中JIDA前的一個字讀到DX寄存器中,若文本內容是“……用力擊打”,則讀入DX寄存器中的就是“力”字,然后程序將DX中的這個字與方式01中的每一個特征字進行比較,若特征字中有DX中的這個字,則flagsL22=1,說明輸入的JDA是“擊打”。若文本內容是“……極大地”,此時程序已按02方式判斷過當前文本內容沒有“擊打地”,在∧符合后,程序將JIDA的下一個詞組“極大”讀到Z11、Z12中,并按02判斷方式找到“極大地”,而獲得判斷正確的結果flagsL22=1,說明輸入的JIDA是“極大”。
程序按02、22等后向判斷方式作判斷時,需將暫時省缺的詞組放入暫存器中,而等待操作者輸入下一個字單元后再判斷。如下一個字單元是“地”(簡碼字),則按02方式可以肯定暫存器中的詞組是“極大”。如下一個字單元是“他”(簡碼字),那么暫存器中的詞組一定是“擊打”。
本發明輸入方法中將狀態沒有確定的字或詞組(還包括英文字符)記錄在狀態記錄器中,此外,在判斷結果為95%以上肯定時,也需將該字單元記錄在狀態記錄器中,實施例狀態記錄器的數據結構為字單元類型或英文標記+編碼+頁+行+列∧。其中字單元類型或英文標記的類型碼可規定為單字詞=01,雙字詞=02,三字詞=03,四字詞=04,而涉及的頁、行、列為字單元第一個字在文本上所處的位置。當判斷結果為95%以上肯定時,則相應字單元類型碼中的O將改為5,如一個雙字詞的判斷結果為95%以上肯定,則它的類型碼為52。
本發明采用了自動掃描功能來最終確定狀態,該掃描程序根據狀態記錄器中所記錄的處于活動狀態的字單元的先后次序,從文本內存的第一個字開始掃描,如果掃描光標與狀態記錄器中第一個不確定字單元中的光標位置頁、行、列相同時,光標就定在這個位置上,并在屏幕上顯示出相應頁,在該狀態下,如果文本內存中原有的被認為是不確定的字單元是正確的,操作者可利用>鍵接著掃描,每按一次>鍵程序均會自動挑選出那些不能肯定的字單元,而跳過肯定的字單元。對于找出的不肯定字單元,操作者可通過操作功能鍵跳到下一個不確定字單元或返回上個字單元或通過選擇屏幕提示修改字單元,修改時可利用其他輸入方法從CCDOS中提出漢字,此時所改動的詞都會從該位置起一直替換到底,也可通過操作功能鍵將光標移動到輸入中萬一有遺漏的某個字詞上,對其作強行修改。
本發明實施例在實施自動掃描功能時采用了“正快逆慢”的掃描方式,即在正向掃描中不予理睬95%以上判斷肯定的字單元,如果這個很有可能是正確的字單元真是不正確的,則操作者有機會從逆向接近它對其進行修改。該掃描方式可加快掃描過程。
除了掃描功能外,本發明實施例還設計了現場造庫、現場簡筆、現場快速復制、中西文混合輸入、上擋鍵轉換等功能,從而形成了一個比較完善的中文輸入系統。
本發明音字結合的輸入方法,將技術重點放在解決音碼的重碼率問題上,特別是解決常用字詞的重碼率問題。簡碼字的確定及其使用可以彌補智能化判斷功能可能出現判斷不出來的情況,提高了系統的整體判斷力,使至少2千對有重碼的詞組得以準確地判斷出來。不僅如此,它還可以使剩下的重碼詞組的判斷準確度得以提高,而學習掌握的難度并無本質上的增加。
本發明的智能判斷功能,是對所有重碼詞均找出各種可能的判斷特征詞,從語法、詞法、詞性、在句子中的成份等作多層次、多方位的判定,使用戶可不顧重碼詞的存在而只管一味地高速輸入。本發明實施例經過一段時間的運行和對上百萬字的科技文稿、報刊文字的輸入,真正實現了拼音輸入學習簡單、智能化判斷解決重碼率的發明目的。
權利要求
1.一種計算機漢字拼音智能輸入法,包括取25組漢語拼音聲母、韻母A IA ZH、B UN üN、C UAN、DIANG UAI、E、F EN UE、G ENG、H ANG、I CH、J AN、K AO、L AI、M UA IAO、N IN、P OU、Q IU、R UO、S ONG IONG、F UI、U SH、üO UANG、EI W、X IAN、Y ING、Z IE,按組一一順序分配到西文鍵盤除O以外的25個字母鍵位上,并以鍵名各為其代碼,按漢字的聲母+韻母+音階1或2或3或4編碼輸入單字詞及按漢字的聲母、韻母結合編碼輸入雙字詞、三字詞和四字詞,其特征在于還包括在有重碼的雙字詞中按出現概率最高、彼此間關系及在單字詞中的重碼情況選擇出156個漢字,以一個西文字母加一個數字或加一個符號的簡碼方式輸入該漢字,包括1或空格2或,3或4或/5或;6或′A 著 極 示 意 例 子B 不 按 還 手 節 氣C 被 服 由 于 接 到D 的 倒 最 近 機 會E 而 編 眼 見 工 地F 每 天 市 場 行 情G 個 越 假 期 起 止H 和 緊 直 至 前 任I 或 經 自 費 計 時J 及 側 交 警 線 路K 可 長 只 身 進 出L 了 解 失 業 指 數M 沒 感 主 要 難 題N 你 致 作 家 保 重O 有 望 相 同 事 跡P 評 勢 完 整 合 并Q 其 它 正 負 全 清R 人 均 非 凡 成 就S 所 帶 電 視 原 理T 他 曾 反 復 調 試U 是 明 生 化 中 心V 一 級 預 報 對 立W 為 使 限 制 流 速X 向 想 無 形 力 量Y 以 便 實 物 教 書Z 在 住 辦 公 部 門輸入有簡碼的單字詞時以其西文字母加數字的方式輸入,組成雙字詞的字各有簡碼時,均以其西文字母加符號的簡碼方式順序輸入,組成雙字詞的字有一個有簡碼時,無簡碼的字按其聲母+韻母編碼輸入,有簡碼的字按其西文字母加符號的簡碼方式輸入;還包括按各種可能的外部語言環境建立的詞組的判斷字庫,字庫基本結構為字或詞組的編碼+具有相同編碼的一個字或一個詞組+判斷方式代碼+參與判斷基本為簡碼字的特征字或特征詞+表示字段結束標志或幾個有重碼詞組的分界標志,所述的判斷方式包括按當前詞單元前邊一個字來判斷、按當前詞單元前邊十個字范圍內特定詞組來判斷、按當前詞單元前邊的詞組來判斷、按整個文章中特定詞組判斷、按當前字單元后邊擔子判斷、按當前字單元后邊詞組判斷、按當前詞單元前邊十個字范圍內特定字來判斷、按當前詞單元的詞性來判斷和按當前詞單元前邊一個字或字符數字來判斷,當輸入字或詞組的編碼有重碼時,以判斷字庫中所對應列舉的特征字、詞按判斷方式代碼的內容作相應方式的判斷,取符合判斷原則的字或詞組輸入。
2.根據權利要求1所述的計算機漢字拼音智能輸入法,其特征在于漢字數字的輸入方法為功能鍵Tab加對應的阿拉伯數字鍵。
3.根據權利要求1所述的計算機漢字拼音智能輸入法,其特征在于十個漢語標點符號。、℃、×÷±¥°‰的輸入方法為連擊兩個西文字母VV鍵再分別擊數字鍵1至0輸入。
全文摘要
本發明涉及一種音字結合的計算機漢字輸入法,將25組聲、韻母分設在25個英文鍵位上并根據重碼雙字詞的計算機統計結果等定義出156個簡碼字和中文數字簡碼字,以一個英文字母與數字或與符號編碼。用漢字的聲韻母組合輸入單、雙、三、四字詞,其中有簡碼的字則用簡碼輸入。發明按編碼、漢字、判斷方式、特征詞的基本結構設計判斷詞庫,以輸入字詞與特征詞的正常使用環境來解決重碼字詞,用智能化選擇代替人工選擇,好學易用速度快。
文檔編號G06F3/023GK1148700SQ9511641
公開日1997年4月30日 申請日期1995年9月20日 優先權日1995年9月20日
發明者王平滿 申請人:王平滿