一種方塊苗文的音形結合快速輸入編碼及其優化方法
【技術領域】
[0001] 本發明設及一種方塊苗文的音形結合快速輸入編碼及其優化方法,屬于我國少數 民族文字鍵盤輸入編碼技術領域。
【背景技術】
[0002] W漢字為代表的方塊文字鍵盤輸入主要采用基于本身字音屬性或字形屬性的音 碼或形碼輸入編碼方法。漢字輸入編碼方法研究起步于上世紀80年代,先后經歷了單字、 詞語及整句輸入編碼方法研究幾個階段,目前已進入面向Windows、Linux、An化oid等操作 系統,W重碼字和詞的智能識別、候選字的智能選定上屏、縮短平均碼長且促進編碼簡單化 和規范化為目標的字、詞、句輸入的智能處理時代,各類智能輸入法軟件紛紛出現。與漢字 相比,我國少數民族方塊文字的輸入編碼方法研究起步較晚。2006年至今期間,與此相關研 究報道主要有:董芳等提出的基本筆畫與部件相結合的水書文字形碼輸入編碼方法;楊撼 岳等研制的基于7種基本筆畫細分所得的21類筆形的水書文字=角形碼輸入編碼方法的 輸入法軟件;郭海等研究的基于音標轉寫的納西象形文字音碼輸入編碼方法;柳長青等提 出的由文字本身4個角的筆形數碼決定的西夏文四角號碼形碼輸入編碼方法;寧威林等設 計的基于有無曲線、有無封閉、有無點等字形特點分類的彝文輸入形碼編碼方法;吳馳等提 出的結構類型和書寫筆順相結合的彝文形碼輸入編碼方法;黃勇等設計和開發的基于規范 拼音音碼及本身字形五筆形碼的古壯文輸入法編輯器。上述少數民族方塊文字的輸入編碼 方法主要基于純形碼,編碼設計方法不夠簡便,輸入法的易學易用性及快捷高效性有待提 局。
[0003] 方塊苗文是一種仿漢字結構的方塊文字,其信息處理技術研究剛剛起步。方塊苗 文主要包括=套:老寨苗文、古丈苗文和板塘苗文。它們造字原理完全相同,都創造性地運 用了形聲、會意、假借、象形等手段,直接取一些含義明確、結構或筆畫較簡單且日常使用頻 率較高的漢字或偏旁,W及極個別無音無義的純粹符號(如"~"、"X")作為義符、聲符或形 符構件,采用一字一音節的方法來標記一個語素或詞。方塊苗文基本上都是合體字,其結構 類型大致分為左右結構、上下結構、側圍結構和內外結構4種。圖1給出4種不同結構的方 塊苗文字例及其漢義示意圖。
[0004] 理論上,仿漢字結構的方塊苗文可采用類似于漢字的音碼或形碼輸入方法實現輸 入。然而,會拼讀方塊苗文的人極少,使得基于本身字音屬性的方塊苗文音碼輸入編碼方法 不可行。通常,方塊苗文均可視為二或=構件型合體字,其構件筆形拆分繁瑣,如果采用純 形碼輸入編碼方法,不利于用戶記憶。 陽〇化]考慮到方塊苗文的構件除個別是純粹符號外,其余都是簡單漢字(或偏旁)運一 事實,可W嘗試利用構件的字音屬性取代文字本身字音屬性的思路來設計其輸入編碼方 法。前期,為了解決方塊苗文的輸入問題,莫禮平等根據此思路先后研究并實現了基于構件 漢語全拼的音碼輸入和基于構件拼音同文字結構類型相結合的音形碼輸入編碼方法。前一 方法中,一個方塊苗文的輸入編碼序列由其所包含的2至3個構件的全部漢語拼音字母構 成,碼元與鍵盤26個字符鍵位一一對應。后一方法中,將方塊苗文輸入編碼統一為"3個音 碼+1個形碼"的4碼形式。其中,二構件型方塊苗文的音碼由第一個構件拼音首字母和第 二個構件拼音的首字母和次字母決定,=構件型方塊苗文的音碼由3個構件拼音的首字母 決定;形碼由其結構類型決定;音碼碼元與鍵盤相應字符鍵位一一對應,左右結構、上下結 構形碼分別映射至鍵盤數字鍵位"4"和"5";考慮到方塊苗文中,內外結構的極少,側圍結 構的也不多,運兩種結構形碼均映射至數字鍵位"6"。
[0006] 上述兩種方法的實現,證明了利用構件的字音屬性代替文字本身字音屬性來設計 方塊苗文輸入編碼方法運一思路的正確性和可行性。然而,前述第一種方法存在碼長過大, 重碼情況嚴重等缺陷,基本上沒考慮效率;第二種方法雖然有效地降低了碼長和重碼率,但 沒有考慮用戶思維習慣和擊鍵習慣,效率依然不甚理想。
【發明內容】
[0007] 本發明的目的在于提供一種方塊苗文的音形結合快速輸入編碼及其優化方法,W 便能提供一種符合用戶思維習慣和擊鍵習慣的、碼長短、重碼率低、能夠有效保障用戶輸入 速度和正確率的方塊苗文音形結合快速輸入編碼方法,有效解決從方塊苗文字庫中快速調 出所需字形的問題。
[0008] 為了實現上述目的,本發明的技術方案如下。
[0009] 一種方塊苗文的音形結合快速輸入編碼方法,其基本思想是:由方塊苗文的構件 漢語拼音的聲母(或韻母)決定音碼,由本身的筆順筆畫和結構類型決定形碼。由于構件 漢語拼音的聲母(或韻母)數目遠多于基本筆畫種數,基本筆畫種數又多于結構類型種數, 為了增加區分度,將方塊苗文輸入編碼統一設計為"首構件音碼+末構件音碼+文字筆順形 碼+文字結構類型形碼"的4碼形式。通常,文字的首筆和末筆是最易提取的筆畫,考慮到 方塊苗文中,首構件相同者遠多于末構件相同者,末筆筆畫比首筆筆畫的區分性更好,故由 文字末筆筆畫決定筆順形碼,該方法中方塊苗文輸入編碼的具體形式為"首構件音碼+末 構件音碼+文字末筆筆畫形碼+文字結構類型形碼"。
[0010] 上述方法中,音碼設計的方法為,按照從上至下、從左到右、從外到內的順序對方 塊苗文進行構件拆分后,選取首構件和末構件的漢語拼音首字母作為音碼碼元;取出的第 一個構件為首構件,最后一個構件為末構件;成字構件選取其拼音首字母作為音碼碼元,若 無聲母,則取韻母首字母;純粹符號對應的不成字構件,統一選用一個非拼音首字母的字母 作為音碼碼元。
[0011] 上述方法中,形碼設計的方法為,采用最簡易直觀的方法:選取橫、豎、撇、掠、點、 折6種基本筆畫名稱的漢語拼音首字母作為筆順形碼碼元;選取左右、上下、側圍、內外4種 結構類型名稱的漢語拼音首字母作為結構類型形碼碼元。
[0012] 上述方法中,W通用鍵盤為標準,將碼元與鍵盤鍵位之間建立如下映射關系:(1) 成字構件音碼碼元直接映射至其拼音首字母對應的字符鍵位,不成字構件音碼碼元統一映 射至非拼音首字母i對應的I鍵位;
[0013] (2)筆順筆畫及結構類型形碼碼元直接映射至對應其名稱漢語拼音首字母的字 符鍵位,即:橫化)一H、豎(S) -S、撇(P)-P、掠(n)-N、點(d)-D、折(Z) -Z,左右結構 (z)-Z、上下結構(s)-S、側圍結構(c)-C、內外結構(n)-N。
[0014] 基于上述方塊苗文的音形結合快速輸入編碼的優化方法,所述方法W鍵位碼元 負荷分析和相關擊鍵時間當量分析為基礎進行了優化:采用"避重就輕"的原則均衡碼元負 荷,盡可能將負荷大的鍵位上的碼元分散到負荷較小的鍵位上去;同時,根據鍵位有效使用 原則,調整形碼映射方式,W提高連續擊鍵速度;上述方法中,Z、S、C運=個映射鍵位因碼 元負荷大而被過度使用,而碼元負荷小、比Z、S、C鍵位更適合高頻使用的U、V、I=個鍵位 卻沒得到充分利用;根據優化的基本思想,將形碼碼元的Z用U替代,S用V替代,C用i替 代;運樣,左右結構形碼和折筆形碼被映射至鍵位U,上下結構形碼和