專利名稱:漢字編碼方法
技術領域:
本發明涉及一種漢字編碼方法。
漢字編碼是中文信息處理的關鍵技術之一,廣泛用于中文輸入和中文檢索等領域。現有的漢字編碼大致分為音碼和形碼,音碼直接采用漢語拼音方案,簡單易學,便于推廣,但同音字和多音字較多,重碼率高,輸入速度慢。形碼利用漢字的字形特征編碼,其方法是選擇若干個漢字部件,確定一組碼元,建立部件與碼元的對應關系,制定編碼規則,由于漢字數量繁多,字型各異,加之很多形碼以減少重碼率作為首要目標,有些方法部件的選擇和分類以及部件與碼元的對應關系不合理,有些方法漢字拆分和編碼規則不規范,因而,一些形碼雖然重碼率低,輸入速度快,但卻難學、難記,不完全符合漢字的結構和組成規律。例如五筆字型,它是將130多個字根分布在25個鍵位上,字根與字母的對應關系由各個字母在鍵盤上的位置來確定,而且同一字母所對應的多個字根除了起筆相同外,沒有其它明顯的共同特征,難以記憶;另外,五筆字型要將漢字完全拆分為所限定的字根,然后再取一、二、三、末字根,不符合漢字的結構特征和組字規律;五筆字型的碼長為4,一個漢字一般要用4個字母編碼,盡管常用字有一級、二級、三級簡碼,但需要大量記憶才能分辨之;五筆字型字根的順序性不明顯,因而不便于漢字檢索。
本發明的目的在于避免上述現有技術中的不足之處,而提供一種部件與碼元對應關系合理,漢字的拆分和編碼規則規范,易于實現部首、聲母、韻母及英文字母四位一體,輸入效果高,簡單易學、易記,可用于漢字輸入和漢字檢索的漢字編碼方法。
本發明的目的可通過以下措施來達到一種漢字編碼方法,包括確定部件和碼元的對應關系及編碼規則,其特殊之處在于,所述的部件和碼元的對應關系是按照部件的形、音或義的特征,將部件分為26部,每部定義一個最能代表該部特征的簡單部件作為該部的部首,并給出名稱,部首即為編碼碼元,按照部首與英文字母形或音的關聯關系,將26個部首與26個英文字母一一對應,英文字母即為部首的代碼;所述的編碼規則是按照漢字的組成和結構選取編碼部件,將選取的部件所在部的部首代碼按筆順排列出,構成漢字的部首碼。
本發明26部的部首、名稱、代碼的對應關系如下
本發明26部的部件可分別分為三級,其級別由低至高依次是,部首和變形部首為部首級部件,簡單部件為1級部件,其余部件為2級部件,所述的26部部件的分級表如下
本發明按照漢字的組成和結構選取編碼部件是將漢字的結構按塊歸納為獨體結構、左右結構、上下結構、內外結構、左中右結構和上中下結構六種字型,其中左右、上下、內外為二分結構,左中右、上中下為三分結構,字型中的各塊為字塊,字塊是單個部件或部件的組合。
本發明部首碼可為一部首碼、二部首碼、三部首碼或四部首碼,其標準碼長分別為1、2、3和4。
本發明的編碼規則是①按照漢字的組成和結構確定取碼方式,即確定取碼字塊和字塊取碼數,字塊數等于碼長時,各取碼字塊各取一碼;字塊數大于碼長時,按照字型結構確定取碼字塊,各字塊分別取一碼;字塊數小于碼長時,按照多部件字塊拆分,單部件字塊不拆分的原則或筆順在先的字塊拆分,筆順在后的字塊不拆分的原則拆分某字塊,拆分的字塊至少取二碼,不拆分的字塊取一碼;②按照字塊的組成和結構確定各字塊取碼部件,字塊部件數等于取碼數時,取該各部件;部件數大于取碼數時,按字塊的字型結構確定取碼部件;部件數小于取碼數時,按照級別高的部件拆分或筆順在先的部件拆分的原則,拆分某部件,拆分的部件至少取二個較低級的部件,不拆分的部件取該部件;③完全拆分為部首級部件后部件數仍然小于碼元數的漢字,其部首碼就由其全部部首級部件對應的代碼組成,其碼長小于標準碼卡。
本發明按照漢字字型確定取碼方式的規則如下
本發明按照字塊確定取碼部件的規則是1)字塊取一個部件時,一般取首部件,但①字塊位于上下或上中下結構的字型之下,或內外結構、開口向下的字型之內,且字塊本身為上下或上中下結構,或雖為整體結構,但可分離出位置在下的非單筆部件時,取該字塊的下部件;②字塊位于左右結構或左中右結構的字型之右,且字塊本身為左右結構時,取該字塊的右部件;③字塊位于上中下結構的字型之上或中或下,且本身為左中右結構時,字塊取中部件;2)字塊取二個部件的規則與漢字取二部首碼的規則相同;3)字塊取三個部件的規則與漢字取三部首碼的規則相同。
下面將結合實施例對本發明作進一步詳述本發明的編碼方法主要是將漢字的部件歸納為26部,定義26個部首作為碼元,部首與26個英文字母一一對應,將漢字結構歸納為六種字型,依據字型選取編碼部件,用部件所在部的部首代碼組成部首碼。部首碼有一部首碼、二部首碼、三部首碼、四部首碼等不同碼制。下面是三部首碼編碼的實施方案1、將漢字拆分為字塊,按照組成和結構確定取碼方式1)獨體結構的漢字①與部首相同的部首字,取部首對應的部首代碼;③非部首字,先拆分為部件,拆分后為二個部件的按二分結構取碼,為三個部件的按三分結構取碼,超過三部件的按漢字筆順首、次、末三部件依次各取一代碼;
2)二分結構的漢字①兩字塊均為部首的雙部首字,按筆順依次取對應的兩個部首代碼;②一字塊為部首,另一字塊為非部首,部首字塊取一個代碼,非部首字塊取二個代碼;③一字塊為1級部件,另一字塊為2級部件,1級部件取一個代碼,2級部件取二個代碼;④一字塊為部件,另一字塊為非部件,部件取一個代碼,非部件字塊取二個代碼;⑤其余二分結構的漢字,筆順在先的字塊取二個代碼,筆順在后的字塊取一個代碼;3)三分結構的漢字三個字塊各取一個代碼;2、字塊選取二個部首代碼的方法1)獨體結構的字塊先將其拆分為部件,拆分后為二個部件的兩部件各取一個代碼,超過兩個部件的按筆順首、末二部件各取一個代碼;2)二分結構的字塊二個字塊各取一碼;3)三分結構的字塊①左中右結構的字塊,左、右兩字塊各取一碼;②上中下結構的字塊,上、下兩字塊各取一碼。
3、字塊選取一個部首代碼的方法1)獨體結構的字塊
①字塊為部件的,取部件所在部的部首代碼;②字塊為非部件的,拆分按筆順取其首部件或主體部件所在部的部首代碼;2)二分結構的字塊①左右結構的字塊,當該字塊位于左右結構或左中右結構的漢字之右時,取右部件所在部的部首代碼;其余則取左部件所在部的部首代碼;②上下結構的字塊,當該字塊位于上下結構或上中下結構的漢字之下,或內外結構的漢字之內,且外結構開口向下時,取下部件所在部的部首代碼;其余則取上部件所在部的部首代碼;③內外結構的字塊,取外部件或首部件所在部的部首代碼;3)三分結構的字塊①左中右結構的字塊,當該字塊位于上中下結構的漢字之上或中或下時,取中部件所在部的部首代碼;其余則取左部件所在部的首代碼;②上中下結構的字塊,取上部件所在部的部首代碼。
下面是一些漢字在不同碼制時的三部首碼編碼舉例
下面以三部首碼為例說明本發明漢字部首碼的鍵盤輸入技術。三部首碼鍵盤輸入采用三鍵輸入,依次輸入漢字的三個部首的代碼,不足三碼時以空格補充,則屏幕提示該碼對應的漢字;若無重碼字,或者提示行中第1個字是要輸入的字,則直接輸入下一個字的部首碼;否則,用數字鍵選擇重碼字,然后再輸入下一個漢字。按照一般規則得到的部首碼稱為原碼,為了減少重碼,可采用筒碼、補碼及異碼的方法重新定義常用字中的重碼字,形成兼容碼。為提高輸入速度,還可采用詞碼、聯想碼等。詞碼的編碼是將雙字詞看作二分結構,三字詞看作三分結構,多字詞當作多分結構來編碼。
本發明與現有技術相比具有如下優點1、繼承和革新了傳統的部首概念,將部首減少為26個,并與英文字母一一對應,使得部首起到同部件的首部件、漢字的最小組成單元、漢字編碼碼元的作用。
2、由于部首與英文字母有著形或音相近的特征,同時,由部首很容易聯想到本部的部件,因而本發明所建立的編碼部件和碼元的對應關系合理、自然,易學、難忘,便于掌握應用。
3、漢字拆分是先按字型拆分為字塊,必要時再將字塊拆分為部件,或再將較高級的部件拆分為較低級的部件,這種根據編碼需要逐級拆分漢字的方法,以及按照字型結構和漢字組成確定取碼方式,選取編碼部件的編碼規則,符合漢字的結構特征和組成規律,符合識字、寫字和打字的規律。
4、部件分類和定義部首時,使各個鍵位的使用頻率基本平衡,因而部首碼的重碼率與相同碼長的其它形碼的重碼率相當或更低,較好地解決了易學與高效的矛盾,三部首碼原碼的重碼字在一級漢字范圍內為15.8%,一、二級漢字范圍內為21.51%(均指靜態重碼率),容易學習掌握,且具有一定的速度,對于經常使用者來說,逐漸記住幾百個常用重碼字的兼容碼后,可大大提高輸入效率,甚至可實現盲打。
5、增加少量繁體字部件后,部首碼可直接用于繁體字的編碼和大漢字庫的編碼,編碼方法基本不變,而且能區分出繁體字和簡體字。
6、應用部首碼進行檢索,比現有的部首檢字法簡便、實用、有效,字典檢字表的編排、人名的排序和檢索、其它中文情報資料檢索等領域可直接采用部首碼。
7、采用本發明定義的部首,可使部首與聲母、韻母及英文字母有機結合,四位一體,使得形碼和音碼相輔相成,形成三部首碼、雙拼一部碼、雙拼雙部碼、三部一聲碼等不同的碼制,構成一個體系,可適應不同的需要。
權利要求
1.一種漢字編碼方法,包括確定部件和碼元的對應關系及編碼規則,其特征在于所述的部件和碼元的對應關系是按照部件的形、音或義的特征,將部件分為26部,每部定義一個最能代表該部特征的簡單部件作為該部的部首,并給出名稱,部首即為編碼碼元,按照部首與英文字母形或音的關聯關系,將26個部首與26個英文字母一一對應,英文字母即為部首的代碼;所述的編碼規則是按照漢字的組成和結構選取編碼部件,將選取的部件所在部的部首代碼按筆順排列出,構成漢字的部首碼。
2.如權利要求1所述的漢字編碼方法,其特征在于所述的26部的部首、名稱、代碼的對應關系如下
3.如權利要求1所述的漢字編碼方法,其特征在于所述26部的部件分別分為三級,其級別由低至高依次是,部首和變形部首為部首級部件,簡單部件為1級部件,其余部件為2級部件,所述的26部部件的分級表如下
4.如權利要求1所述的漢字編碼方法,其特征在于所述的按照漢字的組成和結構選取編碼部件是將漢字的結構按塊歸納為獨體結構、左右結構、上下結構、內外結構、左中右結構和上中下結構六種字型,其中左右、上下、內外為二分結構,左中右、上中下為三分結構,字型中的各塊為字塊,字塊是單個部件或部件的組合。
5.如權利要求1所述的漢字編碼方法,其特征在于所述的部首碼為一部首碼、二部首碼、三部首碼或四部首碼,其標準碼長分別為1、2、3和4。
6.如權利要求1或2或3或4或5所述的漢字編碼方法,其特征在于所述的編碼規則是,①按照漢字的組成和結構確定取碼方式,即確定取碼字塊和字塊取碼數,字塊數等于碼長時,各字塊各取一碼;字塊數大于碼長時,按照字型結構確定取碼字塊,各取碼字塊分別取一碼;字塊數小于碼長時,按照多部件字塊拆分,單部件字塊不拆分的原則或筆順在先的字塊拆分,筆順在后的字塊不拆分的原則拆分某字塊,拆分的字塊至少取二碼,不拆分的字塊取一碼;②按照字塊的組成和結構確定各字塊取碼部件,字塊部件數等于取碼數時,取該各部件;部件數大于取碼數時,按字塊的字型結構確定取碼部件;部件數小于取碼數時,按照級別高的部件拆分或筆順在先的部件拆分的原則,拆分某部件,拆分的部件至少取二個較低級的部件,不拆分的部件取該部件;③完全拆分為部首級部件后部件數仍然小于碼元數的漢字,其部首碼就由其全部部首級部件對應的代碼組成,其碼長小于標準碼長。
7.如權利要求6所述的漢字編碼方法,其特征在于所述按照漢字字型確定取碼方式的規則如下
8.如權利要求7所述的漢字編碼方法,其特征在于所述的按照字塊的組成和結構確定取碼部件的規則是1)字塊取一個部件時,一般取首部件,但①字塊位于上下或上中下結構的字型之下,或內外結構、開口向下的字型之內,且字塊本身為上下或上中下結構,或雖為整體結構,但可分離出位置在下的非單筆部件時,取該字塊的下部件;②字塊位于左右結構或左中右結構的字型之右,且字塊本身為左右結構時,取該字塊的右部件;③字塊位于上中下結構的字型之上或中或下,且本身為左中右結構時,字塊取中部件;2)字塊取二個部件的規則與漢字取二部首碼的規則相同;3)字塊取三個部件的規則與漢字取三部首碼的規則相同。
全文摘要
一種漢字部首編碼方法,其將漢字的部件歸納為26部,定義了26個部首,部首與英文字母一一對應,以部首作為編碼碼元,以英文字母為部首的代碼,將漢字的結構歸納為六種字型,依據字型選取編碼部件,用部件所在部的部首代碼組成部首碼。本發明部件分類合理,部首定義明確,編碼規則自然,易學、易記,簡單、有效,易于實現部首、聲母、韻母、英文字母四位一體,本發明可用于漢字鍵盤輸入和漢字檢索。
文檔編號G06F3/023GK1142076SQ9511371
公開日1997年2月5日 申請日期1995年7月31日 優先權日1995年7月31日
發明者尹宗謀 申請人:尹宗謀