專利名稱:一種創建冷僻字擴充字庫的方法
技術領域:
本發明屬于計算機漢字信息處理領域,具體涉及一種創建冷僻字擴充字庫的方法。
背景技術:
截至目前,已經頒布的國際編碼標準ISO/IEC 106462003、即將頒布的國家編碼標準GB13000、GB18030中,已收錄CJK統一漢字、CJK統一漢字擴充集A、CJK統一漢字擴充集B,共計70195字。CJK統一漢字擴充集C1,正在制定過程中。
但是,如此龐大的字符集,仍不能滿足公民個人信息中姓名、住址用字的需求。也就是說,公民個人信息中姓名、住址中的冷僻字,目前仍然沒有被國際編碼標準所收錄,因而現有的符合國際或國家編碼標準的字庫,都無法支持公民個人信息中的大量冷僻字的錄入、顯示、打印、存儲、讀取、傳輸、交換及處理。在涉及到公民個人信息處理的領域,如公安人口信息管理系統、第二代居民身份證制證系統、銀行、保險、海關等,經常會遇到居民姓名、住址中的冷僻字的處理問題。
目前的現狀是用戶發現自己使用的輸入法無法錄入的漢字,并不清楚是國際或國家編碼標準中尚未收錄該漢字,還是輸入法未能覆蓋現有的國際或國家編碼標準,也就是未經編碼查重,就隨便地補一個字型;然后也未經數據整理和字形規范,就隨便地將該字型放到了用戶自定義區的某個位置。如此以來,用戶自定義區的漢字,不僅存貯無序,而且由于未經查重、整理,自身就有可能存在字型重復。更為嚴重的是,這樣產生的字庫,無法與其它系統進行傳輸、交換。
發明內容
針對現有技術中存在的缺陷,本發明的目的是提供一種創建冷僻字擴充字庫的方法,該字庫中存儲有冷僻字,從而能夠解決公民個人信息姓名、住址中的冷僻字的錄入、顯示、打印、存儲、讀取、傳輸、交換及處理,能夠實現公民個人信息姓名、住址中的冷僻字在全國范圍內的存儲、讀取。
為了實現以上目的,本發明采用的技術方案是
一種創建冷僻字擴充字庫的方法,該冷僻字擴充字庫所存儲的漢字為冷僻字,所述的冷僻字為現有國際或國家編碼標準中尚未收錄的漢字,包括以下步驟(1)首先確認冷僻字為現有的國際或國家編碼標準中并未收錄的字;(2)進行數據整理和字形規范處理,得出字形信息;;(3)最后根據每個冷僻字自身的字形信息,確定出其在該冷僻字擴充字庫中的存貯序列。
進一步來說,步驟(2)進行數據整理及字形規范處理和步驟(3)中的根據所述字形信息確定出每個冷僻字在該冷僻字擴充字庫中的存貯序列時采用如下的方法1)首先選定要擴充到字庫中的冷僻字,然后確定冷僻字的間架結構,并根據冷僻字所含有的部首對冷僻字進行歸部,所述的間架結構包括左右結構,上下結構,左中右結構,上中下結構,全包圍結構,從上包圍結構,從下包圍結構,從左包圍結構,從左上包圍結構,從右上包圍結構,從左下包圍結構,相嵌結構;2)確定冷僻字的剩余筆畫數對于經過第1)步后已經歸部的冷僻字,除去部首的筆畫數,確定該冷僻字的剩余筆畫數;3)確定冷僻字的剩余筆順序列根據冷僻字除去部首后的剩余筆畫的順序,就可以得到該冷僻字的剩余筆畫順序列,所述的筆畫為一(橫)、丨(豎)、丿(撇)、丶(點)、乛(乚乙)(折),分別用序號1、2、3、4、5表示;4)依據冷僻字的使用頻率,對其進行分級,即分為使用頻率相對較高的一級和使用頻率相對較低的一級;5)確定該冷僻字在擴充字庫中的存貯序列。
再進一步,上述確定冷僻字的存貯序列方法的步驟4)中,將使用頻率相對較高的冷僻字,放到了GB18030雙字節編碼對應的GB13000用戶自定義區,而將使用頻率相對較低的冷僻字,放到了GB18030四字節編碼對應的GB13000用戶自定義區。
上述確定冷僻字的存貯序列方法的步驟5)中,首先按使用頻率分級;對于使用頻率級別相同的冷僻字,按冷僻字歸入的部首排序;歸部相同的冷僻字,按剩余筆畫數排序;剩余筆畫數相同的冷僻字,按剩余筆順序列排序。
更進一步,步驟(1)中被擴充的字庫采用國家編碼標準GB18030-2000、GB13000.1-1993或國際編碼標準ISO/IEC 106462003。目前,收錄漢字數最多的國家編碼標準是GB18030-2000。
使用本發明的方法創建的冷僻字擴充字庫的字庫格式是TrueType字庫、PostScript字庫或者用戶自定義形式的字庫格式。
本發明的效果在于采用本發明所述的冷僻字擴充字庫,可以有效地解決公民個人信息姓名、住址中的冷僻字的錄入、顯示、打印、存儲、讀取、傳輸、交換及處理,從而能夠實現公民個人信息姓名、住址中的冷僻字在全國范圍內的存儲、讀取。
圖1是本發明所述確定冷僻字的存貯序列方法的流程圖;圖2是三個冷僻字的示意圖。
具體實施例方式
如圖1所示,以圖2中的三個冷僻字為例,現將這三個冷僻字加入到現有國際或國家標準編碼中,創建冷僻字擴充字庫a)編碼查重,確認冷僻字這三個字,都是目前的輸入法無法錄入的漢字。
經查這三個字,在現有的國際或國家編碼標準中并未收錄。
b)冷僻字的歸部確定字的間架結構這三個冷僻字,都是左右結構。
根據所含部首進行歸部這三個冷僻字,可歸入相同的部首,“韋”部,部首筆畫數為4,部首筆順序列為“1152”。
c)確定冷僻字的剩余筆畫數確定除部首外的剩余筆畫數這三個冷僻字,除去部首筆畫數4,剩余筆畫數均為6。
d)確定冷僻字的剩余筆順序列確定除部首外的剩余筆順序列這三個冷僻字,除去部首筆順序列“1152”,剩余筆順序列分別為“153512”、“323512”、“451512”。
e)依據冷僻字的使用頻率分級依據使用頻率,這三個冷僻字,第二個字使用頻率相對較高,因此放到了GB18030雙字節編碼對應的GB13000用戶自定義區,而第一、第三個字使用頻率相對較低,因此放到了GB18030四字節編碼對應的GB13000用戶自定義區。
這種冷僻字的擴充字庫,可以直接安裝到Windows、MAC OS、Unix、Linux等操作系統中,供用戶使用。
安裝了本發明所述的冷僻字擴充字庫后,可以采用申請號為01115560.4的“電腦漢字典碼輸入方法”中國發明專利申請文獻中所公開的漢字輸入方法輸入本發明冷僻字擴充字庫中所擴充的冷僻字,各種計算機信息處理裝置也可以處理所擴充的冷僻字。
本實施例中的冷僻字擴充字庫的格式是TrueType字庫,當然還可以是其他格式的字庫或者是任何自定義形式的字庫格式。
本發明所述的方法并不限于具體實施方式
中所述的實施例,本領域技術人員根據本發明的技術方案得出其他的實施方式,同樣屬于本發明的技術創新范圍。
權利要求
1.一種創建冷僻字擴充字庫的方法,該冷僻字擴充字庫所存儲的漢字為冷僻字,所述的冷僻字為現有國際或國家編碼標準中尚未收錄的漢字,包括以下步驟(1)首先確認冷僻字為現有的國際或國家編碼標準中并未收錄的字;(2)進行數據整理和字形規范處理,得出字形信息;(3)最后根據每個冷僻字自身的字形信息,確定出其在該冷僻字擴充字庫中的存貯序列。
2.如權利要求1所述的一種創建冷僻字擴充字庫的方法,其特征是步驟(2)進行數據整理及字形規范處理和步驟(3)中的根據所述字形信息確定出每個冷僻字在該冷僻字擴充字庫中的存貯序列時采用如下的方法1)首先選定要擴充到字庫中的冷僻字,然后確定冷僻字的間架結構,并根據冷僻字所含有的部首對冷僻字進行歸部,所述的間架結構包括左右結構,上下結構,左中右結構,上中下結構,全包圍結構,從上包圍結構,從下包圍結構,從左包圍結構,從左上包圍結構,從右上包圍結構,從左下包圍結構,相嵌結構;2)確定冷僻字的剩余筆畫數對于經過第1)步后已經歸部的冷僻字,除去部首的筆畫數,確定該冷僻字的剩余筆畫數;3)確定冷僻字的剩余筆順序列根據冷僻字除去部首后的剩余筆畫的順序,就可以得到該冷僻字的剩余筆畫順序列,所述的筆畫為橫、豎、撇、點、折,分別用序號1、2、3、4、5表示;4)依據冷僻字的使用頻率,對其進行分級,即分為使用頻率相對較高的一級和使用頻率相對較低的一級;5)確定該冷僻字在擴充字庫中的存貯序列。
3.如權利要求2所述的一種創建冷僻字擴充字庫的方法,其特征是所述確定冷僻字的存貯序列方法的步驟4)中,將使用頻率相對較高的冷僻字,放到了GB18030雙字節編碼對應的GB13000用戶自定義區,而將使用頻率相對較低的冷僻字,放到了GB18030四字節編碼對應的GB13000用戶自定義區。
4.如權利要求2或3所述的一種創建冷僻字擴充字庫的方法,其特征是所述確定冷僻字的存貯序列方法的步驟5)中,冷僻字的存貯序列為首先按使用頻率分級;對于使用頻率級別相同的冷僻字,按冷僻字歸入的部首排序;歸部相同的冷僻字,按剩余筆畫數排序;剩余筆畫數相同的冷僻字,按剩余筆順序列排序。
5.如權利要求1、2或3所述的一種創建冷僻字擴充字庫的方法,其特征是步驟(1)中被擴充的字庫采用國家編碼標準GB18030-2000、GB13000.1-1993或國際編碼標準ISO/IEC 106462003。
6.如權利要求4所述的一種創建冷僻字擴充字庫的方法,其特征是步驟(1)中被擴充的字庫采用國家編碼標準GB18030-2000、GB13000.1-1993或國際編碼標準ISO/IEC 106462003。
7.如權利要求1、2或3所述的一種創建冷僻字擴充字庫的方法,其特征是使用本發明的方法創建的冷僻字擴充字庫的字庫格式是TrueType字庫、PostScript字庫或者用戶自定義形式的字庫格式。
8.如權利要求6所述的一種創建冷僻字擴充字庫的方法,其特征是使用本發明的方法創建的冷僻字擴充字庫的字庫格式是TrueType字庫、PostScript字庫或者用戶自定義形式的字庫格式。
全文摘要
本發明涉及一種創建冷僻字擴充字庫的方法,屬于計算機漢字信息處理領域。現有的公民個人信息的姓名、住址等信息中常會有冷僻字,無法實現計算機的存儲和讀取。本發明所述的一種創建冷僻字擴充字庫的方法,采用字庫技術,對現有的公民個人信息中姓名、住址中出現的冷僻字,根據每個漢字的字形信息,給出了它們在字庫中特定的存貯序列,用于實現姓名、住址中的冷僻字的計算機等信息處理設備的錄入、顯示、打印、存儲、讀取、傳輸、交換及處理。采用本發明所述的擴充字庫,可以實現對公民個人信息中的姓名、住址中的冷僻字進行整理、規范,該字庫可廣泛地應用于涉及到公民個人信息的姓名、住址的領域。
文檔編號G06F17/27GK1741006SQ20051010496
公開日2006年3月1日 申請日期2005年9月22日 優先權日2005年9月22日
發明者尹江紅, 高玉軍, 唐英敏 申請人:北京北大方正電子有限公司, 北京大學