基于xml動態生成近似關鍵字的方法
【技術領域】
[0001]本發明涉及計算機軟件技術領域,特別涉及一種基于XML動態生成近似關鍵字的方法。
【背景技術】
[0002]XML數據庫是一種支持對XML (可擴展標記語言)格式文檔進行存儲和查詢等操作的數據管理系統。在系統中,開發人員可以對數據庫中的XML文檔進行查詢、導出和指定格式的序列化。XML數據庫是XML文檔及其部件的集合,并通過一個具有能力管理和控制這個文檔集合本身及其所表示信息的系統來維護。XML數據庫不僅是結構化數據和半結構化數據的存儲庫,像管理其它數據一樣,持久的XML數據管理包括數據的獨立性、集成性、訪問權限、視圖、完備性、冗余性、一致性以及數據恢復等,這些文檔是持久的并且是可以操作的。
[0003]目前,在軟件開發過程中,很多系統中都需要查詢近似關鍵字。對于軟件開發者來說,新開發一個近似關鍵字查詢功能,常常會花費大量的時間來編寫代碼,因此代碼重復利用率低。
【發明內容】
[0004]【要解決的技術問題】
[0005]本發明的目的是提供一種基于XML動態生成近似關鍵字的方法,以解決近似關鍵字查詢的代碼重復利用率低問題。
[0006]【技術方案】
[0007]本發明是通過以下技術方案實現的。
[0008]本發明涉及一種基于XML動態生成近似關鍵字的方法,該方法包括如下步驟:
[0009]分別創建第一字庫、第二字庫、第三字庫,所述第一字庫、第二字庫、第三字庫均為XML數據庫文件,其中第一字庫用于存儲讀音相同的字,第二字庫用于存儲字形編碼相同的字,第三字庫用于存儲繁體字;
[0010]獲取外部輸入的初始關鍵字并對初始關鍵字拆分得到匹配字和匹配字符串;
[0011]查找第一字庫,得到與匹配字讀音相同的同音字集合,分別將同音字集合中的每個字與匹配字符串組合成同音關鍵字,將所有的同音關鍵字保存至第一關鍵字集合;
[0012]查找第二字庫,得到與匹配字字形相同的同形字集合,分別將同形字集合中的每個字與匹配字符串組合成同形關鍵字,將所有的同形關鍵字保存至第二關鍵字集合;
[0013]查找第三字庫,得到匹配字對應的繁體字,將匹配字對應的繁體字與匹配字符串組合成繁體關鍵字,將該繁體關鍵字保存至第三關鍵字集合;
[0014]對所述初始關鍵字進行反向排序,得到第四關鍵字集合;
[0015]將所述第一關鍵字集合、第二關鍵字集合、第三關鍵字集合和第四關鍵字集合組合得到初始關鍵字的近似關鍵字集合。
[0016]作為一種優選的實施方式,所述字形編碼的方式為五筆字形編碼
[0017]作為另一種優選的實施方式,所述創建第一字庫的方法為:通過查找標準漢字庫得到讀音相同的字,將讀音相同的字批量添加到第一字庫中。
[0018]作為另一種優選的實施方式,所述創建第二字庫的方法為:通過查找標準漢字庫得到字形編碼相同的字,將字形編碼相同的字批量添加到第二字庫中。
[0019]作為另一種優選的實施方式,所述創建第三字庫的方法為:通過查找標準漢字庫得到繁體字,將繁體字批量添加到第三字庫中。
[0020]【有益效果】
[0021]本發明提出的技術方案具有以下有益效果:
[0022]本發明實現了近似關鍵字的動態生成功能,本發明可以方便的移植到不同的系統,提高了代碼的重復利用率。
【附圖說明】
[0023]圖1為本發明的實施例提供的基于XML動態生成近似關鍵字的方法。
【具體實施方式】
[0024]為使本發明的目的、技術方案和優點更加清楚,下面將結合附圖,對本發明的【具體實施方式】進行清楚、完整的描述,顯然,所描述的實施例是本發明的一部分實施例,而不是全部實施例,也不是對本發明的限制。基于本發明的實施例,本領域普通技術人員在不付出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明的保護范圍。
[0025]圖1為本發明實施例提供的基于XML動態生成近似關鍵字的方法。如圖1所示,該方法包括步驟11至步驟17,下面分別對步驟11至步驟17進行詳細說明。
[0026]步驟11:分別創建讀音相同字庫、字形編碼相同字庫、繁體字字庫。
[0027]步驟11中,創建讀音相同字庫的方法為:通過查找標準漢字庫得到讀音相同的字,將讀音相同的字批量添加到第一字庫中。
[0028]創建字形編碼相同字庫的方法為:通過查找標準漢字庫得到字形編碼相同的字,將字形編碼相同的字批量添加到第二字庫中。
[0029]創建繁體字字庫的方法為:通過查找標準漢字庫得到繁體字,將繁體字批量添加到第三字庫中。
[0030]步驟12:獲取外部輸入的初始關鍵字并對初始關鍵字拆分得到匹配字和匹配字符串。
[0031 ] 本實施例中的初始關鍵字為“五糧液”,則將“五糧液”拆分為匹配字“五”和匹配字符串“糧液”。
[0032]步驟13:查找讀音相同字庫,獲取同音字集合,得到同音關鍵字集合。
[0033]步驟13具體包括:查找讀音相同字庫,得到與匹配字讀音相同的同音字集合,分別將同音字集合中的每個字與匹配字符串組合成同音關鍵字,將所有的同音關鍵字保存至問音關鍵字集合。
[0034]本實施例中,查找讀音相同字庫后,得到同音字集合“午、舞、武”,將同音字集合中的每個字與匹配字符串組合,得到同音關鍵字“午糧液”、“舞糧液”、“武糧液”,將將所有的同音關鍵字保存至同音關鍵字集合。需要說明,為了說明方便,僅僅給出了讀音相同字庫中的“午、舞、武”三個同音字,所有與“五”同音的字均包含在讀音相同字庫中。
[0035]步驟14:查找字形編碼相同字庫,獲取同形字集合,得到同形關鍵字集合。
[0036]步驟14具體包括:查找字形編碼相同字庫,得到與匹配字字形相同的同形字集合,分別將同形字集合中的每個字與匹配字符串組合成同形關鍵字,將所有的同形關鍵字保存至同形關鍵字集合。
[0037]本實施例中,查找字形編碼相同字庫后,得到與匹配關鍵字“五”字形編碼相同的同形字集合“玉、王”,將同形字集合中的每個字與匹配字符串組合,得到同形關鍵字“玉糧液”、“王糧液”,將所有的同形關鍵字保存至同形關鍵字集合。需要說明,為了說明方便,僅僅給出了字形編碼相同字庫中的“玉、王”兩個字形編碼相同的字,所有與“五”字形編碼相同的字均包含在讀音相同字庫中。另外,判斷字形編碼是否相同的標準為五筆字形編碼方式是否相同。
[0038]步驟15:查找繁體字字庫,獲取繁體關鍵字,得到繁體關鍵字集合。
[0039]本實施例中,查找繁體字字庫,得到匹配字對應的繁體字“五”,將匹配字對應的繁體字與匹配字符串組合成繁體關鍵字“五糧液”。
[0040]步驟16:對初始關鍵字進彳丁反向排序,得到反序關鍵字集合。
[0041]本實施例中,對初始關鍵字進行反向排序,得到反序關鍵字集合“液糧五”。
[0042]步驟17:組合得到初始關鍵字的近似關鍵字集合。
[0043]本實施例中,將同音關鍵字集合、同形關鍵字集合、繁體關鍵字集合和反序關鍵字集合組合得到初始關鍵字的近似關鍵字集合。
[0044]需要說明,上述步驟僅僅給出了將關鍵字“五糧液”拆分為匹配字“五”和匹配字符串“糧液”后,獲取近似關鍵字的步驟,同樣,也可以將關鍵字“五糧液”拆分為匹配字“糧”和匹配字符串“五液”,或者將關鍵字“五糧液”拆分為匹配字“液”和匹配字符串“五糧”,拆分后,采用相同的方法也可以得到其他的近似關鍵字集合。
[0045]從以上實施例可以看出,本發明實施例實現了近似關鍵字的動態生成功能,而且本發明實施例中的字庫為XML數據庫文件,可以方便的移植到不同的系統,因此提高了代碼的重復利用率。
【主權項】
1.一種基于XML動態生成近似關鍵字的方法,其特征在于包括如下步驟: 分別創建第一字庫、第二字庫、第三字庫,所述第一字庫、第二字庫、第三字庫均為XML數據庫文件,其中第一字庫用于存儲讀音相同的字,第二字庫用于存儲字形編碼相同的字,第三字庫用于存儲繁體字; 獲取外部輸入的初始關鍵字并對初始關鍵字拆分得到匹配字和匹配字符串; 查找第一字庫,得到與匹配字讀音相同的同音字集合,分別將同音字集合中的每個字與匹配字符串組合成同音關鍵字,將所有的同音關鍵字保存至第一關鍵字集合; 查找第二字庫,得到與匹配字字形相同的同形字集合,分別將同形字集合中的每個字與匹配字符串組合成同形關鍵字,將所有的同形關鍵字保存至第二關鍵字集合; 查找第三字庫,得到匹配字對應的繁體字,將匹配字對應的繁體字與匹配字符串組合成繁體關鍵字,將該繁體關鍵字保存至第三關鍵字集合; 對所述初始關鍵字進行反向排序,得到第四關鍵字集合; 將所述第一關鍵字集合、第二關鍵字集合、第三關鍵字集合和第四關鍵字集合組合得到初始關鍵字的近似關鍵字集合。
2.根據權利要求1所述的基于XML動態生成近似關鍵字的方法,其特征在于所述字形編碼的方式為五筆字形編碼。
3.根據權利要求1所述的基于XML動態生成近似關鍵字的方法,其特征在于所述創建第一字庫的方法為:通過查找標準漢字庫得到讀音相同的字,將讀音相同的字批量添加到第一字庫中。
4.根據權利要求1所述的基于XML動態生成近似關鍵字的方法,其特征在于所述創建第二字庫的方法為:通過查找標準漢字庫得到字形編碼相同的字,將字形編碼相同的字批量添加到第二字庫中。
5.根據權利要求1所述的基于XML動態生成近似關鍵字的方法,其特征在于所述創建第三字庫的方法為:通過查找標準漢字庫得到繁體字,將繁體字批量添加到第三字庫中。
【專利摘要】本發明涉及計算機軟件技術領域,提供一種基于XML動態生成近似關鍵字的方法,以解決似關鍵字查詢的代碼重復利用率低的問題。該方法包括:創建XML基礎字庫;查找基礎字庫,得到關鍵字結合。發明提出的技術方案解決了近似關鍵字查詢的代碼重復利用率低問題。
【IPC分類】G06F17-30
【公開號】CN104573059
【申請號】CN201510033012
【發明人】周夏成
【申請人】成都市卓睿科技有限公司
【公開日】2015年4月29日
【申請日】2015年1月22日