專利名稱:一種可持續優化地名數據庫快速分級配準方法
技術領域:
本發明屬于數據處理領域,特別涉及一種可持續優化地名數據庫快速分級配準方法。
背景技術:
目前在數字城市建設過程中,各個業務系統通常需要集成地理信息和業務數據信 息,但業務系統數據庫中的地理位置相關數據通常不存在經緯度坐標信息,只有地理位置 的名稱或近似名稱,所以不能用GIS技術圖形化來管理和展示業務信息。因此需要以地名 空間數據為紐帶,將業務管理數據中的地名地址匹配到空間數據庫的地名地址,實現各個 業務數據快速匹配落圖定位,支持業務管理與空間數據快速集成。因此基于地名數據庫的 地名配準是一項重要的基礎性工作。目前進行地址數據配準大都通過人工方式,造成效率低下,且需要多個軟件相互 配合才能完成。后來,有人研制出一種半自動方式的軟件配準系統,但是其不夠智能化,效率不夠 高,沒有把軟件能夠自動完成的高精度配準數據提取出來,造成工作量的增加。此外,目前所進行的數據匹配,都是采用模糊匹配,例1 漢字模糊音化,再將業務 數據中的地理位置模糊音化,兩者匹配,例2 基于中文字符串模糊匹配算法BPM-BM的基本 原理匹配,這些模糊匹配的方法都不能找到最匹配的結果,造成配準結果的精度降低。基于以上分析,本發明人針對現有的地名數據庫配準方法進行研究改進,本案由 此產生。
發明內容
本發明的主要目的,在于提供一種可持續優化地名數據庫快速分級配準方法,可 同時提高配準的質量和效率。為了達成上述目的,本發明的解決方案是一種可持續優化地名數據庫快速分級配準方法,包括全自動配準子系統和人工快 速檢查子系統,步驟為(1)全自動配準子系統讀取基礎數據及詞庫,并對其進行預處理;(2)全自動配準子系統讀取待配準數據和配準參考數據,并依據先點匹配、再區域 匹配的配準原則進行匹配,然后輸出初步的配準結果;(3)人工快速檢查子系統讀取基礎數據及詞庫,并對其進行預處理;(4)人工快速檢查子系統對前述初步的配準結果進行數據篩選,并應用不同的檢 查策略;(5)進行人工匹配,核查結果。上述步驟⑵中,點匹配的內容為名稱、區劃代碼完全相同;若無,去除地名要素 前綴之后的單位名稱、區劃代碼完全相同;若無,單位的名稱要素、區劃代碼相同,或單位地址、區劃代碼相同,大廈名稱相同。上述步驟(2)中區域匹配的內容為單位地址鄰近,小區名稱相同或者包含;若 無,按所在的社區/村的行政中心匹配若無,按所在的道路匹配;若無,按所在的街道/鎮/ 鄉的行政中心匹配。上述步驟(4)中,對初步的配準結果按匹配方法進行篩選,對于點匹配進行抽查 或快速瀏覽檢查,對于區域匹配進行重點檢查。采用上述方案后,本發明具有以下特點(1)本發明采用精度分級的配準原則,能夠按照匹配方法對匹配結果的精度予以 描述,在檢查時,可以按照精度進行重點檢查或者抽查,與傳統的不分主次精度不分等級, 統一檢查相比,可以有效提高檢查效率;(2)采用自動配準與人工檢查相結合的配準流程,既能通過自動化的程序在極短 時間內完成初步配準作業,又能通過檢查程序保證配準的整體質量;(3)通過詞庫的方法來識別地名中的關鍵字,一則可以解決地名本地化搜索的問 題,二則解析過程簡單且更精準,可以有效提升匹配的質量;(5)全自動配準子系統是一個可不斷優化的系統,通過對詞庫的干預,即可影響匹 配結果,經過多次詞庫的優化,盡可能地提升自動配準結果的質量,減少人工檢查作業的工作量。
圖1是本發明的流程圖;圖2是本發明的整體架構圖。
具體實施例方式以下將結合附圖及具體實施例,對本發明進行詳細說明。首先參考圖2所示,是本發明一種可持續優化地名數據庫快速分級配準方法所使 用的系統架構圖,主要包括基礎數據及詞庫、全自動配準子系統、人工快速檢查子系統三個 部分,其中,基礎數據及詞庫主要包括以下詞庫文件1)地名分類代碼需要三類村社區,鄉鎮街道,大廈小區;內容為每個分類所包 括的分類代碼;2)道路坐標表用于道路匹配時,配準到道路的中心坐標;3)區劃代碼表用于當無行政區劃代碼時,從名稱和地址中分析行政區劃代碼;4)市/區/鎮/村詞庫文件整理一份全稱的,放置于根目錄下指定目錄;一份簡 稱的,放置于配置文件;5)道路名稱用于識別地址中的道路名稱,去掉一些過于簡單,會產生歧義的道 路名;6)大廈小區用于識別地址中的大廈小區名稱。去掉一些過于簡單,會產生歧義 的名稱;7)包含數字的詞庫表用于處理地址中的數字轉換。由市/區/鎮/村/道路/ 大廈詞庫而來;
8)附加控制表(可選)用于按條件過濾名稱的多余部分。規則為,如果名稱中包 含某字符串,則過濾掉某字符串;9)簡稱/錯別字對照表(可選)用于處理地址及名稱中的簡稱以及錯別字。參考圖1所示,本發明提供一種可持續優化地名數據庫快速分級配準方法,包括 如下步驟步驟一,基礎數據及詞庫的讀取和預處理首先讀取原始數據及準備好的詞庫文件,所述的原始數據包括待配準數據和配準 參考數據,其中待配準數據包含有名稱、地址、區劃代碼等字段,但無空間坐標信息,實際舉 例可參考表1所示。表 1 而配準參考數據包含有名稱、地址、分類、區劃代碼、空間坐標信息等字段,本實施 例中所使用的配準參考數據由MID和MIF兩個文件組成,兩個文件結合起來組成的數據如 表2所示。表2 本發明的目的就在于從表2中找出與表1中的每項內容相匹配的記錄,然后把經 緯度坐標信息賦予表1中各項。該步驟的內容為(1)讀取基礎數據及詞庫,并放置于內存哈希表中;其中包括讀取道路名稱詞庫、 大廈詞庫、小區詞庫、村社詞庫、鄉鎮街道辦詞庫、數字地名詞庫、簡稱對照表、錯別字對照 表、區劃代碼對照表、道路坐標數據等。其中道路名稱詞庫用于從地址中分析出道路名稱; 大廈小區詞庫用于從地址中分析出大廈小區;村社區、鄉鎮街道辦詞庫用于從地址中分析 村社鄉鎮街道辦;數字地名防止對這些地名進行中文數字轉換;簡稱錯別字對照表用于對 配準雙方進行替換然后配準;區劃代碼表用于當待配準數據無區劃代碼時,計算其行政區 劃代碼;道路坐標數據用于道路匹配;(2)讀取待配準數據表,對地址進行預處理,包括全半角轉換、簡稱/錯別字處理 等;(3)讀取配準參考數據表,并對名稱進行分詞處理,對地址進行預處理,同樣包括 全半角轉換、簡稱/錯別字處理等;(4)哈希表搜索緩存;該緩存主要針對配準參考數據表,包括把名稱去掉市級、區 縣級、鄉鎮級的前綴和后綴、對地址進行預處理。步驟二,全自動配準配準就是比較待配準數據項與配準參考數據項是否相匹配,比較的字段有名稱、 地址和區劃代碼,其中區劃代碼是必要因素,名稱和地址是兩個單獨的因素,也就是說相匹 配的兩條記錄,必須是區劃代碼相同的,而名稱和地址只要有一個相匹配即可。以下是本方法所使用的配準原則(按照從優到劣順序)①點匹配(精確匹配)完全匹配名稱、區劃代碼完全相同。區劃代碼只采用有效位,下同。準確匹配去除地名要素前綴之后的單位名稱、區劃代碼完全相同。名址匹配單位的名稱要素(去除地名要素前綴、后綴)、區劃代碼相同,或單位 地址(含門牌號碼)、區劃代碼相同,大廈名稱相同。②區域匹配(模糊匹配)地址鄰近匹配單位地址(含門牌號碼)鄰近,小區名稱相同或者包含。社村級匹配按所在的社區/村的行政中心匹配。道路匹配當找不到鄰近地址的情況下,按所在的道路匹配(道路上的隨機特征 點,或者道路某段的中心點)。街鎮級匹配按所在的街道/鎮/鄉的行政中心匹配。③未匹配在無法使用以上任何原則匹配的前提下,不予配準。全自動配準子系統在進行配準時,以下述的順序進行匹配,若匹配成功,則不再進 行下面的匹配,直接跳出,開始下一項的配準,以下將說明具體的匹配順序(為方便表示, 當前待配準數據項各字段命名為DName,DAddress, DCode,分別表示名稱、地址、區劃代碼;配準參考數據項的各字段命名為PName,PAddress, PCode, PClass,分別表示名稱、地址、區 劃代碼、分類)(1)地址完全匹配。判斷DAddress和PAddress是否有地址完全相同項。依據為 完全匹配原則。(2)地址基本匹配。DAddress提取道路名稱和門牌號,PAddress亦提取道路名稱 和門牌號,然后判斷是否有完全相同項。依據為名址匹配原則。(3)名稱完全匹配。判斷DName和PName是否有名稱完全相同項。依據為完全匹 配原則。(4)名稱準確匹配。該步分為6步,第一步為DName和PName分別去掉市級前綴, 判斷是否有完全相同項,該步依據為準確匹配原則;第二步到第六步分別為DName和PName 去掉前綴及后綴、去掉區縣級前綴、去掉區縣級前綴及后綴,去掉鄉鎮級前綴,去掉鄉鎮級 前綴及后綴,而后判斷是否有完全相同項。該五步依據為名址配準原則。(5)地名分詞匹配。對PName進行分詞,然后檢查DName是否完全包含各詞組,并 且無多余。依據為名址匹配原則。(6)大廈相等匹配。識別DName和DAddress中的大廈,檢查配準參考數據中是否 有完全相同項。依據為名址匹配原則。若識別時DName或者DAddress中有多個大廈名稱, 則以后者優先。下同,小區名詞識別亦同此規則。(7)大廈包含匹配。識別DName和DAddress中的大廈,檢查配準參考數據中是否 有項包含此大廈名稱,若有,則認為匹配。依據為名址匹配原則。(8)地址鄰近匹配。門牌號相差50以內。識別DAddress中的門牌號碼,并找到 PAddress中門牌號碼最接近的一項,若差距大于50,則認為不能匹配。依據為地址臨近匹 配原則。(9)小區匹配。識別DName和DAddress中的小區名稱,檢查完全和包含匹配。依 據為地址臨近匹配原則。(10)村/社級行政區中心匹配。識別DName和DAddress中的村、社區名稱(全 稱),然后檢查配準參考數據中是否有匹配項。依據為村社級匹配。若識別時DName或者 DAddress中有多個村/社區名稱,則以后者優先。(11)道路匹配。識別DName和DAddress中的道路名稱,采用該道路在當前區劃內 的部分道路的中心點表示/或者地址包含該道路的任意特征點。依據為道路匹配。(12)村/社級行政中心匹配(簡稱匹配)。識別DName和DAddress中的村、社區 名稱(簡稱),然后檢查配準參考數據中是否有匹配項。依據為村社級匹配。(13)街道/鎮/鄉級別的行政中心匹配。識別DName和DAddress中街道辦、鎮、 鄉名稱,先全稱后簡稱,檢查完全匹配。依據為街鎮級匹配。其中(1)-(7)為精確匹配,(8)-(13)為模糊匹配。前述配準完成后,全自動配準子系統輸出初步的配準結果,參照表3所示。表 3
7
其中虛線框中表示自動匹配后添加的內容字段。需要說明的是,當全自動配準子系統配準完成后,可以對初步的配準結果進行大 致的審查,可能會發現某些項誤匹配或者未匹配的原因,然后適當地修改詞庫,再次運行本 子系統,運行完畢,再進行審查,再修改,再運行。通過這樣幾次循環,一則提升了匹配質量, 二則得到了一份本地詞庫,在以后該地區的配準作業中,可以直接使用,或者在此基礎上進 行豐富即可,具有不斷優化的特點;此外,其還具有穩定性,體現在,如果詞庫不修改,每次 運行的結果都是一樣的,如果修改個別詞庫,僅與該詞相關的項會發生改變,該特性在判斷 詞庫修改后產生的影響上有重要意義。步驟三,人工檢查單純地通過修改詞庫并不能解決所有問題,因此還需進行人工審核,具體的步驟 為(1)基礎數據及詞庫的讀取和預處理同步驟一中的內容,在此不再贅述。(2)數據篩選對前述配準結果按照已配準/未配準、匹配方法等進行篩選,從而方便對由不同 匹配方法產生的配準結果進行不同的檢查策略,如對于點匹配進行抽查或快速瀏覽檢查, 而對于區域匹配則進行重點檢查;(3)人工匹配搜索在配準參考數據中按照原始地名信息進行搜索,并列出所有備選項,還可以修改 搜索關鍵字,并執行興趣點搜索和道路搜索。(4)地圖定位選擇某一匹配備選項,并在地圖上予以標識,此處可通過鷹眼圖和詳細圖兩種圖 示進行顯示,從而可方便在不同備選項之間切換時,迅速確定各備選項之間的距離和相對 位置關系。
以上實施例僅為說明本發明的技術思想,不能以此限定本發明的保護范圍,凡是 按照本發明提出的技術思想,在技術方案基礎上所做的任何改動,均落入本發明保護范圍 之內。
權利要求
一種可持續優化地名數據庫快速分級配準方法,其特征在于包括全自動配準子系統和人工快速檢查子系統,步驟為(1)全自動配準子系統讀取基礎數據及詞庫,并對其進行預處理;(2)全自動配準子系統讀取待配準數據和配準參考數據,并依據先點匹配、再區域匹配的配準原則進行匹配,然后輸出初步的配準結果;(3)人工快速檢查子系統讀取基礎數據及詞庫,并對其進行預處理;(4)人工快速檢查子系統對前述初步的配準結果進行數據篩選,并應用不同的檢查策略;(5)進行人工匹配,核查結果。
2.如權利要求1所述的一種可持續優化地名數據庫快速分級配準方法,其特征在于 所述步驟(2)中,點匹配的內容為名稱、區劃代碼完全相同;若無,去除地名要素前綴之后 的單位名稱、區劃代碼完全相同;若無,單位的名稱要素、區劃代碼相同,或單位地址、區劃 代碼相同,大廈名稱相同。
3.如權利要求1所述的一種可持續優化地名數據庫快速分級配準方法,其特征在于 所述步驟(2)中區域匹配的內容為單位地址鄰近,小區名稱相同或者包含;若無,按所在 的社區/村的行政中心匹配若無,按所在的道路匹配;若無,按所在的街道/鎮/鄉的行政 中心匹配。
4.如權利要求1所述的一種可持續優化地名數據庫快速分級配準方法,其特征在于 所述步驟(4)中,對初步的配準結果按匹配方法進行篩選,對于點匹配進行抽查或快速瀏 覽檢查,對于區域匹配進行重點檢查。
全文摘要
本發明公開一種可持續優化地名數據庫快速分級配準方法,包括全自動配準子系統和人工快速檢查子系統,步驟為(1)全自動配準子系統讀取基礎數據及詞庫,并對其進行預處理;(2)全自動配準子系統讀取待配準數據和配準參考數據,并依據先點匹配、再區域匹配的配準原則進行匹配,然后輸出初步的配準結果;(3)人工快速檢查子系統讀取基礎數據及詞庫,并對其進行預處理;(4)人工快速檢查子系統對前述初步的配準結果進行數據篩選,并應用不同的檢查策略;(5)進行人工匹配,核查結果。此種配準方法可同時提高配準的質量及效率。
文檔編號G06F17/30GK101887462SQ20101023193
公開日2010年11月17日 申請日期2010年7月14日 優先權日2010年7月14日
發明者周輝騰, 徐敬仙, 楊槐 申請人:廈門精圖信息技術有限公司