基于k-近鄰的水利普查行業能力數據融合方法
【技術領域】
[0001] 本發明涉及信息處理技術,具體涉及一種基于k-近鄰的水利普查行業能力數據 融合方法。
【背景技術】
[0002] 第一次全國水利普查主要查清了中華人民共和國境內(未含香港、澳門特別行政 區和臺灣地區)的河流湖泊、水利工程、經濟社會用水、河流湖泊治理保護、水土保持、水利 行業能力建設、灌區及地下水等8大項基礎信息,為加強水利基礎設施建設與管理、實行最 嚴格的水資源管理制度等提供了科學權威的數據支撐。
[0003] 水利單位是結合水利工程設施特性與行業發展規模等各類管理信息,分析水利單 位與水利工程設施、資產、從業人員等發展狀況的關鍵節點。因此,厘清水利單位,通過建立 水利工程對象的工程管理單位與行業能力的水利單位之間的匹配關系,實現普查水利工程 數據與行業能力數據融合,對科學研判水利管理能力和水平具有重要的意義。
[0004] 由于不同專業普查的填報范圍規定不同、規范性要求存在差異,因此部分水利單 位普查數據存在組織機構代碼不完整、重復,以及不同專業填報的水利單位名稱不能完全 一致等問題,同時由于水利普查數據量大,直接完全通過人工方式建立匹配關系費時費 力。
【發明內容】
[0005] 發明目的:本發明的目的在于解決現有技術中存在的不足,提供一種基于k-近鄰 的水利普查行業能力數據融合方法。實現水利普查中行業能力單位與水利工程管理單位信 息的一致匹配,實現水利工程和行業能力普查數據的有效銜接,為分析水利發展現狀,制定 水利及經濟社會發展規劃等提供支撐。所謂數據融合就是利用計算機技術將來自多個傳感 器或多源的觀測信息進行分析、綜合處理,從而得出決策和估計任務所需的信息的處理過 程。
[0006] 其中,數據融合包含三個層次,即,數據層融合、特征層融合以及決策層融合。數據 層融合是低層次的融合,直接在采集到的原始數據層上進行的融合,在各種傳感器的原始 測報未經預處理之前就進行數據的綜合與分析。特征層融合屬于中間層次的融合,它先對 來自傳感器的原始信息進行特征提取(特征可以是目標的邊緣、方向、速度等),然后對特 征信息進行綜合分析和處理;特征層融合的優點在于實現了可觀的信息壓縮,有利于實時 處理,并且由于所提取的特征直接與決策分析有關,因而融合結果能最大限度的給出決策 分析所需要的特征信息。決策層融合通過不同類型的傳感器觀測同一個目標,每個傳感器 在本地完成基本的處理,其中包括預處理、特征抽取、識別或判決,以建立對所觀察目標的 初步結論。然后通過關聯處理進行決策層融合判決,最終獲得聯合推斷結果。
[0007] 本發明基于數據挖掘中的k_近鄰搜索完成數據融合。所謂k_近鄰搜索是指在對 象數據集S中查詢與指定查詢對象q最相似的k個對象。k_近鄰是相似性搜索的一種,相 似性搜索就是在對象數據集S中查詢與指定查詢對象q相似的對象。相似性搜索一般包括 兩類任務:一是k_近鄰查詢(k Nearest Neighbor Query, kNN);另一種是范圍查詢(Range Query),即在對象數據集S中查詢與指定查詢對象q相似距離小于等于ε的所有對象。在 相似性查詢中,通常使用相似距離度量D來計算兩個對象的距離,即對象s與查詢對象q的 距離被描述為D(s,q)。對于范圍查詢即是查詢所有滿足D(s,q)< ε的對象s。在k-近 鄰查詢過程中,對對象s按照D (s,q)排序,前k個即為q的k_近鄰。目前常見的相似距離 度量有歐式距離,最長公共子串,編輯距離等。
[0008] 技術方案:本發明的一種基于k_近鄰的水利普查行業能力數據融合方法,包括以 下步驟:
[0009] (1)對水利普查行業能力數據以及水利工程數據中的單位名稱進行逐級分解;
[0010] ⑵選擇水利普查中行業能力數據和水利工程數據樣本,并建立樣本中水利工程 管理單位和行業能力單位的匹配;
[0011] (3)基于步驟⑵中的樣本訓練編緝距離權重;
[0012] (4)對步驟⑴中分解出的單位名稱信息以帶權重的編緝距離作為相似性度量距 離,以行業能力單位名稱為數據集,以水利工程管理單位名稱為查詢集,進行k_近鄰相似 搜索,并結合人工對數據進行匹配。
[0013] 進一步的,所述步驟(1)中的行業能力數據以及水利工程數據中的單位名稱被逐 級分解成行政地名信息和精簡的單位名稱;且對不包含行政區劃名的單位名稱直接分解成 非精簡單位名。
[0014] 進一步的,所述步驟(2)中選擇水利普查中行業能力數據和水利工程數據樣本 (例如可以選擇10%的水利普查數據作為樣本),并通過組織機構代碼、普通的編輯距離以 及人工匹配等方式,建立樣本中水利工程管理單位名稱和行業能力單位名稱之間的匹配, 作為編輯距離權重學習的數據集。
[0015] 而在上述樣本選擇的過程中,以縣級數據為基本單位來選擇用于訓練最優權重向 量的樣本數據,即從總體數據涉及的所有縣中,首先選擇樣本縣,然后每個樣本縣的所有行 業能力和水利工程數據作為樣本數據,且選擇樣本縣時需要考慮水利發展現狀上的代表 性。
[0016] 進一步的,所述步驟(3)中采用1-近鄰方法訓練最優的編緝距離權重,進而獲得 最優編緝距離中的刪除、插入和替換操作的最優權重。
[0017] 進一步的,所述步驟(4)中對單位名稱進行k_近鄰相似搜索時,對精確單位名 稱按照水利普查的"在地原則",在分解出的單位所在級別的縣或市或省或全國匹配;對非 精簡單位名稱按照縣、市、省以及國家逐級匹配即對一個非精簡的水利工程管理單位查詢 k_近鄰時,優先在其所在縣級的行業能力單位數據中匹配,然后到市、省以及全國范圍的行 業能力單位數據中匹配。
[0018] 有益效果:本發明通過相似性搜索建立行業能力普查單位與水利工程管理單位的 一致匹配,實現水利工程和行業能力普查數據的有效銜接,為分析水利發展現狀,制定水利 及經濟社會發展規劃等提供支撐。
【附圖說明】
[0019] 圖1為本發明實施例中能夠行業能力單位名稱匹配框架圖;
[0020] 圖2為實施例中省1的樣本數據的匹配準確率對比圖;
[0021] 圖3為實施例中省2的樣本數據的匹配準確率對比圖。
【具體實施方式】
[0022] 下面結合具體實施例,進