專利名稱::用于檢驗gis數據的正確性的方法和裝置的制作方法
技術領域:
:本發明涉及GIS領域,具體涉及一種用于檢驗GIS數據的正確性的方法和裝置。
背景技術:
:GIS(地理信息系統GeographicInformationSystems)數據,包括地理數據和經濟人口(demographic)數據,已變得越來越重要,并得到越來越廣泛的應用,例如在市場分析應用、設施位置定位中、城市規劃等領域中。在大多數這類情況中,海量的GIS數據(例如,對于北京市可超過150,000條記錄)是確保這些應用成功的基礎。然而,至今還不存在一種很好的技術方法和工具,能夠快速和自動地檢查海量的地理和經濟人口數據。對地理和經濟人口數據的檢查是非常重要的。對于最終用戶(例如,銀行、零售商等)而言,數據的正確性對于其GIS系統的定量分析質量是決定性的。因此,在進行定量分析之前,應當仔細檢查給定的地理和經濟人口數據,以確定這些數據集是否足夠完整和正確,從而避免基于它們作出不正確的決策。對于GIS數據的廠商而言,GIS數據的正確性檢查是提高其竟爭力和減少勞動成本的最重要方面之一。由于地理和經濟人口數據通常是從各種渠道收集和購買的,例如從公共或政府部門,或者從GIS和經濟人口數據廠商等,并且往往是屬于不同時期的,因此,其中很可能存在一些不正確的、過時的或不準確的數據。然而,對每一個數據來源渠道進行檢查是成;M艮高的工作,并且很難實現自動地對GIS數據進行檢查。現有的對GIS數據進行檢查的方法是選擇某些樣本點,然后在現場手工地對這些樣本點的數據進行驗證。這種方法不但費時、費力和低效率,jdPwU工丄、lAA4《女上<AA払4rA,i:z&,M"itT"1山-ftt山A3KnG的正確性,因此,其有效性和準確性也是不足的。此外,這種現有^L術的手工檢查方法只能檢查城市級別或較大的地域級別上的GIS數據,而不能用于進行更細粒度的檢查。例如,如果某些樣本點上的數據被判斷為不正確的,則整個城市或地域的GIS數據將被判斷為不正確的。顯然,本領域中需要一種能夠更快速和有效地檢驗GIS數據的正確性的技術方案。
發明內容根據本發明的一個方面,提供了一種用于檢驗GIS數據的正確性的方法,該方法包括以下步驟接收GIS數據;接收各網點的業務數據;確定所述各網點所屬的地理區域,其中所述地理區域內的GIS數據將被檢驗;根據所述各網點的業務數據檢驗所述各網點所屬的地理區域的GIS數據是否正確。根據本發明的另一個方面,提供了一種檢驗GIS數據的正確性的裝置,該裝置包括數據接收模塊,其被配置為接收GIS數據,以及接收各網點的業務數據;地理區域確定器,其被配置確定所述各網點所屬的地理區域,其中所述地理區域內的GIS數據將被檢驗;以及檢驗模塊,其,皮配置為才艮據各網點的業務數據檢驗所述各網點所屬的地理區域的GIS數據是否正確。本發明可自動地對給定城市或區域的地理和經濟人口數據進行檢查,極大地節約了時間和勞動成本,提高了數據檢查的效率。本發明可以檢查一定地區例如一個城市中很小的地理區域(例如,大約方圓l公里)中的地理和經濟人口數據的正確性,指示出哪些地理區域中的地理和經濟人口數據是不正確的,提高了對地理和經濟人口數據的正確性檢驗的粒度。8所附權利要求中闡述了被認為是本發明的特點的創造性特征。但是,通過參照附圖閱讀下面對說明性實施例的詳細說明可更好地理解發明本身以及其優選使用模式、另外的目標、特征以及優點,在附圖中圖1示出了根據本發明的實施例的用于檢驗GIS數據的正確性的裝置;圖2示出了一示例GIS系統的顯示界面;圖3示出了一種地理和經濟人口數據的內容的示例;圖4示出了某銀行各網點2006年的績效數據;圖5示出了由根據本發明的實施例的數據格式化器格式化后的GIS數據的格式的示例;圖6示出了由根據本發明的實施例的數據格式化器格式化后的企業業務數據的示例;圖7示出了由根據本發明的實施例的地理區域確定器確定的半徑為1000米的圓形地理區域的示例;圖8示出了根據本發明的實施例的檢驗結果過濾器的一示例性用戶界面;以及圖9示出了才艮據本發明的實施例的用于檢驗GIS數據的正確性的方法。具體實施例方式企業的各網點的業務數據,例如各銀行網點的帳戶和存款數據,內在地與各網點所屬地理區域內的地理和經濟人口數據相關聯,因此,可以建立一個地理和經濟人口數據與企業業務數據之間的關聯模型,這樣如果某一個地理區域內的給定地理和經濟人口數據集與相應網點的業務數據不符合該關聯模型,則可判斷該數據集不正確。下面參照附圖來說明本發明的實施例。然而,應當理解的是,本發明并不限于所介紹的特定實施例。相反,可以考慮用下面的特征和元素的任意組合來實施和實踐本發明,而無論它們是否涉及不同的實施例。因此,下面的方面、特征、實施例和優點僅作說明之用而不應被看作是所附權利要求的要素或限定,除非權利要求中明確提出。圖1示出了根據本發明的實施例的用于檢驗GIS數據的正確性的裝置。如圖所示,根據本發明的實施例的用于檢驗GIS數據的正確性的裝置100包括數據接收模塊101和檢驗模塊102。其中,所述數據接收模塊101用于接收待檢驗的GIS數據、以及接收企業的各網點的業務數據。所述檢驗模塊102用于根據企業的各網點的業務數據**驗企業的各網點所屬的地理區域的GIS數據是否正確。所述GIS數據可以有多種來源,例如GIS系統原來帶有的,由GIS數據或經濟人口數據廠商提供的,從公共或政府部門獲得的,以及由多個來源獲得的數據的組合等。所述GIS數據包括地理數據和經濟人口數據兩部分,且通常是按照興趣點(PointofInterest,POI)組織的。也就是說,GIS數據包括各興趣點的位置數據以及各興趣點的經濟人口屬性數據。其中的興趣點包括若干類型,例如其他同類企業網點、居民區、寫字樓、大專院校、綜合商場、賓館酒店、醫院、餐廳飲食、娛樂設施、商店等。所述興趣點位置數據可以用興趣點的經煒度來表示。圖2示出了一示例GIS系統的顯示界面。在該圖的左邊窗格中顯示了各種興趣點的分類,在該圖的右邊窗格中顯示了在該圖左邊窗格中所選擇的類型的興趣點在地圖上的地理位置,其中每個興趣點的地理位置在系統內部是以經煒度來表示的。在如圖2所示的GIS系統中,每種類型的興趣點的GIS數據在系統內部構成一個GIS圖層。這樣,當某種興趣點類型4皮選擇時,系統將顯示對應于該興趣點類型的圖層。而當多個興趣點類型4皮選擇時,系統將疊加地顯示對應于該多個興趣點類型的多個圖層。不同類型興趣點的經濟人口數據有所不同。一般來說,經濟人口數據包括人數、恥漠、面積等屬性。圖3示出了一種地理和經濟人口數據的內容的示例。在圖3所示的示例中,對于4艮行類型、大專院校、居民區、寫字樓、賓館酒店、大型綜合商場、超市、商店、醫院、餐廳飲食、休閑娛樂、7>司企業工廠、火車站、汽車站、公交車站等不同類型的興趣點,分別有網點類型、營業年限、營業面積、學校年限、教職工數量、學生數量、房屋年限、樓盤均價、居民數量屬性。銷售面積、租金、星級、房間數、職工人數、企業注冊額、車次數量等屬性。當然,本發明的檢驗裝置100并不要求待檢驗的經濟人口數據與這些相同。相反,優選地可對本發明的檢驗裝置100進行配置,以用于檢驗不同的經濟人口屬性數據。所述企業優選為在一城市或其他地域中具有分布的網點、從而可獲得其各網點的業務數據例如績效數據的企業,或者可以其他方式獲得該企業在一城市或其他地域中對應于各細分的地理區域的業務數據的企業。例如,該企業為一家銀行,該銀行在一城市中具有分布的營業網點,且從每一營業網點可獲得與該營業網點所在地理區域的經濟人口狀況相關的績效數據。所述企業各網點的業務數據可具有多種不同類型。例如,對于4艮行來說,其各網點的業務數據可包括反映其績效的存款帳戶數、存款總額、中間業務^和曰均交易量等。所述業務數據可來自多種不同的期間。例如,對于銀行來說,優選地,所述業務數據的時間跨度是半年或者一年,以消除某些偶然因素對4艮行網點績效帶來的不正常影響。圖4示出了某4IU亍各網點2006年的績效數據(由于保密考慮,網點的名稱和某些具體數據作了處理)。當然,該圖僅為示例,而不是對本發明的限制。對于其他不同類型或相同類型的企業,其各網點的業務數據的種類可以與圖示的相比更多、更少或不同,且均可以用于檢驗GIS數據的正確性。在本發明的一實施例中,所述檢驗裝置100還包括一數據格式化器108。該數據格式化器108既可以如圖1中所示的那樣在所述數據接收模塊101之中,也可以在所述數據接收模塊101之外。所述數據格式化器108用于將由所述數據接收模塊101所接收的、所述GIS數據和企業業務數據進行格式化,以便于后續的檢驗,即將所述GIS數據以及所述企業業務數據整合成所需的數據格式,以便于后續的分析計算。在本發明的一實施例中,所述數據格式化器108將所述GIS數據按照POI的類型進行組織,并對于每種POI類型,選擇所述GIS數據中可能對企業的業務數據發生影響的相關經濟人口屬性數據,以便用企業的業務數據來檢驗所一目關的經濟人口屬性數據。在本發明的一實施例中,所述數據格式化器108將企業各網點的業務數據格式化為GIS圖層數據,即根據每個企業網點的地址,將每個企業網點的經綽度添加到每個企業網點的業務數據中,并從所述業務數據中選擇可用來檢驗GIS數據的準確性的相關業務數據。優選地,可由用戶設置并存儲將由所述數據格式化器108選擇GIS數據中的各POI類型的哪些經濟人口屬性數據以及所述企業業務數據中的哪些業務數據。圖5示出了由所述數據格式化器108格式化后的GIS數據的格式的示例。如該圖所示,格式化后的GIS數據具有名稱、經綿度并且根據POI類型的不同而具有網點類型、營業年限、營業面積、學校年限、教職工數量、學生數量、房屋年限、樓盤均價、居民數量、銷售面積、租金、星級、房間數、商戶數量、級別、星級、職工人數、企業注冊額等等經濟人口屬性。圖6示出了由所述數據格式化器108格式化后的企業業務數據的示例。如該圖所示,格式化后的企業業務數據具有網點的名稱、所在經煒度、存款帳戶數、存款總額、中間業務收入、網點日均交易量數據。當然,本發明的檢驗裝置100中也可以不包括所述數據格式化器108,而是由所述檢驗模塊102在進行檢驗之前對來自所述數據接收模塊101的GIS數據和企業業務數據進行格式化,例如由所述檢^r才莫塊102中的所述GIS數據特征提取器104和所述業務數據特征提取器105在分別提取GIS式化。或者,所述數據接收模塊101接收符合相應格式的GIS數據和企業業務數據,這樣,就可以直接由所述檢驗模塊102根據所接收的企業業務數據對所述GIS數據進行檢驗。12所述數據接收模塊101(或數據格式化器108)可以將所接收(或格式化)的GIS數據和企業業務數據存儲在數據庫中,以便由所述檢a^f莫塊102從所述數據庫中獲取所述GIS數據和企業業務數據,也可以直接將所述GIS數據和企業業務數據提供給所述檢^^一莫塊102。在本發明的實施例中,所述檢驗模塊102包括地理區域確定器103、GIS數據特征提取器104、業務數據特征提取器105、以及檢驗引擎106。所述檢驗模塊102、地理區域確定器103、GIS數據特征提取器104、業務數據特征提取器105、檢驗引擎106之間的包含和連接關系也可以是與圖1中所示不同的多種關系中的任何一種。例如,所述地理區域確定器103也可以位于所述檢驗模塊102之外,或者也可以將所述地理區域確定器103、GIS數據特征提取器104、業務數據特征提取器105包含在一個稱為檢驗初始化模塊的單獨模塊中,所述GIS數據特征提取器104和業務數據特征提取器105的部分或全部功能可以包含在所述檢驗引擎106中,等等。所有這些及類似變化都處于本發明的范圍之內。所述地理區域確定器103用于確定各網點所屬的、其內的GIS數據將被檢驗的地理區域。就是說,地理區域確定器103根據各網點的位置創建各地理區域,每個地理區域內的地理和經濟人口數據將會被后續檢驗。每個地理區域以各自的網點為中心,并可以有多種形狀,如圓和正方形,優選為圓形。地理區域可以具有各種大小。地理區域越小,則檢驗就越細致。對于4艮行網點來說,地理區域的半徑一般在500米到1000米之間,如可取1000米。圖7示出了由所述地理區域確定器103確定的半徑為1000米的圓形地理區域的示例。所述地理區域的形狀和大小可以是在本發明的檢驗裝置100中預置的和固定的,也可以是可由用戶設置并存儲的。所述GIS數據特征提取器104用于從企業的各網點所屬的地理區域內的GIS數據提取GIS數據特征,優選的,所述GIS數據特征可反映該地理區域對該網點的業務量的貢獻能力。為了檢驗GIS數據,需要對所述數據作出數值化的描述,即從中抽取特征。可使用多種不同的方法來提取所述GIS數據特征,只要所提取的13GIS數據特征能反映出所屬地理區域內的各POI對相應企業網點的業務量的貢獻即可。在本發明的一實施例中,所述GIS數據特征提取器104根據企業的各網點所在的每個地理區域中各個類型的興趣點的相關經濟人口屬性計算每個興趣點的基本分數,該基本分數反映了該興趣點對該企業網點的業務量的貢獻能力;將每個地理區域中的每個興趣點的所述基本分數在同類型的全部興趣點的基本分數中進行歸一化,而得到每個興趣點的最終分數;以及將每個地理區域中的所有興趣點的最終分數按照其所屬類型進行加^目加,從而獲得每個地理區域中的所有興趣點的總分數,作為每個地理區域的所述GIS數據特征。具體地,僅作為示例,抽取GIS數據特征的方法可以如下對每個POI都給出一個分數(分值在0-1之間),其物理意義是用來描述該POI的對該檢驗窗內銀行網點績效的貢獻程度。這個分數可以從該POI的經濟人口數據計算得到。不同類型POI的分數的計算方法不同,但基本思路是根據人口、面積等屬性先計算出基本得分,然后在同類型的POI中進行歸一化而得到最終分數。下面給出了一種POI分數計算方法的示例。對于XX銀行網點(竟爭網點),其基本分數為若營業年限大于3年,即為營業面積的數值;若營業年限小于3年,則為(營業面積)*(營業年限)/3。對所有XX銀行網點計算得到其基本分數之后,把這些基本分數線性歸一化到0-1之間得到其最終分數。若所有XX4艮行網點的基本分數中最小的是min,最大的是max,則對于某一個網點的基本分數a,其歸一化之后的最終分數為(a-min)/(max-min)。對于大專院校,其基本分數為若學校年限大于3年,即為0.6*教職工數量+0.4*學生數量;若年限小于3年,則為(0.6*教職工數量+0.4*學生數量)*學校年限/3。之后再同樣歸一化得到最終分數。對于居民區,其基本分數為若房屋年限大于l年,即為0.4*歸一化的樓盤均價+0.6*歸一化的居民數;若房屋年限小于1年,即為0.5*(0.4*歸一化的樓盤均價+0.6*歸一化的居民數)。之后再同樣歸一化得到最終分數。以此類推,得到每個POI的最終分數。應指出的是,上述POI分數計算方法僅為示例,而不是對本發明的限制。根據本發明的其他實施例的GIS特征提取器104可對每種類型的POI采用不同的經濟人口屬性和不同的計算方法來計算每種類型的POI的基本分數和最終分數。可根據用戶經驗、理論分析或樣本訓練方法等來確定用來計算POI分數的經濟人口屬性、具體計算方法及其中的參數。此外,盡管在上述計算方法中,使用了線性歸一化的方法來計算每個POI的最終分數,但在根據本發明的其他實施例的計算方法中,可以使用其他歸一化方法來計算每個POI的最終分數,如非線性歸一化、分段歸一化,等等。當計算出M業網點所屬的每個地理區域內的每個POI的最終分數之后,所述GIS數據特征提取器104可進一步計算每個地理區域內的所有POI的總分數,作為所述反映每個地理區域對相關網點的業務量的貢獻能力的GIS數據特征。僅作為示例,可使用如下方法計算該地理區域內的所有POI的總分數首先為每類POI分配一個權重,然后把每個POI的分數乘以該POI所在類的權重得到該POI的加權分數,然后把該地理區域內所有的POI的加權分數相加,即為該地理區域內的所有POI的總分數。每類POI權重的物理意義是該類POI對銀行網點績效的貢獻程度。需要注意的是,由于其他4艮行的POI對客戶銀行是竟爭關系,所以銀行類的POI權重應該取負值。以客戶銀行是中國工商銀行為例,可以按表1給各類POI分配纟又重。例如,假i殳某地理區域內的POI有3個居民區,l個中國4艮行,l個超市,3個商店,并假設各POI歸一化后的最終分數分別為居民區的最終分數分別是0.8,0.7,0.6;中國銀行的最終分ltA0.6;超市的最終分數是0.5;商店的最終分數分別是0.9,0.3,0.2。則根據表l所列權重,該地理區域內所有POI的總分數是(0.8+0.7+0.6)*0.5+0.6*(國0.2)+0.5*0.1+(0.9+0.3+0.2)*0.02=1.008。<table>tableseeoriginaldocumentpage16</column></row><table>表1各類POI的;f又重示例當然,上表所列權重的具體數值僅為示例,而不是對本發明的限制。本發明的檢驗裝置100可根據用#驗GIS數據正確性的企業業務數據所屬的企業類型的不同以及其他因素為各類型的POI分配不同的權重。所述權重可才艮據用戶經驗、理論分析或樣本訓練方法來確定,并優選地可由用戶設置。在本發明的另一實施例中,所述GIS數據特征提取器104用于從企業的各網點所在的地理區域內的所述GIS數據中獲得每個地理區域中各個類型的興趣點的相關經濟人口屬性;以及將每個地理區域中同類型的興趣點的相關經濟人口屬性相加,從而獲得每個地理區域中由各個類型的興趣點的相關經濟人口屬性的總和組成的向量,作為每個地理區域的所述GIS數據特征。例如,對于n個地理區域中的第i個地理區域(i-l,2…n),獲得一個向量Xi,該向量由該地理區域內的各類型POI的相關經濟人口屬性的總和組成,如x尸(居民區戶數總和,居民區均價總和,大專院校教職工數目總和,大專院校學生數目總和,其他類型POI的屬性總和...)。在本發明的不同實施例中,每個向量中所包含的經濟人口屬性的種類和數量可以不同,且優選地可由用戶"i殳置。所述業務數據特征提取器105用于從企業的各網點的業務數據提取可反映各網點的業務量的業務數據特征。就是說,為了利用網點業務數據例如其績效數據,也需要對業務數據作出數值化的描述,即抽取特征。這里也給出一種利用歸一化加權求和的特征抽取方法。例如對于一銀行,可用如下方法計算其各網點的基本績效分數,作為該網點的所述業務數據特征0.3*歸一化的存款帳戶數+0.3*歸一化的存款總額+0.2*歸一化的中間業務4"+0.2*歸一化的網點日均交易量,其中"0.3"、"0.3"、"0.2"和"0.2"是不同業務lt據項的示例性^又重(所述歸一化可以釆用本領域技術人員所知的任何歸一化方法,如線性歸一化、非線性歸一化、分段歸一化等)。可選地,也可在對每個網點計算出其基本績效分數之后,進一步歸一化到0-l之間,而得到其最終績效分數,作為該網點的所述業務數據特征。當然,以上計算各網點的基本績效分數、最終績效分數、以及所述業務數據特征的方法僅為示例,而不是對本發明的限制。在本發明其他實施例中,所述業務數據特征提取器105可使用企業網點的其他業務數據以及其他計算方法和參數來計算所述業務數據特征。例如,在本發明另一實施例中,所述業務數據特征提取器105可從企業的各網點的業務數據中直接提糾目關的業務數據,作為反映該網點的業務量的業務數據特征,而不對相關的業務數據進行歸一化的處理。由所述GIS數據特征提取器104生成的各地理區域的GIS數據特征(以及各地理區域內的各POI的基本分數和最終分數等中間結果)以及由所述業務數據特征提取器105生成的M業網點的業務數據特征可以被存儲在數據庫中,以便于后續的檢驗過程;或者可以將所生成的GIS數據特征和業務數據特征直接提供給所述檢驗引擎106。所述檢驗引擎106用于根據所述企業數據特征和所述GIS數據特征之間的關聯才莫型,判斷所述企業各網點所屬的地理區域內的GIS數據是否正確。在本發明的一實施例中,所述關聯才莫型為各地理區域的所述GIS數據特征與相應企業網點的所述業務數據特征之間的順序一致性模型,且優選地該順序一致性模型內置于所述檢驗引擎106之中,也就是說,該模型體現在檢驗引擎106的操作之中,因此在該實施例中不包括下述模型構建器107。在該實施例中,所述檢驗引擎106被配置為執行以下操作將所述企業的各網點按照所提取的所述業務數據特征進行排序,從而獲得第一順序;將所述企業的各網點所屬的地理區域按照所提取的所述GIS數據特征進行排序,從而獲得笫二順序;并且根據所述第一順序和所述第二順序之間的一致性程度來判斷相關地理區域內的GIS數據是否正確。具體地,所述檢驗引擎106按照上述過程生成的每個企業網點的績效最終分數將各個企業網點進行排序,并按照上述過程生成的每個地理區域內的所有POI的總分數將各個地理區域進行排序,然后比較這兩個排序結果。對于任意一個地理區域,如果POI總分數的排名與相應的企業網點的績效最終分數排名的差別越大,則說明該地理區域內的地理經濟人口數據越有可能出問題,即其地理經濟人口數據出現g的概率越大。例如,某一個地理區域內的企業網點的繢效總分數排名為10,該地理區域內的POI總分數排名為16;另一個地理區域內的企業網點的績效總分數排名為30,但該地理區域內的POI總分數排名為8;則說明第二地理區域內的地理經濟人口數據更有可能出問題。由此得到每個地理區域內地理經濟人口數據出現錯誤的概率。將各地理區域按照出現4^的概率從大到小排序。出現錯誤概率越大的地理區域內的地理經濟人口數據越有可能出現問題,由此判斷每個地理區域內的GIS數據的正確性。在本發明的另一個可選實施例中,所述檢驗裝置100還包括用于構建所述關聯模型的才莫型構建器107。該模型構建器既可以如圖1中所示的那樣位于所述檢驗模塊102之外,也可以是所述檢驗模塊102的一部分,還可以是所述檢驗引擎106的一部分。所述模型構建器107可以將所構建的關聯模型直接提供給所述檢驗引擎106,以便由檢驗引擎106根據所述關聯模型進行GIS數據正確性的檢驗,也可以將所構建的關聯模型存儲起來,以便由所述檢驗引擎在需要時使用。優選地,該才莫型構建器107通過執行以下操作來構建所述關聯模型獲得已知為正確的、企業網點所屬的地理區域內的GIS數據的GIS翁:據特18征;獲得所述企業網點的業務數據的業務數據特征;以及使用所述已知為正確的GIS數據特征以及所述企業網點的業務數據特征作為訓練數據來獲得關聯才莫型的^*,從而建立所述關聯模型。可以通過多種方法獲得所述述已知為正確的、企業網點所屬的地理區域內的GIS數據的GIS數據特征。例如,可通過實地調查的方式,來獲得某些地理區域內的正確的GIS數據,并通過以上描述的方式從中獲得所述GIS數據特征。也可直接獲得已通過其他方式得到驗證的某些地理區域內的GIS數據,并從中獲得所述GIS數據特征。具體地,該模型構建器107可使用本領域中已知的多種方法,例如線性最小二乘、神經網絡逼近等,來構建所述關聯才莫型。下面,僅作為示例,描述使用線性最小二乘法來構建關聯模型的過程。假設對于n個地理區域中的每個地理區域i內的GlS數據可以用一個向量X尸(XihXi2,…,Xjm)來描述(i=l,2..n),其中xy是第i個地理區域內的第j個相關經濟人口屬性(例如,某一類型的POI的某一經濟人口屬性)的總和;第i個地理區域內的企業網點績效可以用一個業務數據總和或總分數"來表述。則對于線性最小二乘有模型y產AX汁b.其中A是一個常數向量A=(ai,a2,am),其中m是Xi中的分量的個數(即圖層個數)。如果有一定數量的準確的訓練數據,則可以通過最小二乘估計的方法,把A的數值和b的數值計算出來,即得到模型y產AXi+b。這樣,在檢驗時,例如如果發現Ax2+b的數值和y2的數值差別太大,則可認為第二個地理區域內的GIS數據有問題。作為另一個示例,還可使用神經網絡逼近的方法。同上,假設對于n個地理區域中的每個地理區域i內的GIS數據可以用一個向量X產(Xu,Xi2,…,XinO來描述(i=l,2..H),其中Xy是第i個地理區域內的第j個相關經濟人口屬性(例如,某一類型的POI的某一經濟人口屬性)的總和;第i個地理區域內的企業網點績效可以用一個業務數據總和或總分數"來表述。則神經網絡可以看成是一個帶參數的非線性函數F。F的輸入值是19Xl,x2,或者xn,輸出值是y"y2,或yn。若有一定數量的準確的訓練數據,則可以通過成熟的神經網絡訓練算法,把函數F中的參數計算出來,即可得到F的形式。在檢驗時,例如如果發現F(X2)的數據和y2的數值差別太大,則可認為第二個檢驗窗內的GIS數據有問題。在本發明的一優選實施例中,所述檢驗裝置還包括一檢驗結果過濾器109,該模塊用于由用戶對由檢驗引擎106所產生的檢驗結果進行進一步的手工判斷和確i人。具體地,檢驗結果過濾器109可將各地理區域按照排名差距從大到小排列,并且提供定位以供用戶查看該地理區域內的地理信息數據。同時供用戶選擇判斷每個地理區域是否是地理信息數據錯誤,或存在異常竟爭或突發事件,或待進一步確認,或數據無錯誤。圖8示出了該檢驗結果過濾器109的一示例性用戶界面。以上描述了根據本發明的實施例的用于檢驗GIS數據的正確性的裝置IOO。該裝置IOO優選地和現有的GIS系統集成在一起,但也可以是獨立的裝置。應指出的是,所描述和圖示的該裝置IOO僅為示例,而不是對本發明的限制。在本發明的其他實施例中,所述用于檢驗GIS數據的正確性的裝置100可具有更多、更少或不同的才莫塊,且各模塊之間的包含和連接關系可以不同。例如,在本發明的一些實施例中,可以沒有所i^漠型構建器107和/或所述數據格式化器108和/或所述檢驗結果過濾器109,所述數據接收模塊101也可以被替換為一單獨的GIS數據接收模塊和一單獨的業務數據接收模塊,等等。下面參照附圖9描述根據本發明的實施例的一種用于檢驗GIS數據的正確性的方法。該方法優選地由上述本發明的裝置IOO執行,但也可以由其他裝置或系統來執行。為簡明起見,在以下描述中省略了與以上描述重復的內容,因此可參照以上對本發明的裝置100的描述獲得對以下本發明的方法的更詳細的理解。如圖所示,在步驟901,接收GIS數據。在步驟902,接收企業各網點的業務數據。在步驟903,將所接收的企業的各網點的業務數據以及所接收的GIS數據進行格式化,以用于后續的檢驗。在本發明的一些實施例中,也可以沒有該步驟。在步驟卯4,確定所述企業各網點所屬的、其內的GIS數據將被檢驗的地理區域。在步驟卯5,從所述企業各網點的業務數據提取可反映所述企業各網點業務量的業務數據特征。在步驟906,從所述企業各網點所屬的地理區域內的GIS數據提取可反映該地理區域對該企業網點的業務量的貢獻能力的GIS數據特征。在本發明的一個實施例中,該步驟906包括以下子步驟根據企業的各網點所在的每個地理區域中各個類型的興趣點的相關經濟人口屬性計算每個興趣點的基本分數,該基本分氣良映了該興趣點對該企業網點的業務量的貢獻能力;將每個地理區域中的每個興趣點的所述基本分數在同類型的全部興趣點的基本分數中進行歸一化,而得到每個興趣點的最終分數;以及將每個地理區域中的所有興趣點的最終分數按照其所屬類型進行加權相加,從而獲得每個地理區域中的所有興趣點的總分數,作為每個地理區域的所述GIS數據特征。在本發明的另一個實施例中,該步驟906包括以下子步驟從企業的各網點所在的地理區域內的所述GIS數據中獲得每個地理區域中各個類型的興趣點的相關經濟人口屬性;以及將每個地理區域中同類型的興趣點的相關經濟人口屬性相加,從而獲得每個地理區域中由各個類型的興趣點的相關經濟人口屬性的總和組成的向量,作為每個地理區域的所述GIS數據特征。在步驟907,根據所述企業數據特征和所述GIS數據特征之間的關聯模型,判斷所述企業各網點所屬的地理區域內的GIS數據是否正確。在本發明的一個實施例中,所述關聯模型為各地理區域的所述GIS數據特征與相應企業網點的所述業務數據特征之間的順序一致性模型;并且該步驟卯7包括以下子步驟將所述企業的各網點按照所提取的所述業務數據特征進行排序,從而獲得第一順序;將所述企業的各網點所屬的地理區域按照所提取的所述GIS數據特征進行排序,從而獲得第二順序;并且根據所述第一順序和所述第二順序之間的一致性程度來判斷相關地理區域內的GIS數據是否正確。在本發明的另一個實施例中,在步驟卯7之間,還包括建立所述關聯模型的步驟,并且該建立關聯模型的步驟包括以下子步驟獲得已知為正確的、企業網點所屬的地理區域內的GIS數據的GIS數據特征;獲得所述企業網點的業務數據的業務數據特征;以及使用所述已知為正確的GIS數據特征以及所述企業網點的業務數據特征作為訓練數據來獲得關聯模型的參數,從而建立所述關聯模型。在步驟908,由用戶對由以上檢驗過程生成的檢驗結果進行人工確認和過濾。在本發明的一些實施例中,可以沒有該步驟908。優選地,所述GIS數據包括地理數據和經濟人口數據。在本發明的一實施例中,所述企業為銀行,且所述各網點所屬的地理區域為以該網點為中心、且半徑500-1000米的圓形地理區域。以上描述了根據本發明的實施例的用于檢驗GIS數據的正確性的方法,應指出的,所圖示和描述的方法僅為示例,而不是對本發明的限制。本發明的方法可具有更多、更少和不同的步驟,且各步驟之間的順序可以不同,或可以并4亍執行。例如,所述步驟901和902之間以及所述卯5和906之間可以具有不同的順序且可并行執行,等等。本發明可以硬件、軟件、或石更件與軟件的結合的方式實現。本發明可以集中的方式在一個計算機系統中實現,或以分布方式實現,在這種分布方式中,不同的部件分布在若干互連的計算機系統中。適于執行本文中描述的方法的任何計算機系統或其它裝置都是合適的。優選地,本發明以計算機軟件和通用計算機硬件的組合的方式實現,在這種實現方式中,當該計算積4呈序被加栽和執行時,控制該計算機系統而使其執行本發明的方法,并構成本發明的裝置。本發明也可體現在計算機程序產品中,該程序產品包^^吏能實現本文中描述的方法的所有特征,并且當其被加載到計算機系統中時,能夠執行,斤述方法。盡管已參照優選實施例具體示出和說明了本發明,但是本領域內的那些技術人員應理解,可在形式和細節上對其進行各種改變而不會背離本發明的精神和范圍。權利要求1.一種用于檢驗地理信息系統GIS數據的正確性的方法,包括以下步驟接收GIS數據;接收各網點的業務數據;確定所述各網點所屬的地理區域,其中所述地理區域內的GIS數據將被檢驗;以及根據所述各網點的業務數據檢驗所述各網點所屬的地理區域的GIS數據是否正確。2.如權利要求1所述的方法,其中所述檢驗步驟進一步包括從所述各網點的業務數據提取可反映所述各網點業務量的業務數據特征;從所述各網點所屬的地理區域內的GIS數據提取可反映該地理區域對該網點的業務量的貢獻能力的GIS數據特征;以及根據所述業務數據特征和所述GIS數據特征之間的關聯模型,判斷所述各網點所屬的地理區域內的GIS數據是否正確。3.如權利要求2所述的方法,其中所述提取所述GIS數據特征的步驟進一步包括根據各網點所在的每個地理區域中各個類型的興趣點的相關經濟人口屬性計算每個興趣點的基本分數,該基本分數反映了該興趣點對該網點的業務量的貢獻能力;將每個地理區域中的每個興趣點的所述基本分數在同類型的全部興趣點的基本分數中進行歸一化,而得到每個興趣點的最終分數;以及將每個地理區域中的所有興趣點的最終分數按照其所屬類型進行加權相加,從而獲得每個地理區域中的所有興趣點的總分數,作為每個地理區域的所述GIS數據特征。4.如權利要求2所述的方法,其中所述提取所述GIS數據特征的步驟進一步包括從各網點所在的地理區域內的所述GIS數據中獲得每個地理區域中各個類型的興趣點的相關經濟人口屬性;以及將每個地理區域中同類型的興趣點的相關經濟人口屬性相加,從而獲得每個地理區域中由各個類型的興趣點的相關經濟人口屬性的總和組成的向量,作為每個地理區域的所述GIS數據特征。5.如權利要求3所述的方法,其中,所述關聯模型為各地理區域的所述GIS數據特征與相應網點的所述業務數據特征之間的順序一致性模型;并且所述根據所述業務數據特征和所述GIS數據特征之間的關聯模型,判斷所述各網點所屬的地理區域內的GIS數據是否正確的步驟包括將所述各網點按照所提取的所述業務數據特征進行排序,從而獲得第一順序;將所述各網點所屬的地理區域按照所提取的所述GIS數據特征進行排序,從而獲得第二順序;并且根據所述第一順序和所述第二順序之間的一致性程度來判斷相關地理區域內的GIS數據是否正確。6.如權利要求3或4所述的方法,還包括建立所述關聯模型的步驟,且該建立關聯模型的步驟進一步包括獲得已知為正確的、網點所屬的地理區域內的GIS數據的GIS數據特征;獲得所述網點的業務數據的業務數據特征;以及使用所述已知為正確的GIS數據特征以及所述網點的業務數據特征作為訓練數據來獲得關聯模型的參數,從而建立所述關聯模型。7.如權利要求1所述的方法,還包括在所述接收各網點的業務數據以及所述接收GIS數據的步驟之后,將所接收的各網點的業務數據以及所接收的GIS數據進行格式化、以用于所述檢驗步驟的執行的步驟。8.如權利要求1所述的方法,其中所述GIS數據包括地理數據和經濟人口數據。9.一種用于檢驗GIS數據的正確性的裝置,包括GIS數據接收模塊,其被配置為接收GIS數據;業務數據接收模塊,其被配置為接收各網點的業務數據;地理區域確定器,其被配置確定所述各網點所屬的地理區域,其中所述地理區域內包含將被檢驗的GIS數據;以及檢驗模塊,其被配置為根據各網點的業務數據檢驗所述各網點所屬的地理區域的GIS數據是否正確。10.如權利要求9所述的裝置,其中所述檢驗模塊進一步包括業務數據特征提取器,其被配置為從所述各網點的業務數據提取可反映所述各網點業務量的業務數據特征;GIS數據特征提取器,其被配置為從所述各網點所屬的地理區域內的GIS數據提取可反映該地理區域對該網點的業務量的貢獻能力的GIS數據特征;以及檢驗引擎,其被配置為根據所述業務數據特征和所述GIS數據特征之間的關聯模型,判斷所述各網點所屬的地理區域內的GIS數據是否正確。11.如權利要求10所述的裝置,其中所述GIS數據特征提取模塊進一步被配置為根據各網點所在的每個地理區域中各個類型的興趣點的相關經濟人口屬性計算每個興趣點的基本分數,該基本分數反映了該興趣點對該網點的業務量的貢獻能力;將每個地理區域中的每個興趣點的所述基本分數在同類型的全部興趣點的基本分數中進行歸一化,而得到每個興趣點的最終分數;以及將每個地理區域中的所有興趣點的最終分數按照其所屬類型進行加權相加,從而獲得每個地理區域中的所有興趣點的總分數,作為每個地理區域的所述GIS數據特征。12.如權利要求IO所述的裝置,其中所述GIS數據特征提取器進一步被配置為從各網點所在的地理區域內的所述GIS數據中獲得每個地理區域中各個類型的興趣點的相關經濟人口屬性;以及將每個地理區域中同類型的興趣點的相關經濟人口屬性相加,從而獲得每個地理區域中由各個類型的興趣點的相關經濟人口屬性的總和組成的向量,作為每個地理區域的所述GIS數據特征。13.如權利要求11所述的裝置,其中,所述關聯模型為各地理區域的所述GIS數據特征與相應網點的所述業務數據特征之間的順序一致性模型;并且所述檢驗引擎被配置為將所述各網點按照所提取的所述業務數據特征進行排序,從而獲得第一順序;將所述各網點所屬的地理區域按照所提取的所述GIS數據特征進行排序,從而獲得第二順序;并且根據所述第一順序和所述第二順序之間的一致性程度來判斷相關地理區域內的GIS數據是否正確。14.如權利要求11或12所述的裝置,還包括用于構建所述關聯模型的模型構建器,且所述模型構建器被配置為獲得已知為正確的、網點所屬的地理區域內的GIS數據的GIS數據特征;獲得所述網點的業務數據的業務數據特征;以及使用所迷已知為正確的GIS數據特征以及所述網點的業務數據特征作為訓練數據來獲得關聯模型的參數,從而建立所述關聯模型。15.如權利要求9所述的裝置,還包括數據格式化器,其被配置為將所述GIS數據接收模塊和所述業務數據接收模塊所接收的、各網點的業務數據以及所述GIS數據進行格式化,以便于所述檢驗模塊執行所述檢驗。16.如權利要求9所述的裝置,其中所述GIS數據包括地理數據和經濟人口數據。全文摘要提供了一種用于檢驗GIS數據的正確性的方法和裝置,該方法包括以下步驟接收GIS數據;接收各網點的業務數據;確定所述各網點所屬的地理區域,其中所述地理區域內的GIS數據將被檢驗;根據所述各網點的業務數據檢驗所述各網點所屬的地理區域的GIS數據是否正確。該方法和裝置可自動地對給定城市或區域的地理和經濟人口數據進行檢驗,節約了時間和勞動成本,提高了效率,并提高了檢驗的粒度。文檔編號G06F17/30GK101482864SQ200810001770公開日2009年7月15日申請日期2008年1月8日優先權日2008年1月8日發明者尹文君,斌張,誠楊,進董,明謝申請人:國際商業機器公司