一種基于空間網格劃分的政務大數據挖掘方法
【技術領域】
[0001]本發明屬于網絡地理信息系統應用技術領域,涉及一種大數據挖掘方法,具體地說是一種能夠有效組織和關聯多維數據、挖掘多種類型政務數據集之間的信息的大數據挖掘方法。
【背景技術】
[0002]隨著大數據時代的到來,如何從海量數據中挖掘到有用信息成為人們的迫切需求。現有大數據挖掘技術大多針對單一類型數據集,挖掘視角狹隘,沒有充分利用多種類型數據集之間的關聯關系,因而某一領域內挖掘到的信息很難與其他領域相關聯,難以進行深度信息挖掘,比如進行政務公開數據挖掘時,由于政府部門眾多,數據涉及的領域視角各不相同,各種數據集之間的組織形式和存儲結構差別很大,因此很難進行跨政府部門數據之間的信息挖掘。
【發明內容】
[0003]因而為解決上述問題,本發明提供了一種基于空間網格劃分的政務大數據挖掘方法,將多種類型的政務數據集組織在統一的時空維度下進行探索分析,有效地解決了政務數據集的數據挖掘困難。
[0004]本發明所采用的技術方案是:一種基于空間網格劃分的政務大數據挖掘方法,其特征在于,包括以下步驟:
[0005]步驟1:以數據的空間分布特征為基礎對數據集進行空間網格劃分;
[0006]首先將數據集的數據按照空間粒度大小排序,取數據集所在空間區域的外接矩形框,對矩形框以四叉樹方法進行網格劃分,若具有最大空間粒度的數據在每個單元網格中均不為零,則繼續采用四叉樹方法進行遞歸劃分;若存在某個或者多個單元網格中其數據為零,則停止繼續劃分,記錄下其四叉樹劃分的層數;
[0007]步驟2:對數據集中下一級空間粒度的數據繼續進行遞歸四叉樹劃分,直到存在某單元網格中該數據屬性值為零,記錄下其四叉樹層數;
[0008]步驟3:重復步驟2直到全部數據均劃分完畢;
[0009]步驟4:將數據集中的數據作為空間網格的屬性賦值到對應的空間網格單元上,網格上的屬性值等于該層網格上對應粒度的數據值與其覆蓋的網格數目的比值;
[0010]步驟5:以網格作為基本單元,進行網格數據存儲,將網格單元屬性值保存在具有模式自由特點的數據庫,得到基于空間網格劃分的數據庫;
[0011]步驟6:利用基于空間網格劃分的數據庫進行政務數據挖掘,發現潛在關聯信息。
[0012]步驟3中對全部數據劃分時,若數據在空間上的分布不均勻,有的區域分布較為密集而有的區域較為稀疏時,則一次四叉樹劃分就能出現有的網格上屬性值為零,而有的網格上屬性值非常大的情況,所以采用熱點分析方法獲取其密集分布的區域,對密集分布的區域進行四叉樹遞歸劃分直到滿足步驟1中的條件,記錄下其四叉樹劃分層數,并對稀疏區域進行與該四叉樹層數相同的劃分。
[0013]步驟6的具體實現過程為首先選取兩類需要進行信息挖掘的政務數據,如果兩種類型數據的空間粒度相同,則直接從數據庫中取兩類數據的格網屬性值進行相關性分析;如果兩種類型數據的空間粒度不同,即數據所在的格網大小不同,則需要統一兩類數據的空間粒度,將大粒度數據的網格進行細分至與小粒度數據的網格大小相同,利用兩種粒度數據之間的四叉樹層數差計算出大粒度數據映射至小粒度網格上的屬性值,此時兩不同粒度的數據便都擁有了相同的空間粒度,然后使用映射后的數據值進行相關性分析。
[0014]本發明步驟1到4綜合均勻網格和層次網格的劃分結構對數據集中每種類型的數據按照其空間粒度進行統一空間維度上的屬性映射,并將其屬性值賦值給每一網格單元,從而將不同種類數據集組織在統一的時空維度下。
[0015]本發明步驟5和6利用了數據庫的模式自由特征,將不同種類數據集存儲到統一數據集下而不考慮其數據類型,統一數據集下的政務數據挖掘既可以進行相同類型數據之間的時空信息挖掘,也可以進行跨部門跨領域的不同類型數據之間的時空信息挖掘,大大增加了信息挖掘深度。
[0016]本發明與現有大數據挖掘技術相比,采用了基于空間網格劃分的方法融合多種類型數據,可用來挖掘各種類型政務數據之間的信息,增加了信息挖掘深度。
【具體實施方式】
[0017]為了便于本領域普通技術人員理解和實施本發明,下面結合實施例對本發明作進一步的詳細描述,應當理解,此處所描述的實施示例僅用于說明和解釋本發明,并不用于限定本發明。
[0018]本發明提供的一種基于空間網格劃分的政務大數據挖掘方法,其特征在于,包括以下步驟:
[0019]步驟1:以數據的空間分布特征為基礎對數據集進行空間網格劃分;
[0020]首先將數據集的數據按照空間粒度大小排序,取數據集所在空間區域的外接矩形框,對矩形框以四叉樹方法進行網格劃分,若具有最大空間粒度的數據在每個單元網格中均不為零,則繼續采用四叉樹方法進行遞歸劃分;若存在某個或者多個單元網格中其數據為零,則停止繼續劃分,記錄下其四叉樹劃分的層數;
[0021]本步驟中綜合考慮數據集中每種類型數據的空間粒度大小,結合了均勻網格和層次網格兩種結構對空間網格進行劃分,針對不同空間粒度的數據采取不同粒度的網格劃分方式。均勻網格劃分結構即將二維數據空間按照等距離劃分的直線交叉劃分,每個單元網格的面積均相等,粒度相同的數據擁有的大小相同的網格空間;層次網格劃分結構則以一定的規則繼續對單元網格進行遞歸四叉樹劃分,直到滿足步驟1中所述條件為止,層次網格劃分使得擁有不同空間粒度的數據能夠組織融合在統一的時空領域內。
[0022]步驟2:對數據集中下一級空間粒度的數據繼續進行遞歸四叉樹劃分,直到存在某單元網格中該數據屬性值為零,記錄下其四叉樹層數;
[0023]步驟3:重復步驟2直到全部數據均劃分完畢;在對全部數據劃分時,若數據在空間上的分布不均勻,有的區域分布較為密集而有的區域較為稀疏時,則一次四叉樹劃分就能出現有的網格上屬性值為零,而有的網格上屬性值非常大的情況,所以采用熱點分析方法獲取其密集分布的區域,對密集分布的區域進行四叉樹遞歸劃分直到滿足步驟1中的條件,記錄下其四叉樹劃分層數,并對稀疏區域進行與該四叉樹層數相同的劃分。
[0024]步驟4:將數據集中的數據作為空間網格的屬性賦值到對應的空間網格單元上,網格上的屬性值等于該層網格上對應粒度的數據值與其覆蓋的網格數目的比值;
[0025]步驟5:以網格作為基本單元,進行網格數據存儲,將網格單元屬性值保存在具有模式自由特點的數據庫,得到基于空間網格劃分的數據庫;
[0026]本步驟中使用具有模式自由特點的數據庫存儲具有多層結構的網格數據。數據庫表格中每條記錄對應于一個網格,每個網格存儲其對應空間粒度下的數據值和四叉樹層數,此外,每個網格還存儲低于其空間粒度的下一層網格數據,即每條記錄的屬性值可以是某一種數據類型,也可以是一張表格。模式自由的數據庫特別適合用于存儲基于多層網格劃分的政務數據。
[0027]步驟6:利用基于空間網格劃分的數據庫進行政務數據挖掘,發現潛在關聯信息;具體實現過程為首先選取兩類需要進行信息挖掘的政務數據,如果兩種類型數據的空間粒度相同,則直接從數據庫中取兩類數據的格網屬性值進行相關性分析;如果兩種類型數據的空間粒度不同,即數據所在的格網大小不同,則需要統一兩類數據的空間粒度,將大粒度數據的網格進行細分至與小粒度數據的網格大小相同,利用兩種粒度數據之間的四叉樹層數差計算出大粒度數據映射至小粒度網格上的屬性值,此時兩不同粒度的數據便都擁有了相同的空間粒度,然后使用映射后的數據值進行相關性分析,進行相關性分析。
[0028]本步驟中取兩種不同類型的政務數據進行相關性分析,當數據具有不同的空間粒度時,使用基于網格的四叉樹劃分思想將大空間粒度的數據細分至小空間粒度上的屬性值,進而實現在相同的時空維度下統一兩種數據的空間粒度來進行相關性分析。
[0029]應當理解的是,本說明書未詳細闡述的部分均屬于現有技術。
[0030]應當理解的是,上述針對較佳實施例的描述較為詳細,并不能因此而認為是對本發明專利保護范圍的限制,本領域的普通技術人員在本發明的啟示下,在不脫離本發明權利要求所保護的范圍情況下,還可以做出替換或變形,均落入本發明的保護范圍之內,本發明的請求保護范圍應以所附權利要求為準。
【主權項】
1.一種基于空間網格劃分的政務大數據挖掘方法,其特征在于,包括以下步驟: 步驟1:以數據的空間分布特征為基礎對數據集進行空間網格劃分; 首先將數據集的數據按照空間粒度大小排序,取數據集所在空間區域的外接矩形框,對矩形框以四叉樹方法進行網格劃分,若具有最大空間粒度的數據在每個單元網格中均不為零,則繼續采用四叉樹方法進行遞歸劃分;若存在某個或者多個單元網格中其數據為零,則停止繼續劃分,記錄下其四叉樹劃分的層數; 步驟2:對數據集中下一級空間粒度的數據繼續進行遞歸四叉樹劃分,直到存在某單元網格中該數據屬性值為零,記錄下其四叉樹層數; 步驟3:重復步驟2直到全部數據均劃分完畢; 步驟4:將數據集中的數據作為空間網格的屬性賦值到對應的空間網格單元上,網格上的屬性值等于該層網格上對應粒度的數據值與其覆蓋的網格數目的比值; 步驟5:以網格作為基本單元,進行網格數據存儲,將網格單元屬性值保存在具有模式自由特點的數據庫,得到基于空間網格劃分的數據庫; 步驟6:利用基于空間網格劃分的數據庫進行政務數據挖掘,發現潛在關聯信息。
【專利摘要】本發明公開了一種基于空間網格劃分的政務大數據挖掘方法,根據政務數據集中數據的空間粒度確定空間網格的大小,對空間網格進行劃分并將各數據集中的數據賦值給網格作為屬性值,以單元網格為單位進行網格數據存儲和多維數據挖掘。本發明將不同種類數據集組織在統一的時空維度下,有效地實現了多種類型的政務信息挖掘,大幅度增加了信息挖掘的深度。
【IPC分類】G06K9/62, G06F17/30
【公開號】CN105279260
【申請號】CN201510694430
【發明人】樂鵬, 張晨曉
【申請人】武漢大學
【公開日】2016年1月27日
【申請日】2015年10月21日