基于地理位置的數(shù)據(jù)聚類挖掘系統(tǒng)及方法
【專利摘要】本發(fā)明提供了一種基于地理位置的信息數(shù)據(jù)聚類挖掘系統(tǒng)及方法,該系統(tǒng)包括:界面顯示模塊、數(shù)據(jù)庫模塊、K值選取模塊、聚類分析模塊、地理信息顯示模塊。本發(fā)明通過對待處理數(shù)據(jù)進(jìn)行最優(yōu)K值選取,利用選取的最優(yōu)K值運(yùn)用通過K-Means或K-Medoids兩種聚類算法對導(dǎo)入的數(shù)據(jù)進(jìn)行聚類分析,將聚類分析結(jié)果與地理信息系統(tǒng)中的地理信息進(jìn)行結(jié)合,并顯示結(jié)合后的聚類結(jié)果,使得使用者可以通過地理信息系統(tǒng)觀察聚類結(jié)果,供使用者進(jìn)一步的分析。
【專利說明】基于地理位置的數(shù)據(jù)聚類挖掘系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及移動通信數(shù)據(jù)領(lǐng)域,具體涉及一種地理位置的數(shù)據(jù)聚類挖掘系統(tǒng)及方法。
【背景技術(shù)】
[0002]隨著社會的不斷發(fā)展、生活方式的改變、移動業(yè)務(wù)類型多樣化和消費(fèi)方式的改變,移動小區(qū)的網(wǎng)絡(luò)質(zhì)量也在不斷變化。過去的網(wǎng)絡(luò)配置在當(dāng)前情況下并不適用,越來越多的地方出現(xiàn)了話務(wù)擁塞、通話質(zhì)量差的問題。另一方面,城市功能區(qū)的明確也使得不同地區(qū)的消費(fèi)方式、業(yè)務(wù)類型呈現(xiàn)出不同的特征。城市的功能分區(qū)一般包括住宅區(qū)、高校區(qū)、商業(yè)辦公區(qū)、工業(yè)區(qū)和郊區(qū)等,雖然各功能分區(qū)之間沒有明確的界限,但是每種都具有特定功能。
[0003]由于以往業(yè)務(wù)類型單一,對小區(qū)劃分的方法多是基于某一業(yè)務(wù)特征的,如:話務(wù)量、話務(wù)擁塞率。使用以往的系統(tǒng)進(jìn)行分析業(yè)務(wù)特征時,需要使用多種系統(tǒng)配合并進(jìn)行多次劃分。并且以前對小區(qū)劃分的研究是將位置信息和屬性信息分開的,要么只從地理上劃分成小區(qū)塊,要么按照某一業(yè)務(wù)特征分析用戶的使用特性和業(yè)務(wù)量。同時,運(yùn)營商需要從大量現(xiàn)有數(shù)據(jù)中挖掘出一些原先沒有注意到的數(shù)據(jù),而通常這需要配合幾樣系統(tǒng)來完成,并且效果一般。
[0004]現(xiàn)有數(shù)據(jù)挖掘系統(tǒng),在進(jìn)行數(shù)據(jù)處理時無法考慮其地理位置信息,特別針對移動運(yùn)營商,地理位置信息已經(jīng)成為一項非常重要的數(shù)據(jù),而使用傳統(tǒng)的系統(tǒng)很難將用戶信息數(shù)據(jù)和用戶地理位置數(shù)據(jù)進(jìn)行結(jié)合考慮,缺乏一個可視化的效果。尤其是對于移動運(yùn)營商在進(jìn)行小區(qū)劃分的問題上,無法將用戶業(yè)務(wù)信息與用戶地理信息結(jié)合起來考慮是一個很麻煩的問題,使用傳統(tǒng)的方法,首先需要使用者熟練使用一個數(shù)據(jù)挖掘系統(tǒng),以及數(shù)據(jù)處理系統(tǒng),同時更重要的是一個地理位置信息系統(tǒng),這之間的數(shù)據(jù)傳遞就是一個問題,無法配合地理位置信息觀察數(shù)據(jù)挖掘結(jié)果更是使使用者缺乏對挖掘結(jié)果的直接感覺,往往會錯過一些重要的結(jié)論。
【發(fā)明內(nèi)容】
[0005](一)要解決的技術(shù)問題
[0006]本發(fā)明要解決的技術(shù)問題是:將地理位置信息以及數(shù)據(jù)挖掘系統(tǒng)結(jié)合,使使用者可以更加清晰的從源數(shù)據(jù)中挖掘出一些有用的信息,針對移動運(yùn)營商,可以更好的指導(dǎo)其進(jìn)行小區(qū)劃分方式。
[0007](二)技術(shù)方案
[0008]為了解決上述技術(shù)問題,本發(fā)明提供一種基于地理位置的數(shù)據(jù)聚類挖掘方法,其特征在于,該方法包括:
[0009]選擇待處理數(shù)據(jù);
[0010]利用最優(yōu)K值分析法對待處理數(shù)據(jù)進(jìn)行最優(yōu)K值選取;
[0011]利用選取的最優(yōu)K值運(yùn)用聚類算法對數(shù)據(jù)進(jìn)行聚類分析;[0012]將聚類分析結(jié)果與地理信息系統(tǒng)中的地理信息進(jìn)行結(jié)合,并顯示結(jié)合后的聚類結(jié)果O
[0013]優(yōu)選的,所述聚類算法包括K-Means和K-Medoids兩種聚類算法對導(dǎo)入的數(shù)據(jù)進(jìn)行聚類分析。
[0014]一種基于地理位置的數(shù)據(jù)聚類挖掘系統(tǒng),其特征在于,該系統(tǒng)包括:
[0015]數(shù)據(jù)庫模塊,用于導(dǎo)入待處理數(shù)據(jù);
[0016]K值選取模塊,用于根據(jù)所述待處理數(shù)據(jù)選取最優(yōu)K值;
[0017]地理信息顯示模塊,將聚類分析結(jié)果與地理信息系統(tǒng)中的地理信息進(jìn)行結(jié)合,并顯示結(jié)合后的聚類結(jié)果。
[0018]優(yōu)選的,所述聚類分析模塊采用最優(yōu)K值分析法進(jìn)行最優(yōu)K值的選取。
[0019]優(yōu)選的,所述地理信息顯示利用OpenMap工具包,對聚類分析結(jié)果進(jìn)行地理位置信息的整合與輸出。
[0020]優(yōu)選的,所述系統(tǒng)還包括界面顯示模塊,用于顯示數(shù)據(jù)庫登陸界面、數(shù)據(jù)導(dǎo)入界面、聚類算法界面。
[0021](三)有益效果
[0022]本發(fā)明的上述技術(shù)方案具有如下優(yōu)點(diǎn):利用最優(yōu)K值選取算法可以分析得到最好的聚類數(shù)目,將優(yōu)選的K值運(yùn)用K-Means和K-Medoids兩種聚類算法對導(dǎo)入的數(shù)據(jù)進(jìn)行聚類分析,得到的聚類結(jié)果通過文件以及地理信息系統(tǒng)直觀的得到顯示,從而得到基于地理位置的聚類劃分結(jié)果,供使用者進(jìn)一步分析。
【專利附圖】
【附圖說明】
[0023]圖1為本發(fā)明實施例提供的一種基于地理位置的數(shù)據(jù)聚類挖掘系統(tǒng)結(jié)構(gòu)示意圖;
[0024]圖2為本發(fā)明實施例提供的一種基于地理位置的數(shù)據(jù)聚類挖掘方法的步驟流程圖;
【具體實施方式】
[0025]下面結(jié)合附圖,對發(fā)明的【具體實施方式】作進(jìn)一步描述。以下實施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案,而不能以此來限制本發(fā)明的保護(hù)范圍。
[0026]如圖2所示,本發(fā)明提供了一種基于地理位置的信息數(shù)據(jù)聚類挖掘方法,包括如下步驟:
[0027]選擇待處理數(shù)據(jù);
[0028]利用最優(yōu)K值分析法對待處理數(shù)據(jù)進(jìn)行最優(yōu)K值選?。?br>
[0029]利用選取的最優(yōu)K值運(yùn)用聚類算法對數(shù)據(jù)進(jìn)行聚類分析;
[0030]將聚類分析結(jié)果與地理信息系統(tǒng)中的地理信息進(jìn)行結(jié)合,并顯示結(jié)合后的聚類結(jié)果O
[0031]下面對本發(fā)明提供的一種基于地理位置的信息數(shù)據(jù)聚類挖掘方法進(jìn)行詳細(xì)說明。
[0032]S1、通過數(shù)據(jù)庫將待處理的數(shù)據(jù)導(dǎo)入系統(tǒng),支持的文件格式為Xls以及xlsx兩種格式。
[0033]S2、采用最優(yōu)K值分析法進(jìn)行最優(yōu)K值選取,其具體算法為比較聚類內(nèi)差進(jìn)行最優(yōu)K值的選取,首先使用者選定一個聚類范圍,系統(tǒng)計算每一個聚類值的類內(nèi)差。所謂類內(nèi)差即為每一個聚類的標(biāo)準(zhǔn)差,進(jìn)行最小標(biāo)準(zhǔn)差的比較,從而可以得到最優(yōu)的K值。
[0034]S3、利用選取的最優(yōu)K值運(yùn)用選用K-Means算法對數(shù)據(jù)進(jìn)行聚類分析;
[0035]S4、為結(jié)合地理信息系統(tǒng)進(jìn)行聚類結(jié)果顯示,利用OpenMap工具包,將地理位置信息整合至該系統(tǒng)中,同時在地理位置顯示時,系統(tǒng)會將聚類結(jié)果例如聚類參數(shù)以及經(jīng)緯度等信息通過相應(yīng)格式輸入給OpenMap地圖顯示模塊,從而達(dá)到最終的聚類結(jié)果顯示。
[0036]S5、將聚類結(jié)果存儲為Xls或xlsx格式的文件,或者通過地理信息系統(tǒng)將地圖顯示結(jié)果進(jìn)行導(dǎo)出。
[0037]實施例1
[0038]如上所述的步驟S3,還具體包括如下步驟:
[0039]S31、利用歸一化公式對所有待處理數(shù)據(jù)R進(jìn)行歸一化處理
【權(quán)利要求】
1.一種基于地理位置的數(shù)據(jù)聚類挖掘方法,其特征在于,該方法包括: 選擇待處理數(shù)據(jù); 利用最優(yōu)K值分析法對待處理數(shù)據(jù)進(jìn)行最優(yōu)K值選??; 利用選取的最優(yōu)K值運(yùn)用聚類算法對待處理數(shù)據(jù)進(jìn)行聚類分析; 將聚類分析結(jié)果與地理信息系統(tǒng)中的地理信息進(jìn)行結(jié)合,并顯示結(jié)合后的聚類結(jié)果。
2.如權(quán)利要求1所述的一種基于地理位置的數(shù)據(jù)聚類挖掘方法,其特征在于,所述聚類算法為K-Means或K-Medoids聚類算法。
3.如權(quán)利要求2所述的一種基于地理位置的數(shù)據(jù)聚類挖掘方法,其特征在于,所述K-Means算法包括步驟: s1、利用歸一化公式對所有待處理數(shù)據(jù)R進(jìn)行歸一化處理
4.如權(quán)利要求2所述的一種基于地理位置的數(shù)據(jù)聚類挖掘方法,其特征在于,所述K-Medoids算法包括步驟: s1、利用歸一化公式對所有待處理數(shù)據(jù)R進(jìn)行歸一化處理
5.一種基于地理位置的數(shù)據(jù)聚類挖掘系統(tǒng),其特征在于,該系統(tǒng)包括: 數(shù)據(jù)庫模塊,用于導(dǎo)入待處理數(shù)據(jù); K值選取模塊,用于根據(jù)所述待處理數(shù)據(jù)選取最優(yōu)K值; 聚類分析模塊,利用選取的最優(yōu)K值運(yùn)用聚類算法進(jìn)行聚類分析; 地理信息顯示模塊,將聚類分析結(jié)果與地理信息系統(tǒng)中的地理信息進(jìn)行結(jié)合,并顯示結(jié)合后的聚類結(jié)果。
6.如權(quán)利要求5所述的一種基于地理位置的數(shù)據(jù)聚類挖掘系統(tǒng),其特征在于,所述數(shù)據(jù)庫模塊采用最優(yōu)K值分析法進(jìn)行最優(yōu)K值的選取。
7.如權(quán)利要求5所述的一種基于地理位置的數(shù)據(jù)聚類挖掘系統(tǒng),其特征在于,所述地理信息顯示利用OpenMap工具包,對聚類分析結(jié)果進(jìn)行地理位置信息的整合與輸出。
8.如權(quán)利要求5所述 的一種基于地理位置的數(shù)據(jù)聚類挖掘系統(tǒng),其特征在于,所述系統(tǒng)還包括界面顯示模塊,用于顯示數(shù)據(jù)庫登陸界面、數(shù)據(jù)導(dǎo)入界面、聚類算法界面。
【文檔編號】G06F17/30GK103927336SQ201410116789
【公開日】2014年7月16日 申請日期:2014年3月26日 優(yōu)先權(quán)日:2014年3月26日
【發(fā)明者】馮志勇, 張奇勛, 趙小彤, 張月 申請人:北京郵電大學(xué)