一種基于改進遺傳聚類的人類活動區域分類方法
【專利摘要】一種基于改進遺傳聚類的人類活動區域分類方法,包括有下列步驟:一:種群初始化;二:更新種群;三:判斷隸屬關系;四:計算適應度;五:個體選擇;六:交叉繁殖;七:變異;八:結果判斷。該方法針對大規模的人類移動數據,為原始遺傳聚類重新定義同時包含類內距離和類間距離的新適應度,將傳統判斷準則中未同時包含的類內距離、類間距離進行優化,進而得到綜合平衡最優;模擬生物在自然環境中的遺傳進化過程進行自適應全局結構優化,以“適者生存”的模式得到適應度最大個體,作為最優聚類中心,解決隨機選擇類中心帶來的局部最優。
【專利說明】一種基于改進遺傳聚類的人類活動區域分類方法
【技術領域】
[0001] 本發明涉及一種基于改進遺傳聚類的人類活動區域分類方法,屬于人類移動性研 究及數據挖掘領域。
【背景技術】
[0002] 傳統的人類活動區域分類方法是利用人類移動數據,基于經典自動聚類方法,其 中K平均算法(K-MEANS)最為常用。
[0003] 經典自動聚類方法廣泛使用的聚類準則是類內加權誤差平方和,通過迭代函數, 使得聚類準則作為目標函數達到極小值,求得一個局部最優解。這個目標函數是一個非凸 函數,擁有多個極小值和一個最小值。極小值是從局部考慮的,小于其兩側的值即為極小 值,而最小值才是從全局考慮。同時,聚類準則只考慮類內距離、類間距離二者之一,使其達 到極值,來代表一個類之內相似性大、不同類之間差異性大。
[0004] 人類活動區域分類中,人類移動數據規模龐大,由于K-MEANS的效率高,成為對大 規模數據進行聚類的首選。K-MEANS隨機選擇K個對象,每個對象初始地代表了一個類的平 均值或中心;剩余對象根據其與各類中心的距離,將它賦給最近的類;然后重新計算每個 類的平均值。這個過程不斷重復,直到準則函數收斂到極小值。初始選擇類中心的隨機性 帶來了局部最優的后果。
【發明內容】
[0005] ( -)目的:
[0006] 針對現有技術的缺點,本申請要解決的技術問題為:初始選擇類中心的隨機性導 致的局部最優,以及聚類準則未同時考慮類內距離、類間距離平衡性的綜合最優情況。
[0007] 本發明技術要解決的問題是:克服現有針對人類移動數據的聚類技術的不足,提 供一種基于改進遺傳聚類的人類活動區域分類方法,為原始遺傳聚類重新定義同時包含類 內距離和類間距離的新判定指標,模擬生物在自然環境中的遺傳進化過程進行自適應全局 結構優化,以"適者生存"的模式得到最優聚類中心,解決隨機選擇類中心帶來的局部最優。
[0008] (二)技術方案:
[0009] 本發明采用的技術方案為一種基于改進遺傳聚類的人類活動區域分類方法,兼顧 類內距離和類間距離,來修正聚類中心。
[0010] 本發明一種基于改進遺傳聚類的人類活動區域分類方法,該方法包括有下列步 驟:
[0011] 步驟一:種群初始化
[0012] 輸入待分類的N個個體(i = 1,2, 3. . . , N),每個個體包含d維的特征向量,即
[0013] 〇i = {a(ia)? a(ij2). . . , a(ijd)}
[0014] a(i,j) (j = 1,2· · ·,d)代表其中一個特征向量;
[0015] 要將所有個體分為k類,則隨機選擇k個個體代表k個初始聚類中心,第 m(l< m < k)個類的聚類中心(;=;所有聚類中心編成一條染色體Ind,即
[0016] Ind - {C1;C2;C3. · · ? Ck - {a(ljl), a(lj2). . . , a(ljd), ..., a(kjl), a(kj2). . . , a(kjd)}
[0017] 這條染色體作為初始種群中的一個父輩;以上染色體制造過程按照種群大小重復 PSize次;設定種群大小PSize = 即在全部N個個體中選擇任意k個的全部不重復組合 數目,保證種群中所有父輩都不相同;所有父輩染色體構成初始種群;
[0018] 步驟二:更新種群
[0019] 每一條父輩染色體Ind,都包含k個聚類中心;對于其中一個聚類中心(;,找到所 有原始待分類個體中距離C m最近的η個個體(包含Cm),取這η個個體的均值,作為替換Cm 的新聚類中心;父輩染色體Ind中的其他聚類中心以同樣的方式更新,最終種群中的所有 父輩染色體更新,成為一個新的種群;
[0020] 步驟三:判斷隸屬關系
[0021] 對于包含k個聚類中心IA,C2, C3...,Ck}的每一條父輩染色體Ind,所有原始待 分類個體都可以劃分為k個組;一個個體〇i,距離第m個聚類中心最近,則判定其屬于第m 組;
[0022] 步驟四:計算適應度
[0023] 適應度是遺傳聚類技術判斷搜索的依據,適應度高的個體參與后代繁殖的概率越 高;改進遺傳聚類的適應度定義既包括類內距離,也包括類間距離;類內距離越小、類間距 離越大,則聚類效果越好,對應的適應度越大;對于每一條父輩染色體,根據步驟三的隸屬 關系得出的k個組,計算類內距離S in、類間距離S。#適應度f為
[0024]
【權利要求】
1. 一種基于改進遺傳聚類的人類活動區域分類方法,其特征在于:該方法包括有下列 步驟: 步驟一:種群初始化 輸入待分類的N個個體〇i (i = 1,2, 3. . .,N ),每個個體包含d維的特征向量,即 〇i - { a (i,l),a (i,2). ? ?,a (i, d)} a a (j =丨,2, ...,d)代表其中一個特征向量; 將所有個體分為k類,則隨機選擇k個個體代表k個初始聚類中心,第m(l < m < k) 個類的聚類中心(;=0_" ;所有聚類中心編成一條染色體Ind,即 Ind - {Cj, C2, C3. . . J Ck} - { a (1,1),a (1,2). ? ?,a (1, d),? ? ?,a (k,l),a (k,2). ? ?,a (k, d)} 這條染色體作為初始種群中的一個父輩;以上染色體制造過程按照種群大小重復 PSize次;設定種群大小Mire =線,即在全部N個個體中選擇任意k個的全部不重復組合 數目,保證種群中所有父輩都不相同;所有父輩染色體構成初始種群; 步驟二:更新種群 每一條父輩染色體Ind,都包含k個聚類中心;對于其中一個聚類中心Cm,找到所有原 始待分類個體中距離最近的n個個體(包含CJ,取這n個個體的均值,作為替換的新 聚類中心;父輩染色體Ind中的其他聚類中心以同樣的方式更新,最終種群中的所有父輩 染色體更新,成為一個新的種群; 步驟三:判斷隸屬關系 對于包含k個聚類中心IA,C2, C3. . .,Ck}的每一條父輩染色體Ind,所有原始待分類 個體都劃分為k個組;一個個體Op距離第m個聚類中心最近,則判定其屬于第m組; 步驟四:計算適應度 適應度是遺傳聚類技術判斷搜索的依據,適應度高的個體參與后代繁殖的概率越高; 改進遺傳聚類的適應度定義既包括類內距離,也包括類間距離;類內距離越小、類間距離越 大,則聚類效果越好,對應的適應度越大;對于每一條父輩染色體,根據步驟三的隸屬關系 得出的k個組,計算類內距離Sin、類間距離S^,適應度f?為
步驟五:個體選擇 選擇是為了得到優良的父輩,適應度高的繁殖后代的概率高;所有父輩染色體的適應 度從大到小排列,取前60%的父輩作為存活下來的繁殖個體; 步驟六:交叉繁殖 采用輪盤賭博的策略進行雙親選擇,即把所有染色體的適應度之和作為輪盤的圓周, 每一個染色體按照適應度比例占據一個扇區,適應度高則在輪盤轉動中被隨機選到的概率 更高;每選出兩個染色體,進行交叉繁殖,即互相交換染色體的一半,形成與雙親不同的另 外兩個子代染色體; 步驟七:變異 交叉繁殖產生的子代除了繼承父輩信息,還會發生預定幾率的基因變異;染色體中每 一維的變量代表一個基因,因此基因就是k個聚類中心中的特征向量;設定基因突變的概 率為P = 0. 5%,隨機選擇新生代種群中的一個染色體,隨機選取這個染色體上的一個基因 gvaiue;,產生如下變異
步驟八:結果判斷 設定遺傳最大代數為Y_,以上步驟二到步驟七的迭代次數小于Y_,則跳轉步驟二繼 續進行,增加一次迭代;否則根據步驟四,計算最終子代里適應度最大的染色體,其上的k 個聚類中心即為全局修正聚類中心,然后根據步驟三,判定原始待分類個體最終隸屬類別。
2. 根據權利要求1所述的一種基于改進遺傳聚類的人類活動區域分類方法,其特征在 于:在步驟一中所述的"設定種群大小= C|",計算方式如下:
式中符號說明:k表示最終分類目標的個數;N表示待分類的個體數目;C!表示從N個 個體中選擇k個個體的組合數目。
3. 根據權利要求1所述的一種基于改進遺傳聚類的人類活動區域分類方法,其特征在 于:在步驟二中所述的"距離",是指兩個個體間的歐幾里德距離即Euclidean Distance,為 n維空間中兩點之間的線段長度;對于給定的兩個點p = (Pp p2. . . , pn), q = (qn q 2..., qn),他們的距離計算如下:
式中符號說明:P,q為給定的兩個點;Pi,Qi(i = 1,2, . . .,n)分別表示p,q在n維空 間中的坐標向量;D(p, q)表示p到q的距離;D(q, p)表示q到p的距離。
4. 根據權利要求1所述的一種基于改進遺傳聚類的人類活動區域分類方法,其特征在 于:在步驟三中所述的"距離",與步驟二中所定義的距離相同。
5. 根據權利要求1所述的一種基于改進遺傳聚類的人類活動區域分類方法,其特征在 于:在步驟四中所述的"類內距離Sin、類間距離Swt",是指對于步驟三中的k個組,每個組作 為一個類: 類內距離指這k個類中,所有類的個體到其中心的距離平均值之和,即
類間距離為這k個類的類中心到所有中心平均值的距離之和,即
以上類內距離Sin、類間距離Swt的定義式中,其符號說明如下::k為類的個數; Nji = 1,2, . . .,k)表示對應類的規模大小;Ci(i = 1,2, . . .,k)表示對應類的類中心;
子別表示第i類中的個體;D(p,q)表示個體p到q的距離。
6.根據權利要求1所述的一種基于改進遺傳聚類的人類活動區域分類方法,其特征在 于:在步驟八中所述的"迭代次數",是指從步驟二到步驟七的執行次數,每循環一次,迭代 次數增加1。
【文檔編號】G06N3/12GK104281877SQ201410478559
【公開日】2015年1月14日 申請日期:2014年9月18日 優先權日:2014年9月18日
【發明者】冷彪, 董宜晴, 張向陽, 熊璋 申請人:北京航空航天大學