一種信息歸類方法和系統的制作方法
【技術領域】
[0001] 本發明設計屬于熱點信息的數據挖掘領域,尤其設及一種信息歸類方法和系統。
【背景技術】
[0002] 互聯網的迅猛發展,帶了信息量的爆炸式增長。面對海量的信息,如何從中提取有 效的信息最為重要。例如對微博熱點信息的梳理,可W很容易獲取不同區域的熱點問題。根 據此熱點可W很容易對特定受眾進行信息投遞。也可W根據犯罪信息等,規劃出犯罪高發 點,形成重點經歷支持,亦可W根據人們購物行為,提供商業決策證據。
【發明內容】
[0003] 為了解決上述問題,本發明提出了一種信息歸類方法和系統,能夠針對海量信息 的聚類分析,獲取信息流行趨勢,規劃出按區域劃分的熱點信息,為商業等行為提供有力的 數據證據。
[0004] 為了達到上述目的,本發明提出了一種信息歸類方法,該方法包括:
[0005] 將待處理數據收集并存儲到分布式文件系統皿FS文件系統中。
[0006] 利用硬聚類K-means算法對存儲到皿FS文件系統中的數據進行聚類,并獲得一個 或者多個聚類數據群;將獲得的每一個聚類數據群分別作為一類熱點信息。
[0007] 優選地,利用K-means算法對存儲到皿FS文件系統中的數據進行聚類包括: 陽00引 21、從存儲到皿FS文件系統中的全部數據中任意選擇k個數據,并將k個數據的 當前位置作為初始聚類中屯、;其中,k為正整數,是預先給定的聚類數。
[0009] 22、計算全部數據中的每一個未被選擇的數據與k個初始聚類中屯、的距離。
[0010] 23、獲得每一個未被選擇的數據與全部k個初始聚類中屯、計算出的全部距離中的 最小距離。
[0011] 24、將未被選擇的數據分配給與該最小距離相對應的初始聚類中屯、。
[0012] 25、根據每一個初始聚類中屯、所分配到的全部未被選擇的數據的分布情況,擬合 出每一個初始聚類中屯、所分配到的全部未被選擇的數據的均值中屯、位置,并將均值中屯、位 置作為聚類中屯、。
[0013] 26、判斷初始聚類中屯、與聚類中屯、的位置是否相同,如果初始聚類中屯、與聚類中 屯、的位置不相同,則進入步驟27;如果初始聚類中屯、與聚類中屯、的位置相同,則聚類結束;
[0014] 27、將k個初始聚類中屯、處的數據分別遷移到與每個初始聚類中屯、相對應的聚類 中屯、;并返回步驟22。
[0015] 優選地,聚類數據群是指:聚類中屯、處的數據與被分配給聚類中屯、的未被選擇的 數據共同組成的數據群。
[0016] 優選地,該方法還包括:采用Fortune算法對獲得的每一類熱點信息分別生成一 個泰森多邊形Voronoi圖。
[0017] 優選地,采用^dune算法對獲得的每一個聚類中屯、分別生成一個Voronoi圖包 括:
[0018] 將一個聚類數據群中的每一個數據分別作為一個定點。
[0019] 采用預設的掃描線從預設起點開始移動,對整個聚類數據群進行掃描;獲得多個 W定點為焦點,W掃描線為準線的拋物線。
[0020] 當掃描線對聚類數據群掃描結束時,獲得的多個拋物線中每相鄰的兩個拋物線之 間的交點W及該交點之間的連線形成的多個多邊形域構成Voronoi圖;其中,每個多邊形 域包含一個定點。
[0021] 為了達到上述目的,本發明還提出了一種信息歸類系統,該系統包括:收集模塊和 聚類模塊。
[0022] 收集模塊,用于將待處理數據收集并存儲到分布式文件系統皿FS文件系統中。 [002引聚類模塊,用于利用硬聚類K-means算法對存儲到皿FS文件系統中的數據進行聚 類,并獲得一個或者多個聚類數據群;將獲得的每一個聚類數據群分別確定為一類熱點信 息。
[0024] 優選地,聚類模塊利用K-means算法對存儲到皿FS文件系統中的數據進行聚類是 指: 陽0巧]71、從存儲到皿FS文件系統中的全部數據中任意選擇k個數據,并將k個數據的 當前位置作為初始聚類中屯、;其中,k為正整數,是預先給定的聚類數。
[00%] 72、計算全部數據中的每一個未被選擇的數據與k個初始聚類中屯、的距離。73、獲 得每一個未被選擇的數據與全部k個初始聚類中屯、計算出的全部距離中的最小距離。
[0027] 74、將未被選擇的數據分配給與該最小距離相對應的初始聚類中屯、。
[0028] 75、根據每一個初始聚類中屯、所分配到的全部未被選擇的數據的分布情況,擬合 出每一個初始聚類中屯、所分配到的全部未被選擇的數據的均值中屯、位置,并將均值中屯、位 置作為聚類中屯、。
[0029] 76、判斷初始聚類中屯、與聚類中屯、的位置是否相同,如果初始聚類中屯、與聚類中 屯、的位置不相同,則進入步驟77 ;如果初始聚類中屯、與聚類中屯、的位置相同,則聚類結束。
[0030] 77、將k個初始聚類中屯、處的數據分別遷移到與每個初始聚類中屯、相對應的聚類 中屯、;并返回步驟72。
[0031] 優選地,聚類數據群是指:聚類中屯、處的數據與被分配給聚類中屯、的未被選擇的 數據共同組成的數據群。
[0032] 優選地,該系統還包括:生成模塊;生成模塊用于采用化dune算法對獲得的每一 類熱點信息分別生成一個泰森多邊形Voronoi圖。
[0033] 優選地,生成模塊采用化dune算法對獲得的每一個聚類中屯、分別生成一個 Voronoi圖包括:
[0034] 將一個聚類數據群中的每一個數據分別作為一個定點。
[0035] 采用預設的掃描線從預設起點開始移動,對整個聚類數據群進行掃描;獲得多個 W定點為焦點,W掃描線為準線的拋物線。
[0036] 當掃描線對聚類數據群掃描結束時,獲得的多個拋物線中每相鄰的兩個拋物線之 間的交點W及交點之間的連線形成的多個多邊形域構成Voronoi圖;其中,每個多邊形域 包含一個定點。
[0037] 與現有技術相比,本發明包括:將待處理數據收集并存儲到皿FS文件系統中。利 用K-means算法對存儲到皿FS文件系統中的數據進行聚類,并獲得一個或者多個聚類數據 群;將獲得的每一個聚類數據群分別作為一類熱點信息。通過本發明的方案,能夠針對海量 信息的聚類分析,獲取信息流行趨勢,規劃出按區域劃分的熱點信息,為商業等行為提供有 力的數據證據。
【附圖說明】
[0038] 下面對本發明實施例中的附圖進行說明,實施例中的附圖是用于對本發明的進一 步理解,與說明書一起用于解釋本發明,并不構成對本發明保護范圍的限制。
[0039] 圖1為本發明的信息歸類方法流程圖;
[0040] 圖2為常規的k-means算法示意圖;
[0041] 圖3為常規的Fortune算法中的拋物線示意圖;
[0042] 圖4為常規的化dune算法中的拋物線弧集合示意圖;
[0043] 圖5為本發明的通過化dune算法獲得的Voronoi圖示意圖; W44] 圖6為本發明實施例的通過Fortune算法演示示意圖;
[0045] 圖7為本發明的信息歸類系統組成框圖。
【具體實施方式】
[0046] 為了便于本領域技術人員的理解,下面結合附圖對本發明作進一步的描述,并不 能用來限制本發明的保護范圍。
[0047] 本發明針對海量信息的聚類分析,獲取信息流行趨勢,規劃出按區域劃分的熱點 信息,為商業等行為提供有力的數據證據。
[0048] 具體地,為了達到上述目的,本發明提出了一種信息歸類方法,該方法包括:
[0049] S101、將待處理數據收集并存儲到分布式文件系統皿FS文件系統中。
[0050] 在本發明實施例中,數據收集是進行熱點數據挖掘的前提條件,本發明可根據實 際應用的不同采取不同的數據收集方式,例如通過微博提供的應用程序接口 .API或者直 接對提供的數據進行處理。在本發明實施例中,不對獲取數據途徑、來源及方式進行限制, 任何能實現本發明方案的數據獲取途徑、來源及方式都在本發明的保護范圍之內,并且在 本發明實施例中,數據存儲方式采用皿FS,將收集到的數據存儲到皿FS文件系統中。
[0051] S102、利用硬聚類K-means算法對存儲到皿FS文件系統中的數據進行聚類,并獲 得一個或者多個聚類數據群;將獲得的每一個聚類數據群分別作為一類熱點信息。
[0052] 在本發明實施例中,想要獲得某一數據區域的熱點信息,需要首先對獲得的數據 進行聚類分析,在本發明實施例中,采用K-means算法對存儲到皿FS文件系統中的數據進 行聚類處理。