文檔聚類方法及裝置、網絡設備的制造方法
【技術領域】
[0001] 本發明涉及數據挖掘、文檔聚類及web網頁聚類技術領域,特別是指一種文檔聚 類方法及裝置、網絡設備。
【背景技術】
[0002] 目前,搜索引擎技術已經趨于成熟,用戶可以非常方便地通過搜索引擎來獲取他 們想要尋找的網頁內容。為了方便用戶瀏覽目標網頁,出現了基于web網頁的推薦技術,即 根據用戶關注的一些網頁,向用戶推薦一些相關網頁,省去了用戶通過搜索查找網頁的麻 煩。現有技術中,基于web網頁的推薦技術都是基于web網頁聚類而獲得推薦的相關網頁 的,也就是首先對一定范圍內的網頁進行聚類,然后從用戶收藏網頁所屬的類簇中選取一 個或多個網頁推薦給用戶。web網頁聚類是文檔聚類的一種,它通過分詞技術將一個web網 頁的所有內容切分成詞,然后將這些詞作為網頁的特征項,據此對網頁進行聚類。
[0003] 現有文檔聚類算法的種類比較多,有KM、UPGMA、BKM、FIHC等,各個算法都具有其 特點,有優勢也有劣勢,一個公共的主要問題在性能上:針對超大數據量時,由于文檔的詞 較多,維度較大,需要耗費很長時間才能完成聚類算法,且非常占用CPU、內存、IO等計算資 源。
[0004] 針對文檔聚類算法的性能問題,目前的主要解決方案是基于Map Reduce算法的分 布式并行計算平臺,包括Apache Hadoop平臺、Yahoo S4、微軟Dryad等。該方案通過將一 個任務分布到多臺通過網絡互聯的計算機上進行并行計算,來取得時間上的成倍減少,但 是這種方法需要運用多臺網絡互聯的計算機,因此比較浪費資源,成本比較高。
【發明內容】
[0005] 本發明要解決的技術問題是提供一種文檔聚類方法及裝置、網絡設備,能夠提高 文檔聚類的速度并且節約計算資源。
[0006] 為解決上述技術問題,本發明的實施例提供技術方案如下:
[0007] -方面,提供一種文檔聚類方法,包括:
[0008] 步驟a :將待聚類的文檔分為多組;
[0009] 步驟b:對其中一組待聚類的文檔通過聚類算法進行聚類,獲取初始簇,所述初始 簇對應有頻繁項集;
[0010] 步驟c :獲取余下的另外一組待聚類文檔的特征詞,根據所述特征詞和所述初始 簇對應的頻繁項集,將特征詞包含在所述頻繁項集中的文檔聚類到所述頻繁項集對應的初 始簇,并對剩下的特征詞未包含在所述頻繁項集中的文檔通過聚類算法進行聚類獲取新的 對應有頻繁項集的初始簇;
[0011] 步驟d :判斷是否存在未聚類的文檔組,如果存在,轉向步驟c ;如果不存在,存儲 所有待聚類的文檔聚類成的多個初始簇和每個所述初始簇對應的頻繁項集。
[0012] 進一步地,所述步驟b包括:
[0013] 獲取所述其中一組待聚類的文檔中每個文檔的特征詞;
[0014] 根據獲取的特征詞使用Apriori算法提取頻繁項集;
[0015] 根據所述提取的頻繁項集和所述每個文檔的特征詞,將特征詞包含在同一頻繁項 集中的文檔聚類成同一初始簇。
[0016] 進一步地,所述獲取所述其中一組待聚類的文檔中每個文檔的特征詞包括:
[0017] 將每個文檔中的文字拆分成多個詞語,并對拆分后的詞語進行過濾,去除干擾詞 獲取文檔的初始特征詞;
[0018] 利用下列公式計算每個文檔的每一初始特征詞的分值,保留每個文檔的分值大于 預設閾值的初始特征詞作為該文檔的特征詞:
[0019]
[0020] 進一步地,所述對拆分后的詞語進行過濾,去除干擾詞獲取文檔的初始特征詞包 括:
[0021] 將拆分后的詞語與預設的干擾詞庫中的詞語進行比對,如果拆分后的詞語存在與 干擾詞庫中相同的詞語,則將該詞語作為干擾詞去除。
[0022] 進一步地,所述預設閾值的取值范圍為(λ 0005-0. 0015。
[0023] 進一步地,所述根據所述提取的頻繁項集和所述每個文檔的特征詞,將特征詞包 含在同一頻繁項集中的文檔聚類成同一初始簇包括:
[0024] 計算提取的每一個頻繁項集的權重;
[0025] 按照權重從大到小的順序,依次根據權重從大到小的頻繁項集和每個文檔的特征 詞對文檔進行聚類,將特征詞包含在同一頻繁項集中的文檔聚類成同一初始簇,從而針對 每個頻繁項集分別聚類成不同的初始簇。
[0026] 進一步地,所述步驟b還包括:
[0027] 對于根據所述提取的頻繁項集和文檔的特征詞沒有聚類到初始簇中的文檔,以文 檔的特征詞在文檔中出現的頻率作為分量建立文檔特征詞向量,計算文檔特征詞向量與初 始簇特征詞向量之間夾角的余弦值,在該余弦值大于第一預設值時,將文檔聚類到對應的 初始簇中。
[0028] 進一步地,所述文檔為web網頁。
[0029] 進一步地,所述步驟d之后還包括:
[0030] 在用戶點擊web收藏夾中的網頁鏈接后,根據所述步驟d得到的聚類結果獲取用 戶所點擊網頁所屬的初始簇;
[0031] 從所述初始簇中選擇至少一個網頁展示給用戶。
[0032] 進一步地,所述從所述初始簇中選擇至少一個網頁展示給用戶包括:
[0033] 從所述初始簇中選擇多個網頁,對所述多個網頁進行過濾,并將過濾后的網頁展 示給用戶,其中,過濾掉的網頁包括但不限于內容重復的網頁、內容不符合要求的網頁。
[0034] 進一步地,所述步驟d之后還包括:
[0035] 在用戶瀏覽網頁時,根據所述步驟d得到的聚類結果獲取用戶瀏覽的網頁所屬初 始簇的特征詞;
[0036] 確定與所述初始簇的特征詞的匹配程度大于第二預設值的廣告的特征詞,并將與 該廣告的特征詞對應的廣告推送給用戶。
[0037] 本發明實施例還提供了一種文檔聚類裝置,包括:
[0038] 分組模塊,用于將待聚類的文檔分為多組;
[0039] 初始聚類模塊,用于對其中一組待聚類的文檔通過聚類算法進行聚類,獲取初始 簇,所述初始簇對應有頻繁項集;
[0040] 分層聚類模塊,用于獲取余下的另外一組待聚類文檔的特征詞,根據所述特征詞 和所述初始簇對應的頻繁項集,將特征詞包含在所述頻繁項集中的文檔聚類到所述頻繁項 集對應的初始簇,并對剩下的特征詞未包含在所述頻繁項集中的文檔通過聚類算法進行聚 類獲取新的對應有頻繁項集的初始簇;
[0041] 處理模塊,用于判斷是否存在未聚類的文檔組,如果存在,轉向步驟c ;如果不存 在,存儲所有待聚類的文檔聚類成的多個初始簇和每個所述初始簇對應的頻繁項集。
[0042] 進一步地,所述初始聚類模塊包括:
[0043] 獲取子模塊,用于獲取所述其中一組待聚類的文檔中每個文檔的特征詞;
[0044] 提取子模塊,用于根據獲取的特征詞使用Apriori算法提取頻繁項集;
[0045] 聚類子模塊,用于根據所述提取的頻繁項集和所述每個文檔的特征詞,將特征詞 包含在同一頻繁項集中的文檔聚類成同一初始簇。
[0046] 進一步地,所述獲取子模塊包括:
[0047] 處理單元,用于將每個文檔中的文字拆分成多個詞語,并對拆分后的詞語進行過 濾,去除干擾詞獲取文檔的初始特征詞;
[0048] 第一計算單元,用于利用下列公式計算每個文檔的每一初始特征詞的分值,保留 每個文檔的分值大于預設閾值的初始特征詞作為該文檔的特征詞:
[0049]
[0050] 進一步地,所述聚類子模塊包括:
[0051] 第二計算單元,用于計算提取的每一個頻繁項集的權重;
[0052] 聚類單元,用于按照權重從大到小的順序,依次根據權重從大到小的頻繁項集和 每個文檔的特征詞對文檔進行聚類,將特征詞包含在同一頻繁項集中的文檔聚類成同一初 始簇,從而針對每個頻繁項集分別聚類成不同的初始簇。
[0053] 進一步地,所述聚類子模塊還用于對于根據所述提取的頻繁項集和文檔的特征詞 沒有聚類到初始簇中的文檔,以文檔的特征詞在文檔中出現的頻率作為分量建立文檔特征 詞向量,計算文檔特征詞向量與初始簇特征詞向量之間夾角的余弦值,在該余弦值大于第 一預設值