高頻頁面內容聚類方法和系統的制作方法
【專利摘要】本發明公開了一種高頻頁面內容聚類方法和系統,涉及移動互聯網頁面處理【技術領域】。針對現有基于手機的熱點發掘技術只能分析出熱點網站網址,沒有自動通過文本提取算法獲知該頁面內所包含熱點事件的內容等問題,提出了通過對所有待分析頁面根據頁面的不同訪問特征,將頁面集合劃分為多個子集合,然后文本提取和詞頻分析,得出頁面關鍵詞,再基于關鍵詞對頁面聚類,發現存在于多個相關聯頁面間的熱點事件,并根據系統中設置的特征偏好設置信息,如地域、用戶愛好、消費人群等,整合熱點事件的相關信息,可擴展性強。同時,算法對距離的定義簡單實用,聚類過程計算復雜度低。
【專利說明】高頻頁面內容聚類方法和系統
【技術領域】
[0001]本發明涉及移動互聯網頁面處理【技術領域】,特別涉及一種高頻頁面內容聚類方法和系統。
【背景技術】
[0002]隨著移動互聯網應用的快速發展,移動互聯網的內容信息越來越豐富。運營商具有各種網元設備可以記錄用戶訪問日志。同時頁面分割重排成為當今的技術熱點之一。
[0003]目前的熱點分析主要是通過分析互聯網服務日志,目前基于移動互聯網網頁的熱點事件挖掘和獲取技術還不成熟,相關技術方案較少,且現有的網頁分析只得出熱點網頁的網址,沒有自動通過文本提取算法獲知該頁面內所包含熱點事件的內容。
【發明內容】
[0004]本發明的發明人發現上述現有技術中存在問題,并因此針對所述問題中的至少一個問題提出了一種新的技術方案。
[0005]本發明的一個目的是提供一種用于高頻頁面內容聚類的技術方案。
[0006]根據本發明的第一方面,提供了一種高頻頁面內容聚類方法,包括:
[0007]獲取用戶訪問日志內的頁面,根據頁面的訪問特征劃分為多個特征頁面集合;
[0008]通過對每一個特征頁面集合進行詞頻分析獲得各個特征頁面集合出現頻率最高的特征高頻詞匯,獲得特征高頻詞匯集合;
[0009]在特征頁面集合內檢索包含特征高頻詞匯集合中任意一個或多個特征高頻詞匯的頁面,得到所有這些頁面組成的高頻詞匯頁面集合;
[0010]在高頻詞匯頁面集合中,選擇用戶訪問量最高的頁面定義為熱點錨頁面,以熱點錨頁面為基準對高頻詞匯頁面集合進行聚類得到熱點頁面集合;每一個熱點頁面集合對應一個熱點事件,熱點事件的標題和正文分別用熱點頁面集合對應的熱點錨頁面的標題和正文來表示;
[0011]將高頻詞匯頁面集合中的所有頁面都進行分類,得到每一個特征頁面集合的熱點事件集合,直到高頻詞匯頁面集合內頁面都被分類為止。
[0012]可選地,該方法還包括:將兩個或者多個特征頁面集合的熱點事件集合進行合并得到合并后的熱點集合;或者將所有特征頁面集合的熱點事件集合進行合并得到合并后的熱點集合。
[0013]可選地,將兩個或者多個特征頁面集合的熱點事件集合進行合并得到合并后的熱點集合包括:
[0014]將兩個或者多個特征頁面集合的熱點事件進行合并,記為H = {H1; H2,...HJ ;
[0015]判斷H中重復的熱點事件,如果熱點集合HjPHb滿足ma = mb*ma e Hb或mb e Ha,則確定熱點集合Ha和Hb是重復的;
[0016]將重復熱點集合Ha和Hb合并為新熱點集合H。,其中H。= {p IP e Ha或P e HJ,其對應的熱點錨頁面m。為H。中訪問次數最多的頁面。
[0017]可選地,在高頻詞匯頁面集合中選擇用戶訪問量最高的頁面定義為熱點錨頁面、以熱點錨頁面為基準對高頻詞匯頁面集合進行聚類得到熱點頁面集合包括:
[0018]1.記高頻詞匯頁面集合為P°,記特征高頻詞匯集合為C,對P°進行聚類:定義頁面a與頁面b之間的距離D (a,b)為:
[0019]
【權利要求】
1.一種高頻頁面內容聚類方法,其特征在于,包括: 獲取用戶訪問日志內的頁面,根據頁面的訪問特征劃分為多個特征頁面集合; 通過對每一個特征頁面集合進行詞頻分析獲得各個特征頁面集合出現頻率最高的特征高頻詞匯,獲得特征高頻詞匯集合; 在特征頁面集合內檢索包含特征高頻詞匯集合中任意一個或多個特征高頻詞匯的頁面,得到所有這些頁面組成的高頻詞匯頁面集合; 在高頻詞匯頁面集合中,選擇用戶訪問量最高的頁面定義為熱點錨頁面,以熱點錨頁面為基準對高頻詞匯頁面集合進行聚類得到熱點頁面集合;每一個熱點頁面集合對應一個熱點事件,熱點事件的標題和正文分別用熱點頁面集合對應的熱點錨頁面的標題和正文來表不; 將高頻詞匯頁面集合中的所有頁面都進行分類,得到每一個特征頁面集合的熱點事件集合,直到高頻詞匯頁面集合內頁面都被分類為止。
2.根據權利要求1所述的方法,其特征在于,還包括: 將兩個或者多個特征頁面集合的熱點事件集合進行合并得到合并后的熱點集合; 或者 將所有特征頁面集合的熱點事件集合進行合并得到合并后的熱點集合。
3.根據權利要求2所述的方法,其特征在于,所述將兩個或者多個特征頁面集合的熱點事件集合進行合并得到合并后的熱點集合包括: 將兩個或者多個特征頁面集合的熱點事件進行合并,記為H= {H1; H2,...HJ , H1,H2,...Hm表示各個特征頁面集合的熱點集合; 判斷H中重復的熱點事件,如果熱點集合Ha和Hb滿足ma = mb或ma e Hb或mb e Ha,則確定熱點集合Ha和Hb是重復的; 將重復熱點集合Ha和Hb合并為新熱點集合H。,其中H。= {p IP e Ha或P e Hj,其對應的熱點錨頁面m。為H。中訪問次數最多的頁面。
4.根據權利要求1所述的方法,其特征在于,所述在高頻詞匯頁面集合中選擇用戶訪問量最高的頁面定義為熱點錨頁面、以熱點錨頁面為基準對高頻詞匯頁面集合進行聚類得到熱點頁面集合包括: . 1.記高頻詞匯頁面集合為P°,記特征高頻詞匯集合為C,對P°進行聚類:定義頁面a與頁面b之間的距離D (a,b)為:
5.根據權利要求1所述的方法,其特征在于,所述頁面的訪問特征包括:時間段、地理位置、消費水平、和/或手機類型。
6.一種高頻頁面內容聚類系統,其特征在于,包括: 特征頁面劃分模塊,用于獲取用戶訪問日志內的頁面,根據頁面的訪問特征劃分為多個特征頁面集合; 高頻詞匯獲得模塊,用于通過對每一個特征頁面集合進行詞頻分析獲得各個特征頁面集合出現頻率最高的特征高頻詞匯,獲得特征高頻詞匯集合; 詞匯頁面獲得模塊,用于在特征頁面集合內檢索包含特征高頻詞匯集合中任意一個或多個特征高頻詞匯的頁面,得到所有這些頁面組成的高頻詞匯頁面集合; 熱點頁面獲得模塊,用于在高頻詞匯頁面集合中,選擇用戶訪問量最高的頁面定義為熱點錨頁面,以熱點錨頁面為基準對高頻詞匯頁面集合進行聚類得到熱點頁面集合;每一個熱點頁面集合對應一個熱點事件,熱點事件的標題和正文分別用熱點頁面集合對應的熱點錨頁面的標題和正文來表示;將高頻詞匯頁面集合中的所有頁面都進行分類,得到每一個特征頁面集合的熱點事件集合,直到高頻詞匯頁面集合內頁面都被分類為止。
7.根據權利要求6所述的系統,其特征在于,還包括: 熱點頁面合并模塊,用于將兩個或者多個特征頁面集合的熱點事件集合進行合并得到合并后的熱點集合;或者將所有特征頁面集合的熱點事件集合進行合并得到合并后的熱點
口 O
8.根據權利要求7所述的系統,其特征在于,所述熱點頁面合并模塊將兩個或者多個特征頁面集合的熱點事件進行合并,記為H = (H1, H2,...Hj , H1, H2,...Hm表示各個特征頁面集合的熱點集合;判斷H中重復的熱點事件,如果熱點集合Ha和Hb滿足ma = mb或ma e Hb或mb e Ha,則確定熱點集合Ha和Hb是重復的;將重復熱點集合Ha和Hb合并為新熱點集合H。,其中H。= {p |p e Ha或P e Hb},其對應的熱點錨頁面m。為H。中訪問次數最多的頁面。
9.根據權利要求6所述的系統,其特征在于,所述熱點頁面獲得模塊執行如下操作: i.記高頻詞匯頁面集合為P°,記特征高頻詞匯集合為C,對P°進行聚類:定義頁面a與頁面b之間的距離D (a,b)為:
10.根據權利要求6所述的系統,其特征在于,所述頁面的訪問特征包括:時間段、地理位置、消費水平、和 /或手機類型。
【文檔編號】G06F17/30GK103902596SQ201210581457
【公開日】2014年7月2日 申請日期:2012年12月28日 優先權日:2012年12月28日
【發明者】甘玉玨, 郝穎, 楊杰, 王愛寶 申請人:中國電信股份有限公司