專利名稱:一種完善社區網絡的方法和系統的制作方法
技術領域:
本發明主要涉及網絡技術中額網絡搜索技術領域,尤其涉及一種完善社區網絡的方法和系統。
背景技術:
隨著互聯網技術的不斷發展,網絡上的資源也越來越多。越來越多的用戶從網絡上搜索、篩選自己需要的數據。因著網絡上數據的飛速增長,導致用戶需要在網絡上耗費大量的時間檢索自己所需要的數據。因而隨之產生了社區服務,社區服務是指將包含類似或相關內容的網頁有序的羅列在一起,例如BBS論壇、在線交友以及貼吧空間等。在社區服務的背后,需要計算機對海量的信息自動進行社區挖掘,而文本又是網頁的主要內容,所以文本挖掘顯得尤為重要。文本挖掘的內容是以自然語言的形式呈現的,而復雜的自然語言是計算機所難以理解的,因此我們可以采用從網頁中提取關鍵詞的辦法,來表達網頁的大意。另外隨著網絡技術的發展,用戶留在網絡上的信息不僅包括訪問記錄和操作行為,還包括用戶為網絡圖片打上注釋、評論所看到的文章、為訪問過的頁面打上標簽等。帶有用戶鮮明個性的標簽,已然為海量網頁的呈現、組織和檢索質量造成了顯著的影響,因而網頁標簽足以對網絡的自我組織產生決定性影響,所以本申請主要是基于網頁標簽來對網頁內容進行檢索,以完善社區網絡的信息。傳統的基于標簽進行信息檢索,如圖I所示,主要包括如下步驟SlOl :獲得網絡鏈路信息;S103 :通過所述網頁鏈接信息,獲得與其相對應的網頁,所述網頁包括訪問過所述網頁鏈接的用戶設置的標簽信息;S105 :提取用來表征所述網頁的關鍵詞信息;S107 :相似度分析將所述關鍵詞與進行搜索的基準關鍵詞進行相似度分析,得到所述網頁與基準為網頁的相似度;S109 :網頁篩選當所述相似度滿足一定條件時,將所述網頁加入到社區中。不難看出,標簽作為關鍵詞的擴展形式,由于其所含的信息量比較大。因而利用傳統的文本挖掘技術時,不免影響對其進行準確的分析,尤其是當兩個標簽,其在自然語言中是意義相同的同義詞,而在基于統計方法的文本挖掘中,可能會被直觀的處理為毫無意義而正交的兩個向量,這樣輕率的判斷無疑會很大程度上降低網絡服務的質量。
發明內容
本申請提供了一種通過文本挖掘來完善社區網絡的方法和系統。用以解決現有技術中,對于自然語言中意義相同的同義詞的兩個標簽,可能會被處理為毫無意義而正交的兩個向量,進而降低了社區網絡服務質量的問題。
一方面,本發明通過本申請中的一個實施例,提供如下技術方案一種完善社區網絡的方法,包括如下步驟獲得網絡鏈接信息;通過如所述網頁鏈接信息,獲得與所述網頁鏈接信息相對應的網頁,所述網頁包括訪問過所述網頁鏈接的用戶設置的標簽信息;獲得用來表征所述網頁特征的至少一個關鍵詞,所述至少一個關鍵詞中的至少一個第一關鍵詞與所述標簽信息對應;將所述至少一個關鍵詞與基準關鍵詞進行相似度分析,得到所述網頁的特征信息,所述基準關鍵詞為所述社區網絡中已經有的基準網頁對應的關鍵詞;將所述至少一個關鍵詞與所述基準關鍵詞進行語義相似度分析,得到所述網頁的 語義相似度值;基于所述特征信息和所述語義相似度值,獲得所述網頁與所述基準網頁的第二網頁相似度值;當所述第二網頁相似度值滿足一定條件時,將所述網頁加入到所述社區網絡中。可選的,所述網頁還包括有網頁內容;所述至少一個關鍵詞還包括有至少一個第二關鍵詞,所述至少一個第二關鍵詞與所述網頁內容對應。可選的,所述基于所述特征信息和所述語義相似度值,獲得所述網頁與所述基準網頁的第二網頁相似度值,具體包括將所述語義相似度值引入到所述特征信息中,對所述特征信息進行一個補充,得到第一網頁相似度值;對所述第一網頁相似度值進行聚類分析,得到所述第二網頁相似度值。可選的,所述至少一個第二關鍵詞通過如下步驟獲得搜集所述網頁中的關鍵詞信息,得到至少一個第三關鍵詞;對所述至少一個第三關鍵詞進行過濾處理,得到至少一個第四關鍵詞;利用所述至少一個第四關鍵詞,通過統計方法,對所述網頁特征進行分析,得到所述至少一個第二關鍵詞。另一方面,本發明通過本申請中的另一實施例提供如下技術方案一種完善社區網絡的系統,包括信息采集模塊用于獲得網絡鏈路信息,然后通過如所述網頁鏈接信息,獲得與所述網頁鏈接信息相對應的網頁,所述網頁包括訪問過所述網頁鏈接的用戶設置的標簽信息;關鍵詞提取模塊用于獲得用來表征所述網頁特征的至少一個關鍵詞,所述至少一個關鍵詞中的至少一個第一關鍵詞與所述標簽信息對應;網頁特征信息獲取模塊用于將所述至少一個關鍵詞與基準關鍵詞進行相似度分析,得到所述網頁的特征信息,所述基準關鍵詞為所述社區網絡中已經有的基準網頁對應的關鍵詞;語義相似度獲取模塊將所述至少一個關鍵詞與所述基準關鍵詞進行語義相似度分析,得到所述網頁的語義相似度值;相似度分析模塊用于基于所述特征信息和所述語義相似度矩陣,獲得所述網頁與所述基準網頁的第二網頁相似度值;篩選模塊用于當所述第二網頁相似度值滿足一定條件時,將所述網頁加入到所述社區網絡中。可選的,所述相似度分析模塊,具體包括第一網頁相似度獲取模塊用于將所述語義相似度值引入到所述特征信息中,對所述特征信息進行一個補充,得到第一網頁相似度值;第二網頁相似度獲取模塊用于對所述第一網頁相似度進行聚類分析,得到所述第二網頁相似度值。另一方面,本發明通過本申請中的另一實施例提供如下技術方案一種網頁相似度計算方法,包括如下步驟提取用來表征網頁特征的至少一個關鍵詞,所述至少一個關鍵詞中的至少一個第一關鍵詞與所述網頁的標簽信息對應;將所述至少一個關鍵詞與基準關鍵詞進行相似度分析,得到所述網頁的特征信息,所述基準關鍵詞為所述網絡社區中將要與所述網頁進行相似度比較的已經提取好關鍵詞的基準網頁對應的關鍵詞;將所述至少一個關鍵詞與所述基準關鍵詞進行語義相似度分析,得到所述網頁的語義相似度值;基于所述特征信息和所述語義相似度值,獲得所述網頁與所述基準網頁的第二網頁相似度值。可選的,所述至少一個關鍵詞還包括有至少一個第二關鍵詞,所述至少一個第二關鍵詞與所述網頁內容對應。可選的,所述基于所述特征信息和所述語義相似度值,獲得所述網頁與所述基準網頁的第二網頁相似度值,具體包括將所述語義相似度值引入到所述特征信息中,對所述特征信息進行一個補充,得到第一網頁相似度值;對所述第一網頁相似度進行聚類分析,得到所述第二網頁相似度值,即為所述網頁相似度。另一方面,本發明通過本申請中的另一實施例提供如下技術方案一種網頁相似度計算系統,包括關鍵字提取模塊用于獲得用來表征所述網頁特征的至少一個關鍵詞,所述至少一個關鍵詞中的至少一個第一關鍵詞與所述網頁的標簽信息對應;網頁特征信息獲取模塊用于將所述至少一個關鍵詞與基準關鍵詞進行相似度分析,得到所述網頁的特征信息,所述基準關鍵詞為所述網絡社區中將要與所述網頁進行相似度比較的已經提取好關鍵詞的基準網頁對應的關鍵詞;語義相似度獲取模塊將所述至少一個關鍵詞與所述基準關鍵詞進行語義相似度分析,得到所述網頁的語義相似度值;相似度分析模塊用于基于所述特征信息和所述語義相似度值,獲得所述網頁與所述基準網頁的第二網頁相似度值。可選的,所述相似度分析模塊,具體包括·
第一網頁相似度獲取模塊用于將所述語義相似度值引入到所述特征信息中,對所述特征信息進行一個補充,得到第一網頁相似度值;第二網頁相似度獲取模塊用于對所述第一網頁相似度進行聚類分析,得到所述第二網頁相似度值。
圖I :傳統文本挖掘技術流程圖;圖2 :本申請實施例一中的完善社區流程圖;圖3 :本申請實施例二中的硬件環境圖;圖4 :實施例一中所舉網頁和基準網頁的關鍵詞深度和最短路徑表;
圖5 :本申請實施例三中的相似度計算流程圖;圖6:本申請實施例四中的相似度計算系統硬件環境圖。
具體實施例方式為了使本申請所屬技術領域中的技術人員更清楚地理解本發明,下面結合附圖,通過具體實施例對本發明技術方案作詳細描述。請參考圖2、圖4,本申請實施例一種完善社區網絡的方法,包括如下步驟S201 :獲取網絡鏈接信息,社區網絡服務器的數據搜索系統,通過各搜索引擎,獲得網絡中各個包含各種信息的網絡鏈接信息;S203 :通過所述網絡鏈路信息,即可以得到與之相對應的網頁,除了與之向對應的網頁外,還可以包括訪問過所述網頁鏈接信息的用戶設置的標簽信息;S205 :提取用來表征所述網頁的至少一個關鍵詞,所提取的至少一個關鍵詞至少包含一個第一關鍵詞,用來與所述標簽信息相對應;所述關鍵詞還包含至少一個第二關鍵詞,所述至少一個第二關鍵詞與所述網頁內
容對應。在具體實施過程中,所述的第二關鍵詞可以通過如下步驟獲得搜集所述網頁中的關鍵詞信息,得到至少一個第三關鍵詞;對所述至少一個第三關鍵詞進行過濾處理,得到至少一個第四關鍵詞;利用所述至少一個第四關鍵詞,通過統計方法,對所述網頁特征進行分析,得到所述至少一個第二關鍵詞。假設經過上述三個步驟,如圖I所示,用來表征3個網頁A、B、C的關鍵字分別為A:列車脫軌B :開車時刻C :追尾事故基準網頁(記為S):動車深度11 ;事故深度14。在具體實施過程中,所述網頁的關鍵詞可以是多個,為了簡化計算,在本申請實施例中列舉采用兩個關鍵詞的形式。S207:將所述至少一個關鍵詞與基準關鍵詞進行相似度分析,得到所述網頁的特征信息,所述基準關鍵詞為所述社區網絡中已經有的基準網頁對應的關鍵詞;
對于獲得網頁的特征信息,在具體實施過程中,又分為如下兩步對所述至少一個關鍵詞和所述基準關鍵詞分別進行TF-IDF加權處理,并得到與所述至少一個關鍵詞和所述基準關鍵詞對應的多個向量;TF-IDF(Term Frequency-Inverse Document Frequency)是一種用于信息檢索的常用加權技術。它作為一種統計方法,用以評估一個字或詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF的基本原理為,在一份給定的文件中,詞頻(Term Frequency)指的是某一個目標詞1在該文件Dj中出現的次數ny,而為了避免長文件帶來的影響,TF經常需要被做歸一化處理,因此
權利要求
1.一種完善社區網絡的方法,其特征在于,包括 獲得網絡鏈接信息; 通過如所述網頁鏈接信息,獲得與所述網頁鏈接信息相對應的網頁,所述網頁包括訪問過所述網頁鏈接的用戶設置的標簽信息; 獲得用來表征所述網頁特征的至少一個關鍵詞,所述至少一個關鍵詞中的至少一個第一關鍵詞與所述標簽信息對應; 將所述至少一個關鍵詞與基準關鍵詞進行相似度分析,得到所述網頁的特征信息,所述基準關鍵詞為所述社區網絡中已經有的基準網頁對應的關鍵詞; 將所述至少一個關鍵詞與所述基準關鍵詞進行語義相似度分析,得到所述網頁的語義相似度值; 基于所述特征信息和所述語義相似度值,獲得所述網頁與所述基準網頁的第二網頁相似度值; 當所述第二網頁相似度值滿足一定條件時,將所述網頁加入到所述社區網絡中。
2.如權利要求I所述的方法,其特征在于,所述網頁還包括有網頁內容;所述至少一個關鍵詞還包括有至少一個第二關鍵詞,所述至少一個第二關鍵詞與所述網頁內容對應。
3.如權利要求I或2所述的方法,其特征在于,所述基于所述特征信息和所述語義相似度值,獲得所述網頁與所述基準網頁的第二網頁相似度值,具體包括 將所述語義相似度值引入到所述特征信息中,對所述特征信息進行一個補充,得到第一網頁相似度值; 對所述第一網頁相似度值進行聚類分析,得到所述第二網頁相似度值。
4.如權利要求2所述的方法,其特征在于,所述至少一個第二關鍵詞通過如下步驟獲得 搜集所述網頁中的關鍵詞信息,得到至少一個第三關鍵詞; 對所述至少一個第三關鍵詞進行過濾處理,得到至少一個第四關鍵詞; 利用所述至少一個第四關鍵詞,通過統計方法,對所述網頁特征進行分析,得到所述至少一個第二關鍵詞。
5.一種完善社區網絡的系統,其特征在于,包括 信息采集模塊用于獲得網絡鏈路信息,然后通過如所述網頁鏈接信息,獲得與所述網頁鏈接信息相對應的網頁,所述網頁包括訪問過所述網頁鏈接的用戶設置的標簽信息;關鍵詞提取模塊用于獲得用來表征所述網頁特征的至少一個關鍵詞,所述至少一個關鍵詞中的至少一個第一關鍵詞與所述標簽信息對應; 網頁特征信息獲取模塊用于將所述至少一個關鍵詞與基準關鍵詞進行相似度分析,得到所述網頁的特征信息,所述基準關鍵詞為所述社區網絡中已經有的基準網頁對應的關鍵詞; 語義相似度獲取模塊將所述至少一個關鍵詞與所述基準關鍵詞進行語義相似度分析,得到所述網頁的語義相似度值; 相似度分析模塊用于基于所述特征信息和所述語義相似度值,獲得所述網頁與所述基準網頁的第二網頁相似度值; 篩選模塊用于當所述第二網頁相似度值滿足一定條件時,將所述網頁加入到所述社區網絡中。
6.如權利要求5所述的系統,其特征在于,所述相似度分析模塊,具體包括 第一網頁相似度獲取模塊用于將所述語義相似度值引入到所述特征信息中,對所述特征信息進行一個補充,得到第一網頁相似度值; 第二網頁相似度獲取模塊用于對所述第一網頁相似度進行聚類分析,得到所述第二網頁相似度值。
7.—種網頁相似度計算方法,其特征在于,包括 提取用來表征網頁特征的至少一個關鍵詞,所述至少一個關鍵詞中的至少一個第一關鍵詞與所述網頁的標簽信息對應; 將所述至少一個關鍵詞與基準關鍵詞進行相似度分析,得到所述網頁的特征信息,所述基準關鍵詞為所述網絡社區中將要與所述網頁進行相似度比較的已經提取好關鍵詞的基準網頁對應的關鍵詞; 將所述至少一個關鍵詞與所述基準關鍵詞進行語義相似度分析,得到所述網頁的語義相似度值; 基于所述特征信息和所述語義相似度值,獲得所述網頁與所述基準網頁的第二網頁相似度值。
8.如權利要求7所述的方法,其特征在于,所述至少一個關鍵詞還包括有至少一個第二關鍵詞,所述至少一個第二關鍵詞與所述網頁內容對應。
9.如權利要求7或8所述的方法,其特征在于,所述基于所述特征信息和所述語義相似度值,獲得所述網頁與所述基準網頁的第二網頁相似度值,具體包括 將所述語義相似度值引入到所述特征信息中,對所述特征信息進行一個補充,得到第一網頁相似度值; 對所述第一網頁相似度進行聚類分析,得到所述第二網頁相似度值,即為所述網頁相似度。
10.一種網頁相似度計算系統,其特征在于,包括 關鍵字提取模塊用于獲得用來表征所述網頁特征的至少一個關鍵詞,所述至少一個關鍵詞中的至少一個第一關鍵詞與所述網頁的標簽信息對應; 網頁特征信息獲取模塊用于將所述至少一個關鍵詞與基準關鍵詞進行相似度分析,得到所述網頁的特征信息,所述基準關鍵詞為所述網絡社區中將要與所述網頁進行相似度比較的已經提取好關鍵詞的基準網頁對應的關鍵詞; 語義相似度獲取模塊將所述至少一個關鍵詞與所述基準關鍵詞進行語義相似度分析,得到所述網頁的語義相似度值; 相似度分析模塊用于基于所述特征信息和所述語義相似度值,獲得所述網頁與所述基準網頁的第二網頁相似度值。
11.如權利要求10所述的系統,其特征在于,所述相似度分析模塊,具體包括 第一網頁相似度獲取模塊用于將所述語義相似度值引入到所述特征信息中,對所述特征信息進行一個補充,得到第一網頁相似度值; 第二網頁相似度獲取模塊用于對所述第一網頁相似度進行聚類分析,得到所述第二網頁相似度值。
全文摘要
本申請公開了一種完善社區網絡的方法和系統以及網頁相似度計算方法和系統,網頁相似度的計算方法包括如下步驟提取用來表征網頁特征的至少一個關鍵詞,所述至少一個關鍵詞中的至少一個第一關鍵詞與所述網頁的標簽信息對應;將所述至少一個關鍵詞與基準關鍵詞進行相似度分析,得到所述網頁的特征信息,所述基準關鍵詞為所述網絡社區中將要與所述網頁進行相似度比較的已經提取好關鍵詞的基準網頁對應的關鍵詞;將所述至少一個關鍵詞與所述基準關鍵詞進行語義相似度分析,得到所述網頁的語義相似度值;基于所述特征信息和所述語義相似度值,獲得所述網頁與所述基準網頁的第二網頁相似度值。
文檔編號G06F17/30GK102929889SQ20111022979
公開日2013年2月13日 申請日期2011年8月11日 優先權日2011年8月11日
發明者高燕, 傅力, 張震瑋, 張巖, 孔亮, 黃叢蕊 申請人:中興通訊股份有限公司