專利名稱:基于錨文本的聚焦網絡爬蟲搜索方法及其系統的制作方法
技術領域:
本發明涉及一種爬蟲搜索方法及其系統,尤其涉及一種聚焦網絡爬蟲搜索方法及其系統。
背景技術:
當前,網絡越來越成為人們獲取信息的主要渠道,傳統搜索引擎已經不能完全滿足人們的需求。隨著人工智能技術的進一步成熟和信息服務的多樣化,搜索引擎技術正向智能化、個性化、領域化方向發展。垂直搜索引擎是面向特定領域的專業搜索引擎,旨在縮小搜索的總范圍,從而獲得更高的搜索精度,并提高搜索引擎對于網絡資源的跟蹤能力。作為垂直搜索引擎的核心部分,聚焦網絡爬蟲擔任了從^ternet收集和更新信息的重要任務。與傳統的廣度優先的爬蟲相比,主題爬蟲最重要的特點就是采用了不同的優先級計算方法,有選擇地爬行符合特定主題的網頁。現有的大部分主題爬蟲是采用基于向量空間模型VSM(Vector Space Model)和詞步頁-逆文檔步頁率 TF-IDF (Term Frequency-Inverse Document Frequency)或其改進算法來指導爬行。由于TF-IDF本質上是一種嚴格的字符串匹配算法,無法處理字符意義層面上的近似,因此很多文獻都通過查詢擴展來增加主題包含的關鍵詞范圍來解決“隧道貫穿” 的問題。潛在語義索引LSKLatent Semantic Indexing)算法利用線性代數中的奇異值分解來處理潛在語義的問題,但目前LSI在垂直爬行算法中被研究較少。我們認為網絡上的超鏈接錨文本與主題網頁正文文本之間存在某種潛在語義關系,因此LSI算法在指導主題爬蟲爬行方面應該具有更優越的性能。因此,本發明結合TF-IDF和LSI兩者的優勢,將 TF-IDF+LSI算法應用于主題相關度計算提出了基于錨文本的聚焦網絡爬蟲搜索方法及其系統。
發明內容
本發明提出了基于錨文本的聚焦網絡爬蟲搜索方法及其系統,以解決現有技術中主題相關度算法存在的以下技術問題現有的廣度優先算法指導的爬蟲其積累主題相關度雖然能穩定增長,但增長速度緩慢;TD-IDF指導的爬蟲雖然在爬行啟動階段有很高的性能,但在爬行了大約20個頁面后其積累的主題相關度不再增長;LSI指導的爬蟲雖然具有穿越隧道的能力,但是在爬行開始時速度較慢。為解決上述技術問題,本發明所述的基于錨文本的聚焦網絡爬蟲搜索方法包括以下步驟(1. 1)網絡爬蟲下載器從URL優先級隊列中獲取URL,并依據URL從hternet下載Web頁面;(1. 2)使用URL解析器對下載的Web頁面進行解析,提取出URL及其錨文本;(1. 3)使用URL篩選器對提取出的URL及其錨文本進行篩選;
(1.4)主題相關性判斷器采用詞頻-逆文檔頻率TF-IDF與潛在語義索引LSI相結合的算法對篩選出的URL計算其主題相關度,并將符合條件的URL放入優先級隊列中;(1. 5)重復執行步驟(1. 1)到(1. 4),直到達到停止條件為止。本發明所述的基于錨文本的聚焦網絡爬蟲系統包括URL優先級隊列、網絡爬蟲下載器、Web頁面庫、URL解析器、URL篩選器以及主題相關性判斷器,其中,網絡爬蟲下載器與URL優先級隊列相連,用于從URL優先級隊列中獲取URL,依據 URL從hternet下載Web頁面,并將下載的Web頁面存入Web頁面庫中;URL解析器用于對Web頁面庫中下載的Web頁面進行解析,提取URL及其錨文本;URL篩選器用于對提取出的URL及其錨文本進行篩選;主題相關性判斷器用于采用詞頻-逆文檔頻率TF-IDF與潛在語義索引LSI相結合的算法對URL篩選器篩選出的URL計算其主題相關度,并將符合條件的URL放入優先級隊列中。本發明的有益效果是本發明所構建的聚焦網絡爬蟲搜索方法及其系統與一般的爬蟲搜索方法及其系統相比,能更好地滿足特定用戶對于特定領域資源的準確、全面、高效的信息搜集需求。
圖1是本發明所述的搜索方法流程圖。圖2是本發明中的主題相關度計算方法的流程圖。圖3是本發明所述的系統框架示意圖。
具體實施例方式為使本發明的目的、技術方案和優點更加清楚明白,以下結合具體實施例,并參照附圖,對本發明進一步詳細說明。圖1為本發明所述的基于錨文本的聚焦網絡爬蟲搜索方法流程圖。該方法包括以下步驟步驟1 網絡爬蟲下載器從URL優先級隊列中獲取URL,并依據URL從hternet下載得到Web頁面,并將其放入Web頁面庫中,其中,Web頁面庫用于存放下載的Web頁面URL優先級隊列分為URL主要優先級隊列和URL備用優先級隊列;當系統啟動時, 主要優先級隊列中存放的是用戶指定的種子URL,備用優先級隊列為空;下載器從URL優先級隊列中獲取URL時,按主題相關度從大到小的順序,先依次取出主要優先級隊列中的 URL,當主要優先級隊列為空時則取出備用優先級隊列中的URL。步驟2 使用URL解析器對下載的Web頁面進行解析,提取URL及其錨文本;步驟3 若提取出的URL已經被訪問過,則轉向步驟1 ;若提取出的URL未被訪問過,則繼續步驟4;步驟4 構建領域知識庫,URL篩選器根據該領域知識庫判斷URL及其錨文本是否與主題相關。領域知識庫包括頁面導航詞匯、專有詞匯和禁用詞匯。URL篩選器的工作過程如下(1)如果URL中包含頁面導航詞匯,如“indeX”、“list”、“l0ad”等,說明此頁面為導航頁面或登錄頁面,頁面不具有主題相關性;(2)如果錨文本內含有規定的禁用詞匯,如包含反動意義的詞匯和淫穢詞匯等,則說明此頁面為非法頁面,不具有主題相關性;(3)如果錨文本中含有知識庫中的專有詞匯(由用戶根據需下載的網頁內容所涉及的領域確定),則頁面具有主題相關性。通過URL篩選器將與主題相關的URL及其錨文本提交給主題相關性判斷器;與主題無關的則舍棄,返回步驟3。步驟5 在主題相關性判斷器中分別利用TF-IDF算法和LSI算法計算URL的主題相關度,并將符合條件的URL分別放入相應的優先級隊列中。如圖2所示,在主題相關性判斷器中,主題相關度計算方法流程為首先,對與主題相關的URL所對應的錨文本進行TF-IDF主題相關度計算。在向量空間模型中,錨文本和關鍵詞集合被表示為向量,向量由一系列特征權重組成,特征空間維數對應所有錨文本和關鍵詞中不同術語的數量。錨文本向量表示為dj = (W1, J,w2, J,-,wmjJ)(1)關鍵詞向量表示為q = (W1, q, w2jq, -,wn,q)(2)式(1)“2)中,j表示錨文本的個數,m表示錨文本中術語的個數,η表示關鍵詞中術語的個數,Wnbj表示錨文本…的第m個術語的權重,^tl表示關鍵詞q的第η個術語的權重。本發明中采用TF-IDF算法來進行主題相關度計算,錨文本…的主題相關度計算公式如下
mNWj =Xitf1* log(—))(3 )
!=1dJ1式(3)中,tfi為術語(項)頻率,是術語i在某一文檔中出現的次數;N為文檔集大小,是文檔集包含的文檔的數目;Clfi為術語的文檔頻率,是包含了術語i的文檔的總個數。其次,對采用TF-IDF公式(3)計算出的主題相關度Wj與閾值1進行比較。若計算出的主題相關度大于預先設定的閾值1,則將對應的URL根據主題相關度的大小放入主要優先級隊列中的相應位置;否則,對所述與主題相關的URL所對應的錨文本進行LSI主題相關度的計算。LSI主題相關度計算的步驟如下(1)以術語為行,錨文本為列形成矩陣X,共t行d列,矩陣的元素為術語在錨文本中的出現頻度或其他權重值。將該矩陣進行奇異值分解,如公式(4)所示。X = T0S0D0'(4)式中,Ttl和Dtl分別是左奇異矩陣和右奇異矩陣,&是奇異值的對角矩陣,其中&由正值組成且遞減排列。(2)把矩陣& (mXm)的m個對角線元素的前k個保留,后m_k個置0,得到近似分解,如公式(5)所示。X為在最小二乘意義下對X的最佳近似,其中k依據實際問題要求進行平衡選擇。
X = TSD'(5)從&中刪除“0”行和“0”列獲取一個新的對角矩陣S,然后分別從Ttl和Dtl中刪除相應的行和列來獲取τ和D。(3)進行關鍵詞、錨文本之間相關度計算。比較關鍵詞與錨文本的相關度時,先求解關鍵詞術語向量q在降維空間上的向量表示\,如下公式(6) (7)所示。
權利要求
1.一種基于錨文本的聚焦網絡爬蟲搜索方法,其特征在于,該方法包括以下步驟(1. 1)網絡爬蟲下載器從URL優先級隊列中獲取URL,并依據URL從hternet下載Wfeb 頁面;(1. 2)使用URL解析器對下載的Web頁面進行解析,提取出URL及其錨文本;(1. 3)使用URL篩選器對提取出的URL及其錨文本進行篩選;(1.4)主題相關性判斷器采用詞頻-逆文檔頻率TF-IDF與潛在語義索引LSI相結合的算法對篩選出的URL計算其主題相關度,并將符合條件的URL放入優先級隊列中;(1.5)重復執行步驟(1.1)到(1.4),直到達到停止條件為止。
2.根據權利要求1所述的基于錨文本的聚焦網絡爬蟲搜索方法,其特征在于,步驟 (1. 1)中的所述URL優先級隊列分為URL主要優先級隊列和URL備用優先級隊列;所述方法開始時,所述URL主要優先級隊列中存放的是用戶指定的種子URL,所述URL備用優先級隊列為空;所述網絡爬蟲下載器從所述URL優先級隊列中獲取URL時,按主題相關度從大到小的順序,先依次取出所述URL主要優先級隊列中的URL,當所述URL主要優先級隊列為空時再取出所述URL備用優先級隊列中的URL。
3.根據權利要求1所述的基于錨文本的聚焦網絡爬蟲搜索方法,其特征在于,步驟 (1. 3)中使用URL篩選器對提取出的URL及其錨文本進行篩選具體為根據URL及其錨文本是否與主題相關來對其進行篩選。
4.根據權利要求3所述的基于錨文本的聚焦網絡爬蟲搜索方法,其特征在于,根據URL 及其錨文本是否與主題相關來對其進行篩選包括以下步驟(4. 1)構建領域知識庫,所述領域知識庫包括頁面導航詞匯、專有詞匯和禁用詞匯;(4. 2)根據領域知識庫所包含的詞匯判斷所述URL及其錨文本是否與主題相關。
5.根據權利要求4所述的基于錨文本的聚焦網絡爬蟲搜索方法,其特征在于,根據領域知識庫所包含的詞匯判斷所述URL及其錨文本是否與主題相關具體為(5. 1)如果URL中包含有領域知識庫中的頁面導航詞匯,則說明此頁面為導航頁面或登錄頁面,頁面不具有主題相關性;(5. 2)如果錨文本內含有領域知識庫中的禁用詞匯,則說明此頁面為非法頁面,不具有主題相關性;(5. 3)如果錨文本中含有領域知識庫中的專有詞匯,則頁面具有主題相關性。
6.根據權利要求2所述的基于錨文本的聚焦網絡爬蟲搜索方法,其特征在于,步驟 (1.4)包括以下步驟(6. 1)對與主題相關的URL所對應的錨文本進行TF-IDF主題相關度計算,并將主題相關度大于閾值1的URL按其相關度大小依次加入到所述URL主要優先級隊列中,相關度大的排在前面;(6. 2)然后將其余的URL所對應的錨文本使用L SI算法進行主題相關度計算,并將主題相關度高于閾值2的URL按其相關度大小加入到所述URL備用優先級隊列中,相關度大的排在前面,并舍棄主題相關度不高于閾值2的URL。
7.根據權利要求1所述的基于錨文本的聚焦網絡爬蟲搜索方法,其特征在于,步驟 (1. 5)中的停止條件為所下載的Web頁面數量達到設定的閾值3。
8.一種基于錨文本的聚焦網絡爬蟲系統,其特征在于,該系統包括URL優先級隊列、 網絡爬蟲下載器、Web頁面庫、URL解析器、URL篩選器以及主題相關性判斷器,其中,網絡爬蟲下載器與URL優先級隊列相連,用于從URL優先級隊列中獲取URL,依據URL 從hternet下載Web頁面,并將下載的Web頁面存入Web頁面庫中;URL解析器用于對Web頁面庫中下載的Web頁面進行解析,提取URL及其錨文本;URL篩選器用于對提取出的URL及其錨文本進行篩選;主題相關性判斷器用于采用詞頻-逆文檔頻率TF-IDF與潛在語義索引LSI相結合的算法對URL篩選器篩選出的URL計算其主題相關度,并將符合條件的URL放入優先級隊列中。
9.根據權利要求8所述的基于錨文本的聚焦網絡爬蟲系統,其特征在于,該系統還包括領域知識庫,所述領域知識庫包括頁面導航詞匯、專有詞匯和禁用詞匯,其中,URL篩選器根據領域知識庫中所包含的詞匯對于提取出的URL及其錨文本進行是否與主題相關的判斷以及篩選。
10.根據權利要求8所述的基于錨文本的聚焦網絡爬蟲系統,其特征在于,所述URL優先級隊列分為URL主要優先級隊列和URL備用優先級隊列,其中,當系統啟動時,所述URL主要優先級隊列中存放的是用戶指定的種子URL,所述URL備用優先級隊列為空;所述網絡爬蟲下載器從所述URL優先級隊列中獲取URL時,按主題相關度從大到小的順序,先依次取出所述URL主要優先級隊列中的URL,當所述URL主要優先級隊列為空時則取出所述URL備用優先級隊列中的URL ;主題相關性判斷器將符合TF-IDF主題相關度條件的URL放入所述URL主要優先級隊列中,將符合LSI主題相關度條件的URL放入所述URL備用優先級隊列中。
全文摘要
本發明公開了一種基于錨文本的聚焦網絡爬蟲搜索方法及其系統,所述方法主要包括從URL優先級隊列中獲取URL,并依據URL從Internet下載得到Web頁面;對下載的Web頁面進行解析,提取URL及其錨文本;對提取出的URL及其錨文本進行篩選;采用TF-IDF與LSI相結合的算法來計算URL的主題相關度,并將符合條件的URL放入優先級隊列中;所述系統包括URL優先級隊列、網絡爬蟲下載器、Web頁面庫、URL解析器、URL篩選器以及主題相關性判斷器。通過采用所述基于錨文本的聚焦網絡爬蟲搜索方法及其系統,本發明提高了聚焦網絡爬蟲爬行結果的主題相關度及爬行效率。
文檔編號G06F17/30GK102298622SQ201110230220
公開日2011年12月28日 申請日期2011年8月11日 優先權日2011年8月11日
發明者臺憲青, 殷緒成, 王艷軍, 郝紅衛 申請人:中國科學院自動化研究所