專利名稱:通用型垂直搜索引擎的搜索規則模型建模方法
技術領域:
本發明公開一種基于通用型垂直搜索引擎的搜索規則模型建模方法。
二.
背景技術:
諸多文獻都將垂直搜索定義為面向某單一應用或某單一功能的搜索技術。現實 中的垂直搜索產品和門戶網站正是按照此定義布局,或房產信息搜索門戶、或博客信息 搜索門戶、或音樂信息搜索門戶、或專利信息搜索門戶,凡此種種,莫不如是。產生如 此現象,皆因垂直搜索的互聯網信息明顯的行業應用特性、功能應用特性和結構特性使 然。亦即是說,由于垂直搜索所面對的互聯網信息具有明顯的行業應用特征、功能應用 特征和結構特征,這些千差萬別的信息特征導致垂直搜索門戶具有明顯的單一的行業性 或功能性。其實,垂直搜索引擎的核心模塊-數據爬行模塊spider本身可作為通用的技術, 并無嚴格的行業應用或功能應用的界限。一個好的數據爬行軟件原則上是可以針對任何 網頁、任何行業信息完成數據抓取任務的。由此看來,導致垂直搜索技術僅被應用于某 個單一的行業或功能門戶的現狀,其根源并不在于數據爬行軟件spider這一垂直搜索的核 心技術本身,而是來自于該核心技術以外的因素。因此,要像google、百度那樣構建一 個通用的垂直搜索平臺,數據爬行軟件spider這一垂直搜索的核心技術本身是具備此基礎 的。問題在于如何圍繞具備通用能力的數據爬行軟件構建起具有通用能力的外圍體系, 才是實現通用型垂直搜索引擎的關鍵。構建起與通用型數據爬行軟件spider相匹配,并 且具備通用能力的搜索規則模型,就是該體系研究的重要課題之一。
三.
發明內容
本發明的目的在于提供一種通用型垂直搜索引擎的搜索規則模型建模方法,該 方法用于通用的垂直搜索體系中,描述數據爬行軟件spider在抓取網頁數據時所依據的各 種指示信息,使之具備通用型垂直搜索引擎所需要的各種網頁結構和各種網頁數據的抓 取能力。本發明的技術方案是本發明通用型垂直搜索引擎的搜索規則模型建模方法,垂直搜索核心模塊Spider 1訪問搜索規則控制模型2實現不同結構網頁中不同結構的網頁數據的抓取控制,搜索規 則控制模型2由網頁鏈接庫21、搜索規則庫22、搜索規則控制模型庫23和網頁數據存儲 結構對照表24構成。其中網頁鏈接庫21存儲有系統所有被搜索的網頁對象的URL描述信息,該URL描 述信息告知垂直搜索核心模塊Spider 1需要打開的網頁,以及該網頁所對應的行業分類、 應用分類和數據分類信息;搜索規則庫 22存儲有網頁搜索控制所需的動作規范指示信息,垂直搜索核心模 塊Spiderl依據其實現網頁打開控制、系統登錄控制、初始位置定位控制、識別抓取對象所需的特征描述、網頁數據的結構分解處理、抓取數據的轉換/存儲處理、抓取結構數 據的數量控制、網頁翻頁控制等動作;搜索規則控制模型庫23存儲有與搜索規則庫22配套的輔助參數信息,包括系統 登錄所需的用戶名和密碼信息、網頁驗證碼解讀方法和解析程序代碼、網頁搜索相關的 控件的模擬驅動方法和驅動程序代碼、網頁翻頁控件的模擬驅動方法和專用的模擬驅動 程序代碼等;網頁數據-存儲結構對照表24存儲有垂直搜索核心模塊Spi der 1在抓取網頁數 據后的存儲動作描述信息。本發明的顯著效果是本發明搜索規則模型建模方法解決了一個模型中同時涵蓋不同結構的網頁、不 同結構的網頁數據搜索規則描述問題。本發明使垂直搜索引擎能夠順利完成不同網頁的 訪問控制和不同結構的網頁數據抓取動作,從而實現垂直搜索引擎的多行業應用的通用 性目的。
四.
圖1為本發明通用型垂直搜索引擎的搜索規則模型建模方法示意圖。其中1 =垂直搜索核心組件Spider2=搜索規則控制模型21=網頁鏈接庫22=搜索規則庫23 =搜索規則控制模型庫24 =網頁數據_存儲結構對照表圖2為本發明通用型垂直搜索引擎建模方法的搜索規則模型的網頁鏈接庫的結 構舉例。圖3為本發明通用型垂直搜索引擎建模方法的搜索規則模型的搜索規則庫的結 構舉例。圖4為本發明通用型垂直搜索引擎建模方法的搜索規則模型的搜索規則控制模 型庫的結構舉例。圖5為本發明通用型垂直搜索引擎建模方法的搜索規則模型的網頁數據-存儲結 構對照表的結構舉例。
五.
具體實施例方式實施例1參見圖2。本實施例說明本發明通用型垂直搜索引擎建模方法的搜索規則模型中 網頁鏈接庫的結構21舉例。實施例2參見圖3。本實施例說明本發明通用型垂直搜索引擎建模方法的搜索規則模型中 搜索規則庫22的結構舉例。實施例3
參見圖4。本實施例說明本發明通用型垂直搜索引擎建模方法的搜索規則模型中 搜索規則控制模型庫23的結構舉例。實施例4參見圖5。本實施例說明本發明通用型垂直搜索引擎建模方法的搜索規則模型中 網頁數據_存儲結構對照表24的結構舉例。
權利要求
1.通用型垂直搜索引擎的搜索規則模型建模方法,垂直搜索核心模塊Spider(I)訪問 搜索規則控制模型(2)實現不同結構網頁中不同結構的網頁數據的抓取控制,搜索規則 控制模型(2)由網頁鏈接庫(21)、搜索規則庫(22)、搜索規則控制模型庫(23)和網頁數 據_存儲結構對照表(24)構成。其中網頁鏈接庫(21)存儲有系統所有被搜索的網頁對象的URL描述信息,該URL描述 信息告知垂直搜索核心模塊Spider(I)需要打開的網頁,以及該網頁所對應的行業分類、 應用分類和數據分類信息;搜索規則庫(22)存儲有網頁搜索控制所需的動作規范指示信息,垂直搜索核心模塊 Spider(I)依據其實現網頁打開控制、系統登錄控制、初始位置定位控制、識別抓取對象 所需的特征描述、網頁數據的結構分解處理、抓取數據的轉換/存儲處理、抓取結構數 據的數量控制、網頁翻頁控制等動作;搜索規則控制模型庫(23)存儲有與搜索規則庫(22)配套的輔助參數信息,包括系統 登錄所需的用戶名和密碼信息、網頁驗證碼解讀方法和解析程序代碼、網頁搜索相關的 控件的模擬驅動方法和驅動程序代碼、網頁翻頁控件的模擬驅動方法和專用的模擬驅動 程序代碼等;網頁數據-存儲結構對照表(24)存儲有垂直搜索核心模塊Spider(I)在抓取網頁數據 后的存儲動作描述信息。
全文摘要
通用型垂直搜索引擎的搜索規則模型建模方法,垂直搜索核心模塊Spider(1)訪問搜索規則控制模型(2)實現不同結構網頁中不同結構的網頁數據的抓取控制,搜索規則控制模型(2)由網頁鏈接庫(21)、搜索規則庫(22)、搜索規則控制模型庫(23)和網頁數據-存儲結構對照表(24)構成。本發明搜索規則模型建模方法解決了一個模型中同時涵蓋不同結構的網頁、不同結構的網頁數據搜索規則描述問題。本發明使垂直搜索引擎能夠順利完成不同網頁的訪問控制和不同結構的網頁數據抓取動作,從而實現垂直搜索引擎的多行業應用的通用性目的。
文檔編號G06F17/30GK102012923SQ20101056448
公開日2011年4月13日 申請日期2010年11月30日 優先權日2010年11月30日
發明者劉學明, 張康, 錢宇 申請人:無錫快度信息技術有限公司