通用型垂直搜索引擎的搜索規則模型建模方法

文檔序號：6337022閱讀：293來源：國知局

專利名稱：通用型垂直搜索引擎的搜索規則模型建模方法
技術領域：
本發明公開一種基于通用型垂直搜索引擎的搜索規則模型建模方法。
二.
背景技術：
諸多文獻都將垂直搜索定義為面向某單一應用或某單一功能的搜索技術。現實中的垂直搜索產品和門戶網站正是按照此定義布局，或房產信息搜索門戶、或博客信息搜索門戶、或音樂信息搜索門戶、或專利信息搜索門戶，凡此種種，莫不如是。產生如此現象，皆因垂直搜索的互聯網信息明顯的行業應用特性、功能應用特性和結構特性使然。亦即是說，由于垂直搜索所面對的互聯網信息具有明顯的行業應用特征、功能應用特征和結構特征，這些千差萬別的信息特征導致垂直搜索門戶具有明顯的單一的行業性或功能性。其實，垂直搜索引擎的核心模塊-數據爬行模塊spider本身可作為通用的技術，并無嚴格的行業應用或功能應用的界限。一個好的數據爬行軟件原則上是可以針對任何網頁、任何行業信息完成數據抓取任務的。由此看來，導致垂直搜索技術僅被應用于某個單一的行業或功能門戶的現狀，其根源并不在于數據爬行軟件spider這一垂直搜索的核心技術本身，而是來自于該核心技術以外的因素。因此，要像google、百度那樣構建一個通用的垂直搜索平臺，數據爬行軟件spider這一垂直搜索的核心技術本身是具備此基礎的。問題在于如何圍繞具備通用能力的數據爬行軟件構建起具有通用能力的外圍體系，才是實現通用型垂直搜索引擎的關鍵。構建起與通用型數據爬行軟件spider相匹配，并且具備通用能力的搜索規則模型，就是該體系研究的重要課題之一。
三.

發明內容
本發明的目的在于提供一種通用型垂直搜索引擎的搜索規則模型建模方法，該方法用于通用的垂直搜索體系中，描述數據爬行軟件spider在抓取網頁數據時所依據的各種指示信息，使之具備通用型垂直搜索引擎所需要的各種網頁結構和各種網頁數據的抓取能力。本發明的技術方案是本發明通用型垂直搜索引擎的搜索規則模型建模方法，垂直搜索核心模塊Spider 1訪問搜索規則控制模型2實現不同結構網頁中不同結構的網頁數據的抓取控制，搜索規則控制模型2由網頁鏈接庫21、搜索規則庫22、搜索規則控制模型庫23和網頁數據存儲結構對照表24構成。其中網頁鏈接庫21存儲有系統所有被搜索的網頁對象的URL描述信息，該URL描述信息告知垂直搜索核心模塊Spider 1需要打開的網頁，以及該網頁所對應的行業分類、應用分類和數據分類信息；搜索規則庫 22存儲有網頁搜索控制所需的動作規范指示信息，垂直搜索核心模塊Spiderl依據其實現網頁打開控制、系統登錄控制、初始位置定位控制、識別抓取對象所需的特征描述、網頁數據的結構分解處理、抓取數據的轉換/存儲處理、抓取結構數據的數量控制、網頁翻頁控制等動作；搜索規則控制模型庫23存儲有與搜索規則庫22配套的輔助參數信息，包括系統登錄所需的用戶名和密碼信息、網頁驗證碼解讀方法和解析程序代碼、網頁搜索相關的控件的模擬驅動方法和驅動程序代碼、網頁翻頁控件的模擬驅動方法和專用的模擬驅動程序代碼等；網頁數據-存儲結構對照表24存儲有垂直搜索核心模塊Spi der 1在抓取網頁數據后的存儲動作描述信息。本發明的顯著效果是本發明搜索規則模型建模方法解決了一個模型中同時涵蓋不同結構的網頁、不同結構的網頁數據搜索規則描述問題。本發明使垂直搜索引擎能夠順利完成不同網頁的訪問控制和不同結構的網頁數據抓取動作，從而實現垂直搜索引擎的多行業應用的通用性目的。
四.

圖1為本發明通用型垂直搜索引擎的搜索規則模型建模方法示意圖。其中1 =垂直搜索核心組件Spider2=搜索規則控制模型21=網頁鏈接庫22=搜索規則庫23 =搜索規則控制模型庫24 =網頁數據_存儲結構對照表圖2為本發明通用型垂直搜索引擎建模方法的搜索規則模型的網頁鏈接庫的結構舉例。圖3為本發明通用型垂直搜索引擎建模方法的搜索規則模型的搜索規則庫的結構舉例。圖4為本發明通用型垂直搜索引擎建模方法的搜索規則模型的搜索規則控制模型庫的結構舉例。圖5為本發明通用型垂直搜索引擎建模方法的搜索規則模型的網頁數據-存儲結構對照表的結構舉例。
五.
具體實施例方式實施例1參見圖2。本實施例說明本發明通用型垂直搜索引擎建模方法的搜索規則模型中網頁鏈接庫的結構21舉例。實施例2參見圖3。本實施例說明本發明通用型垂直搜索引擎建模方法的搜索規則模型中搜索規則庫22的結構舉例。實施例3
參見圖4。本實施例說明本發明通用型垂直搜索引擎建模方法的搜索規則模型中搜索規則控制模型庫23的結構舉例。實施例4參見圖5。本實施例說明本發明通用型垂直搜索引擎建模方法的搜索規則模型中網頁數據_存儲結構對照表24的結構舉例。
權利要求
1.通用型垂直搜索引擎的搜索規則模型建模方法，垂直搜索核心模塊Spider(I)訪問搜索規則控制模型(2)實現不同結構網頁中不同結構的網頁數據的抓取控制，搜索規則控制模型(2)由網頁鏈接庫(21)、搜索規則庫(22)、搜索規則控制模型庫(23)和網頁數據_存儲結構對照表(24)構成。其中網頁鏈接庫(21)存儲有系統所有被搜索的網頁對象的URL描述信息，該URL描述信息告知垂直搜索核心模塊Spider(I)需要打開的網頁，以及該網頁所對應的行業分類、應用分類和數據分類信息；搜索規則庫(22)存儲有網頁搜索控制所需的動作規范指示信息，垂直搜索核心模塊 Spider(I)依據其實現網頁打開控制、系統登錄控制、初始位置定位控制、識別抓取對象所需的特征描述、網頁數據的結構分解處理、抓取數據的轉換/存儲處理、抓取結構數據的數量控制、網頁翻頁控制等動作；搜索規則控制模型庫(23)存儲有與搜索規則庫(22)配套的輔助參數信息，包括系統登錄所需的用戶名和密碼信息、網頁驗證碼解讀方法和解析程序代碼、網頁搜索相關的控件的模擬驅動方法和驅動程序代碼、網頁翻頁控件的模擬驅動方法和專用的模擬驅動程序代碼等；網頁數據-存儲結構對照表(24)存儲有垂直搜索核心模塊Spider(I)在抓取網頁數據后的存儲動作描述信息。
全文摘要
通用型垂直搜索引擎的搜索規則模型建模方法，垂直搜索核心模塊Spider(1)訪問搜索規則控制模型(2)實現不同結構網頁中不同結構的網頁數據的抓取控制，搜索規則控制模型(2)由網頁鏈接庫(21)、搜索規則庫(22)、搜索規則控制模型庫(23)和網頁數據-存儲結構對照表(24)構成。本發明搜索規則模型建模方法解決了一個模型中同時涵蓋不同結構的網頁、不同結構的網頁數據搜索規則描述問題。本發明使垂直搜索引擎能夠順利完成不同網頁的訪問控制和不同結構的網頁數據抓取動作，從而實現垂直搜索引擎的多行業應用的通用性目的。
文檔編號G06F17/30GK102012923SQ20101056448
公開日2011年4月13日申請日期2010年11月30日優先權日2010年11月30日
發明者劉學明, 張康, 錢宇申請人:無錫快度信息技術有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：劉學明;錢宇;張康
技術所有人：無錫快度信息技術有限公司
我是此專利的發明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！