專利名稱:基于軟件機器人排除標準的互聯網信息搜索引擎及方法
技術領域:
本發明涉及計算機網絡技術,特別是涉及一種基于軟件機器人排除標準的互聯網信息搜索引擎技術。
背景技術:
隨著互聯網(Internet)的迅猛發展、網頁(Web)信息的增加,用戶要在信息海洋里查找信息,就像大海撈針一樣,搜索引擎技術恰好解決了這一難題(它可以為用戶提供信息檢索服務)。目前,搜索引擎技術正成為計算機工業界和學術界爭相研究、開發的對象。搜索引擎(Search Engine)是隨著Web信息的迅速增加,從1995年開始逐漸發展起來的技術。2006年1月17日,中國互聯網絡信息中心(CNNIC)發布了第17次《中國互聯網絡發展狀況統計報告》。報告顯示截止到2005年12月31日,我國CN下注冊的域名數為109.7萬個,與1年前相比增加66.5萬個,增長率為154%,我國CN下注冊的域名數的增長進一步說明了我國互聯網產業正在快速發展。我國的互聯網只是全球互聯網的一部分,由此可見全球互聯網的站點更是眾多。用戶要在如此浩瀚的信息海洋里尋找信息,必然如同大海撈針而無功而返。搜索引擎正是為了解決這個“迷航”問題而出現的技術。搜索引擎以一定的策略在互聯網中搜集、發現信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務,從而起到信息導航的目的。搜索引擎提供的導航服務已經成為互聯網上非常重要的網絡服務,搜索引擎站點也被美譽為網絡門戶。搜索引擎技術因而成為計算機工業界和學術界爭相研究、開發的對象。搜索引擎(Search Engines)是一個對互聯網上的信息資源進行搜集整理,然后供用戶查詢的系統,它包括信息搜集、信息整理、用戶查詢三部分。搜索引擎是一個為用戶提供信息檢索服務的網站,它使用某些程序把互聯網上的所有信息歸類以幫助人們在茫茫網海中搜尋到所需要的信息。
隨著互聯網的極度膨脹,人們越來越依賴于各種搜索引擎查找信息。但是,它們的可信賴度到底有多大呢?根據專家的評測,目前主要的搜索引擎返回的相關結果的比率不足45%,而且由于機制、范圍、算法等的不同,導致同樣一個檢索請求在不同搜索引擎中的查詢結果的重復率不足34%。因此,要想獲得一個比較全面、準確的結果,就必須反復調用多個搜索引擎。本發明元搜索引擎的出現,在一定程度上解決了這些問題。
發明內容
針對上述現有技術中存在的缺陷,本發明所要解決的技術問題是提供一種能提高網絡線路和設備資源的使用率,更精確地收集信息的,能在有限的搜索來源中獲得更多、更精確的信息的,能縮短信息采集、傳輸、整理的時間并有效的減少占用的帶寬,減少用戶的等待時間的,具有負載自適應處理功能的基于軟件機器人排除標準的互聯網信息搜索引擎及方法。
為了解決上述技術問題,本發明所提供的一種基于軟件機器人排除標準的互聯網信息搜索引擎,包括一中文引擎模塊,收錄中文最權威的網站,并支持英文搜索;一并行頁面請求引擎模塊,連接中文引擎模塊;一智能頁面分析引擎模塊,分別連接中文引擎模塊和并行頁面請求引擎模塊的輸出端;一客戶請求端,分別連接智能頁面分析引擎模塊和并行頁面請求引擎模塊的輸入端;一提交客戶端,連接智能頁面分析引擎模塊的輸出端;客戶請求端輸入的客戶請求,分別經并行頁面請求引擎模塊的軟件機器人在網上搜索和智能頁面分析引擎模塊對搜索信息的分類整理、結果處理,其搜索結果由提交客戶端提交給客戶。
進一步地,所述智能頁面分析引擎模塊設有輸入端比如用戶輸入的是“計算機”,引擎會自動到數據字典中找到該字的上下游詞,比如會得到詞“電腦”、“微機”、“computer”、“PC”等詞;噪音過濾對用戶輸入的信息自動分類處理;解釋端從反饋回來的頁面自動找出相關的詞,計入相關度中;對對方的引擎的調整自動適應因為原始引擎可能因為技術調整、其他因素改動頁面,而造成頁面解析不成功;本引擎能夠自動調整處理。
為了解決上述技術問題,本發明所提供的一種基于軟件機器人排除標準的互聯網信息搜索方法的步驟包括1)用戶在客戶請求端提交一個查詢請求,并傳至并行頁面請求引擎模塊,由并行頁面請求引擎模塊派出“網頁搜索程序”(網上機器人)在網上搜尋所有信息,將查詢請求通過Socket連接,分配給選定的那些搜索引擎,那些搜索引擎收到查詢請求,從各自的數據庫中搜索相關數據,再把搜索信息由“網頁搜索程序”帶回搜索引擎的并行頁面請求引擎模塊;2)由并行頁面請求引擎模塊將搜索信息傳至智能頁面分析引擎模塊,由智能頁面分析引擎模塊將搜索信息進行分類整理,結果處理,即對各條記錄進行總結,去掉相同的和多余的,這中間過程要對搜索信息進行權重設定并排序(Rank);3)由智能頁面分析引擎模塊將處理后的搜索結果傳至提交客戶端,由提交客戶端通過Web服務器端軟件,以統一的頁面格式為用戶提供瀏覽器界面下的信息查詢。
進一步地,在由并行頁面請求引擎模塊派出“網頁搜索程序”在網上搜尋的步驟1)中,機器人尋找WWW文檔的算法
a.由網上機器人獲取在Internet上的信息;b.機器人尋找WWW文檔的算法包括有深度優先和廣度優先兩種基本的搜索策略;c.機器人排斥標準查看服務器的根目標,尋找robot.txt的文件,并按照里面給出的限制去做;d.注意機器人的禮節。
進一步地,在由智能頁面分析引擎模塊將信息進行分類整理、結果處理的步驟2)中,其結果處理技術中的網頁評選的主要因素包括a.網頁評選的網頁數據庫、檢索的時間、網頁的質量和網站的相關度的四個主要因素;b.搜索結果的按頻次排定次序、按頁面被訪問度排序、進一步凈化(refine)結果的處理方法。
本發明提供的基于軟件機器人排除標準的互聯網信息搜索引擎及方法具有的有益效果具體如下由于使用了SERVLET技術,解決了網上超大流量和帶寬的矛盾,提高了網絡線路和設備的資源的使用率;采用了頁面智能分析技術,使用該技術建立的數字模型是根據評定的搜索引擎等級、數據庫容量及網絡狀況抽象而成,可以在有限的搜索來源中獲得更多、更精確的信息;使用了多分類處理,用戶可以根據相關度、時間、域名、引擎選擇分類,更容易得到各種具體的信息;采用負載自適應處理技術,用戶少時,將查詢時間加長,提供更多、更精確的信息;用戶多時,將時間減少,縮短了等待時間;設有功能強大的高級查詢,用戶可以根據自己的特殊查詢,選擇反饋的時間、記錄數、使用的引擎等,使用戶適應當地的網絡狀況。
圖1是本發明實施例的基于軟件機器人排除標準的互聯網信息搜索引擎的結構框圖。
圖2是本發明實施例的用于檢索信息的程序框圖。
圖3是本發明實施例的用于搜索方法的程序框圖。
圖4是本發明實施例的網上機器人尋找WWW文擋的程序框圖。
具體實施例方式
以下結合
對本發明的實施例作進一步詳細描述,但本實施例并不用于限制本發明,凡是采用本發明的相似結構及其相似變化,均應列入本發明的保護范圍。
如圖1所示,本發明的基于軟件機器人排除標準的互聯網信息搜索引擎,包括一中文引擎模塊,收錄中文最權威的網站,本搜索引擎集成了3個英文搜索引擎如Google、Yahoo、hotbot、和6個中文搜索引擎如新浪、雅虎(中文)、中文Goole、百度、搜狐、天網。用戶可根據需要自由選擇其中的引擎進行同步搜索,搜索結果可按相關度、時間、域名和引擎分類,一并行頁面請求引擎模塊,連接中文引擎模塊;一智能頁面分析引擎模塊,分別連接中文引擎模塊和并行頁面請求引擎模塊的輸出端;一客戶請求端,分別連接智能頁面分析引擎模塊和并行頁面請求引擎模塊的輸入端;一提交客戶端,連接智能頁面分析引擎模塊的輸出端。
其中,為了從有限的信息中獲得更多的信息,所述智能頁面分析引擎模設有輸入端比如用戶輸入的是“計算機”,引擎會自動到數據字典中找到該字的上下游詞,比如會得到詞“電腦”、“微機”、“computer”、“PC”等詞;
噪音過濾對用戶輸入的信息自動分類處理;解釋端從反饋回來的頁面自動找出相關的詞,計入相關度中;對對方的引擎的調整自動適應因為原始引擎可能因為技術調整、其他因素改動頁面,而造成頁面解析不成功。本引擎能夠自動調整處理。
所述智能頁面分析引擎模設有網絡模擬數學模型分析,即對所有的引擎反饋的頁面作統一的數學模型分析歸類,對不同的引擎反饋的結果都有統一的相關度。
如圖2所示,本發明元搜索引擎完成主要任務的方法的程序步驟當用戶輸入關鍵詞(Keyword)查詢時,在Internet上主動搜索Web服務器信息并將其自動索引,并告訴用戶包含該關鍵詞信息的網頁中文檔的摘要和該網頁的網址,并提供通向該網站的鏈接。首先,用戶提交一個查詢請求。緊接著服務器收到之后,把這個查詢請求通過Socket連接,分配給選定的那些搜索引擎。然后,那些搜索引擎收到查詢請求了,從自己本身的數據庫中搜索相關數據,再把搜索結果返回給我們的服務器。接下來,我們的服務器收到各個引擎的搜索結果,并且對各條記錄進行總結,去掉相同的和多余的。這中間過程要對他們進行權重設定并排序(Rank)。最后以統一的頁面格式返回給用戶。
如圖3所示,本發明實施例所提供的一種基于軟件機器人排除標準的互聯網信息搜索方法的步驟1)用戶在客戶請求端提交一個查詢請求,并傳至并行頁面請求引擎模塊,由并行頁面請求引擎模塊派出“網頁搜索程序”(網上機器人)在網上搜尋所有信息,將查詢請求通過Socket連接,分配給選定的那些搜索引擎,那些搜索引擎收到查詢請求,從各自的數據庫中搜索相關數據,再把搜索信息由“網頁搜索程序”帶回搜索引擎的并行頁面請求引擎模塊;搜索引擎的并行頁面請求引擎模塊派出或“機器人(robots)”的網頁搜索軟件在各網址中爬行,訪問網絡中公開區域的每一個站點并記錄其網址,從而創建出一個詳盡的網絡目錄。Meta Engine搜索引擎工作的最初步驟大致都是如此。
2)由并行頁面請求引擎模塊將搜索信息傳至智能頁面分析引擎模塊,由智能頁面分析引擎模塊將搜索信息進行分類整理,結果處理,即對各條記錄進行總結,去掉相同的和多余的,這中間過程要對搜索信息進行權重設定并排序(Rank);在進行信息分類整理階段,不同的系統會在搜索結果的數量和質量上產生明顯的不同。有的系統是把“網頁搜索軟件”發往每一個站點,記錄下每一頁的所有文本內容;其他系統則首先分析數據庫中的地址,以判別哪些站點最受歡迎(一般都是通過測定該站點的鏈接數量),然后再用軟件記錄這些站點的信息。記錄的信息包括從HTML標題到整個站點所有文本內容以及經過算法處理后的摘要;3)由智能頁面分析引擎模塊將處理后的搜索結果傳至提交客戶端,由提交客戶端通過Web服務器端軟件,以統一的頁面格式為用戶提供瀏覽器界面下的信息查詢;引擎的所述提交客戶端都提供了一個良好的界面,并具有幫助功能。用戶只要把想要查找的關鍵字或短語輸入查詢欄中,并按“Search”按鈕(或其他類似的按鈕)。搜索引擎就會根據用戶輸入的提問,在索引中查找相應的詞語,并進行必要的邏輯運算,最后給出查詢的命中結果(均為超文本鏈形式)。用戶只需通過搜索引擎提供的鏈接,馬上就可以訪問到相關信息。引擎將搜索的范圍進行了分類,查找可以在用戶指定的類別中進行,這樣可以提高查詢效率,搜索結果的“命中率”較高,從而節省了搜尋時間。
在搜索引擎的并行頁面請求引擎模塊派出“網頁搜索程序”(機器人)在網上搜尋的步驟1)中,機器人尋找WWW文檔的算法凡上網者都用過搜索引擎,Google、Yahoo、Hotbot、搜狐、北大天網等等,它們的索引數據庫涉及Internet上超過1億的頁面,如Altavista、Hotbot等。北大天網也收集了32萬個www頁面(國內),索引數據庫的建立需要訪問這些頁面然后進行索引,如何做到對如此多的頁面的訪問,現在的搜索引擎無論是針對英文還是中文,大都采用網上機器人來實現網上搜索。
1)網上機器人網上機器人(Robot)又被稱作Spider、Worm或Random,核心目的是為獲取在Internet上的信息。機器人利用主頁中的超文本鏈接遍歷Web,通過URL引用從一個HTML文檔爬行到另一個HTML文檔。網上機器人收集到的信息可有多種用途,如建立索引、HTML文件的驗證、URL鏈接驗證、獲取更新信息、站點鏡像等。
2)機器人尋找WWW文檔的算法機器人要在網上爬行,因此需要建立一個URL列表來記錄訪問的軌跡。使用的是超文本,指向其它文檔的URL是隱藏在文檔中,需要從中分析提取URL;機器人一般都用于生成索引數據庫。所有WWW的搜索程序都有類似步驟機器人從起始URL列表中取出URL并從網上讀取其內容;從每一個文檔中提取某些信息并放入索引數據庫中;從文檔中提取指向其它文檔的URL,并加入到URL列表中。如圖4所示,機器人尋找WWW文檔算法的程序步驟;重復上述3個步驟,直到再沒有新的URL發現或超出了某些限制(時間或磁盤空間);給索引數據庫加上查詢接口,向網上用戶發布。
算法有深度優先和廣度優先兩種基本的搜索策略。
機器人以URL列表存取的方式決定搜索策略先進先出,則形成廣度優先搜索。當起始列表包含有大量的Web服務器地址時,廣度優先搜索將產生一個很好的初始結果,但很難深入到服務器中去。先進后出,則形成深度優先搜索。這樣能產生較好的文檔分布,更容易發現文檔的結構,即找到最大數目的交叉引用。
3)機器人使用的關鍵點a.注意網絡資源和系統負荷機器人從站點上獲取信息的速度比人要快得多。機器人可以同時運行幾個進程,可一次從多個站點取回信息,在不到一分鐘的時間里可以訪問一百個站點,但也可能是同一個站點的一百個文檔。它們總是以建立連接和服務器所允許的最快速度存取頁面,這會給網絡和服務器系統帶來很大的壓力,甚至可能使在同一時刻想要訪問站點的人遭到服務拒絕。
b.不要循環或重復記住所有訪問過的站點;檢查不同的URL是否是同一個含義,如“Web.nexor.co.uk”,“hercules.nexor.co.uk”和128.243.219.1是指的同一臺機器;不要忘了子頁引用,<AHREF=“#abstract”>,它指向的是同一頁面。
c.只請求所需當只需要處理文本,而鏈接卻指向“.ps”、“.zip”、“.z”和“.gif”等等,程序應忽略這些鏈接;還要注意那些勿需處理的其它協議如“news”和“wais”等。
d.“黑洞”有些站點的URL幾乎是無限的,例如由CGI程序返回的繼續包含CGI程序引用的頁面,它可以從“/cgi bin/pit”開始,繼之以“/cgi bin/pit/a”、“/cgibin/pit/a/a”等等,這種URL區域容易使機器人陷入其中不能自拔,這種區域稱為“黑洞”,單靠機器人本身有時是無法解決的。
4)機器人排斥標準WebServer常常會有許多本地信息(如內部數據庫索引),或某些臨時存在的信息。由機器人來確定大量的這種應排除的文檔是非常浪費的。另外,還有令機器人頭疼的“黑洞”。而對于服務器管理員來說,使其憤怒的是某些行為不規范、貪得無厭的機器人。
1994年6月,一批機器人作者和熱衷者聯合制定了一個文檔,稱做機器人排斥標準(the standard for robots exclusion)。該文檔簡單地指出,一個機器人應該查看服務器的根目標,尋找一個叫做robot.txt的文件,并按照里面給出的限制去做。該文檔為服務器管理員提供了一種手段,使他們可以控制哪些機器人可訪問數據以及允許機器人游歷服務器上的什么地方。該文檔只是一個提議,尚未成為任何的官方標準。
5)機器人的禮節大多數系統管理員樂于讓別人索引他們的頁面,讓公眾獲取他們的信息,可是運行拙劣的機器人也很容易激起他們的憤怒,所以要記住下面機器人指南a.標識你自己和你的機器人機器人應該配置USER-AGENT以標識它自己,并附加一個電子郵件地址,使得對你的機器人有問題的人可以與你聯系。當機器人運行時,不要離開它,以應保持對機器人的控制。
b.本地運行檢查盡量先在本地的局域網上檢查你的機器人,進行各種可能情況的測試,有把握后再將其收到Internet上。
c.遵守robots.txt文件中的限制。
不要觸及管理員只想留在自己系統的非出版信息。
d.在適當的時間運行你的機器人站點一般都有負荷較輕的時候,如果你決定對某一站點進行多次自動訪問,最好事先了解其最佳訪問時間。
e.共享結果將搜索結果在網上公布,使大家都可以訪問到。
在由智能頁面分析引擎模塊將信息進行分類整理,結果處理的步驟2)中,其結果處理技術包括1)網頁評選的主要因素搜索引擎應該能夠找到與搜索要求相對應的站點,并按其相關程度將搜索結果排序。這里的相關程度是指搜索關鍵詞在文檔中出現的頻度,最高為“1”。當頻度越高時,則認為該文檔的相關程度越高。但由于目前的搜索引擎還不具備智能,除非你知道要查找的文檔的標題,否則排列第一的結果未必是最好的結果。所以有些文檔盡管相關程度高,但并不一定是用戶最需要的文檔。
搜索引擎是一個技術含量很高的電腦網絡應用系統。它包括網絡技術、數據庫技術、檢索技術、智能技術等等。在這一方面,由于國外的很多先進技術是建立在西文內核的基礎上,所以我們還不能單純引進照搬照抄。作為中文搜索引擎來講,如何來發揮我們在中文處理上的長處,發展出有我們自己版權的核心技術,使我們在中文搜索引擎的競爭中占有有利地位。
網頁評選的四個主要因素a.網頁數據庫網頁數據庫的大小,主要是人工瀏覽后定的。
b.檢索的時間檢索響應的時間,主要是程序里得出的。程序首先記下訪問搜索引擎開始的時間,然后到取得記錄后,又記下當時的時間,然后把兩個時間減一下就得出了檢索響應的時間。
c.網頁的質量網頁的質量劃分主要也是由人工排定的。搜索引擎總是要將檢索結果返回給用戶,而結果顯示的好壞直接影響到搜索引擎的使用效果。因此,結果顯示的內容組織,如何排序,是否提供足夠的相關信息(內碼、文件大小、文件日期等),對用戶對檢索結果的判斷具有很大的影響。
d.網站的相關度各個網站的相關度和以下因素有關各個網站的相關度;能夠區分搜索結果的相關性(Pertinency)。人為的對網站設定一個相關系數,如Yahoo1.0,Goyoyo 0.94等;鏈接,Summary中出現的關鍵詞的次數;記錄返回時間,即檢索響應的時間。
2)搜索結果處理方法a.按頻次排定次序通常來說,如果一個頁面包含了越多的關鍵詞,其搜索目標的相關性應該越好,這是非常合乎常理的解決方案。
b.按頁面被訪問度排序在這種方法中,搜索引擎會記錄它所搜索到的頁面被訪問的頻率。人們訪問較多的頁面通常應該包含信息比較多,或者有其它吸引人的長處。這種解決方案適合一般的搜索用戶,而因為大部分的搜索引擎都不是專業性用戶,所以這種方案也比較適合一般搜索器使用。
c.進一步凈化(refine)結果按照一定的條件對搜索結果再進行優化,可以再選擇類別、相關詞等。搜索引擎系統的軟件環境A.服務器系統軟件服務器的系統軟件為Microsoft Windows 2000 Server或Windows NT.
B.WEB服務器軟件本發明元搜索引擎服務器軟件采用JRun 3.1。Macromedia公司的JRun是一個具有最廣闊適用性的Java引擎,用于開發及實施由Java Servlets和JavaServer Pages編寫的服務器端Java應用。JRun在已有的Web服務器上添加服務器端Java的功能。其中Web服務器包括了Microsoft IIS、Netscape Enterprise Server、Apache等。JRun接受多個并發的連接并且包括全部Java Servlet API,支持JavaServer Pages(JSP),支持所有主要的Web servers和計算機平臺。
C.應用開發軟件采用JAVA作為開發平臺。JAVA是目前在美國使用最廣的企業軟件開發平臺標準。JAVA是一種純OO語言,它具有很強的擴展性、開放性、安全性、分布性、網絡性、可靠性、可移植性、動態性、并支持多線程。此外,JAVA具有一整套十分豐富的標準軟件包(API),從而大大縮短開發大型軟件的時間。JAVA已不是一個簡單的語言,它已成為一個非常強大、完整的開發平臺。被(除微軟外的)幾乎所有軟件公司所采納、推廣和使用。
搜索引擎系統的硬件環境A.系統的服務器服務器的硬件選擇沒有具體的要求,但是有些部件的性能指標需要達到一定程度,具體如表5-2-1所示。
表5-2-1系統服務器的配置要求
B.服務器的UPS由于應用服務器在工作時間需要響應客戶的大量請求,需要保證服務器24小時都能正常運轉,所以需要給服務器配備UPS,防止斷電造成服務器停止服務或數據損壞、丟失。由于服務器在夜間無人值守,所以UPS的電池需要能保證足夠長的電力持續時間。
權利要求
1.一種基于軟件機器人排除標準的互聯網信息搜索引擎,其特征在于,包括一中文引擎模塊,收錄中文最權威的網站,并支持英文搜索;一并行頁面請求引擎模塊,連接中文引擎模塊;一智能頁面分析引擎模塊,分別連接中文引擎模塊和并行頁面請求引擎模塊的輸出端;一客戶請求端,分別連接智能頁面分析引擎模塊和并行頁面請求引擎模塊的輸入端;一提交客戶端,連接智能頁面分析引擎模塊的輸出端;客戶請求端輸入的客戶請求,分別經并行頁面請求引擎模塊的軟件機器人在網上搜索和智能頁面分析引擎模塊對搜索信息的分類整理、結果處理,其搜索結果由提交客戶端提交給客戶。
2.根據權利要求1所述的基于軟件機器人排除標準的互聯網信息搜索引擎,其特征在于,所述智能頁面分析引擎模塊設有輸入端比如用戶輸入的是“計算機”,引擎會自動到數據字典中找到該字的上下游詞;噪音過濾對用戶輸入的信息自動分類處理;解釋端從反饋回來的頁面自動找出相關的詞,計入相關度中;對對方的引擎的調整自動適應因為原始引擎可能因為技術調整、其他因素改動頁面,而造成頁面解析不成功;本引擎能夠自動調整處理。
3.一種基于軟件機器人排除標準的互聯網信息搜索方法,其特征在于,搜索方法步驟包括1)用戶在客戶請求端提交一個查詢請求,并傳至并行頁面請求引擎模塊,由并行頁面請求引擎模塊派出“網頁搜索程序”在網上搜尋所有信息,將查詢請求通過Socket連接,分配給選定的那些搜索引擎,那些搜索引擎收到查詢請求,從各自的數據庫中搜索相關數據,再把搜索信息由“網頁搜索程序”帶回搜索引擎的并行頁面請求引擎模塊;2)由并行頁面請求引擎模塊將搜索信息傳至智能頁面分析引擎模塊,由智能頁面分析引擎模塊將搜索信息進行分類整理,結果處理,即對各條記錄進行總結,去掉相同的和多余的,這中間過程要對搜索信息進行權重設定并排序(Rank);3)由智能頁面分析引擎模塊將處理后搜索結果傳至提交客戶端,由提交客戶端通過Web服務器端軟件,以統一的頁面格式為用戶提供瀏覽器界面下的信息查詢。
4.根據權利要求3所述的基于軟件機器人排除標準的互聯網信息搜索方法,其特征在于,在由并行頁面請求引擎模塊派出“網頁搜索程序”在網上搜尋的步驟1)中,機器人尋找WWW文檔的算法a.由網上機器人獲取在Internet上的信息;b.機器人尋找WWW文檔的算法包括有深度優先和廣度優先兩種基本的搜索策略;c.機器人排斥標準查看服務器的根目標,尋找robot.txt的文件,并按照里面給出的限制去做;d.注意機器人的禮節。
5.根據權利要求3所述的基于軟件機器人排除標準的互聯網信息搜索方法,其特征在于,在由智能頁面分析引擎模塊將信息進行分類整理、結果處理的步驟2)中,其結果處理技術中的網頁評選的主要因素包括a.網頁評選的網頁數據庫、檢索的時間、網頁的質量和網站的相關度的四個主要因素;b.搜索結果的按頻次排定次序、按頁面被訪問度排序、進一步凈化(refine)結果的處理方法。
全文摘要
一種基于軟件機器人排除標準的互聯網信息搜索引擎及方法,涉及計算機網絡技術領域;互聯網信息搜索引擎包括中文引擎模塊、并行頁面請求引擎模塊、智能頁面分析引擎模塊、客戶請求端、提交客戶端;客戶請求端輸入的客戶請求,分別經并行頁面請求引擎模塊的軟件機器人在網上搜索和智能頁面分析引擎模塊對搜索信息的分類整理、結果處理,其搜索結果由提交客戶端提交給客戶。互聯網信息搜索方法,1)用戶提交查詢請求,由并行頁面請求引擎模塊派出“網頁搜索程序”在網上搜尋所有信息;2)將搜索信息傳至智能頁面分析引擎模塊,進行搜索信息分類整理,結果處理;3)由智能頁面分析引擎模塊將處理后搜索結果傳至提交客戶端。
文檔編號G06F17/30GK101079048SQ20061014173
公開日2007年11月28日 申請日期2006年9月28日 優先權日2006年5月24日
發明者林宏, 鮑勁松 申請人:上海萬緯信息技術有限公司