一種關聯網頁搜索方法和系統的制作方法
【專利摘要】本發明公開了一種關聯網頁搜索方法和系統,所述方法包括:接收搜索請求;所述請求中包括搜索關鍵詞;依據所述搜索關鍵詞在預置的關聯網頁數據庫中進行查找,獲得與所述關鍵詞匹配的網頁;判斷所述網頁是否為關聯網頁;若是,則返回所述網頁及所述網頁關聯的首頁信息。本發明在判斷獲得與關鍵詞匹配的網頁為關聯網頁時,返回該網頁及該網頁關聯的首頁信息,避免了用戶重復搜索或者查找首頁的過程,進一步減少了系統的操作,減少了系統資源的占用,提高了搜索的效率。
【專利說明】一種關聯網頁搜索方法和系統
【技術領域】
[0001]本發明涉及數據搜索【技術領域】,具體涉及一種關聯網頁搜索方法、一種關聯網頁搜索系統。
【背景技術】
[0002]隨著因特網的發展,愈來愈多的信息是通過網頁方式呈現在因特網上供用戶查詢,同樣的通過搜尋引擎在因特網中查詢數據也成為最常使用的數據搜尋方法。
[0003]搜索引擎收錄網頁時需要針對不同種類的網頁采取不同的調度策略,網頁種類的識別是一項基礎工作,其中翻頁(Page turning)網頁的識別是一項比較關鍵的工作。所謂翻頁網頁,即查看分頁文件的上一個頁面、下一個頁面或任意存在的非當前頁面。翻頁網頁可以將實體書或者移動Web窗體中的內容進行改變,以觀看不同內容。在互聯網上運用時該機制還呈現可用于瀏覽到其他頁的用戶界面元素。
[0004]現有的翻頁網頁的識別方法是根據網頁的URL(Uniform Resource Locator,統一資源定位符)所包含的關鍵詞來識別是否是索引頁。例如,當URL包含有page、pn、p等關鍵詞以及關鍵詞后面有數字時,判斷該URL對應的網頁為翻頁網頁。
[0005]但是,這種識別方法召回率低,并且很多網站的翻頁是不具有這些關鍵詞的,t匕如 “http://cq.ABC.com/lvshi/ol2/,,、“http: //bbs.BCA.com/t661_10,,、“http://china.BCD.com/product/20110617/2647”,但是這些網頁依然是翻頁,使得這些識別方法容易造成誤操作,實用性低。
【發明內容】
[0006]鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的一種關聯網頁搜索方法和相應的一種關聯網頁搜索系統。
[0007]依據本發明的一個方面,提供了一種關聯網頁搜索方法,包括:
[0008]接收搜索請求;所述請求中包括搜索關鍵詞;
[0009]依據所述搜索關鍵詞在預置的關聯網頁數據庫中進行查找,獲得與所述關鍵詞匹配的網頁;
[0010]判斷所述網頁是否為關聯網頁;若是,則返回所述網頁及所述網頁關聯的首頁信
肩、O
[0011]可選地,所述關聯網頁數據庫通過以下方式建立:
[0012]判斷抓取到的網頁是否包括關聯網頁URL模式;若是,則獲取所述關聯網頁URL模式;
[0013]采用所述關聯網頁URL模式獲取對應的關聯網頁;
[0014]采用所述所述關聯網頁URL模式對應的關聯網頁建立關聯網頁數據庫。
[0015]可選地,所述判斷抓取到的網頁是否包括關聯網頁URL模式的步驟包括:
[0016]判斷當前網頁的頁面元素中是否具有翻頁特征字符串;若是,則提取所述翻頁特征字符串鏈接的URL ;
[0017]采用預置的替換字符替換當前網頁的URL中的數字塊,獲得第一特征URL前綴;其中,所述數字塊為被間隔標識分割出的單個數字或多個數字;
[0018]采用預置的替換字符替換所述翻頁特征字符串鏈接的URL中的數字塊,獲得第二特征URL前綴;
[0019]當所述第一特征URL前綴與所述第二特征URL前綴相同時,則判定抓取到的網頁是否包括關聯網頁URL模式。
[0020]可選地,所述判斷當前網頁的頁面元素中是否具有翻頁特征字符串的步驟包括:
[0021]采用翻頁特征字符串在當前網頁的DOM樹節點中進行匹配;
[0022]當匹配成功時,則判斷當前網頁具有翻頁特征字符串。
[0023]可選地,所述采用預置的替換字符替換當前網頁的URL中的數字塊,獲得第一特征URL前綴的步驟為:
[0024]采用相同的替換字符替換當前網頁的URL中不同位置的數字塊,獲得第一特征URL前綴;
[0025]所述采用預置的替換字符替換所述翻頁特征字符串鏈接的URL中的數字塊,獲得第二特征URL前綴的步驟為:
[0026]采用相同的替換字符替換所述特征字符串鏈接的URL中不同位置的數字塊,獲得第二特征URL前綴。
[0027]可選地,所述采用預置的替換字符替換當前網頁的URL中的數字塊,獲得第一特征URL前綴的步驟為:
[0028]分別采用不同的替換字符,替換當前網頁的URL中不同位置的數字塊,獲得第一特征URL前綴;
[0029]所述采用預置的替換字符替換所述翻頁特征字符串鏈接的URL中的數字塊,獲得第二特征URL前綴的步驟為:
[0030]分別采用與第一特征URL相同的替換字符替換所述翻頁特征字符串鏈接的URL在相同位置的數字塊,獲得第二特征URL前綴。
[0031]可選地,所述采用所述關聯網頁URL模式獲取對應的關聯網頁的步驟包括:
[0032]將所述第一特征URL前綴或第二特征URL前綴作為所述當前網頁的對應的關聯網頁URL模式。
[0033]可選地,所述獲取所述關聯網頁URL模式對應的關聯網頁的步驟包括:
[0034]通過對關聯網頁URL模式中的共性部分進行結構分析,提取關聯網頁URL模式中的翻頁塊,將所述翻頁塊替換為首頁標識獲得首頁關聯網頁的URL ;其中,所述翻頁塊為多個關聯網頁URL模式中位置相同但數字不同的數字塊;
[0035]訪問所述首頁關聯網頁的URL獲取所述首頁關聯網頁。
[0036]可選地,所述首頁標識包括0、1和/或當前關聯網頁中的最大數值。
[0037]根據本發明的另一方面,提供了一種關聯網頁搜索系統,包括:
[0038]搜索請求接收模塊,適于接收搜索請求;所述請求中包括搜索關鍵詞;
[0039]匹配網頁獲得模塊,適于依據所述搜索關鍵詞在預置的關聯網頁數據庫中進行查找,獲得與所述關鍵詞匹配的網頁;[0040]多頁關聯網頁判斷模塊,適于判斷所述網頁是否為關聯網頁;若是,則調用信息返回模塊;
[0041]信息返回模塊,適于返回所述網頁及所述網頁關聯的首頁信息。
[0042]可選地,所述關聯網頁數據庫通過調用以下子模塊建立:
[0043]關聯網頁URL判斷子模塊,適于判斷抓取到的網頁是否包括關聯網頁URL模式;若是,則調用關聯網頁URL模式獲取子模塊;
[0044]關聯網頁URL模式獲取子模塊,適于獲取所述關聯網頁URL模式;
[0045]關聯網頁獲取子模塊,適于采用所述關聯網頁URL模式獲取對應的關聯網頁;
[0046]關聯網頁數據庫建立子模塊,適于采用所述所述關聯網頁URL模式對應的關聯網頁建立關聯網頁數據庫。
[0047]可選地,所述關聯網頁URL模式子模塊包括:
[0048]翻頁特征字符串判斷單元,適于判斷當前網頁的頁面元素中是否具有翻頁特征字符串;若是,則調用URL提取單元;
[0049]URL提取單元,適于提取所述翻頁特征字符串鏈接的URL ;
[0050]第一特征RUL前綴獲得單元,適于采用預置的替換字符替換當前網頁的URL中的數字塊,獲得第一特征URL前綴;其中,所述數字塊為被間隔標識分割出的單個數字或多個
數字;
[0051]第二特征RUL前綴獲得單元,適于采用預置的替換字符替換所述翻頁特征字符串鏈接的URL中的數字塊,獲得第二特征URL前綴;
[0052]判定單元,適于關聯網頁URL模式當所述第一特征URL前綴與所述第二特征URL前綴相同時,則判定抓取到的網頁是否包括關聯網頁URL模式。
[0053]可選地,所述翻頁特征字符串判斷單元還適于:
[0054]采用翻頁特征字符串在當前網頁的DOM樹節點中進行匹配;
[0055]當匹配成功時,則判斷當前網頁具有翻頁特征字符串。
[0056]可選地,所述第一特征RUL前綴獲得單元還適于:
[0057]采用相同的替換字符替換當前網頁的URL中不同位置的數字塊,獲得第一特征URL前綴;
[0058]所述第二特征RUL前綴獲得單元還適于:
[0059]采用相同的替換字符替換所述特征字符串鏈接的URL中不同位置的數字塊,獲得第二特征URL前綴。
[0060]可選地,所述第一特征RUL前綴獲得單元還適于:
[0061]分別采用不同的替換字符,替換當前網頁的URL中不同位置的數字塊,獲得第一特征URL前綴;
[0062]所述第二特征RUL前綴獲得單元還適于:
[0063]分別采用與第一特征URL相同的替換字符替換所述翻頁特征字符串鏈接的URL在相同位置的數字塊,獲得第二特征URL前綴。
[0064]可選地,所述關聯網頁URL模式獲取模塊還適于:
[0065]將所述第一特征URL前綴或第二特征URL前綴作為所述當前網頁的對應的關聯網頁URL模式。[0066]可選地,所關聯網頁獲取模塊還適于:
[0067]通過對關聯網頁URL模式中的共性部分進行結構分析,提取關聯網頁URL模式中的翻頁塊,將所述翻頁塊替換為首頁標識獲得首頁關聯網頁的URL ;其中,所述翻頁塊為多個關聯網頁URL模式中位置相同但數字不同的數字塊;
[0068]訪問所述首頁關聯網頁的URL獲取所述首頁關聯網頁。
[0069]可選地,所述首頁標識包括0、1和/或當前關聯網頁中的最大數值。
[0070]本發明在判斷獲得與關鍵詞匹配的網頁為關聯網頁時,返回該網頁及該網頁關聯的首頁信息,避免了用戶重復搜索或者查找首頁的過程,進一步減少了系統的操作,減少了系統資源的占用,提聞了搜索的效率。
[0071]本發明基于當前抓取到的網頁提取關聯網頁URL模式,采用關聯網頁URL模式對應的關聯網頁建立關聯網頁數據庫,避免了重復抓取網頁,減少了系統資源的占用,大大提高了數據庫的建立效率。
[0072]本發明在當前網頁的頁面元素中具有翻頁特征字符串時,采用預置的替換字符替換當前網頁的URL中的數字塊,獲得第一特征URL前綴,并采用預置的替換字符替換翻頁特征字符串鏈接的URL中的數字塊,獲得第二特征URL前綴,當所述第一特征URL前綴與所述第二特征URL前綴相同時,將所述第一特征URL前綴或第二特征URL前綴作為所述當前網頁的對應的關聯網頁URL模式,本發明采用翻頁特征字符串進行識別關聯網頁,識別準確率高,采用URL的共性部分進行匹配,進一步提高了關聯網頁的識別準確率,使得召回率大幅提高,在實際應用中可以識別90%以上的關聯網頁。
[0073]本發明將關聯網頁URL模式的翻頁塊替換為首頁標識獲得首頁關聯網頁的URL,同理,也可以將翻頁塊替換為其他掛鏈網頁標識獲得其他關聯網頁的URL,從而增加了關聯網頁的覆蓋率,使得能夠獲取更加全面的關聯網頁,進而實現了細顆粒度的操作。
[0074]上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,并且為了讓本發明的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本發明的【具體實施方式】。
【專利附圖】
【附圖說明】
[0075]通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的,而并不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0076]圖1示出了根據本發明一個實施例的一種關聯網頁搜索方法實施例的步驟流程圖;
[0077]圖2示出了根據本發明一個實施例的一種網頁結構示例圖;
[0078]圖3示出了示出了本發明一個實施例的一種翻頁塊的示例圖;以及,
[0079]圖4示出了根據本發明一個實施例的一種關聯網頁搜索系統實施例的結構框圖。
【具體實施方式】
[0080]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。
[0081]參照圖1,示出了本發明一個實施例的一種關聯網頁搜索方法實施例的步驟流程圖,具體可以包括如下步驟:
[0082]步驟100,接收搜索請求;所述請求中包括搜索關鍵詞;
[0083]搜索請求可以是指用戶發出的對某搜索關鍵詞進行相關聯信息搜索的請求。例如,用戶可以在瀏覽器地址欄、搜索欄、搜索引擎中的搜索關鍵字輸入框中輸入搜索關鍵詞并按下回車鍵或點擊搜索按鈕,相當于接收到了用戶的搜索請求。
[0084]步驟200,依據所述搜索關鍵詞在預置的關聯網頁數據庫中進行查找,獲得與所述關鍵詞匹配的網頁;
[0085]在搜索引擎的后臺預置有關聯網頁數據庫,用于存放搜集到的關聯網頁的信息。所收集的信息一般是能表明關聯網頁內容(包括網頁本身、網頁的URL地址、構成網頁的代碼以及進出網頁的連接)的關鍵詞或者短語。
[0086]作為一種優選示例,首先可以把用戶輸入的搜索關鍵詞切分為一個關鍵詞序列,用q來進行表示,則用戶搜索的關鍵詞q被切分為q={ql,q2,q3,……,qn}。然后再根據用戶查詢方式,例如是所有詞連在一起,還是中間有空格等,以及根據q中不同關鍵詞的詞性,來確定所需查詢詞中每一個詞在查詢結果的展示上所占有的重要性。當切分出搜索詞集合q后,q中每個關 鍵詞所對應的URL排序——索引庫,同時也根據用戶的查詢方式與詞性計算出每個關鍵詞在查詢結果的展示上所占有的重要,那么只需要進行一點綜合性的排序算法,即可以獲得搜索結果。
[0087]在本發明的一種優選實施例中,所述關聯網頁數據庫可以通過以下方式建立:
[0088]子步驟S101,判斷抓取到的網頁是否包括關聯網頁URL模式;若是,則執行子步驟S102 ;
[0089]需要說明的是,搜索引擎從萬維網上自動提取網頁的功能可以是通過網絡爬蟲實現的。網絡爬蟲又稱為網絡蜘蛛,即WebSpider,網絡蜘蛛是通過網頁的鏈接地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。如果把整個互聯網當成一個網站,那么網絡蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。
[0090]關聯網頁URL模式可以為翻頁網頁的共性部分Pattern,即長相或者功能類似的URL/網頁聚在一起形成的集合。
[0091]在本發明的一種優選實施例中,所述子步驟SlOl具體可以包括如下子步驟:
[0092]子步驟S11,判斷當前網頁的頁面元素中是否具有翻頁特征字符串;若是,則提取所述翻頁特征字符串鏈接的URL ;
[0093]網頁按照功能可以劃分為多個區域,以某一個論壇(Bulletin Board System,BBS)的頁面為例,如圖2所示,該頁面可以劃分為導航塊(I)、垃圾塊(2、4)、翻頁塊(3)、標題塊(5)、作者信息塊(6)、發表日期塊(7)、正文塊(8)。其中,導航塊可以位于網頁頁眉頂部,或者banner (網頁的橫幅廣告)下部,用于指向網頁的信息欄目。垃圾塊可以為與網頁主題相關度很低的頁面元素所在的區域,例如“發帖”、“回復”等功能按鈕。翻頁塊可以為指示翻頁的區域。標題塊可以為網頁主題的標題(例如圖2所示的“安全瀏覽器聚集黑色星期四”)所在的區域。作者信息塊為記載該網頁主題作者信息的區域。正文塊為記載該網頁主題正文的區域。
[0094]參照圖3,示出了示出了本發明一個實施例的一種翻頁塊的示例圖。
[0095]如圖3所示,翻頁塊主要可以由翻頁特征字符串組成,翻頁特征字符串可以為翻頁特征anchor,為用于標識翻頁的頁面元素。
[0096]在具體實現中,翻頁特征字符串可以包括以下的一種或多種:
[0097][?]、[?]、[?]、[?]、[?]、[?]、[>]、[〈]、[下一頁]、[上一頁]、[上一]、[下一]、[next]、[末頁]、[尾頁]、[前頁]、[后頁]、[〈上一頁]、[〈上一]、[下一〉]、[下一頁 >]、[1...]。[0098]當然,上述翻頁特征字符串只是作為示例,在實施本發明實施例時,可以根據實際情況設置其他翻頁特征字符串,本發明實施例對此不加以限制。
[0099]需要說明的是,當前網頁可以為被抓取到的網頁。
[0100]在本發明的一種優選實施例中,所述子步驟Sll進一步可以包括如下子步驟:
[0101]子步驟S111,采用翻頁特征字符串在當前網頁的DOM樹節點中進行匹配;
[0102]子步驟S112,當匹配成功時,則判斷當前網頁具有翻頁特征字符串。
[0103]DOM (文件對象模型,Document Object Model)是處理可擴展置標語言的標準編程接口。DOM可以以一種獨立于平臺和語言的方式訪問和修改一個文檔的內容和結構,是表示和處理一個HTML或XML文檔的常用方法。
[0104]DOM實際上是以面向對象方式描述的文檔模型。DOM定義了表示和修改文檔所需的對象、這些對象的行為和屬性以及這些對象之間的關系。可以把DOM認為是頁面上數據和結構的一個樹形表示,不過頁面當然可能并不是以這種樹的方式具體實現。
[0105]通過JavaScript可以重構整個HTML文檔,可以添加、移除、改變或重排頁面上的項目。
[0106]要改變頁面的某個東西,JavaScript就需要獲得對HTML文檔中所有元素進行訪問的入口。這個入口,連同對HTML元素進行添加、移動、改變或移除的方法和屬性,都是通過文檔對象模型來獲得的(D0M)。
[0107]可以將HTML文檔視作樹結構,而這種結構被稱為節點樹(HTML DOM)。通過HTMLD0M,樹中的所有節點均可通過JavaScript進行訪問。所有HTML元素(節點)均可被修改,也可以創建或刪除節點。
[0108]節點樹中的節點彼此擁有層級關系。可以采用父(parent)、子(child)和同胞(sibling)等術語用于描述這些關系。其中,父節點擁有子節點。同級的子節點被稱為同胞(兄弟或姐妹)。在節點樹中,頂端節點被稱為根(root)。每個節點都有父節點、除了根(它沒有父節點)。一個節點可擁有任意數量的子,同胞是擁有相同父節點的節點。
[0109]具體可以通過若干種方法在節點樹來查找希望操作的網頁元素:
[0110]例如,可以通過使用getElementByldO 和 getElementsByTagName O 方法進行查找。
[0111]又例如,可以通過使用一個元素節點的parentNode、firstChild以及IastChild屬性。[0112]其中,getElementByldO和 getElementsByTagName O 這兩種方法,可查找整個HTML文檔中的任何HTML元素。而這兩種方法會忽略文檔的結構。假如查找文檔中所有的〈P〉元素,getElementsByTagName O會把它們全部找到,不管〈P〉元素處于文檔中的哪個層次。同時,getElementByldO方法也會返回正確的元素,不論它被隱藏在文檔結構中的什么位置。這兩種方法會提供任何所需要的HTML元素,不論它們在文檔中所處的位置。
[0113]此外,getElementByldO可通過指定的ID來返回網頁元素。
[0114]在具體實現中,可以通過識別該網頁的HTML文本DOM樹中超鏈接<a> (anchor,錨點)標識是否包括[〈〈]、[?]、[?]、[?]、[?]、[?]、[>]、[〈]、[下一頁]、[上一頁]、[上一]、[下一]、[next]、[末頁]、[尾頁]、[前頁]、[后頁]、[〈上一頁]、[〈上一]、[下一 >]、[下一頁〉]、[1...]中的一種或多種,若是,則判斷當前網頁具有翻頁特征字符串O
[0115]其中,<a>可以用于把當前位置的文本或圖片連接到其他的頁面、文本或圖像等。
[0116]< a >標識的基本語法結構可以如下:
[0117]< a
[0118]class=type
[0119]id = value
[0120]href = reference
[0121]name = value
[0122]rel=same | next | parent | previous
[0123]rev = value
[0124]target = window
[0125]style = value
[0126]title=title
[0127]onclick = function
[0128]onmouseout = function
[0129]onMouse0ver=function >顯不文字或者圖片的代碼< /a >
[0130]例如以下一種HTML文本中<a>標識的內容為:
[0131]<divid="pgt"class="bmbwOpgscl">
[0132]<spanid="fd—page—top"〉
[0133]<divcla ss="pg">
[0134]<a
[0135]href="forum-99_l.html"class="prev"X/a>
[0136]<a
[0137]href="forum-99_l.html">l〈/a>〈strong>2〈>
[0138]<a
[0139]href="forum-99_3.html">3〈/a>
[0140]<a
[0141]href=//forum-99-4.html〃M〈/a>
[0142]<a[0143]href=//forum-99-5.html">5〈/a>
[0144]<a
[0145]href=//forum-99-6.html">6〈/a>
[0146]<a
[0147]href=//forum-99-7.html//>7</a>
[0148]<a
[0149]href=//forum-99-8.html">8〈/a>
[0150]<a
[0151]href=//forum-99-9.html">9〈/a>
[0152]<a
[0153]href=//forum-99-10.html">10〈/a>
[0154]<a
[0155]href=//forum-99-1000.html"class="last">...2107〈/a> [0156]〈label〉
[0157]<inputtype = ^ text ^ name = ^ custompage^ class = ^px ^ size = ^ 2 ^ title = ^輸入頁碼,按回車快速跳轉 〃value=〃2〃onkeydown=〃if (event.keyCode==13){window, location=’ forum.php?mod=forumdisplay&fid=99&page=' +this, value;doane(event);}〃/>
[0158]〈spantitle="共 1000 頁">/1000 頁〈/span〉
[0159]〈/label〉
[0160]<a
[0161]href=//forum-99-3.html"class="nxt"> 下一頁 </a>
[0162]</div>
[0163]〈/span〉
[0164]通過HTML文本中<a>標識的匹配,可以判斷該網頁具有一個或多個翻頁特征字符串。在識別出該一個或多個翻頁特征字符串之后,提取該一個或多個翻頁特征字符串鏈接的一個或多個URL,該一個或多個URL指向其他的與當前網頁關聯的翻頁網頁。
[0165]子步驟S12,采用預置的替換字符替換當前網頁的URL中的數字塊,獲得第一特征URL前綴;其中,所述數字塊為被間隔標識分割出的單個數字或多個數字;
[0166]子步驟S13,采用預置的替換字符替換所述翻頁特征字符串鏈接的URL中的數字塊,獲得第二特征URL前綴;
[0167]需要說明的是,替換字符可以為任意字符,本發明實施例對此不加以限制。間隔標識可以為URL中用于間隔的符號,例如: ”等等。數字塊需要為間隔標識中連續的數字,例如“ 123ABC”不為數字塊。
[0168]在本發明的一種實施例中,所述子步驟S12進一步可以包括如下子步驟:
[0169]子 步驟S121,采用相同的替換字符替換當前網頁的URL中不同位置的數字塊,獲得第一特征URL前綴;
[0170]與子步驟S121相對應地,所述子步驟S13進一步可以包括如下子步驟:
[0171]子步驟S131,采用相同的替換字符替換所述特征字符串鏈接的URL中不同位置的數字塊,獲得第二特征URL前綴。
[0172]在具體實現中,當前網頁的URL和翻頁特征字符串連接的URL可以具有一個或多個數字塊,為減少替換的操作步驟和系統的資源占用,可以用相同的替換字符替換數字塊。
[0173]例如,當前網頁的URL 為 http://bbs.XXX.com/forum-99-2, html,翻頁特征字符串連接的 URL 為 http://bbs.XXX.com/forum-99-3, html,其中 “99”、“2” 被識別出為數字塊,以“(\d+) ”作為替換字符的一種示例,則第一特征URL前綴可以為http://bbs.XXX.com/forum-(\d+) -(\d+).html,第二特征 URL 前綴可以為 http://bbs.XXX.com/forum-(\d+) -(\d+).html。
[0174]在本發明的一種實施例中,所述子步驟S12進一步可以包括如下子步驟:
[0175]子步驟S122,分別采用不同的替換字符,替換當前網頁的URL中不同位置的數字塊,獲得第一特征URL前綴;
[0176]與子步驟S122相對應地,所述子步驟S13進一步可以包括如下子步驟:
[0177]子步驟S132,分別采用與第一特征URL相同的替換字符替換所述特征字符串鏈接的URL在相同位置的數字塊,獲得第二特征URL前綴。
[0178]在具體實現中,當前網頁的URL和翻頁特征字符串連接的URL可以具有一個或多個數字塊,為提高后續第一特征URL前綴與第二特征URL是否相同的判斷以及對數字塊的標識的效率,可以采用不同的替換字符替換數字塊。
[0179]例如,當前網頁的URL 為 http://bbs.XXX.com/forum-99-2, html,翻頁特征字符串連接的 URL 為 http://bbs.XXX.com/forum-99-3, html,其中 “99”、“2” 被識別出為數字塊,以“(\d+) ”、“ (\e+) ”作為替換字符的一種示例,則第一特征URL前綴可以為http://bbs.XXX.com/forum-(\d+) -(\e+).html,第二特征 URL 前綴可以為 http://bbs.XXX.com/forum-(\d+)-(\e+).html0
[0180]子步驟S14,當所述第一特征URL前綴與所述第二特征URL前綴相同時,則判定抓取到的網頁是否包括關聯網頁URL模式。
[0181]在實際應用中,第一特征URL前綴與第二特征URL前綴相同時,表明當前網頁的URL和翻頁特征字符串鏈接的URL的共性相同,可以判定當前網頁和翻頁特征字符串鏈接的URL對應的網頁包括關聯的翻頁網頁。
[0182]子步驟S102,獲取所述關聯網頁URL模式;
[0183]在本發明的一種實施例中,所述子步驟S102具體可以包括如下子步驟:
[0184]子步驟S21,將所述第一特征URL前綴或第二特征URL前綴作為所述當前網頁的對應的關聯網頁URL模式。
[0185]因為第一特征URL前綴和第二特征URL相同,則以第一特征URL前綴或第二特征URL前綴作為當前網頁的對應的關聯網頁URL模式Pattern均可。
[0186]本發明在當前網頁的頁面元素中具有翻頁特征字符串時,采用預置的替換字符替換當前網頁的URL中的數字塊,獲得第一特征URL前綴,并采用預置的替換字符替換翻頁特征字符串鏈接的URL中的數字塊,獲得第二特征URL前綴,當所述第一特征URL前綴與所述第二特征URL前綴相同時,將所述第一特征URL前綴或第二特征URL前綴作為所述當前網頁的對應的關聯網頁URL模式,本發明采用翻頁特征字符串進行識別關聯網頁,識別準確率高,采用URL的共性部分進行匹配,進一步提高了關聯網頁的識別準確率,使得召回率大幅提高,在實際應用中可以識別90%以上的關聯網頁。
[0187]子步驟S103,采用所述關聯網頁URL模式獲取對應的關聯網頁;
[0188]在具體實現中,關聯網頁可以包括首頁關聯網頁和其他關聯網頁,其中,首頁關聯網頁一般會記載有重要的內容,例如圖3所示的正文塊,因此首頁關聯網頁的重要性比較高,因此獲知首頁關聯網頁具有比較重要的意義。
[0189]在本發明的一種優選實施例中,所述子步驟S103具體可以包括如下子步驟:
[0190]子步驟S31,通過對關聯網頁URL模式中的共性部分進行結構分析,提取關聯網頁URL模式中的翻頁塊,將所述翻頁塊替換為首頁標識獲得首頁關聯網頁的URL;其中,所述翻頁塊為多個關聯網頁URL模式中位置相同但數字不同的數字塊;
[0191]子步驟S32,訪問所述首頁關聯網頁的URL獲取所述首頁關聯網頁。
[0192]在實際應用中,URL可以包括以下的一種或多種結構:
[0193]Uprotocol (協議):指定使用的傳輸協議,最常用的是HTTP協議,它也是目前WffW中應用最廣的協議。具體地,傳輸協議包括file協議(資源是本地計算機上的文件,格式為file:///)、ftp協議(通過FTP訪問資源,格式為FTP://)、gopher (通過Gopher協議訪問資源)、http協議(通過HTTP訪問資源,格式為HTTP://)、https協議(通過安全的HTTPS訪問資源,格式為HTTPS://)等等。
[0194]2、hostname (主機名):指存放資源的服務器的域名系統(DNS)主機名或IP地址。有時,在主機名前也可以包含連接到服務器所需的用戶名和密碼(格式為username: password)。
[0195]3、port (端口號):省略時使用方案的默認端口,各種傳輸協議都有默認的端口號,如http的默認端口為80。如果輸入時省略,則使用默認端口號。有時候出于安全或其他考慮,可以在服務器上對端口進行重定義,即采用非標準端口號,此時,URL中就不能省略端口號這一項。
[0196]4、path (路徑):由零或多個“/”符號隔開的字符串,一般用來表示主機上的一個目錄或文件地址。
[0197]5> parameters (參數):可以用于指定特殊參數的可選項。
[0198]6、query (查詢):可以用于給動態網頁(如使用 CG1、ISAP1、PHP/JSP/ASP/ASP.NET等技術制作的網頁)傳遞參數,可有多個參數,用“&”符號隔開,每個參數的名和值用“=”符號隔開。
[0199]7,fragment (信息片斷):可以用于指定網絡資源中的片斷。例如一個網頁中有多個名詞解釋,可使用fragment直接定位到某一名詞解釋。
[0200]在具體實現中,通過對多個關聯網頁URL模式中的共性部分進行結構分析,提取關聯網頁URL模式中的翻頁塊,然后將所述翻頁塊替換為首頁標識獲得首頁關聯網頁的URL。
[0201 ] 例如,對于上述示例的關聯網頁URL模式一http: //bbs.XXX.com/forum- (\d+)-(\e+).html,在識別出(\e+)為翻頁塊,然后將翻頁塊替換為首頁標識后,獲得首頁關聯網頁的 URL—http://bbs.XXX.com/forum-99-1, html。
[0202]在本發明實施例的一種優選示例中,所述首頁標識可以包括O、I和/或當前關聯網頁中的最大數值。[0203]不同的網站會采用不同的翻頁結構,造成了首頁關聯網頁的不同。例如,某些網站會采用第O頁作為首頁關聯網頁,某些網站會采用第I頁作為首頁關聯網頁,某些網站會采用最大頁(例如圖3所示的2100)作為首頁關聯網頁,等等。
[0204]當然,上述首頁關聯網頁只是作為示例,在實施本發明實施例時,可以根據實際情況將數字快替換為任一關聯網頁的標識獲取對應的關聯網頁,本發明實施例對此不一一加以詳述。
[0205]本發明將關聯網頁URL模式的翻頁塊替換為首頁標識獲得首頁關聯網頁的URL,同理,也可以將翻頁塊替換為其他掛鏈網頁標識獲得其他關聯網頁的URL,從而增加了關聯網頁的覆蓋率,使得能夠獲取更加全面的關聯網頁,進而實現了細顆粒度的操作。
[0206]子步驟S104,采用所述關聯網頁URL模式對應的關聯網頁建立關聯網頁數據庫。
[0207]在具體實現中,關聯網頁URL模式對應的關聯網頁可以包括首頁關聯網頁和其他關聯網頁,可以是所有關聯網頁的全部,也可以是所有關聯網頁的部分,本發明實施例對此不加以限制。
[0208]作為一種優選示例,可以對蜘蛛抓取的網頁文件進行數據處理,具體可以包括:
[0209]1、網頁結構化。即關聯網頁的HTML代碼刪掉,提取出網頁內容。
[0210]2、消噪。在網頁結構化中,已經刪掉了 HTML代碼,剩下了網頁內容,那么消噪指的就是留下網頁的主題內容,刪掉沒用的內容,比如版權。
[0211]3、查重。查找重復的網頁與內容,如果找到重復的頁面,就刪除。
[0212]4、分詞。提取出網頁內容,然后分成N個詞語,排列出來,存入索引庫,同時也會計算這一個詞在這個頁面出現了多少次。
[0213]5、鏈接分析。查詢頁面的反向鏈接,導出鏈接有多少以及內鏈,然后給這個頁面多少的權重等。
[0214]在進行了上邊的數據處理之后,就可以把這些處理好的數據存儲在關聯網頁數據庫中。
[0215]本發明基于當前抓取到的網頁提取關聯網頁URL模式,采用關聯網頁URL模式對應的關聯網頁建立關聯網頁數據庫,避免了重復抓取網頁,減少了系統資源的占用,大大提高了數據庫的建立效率。
[0216]步驟300,判斷所述網頁是否為關聯網頁;若是,則執行步驟400 ;
[0217]在具體實現中,判斷所述網頁是否包括關聯網頁URL模式即可判斷所述網頁是否為關聯網頁。即當所述網頁包括關聯網頁URL模式時,判斷所述網頁為關聯網頁。
[0218]步驟400,返回所述網頁及所述網頁關聯的首頁信息。
[0219]本發明實施例可以存儲有關聯網頁URL模式及其對應的網頁的對應關系,只要查詢所述網頁的關聯網頁URL模式及其對應的網頁的對應關系即可獲得所述網頁關聯的首頁。
[0220]當獲得搜索結果后,搜索引擎即可以將搜索結果展示在用戶閱覽的界面上以供用戶使用。
[0221]本發明在判斷獲得與關鍵詞匹配的網頁為關聯網頁時,返回該網頁及該網頁關聯的首頁信息,避免了用戶重復搜索或者查找首頁的過程,進一步減少了系統的操作,減少了系統資源的占用,提聞了搜索的效率。[0222]對于方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明并不受所描述的動作順序的限制,因為依據本發明,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優選實施例,所涉及的動作和模塊并不一定是本發明所必須的。
[0223]參照圖4,示出了本發明一個實施例的一種關聯網頁搜索系統實施例的結構框圖,具體可以包括如下模塊:
[0224]搜索請求接收模塊401,適于接收搜索請求;所述請求中包括搜索關鍵詞;
[0225]匹配網頁獲得模塊402,適于依據所述搜索關鍵詞在預置的關聯網頁數據庫中進行查找,獲得與所述關鍵詞匹配的網頁;
[0226]多頁關聯網頁判斷模塊403,適于判斷所述網頁是否為關聯網頁;若是,則調用信息返回模塊404 ;
[0227]信息返回模塊404,適于返回所述網頁及所述網頁關聯的首頁信息。
[0228]在本發明的一種優選實施例中,所述關聯網頁數據庫通過調用以下子模塊建立:
[0229]關聯網頁URL判斷子模塊,適于判斷抓取到的網頁是否包括關聯網頁URL模式;若是,則調用關聯網頁URL模式獲取子模塊;
[0230]關聯網頁URL模式獲取子模塊,適于獲取所述關聯網頁URL模式;
[0231]關聯網頁獲取子模塊,適于采用所述關聯網頁URL模式獲取對應的關聯網頁;
[0232]關聯網頁數據庫建立子模塊,適于采用所述所述關聯網頁URL模式對應的關聯網頁建立關聯網頁數據庫。
[0233]在本發明的一種優選實施例中,所述關聯網頁URL模式子模塊具體可以包括如下單元:
[0234]翻頁特征字符串判斷單元,適于判斷當前網頁的頁面元素中是否具有翻頁特征字符串;若是,則調用URL提取單元;
[0235]URL提取單元,適于提取所述翻頁特征字符串鏈接的URL ;
[0236]第一特征RUL前綴獲得單元,適于采用預置的替換字符替換當前網頁的URL中的數字塊,獲得第一特征URL前綴;其中,所述數字塊為被間隔標識分割出的單個數字或多個
數字;
[0237]第二特征RUL前綴獲得單元,適于采用預置的替換字符替換所述翻頁特征字符串鏈接的URL中的數字塊,獲得第二特征URL前綴;
[0238]判定單元,適于關聯網頁URL模式當所述第一特征URL前綴與所述第二特征URL前綴相同時,則判定抓取到的網頁是否包括關聯網頁URL模式。
[0239]在本發明的一種優選實施例中,所述翻頁特征字符串判斷單元還可以適于:
[0240]采用翻頁特征字符串在當前網頁的DOM樹節點中進行匹配;
[0241]當匹配成功時,則判斷當前網頁具有翻頁特征字符串。
[0242]在本發明的一種優選實施例中,所述第一特征RUL前綴獲得單元還可以適于:
[0243]采用相同的替換字符替換當前網頁的URL中不同位置的數字塊,獲得第一特征URL前綴;
[0244]所述第二特征RUL前綴獲得單元還適于:
[0245]采用相同的替換字符替換所述特征字符串鏈接的URL中不同位置的數字塊,獲得第二特征URL前綴。
[0246]在本發明的一種優選實施例中,所述第一特征RUL前綴獲得單元還可以適于:
[0247]分別采用不同的替換字符,替換當前網頁的URL中不同位置的數字塊,獲得第一特征URL前綴;
[0248]所述第二特征RUL前綴獲得單元還適于:
[0249]分別采用與第一特征URL相同的替換字符替換所述翻頁特征字符串鏈接的URL在相同位置的數字塊,獲得第二特征URL前綴。
[0250]在本發明的一種優選實施例中,所述關聯網頁URL模式獲取模塊還可以適于:
[0251]將所述第一特征URL前綴或第二特征URL前綴作為所述當前網頁的對應的關聯網頁URL模式。
[0252]在本發明的一種優選實施例中,所關聯網頁獲取模塊還可以適于:
[0253]通過對關聯網頁URL模式中的共性部分進行結構分析,提取關聯網頁URL模式中的翻頁塊,將所述翻頁塊替換為首頁標識獲得首頁關聯網頁的URL ;其中,所述翻頁塊為多個關聯網頁URL模式中位置相同但數字不同的數字塊;
[0254]訪問所述首頁關聯網頁的URL獲取所述首頁關聯網頁。
[0255]在本發明實施例的一種優選示例中,所述首頁標識包括0、1和/或當前關聯網頁中的最大數值。
[0256]對于圖4的系統實施例而言,由于其與圖1的方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
[0257]在此提供的算法和顯示不與任何特定計算機、虛擬系統或者其它設備固有相關。各種通用系統也可以與基于在此的示教一起使用。根據上面的描述,構造這類系統所要求的結構是顯而易見的。此外,本發明也不針對任何特定編程語言。應當明白,可以利用各種編程語言實現在此描述的本發明的內容,并且上面對特定語言所做的描述是為了披露本發明的最佳實施方式。
[0258]在此處所提供的說明書中,說明了大量具體細節。然而,能夠理解,本發明的實施例可以在沒有這些具體細節的情況下實踐。在一些實例中,并未詳細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。
[0259]類似地,應當理解,為了精簡本公開并幫助理解各個發明方面中的一個或多個,在上面對本發明的示例性實施例的描述中,本發明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該公開的方法解釋成反映如下意圖:即所要求保護的本發明要求比在每個權利要求中所明確記載的特征更多的特征。更確切地說,如下面的權利要求書所反映的那樣,發明方面在于少于前面公開的單個實施例的所有特征。因此,遵循【具體實施方式】的權利要求書由此明確地并入該【具體實施方式】,其中每個權利要求本身都作為本發明的單獨實施例。
[0260]本領域那些技術人員可以理解,可以對實施例中的設備中的模塊進行自適應性地改變并且把它們設置在與該實施例不同的一個或多個設備中。可以把實施例中的模塊或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。
[0261]此外,本領域的技術人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發明的范圍之內并且形成不同的實施例。例如,在下面的權利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
[0262]本發明的各個部件實施例可以以硬件實現,或者以在一個或者多個處理器上運行的軟件模塊實現,或者以它們的組合實現。本領域的技術人員應當理解,可以在實踐中使用微處理器或者數字信號處理器(DSP)來實現根據本發明實施例的關聯網頁搜索設備中的一些或者全部部件的一些或者全部功能。本發明還可以實現為用于執行這里所描述的方法的一部分或者全部的設備或者裝置程序(例如,計算機程序和計算機程序產品)。這樣的實現本發明的程序可以存儲在計算機可讀介質上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網網站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
[0263]應該注意的是上述實施例對本發明進行說明而不是對本發明進行限制,并且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施例。在權利要求中,不應將位于括號之間的任何參考符號構造成對權利要求的限制。單詞“包含”不排除存在未列在權利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。
【權利要求】
1.一種關聯網頁搜索方法,包括: 接收搜索請求;所述請求中包括搜索關鍵詞; 依據所述搜索關鍵詞在預置的關聯網頁數據庫中進行查找,獲得與所述關鍵詞匹配的網頁; 判斷所述網頁是否為關聯網頁;若是,則返回所述網頁及所述網頁關聯的首頁信息。
2.如權利要求1所述的方法,其特征在于,所述關聯網頁數據庫通過以下方式建立: 判斷抓取到的網頁是否包括關聯網頁URL模式;若是,則獲取所述關聯網頁URL模式; 采用所述關聯網頁URL模式獲取對應的關聯網頁; 采用所述所述關聯網頁URL模式對應的關聯網頁建立關聯網頁數據庫。
3.如權利要求2所述的方法,其特征在于,所述判斷抓取到的網頁是否包括關聯網頁URL模式的步驟包括: 判斷當前網頁的頁面元素中是否具有翻頁特征字符串;若是,則提取所述翻頁特征字符串鏈接的URL ; 采用預置的替換字符替換當前網頁的URL中的數字塊,獲得第一特征URL前綴;其中,所述數字塊為被間隔標識分割出的單個數字或多個數字; 采用預置的替換字符替換所述翻頁特征字符串鏈接的URL中的數字塊,獲得第二特征URL前綴; 當所述第一特征URL前綴與所述第二特征URL前綴相同時,則判定抓取到的網頁是否包括關聯網頁URL模式。
4.如權利要求3所述的方法,其特征在于,所述判斷當前網頁的頁面元素中是否具有翻頁特征字符串的步驟包括: 采用翻頁特征字符串在當前網頁的DOM樹節點中進行匹配; 當匹配成功時,則判斷當前網頁具有翻頁特征字符串。
5.如權利要求3所述的方法,其特征在于,所述采用預置的替換字符替換當前網頁的URL中的數字塊,獲得第一特征URL前綴的步驟為: 采用相同的替換字符替換當前網頁的URL中不同位置的數字塊,獲得第一特征URL前三雙; 所述采用預置的替換字符替換所述翻頁特征字符串鏈接的URL中的數字塊,獲得第二特征URL前綴的步驟為: 采用相同的替換字符替換所述特征字符串鏈接的URL中不同位置的數字塊,獲得第二特征URL前綴。
6.如權利要求3所述的方法,其特征在于,所述采用預置的替換字符替換當前網頁的URL中的數字塊,獲得第一特征URL前綴的步驟為: 分別采用不同的替換字符,替換當前網頁的URL中不同位置的數字塊,獲得第一特征URL前綴; 所述采用預置的替換字符替換所述翻頁特征字符串鏈接的URL中的數字塊,獲得第二特征URL前綴的步驟為: 分別采用與第一特征URL相同的替換字符替換所述翻頁特征字符串鏈接的URL在相同位置的數字塊,獲得第二特征URL前綴。
7.如權利要求3或4或5或6所述的方法,其特征在于,所述采用所述關聯網頁URL模式獲取對應的關聯網頁的步驟包括: 將所述第一特征URL前綴或第二特征URL前綴作為所述當前網頁的對應的關聯網頁URL模式。
8.如權利要求3或4或5或6所述的方法,其特征在于,所述獲取所述關聯網頁URL模式對應的關聯網頁的步驟包括: 通過對關聯網頁URL模式中的共性部分進行結構分析,提取關聯網頁URL模式中的翻頁塊,將所述翻頁塊替換為首頁標識獲得首頁關聯網頁的URL;其中,所述翻頁塊為多個關聯網頁URL模式中位置相同但數字不同的數字塊; 訪問所述首頁關聯網頁的URL獲取所述首頁關聯網頁。
9.如權利要求8所述的方法,其特征在于,所述首頁標識包括0、1和/或當前關聯網頁中的最大數值。
10.一種關聯網頁搜索系統,包括: 搜索請求接收模塊,適于接收搜索請求;所述請求中包括搜索關鍵詞; 匹配網頁獲得模塊,適于依據所述搜索關鍵詞在預置的關聯網頁數據庫中進行查找,獲得與所述關鍵詞匹配的網頁; 多頁關聯網頁判斷模塊,適于判斷所述網頁是否為關聯網頁;若是,則調用信息返回模塊; 信息返回模塊,適于返回所述網頁及所述網頁關聯的首頁信息。
【文檔編號】G06F17/30GK103617225SQ201310603918
【公開日】2014年3月5日 申請日期:2013年11月25日 優先權日:2013年11月25日
【發明者】王智廣 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司