本發明涉及通信領域,特別涉及一種數據處理方法和設備。
背景技術:
近些年,包括互聯網搜索系統、自動導航系統、自動問答系統、機器翻譯系統、語音識別系統等在內的智能系統取得了巨大進展,其背后是更深、更廣、更新和更加準確的知識庫的構建和使用。
在構建領域知識庫的過程中,往往需要從各種網站抓取數據,并從中過濾掉那些與領域知識庫構建無關的頁面,進而再從剩下的相關頁面中抽取想要的領域對象加入到領域知識庫中,從而完成領域知識庫的構建。
在過濾那些與領域知識庫構建無關的頁面的過程中,相關技術會通過url規則進行匹配的方式來過濾。但是現在很多網站的web頁面通過url規則無法進行有效的過濾,造成過濾后剩下的web頁面中仍存在與領域知識庫構建無關的頁面。
技術實現要素:
本發明實施例提供了一種數據處理的方法和設備,能夠有效過濾無關的頁面。
第一方面,提供一種數據處理的方法,該方法可由各種不同的終端來執行,且可應用于對網絡上各種數據的采集,包括但不限于領域知識庫建立過程中的數據處理。所述方法可包括:抓取目標網站的web頁面,其中所述目標網站可以為預先設定的執行抓取操作所針對的網站,例如目標網站為京東、天貓等;在抓取到目標網站的web頁面之后,即可基于預先設定的過濾規則集,對抓取的所述web頁面進行過濾,其中,所述過濾規則集可包括若干條過濾規則,一般地,過濾規則集中的過濾規則可以有多條,例如,當需要采集手機領域的數據時,可針對各種不同網站中的每個網站設置一條過濾規則。其中,每一條過 濾規則包含分類規則,所述分類規則指示與網站類別有關的信息。現有技術在對采集的數據進行過濾時,一般都是通過url規則進行匹配的方式來過濾,但是現在很多網站(比如京東網站)的web頁面通過url規則無法進行有效的過濾。在本發明實施例中,通過在過濾規則中引入分類規則,利用分類規則來對web頁面進行過濾,如此,能夠有效過濾無關的頁面,增強和完善了web頁面的過濾,實現了更加有針對性地進行數據處理。
在一種可能的設計中,在抓取目標網站的web頁面之后,所述方法還可包括:解析抓取的web頁面的面包屑信息以獲取該web頁面的類別。一般地,web頁面的面包屑信息包括當前頁面所屬類別的信息,通過解析所述面包屑信息即可確定web頁面所屬的類別,進而便于后續基于分類規則來對web頁面進行過濾。
在一種可能的設計中過濾規則集中的每一條過濾規則中除了包括分類規則之外,還包括url規則;在此情況下,相應地,所述基于所述目標網站的過濾規則集,對抓取的web頁面進行過濾包括:確定所述web頁面的url與所述過濾規則集中的一條或多條過濾規則中的url規則匹配;根據所述一條或多條過濾規則中的分類規則對抓取的所述web頁面進行過濾。在此實現方式中,過濾規則中包括url規則和分類規則,這樣一來,一方面可以對抓取的web頁面可以先利用url規則進行初步過濾,另一方面,可以對那些用url規則無法過濾的web網頁利用分類規則進行進一步的過濾,如此,提高過濾的效果,實現更加準確的過濾。
在另一種可能的設計中,所述根據所述一條或多條過濾規則中的分類規則對抓取的所述web頁面進行過濾可包括:確定所述一條或多條過濾規則中的分類規則對web頁面的類別無要求;保留所述web頁面。在此實現方式中,通過確定過濾規則中的分類規則對類別無要求,可以認定過濾規則中的分類規則不發揮作用,而只有過濾規則中的url規則發揮作用。由于基于分類規則的過濾是在抓取的web頁面的url滿足url規則的情況下進行的,因而,此種實現方式可完全兼容現有技術中基于url規則的過濾,可以保證在分類規則對web頁面的類別沒有要求時仍能夠利用url規則對web頁面進行過濾。
在一種可能的設計中,所述根據所述一條或多條過濾規則中的分類規則對抓取的所述web頁面進行過濾可包括:確定所述web頁面的類別與所述一條 或多條過濾規則中至少一條過濾規則的分類規則匹配,保留抓取的所述web頁面;或,確定所述web頁面的類別與所述一條或多條過濾規則中的分類規則都不匹配,丟棄抓取的所述web頁面。此種實現方式可應用于分類規則對web頁面的類別有要求的情形。通過將web頁面的類別與過濾規則中的分類規則進行匹配,且在匹配時保留抓取的web頁面,不匹配時丟棄抓取的web頁面。此種基于分類規則的具體過濾方式,可以有效過濾掉那些url與過濾規則中的url規則匹配但類別與過濾規則中的分類規則不匹配的web頁面,實現更加有針對性地過濾。
在一種可能的設計中,在所述對抓取的所述web頁面進行過濾之后,所述方法還包括:根據預設的抽取邏輯,抽取過濾后的web頁面的領域對象。在發明實施例中,過濾規則集中的每一條過濾規則還可包括預設的抽取邏輯;匹配不同的過濾規則,執行不同的抽取邏輯,如此保證抽取邏輯隨著過濾規則的變化而變化,實現更加靈活的抽取邏輯。本實現方式可應用于領域知識庫的構建,抽取的各種web頁面中的領域對象可整合到一起,組成領域知識庫。
第二方面,提供一種數據處理的設備,該數據處理的設備具有實現上述第一方面中數據處理的設備行為的功能。所述功能可以通過硬件實現,也可以通過硬件執行相應的軟件實現。所述硬件或軟件包括一個或多個與上述功能相對應的模塊。
在一個可能的設計中,數據處理的設備的結構中包括處理器和存儲器,所述存儲器用于存儲支持數據處理的設備執行上述方法的程序,所述處理器被配置為用于執行所述存儲器中存儲的程序。所述數據處理的設備還可以包括通信接口,用于數據處理的設備與其他設備或通信網絡通信。
第三方面,本發明實施例提供了一種非臨時性計算機存儲介質,用于存儲執行上述方面為數據處理的設備所設計的程序,所述程序包括上述數據處理的設備所用的計算機軟件指令。
本發明實施例提供的數據處理方法和設備,通過在過濾規則集的過濾規則中引入分類規則,利用分類規則來對web頁面進行過濾,如此,能夠有效過濾無關的頁面,增強和完善了web頁面的過濾,實現了更加有針對性地進行數據處理。
附圖說明
為了更清楚地說明本發明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1是本發明實施例提供的數據處理的方法的流程圖;
圖2是本發明實施例提供的另一種數據處理的方法的流程圖;
圖3是本發明實施例提供的數據處理的設備的結構框圖;
圖4是本發明實施例提供的數據處理的設備的結構示意圖。
具體實施方式
為使本發明的目的、技術方案和優點更加清楚,下面將結合附圖對本發明實施方式作進一步地詳細描述。
本發明實施例提供的數據處理方法和設備,可用于領域知識庫建立過程中的數據(例如領域知識對象)采集。所述領域知識庫是指一個特定領域的知識庫,例如手機領域的知識庫,冰箱領域的知識庫等;以手機領域為例,領域知識對象可以為手機詳情,例如手機的配置、型號、廠商等內容。
本發明實施例提供的數據處理方法可涉及到終端和服務器之間的交互。所述服務器可以為web網站的服務器,上面存儲有供采集的各種數據;所述終端可以為各種不同類型的終端,例如個人電腦(pc)、手機、ipad、服務器、大型數據分析平臺等。在進行交互的過程中,終端會向存儲有供采集的各種數據的目標服務器發送請求,所述目標服務器在接收到該請求后進而向所述終端反饋相應的數據。在此交互過程中,所述終端和所述服務器之間可能會存在一或多個中間網絡裝置,經由所述一或多個中間網絡裝置來完成所述終端和所述服務器的交互。
在進行數據處理的過程中,會涉及到數據的抓取、過濾和抽取過程。而在進行數據處理之前,還需要進行領域對象抽取邏輯的定制。這樣,在抽取過程中會利用領域對象抽取邏輯來抽取相應的數據。
本發明實施例中的抓取、過濾和抽取過程可以由本發明實施例提供的數據處理的設備中的抓取模塊、過濾模塊和抽取模塊來完成。其中,抓取模塊、過 濾模塊和抽取模塊可分別作為獨立的模塊位于一個獨立的數據處理設備(可以為上文提到的終端)中。當然,在本發明的范圍內,數據處理的過程也可以由相互獨立的各個不同裝置來完成。即,抓取模塊可對應于一個獨立的裝置,過濾模塊可對應于一個獨立的裝置,抽取模塊也可對應于一個獨立的裝置。這三個獨立的裝置可分布于不同的地理位置,它們相互配合來完成數據的采集。也就是說,在本發明實施例中可以由三個終端分別發揮數據過濾、過濾和抽取的作用,它們一起配合來完成數據的采集過程。
在本發明實施例中,數據的抓取過程可以為,利用爬蟲從指定的目標網站周期性地獲取web頁面,直至滿足一定的停止條件,所述停止條件可以為例如遍歷完目標網站的所有url。
過濾過程可以為,過濾掉跟本領域不相關的web頁面,只留下與本領域相關的web頁面進行后續處理。比如說要構建手機知識庫,但是爬蟲獲取的web頁面會包括京東的家紡類的頁面、天貓服裝類的頁面或者廣告等與手機不相關的頁面,因此在構建手機知識庫時,需要將這些頁面過濾掉。
領域對象自動抽取過程可以為,根據預先定制的領域對象抽取邏輯,對獲得的與目標領域相關的web頁面內容進行抽取,以得到目標領域的知識對象。
本發明實施例提供一種數據處理的方法,能夠有效過濾與領域知識庫構建無關的頁面。
圖1是本發明實施例提供的一種數據處理的方法的流程圖。參見圖1,本發明實施例提供的數據處理的方法可包括:
11、抓取目標網站的web頁面。
其中,所述目標網站為數據抓取操作所針對的網站。所述目標網站可由用戶預先設置。
所述目標網站可以是一個或多個初始網頁,例如所述目標網站可為www.douban.com,又例如所述目標網站可為www.jd.com。又例如,所述目標網站可為www.douban.com和www.jd.com等。以目標網站為www.jd.com為例,步驟11中會抓取京東網站下的所有web頁面,例如可包括京東網站中涉及手機的web頁面,涉及服裝的web頁面,涉及圖書的web頁面等等。
12、基于過濾規則集,對抓取的所述web頁面進行過濾,其中,所述過濾規則集包括若干條過濾規則,且每一條過濾規則包含分類規則,所述分類規則 指示與網站類別有關的信息。
其中,舉例而言,當所述目標網站為www.jd.com時,所述過濾規則集中可以包括一或多條過濾規則,滿足所述一或多條過濾規則的web頁面保留,而不滿足所述一或多條過濾規則的web頁面可以丟棄。所述過濾規則集中的過濾規則的數量可以根據需要來設置,例如當只需要京東網站中涉及手機的web頁面時,可以只設置一條過濾規則;當需要京東網站中涉及手機和圖書的web頁面時,可以設置兩條過濾規則,例如針對涉及手機的web頁面設置一條過濾規則,針對涉及圖書的web頁面設置一條過濾規則。當目標網站為www.douban.com和www.jd.com時,同樣地可以設置一或多條過濾規則,例如針對一個網站設置一條過濾規則,或者針對一個網站設置多條規則等。
其中,所述分類規則可指示與網站類別有關的信息。在步驟11中所述抓取目標網站的web頁面之后,本發明實施例提供的數據處理的方法還可包括:解析所述web頁面的面包屑信息以獲取所述web頁面的類別。亦即,本發明實施例可通過解析web頁面的面包屑信息這種特定方式來獲取web頁面的類別。在獲取到web頁面的類別之后,即可利用該類別與分類規則進行匹配,以確定是否滿足分類規則。
本發明實施例提供的數據處理方法,通過在過濾規則集的過濾規則中引入分類規則,利用分類規則來對web頁面進行過濾,如此,能夠有效過濾無關的頁面,增強和完善了web頁面的過濾,實現了更加有針對性地進行數據處理。
需要說明的是,上述實施例提供的數據處理的方法可以應用于領域知識庫構建過程中的領域對象的采集。當進行領域對象的采集時,過濾規則集中的每一條過濾規則可為涉及具體領域(例如,手機、圖書等)的過濾規則。相應地,本發明實施例提供的數據處理的方法在步驟12之后,還可包括抽取過濾后的web頁面的領域對象。以手機領域為例,過濾后的web頁面可以為涉及手機的web頁面,此時,過濾后的web頁面上的領域對象可以為手機詳情,例如手機的配置、型號、廠商等內容。
下面對步驟12中所述基于過濾規則集,對抓取的所述web頁面進行過濾進行詳細闡釋。
在本發明實施例中,除了分類規則之外,過濾規則集中的所述過濾規則中還可包括url規則。相應地,步驟12中所述基于過濾規則集,對抓取的所述 web頁面進行過濾可包括:
確定所述web頁面的url與所述過濾規則集中的一條或多條過濾規則中的url規則匹配;
根據所述一條或多條過濾規則中的分類規則對抓取的所述web頁面進行過濾。
本發明實施例提供的數據處理的方法可先進行url規則匹配,進而再從url匹配一條或多條過濾規則中的url規則的那些web頁面中,基于分類規則進行web頁面過濾。如此,可以實現更加有針對性地進行數據過濾。
在本發明實施例中,所述一條或多條過濾規則中的分類規則可存在以下情形:對web頁面的類別無要求,即所有類別均滿足分類規則;對web頁面的類別有要求,即只有某一類別才滿足分類規則。
在一種可能的情形中,所述一條或多條過濾規則中的分類規則對web頁面的類別無要求。此時,所述根據所述一條或多條過濾規則中的分類規則對抓取的所述web頁面進行過濾可包括:確定所述一條或多條過濾規則中的分類規則對web頁面的類別無要求;保留所述web頁面。
在對web頁面的類別無要求的情形中,同樣可以基于過濾規則中的url規則來實現對抓取的所述web頁面進行過濾。
在另一種可能的情形中,所述一條或多條過濾規則中的分類規則對web頁面的類別有要求。此時,所述根據所述一條或多條過濾規則中的分類規則對抓取的所述web頁面進行過濾可包括:確定所述web頁面的類別與所述一條或多條過濾規則中至少一條過濾規則的分類規則匹配,保留抓取的所述web頁面;或者,確定所述web頁面的類別與所述一條或多條過濾規則中的分類規則都不匹配,丟棄抓取的所述web頁面。
圖2是本發明實施例提供的一種數據處理的方法的流程圖。參見圖2,本發明實施例提供的數據處理的方法可包括:
21、抓取目標網站的web頁面。
22、判斷所述web頁面的url與預先配置的過濾規則中的所述url規則是否匹配。其中,所述過濾規則為過濾規則集中的過濾規則。
23、在所述web頁面的url與所述url規則不匹配時,丟棄抓取的所述 web頁面。
24、在所述web頁面的url與所述url規則匹配時,判斷所述目標網站的分類規則是否指示對類別無要求。
25、在所述目標網站的分類規則為指示對類別無要求時,則保留所述web頁面。
26、在所述目標網站的分類規則不是對類別無要求時,獲取所述web頁面的類別。
其中,可通過解析所述web頁面的面包屑信息來獲取所述web頁面的類別。具體地,一般網站的面包屑信息都將呈現當前web頁面的分類信息(類別)。比如電商網站中,商品的詳情頁面url可能是類似的(不同商品的url差異在于商品id不同,例如京東網站的網頁http://item.jd.com/1861095.html,數字標號1861095代表一個商品,另外一個數字標號可能代表另外一個商品),商品詳情頁面的面包屑將包含本商品的真實分類信息,不同商品對象由于本身所屬領域不同其面包屑導航信息也可能不相同。
比如京東網站的商品詳情的面包屑導航信息中可包括詳細的當前商品對象的分類信息歸屬(類別),例如手機/手機通訊/手機/小米(mi)/小米紅米2a增強版。
對于不同網站的web頁面,面包屑信息都有其網站相對固定的表示方法,比如采用特定htmldiv進行標識,例如京東的面包屑信息采用divid="root-nav"、亞馬遜的面包屑采用divid="wayfinding-breadcrumbs_container"等。
可以通過配置相關web網站的divid或其他可以獲得面包屑的html特征標識實現自動獲得相關web網站頁面的面包屑信息,進而獲得當前頁面的分類信息(類別)。
27、確定所述web頁面的類別是否匹配所述過濾規則中所述目標網站的分類規則。
28、若匹配,則保留抓取的所述web頁面。
29、若不匹配,則丟棄抓取的所述web頁面。
其中,在步驟21之前,可預先配置目標網站,目標網站例如可以為豆瓣、京東等。同時,在步驟21之前,可先完成過濾規則的配置以及領域對象抽取邏輯的定制,這樣便可以對過濾后保留的web頁面使用定制的領域對象抽取邏輯進行抽取,獲得目標領域的知識對象。
本發明實施例提供的數據處理方法,通過在過濾規則中引入了目標網站的分類規則,并通過匹配抓取的web頁面的類別與目標網站的分類規則來進行過濾,如此,增強和完善了web頁面的過濾,實現了在領域知識庫構建過程中更加有針對性地進行數據處理。
下面以舉例的方式來對過濾匹配的過程進行進一步說明。
在本發明實施例中,在對web頁面進行過濾匹配之前,可先建立過濾規則集。在一種可能的實現方式中,所述過濾規則集是針對所有網站而言的。通過一定的權限控制,用戶可以根據自己的需要增加或刪除過濾規則集中的過濾規則。舉例而言,用戶可預先配置過濾規則集,當中有涉及各個不同目標網站的過濾規則,例如包含天貓、京東、蘇寧易購等目標網站。當用戶想增加當當網站時,可將目標網站為當當的過濾規則添加到過濾規則集中。而當用戶不想要目標網站為蘇寧易購的過濾規則時,也可以將目標網站為蘇寧易購的過濾規則移除出過濾規則集。
作為一種示例,過濾規則集中的過濾規則可如下表一所示:
表一
需了解的是,上面過濾規則集中的過濾規則是示例性的,而非限制性的。在本發明中,用戶可根據自身的需求來增加或減少過濾規則集中過濾規則的數目和內容。
在本發明實施例中,通過配置web頁面過濾規則集中的過濾規則可以自動對抓取的web頁面進行過濾。
下文中以用戶選擇目標網站是京東、采集京東手機領域的數據為例來進行描述。
在進行數據處理時可通過爬蟲來抓取京東網站的各種web頁面。數據的抓取過程可以為,利用爬蟲從指定的目標網站周期性地獲取web頁面,直至滿足一定的停止條件,所述停止條件可以為例如遍歷完目標網站的所有url。因而,進行數據抓取之后,可得到各種不同的web頁面。抓取過來的web頁面的范例可如下表二所示:
表二
京東的所有商品詳情頁weburl規則為http://item.jd.com/{商品id}.html。因而,對于京東網站,單單從url的規則是無法有效區分不同的產品,例如根據url無法將電子類產品(表二的第二欄)和圖書類產品(表二的第三欄)區分開,進而無法進行有效過濾。而采用本發明實施例提供的方法可實現有效過濾。
在本發明實施例中,在獲取到京東的web頁面后,可先判斷所述web頁面的url與預先配置的過濾規則中的url規則是否匹配;當匹配時,需要進一步確定該web頁面的類別是否與相應的過濾規則的分類規則匹配,只有同時匹配過濾規則集中的某個過濾規則的url規則和分類規則時,該web頁面才算匹配這條過濾規則,并執行該過濾規則對應的處理邏輯。對于無法匹配過濾規則集中的任一條過濾規則的web頁面可以執行預設的處理邏輯,例如丟棄該web頁面。
如上表二第四欄所示,當獲取到的京東的web頁面的url為
channel.jd.com/*,其中*表示通配符,后面可以是任何字符。此時,該web頁面的url匹配表一中的第4個過濾規則的url規則,且第4個過濾規則的 分類規則為na(不考慮分類規則),因此該web頁面匹配表一中的第4個過濾規則,從而執行相應的處理邏輯,即丟棄該web頁面。
如上表二第二欄所示,當獲取到的京東的web頁面的url為
http://item.jd.com/1861095.html時,可以確定該web頁面的url與表一中的第2和第3個過濾規則中的url規則(item.jd.com/*.html)匹配。此時,若按照現有技術,則無法實現對此web頁面的過濾。而在本發明實施例中,為了確定對該web頁面執行什么處理邏輯,需要進一步確定該web頁面的類別是否與相應的過濾規則的分類規則匹配。此時,需要進一步獲取過濾規則中的分類規則,判斷該分類規則是否指示對類別無要求。顯然,由上表一可知,第2和第3個過濾規則中的分類規則對類別都有要求。此時,需要獲取抓取的web頁面的類別。例如,通過解析所述web頁面的面包屑信息來獲取所述web頁面的類別。由于抓取的web頁面http://item.jd.com/1861095.html的類別為,手機/手機通訊/手機/apple/appleiphone6splus,匹配京東過濾規則中的分類規則(
手機/手機通訊/手機),即抓取的web頁面http://item.jd.com/1861095.html匹配表一中的第2條過濾規則。因而,執行相應的處理邏輯,即保留抓取的所述web頁面http://item.jd.com/1861095.html。可選的,并根據預設的抽取邏輯抽取該頁面中的手機詳情。
需要說明的是,本發明實施例不限定目標網站的數量,例如,當需要構建圖書領域的知識庫時,用戶可以同時設定豆瓣和京東作為目標網站。
本發明實施例提供的數據處理的方法,基于過濾規則集中過濾規則中的分類規則來進行數據處理,能夠實現更加自動化的領域知識庫構建。
圖3是本發明實施例提供的數據處理的設備的結構框圖。參照圖3,本發明實施例提供的數據處理的設備300包括抓取模塊301和過濾模塊302。其中:
所述抓取模塊301,用于抓取目標網站的web頁面;
所述過濾模塊302,用于基于過濾規則集,對抓取的所述web頁面進行過濾,其中,所述過濾規則集包括若干條過濾規則,且每一條過濾規則包含分類規則,所述分類規則指示與網站類別有關的信息。
本發明實施例提供的數據處理的設備,通過在過濾規則集的過濾規則中引入分類規則,利用分類規則來對web頁面進行過濾,如此,增強和完善了web 頁面的過濾,實現了更加有針對性地進行數據處理。
可選地,在一個實施例中,所述設備300還包括解析模塊303,用于在所述抓取目標網站的web頁面之后,解析所述抓取模塊301抓取的所述web頁面的面包屑信息,以獲取所述web頁面的類別。
可選地,在另一個實施例中,所述過濾規則中還包括url規則,所述過濾模塊302具體用于:
確定所述web頁面的url與所述過濾規則集中的一條或多條過濾規則中的url規則匹配,根據所述一條或多條過濾規則中的分類規則對抓取的所述web頁面進行過濾。
其中,在所述一條或多條過濾規則中的分類規則對web頁面的類別無要求時,所述過濾模塊302可具體用于:
確定所述一條或多條過濾規則中的分類規則指示對web頁面的類別無要求;
保留所述web頁面。
其中,在所述一條或多條過濾規則中的分類規則對web頁面的類別有要求時,所述過濾模塊302可具體用于:
確定所述web頁面的類別匹配所述一條或多條過濾規則中至少一條過濾規則的的分類規則,保留抓取的所述web頁面;
或者,
確定所述web頁面的類別與所述一條或多條過濾規則中的分類規則都不匹配,丟棄抓取的所述web頁面。
可選地,在另一個實施例中,所述設備300還包括抽取模塊304,用于抽取所述過濾模塊過濾后的web頁面中的領域對象。
本發明實施例提供的數據處理設備,通過在過濾規則集的過濾規則中引入分類規則,利用分類規則來對web頁面進行過濾,如此,能夠有效過濾無關的頁面,增強和完善了web頁面的過濾,實現了更加有針對性地進行數據處理。
圖4是本發明實施例提供的一種數據處理設備的結構示意圖。參照圖4,本發明實施例提供的數據處理的裝置400包括:至少一個處理器401、存儲器402、通信接口403和總線。處理器401、存儲器402和通信接口403通過總線連接并 完成相互間的通信。所述總線可以是工業標準體系結構(industrystandardarchitecture,簡稱為isa)總線、外部設備互連(peripheralcomponent,簡稱為pci)總線或擴展工業標準體系結構(extendedindustrystandardarchitecture,簡稱為eisa)總線等。所述總線可以分為地址總線、數據總線、控制總線等。為便于表示,圖4中僅用一條粗線表示,但并不表示僅有一根總線或一種類型的總線。其中:
存儲器402用于存儲可執行程序代碼,該程序代碼包括計算機操作指令。存儲器402可以為高速ram存儲器,也可能為非易失性存儲器(non-volatilememory),例如至少一個磁盤存儲器。
在一個實施例中,處理器401通過讀取存儲器402中存儲的可執行程序代碼來運行與所述可執行程序代碼對應的程序,以用于:
抓取目標網站的web頁面;
基于所述目標網站的過濾規則集,對抓取的所述web頁面進行過濾,其中,所述過濾規則集包括若干條過濾規則,且每一條過濾規則包含分類規則。
本發明實施例提供的數據處理的裝置,通過在過濾規則集的過濾規則中引入分類規則,利用分類規則來對web頁面進行過濾,如此,增強和完善了web頁面的過濾,實現了更加有針對性地進行數據處理。
其中,所述過濾規則中還包括url規則;所述基于所述目標網站的過濾規則集,對抓取的所述web頁面進行過濾可包括:確定所述web頁面的url與所述過濾規則集中的一條或多條過濾規則中的url規則匹配;根據所述一條或多條過濾規則中的分類規則對抓取的所述web頁面進行過濾。
可選地,所述根據所述一條或多條過濾規則中的分類規則對抓取的所述web頁面進行過濾包括:確定所述一條或多條過濾規則中的分類規則對web頁面的類別無要求;保留所述web頁面。
可選地,所述根據所述一條或多條過濾規則中的分類規則對抓取的所述web頁面進行過濾包括:確定所述web頁面的類別與所述一條或多條過濾規則中至少一條過濾規則的分類規則匹配,保留抓取的所述web頁面;或者,確定所述web頁面的類別與所述一條或多條過濾規則中的分類規則都不匹配,丟棄抓取的所述web頁面。
在一個實施例中,所述分類規則指示與類別有關的信息,處理器401通過 讀取存儲器402中存儲的可執行程序代碼來運行與所述可執行程序代碼對應的程序,以用于:解析所述web頁面的面包屑信息以獲取所述web頁面的類別。
在一個實施例中,所述分類規則指示與類別有關的信息,處理器401通過讀取存儲器402中存儲的可執行程序代碼來運行與所述可執行程序代碼對應的程序,以用于:抽取過濾后的web頁面的領域對象。
本發明實施例提供的數據處理設備,通過在過濾規則集的過濾規則中引入分類規則,利用分類規則來對web頁面進行過濾,如此,能夠有效過濾無關的頁面,增強和完善了web頁面的過濾,實現了更加有針對性地進行數據處理。
需要說明的是:上述實施例提供的數據處理的設備僅以上述各功能模塊的劃分進行舉例說明,實際應用中,可以根據需要而將上述功能分配由不同的功能模塊完成,即將設備的內部結構劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實施例提供的數據處理的設備與數據處理的方法實施例屬于同一構思,其具體實現過程詳見方法實施例,這里不再贅述。
需要說明的是,本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于裝置類實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
本發明實施例還提供了一種計算機存儲介質,用于儲存實現上述圖4所示的數據處理設備的計算機軟件指令,其包含用于執行上述方法實施例所設計的程序。通過執行存儲的程序,能夠有效過濾無關的頁面,增強和完善了web頁面的過濾,實現了更加有針對性地進行數據處理。
需要說明的是,對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明并不受所描述的動作順序的限制,因為依據本發明,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優選實施例,所涉及的動作和模塊并不一定是本發明所必須的。
需要說明的是,對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明并不受所描述的動作順序的限制,因為依據本發明,某些步驟可以采用其他順序或者同時進行。 其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優選實施例,所涉及的動作和模塊并不一定是本發明所必須的。
盡管在此結合各實施例對本發明進行了描述,然而,在實施所要求保護的本發明過程中,本領域技術人員通過查看所述附圖、公開內容、以及所附權利要求書,可理解并實現所述公開實施例的其他變化。在權利要求中,“包括”(comprising)一詞不排除其他組成部分或步驟,“一”或“一個”不排除多個的情況。單個處理器或其他單元可以實現權利要求中列舉的若干項功能。相互不同的從屬權利要求中記載了某些措施,但這并不表示這些措施不能組合起來產生良好的效果。
本領域技術人員應明白,本發明的實施例可提供為方法、裝置(設備)、或計算機程序產品。因此,本發明可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、cd-rom、光學存儲器等)上實施的計算機程序產品的形式。計算機程序存儲/分布在合適的介質中,與其它硬件一起提供或作為硬件的一部分,也可以采用其他分布形式,如通過internet或其它有線或無線電信系統。
本發明是參照本發明實施例的方法、裝置(設備)和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處 理,從而在計算機或其他可編程設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
盡管結合具體特征及其實施例對本發明進行了描述,顯而易見的,在不脫離本發明的精神和范圍的情況下,可對其進行各種修改和組合。相應地,本說明書和附圖僅僅是所附權利要求所界定的本發明的示例性說明,且視為已覆蓋本發明范圍內的任意和所有修改、變化、組合或等同物。顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和范圍。這樣,倘若本發明的這些修改和變型屬于本發明權利要求及其等同技術的范圍之內,則本發明也意圖包含這些改動和變型在內。