一種攔截網頁中的廣告的方法及裝置制造方法
【專利摘要】本發明公開了一種攔截網頁中的廣告的方法及裝置,用于實現自動篩選出疑似廣告,快速識別出廣告,并自動生成攔截規則,為屏蔽廣告提供便利。其中,所述方法包括:獲取預置的網址對應的網頁數據;對所述網頁數據進行分析,獲得疑似廣告;判斷所述疑似廣告是否為實際廣告;當所述疑似廣告為實際廣告時,生成相應的廣告攔截規則;根據生成的相應的廣告攔截規則攔截網頁中的廣告。
【專利說明】—種攔截網頁中的廣告的方法及裝置
【技術領域】
[0001]本發明涉及網頁識別【技術領域】,尤其涉及一種攔截網頁中的廣告的方法及裝置。【背景技術】
[0002]隨著互聯網技術的不斷進步,互聯網用戶的不斷增加,電子商務產業取得了蓬勃發展,原來通過電視、樓宇等傳播的廣告越來越多地流向互聯網。
[0003]網頁中的廣告,比如頁面頂部的廣告、兩側浮游窗口的廣告、固定廣告位的廣告等,一般是網站運營商發布的,或者是關聯客戶發布的,所以網站運營商不會屏蔽這類廣告。但是這類廣告會給用戶造成干擾,如果用戶是使用手機等移動終端來瀏覽網頁,這些廣告會占用一定的流量資源。
[0004]因此,本發明的發明人發現,如何識別網頁中的廣告,為屏蔽廣告提供便利,成為目前亟待解決的技術問題。
【發明內容】
[0005]為克服相關技術中存在的問題,本發明實施例提供一種攔截網頁中的廣告的方法及裝置,用于實現自動篩選出疑似廣告,快速識別出廣告,并自動生成攔截規則,為屏蔽廣告提供便利。
[0006]一方面,本發明實施例提供了一種攔截網頁中的廣告的方法,包括:
[0007]獲取預置的網址對應的網頁數據;
[0008]對所述網頁數據進行分析,獲得疑似廣告;
[0009]判斷所述疑似廣告是否為實際廣告;
[0010]當所述疑似廣告為實際廣告時,生成相應的廣告攔截規則;
[0011]根據生成的相應的廣告攔截規則攔截網頁中的廣告。
[0012]優選地,所述對所述網頁數據進行分析,獲得疑似廣告,包括:獲取所述網頁數據的源文件中網頁元素的屬性標識;判斷所述屬性標識的值中是否包含廣告的特征字符;將包含廣告的特征字符的屬性標識對應的網頁元素確定為疑似廣告。
[0013]優選地,所述對所述網頁數據進行分析,獲得疑似廣告,包括:根據所述網頁數據,判斷網頁頁面中的預設位置是否存在預設尺寸區間內的窗口 ;當網頁頁面中的預設位置存在預設尺寸區間內的窗口時,將所述窗口對應的網頁數據確定為疑似廣告。
[0014]優選地,所述對所述網頁數據進行分析,獲得疑似廣告,包括:根據所述網頁數據,判斷是否存在與屏幕大小一致且置于頂層的全屏顯示的窗口,所述全屏顯示的窗口內存在不超過第一預設個數的圖片和第二預設個數的按鈕;當判斷為是時,將所述全屏顯示的窗口對應的網頁數據確定為疑似廣告。
[0015]優選地,所述對所述網頁數據進行分析,獲得疑似廣告,包括:判斷所述網頁數據中的窗口網頁元素的統一資源定位符URL是否為包含廣告的特征字符的URL;當所述網頁數據中的窗口網頁元素的URL為包含廣告的特征字符的URL時,將所述窗口網頁元素對應的網頁數據確定為疑似廣告。
[0016]優選地,所述判斷所述疑似廣告是否為實際廣告,包括:如果所述疑似廣告部分的填充顏色與網頁的填充顏色的色差達到預設的閾值;確定所述疑似廣告為實際廣告;或者根據所述疑似廣告的顏色直方圖變化率,判斷所述疑似廣告是否為實際廣告;當所述疑似廣告的顏色直方圖變化率大于或等于預設閾值時,確定所述疑似廣告為實際廣告。
[0017]另一方面,本發明實施例提供了一種攔截網頁中的廣告的裝置,包括:
[0018]獲取模塊,用于獲取預置的網址對應的網頁數據;
[0019]分析模塊,用于對所述網頁數據進行分析,獲得疑似廣告;
[0020]判斷模塊,用于判斷所述疑似廣告是否為實際廣告;
[0021]生成模塊,用于當所述疑似廣告為實際廣告時,生成相應的廣告攔截規則;
[0022]攔截模塊,用于根據生成的相應的廣告攔截規則攔截網頁中的廣告。
[0023]優選地,所述分析模塊用于獲取所述網頁數據的源文件中網頁元素的屬性標識;判斷所述屬性標識的值中是否包含廣告的特征字符;將包含廣告的特征字符的屬性標識對應的網頁元素確定為疑似廣告。
[0024]優選地,所述分析模塊用于根據所述網頁數據,判斷網頁頁面中的預設位置是否存在預設尺寸區間內的窗口 ;當網頁頁面中的預設位置存在預設尺寸區間內的窗口時,將所述窗口對應的網頁數據確定為疑似廣告。
[0025]優選地,所述分析模塊用于根據所述網頁數據,判斷是否存在與屏幕大小一致且置于頂層的全屏顯示的窗口,所述全屏顯示的窗口內存在不超過第一預設個數的圖片和第二預設個數的按鈕;當判斷為是時,將所述全屏顯示的窗口對應的網頁數據確定為疑似廣
生口 ο
[0026]優選地,所述分析模塊用于判斷所述網頁數據中的窗口網頁元素的統一資源定位符URL是否為包含廣告的特征字符的URL ;當所述網頁數據中的窗口網頁元素的URL為包含廣告的特征字符的URL時,將所述窗口網頁元素對應的網頁數據確定為疑似廣告。
[0027]優選地,所述判斷模塊用于如果所述疑似廣告部分的填充顏色與網頁的填充顏色的色差達到預設的閾值;確定所述疑似廣告為實際廣告;或者根據所述疑似廣告的顏色直方圖變化率,判斷所述疑似廣告是否為實際廣告;當所述疑似廣告的顏色直方圖變化率大于或等于預設閾值時,確定所述疑似廣告為實際廣告。
[0028]本發明實施例提供的技術方案可以包括以下有益效果:通過對預置的網址對應的網頁數據進行分析,獲得疑似廣告,當疑似廣告為實際廣告時,生成相應的廣告攔截規則,并根據生成的相應的廣告攔截規則攔截網頁中的廣告,實現自動篩選出疑似廣告,快速識別出廣告,并自動生成攔截規則,為屏蔽廣告提供便利。
[0029]本發明的其它特征和優點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發明而了解。本發明的目的和其他優點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結構來實現和獲得。應當理解的是,以上的一般描述和后文的細節描述僅是示例性的,并不能限制本發明。
[0030]下面通過附圖和實施例,對本發明的技術方案做進一步的詳細描述。
【專利附圖】
【附圖說明】[0031]附圖用來提供對本發明的進一步理解,并且構成說明書的一部分,與本發明的實施例一起用于解釋本發明,并不構成對本發明的限制。在附圖中:
[0032]圖1為本發明實施例提供的一種攔截網頁中的廣告的方法的主要流程圖;
[0033]圖2為本發明實施例提供的一種攔截網頁中的廣告的方法的第一種優選的實施方式流程圖;
[0034]圖3為本發明實施例提供的一種攔截網頁中的廣告的方法的第二種優選的實施方式流程圖;
[0035]圖4為本發明實施例提供的一種攔截網頁中的廣告的方法的第三種優選的實施方式流程圖;
[0036]圖5為本發明實施例提供的一種攔截網頁中的廣告的方法的第四種優選的實施方式流程圖;
[0037]圖6為本發明實施例提供的一種攔截網頁中的廣告的裝置的結構示意圖。
[0038]通過上述附圖,已示出本發明明確的實施例,后文中將有更詳細的描述。這些附圖和文字描述并不是為了通過任何方式限制本發明構思的范圍,而是通過參考特定實施例為本領域技術人員說明本發明的概念。
【具體實施方式】
[0039]為使本發明的目的、技術方案和優點更加清楚明白,下面結合實施方式和附圖,對本發明做進一步詳細說明。在此,本發明的示意性實施方式及其說明用于解釋本發明,但并不作為對本發明的限定。
[0040]本發明實施例中通過對預置的網址對應的網頁數據進行分析,獲得疑似廣告,當疑似廣告為實際廣告時,生成相應的廣告攔截規則,并根據生成的相應的廣告攔截規則攔截網頁中的廣告,實現自動篩選出疑似廣告,快速識別出廣告,并自動生成攔截規則,為屏蔽廣告提供便利。本發明實施例對攔截網頁中的廣告更有針對性、更準確。
[0041]參見圖1所示,本發明實施例中一種攔截網頁中的廣告的方法的主要流程,包括:
[0042]101、獲取預置的網址對應的網頁數據。
[0043]可以根據預置的網址發送訪問請求,網絡側根據該訪問請求返回網頁數據,本地即可獲取網頁數據。
[0044]為了便于網址的查詢,可以維護一個網址列表,該網址列表中存有一個或多個預置的網址。可以由人工對該網址列表進行更新,也可以由系統自動對該網址列表進行更新。網頁數據可以存在于網頁的源文件中,網頁的源文件可以包括:超文本標記語言(HyperText Markup Language, HTML)源文件、可擴展超文本標記語言(Extensible HyperTextMarkup Language, XHTML)源文件等。
[0045]102、對網頁數據進行分析,獲得疑似廣告。
[0046]優選地,上述102可以有以下多種實現方式:
[0047]如方式Al,獲取網頁數據的源文件中網頁元素的屬性標識;判斷屬性標識的值中是否包含廣告的特征字符;如果包含,則將對應的網頁元素確定為疑似廣告。例如,獲取網頁數據的HTML源文件中網頁元素的屬性標識,這里,屬性標識如標記名(Tagname)、身份標識(Identity, ID)、或者類(class)等,其中,Tagname= “XXX-AD”, ID= “XX-BJ”, class= “廣告”;判斷屬性標識的值中是否包含廣告的特征字符,其中,廣告的特征字符如“廣告”、“AD”、“Adv”、“Advert”、或者“Advertisement”等;如果包含,則將對應的網頁元素確定為疑似廣告。通過判斷可知,屬性標識Tagname的值中包含“AD”,屬性標識class的值中包含“廣告”,因此將屬性標識Tagname和class對應的網頁元素確定為疑似廣告。
[0048]如方式A2,根據網頁數據,判斷網頁頁面中的預設位置是否存在預設尺寸區間內的窗口 ;當網頁頁面中的預設位置存在預設尺寸區間內的窗口時,將窗口對應的網頁數據確定為疑似廣告。例如,預設位置可包括頂部位置、底部位置、左右兩側位置等。預設尺寸區間如[30X100,100X350]像素,預設尺寸區間可以根據終端的屏幕大小來確定。這樣可以有針對性地識別出網頁中固定廣告位的廣告。
[0049]如方式A3,根據網頁數據,判斷是否存在與屏幕大小一致且置于頂層的全屏顯示的窗口,該全屏顯示的窗口內存在不超過第一預設個數的圖片和第二預設個數的按鈕;如果存在滿足上述條件的全屏顯示的窗口,則確定該全屏顯示的窗口對應的網頁數據為疑似廣告。由于全屏顯示的窗口可能是一般的網頁,也可能是廣告,本申請的發明人發現一般網頁內的圖片較多且按鈕較多,廣告窗口內的圖片較少,一般為一個圖片,按鈕也較少,因此第一預設個數的取值范圍可以為[1,3],第二預設個數的取值范圍可以為[1,4]。
[0050]如果不存在全屏顯示的窗口,或全屏顯示的窗口未置于頂層,或全屏顯示的窗口內不存在圖片或按鈕,或全屏顯示的窗口內的圖片或按鈕超過預設個數,則確定該窗口對應的網頁數據不為疑似廣告。
[0051]其中,置于頂層的全屏顯示的窗口可以是指全屏顯示的窗口的位置屬性為置頂。
[0052]如方式A4,根據網頁數據,判斷網頁頁面中的窗口網頁元素的統一資源定位符(Uniform Resource Locator, URL)是否為包含廣告的特征字符的URL ;當網頁頁面中的窗口網頁元素的URL為包含廣告的特征字符的URL時,將該窗口網頁元素對應的網頁數據確定為疑似廣告。網頁頁面中的窗口網頁元素通常位于網頁頁面的局部,且不同于前述方式A3中的全屏顯示的窗口。
[0053]103、判斷疑似廣告是否為實際廣告,若是,則繼續執行104 ;否則,結束本次流程。
[0054]優選地,上述103可以通過識別色差的方式判斷疑似廣告是否為實際廣告,例如,如果所述疑似廣告部分的填充顏色與網頁的填充顏色有明顯色差,如,色差達到預設的閾值,確定所述疑似廣告為實際廣告。或者,也可以通過識別顏色直方圖變化的方式判斷疑似廣告是否為實際廣告,例如,根據疑似廣告的顏色直方圖變化率,判斷疑似廣告是否為實際廣告;當疑似廣告的顏色直方圖變化率大于或等于預設閾值時,確定疑似廣告為實際廣告。當然,還可以采用其它自動識別的方式判斷疑似廣告是否為實際廣告。
[0055]104、當疑似廣告為實際廣告時,生成相應的廣告攔截規則。
[0056]105、根據生成的相應的廣告攔截規則攔截網頁中的廣告。
[0057]例如,網址B的首頁頂部的疑似廣告被確定為實際廣告,則生成需要屏蔽網址B的首頁頂部的內容的攔截規則。當用戶打開網址B的首頁時,系統可以自動根據該攔截規則屏蔽網址B的首頁頂部的內容。
[0058]以上介紹了圖1所示的實施例中各環節的多種實現方式,下面通過幾個實施例來詳細介紹實現過程。
[0059]參見圖2所示,本發明實施例中一種攔截網頁中的廣告的方法的第一種優選的實施方式,包括:
[0060]201、獲取預置的網址對應的網頁數據。
[0061]為了便于網址的查詢,可以維護一個網址列表,該網址列表中存有一個或多個預置的網址,如網址http://XX.con,可以根據該網址發送訪問請求,網絡側根據該訪問請求返回網頁數據,本地即可獲取該網址對應的網頁數據。
[0062]202、獲取網頁數據的源文件中網頁元素的屬性標識。
[0063]網頁數據可以存在于網頁的源文件中,例如,獲取網頁數據的HTML源文件中網頁元素的屬性標識,屬性標識如Tagname、ID、或者class等。
[0064]203、判斷屬性標識的值中是否包含廣告的特征字符,若是,則繼續執行204;否貝U,結束本次流程。
[0065]其中,廣告的特征字符,如“廣告”、“AD”、“AdV”、“Advert”、或者“Advertisement”
坐寸ο
[0066]204、將包含廣告的特征字符的屬性標識對應的網頁元素確定為疑似廣告。
[0067]例如,根據網址http://XX.con發送訪問請求,網絡側根據該訪問請求返回網頁數據,本地即可獲取該網址對應的網頁數據,該網址對應的網頁數據中包含以下HTML代碼。根據本發明實施例提供的技術方案,可以通過判斷屬性標識class的值中是否包含廣告的特征字符,廣告的特征字符如“廣告”、“AD”、“Adv”、“Advert”、或者“Advertisement”等將它識別出來。
[0068]<h3class="advertise">〈span>
[0069]<a href=//http://sax.xx.com.cn/click?type=3&
[0070]t=MjAxNC0wMy0xMSAxMDo0MToy0AkyMjAuMTgxLjQyLjE5NQlhMjhmYjEzZDQ4NTE5NDEw0GIzMjQw ZjYwMTIwNTI50QlodHRw0i8vc21uYS5jbj9yZWY9aHR0cCUzQSUyRiUyRnd3dy5zaff5hLmNvbSUyRi Zmcm9tPXRvd2FwJnZ0PTQJUERQUzAwMDAwMDAzNzg5MAllNzMwNTkINyOwYTBiLTQyYjktODQyYSlk NWFjMjAxMmNiZjkJQ0ElNzgzREY2MTE4CUNBNTc4M0RGNjExOAktCSOJMzAyMDAwfDMwMjAwMAlDQT U30DNERjYxMTgJTkIxMzEwMDEyNwkJQ0ElNzgzREY2MTE4CVdBUAktCTI3CS0幾QktCSOJLQktCSOJ LQky&url=http%3a%2f%2fds.x1-ge.net&pos=108& vt=4//>流落民間宮廷滋補秘方(必看)〈/a>
[0071]<img src=//http://sax.xx.com.cn/view?type=3&
[0072]t=MjAxNC0wMy0xMSAxMDo0MToy0AkyMjAuMTgxLjQyLjE5NQlhMjhmYjEzZDQ4NTE5NDEwOGIz MjQwZjYwMTIwNTI50QlodHRw0i8vc21uYS5jbj9yZWY9aHR0cCUzQSUyRiUyRnd3dy5zaW5hLmNvbS UyRiZmcm9tPXRvd2FwJnZ0PTQJUERQUzAwMDAwMDAzNzg5MAllNzMwNTklNy0wYTBiLTQyYjktODQy YSlkNffFjMjAxMmNiZjkJQ0ElNzgzREY2MTE4CUNBNTc4M0RGNjEx0AktCS0JMzAyMDAwfDMwMjAwMA lDQTU30DNERjYxMTgJTkIxMzEwMDEyNwkJQ0ElNzgzREY2MTE4CVdBUAktCTI3CS0JLQktCSOJLQkt CSOJLQky//alt=//pv_monitor//style=//display:none; ">〈/span>
[0073]</h3>
[0074]通過判斷可知,屬性標識class=〃advertise〃,其包含廣告的特征字符,因此將屬性標識class對應的網頁元素確定為疑似廣告,即將上述HTML代碼標記的網頁元素確定為疑似廣告。
[0075]205、確定疑似廣告的顏色直方圖變化率。[0076]206、判斷疑似廣告的顏色直方圖變化率是否大于或等于預設閾值,若是,則繼續執行207 ;否則,結束本次流程。
[0077]優選地,上述205和206中判斷疑似廣告是否為實際廣告還可以通過判斷疑似廣告部分的填充顏色與網頁的填充顏色的色差是否達到預設的閾值;如果色差達到預設的閾值,則確定疑似廣告為實際廣告;如果色差沒有達到預設的閾值,則確定疑似廣告不為實際廣告。
[0078]207、確定疑似廣告為實際廣告,并生成相應的廣告攔截規則。
[0079]208、根據生成的相應的廣告攔截規則攔截網頁中的廣告。
[0080]如果上述HTML代碼標記的網頁元素的顏色直方圖變化率大于或等于預設閾值,則該HTML代碼標記的網頁元素為實際廣告,且生成攔截該HTML代碼標記的網頁元素的規則,可以根據生成的攔截該HTML代碼標記的網頁元素的規則攔截網頁中HTML代碼標記的網頁元素(即為實際廣告)。
[0081]本發明實施例中,獲取網頁數據的源文件中網頁元素的屬性標識,并判斷屬性標識的值中是否包含廣告的特征字符,如果包含,則將對應的網頁元素確定為疑似廣告,并進一步根據疑似廣告的顏色直方圖變化率,判斷疑似廣告是否為實際廣告,從而生成相應的廣告攔截規則,根據生成的相應的廣告攔截規則攔截網頁中的廣告,更有針對性、更準確,為屏蔽廣告提供便利。
[0082]參見圖3所示,本發明實施例中一種攔截網頁中的廣告的方法的第二種優選的實施方式,包括:
[0083]301、獲取預置的網址對應的網頁數據。
[0084]為了便于網址的查詢,可以維護一個網址列表,該網址列表中存有一個或多個預置的網址,如網址http://m.xx.com,可以根據該網址發送訪問請求,網絡側根據該訪問請求返回網頁數據,本地即可獲取該網址對應的網頁數據。
[0085]302、根據網頁數據,判斷網頁頁面中的預設位置是否存在預設尺寸區間內的窗口,若是,則繼續執行303 ;否則,結束本次流程。
[0086]其中,預設位置可包括頂部位置、底部位置、左右兩側位置等。預設尺寸區間如[30X100,100X350]像素,預設尺寸區間可以根據終端的屏幕大小來確定。
[0087]303、將窗口對應的網頁數據確定為疑似廣告。
[0088]例如,根據網址http://m.xx.com發送訪問請求,網絡側根據該訪問請求返回網頁數據,本地即可獲取該網址對應的網頁數據,該網址對應的網頁數據中的頂部位置有以下HTML窗口網頁元素。通過判斷可知,該窗口網頁元素實際高度為90像素,寬度為320像素(與終端的屏幕等寬),位于頁面頂部位置,因此可以認為該窗口對應的網頁數據為疑似廣告。
[0089]<div id="banner">
[0090]<div id="index—down—div">
[0091 ] <!---banner--->
[0092]<div id="pics"> [0093]<ul id=〃datu〃style=〃-webkit_transform: translate3d(0px,0,0) ; -webkit-transition:300ms;〃>[0094]<li><a href=〃http://ap1.wireless, xx.com/api/redirect/down/2〃onclick=〃clickLog ("from=bannerl")〃id=〃ggk〃>
[0095]< i m g src = http://pic2.x x.com/mxx/m3 / img/bxx.0 3 0 3.pngwidth="320"height="90">〈/a>〈/li>
[0096]<li><a href=//http://zp.xx.com/yy/m/index?from=home_top_zpj//onclick=//cIickLog ("from=banner2")〃id=〃fanqie〃>
[0097]< i m g src = 〃http://pic2.x x.com/mxx/m3 / img / zpl80310.png"width="320"height="90">〈/a>〈/li>
[0098]</ul>
[0099]<div class=〃panel_num〃>〈span class=〃curr〃X/span>〈span class=〃〃>〈/spanX/div>
[0100]</div>
[0101]〈script type=//text/javascript//src=//http://static, xx.com/mxx/m3/js/banner_pic_ro11.js^X/script)
[0102]<!---banner end--->
[0103]</div>
[0104]</div>
[0105]304、確定疑似廣告的顏色直方圖變化率。[0106]305、判斷疑似廣告的顏色直方圖變化率是否大于或等于預設閾值,若是,則繼續執行306 ;否則,結束本次流程。
[0107]優選地,上述304和305中判斷疑似廣告是否為實際廣告還可以通過判斷疑似廣告部分的填充顏色與網頁的填充顏色的色差是否達到預設的閾值;如果色差達到預設的閾值,則確定疑似廣告為實際廣告;如果色差沒有達到預設的閾值,則確定疑似廣告不為實際廣告。
[0108]306、確定疑似廣告為實際廣告,并生成相應的廣告攔截規則。
[0109]307、根據生成的相應的廣告攔截規則攔截網頁中的廣告。
[0110]本發明實施例中,根據網頁數據,判斷網頁頁面中的預設位置是否存在預設尺寸區間內的窗口;當網頁頁面中的預設位置存在預設尺寸區間內的窗口時,將窗口對應的網頁數據確定為疑似廣告,并進一步根據疑似廣告的顏色直方圖變化率,判斷疑似廣告是否為實際廣告,從而生成相應的廣告攔截規則,根據生成的相應的廣告攔截規則攔截網頁中的廣告,這樣可以有針對性地識別出網頁中固定廣告位的廣告,為屏蔽廣告提供便利。
[0111]參見圖4所示,本發明實施例中一種攔截網頁中的廣告的方法的第三種優選的實施方式,包括:
[0112]401、獲取預置的網址對應的網頁數據。
[0113]為了便于網址的查詢,可以維護一個網址列表,該網址列表中存有一個或多個預置的網址,如網址http://wk.XX.com,可以根據該網址發送訪問請求,網絡側根據該訪問請求返回網頁數據,本地即可獲取該網址對應的網頁數據。
[0114]402、根據網頁數據,判斷是否存在與屏幕大小一致且置于頂層的全屏顯示的窗口,該全屏顯示的窗口內存在不超過第一預設個數的圖片和第二預設個數的按鈕,若存在滿足上述條件的全屏顯示的窗口,則繼續執行403 ;否則,結束本次流程。
[0115]其中,置于頂層的全屏顯示的窗口可以是指全屏顯示的窗口的位置屬性為置頂。第一預設個數的取值范圍可以為[1,3],第二預設個數的取值范圍可以為[1,4]。
[0116]403、確定該全屏顯示的窗口對應的網頁數據為疑似廣告。
[0117]例如,根據網址http://wk.xx.com發送訪問請求,網絡側根據該訪問請求返回網頁數據,本地即可獲取該網址對應的網頁數據,網頁數據的HTML源文件中包含如下元素:它滿足一張全屏大圖(<div>的background),上面放置兩個按鈕(<a>)的條件。根據本發明實施例提供的技術方案,將該全屏顯示的窗口對應的網頁數據確定為疑似廣告。
[0118]<div id=〃h_native〃class=〃yd_na〃style=〃height:568px;〃>
[0119]<div class=〃YDna〃id=〃nativeRcmd〃style=〃background-1mage:url (http://img.xx.com/img/iknow/wenku/1136x640.jpg);background-size:320px auto;〃>
[0120]<div class=〃btnCon〃style=〃padding_top:150px〃>
[0121]<a class=〃dlrn〃href=〃http://yuedu.xx.com/apps?fr=1024〃bind-fun=〃closeForever〃> 立即下載 </a>
[0122]<a class="do wnloadLater"bind-fun="closeDay"> 以后再說 </a>
[0123]</div>
[0124]</div>
[0125]</div>
[0126]404、確定疑似廣告的顏色直方圖變化率。
[0127]405、判斷疑似廣告的顏色直方圖變化率是否大于或等于預設閾值,若是,則繼續執行406 ;否則,結束本次流程。
[0128]優選地,上述404和405中判斷疑似廣告是否為實際廣告還可以通過判斷疑似廣告部分的填充顏色與網頁的填充顏色的色差是否達到預設的閾值;如果色差達到預設的閾值,則確定疑似廣告為實際廣告;如果色差沒有達到預設的閾值,則確定疑似廣告不為實際廣告。
[0129]406、確定疑似廣告為實際廣告,并生成相應的廣告攔截規則。
[0130]407、根據生成的相應的廣告攔截規則攔截網頁中的廣告。
[0131]本發明實施例中,根據網頁數據,判斷是否存在與屏幕大小一致且置于頂層的全屏顯示的窗口,該全屏顯示的窗口內存在不超過第一預設個數的圖片和第二預設個數的按鈕;如果存在滿足上述條件的全屏顯示的窗口,則確定該全屏顯示的窗口對應的網頁數據為疑似廣告,并進一步根據疑似廣告的顏色直方圖變化率,判斷疑似廣告是否為實際廣告,從而生成相應的廣告攔截規則,根據生成的相應的廣告攔截規則攔截網頁中的廣告,對識別網頁中的全屏顯示的窗口廣告更有針對性、更準確,為屏蔽廣告提供便利。
[0132]參見圖5所示,本發明實施例中一種攔截網頁中的廣告的方法的第四種優選的實施方式,包括:
[0133]501、獲取預置的網址對應的網頁數據。
[0134]502、根據網頁數據,判斷網頁頁面中的窗口網頁元素的URL是否為包含廣告的特征字符的URL,若是,則繼續執行503 ;否則,結束本次流程。
[0135]其中,廣告的特征字符,如“廣告”、“AD”、“AdV”、“Advert”、或者“Advertisement”坐寸O
[0136]503、將該窗口網頁元素對應的網頁數據確定為疑似廣告。
[0137]504、確定疑似廣告的顏色直方圖變化率。
[0138]505、判斷疑似廣告的顏色直方圖變化率是否大于或等于預設閾值,若是,則繼續執行506 ;否則,結束本次流程。
[0139]優選地,上述504和505中判斷疑似廣告是否為實際廣告還可以通過判斷疑似廣告部分的填充顏色與網頁的填充顏色的色差是否達到預設的閾值;如果色差達到預設的閾值,則確定疑似廣告為實際廣告;如果色差沒有達到預設的閾值,則確定疑似廣告不為實際廣告。
[0140]506、確定疑似廣告為實際廣告,并生成相應的廣告攔截規則。
[0141]507、根據生成的相應的廣告攔截規則攔截網頁中的廣告。
[0142]本發明實施例中,根據網頁數據,判斷網頁頁面中的窗口網頁元素的URL是否為包含廣告的特征字符的URL;當網頁頁面中的窗口網頁元素的URL為包含廣告的特征字符的URL時,將該窗口網頁元素對應的網頁數據確定為疑似廣告,并進一步根據疑似廣告的顏色直方圖變化率,判斷疑似廣告是否為實際廣告,從而生成相應的廣告攔截規則,根據生成的相應的廣告攔截規則攔截網頁中的廣告。
[0143]需要說明的是,實際應用中,上述所有可選實施方式可以采用結合的方式任意組合,形成本發明的可選實施例,在此不再一一贅述。
[0144]通過以上描述了解了攔截網頁中的廣告的方法實現過程,該過程可由裝置實現,下面對裝置的內部結構和功能進行介紹。
[0145]基于同一發明構思,參見圖6所示,本發明實施例中一種攔截網頁中的廣告的裝置包括:獲取模塊601、分析模塊602、判斷模塊603、生成模塊604和攔截模塊605。
[0146]獲取模塊601,用于獲取預置的網址對應的網頁數據;
[0147]分析模塊602,用于對網頁數據進行分析,獲得疑似廣告;
[0148]判斷模塊603,用于判斷疑似廣告是否為實際廣告;
[0149]生成模塊604,用于當疑似廣告為實際廣告時,生成相應的廣告攔截規則;
[0150]攔截模塊605,用于根據生成的相應的廣告攔截規則攔截網頁中的廣告。
[0151]優選地,分析模塊602用于獲取網頁數據的源文件中網頁元素的屬性標識;判斷屬性標識的值中是否包含廣告的特征字符;將包含廣告的特征字符的屬性標識對應的網頁元素確定為疑似廣告。
[0152]優選地,分析模塊602用于根據網頁數據,判斷網頁頁面中的預設位置是否存在預設尺寸區間內的窗口 ;當網頁頁面中的預設位置存在預設尺寸區間內的窗口時,將窗口對應的網頁數據確定為疑似廣告。
[0153]優選地,分析模塊602用于根據網頁數據,判斷是否存在與屏幕大小一致且置于頂層的全屏顯示的窗口,全屏顯示的窗口內存在不超過第一預設個數的圖片和第二預設個數的按鈕;當判斷為是時,將全屏顯示的窗口對應的網頁數據確定為疑似廣告。
[0154]優選地,分析模塊602用于判斷網頁數據中的窗口網頁元素的統一資源定位符URL是否為包含廣告的特征字符的URL;當網頁數據中的窗口網頁元素的URL為包含廣告的特征字符的URL時,將窗口網頁元素對應的網頁數據確定為疑似廣告。[0155]優選地,判斷模塊603用于如果疑似廣告部分的填充顏色與網頁的填充顏色的色差達到預設的閾值;確定疑似廣告為實際廣告;或者根據疑似廣告的顏色直方圖變化率,判斷疑似廣告是否為實際廣告;當疑似廣告的顏色直方圖變化率大于或等于預設閾值時,確定疑似廣告為實際廣告。
[0156]本發明實施例中,通過對預置的網址對應的網頁數據進行分析,獲得疑似廣告,當疑似廣告為實際廣告時,生成相應的廣告攔截規則,并根據生成的相應的廣告攔截規則攔截網頁中的廣告,實現自動篩選出疑似廣告,快速識別出廣告,并自動生成攔截規則,為屏蔽廣告提供便利。本發明實施例對識別網頁中的廣告更有針對性、更準確。
[0157]本領域內的技術人員應明白,本發明的實施例可提供為方法、系統、或計算機程序產品。因此,本發明可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器和光學存儲器等)上實施的計算機程序產品的形式。
[0158]本發明是參照根據本發明實施例的方法、設備(系統)、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0159]這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0160]這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0161]顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和范圍。這樣,倘若本發明的這些修改和變型屬于本發明權利要求及其等同技術的范圍之內,則本發明也意圖包含這些改動和變型在內。
【權利要求】
1.一種攔截網頁中的廣告的方法,其特征在于,包括: 獲取預置的網址對應的網頁數據; 對所述網頁數據進行分析,獲得疑似廣告; 判斷所述疑似廣告是否為實際廣告; 當所述疑似廣告為實際廣告時,生成相應的廣告攔截規則; 根據生成的相應的廣告攔截規則攔截網頁中的廣告。
2.如權利要求1所述的方法,其特征在于,所述對所述網頁數據進行分析,獲得疑似廣告,包括: 獲取所述網頁數據的源文件中網頁元素的屬性標識; 判斷所述屬性標識的值中是否包含廣告的特征字符; 將包含廣告的特征字符的屬性標識對應的網頁元素確定為疑似廣告。
3.如權利要求1所述的方法,其特征在于,所述對所述網頁數據進行分析,獲得疑似廣告,包括: 根據所述網頁數據,判斷網頁頁面中的預設位置是否存在預設尺寸區間內的窗口 ;當網頁頁面中的預設位置存 在預設尺寸區間內的窗口時,將所述窗口對應的網頁數據確定為疑似廣告。
4.如權利要求1所述的方法,其特征在于,所述對所述網頁數據進行分析,獲得疑似廣告,包括: 根據所述網頁數據,判斷是否存在與屏幕大小一致且置于頂層的全屏顯示的窗口,所述全屏顯示的窗口內存在不超過第一預設個數的圖片和第二預設個數的按鈕; 當判斷為是時,將所述全屏顯示的窗口對應的網頁數據確定為疑似廣告。
5.如權利要求1所述的方法,其特征在于,所述對所述網頁數據進行分析,獲得疑似廣告,包括: 判斷所述網頁數據中的窗口網頁元素的統一資源定位符URL是否為包含廣告的特征字符的URL ; 當所述網頁數據中的窗口網頁元素的URL為包含廣告的特征字符的URL時,將所述窗口網頁元素對應的網頁數據確定為疑似廣告。
6.如權利要求1至5中任意一項所述的方法,其特征在于,所述判斷所述疑似廣告是否為實際廣告,包括: 如果所述疑似廣告部分的填充顏色與網頁的填充顏色的色差達到預設的閾值;確定所述疑似廣告為實際廣告;或者 根據所述疑似廣告的顏色直方圖變化率,判斷所述疑似廣告是否為實際廣告;當所述疑似廣告的顏色直方圖變化率大于或等于預設閾值時,確定所述疑似廣告為實際廣告。
7.一種攔截網頁中的廣告的裝置,其特征在于,包括: 獲取模塊,用于獲取預置的網址對應的網頁數據; 分析模塊,用于對所述網頁數據進行分析,獲得疑似廣告; 判斷模塊,用于判斷所述疑似廣告是否為實際廣告; 生成模塊,用于當所述疑似廣告為實際廣告時,生成相應的廣告攔截規則; 攔截模塊,用于根據生成的相應的廣告攔截規則攔截網頁中的廣告。
8.如權利要求7所述的裝置,其特征在于,所述分析模塊用于獲取所述網頁數據的源文件中網頁元素的屬性標識;判斷所述屬性標識的值中是否包含廣告的特征字符;將包含廣告的特征字符的屬性標識對應的網頁元素確定為疑似廣告。
9.如權利要求7所述的裝置,其特征在于,所述分析模塊用于根據所述網頁數據,判斷網頁頁面中的預設位置是否存在預設尺寸區間內的窗口 ;當網頁頁面中的預設位置存在預設尺寸區間內的窗口時,將所述窗口對應的網頁數據確定為疑似廣告。
10.如權利要求7所述的裝置,其特征在于,所述分析模塊用于根據所述網頁數據,判斷是否存在與屏幕大小一致且置于頂層的全屏顯示的窗口,所述全屏顯示的窗口內存在不超過第一預設個數的圖片和第二預設個數的按鈕;當判斷為是時,將所述全屏顯示的窗口對應的網頁數據確定為疑似廣告。
11.如權利要求7所述的裝置,其特征在于,所述分析模塊用于判斷所述網頁數據中的窗口網頁元素的統一資源定位符URL是否為包含廣告的特征字符的URL ;當所述網頁數據中的窗口網頁元素的URL為包含廣告的特征字符的URL時,將所述窗口網頁元素對應的網頁數據確定為疑似廣告。
12.如權利要求7所述的裝置,其特征在于,所述判斷模塊用于如果所述疑似廣告部分的填充顏色與網頁的填充顏色的色差達到預設的閾值;確定所述疑似廣告為實際廣告;或者根據所述疑似廣告的顏色直方圖變化率,判斷所述疑似廣告是否為實際廣告;當所述疑似廣告的顏色直方圖變化率大 于或等于預設閾值時,確定所述疑似廣告為實際廣告。
【文檔編號】G06F17/30GK103886088SQ201410124030
【公開日】2014年6月25日 申請日期:2014年3月28日 優先權日:2014年3月28日
【發明者】朱佳來, 陳亮 申請人:北京金山網絡科技有限公司