基于網頁標簽的安全監控方法和系統的制作方法【
技術領域:
】[0001]本發明設及一種基于網頁標簽的安全監控和網頁去噪的方法和系統,屬于信息安全
技術領域:
。【
背景技術:
】[0002]當前,紛繁復雜的互聯網越來越成為人類社會的重要信息源。然而,由于商業利益和網站維護的需要,幾乎所有的網頁除了有用的信息之外,還包含了一些和網頁主體內容關聯不大的元素如:廣告條、導航鏈接、版權等信息,使用戶不能迅速定位所需信息。[0003]在運種情況下,網頁去噪技術成為網絡信息檢索特有的一個研究領域,受到越來越多的研究人員的關注,并提出了各種算法。現有技術主要是研究如何從某一領域或者模板網頁中探測出主題信息,但運對其他類型的頁面卻難W成立。現有技術采用機器學習的方法來識別廣告和不相關的噪音信息,但是運需要大量的人工參與。現有技術中提出了VIPS算法,將頁面轉化成內容結構。VWS算法基于頁面的可視化信息來進行頁面劃分,并定義其內聚度。算法通過可視塊抽取,分隔條檢測及構造內容結構Ξ步迭代進行,W各塊的內聚度值與預定義的終止條件比較作為迭代的終止條件。但該算法由于視覺特征的復雜性,運用的啟發知識往往較為模糊,需要人工不斷地總結調整規則。現有技術采用了量化網頁的方法,但選取的特征提取自網頁文本內容,最后只是對隸屬于不同類的網頁采用不同的去噪方法。而本發明能夠很好地解決上面的問題。【
發明內容】[0004]本發明目的在于提供了一種基于網頁標簽的安全監控方法,該方法主要解決了網頁去噪的問題,能將HTML網頁中的文本節點按照屬性的相似度進行分類,提取具有最大文本量的類作為正文,從而達到去噪效果。該方法不僅避免了傳統去噪方法中對網頁模式的局限性,而且能夠通過網頁文本格式量化的方式提高去噪的精度。[0005]本發明解決其技術問題所采取的技術方案是:一種基于網頁標簽的安全監控方法,該方法解決了網頁去噪的問題,采用K-MEANS聚類算法對由去噪聲后的網頁進行聚類處理,通過比較去噪聲前后的聚類效果,可W看出通過本方法處理的網頁,聚類正確率有了明顯提局。[0006]方法流程:[0007]步驟1:將讀入的HTML網頁轉化為D0M結構;[000引步驟2:對每個文本節點添加父節點〈attrInfo〉,設置其屬性為:id、font、size、color、italic、bold;[0009]步驟3:循環在當前文本節點的祖先節點中查找每個文本節點的屬性,添加到<attrinfo〉標簽中;[0010]步驟4:對文本節點兩兩之間計算相似關系,大于某一闊值即為相似,得到該網頁的相容關系圖;[0011]步驟5:計算該網頁所有文本節點的極大相容類,得到的極大相容類即為該網頁的文本類;[0012]步驟6:計算該網頁每個文本類的文本量總和;[0013]步驟7:選擇文本量最大的文本類作為正文,刪除正文之外的網頁文本。[0014]本發明的上述方法能夠應用于基于網頁標簽的安全監控系統。[0015]本發明還提供了一種基于網頁標簽的安全監控系統,該系統對訪客的來源,路徑,動作,行為,時間,操作的分析,可提供可疑訪問及訪客,非友好訪問及訪客的報告并產生報警報告,該系統可對非友好用戶進行追蹤及報警。包括:[0016]異常數據的發現和處理模塊的功能是:通過分析統計數據的散度情況,即數據變異指標,來對數據的總體特征和分布情況進行預測,在"支持度-置信度"框架下,利用相對支持度概念,處理異常數據[0017]大數據降維模塊的功能是:按照用戶的需求,將紛繁復雜的數據進行有效地降維,既保持數據的可靠性,又減少其他信息的干擾。W達到高可靠性,高擴展性,高效性和低成本。[0018]云計算信息融合模塊的功能是:不同的信息處理應用有著不同的需求,云計算環境下,實現基于主動機制的智能信息主動服務,提供人人之間、人物之間、物物之間的信息推送機制。特別是基于構件的事件定義與處理、觸發機制和規則定義與處理等技術方法。[0019]移動用戶分析模塊的功能是:WIE提供手機用戶界面,用戶可通過手機獲得服務。WIE可針對移動用戶進行分析并提供分析報告。[0020]社交網分析模塊的功能是:WIE還可針對來自社交網的用戶流量進行分析并提供分析報告。[0021]有益效果:[0022]1、本發明系統既保持數據的可靠性,又減少其他信息的干擾。W達到高可靠性,高擴展性,高效性和低成本。[0023]2、本發明方法主要解決了網頁去噪的問題,能將HTML網頁中的文本節點按照屬性的相似度進行分類,提取具有最大文本量的類作為正文,從而達到去噪效果。[0024]3、本發明方法不僅避免了去噪算法對網頁模式的局限性,而且還通過網頁文本格式量化的方式提高了去噪的精度。[0025]4、本發明方法采用K-MEANS聚類算法對由去噪聲后的網頁進行聚類處理,通過比較去噪聲前后的聚類效果,可W看出通過本算法處理的網頁,聚類正確率有了明顯提高。【附圖說明】[00%]圖1為本發明的HTML網頁結構示意圖。[0027]圖2為本發明的相容關系圖。[0028]圖3為本發明的去噪前后F1值變化圖。【具體實施方式】[0029]下面結合說明書附圖對本發明創造作進一步的詳細說明。[0030]在HTML網頁中,元素(element)是文檔結構的基本組成部分。每個HTML網頁由兩個主要元素組成:首部化ead)和主體(body)。首部包含標題(title)和用來標志文檔的一些輔助信息。主體緊跟在首部后面,是HTML網頁的最主要部分,文檔所包含的主要信息都在主體中。主體部分又由若干更小的元素組成:如段落(paragraph)、表格(table)和列表(list)等。HTML網頁中用標簽來標志一個元素,而標簽還可W加上屬性來規定文檔的顯示樣式和效果。[0031]一個普通的HTML網頁的結構如圖1,可W看出,HTML網頁本身具有樹形結構,所W很適合使用D0M(Doc皿entObjectModel)樹進行描述。[0032]DOM是W3C制定的標準規范,是一種與瀏覽器、平臺、語言無關的HTML(或XML)應用編程接口。HTML網頁在經過解析器(如HTMLparser、afterwork、Nokogi;ri、NekoHTML等)的解析之后,都可W轉換為相應的DOM樹形結構。[0033]在HTMLD0M樹中常見的節點類型有:文檔節點(根節點)、元素節點、屬性節點、文本節點和注釋節點等。D0M樹中節點之間的關系符合圖論中樹的節點關系。對一個節點來說,可能與之相關的節點有:祖先節點、父節點、子節點、兄弟節點。[0034]D0M通過解析HTML網頁為之在邏輯上建立一個樹模型,而樹的節點是一個個的對象。運樣通過操作運棵樹和運些對象就可W完成對HTML網頁的操作,為處理HTML文檔提供了一個完美的概念性框架。[0035]很多編程語言如化vaSc;ript、php、java等都按照不同的解析器對D0M樹形結構的操作方法提供了具體的實現。本發明實驗即利用JAVA對D0M4J解析器創建的D0M樹形結構提供的方法展開的。[0036]本發明極大相容類具體包括:[0037]定義1:如果集合A上的二元關系R是自反的和對稱的,則稱R為A上的相容關系。若對x,yEA有X和y相容,則記為xRy。[0038]定義2:設R為集合A上的相容關系。1)如果S為A的非空子集且當x,yeS時皆有xRy,則稱S為R的一個相容類。2)設S為R的相容類。若當V6S時皆有XeS使xRy不成立,則稱S為R的一個極大相容類。[0039]舉例:如果集合A=U,2,3,4,5,6}上的相容關系R的簡化關系圖如圖2所示,貝化的所有極大相容類為{1,2,3,4},{2,5},{3,6},{5,6}。[0040]定義3:設R為集合A上的相容關系,關系矩陣法計算R的所有極大相容類的算法如下:[0041]1)列出R的簡化關系矩陣;[0042]2)R的所有第η級相容類為1x1},1x2},…,{xn};[0043]3)若n=l,則終止。[0044]4)若n>l,則i^n-1;[0045]5)A^{xjIaji=l且i<j含η};[0046]6)對每個i+1級相容類s,若snA辛Φ,則添加一個相容類{xi}u(snA);[0047]7)對已得到的任意二相容類S和S',若則刪去S';稱運樣合并后的相容類為第i級相容類。[004引8)若i>l,則并轉到5);[0049]9)若i=l,則終止;[0050]最后計算得到的相容類就稱為R的所有極大相容類。[0051]為了表述一致,本發明對HTML網頁對象的各種表述均按照D0M樹中各種定義展開的。另外,定義文本類為本算法中相似文本節點的集合。[0052]對HTML網頁來說,其中所有的文本節點都有顯示的樣式。控制文本節點顯示樣式的是文本節點的屬性,如:字體(font)、顏色(color)、字號(size)、加粗(boId)和傾斜(italiC)等。如果對HTML網頁按照文本節點的屬性進行分類,將相同或者相似屬性的文本節點歸為一類,那么可W將網頁區分為不同的文本類。按照視覺定位網頁正文的方式,一般有W下常識,包括:[0053]1)正文的屬性一般相同或者相似。正文文本的標題可能出現文本大小、加粗的情況、極少鏈接可能出現顏色不同的情況、文中極少的詞語有傾斜、加粗、顏色不同的情況。[0054]2)噪聲的屬性一般差別較大。幾乎對每一個網頁來說,出現在網頁正文周邊的廣告條、導航鏈接、版權等噪聲信息幾乎不會出現文本節點屬性相同或者相近的情況。一般情況下噪聲的文本節點屬性差別較大。[0055]3)在HTML網頁中,正文的文本量是最大的。將HTML網頁中文本節點按照屬性分類后,按照前述正文的屬性一般相同或相似運一常識,正文將被區分為一類。此時,正文的文本量相比HTML網當前第1頁1 2