本發明涉及信息安全技術領域,尤其涉及一種確定提供仿冒服務的網絡服務器的方法、設備及計算設備。
背景技術:
隨著網絡通信技術的迅速發展、互聯網應用的持續深化、所承載信息的日益豐富,互聯網已成為人類社會重要的基礎設施。與此同時,各種危害網絡安全的事件層出不窮,引發了社會對網絡安全的極大關注。
其中,存在一些不法網絡服務器的運營者,通過將網絡服務器的域名或提供的網絡內容偽裝的與正規網絡服務器的域名或網絡內容非常相似的方式,引誘用戶訪問,騙取用戶信任,并損害用戶利益。而由于電子商務和互聯網應用的普及和發展,這種提供仿冒服務的犯罪行為造成的損失日益嚴重。
目前,可以通過黑名單技術、基于URL特征的檢測技術、基于網絡內容包含的圖片相似度的檢測技術來判斷網絡服務器是否提供仿冒服務。
黑名單技術是通過用戶舉報或評價來維護一個不斷更新的提供仿冒服務的網絡服務器的名單列表,從而阻止更多的用戶不要訪問已發現的提供仿冒服務的網絡服務器。基于URL特征的檢測技術,通常是使用正則表達式來匹配URL特征,但正則表達式需要手動添加規則,使用和維護成本高,同時其使用有風險,可能產生未知的誤報和漏報。此外,此種方式往往用于初步檢測,最終的判定一般也要基于網絡內容。基于網絡內容包含的圖片相似度的檢測技術需要進行大量的圖片比較,計算復雜度高,并且如果兩個網絡服務器提供的網絡內容使用相似的設計方案(如Bootstrap模板)和設計元素(相同或相似的圖標),則容易產生誤報。
因此,迫切需要一種更先進的更有效的確定提供仿冒服務的網絡服務器的方案。
技術實現要素:
為此,本發明提供一種確定提供仿冒服務的網絡服務器的方案,以力圖解決或者至少緩解上面存在的至少一個問題。
根據本發明的一個方面,提供了一種確定提供仿冒服務的網絡服務器的方法,適于在計算設備中執行,網絡服務器具有IP地址和域名,并提供網絡內容,方法包括步驟:從域名服務器獲取第一預定時間段內的域名解析記錄;獲取域名解析記錄對應的多個域名、以及每個域名的解析次數;篩選出解析次數最低的預定數量個域名;從域名服務器獲取所篩選出的預定數量個域名在第二預定時間段內的至少一條域名解析記錄;根據預定數量個域名在第二預定時間段內的域名解析記錄,最后篩選出其中僅在第二預定時間段中的第三預定時間段內存在域名解析記錄的至少一個域名;對于所篩選出的至少一個域名中的域名,獲取該域名對應的網絡服務器的IP特征、域名特征、以及內容特征;以及根據提取的特征,采用分類模型確定網絡服務器是否提供仿冒服務。
根據本發明的另一方面,提供了一種確定提供仿冒服務的網絡服務器的設備,網絡服務器具有IP地址和域名,并提供網絡內容,設備包括:記錄獲取模塊,適于從域名服務器獲取第一預定時間段內的域名解析記錄;還適于從域名服務器獲取所篩選出的預定數量個域名在第二預定時間段內的至少一條域名解析記錄;域名篩選模塊,適于:獲取第一預定時間段內的域名解析記錄對應的多個域名、以及每個域名的解析次數;篩選出解析次數最低的預定數量個域名;還適于:根據預訂數量個域名在第二預定時間段內的域名解析記錄,最后篩選出其中僅在第二預訂時間段中的第三預定時間段內存在域名解析記錄的至少一個域名;特征提取模塊,適于對于所篩選出的至少一個域名中的域名,獲取該域名對應的網絡服務器的IP特征、域名特征、以及內容特征;以及仿冒判斷模塊,適于根據提取的特征,采用分類模型確定網絡服務器是否提供仿冒服務。
根據本發明的還有一個方面,提供了一種計算設備,包括根據本發明的確定提供仿冒服務的網絡服務器的設備。
根據本發明的確定提供仿冒服務的網絡服務器的方案,同過多次篩選,篩選出訪問量較低、活躍時間較短的域名,并獲取該域名對應的網絡服務器的域名特征、IP特征和內容特征,根據這些多維度的特征采用分類模型進行是否提供仿冒服務的判斷,過程高度自動化,大大減少了人工干預,同時特征維度廣,準確度高,有效避免了誤報和漏報。
附圖說明
為了實現上述以及相關目的,本文結合下面的描述和附圖來描述某些說明性方面,這些方面指示了可以實踐本文所公開的原理的各種方式,并且所有方面及其等效方面旨在落入所要求保護的主題的范圍內。通過結合附圖閱讀下面的詳細描述,本公開的上述以及其它目的、特征和優勢將變得更加明顯。遍及本公開,相同的附圖標記通常指代相同的部件或元素。
圖1示出了根據本發明的一個示例性實施方式的網絡服務系統100的結構框圖;
圖2示出了根據本發明的一個示例性實施方式的計算設備200的結構框圖;
圖3示出了根據本發明的一個示例性實施方式的確定提供仿冒服務的網絡服務器的設備300的結構框圖;以及
圖4示出了根據本發明的一個示例性實施方式的確定提供仿冒服務的網絡服務器的方法400的流程圖。
具體實施方式
下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。
圖1示出了根據本發明一個示例性實施方式的網絡服務系統100的結構框圖。網絡服務系統100可以包括客戶端110、域名服務器120以及網絡服務器130。網絡服務器130具有IP地址和域名,并可以向用戶提供網絡內容。用戶可以通過客戶端110向網絡服務器130發送訪問請求,請求訪問網絡服務器130上的網絡內容。
其中,在向網絡服務器130發送訪問請求之前,客戶端110首先需要向域名服務器120發送域名解析請求,請求域名對應的網絡服務器130的IP地址。域名服務器120響應于客戶端110的域名解析請求,返回IP地址至客戶端110。同時,可以理解地,域名服務器120會基于客戶端110的域名解析請求生成相應的域名解析記錄并存儲,域名解析記錄可以包括解析時間、請求解析的域名、域名對應的網絡服務器130的IP地址。
計算設備200可以通過網絡與域名服務器120和網絡服務器130連接,可以獲取域名服務器120上存儲的域名解析記錄,并至少根據域名解析記錄確定那些提供仿冒服務的網絡服務器。
計算設備200可以實現為服務器,例如文件服務器、數據庫服務器、應用程序服務器和WEB服務器等,也可以實現為包括桌面計算機和筆記本計算機配置的個人計算機。此外,計算設備200還可以實現為小尺寸便攜(或者移動)電子設備的一部分,這些電子設備可以是諸如蜂窩電話、個人數字助理(PDA)、個人媒體播放器設備、無線網絡瀏覽設備、個人頭戴設備、應用專用設備、或者可以包括上面任何功能的混合設備。
圖2示出了根據本發明一個示例性實施方式的實現本發明方案的計算設備200的結構框圖。在基本的配置202中,計算設備200典型地包括系統存儲器206和一個或者多個處理器204。存儲器總線208可以用于在處理器204和系統存儲器206之間的通信。
取決于期望的配置,處理器204可以是任何類型的處理,包括但不限于:微處理器((μP)、微控制器(μC)、數字信息處理器(DSP)或者它們的任何組合。處理器204可以包括諸如一級高速緩存210和二級高速緩存212之類的一個或者多個級別的高速緩存、處理器核心214和寄存器216。示例的處理器核心214可以包括運算邏輯單元(ALU)、浮點數單元(FPU)、數字信號處理核心(DSP核心)或者它們的任何組合。示例的存儲器控制器218可以與處理器204一起使用,或者在一些實現中,存儲器控制器218可以是處理器204的一個內部部分。
取決于期望的配置,系統存儲器206可以是任意類型的存儲器,包括但不限于:易失性存儲器(諸如RAM)、非易失性存儲器(諸如ROM、閃存等)或者它們的任何組合。系統存儲器206可以包括操作系統220、一個或者多個應用222以及程序數據224。在一些實施方式中,應用222可以布置為在操作系統上利用程序數據224進行操作。
計算設備200還可以包括有助于從各種接口設備(例如,輸出設備242、外設接口244和通信設備246)到基本配置202經由總線/接口控制器230的通信的接口總線240。示例的輸出設備242包括圖形處理單元248和音頻處理單元250。它們可以被配置為有助于經由一個或者多個A/V端口252與諸如顯示器或者揚聲器之類的各種外部設備進行通信。示例外設接口244可以包括串行接口控制器254和并行接口控制器256,它們可以被配置為有助于經由一個或者多個I/O端口258和諸如輸入設備(例如,鍵盤、鼠標、筆、語音輸入設備、觸摸輸入設備)或者其他外設(例如打印機、掃描儀等)之類的外部設備進行通信。示例的通信設備246可以包括網絡控制器260,其可以被布置為便于經由一個或者多個通信端口264與一個或者多個其他計算設備262通過網絡通信鏈路的通信。
網絡通信鏈路可以是通信介質的一個示例。通信介質通常可以體現為在諸如載波或者其他傳輸機制之類的調制數據信號中的計算機可讀指令、數據結構、程序模塊,并且可以包括任何信息遞送介質。“調制數據信號”可以這樣的信號,它的數據集中的一個或者多個或者它的改變可以在信號中編碼信息的方式進行。作為非限制性的示例,通信介質可以包括諸如有線網絡或者專線網絡之類的有線介質,以及諸如聲音、射頻(RF)、微波、紅外(IR)或者其它無線介質在內的各種無線介質。這里使用的術語計算機可讀介質可以包括存儲介質和通信介質二者。
在本發明中,計算設備100的應用222可以包括被配置為實現本發明方案的確定提供仿冒服務的網絡服務器的設備300。
圖3示出了根據本發明一個示例性實施方式的確定提供仿冒服務的網絡服務器的設備300的結構框圖。如圖3所示,確定提供仿冒服務的網絡服務器的設備300可以與域名服務器120和網絡服務器130通過網絡連接,并可以包括記錄獲取模塊310、域名篩選模塊320、特征提取模塊330、以及仿冒判斷模塊340。
記錄獲取模塊310適于從域名服務器120獲取第一預定時間段內的域名解析記錄。第一預定時間段例如可以是當日的00:00~24:00,記錄獲取模塊310可以獲取域名服務器120上解析時間在當日00:00~24:00之間的所有域名解析記錄。
域名篩選模塊320與記錄獲取模塊310連接,適于獲取記錄獲取模塊310所獲取的第一預定時間段內的域名解析記錄對應的多個域名、以及每個域名的解析次數。具體地,域名篩選模塊320可以對記錄獲取模塊310所獲取的對域名解析記錄進行統計,得到每個域名的域名解析記錄條數,也就是該域名的解析次數。
域名的解析次數可以代表該域名的訪問量,可以理解地,提供仿冒服務的網絡服務器的域名的訪問量通常較低,因此若域名的訪問量較低,可以認為該域名對應的網絡服務器存在提供仿冒服務的可能。
具體地,域名篩選模塊320可以篩選出解析次數最低的預定數量個域名。其中,預定數量可以是所有解析次數中最低的10%部分的解析次數的數量,例如,域名篩選模塊320可以將解析次數從高至低排序,選取其中后10%的解析次數對應的域名。
而后,為了增加的判斷的可靠度,本發明可以對域名做進一步的篩選。提供仿冒服務的網絡服務器的域名的注冊時間可能不定,但是通常可以通過域名服務器120解析到其對應IP(即域名上線)的時間(即活躍時間)一般不長,因此若域名存在域名解析記錄的時間不長,可以認為該域名對應的網絡服務器存在提供仿冒服務的可能。
具體地,記錄獲取模塊310可以從域名服務器120獲取域名篩選模塊320所篩選出的預定數量個域名在第二預定時間段內的至少一條域名解析記錄,最后域名篩選模塊320篩選出其中僅在第二預訂時間段中的第三預定時間段內存在域名解析記錄的至少一個域名。
其中,第二預定時間段可以是近兩周,第三預定時間段可以是近一周,記錄獲取模塊310可以從域名服務器120獲取所篩選出來的那些域名在近兩周的域名解析記錄,域名篩選模塊320篩選出其中僅在近一周內存在域名解析記錄的至少一個域名,即只在近一周內活躍的域名。
篩選出上述域名后,與域名篩選模塊320連接的特征提取模塊320適于對于所篩選出的至少一個域名中的域名,獲取該域名對應的網絡服務器的能夠體現該網絡服務器提供仿冒服務的以下特征:IP特征、域名特征、以及內容特征。
根據本發明的一個實施方式,IP特征可以包括特征s1——IP地址數量的倒數,即域名對應的IP地址數量的倒數。由于IP地址的申請成本較高,不法份子往往不會申請對應于同一域名的多個IP地址,因此若域名對應的IP地址數量較高,則可以認為其提供仿冒服務的可能性較小。
具體地,特征提取模塊330可以使用類似dig這種DNS查詢工具從域名服務器查詢該域名對應的至少一個IP地址,并根據查詢到的至少一個IP地址確定域名對應網絡服務器的IP地址數量Nbind,取其倒數1/Nbind,得到特征s1。
根據本發明的另一個實施方式,IP特征還可以包括特征s2——地址惡意比率,即域名對應的IP地址所屬地區和運營商的惡意IP地址的比率。若某個地區和運營商下惡意IP地址的比率較高,則可以認為屬于該地區和運營商的網絡服務器提供仿冒服務的可能性較大。
具體地,設備300可以與IP數據存儲設備相耦接,IP數據存儲設備存儲有已知的IP地址、該IP地址是否惡意、以及所屬的地區和運營商(或者虛擬運營商)。特征提取模塊330可以對查詢到的域名對應的至少一個IP地址中的每一個,都從IP數據存儲設備獲取與該IP地址屬于同一地區和運營商的IP地址數量Nall、以及其中的惡意IP地址數量Nmal,再根據惡意IP地址數量與IP地址數量,計算該IP地址所屬地區和運營商的IP地址惡意比率最后可以選取其中數值最大的一個作為網絡服務器的IP地址惡意比率,得到特征s2。
根據本發明的另一個實施方式,IP特征還可以包括特征s3——IP地址是否惡意。若IP地址為惡意,則可以認為網絡服務器提供仿冒服務的可能性較大。
具體地,特征提取模塊330可以判斷域名對應的至少一個IP地址中的任意一個是否屬于IP數據存儲設備中的惡意IP地址,若是,則確定網絡服務器的IP地址是惡意,s3=1,否則不是惡意,s3=0。
根據本發明的另一個實施方式,域名特征可以包括特征s4——域名信息相似度,即域名與其他正規域名的相似程度。若域名與其他正規域名的相似程度較高,則可以認為網絡服務器提供仿冒服務的可能性較高。
具體地,設備300可以與域名反查設備相耦接,域名反查設備存儲有已知的IP地址和與該IP地址相關聯的域名,可以通過IP地址查詢到與該IP地址相關聯的域名。設備300還可以與域名查詢設備(即Whois查詢設備)相耦接,可以通過域名查詢到域名數據(即Whois數據)。通常地,域名數據可以包括域名、域名的注冊商、聯系人、聯系方式、更新時間、過期時間、公司名稱、域名服務器、DNS、狀態中的至少一個。
首先特征提取模塊330可以從域名查詢設備獲取網絡服務器的域名的域名數據,而后可以從域名反查設備獲取該域名對應的至少一個IP地址關聯的至少一個關聯域名,并對這些關聯域名中除上述網絡服務器本身的域名以外的每一個,都從域名查詢設備獲取該關連域名的域名數據,計算該關連域名的域名數據中的每一項與網絡服務器的域名的域名數據中的對應項的相似度,根據每一項的相似度計算得到該關聯域名與網絡服務器的域名的相似度。最后選擇其中數值最大的一個作為網絡服務器的域名信息相似度,得到特征s4。
其中,相似度可以通過計算編輯距離而得到,編輯距離(Edit Distance)又稱Levenshtein距離,是指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數。許可的編輯操作包括將一個字符替換成另一個字符,插入一個字符,刪除一個字符。一般來說,編輯距離越小,兩個字串的相似度越大。計算編輯距離的原理為本領域的常規技術,在此不做描述。
計算每一項的相似度后,每一項的相似度可以組成相似度向量v,該關聯域名與網絡服務器的域名的相似度可以通過計算s4=|v|/N得到,其中N為域名數據的數據項數。
需要注意的是,若特征提取模塊330從域名反查設備獲取到的該域名對應的至少一個IP地址關聯的關聯域名只有1個且為網絡服務器的域名本身,則令網絡服務器的域名信息相似度s4=1。
根據本發明的另一個實施方式,內容特征包括特征s5——內容相似度,若網絡服務器提供的網絡內容與其他網絡內容相似度很高,則可以認為該網絡服務器提供仿冒內容的可能性較高。
具體地,特征提取模塊330首先可以利用網絡爬蟲獲取網絡服務器域名指向的網絡內容(例如HTML頁面),而后利用搜索引擎(例如Baidu、Google等)查詢該網絡內容的標題,獲取搜索結果中前第一預定數目條(例如前50條)網絡內容。對所獲取的每條網絡內容,都計算其與網絡服務器域名指向的網絡內容的內容相似度,最后選取其中數值最大的一個作為網絡服務器的內容相似度,得到特征s5。
內容相似度的計算如下:可以利用XML庫(如libxml2等)將網絡服務器的域名指向的網絡內容、以及搜索所獲取到的網絡內容解析為文檔對象模型樹(即DOM樹),通過遞歸比較其中子樹的相似度來計算搜索所獲取的網絡內容與網絡服務器的域名指向的網絡內容的內容相似度。
其中,為了進一步降低數據計算量同時不損失準確度,根據本發明的另一個實施方式,獲取搜索結果中前第一預定數目條網絡內容之后,特征提取模塊330還可以分別計算搜索出的每一條網絡內容的標題與網絡服務器的域名指向的網絡內容的標題的相似度,獲取其中標題相似度最大的第二預定數目條(例如10個)網絡內容。而后,對第二預定數目條(例如10個)網絡內容進行內容相似度的計算。
綜上所述,特征提取模塊330可以獲取特征s1、s2、s3、s4和s5,這些特征可以構成網絡服務器的特征向量(s1,s2,s3,s4,s5)。
接下來,與特征提取模塊330連接的仿冒判斷模塊340根據提取的特征,采用分類模型確定該網絡服務器是否提供仿冒服務。
具體地,根據本發明的一個實施方式,分類模型可以是邏輯回歸模型,并可以體現為以下公式:
其中,hθ(x)為預測函數,并表示確定網絡服務器提供仿冒服務的概率,θ為回歸參數,x為由網絡服務器的特征所構成的特征向量(s1,s2,s3,s4,s5),Cost(hθ(x),y)為邏輯回歸模型基于對數似然估計的損失函數,J(θ)為邏輯回歸模型的簡化損失函數,m為訓練樣本條數。其中,可以針對每一條訓練樣本進行迭代,并采用梯度下降法對簡化損失函數J(θ)求解,得到使得簡化損失函數J(θ)最小化的回歸參數θ。
最后,若p(y=1|x)>0.5,則y=1,確定網絡服務器提供仿冒服務,若p(y=1|x)≤0.5,則y=0,不確定網絡服務器提供仿冒服務。當然,上述公式所示的分類模型僅是示例性的,本領域技術人員也可以采用其他公式來定義分類模型,本發明對此不做限制。
下面以一個域名為例來詳細描述確定域名對應的網絡服務器是否提供仿冒服務的過程。
假設域名篩選模塊320在某日的域名解析記錄中,檢測到域名www.ccbtuic.com訪問量很少,在當日最少的3%之內。而后經由記錄獲取模塊310查詢該域名過去兩周的域名解析記錄,檢測到該域名www.ccbtuic.com在近一周內存在域名解析記錄,在近一周之前不存在域名解析記錄,因此可以將該域名篩選出來,進行后續的處理和判斷。
特征提取模塊330從域名服務器查詢到域名www.ccbtuic.com對應的IP地址僅有一個,并為122.10.85.106,則IP地址數量Nbind=1,特征s1=1/Nbind=1.0。
特征提取模塊330還從IP數據設備中查詢到IP地址122.10.85.106所屬地區為香港Cloudie,并且該地區的IP地址數量Nall=526507,其中惡意IP地址數量Nmal=23468,則計算得到特征
特征提取模塊330還從IP數據設備查詢到該IP地址122.10.85.106屬于惡意IP地址,則得到特征s3=1。
特征提取模塊330獲取網絡服務器的IP特征s1、s2和s3后,從域名反查設備查詢到IP地址關聯有以下關聯域名:
www.ccbtuic.com、www.ccbcvgv.com,其中www.ccbtuic.com為上述獲取的網絡服務器的域名。
接著,特征提取模塊330可以從域名查詢設備中查詢www.ccbtuic.com和www.ccbcvgv.com的域名數據,結果如下表:
計算得到www.ccbtuic.com和www.ccbcvgv.com表中每一項的相似度為0.6364,1.0,1.0,1.0,0.9091,1.0,1.0,1.0,1.0,1.0,由此組成的相似度向量為v(0.6364,1.0,1.0,1.0,0.9091,1.0,1.0,1.0,1.0,1.0),最后計算得到域名特征s4=|v|/N=0.3038,N為表中的數據項數。
而后,特征提取模塊330利用網絡爬蟲獲取域名www.ccbtuic.com指向的網絡內容,得到其標題為“建行首頁”。再通過百度搜索引擎反查該標題,選擇搜索出的前50條網絡內容中,選取與www.ccbtuic.com的標題相似度最大的10條網絡內容,依次比較這10條網絡內容和www.ccbtuic.com指向的網絡內容的DOM樹,并計算得到這10條網絡內容分別與www.ccbtuic.com指向的網絡內容的內容相似度為0.301、0.791、0.950、0.165、0.441、0.736、0.753、0.480、0.918、0.232,最后選擇其中數值最大的一個作為網絡服務器的內容特征s5=0.950。
以上特征可以構成一個特征向量(0.447,1.0,0.2111,1.0,0.3038,0.95),仿冒判斷模塊340將該特征向量輸入預先建立的邏輯回歸模型中,得到結果y=1,則可以確定該網絡服務器提供仿冒服務。
這樣實現了根據以上多維度的特征采用分類模型對網絡服務器是否提供仿冒服務的判斷過程,整個過程高度自動化,大大減少了人工干預,同時特征維度廣,準確度高,有效避免了誤報和漏報。
圖4示出了根據本發明一個示例性實施方式的確定提供仿冒服務的網絡服務器的方法400,適于在計算設備200中執行,該網絡服務器具有IP地址和域名,并提供網絡內容。如圖4所示,確定提供仿冒服務的網絡服務器的方法400始于步驟S410。
在步驟S410中,從域名服務器獲取第一預定時間段內的域名解析記錄。而后在步驟S420中,獲取該域名解析記錄對應的多個域名、以及每個域名的解析次數。并在步驟S430中,篩選出解析次數最低的預定數量個域名。
而后在步驟S440中,從域名服務器獲取所篩選出的預定數量個域名在第二預定時間段內的至少一條域名解析記錄。并在步驟S450中,根據預定數量個域名在第二預定時間段內的域名解析記錄,最后篩選出其中僅在第二預定時間段中的第三預定時間段內存在域名解析記錄的至少一個域名。
篩選出至少一個域名后,在步驟S460中,對于所篩選出的至少一個域名中的域名,獲取該域名對應的網絡服務器的IP特征、域名特征、以及內容特征。
根據本發明的一個實施方式,IP特征可以包括IP地址數量的倒數,步驟S460可以包括:從域名服務器查詢該域名對應的至少一個IP地址,并根據至少一個IP地址確定網絡服務器的IP地址數量的倒數。
根據本發明的另一個實施方式,計算設備200可以與IP數據存儲設備相耦接,IP數據存儲設備存儲有已知的IP地址、該IP地址是否惡意、以及所屬的地區和運營商,IP特征還可以包括IP地址地區惡意比率。則步驟S460可以包括:對域名對應的至少一個IP地址中的每一個:從IP數據存儲設備獲取與該IP地址屬于同一地區和運營商的IP地址數量、以及其中的惡意IP地址數量,根據惡意IP地址數量與IP地址數量,計算該IP地址所屬地區和運營商的IP地址地區惡意比率,最后選取其中數值最大的一個作為網絡服務器的IP地址惡意比率。
根據本發明的另一個實施方式,IP特征還可以包括IP地址是否惡意,則步驟S460可以包括:判斷域名對應的至少一個IP地址中的任意一個是否屬于所述IP數據存儲設備中的惡意IP地址,若是,則確定網絡服務器的IP地址是惡意,否則不是惡意。
根據本發明的另一個實施方式,計算設備200還可以與域名反查設備相耦接,域名反查設備存儲有已知的IP地址和與該IP地址相關聯的域名,計算設備200還可以與域名查詢設備相耦接,域名特征可以包括域名信息相似度,則步驟S460可以包括:從域名查詢設備獲取該域名的域名數據,從域名反查設備獲取域名對應的至少一個IP地址關聯的至少一個關聯域名,對至少一個關聯域名中除上述域名以外的每一個:從域名查詢設備獲取該關聯域名的域名數據,計算該關聯域名的域名數據中的每一項與域名的域名數據中的對應項的相似度,根據每一項的相似度計算得到該關聯域名與上述域名的相似度,最后選擇其中數值最大的一個作為網絡服務器的域名信息相似度。其中域名數據包括域名、域名的注冊商、聯系人、聯系方式、更新時間、過期時間、公司名稱、域名服務器、DNS、狀態中的至少一個。
根據本發明的另一個實施方式,內容特征可以包括內容相似度,則步驟S460可以包括:利用網絡爬蟲獲取域名指向的網絡內容,利用搜索引擎查詢該網絡內容的標題,并獲取搜索結果中前第一預定數目條網絡內容,對所獲取的每條網絡內容,計算其與域名指向的網絡內容的內容相似度,最后選取其中數值最大的一個作為網絡服務器的內容相似度。
其中,在獲取搜索結果中前第一預定數目條網絡內容之后,還可以進行進一步的篩選:分別計算搜索出的每一條網絡內容的標題與所述域名指向的網絡內容的標題的相似度,獲取其中標題相似度最大的第二預定數目條網絡內容。
具體地,計算所獲取的每條網絡內容與域名指向的網絡內容的內容相似度的步驟可以包括:將域名指向的網絡內容、以及所獲取的網絡內容解析為文檔對象模型樹,根據所獲取的網絡內容與域名指向的網絡內容的文檔對象模型樹計算所獲取的網絡內容與域名指向的網絡內容的內容相似度。
提取到上述特征之后,最后在步驟S470中,根據提取的特征,采用分類模型確定網絡服務器是否提供仿冒服務。其中,分類模型可以為邏輯回歸模型。
以上在結合圖1~圖3說明確定提供仿冒服務的網絡服務器的設備300的原理的具體描述中已經對各步驟的相應處理進行了詳細解釋,這里不再對重復內容進行贅述。
應當理解,為了精簡本公開并幫助理解各個發明方面中的一個或多個,在上面對本發明的示例性實施例的描述中,本發明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該公開的方法解釋成反映如下意圖:即所要求保護的本發明要求比在每個權利要求中所明確記載的特征更多特征。更確切地說,如下面的權利要求書所反映的那樣,發明方面在于少于前面公開的單個實施例的所有特征。因此,遵循具體實施方式的權利要求書由此明確地并入該具體實施方式,其中每個權利要求本身都作為本發明的單獨實施例。
本領域那些技術人員應當理解在本文所公開的示例中的設備的模塊或單元或組件可以布置在如該實施例中所描述的設備中,或者可替換地可以定位在與該示例中的設備不同的一個或多個設備中。前述示例中的模塊可以組合為一個模塊或者此外可以分成多個子模塊。
本發明還可以包括:A6、如A5所述的方法,其中,所述內容特征包括內容相似度,所述獲取該域名對應的網絡服務器的內容特征的步驟包括:利用網絡爬蟲獲取所述域名指向的網絡內容;利用搜索引擎查詢該網絡內容的標題,并獲取搜索結果中前第一預定數目條網絡內容;對所獲取的每條網絡內容,計算其與所述域名指向的網絡內容的內容相似度;以及選取其中數值最大的一個作為所述網絡服務器的內容相似度。A7、如A5所述的方法,其中,所述獲取該域名對應的網絡服務器的內容特征的步驟包括:在獲取搜索結果中前第一預定數目條網絡內容之后,分別計算搜索出的每一條網絡內容的標題與所述域名指向的網絡內容的標題的相似度;獲取其中標題相似度最大的第二預定數目條網絡內容。A8、如A6或7所述的方法,其中,所述計算所獲取的每條網絡內容與域名指向的網絡內容的內容相似度的步驟包括:將所述域名指向的網絡內容、以及所獲取的網絡內容解析為文檔對象模型樹;根據所獲取的網絡內容與所述域名指向的網絡內容的文檔對象模型樹計算所獲取的網絡內容與域名指向的網絡內容的內容相似度。A9、如A5所述的方法,其中,所述域名數據包括域名、域名的注冊商、聯系人、聯系方式、更新時間、過期時間、公司名稱、域名服務器、DNS、狀態中的至少一個。A10、如A1-9中任一項所述的方法,其中,所述分類模型為邏輯回歸模型。
B15、如B14所述的設備,其中,所述設備與域名反查設備相耦接,所述域名反查設備存儲有已知的IP地址和與該IP地址相關聯的域名,所述設備還與所述域名查詢設備相耦接,所述域名特征包括域名信息相似度;所述特征提取模塊適于:從所述域名查詢設備獲取所述域名的域名數據;從所述域名反查設備獲取所述域名對應的至少一個IP地址關聯的至少一個關聯域名;對至少一個關聯域名中除所述域名以外的每一個:從所述域名數據存儲設備獲取該關聯域名的域名數據;計算該關聯域名的域名數據中的每一項與所述域名的域名數據中的對應項的相似度;根據每一項的相似度計算得到該關聯域名與所述域名的相似度;選擇其中數值最大的一個作為所述網絡服務器的域名信息相似度。B16、如B15所述的設備,其中,所述內容特征包括內容相似度,所述特征提取模塊適于:利用網絡爬蟲獲取所述域名指向的網絡內容;利用搜索引擎查詢該網絡內容的標題,并獲取搜索結果中前第一預定數目條網絡內容;對所獲取的每條網絡內容,計算其與所述域名指向的網絡內容的內容相似度;以及選取其中數值最大的一個作為所述網絡服務器的內容相似度。B17、如B16所述的設備,其中,所述特征提取模塊還適于:在獲取搜索結果中前第一預定數目條網絡內容之后,分別計算搜索出的每一條網絡內容的標題與所述域名指向的網絡內容的標題的相似度;獲取其中標題相似度最大的第二預定數目條網絡內容。B18、如B16或17所述的設備,其中,所述特征提取模塊適于:將所述域名指向的網絡內容、以及所獲取的網絡內容解析為文檔對象模型樹;根據所獲取的網絡內容與所述域名指向的網絡內容的文檔對象模型樹計算所獲取的網絡內容與域名指向的網絡內容的內容相似度。B19、如B15所述的設備,其中,所述域名數據包括域名、域名的注冊商、聯系人、聯系方式、更新時間、過期時間、公司名稱、域名服務器、DNS、狀態中的至少一個。B20、如B11-19中任一項所述的設備,其中,所述分類模型為邏輯回歸模型。
本領域那些技術人員可以理解,可以對實施例中的設備中的模塊進行自適應性地改變并且把它們設置在與該實施例不同的一個或多個設備中。可以把實施例中的模塊或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。
此外,本領域的技術人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發明的范圍之內并且形成不同的實施例。例如,在下面的權利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
此外,所述實施例中的一些在此被描述成可以由計算機系統的處理器或者由執行所述功能的其它裝置實施的方法或方法元素的組合。因此,具有用于實施所述方法或方法元素的必要指令的處理器形成用于實施該方法或方法元素的裝置。此外,裝置實施例的在此所述的元素是如下裝置的例子:該裝置用于實施由為了實施該發明的目的的元素所執行的功能。
如在此所使用的那樣,除非另行規定,使用序數詞“第一”、“第二”、“第三”等等來描述普通對象僅僅表示涉及類似對象的不同實例,并且并不意圖暗示這樣被描述的對象必須具有時間上、空間上、排序方面或者以任意其它方式的給定順序。
盡管根據有限數量的實施例描述了本發明,但是受益于上面的描述,本技術領域內的技術人員明白,在由此描述的本發明的范圍內,可以設想其它實施例。此外,應當注意,本說明書中使用的語言主要是為了可讀性和教導的目的而選擇的,而不是為了解釋或者限定本發明的主題而選擇的。因此,在不偏離所附權利要求書的范圍和精神的情況下,對于本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。對于本發明的范圍,對本發明所做的公開是說明性的,而非限制性的,本發明的范圍由所附權利要求書限定。