泛濫子域的識別方法和系統的制作方法
【專利摘要】本發明實施例公開了一種泛濫子域的識別方法和系統,涉及計算機【技術領域】,應用于搜索引擎,根據子域名的任一有效片段組的片段長度的離散度或集中度來識別泛濫子域,可有效提高泛濫子域識別程度。本發明實施例提供的方法包括:收集具有相同主域名的子域名;若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應的子域名識別為泛濫子域,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側域名部分和右側域名部分分別相同的片段集合。
【專利說明】泛濫子域的識別方法和系統
【技術領域】
[0001]本發明涉及計算機【技術領域】,尤其涉及泛濫子域的識別方法和系統。
【背景技術】
[0002]計算機網絡技術的發展極大的提高了人們獲取信息的便利性,計算機網絡中存儲了海量的信息,為了使人們查找到自己所需的信息,搜索引擎被廣泛使用,搜索引擎對網站的收錄、質量控制是按照子域名為單位的。子域名是指根據業務的不同,站長在主域名的基礎上,擴展出的多個域名,例如bbs.163.com提供論壇服務,blog.163.com是網易博客的子域名。子域名可以任意取名,甚至可以是多級子域名,例如twocold.blog.sina.com.cn。子域名是由左側域名部分加主域名組合而成的,排除掉主域名部分,子域名剩下的部分按照符號”可以分割為多級片段。比如www.163.com可以分割“www” 一級片段,twocold.blog.sina.com.cn 可以分割成” twocold”、“blog” 兩級片段。
[0003]但是有些站長會故意生成數量龐大的、且內容、質量是很接近的子域名,給搜索引擎造成這個主域名的業務很龐大的假象,這種批量造出的子域名叫做泛濫子域,由于泛濫子域的內容、質量是很接近的,如果像對普通子域一樣對進行常規的更新、質量評估,則大大增加了搜索引擎的負擔,所以,識別泛濫子域并采取相應的調度手段可以使資源分配更合理,且大大減小搜索引擎的負擔。
[0004]現有技術常用的識別泛濫子域的方法是通過統計相同主域名包含的子域名的數量,當數量超過一定的閾值,則認為是泛濫子域。
[0005]發明人發現現有技術至少存在以下缺點:現有技術單純根據數量來判斷是否為泛濫子域,只能解決最嚴重的泛濫子域問題,對泛濫子域的識別程度低。
【發明內容】
[0006]本發明的實施例提供一種泛濫子域的識別方法和系統,根據子域名的任一有效片段組的片段長度的離散度或集中度進行泛濫子域的識別,可有效提高泛濫子域識別程度。
[0007]為達到上述目的,本發明實施例采用的技術方案是,
[0008]一方面,本發明實施例提供一種泛濫子域的識別方法,包括:
[0009]獲取具有相同主域名的子域名;
[0010]若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應的子域名識別為泛濫子域,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側域名部分和/或右側域名部分分別相同的片段集合。
[0011]優選的,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布,包括:
[0012]獲取平均片段數量,其中,所述平均片段數量由所述任一有效片段組包含的片段總數量除以所述任一有效片段組包含的不同的片段長度總數得到;[0013]若所述平均片段數量小于第一離散度閾值,則判斷所述任一有效片段組的片段長度為離散分布。
[0014]優選的,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為尚散分布,還包括:
[0015]若所述平均片段數量不小于所述第一離散度閾值,則統計所述任一有效片段組包含分隔符的片段數量或者所述任一有效片段組的命名模式;
[0016]若所述任一有效片段組包含分隔符的片段數量大于預設分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大于預設比例閾值,且所述平均片段數量小于第二離散度閾值,則判斷所述任一有效片段組的片段長度為離散分布。
[0017]優選的,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為集中分布,包括:
[0018]獲取平均片段數量,其中,所述平均片段數量由所述任一有效片段組包含的片段總數量除以所述任一有效片段組包含的不同的片段長度總數得到;
[0019]獲取所述任一有效片段組包含的有效長度數量,其中,包含的片段數量大于所述平均片段數量與調整因子乘積的片段長度為所述有效長度;
[0020]若所述有效長度數量與所述片段長度總數的比值小于第一集中度閾值,則判斷所述任一有效片段組的片段長度為集中分布。
[0021]優選的,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為集中分布,還包括:
[0022]若所述有效長度數量與所述片段長度總數的比值不小于所述第一集中度閾值,則統計所述任一有效片段組包含分隔符的片段數量或者所述任一有效片段組的命名模式;
[0023]若所述任一有效片段組包含分隔符的片段數量大于預設分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大于預設比例閾值,且所述有效長度數量與所述片段長度總數的比值小于第二集中度閾值,則判斷所述任一有效片段組的片段長度為集中分布。
[0024]優選的,所述方法還包括:
[0025]若判斷所述具有相同主域名的子域名的每一有效片段組的片段長度均不為離散分布或集中分布,且所述具有相同主域名的子域名具有至少兩級片段時,則將所述具有相同主域名的子域名的相鄰的至少兩有效片段組合并成一級片段;
[0026]根據所述合并后的一級片段組獲取新的有效片段組,若判斷所述新的有效片段組的片段長度為離散分布或集中分布,則將所述新的有效片段組對應的子域名識別為泛濫子域。
[0027]優選的,在若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應的子域名識別為泛濫子域之前,所述方法還包括:
[0028]根據預先設定的豁免規則,將符合所述豁免規則的片段或者子域名過濾,不進行泛濫子域的識別。
[0029]優選的,所述方法還包括,設置更新周期,相應的,
[0030]所述收集具有相同主域名的子域名,包括:根據所述設置的更新周期,在每個更新周期內收集具有相同主域名的子域名;
[0031]所述若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應的子域名識別為泛濫子域,包括:根據所述設置的更新周期,在每個更新周期內若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應的子域名識別為泛濫子域。
[0032]一方面,本發明實施例提供一種泛濫子域的識別系統,其特征在于,包括:
[0033]獲取單元,用于獲取具有相同主域名的子域名;
[0034]判斷單元,用于判斷所述獲取單元獲取的所述具有相同主域名的子域名的任一有效片段組的片段長度是否為離散分布或集中分布,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側域名部分和/或右側域名部分分別相同的片段集合;
[0035]識別單元,用于在所述判斷單元判斷所述任一有效片段組的片段長度為離散分布或集中分布后,將所述任一有效片段組對應的子域名識別為泛濫子域。
[0036]優選的,所述判斷單元包括,包括:
[0037]獲取模塊,用于獲取平均片段數量,其中,所述平均片段數量由所述任一有效片段組包含的片段總數量除以所述任一有效片段組包含的不同的片段長度總數得到;
[0038]第一判斷模塊,用于在確定所述獲取模塊獲取的所述平均片段數量小于第一離散度閾值后,判斷所述任一有效片段組的片段長度為離散分布。
[0039]優選的,所述判斷單元,還包括:
[0040]統計模塊,用于在所述第一判斷模塊判斷所述平均片段數量不小于所述第一離散度閾值后,統計所述任一有效片段組包含分隔符的片段數量或者所述任一有效片段組的命名模式;
[0041]第二判斷模塊,用于在確定所述統計模塊統計的所述任一有效片段組包含分隔符的片段數量大于預設分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大于預設比例閾值,且所述第一判斷模塊確定所述平均片段數量小于第二離散度閾值后,判斷所述任一有效片段組的片段長度為離散分布。
[0042]優選的,所述判斷單元,包括:
[0043]第一獲取模塊,用于獲取平均片段數量,其中,所述平均片段數量由所述任一有效片段組包含的片段總數量除以所述任一有效片段組包含的不同的片段長度總數得到;
[0044]第二獲取模塊,用于獲取所述任一有效片段組包含的有效長度數量,其中,包含的片段數量大于所述平均片段數量與調整因子乘積的片段長度為所述有效長度;
[0045]第一判斷模塊,用于在確定所述第二獲取模塊獲取的所述有效長度數量與所述片段長度總數的比值小于第一集中度閾值后,判斷所述任一有效片段組的片段長度為集中分布。
[0046]優選的,所述判斷單元,還包括:
[0047]統計模塊,用于在所述第一判斷模塊確定所述有效長度數量與所述片段長度總數的比值不小于所述第一集中度閾值后,統計所述任一有效片段組包含分隔符的片段數量或者所述任一有效片段組的命名模式;[0048]第二判斷模塊,用于在確定所述統計模塊統計的所述任一有效片段組包含分隔符的片段數量大于預設分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大于預設比例閾值,且所述第一判斷模塊確定所述有效長度數量與所述片段長度總數的比值小于第二集中度閾值后,判斷所述任一有效片段組的片段長度為集中分布。
[0049]優選的,所述系統還包括:
[0050]合并單元,用于在所述判斷單元判斷所述具有相同主域名的子域名的每一有效片段組的片段長度均不為離散分布或集中分布后,且所述具有相同主域名的子域名具有至少兩級片段后,將所述具有相同主域名的子域名的相鄰的至少兩級片斷合并成一級片段;
[0051]所述判斷單元還用于,根據所述合并后的一級片段獲取新的有效片段組,判斷所述新的有效片段組的片段長度是否為離散分布或集中分布;
[0052]所述識別單元還用于,在所述判斷單元判斷所述新的有效片段組的片段長度為離散分布或集中分布后,將所述新的有效片段組對應的子域名識別為泛濫子域。
[0053]優選的,所述系統還包括:
[0054]過濾單元,用于根據預先設定的豁免規則,將符合所述豁免規則的片段或者子域名過濾,以便于所述判斷單元和識別單元不針對符合所述豁免規則的片段或者子域名進行泛濫子域的識別。
[0055]優選的,所述系統還包括,更新周期設置單元,用于設置更新周期,相應的,
[0056]所述獲取單元還用于:根據所述更新周期設置單元設置的更新周期,在每個更新周期內獲取具有相同主域名的子域名;
[0057]所述判斷單元還用于:根據所述更新周期設置單元設置的更新周期,在每個更新周期內若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度是否為離散分布或集中分布;
[0058]所述識別單元還用于:根據所述更新周期設置單元設置的更新周期,在每個更新周期內,在所述判斷單元判斷所述任一有效片段組的片段長度為離散分布或集中分布后,將所述任一有效片段組對應的子域名識別為泛濫子域。
[0059]本發明實施例提供的泛濫子域的識別方法和系統,根據具有相同主域名的子域名的任一有效片段組的片段長度的離散度或者集中度來識別泛濫子域,若任一有效片段組的片段長度為離散分布或集中分布,則將該任一有效片段組對應的子域名識別為泛濫子域。提高了泛濫子域的識別程度,解決了現有技術單純根據子域數量來判斷是否為泛濫子域,只能解決最嚴重的泛濫子域,對泛濫子域的識別程度低的問題。
【專利附圖】
【附圖說明】
[0060]為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0061]圖1為本發明實施例提供的一種泛濫子域的識別方法流程圖;
[0062]圖2為本發明實施例提供的一種泛濫子域的識別系統圖;
[0063]圖3為本發明實施例提供的泛濫子域的識別系統圖中的判斷單元的一種結構圖;[0064]圖4為本發明實施例提供的泛濫子域的識別系統圖中的判斷單元的另一種結構圖;
[0065]圖5為本發明實施例提供的另一種泛濫子域的識別系統圖。
【具體實施方式】
[0066]下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
[0067]本發明實施例提供了一種泛濫子域的識別方法,參見圖1,包括,
[0068]SlOl:獲取具有相同主域名的子域名;
[0069]示例性的,可以收集搜索引擎在網絡上收錄的所有子域名,子域名可以以列表形式表示,也可以以其它形式表示,收集的所有子域名按照主域名進行分類,每一組具有相同主域名的子域名分別作為泛濫域名識別的數據源。本實施例以針對一個主域名包含的子域名為例進行泛濫域名識別的說明,所以下文出現的主域名的含義指同一個特定的主域名,其他主域名包含的子域名的泛濫域名識別過程和原理相同。
[0070]優選的,在步驟SlOl中,可以設定一個更新周期,在每個更新周期獲取具有相同主域名的子域名并進行更新。
[0071]S102:若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應的子域名識別為泛濫子域,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側域名部分和/或右側域名部分分別相同的片段集合。
[0072]示例性的,本實施例稱與主域名相鄰的片段為第一級片段,與第一級片段相鄰的為第二級片段,依次類推,例如,域名twocold.blog.sina.com.cn主域名為“sina.com.cn”,第一級片段為“blog”,第二級片段為“twocold”、“twocold”為第一級片段的左側域名部分,“sina.com.cn”為第一級片段的右側域名部分。有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側域名部分和/或右側域名部分分別相同的片段集合。
[0073]其中,當所述同一級片段不是所述具有相同主域名的子域名的最高一級片段時,所述同一級片段的左側域名部分和/或右側域名部分分別相同包括:所述同一級片段的左側域名部分和右側域名部分分別相同;
[0074]以下述子域名的第二級片段為例進行說明,
[0075]www.cid_3cl48clcd8599f5e.profile, live, com
[0076]www.cid-fc56648fc658c405.profile, live, com
[0077]www.cid-f4bd27el68f86267.profile, live, com
[0078]www.51senv.space, live, com
[0079]上述域名的第二級片段包括“cid_3cl48clcd8599f5e”,“cid-fc56648fc658c405”,“cid_f4bd27el68f86267” 以及 “51senv”,其中“cid-3cl48clcd8599f5e”,“cid_fc56648fc658c405”,“cid_f4bd27el68f86267” 的左側域名部分和右側域名部分均相同,且屬于同一級片段,所以構成有效片段組,而片段“51senV”與片段“Cid-3C148ClCd8599f5e”等雖屬于同一級片段,但是右側域名部分不相同,所以不能和“cid-3cl48clcd8599f5e”等片段屬于同一有效片段組。
[0080]當所述同一級片段是所述具有相同主域名的子域名的最高一級片段時,所述同一級片段的左側域名部分和/或右側域名部分分別相同包括:所述同一級片段右側域名部分分別相同。
[0081]例如,當根據子域名的最高一級片段進行泛濫識別時,最高一級片段只有右側域名部分,所以,只要右側域名部分相同即可認為構成有效片段組,以下述子域名的第三級片段為例進行說明,
[0082]ihaz0.qh.gzszyl.g0.cn
[0083]fido0.qh.gzszyl.g0.cn
[0084]npvny.qh.gzszyl.g0.cn
[0085]tmtmk.ne.gzszyl.g0.cn
[0086]上述域名的第三級片段為最高一級片段,包括“ihazo”,“fidoo”,“npvny”以及“七!^1^”,其中“11^0”,“打(100”,“1^11/’的右側域名部分均相同,所以構成有效片段組,而片段“tmtmk”與片段“ihazo”等雖屬于同一級片段,但是右側域名部分不相同,所以不能和“ihazo”等片段屬于同一有效片段組。
[0087]具有相同主域名的子域名可以包含多個有效片段組,本實施例以根據第一有效片段組的片段長度的離散度或集中度進行泛濫識別為例進行說明,根據其他有效片段組的片段長度的離散度或集中度進行泛濫識別額度原理和過程相同。其中,有效片段組的片段長度的集中度:指的是有效片段組包含的片段長度,在分布上集中在少數幾個長度上的程度;有效片段組的片段長度的離散度:指的是有效片段組包含的片段長度的數量比較多,并且每個長度分布的域名數量比例很低的程度。
[0088]示例性的,根據第一有效片段組包含的片段總數量,以及每一個片段的片段長度可以統計第一有效片段組包含的不同的片段長度總數。
[0089]另外,在步驟S102中,可以設定一個更新周期,在每個更新周期中判斷第一有效片段組的片段長度是否為離散分布或者是否為集中分布。
[0090]下面分別簡單介紹判斷第一有效片段組的片段長度是否為離散分布和是否為集中分布的方法。
[0091]一、判斷第一有效片段組的片段長度是否為離散分布,可以包括:
[0092]a、獲取平均片段數量,其中,所述平均片段數量由所述有效片段組包含的片段總數量除以所述有效片段組包含的不同的片段長度總數得到;
[0093]示例性的,本實施例以第一有效片段組包含的片段總數量為1000為例進行說明;
[0094]每一個片段的片段長度是指每一個片段的包含的字符數,例如,
[0095]cid-3cl48clcd8599f5e.profile, live, com 的第二級片段的片段長度是 20 ;
[0096]www.thhhhshhh.live, com的第一級片段的片段長度是9 ;
[0097]www.live, com的第一級片段的片段長度是3 ;
[0098]第一有效 片段組包含的不同的片段長度總數指第一有效片段組包含多少種片段長度;平均片段數量指第一有效片段組的總數量與第一有效片段組包含的不同的片段長度總數的比值。
[0099]本實施例以第一片段包含4種片段長度為例進行說明,假設四種片段長度分別為:
[0100]片段長度(Ien) = 2,該片段長度包含的片段數量為500個,
[0101]Ien = 3,該片段長度包含的片段數量為200個;
[0102]Ien = 8,該片段長度包含的片段數量為250個;
[0103]Ien = 11,該片段長度包含的片段數量為50個。
[0104]那么,平均片段數量為1000/4 = 250個。
[0105]b、若所述平均片段數量小于第一離散度閾值,則判斷所述任一有效片段組的片段長度為離散分布。
[0106]示例性的,可以預先設置第一離散度閾值,第一離散度閾值的取值范圍可以通過根據現階段泛濫子域的離散程度特點進行確定,如果現階段經常出現的泛濫子域的離散程度出現新的趨勢,可對第一離散度閾值進行調整。其中現階段泛濫子域的離散程度特點可通過統計的方式獲取,此處不進行限定。
[0107]例如,第一離散度閾值可以取12-40,優選的可以取12。
[0108]當平均片段數量小于第一離散度閾值時,可以認為第一片段長度為離散分布。
[0109]例如,第一離散度閾值取40,當平均片段數量為250時,不能判斷第一片段長度為離散分布,當平均片段數量為25時,可以判斷第一片段長度為離散分布。
[0110]優選的,當只根據第一有效片段組的平均判斷數量判斷第一有效片段組的片段長度不為離散分布時,為了提高泛濫域名的識別程度,還可以結合第一有效片段組的命名信息輔助判斷第一有效片段組的片段長度為離散分布,所以,還可以包括:
[0111]C、若平均片段數量不小于第一離散度閾值,則統計第一有效片段組包含分隔符的片段數量或者第一有效片段組的命名模式;
[0112]示例性的,假設第一離散度閾值取40,平均片段數量為250,不能判斷第一片段長度為離散分布,則進一步統計第一有效片段組包含分隔符的片段數量或者第一有效片段組的命名模式;
[0113]下面分別對統計第一有效片段組包含分隔符的片段數量和統計第一有效片段組的命名模式進行說明。
[0114]I)統計第一有效片段組包含分隔符的片段數量。
[0115]示例性的,分隔符可根據域名中允許出現的符號預先設定,例如,若域名中允許出現中劃線則分隔符可以預先設置為第一有效片段組包含分隔符的片段數量即為包含分隔符的片段的數量;若域名中可以出現等符號,則分隔符可以預先設置為等符號,第一有效片段組包含分隔符的片段數量即為包含分隔符”等符號的片段的數量和。
[0116]另外,可以預設分隔符閾值,以分析第一有效片段組包含分隔符的片段是否普遍存在,例如,預設分隔符閾值可以設置為60%,優選的,可以設置為80%。
[0117]例如,預設分隔符閾值設置為60%,當第一有效片段組包含分隔符的片段數量占第一有效片段組總量的60%以上時,可以認為第一有效片段組包含分隔符的片段是普遍存在的,當第一有效片段組包含分隔符的片段數量占第一有效片段組總量的不高于60%時,可以認為第一有效片段組包含分隔符的片段不是普遍存在的。
[0118]2)統計第一有效片段組的命名模式。
[0119]示例性的,可以預設命名模式,例如可以包含4種命名模式(全部是數字、全部是字母、全部是數字加字母、全部是子域加數字),當然根據域名命名規則的改變,預設的命名模式也可以進行更新,此處不進行限定。
[0120]示例性的,可以預設比例閾值,以判斷第一片段的命名模式是否統一,例如,預設比例閾值可以設置為60%,優選的,可以設置為80%。
[0121]例如,預設比例閾值設置為60%,當第一有效片段組包含的任何一種模式的片段數量占第一有效片段組總量的60%以上時,可以認為第一有效片段組命名模式是統一的,當第一有效片段組包含的每一種模式的片段數量占第一有效片段組總量均小于60%時,可以認為第一有效片段組的命名模式是不統一的。
[0122]d、若第一有效片段組包含分隔符的片段數量大于預設分隔符閾值或者第一有效片段組的任意一種命名模式的比例大于預設比例閾值,且平均片段數量小于第二離散度閾值,則判斷第一有效片段組的片段長度為離散分布。
[0123]示例性的,當平均片段數量小于第二離散度閾值,且第一片段至少滿足包含分隔符的片段是普遍存在的、命名模式是統一的中的一種情況時,可以判斷第一有效片段組的片段長度為離散分布。其中,第一片段是否滿足包含分隔符的片段是普遍存在的、命名模式是統一的判斷同上述c所述,此處不再贅述。
[0124]第二離散度閾值可以預先設置,第二離散度閾值的取值范圍可以通過根據現階段泛濫子域的離散程度特點進行確定,例如可以為15-50。但是第二離散閾值應該大于第一離散閾值。例如,第一離散度閾值取40時,第二離散度閾值可以取50,優選的,第一離散度閾值取12時,第二離散度閾值可以取15。
[0125]二、判斷第一有效片段組的片段長度是否為集中分布,可以包括:
[0126]a、獲取平均片段數量,其中,所述平均片段數量由所述有效片段組包含的片段總數量除以所述有效片段組包含的不同的片段長度總數得到;
[0127]示例性的,此處仍以第一有效片段組的總數量為1000為例進行說明;假設第一片段包含4種片段長度,例如四種片段長度分別為:
[0128]片段長度(Ien) = 2,該片段長度包含的片段數量為500個,
[0129]Ien = 3,該片段長度包含的片段數量為200個;
[0130]Ien = 8,該片段長度包含的片段數量為250個;
[0131]Ien = 11,該片段長度包含的片段數量為50個。
[0132]那么,平均片段數量為1000/4 = 250個。
[0133]b、獲取第一有效片段組包含的有效長度數量,其中,包含的片段數量大于所述平均片段數量與調整因子乘積的片段長度為所述有效長度;
[0134]示例性的,調整因子的取值范圍可以為0.9-1.5,優選的的取值為0.9。
[0135]例如,當調整因子為0.9時,平均片段數量與調整因子乘積為250*0.9 = 225,包含的片段數量大于225的片段長度有Ien = 2 (包含500個片段)和Ien = 8 (包含300個片段)。所以,有效長度數量為2。
[0136]C、若有效長度數量與片段長度總數的比值小于第一集中度閾值,則判斷所述第一有效片段組的片段長度為集中分布。
[0137]示例性的,可以預先設置第一集中度閾值,第一集中度閾值的取值范圍可以通過根據現階段泛濫子域的集中程度特點進行確定,如果現階段經常出現的泛濫子域的集中程度出現新的趨勢,可對第一集中度閾值進行調整。其中現階段泛濫子域的集中程度特點可通過統計的方式獲取,此處不進行限定。
[0138]例如,第一集中度閾值可以取0.45-0.6,優選的可以取0.45。
[0139]當有效長度數量與片段長度總數的比值小于第一集中度閾值時,可以認為第一片段長度為集中分布。
[0140]例如,當第一集中度閾值取0.45,有效長度數量為2,片段長度總數為4,則2/4 =
0.5,大于0.45,不能判斷第一片段長度為集中分布,當第一集中度閾值取0.6時,可以判斷第一片段長度為集中分布。
[0141]優選的,當根據有效長度數量與片段長度總數的比值判斷第一有效片段組的片段長度不為集中分布時,為了提高泛濫域名的識別程度,還可以結合第一有效片段組的命名信息輔助判斷第一有效片段組的片段長度為集中分布,所以,還可以包括:
[0142]C、若所述有效長度數量與所述片段長度總數的比值不小于所述第一集中度閾值,則統計所述第一有效片段組包含分隔符的片段數量或者第一有效片段組的命名模式;
[0143]示例性的,分隔符的片段數量和命名模式的統計和應用同上所述,此處不再贅述。
[0144]d、若第一有效片段組包含分隔符的片段數量大于預設分隔符閾值或者第一有效片段組的任意一種命名模式的比例大于預設比例閾值,且所述有效長度數量與所述片段長度總數的比值小于第二集中度閾值,則判斷第一有效片段組的片段長度為集中分布。
[0145]示例性的,當有效長度數量與所述片段長度總數的比值小于第二集中度閾值,且第一片段至少滿足包含分隔符的片段是普遍存在的、命名模式是統一的中的一種情況時,可以判斷第一有效片段組的片段長度為集中分布。
[0146]第二集中度閾值可以預先設置,第二集中度閾值的取值范圍可以通過根據現階段泛濫子域的集中程度特點進行確定,例如,第二集中度閾值的取值范圍可以為0.6-0.7,但是第二集中閾值應該大于第一集中閾值。例如,第一集中度閾值取0.6時,第二集中度閾值可以取0.7,優選的,第一集中度閾值取0.45時,第二集中度閾值可以取0.6。
[0147]優選的,為了提高識別的效率和可靠度,可以先根據第一級片段的有效片段組進行識別,然后將被識別為泛濫子域的子域名刪除后再根據第二級片段的有效片段組進行識另IJ,依次類推。
[0148]優選的,當子域名包含多級片段時,在利用上述方法根據每一個有效片段組均不能識別泛濫子域的情況下,為了提高識別程度,該方法還可以包括,
[0149]若判斷具有相同主域名的子域名的每一有效片段組的片段長度均不為離散分布或集中分布,則將所述具有相同主域名的子域名的相鄰的至少兩級片斷合并為一級片段;
[0150]示例性的,合并的步驟可以將片段間的”去除。去除”的步驟可以逐步加大,第一步去除一個”,然后嘗試識別,如果還是不能識別,則加大為兩個”,這樣依次進行。
[0151]例如,對于下述域名:
[0152]www.1haz0.qh.gzszyl.g0.cn
[0153]www.fido0.edu.gzszyl.g0.cn[0154]www.npvny.hb.gzszyl.g0.cn
[0155]www.tmtmk.ne.gzszyl.g0.cn
[0156]將第二級片段和第三級片段合并后,變為:
[0157]www.1hazoqh.gzszyl.g0.cn
[0158]www.fidooedu.gzszyl.g0.cn
[0159]www.npvnyhb.gzszyl.g0.cn
[0160]www.tmtmkne.gzszyl.g0.cn
[0161]www.tlekaf j.gzszyl.g0.cn
[0162]則得到的新的一級片段為上述合并后域名的第二級片段。
[0163]根據所述合并后的一級片段組獲取新的有效片段組,若判斷所述新的有效片段組的片段長度為離散分布或集中分布,則將所述新的有效片段組對應的子域名識別為泛濫子域。
[0164]示例性的,可根據上述合并后域名的第二級片段獲取新的有效片段組,根據新的有效片段組的片段長度分布進行泛濫子域的識別的原理和過程同上述方法,此處不再贅述。
[0165]優選的,在步驟S102之前,所述方法還包括:
[0166]判斷所述任一有效片段組的數量是否大于預設閾值,若大于預設閾值,則進行泛濫子域的識別。
[0167]示例性的,因為泛濫子域一般是批量的產生,所以數目比較大,所以為了減化識別的過程,可以設置一預設閾值,當某一有效片段組的數量大于該預設閾值時,采利用上述方法進行泛濫子域的識別。預設閾值的取值范圍可以根據現階段泛濫域名的數量特點進行設置,現階段泛濫域名的數量特點可以利用統計的方法獲取,例如,預設閾值的取值范圍可以為大于等于50,對于第一級片段的有效片段組,預設閾值可優選為500,對于第二級片段的有效片段組,預設閾值可優選為100。
[0168]優選的,步驟S102根據預先設定的豁免規則,將符合所述豁免規則的片段或者子域名過濾,不進行泛濫子域的識別。
[0169]示例性的,作為對重要子域名的保護,可以根據豁免規則可以根據實際需要進行設定,符合豁免規則的子域名,將不會被識別為泛濫域名。
[0170]例如,根據統計不同主域間的子域片段,將一些有含義的,或者是普遍存在的片段預存為豁免片段。例如“bbS”、“blog”、“WWW”等。
[0171]再例如,通過分析子域的質量,用戶訪問量,統計特別重要的子域名作為豁免子域。例如 qzone.163.com、bbs.163.com 等。
[0172]優選的,在步驟S102之后,還可以包括:將每一有效片段組對應的被識別的泛濫子域作為一個子域進行調度。
[0173]示例性的,因為泛濫子域的質量和內容差不多,所以可以將泛濫子域用一個虛擬子域進行調度,節約寬帶資源。
[0174]例如,可以保留有效片段組的左側域名部分和右側域名部分,將有效片段用表
/Jn ο
[0175]如,cid_3cl48clcd8599f5e.profile, live, com[0176]cid-fc56648fc658c405.profile, live, com
[0177]cid-f4bd27el68f86267.profile, live, com
[0178]等符合*.profile, live, com規則描述的子域名,可以虛擬為一個子域名:prifile.live, com。
[0179]本實施例提供的泛濫子域的識別方法,根據具有相同主域名的子域名的任一有效片段組的片段長度的離散度或者集中度來識別泛濫子域,若任一有效片段組的片段長度為離散分布或集中分布,則將該任一有效片段組對應的子域名識別為泛濫子域。提高了泛濫子域的識別程度,解決了現有技術單純根據子域數量來判斷是否為泛濫子域,只能解決最嚴重的泛濫子域,對泛濫子域的識別程度低的問題。
[0180]本發明另一實施例提供一種泛濫子域的識別系統,應用于圖1所示的方法,參見圖2,該系統包括:
[0181]獲取單元201,用于獲取具有相同主域名的子域名;
[0182]示例性的,獲取單元201可以收集搜索引擎在網絡上收錄的所有子域名,子域名可以以列表形式表示,也可以以其它形式表示,收集的所有子域名按照主域名進行分類,可以分別統計不同主域名包含的子域名,每一個主域名包含的子域名分別作為泛濫域名識別的數據源。本實施例以針對一個主域名包含的子域名為例進行泛濫域名識別的說明,其他主域名包含的子域名的泛濫域名識別過程和原理相同。
[0183]判斷單元202,用于判斷所述獲取單元201獲取的所述具有相同主域名的子域名的任一有效片段組的片段長度是否為離散分布或集中分布,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側域名部分和/或右側域名部分分別相同的片段集合;
[0184]示例性的,本實施例中有效片段組的含義同方法實施例,此處不再贅述。具有相同主域名的子域名可以包含多個有效片段組,本實施例以根據第一有效片段組的片段長度的離散度或集中度進行泛濫識別為例進行說明,根據其他有效片段組的片段長度的離散度或集中度進行泛濫識別額度原理和過程相同。
[0185]下面分兩種情況進行說明。
[0186]第一種情況,
[0187]所述判斷單元可以包括:
[0188]獲取模塊301,用于獲取平均片段數量,其中,所述平均片段數量由所述任一有效片段組包含的片段總數量除以所述任一有效片段組包含的不同的片段長度總數得到;
[0189]示例性的,本實施例以第一有效片段組為例進行說明,假設第一有效片段組包含的片段總數量為1000 ;
[0190]每一個片段的片段長度是指每一個片段的包含的字符數,例如,
[0191]cid-3cl48clcd8599f5e.profile, live, com 的第二級片段的片段長度是 20 ;
[0192]www.thhhhshhh.live, com的第一級片段的片段長度是9 ;
[0193]www.live, com的第一級片段的片段長度是3 ;
[0194]第一有效片段組包含的不同的片段長度總數指第一有效片段組包含多少種片段長度;平均片段數量指第一有效片段組的總數量與第一有效片段組包含的不同的片段長度總數的比值。[0195]本實施例以第一片段包含4種片段長度為例進行說明,假設四種片段長度分別為:
[0196]片段長度(Ien) = 2,該片段長度包含的片段數量為500個,
[0197]Ien = 3,該片段長度包含的片段數量為200個;
[0198]Ien = 8,該片段長度包含的片段數量為250個;
[0199]Ien = 11,該片段長度包含的片段數量為50個。
[0200]那么,平均片段數量為1000/4 = 250個。
[0201]第一判斷模塊302,用于在確定所述獲取模塊獲取的所述平均片段數量小于第一離散度閾值后,判斷所述任一有效片段組的片段長度為離散分布。
[0202]示例性的,系統可以預先設置第一離散度閾值,第一離散度閾值的取值范圍可以通過根據現階段泛濫子域的離散程度特點進行確定,如果現階段經常出現的泛濫子域的離散程度出現新的趨勢,可對第一離散度閾值進行調整。其中現階段泛濫子域的離散程度特點可通過統計的方式獲取,此處不進行限定。
[0203]例如,第一離散度閾值可以取12-40,優選的可以取12。
[0204]當平均片段數量小于第一離散度閾值時,可以認為第一片段長度為離散分布。
[0205]例如,第一離散度閾值取40,當平均片段數量為250時,不能判斷第一片段長度為離散分布,當平均片段數量為25時,可以判斷第一片段長度為離散分布。
[0206]統計模塊303,用于在所述第一判斷模塊302判斷所述平均片段數量不小于所述第一離散度閾值后,統計所述任一有效片段組包含分隔符的片段數量或者所述任一有效片段組的命名模式;
[0207]示例性的,當只根據第一有效片段組的平均片段數量判斷第一有效片段組的片段長度不為離散分布時,為了提高泛濫域名的識別程度,還可以結合第一有效片段組的命名信息輔助判斷第一有效片段組的片段長度為離散分布。
[0208]下面分別對統計第一有效片段組包含分隔符的片段數量和統計第一有效片段組的命名模式進行說明。
[0209]I)統計第一有效片段組包含分隔符的片段數量。
[0210]示例性的,分隔符可根據域名中允許出現的符號預先設定,例如,若域名中允許出現中劃線則分隔符可以預先設置為第一有效片段組包含分隔符的片段數量即為包含分隔符的片段的數量;若域名中可以出現等符號,則分隔符可以預先設置為等符號,第一有效片段組包含分隔符的片段數量即為包含分隔符”等符號的片段的數量和。
[0211]另外,可以預設分隔符閾值,以分析第一有效片段組包含分隔符的片段是否普遍存在,例如,預設分隔符閾值可以設置為60%,優選的,可以設置為80%。
[0212]例如,預設分隔符閾值設置為60%,當第一有效片段組包含分隔符的片段數量占第一有效片段組總量的60%以上時,可以認為第一有效片段組包含分隔符的片段是普遍存在的,當第一有效片段組包含分隔符的片段數量占第一有效片段組總量的不高于60%時,可以認為第一有效片段組包含分隔符的片段不是普遍存在的。
[0213]2)統計第一有效片段組的命名模式。
[0214]示例性的,可以預設命名模式,例如可以包含4種命名模式(全部是數字、全部是字母、全部是數字加字母、全部是子域加數字),當然根據域名命名規則的改變,預設的命名模式也可以進行更新,此處不進行限定。
[0215]示例性的,可以預設比例閾值,以判斷第一片段的命名模式是否統一,例如,預設比例閾值可以設置為60%,優選的,可以設置為80%。
[0216]例如,預設比例閾值設置為60%,當第一有效片段組包含的任何一種模式的片段數量占第一有效片段組總量的60%以上時,可以認為第一有效片段組命名模式是統一的,當第一有效片段組包含的每一種模式的片段數量占第一有效片段組總量均小于60%時,可以認為第一有效片段組的命名模式是不統一的。
[0217]第二判斷模塊304,用于在確定所述統計模塊統計的所述任一有效片段組包含分隔符的片段數量大于預設分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大于預設比例閾值,且所述第一判斷模塊確定所述平均片段數量小于第二離散度閾值后,判斷所述任一有效片段組的片段長度為離散分布。
[0218]示例性的,系統可以預先設置第二離散度閾值,第二離散度閾值的取值范圍可以通過根據現階段泛濫子域的離散程度特點進行確定,例如可以為15-50。但是第二離散閾值應該大于第一離散閾值。例如,第一離散度閾值取40時,第二離散度閾值可以取50,優選的,第一離散度閾值取12時,第二離散度閾值可以取15。
[0219]第二種情況,參見圖4,
[0220]所述判斷單元,包括:
[0221]第一獲取模塊401,用于獲取平均片段數量,其中,所述平均片段數量由所述任一有效片段組包含的片段總數量除以所述任一有效片段組包含的不同的片段長度總數得到;
[0222]示例性的,此處仍以第一有效片段組為例進行說明,假設第一有效片段組的總數量為1000 ;假設第一片段包含4種片段長度,例如四種片段長度分別為:
[0223]片段長度(Ien) = 2,該片段長度包含的片段數量為500個,
[0224]Ien = 3,該片段長度包含的片段數量為200個;
[0225]Ien = 8,該片段長度包含的片段數量為250個;
[0226]Ien = 11,該片段長度包含的片段數量為50個。
[0227]那么,平均片段數量為1000/4 = 250個。
[0228]第二獲取模塊402,用于獲取所述任一有效片段組包含的有效長度數量,其中,包含的片段數量大于所述平均片段數量與調整因子乘積的片段長度為所述有效長度;
[0229]示例性的,調整因子的取值范圍可以為0.9-1.5,優選的的取值為0.9。
[0230]例如,當調整因子為0.9時,平均片段數量與調整因子乘積為250*0.9 = 225,包含的片段數量大于225的片段長度有Ien = 2 (包含500個片段)和Ien = 8 (包含300個片段)。所以,有效長度數量為2。
[0231]第一判斷模塊403,用于在確定所述第二獲取模塊獲取的所述有效長度數量與所述片段長度總數的比值小于第一集中度閾值后,判斷所述任一有效片段組的片段長度為集中分布。
[0232]示例性的,可以預先設置第一集中度閾值,第一集中度閾值的取值范圍可以通過根據現階段泛濫子域的集中程度特點進行確定,如果現階段經常出現的泛濫子域的集中程度出現新的趨勢,可對第一集中度閾值進行調整。其中現階段泛濫子域的集中程度特點可通過統計的方式獲取,此處不進行限定。
[0233]例如,第一集中度閾值可以取0.45-0.6,優選的可以取0.45。
[0234]當有效長度數量與片段長度總數的比值小于第一集中度閾值時,可以認為第一片段長度為集中分布。
[0235]例如,當第一集中度閾值取0.45,有效長度數量為2,片段長度總數為4,則2/4 =
0.5,大于0.45,不能判斷第一片段長度為集中分布,當第一集中度閾值取0.6時,可以判斷第一片段長度為集中分布。
[0236]統計模塊404,用于在所述第一判斷模塊403確定所述有效長度數量與所述片段長度總數的比值不小于所述第一集中度閾值后,統計所述任一有效片段組包含分隔符的片段數量或者所述任一有效片段組的命名模式;
[0237]示例性的,分隔符的片段數量和命名模式的統計和應用同第一種情況所述,此處不再贅述。
[0238]第二判斷模塊405,用于在確定所述統計模塊404統計的所述任一有效片段組包含分隔符的片段數量大于預設分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大于預設比例閾值,且所述第一判斷模塊403確定所述有效長度數量與所述片段長度總數的比值小于第二集中度閾值后,判斷所述任一有效片段組的片段長度為集中分布。
[0239]第二集中度閾值可以預先設置,第二集中度閾值的取值范圍可以通過根據現階段泛濫子域的集中程度特點進行確定,例如,第二集中度閾值的取值范圍可以為0.6-0.7,但是第二集中閾值應該大于第一集中閾值。例如,第一集中度閾值取0.6時,第二集中度閾值可以取0.7,優選的,第一集中度閾值取0.45時,第二集中度閾值可以取0.6。
[0240]識別單元203,用于在所述判斷單元202判斷所述任一有效片段組的片段長度為離散分布或集中分布后,將所述任一有效片段組對應的子域名識別為泛濫子域。
[0241]優選的,為了提高識別的效率和可靠度,判斷單元202與識別單元203可以先根據第一級片段的有效片段組進行識別,然后將被識別為泛濫子域的子域名刪除后再根據第二級片段的有效片段組進行識別,依次類推。
[0242]進一步的,參見圖5,
[0243]所述系統還包括:
[0244]合并單元204,用于在所述判斷單元202判斷所述具有相同主域名的子域名的每一有效片段組的片段長度均不為離散分布或集中分布后,將所述具有相同主域名的子域名的相鄰的至少兩級片斷合并成一級片段;
[0245]示例性的,合并的步驟可以將片段間的”去除。去除”的步驟可以逐步加大,第一步去除一個”,然后嘗試識別,如果還是不能識別,則加大為兩個”,這樣依次進行。
[0246]例如,對于下述域名:
[0247]www.1haz0.qh.gzszyl.g0.cn
[0248]www.fido0.edu.gzszyl.g0.cn
[0249]www.npvny.hb.gzszyl.g0.cn
[0250]www.tmtmk.ne.gzszyl.g0.cn
[0251]將第二級片段和第三級片段合并后,變為:[0252]www.1hazoqh.gzszyl.g0.cn
[0253]www.fidooedu.gzszyl.g0.cn
[0254]www.npvnyhb.gzszyl.g0.cn
[0255]www.tmtmkne.gzszyl.g0.cn
[0256]則得到的新的一級片段為上述合并后域名的第二級片段。
[0257]相應的,所述判斷單元202還用于,根據所述合并后的一級片段獲取新的有效片段組,判斷所述新的有效片段組的片段長度是否為離散分布或集中分布;
[0258]所述識別單元203還用于,在所述判斷單元判斷所述新的有效片段組的片段長度為離散分布或集中分布后,將所述新的有效片段組對應的子域名識別為泛濫子域。
[0259]比較單元205,用于比較所述任一有效片段組的數量是否大于預設閾值,以便于所述判斷單元202和識別單元203在所述比較單元205確定所述任一有效片段組的數量大于預設閾值后,進行泛濫子域的識別。
[0260]示例性的,因為泛濫子域一般是批量的產生,所以數目比較大,所以為了減化識別的過程,系統可以設置一預設閾值,當某一有效片段組的數量大于該預設閾值時,再進行泛濫子域的識別。預設閾值的取值范圍可以根據現階段泛濫域名的數量特點進行設置,現階段泛濫域名的數量特點可以利用統計的方法獲取,例如,預設閾值的取值范圍可以為大于等于50,對于第一級片段的有效片段組,預設閾值可優選為500,對于第二級片段的有效片段組,預設閾值可優選為100。
[0261]過濾單元206,用于根據預先設定的豁免規則,將符合所述豁免規則的片段或者子域名過濾,以便于所述判斷單元202和識別單元203不針對符合所述豁免規則的片段或者子域名進行泛濫子域的識別。
[0262]示例性的,作為對重要子域名的保護,可以根據豁免規則可以根據實際需要進行設定,符合豁免規則的子域名,將不會被識別為泛濫域名。
[0263]例如,根據統計不同主域間的子域片段,將一些有含義的,或者是普遍存在的片段預存為豁免片段。例如“bbS”、“blog”、“WWW”等。
[0264]再例如,通過分析子域的質量,用戶訪問量,統計特別重要的子域名作為豁免子域。例如 qzone.163.com、bbs.163.com 等。
[0265]更新周期設置單元207,用于設置更新周期,相應的,
[0266]所述獲取單元201還用于:根據所述更新周期設置單元207設置的更新周期,在每個更新周期內獲取具有相同主域名的子域名;
[0267]所述判斷單元202還用于:根據所述更新周期設置單元207設置的更新周期,在每個更新周期內若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度是否為離散分布或集中分布;
[0268]所述識別單元203還用于:根據所述更新周期設置單元207設置的更新周期,在每個更新周期內,在所述判斷單元202判斷所述任一有效片段組的片段長度為離散分布或集中分布后,將所述任一有效片段組對應的子域名識別為泛濫子域。
[0269]調度單元208,用于將所述識別單元203識別的每一有效片段組對應的泛濫子域作為一個子域進行調度。
[0270]示例性的,因為泛濫子域的質量和內容差不多,所以可以將泛濫子域用一個虛擬子域進行調度,節約寬帶資源。
[0271]例如,可以保留有效片段組的左側域名部分和右側域名部分,將有效片段用表
/Jn ο
[0272]如,cid-3cl48clcd8599f5e.profile, live, com,
[0273]cid-fc56648fc658c405.profile, live, com,
[0274]cid-f4bd27el68f86267.profile, live, com,
[0275]等符合*.profile, live, com規則描述的子域名,可以虛擬為一個子域名:prifile.live, com。
[0276]本實施例提供的泛濫子域的識別系統,通過判斷具有相同主域名的子域名的任一有效片段組的片段長度的離散度或者集中度來識別泛濫子域,若任一有效片段組的片段長度為離散分布或集中分布,則將該任一有效片段組對應的子域名識別為泛濫子域。提高了泛濫子域的識別程度,解決了現有技術單純根據子域數量來判斷是否為泛濫子域,只能解決最嚴重的泛濫子域,對泛濫子域的識別程度低的問題。
[0277]本領域普通技術人員可以理解實現上述方法實施例的全部或部分步驟可以通過程序指令相關的硬件來完成,前述的程序可以存儲于一計算機可讀取存儲介質中,該程序在執行時,執行包括上述方法實施例的步驟;而前述的存儲介質包括:R0M、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質。
[0278]以上所述,僅為本發明的【具體實施方式】,但本發明的保護范圍并不局限于此,任何熟悉本【技術領域】的技術人員在本發明揭露的技術范圍內,可輕易想到變化或替換,都應涵蓋在本發明的保護范圍之內。因此,本發明的保護范圍應以所述權利要求的保護范圍為準。
【權利要求】
1.一種泛濫子域的識別方法,其特征在于,包括: 獲取具有相同主域名的子域名; 若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應的子域名識別為泛濫子域,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側域名部分和/或右側域名部分分別相同的片段集合。
2.根據權利要求1所述的泛濫子域的識別方法,其特征在于, 當所述同一級片段不是所述具有相同主域名的子域名的最高一級片段時,所述同一級片段的左側域名部分和/或右側域名部分分別相同包括:所述同一級片段的左側域名部分和右側域名部分分別相同; 當所述同一級片段是所述具有相同主域名的子域名的最高一級片段時,所述同一級片段的左側域名部分和/或右側域名部分分別相同包括:所述同一級片段右側域名部分分別相同。
3.根據權利要求1或2所述的泛濫子域的識別方法,其特征在于,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布,包括: 獲取平均片段數量,其中,所述平均片段數量由所述任一有效片段組包含的片段總數量除以所述任一有效片段組包含的不同的片段長度總數得到; 若所述平均片段數量小于第一離散度閾值,則判斷所述任一有效片段組的片段長度為離散分布。
4.根據權利要求3所述的泛濫`子域的識別方法,其特征在于,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布,還包括: 若所述平均片段數量不小于所述第一離散度閾值,則統計所述任一有效片段組包含分隔符的片段數量或者所述任一有效片段組的命名模式; 若所述任一有效片段組包含分隔符的片段數量大于預設分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大于預設比例閾值,且所述平均片段數量小于第二離散度閾值,則判斷所述任一有效片段組的片段長度為離散分布。
5.根據權利要求1或2所述的泛濫子域的識別方法,其特征在于,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為集中分布,包括: 獲取平均片段數量,其中,所述平均片段數量由所述任一有效片段組包含的片段總數量除以所述任一有效片段組包含的不同的片段長度總數得到; 獲取所述任一有效片段組包含的有效長度數量,其中,包含的片段數量大于所述平均片段數量與調整因子乘積的片段長度為所述有效長度; 若所述有效長度數量與所述片段長度總數的比值小于第一集中度閾值,則判斷所述任一有效片段組的片段長度為集中分布。
6.根據權利要求5所述的泛濫子域的識別方法,其特征在于,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為集中分布,還包括: 若所述有效長度數量與所述片段長度總數的比值不小于所述第一集中度閾值,則統計所述任一有效片段組包含分隔符的片段數量或者所述任一有效片段組的命名模式; 若所述任一有效片段組包含分隔符的片段數量大于預設分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大于預設比例閾值,且所述有效長度數量與所述片段長度總數的比值小于第二集中度閾值,則判斷所述任一有效片段組的片段長度為集中分布。
7.根據權利要求1-6任一項所述的泛濫子域的識別方法,其特征在于,所述方法還包括: 若判斷所述具有相同主域名的子域名的每一個有效片段組的片段長度均不為離散分布或集中分布,且所述具有相同主域名的子域名具有至少兩級片段時,則將所述具有相同主域名的子域名的相鄰的至少兩級片斷合并為一級片段; 根據所述合并后的一級片段組獲取新的有效片段組,若判斷所述新的有效片段組的片段長度為離散分布或集中分布,則將所述新的有效片段組對應的子域名識別為泛濫子域。
8.根據權利要求7所述的泛濫子域的識別方法,其特征在于,在若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應的子域名識別為泛濫子域之前,所述方法還包括: 根據預先設定的豁免規則,將符合所述豁免規則的片段或者子域名過濾,不進行泛濫子域的識別。
9.根據權利要求8所述的泛濫子域的識別方法,其特征在于,所述方法還包括,設置更新周期; 所述獲取具有相同主域名的子域名,包括:根據所述設置的更新周期,在每個更新周期內獲取具有相同主域名的子域名; 所述若判斷所述具有相同主·域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應的子域名識別為泛濫子域,包括:根據所述設置的更新周期,在每個更新周期內若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應的子域名識別為泛濫子域。
10.一種泛濫子域的識別系統,其特征在于,包括: 獲取單元,用于獲取具有相同主域名的子域名; 判斷單元,用于判斷所述獲取單元獲取的所述具有相同主域名的子域名的任一有效片段組的片段長度是否為離散分布或集中分布,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側域名部分和/或右側域名部分分別相同的片段集合; 識別單元,用于在所述判斷單元判斷所述任一有效片段組的片段長度為離散分布或集中分布后,將所述任一有效片段組對應的子域名識別為泛濫子域。
11.根據權利要求10所述的泛濫子域的識別系統,其特征在于, 當所述同一級片段不是所述具有相同主域名的子域名的最高一級片段時,所述同一級片段的左側域名部分和/或右側域名部分分別相同包括:所述同一級片段的左側域名部分和右側域名部分分別相同; 當所述同一級片段是所述具有相同主域名的子域名的最高一級片段時,所述同一級片段的左側域名部分和/或右側域名部分分別相同包括:所述同一級片段右側域名部分分別相同。
12.根據權利要求10或11所述的泛濫子域的識別系統,其特征在于,所述判斷單元,包括: 獲取模塊,用于獲取平均片段數量,其中,所述平均片段數量由所述任一有效片段組包含的片段總數量除以所述任一有效片段組包含的不同的片段長度總數得到; 第一判斷模塊,用于在確定所述獲取模塊獲取的所述平均片段數量小于第一離散度閾值后,判斷所述任一有效片段組的片段長度為離散分布。
13.根據權利要求12所述的泛濫子域的識別系統,其特征在于,所述判斷單元,還包括: 統計模塊,用于在所述第一判斷模塊判斷所述平均片段數量不小于所述第一離散度閾值后,統計所述任一有效片段組包含分隔符的片段數量或者所述任一有效片段組的命名模式; 第二判斷模塊,用于在確定所述統計模塊統計的所述任一有效片段組包含分隔符的片段數量大于預設分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大于預設比例閾值,且所述第一判斷模塊確定所述平均片段數量小于第二離散度閾值后,判斷所述任一有效片段組的片段長度為離散分布。
14.根據權利要求10或11所述的泛濫子域的識別系統,其特征在于,所述判斷單元,包括: 第一獲取模塊,用于獲取平均片段數量,其中,所述平均片段數量由所述任一有效片段組包含的片段總數量除以所述任一有效片段組包含的不同的片段長度總數得到; 第二獲取模塊,用于獲取所述任一有效片段組包含的有效長度數量,其中,包含的片段數量大于所述平均片段數量與調整因子乘積的片段長度為所述有效長度; 第一判斷模塊,用于在確定所述第二獲取模塊獲取的所述有效長度數量與所述片段長度總數的比值小于第一集中度閾值后,判斷所述任一有效片段組的片段長度為集中分布。
15.根據權利要求14所述的泛濫子域的識別系統,其特征在于,所述判斷單元,還包括: 統計模塊,用于在所述第一判斷模塊確定所述有效長度數量與所述片段長度總數的比值不小于所述第一集中度閾值后,統計所述任一有效片段組包含分隔符的片段數量或者所述任一有效片段組的命名模式; 第二判斷模塊,用于在確定所述統計模塊統計的所述任一有效片段組包含分隔符的片段數量大于預設分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大于預設比例閾值,且所述第一判斷模塊確定所述有效長度數量與所述片段長度總數的比值小于第二集中度閾值后,判斷所述任一有效片段組的片段長度為集中分布。
16.根據權利要求15所述的泛濫子域的識別系統,其特征在于,所述系統還包括: 合并單元,用于在所述判斷單元判斷所述具有相同主域名的子域名的每一有效片段組的片段長度均不為離散分布或集中分布,且所述具有相同主域名的子域名具有至少兩級片段后,將所述具有相同主域名的子域名的相鄰的至少兩級片斷合并成一級片段; 所述判斷單元還用于,根據所述合并后的一級片段獲取新的有效片段組,判斷所述新的有效片段組的片段長度是否為離散分布或集中分布; 所述識別單元還用于,在所述判斷單元判斷所述新的有效片段組的片段長度為離散分布或集中分布后,將所述新的有效片段組對應的子域名識別為泛濫子域。
17.根據權利要求16所述的泛濫子域的識別系統,其特征在于,所述系統還包括: 過濾單元,用于根據預先設定的豁免規則,將符合所述豁免規則的片段或者子域名過濾,以便于所述判斷單元和識別單元不針對符合所述豁免規則的片段或者子域名進行泛濫子域的識別。
18.根據權利要求17所述的泛濫子域的識別系統,其特征在于,所述系統還包括,更新周期設置單元,用于設置更新周期; 所述獲取單元還用于:根據所述更新周期設置單元設置的更新周期,在每個更新周期內獲取具有相同主域名的子域名; 所述判斷單元還用于:根據所述更新周期設置單元設置的更新周期,在每個更新周期內若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度是否為離散分布或集中分布; 所述識別單元還用于:根據所述更新周期設置單元設置的更新周期,在每個更新周期內,在所述判斷單元判斷所述任一有效片段組的片段長度為離散分布或集中分布后,將所述任一有效片段組對應的子域名識別為泛濫子域。
【文檔編號】H04L29/12GK103581347SQ201210256109
【公開日】2014年2月12日 申請日期:2012年7月23日 優先權日:2012年7月23日
【發明者】李學凱, 張鋒 申請人:深圳市世紀光速信息技術有限公司