應用識別方法及裝置的制造方法
【技術領域】
[0001] 本申請涉及通信領域,尤其涉及一種應用識別方法及裝置。
【背景技術】
[0002] 在互聯網上,政府部門或者各運營商基于運營和安全管控的目的,通常需要識別 互聯網上的報文所屬的應用類型,并做出相應的管控。例如,互聯網上存在大量私有協議應 用,比如微博,微信等,這些應用是非標準化的,因此出于運營和安全管控的目的,通常需要 識別用戶使用這類應用發出的報文所屬的應用類型,然后針對特定的應用的流量做限速、 阻斷、審計、分流(路由)等業務處理。
【發明內容】
[0003 ]本申請提出一種應用識別方法,該方法包括:
[0004] 讀取預設的數據樣本庫中的數據分析樣本;所述數據分析樣本包括報文的應用類 型以及該報文的報文特征;
[0005] 針對讀取到的預設數量的數據分析樣本進行統計分析以得到應用識別規則;所述 應用識別規則包括報文特征與應用類型之間的映射關系;
[0006] 基于所述應用識別規則識別目標報文的應用類型。
[0007] 可選的,所述讀取數據樣本庫中的數據分析樣本之前,所述方法還包括:
[0008] 基于報文內容識別接收到的報文的應用類型;
[0009] 當識別出接收到的報文的應用類型后,將識別出的該報文的應用類型,以及該報 文的報文特征作為數據分析樣本保存至所述數據樣本庫。
[0010] 可選的,所述針對讀取到的預設數量的數據分析樣本進行統計分析以得到應用識 別規則包括:
[0011] 將所述數據樣本庫中報文特征相同的數據分析樣本進行分組;
[0012 ]統計分組后的每一個分組的會話數;
[0013] 當任一分組對應唯一相同的應用類型,并且該分組的會話數達到第一預設閾值, 則基于該分組中的報文特征和該分組中的應用類型建立所述映射關系,以得到所述應用識 別規則。
[0014] 可選的,其特征在于,所述方法還包括:
[0015] 當任一分組對應多種應用類型時,分別計算該多種應用類型在該分組中的會話占 比,以及該多種應用類型在該分組中對應的會話數;
[0016] 提取該多種應用類型中對應的會話數達到所述第一預設閾值,并且會話占比達到 第二預設閾值的應用類型;
[0017] 基于該分組中的報文特征和提取出的所述應用類型建立所述映射關系。
[0018] 可選的,所述基于所述應用識別規則識別目標報文的應用類型包括:
[0019] 提取目標報文的報文特征;
[0020] 將提取出的所述目標報文的報文特征在所述應用識別規則中進行匹配;
[0021] 當在所述應用識別規則中匹配到所述目標報文的報文特征時,基于所述映射關系 查詢與所述目標報文的報文特征對應的應用類型。
[0022]可選的,所述方法還包括:
[0023] 當查詢到與所述目標報文的報文特征對應的應用類型后,從所述目標報文中提取 校驗樣本;
[0024] 基于查詢到的所述應用類型對提取出的所述校驗樣本進行校驗;
[0025] 當校驗成功后,基于查詢到的所述應用類型對所述目標報文對應的會話進行標 記。
[0026]可選的,所述方法還包括:
[0027]當校驗失敗后,基于所述目標報文的數據載荷識別所述目標報文的應用類型,并 在識別出所述目標報文的應用類型后,將識別出的所述目標報文的應用類型、所述目標報 文的報文特征以及所述目標報文的會話標識作為數據分析樣本保存至所述數據樣本庫。 [0028]可選的,所述報文特征包括三元組報文特征;所述三元組包括目的IP、目的端口以 及協議類型。
[0029] 本申請還提出一種應用識別裝置,其特征在于,該裝置包括:
[0030] 讀取模塊,用于讀取預設的數據樣本庫中的數據分析樣本;所述數據分析樣本包 括報文的應用類型以及該報文的報文特征;
[0031] 分析模塊,用于針對讀取到的預設數量的數據分析樣本進行統計分析,以得到應 用識別規則;所述應用識別規則包括報文特征與應用類型之間的映射關系;
[0032] 第一識別模塊,用于基于所述應用識別規則識別目標報文的應用類型。
[0033] 可選的,所述裝置還包括:
[0034] 第二識別模塊,基于報文內容識別接收到的報文的應用類型;
[0035] 保存模塊,用于在識別出接收到的報文的應用類型后,將識別出的該報文的應用 類型,以及該報文的報文特征作為數據分析樣本保存至所述數據樣本庫。
[0036] 可選的,所述分析模塊具體用于:
[0037] 將所述數據樣本庫中報文特征相同的數據分析樣本進行分組;
[0038] 統計分組后的每一個分組的會話數;
[0039] 當任一分組對應唯一相同的應用類型,并且該分組的會話數達到第一預設閾值, 則基于該分組中的報文特征和該分組中的應用類型建立所述映射關系,以得到所述應用識 別規則。
[0040] 可選的,所述分析模塊進一步用于:
[0041] 當任一分組對應多種應用類型時,分別計算該多種應用類型在該分組中的會話占 比,以及該多種應用類型在該分組中對應的會話數;
[0042] 提取該多種應用類型中對應的會話數達到所述第一預設閾值,并且會話占比達到 第二預設閾值的應用類型;
[0043] 基于該分組中的報文特征和提取出的所述應用類型建立所述映射關系。
[0044]可選的,所述第一識別模塊具體用于:
[0045]提取目標報文的報文特征;
[0046] 將提取出的所述目標報文的報文特征在所述應用識別規則中進行匹配;
[0047] 當在所述應用識別規則中匹配到所述目標報文的報文特征時,基于所述映射關系 查詢與所述目標報文的報文特征對應的應用類型。
[0048] 可選的,所述裝置還包括:
[0049] 提取模塊,用于在查詢到與所述目標報文的報文特征對應的應用類型后,從所述 目標報文中提取校驗樣本;
[0050] 校驗模塊,用于基于查詢到的所述應用類型對提取出的所述校驗樣本進行校驗; [0051 ]標記模塊,用于在校驗成功后,基于查詢到的所述應用類型對所述目標報文對應 的會話進行標記。
[0052]可選的,當校驗失敗后,由所述第二識別模炔基于所述目標報文的報文內容識別 所述目標報文的應用類型,并在識別出所述目標報文的應用類型后,由所述保存模塊將識 別出的所述目標報文的應用類型、所述目標報文的報文特征以及所述目標報文的會話標識 作為數據分析樣本保存至所述數據樣本庫。
[0053]可選的,所述報文特征包括三元組報文特征;所述三元組包括目的IP、目的端口以 及協議類型。
[0054] 本申請中,通過對預設數量報文的報文特征以及對應的應用類型進行統計分析得 到應用識別規則,所述應用識別規則包括報文特征與應用類型之間的映射關系,然后基于 所述應用識別規則識別目標報文的應用類型。由于本申請中,可以不再通過對報文進行內 容掃描來識別報文的應用類型,因此可以從整體上降低CHJ的資源消耗,提供處理節點的吞 吐量,并提高報文的應用識別效率。
【附圖說明】
[0055] 圖1是本申請一實施例提供的一種應用識別方法的流程圖;
[0056] 圖2是本申請一實施例提供的一種應用識別裝置的邏輯框圖;
[0057] 圖3是本申請一實施例提供的承載所述應用識別裝置的防火墻設備的硬件結構 圖。
【具體實施方式】
[0058]相關技術中,在識別互聯網上的報文所屬的應用類型時,通常是基于端口識別或 者內容識別來實現的。
[0059] 例如,可以直接通過報文的目的端口來識別報文所屬應用類型。比如80端口對應 WEB應用,當接收到報文的目的端口為80端口時,可以直接識別出該報文所屬的應用類型為 WEB應用。又如,還可以在互聯網骨干網上的防火墻等安全設備上,通過對報文的內容做模 式匹配,來識別報文所屬應用類型。
[0060] 然而,一方面,在通過端口來識別報文所屬應用類型時,僅僅能識別出互聯網上一 些常見的協議,比如TCP(Transmission Control Protocol,傳輸控制協議)、UDP(User Datagram Protocol,用戶數據報協議)、FTP(File T