本發明涉及網絡技術領域,特別涉及一種網絡日志壓縮方法和裝置。
背景技術:
在當前互聯網極度發達的時代,網絡日志采集與查詢系統具有廣泛的用途。各種IT系統、網絡設備、安全設備都會產生大量的網絡日志,這些網絡日志數據的格式往往存在較大差異,網絡日志采集與查詢系統需要適配大量的非結構化數據,以便進行業務分析。面對海量的非結構化數據,一般會將采集到的網絡日志進行壓縮存儲,這樣可以有效的節省存儲資源,減少用戶購買存儲設備的成本。
一種常用的網絡日志壓縮方法為:先將所有采集到的網絡日志統一進行存儲,然后對存儲后的網絡日志進行二次壓縮存儲。由于將網絡日志進行統一存儲后,再進行壓縮處理,最后將得到的壓縮包寫入磁盤進行存儲,即該過程依次包括一次寫、一次讀和一次寫,導致了輸入輸出(Input and Output,簡稱IO)上的浪費;一般情況下,不同的網絡日志具有的特征之間存在差異,這些不同的特征被稱為混雜特征。在對網絡日志進行壓縮時,由于存在大量的混雜特征,網絡日志之間的相似度較低,導致了壓縮率低。
另一種常用的網絡日志壓縮方法為:將采集到的所有網絡日志先統一進行壓縮處理,然后將得到的壓縮包寫入磁盤進行存儲,即該過程包括一次讀和一次寫,雖然減少一次寫,但是由于在壓縮時,仍然存在大量的混雜特征的字段數據,導致了壓縮率的低。
再一種常用的網絡日志壓縮方法為:將采集到的網絡日志先按照網絡日志的業務類型進行分類,然后針對每種不同業務類型的網絡日志分別進行壓縮并 存儲。雖然相比于前兩種壓縮方法提高了壓縮比率,但由于網絡日志的業務類型較多,對每種業務類型的網絡日志進行壓縮后存儲,仍需要較大的存儲空間,并且壓縮比率仍然較低。
綜上所述,隨著網絡日志的數量越來越龐大,采用現有網絡日志壓縮方法由于壓縮率較低,壓縮后的日志需要占用較大的存儲空間。
技術實現要素:
本發明實施例提供了一種網絡日志壓縮方法和裝置,用于改善現有網絡日志壓縮方法壓縮率低的問題。
第一方面,一種網絡日志壓縮方法,所述方法包括:
對采集到的網絡日志進行解析,確定出所述網絡日志包含的至少一個特征;
若已有的第一數據集的業務類型并集中不包含所述網絡日志的第一特征,確定所述網絡日志的特征集合與所述第一數據集的特征集合的相似度,其中,所述第一特征為所述至少一個特征中用于表示所述網絡日志的業務類型的特征,所述第一數據集的業務類型并集為所述第一數據集中的網絡日志的業務類型的并集,所述網絡日志的特征集合為所述網絡日志的特征組成的集合,所述第一數據集的特征集合為所述第一數據集中的所有網絡日志的特征的并集;
如果確定出所述網絡日志的特征集合與所述第一數據集的特征集合的相似度大于設定閾值,將所述網絡日志歸并至所述第一數據集;如果確定出所述網絡日志的特征集合與所述第一數據集的特征集合的相似度不大于設定閾值,創建第二數據集,并將所述網絡日志歸并至所述第二數據集中;
對每個數據集進行壓縮和存儲處理,其中,若所述數據集包括所述第一數據集,則對所述第一數據集進行壓縮和存儲處理;若所述數據集包括所述第一數據集和所述第二數據集,則分別對所述第一數據集和所述第二數據集進行壓縮和存儲處理。
本發明實施例的方法中,在已有的第一數據集的業務類型并集中不包含所述網絡日志的第一特征時,根據所述網絡日志的特征集合與所述第一數據集的特征集合的相似度,對所述網絡日志進行歸類。由于本發明提供的歸并方案中能夠將不同業務類型且相似度高的網絡日志歸為同一類,從而有效減少了壓縮包的數量,進而減少了存儲空間。
可能的實現方式中,確定所述網絡日志的特征集合與所述第一數據集的特征集合的相似度,包括:
確定出第一數值和第二數值,其中,所述第一數值為所述網絡日志的特征集合與所述第一數據集的特征集合的交集中的特征個數,所述第二數值為所述網絡日志的特征集合與所述第一數據集的特征集合的并集中的特征個數;
根據所述第一數值與所述第二數值,確定所述網絡日志的特征集合與所述第一數據集的特征集合的相似度,其中,所述網絡日志的特征集合與所述第一數據集的特征集合的相似度為所述第一數值與所述第二數值之比。
可能的實現方式中,將所述網絡日志歸并至所述第一數據集之后,還包括:
將所述網絡日志的特征集合與所述第一數據集的特征集合的并集確定為所述第一數據集的特征集合。
可能的實現方式中,對每個數據集進行壓縮和存儲處理,包括:
在已存儲的所述網絡日志的數目達到設定的第一門限值后,對每個所述數據集進行壓縮和存儲處理;或者
在已存儲的所述網絡日志的數據量之和達到設定的第二門限值后,對每個所述數據集進行壓縮和存儲處理;或者
在設定的壓縮周期到來時,對每個所述數據集進行壓縮和存儲處理。
可能的實現方式中,對每個數據集進行壓縮和存儲處理,包括:
采用列式存儲的方式,對每個所述數據集進行壓縮和存儲處理。由于采用列式存儲的方式進行壓縮和存儲,能夠獲得更高的壓縮比率。
可能的實現方式中,確定出所述網絡日志包含的至少一個特征之后,還包括:
根據所述網絡日志的第一特征,在確定出所述第一數據集的業務類型并集中包含所述第一特征時,將所述網絡日志歸并至包含所述第一數據集。
可能的實現方式中,對每個數據集進行壓縮和存儲處理之后,還包括:
根據設定時間段內采集到的網絡日志包含的至少一個特征,形成第三數據集;
若所述第三數據集的業務類型并集為所述第一數據集的業務類型并集的子集,采用所述第三數據集替換所述第一數據集,其中,所述第三數據集的業務類型并集為所述第三數據集中的網絡日志的業務類型的并集;
若所述數據集包括所述第一數據集和所述第二數據集,且所述第三數據集的業務類型并集為所述第二數據集的業務類型并集的子集,采用所述第三數據集替換所述第二數據集。
第二方面,一種網絡日志壓縮裝置,所述裝置包括:
特征解析模塊,用于對采集到的網絡日志進行解析,確定出所述網絡日志包含的至少一個特征;
第一處理模塊,用于若已有的第一數據集的業務類型并集中不包含所述網絡日志的第一特征,確定所述網絡日志的特征集合與所述第一數據集的特征集合的相似度,其中,所述第一特征為所述至少一個特征中用于表示所述網絡日志的業務類型的特征,所述第一數據集的業務類型并集為所述第一數據集中的網絡日志的業務類型的并集,所述網絡日志的特征集合為所述網絡日志的特征組成的集合,所述第一數據集的特征集合為所述第一數據集中的所有網絡日志的特征的并集;
第二處理模塊,用于如果確定出所述網絡日志的特征集合與所述第一數據集的特征集合的相似度大于設定閾值,將所述網絡日志歸并至所述第一數據集;如果確定出所述網絡日志的特征集合與所述第一數據集的特征集合的相似 度不大于設定閾值,創建第二數據集,并將所述網絡日志歸并至所述第二數據集中;
壓縮模塊,用于對每個數據集進行壓縮和存儲處理,其中,若所述數據集包括所述第一數據集,則對所述第一數據集進行壓縮和存儲處理;若所述數據集包括所述第一數據集和所述第二數據集,則分別對所述第一數據集和所述第二數據集進行壓縮和存儲處理。
本發明實施例的裝置中,在已有的第一數據集的業務類型并集中不包含所述網絡日志的第一特征時,根據所述網絡日志的特征集合與所述第一數據集的特征集合的相似度,對所述網絡日志進行歸類。由于本發明提供的歸并方案中能夠將不同業務類型且相似度高的網絡日志歸為同一類,從而有效減少了壓縮包的數量,進而減少了存儲空間。
可能的實現方式中,所述第一處理模塊確定所述網絡日志的特征集合與所述第一數據集的特征集合的相似度時,具體用于:
確定出第一數值和第二數值,其中,所述第一數值為所述網絡日志的特征集合與所述第一數據集的特征集合的交集中的特征個數,所述第二數值為所述網絡日志的特征集合與所述第一數據集的特征集合的并集中的特征個數;
根據所述第一數值與所述第二數值,確定所述網絡日志的特征集合與所述第一數據集的特征集合的相似度,其中,所述網絡日志的特征集合與所述第一數據集的特征集合的相似度為所述第一數值與所述第二數值之比。
可能的實現方式中,所述第二處理模塊將所述網絡日志歸并至所述第一數據集之后,還用于:
將所述網絡日志的特征集合與所述第一數據集的特征集合的并集確定為所述第一數據集的特征集合。
可能的實現方式中,所述壓縮模塊對每個所述數據集進行壓縮和存儲處理時,具體用于:
在已存儲的所述網絡日志的數目達到設定的第一門限值后,對每個所述數 據集進行壓縮和存儲處理;或者
在已存儲的所述網絡日志的數據量之和達到設定的第二門限值后,對每個所述數據集進行壓縮和存儲處理;或者
在設定的壓縮周期到來時,對每個所述數據集進行壓縮和存儲處理。
可能的實現方式中,所述第一處理模塊還用于:
根據所述網絡日志的第一特征,在確定出所述第一數據集的業務類型并集中包含所述第一特征時,將所述網絡日志歸并至包含所述第一數據集。
可能的實現方式中,所述裝置還包括:
優化模塊,用于根據設定時間段內采集到的網絡日志包含的至少一個特征,形成第三數據集;若所述第三數據集的業務類型并集為所述第一數據集的業務類型并集的子集,采用所述第三數據集替換所述第一數據集,其中,所述第三數據集的業務類型并集為所述第三數據集中的網絡日志的業務類型的并集;若所述數據集包括所述第一數據集和所述第二數據集,且所述第三數據集的業務類型并集為所述第二數據集的業務類型并集的子集,采用所述第三數據集替換所述第二數據集。
第三方面,一種服務器,包括:處理器、輸入接口、輸出接口、存儲器和系統總線;其中:
在服務器運行時,處理器讀取存儲器中的程序,并執行上述方法實施例。
存儲器用于存儲所述處理器在執行操作時所使用的數據;
輸入接口用于在所述處理器的控制下讀入數據;
輸出接口在所述處理器的控制下輸出數據。
本發明實施例的服務器中,在已有的第一數據集的業務類型并集中不包含所述網絡日志的第一特征時,根據所述網絡日志的特征集合與所述第一數據集的特征集合的相似度,對所述網絡日志進行歸類。由于本發明提供的歸并方案中能夠將不同業務類型且相似度高的網絡日志歸為同一類,從而有效減少了壓縮包的數量,進而減少了存儲空間。
附圖說明
圖1為本發明實施例提供的一種網絡日志壓縮方法的示意圖;
圖2為本發明實施例提供的另一種網絡日志壓縮方法的示意圖;
圖3為本發明實施例形成的分類樹的示意圖;
圖4為本發明實施例提供的一種網絡日志壓縮裝置的示意圖;
圖5為本發明實施例提供的另一種網絡日志壓縮裝置的示意圖;
圖6為本發明實施例提供的服務器的示意圖。
具體實施方式
下面結合說明書附圖對本發明實施例作進一步詳細描述。應當理解,此處所描述的實施例僅用于說明和解釋本發明,并不用于限定本發明。
本發明實施例提供的一種網絡日志壓縮方法,如圖1所示,該方法包括:
S11、對采集到的網絡日志進行解析,確定出所述網絡日志包含的特征;
其中,網絡日志的特征為網絡日志中用于存儲不同內容的字段,例如srcip(源IP),dstip(目的IP),srcport(源端口),dspport(目的端口)等等。
S12、若已有的第一數據集的業務類型并集中不包含所述網絡日志的第一特征,確定所述網絡日志的特征集合與所述第一數據集的特征集合的相似度。
本發明實施例中,所述第一特征為所述至少一個特征中用于表示所述網絡日志的業務類型的特征。
舉例說明,網絡日志的第一特征即為該網絡日志中的eventType字段,用于存儲該網絡日志的業務類型,如入侵防御系統(Intrusion Prevention System,IPS)業務類型、LOGIN(登錄)業務類型、分布式拒絕服務(Distributed Denial of Service,DDoS)業務類型等。
本發明實施例中,所述第一數據集的業務類型并集為所述第一數據集中的網絡日志的業務類型的并集。
舉例說明,假設數據集中的網絡日志1屬于IPS業務類型,網絡日志2也屬于IPS業務類型,網絡日志3屬于LOGIN業務類型,網絡日志4屬于DDoS業務類型,則該數據集對應的業務類型并集為{IPS業務類型,LOGIN業務類型,DDoS業務類型。
本發明實施例中,所述網絡日志的特征集合為所述網絡日志的特征組成的集合。
本發明實施例中,所述第一數據集的特征集合為所述第一數據集中的所有網絡日志的特征的并集。
舉例說明,假設所述第一數據集中包含兩個網絡日志,第一個網絡日志的特征包括srcip,dstip,srcport,dspport,natsrcip,natdspip,username,describe;第二個網絡日志的特征包括srcip,dstip,srcport,dspport,username,appname,domain;則所述第一數據集的特征集合為:
{srcip,dstip,srcport,dspport,natsrcip,natdspip,username,describe,appname,domain}。
S13A、如果確定出所述網絡日志的特征集合與所述第一數據集的特征集合的相似度大于設定閾值,將所述網絡日志歸并至所述第一數據集。
S13B、如果確定出所述網絡日志的特征集合與所述第一數據集的特征集合的相似度不大于設定閾值,創建第二數據集,并將所述網絡日志歸并至所述第二數據集中。
S14、對每個數據集進行壓縮和存儲處理;其中:若所述數據集包括所述第一數據集,則對所述第一數據集進行壓縮和存儲處理;若所述數據集包括所述第一數據集和所述第二數據集,則分別對所述第一數據集和所述第二數據集進行壓縮和存儲處理。
本發明實施例中,以數據集為單位,對每個數據集進行壓縮和存儲處理。
舉例說明,若所述數據集包括第一數據集,則對每個第一數據集分別進行壓縮和存儲處理;若所述數據集包括第一數據集和第二數據集,則對第一數據 集和第二數據集分別進行壓縮和存儲處理。
本發明實施例中,在已有的第一數據集的業務類型并集中不包含所述網絡日志的第一特征時,根據所述網絡日志的特征集合與所述第一數據集的特征集合的相似度,對所述網絡日志進行歸類,具體為:若所述網絡日志的特征集合與所述第一數據集的特征集合的相似度大于設定閾值,將所述網絡日志歸并至所述第一數據集;若所述網絡日志的特征集合與所述第一數據集的特征集合的相似度不大于設定閾值,創建第二數據集,并將所述網絡日志歸并至所述第二數據集中。由于本發明提供的歸并方案中能夠將不同業務類型且相似度高的網絡日志歸為同一類,從而有效減少了壓縮包的數量,進而減少了存儲空間。
本發明實施例中,作為另一種可選的實現方式,如圖2所示,S11之后,所述方法還包括:
S15、根據所述網絡日志的第一特征,在確定出已有的第一數據集對應的業務類型并集中包含所述第一特征時,將所述網絡日志歸并至所述第一數據集中。
本發明實施例中,S12中確定所述網絡日志的特征集合與所述第一數據集的特征集合的相似度,包括:
確定出第一數值和第二數值,其中,所述第一數值為所述網絡日志的特征集合與所述第一數據集的特征集合的交集中的特征個數,所述第二數值為所述網絡日志的特征集合與所述第一數據集的特征集合的并集中的特征個數;
根據所述第一數值與所述第二數值,確定所述網絡日志的特征集合與所述第一數據集的特征集合的相似度,其中,所述網絡日志的特征集合與所述第一數據集的特征集合的相似度為所述第一數值與所述第二數值之比。
在具體實現中,可預先設置知識庫,該知識庫為所有網絡日志的特征集合中的特征按照設定的排序規則形成的特征序列。在確定第一數值和第二數值時,先將所述網絡日志的特征集合中的特征也按照設定的排序規則形成第一特征序列,以及將所述第一數據集的特征集合中的特征也按照設定的排序規則形 成第二特征序列;再將所述第一特征序列和所述第二特征序列分別與所設置的知識庫進行比對,以形成第一標記序列和第二標記序列,其中,第一標記序列和第二標記序列的長度均與所設置的知識庫的長度相同,且所述第一標記序列和所述第二標記序列均為僅包括0和1的比特序列,其中,所述第一標記序列中比特值為1的比特位對應的特征為所述網絡日志包含的特征,比特值為0的比特位對應的特征為所述網絡日志中沒有的特征;所述第二標記序列中比特值為1的比特位對應的特征為所述第一數據集的特征集合中包含的特征,比特值為0的比特位對應的特征為所述第一數據集的特征集合中沒有的特征。
舉例說明,假設將網絡日志的特征集合按照設定的排序規則形成的第一特征序列為:srcip,dstip,srcport,dspport,natsrcip,natdspip,username,describe;
所述第一數據集的特征集合按照設定的排序規則形成的第二特征序列為:srcip,dstip,srcport,dspport,username,appname,domain;
所設置的知識庫為:srcip,dstip,srcport,dspport,natsrcip,natdspip,username,describe,appname,domain,netid,localinfo;
則:所述第一特征序列與所設置的知識庫進行比對形成的第一標記序列為:1,1,1,1,1,1,1,1,0,0,0,0;所述第二特征序列與所設置的知識庫進行比對形成的第二標記序列為:1,1,1,1,0,0,1,0,1,1,0,0。計算上述第一標記序列和第二標記序列中同一位置均為1的比特數為5(即第一數值);計算上述第一標記序列和第二標記序列中同一位置只要有一個為1的比特數為10(即第二數值)。計算所述網絡日志的特征集合與所述第一數據集的特征集合的相似度為5/10=0.5。
可選的,S13A中將所述網絡日志歸并至所述第一數據集之后,還包括:
將所述網絡日志的特征集合與所述第一數據集的特征集合的并集確定為所述第一數據集的特征集合。
具體的,在將所述網絡日志歸并至所述第一數據集之后,還需要對所述第一數據集的特征集合進行更新,即將所述網絡日志的特征集合與所述第一數據集的特征集合的并集確定為所述第一數據集的特征集合。
本發明實施例中,采用上述方式進行分類后所形成的分類樹如圖3所示,分類一、分類二等為父節點,父節點表示形成的數據集,業務類1、業務類2等為子節點,子節點表示數據集中包含的網絡日志。
本發明實施例中,S14中對每個數據集進行壓縮和存儲處理,包括以下三種觸發:
方式1、事件A觸發,即在滿足已存儲的所述網絡日志的數目,即網絡日志的條數,達到設定的第一門限值后,觸發壓縮和存儲處理,具體為:
在已存儲的所述網絡日志的數目達到設定的第一門限值后,例如,第二門限值可以是1000條,對每個所述數據集進行壓縮和存儲處理。
方式2、事件B觸發,即在滿足已存儲的所述網絡日志的數據量之和達到設定的第二門限值后,觸發壓縮和存儲處理,具體為:
在已存儲的所述網絡日志的數據量之和達到設定的第二門限值后,例如,第二門限值可以是100M字節,對每個所述數據集進行壓縮和存儲處理。
方式3、周期觸發,即在每個設定的壓縮周期到來后,觸發壓縮和存儲處理,具體為:
在設定的壓縮周期到來時,對每個所述數據集進行壓縮和存儲處理。
基于上述任一實施例,可選的,S14中對每個數據集進行壓縮和存儲處理,包括:
采用列式存儲的方式,對每個所述數據集進行壓縮和存儲處理。由于采用列式存儲的方式進行壓縮和存儲,能夠獲得更高的壓縮比率。
當然,本發明實施例不限于采用列式存儲的方式進行壓縮和存儲處理,也可以采用本領域公知的其他方式對每個數據集進行壓縮和存儲處理,如行式存儲方式等。
基于上述任一實施例,可選的,S14中對每個所述數據集進行壓縮和存儲處理后,得到每個數據集對應的壓縮包,每個壓縮包均采用TLV格式存儲,其中,T表示特征標識(如srcip,dstip,srcport等),L表示壓縮包的長度,V 表示壓縮包本身。
舉例說明,TLV為三元組,其全稱為Type(類型)、Length(長度)和Value(值)。其中,T、L字段的長度往往固定(通常為1~4bytes),V字段長度可變。T、L和V的表示方式均可自定義,本發明實施例中,T表示特征標識(即網絡日志的特征中的一個特征,表示存儲的是哪個特征),L表示所存儲的壓縮包的長度,V表示所存儲的壓縮包。
基于上述任一實施例,S14中對每個所述數據集進行壓縮和存儲處理之后,還包括對每個所述數據集的業務類型進行優化,具體為:
根據設定時間段內采集到的網絡日志包含的至少一個特征,形成第三數據集;
若所述第三數據集的業務類型并集為所述第一數據集的業務類型并集的子集,采用所述第三數據集替換所述第一數據集,其中,所述第三數據集的業務類型并集為所述第三數據集中的網絡日志的業務類型的并集;
若所述數據集包括所述第一數據集和所述第二數據集,且所述第三數據集的業務類型并集為所述第二數據集的業務類型并集的子集,采用所述第三數據集替換所述第二數據集。
舉例說明,在完成網絡日志的壓縮和存儲處理之后,可以對當前已形成的分類樹進行優化,具體為:在完成網絡日志的壓縮和存儲處理之后,根據設定時間段內已采集到的網絡日志包含的特征,例如,根據當前時間之前的1天內采集到的網絡日志包含的特征形成新的數據集(即第三數據集),以形成優化的分類樹;對于所述第三數據集,若所述第三數據集的業務類型并集為所述第一數據集的業務類型并集的子集,采用所述第三數據集替換所述第一數據集;若所述數據集包括所述第一數據集和所述第二數據集,且所述第三數據集的業務類型并集為所述第二數據集的業務類型并集的子集,采用所述第三數據集替換所述第二數據集,從而使用優化的分類樹替換掉原有的分類樹。
上述方法處理流程可以用軟件程序實現,該軟件程序可以存儲在存儲介質 中,當存儲的軟件程序被調用時,執行上述方法步驟。
基于同一發明構思,本發明實施例中還提供了一種網絡日志壓縮裝置,該裝置解決問題的原理與上述一種網絡日志壓縮方法相似,該裝置中與上述方法相同的部分,具體參見圖1和圖2所示實施例中的相關描述,此處不再贅述。
本發明實施例提供的一種網絡日志壓縮裝置,如圖4所示,包括:
特征解析模塊41,用于對采集到的網絡日志進行解析,確定出所述網絡日志包含的至少一個特征;
第一處理模塊42,用于若已有的第一數據集的業務類型并集中不包含所述網絡日志的第一特征,確定所述網絡日志的特征集合與所述第一數據集的特征集合的相似度,其中,所述第一特征為所述至少一個特征中用于表示所述網絡日志的業務類型的特征,所述第一數據集的業務類型并集為所述第一數據集中的網絡日志的業務類型的并集,所述網絡日志的特征集合為所述網絡日志的特征組成的集合,所述第一數據集的特征集合為所述第一數據集中的所有網絡日志的特征的并集;
第二處理模塊43,用于如果確定出所述網絡日志的特征集合與所述第一數據集的特征集合的相似度大于設定閾值,將所述網絡日志歸并至所述第一數據集;如果確定出所述網絡日志的特征集合與所述第一數據集的特征集合的相似度不大于設定閾值,創建第二數據集,并將所述網絡日志歸并至所述第二數據集中;
壓縮模塊44,用于對每個數據集進行壓縮和存儲處理,其中,若所述數據集包括所述第一數據集,則對所述第一數據集進行壓縮和存儲處理;若所述數據集包括所述第一數據集和所述第二數據集,則分別對所述第一數據集和所述第二數據集進行壓縮和存儲處理。
本發明實施例中,在已有的第一數據集的業務類型并集中不包含所述網絡日志的第一特征時,根據所述網絡日志的特征集合與所述第一數據集的特征集合的相似度,對所述網絡日志進行歸類。由于本發明提供的歸并方案中能夠將 不同業務類型且相似度高的網絡日志歸為同一類,從而有效減少了壓縮包的數量,進而減少了存儲空間。
可選的,第一處理模塊42確定所述網絡日志的特征集合與所述第一數據集的特征集合的相似度時,具體用于:
確定出第一數值和第二數值,其中,所述第一數值為所述網絡日志的特征集合與所述第一數據集的特征集合的交集中的特征個數,所述第二數值為所述網絡日志的特征集合與所述第一數據集的特征集合的并集中的特征個數;
根據所述第一數值與所述第二數值,確定所述網絡日志的特征集合與所述第一數據集的特征集合的相似度,其中,所述網絡日志的特征集合與所述第一數據集的特征集合的相似度為所述第一數值與所述第二數值之比。
基于上述任一實施例,可選的,第二處理模塊43將所述網絡日志歸并至所述第一數據集之后,還用于:
將所述網絡日志的特征集合與所述第一數據集的特征集合的并集確定為所述第一數據集的特征集合。
可選的,壓縮模塊44具體用于:
在已存儲的所述網絡日志的數目達到設定的第一門限值后,對每個所述數據集進行壓縮和存儲處理;或者
在已存儲的所述網絡日志的數據量之和達到設定的第二門限值后,對每個所述數據集進行壓縮和存儲處理;或者
在設定的壓縮周期到來時,對每個所述數據集進行壓縮和存儲處理。
作為另一種可選的實現方式,第一處理模塊42還用于:
根據所述網絡日志的第一特征,在確定出所述第一數據集的業務類型并集中包含所述第一特征時,將所述網絡日志歸并至包含所述第一數據集。
基于上述任一實施例,可選的,如圖5所示,所述裝置還包括:
優化模塊45,用于根據設定時間段內采集到的網絡日志包含的至少一個特征,形成第三數據集;若所述第三數據集的業務類型并集為所述第一數據集的 業務類型并集的子集,采用所述第三數據集替換所述第一數據集,其中,所述第三數據集的業務類型并集為所述第三數據集中的網絡日志的業務類型的并集;若所述數據集包括所述第一數據集和所述第二數據集,且所述第三數據集的業務類型并集為所述第二數據集的業務類型并集的子集,采用所述第三數據集替換所述第二數據集。
本發明實施例中,可以通過服務器實現上述圖1和圖2所示實施例的方法,如圖6所示,該服務器包括:處理器61、輸入接口62、輸出接口63、存儲器64和系統總線65;其中:
處理器61負責邏輯運算和處理。在服務器運行時,處理器61讀取存儲器64中的程序,并執行上述方法實施例,具體為:處理器61執行上述步驟S11、S12、S13A、S13B和S14。可選的,該處理器61還可執行上述步驟S15。
存儲器64包括內存和硬盤,可以存儲處理器61在執行操作時所使用的數據(如第一數據集、第二數據集,對數據集進行壓縮得到的壓縮包等)。輸入接口62用于在處理器61的控制下讀入數據(如網絡日志等),輸出接口63在處理器61的控制下輸出數據(如壓縮包等)。
總線架構可以包括任意數量的互聯的總線和橋,具體由處理器61代表的一個或多個處理器和存儲器64代表的內存和硬盤的各種電路鏈接在一起。總線架構還可以將諸如外圍設備、穩壓器和功率管理電路等之類的各種其他電路鏈接在一起,這些都是本領域所公知的,因此,本文不再對其進行進一步描述。
本領域內的技術人員應明白,本發明的實施例可提供為方法、系統、或計算機程序產品。因此,本發明可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產品的形式。
本發明是參照根據本發明實施例的方法、設備(系統)、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和 /或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
盡管已描述了本發明的優選實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權利要求意欲解釋為包括優選實施例以及落入本發明范圍的所有變更和修改。
顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和范圍。這樣,倘若本發明的這些修改和變型屬于本發明權利要求及其等同技術的范圍之內,則本發明也意圖包含這些改動和變型在內。