本公開涉及數據處理,尤其涉及一種異常日志的檢測方法和裝置。
背景技術:
1、在現代大規模軟件系統中,日志文件是記錄系統運行狀態和用戶操作的重要手段。通過對日志文件進行分析,確定日志文件中的異常日志數據,從而可以發現系統中的異常行為、錯誤和潛在的問題,進而提升系統的穩定性。
2、相關技術中,基于人工查看日志文件并進行分析,以檢測日志文件中的異常日志數據,但是,由于日志文件中通常包括大量的日志數據,基于人工進行日志文件分析,檢測日志文件中的異常日志數據的方式,可能導致確定異常日志的效率降低,并且還可能導致異常日志的漏檢和誤檢。
技術實現思路
1、本公開提供一種異常日志的檢測方法和裝置,以至少在一定程度上解決相關技術中的技術問題之一。本公開的技術方案如下:
2、根據本公開實施例的第一方面,提供一種異常日志的檢測方法,包括:獲取指定時段內的日志文件中的多條日志數據;針對所述多條日志數據中的任一條日志數據,根據所述任一條日志數據中任一分詞的詞頻-逆文檔頻率(term?frequency-inverse?documentfrequency,簡稱tf-idf)權重,確定所述任一條日志數據的目標得分,其中,所述目標得分用于指示所述任一條日志數據的異常程度;基于所述多條日志數據的目標得分,對設定的初始異常閾值進行多次調整,以得到目標異常閾值;將所述任一條日志數據的目標得分與所述目標異常閾值進行比對,以確定所述任一條日志數據是否異常。
3、根據本公開實施例的第二方面,提供了一種異常日志的檢測裝置,包括:獲取模塊,用于獲取指定時段內的日志文件中的多條日志數據;第一確定模塊,用于針對所述多條日志數據中的任一條日志數據,根據所述任一條日志數據中任一分詞的tf-idf權重,確定所述任一條日志數據的目標得分,其中,所述目標得分用于指示所述任一條日志數據的異常程度;調整模塊,用于基于所述多條日志數據的目標得分,對設定的初始異常閾值進行多次調整,以得到目標異常閾值;第二確定模塊,用于將所述任一條日志數據的目標得分與所述目標異常閾值進行比對,以確定所述任一條日志數據是否異常。
4、根據本公開實施例的第三方面,提供一種電子設備,包括:處理器;用于存儲所述處理器可執行指令的存儲器;其中,所述處理器被配置為執行所述指令,以實現如本公開第一方面實施例所述的異常日志的檢測方法。
5、根據本公開實施例的第四方面,提供一種計算機可讀存儲介質,當所述計算機可讀存儲介質中的指令由電子設備的處理器執行時,使得電子設備能夠執行如本公開第一方面實施例所述的異常日志的檢測方法。
6、根據本公開實施例的第五方面,提供一種計算機程序產品,包括:計算機程序,所述計算機程序被處理器執行時實現如本公開第一方面實施例所述的異常日志的檢測方法。
7、本公開的實施例提供的技術方案至少帶來以下有益效果:
8、在本技術方案中,針對指定時段內的日志文件中的任一條日志數據,根據該任一條日志數據中任一分詞的tf-idf權重,確定該任一條日志數據的目標得分,其中,目標得到用于指示任一條日志數據的異常程度;進而,基于多條日志數據的異常程度,對設定的初始異常閾值進行多次調整,得到目標異常閾值,將任一條日志數據的目標得分與多次調整過程得到的目標異常閾值進行比對,以確定任一條日志數據是否異常,實現了基于多條日志數據的異常程度,動態調整日志數據異常檢測的閾值,避免了由于目標異常閾值過高或過低,導致的異常日志的漏檢或誤檢,并且實現了無需人工對日志文件進行分析,自動進行異常日志的檢測,提高了異常日志的檢測效率;其中,根據多條日志數據的目標得分,確定多條日志數據對應的初始的異常日志數據比例,進而,基于多條日志數據的異常比例,對初始異常閾值調整得到目標異常閾值,提高了目標異常閾值的準確性,調整后的目標異常閾值可使異常日志數據比例處于適當范圍內,有效地避免了異常日志的漏檢或誤檢;另外,在確定任一條日志數據的目標得分時,基于根據任一條日志數據中任一分詞的tf-idf權重、多條日志數據的tf-idf平均得分以及tf-idf標準差計算得到,消除了不同日志數據之間由于目標得分的分布差異所帶來的影響,使得不同日志數據之間的目標得分更具可比性,同時提高了確定任一條日志數據的目標得分的準確性,從而,將任一條日志數據的目標得分與目標異常閾值進行比對,確定任一條日志數據是否異常,提高了異常日志檢測的準確性。
9、應當理解的是,以上的一般描述和后文的細節描述僅是示例性和解釋性的,并不能限制本公開。
1.一種異常日志的檢測方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述基于所述多條日志數據的目標得分,對設定的初始異常閾值進行多次調整,以得到目標異常閾值,包括:
3.根據權利要求2所述的方法,其特征在于,所述多次調整過程中的首次調整過程,包括:
4.根據權利要求3所述的方法,其特征在于,所述多次調整過程中的第i(i為大于1的正整數)次調整過程,包括:
5.根據權利要求1所述的方法,其特征在于,所述將所述任一條日志數據的目標得分與所述目標異常閾值進行比對,以確定所述任一條日志數據是否異常,包括:
6.根據權利要求1所述的方法,其特征在于,所述針對所述多條日志數據中的任一條日志數據,根據所述任一條日志數據中任一分詞的tf-idf權重,確定所述任一條日志數據的目標得分,包括:
7.根據權利要求6所述的方法,其特征在于,所述根據所述任一條日志數據的tf-idf得分,確定所述任一條日志數據的目標得分,包括:
8.根據權利要求6所述的方法,其特征在于,所述針對所述多條日志數據中的任一條日志數據,根據所述任一條日志數據中任一分詞的tf-idf權重,確定所述任一條日志數據的tf-idf得分,包括:
9.根據權利要求1-8中任一項所述的方法,其特征在于,所述多條日志數據中分詞的總數量為a,所述多條日志數據的總條數為b,
10.一種異常日志的檢測裝置,其特征在于,包括: