一種時間序列數據分析方法及裝置制造方法
【專利摘要】本發明公開了一種時間序列數據分析方法及裝置,用以準確、直觀地展示時間序列數據。所述方法包括:提取時間序列數據的特征信息;查找所述特征信息相同的時間序列數據;分析所述特征信息相同的時間序列數據是否由同一源代碼產生;當所述特征信息相同的時間序列數據由同一源代碼產生,對所述特征信息相同的時間序列數據進行聚類展示。
【專利說明】一種時間序列數據分析方法及裝置
【技術領域】
[0001]本發明涉及互聯網【技術領域】,特別涉及一種時間序列數據分析方法及裝置。
【背景技術】
[0002]在信息技術飛速發展的今天,人們在各種社會和經濟活動中產生大量的數字信息,企業信息技術基礎設施建設規模不斷擴大,IT監控、運維系統也得到廣泛運用,同時各種傳感器、智能家電產生的數據,以及各種交易系統(證券交易系統、電子商務交易系統)產生的日志數量巨大,格式也不盡相同,很難得到利用。
[0003]大量的日志信息如何查看也是一大難題。隨著日志容量和類型的增長,日志數據已經超出了人類的認知能力,單憑人力已經無法跟上機器產生數據的速度。對日志內容進行分析并追蹤潛在的問題越來越困難,尤其是在多日志相關性分析出現之后,需要經驗豐富的操作人員跟蹤事件鏈、過濾噪音,并最終診斷出問題出現的根本原因。
[0004]現有技術實現了對日志內容的關鍵字檢索和結果展現,系統根據用戶輸入的關鍵字進行檢索,然后依照時間戳的先后順序將搜索結果呈現給用戶。
[0005]當前對日志的檢索及分析技術通常以時間戳作為日志展現順序,在輸入關鍵詞后,用戶看到的搜索結果中,某一類型的相關日志并沒有集中展示,不同類型的日志混雜在一起,這需要用戶自己掌握搜索技巧進行過濾操作,大大增加了查看難度和所花費的時間。
【發明內容】
[0006]本發明提供一種時間序列數據分析方法及裝置,用以準確、直觀地展示時間序列數據。
[0007]本發明提供一種時間序列數據分析方法,包括:
[0008]提取時間序列數據的特征信息;
[0009]查找所述特征信息相同的時間序列數據;
[0010]分析所述特征信息相同的時間序列數據是否由同一源代碼產生;
[0011 ]當所述特征信息相同的時間序列數據由同一源代碼產生,對所述特征信息相同的時間序列數據進行聚類展示。
[0012]可選的,所述提取時間序列數據的特征信息,包括:
[0013]根據預設的正則表達式對所述時間序列數據進行匹配;
[0014]當匹配成功時,確定所述預設的正則表達式為所述時間序列數據的特征信息。
[0015]可選的,所述提取時間序列數據的特征信息,包括:
[0016]按順序提取所述時間序列數據中的非字母、非數字的特殊字符;
[0017]確定所述特殊字符為所述時間序列數據的特征信息。
[0018]可選的,所述提取時間序列數據的特征信息,包括:
[0019]獲取所述時間序列數據的文本特征模板;
[0020]確定所述文本特征模板為所述時間序列數據的特征信息。
[0021]可選的,所述對所述特征信息相同的時間序列數據進行聚類展示,包括:
[0022]將所述特征信息相同的時間序列數據集中展示。
[0023]本發明提供一種時間序列數據分析裝置,包括:
[0024]提取模塊,用于提取時間序列數據的特征信息;
[0025]查找模塊,用于查找所述特征信息相同的時間序列數據;
[0026]分析模塊,用于分析所述特征信息相同的時間序列數據是否由同一源代碼產生;
[0027]聚類展示模塊,用于當所述特征信息相同的時間序列數據由同一源代碼產生,對所述特征信息相同的時間序列數據進行聚類展示。
[0028]可選的,所述提取模塊,包括:
[0029]匹配子模塊,用于根據預設的正則表達式對所述時間序列數據進行匹配;
[0030]確定子模塊,用于當匹配成功時,確定所述預設的正則表達式為所述時間序列數據的特征信息。
[0031]可選的,所述提取模塊,包括:
[0032]提取子模塊,用于按順序提取所述時間序列數據中的非字母、非數字的特殊字符;
[0033]確定子模塊,用于確定所述特殊字符為所述時間序列數據的特征信息;
[0034]可選的,所述提取模塊,包括:
[0035]獲取子模塊,用于獲取所述時間序列數據的文本特征模板;
[0036]確定子模塊,用于確定所述文本特征模板為所述時間序列數據的特征信息。
[0037]可選的,所述聚類展示模塊,用于將所述特征信息相同的時間序列數據集中展示。
[0038]本實施例中,通過將由同一源代碼產生的時間序列數據聚合到一起進行展示,使得可以準確、直觀地展示時間序列數據。無需用戶進行復雜的搜索或過濾操作,也不需要掌握正則表達式的寫法以及其他語句的運用,只需要直接上傳數據內容并輸入關鍵詞進行查詢即可。系統會自動將搜索結果進行聚類,并一起展現,方便用戶查看和分析。
[0039]本發明的其它特征和優點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發明而了解。本發明的目的和其他優點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結構來實現和獲得。
[0040]下面通過附圖和實施例,對本發明的技術方案做進一步的詳細描述。
【專利附圖】
【附圖說明】
[0041]附圖用來提供對本發明的進一步理解,并且構成說明書的一部分,與本發明的實施例一起用于解釋本發明,并不構成對本發明的限制。在附圖中:
[0042]圖1是本發明實施例時間序列數據分析方法的流程圖;
[0043]圖2是本發明另一實施例時間序列數據分析方法的流程圖;
[0044]圖3是本發明另一實施例時間序列數據分析方法的流程圖;
[0045]圖4是本發明另一實施例時間序列數據分析方法的流程圖;
[0046]圖5是本發明另一實施例時間序列數據分析裝置的框圖;
[0047]圖6是本發明實施例提取模塊的框圖;
[0048]圖7是本發明實施例提取模塊的框圖;
[0049]圖8是本發明實施例提取模塊的框圖。
【具體實施方式】
[0050]以下結合附圖對本發明的優選實施例進行說明,應當理解,此處所描述的優選實施例僅用于說明和解釋本發明,并不用于限定本發明。
[0051]本發明實施例中,主要是對時間序列數據進行分析。時間序列數據即為在不同時間點上收集到的數據,這類數據反映了某一事物、現象等隨時間的變化狀態或程度。例如,我國國內生產總值從1949到2009的變化就是時間序列數據。本發明實施例中的時間序列數據不僅包括日志,還包括各種傳感器、智能家電以及各種交易系統(電商、銀行、互聯網金融)等產生的帶有時間戳的所有數據。
[0052]圖1是本發明實施例時間序列數據分析方法的流程圖,如圖1所示,該時間序列數據檢索方法,包括:
[0053]步驟S11,提取時間序列數據的特征信息;
[0054]步驟S12,查找特征信息相同的時間序列數據;
[0055]步驟S13,分析特征信息相同的時間序列數據是否由同一源代碼產生;
[0056]步驟S14,當特征信息相同的時間序列數據由同一源代碼產生,對特征信息相同的時間序列數據進行聚類展示。
[0057]例如,某條時間序列數據為:
[0058]01/Aug/2014:12:07:39[Error]: status code is I。
[0059]通過分析,可以獲得該條時間序列數據的特征信息為:
[0060]u [Error]: status code is% d,,。
[0061]可以查找到與該條時間序列數據的特征信息相同的其他時間序列數據為:
[0062]02/Aug/2014:12:08:40 [Error]: status code is 5;
[0063]03/Aug/2014:12:09:59 [Error]: status code is 10;
[0064]......
[0065]通過分析,可以獲得產生上述多條時間序列數據的源代碼為:
[0066]logging C [Error]: status code is% d", code)。
[0067]因此,將上述多條時間序列數據歸為一類,在搜索結果中都可以集中展示,方便用戶查看。
[0068]本實施例中,通過將由同一源代碼產生的時間序列數據聚合到一起進行展示,使得可以準確、直觀地展示時間序列數據。無需用戶進行復雜的搜索或過濾操作,也不需要掌握正則表達式的寫法以及其他語句的運用,只需要直接上傳數據內容并輸入關鍵詞進行查詢即可。系統會自動將搜索結果進行聚類,并一起展現,方便用戶查看和分析。
[0069]圖2是本發明另一實施例時間序列數據分析方法的流程圖,如圖2所示,可選的,上述步驟Sll包括:
[0070]步驟S21,根據預設的正則表達式對時間序列數據進行匹配;
[0071]步驟S22,當匹配成功時,確定預設的正則表達式為時間序列數據的特征信息。
[0072]圖3是本發明另一實施例時間序列數據分析方法的流程圖,如圖3所示,可選的,上述步驟Sll包括:
[0073]步驟S31,按順序提取時間序列數據中的非字母、非數字的特殊字符;
[0074]步驟S32,確定特殊字符為時間序列數據的特征信息。
[0075]例如,按順序提取該日志中的非字母、非數字的符號(包括出現的順序和個數),如空格、標點符號、括號、中劃線、下劃線等作為時間序列數據的特征信息。
[0076]圖4是本發明另一實施例時間序列數據分析方法的流程圖,如圖4所示,可選的,上述步驟Sll包括:
[0077]步驟S41,獲取時間序列數據的文本特征模板;
[0078]步驟S42,確定文本特征模板為時間序列數據的特征信息。
[0079]例如,通過數據挖掘、機器學習等途徑,抽取某種時間序列數據類型的文本特征模版,將文本特征模板作為時間序列數據的特征信息。
[0080]在上述可選方案中,時間序列數據的特征信息可以通過上述三種方法中至少一種獲得,通過提取時間序列數據的特征信息,以便查找到特征信息相同的時間序列數據,可確定特征信息相同的時間序列數據為同一源代碼產生的。這樣,可以更加準確地分析出同一源代碼產生的時間序列數據,對同一源代碼產生的時間序列數據進行聚類后,直觀地進行展示,方便用戶查看和分析。
[0081]可選的,上述步驟S14包括:
[0082]將所述特征信息相同的時間序列數據集中展示。
[0083]在可選方案中,將特征信息相同的時間序列數據,即同一源代碼產生的時間序列數據,集中在一個區域進行顯示,方便用戶查看和分析。
[0084]圖5是本發明實施例時間序列數據分析裝置的框圖,如圖5所示,該時間序列數據檢索裝置,包括:
[0085]提取模塊51,用于提取時間序列數據的特征信息;
[0086]查找模塊52,用于查找所述特征信息相同的時間序列數據;
[0087]分析模塊53,用于分析所述特征信息相同的時間序列數據是否由同一源代碼產生;
[0088]聚類展示模塊54,用于當所述特征信息相同的時間序列數據由同一源代碼產生,對所述特征信息相同的時間序列數據進行聚類展示。
[0089]圖6是本發明實施例提取模塊的框圖,如圖6所示,可選的,所述提取模塊51,包括:
[0090]匹配子模塊61,用于根據預設的正則表達式對所述時間序列數據進行匹配;
[0091]確定子模塊62,用于當匹配成功時,確定所述預設的正則表達式為所述時間序列數據的特征信息。
[0092]圖7是本發明實施例提取模塊的框圖,如圖7所示,可選的,所述提取模塊,包括:
[0093]提取子模塊71,用于按順序提取所述時間序列數據中的非字母、非數字的特殊字符;
[0094]確定子模塊72,用于確定所述特殊字符為所述時間序列數據的特征信息;
[0095]圖8是本發明實施例提取模塊的框圖,如圖8所示,可選的,所述提取模塊,包括:
[0096]獲取子模塊81,用于獲取所述時間序列數據的文本特征模板;
[0097]確定子模塊82,用于確定所述文本特征模板為所述時間序列數據的特征信息。
[0098]可選的,所述聚類展示模塊54,用于將所述特征信息相同的時間序列數據集中展
/Jn ο
[0099]關于上述實施例中的裝置,其中各個模塊執行操作的具體方式已經在有關該方法的實施例中進行了詳細描述,此處將不做詳細闡述說明。
[0100]本實施例中,通過將由同一源代碼產生的時間序列數據聚合到一起進行展示,使得可以準確、直觀地展示時間序列數據。無需用戶進行復雜的搜索或過濾操作,也不需要掌握正則表達式的寫法以及其他語句的運用,只需要直接上傳數據內容并輸入關鍵詞進行查詢即可。系統會自動將搜索結果進行聚類,并一起展現,方便用戶查看和分析。
[0101]本領域內的技術人員應明白,本發明的實施例可提供為方法、系統、或計算機程序產品。因此,本發明可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器和光學存儲器等)上實施的計算機程序產品的形式。
[0102]本發明是參照根據本發明實施例的方法、設備(系統)、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0103]這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0104]這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0105]顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和范圍。這樣,倘若本發明的這些修改和變型屬于本發明權利要求及其等同技術的范圍之內,則本發明也意圖包含這些改動和變型在內。
【權利要求】
1.一種時間序列數據分析方法,其特征在于,包括: 提取時間序列數據的特征信息; 查找所述特征信息相同的時間序列數據; 分析所述特征信息相同的時間序列數據是否由同一源代碼產生; 當所述特征信息相同的時間序列數據由同一源代碼產生,對所述特征信息相同的時間序列數據進行聚類展示。
2.如權利要求1所述的方法,其特征在于,所述提取時間序列數據的特征信息,包括: 根據預設的正則表達式對所述時間序列數據進行匹配; 當匹配成功時,確定所述預設的正則表達式為所述時間序列數據的特征信息。
3.如權利要求1所述的方法,其特征在于,所述提取時間序列數據的特征信息,包括: 按順序提取所述時間序列數據中的非字母、非數字的特殊字符; 確定所述特殊字符為所述時間序列數據的特征信息。
4.如權利要求1所述的方法,其特征在于,所述提取時間序列數據的特征信息,包括: 獲取所述時間序列數據的文本特征模板; 確定所述文本特征模板為所述時間序列數據的特征信息。
5.如權利要求1所述的方法,其特征在于,所述對所述特征信息相同的時間序列數據進行聚類展示,包括: 將所述特征信息相同的時間序列數據集中展示。
6.一種時間序列數據分析裝置,其特征在于,包括: 提取模塊,用于提取時間序列數據的特征信息; 查找模塊,用于查找所述特征信息相同的時間序列數據; 分析模塊,用于分析所述特征信息相同的時間序列數據是否由同一源代碼產生;聚類展示模塊,用于當所述特征信息相同的時間序列數據由同一源代碼產生,對所述特征信息相同的時間序列數據進行聚類展示。
7.如權利要求6所述的裝置,其特征在于,所述提取模塊,包括: 匹配子模塊,用于根據預設的正則表達式對所述時間序列數據進行匹配; 確定子模塊,用于當匹配成功時,確定所述預設的正則表達式為所述時間序列數據的特征信息。
8.如權利要求6所述的裝置,其特征在于,所述提取模塊,包括: 提取子模塊,用于按順序提取所述時間序列數據中的非字母、非數字的特殊字符; 確定子模塊,用于確定所述特殊字符為所述時間序列數據的特征信息。
9.如權利要求6所述的裝置,其特征在于,所述提取模塊,包括: 獲取子模塊,用于獲取所述時間序列數據的文本特征模板; 確定子模塊,用于確定所述文本特征模板為所述時間序列數據的特征信息。
10.如權利要求6所述的裝置,其特征在于,所述聚類展示模塊,用于將所述特征信息相同的時間序列數據集中展示。
【文檔編號】G06F17/30GK104239477SQ201410447046
【公開日】2014年12月24日 申請日期:2014年9月3日 優先權日:2014年9月3日
【發明者】陳軍, 梁玫娟 申請人:北京優特捷信息技術有限公司