一種非結構化事件日志數據的劃分和存儲的方法與裝置的制造方法
【專利摘要】本發明提供了一種非結構化事件日志數據的劃分和存儲的方法與裝置,此存儲裝置包括:數據采集模塊、數據傳遞模塊、數據分類模塊、數據存儲模塊,此方法包括:數據采集傳遞,將不同地點和不同傳感器采集的信息數據進行收集;數據劃分,將采集的信息數據基于時間和空間的方式進行劃分,劃分好的數據進入到存儲模塊進行存儲;數據存儲,數據采用分片方式進行數據存儲。本發明將不同地點、不同傳感器描述的不同事件信息分類保存,加快了后續數據提取、統計和分析。
【專利說明】
一種非結構化事件日志數據的劃分和存儲的方法與裝置
技術領域
[0001 ]本發明涉及一種數據存儲技術,尤其涉及一種非結構化事件日志數據的劃分和存儲的方法與裝置。
【背景技術】
[0002]隨著網絡技術的發展,特別是Internet和Intranet技術的飛快發展,使得非結構化數據的數量日趨增大。這時,主要用于管理結構化數據的關系數據庫的局限性暴露地越來越明顯。因而,數據庫技術相應地進入了“后關系數據庫時代”,發展進入基于網絡應用的非結構化數據庫時代。非結構化數據的迅猛發展,對存儲的容量空間是一大考驗,非結構化數據的多存儲系統不僅在存儲能力上具有強容錯、高可用和可擴展等特征,并且其可以利用不同類型的存儲組件展示一個數據集的多種服務視圖來提供更豐富的數據服務。
[0003]在非結構化數據多存儲系統內,主數據庫與其它數據存儲組件分布在不同的網絡節點中,并以網絡鏈路相連。需要同步的數據以字節流的形式在數據鏈路中傳輸。由于非結構化數據海量異構的自然屬性,它們之間的數據同步過程必須符合如下幾個條件:高效性,數據同步組件以較高的吞吐量完成數據的傳輸;時效性,數據必須以一個較小的延時在存儲組件之間同步;可擴展性,數據同步組件必須在系統數據量增大時提供有效的水平擴展手段。非結構數據的劃分存儲一直是一個難題,不僅影響了存儲的信息量,以及存儲成本,而且對后續的檢索效率和全面性都有很大影響。
【發明內容】
[0004]針對上述問題,本發明提出了一種非結構化事件日志數據的劃分和存儲的方法與裝置,實現非結構數據存儲的時序性,加快后續數據處理分析。
[0005]本發明提出了一種非結構化事件日志數據的劃分和存儲的方法,包括:
a.數據采集傳遞:將不同地點和不同傳感器采集的信息數據進行收集;
b.數據劃分:將采集的信息數據基于時間和空間的方式進行劃分,劃分好的數據進入到存儲模塊進行存儲;
c.數據存儲:數據采用分片方式進行數據存儲。
[0006]進一步,所述數據劃分中基于空間的劃分方式采用網格的形式進行地理空間的劃分,所述網格為對應于地理空間的一個正方形區域,每個網格的地理空間的事件再按照時間先后順序進行存儲,當數據存儲量達到儲存數據塊的儲存容量時,數據將自動存入分布式文件系統。
[0007]進一步,所述數據存儲的分片方式為將每個Shard分成一系列的Segment,每個Segment包含一系列的Event,再對Event抽取特定的域Field,以及對整個Event信息進行分詞,最后創建全文索引。
[0008]進一步,所述數據存儲利用元信息記錄網格和時間段儲存到文件的映射信息系中。
[0009]進一步,所述數據的全文索引實現了數據過濾、數據轉換、數據分組和數據聚集的處理方法。
[0010]本發明還提供一種非結構化事件日志數據的劃分和存儲的裝置,包括數據采集模塊、數據傳遞模塊、數據分類模塊、數據存儲模塊,所述數據采集模塊將收集的數據通過數據傳遞模塊輸送到數據分類模塊,所述數據分類模塊根據時間和空間來劃分數據信息,并通過分片方式將數據信息存儲到所述數據存儲模塊中。
[0011]進一步,所述數據分類模塊采用網格的形式進行地理空間的劃分,網格為對應于地理空間的一個正方形區域,每個網格的地理空間的事件再按照時間先后順序進行存儲。
[0012]進一步,所述數據存儲模塊的分片存儲方式為將每個Shard分成一系列的Segment,每個Segment包含一系列的Event,再對Event抽取特定的域Field,以及對整個Event信息進行分詞,最后創建全文索引。
[0013]進一步,所述數據存儲模塊中采用8MB-16MB的數據塊。
[0014]本發明的有益效果為:一種非結構化事件日志數據的劃分和存儲的方法與裝置,可根據不同地點、不同傳感器的不同信息數據,根據空間和時序性進行數據劃分存儲,便于數據的過濾、轉換、分組和聚集處理,加快了后續數據的提取、統計和分析效率。
【附圖說明】
[0015]
圖1為本發明一種非結構化事件日志數據的劃分和存儲的方法流程圖;
圖2為本發明一種非結構化事件日志數據的劃分和存儲的裝置示意圖。
【具體實施方式】
[0016]結合圖1所示,一種非結構化事件日志數據的劃分和存儲的方法,包括以下步驟:
a.數據采集傳遞:將不同地點和不同傳感器采集的信息數據進行收集;b.數據劃分:將采集的信息數據基于時間和空間的方式進行劃分,劃分好的數據進入到存儲模塊進行存儲;c.數據存儲:數據采用分片方式進行數據存儲。
[0017]所述數據劃分中基于空間的劃分方式采用網格的形式進行地理空間的劃分,所述網格為對應于地理空間的一個正方形區域,每個網格的地理空間的事件再按照時間先后順序進行存儲,當數據存儲量達到儲存數據塊的儲存容量時,數據將自動存入分布式文件系統。其中,所述數據存儲的分片方式為將每個Shard分成一系列的Segment,每個Segment包含一系列的Event,再對Event抽取特定的域Field,以及對整個Event信息進行分詞,最后創建全文索引。存儲中利用元信息記錄網格和時間段儲存到文件的映射信息系中。此種存儲方法存儲的數據全文索引實現了數據過濾、數據轉換、數據分組和數據聚集的處理。
[0018]結合圖2所述的一種非結構化事件日志數據的劃分和存儲的裝置,包括數據采集模塊、數據傳遞模塊、數據分類模塊、數據存儲模塊,所述數據采集模塊將收集的數據通過數據傳遞模塊輸送到數據分類模塊,所述數據分類模塊根據時間和空間來劃分數據信息,所述數據存儲模塊為8MB的數據塊,采用分片方式進行數據存儲。所述數據分類模塊采用網格的形式進行地理空間的劃分,網格為對應于地理空間的一個正方形區域,每個網格的地理空間的事件再按照時間先后順序進行存儲。所述數據存儲模塊的分片存儲方式為將每個Shard分成一系列的Segment,每個Segment包含一系列的Event,再對Event抽取特定的域Field,以及對整個Event信息進行分詞,最后創建全文索引。
[0019]實施例一:
首先通過數據采集模塊將不同地點和傳感器的數據信息進行收集,然后通過數據傳遞模塊傳遞給數據分類模塊,根據事件數據的時間和坐標信息,首先采用網格的形式進行空間劃分,每個網格為對應地理空間的一個正方形區域,再按照時間的先后排列,最后將劃分好的數據存儲到數據存儲模塊,該數據存儲模塊選用8MB的數據塊采用分片存儲方式,將每個Shard分成一系列的Segment,每個Segment包含一系列的Event,再對Event抽取特定的域Field,以及對整個Event信息進行分詞,最后創建全文索引,實現數據過濾、數據轉換、數據分組和數據聚集的處理,便于后續數據檢索。
[0020]實施例二:
首先通過數據采集模塊將不同地點和傳感器的數據信息進行收集,然后通過數據傳遞模塊傳遞給數據分類模塊,根據事件數據的時間和坐標信息,首先采用網格的形式進行空間劃分,每個網格為對應地理空間的一個正方形區域,再按照時間的先后排列,最后將劃分好的數據存儲到數據存儲模塊,該數據存儲模塊選用16MB的數據塊采用分片存儲方式,將每個Shard分成一系列的Segment,每個Segment包含一系列的Event,再對Event抽取特定的域Field,以及對整個Event信息進行分詞,最后創建全文索引,實現數據過濾、數據轉換、數據分組和數據聚集的處理,便于后續數據檢索。
[0021]以上顯示和描述了本發明的基本原理和主要特征以及本發明的優點。本行業的技術人員應該了解,本發明不受上述實施例的限制,上述實施例和說明書中描述的只是說明本發明的原理,在不脫離本發明精神和范圍的前提下,本發明還會有各種變化和改進,這些變化和改進都落入要求保護的本發明范圍內。本發明要求保護范圍由所附的權利要求書及其等效物界定。
【主權項】
1.一種非結構化事件日志數據的劃分和存儲的方法,包括: a.數據采集傳遞:將不同地點和不同傳感器采集的信息數據進行收集; b.數據劃分:將采集的信息數據基于時間和空間的方式進行劃分,劃分好的數據進入到存儲模塊進行存儲; c.數據存儲:數據采用分片方式進行數據存儲。2.根據權利要求1所述的一種非結構化事件日志數據的劃分和存儲的方法,其特征在于,所述數據劃分中基于空間的劃分方式采用網格的形式進行地理空間的劃分,所述網格為對應于地理空間的一個正方形區域,每個網格的地理空間的事件再按照時間先后順序進行存儲,當數據存儲量達到儲存數據塊的儲存容量時,數據將自動存入分布式文件系統。3.根據權利要求1所述的一種非結構化事件日志數據的劃分和存儲的方法,其特征在于,所述數據存儲的分片方式為將每個Shard分成一系列的Segment,每個Segment包含一系列的Event,再對Event抽取特定的域Field,以及對整個Event信息進行分詞,最后創建全文索弓I。4.根據權利要求3所述的一種非結構化事件日志數據的劃分和存儲的方法,其特征在于,所述數據存儲利用元信息記錄網格和時間段儲存到文件的映射信息系中。5.根據權利要求3所述的一種非結構化事件日志數據的劃分和存儲的方法,其特征在于,數據的全文索引實現了數據過濾、數據轉換、數據分組和數據聚集的處理方法。6.—種非結構化事件日志數據的劃分和存儲的裝置,其特征在于,包括數據采集模塊、數據傳遞模塊、數據分類模塊、數據存儲模塊,所述數據采集模塊將收集的數據通過數據傳遞模塊輸送到數據分類模塊,所述數據分類模塊根據時間和空間來劃分數據信息,并通過分片方式將數據信息存儲到所述數據存儲模塊中。7.根據權利要求6所述的一種非結構化事件日志數據的劃分和存儲的裝置,其特征在于,所述數據分類模塊采用網格的形式進行地理空間的劃分,網格為對應于地理空間的一個正方形區域,每個網格的地理空間的事件再按照時間先后順序進行存儲。8.根據權利要求7所述的一種非結構化事件日志數據的劃分和存儲的裝置,其特征在于,所述數據存儲模塊的分片存儲方式為將每個Shard分成一系列的Segment,每個Segment包含一系列的Event,再對Event抽取特定的域Field,以及對整個Event信息進行分詞,最后創建全文索引。9.根據權利要求8所述的一種非結構化事件日志數據的劃分和存儲的裝置,其特征在于,所述數據存儲模塊中采用8MB-16MB的數據塊。
【文檔編號】G06F17/30GK106055697SQ201610416197
【公開日】2016年10月26日
【申請日】2016年6月15日
【發明人】陳凌岳
【申請人】安徽天樞信息科技有限公司