一種新鮮度敏感的大數據概要信息維護及聚合值查詢方法
【技術領域】
[0001] 本發明屬于信息技術領域,針對流式大數據的應用特點,結合大數據在生命周期 內的數據特征,提出了一種新鮮度敏感的大數據概要信息維護及聚合值查詢方法,有效支 持流式大數據在任意時間區間的高精度近似聚合統計查詢,為其他流式大數據在線計算提 供基礎工具與平臺。
【背景技術】
[0002] 流式大數據是指同時具有高吞吐率和海量數據規模的一類應用產生的大數據 源,也稱為化St Data。典型的應用包括;大型微博網站的微博數據、購物網站的點擊流 數據、交易日志流數據等。該類數據的一個共同特點是在數據記錄中,有一個標記數據產 生的時間屬性(Ts)和用于統計的數值屬性(Value),該類數據可W稱為具有時間屬性的 數據對象,簡稱為時間對象數據(temporal data)。針對時間對象數據的一類重要應用 是能夠統計任意一個對象在任意時間區間內value的聚合值,在本發明中,稱該類查詢為 TRAQ(Temporal-民ange aggregate queries)。
[0003] 在流式大數據環境中,實時響應TRAQ查詢請求,可臥支持實時情感計 算(參考:H. Wan咨,D. Can, A. Kazemzadeh, F. Bar, and S. Narayanan, "A system for real-time twitter sentiment analysis of 2012u.s.presidential election cycle, "in Proceedings of the ACL2012System Demonstrations, ser. ACL ^ 12. Stroudsburg, PA, USA:Association for Computational Linguistics, 2012, pp. 115 - 120.),經濟數據預測(參考;T. Rreis,比 S. Moat, and E. H. Stanley, "Quantifying trading behavior in financial markets using Google trends,,,Sci. R邱.,vol. 3, p. 1684, 2013.)和實時入侵檢測系統等(參考;X.化n,Y. Wang, Y. Zhang,and Y.Zhou, "A semantics-aware approach to the automated network protocol identification, ''Networking, lEEE/ACM Transactions on,vol. PP,no. 99,pp. 1 - 1,2015.)。例如;統計 01/ll/2013to 30/11/2013 期間任意時間段內的 關鍵字"Steven Jobs"出現的頻率,可臥跟蹤公眾對于社會人物和問題的實時態度與意見。 目前的研究成果同時表明,聚合數值較低temporal data,同樣具有重要的研究意義與價 值。例如:一個查詢頻率較低的詞可能在數天或者數周臥后變為流行詞(參考J. Lin and G. Mishne, "A study of''churn" in tweets and real-time search queries (extended version)," CoRR,vol. abs/1205. 6855, 2012);-個出現頻率較低的網絡流,在較大的 時間尺度范圍內進行分析后,可臥展現出攻擊流的網絡安全特性(參考;Z.化an, M. Xu, and S.Xu, "Characterizing honeypotcaptured cyber attacks:Statistical framework and case study, "Information Forensics and Security, IEEE Transactions on,vol.8,no. ll,pp. 1775 - 1789,Nov 2013.)。因此,在流式大數據環境下,需要建立一種 有效支持面向任意temporal data的,在任意時間范圍內的實時聚合查詢的方法與裝置。
[0004] 在fast data環境下,面向每一個時間對象temporal object建立實時概要 信息,面臨兩個基本的問題;第一;如何實時接收并管理高速到達的流式大數據;目前的 研究成果已經證明基于化doop的分析軟件很難支持實時性較高的查詢請求;尤其在流 式大數據中很難對有嚴格時間限制的查詢請求給出有意義的結果(參考;G.Mishne,J. Dalton, Z. Li, A. Sharma, and J. Lin, "Fast data in the era of big data:Twitter' s real-time related query suggestion architecture, " in Proceedings of the 2013ACM SIGMOD International Conference on Management of Data, ser. SIGMOD,13. NewYork,NY, USA:ACM,2013, pp. 1147 - 1158.)。第二;如何在海量數據集中實時查詢任 意一個object的在任意時間尺度內的聚合值。目前的研究成果可W快速獲得大數據 中進行top-k個object的聚合值,但是無法針對任意一個object獲得其實時聚合統 計結果(參考;F. Li, K.Yi, and W.Le, "Top-k queries on temporal data, "Hie VLDB Journal, vol. 19, no. 5,卵.715 - 733, Oct. 2010)。針對 temporal object 的管理 W 及查 詢的優化技術研究已經存在多年(參考;I.F. Ilyas,G. Beskales,and M.A. Soliman, "A survey of topk query processing techniques in relational database systems, "ACM Comput. Surv. , vol. 40, no. 4, 2008),但是很多技術是基于MVB-Tree管理時間屬性的,數據 寫入或者查詢至少需要O(logeN)的時間復雜度,無法應對化St data環境下高速加載W及 實時查詢的計算需求,近似計算技術是一種有效處理和加速數據流計算的方法,例如針對 range-sum 近似求和的方法(參考;X.化n, G. Wu, G. Zhang, K. Li, and S. Wang, "I^astraq: A fast approach to range-aggregate queries in big data environments, "Cloud Computing, IE邸 Transactions on, vol. PP, no. 99,卵.1 - 1, 2014),有序集合義樣方法(參 考;E. Cohen, G. Cormode, and N. Duffield, "Structure-aware sampling:Flexible and accurate summarization, " Proceedings ofthe VLDB Endowment, vol. 4, no. 11, 2011), W及滑動窗 口技術(參考;M.Datar, A. Gionis,P.Indyk, and R.Motwani, "Maintaining stream statistics over sliding windows:(extended abstract)in Proceedings of the Thirteenth Annual ACM-SIAM Symposium on Discrete Algorithms, ser. S0DA'02, 2002, pp. 635 - 644)等。但是目前的近似計算方法沒有考慮到temporal object 時間敏感的特性,新老數據采用統一的誤差標準,如果希望獲得高精度的計算誤差,則整個 系統將設置較低的誤差參數,就需要維護大量的樣本數據。如果保存少量的樣本數據,則無 法提供高精度的近似計算。
【發明內容】
[0005] 針對現有技術中存在的技術問題,本發明的目的在于提供一種新鮮度敏感的大數 據概要信息維護及聚合值查詢方法,本發明所提出的概要數據稱為FS-Sketch(化eshness Sensitive Sketch)。FS-Sketch設計了 一種對稱波采樣技術,可W在高速流數據中,在 0(1)時間完成數據采樣并維護概要數據。FS-sketch進一步把樣本數據組織成時間敏感 的各個時間階段(temporal phase),在每個階段內可W設置不同的估算誤差U)。利用 FS-Sketch可W支持任意object在時間段內的誤差限定的近似聚合計算,計算復雜度可W 控制為Log (NT),其中T是時間階段的數量,N是每個時間階段地ase內流數據的聚合值。
[0006] 本發明核屯、思想是利用基于采樣的近似計算方法提供實時的TRAQ計算。方法 同時結合流式大數據時間敏感的特性。該一時間敏感的特性可W概括為;流式大數據中 的任意一個時間對象temporal object,在某一個時間點高速到達,然后開始在相關主題 (topic)中傳播,經過數天或者數周W后,逐漸衰減,最后消亡。一個主題是由多個時間對象 數據,W及一個時間對象數據在不同的時間點產生的數據匯總在一起獲得的。因此,本發明 的主要目標是有效管理并查詢時間對象數據,有效支持面向主題的更高層次的計算應用。 根據時間對象的具有時間敏感的特點,設計對應的新鮮度敏感(化eshness sensitive)的 概要數據,在時間對象不同的時間階段上,提供不同的誤差參數,在解決高精度近似計算的 同時,