一種電力信息大數據的采集和存儲方法
【技術領域】
[0001] 本發明屬于電力信息大數據采集存儲領域。涉及一種電力信息大數據采集存儲方 法,解決電力信息大數據采集和存儲過程的問題。
【背景技術】
[0002] 信息技術的飛速發展以及廣泛應用,使得電力生產企業、交易部門及用戶使用物 聯網和互聯網積累了大量的數據。隨著數據庫應用的規模、范圍不斷地擴大,電力管理部門 及相關企業利用計算機管理事務能力的增強,產生了龐大的大規模數據集,將如此龐大的 數據集采集并存儲到服務器上是非常復雜的。原本很多數據采集算法在數據集規模較小時 尚能取得不錯的采集效果,但是針對大規模數據集,計算量太大以至于不能在可接受的時 間內獲得很好的結果。
[0003] 電力系統是指由發電、輸電、變電、配電和用電等環節共同組成的電能生產與消費 系統。為實現電能的生產和供銷,同時保證電網安全穩定運行,電力系統在各個環節和不 同層次分別配置了相應的信息與控制系統,這些系統由各種采集傳感器、監測設備、通信設 備、安全保護裝置、自動控制裝置以及監控自動化、調度自動化系統組成,并采集、傳輸和存 儲海量數據。電力大數據是以業務趨勢預測、數據價值挖掘為目標,利用數據集成管理、數 據存儲、數據計算、分析挖掘等方面核心關鍵技術,實現面向典型業務場景的模式創新及應 用提升。電力大數據涉及到發電、輸電、變電、配電、用電、調度各環節,是跨單位、跨專業、跨 業務的數據分析與挖掘,以及數據可視化。電力大數據通過信息化服務平臺,驅動電力價值 鏈的改變,從傳統的以電力生產為核心,最終落到以人為中心的根本任務上,而讓數據創造 價值的理念,可以推動電力從傳統的高耗能、高排放、低效率的粗放式發展,轉向新型的低 能耗、低排放、高效率的可持續發展。
[0004] 電力大數據超過了傳統技術數據處理技術能力,為了獲得數據中的價值,必須建 立新支撐體系以進行電力大數據的管理和應用,這需要大規模并行處理的數據管理及處理 能力。云計算技術能夠通過網絡將分散的信息資源,包括計算、存儲、軟件等,集中起來形成 共享的資源池,并以動態按需和可度量的方式向用戶提供服務,實現大規模計算的信息處 理方式。云計算為大數據處理提供豐富的計算和存儲資源,動態按需地分配調整,為電力大 數據建設與應用提供IT資源。電力大數據的技術研宄以云計算為基礎,建立具有電力行業 特點的電力云計算數據中心,研宄適合電力大數據的價值規律、應用場景的大數據系統框 架、數據分析方法是電力大數據的發展方向。電力大數據的內在價值規律體現在更大范圍 內的最大限度共享和創造新的價值。電力大數據的應用價值根本體現在其共享及價值外 延,總的來說:電力大數據價值=數據原始應用價值+數據共享應用衍射價值。
[0005] 目前具有電力大數據特征的典型業務如用電信息采集系統,電力用戶基數大,每 天產生的數據量龐大,導致業務系統在統計分析業務上出現了響應緩慢,用戶等待時間較 長的問題,基于電力大數據的交易系統產生的海量信息,使用傳統的數據庫已經無法完成 數據的擴展和分析功能。為了更好地了解行業動態,如何有效地解決海量的網絡媒體數據 的采集,存儲,數據量的激增導致數據檢索操作速度緩慢。
【發明內容】
[0006] 本發明的目的,就是要解決基于電力大數據的采集、存儲以及分析,提高效率。
[0007] 本發明的技術方案如下:
[0008] 本發明對于電力相關的數據,主要電力結構化數據和非結構化數據兩種情況。目 前電力市場統一交易平臺上的數據屬于結構化數據,底層的DB數據庫一般為0racle、DB2、 SQLServer、MySQL等,通過SqoopAPI工具自定義數據表中的字段和屬性,把結構化的數 據表抽取到基于Hadoop架構的分布式數據倉庫Hive中,底層為分布式文件系統HDFS,支 持數據表的億條級別記錄存儲擴展,基于HQL查詢語言,支持部分SQL查詢語言;電力非結 構化的數據一般為互聯網的客戶端,Web、App、電力傳感器等采集的網頁信息,包括文本、圖 片、音頻、視頻、JSP動態數據等,通過Nutch工具定義正則表達式,把電力市場交易相關的 經濟指標、環境氣象、社會統計、電力政策等方面的網頁爬取到本地服務器,從網絡客戶端 爬取的信息數據一般為數值、符號、文本等形式,都以文檔的形式存儲到基于Hadoop架構 的分布式數據庫HBase中。
[0009] 一、電力大數據分類
[0010] 1?業務層面,電力大數據大致分為三類:一是電力企業管理數據,如協同辦公、財 務、物資等數據;二是電網運行和設備檢測、監測數據,如電網及設備運行狀態數據;三是 電力企業運營數據,如電力交易、用電客戶、電費、電量等方面的數據。
[0011] 2.時間層面,電網大數據大致分為二類:一是實時/準實時數據,主要是調度自動 化系統、電網廣域監測系統、用電采集、雷電監測數據、故障錄波數據、微機保護、狀態監測 等與智能電網運行直接相關的數據,這類應用的特點是實時性較強,有些每秒都有數據傳 輸,可靠性要求較高,與計費相關的數據對安全性有特殊要求,體現了電網系統的特點。二 是非實時數據,主要指ERP、一體化平臺、協同辦公等企業經營管理方面的數據,這類應用的 特點是沒有實時要求,但有的傳輸量較大,具有隨機性和突發性。
[0012] 3.數據存儲結構,電網大數據大致分為三類:一是結構化數據,可以用二維表結 構來邏輯表達實現的數據,主要存儲在關系數據庫中,目前電網企業系統中的大部分數據 是這種形式;二是半結構化數據,具有一定結構,但語義不夠確定,典型的如HTML網頁、郵 件、檔案等;三是非結構化數據,數據,雜亂無章,很難按照一個概念去進行抽取,無規律性。 主要包括視頻監控、圖形圖像處理等產生的數據,今后非結構化數據在智能電網數據中的 比重將越來越大。非結構化數據不方便用數據庫二維邏輯表來存儲和展示的數據。
[0013] 二、大數據采集處理
[0014] 數據采集主要應用多源異構數據采集技術。針對電力結構化數據和非結構化數據 兩種情況,目前電力市場統一交易平臺上的數據屬于結構化數據,底層的DB數據庫一般為 Oracle、DB2、SQLServer、MySQL等,通過SqoopAPI工具自定義數據表中的字段和屬性, 把結構化的數據表抽取到基于Hadoop架構的分布式數據倉庫Hive中,底層為分布式文件 系統HDFS,支持數據表的億條級別(Billion)記錄存儲擴展,基于HQL查詢語言,支持部分 SQL查詢語言;非結構化的數據一般為互聯網的客戶端(Web、App、電力傳感器等)采集的網 頁信息,包括文本、圖片、音頻、視頻、JSP動態數據等,通過Nutch工具定義正則表達式,把 電力市場交易相關的經濟指標、環境氣象、社會統計、電力政策等方面的網頁爬取到本地服 務器,從網絡客戶端爬取的信息數據一般為數值、符號、文本等形式,都以文檔的形式存儲 到基于Hadoop架構的分布式數據庫HBase中。
[0015] 三、數據存儲管理
[0016] 電力交易的結構化和非結構化的大數據經過抽取后,都以文件形式存儲在分布式 文件系統HDFS中。其中,結構化的大數據存儲在分布式數據倉庫Hive中,從網絡客戶端得 到的非結構化數據存儲在分布式數據庫HBase中,以列族為組織形式,一個列族里的所有 列成員都將最終存儲在同一個HDFS文件中,而不同的列族有著各自對應的HDFS文件。存 儲在HDFS上的文檔支持超大文件,它通常為數百GB、甚至數百TB大小的文件。雖然采集 端本身有很多數據庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自 前端的數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群,并且可以在導入 基礎上做一些簡單的清洗和預處理工作。也可以在導入時使用來自Twitter的Storm來對 數據進行流式計算,來滿足部分業務的實時計算需求。導入與預處理過程的特點和挑戰主 要是導入的數據量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別,對于結構化的數據 來說,以行存儲的方式存儲在數據庫表中,而對于非結構的數據,則以列存儲的方式存儲數 據,在數據預處理過程需要統一數據存儲方式,以分布式數據庫作為存儲的技術基礎,完全 能夠勝任統一電力市場交易的數據存儲,為下一步數據分析提供數據基礎。
[0017]HDFS是一個高容錯性的分布式文件系統,適合部署在廉價的機器上,能夠提供高 吞吐量的數據訪問,適合大規模數據集上的應用。電力市場大量的非結構化數據可以存儲 在分布式文件