本發明涉及數據處理技術領域,特別是指一種基于大數據平臺的電力數據處理方法。
背景技術:
對于電力行業來說,智能電網的迅速發展使信息通信技術正以前所未有的廣度、深度與電網的生產、電力企業的管理進行快速融合,信息通信系統已逐漸成為智能電網的中樞神經,支撐著新一代電網的生產和電網管理的前進和發展。隨著后續智能電表的逐步普及,電網業務數據將從時效性層面進一步豐富和拓展。基于大數據具有的大容量、多分類等特征,已經在海量、實時的電網業務數據中得到進一步凸顯。因此,我們如果能夠充分利用這些基于電網實際運行狀態的數據,對其進行深入分析,就能夠基于分析結果提供大量的高附加值的服務。
所以,隨著電網架構悄然、漸進的改變,使得現有電網調控手段面臨巨大的威脅和挑戰。首先,并入電網的電源在時空上分布的不均衡性,主要體現在地域上分布的不均衡性,電源容量大小及容量利用因子的不均衡性。其次,源網流向在時空上分布的不清晰性。主要體現在輸電與配電邏輯清晰的傳統概念逐漸被打破,電網調控邏輯化解析程度逐漸減弱。最后,分布與集中的矛盾日益突出,主要體現在時空關聯使電網向廣域化發展。面對已經出現或即將出現的新的問題和挑戰,電網調控手段必須相應的改變,才能夠適應新形勢下電網的發展。但是,現有電力網絡監測技術大多數都是簡單收集分布在電力網絡中的傳感器數據,并將傳感器所反饋的信息顯示在終端上,只是對數據進行了最基本的收集-顯示的過程。這種傳統的監測技術簡單易懂,一目了然,但缺點是過于簡單,只能實現電力數據的單純羅列,對于數據沒有一個分析的過程,無法分析出數據中隱含的信息,這對于有著豐富內容可供挖掘的海量電網業務數據來說無疑是一個巨大的浪費。
由此,在實現本申請的過程中,發明人發現現有技術存在以下缺陷:只能單純的羅列數據導致電力數據利用率較低,同時也無法挖掘電力數據內在的關聯和含義,進而在電網運行時不能對故障點進行準確的預測和分析。
技術實現要素:
有鑒于此,本發明的目的在于提出一種基于大數據平臺的電力數據處理方法,不僅能夠提高電力數據收集和利用的效率,而且能夠準確實現對故障點的預測。
基于上述目的本發明提供的一種基于大數據平臺的電力數據處理方法,包括:
獲取電力網絡中的應用數據;其中,所述應用數據包括電力運行狀態信息以及電力節點故障數據;
將所述應用數據按照預設的方式進行匯總處理,形成數據表格后將處理后的匯總數據發送并存儲到與電力網絡配套的大數據平臺中;
在大數據平臺中,將所述匯總數據進行可視化處理并實時顯示出來;
采用聚類算法對所述匯總數據進行關聯情況分析,找出電力網絡中的關鍵電力節點;
采用關聯規則方法分析電力節點中的歷史故障數據,并對電力節點進行評估和持續跟蹤,當某一節點運行出現故障時,預測得到其他節點的故障情況。
可選的,所述關聯規則方法采用apriori關聯規則算法的spark分布式結構實現,并且結合spark框架及rdd算子進行綜合設計,所述關聯規則方法能夠找出過往節點故障的相關性,進而在出現節點故障時能夠對相關節點進行故障預測。
可選的,所述關聯規則方法包括:
產生頻繁第1項集l1;其中,所述第1項集l1為故障節點之間的初始關聯概率對應的初始項集,具體為:
將事務集以預設的形式分布到多個機器上;其中,所述事務集為初始故障數據的集合;
對項目數進行累計計算,其中,所述項目數為相關節點的數目;
過濾低于預設支持度的項集,得到初始項集并且構建頻繁第1項集l1;
獲取新的故障數據,從頻繁第k項集lk產生頻繁第k+1項集lk+1,具體為:
使得頻繁第k項集lk自連接,進而生成ck+1;
對數據庫進行掃描,利用第1項集生成的方法對ck+1f進行比對,進而生成lk+1。
可選的,所述聚類算法采用最大最小值k-means聚類算法。
可選的,所述聚類算法包括:
從初始數據集d中選取一個對象作為第一個聚類種子;
計算初始數據集d中其余對象與第一個聚類種子之間的距離;
選取距離最遠的那個對象作為第二個聚類種子;
繼續迭代計算得到初始數據集d中其余對象與兩個聚類種子中心的距離;
計算出所有對象距離兩個聚類種子中心較小的距離,找到該距離最大值對應的那個對象,判斷是否滿足
max(min(d1,d2))>t|c2-c1|,其中d1,d2分別表示一個對象與已選出的兩個聚類中心c1,c2的距離,t為檢驗參數;
若是滿足,則將該對象選定為第三個聚類種子;
依照上述規則,依次迭代計算,直到沒有點能夠滿足下列條件:
繼而算法結束,得到聚類分析結果。
本申請還提供了一種基于大數據平臺的電力數據處理系統,包括:
數據獲取模塊,用于獲取電力網絡中的應用數據;其中,所述應用數據包括電力運行狀態信息以及電力節點故障數據;
數據處理模塊,用于將所述應用數據按照預設的方式進行匯總處理,形成數據表格后將處理后的匯總數據發送并存儲到與電力網絡配套的大數據平臺中;
數據顯示模塊,用于在大數據平臺中,將所述匯總數據進行可視化處理并實時顯示出來;
聚類分析模塊,用于采用聚類算法對所述匯總數據進行關聯情況分析,找出電力網絡中的關鍵電力節點;
故障預測模塊,用于采用關聯規則方法分析電力節點中的歷史故障數據,并對電力節點進行評估和持續跟蹤,當某一節點運行出現故障時,預測得到其他節點的故障情況。
從上面所述可以看出,本申請所述的基于大數據平臺的電力數據處理方法通過提出一種基于大數據平臺的新式電力網絡監測技術,將各個傳感器的數據匯總成表,灌入與此電力網絡相配套的大數據處理平臺,并運用聚類、關聯規則分析等分析方法對所得數據進行分析。本申請不僅規范了電力網絡中數據的收集、存儲、使用、分析的過程,提高了電力網絡中所收集的數據的利用率,能對電力網絡運行狀況進行系統評估,使得對電力網絡的維護更加方便,根據對所得數據進行關聯規則分析的結果,可以預報一些難以檢測出的隱患。此外,本申請由于采用流式大數據技術,數據全部來源于當前運行的電網,保證了數據的真實可信;由于流式大數據可做到數據來源的實時更新,并且spark技術允許在比硬盤快得多的內存中讀寫數據,使得大數據在電網優化和調度中的應用成為可能,其即時性也得到了保證。采用的新算法可以分析出某些過往故障節點之間的關聯性,起到一定的預測作用,可分析出一些高風險節點提醒相關人員注意。因此,本申請所述的基于大數據平臺的電力數據處理方法不僅能夠提高電力數據收集和利用的效率,而且能夠準確實現對故障點的預測。
附圖說明
圖1為本發明提供的基于大數據平臺的電力數據處理方法的一個實施例的流程示意圖;
圖2為本發明提供的關聯規則方法的一個實施例的流程示意圖;
圖3為本發明提供的基于大數據平臺的電力數據處理系統的一個實施例的結構示意圖;
圖4為本發明提供的大數據平臺的一個實施例的基本架構示意圖;
圖5為本發明提供的分布式apriori關聯規則算法的基本思路示意圖;
圖6為本發明提供的采用關聯分析算法分析一組報警變壓器、線路的分析結果示意圖;
圖7為本發明提供的大數據平臺的另一個實施例的基本架構示意圖。
具體實施方式
為使本發明的目的、技術方案和優點更加清楚明白,以下結合具體實施例,并參照附圖,對本發明進一步詳細說明。
需要說明的是,本發明實施例中所有使用“第一”和“第二”的表述均是為了區分兩個相同名稱非相同的實體或者非相同的參量,可見“第一”“第二”僅為了表述的方便,不應理解為對本發明實施例的限定,后續實施例對此不再一一說明。
針對目前電力通信網絡中存在的數據利用率極低以及安全態勢無法預測或者預測不夠準確的問題,本申請提供一種預測模型框架,即通過對電力數據的挖掘、處理及分析能夠對電力通信網絡安全態勢進行準確預測。由此,本申請提供了一種基于大數據平臺的電網資源的新式電力數據收集方法和故障預測的方法,也即數據處理方法。本申請中的數據處理方法由spark大數據平臺對電力通信網絡數據處理、安全態勢指標選取和并行粒子群優化神經網絡算法等部分組成。
隨著智能電網的迅速發展以及電力架構的不斷更新,傳統的電網管理理念已經無法適應電網管理的發展節奏,因此需要改變對電網節點的管理理念,從傳統的“問題找人”變為現代化的“人找問題”,通過收集電網大數據進行數據的集中分析和處理,消除電網調度的盲區,解決資源互補、時空關聯、分布與集中的矛盾,最終實現智能電網調度管理平臺上多資源的互補協同利用。所以,本申請提供的基于大數據平臺的電力數據處理方法,通過對電力網絡運行過程中產生的一系列數據,運用聚類、關聯規則分析等分析方法,挖掘出這些數據中隱含的規律或信息,用以解決之前的監測技術存在的單純羅列數據,數據利用率差,無法對故障點進行預測,無法發現故障點規律等問題,解決目前的電力網絡優化調度中存在的數據可信性、即時性不足,無法分析出當前電力網絡關鍵節點等問題。
參照圖1所示,為本發明提供的基于大數據平臺的電力數據處理方法的一個實施例的流程示意圖。所述基于大數據平臺的電力數據處理方法包括:
步驟101,獲取電力網絡中的應用數據;其中,所述應用數據包括電力運行狀態信息以及電力節點故障數據;其中,獲取應用數據的方式是可以通過預先布置在電力網絡中的傳感器進行收集,或者還可以通過相應的網絡獲取電力應用數據。具體的所述應用數據包括個分區電表的讀書數據、各變電站變壓器運行狀態數據等與電力運行狀態相關的數據,以及能夠表示電力網絡節點故障相關的數據,例如什么時候發生了什么類型的故障。
步驟102,將所述應用數據按照預設的方式進行匯總處理,形成數據表格后將處理后的匯總數據發送并存儲到與電力網絡配套的大數據平臺中;其中,對于電力應用數據的匯總可以預先設置一定的數據分類方式,使得同類數據能夠準確的匯總到相同或者近似的位置。可選的,采用hive表的形式對匯總數據進行存儲,這樣能夠便于數據的分類、調用和保存備份。
步驟103,在大數據平臺中,將所述匯總數據進行可視化處理并實時顯示出來;其中,可視化一般是指將數據通過一定的處理或者排列顯示在顯示器中,使得觀看的用戶能夠及時獲取數據對應的設備運行狀態信息,例如顯示為柱狀圖、線條圖等等。
步驟104,采用聚類算法對所述匯總數據進行關聯情況分析,找出電力網絡中的關鍵電力節點,后續的分析將基于這些關鍵性節點進行;其中,所述采用聚類算法對所述匯總數據進行關聯情況分析既可以是預先實施的步驟,也可以是在電網運行狀態中實時更新分析出的結果,通過對匯總數據的聚類分析,使得用戶能夠找到關鍵電力節點,進而提高后續對電力節點進行分析的準確性和可靠性。
可選的,所述聚類算法采用最大最小值k-means聚類算法。所述最大最小值k-means聚類算法包括步驟如下:
從初始數據集d中選取一個對象作為第一個聚類種子;其中,所述聚類種子也即聚類的中心,也即可以將第一個聚類種子成為第一個聚類中心;
計算初始數據集d中其余對象與第一個聚類種子之間的距離;
選取距離最遠的那個對象作為第二個聚類種子;也即在其余對象與第一個聚類種子的距離中,選取出距離最遠的那個對象作為第二個聚類種子;
繼續迭代計算得到初始數據集d中其余對象與兩個聚類種子中心的距離;
計算出所有對象距離兩個聚類種子中心較小的距離,找到該距離最大值對應的那個對象,判斷是否滿足
max(min(d1,d2))>t|c2-c1|,其中d1,d2分別表示一個對象與已選出的兩個聚類中心c1,c2的距離,t為檢驗參數;
若是滿足,則將該對象選定為第三個聚類種子;
依照上述規則,依次迭代計算,直到沒有點能夠滿足下列條件:
繼而算法結束,得到聚類分析結果。
這樣,通過本申請采用的最大最小值k-means聚類算法能夠對電力數據進行聚類分析,進而能夠分析得到電力網絡中的關鍵電力節點,為后續的分析計算打下可靠的基礎。
步驟105,采用關聯規則方法分析電力節點中的歷史故障數據,并對電力節點進行評估和持續跟蹤,當某一節點運行出現故障時,預測得到其他節點的故障情況。其中,節點運行出現故障是指電網中的傳感器檢測到某一個節點在實際運行過程中停止運行或者無法采集數據時,提示該節點已出現故障。而本申請采用的關聯規則方法或算法能夠基于發生故障的節點以及節點之間關聯性,對于發生故障節點相關的其他節點給出發生故障的概率,未相應的技術人員提供參考,不僅可以提高電網運行的安全性,而且可以使得技術人員能夠及時預防節點的故障。
可選的,所述關聯規則方法采用apriori關聯規則算法(即先驗關聯規則算法)的spark(一個專為大規模數據處理而設計的快速通用的計算引擎)分布式結構實現,并且結合spark框架及rdd(彈性分布式數據集)算子進行綜合設計,所述關聯規則方法能夠找出過往節點故障的相關性,進而在出現節點故障時能夠對相關節點進行故障預測。
參照圖2所示,為本發明提供的關聯規則方法的一個實施例的流程示意圖。所述關聯規則方法包括:
步驟1051,產生頻繁第1項集l1;其中,所述第1項集l1為故障節點之間的初始關聯概率對應的初始項集,具體為:
步驟10511,將事務集以預設的形式分布到多個機器上;其中,所述事務集為初始故障數據的集合;
步驟10512,對項目數進行累計計算,其中,所述項目數為相關節點的數目;可選的,采用reducebykey(spark中的一個方法)累計項目數,項目數即本次所分析的是否相關之節點的數目。
步驟10513,過濾低于預設支持度的項集,得到初始項集并且構建頻繁第1項集l1;可選的,使用filter(spark中的另一個方法)過濾掉低于支持度的項集。所述預設支持度是用于判斷項集對應的概率,也即被過濾掉的項集意味著是小概率事件,不能認為二者之間存在故障關連。
步驟1052,獲取新的故障數據,從頻繁第k項集lk產生頻繁第k+1項集lk+1;也即可以通過上一項項集得到下一項項集,依次類推進而對電力數據進行實時更新。具體為:
步驟10521,使得頻繁第k項集lk自連接,進而生成ck+1;
步驟10522,對數據庫進行掃描,利用第1項集生成的方法對ck+1f進行比對,進而生成lk+1。其中,f代表上文中的fliter,即經過過濾步驟的項集ck+1。
所述apriori關聯規則算法是一個持續學習并迭代的過程,通過以上步驟,持續讀入新的故障數據,持續產生更新的項集,節點之間的故障關聯概率也可能隨之改變,并逐漸接近真實的關聯情況。
本申請所述的基于大數據平臺的電力數據處理方法通過提出一種基于大數據平臺的新式電力網絡監測技術,將各個傳感器的數據匯總成表,灌入與此電力網絡相配套的大數據處理平臺,并運用聚類、關聯規則分析等分析方法對所得數據進行分析。本申請不僅規范了電力網絡中數據的收集、存儲、使用、分析的過程,提高了電力網絡中所收集的數據的利用率,能對電力網絡運行狀況進行系統評估,使得對電力網絡的維護更加方便,根據對所得數據進行關聯規則分析的結果,可以預報一些難以檢測出的隱患。此外,本申請由于采用流式大數據技術,數據全部來源于當前運行的電網,保證了數據的真實可信;由于流式大數據可做到數據來源的實時更新,并且spark技術允許在比硬盤快得多的內存中讀寫數據,使得大數據在電網優化和調度中的應用成為可能,其即時性也得到了保證。采用的新算法可以分析出某些過往故障節點之間的關聯性,起到一定的預測作用,可分析出一些高風險節點提醒相關人員注意。因此,本申請所述的基于大數據平臺的電力數據處理方法不僅能夠提高電力數據收集和利用的效率,而且能夠準確實現對故障點的預測。
參照圖3所示,為本發明提供的基于大數據平臺的電力數據處理系統的一個實施例的結構示意圖。所述基于大數據平臺的電力數據處理系統包括:
數據獲取模塊201,用于獲取電力網絡中的應用數據;其中,所述應用數據包括電力運行狀態信息以及電力節點故障數據;
數據處理模塊202,用于將所述應用數據按照預設的方式進行匯總處理,形成數據表格后將處理后的匯總數據發送并存儲到與電力網絡配套的大數據平臺中;
數據顯示模塊203,用于在大數據平臺中,將所述匯總數據進行可視化處理并實時顯示出來;
聚類分析模塊204,用于采用聚類算法對所述匯總數據進行關聯情況分析,找出電力網絡中的關鍵電力節點;
故障預測模塊205,用于采用關聯規則方法分析電力節點中的歷史故障數據,并對電力節點進行評估和持續跟蹤,當某一節點運行出現故障時,預測得到其他節點的故障情況。
由上述實施例可知,本申請所述的基于大數據平臺的電力數據處理系統通過數據獲取模塊201和數據處理模塊202將各個傳感器的數據匯總成表,灌入與此電力網絡相配套的大數據處理平臺,并通過聚類分析模塊204和故障預測模塊205運用聚類、關聯規則分析等分析方法對所得數據進行分析。本申請不僅規范了電力網絡中數據的收集、存儲、使用、分析的過程,提高了電力網絡中所收集的數據的利用率,能對電力網絡運行狀況進行系統評估,使得對電力網絡的維護更加方便,根據對所得數據進行關聯規則分析的結果,可以預報一些難以檢測出的隱患。此外,本申請由于采用流式大數據技術,數據全部來源于當前運行的電網,保證了數據的真實可信;由于流式大數據可做到數據來源的實時更新,并且spark技術允許在比硬盤快得多的內存中讀寫數據,使得大數據在電網優化和調度中的應用成為可能,其即時性也得到了保證。采用的新算法可以分析出某些過往故障節點之間的關聯性,起到一定的預測作用,可分析出一些高風險節點提醒相關人員注意。因此,本申請所述的基于大數據平臺的電力數據處理系統不僅能夠提高電力數據收集和利用的效率,而且能夠準確實現對故障點的預測。
參照圖4和圖7所示,為本發明提供的大數據平臺的兩個實施例的基本架構示意圖。由圖可知,本申請通過對電力數據進行統一的處理,能夠有效實現電力資源的優化和調度,提高電力數據管理的效率。
參照圖5所示,為本發明提供的分布式apriori關聯規則算法的基本思路示意圖;圖6為本發明提供的采用關聯分析算法分析一組報警變壓器、線路的分析結果示意圖。由圖可知,本申請采用的數據處理方法在一定程度上能夠有效的實現相關電力節點的故障預測,為電力管理的技術人員提高有效、可靠的數據支撐和分析,進而對于可能發生故障的節點做到及時預防,避免更大故障的發生。
可選的,本申請是一種基于spark框架下對電力通信大數據平臺進行的電網資源的優化和調度的計算模型,本申請數據處理方法對應的框架模型包括:基于spark開源架構的大數據平臺、聚類和關聯規則算法、電力網絡資源調配等部分。具體來說,spark平臺負責數據收集、清洗、注入、提取和存儲;聚類和關聯規則算法找出電力網絡節點之間的隱藏聯系、最后根據由此算法分析出的結果進行電網資源調度。本申請的新的技術點至少包括:
1.基于spark開源架構的流式大數據平臺:通過數據隧道將分散存儲在各個節點、物聯網傳感器上的數據類型駁雜的電力通信數據統一抽取、清洗并匯總到數據倉庫中,并應用sparkstreaming技術對收集數據進行實時處理。
2.對于收集到并存儲在數據倉庫中的電網網絡節點的數據,使用一種聚類和關聯規則相結合的算法,對其進行分析,找出關系比較密切的節點以及各個節點在電網中的吞吐量、重要程度等進階數據。
3.根據第2步中所得到的數據,對電網資源的調度進行分配,使得整個電網的資源使用更加科學有效率。
所屬領域的普通技術人員應當理解:以上任何實施例的討論僅為示例性的,并非旨在暗示本公開的范圍(包括權利要求)被限于這些例子;在本發明的思路下,以上實施例或者不同實施例中的技術特征之間也可以進行組合,步驟可以以任意順序實現,并存在如上所述的本發明的不同方面的許多其它變化,為了簡明它們沒有在細節中提供。
另外,為簡化說明和討論,并且為了不會使本發明難以理解,在所提供的附圖中可以示出或可以不示出與集成電路(ic)芯片和其它部件的公知的電源/接地連接。此外,可以以框圖的形式示出裝置,以便避免使本發明難以理解,并且這也考慮了以下事實,即關于這些框圖裝置的實施方式的細節是高度取決于將要實施本發明的平臺的(即,這些細節應當完全處于本領域技術人員的理解范圍內)。在闡述了具體細節(例如,電路)以描述本發明的示例性實施例的情況下,對本領域技術人員來說顯而易見的是,可以在沒有這些具體細節的情況下或者這些具體細節有變化的情況下實施本發明。因此,這些描述應被認為是說明性的而不是限制性的。
盡管已經結合了本發明的具體實施例對本發明進行了描述,但是根據前面的描述,這些實施例的很多替換、修改和變型對本領域普通技術人員來說將是顯而易見的。例如,其它存儲器架構(例如,動態ram(dram))可以使用所討論的實施例。
本發明的實施例旨在涵蓋落入所附權利要求的寬泛范圍之內的所有這樣的替換、修改和變型。因此,凡在本發明的精神和原則之內,所做的任何省略、修改、等同替換、改進等,均應包含在本發明的保護范圍之內。