本發明涉及智能配電技術,更具體地,涉及一種實現用電模式智能識別與管理的系統和方法。
背景技術:
隨著配電網智能化程度的提升,聯網電能表、專用用電數據采集終端等設備日益廣泛普及,對用電負荷數據進行采集的硬件基礎已經完善。因而,針對用電客戶側的用電模式實現識別也成為了一個新興的技術手段,在配電的科學化、精確化管理當中,該技術可以發揮非常重要的作用。
用電負荷模式識別的主要目標是分析單一或者群組用電客戶的用電規律,并基于該規律對客戶用電實施可預測的、有針對性的調控管理。舉例來說,可以基于一定區域內主要用電客戶的用電模式對未來用電量進行短期預測,從而經濟合理的安排發電機組的運轉、調節蓄能指標、安排停機輪休計劃、減少不必要的備用容量。在企業錯峰用電計劃制定過程中,通過參照企業用電模式的識別結論,使錯峰用電安排與企業自身的用電習慣具有較高的一致性,降低給企業正常生產的干擾,使得錯峰調控任務量與錯峰企業實際發生用電總量相匹配。通過對用電客戶的用電模式識別,還可以實現對用電客戶的準確分類,將電價制定與用電習慣相聯系,優化電價費率政策在指導節約用電方面的作用;發現超常規用電的異常行為,為打擊非法用電提供輔助依據。
現有技術中對于客戶用電模式的識別一般采用以聚類為核心的算法。聚類算法將具有用電模式共性的客戶歸為一類,再針對某一類客戶研究其用電變化規律和適宜的管理策略。例如,公開號cn105184402的中國專利文獻“一種基于決策樹的個性化用戶短期負荷預測算法”公開了以下步驟:1、對用戶負荷進行波動分量辨識,判斷其鋸齒形波動是否顯著;如果顯著將進入波動分量提取環節,再得出用電模式數;如果不顯著,則將直接得出用電模式數。針對用電模式數大于7種的用戶采用最近日負荷預測法。針對用電模式數在2種~6種的用戶采用基于用電模式挖掘的用戶側短期負荷預測法。針對用電模式數只有1種的用戶采用聚類預測還原法。通過對用戶歷史負荷進行數據挖掘,從而提取出用戶用電模式,根據模式數的多少,建立基于決策樹的個性化用戶短期負荷預測算法,實現精確的用戶短期負荷預測。又例如,公開號cn106529707的中國專利文獻“一種負荷用電模式識別方法”公開了以下步驟:以采樣時間間隔t對用電負荷進行采集,得到l天時間內對應的l條日負荷曲線;對得到的日負荷曲線進行基于密度的空間聚類,得到典型負荷用電模式;提取描述用戶在不同時間尺度下用電行為的特征;利用引力搜索算法對提取得到的用戶用電特征進行聚類;重復聚類,利用聚類評價指標對聚類結果進行評價,并選出最優聚類結果即負荷用電模式的識別結果。
實踐證明,在面向實際應用中,海量客戶的用電模式差異是非常明顯的。在現有技術中,對適當聚類算法的選取和對其模式識別結果的置信評估是用電模式識別技術的一個難點。首先,聚類算法有效的一個隱性前提在于被分類對象的宏觀分布符合該聚類算法適用的規律,例如,kmeans聚類算法對于球形分布的對象分類效果比較好,但是對于其他分布規律的對象就無法呈現出同等有效的計算結果。同樣,高斯混合聚類算法也只對于呈現高斯正態分布的對象效果較好。不同季節、不同地域的用電模式數據分布規律變化很大,難以總是保證聚類算法與對象客戶的用電模式具有良好的匹配。而且,不同類別的用電客戶之間的數量差距很大,某一類用電客戶有可能只有幾家,而另一類用電客戶可能就存在成百上千家,聚類算法對于這種類與類之間數量差別巨大的情形往往不能良好應對,分類混同的概率加大。聚類算法往往還要依賴預設的類總數量來實施分類,例如kmeans算法要求輸入最終分成幾個類,再按照該輸入的數量去進行分類,而某個地域的用電客戶究竟有幾個類型也是不容易確定的。聚類算法本身也不具備評估聚類結果的能力。再有就是,由于用電模式數據的多變性,聚類分析結論的穩定性不高,導致對客戶用電模式的識別結論變動頻繁,給基于識別結果的用電管理帶來了困難。
技術實現要素:
基于現有技術的以上需求及不足,本申請提出一種實現用電模式智能識別與管理的系統和方法。本申請針對各行業各類型用電客戶預先建立代表性客戶樣本群,并且針對該群建立和修正分類架構表;針對代表性客戶樣本群提取其特征屬性代表值;進而,對于模式識別所針對的全體客戶對象,可以利用各種聚類算法執行聚類,并且提取各個客戶子群的特征屬性值;利用針對代表性客戶樣本群提取其特征屬性代表值為參照,對各種聚類算法所產生的客戶子群的特征屬性值進行置信驗證;選取置信驗證結果最好的客戶子群作為用電管理的依據。
本發明所述的用電模式智能識別與管理方法,其特征在于,包括以下步驟:
代表性客戶樣本群聚類及特征提取步驟:從用電客戶中建立代表性客戶樣本群;實時聯網采集代表性客戶樣本群當中每個用電客戶代表在預定時間長度內的用電信息曲線樣本;對用電信息曲線樣本執行數據清理和量度均一化作業,提取用電信息曲線樣本的特征屬性;進而,對用電信息曲線樣本基于所述特征屬性以及初始的分類架構表進行初步聚類,將代表性客戶樣本群劃分為若干個代表性客戶樣本子群;對代表性客戶樣本子群執行群一致性檢驗,若檢驗不通過則調整分類架構表后重新執行初步聚類,直至檢驗通過;若檢驗通過,則記錄子群數,并進入精細化篩選步驟;對各個代表性客戶樣本子群進行精細化篩選,取得代表性客戶特征提取目標群;針對代表性客戶特征提取目標群,建立平均擬合用電信息曲線樣本,從該平均擬合用電信息曲線樣本當中提取各個代表性客戶樣本子群的特征屬性代表值;
用電客戶聚類及特征屬性提取步驟,獲得作為用電模式識別對象的全體用電客戶的用電信息曲線;對用電信息曲線執行數據清理和量度均一化作業;按照代表性客戶樣本群聚類及特征提取步驟所確定的子群數,采用第一聚類算法對用電信息曲線執行聚類,將全體用電客戶劃分為若干個客戶子群;根據每個客戶子群下的用電客戶的用電信息曲線,建立平均擬合用電信息曲線,從平均擬合用電信息曲線當中提取各個客戶子群的特征屬性值;
聚類置信度驗證步驟:基于各個代表性客戶樣本子群的特征屬性代表值與各個客戶子群的特征屬性值,執行聚類置信度的收斂性驗證;若驗證不通過,則返回用電客戶聚類及特征屬性提取步驟,更新為第二聚類算法對用電信息曲線重新執行聚類而劃分若干個客戶子群;若驗證通過,則進入預測管理步驟;
群管理步驟,根據各個客戶子群及其用電信息數據,制定面向該客戶子群的用電管理方案。
優選的是,代表性客戶樣本群聚類及特征提取步驟當中,以預定時間長度上的各個采樣時間點作為x坐標值,以各個采樣時間點處的用電信息記錄值作為y坐標軸,為每個代表性客戶樣本群當中的每一個用電客戶代表建立該預定時間長度內的用電信息曲線樣本。
優選的是,代表性客戶樣本群聚類及特征提取步驟和用電客戶聚類及特征屬性提取步驟當中,執行的數據清理包括丟失數據補全;其中,如果第i個采樣點處的用電負荷值li丟失,則用以下內插公式計算該采樣點i處的用電負荷值li:
優選的是,代表性客戶樣本群聚類及特征提取步驟和用電客戶聚類及特征屬性提取步驟當中,執行的數據清理包括極端數據剔除;判斷存在正、負尖峰極端數據的步驟為:判斷是否存在以下關系
即采樣點i處的用電負荷值li相對于其前、后相鄰采樣點用電負荷值的變化量絕對值中的最大值大于該采樣點i前、后一定數量的采樣點處用電負荷值的均值與一個預定因數α的乘積。
優選的是,代表性客戶樣本群聚類及特征提取步驟和用電客戶聚類及特征屬性提取步驟當中,所述量度均一化作業包括:
把每個采樣點處的用電信息記錄值,均映射到一個統一的0-1的取值區間之中。具體來說,對于采樣點i處的用電負荷值li,映射后的取值li’為:
其中k是用電信息曲線樣本所含的全部采樣點的總數。
優選的是,代表性客戶樣本群聚類及特征提取步驟當中,群一致性檢驗的方法是針對每一個代表性客戶樣本子群,計算聚類中心與該子群中用電信息曲線樣本的距離的平均值;如果經群一致性檢驗任務該平均值大于一個否定閾值,則調整分類架構表,為該調整分類架構表增加一個最底層類目,從而聚類子群數也加1,然后重新執行初步聚類和群一致性檢驗,直至群一致性檢驗通過為止。
優選的是,代表性客戶樣本群聚類及特征提取步驟當中,精細化篩選的方法是,對于每個代表性客戶樣本子群,按照類型數為2的設定,進行精細化聚類,將每個子群分為2類,并且從中提取成員較多的一個類,將該類作為代表性客戶特征提取目標群。
優選的是,聚類置信度驗證步驟包括:判斷代表性客戶樣本子群的特征屬性代表值落入客戶子群在每個采樣點的用電負荷值的取值范圍的比率,若80%或更多的采樣點處落入,則進而判斷各個客戶子群的特征屬性值與代表性客戶樣本子群的特征屬性代表值之間的差值,若差值也小于預定的偏差閾值,則認為驗證通過。
本發明還提供了一種用電模式智能識別系統,其特征在于,包括:
代表性客戶樣本群聚類及特征提取模塊:用于從用電客戶中建立代表性客戶樣本群;實時聯網采集代表性客戶樣本群當中每個用電客戶代表在預定時間長度內的用電信息曲線樣本;對用電信息曲線樣本執行數據清理和量度均一化作業,提取用電信息曲線樣本的特征屬性;進而,對用電信息曲線樣本基于所述特征屬性以及初始的分類架構表進行初步聚類,將代表性客戶樣本群劃分為若干個代表性客戶樣本子群;對代表性客戶樣本子群執行群一致性檢驗,若檢驗不通過則調整分類架構表后重新執行初步聚類,直至檢驗通過;若檢驗通過,則記錄子群數,并進入精細化篩選步驟;對各個代表性客戶樣本子群進行精細化篩選,取得代表性客戶特征提取目標群;針對代表性客戶特征提取目標群,建立平均擬合用電信息曲線樣本,從該平均擬合用電信息曲線樣本當中提取各個代表性客戶樣本子群的特征屬性代表值;
用電客戶聚類及特征屬性提取模塊,用于獲得作為用電模式識別對象的全體用電客戶的用電信息曲線;對用電信息曲線執行數據清理和量度均一化作業;按照代表性客戶樣本群聚類及特征提取步驟所確定的子群數,采用第一聚類算法對用電信息曲線執行聚類,將全體用電客戶劃分為若干個客戶子群;根據每個客戶子群下的用電客戶的用電信息曲線,建立平均擬合用電信息曲線,從平均擬合用電信息曲線當中提取各個客戶子群的特征屬性值;
聚類置信度驗證模塊,用于基于各個代表性客戶樣本子群的特征屬性代表值與各個客戶子群的特征屬性值,執行聚類置信度的收斂性驗證;若驗證不通過,則返回用電客戶聚類及特征屬性提取步驟,更新為第二聚類算法對用電信息曲線重新執行聚類而劃分若干個客戶子群。
本發明所述用電模式智能識別系統,其特征在于,進一步包括:
群管理模塊,根據各個客戶子群及其用電信息數據,制定面向該客戶子群的用電管理方案。
可見,本發明提升了對用電模式給予智能識別,能夠對聚類提供先驗性的參考(例如決定聚類類目的數量),以及對各種聚類算法是否準確反映了每一類用電客戶的客觀規律實現了有根據的驗證。本發明的計算量較小,可以適應用電模式識別當中聚類數量不均衡的實際特點,提升了聚類運算的可靠性。
附圖說明
下面結合附圖和具體實施方式對本發明作進一步詳細的說明:
圖1是本發明的用電模式智能識別與管理方法流程示意圖;
圖2是本發明所述的用電信息曲線樣本示意圖;
圖3是本發明的用電模式智能識別與管理系統模塊示意圖。
具體實施方式
為了使本技術領域的人員更好地理解本發明的技術方案,并使本發明的上述目的、特征和優點能夠更加明顯易懂,下面結合實施例及實施例附圖對本發明作進一步詳細的說明。
圖1是本發明的用電模式智能識別與管理方法流程示意圖。該用電模式智能識別與管理方法包括以下步驟:代表性客戶樣本群聚類及特征提取步驟、用電客戶聚類及特征屬性提取步驟、聚類置信度驗證步驟以及群管理步驟。
s1代表性客戶樣本群聚類及特征提取步驟
為了執行代表性客戶樣本群的聚類及特征提取,本方法從作為用電模式識別對象的全體用電客戶—例如某一省份、城市、地區的全部用電客戶當中,以初始的客戶分類架構表作為基礎,建立代表性客戶樣本群。舉例來說,分類架構表如下表所示,是一個根據客戶的行業、子行業多級細分的層級結構表格;為該分類架構表當中最底層層級的每個類目,選擇一定數量的已知用電客戶,從而將這些用電客戶聚合為所述代表性客戶樣本群。
針對所建立的代表性客戶樣本群中,實時聯網采集代表性客戶樣本群當中每個用電客戶代表在預定時間長度內的用電信息曲線樣本。聯網電能表或者專用用電數據采集終端可以采集每一個用電單位的多種類型的用電參數,并且將用電參數實時聯網發送到配電系統的用電歷史數據庫中進行存檔。通過調取用電歷史數據庫中的檔案,可以獲得預定時間長度—例如24個小時—之內在每個采樣時間點處的用電信息記錄值,例如每個采樣時間點上記錄的用電負荷值,該用電負荷值表示為:
其中li表示第i個采樣點處的用電負荷值,pai、pai-1表示在第i個采樣點以及前一個采樣點處登記的有功功率值,pwi、pwi-1表示在第i個采樣點以及前一個采樣點處登記的無功功率值。以預定時間長度上的各個采樣時間點作為x坐標值,以各個采樣時間點處的用電信息記錄值作為y坐標軸,如圖2所示,為每個代表性客戶樣本群當中的每一個用電客戶代表建立了該預定時間長度內的用電信息曲線樣本。
對用電信息曲線樣本執行數據清理和量度均一化作業。針對每條用電信息曲線樣本執行的數據清理包括:丟失數據補全、極端數據剔除。如果在采樣時間點處應予以登記的用電信息記錄值因種種原因實際上未登記,則理論上用電信息曲線樣本在該采樣點處需要進行丟失數據補全,但實際上,鑒于只有當超過一定數量的采樣點處都存在丟失數據才會對聚類分析結論產生影響,因此,對于每條用電信息曲線樣本,在預定時間長度上的全部采樣點中25%以上的采樣點存在丟失數據的情況,則進行丟失數據補全計算。丟失數據采樣點處的用電信息記錄值可采用內插法予以計算,例如,第i個采樣點處的用電負荷值li丟失,則用以下內插公式計算該采樣點i處的用電負荷值li:
正常的用電信息曲線樣本中,各個采樣時間點處的用電信息記錄值會在有限范圍內的正、負波動,但不會出現超出該范圍的正、負尖峰。一旦某個采樣時間點處的用電信息記錄值呈現為正、負尖峰的狀態,則需要將該點數值作為極端數據剔除;剔除之后,可以將該點的數值作為丟失數據處理,采用上述內插方法予以補全。確定正、負尖峰的方法為:
即采樣點i處的用電負荷值li相對于其前、后相鄰采樣點用電負荷值的變化量絕對值中的最大值大于該采樣點i前、后一定數量(k+h+1,k和h的取值可根據實際狀況選取)的采樣點處用電負荷值的均值與一個預定因數α的乘積。
數據清理之后所得的由有效數據組成的用電信息曲線樣本,進而執行量度均一化作業。量度均一化的目的是對于所選擇的用電客戶代表,消除他們在用電量大小上的基本差異,而關注于用電信息曲線樣本在各個采樣點處的變化趨勢,并在后續的處理中通過該變化趨勢而體現用戶用電模式上的特征。量度均一化的基本思路是把每個采樣點處的用電信息記錄值,不論其原始數值范圍如何,均映射到一個統一的0-1的取值區間之中。具體來說,對于采樣點i處的用電負荷值li,映射后的取值li’為:
其中k是用電信息曲線樣本所含的全部采樣點的總數。
針對執行了數據清理和量度均一化作業之后的用電信息曲線樣本,基于初始的分類架構表進行初步聚類。對于每一個用電信息曲線樣本,基于其在k個采樣點處經處理之后的采樣值,將其表征為k維向量:
<l1,l2,...li,...lk>
因此,對于代表性客戶樣本群中全部的用電信息曲線樣本,將每個用電信息曲線樣本表征為一個k維向量之后,可以選取適當的聚類算法執行初步聚類;在初步聚類中,將初始的分類架構表當中最底層類目的數量作為初始的聚類子群數,例如在上表中選擇15作為最初的聚類子群數,從而,通過第一次的初步聚類,將代表性客戶樣本群劃分為15個代表性客戶樣本子群。
對于經初次的初步聚類劃分而來的每一個代表性客戶樣本子群,執行群一致性檢驗,若檢驗不通過則調整分類架構表后重新執行初步聚類,直至檢驗通過;若檢驗通過,則記錄子群數,并進入精細化篩選步驟。執行群一致性檢驗的方法是針對每一個代表性客戶樣本子群,計算聚類中心與該子群中用電信息曲線樣本的距離的平均值,該平均值越小則說明聚類形成的子群的一致性最好。相反,如果經群一致性檢驗任務該平均值大于一個否定閾值,則調整分類架構表,為該調整分類架構表增加一個最底層類目,從而聚類子群數也加1,然后重新執行初步聚類和群一致性檢驗,直至群一致性檢驗通過為止。
在群一致性校驗通過之后的各個代表性客戶樣本子群,對各個代表性客戶樣本子群進行精細化篩選,取得代表性客戶特征提取目標群。精細化篩選的方法是,對于每個代表性客戶樣本子群,按照類型數為2的設定,進行精細化聚類,將每個子群分為2類,并且從中提取成員較多的一個類,將該類作為代表性客戶特征提取目標群。而另一個成員少的類則被從代表性客戶特征提取目標群當中排除出去。
針對代表性客戶特征提取目標群,將該群中每一個用電信息曲線樣本對應的曲線表征在同一個x-y坐標系中,然后對這些曲線樣本進行中間擬合,建立平均擬合用電信息曲線樣本。從該平均擬合用電信息曲線樣本當中提取各個采樣點處的用電負荷值,作為代表性客戶樣本子群的特征屬性代表值。
s2用電客戶聚類及特征屬性提取步驟
獲得作為用電模式識別對象的全體用電客戶的用電信息曲線。對用電信息曲線執行數據清理和標準化作業,方法與步驟s1中的數據清理和標準化作業相同,在此不再贅述。按照代表性客戶樣本群聚類及特征提取步驟所確定的子群數,即群一致性檢驗通過時的代表性客戶樣本子群子群數,采用第一聚類算法對用電信息曲線執行聚類,將全體用電客戶劃分為若干個客戶子群。根據每個客戶子群下的用電客戶的用電信息曲線,對這些曲線樣本進行中間擬合,建立平均擬合用電信息曲線。從每個客戶子群的用電信息曲線,提取在每個采樣點的用電負荷值的取值范圍;再從平均擬合用電信息曲線當中提取各個采樣點處的用電負荷值,作為各個客戶子群的特征屬性值。
s3聚類置信度驗證步驟
基于各個代表性客戶樣本子群的特征屬性代表值與各個客戶子群的特征屬性值,執行聚類置信度的驗證;聚類置信度驗證包括兩個方面:一是判斷代表性客戶樣本子群的特征屬性代表值(即各個采樣點處的用電負荷值)落入客戶子群在每個采樣點的用電負荷值的取值范圍的比率,若80%或更多的采樣點處落入,則進而判斷各個客戶子群的特征屬性值(即各個采樣點處的用電負荷值)與代表性客戶樣本子群的特征屬性代表值之間的差值,若差值也小于預定的偏差閾值,則認為驗證通過。
若驗證不通過,則返回用電客戶聚類及特征屬性提取步驟,更新為第二聚類算法對用電信息曲線重新執行聚類而劃分若干個客戶子群;若驗證通過,則進入預測管理步驟。
s4群管理步驟
根據各個客戶子群及其用電信息數據,制定面向該客戶子群的用電管理方案。例如,可以根據各個客戶子群在分類架構表中的類目,決定子群中客戶的錯峰用電時間。或者,針對每個客戶的用電信息曲線,結合其所在子群的用電信息曲線,進行曲線比對以發現是否存在用電異常。
如圖3所示,本發明還提供了一種用電模式智能識別系統,包括:
代表性客戶樣本群聚類及特征提取模塊m1:用于從用電客戶中建立代表性客戶樣本群;實時聯網采集代表性客戶樣本群當中每個用電客戶代表在預定時間長度內的用電信息曲線樣本;對用電信息曲線樣本執行數據清理和量度均一化作業,提取用電信息曲線樣本的特征屬性;進而,對用電信息曲線樣本基于所述特征屬性以及初始的分類架構表進行初步聚類,將代表性客戶樣本群劃分為若干個代表性客戶樣本子群;對代表性客戶樣本子群執行群一致性檢驗,若檢驗不通過則調整分類架構表后重新執行初步聚類,直至檢驗通過;若檢驗通過,則記錄子群數,并進入精細化篩選步驟;對各個代表性客戶樣本子群進行精細化篩選,取得代表性客戶特征提取目標群;針對代表性客戶特征提取目標群,建立平均擬合用電信息曲線樣本,從該平均擬合用電信息曲線樣本當中提取各個代表性客戶樣本子群的特征屬性代表值;
用電客戶聚類及特征屬性提取模塊m2,用于獲得作為用電模式識別對象的全體用電客戶的用電信息曲線;對用電信息曲線執行數據清理和量度均一化作業;按照代表性客戶樣本群聚類及特征提取步驟所確定的子群數,采用第一聚類算法對用電信息曲線執行聚類,將全體用電客戶劃分為若干個客戶子群;根據每個客戶子群下的用電客戶的用電信息曲線,建立平均擬合用電信息曲線,從平均擬合用電信息曲線當中提取各個客戶子群的特征屬性值;
聚類置信度驗證模塊m3,用于基于各個代表性客戶樣本子群的特征屬性代表值與各個客戶子群的特征屬性值,執行聚類置信度的收斂性驗證;若驗證不通過,則返回用電客戶聚類及特征屬性提取步驟,更新為第二聚類算法對用電信息曲線重新執行聚類而劃分若干個客戶子群。
群管理模塊m4,根據各個客戶子群及其用電信息數據,制定面向該客戶子群的用電管理方案。
可見,本發明提升了對用電模式給予智能識別,能夠對聚類提供先驗性的參考(例如決定聚類類目的數量),以及對各種聚類算法是否準確反映了每一類用電客戶的客觀規律實現了有根據的驗證。本發明的計算量較小,可以適應用電模式識別當中聚類數量不均衡的實際特點,提升了聚類運算的可靠性。
以上所述,僅為本發明的具體實施方式,本發明還可以應用在其它設備中;以上描述中的尺寸和數量均僅為參考性的,本領域技術人員可根據實際需要選擇適當的應用尺寸,而不脫離本發明的范圍。本發明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發明揭露的技術范圍內,可輕易想到的變化或替換,都應涵蓋在本發明的保護范圍之內。因此,本發明的保護范圍應該以權利要求所界定的保護范圍為準。