專利名稱:一種改進53h算法的數據檢驗方法
技術領域:
本發明涉及一種數據檢驗方法,具體一種為火力發電廠熱工在線動態測試數據粗大誤差剔除的改進53H算法的數據檢驗方法。
背景技術:
隨著大數據時代的到來,各行各業都面臨著海量數據和信息的處理,數據的準確性甄別過程,粗大誤差過濾就顯得尤為重要。特別是對于火力發電廠,熱工測量儀表的工作環境惡劣,噪聲、高溫、壓力波、電磁波、機械振動等干擾頻繁,測量數據可靠性和穩定性隨之下降,測點容易發生突發故障。隨著SIS的廣泛推廣和應用,火力發電廠的實時經濟性監控面臨的測量數據準確性問題愈來愈突出。個別測點故障會使得電廠綜合指標以及上級單位的匯總指標出現明顯異常,系統的數據統計成為無效數據。這就要求系統能夠提供一種數據自檢功能,能夠主動對測點數據準確性給予甄別,必要時依據歷史數據給出合理重構,同時給出報警提示。如圖1所示,傳統53H算法流程包括以下步驟:
(1)第一次平滑:對原始序列進行窗口長度為5的中值濾波形成序列X’,原始序列首尾各兩點得不到平滑;
(2)第二次平滑:對序列X’進行窗口長度為3的中值濾波形成序列X’’,序列X’首尾各一點得不到平滑;
(3)第三次平滑:對序列X’’進行三點中心平滑形成序列X’ ’ ’,序列X’首尾各一點得不到平滑;
(4)比較原始序列和平滑序列X’’ ’對應數據的偏差:偏差上限值依據經驗選取,偏差大于設定的偏差上限值則認為是突變,同時以平滑值代替,最后形成處理后序列,同時統計出突變點的總個數。傳統53H算法流程的缺點之一是原始序列的首尾各四點得不到平滑和突變檢驗;之二是原始序列和平滑序列進行偏差比較時的限值確定過程較難。Tukey提出穩健性的53H算法,可以剔除突變數據。傳統的53H算法對于動態測量數據的粗大誤差剔除是一種很有效的辦法,但存在的缺陷是不能對序列的前四點和后四點做平滑估計,因而無法對于前四點和后四點做在線檢驗和處理;有文獻提出來的將首尾各八點分別反序排列后再進行平滑,對新平滑序列的首尾各八點再次進行反序排列即對應首尾各四點的平滑值,存在的問題是首或尾的八點前半段和后半段數據趨勢差別大的時候,平滑效果較差。
發明內容
本發明所解決的技術問題在于提供一種改進53H的數據檢驗方法,以解決上述背景技術中的問題。本發明所解決的技術問題采用以下技術方案來實現: 一種改進53H算法的數據檢驗方法,包括以下步驟:
步驟(I):連續數據采集
通過采數接口程序從原始數據源采集模擬量數據,采集周期按照香農采樣定律進行選取,得到時間序列數據;
步驟(2):序列特征量計算
計算序列的平均值和樣本標準差,為特征量檢驗做準備;
步驟(3):特征量檢驗
依據平均值的限定范圍來檢驗,如超出范圍,則跳出檢驗,進入步驟(5);如在范圍內則繼續標準差檢驗,標準差不等于O時,進入步驟(3),用改進53H算法做進一步檢驗;標準差等于O時,則跳出檢驗,進入步驟(5);
步驟(4):改進53H算法檢驗
通過改進53H算法對序列所有點進行平滑,第一次平滑估計是對首尾兩點引入五點三次端點平滑,第二次和第三次平滑估計是對首尾進行三點等權端點平滑,再比較原始序列和平滑序列的偏差,偏差大于偏差上限值則認為是突變,統計序列突變點個數,同時與設定的突變點個數上限值進行比較,進入步驟(5);
步驟(5):數據狀態信息提示
依據特征量檢驗、改進53H算法檢驗的結果給出相應的數據檢驗狀態信息提示。步驟(I)中原始數據源為電廠分散控制系統。步驟(3)中平均值的限定范圍按照步驟(I)中采集的模擬量數據的實際變化范圍來確定。步驟(4)中設定的突變點個數上限值為數據總數的40%_60%。步驟(4)中偏差上限值等于相對不確定度和平滑值的乘積。有益效果:本發明與傳統53H法相比,增加了序列特征量檢驗,使得53H法的檢驗結果更加可靠,提高檢驗效率和檢驗可靠性,實際操作性更強。新增的首尾兩點平滑法是對傳統53H法的補充,實現了對于序列首尾各四點的突變檢驗,且很好地跟蹤了序列后或前的變化趨勢。引入不確定度作為平滑值和原始值的偏差比較限值,避免了經驗選取的隨意性、無依據性和確定過程的繁瑣性,使得檢驗設定更有理論依據。
圖1為傳統53H算法的流程圖。圖2為本發明的總流程圖。圖3為本發明中改進53H算法的詳細流程圖。
具體實施例方式為了使本發明的技術手段、創作特征、工作流程、使用方法達成目的與功效易于明白了解,下面進一步闡述本發明。如圖2所示,一種改進53H算法的數據檢驗方法,包括以下步驟:
步驟(I):連續數據采集
通過采數接口程序從原始數據源如電廠分散控制系統等采集模擬量數據(一般不對數字量數據做處理),采集周期按照香農采樣定律進行選取,從而得到時間序列數據。步驟(2):序列特征量計算
計算序列的平均值和樣本標準差,為特征量檢驗做準備。步驟(3):特征量檢驗
依據平均值的限定范圍來檢驗,平均值的限定范圍按照采集的模擬量數據的實際變化范圍來確定;如超出范圍,貝1J跳出檢驗,進入步驟(5),給出“數據超出檢驗范圍”的提示;如在范圍內則繼續標準差檢驗,標準差不等于0時,進入步驟(3),用改進53H算法做進一步檢驗;標準差等于0時,則跳出檢驗,進入步驟(5),給出“數據檢驗異常”的提示。步驟(4):改進53H算法檢驗
通過改進53H算法對序列所有點進行平滑,再比較原始序列和平滑序列的偏差,偏差大于偏差上限值則認為是突變,統計序列突變點個數,同時與設定的突變點個數上限值(一般設為數據總數的一半)進行比較,進入步驟(5),如突變點個數超出突變點個數上限值,給出“數據檢驗異常”的提示;否則,給出“數據檢驗正常”的提示。步驟(5):數據狀態信息提示
依據特征量檢驗、改進53H算法檢驗的結果給出數據檢驗狀態信息提示,具體信息在上述步驟中已體現。如圖3所示,改進53H算法流程是在傳統53H算法流程上進行的改進,包括以下步驟:
步驟(I):第一次平滑:對原始序列首尾各兩點進行了五點三次端點平滑,序列其他點的平滑算法和傳統的相同,使得序列X’的數據個數和原始序列的一樣;
步驟(2):第二次平滑:對序列X’的首尾各一點進行了三點等權端點平滑,序列其他點的平滑算法和傳統的相同,使得序列X’ ’的數據個數和原始序列的一樣;
步驟(3):第三次平滑:對序列X’ ’首尾各一點進行了三點等權端點平滑,序列其他點的平滑算法和傳統的相同,序列X’ ’ ’首的數據個數和原始序列的一樣;
步驟(4):比較原始序列和平滑序列X’ ’ ’對應數據的偏差;偏差上限值等于相對不確定度和平滑值的乘積。以上顯示和描述了本發明的基本原理、主要特征及本發明的優點。本行業的技術人員應該了解,本發明不受上述實施例的限制,上述實施例和說明書中描述的只是說明本發明的原理,在不脫離本發明精神和范圍的前提下,本發明還會有各種變化和改進,這些變化和改進都落入要求保護的本發明范圍內。本發明的要求保護范圍由所附的權利要求書及其等效物界定。
權利要求
1.一種改進53H算法的數據檢驗方法,其特征是:包括以下步驟: 步驟(I):連續數據采集 通過采數接口程序從原始數據源采集模擬量數據,采集周期按照香農采樣定律進行選取,得到時間序列數據; 步驟(2):序列特征量計算 計算序列的平均值和樣本標準差,為特征量檢驗做準備; 步驟(3):特征量檢驗 依據平均值的限定范圍來檢驗,如超出范圍,則跳出檢驗,進入步驟(5);如在范圍內則繼續標準差檢驗,標準差不等于O時,進入步驟(3),用改進53H算法做進一步檢驗;標準差等于O時,則跳出檢驗,進入步驟(5); 步驟(4):改進53H算法檢驗 通過改進53H算法對序列所有點進行平滑,第一次平滑估計是對首尾兩點引入五點三次端點平滑,第二次和第三次平滑估計是對首尾進行三點等權端點平滑,再比較原始序列和平滑序列的偏差,偏差大于偏差上限值則認為是突變,統計序列突變點個數,同時與設定的突變點個數上限值進行比較,進入步驟(5); 步驟(5):數據狀態信息提示 依據特征量檢驗、改進53H算法檢驗的結果給出相應的數據檢驗狀態信息提示。
2.根據權利要求1所述的一種改進53H算法的數據檢驗方法,其特征是:步驟(I)中原始數據源為電廠分散控制系統。
3.根據權利要求1所述的一種改進53H算法的數據檢驗方法,其特征是:步驟(3)中平均值的限定范圍按照步驟(I)中采集的模擬量數據的實際變化范圍來確定。
4.根據權利要求1所述的一種改進53H算法的數據檢驗方法,其特征是:步驟(4)中設定的突變點個數上限值為數據總數的40%-60%。
5.根據權利要求1所述的一種改進53H算法的數據檢驗方法,其特征是:步驟(4)中偏差上限值等于相對不確定度和平滑值的乘積。
全文摘要
一種改進53H算法的數據檢驗方法,包括以下幾個步驟連續數據采集、序列特征量計算、特征量檢驗、改進53H算法檢驗、數據狀態信息提示。相比于傳統算法,改進53H算法對首尾兩點引入五點三次加權端部平滑以及三點等權端部平滑,并且引入不確定度作為平滑值和原始值的偏差比較限值,從而實現對原始序列所有數據的突變檢驗和數據重構。檢驗結果可靠,適合在線或離線數據處理,同時不確定度理論的引入避免了偏差限值選取過程中憑經驗選取的隨意性、無依據性和確定過程的繁瑣性,使得檢驗參數設定更有理論依據。
文檔編號G06F19/00GK103093078SQ20121054853
公開日2013年5月8日 申請日期2012年12月18日 優先權日2012年12月18日
發明者肖靈運, 劉元議, 鄒光球, 張成煜, 向春波, 劉麟夫, 胡蓉, 李星, 謝小鵬, 姜文波, 王凱, 謝鵬, 劉巍 申請人:湖南大唐先一科技有限公司