加權模糊規則提取算法
【專利摘要】本發明公開了一種加權模糊規則提取算法,用于解決數值型數據集的多目標優化問題,適合應用于流程生產企業。通過從歷史數據庫中選取系統處于穩定運行狀態下的歷史數據,形成多變量組成的大數據集,并對數據集中的每個性能變量賦予不同的權重等級,再根據不同的外部條件將大數據集劃分成若干個小數據集。數據挖掘過程依據性能變量的權重等級,由高到低逐個進行,并使用模糊C均值聚類算法對每個性能變量的數據進行分區,最終從每個小數據集中找到所有性能指標綜合最佳的數據項,將其作為規則提取出來。然后將各個小數據集中挖掘得到的規則合并,形成整個系統的知識庫,從而指導和優化實際的生產過程。
【專利說明】
加權模糊規則提取算法?
技術領域
[0001]本發明屬于智能優化算法領域,設計一種基于數據挖掘的智能優化算法,S卩加權模糊規則提取算法。?【背景技術】
[0002]隨著數據庫系統和信息化技術的發展和完善,流程生產企業(如發電企業、石化企業等)數據庫中保存了海量的歷史運行數據,其中蘊含了豐富的有價值信息,可以幫助確定企業生產中運行參數的優化值。但是由于數據量巨大,各變量間還存在著復雜的關系,因此給分析帶來了極大的困難。由于數據挖掘方法能夠給企業優化策略提供更加符合實際且可靠的參數設定值,所以融合先進數據挖掘方法,來發現較優運行模式并重新設定參數目標值已經是生產優化深入進行的一種發展趨勢。
[0003]早期的數據挖掘優化算法,如關聯規則,主要特點是分析事務屬性在事務數據庫中出現的頻度,來計算其支持度和置信度,發現事務各屬性間的關系,進而對事務進行調整和優化。早期的關聯規則基于Apr1ri算法,只支持布爾形式的數據,而且不區分各屬性的重要程度,因此無法滿足現實中,尤其是流程生產企業的許多優化需求。
[0004]目前,流程生產企業的安全生產已經得到了日以保障,現在需要進一步發揮設備的生產潛能,并滿足日益嚴峻的環保要求。但是流程生產企業的生產數據多是溫度、開度、 流量等連續變化的數值參數,不同參數對性能指標影響程度一般也不相同。因此,如何發現數值參數對性能指標的影響規律,是需要解決的一個重要問題。另外,流程生產企業的性能指標一般也含有多個,如效率、污染物排放量等等,企業對不同性能指標的關注程度也不相同,所以數據挖掘過程中區別性能指標的重要程度,是另一個需要解決的問題。傳統的關聯規則等數據挖掘算法,無法解決上述問題,因此需要針對流程生產企業,研發新的數據挖掘算法,去解決數值型的多目標優化問題。加權模糊規則提取算法,就是在上述背景和需求下提出的。?
【發明內容】
[0005]為了解決數值型多目標優化問題,本發明提出了加權模糊規則提取算法。為了使各個性能指標具有不同的權重等級,引入加權的概念,即根據實際需求,對各個性能指標賦予不同的權重等級,1級為最高等級,2級為次高等級,以此類推。數據挖掘過程中根據權重等級從高到底的順序,依次處理各個性能指標,使挖掘過程中各個階段的目標明確,從而提高算法的計算效率。為了解決數值型數據的規則提取問題,引入模糊的概念,即采用模糊C 均值(FCM)算法將每個性能指標的數據劃分為不同的分區,便于計算機處理和數值型數據的規則提取。對于性能指標較多的數據集,每個性能指標的分區數不宜過多,本算法將每個性能指標的聚類數設為3,即將每個性能指標的數據劃分為低、中、高,3個分區,用Ls、Ms、Hs 來表示。加權模糊規則提取算法具體描述如下。
[0006]輸入:n個數據項Zi(1 < i )組成的數據集D,其中,每條數據項包含m個可操作變量1)和t個性能變量(t>l),各個性能指標的權重等級(1表不最尚,2表不次尚,以此類推);
[0007]輸出:一條優化規則;
[0008]第1步:采用模糊C均值聚類算法,對數據集D中權重等級最高性能指標的所有數據進行聚類,得到該性能指標的模糊分gAKk)和隸屬度矩陣U^AKk)表示性能指標的第k個模糊分區,其中l<k<3,性能指標的每條數據項可用它的模糊分區(Ls、Ms或Hs)來描述;
[0009]第2步:根據權重等級最高性能指標的聚類結果,從數據集D中選出其隸屬于最優模糊分區中的數據項,形成數據集Di,Di中含有m個數據項,且m〈n,即做第一次剪枝處理; 接著對權重等級次高的性能指標做模糊聚類處理,再從數據集Di中選出其隸屬于最優模糊分區中的數據項,形成數據集D2,D沖含有112個數據項,且n2〈m,即做第二次剪枝處理;以此類推,直至處理完權重等級在前t-1個的性能指標,形成含有nu個數據項的數據集Dm ;
[0010]第3步:在Dt-沖,選出第t個性能指標為最優值的數據項,定義為Z〇,Z。即為輸出的優化規則。?【附圖說明】
[0011]圖1加權模糊規則提取算法流程圖。
[0012]圖2算法實施流程圖。?【具體實施方式】
[0013]【具體實施方式】的過程包括以下5個步驟,實施流程如圖2所示。
[0014](1)從系統的歷史數據庫中選取歷史數據,選取歷史數據過程中,只選取實際生產過程處于穩定運行狀態時間段內的歷史數據,即該時間段內系統外部條件(如外部指令等) 保持不變。選取出來的大數據集應該覆蓋系統不同的外部條件,即:外部條件1下的數據,夕卜部條件2下的數據,以此類推。數據集中每條數據項包括相同的m個可操作變量和t個性能變量
[0015](2)根據實際生產中,系統外部條件的不同,可以將提取出來的大數據集,分解成1 個小數據集,其中1多1。
[0016](3)根據實際需求中對各個性能指標關注程度的不同,為每個性能指標賦予不同的權重等級。
[0017]⑷運用加權模糊規則提取算法,從每個小數據集中找到各個性能指標綜合最優的數據項,將其作為規則提取出來,規則中可操作變量的數值,可作為系統可操作變量的優化設定值。
[0018](5)將每個小數據集中的規則合并,就可形成系統的知識庫,從而對整個系統進行指導和優化。
【主權項】
1.加權模糊規則提取算法,其特征在于,包括以下輸入、輸出和步驟:輸入:n個數據組成的數據集D,其中,每條數據項包含m個可操作變量(m 多1)和t個性能變量(t>l),各個性能指標的權重等級(1表不最尚,2表不次尚,以此類推); 輸出:一條優化規則;第1步:采用模糊C均值(FCM)聚類算法,對數據集D中權重等級最高性能指標的所有數 據進行聚類,得到該性能指標的模糊分gAKk)和隸屬度矩陣U^AKk)表示性能指標的第k 個模糊分區,其中1,即模糊分區包括低、中、高3個部分,分別用Ls,Ms,Hs表示,性能指標的每條數據項可用它的模糊分區來描述;第2步:根據權重等級最高性能指標的聚類結果,從數據集D中選出其隸屬于最優模糊 分區中的數據項,形成數據集Dl,D沖含有m個數據項,且m〈n,即做第一次剪枝處理;接著 對權重等級次高的性能指標做模糊聚類處理,再從數據集〇:中選出其隸屬于最優模糊分區 中的數據項,形成數據集D2,D2中含有112個數據項,且n2〈m,即做第二次剪枝處理;以此類推, 直至處理完權重等級在前t-1個的性能指標,形成含有nu個數據項的數據集Dt-1;第3步:在Dm*,選出第t個性能指標為最優值的數據項,定義為Zc>,Z。即為輸出的優化 規則。
【文檔編號】G06F17/30GK106095962SQ201610430086
【公開日】2016年11月9日
【申請日】2016年6月15日
【發明人】鄭偉
【申請人】天津市職業大學