專利名稱:一種基于Apriori方法的氣象災害智能感知方法
技術領域:
本發明涉及智能感知和數據挖掘領域,尤其是一種基于Apriori方法的氣象災害智能感知方法。
背景技術:
目前,決策支持系統(DSS)是指綜合利用大量數據,將數學模型和數據處理模型、管理學、控制論、運籌學等多學科知識有機組合,通過人機交互輔助各級決策者實現科學決策的系統。它通過信息、仿真和計算機等技術手段綜合利用現有的數據模型,輔助決策者解決半結構化或非結構化決策問題。從決策支持系統的定義來看,信息、決策者和模型是決策支持系統的三個最基本要素,DSS的目的是輔助決策者做出決策方案,提高決策者的決策技能和組織決策的水平,最終提高組織技能,取得更好的經濟效益。目前DSS發展的重要方向及其衍生主要有以下幾個方向:(1)模型驅動的智能決策支持系統(Model- driven IDSS),(2)數據驅動的智能決策支持系統(Data-DrivenIDSS), (3)知識驅動的決策支持系統(Knowledge-Driven IDSS)。IDSS主要通過對關聯隱藏的數據進行處理并模型化,利用數值模型的計算結果來進行決策支持。對于一個智能系統來說,知識庫是其核心,在這個知識庫中,往往包含大量模糊、隨機、不可靠或不確定性因素的數據,顯然用于海量數據的處理的數據挖掘技術是實現智能感知與優化發展的核心。Apriori方法的基本思想是“利用頻繁項集的先驗知識,也就是說使用一種逐層搜索的迭代方法來尋找頻繁項集進而求出關聯規則”。該方法是一種尋找頻繁項集的最基本方法,至今仍作為關聯規則挖掘的經典方法被廣泛研究改進應用。Apriori具有良好可伸縮性和實用性能,尤其是在處理離散數據時能夠有突出的表現。不過,在產生候選項目集類方法中存在固有不足,比如在處理高相關性的稠密數據時,存在著以下缺點:容易并呈現組合式的增長速度,產生巨大的候選項目集。必須要對數據庫多次掃描。如果最長的模式是η的話,則需要(η+1)次數據庫掃描。產生大量冗余規則等。
發明內容
本發明在基于傳統Apriori關聯方法的基礎上,提出一種改進的Apriori方法,并應用于一個氣象災害智能感知系統。相較傳統方法的不足之處,該方法降低了磁盤訪問率,提升了運行效率,減少了冗余規則。這個改進方法主要通過矩陣存儲法和事務壓縮提升了系統效率,并通過約束規則降低了規則冗余。該方法可以直接運用在該氣象災害智能感知系統中,經過實驗驗證,該系統可以通過知識庫中的數據利用關聯規則導出到規則庫。本發明的技術方案是: 一種基于Apriori方法的氣象災害智能感知方法,它包括如下步驟:
O定義知識庫和規則庫;
2)采用矩陣存儲法降低磁盤訪問率;
3)采用事務壓縮方法進一步減少候選項目集ck中的候選項的數量;
4)采用約束規則更新項目集,
進行智能感知,得到相應的氣象災害預測信息。本發明的知識庫中包含了氣象災害歷史感知數據,氣象災害預警預案數據,法律法規數據的內容;規則庫用于存儲通過關聯規則方法導出的規則數據,包含氣象災害數據及其對應的智能感知信息。本發明的矩陣存儲法為:首先對數據庫進行編碼,采用矩陣存儲方法一次性將數據全部讀進內存并存儲項集。本發明的事務壓縮方法:在候選項目集Ck產生前,對Lk-1進一步裁剪,統計Lk-1中所有的項目出現的次數,刪除Lk-1中包含出現次數小于k-Ι的項目的項目集,以減少參加連接的k-Ι項目集的數量。本發明的約束規則為:直接將不符合社會基本事實的連接生成項從候選項集中刪除。本發明的有益效果:
本發明提出的一種改進的Apriori關聯方法在現在的氣象災害智能感知系統中有明顯的優化作用。相對于傳統的Apriori關聯方法,本方法在運行過程中需要掃描數據庫次數減少,減輕了數據庫負擔,并大大減少了生成的候選數據項。顯著提高了運行效率。
圖1為氣象災害智能感知系統業務流程圖。圖2為傳統方法和改進后的方法時間對比圖。
具體實施例方式下面結合附圖和實施例對本發明作進一步的說明。如圖1所示,Apriori方法采用一種逐步搜索的方式,它需要枚舉出所有的頻繁項集,從以上學習過程中可以得知,該方法的不足表現有以下幾個方面。首先,在運行過程中需要反復掃描數據庫,這樣就會造成方法需要計算機IO負荷過重和運行時間長等缺點。其次,當事務數據庫較小時,由這類數據得到的頻繁項集模式通常比較短,普通的關聯規則挖掘方法都能獲得良好的性能。但是當該方法需要運用到大型事務數據庫中時(如醫學領域、商業領域等等),由于大量場模式的出現,導致方法性能急劇下降。這有以下三方面的原因:
(I)若事務數據庫的最長的頻集的長度為n,則方法需要掃描數據庫η次。多次掃描大型數據庫大大增加了方法的FO負荷。(2)生成一個頻集模式意味著需要生成大量額外的頻集并計算其支持度,生成大量候選集并計算其支持度,消耗了大量的時間。(3)不考慮任何現實意義,將連接生成的任意一項都作為候選項集來考慮,需要做無用的搜索與計數。本發明主要通過以下三點對Apriori方法進行改進:
矩陣存儲法
數據庫中的矩陣存儲法(即數組存儲),就是指在處理大量數據的問題時,為了方便起見,把具有相同類型的若干數據按有序的形式組織起來,這些按順序排列的同類數據元素的集合稱為數組。在對方法優化處理時,首先對數據庫進行編碼,采用矩陣存儲方法一次性將數據全部讀進內存并存儲項集,這樣可以高速緩存中掃描數據庫,有效的避免掃描物理數據庫多次執行。經過上述處理以二元數組形式把數據存放在數據庫中,大大減少了計算機處理1/0負載,提高方法效率。事務壓縮
雖然目前相關學者對事務壓縮已有大量的研究,本課題仍將進一步減少候選項目集Ck中的候選項的數量。在經典Apriori方法中,事務壓縮主要是在Ck-1,產生后,將Ck-1中的項與支持度進行比較,小于支持度的項集將被去掉,剩下的大項集將生成Lk-1,然后Lk-1與Lk-1進行連接產生Ck。為了壓縮Ck容量,利用Apriori性質這一原理來裁剪候選項集中的項目數量。根據Apriori性質,任何非頻繁的(k_l)項集都不能包含在頻繁K-項集中。因此如果一個候選k-項集的(k 一 I)子集不在Lk-1中,則該候選絕對不可能是頻繁的,可以直接從候選項集Ck中刪除掉,達到了壓縮Ck的目的。在改進過程中,壓縮事務在產生候選項目集Ck之前。主要是對Lk-1進行分析修剪,統計L`k-1中各項目出現的次數,將一些項目集(包含Lk-1中出現次數小于k 一 I的項目)刪除掉,這樣就減少了 Lk-1自連接時的項目集數量,從而減少了所產生Ck中候選項的數量。約束規則
經典Apriori方法在其剪枝過程中,對連接生成的所有項不做任何分析,均作為候選項在數據庫中來查找其出現的計數。比如氣象災害規則庫中可能會出現如下候選頻繁項集::{“災害名=高溫”,“等級=暴雨”。。。}而這不符合社會基本事實的,應該直接將該項從候選項集中刪除掉,從而減少候選集內項的數量。而傳統APriori方法把連接生成的項都作為候選項,通過掃描數據庫,獲取該項集的支持度,并不考慮其現實意義,增加了沒必要的計算量。由上面的討論可知,在生成候選項時加入相關條件的約束規則,可以減少候選項集中的項目數量,生成的候選項更可能是頻繁項,且減輕掃描數據庫的負擔。這就大大提高了方法的效率,尤其是在擁有海量數據的數據庫中,其效果更加明顯本發明未涉及部分均與現有技術相同或可采用現有技術加以實現。
權利要求
1.一種基于Apriori方法的氣象災害智能感知方法,其特征是它包括如下步驟: O定義知識庫和規則庫; 2)采用矩陣存儲法降低磁盤訪問率; 3)采用事務壓縮方法進一步減少候選項目集ck中的候選項的數量; 4)采用約束規則更新項目集, 進行智能感知,得到相應的氣象災害預測信息。
2.根據權利要求1所述的基于Apriori方法的氣象災害智能感知方法,其特征在于:所述的知識庫中包含了氣象災害歷史感知數據,氣象災害預警預案數據,法律法規數據的內容;規則庫用于存儲通過關聯規則方法導出的規則數據,包含氣象災害數據及其對應的智能感知信息。
3.根據權利要求1所述的基于Apriori方法的氣象災害智能感知方法,其特征在于所述的矩陣存儲法為:首先對數據庫進行編碼,采用矩陣存儲方法一次性將數據全部讀進內存并存儲項集。
4.根據權利要求1所述的基于Apriori方法的氣象災害智能感知方法,其特征在于所述的事務壓縮方法:在候選項目集Ck產生前,對Lk-1進一步裁剪,統計Lk-1中所有的項目出現的次數,刪除Lk-1中包含出現次數小于k-Ι的項目的項目集,以減少參加連接的k-1項目集的數量。
5.根據權利要求1所述的基于Apriori方法的氣象災害智能感知方法,其特征在于所述的約束規則為:直接將不符合社會基本事實的連接生成項從候選項集中刪除。
全文摘要
一種基于Apriori方法的氣象災害智能感知方法,利用該方法可以對知識庫中的氣象災害信息和感知信息進行關聯分析,并可以導出規則加入規則庫。該方法的優化主要包括一下內容通過矩陣存儲法降低磁盤訪問率,進一步減少候選項目集ck中的候選項的數量的事務壓縮方法,經典約束規則的改進。這個改進方法具有磁盤訪問率低,運行效率高,冗余規則少等特點。
文檔編號G06F19/00GK103106321SQ20111036092
公開日2013年5月15日 申請日期2011年11月15日 優先權日2011年11月15日
發明者李千目, 戚湧, 錢潔龍, 張宏, 侯君 申請人:無錫南理工科技發展有限公司