一種基于信息熵的地下水數值模擬不確定性定量分析方法
【專利摘要】本發明提供了一種基于信息熵的地下水數值模擬不確定性定量分析方法,將預測變量概率分布的信息熵作為該變量的不確定性大小,根據貝葉斯模型平均方法的預測公式和信息熵理論,將地下水預測不確定性分解為模型結構、模型參數和各概念模型預測分布間的重疊不確定性。能夠度量各種概率分布類型隨機變量的不確定性大小,克服了傳統方差法只能度量正態分布的缺陷,擴展了不確定性定量分析的應用范圍;將地下水數值模擬不確定性分解為模型參數、模型結構和重疊不確定性等三部分,能夠克服傳統方差法無法描述模型間重疊不確定性的缺點;將模型參數不確定性定義為各概念模型內部(參數)不確定性權重和減去模型間重疊的不確定性,從而能夠對各部分不確定性進行更加準確、合理的描述。
【專利說明】
一種基于信息熵的地下水數值模擬不確定性定量分析方法
技術領域
[0001 ]本發明涉及一種不確定性定量描述方法,具體涉及一種地下水數值模擬不確定性 定量分析方法。
【背景技術】
[0002]地下水數值模擬受到眾多因素的影響,模擬(預測)結果的不確定性來源通常可以 歸納為:(1)模型參數的不確定性,即由于模型參數的不合理設置而導致的不確定性;(2)模 型結構(概念模型)的不確定性,即由于對水文地質概念模型進行不合理的概化而導致的不 確定性。模型參數的不確定性首先得到了地下水工作者的注意,而概念模型不確定性通常 沒有給予足夠的重視,一般通過單一的水文地質概念模型來表示地下水系統,忽略其他模 型結構存在的可能性,基于單一的模型結構進行地下水數值模擬及預測時,將過高估計該 模型的預測能力,并得到不可靠的預測結果。
[0003] 貝葉斯模型平均方法(Bayesian Model Averaging,BMA)被當前廣泛用于處理地 下水數值模擬中的模型參數與結構不確定性問題,在貝葉斯統計的框架內,BMA能夠融合各 類先驗信息(如模型參數和模型結構),從而獲得預測變量(如地下水水位與水量、地下水污 染物濃度等)的后驗分布,其基本步驟可以總結為:
[0004] (1)根據研究區的水文地質資料、專家知識等,建立一組可行的概念模型M[Mi, M2,…,Mn]來表不實際地下水系統,N表不概念模型的數量,這些概念模型具有不同的結構;
[0005] (2)在觀測數據d下,針對每個概念模型Mk(k=l,-_,N)分別進行參數不確定性分 析,如馬爾科夫鏈蒙特卡洛模擬,獲得變量A的預測分布f( A |d,Mk);
[0006] (3)根據拉普拉斯近似方法(Laplace approximation method)或蒙特卡洛方法 (Monte Carlo method)計算各概念模型的權重p(Mk|d);
[0007] (4)由BMA公式計算變量Δ的綜合預測分布:
[0008]
(1)
[0009]公式(1)中BMA預測分布的不確定性主要來自模型參數與結構的不確定性,對預測 分布f( △ |d)的不確定性及其組成進行定量分析能夠揭示預測不確定性的來源,從而為減 少地下水數值模擬不確定性提供指導依據。
[0010]傳統的方差法將隨機變量概率分布的方差定義為該變量的不確定性大小,將預測 分布f ( A | d)的方差分解為模型內部方差(varw)與模型間方差(varb),分別表不模型參數和 模型結構不確定性。根據公式(1),預測變量△的前兩階矩分別表示為:
[0011]
[0012]
[0013]
[0014]
(5)
[0015] 其中,E和var分別表示預測變量的均值和方差。
[0016] 傳統的方差法原理簡單,容易操作,但在應用過程中可以發現:(1)方差概念無法 合理的描述某些類型概率分布的不確定性,如多峰分布,而該類型的概率分布常見于地下 水數值模擬的預測分布;(2)方差法將各概念模型預測分布方差的加權定義為參數不確定 性,將各概念模型預測分布均值的方差定義為模型結構不確定性,而不能描述相似結構概 念模型間的重疊不確定性。因此,應用方差法進行地下水數值模擬不確定性定量分析時,具 有一定的局限性和不可靠性。
【發明內容】
[0017] 發明目的:本發明的目的在于針對現有技術的不足,將預測變量的信息熵作為其 不確定性大小的度量,提供一種基于信息熵的地下水數值模擬不確定性定量分析方法。
[0018] 技術方案:本發明提供了基于信息熵的地下水數值模擬不確定性定量分析方法, 包括以下步驟:
[0019] (1)建立一組概念模型來代表研究區地下水系統;
[0020] (2)對各概念模型進行參數不確定性分析,獲得預測變量的概率分布,基于貝葉斯 多模型平均方法,對各概念模型的預測分布進行權重平均,獲得考慮模型參數和結構不確 定性的地下水綜合預測分布;
[0021 ] (3)根據信息熵理論,將預測變量概率分布的信息熵作為該變量的不確定性大小;
[0022] (4)根據貝葉斯模型平均方法的預測公式和信息熵理論,將地下水預測不確定性 分解為模型結構、模型參數和各概念模型預測分布間的重疊不確定性。
[0023] 進一步,步驟(4)的模型參數不確定性為概念模型后驗權重的離散信息熵,模型參 數不確定性為概念模型預測分布的信息熵。
[0024] 進一步,步驟(4)中各概念模型預測分布的信息熵加權和減去各概念模型預測分 布間的重疊不確定性即為模型參數不確定性。
[0025] 有益效果:本發明針對傳統方差法存在的問題,將信息熵用于度量預測變量的不 確定性大小,并將總體不確定性分解為模型參數、模型結構和重疊不確定性等三部分,相對 現有技術具有以下效果:
[0026] (1)能夠度量各種概率分布類型隨機變量的不確定性大小,克服了傳統方差法只 能度量正態分布的缺陷,擴展了不確定性定量分析的應用范圍;
[0027] (2)將地下水數值模擬不確定性分解為模型參數、模型結構和重疊不確定性等三 部分,能夠克服傳統方差法無法描述模型間重疊不確定性的缺點;
[0028] (3)將模型參數不確定性定義為各概念模型內部(參數)不確定性權重和減去模型 間重疊的不確定性,從而能夠對各部分不確定性進行更加準確、合理的描述。
【附圖說明】
[0029] 圖1為基于方差法的不確定性度量;
[0030] 圖2為基于信息熵法的不確定性度量。
【具體實施方式】
[0031] 下面對本發明技術方案進行詳細說明,但是本發明的保護范圍不局限于所述實施 例。
[0032] 實施例:信息論中,對于離散變量X,信息熵Η定義為:
[0033]
(6)
[0034] 其中ρ(Χι)*Χι的概率。對于連續變量X,信息熵Η定義為:
[0035] H(x)=-/f(x)logf(x)dx (7)
[0036] 其中f(x)為X的概率密度函數。
[0037] KullbaCk-Leibler(K-L)散度(或相對熵D)用于表示兩個概率分布之間的相對距 離:
[0038] (8)
[0039] 其中,p(x)表示目標的真實分布,D(p | | q)表示近似分布q(x)與真實分布之間的相 對距離。根據方程(8),相對熵的形式可以改寫為:
[0040] D(p | | q) =/p(x)logp(x)dx-/p(x)logq(x)dx = Hp(x)-IP[q(x)] (9)
[0041] Ip[q(x)]=EP[logq(x)] (10)
[0042] 其中,HP(x)為x的信息熵,IP[q(x)]為Fraser信息(Fraser information,FI),表示 在真實概率密度函數p(x)下,對于參數化模型q(x)的信息獲得量。
[0043] 基于BMA方程(1),預測變量Δ的平均概率密度為:
[0044]
k=\
[0045] 根據連續變量信息熵公式(7),變量△的信息熵可以表示為:
[0046]
[0047] 其中,S表示變量△的支撐集,從而將預測變量△的信息熵表達式分解為兩項,第 一項可以改寫為:
[0048]
[0049] 其中,FI表示Fraser信息,fk和fk'分別表示f ( Δ I d,Mk),f ( Δ I d,Mk'),1^ = 1,· · ·,N 表示第V個概念模型,H( △ I d,Mk)表示模型Mk預測分布的信息熵,H(M I d)表示概念模型權重 的信息熵。
[0050]
[0051]
[0052]方程(12)的第二項可以改寫為:
[0054] 其中,fBMA表不fBMA( Δ I d) 〇
[0055] 從而方程(12)可以改寫為:
[0056]
[0057]根據ΒΜΑ的邏輯過程,預測變量△的總體不確定性(U)來自三個步驟,分別是:
[0058] (1)概念模型結構的選擇過程所導致的模型結構不確定性(Ubm)
[0059] 由于地下水系統是一個復雜、未知的系統,地下水模型的結構具有多種可能性,每 種可能的模型結構(概念模型)具有相應的權重,選擇這些可能的模型結構并賦予其權重的 過程將會產生不確定性。因此,模型結構不確定性可表示為模型權重的離散信息熵H(M|d), 即公式(15)所示。
[0060] (2)各概念模型的參數及邊界條件的設置過程所導致的模型參數不確定性
[0061] 對于特定的單個概念模型Mk而言,其具有確定的模型結構,預測分布的不確定性 只來自于模型參數。因此,概念模型M k的預測不確定性可表示為其預測分布的信息熵Η( Δ d,Mk),即公式(14)所示。
[0062] (3)各概念模型預測分布的合并過程
[0063] 將各概念模型的預測分布進行權重加和將會導致各概念模型預測不確定性(BPH (A |d,Mk))的累加。同時,由于不同概念模型可能具有部分相似的模型結構,對應的預測分 布也存在一定的相關性,相關的預測分布進行累加勢必將產生重疊不確定性。因此,將BMA 預測分布的參數不確定性(U?)定義為各概念模型參數不確定性的加權和減去各概念模型 預測分布間的重疊不確定性(U?),即:
[0064]
k~l
[0065] 根據公式(17),U?可表示為:
[0066]
[0067]本實施例通過3個例子來對比分析信息熵法和方差法在描述隨機變量不確定性及 BMA預測不確定性分解上的區別和特征。
[0068] (1)離散分布的不確定性分析
[0069] 假設有兩個概念模型M(Mi,M2),p(P1,p 2)表示Μ的后驗概率,E(Ei,E2)表示概念模型 預測分布的均值,考慮兩種情況:(l)P(Pl = 0·5,p2 = 0·5)和E(El = 10·0,E2 = 20·0);(2)p(pl = 0.99,p2 = 0.01)和E(El=10.0,E2 = 100.0)。對于方差法,兩種情況的模型結構不確定性 分別為UbmJ = 15.0,Ubm_2 = 80.19,UbmJ〈Ubm_2。對于信息熵法,兩種情況的模型結構不確定性 分別為Ubm_i = 0.6931,Ubm_2 = 0.0560,UbmJ>Ubm_2。兩種方法具有相反的評價結論。
[0070]根據不確定性分析的目的,BMA方法目標在于識別一組備選概念模型中的潛在可 能的模型,對其預測結果進行權重平均。當已知某概念模型后驗概率極小(如0.01)時,該模 型可以從BMA中排除,從而降低模型結構(概念模型)不確定性,而當不同模型具有相似大小 (如0.5)的后驗權重時,所有的模型結構都是可能存在的,從而模型結構不確定性最大。因 此,情況(2)的模型結構不確定性要大于情況(1),信息熵方法對此進行了準確的評價。 [007?] (2)連續分布的不確定性分析
[0072] 假設預測變量△的概率分布為f( △),考慮兩種情況:(l)f( △)服從如下正態分布 類型,
[0073]
[0074] (2)f( Δ )服從雙峰(混合正態)分布類型,
[0075]
[0076] 對于方差法,兩種情況f( Δ )的預測總體不確定性分別為= = 對 于信息熵法,兩種情況f ( Δ )的總體預測不確定性分別為山=2.8052,U2 = 2.1121,UOU2。兩 種方法具有相反的評價結論。
[0077]根據f( △)的概率分布在不同置信水平下的預測分布區間的寬度,可以判斷f( △) 不確定性的相對大小。在50%、75%和90%置信水平下,情況(1 )f( △)的預測區間寬度分別 為5.4、9.2和13.16,情況(2)汽&)的預測區間寬度分別為2.68、4.60和6.56。因此,可以判 斷情況(2)下的f( △)預測不確定性要小于情況(1),從而信息熵方法獲得了準確的評價結 果。
[0078] (3)預測分布的不確定性分解
[0079] 假設概念模型的預測分布均為正態分布,分別為5(八)=沁&,〇2)彳2 (Α )=Ν2(-μ,σ2),μ為均值,σ2為方差,且σ2 = 1。模型后驗權重均為0.5,獲得的ΒΜΑ預測分布 為:
[0080] fBMA( Δ )=〇·5*Νι(μ,1)+0·5*Ν2(-μ,1) (23)
[0081] 利用方差法對ΒΜΑ預測分布進行分解,獲得的模型參數(Uwm)與模型結構不確定性 (Ubm)分別為U?=l,U bm=y2。如圖1所示,隨著μ的變化,U?保持為一個固定的常數,而Ubm隨著 μ的增加而增加。圖2(a)所示為基于信息熵法計算得到的模型參數(U?)與模型結構不確定 性(1^),1^保持為一個固定的常數,而隨著μ的增加,U?先增加,然后逐漸收斂至一個穩定 值。因此,方差法和信息熵法對BMA預測不確定性的分解有不同的評價結果。
[0082] 方程(23)所示為兩個正態概率分布的和,隨著μ的增加(從0-10),這兩個概率分布 空間逐漸遠離,因此模型間mMhMs)預測分布的重疊不確定性U?應逐漸減小至0。圖2(b)描 述了 U?隨μ的增加而逐漸減小至0的過程,以及模型參數不確定性U?逐漸增加至穩定值。因 此,信息熵方法能夠更加合理的定量刻畫預測不確定性的分解,以及獲得更多的模型內部 信息。
[0083]本發明針對傳統方差法在地下水數值模擬不確定性分析中的局限性,建立了基于 信息熵理論的不確定性定量分析方法。通過案例(1)分析可以看出,信息熵法能夠更加合理 的描述離散概率分布的不確定性,從而能夠更加合理的刻畫模型結構不確定性。通過案例 (2)分析可以看出,信息熵方法能夠更加合理的描述雙峰概率分布類型的不確定性,從而能 夠對該類型的地下水預測分布不確定性進行準確的刻畫。通過案例(3)分析可以看出,信息 熵方法能夠更加合理的對地下水數值模擬預測不確定性進行分解,且能獲得更多關于不同 模型預測分布之間的信息。
【主權項】
1. 一種基于信息熵的地下水數值模擬不確定性定量分析方法,其特征在于:包括以下 步驟: (1) 建立一組概念模型來代表研究區地下水系統; (2) 對各概念模型進行參數不確定性分析,獲得預測變量的概率分布,基于貝葉斯多模 型平均方法,對各概念模型的預測分布進行權重平均,獲得考慮模型參數和結構不確定性 的地下水綜合預測分布; (3) 根據信息熵理論,將預測變量概率分布的信息熵作為該變量的不確定性大小; (4) 根據貝葉斯模型平均方法的預測公式和信息熵理論,將地下水預測不確定性分解 為模型結構、模型參數和各概念模型預測分布間的重疊不確定性。2. 根據權利要求1所述的基于信息熵的地下水數值模擬不確定性定量分析方法,其特 征在于:步驟(4)的模型參數不確定性為概念模型后驗權重的離散信息熵,模型參數不確定 性為概念模型預測分布的信息熵。3. 根據權利要求2所述的基于信息熵的地下水數值模擬不確定性定量分析方法,其特 征在于:步驟(4)中各概念模型預測分布的信息熵加權和減去各概念模型預測分布間的重 疊不確定性即為模型參數不確定性。
【文檔編號】G06Q10/04GK105975444SQ201610349745
【公開日】2016年9月28日
【申請日】2016年5月24日
【發明人】曾獻奎, 吳吉春, 王棟, 祝曉彬
【申請人】南京大學