本發明涉及地面觀測站采集數據的質量控制領域,特別是針對溫度數據的質量控制方法。
背景技術:
中國自1951年以來就有近1800個氣象站,氣象數據的積累豐富,然而這些氣象數據中可能存在一些觀測、錄入和傳輸等錯誤,這些錯誤降低了氣象站觀測數據的質量,對氣象的研究產生了阻力,因此對氣象數據的質量控制成為了氣象數據應用中不可或缺的環節。
地面氣象站觀測數據質量控制一般分為兩類,一類是單站質量控制方法,主要包括極值檢查、氣候極值檢查、內部一致性檢查、時間一致性檢查;另一類是多站聯網質量控制方法,目前國內外已經提出了很多質量控制的方法,例如數值預報模式插值方法、反距離加權發和空間回歸檢測方法等等。
技術實現要素:
本發明的目的在于克服以上技術不足之處,針對多站質量控制的不足提出一種改進隨機森林氣溫數據質量控制方法,解決了目前多站聯網質量控制方法不穩定、準確度不高的問題,具體由以下的方案實現:
所述地面氣象觀測站觀測的氣溫數據質量控制方法,包括以下步驟:
步驟1.采集采樣時間T內的目標地面氣象觀測站溫度數據X0(t),t=1,2,3,…,T,其中t為采樣時間;
步驟2.采集采樣時間T內的鄰近地面氣象觀測站溫度數據Xi(t),i=1,2,3,…,n,其中n為鄰近站的個數;
步驟3.對采集到的數據進行基本質量控制,得到新的數據集x0(t)和xi(t),將樣本按時間序列以9:1的比例分為訓練集和測試集;
步驟4.使用隨機森林方法對訓練集數據進行建模,利用Bagging方法進行采樣,樣本數足夠大時約有37%的數據沒有抽取到,稱為袋外數據(OOB),利用袋外誤差(OOB error)測試模型的泛化能力,假設袋外數據總數為a,用這a個數據作為輸入,帶入分類器得到分類結果,與正確的分類情況進行比較統計錯誤數據大小為b,則袋外誤差為OOBerror=b/a,不同的參數值mtry和ntree會使模型得到不同的袋外誤差,所以需要尋找最優參數值,利用粒子群算法對隨機森林中的參數值mtry和ntree進行尋優,利用最優mtry和ntree值建立模型;
步驟5:使用隨機森林方法對訓練集數據進行建模,回歸樹節點分裂參考的隨機特征變量決定模型的好壞,隨機特征變量的數量即為mtry值,隨機森林中每顆回歸樹使用最小剩余方差來決定,劃分準則是期望劃分后的子樹方差最小Var=min(PlVar(Yl)+PrVar(Yr))/m,其中Pl為劃分到左邊的概率,Var(Yl)為左邊數值的方差,Pr和Var(Yr)為對應右邊的概率與數值方差,m為參與分裂樣本數;
步驟6.重復步驟4和5k次得到隨機森林質量控制模型,k的大小即是樹的數量ntree,利用粒子群算法尋找袋外誤差最小的k值;
步驟7.將測試集中的鄰近站點數據作為樣本集,利用步驟6建立的隨機森林模型進行回歸預測,得到目標站的預測值;
步驟8.將預測值與實際觀測值進行比較,通過均方根誤差和平均絕對誤差評價模型,其中yobs為目標站實際觀測值,yest是模型預測值。
其中,步驟3中所述基本質量控制方法包括格式檢查、極值檢查、氣候極值檢查、內部一致性檢查、時間一致性檢查、空間一致性檢查。
其中,步驟4中的粒子群算法尋優過程為和其中q維粒子表示為xi=(xi1,xi2,L,xiq),每個粒子對應的速度可以表示為vi=(vi1,vi2,L,viq),每個粒子在搜索時考慮歷史最優值pi和全部粒子搜索到的最優值pg,w是慣性權重,c1是粒子跟蹤自己歷史最優值權重系數,c2是粒子跟蹤群里最優值的權重系數,ξ、η是區間[0,1]內均勻分布的隨機數,r是約束因子。
其中,步驟8中所述檢錯方法公式為:|yobs-yest|≤f·δ,f是質量控制參數設置為3,δ是目標站觀測值與預測值之間的標準誤差,如果滿足公式的條件,就判斷該數值正確,如果不滿足公式的條件,則將該數據記為存疑數據,通過這樣的方法來實現對數據的質量控制。
有益效果
本發明的一種改進隨機森林氣溫數據質量控制方法,通過周圍鄰近站點的氣溫觀測數據,利用優化后的隨機森林方法構建基于鄰近站點氣溫觀測數據的氣溫數據質量控制模型,提出了一種新的多站聯網質量控制方法,模型搭建速度快,泛化能力強,能夠有效的提高地面觀測數據的準確性。
附圖說明
圖1是本發明方法的流程圖;
圖2是本發明方法OOB誤差與mtry值與ntree值之間的關系圖;
圖3是本發明方法與反距離加權和空間回歸檢驗方法的MAE、RMSE效果對比圖。
圖4是本發明方法與反距離加權和空間回歸檢驗方法月02:00時均溫實際觀測值與預測值對比圖。
具體實施方式
下面結合附圖就實施例對本發明進行進一步說明。
本實施例的改進隨機森林氣溫數據質量控制方法,如圖1所示將甘肅站及周圍的83個站點2005年到2014年逐日02:00時氣溫數據進行實施例分析,進一步說明本發明:
步驟1:采集采樣時間T內的目標地面氣象觀測站溫度數據X0(t),t=1,2,3,…,T,其中t為采樣時間,本實施例中T=3654;
步驟2.采集采樣時間T內的83個鄰近地面氣象觀測站溫度數據Xi(t),i=1,2,3,…,n,其中n為鄰近站的個數,在本實施例中n=83;
步驟3.對采集到的數據X0(t)和Xi(t)進行基本質量控制,得到新的數據集x0(t)和xi(t),取樣本中1-3289行的數據作為訓練集,3290-3654行的數據作為測試集;
步驟4.使用隨機森林方法對訓練集數據進行建模,利用Bagging方法進行采樣,樣本數足夠大時約有37%的數據沒有抽取到,稱為袋外數據(OOB),利用袋外誤差(OOB error)測試模型的泛化能力,假設袋外數據總數為a,用這a個數據作為輸入,帶入分類器得到分類結果,與正確的分類情況進行比較統計錯誤數據大小為b,則袋外誤差為OOBerror=b/a,不同的參數值mtry會使模型得到不同的袋外誤差,所以需要尋找最優參數值,利用粒子群算法對隨機森林中的參數值mtry和ntree進行尋優,利用最優mtry和ntree值完成模型的建立,本實施例中mtry=60,ntree=435;
步驟5.使用隨機森林方法對訓練集數據進行建模,回歸樹節點分裂參考的隨機特征變量決定模型的好壞,隨機特征變量的數量即為mtry值,隨機森林中每顆回歸樹使用最小剩余方差來決定,劃分準則是期望劃分后的子樹方差最小Var=min(PlVar(Yl)+PrVar(Yr))/m,其中Pl為劃分到左邊的概率,Var(Yl)為左邊數值的方差,Pr和Var(Yr)為對應右邊的概率與數值方差,m為參與分裂樣本數;
步驟6.重復步驟4和5k次得到隨機森林質量控制模型,k的大小即是樹的數量ntree在實施例中設為435;
步驟7.將測試集中的鄰近站點數據作為樣本集,利用步驟6建立的隨機森林模型進行回歸預測,得到目標站的預測值;
步驟8.將預測值與實際觀測值進行比較,通過均方根誤差(RMSE)和平均絕對誤差(MAE)比較隨機森林質量控制效果,在實施例中MAE為0.319,RMSE為0.825。
為了分析本方法的優點,將同樣的數據應用與反距離加權方法和空間回歸檢驗方法中,并進行對比,如圖2所示,本方法得到的平均絕對誤差(MAE)和均方根誤差(RMSE)明顯要優于另外兩種方法。
本實施例通過周圍鄰近站點氣溫觀測數據,利用優化后的隨機森林方法構建基于鄰近站點氣溫觀測數據的氣溫數據質量控制模型,提出了一種新的多站聯網質量控制方法,模型搭建速度快,泛化能力強,能夠有效的提高地面觀測數據的準確性。通過圖3與圖4的對比分析驗證本發明方法質量控制效果明顯。