一種基于隨機森林模型的管線健康狀態評估方法
【技術領域】
[0001] 本發明涉及一種對管線健康狀態進行日常評估的方法,屬于城市供水管網領域。
【背景技術】
[0002] 作為城市基礎設施的重要組成部分,城市供水管網的安全、高效運行是人民正常 生活、發展生產的重要保障。目前我國的城市供水管網存在管線老化嚴重、維護難度大、管 理水平落后、維護管理不力等問題,不可避免地導致破損事故多發,影響供水系統的服務水 平。這一方面浪費大量優質水資源,增加供水成本;另一方面引發地下公共設施的損壞,甚 至妨礙交通,破壞市民生活和生產秩序。因此,對城市管網進行有計劃的更新勢在必行,而 確定大型復雜管網的優化更新方案,對管網進行有效、可行的健康狀態評估必不可少。
[0003] 現有管線健康狀態評估方法大致分成兩大類,直接檢測法和建模分析法。直接檢 測法能夠更為準確的得到管道的運行情況,但是往往需要大量資金的投入,并且實際監測 會受到場地等情況的限制;建模分析法節省人力物力,是國內外專家學者的研究熱點。
[0004] 管線健康的影響因素眾多,存在復雜的非線性關系,且難以定量評價其影響程度; 我國管網數據庫的建設水平滯后,對歷史數據的記錄不完整、不準確,缺乏統一標準,差異 性較大。目前已有的管線評價方法多采用Logistic廣義線型回歸(CN102222169)、遺傳算法 (CN102072409)、層次分析法(CN103578045)、神經網絡(CN103258243)等方法建立模型,而 這些方法不同程度上存在主觀性較強、數據質量要求高、適用于特定管網、計算量大等不 足。
【發明內容】
[0005] 鑒于上述問題,本發明的目的是提供一種新的對數據質量要求不高、適用范圍廣、 準確性較高的基于隨機森林模型的管線健康狀態評估方法,以便在事故發生前發現管線問 題,為管線維護、更新改造計劃的制定提供參考,輔助供水管網日常管理的科學決策。
[0006] 本發明的技術方案如下:
[0007] -種基于隨機森林模型的管線健康狀態評估方法,其特征在于該方法包括如下步 驟:
[0008] 1)分別從城市供水管網的基礎數據庫和破損數據庫中提取管線基本信息和歷史 破損情況,所述的基本信息包括管線屬性信息、地理環境、運行狀況和空間位置四大類;所 述的歷史破損情況包括破損管線編號、破損時間、破損原因和破損位置;
[0009] 2)對獲取到的管線信息進行數據預處理:
[0010] a.數據庫關聯:對城市供水管網的基礎數據庫和破損數據庫按照管線編號或者空 間位置進行關聯,匹配出每根管線的歷史破損信息;
[0011] b.確定影響因子:篩選出對管線健康有直接或間接影響的屬性因子作為模型的輸 入參數,該輸入參數包括管材、管徑、管齡、管長、接口類型、管道防腐、埋深、道路負荷、覆土 類型、雜散電流和運行壓力;
[0012] c.數字編碼:根據影響因子的數據屬性,將其分為連續變量和分類變量,對分類變 量進行數字編碼,用不同數字表示數據類別;對于管線的歷史破損信息,用〇表示管線未發 生過破損,用1表示管線發生破損;
[0013] 3)利用隨機森林模型建立自變量與因變量之間的關系,評價模型的分類效果:
[0014] 自變量為篩選出的影響因子,因變量為用0和1表示的歷史破損信息;模型分類誤 差小于20 %時,認為模型效果較好,誤差大于20 %時,可通過調整參數重新建立模型;評價 模型分類效果時,采用隨機森林自身特有的00B誤差估計模型誤差。
[0015] 4)利用通過分類效果評估的隨機森林模型預測供水管網的破損概率:
[0016] 預測結果為介于[0,1]之間的數值,其值越接近于1,管線越危險,越接近于0,管線 越健康;
[0017] 5)對預測結果進行分級,用不同顏色表示健康等級,繪制健康狀態專題圖;
[0018] 6)評價管線破損影響因子重要性,分析影響規律:用平均精度下降和平均基尼指 數下降兩個參數評價管線破損影響因子的重要性,其值越大表示因子重要性越大:
[0019] 通過繪制偏相關圖,用圖表描述一個因子對類的概率的邊際效應,來分析各因子 對管線破損的影響規律。
[0020] 上述技術方案中,步驟3)利用隨機森林模型中,原始數據樣本集由破損管線和未 破損管線兩部分組成,數據量占比為1:1;評價模型分類效果時,采用隨機森林自身特有的 00B誤差估計模型誤差。
[0021] 本發明步驟5)中,所述的對預測結果進行分級,采用等間隔分類法,根據0~0.2、 0.2~0.4、0.4~0.6、0.6~0.8、0.8~1的概率區間將健康狀態評估結果分別劃分為健康、 較好、一般、較差和危險五個等級,并在ArcGIS平臺上用不同的顏色表示,繪制健康狀態專 題圖。
[0022] 與現有城市供水管網評估方法相比,本發明具有以下優點及突出性的技術效果: [0023]①隨機森林模型雖然結構復雜,但是簡單易用。與傳統模型相比,需要的假設條件 及模型參數少,一般情況下,模型參數的缺省值即可得到最優結果。對于眾多影響管線健康 的因素,無需檢查各因素間的交互作用和非線性關系是否顯著。
[0024]②隨機森林的學習過程快,通過隨機抽取樣本和隨機抽取特征降低了對異常值和 噪聲的敏感程度,提高了準確率和穩定性。針對我國城市供水管網數據量大、記錄不完整不 準確等問題,依然可以高效處理,在較小的運算量下提供較高的預測準確度。
[0025] ③隨機森林模型具備影響因子重要性評價和影響規律分析功能,拓展了管線健康 狀態評估的成果,對供水管網的日常管理工作具有較好地實際意義。
[0026] ④我國各城市供水管網的數據記錄標準不同,用于評估管線狀態的數據指標存在 差異。應用隨機森林模型,只需針對不同城市的實際情況,改變輸入輸出參數,模型自身即 可通過學習新的樣本,建立適合該數據集的"森林",可使評價結果更科學、準確。因此,本技 術的適用范圍非常廣泛。
【附圖說明】
[0027] 圖1示出了基于隨機森林模型的管線健康狀態評估方法的流程圖。
[0028]圖2示出了隨機森林方法的原理圖。
[0029] 圖3(a)和圖3(b)示出了隨機森林方法預測專題圖與實際情況對比圖。
[0030] 圖4示出了管線破損影響因子重要性評價圖。
[0031] 圖5(a)和圖5(b)示出了管線破損影響因子的影響規律分析圖
【具體實施方式】
[0032] 為更好的理解和實施本發明,下面將結合附圖和具體實施例對本發明進行詳細闡 述。
[0033] 為了提升供水管網的服務水平,優化管線維護改造計劃制定的科學方法,需要在 供水管線發生事故前,建立健康狀態評估方法,確定問題管線,制定維護方案與優先次序, 及時發現管線安全隱患并排除,以節省管網檢測耗費的大量人力物力財力。
[0034]為實現上述目的,本發明利用R軟件作為健康狀態評估方法的開發平臺。R是一個 免費、開源的自由軟件,有著強大的統計分析功能及作圖功能,內置豐富的數學計算、統計 計算函數。本發明采用RandomForest功能包,編寫相應代碼以實現所需功能,大大提高了開 發效率。
[0035] 圖1示出了基于隨機森林模型的管線健康狀態評估方法的流程圖,主要步驟如下:
[0036] 1)分別從城市供水管網的基礎數據庫和破損數據庫中提取管線基本信息和歷史 破損情況。
[0037] 從城市供水管網的基礎數據庫中,提取管線的基礎屬性信息、地理環境、運行狀 況、空間位置。其中基礎屬性信息包括管線編號、管材、管徑、管長、管齡、接口類型等,地理 環境信息包括管道埋深、道路負荷、土壤性質等,運行狀況包括運行壓力、海森-威廉系數 等。在具體實施中,可根據實際數據質量情況,擴充數據類型。
[0038] 從城市供水管網的破損數據庫中,提取管線的歷史破損情況,包括破損管線編號、 破損時間、破損原因、破損位置信息。
[0039] 2)對獲取到的管線信息進行數據預處理:
[0040]數據篩選:剔除非自然因素(第三方、人為)導致事故的破損記錄;修正錄入錯誤, 剔除明顯異常數據;
[0041] 數據庫關聯:對城市供水管網的基礎數據庫和破損數據庫按照管線編號或者空間 位置進行關聯,匹配出每根管線的歷史破損信息;
[0042] 確定影響因子:篩選出對管線健康有直接或間接影響的屬性因子作為模型的輸入 參數,該輸入參數包括管材、管徑、管齡、管長、接口類型、管道防腐、埋深、道路負荷、覆土類 型、雜散電流和運行壓力;
[0043] 數字編碼:根據影響因子的數據屬性,將其分為連續變量和分類變量,對分類變量 進行數字編碼,用不同數字表示數據類別;對于管線的歷史破損信息,用〇表示管線未發生 過破損,用1表示管線發生破損;
[0044] 3)利用隨機森林模型建立自變量與因變量之間的關系,評價模型的分類效果:
[0045] 自變量為篩選出的影響因子,因變量為用0和1表示的歷史破損信息;模型分類誤 差小于20 %時,認為模型效果較好,誤差大于20%時,可通過調整參數重新建立模型;利用 隨機森林模型中,原始數據樣本集由破損管線和未破損管線兩部分組成,數據量占比為1: 1。評價模型分類效果時,可采用隨機森林自身特有的00B誤差估計模型誤差。
[0046] 4)利用通過分類效果評估的隨機森林模型預測供水管網的破損概率:
[0047] 預測結果為介于[0,1]之間的數值,其值越接近于1,管線越危險,越接近于0,管線 越健康;
[0048] 5)對預測結果進行分級,用不同顏色表示健康等級,繪制健康狀態專題圖;
[0049] 6)評價管線破損影響因子重要性,分析影響規律:用平均精度下降和平均基尼指 數下降兩個參數評價管線破損影響因子的重要性,其值越大表示因子重要性越大:
[0050] 通過繪制偏相關圖,用圖表描述一個因子對類的概率的邊際效應,來分析各因子 對管線破損的影響規律。
[0051] 下面以我國南方某城市供水管網為實施例,詳細介紹基于隨機森林模型的管線健 康狀態評估的具體步驟:
[0052] (1)分別從城市供水管網的基礎數據庫和破損數據庫中提取管線基本信息和歷史 破損情況。
[0053] 從城市供水管網的基礎數據庫中,提取管線的基礎屬信息包括:管線編號、管材、 管