專利名稱:基于多核支持向量回歸機的電網基建工程造價預測方法
技術領域:
本發明涉及數據挖掘技術,特別是涉及基于多核支持向量回歸機的電網基建工程造價預測方法。
背景技術:
近年來,電網行業的建設步伐較快,2010年完成電網建設投資454億元,2011年完成電網建設投資297億元。受內外部環境影響,電網的合理控制工程造價,提升電網基建工程造價管理精益化水平的需求非常迫切。外部環境,近幾年CPI (Consumer Price Index,消費者物價指數)指數持續走高,主要設備材料價格上漲較快,同時,電監會等外部監管單位對基建造價工作要求較高,每年均要求公司報送典型項目的相關造價分析材料;內部環境,近年來電網基建工程項目結余 率較高,概算編制不合理的問題長期存在。如何加強電網基建工程造價管理,向管理要效益,節約公司建設成本,成為企業基建管理領域的工作重點和工作難點。傳統支持向量回歸機能夠在給定參數,單一穩定的數據來源的數據集上有效預測數據,但在面臨更復雜的異構數據情況下,傳統的支持向量回歸機由于只使用單一核函數,難以在該核函數空間下對輸入輸出建立合理的映射關系,因此不能有效地獲得較為精確的回歸函數,或者會得到一個具有過泛化的回歸函數,從而導致預測不夠準確。
發明內容
基于此,有必要針對上述問題,提供一種基于多核支持向量回歸機的電網基建工程造價預測方法,能夠提供一種準確、簡捷、實用的工程造價預測方法。一種基于多核支持向量回歸機的電網基建工程造價預測方法,包括對輸變電項目描述數據進行屬性預處理,并采用基本核函數計算多核矩陣,其中,所述屬性預處理包括將連續型變量標準化及枚舉型變量類型的轉換;構建多核支持向量回歸機的預測模型,對該預測模型的回歸參數及所述多核矩陣的權重進行優化;將所述屬性預處理獲得的數據作為待測樣本,利用所述預測模型進行造價預測。在其中一個實施例,所述屬性預處理的步驟當中,輸變電項目描述屬性包括枚舉型變量屬性與連續型變量屬性;其中,所述枚舉型變量屬性包括電壓等級、投產年份、建設性質、變電站型式;所述連續型變量屬性包括征地面積、全站建筑面積、主控樓建筑面積、主變壓器單價、高壓側斷路器單價。在其中一個實施例,所述屬性預處理的步驟當中,所述枚舉型變量類型的轉換是指將枚舉型屬性轉換成取值為0,I的二值型屬性。在其中一個實施例,所述屬性預處理的步驟當中,所述將連續型變量標準化是指將輸變電項目的每個連續型的屬性變量值放大或縮小到預設的
區間。
在其中一個實施例,采用基本核函數計算多核矩陣的步驟當中,所使用的基本核函數包括高斯核函數、多項式核函數、Sigmoid核函數。在其中一個實施例,所述利用所述預測模型進行造價預測的步驟,包括41)在連續型變量標準化和枚舉型變量類型轉換的基礎上與回歸函數中的訓練樣本做多核函數的計算;42)計算待測樣本的預測值。實施本發明,具有如下有益效果本發明利用了多核函數,充分考慮了訓練樣本在多核函數空間的表達性,并在統一的框架下對參數進行優化,提供了多核函數支持向量回歸機預測方法。利用本發明所提供的基于多核支持向量回歸機的電網基建工程造價預測方法,能提高對訓練樣本的擬合性能,并能削弱訓練數據不充分帶來的不利影響,具有較強泛化能力,能夠對電網基建工程 造價做出合理的預測,以便可以幫助基建管理人員提高概算編制精度,有效控制基建投資。工程造價預測的精確度直接關系到企業的基建投資規模預測的準確度,對節約公司建設成本,提升企業經濟效益和管理效益有著至關重要的作用。
圖I為本發明基于多核支持向量回歸機的電網基建工程造價預測方法的流程圖;圖2為本發明的一個實施方式的回歸函數參數及多核函數權重的演算流程圖。
具體實施例方式為使本發明的目的、技術方案和優點更加清楚,下面將結合附圖對本發明作進一步地詳細描述。隨著機器學習方法尤其是支持向量回歸機(Support Vector Regression, SVR)的不斷發展,目前支持向量回歸機在費用預測領域取得了顯著的進展。支持向量回歸機建立在統計學習理論的基礎上,克服了神經網絡和傳統參數方法的諸多缺點,不需要特定問題的先驗知識,在有限的訓練樣本情況下,可以很好地控制學習機器的推廣能力。另外,支持向量回歸機的性能主要取決于核函數的選擇。利用Kernel trick,我們可以設計使用不同的核函數度量樣本在不同特征空間的相似性;同時,利用核函數將樣本從顯式的特征空間映射到隱式的核函數空間,可以避免構建顯式的特征表達以及高維特征空間的維數災難問題;而且借助核函數組合的方式,多核支持向量回歸機(MultipleKernel Support Vector Regression)可以更好的處理不同類型數據的輸入,在統一的框架下同時優化多核函數的權重及對應的回歸函數參數,具有較強的預測能力。圖I為本發明基于多核支持向量回歸機的電網基建工程造價預測方法的流程圖,包括SlOl :對輸變電項目描述數據進行屬性預處理,并采用基本核函數計算多核矩陣,其中,所述屬性預處理包括將連續型變量標準化及枚舉型變量類型的轉換;S102:構建多核支持向量回歸機的預測模型,對該預測模型的回歸參數及所述多核矩陣的權重進行優化;S103:將所述屬性預處理獲得的數據作為待測樣本,利用所述預測模型進行造價預測。圖I是按照本發明的一個實施方式的工作流程圖。利用本發明解決電網基建工程造價預測問題,以Data, cost數據集為例,Data, cost數據集包含47個變量輸入,我們隨機篩選出60%數據作為訓練數據集,40%數據作為測試數據使用。第一部分、預處理階段首先,對輸變電項目數據進行預處理。進行屬性提取,構造出輸變電項目描述屬性,用以刻畫工程造價。提取的輸變電項目屬性包括枚舉型變量屬性與連續型變量屬性。枚舉型屬性包括電壓等級、投產年份、建設性質、變電站型式等。其中,電壓等級可選類型為500kV、220kV、110KV、35kV ;投產年份可選類型為2008、2009、2010、2011 ;建設性質可選類型為擴建、新建;變電站型式可選類型為戶內、戶外、半戶內、地下、半地下。而輸變電項目描述屬性中的連續型變量屬性包括征地面積、全站建筑面積、主控樓建筑面積、主變壓器單價、高壓側斷路器單價等。
將輸變電項目描述屬性中的枚舉型變量類型轉換處理。將枚舉型變量轉化為算法可以識別并運算的0、1 二值型的變量。轉換方法如下如果某個屬性可以取K個不同的值,則將其轉換為K個取值為0,I的二值型屬性。如屬性“建設性質”可以取“擴建”與“新建”,貝IJ可以將屬性“建設性質”轉換為兩個屬性,分別是“擴建”與“新建”,如果某個輸變電項目的“建設性質”為“擴建”,則其轉換后的輸變電項目描述屬性中,“擴建”屬性值為“ I ”,“新建”的屬性值為“O”。將輸變電項目描述屬性中的連續型變量進行標準化處理。由于描述屬性中的不同的連續型變量之間的大小區別很大,如“征地面積”的數量級是105而“主變壓器單價”的數量級是107的,所以,如果直接將這樣量級相差巨大的不同描述屬性輸入模型進行訓練的話,會不可避免地對量級大的屬性產生偏倚,影響預測結果,故對連續型變量進行標準化
處理。處理方法如下屬性X轉換為即除以該屬性值的最大值。這樣,每個連續型
屬性值就轉化至
之間的值,避免了不同屬性值之間由于量級不同產生的偏倚,可以有效提高預測準確率。在核函數方面,采用了 M種核函數,例如多項式核,高斯核,sigmoid核等,分別利用各種核函數計算訓練集中所有樣本對所對應的核函數值,構建多核矩陣。圖2為本發明的一個實施方式的回歸函數參數及多核函數權重的演算流程圖。以下結合圖2對本發明第二、三部分做進一步的說明。S201 :初始化多核函數的權重;S202 :最小化目標函數,優化回歸函數參數;S203 :最大化目標函數,優化多核函數的權重;S204 :參數更新;當滿足終止條件時,轉入步驟S205 ;S205 目標函數更新。當不滿足終止條件時,轉入步驟S206 ;S206 :計算給定的目標值的回歸函數;S207 :回歸函數參數學習算法結束。
第二部分,建模階段構造多核支持向量回歸機模型,考慮多個基本核函數的凸組合,其形如
權利要求
1.一種基于多核支持向量回歸機的電網基建工程造價預測方法,其特征在于,包括 對輸變電項目描述數據進行屬性預處理,并采用基本核函數計算多核矩陣,其中,所述屬性預處理包括將連續型變量標準化及枚舉型變量類型的轉換; 構建多核支持向量回歸機的預測模型,對該預測模型的回歸參數及所述多核矩陣的權重進行優化; 將所述屬性預處理獲得的數據作為待測樣本,利用所述預測模型進行造價預測。
2.根據權利要求I所述的基于多核支持向量回歸機的電網基建工程造價預測方法,其特征在于所述屬性預處理的步驟當中,輸變電項目描述屬性包括枚舉型變量屬性與連續型變量屬性; 其中,所述枚舉型變量屬性包括電壓等級、投產年份、建設性質、變電站型式;所述連續型變量屬性包括征地面積、全站建筑面積、主控樓建筑面積、主變壓器單價、高壓側斷路器單價。
3.根據權利要求I或2所述的基于多核支持向量回歸機的電網基建工程造價預測方法,其特征在于所述屬性預處理的步驟當中,所述枚舉型變量類型的轉換是指將枚舉型屬性轉換成取值為O,I的二值型屬性。
4.根據權利要求I或2所述的基于多核支持向量回歸機的電網基建工程造價預測方法,其特征在于所述屬性預處理的步驟當中,所述將連續型變量標準化是指將輸變電項目的每個連續型的屬性變量值放大或縮小到預設的[O,I]區間。
5.根據權利要求I或2所述的基于多核支持向量回歸機的電網基建工程造價預測方法,其特征在于采用基本核函數計算多核矩陣的步驟當中,所使用的基本核函數包括高斯核函數、多項式核函數、Sigmoid核函數。
6.根據權利要求I所述的基于多核支持向量回歸機的電網基建工程造價預測方法,其特征在于,采用線性約束組合構建多核支持向量回歸機,所述線性約束組合包括
7.根據權利要求6所述的基于多核支持向量回歸機的電網基建工程造價預測方法,其特征在于對該預測模型的回歸參數及所述多核矩陣的權重進行優化的步驟包括,求解回歸參數{ ,+,() 、多核函數權重的最大最小鞍點,獲取所述預測模型的回歸函數。
8.根據權利要求7所述的基于多核支持向量回歸機的電網基建工程造價預測方法,其特征在于求解最大最小鞍點的步驟,包括 31)給定多核函數權重參數,用所述多核支持向量回歸機演算回歸參數; 32)給定回歸參數,用半無限線性規劃演算多核函數權重; 33)迭代執行31)步驟和32)步驟,直至滿足預設的迭代終止條件。
9.根據權利要求8所述的基于多核支持向量回歸機的電網基建工程造價預測方法,其特征在于所述迭代終止條件包括連續兩次迭代參數的變化閾值、迭代次數達到預設上限。
10.根據權利要求I所述的基于多核支持向量回歸機的電網基建工程造價預測方法,其特征在于所述利用所述預測模型進行造價預測的步驟,包括 41)在連續型變量標準化和枚舉型變量類型轉換的基礎上與回歸函數中的訓練樣本做多核函數的計算;42)計算待測·樣本的預測值。
全文摘要
本發明公開了基于多核支持向量回歸機的電網基建工程造價預測方法,包括對輸變電項目描述數據進行屬性預處理,并采用基本核函數計算多核矩陣,其中,所述屬性預處理包括將連續型變量標準化及枚舉型變量類型的轉換;構建多核支持向量回歸機的預測模型,對該預測模型的回歸參數及所述多核矩陣的權重進行優化;將所述屬性預處理獲得的數據作為待測樣本,利用所述預測模型進行造價預測。采用本發明,可以能夠對電網基建工程造價做出合理的預測,以便可以幫助基建管理人員提高概算編制精度,有效控制基建投資。
文檔編號G06Q10/04GK102930352SQ20121042479
公開日2013年2月13日 申請日期2012年10月30日 優先權日2012年10月30日
發明者楊晶晶, 李雋 , 齊志剛, 蕭展輝, 金波, 賴啟結, 謝榕昌, 楊眉, 張雨, 劉冬根, 謝文景 申請人:廣東電網公司