專利名稱:一種在關鍵業務預測中剔除異常數據的方法和裝置的制作方法
技術領域:
本發明涉及數據處理技術領域,更具體地,涉及一種在關鍵業務預測中剔除異常數據的方法和裝置。
背景技術:
為了適應多變的市場需求,移動公司業務支撐系統經常面臨頻繁業務變更的挑戰。在移動公司業務支撐系統中每周都有新的業務模塊上線或舊的業務模塊變更,再加上難以預測變化的市場業務量,很難把握關鍵業務對業務支撐系統的沖擊。關鍵業務對業務支撐系統的沖擊常常造成業務支撐系統穩定性差、業務支撐系統被迫頻繁硬件升級等諸多問題,進而直接影響到客戶的滿意度。因此,對關鍵業務的預測就成為業務支撐系統運營維護部門所關心的問題。試圖通過對歷史業務數據的分析,找到預測關鍵業務趨勢的方法,但預測的準確度一直不佳。原因在于IT系統中各種不確定因素,比如某個特殊點的業務高峰、系統故障、系統封網、資源的不合理使用、定期停機檢測等原因,上述這些原因都會導致出現異常數據,而這些異常數據對于預測關鍵業務趨勢的準確性造成不良影響。目前業界處理異常數據的方法很簡單,即根據經驗設下限值與上限值。在上限值與下限值之外的歷史業務數據均作為異常數據剔除。按照這種方法分析出的趨勢,往往與關鍵業務真實趨勢相去甚遠,不能適應當前復雜、多變的業務支撐系統。
發明內容
本發明實施例提出一種在關鍵業務預測中剔除異常數據的方法,能夠精確剔除異常數據,從而提高關鍵業務的預測精度。本發明實施例還提出一種在關鍵業務預測中剔除異常數據的裝置,能夠精確剔除異常數據,從而提高關鍵業務的預測精度。本發明實施例的技術方案如下一種在關鍵業務預測中剔除異常數據的方法,該方法包括確定業務支撐系統中歷史業務數據的可信區間,由可信區間剔除不正常歷史業務數據后得到處理數據;利用所述處理數據形成擬合曲線;根據所述擬合曲線計算所述處理數據的離散度,依據閾值在所述處理數據中剔除非嚴重歷史業務數據,根據得到可信數據預測關鍵業務的趨勢。所述確定業務支撐系統中歷史業務的可信區間包括,所述可信區間的上限值 Z1 = ,共η個待處理數據;所述可信區間的下限值Z2 = #(x,)2。所述由所述處理數據形成擬合曲線包括,利用所述處理數據以最小二乘法形成擬
合曲線。
所述根據所述擬合曲線計算所述處理數據的離散度包括,所述處理數據與所述擬合曲線的距離等于離散度。所述閾值M = [H* (N-I)]/N, H是所述處理數據對應的最大離散度,N是預先設定的調整參數。一種在關鍵業務預測中剔除異常數據的裝置,所述裝置包括,處理模塊、計算模塊和控制模塊,處理模塊,用于確定業務支撐系統中歷史業務數據的可信區間,由可信區間剔除不正常歷史業務數據后得到處理數據;計算模塊,用于利用所述處理數據形成擬合曲線;控制模塊,根據所述擬合曲線計算所述處理數據的離散度,依據閾值在所述處理數據中剔除非嚴重歷史業務數據,得到可信數據,根據得到可信數據預測關鍵業務的趨勢。所述處理包括計算單元和處理單元,計算單元,用于確定業務支撐系統中歷史業務數據的可信區間;處理單元,用于根據可信區間剔除不正常歷史業務數據后得到處理數據。所述控制模塊包括數據單元和控制單元,數據單元,用于根據所述擬合曲線計算所述處理數據的離散度;控制單元,用于依據所述處理數據的最大離散度計算閾值,并在所述處理數據中剔除非嚴重歷史業務數據,得到可信數據,根據得到可信數據預測關鍵業務的趨勢。從上述技術方案中可以看出,在本發明實施例中,先確定業務支撐系統中歷史業務數據的可信區間,對歷史業務數據進行初步處理,由可信區間剔除不正常歷史業務數據后得到處理數據。針對所述處理數據形成擬合曲線,由所述擬合曲線計算所述處理數據的離散度,依據閾值剔除非嚴重歷史業務數據,根據得到可信數據預測關鍵業務的趨勢。通過兩次精確剔除異常歷史業務數據,從而提高關鍵業務的預測精度。
圖1為本發明實施例在關鍵業務預測中剔除異常數據的方法流程示意圖;圖2為本發明實施例在關鍵業務預測中剔除異常數據的裝置結構示意圖。
具體實施例方式為使本發明的目的、技術方案和優點表達得更加清楚明白,下面結合附圖及具體實施例對本發明再作進一步詳細的說明。在本發明實施例中,確定業務支撐系統中歷史業務數據的可信區間,剔除在可信區間外的歷史業務數據,獲得處理數據。由處理數據形成其對應的擬合曲線,再計算每個處理數據的離散度,若該處理數據的離散度大于閾值,則剔除該處理數據,最后得到可信數據;最后根據得到可信數據預測關鍵業務的趨勢。根據待處理數據的具體情況,分兩次剔除異常數據,第一次剔除不正常歷史業務數據,第二次剔除非嚴重歷史業務數據。通過兩次精確剔除異常數據,從而提高關鍵業務的預測精度。不正常歷史業務數據是系統出現嚴重故障或嚴重性能問題時的數據。非嚴重歷史業務數據是性能慢,資源競爭等時刻的數據。參見附圖1是在關鍵業務預測中剔除異常數據的方法流程示意圖,具體包括
步驟101、計算可信區間。從業務支撐系統中歷史業務數據,大部分都處于比較穩定的范圍之內,但會出現特別大和特殊小的數據。以繳費業務壓力趨勢預測歷史業務數據為例,當業務支撐系統出現性能問題,造成業務積壓時,從該系統內得到的歷史業務數據會比正常情況小許多。這些較小的數據是由于該系統性能異常導致,所以上述較小的歷史業務數據是不適用于繳費業務壓力的預測,所以需要剔除上述異常數據。首先計算兩個邊界值即上限值和下限值,該區間為可信區間,在該區間內的數據為可信數據。在可信區間以外的數據為不正常歷史業務數據。需要根據所有歷史業務數據計算可信區間。可信區間的上限值X1,下限值\。可信區間的上限值
權利要求
1.一種在關鍵業務預測中剔除異常數據的方法,其特征在于,該方法包括確定業務支撐系統中歷史業務數據的可信區間,由可信區間剔除不正常歷史業務數據后得到處理數據;利用所述處理數據形成擬合曲線;根據所述擬合曲線計算所述處理數據的離散度,依據閾值在所述處理數據中剔除非嚴重歷史業務數據,根據得到可信數據預測關鍵業務的趨勢。
2.根據權利要求1所述在關鍵業務預測中剔除異常數據的方法,其特征在于,所述確定業務支撐系統中歷史業務的可信區間包括,所述可信區間的上限值不=£kl,共η個待i處理數據;所述可信區間的下限值Z2。
3.根據權利要求1所述在關鍵業務預測中剔除異常數據的方法,其特征在于,所述由所述處理數據形成擬合曲線包括,利用所述處理數據以最小二乘法形成擬合曲線。
4.根據權利要求1所述在關鍵業務預測中剔除異常數據的方法,其特征在于,所述根據所述擬合曲線計算所述處理數據的離散度包括,所述處理數據與所述擬合曲線的距離等于離散度。
5.根據權利要求1所述在關鍵業務預測中剔除異常數據的方法,其特征在于,所述閾值M = [H* (N-I)]/N,H是所述處理數據對應的最大離散度,N是預先設定的調整參數。
6.一種在關鍵業務預測中剔除異常數據的裝置,其特征在于,所述裝置包括,處理模塊、計算模塊和控制模塊,處理模塊,用于確定業務支撐系統中歷史業務數據的可信區間,由可信區間剔除不正常歷史業務數據后得到處理數據;計算模塊,用于利用所述處理數據形成擬合曲線;控制模塊,根據所述擬合曲線計算所述處理數據的離散度,依據閾值在所述處理數據中剔除非嚴重歷史業務數據,得到可信數據,根據得到可信數據預測關鍵業務的趨勢。
7.根據權利要求6所述在關鍵業務預測中剔除異常數據的裝置,其特征在于,所述處理包括計算單元和處理單元,計算單元,用于確定業務支撐系統中歷史業務數據的可信區間; 處理單元,用于根據可信區間剔除不正常歷史業務數據后得到處理數據。
8.根據權利要求6所述在關鍵業務預測中剔除異常數據的裝置,其特征在于,所述控制模塊包括數據單元和控制單元,數據單元,用于根據所述擬合曲線計算所述處理數據的離散度; 控制單元,用于依據所述處理數據的最大離散度計算閾值,并在所述處理數據中剔除非嚴重歷史業務數據,得到可信數據,根據得到可信數據預測關鍵業務的趨勢。
全文摘要
一種在關鍵業務預測中剔除異常數據的方法,該方法包括確定業務支撐系統中歷史業務數據的可信區間,由可信區間剔除不正常歷史業務數據后得到處理數據;利用所述處理數據形成擬合曲線;根據所述擬合曲線計算所述處理數據的離散度,依據閾值在所述處理數據中剔除非嚴重歷史業務數據,根據得到可信數據預測關鍵業務的趨勢。本文還公開了一種在關鍵業務預測中剔除異常數據的裝置。應用本發明實施例以后,能夠精確剔除異常數據,進而提高關鍵業務的預測精度。
文檔編號H04W24/06GK102457878SQ20101051733
公開日2012年5月16日 申請日期2010年10月18日 優先權日2010年10月18日
發明者劉三蘇, 楊名, 蘇偉杰, 鄭水華 申請人:中國移動通信集團四川有限公司