本發明屬于數據處理,具體涉及一種自動化數據智能處理方法、系統、設備及介質。
背景技術:
1、邊緣計算將計算、網絡、存儲等能力擴展到物聯網設備附近的網絡邊緣側,而以深度學習為代表的人工智能技術讓每個邊緣計算的節點都具有計算和決策的能力,這使得某些復雜的智能應用可以在本地邊緣端進行處理,滿足了敏捷連接、實時業務、數據優化、應用智能、安全與隱私保護等方面的需求。
2、隨著時代的發展,每天所產生的數據越來越多,而且一些人工智能模型的日漸成熟,使得越來越多的人工智能應用如智能監控、車聯網、自動駕駛等的實現成為可能。然而,由于本地計算能力的不足,這些復雜的計算任務往往需要借助云計算才可以實現;在傳統的數據處理過程中,數據采集端采集的數據往往具有非常大的尺寸和高的生成頻率,使用普通的線路進行數據傳輸無法達到實時的效果,通過搭建專用的高速線路來進行數據傳輸。這樣的解決方案一方面成本太高,另一方面由于物聯網設備產生的數據量急劇增加,在響應延遲和通信負擔方面對云計算構成巨大的挑戰。
3、邊緣端智能設備采用先進的人工智能技術,搭載多項業務應用,為邊緣端場景提供智能計算能力,提高了工作效率,但是由于業務環境不斷變化,實時采集的數據與標準觀測本體之間的數據特性會變化,數據采集端口難以快速適應自動采集、處理和分析大量的業務數據,忽視了時間依賴性帶來的數據變化。
技術實現思路
1、為解決現有技術中存在的上述問題,本發明提供了一種自動化數據智能處理方法、系統、設備及介質,
2、本發明的目的可以通過以下技術方案實現:
3、s1:獲取離線業務數據,預設數據采集周期頻率,根據所述數據采集周期頻率獲取實時業務數據,對所述離線業務數據和所述實時業務數據進行規范整合處理得到離線業務時序數據和實時業務時序數據;
4、s2:構建自適應采集模型,將規范整合處理后的所述離線業務時序數據作為所述自適應采集模型的訓練數據,通過所述訓練數據訓練更新所述自適應采集模型的模型參數;
5、s3:根據所述自適應采集模型對所述實時業務時序數據進行數據異常檢測得到所述實時業務時序數據對應的數據異常概率,根據所述數據異常概率和異常感知機制計算得到所述實時業務時序數據對應的異常得分時間序列;
6、s4:對所述異常得分時間序列進行閾值自適應處理得到異常閾值,根據所述異常閾值和所述異常得分時間序列對所述實時業務時序數據進行數據重構。
7、具體地,所述規范整合處理方法為:
8、對所述離線業務數據和所述實時業務數據進行數據域劃分得到數據屬性字段和數據屬性值,合并相同數據屬性字段并對所述數據屬性值的缺陷值進行填充;
9、根據所述數據屬性字段設置數據屬性標準輸入,計算所述數據屬性值域所述數據屬性標準輸入間的相關系數,預設相關系數閾值,保留所述先系數大于所述相關系數閾值對應的數據屬性值;
10、根據數據采集時間為所述數據屬性字段添加時間維度。
11、具體地,所述自適應采集模型的模型參數包括先驗權重值、學習率、特征選擇參數、損失函數參數、偏置項參數。
12、具體地,所述自適應采集模型包括編碼層、空間變量生成層、映射變換層、解碼層;
13、所述編碼層用于對所述實時業務時序數據以并行的形式處理數據間的時間依賴性得到隱藏層空間變量,計算公式為:
14、
15、其中,h為隱藏層空間變量,act為殘差連接的激活函數,x為模型輸入的實時業務時序數據序列,k為卷積核尺寸,f(i)為濾波處理函數,xs-d·i為輸入序列歷史值,d為擴張因子;
16、所述空間變量生成層用于對所述隱藏層空間變量進行重采樣并生成多元時序數據,計算公式為:
17、
18、其中,z表示多元時序數據,wu、bu、wσ、bσ為自適應采集模型的特征選擇參數,softplus為隱藏層神經網絡的激活函數,∈為防止數據溢出的偏置項參數;
19、所述映射變換層對所述多元時序數據進行可逆變換得到非分布變量,所述解碼層將所述非分布變量映射到重構空間并生成重構空間概率變量。
20、具體地,所述異常感知機制計算方法為:
21、將固定時間窗口下采集的所述實時業務時序數據對應的所述重構空間概率變量進行升序排列,根據所述實時業務時序數據的數據維度對所述重構空間概率變量進行求和平均,計算公式為:
22、
23、其中,as為異常得分時間序列,i為維度計數,m為固定時間窗口下采集的所述實時業務時序數據的數據維度,v為先驗權重值,為排序后第i個維度的重構空間概率變量。
24、具體地,所述閾值自適應處理方法為:
25、通過廣義帕累托分布模擬超過閾值的尾部分布,計算公式為:
26、
27、其中,f(s)為自適應閾值的分布函數,th為異常得分初始化的閾值,s為異常得分時間序列中的值,s為自適應閾值,γ為尾部指數,σ為尺度參數;
28、通過最大似然估計對所述尾部分布進行參數估計得到所述尾部指數和所述尺度參數的估計值,根據所述估計值計算異常閾值,計算公式為:
29、
30、其中,thu為異常閾值,th為異常得分初始化的閾值,q為異常得分小于初始化的閾值的概率,n′為對應的觀測點的數量,n′th為觀測點中異常得分小于初始化的閾值的數量,分別為所述尾部指數和所述尺度參數的估計值。
31、具體地,所述數據重構方法為:將采集的數據根據時間維度劃分時間段,在同一時間段內采集的數據的異常得分大于所述異常閾值,則將這個時間段內的所有觀測數據作為異常數據并剔除。
32、一種自動化數據智能處理系統,包括數據預處理模塊、模型自適應學習模塊、數據異常識別模塊、數據重構模塊;
33、所述數據預處理模塊用于獲取離線業務數據,預設數據采集周期頻率,根據所述數據采集周期頻率獲取實時業務數據,對所述離線業務數據和所述實時業務數據進行規范整合處理得到離線業務時序數據和實時業務時序數據;
34、所述模型自適應學習模塊用于構建自適應采集模型,將規范整合處理后的所述離線業務時序數據作為所述自適應采集模型的訓練數據,通過所述訓練數據訓練更新所述自適應采集模型的模型參數;
35、所述數據異常識別模塊用于根據所述自適應采集模型對所述實時業務時序數據進行數據異常檢測得到所述實時業務時序數據對應的數據異常概率,根據所述數據異常概率和異常感知機制計算得到所述實時業務時序數據對應的異常得分時間序列;
36、所述數據重構模塊用于對所述異常得分時間序列進行閾值自適應處理得到異常閾值,根據所述異常閾值和所述異常得分時間序列對所述實時業務時序數據進行數據重構。
37、本發明的有益效果為:
38、通過通常將數據采集分為實時數據采集與離線數據處理兩部分,并對離線業務數據和實時業務數據進行規范整合處理,降低無效、錯誤數據對建模的影響,提高建模的準確性,少量且具代表性的數據將大幅縮減數據挖掘所需的時間,降低儲存數據的成本;通過自適應采集模型學習采集數據隨時間變化的潛在規律,為采集數據添加時間維度,捕捉時序數據中的時間依賴性,提高檢測精度;通過分析采集數據關聯模式,利用重構概率衡量數據采集中的異常程度,再與設定的閾值對比并進行數據異常重構,使數據采集端可以自適應處理分析大量的多元化的業務數據。