一種分布式大數據分析方法
【技術領域】
[0001 ]本發明涉及數據分析領域,具體地說是一種分布式大數據分析方法。
【背景技術】
[0002]隨著信息時代的到來,數據的積累成幾何倍增長。為了從已有的海量數據中挖掘有效信息,出現了各種不同的數據分析算法。
[0003]在數據分析的實際操作過程中,無法立即確定最合適的算法,需要通過不斷的嘗試不同的算法,或者算法組合來獲得不同的計算結果。根據對不同的計算結果進行對比,從而獲得最佳的算法方案、以及最優的分析結果,以獲得最效的數據反饋信息。
[0004]數據分析人員需要既懂算法的原理,又要懂算法的具體代碼實現。對技術人員要求較高,同時實現不同的算法組合分析數據時候,需要不斷調整編碼,較為繁瑣。
【發明內容】
[0005]本發明的技術任務是針對上述現有技術的不足,提供一種分布式大數據分析方法。該方法通過統一算法接口標準,使算法與算法之間可以隨機組合。僅通過算法即可實現完整的數據分析過程。而且,根據本發明的算法接口標準實現的算法,可以與工具原有算法無縫組合,對整個數據分析的流程無任何影響,方便用戶擴充算法種類、以及增加個性化算法。
[0006]本發明的技術任務是按以下方式實現的:一種分布式大數據分析方法,其特點是以大數據為基礎,將不同算法制定統一的服務標準,根據服務標準實現的算法隨機組合繪制成流程圖,并根據流程圖的算法節點關系,自動在spark分布式系統上執行,實現數據分析的云計算。戶可以完全不了解代碼實現,只關注于數據分析所需要使用的算法、如何繪制數據分析流程、以及數據分析結果準確性。同時用戶可以根據工具的算法服務標準,靈活添加自己的算法。根據工具的算法服務標準增加的算法,可以很好的與工具已有其他算法進行隨機組合,并能流暢運算,增加了算法實現的可擴充性。
[0007]作為優選,本發明所述方法可采用b/s架構,用戶通過瀏覽器來實現對算法流程的繪制。
[0008]所述流程圖中包含算法實例節點、以及算法實例節點的關系,算法實例節點的關系通過算法之間的連線來確定。
[0009]每一個算法都對應有已經編寫好算法的jar包,通過統一算法的輸入輸出參數信息,保證算法節點之間的數據流轉。
[0010]作為優選,可通過算法節點與算法節點之間的箭頭來表示算法節點之間的關系,根據算法節點關系的描述,自動查找到算法節點的起始位置,開始執行算法處理數據;當執行完一個算法節點的時候,再根據算法節點的描述自動執行下一個節點的算法。
[0011]進一步的,可以以工具提供算法的服務與標準,根據算法接口與標準增加新的算法。
[0012]以工具提供流程的檢測功能,檢查流程的完整性、正確性。
[0013]與現有技術相比,本發明的分布式大數據分析方法具有以下有益效果:
(一)通過統一算法的接口和標準,能夠讓用戶自由實現自己的算法,并與工具的其他算法無縫組合。
[0014](二)通過繪制算法流程圖,實現對算法的不同順序組合來分析處理數據,分析流程多樣化。
[0015](三)流程圖會自動解析運行在spark的群集上,省去了人工將算法運行在spark群集上的工作。
[0016](四)算法所運行的spark分布式系統是主流的云計算框架之一,運行速度較快。
[0017](五)通過繪制數據分析完整流程圖,使得分析數據無需編碼實現。數據分析人員只需要懂算法即可。減少了技術人員的要求,以及節省了一般數據分析中,因算法順序改變而編碼調整的時間。同時圖形化的數據分析界面,更容易查找整個數據分析流程中不適合的算法節點。
【附圖說明】
[0018]附圖1是本發明分布式大數據分析方法的流程圖。
【具體實施方式】
[0019]參照說明書附圖以具體實施例對本發明的分布式大數據分析方法作以下詳細地說明。
[0020]實施例:
本發明分布式消息轉發方法本發明采用b/s架構,使用戶可以通過瀏覽器來實現對算法流程的繪制。在一個完整的流程圖中包含:算法實例節點、以及算法實例節點的關系。算法實例節點的關系是通過算法之間的連線來確定。算法的運行環境是spark分布式計算系統中,大量縮短計算時間。
在流程圖繪制界面,增加一個算法實例節點后,可以通過算法實例節點的屬性值界面,來修改算法用到的屬性。每一個算法都會對應已經編寫好算法的jar包。在算法中統一了算法的輸入輸出的參數信息,以保證算法節點之間的數據流轉。
[0021]算法節點添加完成后,需要確定算法節點之間的關系,S卩:通過算法節點與算法節點之間的箭頭來表示算法節點之間的關系。根據算法節點關系的描述,會自動查找到算法節點的起始位置,開始執行算法處理數據。當執行完一個算法節點的時候,會根據算法節點的描述自動執行下一個節點的算法。
[0022]工具提供算法的服務與標準。根據算法接口與標準,用戶可以自由增加新的算法,使算法庫變得可擴充性。根據標準規范實現的算法可以在算法流程圖中與其他算法隨機組合,流暢的進行數據分析。
[0023]工具中,具備流程的檢測功能,檢查流程的完整性、正確性。例如:避免出現回路的流程等。工具通過測試功能,來驗證整個流程的完整與可執行。
[0024]算法的運行環境采用spark分布式計算系統。Spark分布式計算系統是主流的云計算框架之一。采用云計算的方式,大幅度提高數據分析的速度與效率。
[0025]如附圖1所示,數據分析流程的創建以及執行的完整過程如下:
首先是新建流程,創建流程以后,往流程里排放算法。已有算法可以直接添加到流程中。未有算法,根據算法統一接口標準,增加新的算法后,再將新增加的算法加入到流程中。增加算法到流程后,可以修改算法中所用到的屬性。編排完的流程,會在spark群集上進行運算,最終獲得分析結果。
[0026]以上述方法實現的大數據分析系統具有以下特點:
1、通過分布式架構設計,構建全生命周期的數據分析管理,采用流程化設計,提供錯誤診斷機制,內嵌多種常用算法,為用戶提供可視化自定義數據分析解決方案;
2、具有完備的數據準備、模型構建、模型評估、模型管理和結果展示等挖掘步驟,可為用戶提供全生命周期的數據分析管理。
[0027]3、采用先進的數據流程化、可視化建模方式,使數據分析過程更加貼近用戶的業務分析過程,使操作過程流暢自然。
[0028]4、配備完善的幫助及錯誤診斷機制,提高了流程創建效率和結果準確性。
[0029]5、在囊括數據分析模型的基礎上,內嵌多種國際常用算法,為用戶提供可視化自定義數據分析解決方案。
【主權項】
1.一種分布式大數據分析方法,其特征在于以大數據為基礎,將不同算法制定統一的服務標準,根據服務標準實現的算法隨機組合繪制成流程圖,并根據流程圖的算法節點關系,自動在spark分布式系統上執行,實現數據分析的云計算。2.根據權利要求1所述的分布式大數據分析方法,其特征在于:采用b/s架構,用戶通過瀏覽器來實現對算法流程的繪制。3.根據權利要求1所述的分布式大數據分析方法,其特征在于:流程圖中包含算法實例節點、以及算法實例節點的關系,算法實例節點的關系通過算法之間的連線來確定。4.根據權利要求3所述的分布式大數據分析方法,其特征在于:每一個算法都對應有已經編寫好算法的jar包,通過統一算法的輸入輸出參數信息,保證算法節點之間的數據流轉。5.根據權利要求1所述的分布式大數據分析方法,其特征在于:通過算法節點與算法節點之間的箭頭來表示算法節點之間的關系,根據算法節點關系的描述,自動查找到算法節點的起始位置,開始執行算法處理數據;當執行完一個算法節點的時候,再根據算法節點的描述自動執行下一個節點的算法。6.根據權利要求1所述的分布式大數據分析方法,其特征在于:以工具提供算法的服務與標準,根據算法接口與標準增加新的算法。7.根據權利要求6所述的分布式大數據分析方法,其特征在于,以工具提供流程的檢測功能,檢查流程的完整性、正確性。
【專利摘要】本發明公開了一種分布式大數據分析方法,屬于數據分析領域。該方法以大數據為基礎,將不同算法制定統一的服務標準,根據服務標準實現的算法隨機組合繪制成流程圖,并根據流程圖的算法節點關系,自動在spark分布式系統上執行,實現數據分析的云計算。與現有技術相比,本發明方法通過自定義數據分析流程,即可實現完整的數據分析設計,并根據算法節點關系,自動順序在spark分布式系統上運算。本發明提供算法開發服務和標準,用戶可以根據自己的業務需求實現特定的算法。根據標準增加的算法可以很好的與其他算法進行組合并在spark上運算。最終實現通過云計算挖掘數據的目的。
【IPC分類】G06F17/30
【公開號】CN105608160
【申請號】CN201510960157
【發明人】于曉晨, 邵兵, 劉永, 王寧
【申請人】浪潮軟件股份有限公司
【公開日】2016年5月25日
【申請日】2015年12月21日