數(shù)據(jù)源數(shù)據(jù)自動建模方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種數(shù)據(jù)源數(shù)據(jù)自動建模方法,具體地涉及一種對復(fù)雜數(shù)據(jù)源數(shù)據(jù)進 行自動建模并展示的方法。
【背景技術(shù)】
[0002] 很多存儲復(fù)雜數(shù)據(jù)的數(shù)據(jù)源,例如從社交數(shù)據(jù)庫、電商數(shù)據(jù)庫,到人類基因數(shù)據(jù) 庫,都是基于復(fù)雜的多維、大數(shù)據(jù)量存儲的數(shù)據(jù)集。針對這種數(shù)據(jù)集進行處理,存在一個巨 大的挑戰(zhàn)是如何從海量的數(shù)據(jù)中發(fā)現(xiàn)隱含的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)關(guān)聯(lián)關(guān)系、并最終提取出有意 義的數(shù)據(jù)。通常來說,分析師想不借助任何工具,從如此巨量的數(shù)據(jù)中提取出有意義的數(shù)據(jù) 來是不太現(xiàn)實的。通常分析師會借助各種分析工具來幫助提取部分有意義的數(shù)據(jù)。但是依 賴現(xiàn)有分析工具對復(fù)雜數(shù)據(jù)源數(shù)據(jù)進行建模并展示必須要持續(xù)的人機交互。用戶需要很熟 悉復(fù)雜數(shù)據(jù)集的特性,必須給計算機明確的指令來讓計算機調(diào)用相應(yīng)的算法來完成建模。 在很多情況下,這種人機交互需要重復(fù)進行多次。當(dāng)用戶處理的數(shù)據(jù)是以萬億計時,這樣的 數(shù)據(jù)處理方式非常復(fù)雜和繁瑣。因此需要一種高級數(shù)據(jù)自動建模以及可視化方式。
【發(fā)明內(nèi)容】
[0003] 針對上述技術(shù)問題,本發(fā)明目的是:提供一種數(shù)據(jù)源數(shù)據(jù)自動建模方法,在海量數(shù) 據(jù)中建立分析模型,可以方便地為業(yè)務(wù)人員進行數(shù)據(jù)建模,可以更快更好的分析用戶海量 數(shù)據(jù)。
[0004] 本發(fā)明的技術(shù)方案是: 一種數(shù)據(jù)源數(shù)據(jù)自動建模方法,包括如下步驟: SOl:多數(shù)據(jù)源接入及表結(jié)構(gòu)解析:接入不同的數(shù)據(jù)源中的數(shù)據(jù),解析各數(shù)據(jù)源中所有 表的表結(jié)構(gòu); S02:為數(shù)據(jù)源表中表結(jié)構(gòu)標(biāo)識業(yè)務(wù)對象:遍歷數(shù)據(jù)源中所有表,提取需要建模的屬 性列表,為每個屬性列表中的屬性設(shè)置業(yè)務(wù)對象名稱、業(yè)務(wù)對象類型以及業(yè)務(wù)對象聚集方 式; S03:歸并同類項業(yè)務(wù)對象以及來源:對所有設(shè)置業(yè)務(wù)對象的屬性進行匯總并歸并同 類項; S04:解析業(yè)務(wù)對象并建模生成建模結(jié)構(gòu)集:對設(shè)置業(yè)務(wù)對象的屬性按照設(shè)置參數(shù)進 行建模,對未設(shè)置業(yè)務(wù)對象的屬性按照建模規(guī)則進行建模,所述建模規(guī)則包括數(shù)值型屬性 標(biāo)記為度量,非數(shù)值型屬性標(biāo)記為維度,并歸并同類項業(yè)務(wù)對象。
[0005] 優(yōu)選的,所述步驟SOl中的表結(jié)構(gòu)包括表中的字段以及字段類型。
[0006] 優(yōu)選的,所述步驟SOl包括以下步驟: 獲取表連接及表結(jié)構(gòu)的元數(shù)據(jù); 獲取表的表結(jié)構(gòu)屬性列表; 記錄表結(jié)構(gòu)屬性列表,并與步驟S02中生成的業(yè)務(wù)對象映射匹配。
[0007] 與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點是: 1.該方法可以幫助用戶基于數(shù)據(jù)源中數(shù)據(jù)快速有效的建立起業(yè)務(wù)模型,還可以幫助用 戶發(fā)現(xiàn)數(shù)據(jù)源中隱藏的數(shù)據(jù)之間的深層次關(guān)聯(lián)關(guān)系,比如基于用戶身份信息時可以挖掘用 戶的年齡段以及對應(yīng)的消費量、消費習(xí)慣的關(guān)聯(lián)信息。
[0008] 該方法為用戶在海量數(shù)據(jù)中建立分析模型提供了可行的基礎(chǔ),可以嵌在魔鏡數(shù)據(jù) 分析平臺中,可以方便的為業(yè)務(wù)人員進行數(shù)據(jù)建模,可以更快更好的分析用戶海量數(shù)據(jù)。
【附圖說明】
[0009] 下面結(jié)合附圖及實施例對本發(fā)明作進一步描述: 圖1為本發(fā)明數(shù)據(jù)源數(shù)據(jù)自動建模方法的流程圖。
【具體實施方式】
[0010] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明了,下面結(jié)合【具體實施方式】并參 照附圖,對本發(fā)明進一步詳細(xì)說明。應(yīng)該理解,這些描述只是示例性的,而并非要限制本發(fā) 明的范圍。此外,在以下說明中,省略了對公知結(jié)構(gòu)和技術(shù)的描述,以避免不必要地混淆本 發(fā)明的概念。
[0011] 實施例: 如圖1所示,一種對復(fù)雜數(shù)據(jù)源數(shù)據(jù)進行自動建模并展示的方法,具體步驟如下: A.多數(shù)據(jù)源接入及表結(jié)構(gòu)解析 對用戶的不同數(shù)據(jù)源中數(shù)據(jù)進行接入,分析并解析出各數(shù)據(jù)源中所有表的表結(jié)構(gòu)。數(shù) 據(jù)源可以是mysql、oracle、DB2等關(guān)系型數(shù)據(jù)庫,比如說用戶有個mysql數(shù)據(jù)庫,庫中含有 △、8兩張表,4表包含41、4233..^10,10個字段,8表包含81、82、83三個字段。該步驟 可以對mysql數(shù)據(jù)庫中A、B兩張表,以及每張表中所有的字段(包括字段類型),使用SQL 語法獲取數(shù)據(jù)源元數(shù)據(jù)的方法解析出A、B兩張表表結(jié)構(gòu)。A表包含A1、A2、A3. . . A10,10個 字段,B表包含B1、B2、B3三個字段,以及每個字段的類型,類型可以為字符型,文本型,數(shù)值 型,邏輯型和日期型。記錄上述結(jié)果為后續(xù)建模做準(zhǔn)備。
[0012] 語法獲取數(shù)據(jù)源元數(shù)據(jù)的部分偽代碼如下: L/iN 丄η ^ * *w 〇/ ?
獲取的每個步驟都是由數(shù)據(jù)庫管理系統(tǒng)本身提供的接口提供的。
[0013] 為數(shù)據(jù)源表中每個字段標(biāo)識一個業(yè)務(wù)對象 遍歷數(shù)據(jù)源中所有表,提取所有需要建模的屬性列表,為每個屬性設(shè)置業(yè)務(wù)對象名稱、 業(yè)務(wù)對象類型、業(yè)務(wù)對象聚集方式。
[0014] 例如,如果用戶從業(yè)務(wù)角度,對A表中A2、A3字段比較感興趣,那么用戶可以對應(yīng) 的建立業(yè)務(wù)對象YWA2、YWA3,為每個屬性設(shè)置業(yè)務(wù)對象名稱YWA2、YWA3,YWA2的業(yè)務(wù)對象類 型是數(shù)值型,YWA3是時間類型,YWA2業(yè)務(wù)對象聚集方式可以是匯總、平均、最大值、最小值 等等,YWA3聚集方式可以是計數(shù)。
[0015] -般的,數(shù)值型的業(yè)務(wù)對象的聚集方式可以是匯總、平均、最大值、最小值等等,字 符類型的業(yè)務(wù)對象的聚集方式可以是計數(shù)。
[0016] 歸并同類項業(yè)務(wù)對象以及來源 對所有設(shè)置業(yè)務(wù)對象的屬性進行匯總,歸并同類項。
[0017] 例如,在電商系統(tǒng)數(shù)據(jù)庫中可能包含用戶表以及交易表,用戶表中包含了用戶的 身份證信息(實名制),即每個用戶都記錄了唯一的身份證信息,交易表中也包含了用戶信 息,即每個交易記錄都包含了用戶的身份證信息和交易信息。在這種業(yè)務(wù)場景中,分析該數(shù) 據(jù)庫的業(yè)務(wù)人員可以建立一個用戶身份證的業(yè)務(wù)對象。用戶表以及交易表中都包含用戶身 份證信息,將業(yè)務(wù)人員建立的用戶身份證業(yè)務(wù)對象關(guān)聯(lián)到用戶表中的身份證信息,以及交 易表中的身份證信息。當(dāng)用戶希望查詢身份證以及其他業(yè)務(wù)對象的關(guān)聯(lián)關(guān)系時,系統(tǒng)知道 可以從兩個表(兩個路徑)中分析并得出最優(yōu)的結(jié)果。
[0018] 自動解析業(yè)務(wù)對象并進行建模 對設(shè)置業(yè)務(wù)對象的屬性按照設(shè)置參數(shù)進行建模,對未設(shè)置業(yè)務(wù)對象的屬性按照建模規(guī) 則進行建模。該建模規(guī)則包括數(shù)值型屬性標(biāo)記為度量,非數(shù)值型屬性標(biāo)記為維度,并歸并同 類項業(yè)務(wù)對象。
[0019] 例如,交易金額標(biāo)識為度量,用戶所在省份標(biāo)識為維度,同時歸并同類項業(yè)務(wù)對 象。例如步驟C中例子,用戶表以及交易表都包含用戶身份證信息,則業(yè)務(wù)人員只需要一個 業(yè)務(wù)對象"用戶身份",把該業(yè)務(wù)對象同時關(guān)聯(lián)到用戶表中身份信息列以及交易表中身份信 息列。
[0020] 用戶可以對建模后的模型進行手工設(shè)置,最終呈現(xiàn)出用戶想要的業(yè)務(wù)模型以及數(shù) 據(jù)庫中表字段的映射,可以減少業(yè)務(wù)人員對龐大的數(shù)據(jù)庫中所有字段進行手工配置。
[0021] 應(yīng)當(dāng)理解的是,本發(fā)明的上述【具體實施方式】僅僅用于示例性說明或解釋本發(fā)明的 原理,而不構(gòu)成對本發(fā)明的限制。因此,在不偏離本發(fā)明的精神和范圍的情況下所做的任何 修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。此外,本發(fā)明所附權(quán)利要求旨 在涵蓋落入所附權(quán)利要求范圍和邊界、或者這種范圍和邊界的等同形式內(nèi)的全部變化和修 改例。
【主權(quán)項】
1. 一種數(shù)據(jù)源數(shù)據(jù)自動建模方法,其特征在于,包括如下步驟: 501 :多數(shù)據(jù)源表結(jié)構(gòu)解析:解析數(shù)據(jù)源中所有表的表結(jié)構(gòu); 502 :為數(shù)據(jù)源表中表結(jié)構(gòu)標(biāo)識業(yè)務(wù)對象:遍歷數(shù)據(jù)源中所有表,提取需要建模的屬性 列表,為屬性列表中的屬性設(shè)置業(yè)務(wù)對象名稱、業(yè)務(wù)對象類型以及業(yè)務(wù)對象聚集方式; 503 :歸并同類項業(yè)務(wù)對象:對所有設(shè)置業(yè)務(wù)對象的屬性進行匯總并歸并同類項; 504 :解析業(yè)務(wù)對象并建模生成建模結(jié)構(gòu)集:對設(shè)置業(yè)務(wù)對象的屬性按照設(shè)置參數(shù)進 行建模,對未設(shè)置業(yè)務(wù)對象的屬性按照建模規(guī)則進行建模,所述建模規(guī)則包括數(shù)值型屬性 標(biāo)記為度量,非數(shù)值型屬性標(biāo)記為維度,并歸并同類項業(yè)務(wù)對象。2. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)源數(shù)據(jù)自動建模方法,其特征在于,所述步驟SOl中的表 結(jié)構(gòu)包括表中的字段、字段類型以及默認(rèn)值。3. 根據(jù)權(quán)利要求1所述的數(shù)據(jù)源數(shù)據(jù)自動建模方法,其特征在于,所述步驟SOl包括以 下步驟: 獲取表連接及表結(jié)構(gòu)的元數(shù)據(jù); 獲取表的表結(jié)構(gòu)屬性列表; 記錄表結(jié)構(gòu)屬性列表,并與步驟S02中生成的業(yè)務(wù)對象映射匹配。
【專利摘要】<b>本發(fā)明公開了一種數(shù)據(jù)源數(shù)據(jù)自動建模方法,包括如下步驟:多數(shù)據(jù)源接入及表結(jié)構(gòu)解析:接入不同的數(shù)據(jù)源中的數(shù)據(jù),解析各數(shù)據(jù)源中所有表的表結(jié)構(gòu);為數(shù)據(jù)源表中表結(jié)構(gòu)標(biāo)識業(yè)務(wù)對象:遍歷數(shù)據(jù)源中所有表,提取需要建模的屬性列表,為每個屬性列表中的屬性設(shè)置業(yè)務(wù)對象名稱、業(yè)務(wù)對象類型以及業(yè)務(wù)對象聚集方式;歸并同類項業(yè)務(wù)對象:對所有設(shè)置業(yè)務(wù)對象的屬性進行匯總并歸并同類項;解析業(yè)務(wù)對象并建模生成建模結(jié)構(gòu)集:對設(shè)置業(yè)務(wù)對象的屬性按照設(shè)置參數(shù)進行建模,對未設(shè)置業(yè)務(wù)對象的屬性按照建模規(guī)則進行建模,建模規(guī)則包括數(shù)值型屬性標(biāo)記為度量,非數(shù)值型屬性標(biāo)記為維度,并歸并同類項業(yè)務(wù)對象??梢苑奖愕剡M行數(shù)據(jù)建模,有利于分析用戶海量數(shù)據(jù)。</b>
【IPC分類】G06F17/30
【公開號】CN105095436
【申請?zhí)枴緾N201510436270
【發(fā)明人】馬曉東, 馬小東, 謝曉芳, 王鵬
【申請人】蘇州國云數(shù)據(jù)科技有限公司
【公開日】2015年11月25日
【申請日】2015年7月23日