專利名稱:生成用于輸入分析模型的分析數(shù)據(jù)集的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種從存儲(chǔ)在至少一個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)生成數(shù)據(jù)集的方法,尤其涉及 一種自動(dòng)生成用于輸入分析模型的標(biāo)準(zhǔn)數(shù)據(jù)集的方法。
背景技術(shù):
由于現(xiàn)代工業(yè)、科學(xué)和商務(wù)中日益增長(zhǎng)的數(shù)據(jù)容量和復(fù)雜度,分析記錄數(shù)據(jù)以提 取有用信息的工作逐漸變得困難。對(duì)大量數(shù)據(jù)進(jìn)行分類整理并生成相關(guān)信息的過(guò)程(通常 稱為數(shù)據(jù)挖掘)可能會(huì)異常冗長(zhǎng)并浪費(fèi)時(shí)間。使用更復(fù)雜和精密的工具以便根據(jù)大量存儲(chǔ) 的數(shù)據(jù)生成有用信息的自動(dòng)數(shù)據(jù)分析變得越來(lái)越常見(jiàn)。通過(guò)使用精密的算法,分析師能夠 例如識(shí)別商務(wù)過(guò)程的關(guān)鍵屬性,預(yù)測(cè)客戶行為并使用此信息以獲取商業(yè)機(jī)會(huì)。這種數(shù)學(xué)和 統(tǒng)計(jì)技術(shù)的實(shí)現(xiàn)被稱為高級(jí)分析引擎或分析模型,并可根據(jù)功能分類為,例如,分類、回歸、 聚集、分節(jié)、屬性重要性、相關(guān)規(guī)則、以及時(shí)間序列預(yù)測(cè)。然而,發(fā)展這些模型是一個(gè)昂貴以 及浪費(fèi)時(shí)間的過(guò)程,同時(shí)要使這些模型滿足保持最新就需要對(duì)時(shí)間和費(fèi)用進(jìn)一步的投資。由工業(yè)和商業(yè)生成的數(shù)據(jù)可存儲(chǔ)于數(shù)據(jù)庫(kù)中,例如操作型數(shù)據(jù)庫(kù)(operational databases)、數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市。典型地,數(shù)據(jù)集市可適合于存儲(chǔ)適用于特定目的或主題 的數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)原則通常需要將數(shù)據(jù)以其最基本的形式存儲(chǔ),即作為“原子”數(shù)據(jù), 并且通常它們包含大量的由原始數(shù)據(jù)列構(gòu)成的數(shù)據(jù)庫(kù)表格。操作型數(shù)據(jù)庫(kù)通常通過(guò)使用數(shù)據(jù)庫(kù)規(guī)范進(jìn)行優(yōu)化,以保持?jǐn)?shù)據(jù)的完整性以及商業(yè) 交易的記錄速度。為了加快數(shù)據(jù)檢索的速度對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行優(yōu)化。采用基于多維度的模型, 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)常常是非規(guī)范化的。而且,為了加速數(shù)據(jù)檢索,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)通常需多 次存儲(chǔ)——以它們最細(xì)微顆粒的形式并以稱為聚集的總和形式。操作型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)一般都遵循實(shí)體-關(guān)系數(shù)據(jù)模式并通常基于關(guān)系數(shù)據(jù) 庫(kù)管理系統(tǒng)(RDBMQ??捎写罅康墓ぞ吆图夹g(shù)用于在各個(gè)存儲(chǔ)庫(kù)之間提取、轉(zhuǎn)換、以及裝載 (ETL)數(shù)據(jù),并且可有大量技術(shù)來(lái)執(zhí)行數(shù)據(jù)操作,通常使用稱為結(jié)構(gòu)化查詢語(yǔ)言(SQL)的標(biāo) 準(zhǔn)數(shù)據(jù)和元數(shù)據(jù)查詢語(yǔ)言。分析所使用的數(shù)據(jù)可從多個(gè)數(shù)據(jù)源中采集,從由工業(yè)或商業(yè)記錄在操作型數(shù)據(jù)庫(kù) 和數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)采集,以及從第三方數(shù)據(jù)提供商采集。第三方數(shù)據(jù)提供商可提供不同 類型的數(shù)據(jù),例如人口統(tǒng)計(jì)數(shù)據(jù),生活方式數(shù)據(jù),客戶興趣等等。為了有效地操作,高級(jí)分析模型技術(shù)需要將數(shù)據(jù)以簡(jiǎn)單的形式填充至模型,例如, 稱為分析數(shù)據(jù)集的單表,該分析數(shù)據(jù)集包括位于指定時(shí)間所感興趣實(shí)體的展示。分析數(shù)據(jù) 集可視為虛擬數(shù)據(jù)表,其各行表示所指定的感興趣實(shí)體,而其各列由屬性(還被稱為分析 變量或注釋值)組成,用于描述不同的實(shí)體。分析記錄是用于描述該實(shí)體的屬性構(gòu)成的組。 分析數(shù)據(jù)集有時(shí)稱為虛擬展平文件。這類表格應(yīng)當(dāng)盡可能的完整以用于分析,并通常需要 比存儲(chǔ)于源數(shù)據(jù)庫(kù)中的原始數(shù)據(jù)屬性更為精細(xì)的數(shù)據(jù)屬性。屬性定義或表達(dá)式描述了指定 的屬性如何從用于分析記錄的操作數(shù)據(jù)中得出,并可能包括基本要素和/或計(jì)算表達(dá)式。 基本要素通常是基本的屬性,而計(jì)算表達(dá)式可包括屬性、聚集或其他功能。實(shí)體被定義為分析興趣的目標(biāo),并可包括,例如客戶、產(chǎn)品、商店等等。在客戶分析中,分析數(shù)據(jù)集有時(shí)表達(dá) 為客戶的‘360’度全景。客戶可由數(shù)以千計(jì)的屬性描述,這些屬性可從包含于客戶數(shù)據(jù)倉(cāng) 庫(kù)內(nèi)的原子數(shù)據(jù)計(jì)算出。有效的分析需要在指定時(shí)間為指定數(shù)量的客戶簡(jiǎn)單地重建這些屬 性。最近的數(shù)學(xué)發(fā)展以及最佳實(shí)踐方法的傳播使分析建模技術(shù)的自動(dòng)化程度得到提 高。然而,數(shù)學(xué)和統(tǒng)計(jì)引擎仍需要一種可重復(fù)和工業(yè)化的過(guò)程,以便創(chuàng)建用作其輸入的分析 數(shù)據(jù)集并始終保持這些數(shù)據(jù)集。美國(guó)專利US7047251描述了一種標(biāo)準(zhǔn)化的客戶應(yīng)用,以將客戶數(shù)據(jù)輸入分析模型 中。美國(guó)專利US7272617涉及對(duì)分析數(shù)據(jù)集的創(chuàng)建,以在客戶關(guān)系管理系統(tǒng)中建模。然而, 這些系統(tǒng)并不是以一種自動(dòng)化的方式運(yùn)行,也沒(méi)有描述用戶實(shí)體的屬性,這些屬性可能會(huì) 隨著時(shí)間而改變。
發(fā)明內(nèi)容
據(jù)此,本發(fā)明的一個(gè)目的就是提供一種改進(jìn)的方法,用于自動(dòng)生成分析數(shù)據(jù)集以 輸入分析模型中。一般來(lái)說(shuō),本發(fā)明旨在提供一種通過(guò)提供感興趣實(shí)體的標(biāo)記時(shí)間的集群和描述該 實(shí)體的分析記錄的交叉乘積,用于自動(dòng)生成輸入分析模型中的標(biāo)準(zhǔn)化數(shù)據(jù)集的方法和系統(tǒng)。依據(jù)本發(fā)明的第一方面,提供了一種從存儲(chǔ)在至少一個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)來(lái)生成用 于輸入分析模型的數(shù)據(jù)集的方法,該方法包括以下步驟定義包括多個(gè)元組的標(biāo)記時(shí)間的 集群,且每個(gè)元組包括用于分析的實(shí)體的實(shí)體標(biāo)識(shí)符,和至少一個(gè)與相應(yīng)的所述實(shí)體標(biāo)識(shí) 符相關(guān)的參考時(shí)間戳;以及通過(guò)為每個(gè)實(shí)體標(biāo)識(shí)符生成至少一個(gè)與時(shí)間有關(guān)的屬性值,從 在所述至少一個(gè)數(shù)據(jù)庫(kù)中與所述實(shí)體標(biāo)識(shí)符相關(guān)的數(shù)據(jù)中創(chuàng)建數(shù)據(jù)集,所述與時(shí)間有關(guān)的 屬性值或者每個(gè)與時(shí)間有關(guān)的屬性值都表示相應(yīng)實(shí)體標(biāo)識(shí)符的與時(shí)間有關(guān)的參數(shù),且根據(jù) 相應(yīng)的屬性定義而生成,其中,所述與時(shí)間有關(guān)的屬性值或者每個(gè)與時(shí)間有關(guān)的屬性值依 據(jù)相應(yīng)的參考時(shí)間戳而生成。以此方式,根據(jù)本發(fā)明的方法為分析模型提供了一種標(biāo)準(zhǔn)化的輸入。由于當(dāng)前高 級(jí)分析技術(shù)可用于非常高維度的空間中(一些技術(shù),例如,可自動(dòng)處理描述一實(shí)體的數(shù)以 千計(jì)的屬性),本發(fā)明的方法滿足了一種用于自動(dòng)創(chuàng)建非常寬的分析數(shù)據(jù)集的未實(shí)現(xiàn)的需 求,其以正式的方式管理與時(shí)間有關(guān)的屬性計(jì)算,只需最少量的編程知識(shí)以及人工介入。所提出的自動(dòng)方法(處理與時(shí)間有關(guān)的屬性),對(duì)于將數(shù)據(jù)挖掘工作集成在預(yù)先 安排的環(huán)境中是有利和有效的,并使得回溯測(cè)試設(shè)備的執(zhí)行無(wú)需特定編程,且對(duì)于數(shù)據(jù)挖 掘活動(dòng)的整體效率是非常重要的。該方法可包括下述預(yù)備步驟將實(shí)體定義為分析模型的分析目標(biāo);以及定義用于 描述該實(shí)體的分析記錄,該分析記錄包括至少一個(gè)由相應(yīng)的屬性定義來(lái)定義的與時(shí)間有關(guān) 的屬性。自然,分析記錄還可包括一個(gè)或多個(gè)與時(shí)間無(wú)關(guān)的屬性。本發(fā)明方法的實(shí)施例的特征可包括 該屬性定義或每個(gè)屬性定義以結(jié)構(gòu)化查詢語(yǔ)言表述,以便被數(shù)據(jù)庫(kù)管理系統(tǒng)執(zhí) 行;
標(biāo)記時(shí)間的集群由結(jié)構(gòu)化查詢語(yǔ)言定義,以便被數(shù)據(jù)庫(kù)管理系統(tǒng)執(zhí)行; 與時(shí)間有關(guān)的屬性定義或每個(gè)與時(shí)間有關(guān)的屬性定義包括至少一個(gè)在一個(gè)或 多個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)上執(zhí)行的數(shù)據(jù)操作,其中所述數(shù)據(jù)庫(kù)選自包括數(shù)據(jù)提取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù) 計(jì)算、數(shù)據(jù)聚集以及數(shù)據(jù)連接的組中; 定義一個(gè)或多個(gè)屬性組,且各個(gè)屬性組包括一個(gè)或多個(gè)具有相似特征的屬性集
合O本發(fā)明的第二個(gè)方面提供了一種使用分析模型來(lái)分析數(shù)據(jù)的方法,該方法包括 根據(jù)上述方法生成用于輸入分析模型的數(shù)據(jù)集;將數(shù)據(jù)集輸入分析模型,并根據(jù)分析模型 執(zhí)行數(shù)據(jù)分析。本發(fā)明的第三個(gè)方面提供了一種預(yù)測(cè)實(shí)體行為的方法,包括使用上述方法中的分 析模型來(lái)分析數(shù)據(jù)。本發(fā)明的第四個(gè)方面提供了一種訓(xùn)練、評(píng)價(jià)或回溯測(cè)試分析模型的方法,包括使 用上述方法中的分析模型來(lái)分析數(shù)據(jù)。根據(jù)本發(fā)明的方法可通過(guò)計(jì)算機(jī)執(zhí)行。它們也可以軟件形式在編程裝置上執(zhí)行。 它們還可單獨(dú)地以硬件或軟件方式執(zhí)行或以兩者結(jié)合的方式執(zhí)行。根據(jù)本發(fā)明的第五個(gè)方面,提供了一種用于從存儲(chǔ)在至少一個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)生 成數(shù)據(jù)集的系統(tǒng),其中,所述數(shù)據(jù)集用于輸入分析模型中,該系統(tǒng)包括輸入,用于接收來(lái)自一數(shù)據(jù)庫(kù)的數(shù)據(jù);處理器,用于定義包括多個(gè)元組的標(biāo)記時(shí)間的集群,且每個(gè)元組包括用于分析的 實(shí)體的實(shí)體標(biāo)識(shí)符,和至少一個(gè)與相應(yīng)的實(shí)體標(biāo)識(shí)符相關(guān)的參考時(shí)間戳;并用于通過(guò)為每 個(gè)實(shí)體標(biāo)識(shí)符生成至少一個(gè)與時(shí)間有關(guān)的屬性值,從在至少一個(gè)數(shù)據(jù)庫(kù)中與所述實(shí)體標(biāo)識(shí) 符相關(guān)的數(shù)據(jù)中創(chuàng)建數(shù)據(jù)集,每個(gè)屬性值都表示相應(yīng)實(shí)體標(biāo)識(shí)符的與時(shí)間有關(guān)的參數(shù),且 根據(jù)屬性定義而生成,其中,與時(shí)間有關(guān)的屬性值或者每個(gè)與時(shí)間有關(guān)的屬性值依據(jù)該相 應(yīng)時(shí)間戳而生成;以及,輸出,用于將數(shù)據(jù)集傳輸至分析模型。本發(fā)明的系統(tǒng)的實(shí)施例的特征可包括 處理器可操作,以便將實(shí)體定義為分析模型的分析目標(biāo);并定義用于描述實(shí)體 的分析記錄,該分析記錄包括至少一個(gè)由相應(yīng)的屬性定義來(lái)定義的與時(shí)間有關(guān)的屬性;以 及, 用戶界面,用于定義標(biāo)記時(shí)間的集群、分析記錄、或者至少一個(gè)組成分析記錄的屬性。由于本發(fā)明可以軟件形式執(zhí)行,本發(fā)明可具體化為計(jì)算機(jī)可讀代碼,裝載于任意 合適的載體媒介上,以供可編程裝置。一種有形的載體媒介可包括存儲(chǔ)媒介,例如軟盤, CD-ROM,硬盤驅(qū)動(dòng)器,磁帶裝置或固態(tài)存儲(chǔ)裝置等。一種瞬時(shí)載體媒介可包括信號(hào),例如電 信號(hào),電子信號(hào),光信號(hào),聲音信號(hào),磁信號(hào)或電磁信號(hào),例如微波或射頻(RF)信號(hào)。
現(xiàn)在,僅通過(guò)示例的方式和參考下述附圖,來(lái)描述
具體實(shí)施例方式圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例,用于自動(dòng)生成分析數(shù)據(jù)集的系統(tǒng)的示意圖2示出了存儲(chǔ)在圖1所示數(shù)據(jù)庫(kù)中的操作型數(shù)據(jù)表的集合;圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例用于自動(dòng)生成分析數(shù)據(jù)集而執(zhí)行的方法的各 個(gè)步驟的流程圖;圖4A示出了由圖1所示實(shí)施例所定義的標(biāo)記時(shí)間的集群的兩個(gè)示例性表格;圖4B示出了由圖1所示實(shí)施例所生成的分析數(shù)據(jù)集的兩個(gè)示例;圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例用于生成分析數(shù)據(jù)集的方法的示意圖;以及,圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例分析數(shù)據(jù)的方法的各步驟的流程圖。
具體實(shí)施例方式參考圖1至圖5,描述根據(jù)本發(fā)明方法的第一實(shí)施例。參考圖1,數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)10的多個(gè)數(shù)據(jù)表11_1、11_2.......ll_n中。數(shù)據(jù)
庫(kù)10可為任意數(shù)據(jù)存儲(chǔ)系統(tǒng),例如操作型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)。為了能夠從數(shù)據(jù)序列中提取 出有用的信息,通過(guò)使用數(shù)據(jù)庫(kù)查詢引擎15,從數(shù)據(jù)集生成處理器20接收指令并通過(guò)數(shù)據(jù) 集生成處理器20轉(zhuǎn)換成分析數(shù)據(jù)集25以輸入至分析模型中,相關(guān)數(shù)據(jù)從存儲(chǔ)在多個(gè)數(shù)據(jù)
表11_1、11_2.......ll_n中的數(shù)據(jù)中提取或得到??墒褂糜脩艚缑?2以輸入數(shù)據(jù)或定義
用于生成數(shù)據(jù)集的參數(shù)。圖2示出了數(shù)據(jù)表11_1、11_2、11_3、12_1的示例,從中可得到用于分析的相關(guān)數(shù) 據(jù)。表格11_1,表示為“Customersj”,包含有關(guān)將客戶描述為實(shí)體的描述數(shù)據(jù),并包括 3個(gè)客戶示例喬,約翰,以及蘇珊,分別具有實(shí)體標(biāo)識(shí)符Id234,145和456。每個(gè)客戶都 由姓名、家庭郵編、生日和性別這些數(shù)據(jù)屬性描述。表12_1包含人口統(tǒng)計(jì)數(shù)據(jù),其被稱為 “Geo-Demographics_T”,可從任意的第三方數(shù)據(jù)提供者(例如,Experian或Acxiom公司) 處采集,并包括這些屬性,例如位于指定郵編的家庭中出租房屋的比率,以及位于相應(yīng)郵編 的家庭中擁有至少一輛車的比率。應(yīng)當(dāng)理解的是,提供的這些示例僅為了說(shuō)明的目的,這種 表格中還可以包含其他類型的數(shù)據(jù)。表格11_2,被稱為“2007-Billings_T”,包括一些在 2007年為每個(gè)客戶預(yù)先聚集的賬單信息。該表格包括12列,各列對(duì)應(yīng)于一個(gè)月份,示出了 每個(gè)客戶各月到期金額。表格11_3,被稱為“Transacti0n_T”,包括交易數(shù)據(jù),各行表示在 指定日期客戶購(gòu)買的指定數(shù)量的產(chǎn)品的單筆交易。為了說(shuō)明性的示例,我們示出了 3個(gè)客 戶在2007年的頭三個(gè)月的交易情況。可以看出,表格11_2中的賬單信息與表格11_3的交 易相互關(guān)聯(lián)。參考圖3,根據(jù)本發(fā)明實(shí)施例的生成分析數(shù)據(jù)集的第一步Si,是要將興趣實(shí)體定 義為要由分析模型執(zhí)行的高級(jí)數(shù)據(jù)分析過(guò)程。在圖2示出的示例中,用戶可將“客戶”這一 概念具體指定為興趣實(shí)體。通過(guò)定義可在表11_1中找到‘客戶’的全部列表來(lái)完成這一指 定,其中‘CUStomer_T’使用屬性‘Id’。應(yīng)當(dāng)注意,合適地定義該實(shí)體可能較為復(fù)雜。例如, 零售銀行可能在一些分析應(yīng)用中考慮將其實(shí)體定義為‘家庭’,并在其他高級(jí)分析項(xiàng)目中, 可能考慮將其實(shí)體定義為“賬單所有者”。同一實(shí)體可被用于不同的分析項(xiàng)目。如圖3所示,根據(jù)本發(fā)明實(shí)施例的方法的下一步S2,是要定義分析記錄以描述興 趣實(shí)體。每個(gè)實(shí)體可與至少一個(gè)分析記錄相關(guān)。分析記錄由一列屬性定義,這些屬性根據(jù)各 自的屬性定義通過(guò)數(shù)據(jù)操縱表達(dá)式來(lái)提供,包括但并不限制于從數(shù)據(jù)表中直接提取屬性、 連接操作以得出含在表格中的信息、使用表達(dá)式編輯器、計(jì)算、轉(zhuǎn)換或復(fù)雜的聚集來(lái)創(chuàng)建新變量。在分析記錄中的格式操作可由SQL來(lái)表達(dá),通過(guò)數(shù)據(jù)庫(kù)查詢引擎15執(zhí)行,以從圖1 所示的數(shù)據(jù)庫(kù)10中獲取數(shù)據(jù)。SQL是一種本領(lǐng)域公知的標(biāo)準(zhǔn)的交互式編程語(yǔ)言,用于查詢 和修改數(shù)據(jù)以及管理數(shù)據(jù)庫(kù),因此,為了理解本發(fā)明,不需對(duì)該技術(shù)作進(jìn)一步的解釋。格式 操作的表達(dá)式可是指分析記錄的在前屬性,是指一種稱為“參考時(shí)間戳(reference time stamp) ”的變量,其在下文中稱為RTS,或是指用戶自定義的提示,其在分析數(shù)據(jù)集創(chuàng)建時(shí) 可變?yōu)閷傩灾怠T趫D2示出的示例中,用戶可能會(huì)決定在與‘客戶’實(shí)體相關(guān)的分析記錄 中放置表11_1 ‘Customersj’中所含的屬性。這時(shí),屬性‘性別’可以被認(rèn)為是在預(yù)測(cè)性 的分析建模中使用的有價(jià)值的信息,屬性‘生日’可能會(huì)被‘年齡’這一概念替代。為達(dá)此 目標(biāo),用戶可編輯分析記錄的定義,使‘生日’不可見(jiàn)并使用表達(dá)式編輯器添加算出的列以 增加一個(gè)新的稱為年齡的變量,例如,可根據(jù)屬性定義或表達(dá)式《convert (RTS-BirthDate) in years》得出。用戶還可決定將“郵編”屬性作為連接鍵值來(lái)連接所有的包含在表 12_1 “Geo-Demographics_T”中的地理-人口統(tǒng)計(jì)數(shù)據(jù)。用戶可能會(huì)希望加入一個(gè)新的屬性,用于描述一個(gè)客戶位于指定日期的上個(gè)月 開(kāi)銷數(shù)量,其被稱為該日期前的PM_Billing。為此,可基于用戶標(biāo)識(shí)符(“Id”)把包 含在表11_2 “2007_Billings_T”中的數(shù)據(jù)與一等價(jià)的包含2006年的數(shù)據(jù)的表“2006_ Billings_T”連接在一起,并在切換語(yǔ)句后加入表達(dá)式以定義該屬性,例如《switch on (RTS), when [month (RTS) = 01 and year (RTS) = 2007], return 2006_Billings_ Τ. M12, when[month (RTS) = 02 and year (RTS) = 2007], return 2007_Billings_T. MO1, when[month (RTS) = 03 and year (RTS) = 2007], return 2007_Billings_T. M02, · · ·》。 用戶還可決定通過(guò)為每件產(chǎn)品基于發(fā)生在兩個(gè)在前月的購(gòu)買量計(jì)算一些總和來(lái)定義一 屬性。在在前月期間對(duì)產(chǎn)品A的購(gòu)買量可被稱為“PM_ProdUCtA”并可能,例如,表達(dá)為 《count_filtered_£iggreg£ite(“Tr£ms£ictions_T,“T· Id","Id","Date",RTS-I month,RTS, "Product", ‘A,)》,其可被翻譯為當(dāng)連接列 “Customers_T. Id” 和 “Transactions_T. Id” 時(shí),計(jì)算出包含在“Transactions^”表中的交易量,其中交易的“日期(Date)”必須介于 RTS-I月以及TRS之間,僅保留屬性“產(chǎn)品(Product)”等于“A”的交易。所得出的分析數(shù)據(jù)集將包含至少一個(gè)與時(shí)間有關(guān)的屬性。在當(dāng)前示例中,有四個(gè) 屬性與時(shí)間有關(guān)年齡(Age),PM_Billing,PM_Product_A 和 PM_Product_B??梢岳斫獾氖牵鶕?jù)本發(fā)明的方法并不限制于特定的用于定義屬性的語(yǔ)言表達(dá) 式;這些表達(dá)式可由SQL生成,或由圖形化的用戶界面提供。還可以理解的是,根據(jù)本發(fā)明 的方法并不限制于特定的數(shù)據(jù)操作。根據(jù)本發(fā)明的方法的概念是至少一個(gè)用于定義屬性的 數(shù)據(jù)操作涉及一個(gè)在與時(shí)間有關(guān)的表達(dá)式中使用的特定的日期值,以生成所期望的與時(shí)間 有關(guān)的屬性。分析記錄的屬性可能會(huì)或可能不會(huì)被分組為同種屬性,有時(shí)將其稱為‘域 (Domains)’。域是一組具有相似特征的屬性,這些特征描述了實(shí)體的同種分塊。例如,描述 客戶的分析記錄可具有人口統(tǒng)計(jì)域或者行為域。同樣,可為由分析模型生成的數(shù)據(jù)創(chuàng)建域, 例如,評(píng)價(jià)和部分域。本方法開(kāi)始的兩個(gè)步驟(S1&M)可簡(jiǎn)單地使用表達(dá)式編輯器或一些編程語(yǔ)言技 術(shù)來(lái)實(shí)現(xiàn)。然而,應(yīng)當(dāng)理解的是,根據(jù)本發(fā)明的方法在運(yùn)行時(shí),并不是每次都需要執(zhí)行步驟 Sl和S2。分析項(xiàng)目第一次處理特定實(shí)體時(shí),用戶定義此實(shí)體以及相關(guān)的分析記錄。接著,對(duì)同一實(shí)體執(zhí)行的項(xiàng)目可重新利用已經(jīng)定義的分析記錄??蛇x地,關(guān)注于非常不同的域的 多個(gè)分析記錄可與一個(gè)實(shí)體相關(guān)。參考圖3,該過(guò)程中的第三步(S3)是要定義標(biāo)記時(shí)間的集群。定義標(biāo)記時(shí)間的集 群可視作數(shù)據(jù)操作技術(shù),其生成至少具有兩列的表格第一列包括所感興趣實(shí)體標(biāo)識(shí)符的 值的列表,而第二列包括與每個(gè)實(shí)體標(biāo)識(shí)符相關(guān)的時(shí)間戳的值,用戶希望將其用作此實(shí)體 的參考時(shí)間戳。因此,每行的標(biāo)記時(shí)間的集群包括實(shí)體標(biāo)識(shí)符的數(shù)據(jù)組或元組以及至少一 個(gè)參考時(shí)間戳。例如,如圖4A(i)所示,用戶可從圖2示出的數(shù)據(jù)中索取“2007年2月1日 的男性”的標(biāo)記時(shí)間的集群。用戶可使用標(biāo)記時(shí)間的集群的編輯器界面,以便為指定實(shí)體生 成興趣集群標(biāo)識(shí)符的列表,以及他希望用來(lái)計(jì)算分析記錄的與時(shí)間有關(guān)的屬性值的相關(guān)時(shí) 間戳。在提供的示例中,用戶已決定過(guò)濾僅包含男性(Sex = iM')的集群,并計(jì)算用作參考 時(shí)間戳“2007年2月1日”的分析記錄的所有與時(shí)間有關(guān)的屬性。如圖4A(ii)所示,僅為 解釋的目的而提出的,標(biāo)記時(shí)間的集群的另一示例包括所有與“2007年3月1日”這一時(shí)間 戳有關(guān)的客戶(男性和女性)。定義標(biāo)記時(shí)間的集群是為不同的時(shí)間參考的期望集群而重 新生成期望屬性值所需的唯一操作。無(wú)需重新定義該分析記錄。圖4A中示出了這些標(biāo)記時(shí) 間的集群的兩個(gè)示例。從過(guò)濾期望實(shí)體的列表、從對(duì)先前存在的時(shí)間戳集群的組合例如聯(lián) 合、交叉以及差異;或者,從選擇的日期列表和實(shí)體標(biāo)識(shí)符課表的笛卡爾乘積,通過(guò)用戶界 面22提供的圖形化編輯器可提供對(duì)時(shí)間戳集群的簡(jiǎn)單創(chuàng)建。時(shí)間戳屬性的定義可使用,例 如,提示系統(tǒng),其可以索取一值用于僅在運(yùn)行時(shí)刻填充列,或者可自動(dòng)地插入當(dāng)前日期。時(shí) 間戳可用于計(jì)算屬性值或者查找包含在依賴于時(shí)間的特定列中的值。應(yīng)當(dāng)理解的是,在本發(fā)明的一些實(shí)施例中,實(shí)體標(biāo)識(shí)符可具有多于一個(gè)的參考時(shí) 間戳,或者不同的實(shí)體標(biāo)識(shí)符可與不同的時(shí)間戳關(guān)聯(lián)。在單個(gè)標(biāo)記時(shí)間的集群中,指定的實(shí) 體可表示在不同的時(shí)間戳處。第四步(S4)是要生成分析數(shù)據(jù)集。當(dāng)為同一實(shí)體提供有指定分析記錄以及相應(yīng) 標(biāo)記時(shí)間的集群時(shí),此步驟完全是自動(dòng)進(jìn)行的。在本發(fā)明的這一實(shí)施例中,該步驟通過(guò)由數(shù) 據(jù)集生成處理器25生成SQL語(yǔ)句來(lái)實(shí)現(xiàn)。由數(shù)據(jù)庫(kù)查詢引擎15執(zhí)行該SQL語(yǔ)句,從而從 數(shù)據(jù)庫(kù)10中檢索數(shù)據(jù),以便把分析數(shù)據(jù)集填入單元中,并創(chuàng)建包含至少一個(gè)基于標(biāo)記時(shí)間 的集群的RTS的屬性值的分析數(shù)據(jù)集。如圖5所示,得到的分析數(shù)據(jù)集35可視為標(biāo)記時(shí)間的集群31與分析記錄32的交 叉乘積,其中,標(biāo)記時(shí)間的集群31包括實(shí)體標(biāo)識(shí)符列311與時(shí)間參考列312,而分析記錄32 包括屬性列,其分組為三個(gè)域域1,域2以及域3。由數(shù)據(jù)庫(kù)查詢引擎15執(zhí)行的SQL語(yǔ)句可提供為非常復(fù)雜的“選擇(select) ”語(yǔ)句, 其返回一易變的結(jié)果集合,并僅在查詢時(shí)可用,或者可執(zhí)行所得到的選擇語(yǔ)句,以便根據(jù)用 戶的選擇創(chuàng)建數(shù)據(jù)集。在圖4B示出的得到的分析表中,客戶145的情況示出了,在第一個(gè) 得到的分析數(shù)據(jù)集(圖4B(i))中,他的年齡,其為與時(shí)間有關(guān)的屬性,在2007年2月是沈 歲,并且在第二個(gè)得到的分析數(shù)據(jù)集(圖4B (ii))中,他的年齡,在2007年3月是27歲,這 是因?yàn)樗纳帐窃?月,并且屬性值隨時(shí)間而變。根據(jù)本發(fā)明的系統(tǒng)可以微處理器內(nèi)部的硬件形式實(shí)現(xiàn),或以微處理器執(zhí)行的軟件 媒介上的軟件或非易失性存儲(chǔ)器中的可編程組件的形式實(shí)現(xiàn)。根據(jù)本發(fā)明該實(shí)施例的方法提供了這一優(yōu)點(diǎn)無(wú)需每次當(dāng)用于分析的時(shí)間因子改變時(shí)都重新定義分析記錄。通過(guò)簡(jiǎn)單地改變標(biāo)記時(shí)間的集群中的參考時(shí)間戳,可生成適于 新的期望時(shí)間參考的新的數(shù)據(jù)集。因此,本發(fā)明提供以格式化和高自動(dòng)化的方式對(duì)時(shí)間參 考屬性的管理,并具有最少量的人工介入。結(jié)果,生成數(shù)據(jù)集的時(shí)間消耗以及花費(fèi)更少。用 于分析或預(yù)測(cè)實(shí)體行為的分析模型可更有效地保持、重訓(xùn)練以及回溯測(cè)試。根據(jù)本發(fā)明實(shí)施例的方法可用于很多分析應(yīng)用中,例如實(shí)體行為分析、預(yù)測(cè)建模 或?qū)Ψ治瞿P偷挠?xùn)練、評(píng)價(jià)、重訓(xùn)練以及回溯測(cè)試等等。例如,該方法可用于為客戶分類的 客戶分析中,即將具有相似特征的客戶分組,然后使用這些分組創(chuàng)建目標(biāo)客戶列表以從事 特定活動(dòng)。圖6示出了描述分析數(shù)據(jù)的方法的各步驟的流程圖,如上文所述,該方法包括執(zhí) 行生成用于輸入分析模型的數(shù)據(jù)集的方法。步驟Sll至S14的執(zhí)行方式與圖3的步驟Sl 至S4相似。在步驟S15中,生成的分析數(shù)據(jù)集輸入至分析模型中,在步驟S16中,檢索從分 析模型中輸出的相關(guān)信息。根據(jù)本發(fā)明方法的潛在應(yīng)用是用于使高級(jí)分析模型自動(dòng)地按照預(yù)定計(jì)劃的方式 升級(jí),使用最新版本的數(shù)據(jù)來(lái)執(zhí)行模型重訓(xùn)練,或簡(jiǎn)單地將高級(jí)分析模型(有時(shí)稱為“評(píng)價(jià) (scoring) ”)應(yīng)用于最新的興趣實(shí)體視圖。例如,電信運(yùn)營(yíng)機(jī)構(gòu)可能會(huì)對(duì)所有的后付費(fèi)客戶 進(jìn)行評(píng)價(jià)感興趣,以便得出哪些客戶更傾向于離開(kāi)并更換至其競(jìng)爭(zhēng)機(jī)構(gòu),并為那些值得保 留的客戶配置保留計(jì)劃。為此,該運(yùn)營(yíng)機(jī)構(gòu)每個(gè)月都需要為其整個(gè)客戶庫(kù)進(jìn)行評(píng)價(jià)??赡?發(fā)生的是,用于評(píng)級(jí)的預(yù)測(cè)分析模型,作為一個(gè)關(guān)鍵的影響因素,將使用一些行為數(shù)據(jù)(例 如上個(gè)月給出的電話數(shù)量)。為了使分析變得完全自動(dòng)化,生成數(shù)據(jù)集的過(guò)程也應(yīng)當(dāng)自動(dòng) 化,該數(shù)據(jù)集匯編了所有后付費(fèi)客戶及其所有屬性值的信息。本發(fā)明提供了一種自動(dòng)收集 與時(shí)間有關(guān)的屬性的最新值的正式方法。本發(fā)明方法的另一潛在應(yīng)用是用于回溯測(cè)試模型中。例如,在上述示例中,電信運(yùn) 營(yíng)機(jī)構(gòu)商業(yè)上的所有者可決定請(qǐng)求分析團(tuán)隊(duì)在過(guò)去的數(shù)據(jù)上測(cè)試高級(jí)分析模型,以便得到 如果已在過(guò)去的6個(gè)月中使用該系統(tǒng)檢測(cè)潛在的離開(kāi)客戶,該系統(tǒng)將如何執(zhí)行。此時(shí),該高 級(jí)分析模型可用于匯編了描述客戶在其6個(gè)月前、5個(gè)月前等時(shí)刻的屬性值的數(shù)據(jù)集。本發(fā) 明提供了一種簡(jiǎn)單地重建分析數(shù)據(jù)集的方法,該分析數(shù)據(jù)集匯編了后付費(fèi)客戶當(dāng)其在指定 日期在該系統(tǒng)中可知的信息。進(jìn)一步的潛在應(yīng)用是當(dāng)提出的高級(jí)分析模型需要更多的數(shù)據(jù),以便獲取比單一時(shí) 間段提供的數(shù)據(jù)穩(wěn)固的結(jié)果時(shí)。在電信運(yùn)營(yíng)機(jī)構(gòu)周圍更早發(fā)展的例子中,讓我們假定其商 業(yè)上的所有者希望擁有一種專用的模型,以對(duì)客戶實(shí)現(xiàn)特定分組,例如(“5星”表示非常 有價(jià)值的客戶)。為了確保趨于離去并加入其競(jìng)爭(zhēng)者的潛在“5星”客戶的數(shù)量被正確地檢 測(cè),他可能希望擁有為此分組而開(kāi)發(fā)的特有模型。若在這一分組的人數(shù)非常少,對(duì)于任何建 模技術(shù)來(lái)說(shuō),找到任一穩(wěn)固的統(tǒng)計(jì)定律都是非常困難的??朔@一限制的方法是匯編一訓(xùn) 練數(shù)據(jù)集,該數(shù)據(jù)集將連結(jié)“5星”客戶的“快照”,不僅僅是上個(gè)月的,還包括前幾個(gè)月的 在這種情況下,訓(xùn)練數(shù)據(jù)集可包括指定客戶在不同日期的屬性值。本發(fā)明提供了一種正式 的過(guò)程,用于得出指定興趣實(shí)體在指定時(shí)間的屬性值(以匯編在其生命周期不同階段的單 一實(shí)體的多個(gè)版本)。雖然本文參考特定實(shí)施例描述了本發(fā)明,但是本發(fā)明并不限制于該特定實(shí)施例, 對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),一些改變都是顯而易見(jiàn)的,并且這些改變均屬于本發(fā)明的范圍。
權(quán)利要求
1.一種從存儲(chǔ)在至少一個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)生成用于輸入分析模型的數(shù)據(jù)集的方法,該 方法包括下述步驟定義包括多個(gè)元組的標(biāo)記時(shí)間的集群且其中各個(gè)元組包括用于分析的實(shí)體的實(shí)體標(biāo) 識(shí)符,和至少一個(gè)與相應(yīng)的所述實(shí)體標(biāo)識(shí)符相關(guān)的參考時(shí)間戳;以及通過(guò)為每個(gè)實(shí)體標(biāo)識(shí)符生成至少一個(gè)與時(shí)間有關(guān)的屬性值,從在所述至少一個(gè)數(shù)據(jù) 庫(kù)中與所述實(shí)體標(biāo)識(shí)符相關(guān)的數(shù)據(jù)中創(chuàng)建數(shù)據(jù)集,所述與時(shí)間有關(guān)的屬性值或者每個(gè)與時(shí) 間有關(guān)的屬性值都表示相應(yīng)實(shí)體標(biāo)識(shí)符的與時(shí)間有關(guān)的參數(shù),且根據(jù)相應(yīng)的屬性定義而生 成,其中,所述與時(shí)間有關(guān)的屬性值或者每個(gè)與時(shí)間有關(guān)的屬性值依據(jù)相應(yīng)的參考時(shí)間戳 或每個(gè)相應(yīng)的參考時(shí)間戳而生成。
2.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括以下預(yù)備步驟將所述實(shí)體定義為所述分析模型的分析目標(biāo);以及定義用于描述所述實(shí)體的分析記錄,所述分析記錄包括至少一個(gè)由相應(yīng)的所述屬性定 義來(lái)定義的與時(shí)間有關(guān)的屬性。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述屬性定義或每個(gè)屬性定義以結(jié)構(gòu) 化查詢語(yǔ)言表述,以便被數(shù)據(jù)庫(kù)管理系統(tǒng)執(zhí)行。
4.根據(jù)上述任一權(quán)利要求所述的方法,其特征在于,所述標(biāo)記時(shí)間的集群由結(jié)構(gòu)化查 詢語(yǔ)言定義,以便數(shù)據(jù)庫(kù)管理系統(tǒng)執(zhí)行。
5.根據(jù)上述任一權(quán)利要求所述的方法,其特征在于,與時(shí)間有關(guān)的屬性定義或每個(gè)與 時(shí)間有關(guān)的屬性定義包括至少一個(gè)在一個(gè)或多個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)上執(zhí)行的數(shù)據(jù)操作,其中所 述數(shù)據(jù)庫(kù)選自包括數(shù)據(jù)提取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)計(jì)算、數(shù)據(jù)聚集以及數(shù)據(jù)連接的組中。
6.根據(jù)上述任一權(quán)利要求所述的方法,進(jìn)一步包括定義一個(gè)或多個(gè)屬性組,其中每個(gè) 屬性組包括一個(gè)或多個(gè)具有相似特征的屬性集合。
7.一種使用分析模型來(lái)分析數(shù)據(jù)的方法,該方法包括根據(jù)上述任一權(quán)利要求所述的方法生成用于輸入分析模型的數(shù)據(jù)集;將所述數(shù)據(jù)集輸入所述分析模型;以及根據(jù)所述分析模型執(zhí)行數(shù)據(jù)分析。
8.一種預(yù)測(cè)實(shí)體行為的方法,包括使用根據(jù)權(quán)利要求7所述方法中的分析模型來(lái)分析 數(shù)據(jù)。
9.一種訓(xùn)練、評(píng)價(jià)或回溯測(cè)試分析模型的方法,包括使用根據(jù)權(quán)利要求7所述方法中 的分析模型來(lái)分析數(shù)據(jù)。
10.一種用于從存儲(chǔ)在至少一個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)生成數(shù)據(jù)集的系統(tǒng),其中,所述數(shù)據(jù)集 用于輸入分析模型中,該系統(tǒng)包括輸入,用于接收來(lái)自數(shù)據(jù)庫(kù)的數(shù)據(jù);處理器,用于定義包括多個(gè)元組的標(biāo)記時(shí)間的集群,且每個(gè)元組包括用于分析的實(shí)體 的實(shí)體標(biāo)識(shí)符,和至少一個(gè)與相應(yīng)的所述實(shí)體標(biāo)識(shí)符相關(guān)的參考時(shí)間戳;并用于通過(guò)為每 個(gè)實(shí)體標(biāo)識(shí)符生成至少一個(gè)與時(shí)間有關(guān)的屬性值,從在至少一個(gè)數(shù)據(jù)庫(kù)中與所述實(shí)體標(biāo)識(shí) 符相關(guān)的數(shù)據(jù)中創(chuàng)建數(shù)據(jù)集,每個(gè)屬性值都表示相應(yīng)實(shí)體標(biāo)識(shí)符的與時(shí)間有關(guān)的參數(shù),且 根據(jù)屬性定義而生成,其中,所述與時(shí)間有關(guān)的屬性值或者每個(gè)與時(shí)間有關(guān)的屬性值依據(jù) 相應(yīng)時(shí)間戳而生成;以及輸出,用于將所述數(shù)據(jù)集傳輸至所述分析模型。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述處理器可操作,以便將所述實(shí)體定 義為所述分析模型的分析目標(biāo);并定義用于描述所述實(shí)體的分析記錄,所述分析記錄包括 至少一個(gè)由相應(yīng)的屬性定義來(lái)定義的與時(shí)間有關(guān)的屬性。
12.根據(jù)權(quán)利要求10或11所述的系統(tǒng),進(jìn)一步包括用戶界面,用于定義標(biāo)記時(shí)間的集 群、分析記錄或者至少一個(gè)組成所述分析記錄的屬性。
13.一種計(jì)算機(jī)可讀媒介,其具有計(jì)算機(jī)可執(zhí)行指令,以便計(jì)算機(jī)系統(tǒng)能夠執(zhí)行根據(jù)權(quán) 利要求1至9任一所述的方法。
全文摘要
一種從存儲(chǔ)于至少一個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)生成用于輸入分析模型的數(shù)據(jù)集的方法和系統(tǒng)。該方法包括下述步驟定義包括多個(gè)元組的標(biāo)記時(shí)間的集群,且每個(gè)元組包括用于分析的實(shí)體的實(shí)體標(biāo)識(shí)符,和至少一個(gè)與相應(yīng)的實(shí)體標(biāo)識(shí)符相關(guān)的參考時(shí)間戳;并通過(guò)生成至少一個(gè)與時(shí)間有關(guān)的屬性值來(lái)創(chuàng)建數(shù)據(jù)集,與時(shí)間有關(guān)的屬性值表示相應(yīng)實(shí)體標(biāo)識(shí)符的與時(shí)間有關(guān)的參數(shù)并依據(jù)相應(yīng)的屬性定義來(lái)生成,其中與時(shí)間有關(guān)的屬性值或者每個(gè)與時(shí)間有關(guān)的屬性值根據(jù)相應(yīng)的時(shí)間戳而生成。預(yù)備步驟用于將實(shí)體定義為分析模型的分析目標(biāo)以及定義用于描述該實(shí)體的分析記錄,該分析記錄包括至少一個(gè)由相應(yīng)的屬性定義而定義的與時(shí)間有關(guān)的屬性。
文檔編號(hào)G06F17/30GK102089759SQ200880130317
公開(kāi)日2011年6月8日 申請(qǐng)日期2008年7月9日 優(yōu)先權(quán)日2008年7月9日
發(fā)明者埃里克·馬卡德 申請(qǐng)人:凱森公司