數(shù)據(jù)庫分析裝置和數(shù)據(jù)庫分析方法
【專利摘要】本發(fā)明提供數(shù)據(jù)庫分析裝置和數(shù)據(jù)庫分析方法。提供完整地分析數(shù)據(jù)庫而根據(jù)表欄單位的特征對該數(shù)據(jù)庫的數(shù)據(jù)群進行分類所得的數(shù)據(jù)模式。所述數(shù)據(jù)庫分析裝置具備:數(shù)據(jù)整理部,其根據(jù)表欄的數(shù)據(jù)值整理從分析對象的數(shù)據(jù)庫中取得的數(shù)據(jù)群,作為分析對象數(shù)據(jù)存儲在存儲部中;數(shù)據(jù)模式生成處理部,其根據(jù)數(shù)據(jù)值的差異,對每個數(shù)據(jù)值生成組,將匯總組所得的數(shù)據(jù)模式存儲在存儲部中;數(shù)據(jù)模式判定處理部,其判定數(shù)據(jù)模式的妥當性;數(shù)據(jù)模式變形處理部,其在妥當性的判定中得到了否定結(jié)果的情況下,針對包含在數(shù)據(jù)模式中的各組的構(gòu)成要素,依照將概念上類似的構(gòu)成要素變換為相同的構(gòu)成要素那樣的預定的變換規(guī)則,對各組進行變形而重構(gòu)并存儲在存儲部中。
【專利說明】數(shù)據(jù)庫分析裝置和數(shù)據(jù)庫分析方法
【技術領域】
[0001]本發(fā)明涉及一種數(shù)據(jù)庫分析裝置和數(shù)據(jù)庫分析方法,適合于應用于對保存在數(shù)據(jù)庫中的數(shù)據(jù)群進行分析的數(shù)據(jù)庫分析裝置和數(shù)據(jù)庫分析方法。
【背景技術】
[0002]近年來,保存大量的數(shù)據(jù)的數(shù)據(jù)庫的利用正在變得活躍,在數(shù)據(jù)庫的開發(fā)中,必須對在數(shù)據(jù)庫內(nèi)分配的資源的大小等與數(shù)據(jù)庫有關的各種參數(shù)進行調(diào)整(數(shù)據(jù)庫的調(diào)整)。為了適當?shù)剡M行數(shù)據(jù)庫的調(diào)整,一般有以下的方法,即進行用虛擬的測試數(shù)據(jù)對數(shù)據(jù)庫施加負荷的測試,來評價數(shù)據(jù)庫的狀況。
[0003]在生成這樣的測試數(shù)據(jù)時,可以使用市場銷售的測試數(shù)據(jù)生成工具,但必須由用戶對數(shù)據(jù)值的范圍、出現(xiàn)頻度等設定所生成的數(shù)據(jù)的特性。為此,可靠地掌握在分析對象的數(shù)據(jù)庫中存儲有具有怎樣的特征的數(shù)據(jù)是重要的。
[0004]例如在專利文獻I中,記載有以下的測試數(shù)據(jù)生成裝置,其根據(jù)存儲在現(xiàn)存的數(shù)據(jù)庫中的數(shù)據(jù)生成虛擬的測試數(shù)據(jù)。專利文獻I所記載的測試數(shù)據(jù)生成裝置根據(jù)存儲在實際正在運轉(zhuǎn)的現(xiàn)存的數(shù)據(jù)庫中的數(shù)據(jù)計算數(shù)據(jù)的特征,靈活運用計算出的特征而生成開發(fā)對象的數(shù)據(jù)庫所需要的測試數(shù)據(jù),由此能夠生成適合于實際情況的虛擬的測試數(shù)據(jù)。
[0005]專利文獻1:日本特開2001-256076號公報
【發(fā)明內(nèi)容】
[0006]但是,在專利文獻I所記載的測試數(shù)據(jù)生成裝置中,針對成為分析對象的數(shù)據(jù)群,著眼于數(shù)據(jù)的表欄之間的特征而取得數(shù)據(jù)的特征,但無法取得表欄單位的數(shù)據(jù)的特征,因此存在難以根據(jù)表欄單位的特征生成保證完整性的適量的測試數(shù)據(jù)的問題。
[0007]以下,列舉具體例子進行說明。例如考慮以下的情況,即如果在某數(shù)據(jù)庫內(nèi)的數(shù)據(jù)群中,將數(shù)據(jù)欄的數(shù)據(jù)分為“空值”、“半角字符串”、“全角字符串”3種數(shù)據(jù)群,則針對處理上述3種信息的情況分別生成測試數(shù)據(jù)來實施測試,由此能夠保證對數(shù)據(jù)庫的測試的完整性。但是,在專利文獻I所記載的測試數(shù)據(jù)生成裝置的情況下,無法按照表欄單位取得數(shù)據(jù)的特征,因此必須選擇以下的方法,即根據(jù)由測試數(shù)據(jù)生成裝置生成的全部測試數(shù)據(jù)實施測試、還是根據(jù)從由測試數(shù)據(jù)生成裝置生成的全部測試數(shù)據(jù)中隨機地選擇出的數(shù)據(jù)實施測試。這時,在使用全部測試數(shù)據(jù)的情況下,為了確保測試的完整性,有可能使用本來需要的測試量以上的測試數(shù)據(jù),在測試費用和測試時間效率方面存在問題。另外,在使用隨機地選擇出的數(shù)據(jù)的情況下,存在無法保證完整性的問題。即,在專利文獻I所記載的測試數(shù)據(jù)生成裝置中,難以根據(jù)數(shù)據(jù)欄單位的特征生成適當?shù)臏y試數(shù)據(jù)。
[0008]本發(fā)明就是考慮到以上的點而提出的,提出一種數(shù)據(jù)庫分析裝置和數(shù)據(jù)庫分析方法,其完整地對數(shù)據(jù)庫進行分析,能夠提供根據(jù)表欄單位的特征對該數(shù)據(jù)庫的數(shù)據(jù)群進行分類所得的數(shù)據(jù)模式。
[0009]為了解決上述問題,在本發(fā)明中,提供一種數(shù)據(jù)庫分析裝置,著眼于存儲在分析對象的數(shù)據(jù)庫中的數(shù)據(jù)群的數(shù)據(jù)內(nèi)的指定的表欄來分析上述數(shù)據(jù)群,該數(shù)據(jù)庫分析裝置具備:存儲部,其存儲數(shù)據(jù);數(shù)據(jù)整理部,其根據(jù)上述表欄的數(shù)據(jù)值對從上述分析對象的數(shù)據(jù)庫中取得的數(shù)據(jù)群進行整理,作為分析對象數(shù)據(jù)存儲在上述存儲部中;數(shù)據(jù)模式生成處理部,其根據(jù)上述分析對象數(shù)據(jù)中的數(shù)據(jù)值的差異,對每個上述數(shù)據(jù)值生成組,將匯總上述組所得的數(shù)據(jù)模式存儲在上述存儲部中;數(shù)據(jù)模式判定處理部,其根據(jù)第一判定基準判定存儲在上述存儲部中的數(shù)據(jù)模式的妥當性;數(shù)據(jù)模式變形處理部,其當在上述數(shù)據(jù)模式判定處理部進行的妥當性的判定中得到了否定結(jié)果時,對上述數(shù)據(jù)模式進行變形而重構(gòu),將重構(gòu)后的上述數(shù)據(jù)模式存儲在上述存儲部中,其中,上述數(shù)據(jù)模式變形處理部針對包含在上述數(shù)據(jù)模式中的各組的構(gòu)成要素,依照將概念上類似的構(gòu)成要素變換為相同的構(gòu)成要素那樣的預定的變換規(guī)則,對上述各組進行變形而重構(gòu)上述數(shù)據(jù)模式。
[0010]另外,為了解決上述問題,在本發(fā)明中,提供一種數(shù)據(jù)庫分析方法,在著眼于存儲在分析對象的數(shù)據(jù)庫中的數(shù)據(jù)群的數(shù)據(jù)內(nèi)的指定的表欄來分析上述數(shù)據(jù)群的數(shù)據(jù)庫分析裝置的數(shù)據(jù)庫分析方法中,上述數(shù)據(jù)分析裝置具備存儲數(shù)據(jù)的存儲部,包括:上述數(shù)據(jù)分析裝置根據(jù)上述表欄的數(shù)據(jù)值對從上述分析對象的數(shù)據(jù)庫中取得的數(shù)據(jù)群進行整理,作為分析對象數(shù)據(jù)存儲在上述存儲部中的數(shù)據(jù)整理步驟;上述數(shù)據(jù)分析裝置根據(jù)上述分析對象數(shù)據(jù)中的數(shù)據(jù)值的差異,對每個上述數(shù)據(jù)值生成組,將匯總上述組所得的數(shù)據(jù)模式存儲在上述存儲部中的數(shù)據(jù)模式生成處理步驟;上述數(shù)據(jù)分析裝置根據(jù)第一判定基準判定存儲在上述存儲部中的數(shù)據(jù)模式的妥當性的數(shù)據(jù)模式判定步驟;上述數(shù)據(jù)分析裝置當在上述數(shù)據(jù)模式判定處理部進行的妥當性的判定中得到了否定結(jié)果時,針對包含在上述數(shù)據(jù)模式中的各組的構(gòu)成要素,依照將概念上類似的構(gòu)成要素變換為相同的構(gòu)成要素那樣的預定的變換規(guī)貝1J,對上述各組進行變形而重構(gòu)上述數(shù)據(jù)模式,將重構(gòu)后的上述數(shù)據(jù)模式存儲在上述存儲部中的數(shù)據(jù)模式重構(gòu)步驟。
[0011]根據(jù)本發(fā)明,能夠提供一種完整地分析數(shù)據(jù)庫并根據(jù)表欄單位的特征對該數(shù)據(jù)庫的數(shù)據(jù)群進行分類所得的數(shù)據(jù)模式。
【專利附圖】
【附圖說明】
[0012]圖1是表示第一實施方式的數(shù)據(jù)庫分析裝置的結(jié)構(gòu)例子的框圖。
[0013]圖2是表示分析數(shù)據(jù)庫的數(shù)據(jù)群的數(shù)據(jù)庫分析的處理步驟的流程圖。
[0014]圖3是用于說明分析對象數(shù)據(jù)的概要圖。
[0015]圖4是用于說明生成初始數(shù)據(jù)模式的處理的概要圖(之一)。
[0016]圖5是用于說明生成初始數(shù)據(jù)模式的處理的概要圖(之二)。
[0017]圖6是用于說明生成初始數(shù)據(jù)模式的處理的概要圖(之三)。
[0018]圖7是表示數(shù)據(jù)模式評價基準的一個例子的表。
[0019]圖8是用于說明評價數(shù)據(jù)模式的妥當性的處理的概要圖。
[0020]圖9是表示數(shù)據(jù)模式變形規(guī)則的一個例子的表。
[0021]圖10是用于說明對數(shù)據(jù)模式進行變形的處理的概要圖(之一)。
[0022]圖11是用于說明對數(shù)據(jù)模式進行變形的處理的概要圖(之二)。
[0023]圖12是用于說明對數(shù)據(jù)模式進行變形的處理的概要圖(之三)。
[0024]圖13是用于說明從變形處理后的數(shù)據(jù)模式中決定重構(gòu)后的數(shù)據(jù)模式的處理的概要圖。
[0025]圖14是用于說明對重構(gòu)后的數(shù)據(jù)模式的妥當性評價的概要圖。
[0026]圖15是用于說明輸出數(shù)據(jù)模式的處理的一個例子的概要圖。
[0027]圖16是表示第二實施方式的數(shù)據(jù)庫分析裝置的結(jié)構(gòu)例子的框圖。
[0028]圖17是用于說明第二實施方式的初始數(shù)據(jù)模式的生成處理的概要圖(之一)。
[0029]圖18是用于說明第二實施方式的初始數(shù)據(jù)模式的生成處理的概要圖(之二)。
[0030]圖19是表示第二實施方式的數(shù)據(jù)模式評價基準的一個例子的表。
[0031]圖20是用于說明第二實施方式的數(shù)據(jù)模式的妥當性評價的概要圖。
[0032]圖21是表示第二實施方式的數(shù)據(jù)模式變形規(guī)則的一個例子的表。
[0033]圖22是用于說明第二實施方式的基于數(shù)據(jù)模式排除規(guī)則的例外模式的判定處理的概要圖。
[0034]圖23是用于說明第二實施方式的例外模式的排除處理的概要圖。
[0035]圖24是用于說明第二實施方式的對最終重構(gòu)后的數(shù)據(jù)模式評價妥當性的處理的概要圖。
[0036]圖25是用于說明第二實施方式的輸出數(shù)據(jù)模式的處理的一個例子的概要圖。
[0037]附圖標記說明
[0038]10,20:數(shù)據(jù)庫分析裝置;101 =CPU ;102:存儲器;103:輸入裝置;104:輸出裝置;105,201:外部存儲裝置;106:數(shù)據(jù)存儲部;108:數(shù)據(jù)模式存儲部;110:處理程序;111:數(shù)據(jù)模式生成處理部;112:數(shù)據(jù)模式判定處理部;113:數(shù)據(jù)模式數(shù)值化處理部;114、214:數(shù)據(jù)模式變形處理部;115、215:數(shù)據(jù)模式視覺化處理部;202:數(shù)據(jù)模式例外存儲部;30:數(shù)據(jù)庫;31:網(wǎng)絡。【具體實施方式】
[0039](I)第一實施方式
[0040]第一實施方式的數(shù)據(jù)庫分析裝置的特征在于:著眼于指定的表欄進行數(shù)據(jù)庫的分析,對該數(shù)據(jù)庫的數(shù)據(jù)群進行分類,生成并輸出根據(jù)表欄單位的特征對該數(shù)據(jù)庫的數(shù)據(jù)群進行分類所得的數(shù)據(jù)模式。
[0041](1-1)數(shù)據(jù)庫分析裝置的結(jié)構(gòu)
[0042]首先,說明本實施方式的數(shù)據(jù)庫分析裝置的結(jié)構(gòu)。圖1是表示第一實施方式的數(shù)據(jù)庫分析裝置的結(jié)構(gòu)例子的框圖。數(shù)據(jù)庫分析裝置10經(jīng)由網(wǎng)絡31與存儲有成為分析對象的數(shù)據(jù)的數(shù)據(jù)庫30連接,例如能夠使用具有一般結(jié)構(gòu)的計算機。如圖1所示,數(shù)據(jù)庫分析裝置10構(gòu)成為具備網(wǎng)絡接口(I/F)100、CPU (中央處理單元)101、存儲器102、輸入裝置103、輸出裝置104以及外部存儲裝置105。
[0043]網(wǎng)絡I/F100是用于經(jīng)由網(wǎng)絡31與數(shù)據(jù)庫分析裝置10的外部能夠通信地連接,而在與數(shù)據(jù)庫分析裝置10的外部之間進行數(shù)據(jù)的輸入輸出和信號的收發(fā)的接口。例如,經(jīng)由網(wǎng)絡31和網(wǎng)絡I/F100將存儲在數(shù)據(jù)庫30中的數(shù)據(jù)輸入到數(shù)據(jù)庫分析裝置10。
[0044]CPUlOl負責數(shù)據(jù)庫分析裝置10的整體控制。例如,在執(zhí)行保存在外部存儲裝置105中的處理程序110的情況下,CPUlOl將從外部存儲裝置105讀出的處理程序110讀入到存儲器102,執(zhí)行讀入到存儲器102的處理程序110。存儲器102是暫時存儲數(shù)據(jù)、程序的存儲設備,例如可以使用DRAM (動態(tài)隨機存取存儲器)、SRAM (靜態(tài)RAM)。
[0045]輸入裝置103是鍵盤或鼠標等輸入設備,將與用戶的輸入操作對應的信號發(fā)送到CPU101。例如,如果從用戶向輸入裝置103進行規(guī)定的輸入操作,則依照接收到與該輸入操作對應的信號的CPUlOl的控制,經(jīng)由網(wǎng)絡31和網(wǎng)絡I/F100將保存在數(shù)據(jù)庫30中的數(shù)據(jù)輸入到數(shù)據(jù)庫分析裝置10,寫入到外部存儲裝置105。
[0046]輸出裝置104是顯示器或打印機等輸出設備,依照CPUlOl的控制,輸出數(shù)據(jù)、信號。例如,輸出裝置104在后述的數(shù)據(jù)庫的分析處理后,依照CPUlOl的控制,將表示數(shù)據(jù)庫的分析結(jié)果的圖像顯示在顯示器上,或者從打印機輸出表示數(shù)據(jù)庫的分析結(jié)果的文本數(shù)據(jù)。另外,在將數(shù)據(jù)庫的分析結(jié)果輸出到與數(shù)據(jù)庫分析裝置10連接的外部設備的情況下,CPUlOl經(jīng)由網(wǎng)絡I/F100使該外部設備輸出數(shù)據(jù)庫的分析結(jié)果即可。
[0047]外部存儲裝置105是在內(nèi)部存儲數(shù)據(jù)和程序的存儲設備,例如可以使用HDD(硬盤驅(qū)動器)、⑶-R (可寫光盤)等。此外,也可以代替外部存儲裝置105,而使用例如如USB (通用串行總線)存儲器那樣與數(shù)據(jù)庫分析裝置10連接的輔助存儲裝置。如圖1所示,外部存儲裝置105保存用于進行數(shù)據(jù)庫的分析處理的處理程序110。另外,外部存儲裝置105具有數(shù)據(jù)存儲部106、數(shù)據(jù)模式判定基準存儲部107、數(shù)據(jù)模式存儲部108以及數(shù)據(jù)模式變形規(guī)則存儲部109的各存儲部。
[0048]數(shù)據(jù)存儲部106存儲從外部經(jīng)由網(wǎng)絡I/F100輸入的數(shù)據(jù)。例如在圖1中,將數(shù)據(jù)庫30的數(shù)據(jù)存儲在數(shù)據(jù)存儲部106中。另外,數(shù)據(jù)模式存儲部108存儲表示保存在分析對象的數(shù)據(jù)庫中的數(shù)據(jù)群的分組方法的信息即數(shù)據(jù)模式。通過執(zhí)行處理程序110而生成與存儲在數(shù)據(jù)存儲部106中的數(shù)據(jù)群對應的數(shù)據(jù)模式,存儲在數(shù)據(jù)模式存儲部108中。
[0049]另外,數(shù)據(jù)模式判定基準存儲部107預先保存表示數(shù)據(jù)模式判定基準的數(shù)據(jù),數(shù)據(jù)模式變形規(guī)則存儲部109預先保存表示數(shù)據(jù)模式變形規(guī)則的數(shù)據(jù)。將在后述的數(shù)據(jù)庫分析處理中,說明數(shù)據(jù)模式、數(shù)據(jù)模式判定基準和數(shù)據(jù)模式變形規(guī)則的細節(jié)。
[0050]處理程序110是通過由CPUlOl讀入到存儲器102中并執(zhí)行,而實現(xiàn)數(shù)據(jù)模式生成處理部111、數(shù)據(jù)模式判定處理部112、數(shù)據(jù)模式數(shù)值化處理部113、數(shù)據(jù)模式變形處理部114、數(shù)據(jù)模式視覺化處理部115、數(shù)據(jù)整理部116的程序。
[0051]數(shù)據(jù)模式生成處理部111參照存儲在數(shù)據(jù)存儲部106中的數(shù)據(jù),根據(jù)數(shù)據(jù)的差異生成組,由此生成初始數(shù)據(jù)模式,寫入到數(shù)據(jù)模式存儲部108中。將在后面參照圖4?圖6說明初始數(shù)據(jù)模式的細節(jié)。
[0052]數(shù)據(jù)模式判定處理部112針對存儲在數(shù)據(jù)模式存儲部108中的數(shù)據(jù)模式,利用數(shù)據(jù)模式數(shù)值化處理部113進行評分,根據(jù)從數(shù)據(jù)模式判定基準存儲部107讀出的數(shù)據(jù)模式判定基準,判定數(shù)據(jù)模式的恰當性是否達到必要的水準。數(shù)據(jù)模式數(shù)值化處理部113進行以下的處理,即與數(shù)據(jù)模式的特征對應地進行評分,由此對數(shù)據(jù)模式進行數(shù)值化。
[0053]數(shù)據(jù)模式變形處理部114進行以下的處理,即根據(jù)從數(shù)據(jù)模式變形規(guī)則存儲部109讀出的數(shù)據(jù)模式變形規(guī)則,對從數(shù)據(jù)模式存儲部108讀出的數(shù)據(jù)模式進行變形。進而,數(shù)據(jù)模式變形處理部114利用數(shù)據(jù)模式數(shù)值化處理部113對變形后的數(shù)據(jù)模式進行評分,將分數(shù)最高的數(shù)據(jù)模式寫入到數(shù)據(jù)模式存儲部108中。
[0054]數(shù)據(jù)模式視覺化處理部115讀出存儲在數(shù)據(jù)模式存儲部108中的數(shù)據(jù)模式,變換為用戶能夠在視覺上容易識別的預定的形式而輸出到輸出裝置104。對數(shù)據(jù)模式進行變換的預定的形式例如是指圖像形式、表形式、圖表形式、文本數(shù)據(jù)形式等。此外,數(shù)據(jù)模式視覺化處理部115也可以將數(shù)據(jù)模式變換為計算機可讀取的預定的形式而輸出。在該情況下,預定的形式例如是指文本數(shù)據(jù)形式、二進制數(shù)據(jù)形式等。
[0055]數(shù)據(jù)整理部116進行以下的處理,即依照預定的規(guī)則對輸入到數(shù)據(jù)庫分析裝置10的數(shù)據(jù)進行整理,作為分析對象數(shù)據(jù)存儲在數(shù)據(jù)存儲部106中。此外,優(yōu)先于處理程序110內(nèi)的其他處理111?115的處理地執(zhí)行基于數(shù)據(jù)整理部116的數(shù)據(jù)的整理。
[0056]數(shù)據(jù)庫分析裝置10通過上述的各處理部111?116的動作,針對保存在數(shù)據(jù)庫30中的數(shù)據(jù)群,著眼于同一表欄內(nèi)的數(shù)據(jù)值對特征進行分析,與特征對應地生成用于對該數(shù)據(jù)群進行分組的數(shù)據(jù)模式,根據(jù)最終決定的數(shù)據(jù)模式對數(shù)據(jù)群進行分類,由此按照表欄單位對數(shù)據(jù)庫的數(shù)據(jù)群進行分析。
[0057](1-2)數(shù)據(jù)庫分析處理
[0058]圖2是表示分析數(shù)據(jù)庫的數(shù)據(jù)群的數(shù)據(jù)庫分析的處理步驟的流程圖。一邊參照圖2,一邊說明數(shù)據(jù)庫分析裝置10的數(shù)據(jù)庫分析處理的概要,根據(jù)需要參照其他圖說明細節(jié)。
[0059]( 1-2-1)分析對象數(shù)據(jù)的輸入
[0060]首先,如果在輸入裝置103中,由用戶進行了指示數(shù)據(jù)庫分析開始的預定的輸入操作,則將存儲在數(shù)據(jù)庫30中的數(shù)據(jù)群的副本數(shù)據(jù)經(jīng)由網(wǎng)絡31和網(wǎng)絡I/F100輸入到數(shù)據(jù)庫分析裝置10(圖2的步驟S101)。在指示數(shù)據(jù)庫分析開始的預定的輸入操作時,指定成為分析對象的數(shù)據(jù)群、在分析時著眼的表欄(分析對象欄)。該分析對象欄是在作為分析對象的數(shù)據(jù)群中構(gòu)成表數(shù)據(jù)的欄的一個,例如在后述的圖3的“商品”表301中,“商品ID”、“商品名”相當于欄。
[0061]此外,從數(shù)據(jù)庫30輸入到數(shù)據(jù)庫分析裝置10的數(shù)據(jù)也可以是存儲在數(shù)據(jù)庫30中的數(shù)據(jù)群的全部副本數(shù)據(jù),但如果考慮到處理速度的提高、存儲區(qū)域的使用效率,則優(yōu)選是存儲在數(shù)據(jù)庫30中的數(shù)據(jù)群中的被指定為分析對象的數(shù)據(jù)群的副本數(shù)據(jù)。以后,假設將被指定為分析對象的數(shù)據(jù)群的副本數(shù)據(jù)輸入到數(shù)據(jù)庫分析裝置10而進行說明。
[0062]然后,在步驟SlOl中,針對從數(shù)據(jù)庫30輸入到數(shù)據(jù)庫分析裝置10的數(shù)據(jù),由數(shù)據(jù)整理部116著眼于所指定的分析對象欄而對該數(shù)據(jù)進行整理,將整理結(jié)果的數(shù)據(jù)作為分析對象數(shù)據(jù)而存儲在數(shù)據(jù)存儲部106中。
[0063]圖3是用于說明分析對象數(shù)據(jù)的概要圖。圖3所示的“商品”表301是存儲在數(shù)據(jù)庫30中的數(shù)據(jù)群的一部分,是在指示數(shù)據(jù)庫分析開始的預定的輸入操作時被指定為分析對象的數(shù)據(jù)群的一個例子?!吧唐贰北?01是收集與“商品”相關聯(lián)的信息所得的表形式的數(shù)據(jù),由記載商品名的商品名欄、記載與商品名對應地預先賦予的商品ID的商品ID欄302等構(gòu)成。
[0064]在此,假設在指示數(shù)據(jù)庫分析開始的預定的輸入操作時,將商品ID302指定為分析對象欄。這時,數(shù)據(jù)整理部116對包含在商品ID欄302中的數(shù)據(jù)進行整理,作為分析對象數(shù)據(jù)303存儲在數(shù)據(jù)存儲部106中。數(shù)據(jù)整理部116針對存儲在“商品”表301中的商品ID欄302內(nèi)的多個數(shù)據(jù),計數(shù)相同的數(shù)據(jù)值的出現(xiàn)次數(shù)。然后,數(shù)據(jù)整理部116將商品ID的數(shù)據(jù)值304和該數(shù)據(jù)值304的出現(xiàn)次數(shù)305作為組(對),生成分析對象數(shù)據(jù)303。在圖3所示的分析對象數(shù)據(jù)303中,對306表示存在“8”個表示“123456”這樣的數(shù)據(jù)值304的商品ID,對307表示存在“2”個表示“123568”這樣的數(shù)據(jù)值304的商品ID。
[0065]此外,數(shù)據(jù)整理部116在生成分析對象數(shù)據(jù)303時,不只是匯總數(shù)據(jù)值304和出現(xiàn)次數(shù)305的對,還可以進行處理而對商品ID的數(shù)據(jù)值304或出現(xiàn)次數(shù)305進行升序排序,或進行對計算數(shù)據(jù)模式有效的排序處理等。
[0066]另外,在第一實施方式中,作為一個例子,假設包含在一個欄中的數(shù)據(jù)全部是相同長度的字符串而進行說明,但包含在欄中的數(shù)據(jù)的字符串長度也可以不相同。在欄中包含由不同長度的字符串構(gòu)成的數(shù)據(jù)的情況下,在由數(shù)據(jù)整理部116預先按照每個字符串長度對數(shù)據(jù)群進行分開的處理后,進行后述的處理即可。
[0067]( 1-2-2)初始數(shù)據(jù)模式的生成
[0068]如果在步驟SlOl中將分析對象數(shù)據(jù)303輸入到數(shù)據(jù)存儲部106,則數(shù)據(jù)模式生成處理部111從數(shù)據(jù)存儲部106中參照分析對象數(shù)據(jù)303。然后,數(shù)據(jù)模式生成處理部111從分析對象數(shù)據(jù)303中根據(jù)數(shù)據(jù)的差異生成組,匯總所生成的組而生成最初的數(shù)據(jù)模式(初始數(shù)據(jù)模式),將生成的初始數(shù)據(jù)模式寫入到數(shù)據(jù)模式存儲部108中(圖2的步驟S102)。在此,數(shù)據(jù)的差異相當于作為分析對象數(shù)據(jù)303而整理的欄的字符串(相對于數(shù)據(jù)值304),數(shù)據(jù)模式生成處理部111對每個數(shù)據(jù)值將欄的字符串設為樹構(gòu)造而生成初始數(shù)據(jù)模式。
[0069]圖4?圖6是用于說明生成初始數(shù)據(jù)模式的處理的概要圖。首先,數(shù)據(jù)模式生成處理部111如圖4所示生成成為樹的根的節(jié)點400。進而,數(shù)據(jù)模式生成處理部111參照存儲在數(shù)據(jù)存儲部106中的分析對象數(shù)據(jù)303而選擇一個對(例如對306),生成與選擇出的對306對應的樹。該樹由節(jié)點401?407構(gòu)成,構(gòu)成為將值具有數(shù)據(jù)值304的開頭的文字(在對306的情況下為“I”)的節(jié)點401作為根,將值具有數(shù)據(jù)值304的第k (k是2以上的自然數(shù))個文字的節(jié)點402?406保存為值具有第(k-1)個文字的節(jié)點401?405的子節(jié)點,并且構(gòu)成為將值具有出現(xiàn)次數(shù)305 (在對306的情況下為“8”)的節(jié)點407保存為值具有數(shù)據(jù)值304的末尾的字符(在對306的情況下為“6”)的節(jié)點406的子節(jié)點。接著,數(shù)據(jù)模式生成處理部111通過將節(jié)點401作為子節(jié)點而追加到節(jié)點400來合成樹,生成樹410。因此,圖4所示的樹410是與對306對應地生成的樹。
[0070]接著,如圖5所示,數(shù)據(jù)模式生成處理部111選擇分析對象數(shù)據(jù)303中的還沒有被選擇的對(例如對307),通過與圖4同樣的生成方法,生成與選擇出的對307對應的樹500。然后,數(shù)據(jù)模式生成處理部111針對以節(jié)點400為根的已經(jīng)生成的樹410,追加樹500的跟即節(jié)點501作為節(jié)點400的子節(jié)點,將樹500與樹410合成。在將樹500與樹410合成時,數(shù)據(jù)模式生成處理部111對處于樹的相同深度并且值具有相同字符的節(jié)點進行合成使其成為同一節(jié)點。例如在圖5中,樹500中的節(jié)點501、502、503、樹410中的節(jié)點401,402,403分別處于相同的深度并且值具有相同的字符,因此在合成后的樹510中,成為同一節(jié)點(節(jié)點 511 ?513)。
[0071 ] 接著,數(shù)據(jù)模式生成處理部111針對保存在數(shù)據(jù)存儲部106中的分析對象數(shù)據(jù)303的全部對,執(zhí)行處理而按照圖4?圖5所示那樣的方法生成樹,與將節(jié)點400作為根的樹合成。在圖6中,表示出由10組對構(gòu)成的分析對象數(shù)據(jù)600、根據(jù)分析對象數(shù)據(jù)600生成的樹601。樹601是將節(jié)點400作為根而對與分析對象數(shù)據(jù)600的全部對對應地生成的10棵樹進行合成所得的樹。數(shù)據(jù)模式生成處理部111在步驟S102的最后,將樹601作為基于分析對象數(shù)據(jù)600的初始數(shù)據(jù)模式寫入到數(shù)據(jù)模式存儲部108中。
[0072]( 1-2-3)數(shù)據(jù)模式的妥當性評價
[0073]如果在步驟S102中將初始數(shù)據(jù)模式(樹601)寫入到數(shù)據(jù)模式存儲部108中,則數(shù)據(jù)模式判定處理部112對保存在數(shù)據(jù)模式存儲部108中的數(shù)據(jù)模式的妥當性進行評價(圖2的步驟S103)。此外,數(shù)據(jù)模式判定處理部112在接著步驟S102而進行步驟S103的處理的情況下,對初始數(shù)據(jù)模式評價妥當性,但在接著步驟S105?S106的處理(后述)進行步驟S103的處理的情況下,對在之前的步驟S105?S106中重構(gòu)后的數(shù)據(jù)模式評價妥當性。
[0074]在步驟S103中,首先由數(shù)據(jù)模式判定處理部112讀出保存在數(shù)據(jù)模式存儲部108中的數(shù)據(jù)模式,利用數(shù)據(jù)模式數(shù)值化處理部113進行評分。數(shù)據(jù)模式數(shù)值化處理部113進行用于對數(shù)據(jù)模式的特征進行數(shù)值化的預定的處理,例如在數(shù)據(jù)模式是樹601的情況下,通過對構(gòu)成樹601的葉的個數(shù)進行計數(shù)來計算組數(shù)。在圖6所示的樹601中,葉的個數(shù)是10,因此將數(shù)據(jù)模式評分為組數(shù)10。
[0075]數(shù)據(jù)模式判定處理部112針對利用數(shù)據(jù)模式數(shù)值化處理部113進行評分后的數(shù)據(jù)模式,根據(jù)保存在數(shù)據(jù)模式判定基準存儲部107中的預定的基準(數(shù)據(jù)模式評價基準),判定該數(shù)據(jù)模式是否滿足適當?shù)乃疁蔬@樣的妥當性。
[0076]圖7是表示數(shù)據(jù)模式評價基準的一個例子的表。數(shù)據(jù)模式評價基準700是預先規(guī)定并存儲在數(shù)據(jù)模式判定基準存儲部107中的評價基準用的表數(shù)據(jù),構(gòu)成為具有記載評價基準的項目的評價項目欄701、記載該評價基準的項目值的項目值欄702。在圖7所示的數(shù)據(jù)模式評價基準700中,將“把組數(shù)的上限設為5為止”設定為評價基準。此外,數(shù)據(jù)模式評價基準并不限于組數(shù)的上限數(shù),既可以是更細致地規(guī)定了組數(shù)的范圍的基準,除此以外,例如也可以是根據(jù)出現(xiàn)次數(shù)規(guī)定的基準等。在任意的情況下,數(shù)據(jù)模式數(shù)值化處理部113進行設定使得對該數(shù)據(jù)模式進行評分,從而能夠由數(shù)據(jù)模式判定處理部112根據(jù)數(shù)據(jù)模式評價基準判定數(shù)據(jù)模式的妥當性。
[0077]圖8是用于說明評價數(shù)據(jù)模式的妥當性的處理(妥當性評價)的概要圖。在圖8中,表示出表示從數(shù)據(jù)模式存儲部108讀出的數(shù)據(jù)模式的樹601、保存在數(shù)據(jù)模式評價基準存儲部107中的數(shù)據(jù)模式評價基準700。這時,數(shù)據(jù)模式判定處理部112對利用數(shù)據(jù)模式數(shù)值化處理部113計算出的組數(shù)800、在數(shù)據(jù)模式評價基準700的項目值欄702中規(guī)定的組數(shù)的上限“5”進行比較(圖2的步驟S104)。在步驟S104中,組數(shù)800是樹601中的組數(shù)、即“10”,因此不滿足“5”以下這樣的條件,數(shù)據(jù)模式判定處理部112判定為該數(shù)據(jù)模式不妥當,轉(zhuǎn)移到步驟S105的處理。在步驟S104中判定為妥當?shù)那闆r下,轉(zhuǎn)移到步驟S107的處理。
[0078]( 1-2-4)數(shù)據(jù)模式的重構(gòu)
[0079]在圖2的步驟S105中,數(shù)據(jù)模式變形處理部114 一邊參照從數(shù)據(jù)模式變形規(guī)則存儲部109讀出的數(shù)據(jù)模式變形規(guī)則,一邊對從數(shù)據(jù)模式存儲部108讀出的數(shù)據(jù)模式進行變形。進而,在步驟S105中,數(shù)據(jù)模式變形處理部114針對變形處理后的數(shù)據(jù)模式,利用數(shù)據(jù)模式數(shù)值化處理部113進行預定的處理的評分,根據(jù)評分的結(jié)果決定成為重構(gòu)后的數(shù)據(jù)模式的數(shù)據(jù)模式,寫入到數(shù)據(jù)模式存儲部108中。
[0080]圖9是表示數(shù)據(jù)模式變形規(guī)則的一個例子的表。數(shù)據(jù)模式變形規(guī)則是為了進行變更數(shù)據(jù)模式所保存的數(shù)據(jù)分類而對數(shù)據(jù)模式進行變形的處理,對數(shù)據(jù)模式的信息(構(gòu)成數(shù)據(jù)模式的節(jié)點的節(jié)點值)進行改寫的規(guī)則相關的信息,事先被存儲在數(shù)據(jù)模式變形規(guī)則存儲部109中。圖9所示的數(shù)據(jù)模式變形規(guī)則900將記載成為改寫的對象的信息(節(jié)點值)的變形前欄901、記載對該信息進行改寫后的信息(節(jié)點值)的變形后欄902作為組而構(gòu)成。例如,根據(jù)數(shù)據(jù)模式變形規(guī)則900,將“a”這樣的信息改寫為[a?z],將[0?9]這樣的信息改寫為“Yw”。此外,也可以對在變形前欄901中沒有記載的信息不進行改寫。
[0081]以下,參照圖10?圖12,說明數(shù)據(jù)模式變形處理部114使用圖9所示的數(shù)據(jù)模式變形規(guī)則900對圖6所示的數(shù)據(jù)模式(樹601)進行變形的處理。
[0082]圖10?圖12是用于說明對數(shù)據(jù)模式進行變形的處理的概要圖。首先,如圖10所示,數(shù)據(jù)模式變形處理部114從數(shù)據(jù)模式存儲部108中讀出數(shù)據(jù)模式(樹601),在構(gòu)成樹601的節(jié)點中搜索具有多個子節(jié)點的節(jié)點。在圖10的樹601中,具有多個子節(jié)點的節(jié)點是節(jié)點1000?1006。例如節(jié)點1001具有子節(jié)點為節(jié)點值“C”的節(jié)點和節(jié)點值“D”的節(jié)點。接著,數(shù)據(jù)模式變形處理部114針對搜索出的節(jié)點1000?1006分別進行根據(jù)數(shù)據(jù)模式變形規(guī)則90對該節(jié)點的子節(jié)點進行改寫的處理,生成改寫后的樹1007?1013。此外,在樹601中,在不存在具有多個子節(jié)點的節(jié)點的情況下,數(shù)據(jù)模式變形處理部114在圖2的步驟S106中判斷為不能進行數(shù)據(jù)模式的變形(否),轉(zhuǎn)移到步驟S107的處理。
[0083]在圖11?圖12中,作為改寫具有多個子節(jié)點的節(jié)點的子節(jié)點的處理的一個例子,說明數(shù)據(jù)模式變形處理部114根據(jù)數(shù)據(jù)模式變形規(guī)則900改寫圖10的節(jié)點1002的子節(jié)點,生成樹1009而作為變形后的數(shù)據(jù)模式的最終形式的處理。
[0084]首先,數(shù)據(jù)模式變形處理部114如圖11所示那樣,復制數(shù)據(jù)模式601生成數(shù)據(jù)模式1100。這時,針對節(jié)點1002的全部子節(jié)點、即節(jié)點1101、1102,依照數(shù)據(jù)模式變形規(guī)則的改寫規(guī)則,進行節(jié)點值的改寫。即,數(shù)據(jù)模式變形處理部114將具有節(jié)點值“4”的節(jié)點1101改寫為具有節(jié)點值[0?9]的節(jié)點1103,將具有節(jié)點值“5”的節(jié)點1102改寫為具有節(jié)點值[0-9]的節(jié)點 1104。
[0085]接著,數(shù)據(jù)模式變形處理部114針對樹1100,將相同深度并具有相同節(jié)點值而都是節(jié)點1002的子節(jié)點的節(jié)點1103和節(jié)點1104匯總為I個節(jié)點1200。這時,樹1100變形為圖12所示的樹1201。進而,數(shù)據(jù)模式變形處理部114著眼于合成后的節(jié)點1200的子節(jié)點的節(jié)點1202?1205,將具有相同節(jié)點值“5”的節(jié)點1202和節(jié)點1204匯總為I個節(jié)點1206,將具有相同節(jié)點值“8”的節(jié)點1203和節(jié)點1205匯總為I個節(jié)點1207。這時,樹1201變形為樹1208。然后,進而數(shù)據(jù)模式變形處理部114針對合成后的節(jié)點1206、1207,也分別同樣地將具有相同節(jié)點值的子節(jié)點匯總為一個。具體地說,將節(jié)點1209和節(jié)點1210合成為節(jié)點1213,將節(jié)點1211和節(jié)點1212合成為節(jié)點1214。其結(jié)果是樹1208變形為樹1215。
[0086]在此,樹1215是直到表示數(shù)據(jù)值304的字符串的末尾的節(jié)點為止變形處理完成了的狀態(tài),在節(jié)點1213、節(jié)點1214中作為子節(jié)點的節(jié)點存在表示出現(xiàn)次數(shù)305的多個節(jié)點。對于這樣的表示出現(xiàn)次數(shù)305的節(jié)點,數(shù)據(jù)模式變形處理部114不是如表示數(shù)據(jù)值304的字符串的節(jié)點那樣將具有相同節(jié)點值的節(jié)點匯總為一個,而是將該節(jié)點所具有的節(jié)點值相加而匯總為一個。具體地說,數(shù)據(jù)模式變形處理部114針對作為節(jié)點1213的子節(jié)點的節(jié)點1216、1217,將具有節(jié)點值“8”的節(jié)點1216和具有節(jié)點值“I”的節(jié)點1217匯總成為具有節(jié)點值“9”的節(jié)點1220。同樣,數(shù)據(jù)模式變形處理部114針對作為節(jié)點1214的子節(jié)點的節(jié)點1218、1219,將具有節(jié)點值“6”的節(jié)點1218和具有節(jié)點值“2”的節(jié)點1219匯總成為具有節(jié)點值“8”的節(jié)點1221。其結(jié)果是樹1215成為樹1009,生成對節(jié)點1002的子節(jié)點進行改寫而變形后的最終形式的數(shù)據(jù)模式。
[0087]數(shù)據(jù)模式變形處理部114通過對在樹601中具有多個子節(jié)點的節(jié)點1000?1006分別進行與上述的對節(jié)點1002的處理同樣的變形處理,能夠生成表示變形處理后的數(shù)據(jù)模式的樹1007?1013。
[0088]圖13是用于說明從變形處理后的數(shù)據(jù)模式中決定重構(gòu)后的數(shù)據(jù)模式的處理的概要圖。首先,數(shù)據(jù)模式變形處理部114針對作為變形處理后的數(shù)據(jù)模式的樹1007?1013,利用數(shù)據(jù)模式數(shù)值化處理部113對各個樹的葉的個數(shù)進行計數(shù),計算組數(shù)。在圖13中,表示出針對樹1007?1013的各個計算出的組數(shù)1300?1306。接著,數(shù)據(jù)模式變形處理部114在組數(shù)1300?1306中選擇組數(shù)最少的一個數(shù)據(jù)模式。在此,選擇與具有“8”的組數(shù)1302對應的樹1009。然后,數(shù)據(jù)模式變形處理部114將選擇出的樹1009決定為重構(gòu)后的數(shù)據(jù)模式,寫入到數(shù)據(jù)模式存儲部108中。此外,在如圖13中的樹1009和樹1012那樣,具有與最少的組數(shù)對應的多個數(shù)據(jù)模式的情況下,數(shù)據(jù)模式變形處理部114在該多個數(shù)據(jù)模式中任意選擇一個,決定為重構(gòu)后的數(shù)據(jù)模式。
[0089]接著,在步驟S106中,數(shù)據(jù)模式變形處理部114判定重構(gòu)后的數(shù)據(jù)模式是否能夠變形。具體地說,例如在表示重構(gòu)后的數(shù)據(jù)模式的樹1400中,存在具有多個子節(jié)點的節(jié)點的情況下,判定為能夠進行進一步的變形,返回到步驟S103的處理。另外,在表示重構(gòu)后的數(shù)據(jù)模式的樹1400中,不存在具有多個子節(jié)點的節(jié)點的情況下,判定為不能進行進一步的變形,轉(zhuǎn)移到步驟S107的處理。另外,在步驟S106中,重構(gòu)后的數(shù)據(jù)模式(樹1400)與重構(gòu)前的數(shù)據(jù)模式(樹600)完全相同的情況下,數(shù)據(jù)模式變形處理部114判定為不能進行數(shù)據(jù)模式的變形,轉(zhuǎn)移到步驟S107的處理。
[0090]( 1-2-5)重構(gòu)后的數(shù)據(jù)模式的妥當性評價
[0091]在圖2的步驟S106處理后的步驟S103中,數(shù)據(jù)模式判定處理部112針對重構(gòu)后的數(shù)據(jù)模式評價數(shù)據(jù)模式的妥當性。
[0092]圖14是用于說明對重構(gòu)后的數(shù)據(jù)模式的妥當性評價的概要圖。對重構(gòu)后的數(shù)據(jù)模式的妥當性評價與上述的對初始數(shù)據(jù)模式的妥當性評價的處理同樣,由數(shù)據(jù)模式判定處理部112進行。即,數(shù)據(jù)模式判定處理部112讀出保存在數(shù)據(jù)模式存儲部108中的重構(gòu)后的數(shù)據(jù)模式,利用數(shù)據(jù)模式數(shù)值化處理部113進行評分,根據(jù)評分的結(jié)果、保存在數(shù)據(jù)模式評價基準存儲部107中的數(shù)據(jù)模式評價基準700,判定重構(gòu)后的數(shù)據(jù)模式是否滿足適當?shù)乃疁蔬@樣的妥當性。
[0093]在圖14中,針對表示重構(gòu)后的數(shù)據(jù)模式的樹1400,作為組數(shù)1401而評分“5”。組數(shù)1401滿足數(shù)據(jù)模式評價基準700所示的“組數(shù)上限為5以下”這樣的條件,因此數(shù)據(jù)模式判定處理部112判定為樹1400是妥當?shù)?,轉(zhuǎn)移到步驟S107的處理。
[0094]( 1-2-6)數(shù)據(jù)模式的輸出
[0095]如上述那樣,在數(shù)據(jù)模式在圖2的步驟S103中不滿足數(shù)據(jù)模式評價基準700而得到否定判定的情況下,在步驟S104中重構(gòu)數(shù)據(jù)模式,如果能夠?qū)χ貥?gòu)后的數(shù)據(jù)模式進行變形,則再次重復進行在步驟S103中進行妥當性的評價的處理。然后,在任意階段中的妥當性的評價中得到肯定判定、或在妥當性的評價中得到否定判定而重構(gòu)了數(shù)據(jù)模式,而無法進一步對數(shù)據(jù)模式進行變形的情況下(步驟S106的否),在步驟S107中進行數(shù)據(jù)模式的輸出。
[0096]在步驟S107中,數(shù)據(jù)模式視覺化處理部115讀出最后存儲在數(shù)據(jù)模式存儲部108中的數(shù)據(jù)模式,變換為預定的形式而輸出到輸出裝置104。此外,步驟S107中的數(shù)據(jù)模式的輸出也既可以在步驟SlOl從用戶向輸入裝置103指示了數(shù)據(jù)庫分析開始時,指定輸出方法(輸出目的地和輸出形式),在數(shù)據(jù)庫分析處理結(jié)束后自動地與該輸出方法對應地輸出到輸出裝置104,也可以在數(shù)據(jù)庫分析處理結(jié)束后,以從用戶向輸入裝置103進行了指示數(shù)據(jù)模式的輸出的預定的輸入操作為時機而執(zhí)行。另外,數(shù)據(jù)模式的輸出目的地可以選擇顯示器、打印機、或文件等一般的輸出目的地,數(shù)據(jù)模式的輸出形式可以選擇基于文字、圖形的圖像顯示、文本數(shù)據(jù)或二進制數(shù)據(jù)等一般的輸出形式。
[0097]圖15是用于說明輸出數(shù)據(jù)模式的處理的一個例子的概要圖。在圖15中,表示出將數(shù)據(jù)模式匯總為輸出表1510而輸出的處理。輸出表1510由記載數(shù)據(jù)模式所保存的樹中的路徑結(jié)構(gòu)的組1511、記載該路徑結(jié)構(gòu)所表示的數(shù)據(jù)的出現(xiàn)次數(shù)的出現(xiàn)次數(shù)1512成組(對)地構(gòu)成。
[0098]數(shù)據(jù)模式視覺化處理部115首先從數(shù)據(jù)模式存儲部108中讀出最后存儲的數(shù)據(jù)模式。因此,在存儲有對初始數(shù)據(jù)模式進行變形而重構(gòu)后的數(shù)據(jù)模式的情況下,從數(shù)據(jù)模式存儲部108中讀出重構(gòu)后的數(shù)據(jù)模式。接著,數(shù)據(jù)模式視覺化處理部115從讀出的數(shù)據(jù)模式所保存的樹1400中,取得從根到各個葉的路徑1500?1504。然后,數(shù)據(jù)模式視覺化處理部115將包含在所取得的路徑1500?1504中的葉以外的節(jié)點的值設為輸出表1510的組1511的值,將葉的節(jié)點值設為與該組1510成對的出現(xiàn)次數(shù)1512的值。在圖15所示的輸出表1510的組1511中,在字符串的開頭附加在字符串的結(jié)尾附加“$”。其結(jié)果是例如在輸出表1510的對1513中表示出現(xiàn)了“4”次用“5F3C2[A?Z]”這樣的字符串表示的組,在對1514中表示出現(xiàn)了 “I”次用“5F3D43”這樣的字符串表示的組。另外,數(shù)據(jù)模式視覺化處理部115依照被用戶指定的輸出方式,將輸出表1510輸出到輸出裝置104。
[0099]( 1-3)本實施方式的效果
[0100]根據(jù)這樣的數(shù)據(jù)庫分析裝置10,在對數(shù)據(jù)庫所保存的數(shù)據(jù)群進行分析的情況下,能夠著眼于由用戶指定的表欄,根據(jù)同一欄內(nèi)的數(shù)據(jù)值對該數(shù)據(jù)群的特征進行分析,基于該數(shù)據(jù)群的特征進行分組(分類)。另外,這樣的數(shù)據(jù)庫分析裝置10能夠通過數(shù)據(jù)模式表示出著眼于同一欄內(nèi)的數(shù)據(jù)值對分析對象的數(shù)據(jù)群進行分組的方法并輸出,因此能夠完整地對數(shù)據(jù)庫進行分析,而自動地提供根據(jù)表欄單位的特征對該數(shù)據(jù)庫的數(shù)據(jù)群進行分類所得的數(shù)據(jù)模式。這樣,通過在用戶生成對分析對象的數(shù)據(jù)庫的測試數(shù)據(jù)的情況下,根據(jù)該數(shù)據(jù)模式生成測試數(shù)據(jù),能夠期待以下的效果,即有助于一邊保證對該數(shù)據(jù)庫內(nèi)的數(shù)據(jù)群的完整性,一邊根據(jù)數(shù)據(jù)的特征高效地生成測試數(shù)據(jù)。
[0101]另外,在這樣的數(shù)據(jù)庫分析裝置10中,能夠依照由用戶指定的各種輸出方法(輸出目的地和輸出形式)輸出數(shù)據(jù)模式,因此例如能夠提供通過視覺上容易識別的輸出、容易進行數(shù)據(jù)處理的輸出等反應用戶的要求的靈活的輸出方法表示分析對象的數(shù)據(jù)庫的特征的數(shù)據(jù)模式。更具體地說,例如能夠用文本數(shù)據(jù)、二進制數(shù)據(jù)輸出數(shù)據(jù)模式,直接利用輸出數(shù)據(jù)作為向生成測試數(shù)據(jù)的工具的輸入數(shù)據(jù)。
[0102]另外,在這樣的數(shù)據(jù)庫分析裝置10中,在指示數(shù)據(jù)庫分析開始時,為了提取特征,指定所著眼的數(shù)據(jù)項目(表欄、欄)即可,因此對于成為分析對象的數(shù)據(jù)群的具體的數(shù)據(jù)值、其特征,不要求用戶事先掌握知識。因此,在這樣的數(shù)據(jù)庫分析裝置10中,不需要與成為分析對象的數(shù)據(jù)庫的數(shù)據(jù)群相關的用戶的事先知識,就能夠分析該數(shù)據(jù)庫的特征而作為數(shù)據(jù)模式向用戶提供。
[0103]另外,根據(jù)這樣的數(shù)據(jù)庫分析裝置10,在輸出數(shù)據(jù)模式的情況下,如圖15的輸出表1510的組1511所示那樣,能夠?qū)敵鰞?nèi)容進行抽象化(符號化),通過進行抽象化的輸出,能夠期待使外部人員難以理解數(shù)據(jù)庫的數(shù)據(jù)內(nèi)容的效果。
[0104](2)第二實施方式
[0105]第二實施方式的數(shù)據(jù)庫分析裝置的特征在于:在如第一實施方式的數(shù)據(jù)庫分析裝置10那樣著眼于指定的表欄進行數(shù)據(jù)庫的分析而生成表示該數(shù)據(jù)庫的數(shù)據(jù)群的特征的數(shù)據(jù)模式時,針對對數(shù)據(jù)群進行分類所得的模式組中的具有出現(xiàn)頻度低或數(shù)據(jù)結(jié)構(gòu)(文字模式)極端不同等例外特征的模式組,作為例外模式而從數(shù)據(jù)模式中排除,生成進一步對數(shù)據(jù)群的特征進行了匯總所得的數(shù)據(jù)模式。
[0106](2-1)數(shù)據(jù)庫分析裝置的結(jié)構(gòu)
[0107]圖16是表示第二實施方式的數(shù)據(jù)庫分析裝置的結(jié)構(gòu)例子的框圖。如圖16所示,數(shù)據(jù)庫分析裝置20除了在外部存儲裝置201內(nèi)新追加了數(shù)據(jù)模式例外存儲部202這一點以外,具備與圖1所示的數(shù)據(jù)庫分析裝置10相同的結(jié)構(gòu),對共通的結(jié)構(gòu)要素附加與圖1相同的編號并省略說明。另外,處理程序20具備進行與數(shù)據(jù)模式變形處理部114不同的處理的數(shù)據(jù)模式變形處理部214、以及進行與數(shù)據(jù)模式視覺化處理部115不同的處理的數(shù)據(jù)模式視覺化處理部215。在后面參照圖21?圖23以及圖25說明數(shù)據(jù)模式變形處理部214和數(shù)據(jù)模式視覺化處理部215的處理。
[0108](2-2)數(shù)據(jù)庫分析處理
[0109]以下,參照圖2說明第二實施方式的數(shù)據(jù)庫分析裝置20對數(shù)據(jù)庫的數(shù)據(jù)群進行分析的處理。數(shù)據(jù)庫分析裝置20的數(shù)據(jù)庫分析處理與數(shù)據(jù)庫分析裝置10的處理相同,依照圖2所示的流程圖進行,因此對于進行與數(shù)據(jù)庫分析裝置10相同的處理的地方,省略詳細的說明。
[0110](2-2-1)分析對象數(shù)據(jù)的輸入
[0111]首先,在圖2的步驟SlOl中,以在輸入裝置103中進行了指示數(shù)據(jù)庫分析開始的預定的輸入操作為時機,將數(shù)據(jù)庫30的數(shù)據(jù)群輸入到數(shù)據(jù)庫分析裝置20,數(shù)據(jù)整理部116對該數(shù)據(jù)群進行整理,將分析對象欄303寫入到數(shù)據(jù)存儲部106中。
[0112](2-2-2)初始數(shù)據(jù)模式的生成
[0113]接著,在步驟S102中,數(shù)據(jù)模式生成處理部111根據(jù)存儲在數(shù)據(jù)存儲部106中的分析對象數(shù)據(jù)303,生成初始數(shù)據(jù)模式,寫入到數(shù)據(jù)模式存儲部108中。
[0114]圖17和圖18是用于說明第二實施方式的初始數(shù)據(jù)模式的生成處理的概要圖。在圖17中,表示數(shù)據(jù)模式生成處理部111參照存儲在數(shù)據(jù)存儲部106中的分析對象數(shù)據(jù)303生成與分析對象數(shù)據(jù)303的對306對應的樹1710的情況。生成樹1710的基本處理步驟與圖4所示的處理相同,因此省略說明。但是,樹1710的葉節(jié)點1701不是出現(xiàn)次數(shù)305的值,其值具有包含在與葉節(jié)點1701對應的路徑(節(jié)點401?406)中的數(shù)據(jù)的種類數(shù)。S卩,在圖17所示的階段中,在節(jié)點401?406所示的路徑中,只包含對306所示的一種數(shù)據(jù)(數(shù)據(jù)值“123456”),因此葉節(jié)點1701具有節(jié)點值“I”。進而,數(shù)據(jù)模式生成處理部111針對分析對象數(shù)據(jù)303的全部對,進行與圖17的生成樹1701的處理相同的處理而生成樹,將所生成的多個樹合成為以節(jié)點1700為根的一個樹。
[0115]在圖18中,表示數(shù)據(jù)模式生成處理部111針對分析對象數(shù)據(jù)600的全部對生成樹而合成為一個樹所得的樹1800。樹1800的各個葉節(jié)點的值具有數(shù)據(jù)種類數(shù)“I”。另外,數(shù)據(jù)模式生成處理部111將樹1800作為基于分析對象數(shù)據(jù)600的初始數(shù)據(jù)模式而寫入到數(shù)據(jù)模式存儲部108中。
[0116](2-2-3)數(shù)據(jù)模式的妥當性評價
[0117]接著,在步驟S103?S104中,數(shù)據(jù)模式判定處理部112讀出保存在數(shù)據(jù)模式存儲部108中的數(shù)據(jù)模式(樹1800),使用數(shù)據(jù)模式數(shù)值化處理部113進行評分,根據(jù)評分的結(jié)果和保存在數(shù)據(jù)模式判定基準存儲部107中的數(shù)據(jù)模式評價基準1900,判定該數(shù)據(jù)模式是否滿足適當?shù)乃疁实耐桩斝浴?br>
[0118]圖19是表示第二實施方式的數(shù)據(jù)模式評價基準的一個例子的表。在圖19所示的數(shù)據(jù)模式評價基準1900中,在記載評價基準的項目的評價項目欄1901中記載“組數(shù)上限”,在記載該評價基準的項目值的項目值欄1902中記載“3”,因此設定“把組樹的上限設為3為止”。此外,第二實施方式的數(shù)據(jù)模式評價基準并不如圖19所示那樣限于組數(shù)的上限數(shù),既可以是更細致地規(guī)定組數(shù)的范圍的基準,除此以外,例如也可以是根據(jù)出現(xiàn)次數(shù)規(guī)定的基準,或者還可以是基于后述的例外模式的出現(xiàn)比例的基準(例如例外模式的比例是整體的5%以下等)等。在任意的情況下,數(shù)據(jù)模式數(shù)值化處理部113都進行設定使得對該數(shù)據(jù)模式進行評分,從而能夠由數(shù)據(jù)模式判定處理部112根據(jù)數(shù)據(jù)模式評價基準判定數(shù)據(jù)模式的妥當性。
[0119]圖20是用于說明第二實施方式的數(shù)據(jù)模式的妥當性評價的概要圖。如圖20所示,數(shù)據(jù)模式判定處理部112讀出樹1800設為保存在數(shù)據(jù)模式存儲部108中的數(shù)據(jù)模式,使用數(shù)據(jù)模式數(shù)值化處理部113計算樹1800的組數(shù)2000。在此,樹1800的組數(shù)2000為“10”。數(shù)據(jù)模式判定處理部112將組數(shù)“10”與“將組數(shù)的上限設為3為止”的數(shù)據(jù)模式評價基準1900進行比較,得到該數(shù)據(jù)模式不妥當這樣的判定結(jié)果。在步驟S104中得到了否定結(jié)果(不妥當這樣的判定)的情況下,轉(zhuǎn)移到步驟S105的處理。此外,在步驟S104中得到了肯定結(jié)果(是妥當?shù)呐卸?的情況下,轉(zhuǎn)移到步驟S107的處理。
[0120](2-2-4)數(shù)據(jù)模式的重構(gòu)
[0121]在步驟S105中,數(shù)據(jù)模式變形處理部214參照存儲在數(shù)據(jù)模式變形規(guī)則存儲部109中的數(shù)據(jù)模式變形規(guī)則2100進行數(shù)據(jù)模式的重構(gòu)。在此,作為第二實施方式的特征處理之一,在數(shù)據(jù)模式的重構(gòu)處理中,在進行改寫數(shù)據(jù)模式的信息而對數(shù)據(jù)模式進行變形的變形處理后,進行排除處理,即從數(shù)據(jù)模式中排除具有出現(xiàn)頻度低或文字模式極端不同等的例外特征的例外模式。
[0122]圖21是表示第二實施方式的數(shù)據(jù)模式變形規(guī)則的一個例子的表。圖21所示的數(shù)據(jù)模式變形規(guī)則2100包含表示改寫數(shù)據(jù)模式的信息(構(gòu)成數(shù)據(jù)模式的節(jié)點的節(jié)點值)的規(guī)則的數(shù)據(jù)模式置換規(guī)則2110、表示用于決定從數(shù)據(jù)模式中排除的例外的數(shù)據(jù)模式(例外模式)的規(guī)則的數(shù)據(jù)模式排除規(guī)則2120,預先存儲在數(shù)據(jù)模式變形規(guī)則存儲部109中。數(shù)據(jù)模式置換規(guī)則2110相當于在第一實施方式中圖9所示的數(shù)據(jù)模式變形規(guī)則900,將記載成為改寫對象的信息(節(jié)點值)的變形前欄2111、記載對該信息的改寫后的信息(節(jié)點值)的變形后欄2112作為組而構(gòu)成。另外,數(shù)據(jù)模式排除規(guī)則2120將記載例外模式信息的判定項目的判定項目欄2121、記載該判定項目的排除條件的排除條件欄2122作為組而構(gòu)成。例如,在數(shù)據(jù)模式排除規(guī)則2120中設定“對應種數(shù)<(“最大”/4)”這樣的排除規(guī)則,這表示“對應種數(shù)是數(shù)據(jù)模式中的對應種數(shù)的最大值的四分之一以下”。此外,“對應種數(shù)”是指數(shù)據(jù)模式的各路徑的數(shù)據(jù)的種類數(shù)。
[0123]首先,在數(shù)據(jù)模式的變形處理中,數(shù)據(jù)模式變形處理部214參照數(shù)據(jù)模式變形規(guī)則2100,改寫從數(shù)據(jù)模式存儲部108中讀出的數(shù)據(jù)模式(樹1800),使用數(shù)據(jù)模式數(shù)值化處理部113對變形處理后的數(shù)據(jù)模式進行基于預定的處理的評分,根據(jù)評分的結(jié)果決定重構(gòu)后的數(shù)據(jù)模式。這樣的處理與在第一實施方式中參照圖10?圖13說明了的處理相同,因此省略說明。數(shù)據(jù)模式變形處理部214將決定的“重構(gòu)后的數(shù)據(jù)模式”寫入到數(shù)據(jù)模式存儲部108中。
[0124]然后,數(shù)據(jù)模式變形處理部214針對重構(gòu)后的數(shù)據(jù)模式判定是否滿足數(shù)據(jù)模式排除規(guī)則2120,在存在滿足數(shù)據(jù)模式排除規(guī)則2120的模式信息的情況下,進行排除處理,即將該模式信息作為例外模式從數(shù)據(jù)模式中排除。
[0125]圖22是用于說明第二實施方式的基于數(shù)據(jù)模式排除規(guī)則的例外模式的判定處理的概要圖。圖22所示的樹2200是通過對樹1800的數(shù)據(jù)模式的變形處理而變形并決定為重構(gòu)后的數(shù)據(jù)模式的樹。根據(jù)數(shù)據(jù)模式排除規(guī)則2120,例外模式的判定規(guī)則為“樹2200的各路徑的數(shù)據(jù)的種類數(shù)(對應種數(shù))是數(shù)據(jù)模式中的對應種數(shù)的最大值的四分之一以下”。在此,樹2200中的各個葉節(jié)點2201?2205的節(jié)點值表示數(shù)據(jù)的種類數(shù),因此參照節(jié)點2201?2205的節(jié)點值。其結(jié)果是數(shù)據(jù)模式變形處理部214從節(jié)點2203取得最大值“4”,判定是否存在具有節(jié)點2201?2205中的最大值的四分之一即“I”以下的節(jié)點值的節(jié)點。參照圖22,節(jié)點2202、2205具有節(jié)點值“ I ”,符合上述的條件,因此選擇在葉中具有節(jié)點2202、2205的路徑結(jié)構(gòu)作為例外模式。
[0126]接著,數(shù)據(jù)模式變形處理部214從數(shù)據(jù)模式中排除被選擇為例外模式的路徑結(jié)構(gòu)。圖23是用于說明第二實施方式的例外模式的排除處理的概要圖。首先,數(shù)據(jù)模式變形處理部214選擇被選擇為例外模式的路徑結(jié)構(gòu)中的一個。在此,假設選擇了以節(jié)點2202為葉的路徑結(jié)構(gòu)。接著,數(shù)據(jù)模式變形處理部214復制從樹2200的根節(jié)點2300到該路徑結(jié)構(gòu)的葉節(jié)點2202為止連接的一連串的路徑2301,作為例外模式追加到數(shù)據(jù)模式例外存儲部202中。進而,數(shù)據(jù)模式變形處理部214從樹2200中除去從節(jié)點2202到與節(jié)點2202最接近并且具有多個子節(jié)點的祖先節(jié)點2001為止的路徑2302,生成樹2303。然后,數(shù)據(jù)模式變形處理部214與節(jié)點2202的情況同樣地,針對節(jié)點2205也將另外模式追加到數(shù)據(jù)模式例外存儲部202中,從樹2303中除去從節(jié)點2205到與節(jié)點2205最接近并且具有多個子節(jié)點的祖先節(jié)點為止的路徑。數(shù)據(jù)模式變形處理部214針對被選擇為例外模式的全部路徑結(jié)構(gòu)進行同樣的處理,從數(shù)據(jù)模式中排除例外模式,將排除了例外模式所得的樹設為“最終重構(gòu)后的數(shù)據(jù)模式”。例如,樹2200通過進行這樣的排除處理而成為后述的圖24所示的樹2400。該樹2400相當于“最終重構(gòu)后的數(shù)據(jù)模式”,數(shù)據(jù)模式變形處理部214將樹2400寫入到數(shù)據(jù)模式存儲部108中。
[0127]接著,在步驟S106中,數(shù)據(jù)模式變形處理部214判定是否能夠?qū)Α白罱K重構(gòu)后的數(shù)據(jù)模式”進行變形,在判定為能夠進行變形的情況下,返回到步驟S103的處理。在不能對“最終重構(gòu)后的數(shù)據(jù)模式”進行變形、或與重構(gòu)前的數(shù)據(jù)模式完全相同的情況下,轉(zhuǎn)移到步驟S107的處理。
[0128](2-2-5)最終重構(gòu)后的數(shù)據(jù)模式的妥當性評價
[0129]在步驟S106的處理后的步驟S103中,數(shù)據(jù)模式判定處理部112進行對“最終重構(gòu)后的數(shù)據(jù)模式”的妥當性的評價。
[0130]圖24是用于說明第二實施方式的對最終重構(gòu)后的數(shù)據(jù)模式評價妥當性的處理的概要圖。對最終重構(gòu)后的數(shù)據(jù)模式的妥當性評價與上述的對初始數(shù)據(jù)模式的妥當性評價中的處理相同,由數(shù)據(jù)模式判定處理部112進行。即,數(shù)據(jù)模式判定處理部112讀出保存在數(shù)據(jù)模式存儲部108中的“最終重構(gòu)后的數(shù)據(jù)模式”,使用數(shù)據(jù)模式數(shù)值化處理部113進行評分,根據(jù)評分的結(jié)果和保存在數(shù)據(jù)模式評價基準存儲部107中的數(shù)據(jù)模式評價基準1900,判定重構(gòu)后的數(shù)據(jù)模式是否滿足適當?shù)乃疁实耐桩斝浴?br>
[0131]在圖24中,針對表示重構(gòu)后的數(shù)據(jù)模式的樹2400,作為組數(shù)2401而評分“3”。組數(shù)2401滿足數(shù)據(jù)模式評價基準1900所示的“組數(shù)上限為3以下”這樣的條件,因此數(shù)據(jù)模式判定處理部112判定為樹2400是妥當?shù)模D(zhuǎn)移到步驟S107的處理。
[0132]如上述那樣,數(shù)據(jù)模式在圖2的步驟S103中不能滿足數(shù)據(jù)模式評價基準1900而得到否定判定的情況下,在步驟S104中對數(shù)據(jù)模式進行重構(gòu),如果能夠?qū)ψ罱K重構(gòu)后的數(shù)據(jù)模式進行變形,則再次在步驟S103中重復進行妥當性的評價的處理。然后,在通過任意階段中的妥當性的評價而得到肯定判定、或通過妥當性的評價得到否定判定而重構(gòu)數(shù)據(jù)模式但無法對數(shù)據(jù)模式進一步進行變形的情況下(步驟S106的否),在步驟S107中進行數(shù)據(jù)模式的輸出。
[0133](2-2-6)數(shù)據(jù)模式的輸出
[0134]在步驟S107中,數(shù)據(jù)模式視覺化處理部215讀出最后存儲在數(shù)據(jù)模式存儲部108中的數(shù)據(jù)模式,變換為用戶在視覺上能夠容易地識別的預定的形式而輸出到輸出裝置104。此外,數(shù)據(jù)模式視覺化處理部215也可以與數(shù)據(jù)模式視覺化處理部115同樣地,將數(shù)據(jù)模式變換為計算機可讀取的預定的形式而輸出。另外,與第一實施方式的情況同樣地,根據(jù)來自用戶的指定來決定步驟S107中的數(shù)據(jù)模式的輸出方法。
[0135]圖25是用于說明第二實施方式的輸出數(shù)據(jù)模式的處理的一個例子的概要圖。在圖25中,表不將數(shù)據(jù)模式匯總為輸出表2510而輸出的處理。輸出表2510構(gòu)成為具有記載數(shù)據(jù)模式所保存的樹中的路徑結(jié)構(gòu)的組2511、記載該路徑結(jié)構(gòu)所示的數(shù)據(jù)的種類數(shù)的對應種數(shù)2512、記載該組的區(qū)分的區(qū)分2513。組2511的記載方法與參照圖15說明了的組1511相同。另外,對應種數(shù)2512所記載的數(shù)據(jù)的種類數(shù)相當于該組的子節(jié)點的葉節(jié)點的節(jié)點值,例如在樹2400的情況下,是節(jié)點2201、2203、2204的節(jié)點值。另外,在該組相當于例外模式的情況下,在區(qū)分2513中例如記載“例外”。
[0136]數(shù)據(jù)模式視覺化處理部215首先從數(shù)據(jù)模式存儲部108中讀出最后存儲的數(shù)據(jù)模式。因此,在對初始數(shù)據(jù)模式進行變形而存儲“最終重構(gòu)后的數(shù)據(jù)模式”的情況下,如圖25所示,從數(shù)據(jù)模式存儲部108中讀出相當于“最終重構(gòu)后的數(shù)據(jù)模式”的樹2400。接著,數(shù)據(jù)模式視覺化處理部215從讀出的數(shù)據(jù)模式所保存的樹2400,取得從根到各個葉為止的路徑2500?2503。然后,數(shù)據(jù)模式視覺化處理部215將包含在所取得的路徑2500?2503中的葉以外的節(jié)點的值設為輸出表2510的組2511的值,將葉的節(jié)點值設為該組2510的對應種數(shù)2512的值。然后,數(shù)據(jù)模式視覺化處理部215,在是與從數(shù)據(jù)模式存儲部108中讀出的數(shù)據(jù)模式對應的輸出的情況下,在區(qū)分2513中不進行任何記載。
[0137]進而,數(shù)據(jù)模式視覺化處理部215讀出存儲在數(shù)據(jù)模式例外存儲部202中的例外模式,與從數(shù)據(jù)模式存儲部108中讀出的數(shù)據(jù)模式同樣地,生成輸出表2510。即,數(shù)據(jù)模式視覺化處理部215取得路徑2503、2504,將包含在路徑2503、2504中的葉以外的節(jié)點值設為組2511的值,將葉的節(jié)點值設為對應種數(shù)2512的值。然后,數(shù)據(jù)模式視覺化處理部215,在是與從數(shù)據(jù)模式例外存儲部202讀出的例外模式對應的輸出的情況下,在區(qū)分2513中記載“例外”。
[0138]其結(jié)果是如圖25所示,在列2514中,表示作為數(shù)據(jù)模式的一部分用“5F3C2[A?Z]”這樣的字符串所示的組具有“2”個數(shù)據(jù)種數(shù)的情況。另外,在列2517中,表示用“######,,這樣的字符串所示的組具有“I”個數(shù)據(jù)種數(shù),該組是例外模式的情況,但列2517的例外模式與其他模式組相比,是文字模式極端不同的模式組的一個例子。另外,在列2518中,表示用“5F3D43”這樣的字符串所示的組具有“ I”個數(shù)據(jù)種類數(shù),該組是例外模式的情況,但列2518的例外模式與其他模式組相比是出現(xiàn)頻率低的模式組的一個例子。最后,數(shù)據(jù)模式視覺化處理部215依照被用戶指定的輸出方式,將輸出表2510輸出到輸出裝置104。
[0139](2-3)本實施方式的效果
[0140]在這樣的數(shù)據(jù)庫分析裝置20中,不只是著眼于所指定的表欄根據(jù)同一欄內(nèi)的數(shù)據(jù)值對分析對象的數(shù)據(jù)庫內(nèi)的數(shù)據(jù)群的特征進行分析,并基于該數(shù)據(jù)群的特征進行分組(分類),還針對具有數(shù)據(jù)的種類數(shù)比預定的基準少的模式組即出現(xiàn)頻度低、或字符模式極端不同等例外特征的模式組,作為例外模式從數(shù)據(jù)模式中排除,生成和輸出數(shù)據(jù)模式。其結(jié)果是除了第一實施方式的數(shù)據(jù)庫分析裝置10所起的效果以外,能夠向用戶提供將分析對象的數(shù)據(jù)庫內(nèi)的數(shù)據(jù)群匯總為比第一實施方式的情況更有代表性的特征所得的數(shù)據(jù)模式。這樣,在用戶根據(jù)數(shù)據(jù)庫分析裝置20的輸出結(jié)果生成測試數(shù)據(jù)的情況下,能夠有助于一邊掌握代表性數(shù)據(jù)的特征一邊生成測試數(shù)據(jù)。
[0141]另外,根據(jù)這樣的數(shù)據(jù)庫分析裝置20,還將從數(shù)據(jù)模式中排除了的例外模式與數(shù)據(jù)模式區(qū)分地一起輸出,因此能夠不損害對分析對象的數(shù)據(jù)庫內(nèi)的數(shù)據(jù)群的完整性地,更細致地向用戶提供數(shù)據(jù)群的特征。另外,在用戶根據(jù)數(shù)據(jù)庫分析裝置20的輸出結(jié)果生成測試數(shù)據(jù)的情況下,除了與數(shù)據(jù)模式對應的測試數(shù)據(jù)以外,還同時準備與作為例外模式輸出的模式組對應的測試數(shù)據(jù),由此能夠一邊注意出現(xiàn)頻度、文字模式的傾向,一邊生成覆蓋了數(shù)據(jù)庫的數(shù)據(jù)群的特征的測試數(shù)據(jù)。
[0142]另外,在這樣的數(shù)據(jù)庫分析裝置20中,在數(shù)據(jù)庫的分析處理中,一邊排除例外模式一邊重構(gòu)數(shù)據(jù)模式,由此能夠期待以下的效果,即縮短數(shù)據(jù)模式的重構(gòu)的處理時間,縮短數(shù)據(jù)庫的分析處理所需要的整體處理時間。
[0143](3)其他實施方式
[0144]此外,在上述第一和第二實施方式的數(shù)據(jù)庫分析裝置10、20中,說明了對存儲在數(shù)據(jù)庫30中的數(shù)據(jù)群進行分析的情況,但本發(fā)明并不限于此,例如也可以構(gòu)成為在存在經(jīng)由網(wǎng)絡31與數(shù)據(jù)庫分析裝置10、20連接的多個數(shù)據(jù)庫的情況下,在用戶進行指示數(shù)據(jù)庫分析的開始的預定的輸入操作時,通過指定成為分析對象的數(shù)據(jù)庫,而從所指定的數(shù)據(jù)庫向數(shù)據(jù)庫分析裝置10、20輸入存儲在該數(shù)據(jù)庫中的數(shù)據(jù)群的副本數(shù)據(jù)。
[0145]另外,在上述第一和第二實施方式的數(shù)據(jù)庫分析裝置10、20中,外部存儲裝置105,201是存儲部的一個例子,數(shù)據(jù)模式評價基準700、1900是用于判定數(shù)據(jù)模式的妥當性的第一判定基準的一個例子。另外,數(shù)據(jù)模式變形規(guī)則900或數(shù)據(jù)模式置換規(guī)則2110是針對包含在數(shù)據(jù)模式中的各組的構(gòu)成要素將概念上類似的構(gòu)成要素變換為相同的構(gòu)成要素那樣的預定的變換規(guī)則的一個例子。另外,數(shù)據(jù)模式排除規(guī)則2120是用于決定例外組的與包含在變形后的數(shù)據(jù)模式中的各組的出現(xiàn)頻度或數(shù)據(jù)結(jié)構(gòu)有關的第二判定基準的一個例子。另外,數(shù)據(jù)模式視覺化處理部115是將最后存儲在存儲部中的數(shù)據(jù)模式變換為預定的形式并使輸出裝置輸出變換后的數(shù)據(jù)模式的第一數(shù)據(jù)模式輸出處理部的一個例子。另外,數(shù)據(jù)模式視覺化處理部215是將最后存儲在存儲部中的數(shù)據(jù)模式和存儲在存儲部中的全部例外模式變換為預定的形式并使輸出裝置輸出變換后的數(shù)據(jù)模式和變換后的例外模式的第二數(shù)據(jù)模式輸出處理部的一個例子。
[0146]另外,本發(fā)明并不限于上述實施方式,包含各種變形例子。例如上述的實施方式為了容易理解地說明本發(fā)明而詳細進行了說明,但并不限于一定具備所說明的全部結(jié)構(gòu)。另夕卜,可以將某實施方式的結(jié)構(gòu)的一部分置換為其他實施方式的結(jié)構(gòu),另外也可以將其他實施方式的結(jié)構(gòu)追加到某實施方式的結(jié)構(gòu)中。另外,可以對各實施方式的結(jié)構(gòu)的一部分進行其他結(jié)構(gòu)的追加、刪除、置換。
[0147]另外,對于上述的各結(jié)構(gòu)、功能、處理部、處理單元等,可以通過例如用集成電路進行設計等而用硬件實現(xiàn)它們的一部分或全部。另外,也可以通過由處理器對實現(xiàn)各個功能的程序進行解釋并執(zhí)行而用軟件實現(xiàn)上述的各結(jié)構(gòu)、功能等??梢詫崿F(xiàn)各功能的程序、表、文件等信息放置在存儲器、硬盤、SSD (固態(tài)驅(qū)動器)等存儲裝置、或IC卡、SD卡、DVD等記錄介質(zhì)中。
[0148]另外,控制線、信息線表示出為了說明上的需要而考慮到的部分,并不限于產(chǎn)品上一定表示出全部的控制線、信息線。在實施時也可以考慮將幾乎全部的結(jié)構(gòu)相互連接起來。
【權(quán)利要求】
1.一種數(shù)據(jù)庫分析裝置,著眼于存儲在分析對象的數(shù)據(jù)庫中的數(shù)據(jù)群的數(shù)據(jù)內(nèi)的指定的表欄來分析上述數(shù)據(jù)群,其特征在于,具備: 存儲部,其存儲數(shù)據(jù); 數(shù)據(jù)整理部,其根據(jù)上述表欄的數(shù)據(jù)值對從上述分析對象的數(shù)據(jù)庫中取得的數(shù)據(jù)群進行整理,作為分析對象數(shù)據(jù)存儲在上述存儲部中; 數(shù)據(jù)模式生成處理部,其根據(jù)上述分析對象數(shù)據(jù)中的數(shù)據(jù)值的差異,對每個上述數(shù)據(jù)值生成組,將匯總上述組所得的數(shù)據(jù)模式存儲在上述存儲部中; 數(shù)據(jù)模式判定處理部,其根據(jù)第一判定基準判定存儲在上述存儲部中的數(shù)據(jù)模式的妥當性; 數(shù)據(jù)模式變形處理部,其當在通過上述數(shù)據(jù)模式判定處理部進行的妥當性的判定中得到了否定結(jié)果時,對上述數(shù)據(jù)模式進行變形而重構(gòu),將重構(gòu)后的上述數(shù)據(jù)模式存儲在上述存儲部中,其中, 上述數(shù)據(jù)模式變形處理部針對包含在上述數(shù)據(jù)模式中的各組的構(gòu)成要素,依照將概念上類似的構(gòu)成要素變換為相同的構(gòu)成要素那樣的預定的變換規(guī)則,對上述各組進行變形而重構(gòu)上述數(shù)據(jù)模式。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)庫分析裝置,其特征在于, 還具備:數(shù)據(jù)模式數(shù)值化處理部,其依照預先設定的數(shù)值化方法,進行用于判定上述數(shù)據(jù)模式的恰當性的評 分, 上述數(shù)據(jù)模式判定處理部通過將由上述數(shù)據(jù)模式數(shù)值化處理部對上述數(shù)據(jù)模式賦予的分數(shù)與上述第一判定基準進行比較,來判定上述數(shù)據(jù)模式的妥當性。
3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)庫分析裝置,其特征在于, 上述數(shù)據(jù)模式變形處理部重復進行上述數(shù)據(jù)模式的重構(gòu),直到在通過上述數(shù)據(jù)模式判定處理部進行的妥當性的判定中得到肯定結(jié)果為止、或在得到否定結(jié)果的情況下直到依照上述預定的變換規(guī)則無法進一步對上述數(shù)據(jù)模式進行變形為止。
4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)庫分析裝置,其特征在于, 上述數(shù)據(jù)模式的各組被構(gòu)成為包含:表示上述分析對象數(shù)據(jù)中的表欄的數(shù)據(jù)值的構(gòu)成要素、表示該數(shù)據(jù)值的出現(xiàn)次數(shù)或該數(shù)據(jù)的種類數(shù)的構(gòu)成要素。
5.根據(jù)權(quán)利要求1所述的數(shù)據(jù)庫分析裝置,其特征在于, 上述數(shù)據(jù)變形處理部除了對上述數(shù)據(jù)模式進行變形的處理以外,還針對包含在變形后的數(shù)據(jù)模式中的組,根據(jù)與各組的出現(xiàn)頻度或數(shù)據(jù)結(jié)構(gòu)有關的第二判定基準來決定例外的組,將所決定的上述例外的組作為例外模式存儲在上述存儲部中,生成從上述變形后的數(shù)據(jù)模式排除了該例外模式所得的數(shù)據(jù)模式,作為重構(gòu)后的數(shù)據(jù)模式存儲在上述存儲部中。
6.根據(jù)權(quán)利要求5所述的數(shù)據(jù)庫分析裝置,其特征在于, 在上述第二判定基準中,針對包含在上述數(shù)據(jù)模式中的各組,包含:該組的構(gòu)成要素的值、或在該組中包含的數(shù)據(jù)的種類數(shù)。
7.根據(jù)權(quán)利要求1所述的數(shù)據(jù)庫分析裝置,其特征在于,還具備: 輸出裝置,其輸出數(shù)據(jù); 第一數(shù)據(jù)模式輸出處理部,其將最后存儲在上述存儲部中的數(shù)據(jù)模式變換為預定的形式,使上述輸出裝置輸出變換后的數(shù)據(jù)模式。
8.根據(jù)權(quán)利要求5所述的數(shù)據(jù)庫分析裝置,其特征在于,還具備: 輸出裝置,其輸出數(shù)據(jù); 第二數(shù)據(jù)模式輸出處理部,其將最后存儲在上述存儲部中的數(shù)據(jù)模式和存儲在上述存儲部中的全部例外模式變換為預定的形式,使上述輸出裝置輸出變換后的上述數(shù)據(jù)模式和變換后的上述例外模式。
9.一種數(shù)據(jù)庫分析方法,是著眼于存儲在分析對象的數(shù)據(jù)庫中的數(shù)據(jù)群的數(shù)據(jù)內(nèi)的指定的表欄來分析上述數(shù)據(jù)群的數(shù)據(jù)庫分析裝置的數(shù)據(jù)庫分析方法,其特征在于, 上述數(shù)據(jù)分析裝置具備存儲數(shù)據(jù)的存儲部, 上述數(shù)據(jù)庫分析方法包括: 上述數(shù)據(jù)分析裝置根據(jù)上述表欄的數(shù)據(jù)值對從上述分析對象的數(shù)據(jù)庫中取得的數(shù)據(jù)群進行整理,作為分析對象數(shù)據(jù)存儲在上述存儲部中的數(shù)據(jù)整理步驟; 上述數(shù)據(jù)分析裝置根據(jù)上述分析對象數(shù)據(jù)中的數(shù)據(jù)值的差異,對每個上述數(shù)據(jù)值生成組,將匯總上述組所得的數(shù)據(jù)模式存儲在上述存儲部中的數(shù)據(jù)模式生成步驟; 上述數(shù)據(jù)分析裝置根據(jù)第一判定基準判定存儲在上述存儲部中的數(shù)據(jù)模式的妥當性的數(shù)據(jù)模式判定步驟; 上述數(shù)據(jù)分析裝置當在通過上述數(shù)據(jù)模式判定處理部進行的妥當性的判定中得到了否定結(jié)果時,針對包含在上述數(shù)據(jù)模式中的各組的構(gòu)成要素,依照將概念上類似的構(gòu)成要素變換為相同的構(gòu)成要素那樣的預定的變換規(guī)則,對上述各組進行變形而重構(gòu)上述數(shù)據(jù)模式,將重構(gòu)后的上述數(shù)據(jù) 模式存儲在上述存儲部中的數(shù)據(jù)模式重構(gòu)步驟。
10.根據(jù)權(quán)利要求9所述的數(shù)據(jù)庫分析方法,其特征在于, 在上述數(shù)據(jù)模式判定步驟中,上述數(shù)據(jù)分析裝置依照預先設定的數(shù)值化方法,進行用于判定上述數(shù)據(jù)模式的恰當性的評分,將通過上述評分對上述數(shù)據(jù)模式賦予的分數(shù)與上述第一判定基準進行比較,來判定上述數(shù)據(jù)模式的妥當性。
11.根據(jù)權(quán)利要求9所述的數(shù)據(jù)庫分析方法,其特征在于, 上述數(shù)據(jù)庫分析裝置重復進行上述數(shù)據(jù)模式重構(gòu),直到在上述數(shù)據(jù)模式判定步驟中的妥當性的判定中得到肯定結(jié)果為止、或在得到否定結(jié)果的情況下直到依照上述預定的變換規(guī)則無法進一步對上述數(shù)據(jù)模式進行變形為止。
12.根據(jù)權(quán)利要求9所述的數(shù)據(jù)庫分析方法,其特征在于, 在上述數(shù)據(jù)模式重構(gòu)步驟中,還包括: 上述數(shù)據(jù)庫分析裝置在對上述數(shù)據(jù)模式進行變形的處理后,針對包含在變形后的上述數(shù)據(jù)模式中的組,根據(jù)與各組的出現(xiàn)頻度或數(shù)據(jù)結(jié)構(gòu)有關的第二判定基準來決定例外的組的例外模式?jīng)Q定步驟; 上述數(shù)據(jù)庫分析裝置將在上述例外模式?jīng)Q定步驟中決定的例外的組作為例外模式存儲在上述存儲部中,生成從上述變形后的數(shù)據(jù)模式排除了該例外模式所得的數(shù)據(jù)模式的排除步驟,其中 上述數(shù)據(jù)庫分析裝置將通過上述排除步驟生成的數(shù)據(jù)模式作為重構(gòu)后的數(shù)據(jù)模式存儲在上述存儲部中。
13.根據(jù)權(quán)利要求12所述的數(shù)據(jù)庫分析方法,其特征在于, 在上述第二判定基準中,針對包含在上述數(shù)據(jù)模式中的各組,包含:該組的構(gòu)成要素的值、或在該組中包含的數(shù)據(jù)的種類數(shù)。
14.根據(jù)權(quán)利要求9所述的數(shù)據(jù)庫分析方法,其特征在于, 上述數(shù)據(jù)分析裝置具備輸出數(shù)據(jù)的輸出裝置, 上述數(shù)據(jù)庫分析方法還包括:上述數(shù)據(jù)庫分析裝置將最后存儲在上述存儲部中的數(shù)據(jù)模式變換為預定的形式,使上述輸出裝置輸出變換后的數(shù)據(jù)模式的第一數(shù)據(jù)模式輸出步驟。
15.根據(jù)權(quán)利要求12所述的數(shù)據(jù)庫分析方法,其特征在于, 上述數(shù)據(jù)分析裝置具備輸出數(shù)據(jù)的輸出裝置, 上述數(shù)據(jù)庫分析方法還包括:上述數(shù)據(jù)分析裝置將最后存儲在上述存儲部中的數(shù)據(jù)模式和存儲在上述存儲部中的全部例外模式變換為預定的形式,使上述輸出裝置輸出變換后的上述數(shù)據(jù)模式和變換后的上述例`外模式的第二數(shù)據(jù)模式輸出步驟。
【文檔編號】G06F17/30GK103778179SQ201310511560
【公開日】2014年5月7日 申請日期:2013年10月25日 優(yōu)先權(quán)日:2012年10月25日
【發(fā)明者】橋本康范, 三部良太, 吉村健太郎, 團野博文, 石川貞裕, 山口潔 申請人:株式會社日立制作所