專利名稱:一種cdc數據分發方法和裝置的制作方法
技術領域:
本發明涉及數據倉庫領域,特別涉及數據倉庫領域的數據整合。
背景技術:
CDC數據分發中心系統是專門針對數據倉庫領域做數據整合的一個產品,它是ELT模式的,而不是ETL模式。ELT就是先抽取再裝載最后清洗轉換;ETL就是先抽取再清洗最后裝載,目前該領域大部分還是ETL模式,而IS/BI-CDC數據分發中心系統是ELT模式的,通過快速抽取和裝載數據,從而在數據倉庫中進行數據轉換工作。它主要是用來做數據的抽取和裝載,抽取是把數據從業務系統的數據庫導出成文本文件;裝載是把抽取出來的
文本文件導入到數據倉庫中進行清洗轉換處理。現有技術對數據抽取是通過數據庫的JDBC,ODBC接口抽取,抽取效率不高;處理邏輯復雜,體系結構龐大,不輕量,安裝維護麻煩;0raCle數據庫只能單個進程抽取,抽取速度不高;不支持分布式抽取和裝載。
發明內容
本發明所要解決的技術問題是提供一種圖形化靈活開放的數據抽取快、完全基于源數據API實現、體系架構簡單、支持分布式并行抽取裝載的CDC數據分發方法。本發明解決上述技術問題的技術方案如下一種CDC數據分發方法,它包括以下步驟①配置抽取信息通過配置界面配置用于抽取數據庫中數據的抽取信息;②抽取進程讀取配置的抽取信息,把源數據庫中的數據從與業務相關的系統的數據庫中抽取出來生成文本文件;③配置裝載信息通過配置界面配置用于裝載數據庫中數據的裝載信息;④裝載進程讀取所述裝載信息,并把抽取進程導出的文本文件裝載到用于存放抽取的文本文件的目標數據庫中①配置抽取信息配置抽取進程所需要的抽取信息;在上述技術方案的基礎上,本發明還可以做如下改進。進一步,所述抽取進程包括Mysql抽取、Sql server抽取、greenplum抽取、Oracle抽取、db2抽取和/或組抽取。進一步,所述其中,所述Mysql抽取包括以下步驟①Mysql抽取進程向Mysql數據庫發起一個連接,②讀取配置的抽取信息,判斷當時系統時間是否在Mysql連接的時間窗口內,③如果在時間窗口范圍內,連接Mysql數據庫,利用Mysql API接口將數據導出生成文本文件,④如果不在時間窗口范圍內,直接結束抽取工作;所述Sql server抽取包括以下步驟①Sql server抽取進程向Sql server數據庫發起一個連接,②讀取配置的抽取信息,判斷當時系統時間是否在Sql server連接的時間窗口內,③如果在時間窗口范圍內,連接Sql server數據庫,利用freetds API接口將數據導出生成文本文件,④如果不在時間窗口范圍內,直接結束抽取工作;所述greenplum抽取包括以下步驟①greenplum抽取進程向greenplum分布式數據倉庫發起一個連接,②讀取配置的抽取信息,判斷當時系統時間是否在greenplum連接的時間窗口內,③如果在時間窗口范圍內,連接gree nplum數據庫,利用copy命令接口將數據導出生成文本文件,④如果不在時間窗口范圍內,直接結束抽取工作;所述Oracle抽取包括以下步驟①Oracle抽取進程向Oracle數據庫發起一個連接,②讀取配置的抽取信息,判斷當時系統時間是否在Oracle連接的時間窗口內,③如果在時間窗口范圍內,連接Oracle數據庫,通過記錄的數據塊地址,抽取進程對一張數據源表進行抽取,最終將數據導出生成文本文件,④如果不在時間窗口范圍內,直接結束抽取工作;所述db2抽取包括以下步驟①db2抽取進程向db2數據庫發起一個連接,②讀取配置的抽取信息,判斷當時系統時間是否在db2連接的時間窗口內,③如果在時間窗口范圍內,連接db2數據庫,在db2多分區數據中自動在所有分區開啟多個對應的分區抽取進程,分布式導出數據生成文本文件,④如果不在時間窗口范圍內,直接結束抽取工作;所述組抽取包括以下步驟①組抽取進程向兩個或兩個以上相同或者不同類型的數據庫發起一個連接,②讀取配置的抽取信息,判斷當時系統時間是否在組抽取下抽取連接的時間窗口內,③如果在時間窗口范圍內,連接相對應的數據庫,當組抽取下所有的抽取完成后,整個組抽取結束,否則為失敗,④如果不在時間窗口范圍內,直接結束抽取工作。進一步,所述裝載數據進程包括數據裝載、db2裝載、Oracle裝載、和/或greenplum 裝載。進一步,所述在進行所述裝載進程中讀取配置的裝載信息時,根據對應的抽取信息,把抽取出來的文本文件裝載到目標數據庫,如果裝載失敗,重新讀取裝載配置信息再進行裝載。進一步,所述數據裝載包括以下步驟①裝載進程Mysql數據庫發起一個連接,②讀取配置的裝載信息,判斷當時系統時間是否在裝載連接的時間窗口內,③如果在時間窗口范圍內,調用Mysql數據庫的loaddata裝載接口,把文件裝載到Mysql數據庫中,④如果不在時間窗口范圍內,直接結束抽取工作;所述db2裝載包括以下步驟①db2裝載進程向db2數據庫發起一個連接,②讀取配置的裝載信息,判斷當時系統時間是否在db2裝載連接的時間窗口內,③如果在時間窗口范圍內,調用db2裝載接口,把文件裝載到db2數據庫中,④如果不在時間窗口范圍內,直接結束抽取工作;所述Oracle裝載包括以下步驟①Oracle裝載進程向Oracle數據庫發起一個連接,②讀取配置的裝載信息,判斷當時系統時間是否在Oracle數據庫裝載連接的時間窗口內,③如果在時間窗口范圍內,調用Oracle裝載接口,在Oracle裝載接口調用sqlloader接口把文本文件裝載到Oracle數據庫中,④如果不在時間窗口范圍 內,直接結束抽取工作;所述greenplum裝載包括以下步驟①greenplum裝載進程向greenplum數據庫發起一個連接,②讀取配置的裝載信息,判斷當時系統時間是否在greenpIum裝載連接的時間窗口內,③如果在時間窗口范圍內,調用greenplum裝載接口連接greenplum數據庫,④連接greenplum數據庫后,裝載進程在greenplum數據庫中創建外部表和目標表,⑤裝載進程在greenplum分布式數據倉庫中執行insert into select操作,把文件裝載到greenplum分布式數據倉庫中,⑥如果不在時間窗口范圍內,直接結束抽取工作。另外,本發明還提供了一種⑶C數據分發裝置,該裝置包括配置抽取信息模塊,抽取模塊,配置裝載信息模塊,裝載數據模塊,其中配置抽取信息模塊,用于通過配置界面配置用于抽取數據庫中數據的抽取信息;抽取模塊,用于讀取配置的抽取信息,把源數據庫中的數據從與業務相關的系統的數據庫中抽取出來生成文本文件;配置裝載信息模塊,用于通過配置界面配置用于裝載數據庫中數據的裝載信息;裝載模塊,用于讀取所述裝載信息,并把抽取進程導出的文本文件裝載到用于存放抽取的文本文件的目標數據庫中進一步,所述抽取模塊包括Mysql抽取子模塊、Sql server抽取子模塊、greenplum抽取子模塊、Oracle抽取子模塊、db2抽取子模塊和/或組抽取子模塊。進一步,所述Mysql抽取子模塊,用于把Mysql數據庫的數據通過指定的SQL語句把數據從Mysql數據庫中導出成文本文件;所述Sql server抽取子模塊,用于把數據整合到數據倉庫平臺中;所述greenplum抽取子模塊,用于針對Sql server數據庫類型,把greenplum分布式數據倉庫的數據抽取出來,將數據分發到其它應用環境中;所述Oracle抽取子模塊,用于利用抽取進程對Oracle數據庫中Oracle數據源表抽取;所述db2抽取子模塊,用于針對db2多分區數據,從可行多分區數據庫并行導出數據;所述組抽取子模塊,用于對一張表的數據來自兩個或兩個以上不同或相同類型的數據庫,但只裝載到目標庫中的一張表中的情況,把兩個或兩個以上不同或相同類型的數據庫的數據抽取出來,生成兩個或兩個以上的文本文件。進一步,所述裝載模塊包括數據裝載子模塊、db2裝載子模塊、Oracle裝載子模塊和/或greenplum裝載子模塊。進一步,在運行所述裝載模塊中的讀取配置的裝載信息時,根據對應的抽取信息,把抽取出來的文本文件裝載到目標庫,如果裝載失敗,重新讀取裝載配置信息再進行裝載。進一步,所述數據裝載子模塊,用于在把數據倉庫的數據導出成文本后,通過Mysql裝載接口程序,把文本文件分發到Mysql數據庫中;所述db2裝載子模塊,用于針對目標數據倉庫是db2數據庫的情況,通過此接口把各個源數據統一裝載到db2數據庫中;
所述Oracle裝載子模塊,用于針對目標數據倉庫為Oracle數據庫或者把數據倉庫的數據要裝載到其它應用的Oracle后臺數據庫中的情況,通過Oracle裝載接口完成裝載進程;所述greenplum裝載子模塊,用于greenplum分布式數據倉庫環境,通過greenplum數據接口把各種數據源的數據通過抽取接口把數據全部導入到greenplum分布式數據倉庫中。 采用上述方案的有益效果是抽取、裝載基于配置方式運行,可以完全對外開放,同時對于oracle數據庫可以多線程并行抽取,提高抽取效率。基于圖形化的配置界面,流水線式的抽取裝載運行。支持greenplum數據的裝載,可有效利用greenplum數據庫的高性能計算能力來處理數據。
圖I為本發明整體流程圖;圖2為本發明Mysql抽取流程圖;圖3為本發明Sql server抽取流程圖;圖4為本發明greenplum抽取流程圖;圖5為本發明Oracle抽取流程圖;圖6為本發明db2抽取流程圖;圖7為本發明組抽取流程圖;圖8為本發明數據裝載流程圖;圖9為本發明db2裝載流程圖;圖10為本發明Oracle裝載流程圖;圖11為本發明greenplum裝載流程具體實施例方式以下結合附圖對本發明的原理和特征進行描述,所舉實例只用于解釋本發明,并非用于限定本發明的范圍。實施例I如圖I所示,本發明整體實施過程包括以下步驟①配置抽取信息通過配置界面配置用于抽取數據庫中數據的抽取信息,配置的信息包括要抽取的表,抽取后的文件存放目錄和文件名格式,檢驗文件存放目錄及檢驗文件名格式,數據文件保留天數,抽取的SQL,抽取前置SQL,抽取時間,空數據截止時間,是否啟用,運行主機,配置主機;②抽取進程讀取配置的抽取信息,把源數據庫中的數據從與業務相關的系統的數據庫中抽取出來生成文本文件,所述與業務相關的系統為如ERP系統,財務系統,業務支撐系統,OA系統,EBS,物流系統,網站購物平臺,客服系統,無線WAP平臺等等。;③配置裝載信息通過配置界面配置用于裝載數據庫中數據的裝載信息,所要配置的信息包括裝載編號所對應的抽取編號,裝載到目標數據庫的裝載協議,端口號,裝載開始時間,重新裝載次數,是否啟用,裝載的目標表名,裝載的目標數據庫連接名,清表SQL,后置SQL,裝載字段列表;④裝載進程讀取所述裝載信息,并把抽取進程導出的文本文件裝載到用于存放抽取的文本文件的目標數據庫中。所述抽取進程包括Mysql抽取、Sql server抽取、greenplum抽取、Oracle抽取、db2抽取和/或組抽取。所述裝載數據進程包括數據裝載、db2裝載、Oracle裝載、和/或greenplum裝載。所述在進行所述裝載進程中讀取配置的裝載信息時,根據對應的抽取信息,把抽取出來的文本文件裝載到目標數據庫,如果裝載失敗,重新讀取裝載配置信息再進行裝載。圖2為所述Mysql抽取的具體實施步驟
①Mysql抽取進程向Mysql數據庫發起一個連接,②讀取配置的抽取信息,判斷當時系統時間是否在Mysql連接的時間窗口內,所述時間窗口是指在某一時間段內,進程可以連接上相應數據庫,③如果在時間窗口范圍內,連接Mysql數據庫,利用Mysql API接口將數據導出生成文本文件,④如果不在時間窗口范圍內,直接結束抽取工作。圖3是所述Sql server抽取的具體實施時的步驟①Sql server抽取進程向Sql server數據庫發起一個連接,②讀取配置的抽取信息,判斷當時系統時間是否在Sql server連接的時間窗口內,③如果在時間窗口范圍內,連接Sql server數據庫,利用freetds API接口將數據導出生成文本文件,④如果不在時間窗口范圍內,直接結束抽取工作;圖4為所述greenplum抽取具體實施時的步驟①greenplum抽取進程向greenplum分布式數據倉庫發起一個連接,②讀取配置的抽取信息,判斷當時系統時間是否在greenplum連接的時間窗口內,③如果在時間窗口范圍內,連接greenplum數據庫,利用copy命令接口將數據導出生成文本文件,④如果不在時間窗口范圍內,直接結束抽取工作;圖5為所述Oracle抽取具體實施時的步驟①Oracle抽取進程向Oracle數據庫發起一個連接,②讀取配置的抽取信息,判斷當時系統時間是否在Oracle連接的時間窗口內,③如果在時間窗口范圍內,連接Oracle數據庫,通過記錄的數據塊地址,抽取進程對一張數據源表進行抽取,最終將數據導出生成文本文件,④如果不在時間窗口范圍內,直接結束抽取工作;圖6為所述db2抽取具體實施時的步驟①db2抽取進程向db2數據庫發起一個連接,②讀取配置的抽取信息,判斷當時系統時間是否在db2連接的時間窗口內,③如果在時間窗口范圍內,連接db2數據庫,在db2多分區數據中自動在所有分區開啟多個對應的分區抽取進程,分布式導出數據生成文本文件,④如果不在時間窗口范圍內,直接結束抽取工作;圖7為所述組抽取具體實施時的步驟①組抽取進程向兩個或兩個以上相同或者不同類型的數據庫發起一個連接,②讀取配置的抽取信息,判斷當時系統時間是否在組抽取下抽取連接的時間窗口內,③如果在時間窗口范圍內,連接相對應的數據庫,當組抽取下所有的抽取完成后,整個組抽取結束,否則為失敗,④如果不在時間窗口范圍內,直接結束抽取工作。
圖8為所述數據裝載具體實施時的步驟①裝載進程Mysql數據庫發起一個連接,②讀取配置的裝載信息,判斷當時系統時間是否在裝載連接的時間窗口內,③如果在時間窗口范圍內,調用Mysql數據庫的loaddata裝載接口,把文件裝載到Mysql數據庫中,④如果不在時間窗口范圍內,直接結束抽取工作;圖9為所述db2裝載的具體實施步驟①db2裝載進程向db2數據庫發起一個連接,②讀取配置的裝載信息,判斷當時系統時間是否在db2裝載連接的時間窗口內,③如果在時間窗口范圍內,調用db2裝載接口,把文件裝載到db2數據庫中,④如果不在時間窗口范圍內,直接結束抽取工作;
圖10為所述Oracle裝載具體實施時的步驟①Oracle裝載進程向Oracle數據庫發起一個連接,②讀取配置的裝載信息,判斷當時系統時間是否在Oracle數據庫裝載連接的時間窗口內,③如果在時間窗口范圍內,調用Oracle裝載接口,在Oracle裝載接口調用sql loader接口把文本文件裝載到Oracle數據庫中,④如果不在時間窗口范圍內,直接結束抽取工作;圖11為所述greenplum裝載具體實施時的步驟①greenplum裝載進程向greenplum數據庫發起一個連接,②讀取配置的裝載信息,判斷當時系統時間是否在greenpIum裝載連接的時間窗口內,③如果在時間窗口范圍內,調用greenplum裝載接口連接greenplum數據庫,④連接greenplum數據庫后,裝載進程在greenplum數據庫中創建外部表和目標表,⑤裝載進程在greenplum分布式數據倉庫中執行insert into select操作,把文件裝載到greenplum分布式數據倉庫中,⑥如果不在時間窗口范圍內,直接結束抽取工作。以上所述僅為本發明的較佳實施例,并不用以限制本發明,凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。
權利要求
1.一種CDC數據分發方法,其特征在于,它包括以下步驟 ①配置抽取信息通過配置界面配置用于抽取數據庫中數據的抽取信息; ②抽取進程讀取配置的抽取信息,把源數據庫中的數據從與業務相關的系統的數據庫中抽取出來生成文本文件; ③配置裝載信息通過配置界面配置用于裝載數據庫中數據的裝載信息; ④裝載進程讀取所述裝載信息,并把抽取進程導出的文本文件裝載到用于存放抽取的文本文件的目標數據庫中。
2.根據權利要求I所述的一種CDC數據分發方法,其特征在于所述抽取進程包括Mysql抽取、Sql server抽取、greenplum抽取、Oracle抽取、db2抽取和/或組抽取。
3.根據權利要求2所述的一種CDC數據分發方法,其特征在于其中,所述Mysql抽取包括以下步驟 ①Mysql抽取進程向Mysql數據庫發起一個連接,②讀取配置的抽取信息,判斷當時系統時間是否在Mysql連接的時間窗口內,③如果在時間窗口范圍內,連接Mysql數據庫,利用Mysql API接口將數據導出生成文本文件,④如果不在時間窗口范圍內,直接結束抽取工作; 所述Sql server抽取包括以下步驟 ①Sql server抽取進程向Sql server數據庫發起一個連接,②讀取配置的抽取信息,判斷當時系統時間是否在Sql server連接的時間窗口內,③如果在時間窗口范圍內,連接Sql server數據庫,利用freetds API接口將數據導出生成文本文件,④如果不在時間窗口范圍內,直接結束抽取工作; 所述greenplum抽取包括以下步驟 ①greenplum抽取進程向greenplum分布式數據倉庫發起一個連接,②讀取配置的抽取信息,判斷當時系統時間是否在greenpIum連接的時間窗口內,③如果在時間窗口范圍內,連接greenplum數據庫,利用copy命令接口將數據導出生成文本文件,④如果不在時間窗口范圍內,直接結束抽取工作; 所述Oracle抽取包括以下步驟 ①Oracle抽取進程向Oracle數據庫發起一個連接,②讀取配置的抽取信息,判斷當時系統時間是否在Oracle連接的時間窗口內,③如果在時間窗口范圍內,連接Oracle數據庫,通過記錄的數據塊地址,抽取進程對一張數據源表進行抽取,最終將數據導出生成文本文件,④如果不在時間窗口范圍內,直接結束抽取工作; 所述db2抽取包括以下步驟 ①db2抽取進程向db2數據庫發起一個連接,②讀取配置的抽取信息,判斷當時系統時間是否在db2連接的時間窗口內,③如果在時間窗口范圍內,連接db2數據庫,在db2多分區數據中自動在所有分區開啟多個對應的分區抽取進程,分布式導出數據生成文本文件,④如果不在時間窗口范圍內,直接結束抽取工作; 所述組抽取包括以下步驟 ①組抽取進程向兩個或兩個以上相同或者不同類型的數據庫發起一個連接,②讀取配置的抽取信息,判斷當時系統時間是否在組抽取下抽取連接的時間窗口內,③如果在時間窗口范圍內,連接相對應的數據庫,當組抽取下所有的抽取完成后,整個組抽取結束,否則為失敗,④如果不在時間窗口范圍內,直接結束抽取工作。
4.根據權利要求I所述的一種CDC數據分發方法,其特征在于所述裝載數據進程包括數據裝載、db2裝載、Oracle裝載、和/或greenplum裝載。
5.根據權利要求I所述的一種CDC數據分發方法,其特征在于在進行所述裝載進程中讀取配置的裝載信息時,根據對應的抽取信息,把抽取出來的文本文件裝載到目標數據庫,如果裝載失敗,重新讀取裝載配置信息再進行裝載。
6.根據權利要求5所述的一種CDC數據分發方法,其特征在于所述數據裝載包括以下步驟 ①裝載進程Mysql數據庫發起一個連接,②讀取配置的裝載信息,判斷當時系統時間是否在裝載連接的時間窗口內,③如果在時間窗口范圍內,調用Mysql數據庫的load data裝載接口,把文件裝載到Mysql數據庫中,④如果不在時間窗口范圍內,直接結束抽取工作; 所述db2裝載包括以下步驟 ①db2裝載進程向db2數據庫發起一個連接,②讀取配置的裝載信息,判斷當時系統時間是否在db2裝載連接的時間窗口內,③如果在時間窗口范圍內,調用db2裝載接口,把文件裝載到db2數據庫中,④如果不在時間窗口范圍內,直接結束抽取工作; 所述Oracle裝載包括以下步驟 ①Oracle裝載進程向Oracle數據庫發起一個連接,②讀取配置的裝載信息,判斷當時系統時間是否在Oracle數據庫裝載連接的時間窗口內,③如果在時間窗口范圍內,調用Oracle裝載接口,在Oracle裝載接口調用sql loader接口把文本文件裝載到Oracle數據庫中,④如果不在時間窗口范圍內,直接結束抽取工作; 所述greenplum裝載包括以下步驟 ①greenplum裝載進程向greenplum數據庫發起一個連接,②讀取配置的裝載信息,判斷當時系統時間是否在greenplum裝載連接的時間窗口內,③如果在時間窗口范圍內,調用greenplum裝載接口連接greenplum數據庫,④連接greenplum數據庫后,裝載進程在greenplum數據庫中創建外部表和目標表,⑤裝載進程在greenplum分布式數據倉庫中執行insert into select操作,把文件裝載到greenplum分布式數據倉庫中,⑥如果不在時間窗口范圍內,直接結束抽取工作。
7.—種CDC數據分發裝置,其特征在于,該裝置包括配置抽取信息模塊,抽取模塊,配置裝載信息模塊,裝載數據模塊,其中 配置抽取信息模塊,用于通過配置界面配置用于抽取數據庫中數據的抽取信息; 抽取模塊,用于讀取配置的抽取信息,把源數據庫中的數據從與業務相關的系統的數據庫中抽取出來生成文本文件; 配置裝載信息模塊,用于通過配置界面配置用于裝載數據庫中數據的裝載信息; 裝載模塊,用于讀取所述裝載信息,并把抽取進程導出的文本文件裝載到用于存放抽取的文本文件的目標數據庫中。
8.根據權利要求7所述的一種CDC數據分發裝置,其特征在于所述抽取模塊包括Mysql抽取子模塊、Sql server抽取子模塊、greenplum抽取子模塊、Oracle抽取子模塊、db2抽取子模塊和/或組抽取子模塊。
9.根據權利要求8所述的一種CDC數據分發裝置,其特征在于 所述Mysql抽取子模塊,用于把Mysql數據庫的數據通過指定的SQL語句把數據從Mysql數據庫中導出成文本文件; 所述Sql server抽取子模塊,用于把數據整合到數據倉庫平臺中; 所述greenplum抽取子模塊,用于針對Sql server數據庫類型,把greenplum分布式數據倉庫的數據抽取出來,將數據分發到其它應用環境中; 所述Oracle抽取子模塊,用于利用抽取進程對Oracle數據庫中Oracle數據源表抽取; 所述db2抽取子模塊,用于針對db2多分區數據,從可行多分區數據庫并行導出數據;所述組抽取子模塊,用于對一張表的數據來自兩個或兩個以上不同或相同類型的數據庫,但只裝載到目標庫中的一張表中的情況,把兩個或兩個以上不同或相同類型的數據庫的數據抽取出來,生成兩個或兩個以上的文本文件。
10.根據權利要求7所述的一種CDC數據分發裝置,其特征在于所述裝載模塊包括數據裝載子模塊、db2裝載子模塊、Oracle裝載子模塊和/或greenplum裝載子模塊。
11.根據權利要求7所述的一種CDC數據分發裝置,其特征在于在運行所述裝載模塊中的讀取配置的裝載信息時,根據對應的抽取信息,把抽取出來的文本文件裝載到目標庫,如果裝載失敗,重新讀取裝載配置信息再進行裝載。
12.根據權利要求10所述的一種CDC數據分發裝置,其特征在于 所述數據裝載子模塊,用于在把數據倉庫的數據導出成文本后,通過Mysql裝載接口程序,把文本文件分發到Mysql數據庫中; 所述db2裝載子模塊,用于針對目標數據倉庫是db2數據庫的情況,通過此接口把各個源數據統一裝載到db2數據庫中; 所述Oracle裝載子模塊,用于針對目標數據倉庫為Oracle數據庫或者把數據倉庫的數據要裝載到其它應用的Oracle后臺數據庫中的情況,通過Oracle裝載接口完成裝載進程; 所述greenplum裝載子模塊,用于greenplum分布式數據倉庫環境,通過greenplum數據接口把各種數據源的數據通過抽取接口把數據全部導入到greenplum分布式數據倉庫中。
全文摘要
本發明涉及一種CDC數據分發方法和裝置,其特征在于,它包括以下步驟①配置抽取信息通過配置界面配置用于抽取數據庫中數據的抽取信息;②抽取進程讀取配置的抽取信息,把源數據庫中的數據從與業務相關的系統的數據庫中抽取出來生成文本文件;③配置裝載信息通過配置界面配置用于裝載數據庫中數據的裝載信息;④裝載進程讀取所述裝載信息,并把抽取進程導出的文本文件裝載到用于存放抽取的文本文件的目標數據庫中。本發明具有圖形化靈活開放的配置模式,數據抽取快,完全基于源數據API實現,流水化作業方式的抽取和轉載。
文檔編號G06F17/30GK102663020SQ201210076928
公開日2012年9月12日 申請日期2012年3月21日 優先權日2012年3月21日
發明者馮志強, 官輝, 文彥峰, 李俊, 齊科軍 申請人:北京英孚斯邁特信息技術有限公司