專利名稱:數據遷移的方法和系統的制作方法
技術領域:
本發明涉及計算機系統數據處理領域,具體而言,是一種磁帶數據遷移的方法和 系統。
背景技術:
在金融、保險等諸多行業的計算機應用系統中,存在大量備份輸出到磁帶、磁盤、 光盤或本領域已知的任何存儲單元(下面簡稱為磁帶)上的歷史數據,這些歷史數據作為 企事業單位珍貴的信息資料和數字資產,需要長期保存和利用。但是,一方面由于磁帶有一 定生命周期,隨著保存時間的增加,磁帶會逐漸老化,超過一定期限后,磁帶上的數據存在 損壞或丟失的風險;另一方面,隨著計算機硬件和軟件技術的發展和升級,原有的備份系統 和平臺(如數據庫系統、業務系統等)逐漸的退出應用或被新的系統取代,而在原系統下備 份的數據則需要經過轉換處理才能在新的系統環境下使用。因此,需要定期將超過一定時 間期限的原磁帶數據遷移到新的目標存儲單元上,在遷移的操作中,根據應用場景還需要 對數據的編碼進行轉換和處理,以保證數據在新的環境下能正確的保存、讀取和使用。現有的磁帶數據遷移方式是首先在源數據備份平臺和系統環境中,將磁帶數據 還原讀取到計算機的磁盤存儲單元中,然后利用原平臺的數據恢復命令再對磁盤存儲單元 中的數據轉換和處理成所需的格式后,再輸出到新的目標存儲單元上。該方式雖然能夠完 成數據的遷移,但也存在著一個致命的缺陷由于各種磁帶上保存的數據時間跨度大,每個 時間段所用的軟、硬件平臺版本都有所區別,因此數據所涉及的軟、硬件平臺種類繁多,而 隨著系統的升級更新,原有的設備和環境已被替換或淘汰,為了遷移在這些平臺環境下備 份的原磁帶數據,需要投入和耗費大量的人力和設備資源創建一個與原備份數據相同的平 臺環境,然后才能將其中備份的數據遷移到新的目標存儲單元上,這種方式不僅操作相當 復雜,而且效率極其低下,成本十分高昂,因此,對于海量數據遷移來說幾乎難以實現和完 成。
發明內容
本發明的目的在于針對現有磁帶和其他存儲單元中的數據遷移過程依賴于源數 據特定的平臺和環境,因此使遷移工序復雜、效率低下、成本高昂的問題,而提供一種新的 數據遷移方法和系統,以簡化遷移工序,提高遷移效率,大大降低遷移的成本,使海量數據 遷移變得簡單易行。為了實現上述的目的,本發明提出了一種新的數據遷移的方法和系統。本發明的 核心是源數據的遷移不需要依賴特定的平臺和應用系統,而是通過對磁帶格式和文件格式 的自動檢測和解碼,提供一個通用的數據遷移平臺,在這個平臺下,可對所有已知格式的磁 帶數據進行遷移。上述的數據遷移系統包括一個或多個數據讀取模塊,一個格式特征庫,一個格式 檢測模塊,一個數據轉換模塊,一個或多個打包輸出模塊。數據讀取模塊用于讀取需要遷移的源數據。格式特征庫是用于存儲磁帶格式和文件格式特征匹配規則,每種格式對應一條 或多條匹配規則,這些規則能夠唯一識別對應格式的數據;格式檢測模塊是用于檢測數據 的磁帶格式和文件格式,當收到檢測請求時,系統根據格式特征庫中的匹配規則,對輸入數 據進行格式匹配,輸出匹配結果;數據轉換模塊是根據格式檢測結果,對指定格式的數據解 碼和轉換。生成中間文件;數據打包輸出模塊是將中間文件打包輸出到目標存儲單元中。數據讀取模塊從原存儲單元讀取源數據,該源數據輸入到格式檢測模塊中,當格 式檢測模塊收到檢測請求時,系統根據格式特征庫中的匹配規則,對輸入數據進行格式匹 配,輸出匹配結果;該結果輸入到數據轉換模塊中,在數據轉換模塊中對指定格式的數據解 碼和轉換,生成中間文件;該中間文件輸入到數據打包輸出模塊中,打包后存儲到目標存儲 單元中,完成數據的遷移。基于上述遷移系統,本發明提出了一種數據遷移方法,本方法包括以下的步驟1、讀取需要遷移的原磁帶中的數據。2、檢測源數據磁帶格式,所述磁帶格式是指數據在磁帶上的存儲格式,其中至少 包含一個或若干個數據塊,可能還包含若干個用于描述磁帶格式和數據信息的標簽。識別 出磁帶格式后,根據該磁帶格式結構,對數據進行轉換和處理,提取其中的有效數據。3、檢測數據文件格式,所述文件格式是指數據還原到磁盤上的存儲格式,常見的 文件格式是結構化的數據集,在結構化的文件結構中,一個文件包含若干條記錄,每條記錄 包含若干字段。識別出數據文件格式后,對其中的記錄和字段進行轉換和處理,同時根據轉 換策略,在記錄和字段之間添加標簽(Tag),生成中間文件。4、將步驟3中生成的中間文件打包輸出到目標存儲單元中。本發明的有益效果是,與現有技術相比較,本發明中采用了自動識別數據的磁帶 格式、文件格式,并對其進行解碼和轉換,生成中間文件,然后再打包輸出。使得數據遷移過 程不依賴于特定的備份平臺和應用系統,可以在一個平臺上對其它所有平臺的數據進行遷 移,實現了跨平臺的數據遷移,降低了遷移過程的復雜度,提高了遷移效率,降低了遷移成 本,是海量數據遷移的優選方法。為了使本發明更加清晰和便于理解,下面通過附圖和實施例對其做進一步詳細說 明。
圖1為本發明的實施例之系統示意方框圖。圖2為本發明所述數據遷移方法的流程圖;圖3為圖2中的磁帶格式解碼流程圖;圖4為圖2中的文件格式解碼流程圖。
具體實施例方式參看圖1。本發明的數據遷移系統包括一個或多個數據讀取模塊20,對于磁帶數 據遷移,常用的讀取模塊為與磁帶型號兼容的磁帶驅動器;一個格式特征庫30,格式特征 庫是用于存儲磁帶格式和文件格式特征匹配規則,每種格式對應一條或多條匹配規則,這 些規則能夠唯一識別對應格式的數據;一個格式檢測模塊40,格式檢測模塊是用于檢測數據的磁帶格式和文件格式;一個數據轉換模塊50,數據轉換模塊是根據格式檢測結果,對 指定格式的數據解碼和轉換,生成中間文件;一個或多個打包輸出模塊60,數據打包輸出 模塊是將中間文件打包輸出到目標存儲單元中。數據讀取模塊20從原存儲單元10中讀取 需要遷移的源數據,源數據可以包括文件、文件系統、程序、多媒體文件、數據庫、數據集、邏 輯目錄和邏輯卷等。該源數據輸入到格式檢測模塊40中,當格式檢測模塊40收到檢測請 求時,系統根據格式特征庫30中的匹配規則,對輸入數據進行格式匹配,輸出匹配結果;該 結果輸入到數據轉換模塊50中,在數據轉換模塊50中對指定格式的數據解碼和轉換,生成 中間文件;該中間文件輸入到數據打包輸出模塊60中,打包后存儲到目標存儲單元70中, 完成數據的遷移。參照圖2所示,本發明所述數據遷移方法包括以下的步驟步驟101,讀取原磁帶數據,將需要遷移的數據從原磁帶轉移到計算機內存單元 中,在一個具體的實施方案中,該項操作可由磁帶驅動器或其它可存取磁帶數據的設備完 成。計算機讀出的數據中,包含了磁帶格式和文件格式等附加信息,將這種帶磁帶格式的數 據稱之為原始磁帶數據。步驟102,磁帶格式解碼,首先對原始磁帶數據進行磁帶格式檢測和識別,然后根 據識別結果,按照磁帶格式的結構,對原始磁帶數據進行解碼和轉換,過濾其中的磁帶格式 的附加信息,生成文件數據。步驟103,文件格式解碼,首先對文件數據進行文件格式檢測和識別,然后根據識 別結果,按照文件格式的結構,對文件數據進行解碼和轉換,生成中間文件。步驟104,數據打包輸出,按照預定的打包輸出策略,將中間文件重新組織輸出到 目標存儲單元,所述輸出策略可以選擇下列其中的一種或兩種的組合1、根據文件中數據內容的分類進行打包,同屬于一個應用系統的文件數據內容存 在一定的相關性,例如數據庫系統中的同一個表或相同記錄結構的數據,將這些相關的數 據打包到同一存儲單元有利于數據的查找。2、根據文件中數據創建時間進行打包,將相同時間段創建的數據打包到同一存儲單元。參照附圖3,前述的步驟102,磁帶格式解碼包括下面的步驟步驟201,接收磁帶格式解碼請求,在具體的實施方案中,該請求可以在讀取到一 個數據塊時觸發,也可以在讀取完整個磁帶數據時產生;步驟202,檢查是否需要檢測磁帶格式,如果在之前的步驟中已經執行過磁帶格式 檢測,則直接跳到步驟206,否則進入下一步;步驟203,加載格式特征庫,取出所有的磁帶格式的匹配規則;步驟204,磁帶格式匹配,根據匹配規則定義,對請求數據進行匹配;步驟205,判斷匹配是否成功,即根據匹配結果,如果匹配成功,則進入下一步,否 則結束解碼;步驟206,磁帶格式解碼,即根據磁帶格式檢測的結果,按照該磁帶格式所定義的 數據存儲結構進行相應的解碼。步驟207,輸出解碼后的文件數據,即將磁帶格式解碼結果輸出到文件數據中。參照附圖4,前述的步驟103,文件格式解碼包括下面的步驟
步驟301,接收文件格式解碼請求,在具體的實施方案中,該請求在磁帶格式解碼 后產生;步驟302,檢查是否需要檢測文件格式,如果在之前的步驟中已經執行過文件格式 檢測,則直接跳到步驟306,否則進入下一步;步驟303,加載格式特征庫,取出所有的文件格式的匹配規則;步驟304,文件格式匹配,根據匹配規則定義,對請求的文件數據進行匹配;步驟305,判斷匹配是否成功,即根據匹配結果,如果匹配成功,則進入下一步,否 則結束解碼;步驟306,文件格式解碼,即根據文件格式檢測的結果,按照該文件格式所定義的 數據存儲結構進行相應的解碼。步驟307,輸出解碼后的數據,即將文件格式解碼結果輸出到中間數據中。以上所述僅為本發明的優選實施例而已,并不用于限制本發明,對于本領域的技 術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原則之內,所作的任何修 改、等同替換、改進等,均應包含在本發明的保護范圍之內。
權利要求
1.一種數據遷移的系統,其特征是包括一個或多個數據讀取模塊,數據讀取模塊用于讀取需要遷移的源數據; 一個格式特征庫,格式特征庫是用于存儲磁帶格式和文件格式特征匹配規則,每種格 式對應一條或多條匹配規則,這些規則能夠唯一識別對應格式的數據;一個格式檢測模塊,格式檢測模塊是用于檢測數據的磁帶格式和文件格式,當收到檢 測請求時,系統根據格式特征庫中的匹配規則,對輸入數據進行格式匹配,輸出匹配結果;一個數據轉換模塊,數據轉換模塊是根據格式檢測結果,對指定格式的數據解碼和轉 換。生成中間文件;一個或多個打包輸出模塊,數據打包輸出模塊是將中間文件打包輸出到目標存儲單元中;數據讀取模塊從原存儲單元讀取源數據,該源數據輸入到格式檢測模塊中,當格式檢 測模塊收到檢測請求時,系統根據格式特征庫中的匹配規則,對輸入數據進行格式匹配,輸 出匹配結果;該結果輸入到數據轉換模塊中,在數據轉換模塊中對指定格式的數據解碼和 轉換,生成中間文件;該中間文件輸入到數據打包輸出模塊中,打包后存儲到目標存儲單元 中,完成數據的遷移。
2.一種數據遷移的方法,其特征是包括以下的步驟步驟(101),讀取原磁帶中的數據,將需要遷移的數據從原磁帶或其它存儲單元轉移到 計算機內存單元中,計算機讀出的數據中包含了磁帶格式和文件格式等附加信息,將這種 帶磁帶格式的數據統稱之為原始磁帶數據;步驟(102),磁帶格式解碼,首先對原始磁帶數據進行磁帶格式檢測和識別,然后根據 識別結果,按照磁帶格式的結構,對原始磁帶數據進行解碼和轉換,過濾其中的磁帶格式的 附加信息,生成文件數據;步驟(103),文件格式解碼,首先對文件數據進行文件格式檢測和識別,然后根據識別 結果,按照文件格式的結構,對文件數據進行解碼和轉換,生成中間文件;步驟(104),數據打包輸出,按照預定的打包輸出策略,將中間文件重新組織輸出到目 標存儲單元。
3.根據權利要求2所述的數據遷移的方法,其特征是所說的步驟(102),磁帶格式解碼 包括下面的步驟步驟(201),接收磁帶格式解碼請求,該請求可以在讀取到一個數據塊時觸發,也可以 在讀取完整個磁帶數據時產生;步驟(202),檢查是否需要檢測磁帶格式,如果在之前的步驟中已經執行過磁帶格式檢 測,則直接跳到步驟(206),否則進入下一步;步驟(203),加載格式特征庫,取出所有的磁帶格式的匹配規則; 步驟(204),磁帶格式匹配,根據匹配規則定義,對請求數據進行匹配; 步驟(205),判斷匹配是否成功,即根據匹配結果,如果匹配成功,則進入下一步,否則 結束解碼;步驟(206),磁帶格式解碼,即根據磁帶格式檢測的結果,按照該磁帶格式所定義的數 據存儲結構進行相應的解碼;步驟(207),輸出解碼后的文件數據,即將磁帶格式解碼結果輸出到文件數據中。
4.根據權利要求2或3所述的數據遷移的方法,其特征是所說的步驟(103),文件格式 解碼包括下面的步驟步驟(301),接收文件格式解碼請求,該請求在磁帶格式解碼后產生; 步驟(302),檢查是否需要檢測文件格式,如果在之前的步驟中已經執行過文件格式檢 測,則直接跳到步驟306,否則進入下一步;步驟(303),加載格式特征庫,取出所有的文件格式的匹配規則; 步驟(304),文件格式匹配,根據匹配規則定義,對請求的文件數據進行匹配; 步驟(305),判斷匹配是否成功,即根據匹配結果,如果匹配成功,則進入下一步,否則 結束解碼;步驟(306),文件格式解碼,即根據文件格式檢測的結果,按照該文件格式所定義的數 據存儲結構進行相應的解碼;步驟(307),輸出解碼后的數據,即將文件格式解碼結果輸出到中間數據中。
5.根據權利要求4所述的數據遷移的方法,其特征是所說的步驟(104),數據打包輸 出,按照預定的打包輸出策略,將中間文件重新組織輸出到目標存儲單元,所述的輸出策略 可以選擇下列其中的一種或兩種的組合(1)根據文件中數據內容的分類進行打包,同屬于一個應用系統的文件數據內容存在 一定的相關性,例如數據庫系統中的同一個表或相同記錄結構的數據,將這些相關的數據 打包到同一存儲單元有利于數據的查找;(2)根據文件中數據創建時間進行打包,將相同時間段創建的數據打包到同一存儲單兀。
全文摘要
本發明公開了一種數據遷移的方法和系統,旨在解決現有的數據遷移操作復雜,效率低下,成本高昂,對海量數據遷移幾乎難以實現的缺陷。該方法包括以下的步驟讀取需要遷移的磁帶中的源數據;檢測源數據磁帶格式;識別出磁帶格式后,根據該磁帶格式結構,對數據進行轉換和處理,提取其中的有效數據;檢測數據文件格式,所述文件格式是指數據還原到磁盤上的存儲格式;識別出數據文件格式后,對其中的記錄和字段進行轉換和處理,同時根據轉換策略,在記錄和字段之間添加標簽,生成中間文件,再將生成的中間文件打包輸出到目標存儲單元中。本發明用于將超過一定時間期限的磁帶源數據遷移到新的目標存儲單元上的場合。
文檔編號G06F17/30GK102135963SQ20101010044
公開日2011年7月27日 申請日期2010年1月21日 優先權日2010年1月21日
發明者馮利來, 張建平, 范國華 申請人:深圳市智駿數據科技有限公司