多源異構數據高效匯聚存取架構系統的制作方法
【專利摘要】本發明提供一種多源異構數據高效匯聚存取架構系統,包括:多源異構數據協同管理子系統、多源異構數據高速緩存子系統、多源異構數據匯聚存儲子系統。多源異構數據協同管理子系統包括數據管理模塊、資源監控與管理模塊、檢索索引模塊,用于控制、協調整個存取架構系統。多源異構數據高速緩存子系統包括非結構化文件緩存模塊、內存數據庫模塊、延遲寫入模塊,用于提供異構數據的高效快速讀取。多源異構數據匯聚存儲子系統包括非結構化數據處理模塊、結構化數據處理模塊、分布式文件系統,用于實現異構數據的高效匯聚存儲。本發明可有效解決物聯網海量數據環境下存儲效率低,數據缺乏匯聚管理的問題。
【專利說明】多源異構數據高效匯聚存取架構系統
【技術領域】
[0001]本發明涉及一種系統架構,具體涉及一種物聯網的多源異構數據高效匯聚存取的基本架構。屬于物聯網大數據存儲的【技術領域】。
【背景技術】
[0002]目前隨著物聯網技術的高速發展,各種終端、基礎采集設備的數量和種類不斷增力口,每時每刻都會產生大量數據,這些數據種類繁多,分為結構化數據和非結構化數據。傳統的分布式文件存儲系統,在物聯網海量數據環境下存儲效率低,數據缺乏匯聚管理。迫切需要一種新的物聯網多源異構數據存儲的基本架構,實現海量異構數據的高效快速的匯聚與存取。
【發明內容】
[0003]本發明的目的在于針對當前多源異構數據存儲的高效快速存儲需求,提供一種多源異構數據高效匯聚存取架構系統。本發明采用的技術方案是:
一種多源異構數據高效匯聚存取架構系統,包括:
多源異構數據協同管理子系統、多源異構數據高速緩存子系統、多源異構數據匯聚存儲子系統;
多源異構數據協同管理子系統包括三個模塊:數據管理模塊、資源監控與管理模塊、檢索索引模塊;
多源異構數據高速緩存子系統包括三個模塊:非結構化文件緩存模塊、內存數據庫模塊、延遲與入|旲塊;
多源異構數據匯聚存儲子系統包括非結構化數據處理模塊、結構化數據處理模塊、分布式文件系統;其中非結構化數據處理模塊包括文件拆分子模塊、文件組合子模塊、文件驗證子模塊;結構化數據處理模塊包括:文件生成子模塊、文件管理子模塊;
多源異構數據協同管理子系統用于控制、協調整個存取架構系統;其中的數據管理模塊負責多源異構數據上傳、數據下載、數據修改以及對應用層的API支持;資源監控與管理模塊負責監控多源異構數據高速緩存子系統和多源異構數據匯聚存儲子系統的資源使用情況,當這兩個子系統中的物理緩存資源或物理存儲資源出現異常或者緊缺時進行預警;檢索索引模塊用于提供多源異構數據高速緩存子系統與多源異構數據匯聚存儲子系統內的數據存取索引;
多源異構數據高速緩存子系統用于提供異構數據的高效快速讀取;其中的非結構化文件緩存模塊利用高速緩存及最近最不常用算法來加速應用層對非結構化數據的讀取過程;內存數據庫模塊利用高速緩存來使得結構化數據在內存中進行操作;延遲寫入模塊將高速緩存中已經修改的文件按照設定的規則延遲后寫入分布式文件系統中;
多源異構數據匯聚存儲子系統用于實現異構數據的高效匯聚存儲;其中的非結構化數據處理模塊通過文件拆分子模塊來對大容量的單個非結構化文件進行拆分,并存入分布式文件系統中;通過文件組合子模塊與文件驗證子模塊來對分布式文件系統中拆分后的數據塊進行組合;結構化數據處理模塊通過文件生成子模塊與文件管理子模塊,來對結構化的數據表按照設定的規則進行XML文件轉換,并將轉換后的XML文件存入分布式文件系統中。
[0004]進一步地,所述存取架構系統進行多源異構數據高效匯聚存取時:
多源異構數據從應用層通過多源異構數據協同管理子系統的數據管理模塊進入系統后,根據不同的數據結構特征,即按照非結構化數據、結構化數據分別被多源異構數據匯聚子系統中的非結構化數據處理模塊和結構化數據處理模塊讀取,并進行相應的數據處理后,送入分布式文件系統中;
當應用層需要數據時,發送指令給數據管理模塊,該模塊調用檢索索引模塊來根據文件標識號或關鍵字遍歷多源異構數據高速緩存子系統中的非結構化文件緩存模塊和內存數據庫模塊,當發現沒有找到所需數據后,數據管理模塊發送指令給分布式文件系統,從中尋找到所需的源數據,在經過數據組合或XML文件轉換后,分別傳輸至多源異構數據高速緩存子系統中的非結構化文件緩存模塊或內存數據庫模塊中,之后通過數據管理模塊傳輸至應用層;
當應用層再次需要該數據時,數據管理模塊從非結構化文件緩存模塊和內存數據庫模塊中直接調取至應用層;
應用層需要對所取數據進行改寫時,通過數據管理模塊對非結構化文件緩存模塊或內存數據庫中的相應數據進行更改;如果是結構化數據的改寫,將數據改寫過程通過日志方式存放在延遲寫入模塊中;如果是非結構化數據的改寫,將數據改寫過程通過臨時文件的方式存放在延遲寫入模塊中;應用層能夠通過延遲寫入模塊對所需數據進行多次寫入更新,通過非結構化文件緩存模塊或內存數據庫,能夠將該數據的寫入和讀取速度加速;經過一個時間周期后,延遲寫入模塊將修改后的數據送入分布式文件系統中,進行最終的數據更新。
[0005]本發明的優點:本發明提供了一種科學合理的存取架構,實現了異構數據的高效匯聚存儲。有效解決了物聯網海量數據環境下存儲效率低,數據缺乏匯聚管理的問題。
【專利附圖】
【附圖說明】
[0006]圖1為本發明的結構框圖。
【具體實施方式】
[0007]下面結合具體附圖和實施例對本發明作進一步說明。
[0008]如圖1所示,多源異構數據高效匯聚存取架構系統框架圖包括三個子系統:多源異構數據協同管理子系統、多源異構數據高速緩存子系統、多源異構數據匯聚存儲子系統。多源異構數據協同管理子系統包括三個模塊:數據管理模塊、資源監控與管理模塊、檢索索引模塊。多源異構數據高速緩存子系統包括三個模塊:非結構化文件緩存模塊、內存數據庫模塊、延遲寫入模塊。多源異構數據匯聚存儲子系統包括非結構化數據處理模塊、結構化數據處理模塊、分布式文件系統,其中非結構化數據處理模塊包括文件拆分子模塊、文件組合子模塊、文件驗證子模塊;結構化數據處理模塊包括:文件生成子模塊、文件管理子模塊。
[0009]多源異構數據協同管理子系統的功能為控制、協調整個存取架構系統。其中的數據管理模塊的主要功能是負責多源異構數據上傳、數據下載、數據修改以及對應用層的API(Application Programming Interface,應用程序編程接口)支持,是一個總控模塊。數據上傳功能將應用層提交的數據上傳到多源異構數據匯聚存儲子系統內,并根據數據特結構征進行拆分或轉換后,進入分布式文件系統中。數據下載功能將應用層請求下載的數據返回應用層。資源監控與管理模塊的主要功能是負責監控多源異構數據高速緩存子系統和多源異構數據匯聚存儲子系統的資源使用情況,當這兩個子系統中的物理緩存資源或物理存儲資源(如硬盤容量)出現異常或者緊缺時進行預警。檢索索引模塊主要功能是提供多源異構數據高速緩存子系統與多源異構數據匯聚存儲子系統內的數據存取索引,以方便應用層進行數據操作。
[0010]多源異構數據高速緩存子系統的主要功能是提供異構數據的高效快速讀取。其中非結構化文件緩存模塊主要利用高速緩存(物理內存)及最近最不常用算法(LFU)來加速應用層對非結構化數據的讀取過程;內存數據庫模塊主要利用高速緩存(物理內存)來使得結構化數據在內存中進行操作。延遲寫入模塊主要是為了解決數據多租戶寫入后的數據與多源異構數據匯聚存儲子系統的同步問題,將高速緩存中已經修改的文件按照設定的規則延遲后寫入分布式文件系統中。
[0011]多源異構數據匯聚存儲子系統的主要功能是實現異構數據的高效匯聚存儲。其中非結構化數據處理模塊通過文件拆分子模塊來對大容量的單個非結構化文件進行拆分,并存入分布式文件系統中;通過文件組合子模塊與文件驗證子模塊來對分布式文件系統中拆分后的數據塊進行組合;由于大多數非結構化文件的數據量很大,不利于高效存儲訪問,通過拆分與組合的操作,來實現對任意大小的非結構化數據的高效存取。另外結構化數據處理模塊通過文件生成子模塊與文件管理子模塊,來對結構化的數據表按照設定的規則(t匕如時間段)進行XML文件轉換,并將轉換后的XML文件存入分布式文件系統中,最終實現異構數據的高效匯聚存儲。
[0012]本系統的多源異構數據高效匯聚存取過程如下:多源異構數據從應用層通過多源異構數據協同管理子系統的數據管理模塊第一次進入系統后,根據不同的數據結構特征,即按照非結構化數據、結構化數據分別被多源異構數據匯聚子系統中的非結構化數據處理模塊和結構化數據處理模塊讀取,并進行相應的數據處理后,送入分布式文件系統中。分布式文件系統可以選用目前比較流行成熟的Swift來部署。
[0013]當應用層需要數據時,發送指令給數據管理模塊,該模塊調用檢索索引模塊來根據文件標識號或關鍵字遍歷多源異構數據高速緩存子系統中的非結構化文件緩存模塊和內存數據庫模塊,當發現沒有找到所需數據后,數據管理模塊發送指令給分布式文件系統,從中尋找到所需的源數據,在經過數據組合或XML文件轉換后,分別傳輸至多源異構數據高速緩存子系統中的非結構化文件緩存模塊或內存數據庫模塊中,之后通過數據管理模塊傳輸至應用層。
[0014]當應用層再次需要該數據時,數據管理模塊將從高速的非結構化文件緩存模塊和內存數據庫模塊中直接調取至應用層。
[0015]應用層需要對所取數據進行改寫時,通過數據管理模塊對非結構化文件緩存模塊或內存數據庫中的相應數據進行更改;如果是結構化數據的改寫,將數據改寫過程通過日志方式存放在延遲寫入模塊中;如果是非結構化數據的改寫,將數據改寫過程通過臨時文件的方式存放在延遲寫入模塊中;應用層能夠通過延遲寫入模塊對所需數據進行多次寫入更新,通過非結構化文件緩存模塊或內存數據庫,能夠將該數據的寫入和讀取速度加速;經過一個時間周期后,延遲寫入模塊將修改后的數據送入分布式文件系統中,進行最終的數據更新。
【權利要求】
1.一種多源異構數據高效匯聚存取架構系統,其特征在于,包括: 多源異構數據協同管理子系統、多源異構數據高速緩存子系統、多源異構數據匯聚存儲子系統; 多源異構數據協同管理子系統包括三個模塊:數據管理模塊、資源監控與管理模塊、檢索索引模塊; 多源異構數據高速緩存子系統包括三個模塊:非結構化文件緩存模塊、內存數據庫模塊、延遲與入|旲塊; 多源異構數據匯聚存儲子系統包括非結構化數據處理模塊、結構化數據處理模塊、分布式文件系統;其中非結構化數據處理模塊包括文件拆分子模塊、文件組合子模塊、文件驗證子模塊;結構化數據處理模塊包括:文件生成子模塊、文件管理子模塊; 多源異構數據協同管理子系統用于控制、協調整個存取架構系統;其中的數據管理模塊負責多源異構數據上傳、數據下載、數據修改以及對應用層的API支持;資源監控與管理模塊負責監控多源異構數據高速緩存子系統和多源異構數據匯聚存儲子系統的資源使用情況,當這兩個子系統中的物理緩存資源或物理存儲資源出現異常或者緊缺時進行預警;檢索索引模塊用于提供多源異構數據高速緩存子系統與多源異構數據匯聚存儲子系統內的數據存取索引; 多源異構數據高速緩存子系統用于提供異構數據的高效快速讀取;其中的非結構化文件緩存模塊利用高速緩存及最近最不常用算法來加速應用層對非結構化數據的讀取過程;內存數據庫模塊利用高速緩存來使得結構化數據在內存中進行操作;延遲寫入模塊將高速緩存中已經修改的文件按照設定的規則延遲后寫入分布式文件系統中; 多源異構數據匯聚存儲子系統用于實現異構數據的高效匯聚存儲;其中的非結構化數據處理模塊通過文件拆分子模塊`來對大容量的單個非結構化文件進行拆分,并存入分布式文件系統中;通過文件組合子模塊與文件驗證子模塊來對分布式文件系統中拆分后的數據塊進行組合;結構化數據處理模塊通過文件生成子模塊與文件管理子模塊,來對結構化的數據表按照設定的規則進行XML文件轉換,并將轉換后的XML文件存入分布式文件系統中。
2.如權利要求1所述的多源異構數據高效匯聚存取架構系統,其特征在于:所述存取架構系統進行多源異構數據高效匯聚存取時: 多源異構數據從應用層通過多源異構數據協同管理子系統的數據管理模塊進入系統后,根據不同的數據結構特征,即按照非結構化數據、結構化數據分別被多源異構數據匯聚子系統中的非結構化數據處理模塊和結構化數據處理模塊讀取,并進行相應的數據處理后,送入分布式文件系統中; 當應用層需要數據時,發送指令給數據管理模塊,該模塊調用檢索索引模塊來根據文件標識號或關鍵字遍歷多源異構數據高速緩存子系統中的非結構化文件緩存模塊和內存數據庫模塊,當發現沒有找到所需數據后,數據管理模塊發送指令給分布式文件系統,從中尋找到所需的源數據,在經過數據組合或XML文件轉換后,分別傳輸至多源異構數據高速緩存子系統中的非結構化文件緩存模塊或內存數據庫模塊中,之后通過數據管理模塊傳輸至應用層; 當應用層再次需要該數據時,數據管理模塊從非結構化文件緩存模塊和內存數據庫模塊中直接調取至應用層;應用層需要對所取數據進行改寫時,通過數據管理模塊對非結構化文件緩存模塊或內存數據庫中的相應數據進行更改;如果是結構化數據的改寫,將數據改寫過程通過日志方式存放在延遲寫入模塊中;如果是非結構化數據的改寫,將數據改寫過程通過臨時文件的方式存放在延遲寫入模塊中;應用層能夠通過延遲寫入模塊對所需數據進行多次寫入更新,通過非結構化文件緩存模塊或內存數據庫,能夠將該數據的寫入和讀取速度加速;經過一個時 間周期后,延遲寫入模塊將修改后的數據送入分布式文件系統中,進行最終的數據更新。
【文檔編號】G06F17/30GK103678603SQ201310687009
【公開日】2014年3月26日 申請日期:2013年12月13日 優先權日:2013年12月13日
【發明者】葛浩棟, 陳曙東, 劉文娣 申請人:江蘇物聯網研究發展中心