一種用于大數據的分布式存儲系統的制作方法
【技術領域】
[0001]本發明涉及計算機應用技術領域,尤其涉及一種用于大數據的分布式存儲系統。
【背景技術】
[0002]隨著云計算、物聯網、移動互聯網等技術的發展,人類社會各個領域產生的數據量都急劇增長,這些大數據已經成為一種重要的資源,并形成了以數據為中心,以存儲為中心的發展趨勢,因此,如何存儲這些大數據變得非常重要。
[0003]傳統存儲采用集中式架構進行數據存儲,所有數據均由磁盤陣列Raid技術保證數據的安全性,并集中存儲在專用的存儲設備上,所有的生產數據均通過網絡或專用存儲網絡進行傳輸。但這種集中式架構存在擴容困難、成本高、安全性低、兼容性差的缺點。
【發明內容】
[0004]針對上述技術問題,本發明的目的在于提供一種用于大數據的分布式存儲系統,能有效解決上述問題。
[0005]為達此目的,本發明采用以下技術方案:
一種用于大數據的分布式存儲系統,包括:若干臺應用服務器組成的應用服務器集群、若干臺存儲服務器組成的存儲服務器集群和若干臺元數據服務器組成的元數據服務器集群,所述應用服務器、存儲服務器和元數據服務器通過通訊網絡互連進行數據交換;所述應用服務器集群用于產生和接收生產數據,所述存儲服務器集群用于提供存儲空間,所述元數據服務器集群用于管理存儲空間。
[0006]特別地,所述存儲服務器、元數據服務器均采用X86架構服務器,同時支持文件和塊協議。
[0007]特別地,所述存儲在各個應用服務器、存儲服務器和元數據服務器的數據均采用副本機制進行數據保護,且各副本數據均存儲在與母本數據不同的節點上。
[0008]特別地,所述應用服務器、存儲服務器和元數據服務器通過全線速Infiniband網絡進行互連。
[0009]本發明提出的用于大數據的分布式存儲系統采用分布式架構,存儲服務器同時支持文件和塊協議,所有存儲服務器同時進行數據存儲,存儲在存儲服務器上的數據均采用副本機制進行數據保護,且各副本數據均存儲在與母本數據不同的存儲服務器,所有數據采用前端數據切片、后端分布的方式進行存儲。從而使該存儲系統具有擴容簡單、成本第、安全性高、兼容性好的優點。
【附圖說明】
[0010]
圖1是本發明實施例提供的用于大數據的分布式存儲系統結構框圖。
【具體實施方式】
[0011]下面結合附圖和實施例對本發明作進一步說明。可以理解的是,此處所描述的具體實施例僅僅用于解釋本發明,而非對本發明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發明相關的部分而非全部內容,除非另有定義,本文所使用的所有的技術和科學術語與屬于本發明的技術領域的技術人員通常理解的含義相同。本文中在本發明的說明書中所使用的術語只是為了描述具體的實施例的目的,不是旨在于限制本發明。本文所使用的術語“及/或”包括一個或多個相關的所列項目的任意的和所有的組合。
[0012]實施例一
請參照圖1所示,圖1為本發明實施例提供的用于大數據的分布式存儲系統結構框圖。
[0013]本實施例中,用于大數據的分布式存儲系統包括若干臺應用服務器組成的應用服務器集群、若干臺存儲服務器組成的存儲服務器集群和若干臺元數據服務器組成的元數據服務器集群。所述應用服務器集群用于產生和接收生產數據,所述存儲服務器集群用于提供存儲空間,所述元數據服務器集群用于管理存儲空間。所述存儲服務器采用x86架構服務器,具體為SATA或SAS或SSD等硬盤;所述元數據服務器采用x86架構服務器,具體為SSD;所述應用服務器采用支持所有架構服務器設備。所述應用服務器、存儲服務器和元數據服務器通過Inf iniband互連,進行數據交換。
[0014]所述存儲系統的數據存儲過程包括寫入和讀出過程,具體為:
寫入過程:
1、由應用服務器集群產生生產數據。
[0015]2、應用服務器向元數據服務器申請寫入請求,請求內容包括需要寫入的數據文件的大小。
[0016]3、元數據服務器查詢整個存儲系統的地址空間,找出可以分配的地址塊,并將準備分配的地址塊信息返回到應用服務器。
[0017]4、應用服務器根據返回的地址塊信息,將文件分片,并傳輸到各存儲節點,寫入成功后,各節點返回寫入成功信號到元數據服務器,元數據服務器將地址塊空間標識為“已田,,
/TJ O
[0018]5、完成數據的寫入。
[0019]讀出過程:
1、應用服務器發出讀取請求到元數據服務器,請求包括讀取的文件路徑信息。
[0020]2、元數據服務器根據文件路徑信息查詢相關的存儲服務器的地址塊信息,并將信息返回到應用服務器。
[0021 ] 3、應用服務器根據各存儲服務器的地址塊信息,向各存儲節點發出數據塊讀取信息。
[0022]4、存儲節點根據數據塊信息將相應的應用數據塊返回到應用服務器。
[0023]本實施例所述用于大數據的分布式存儲系統中,采用帶外模式的大規模開放集群存儲架構,通過Inf iniband高速網絡將通用存儲服務器中的CPU、內存、網絡帶寬、磁盤轉速、總線性能整合在一起,形成一個高端存儲器,使得存儲總體性能高于計算處理能力與網絡帶寬的傳輸速度,以此來屏蔽由于磁盤和總線性能提升緩慢造成的存儲性能瓶頸。以全線速Inf iniband網絡互連前端的計算節點和后端的存儲及元數據節點,以保證存儲設備的性能輸出達到最大化。采用帶外模式,很好的消除了元數據通路與數據通路的相互干擾。而元數據服務器的集群化和存儲服務器的集群化,使得整個系統中不存在像NAS或者SAN系統那樣的性能瓶頸點,能夠完全滿足高性能計算應用高并發的需求。
[0024]同時,本實施例所述用于大數據的分布式存儲系統在無限制在線快速擴容以及負載均衡技術的基礎上采用高可擴展存儲技術,使得存儲系統的規模能夠隨著計算應用的發展而高效、無需中斷服務的在線擴展,同時達到隨著容量的增加性能的線性增長。
[0025]同時,本實施例所述用于大數據的分布式存儲系統在分布式存儲中多元數據服務器集群技術的基礎上,結合高性能計算應用文件創建、訪問以及目錄結構特點,采用多元數據服務器集群技術,在一套存儲系統中可以根據用戶生產系統中實際產生文件數量的規模對元數據服務器集群進行動態配置,整個存儲系統中所有的元數據服務器同時參與文件的檢索和定位工作,消除存儲系統中元數據通道的瓶頸,同時還可