專利名稱:一種大規模感染控制數據存儲處理方法
技術領域:
本發明涉及一種大規模感染控制數據存儲處理裝置。
背景技術:
隨著計算機技術發展與普及,辦公自動化已深入到各行各業。醫院作為一個服務型行業,醫療信息化管理尤為重要。醫院在進行事務處理時,會產生大量的數據,其中包括結構化、半結構化和非結構化的數據。醫療技術的發展使得醫院的日常業務發生了很大變化,各式各樣的醫療設備應用到醫療服務中來,產生了大量的影像數據。從海量信息中實現信息追溯、事故定位 成為新的需求。此外,醫院日常事務所產生的海量信息被要求保存至少5年以上。現階段,醫院主要利用大型關系型數據庫存儲和專有的文件系統管理影像、視頻及其他格式的信息,并通過以高性能服務器、網絡及存儲設備構成硬件支持平臺將這些信息以數字化的方式存儲,并提供一定的輔助功能,如信息修改、查詢、備份、容災等等。對外提供一定的訪問接口,方便信息的融合和對醫院業務的監控管理。相關技術 HIS系統
HIS是覆蓋醫院所有業務和業務全過程的信息管理系統。利用計算機軟硬件技術、網絡通信技術等現代化手段,對醫院及其所屬各部門的人流、物流、財流進行綜合管理,對在醫療活動各階段產生的數據進行采集、儲存、處理、提取、傳輸、匯總、加工生成各種信息,從而為醫院的整體運行提供全面的、自動化的管理及各種服務的信息系統。HIS系統主要由掛號與預約系統、劃價收費系統、門診藥房系統、門診醫生工作站系統、門診護士站系統、住院管理系統、病案管理系統、手術系統等18個子系統組成,數據主要存儲在關系型數據庫中,提供了諸如數據查詢、修改、統計、打印等常見功能。PACS 系統
在現代醫療行業,醫學影像信息系統PACS是指包含了包括了 RIS,以DIC0M3.0國際標準設計,以高性能服務器、網絡及存儲設備構成硬件支持平臺,以大型關系型數據庫作為數據和圖像的存儲管理工具,以醫療影像的采集、傳輸、存儲和診斷為核心,是集影像采集傳輸與存儲管理、影像診斷查詢與報告管理、綜合信息管理等綜合應用于一體的綜合應用系統,主要的任務就是把醫院影像科日常產生的各種醫學影像(包括核磁、CT、DR、超聲、各種X光機等設備產生的圖像)通過DIC0M3.0國際標準接口(中國市場大多為模擬,DIC0M,網絡等接口)以數字化的方式海量保存起來,當需要的時候在一定的授權下能夠很快的調回使用,同時增加一些輔助診斷管理功能。現階段,行業在改進PACS系統上做了幾點努力,一是內部存儲格式標準化為DIC0M3.0,這樣做的好處在于更換PACS時不必找舊PACS廠家來轉換數據。二是采納標準壓縮算法來壓縮圖像文件。三是PACS系統三級儲存模式(在線、近線和離線)已經轉變成兩級(在線和備份)。在線模式使用RAID (冗余存儲磁盤陣列)加NAS或SAN技術。
EMR 系統
電子病歷(EMR,也叫計算機化的病案系統或稱基于計算機的病人記錄)。它是用電子設備(計算機、健康卡等)保存、管理、傳輸和重現的數字化的病人的醫療記錄,取代手寫紙張病歷。它的內容包括紙張病歷的所有信息。該系統同HIS系統一樣,所有數據存儲在關系型數據庫中。現有系統缺點
現有技術雖然能夠較好的解決醫院日常業務所產生的數據,但是隨著工業技術的發展,這些技術在面對新型應用需求時顯得捉襟見肘,特別RFID技術及二維碼技術的在醫院業務中的應用使得現有系統呈現出如下的一些缺點:
1、系統容量小:醫院各種業務產生大量的數據,在一段時間內,這些數據將保存并且可能隨時被訪問,因此需要占用大量的存儲介質。以現有技術方案,增加一個存儲節點的難度大,對系統的穩定性產生很大影響。2、信息追溯難度大:現有的系統并沒有考慮到信息的追溯問題,因而在這方面做的工作很少,這使得信息追溯變得非常困難。但是隨著新技術的引入,信息追溯將是醫院管理系統的必須考慮的重要方向。3、缺乏對日志文件的管理:傳統的HIS缺乏對器械類設備的管理工作,沒有為器械建立使用日志文件,在器械出現故障時難以對故障出現的原因進行追蹤,給管理上造成諸多不便。4、系統擴展性差:現有的HIS、PACS、EMR系統基本覆蓋了醫院的所有業務,并對這些業務進行了建模工作和實現。但是現代科技的發展使得這些預先定義的業務規則處理這類新應用時遇到困難,若要在系統加入新應用,可能需要改變已有的業務規則,所以系統的擴展性較差。5、系統適應性差:現階段,RFID技術、二維碼技術、視頻監控技術已經應用的許多領域,特別在物流、信息追溯領域,這些技術擁有巨大的需求。在不久的將來,這些技術將會在醫院得以應用,但是現有的系統并沒有考慮到為這些技術提供交互的接口,因而需要重新建立系統應用甚至是更換系統架構。
發明內容
通過前面的分析,結合醫院的業務需求,本發明需要解決如下的幾個問題:
(1)大規模感控信息的存儲問題。傳統關系型數據庫在容量和擴展性上受到很大的限制,即使由關系型數據庫組成數據庫集群,其容量增長效果很小,難以達到PB級存儲要求。本發明采用傳統數據庫和新型數據庫以及分布式文件系統相結合,物盡其用,擴展系統的存儲容量。新型數據庫集群系統構建在分布式系統上,存儲節點可以隨意添加,只做少量配置工作即可使用,可大大提升了系統的存儲容量。另外,影像、圖片等二進制文件與結構化數據分類存儲,大大緩解數據庫存儲壓力。(2)系統適應性問題。RFID、二維碼等技術應用到醫院日常業務中來,可以提高了醫院辦事的效率。但是原有的HIS系統并沒有為這類技術提供足夠的支持,如果要適應這類技術帶來的應用變化,需要在原有的系統上做較大規模的改動。本發明將這些技術所產生的應用需求考慮在內,規范數據格式和業務流程,將RFID、二維碼技術等新技術融合到系統中,實現對數據、事務的統一建模,從而提高系統對新技術的適應性。(3)信息云處理問題。已有HIS系統基本采用集中式業務處理規則,資源和服務過于集中,很難處理大量突發應用請求,資源共享效率低。本發明通過將資源部署到各個存儲節點,并分析應用請求,將請求分發給相應的存儲節點,由存儲節點分擔主服務任務,從而為用戶提供一種云服務。本發明為了實現上述目的采用以下技術方案:
一種大規模感染控制數據存儲處理方法,其特征在于包括:
步驟1:客戶端程序A向存儲服務器提交原始數據(I ),存儲服務器的數據存儲管理單元對原始數據(I)進行過濾、查錯檢測和格式化處理,得到具有符合系統存儲的數據結構(2),存儲服務器根據預定存儲優化策略將數據結構(2)存儲到相應集群設備;
步驟2:客戶端B向存儲服務器提交數據取回請求(3),數據取回單元托管數據取回請求(3),具體操作為:分析數據取回請求(3),分解至最小查詢粒度(4),并分配最小查詢粒度⑷到相應的集群;如mysql集群、HBase集群或HDFS集群;
步驟3:集群存儲節點響應最小查詢粒度(4),分發請求到相應的數據存儲節點,存儲節點根據查詢條件返回數據到集群主節點,主節點完成數據的合并處理,得到數據集(5),并將數據集(5)返回到數據取回管理單元,數據取回管理單元處理數據集(5),轉換成數據流(6),交互用戶;
步驟4:容量監控單元持續監控系統容量變化,統計數據流入系統的速率,預判系統容量是否滿足當前以及未來的存儲需求,生成詳細報告提交系統管理員;
步驟5:備份恢復單元在一定時間內對系統的數據進行備份處理,并完成數據的一致性檢驗,數據在存儲服務器·上至少保留3分以上,以滿足數據容災需求。數據恢復管理需要完成丟失、損壞數據的恢復工作,并將新數據無損遷移到新存儲節點上。本發明具有以下有益效果:
批量數據存儲:數據服務器將客戶端(包括非可見終端如RFID、二維碼掃描器)提交的大量數據進行智能處理,初步處理后的數據交予相應存儲集群,由集群主節點實現數據的分片、存儲、備份工作,數據服務器負責更新數據索引目錄,減少與數據庫的交互次數,實現批量數據快速存儲工作。備份與恢復:系統為每個數據保留3份以上備份,備份數據存儲在不同的存儲節點上。在系統發生異常,數據遭到破壞時,可以迅速從備份文件中實現信息的快速恢復工作。負載平衡:負責平衡包括資源的負載平衡和計算負載平衡,以及他們之間的綜合優化。系統提供一個負載平衡的優化策略,對于經常訪問的資源,系統將為其建立資源索弓丨,并將這些資源存儲到性能較好的節點上。數據服務器將接受到的應用請求分配到各個子節點,而非響應全部的請求,從而達到計算負載平衡的效果。并行查詢:數據服務器將數據請求分配到各個集群存儲節點上,集群存儲主節點合并數據結果,返回客戶相應數據,由于是多個節點同時響應請求,從而實現信息的并行化查詢,加快系統響應的速度。
圖1系統架構示意 圖2系統處理邏輯示意圖
圖3大規模數據寫入處理流程 圖4智能信息追溯處理流程 圖5存儲容量實時監控示意 圖6數據備份災難恢復示意圖。圖中I為I為原始數據、2為數據結構、3為數據取回請求、4為最小查詢粒度、5為數據集、6為數據流。
具體實施例方式系統架構
圖1.系統由3層組成,頂層為系統應用接口,中間為數據服務器,底層為數據存取層。其中,核心為數據服務器,其主要工作是組織和管理底層的存儲層,提供計算和存儲負載管理、數據備份和容災、信息智能追蹤等功能。頂層提供數據交換接口,包括數據接入和讀取。底層為數據存儲層,包括mysql集群、hbase集群以及hadoop集群。這3中集群分別存取不同類型的數據,以達到對數據資源的合理、均衡負載,增強系統的魯棒性和健壯性。客戶端和數據服務器之間通過internet網絡連接,也可以是專用網絡,數據服務器和存儲集群之間搭建高速內部網絡,實現高速的數據傳輸。
數據存儲過程
圖2.感染控制數據主要來自于視頻監控、醫療器械使用狀況、患者病情信息、醫療影像信息等。數據流入數據服務器時,服務器對數據進行智能分類,主要將文本信息和流格式信息區分開來,主要為結構化、非結構化數據以及班結構化數據。服務器按照預先的設置查找目標存儲節點,并判斷該節點當前是否為訪問熱點。如果目標節點是訪問熱點,服務器從集群中尋找其它同等非“熱”節點,并將數據交付存儲主節點,主節點將數據進行分片處理,分片后的數據存儲到集群中的其他節點。同時,主節點將數據同步到其它存儲節點(數據在系統的存儲份數多于2份)。同步數據完成后,節點將同步信息返回服務器,服務器更新響應的數據索引目錄。數據取回
圖3.根據客戶端發來的查詢請求,數據服務器分析請求的類型,并分解查詢請求至最小單位。服務器從數據目錄索引獲取數據存儲的節點位置,判斷目標查詢節點當前是否為訪問熱節點。如果目標節點正在處理其它業務請求,服務器啟用備用存儲節點。數據請求分解到“閑”節點處理,“閑”節點取出相應的信息,并由集群主節點將信息結果匯總,再提交服務器,響應客戶端請求。容量監控
圖4.數據服務器實時 監控底層集群存儲容量變化狀況和網絡數據流,根據每天產生數據流量變化預測系統存儲容量是否滿足業務需求。如果系統存儲資源出現緊張情況,數據服務器自動報警。對于新增加的存儲節點,服務器為之注冊節點信息,并將部分系統其它負載過重的節點上的數據無損遷移到該節點,減輕負載過重節點的存儲和計算壓力。服務器更新存儲系統數據目錄結構,完成數據存儲負載平衡工作。
數據備份和災難恢復
圖5.數據在系統中保留兩份以上的相同數據,并且數據按照負載均衡策略分布在集群系統的部分節點上。數據服務器器檢測到數據發生災難后(丟失、損壞),立即根據數據存儲目錄查找到其備用節點,服務器從所有的備用節點中獲取相關數據,并對其進行合并。如果數據不能完全恢復,則說明丟失的數據完備性遭到破壞,服務器生成錯誤報告。如果數據能夠完全恢復,系統重新將數據進行分片遷移到集群中其它“活節點”,更新對應的數據目錄,完成數據災難恢復工作。對于不能在線恢復的數據,需要管理人員使用離線備份數據進行恢復,這里不在本 架構的設計范圍內,不與詳述。
權利要求
1.一種大規模感染控制數據存儲處理方法,其特征在于包括以下步驟: 步驟1:客戶端A向存儲服務器提交原始數據(I),存儲服務器的數據存儲單元對原始數據(I)進行過濾、差錯檢測和格式化處理,得到符合系統存儲的數據結構(2),存儲服務器根據預定存儲優化策略將數據結構(2)存儲到相應集群設備; 步驟2:客戶端B向存儲服務器提交數據取回請求(3),數據取回單元托管數據取回請求(3),具體操作為:分析數據取回請求(3),分解至最小查詢粒度(4),并分配最小查詢粒度⑷到相應的集群; 步驟3:集群存儲節點響應最小查詢粒度(4),發送查詢數據至集群主節點,主節點對數據的合并,得到數據集(5),數據集(5)經數據取回單元處理為數據流(6)后,交付數據結構⑵; 步驟4:容量監控單元監控系統容量變化,評估集群存儲狀況,生成相應報告; 步驟5:備份恢復單元·自動完成數據備份工作,數據丟失、損壞情況下完成恢復工作。
全文摘要
一種大規模感染控制數據存儲處理方法,包括以下步驟步驟1客戶端A向存儲服務器提交原始數據1,數據存儲單元對原始數據1進行過濾、差錯檢測和格式化處理,得到數據結構2,由數據服務器根據設定的存儲優化策略存儲到集群設備;步驟2客戶端B存儲服務器提交數據取回請求3,數據取回單元分析并分解數據取回請求3最小粒度查詢語句4,并分配至相應的集群;步驟3集群存儲節點響應最小粒度查詢語句4,集群主節點合并查詢數據為數據集5,數據集5經數據取回單元處理為數據流6后交付客戶端B;步驟4容量監控單元監控系統容量變化,評估集群存儲狀況;步驟5備份恢復單元自動完成數據備份及數據容災工作。
文檔編號H04L29/06GK103235817SQ20131015112
公開日2013年8月7日 申請日期2013年4月27日 優先權日2013年4月27日
發明者徐楊, 彭沖, 胡海嘯, 鄔嘉予 申請人:電子科技大學