包含可管理性子系統以實時監視和管理數據中心資源的系統和方法
【專利摘要】本發明公開了一種用于使用與數據中心基礎設施管理(DCIM)系統相關聯的遠程訪問裝置形成分布式數據存儲的方法。可以生成與由DCIM系統監視的被管理設備的操作相關聯的數據。可以使用至少一個遠程訪問裝置來接收數據。可以由遠程訪問裝置使用元素庫框架來根據數據生成事件。遠程訪問裝置還可以用于實現復雜事件處理子系統以分析事件并且根據事件生成事件相關信號。可以使用總線將事件相關信號從該裝置發送至DCIM系統的公共平臺服務(CPS)子系統。CPS子系統還可以用于接收事件相關信號并且使用事件相關信號來通知用戶被管理設備的性能方面。
【專利說明】包含可管理性子系統以實時監視和管理數據中心資源的系統和方法
[0001]相關申請的交叉引用
[0002]本申請要求于2011年12月12日提交的美國臨時申請N0.61/569,583的優先權,其全部內容通過引用合并到本申請中。
【技術領域】
[0003]本申請針對用于管理與數據中心相關聯的基礎設施的系統和方法,具體地針對用于以如下方式監視和管理現代數據中心的硬件組件和軟件組件的系統和方法:優化硬件組件和軟件組件的有效使用,并且還使得數據中心的基礎設施組件的實時重新配置能夠滿足不斷變化的需求和要求。
【背景技術】
[0004]該部分提供了與本公開內容有關的、不一定是現有技術的背景信息。
[0005]通用數據中心模型自其源于大型機計算以來已經經歷了多種改變。從分布式計算機到客戶端/服務器模型、虛擬服務器的利用、網格整合、以及最近朝向公共事業(utility)或“云”計算的趨勢,對數據中心的要求一直在變化和發展,并且其進展的步伐也持續增加。
[0006]現代數據中心正在經歷一場廣泛的改革,其包括技術創新、操作改進、新的設計原理、數據中心供應鏈的改變以及IT與業務之間的關系的改變。因而,現代數據中心正形成具有很多變量的日益復雜的環境,當考慮優化數據中心的效率的方法時必須顧及這些變量。伴隨這種改革帶來了能量效率和資源管理的問題,這對于這些現代數據中心的成功和長期維持而言將會至關重要。最大化效率的能力取決于能夠從與數據中心(即,IT和基礎設施)相關聯的所有不同組件采集數據,并且能夠以有用的方式將信息呈現給能夠在必要時對其做出改變的系統管理員。尤其,隨著可以部署在數據中心環境中的各種類型(例如,氣流、電壓、溫度、濕度)的傳感器的日益增長的能力,以及從這樣的傳感器的輸出獲得數千個實時數據點的能力,用于分析和總結大量獲得的數據點的需求日益重要。然而,挑戰是如何以顯著減少需要被提供給用戶的信息量的方式來采集和分析從數據中心中所使用的各種廣泛類型的傳感器獲得的大量數據點。簡單地將從傳感器獲得的每個數據點通過網絡提供給用戶或用戶所使用的應用程序將快速使用網絡的可利用的帶寬的大部分。在每秒從數百或更多傳感器獲得數千數據點的大型現代數據中心中尤其是這樣。
【發明內容】
[0007]在一個方面,本公開內容涉及一種用于使用與數據中心基礎設施管理(DCM)系統相關聯的遠程訪問裝置形成分布式數據存儲庫的方法。該方法可以包括生成與由DCIM系統監視的被管理設備的操作相關聯的數據。可以使用至少一個遠程訪問裝置來接收數據并且使用元素庫框架來根據數據生成事件。遠程訪問裝置可以使用復雜事件處理子系統以分析事件并且根據事件生成事件相關信號。可以使用總線以將事件相關信號從該裝置發送至DCIM系統的公共平臺服務(CPS)子系統。該CPS子系統可以用于接收事件相關信號并且使用事件相關信號以通知用戶被管理設備的性能方面。
[0008]在另一方面,本公開內容涉及一種用于傳輸與由數據中心基礎設施管理(DCM)系統監視的被管理設備相關聯的事件的方法。該方法可以包括使用服務總線代理子系統通過超文本傳輸協議(HTTP)傳輸來從與DCIM系統相關聯的遠程訪問裝置接收不同通道上的高優先級事件和非高優先級事件。通道中的一個通道可以被指派為高優先級事件通道,并且通道中的另一通道可以被指派為非高優先級事件通道。事件傳輸網絡可以用于形成兩個分開的消息隊列,所述消息隊列用于接收來自兩個通道中每個的事件并且將高優先級事件和非高優先級事件發送至分開的存儲子系統。事件傳輸服務還可以同時向事件查看器和警報處理中至少之一發布高優先級事件和非高優先級事件中至少之一。
[0009]另外的應用領域將根據本文提供的描述而變得明顯。本
【發明內容】
中的描述和具體示例僅意在用于說明的目的,而不意在限制本公開內容的范圍。
【專利附圖】
【附圖說明】
[0010]本文中所描述的附圖僅出于對所選實施方式而并非所有可能實施方式的說明目的,也不意在限制本公開內容的范圍。
[0011]圖1示出了根據本公開內容的合并了數據集市的DCIM系統;
[0012]圖2示出了示出如何實現數據集市的另外的細節的DCIM系統的另一實施方式;
[0013]圖3是示出了在數據集市ETL服務的操作的提取、變換和加載階段期間可以執行的各種操作的框圖;
[0014]圖4示出了示出結合圖1的數據集市如何實現不同的聚合和數據保留對策/策略的金字塔;
[0015]圖5示出了示出DCM系統的每個DCM裝置如何包括各種組件使得裝置組可以集體地用于形成“分布式”事件存儲的本公開內容的DCIM系統的另一實施方式;
[0016]圖6示出了可以由DCM系統使用的DCM裝置的另一實施方式,其中DCM裝置具有分布式體系結構用于獲得、記錄和檢索數據點,并且還合并具有不同的優先級等級的用于數據點的數據點路由的兩個通道;
[0017]圖7示出了本公開內容的DCM裝置的另一實施方式,該DCM裝置利用如果違背閾值則生成事件的閾值監視服務以及包括存儲從某個標準或百分比改變預定值變化的所生成的事件的值變化(COV)事件數據存儲的PostgreSQL數據庫服務器;
[0018]圖8示出了根據本公開內容的DCIM解決方案的實施方式,在該實施方式中不同的通信路徑和兩個隊列用于獨立地且同時地處理高優先級事件和非高優先級事件以確保來自所有DCIM裝置的事件的點對點保證傳輸;以及
[0019]圖9示出了根據本公開內容的DCIM系統的另一實施方式,在該實施方式中高優先級事件在事件傳輸網絡內被刪除,并且均被存留到用于事件存儲的數據庫,并且也根據對事件查看器的發布/預定策略以保證方式被傳輸。
[0020]貫穿附圖的幾幅圖,相應的附圖標記表示相應的部分。【具體實施方式】
[0021]下面的描述在本質上僅是示例性的,并不意在限制本公開內容、應用或用途。應當理解,貫穿所有附圖,相應的附圖標記表示相似或相應的部分和特征。
[0022]圖1示出了根據本公開內容的具有集成的數據集市子系統1000的DCIM系統100的一個示例。數據集市子系統1000用于提供對所記錄的數據的增強訪問、數據的增強報告以及對從數據中心內的被管理設備獲得的數據的增強的分析能力。
[0023]圖1中示出的DCM系統100僅表示一種可能的構造,并且將理解的是,可以相當大地改變DCM系統100的組件以適合不同的具體應用。DCM系統100可以包括具有瀏覽器202的第一(客戶端)表不層200。第一表不層200還可以包括一個或更多個插件,如Adobe Flex插件204。第二(服務器)表示層300可以包括管理控制臺302、一個或更多個應用程序用戶接口(APP Π) 304和306、公共平臺服務(CPS)用戶接口 308、可管理性子系統服務用戶接口(MSS UI)310、以及用于向用戶呈現信息的一個或更多個儀表板312。
[0024]公共平臺服務(CPS)層400形成共享服務基礎設施子系統,該共享服務基礎設施子系統提供可以由任何產品使用的分開的或組合服務,例如諸如認證、授權和審核的服務。在該示例中,CPS層400被示為具有集成子系統402和多個共享服務404、406和408。CPS層400還可以包括實時數據服務子系統410(例如,業務活動監視(“BAM”)子系統)、CPS報告引擎412和在線分析處理(“0LAP”)引擎414。共享服務408形成可管理性子系統服務(“MSS服務”),這是通過分布式實時框架提供被管理設備的管理(例如,發現、數據采集、命令和控制)的合成服務。
[0025]DCM系統100還可以包括數據層500,數據層500具有域模型502和公共數據模型存儲庫(“CDMR”)504。CDMR504可以具有用于將數據保留到DCIM數據庫服務器508的保留子系統506。數據集市子系統1000可以形成數據層500和服務層400兩者的一部分。數據集市子系統1000可以具有數據集市提取-變換-加載(“ETL”)子系統1002和數據集市服務器1004。數據集市子系統1000可以與DCIM數據庫服務器508、與時間序列數據庫(TSD)服務器510以及與服務層400的一個或更多個組件通信。MSS服務408與分布層600的一個或更多個遠程訪問裝置602交互。每個遠程訪問裝置(在下文中,簡稱“裝置”)602內可以包括MSS引擎604。每個MSS引擎604可以是在可被部署在每個裝置602上以獲取度量數據和對由每個裝置602處理的被管理設備執行管理(例如,發現、數據采集、命令和控制)的適當的處理器上運行的軟件組件。每個MSS引擎604可以將采集的數據饋送至MSS服務408以及饋送至TSD服務器510和CDMR504。然而,將理解的是,一個或更多個智能采集引擎(例如,MSS引擎604)還可以被實現為在服務器中或在虛擬機上運行的軟件應用程序。
[0026]數據集市ETL服務1002提供用于從DCM系統100內的其他數據資源以及從TSD服務器510和DCIM數據庫服務器508提取數據的能力。數據集市ETL服務1002可以將所提取的數據變換成期望的格式,然后可以將該數據加載到數據集市數據庫服務器1004中。可以周期性地執行提取、變換和加載功能,以保持數據集市子系統1000充分地填充有用于報告和分析的數據。除了填充數據集市數據庫服務器1004以外,數據集市ETL服務1002還可以向事件傳輸網絡發布關于由諸如適當的服務器(例如,由操作為實時數據服務子系統410的Oracle “業務活動監視”(“BAM”)服務器)的組件消費的關鍵值或信息的事件。[0027]在操作中,數據集市ETL服務1002從TSD服務器510和DCM數據庫服務器508提取適當的數據,然后對該數據進行變換并且將該數據加載到數據集市數據庫服務器1004中。該活動可以通過由人工ETL請求或由用戶可定制調度任務生成的具體事件驅動。當建立了用戶可定制調度任務時,數據集市ETL服務1002利用用戶通過管理控制臺302設置的配置。用戶可定制調度任務的預選擇的配置限制從TSD服務器510和DCIM數據庫服務器508提取的數據集,然后將該數據集加載到數據集市數據庫服務器1004中。
[0028]數據集市子系統1000還可以向CPS層400發布事件。數據集市ETL服務1002可以生成表示成功完成了數據提取將其加載到數據集市數據庫服務器1004的事件。支持TSD510的適當的軟件服務可以清理和/或清除已成功加載到數據集市數據庫服務器1004中的數據。該活動可以由如下事件驅動:該事件在成功完成了提取和加載時由數據集市ETL服務1002生成。CPS報告引擎412和OLAP引擎414與數據集市數據庫服務器1004和DCIM系統100的其他數據存儲庫(如TSD服務器510)交互,以檢索正在創建的報告所需的數據。在大多數情況下,為報告提供的數據將需要限制于基于授權和租用的適當的聚合。由CDMR504提供類似的數據強制。儀表板312的“靜態查看”組件312a與CPS報告引擎412和OLAP引擎414交互,以檢索要呈現在適當的顯示器上供用戶查看的歷史信息。數據集市子系統1000可以提供大量非常有用的特征。一個非常有用的特征是將數據集市數據庫服務器1004中的數據備份和恢復的能力。其他有用的特征為:將數據集市數據庫服務器1004中的數據的所選擇的聚合存檔和清除的能力;將先前存檔和清除的數據恢復返回到數據集市數據庫服務器1004中的能力;將從數據集市數據庫服務器1004檢索的數據限制于基于用戶授權和租用的適當數據集的能力;支持不需要與閾值(在下面的段落中進一步討論)比較的數據點的聚合的能力;支持以不同的方式(每小時、每日、平均、最小、最大等)總結/積累數據點的能力;以及被部署在分離的服務器上以隔離來自其他操作活動的報告的能力。
[0029]現在參照圖2,高層次圖1100示出了可以被合并到DCM系統100中的數據集市子系統的另一實現。圖1100還示出了關于如何提供數據集市子系統的提取、變換和加載(ETL)體系結構的更多細節。在該示例中,上述各種數據庫以簡化方式被表示為一個數據庫1102。可以使用ETL子系統1104從數據庫1102提取數據以及從數據集市1106獲得維度查找表(即,數據組織指導),在該示例中,ETL子系統1104可以包括例如從Jaspersoft公司可得到的Jaspersoft業務智能軟件。數據集市1106可以存儲已經聚合了年、季度、月、周、日或根據任何其他用戶定義的維度或指導聚合的聚合數據。數據集市1106還可以存儲事件的細節、數據點的細節以及裝備面板基本信息。更進一步,數據集市1106可以存儲但不限于與設備、時間、事件或數據點有關的信息。
[0030]可以包括待命區1108,待命區1108是在需要對所提取的信息執行篡改或修改時可以臨時保存所提取的信息的區域。在該示例中為Jasper Oracle批量加載模塊的報告工具1110可以用于將所提取的數據呈現給數據集市1106或數據集市1106中與各種被管理設備的事件細節、數據點細節和裝備面板值有關的查找信息。
[0031]如框112所示,還可以獲得緩慢變化的維度(即,數據采集和/或總結的方式)。框1112可以表示用于分析變化并確定是否出現非常緩慢的變化的軟件,其可以應用于從ETL子系統1104提取的數據。如框1114表示的,維度可以被加載,然后可以根據所加載的維度將所提取的數據聚合在數據集市1106中。
[0032]參照圖3,框1116總結可以對從TSD服務器510 (圖1)、從CDMR504或從所提取的事件獲得的所提取的數據執行的各種軟件操作。框1118示出了可以應用于所提取的數據具體變換和加載操作。框1118a處的操作“應用鍵/代理鍵生成”涉及應用和生成代理鍵。框1118b涉及所提取的數據的數據再分配。框1118c涉及根據預定維度對數據進行標準化的數據標準。框IllSd涉及進行參考完整性檢查。并且,框IllSe “保持S⑶”涉及保持說明書的服務組件描述。圖4示出了關于所提取的數據可以用于聚合和報告的廣泛方式(SP,維度)的示例。
[0033]對所提取的數據進行聚合的顯著優點在于,這可以提供通過網絡發送所獲得的數據所需要的帶寬的顯著降低,從而顯著地減輕網絡的負擔。在很多情況下,可能無需將每個單個采集的數據點提供至正在監視數據中心中的各種基礎設施組件(例如,計算機控制的空調(CARC)單元)或IT(信息技術)組件的一個或更多個應用。通常,不同預定時間間隔的一個或更多個運行平均可能足以向數據中心操作者提供關于各種數據中心組件的操作狀態或數據中心環境本身(例如,溫度和能耗)的所需信息。用于執行聚合的原始數據點可以在被新獲取的數據點覆寫之前累積或保持一定時間段。通過根據用戶定義的聚合策略提供聚合的數據,這可以用于動態地減少需要通過網絡發送的數據量。此外,這可以在至少預定時間內仍然存儲每個采集的數據點時實現,使得當數據中心操作者請求時在至少有限的時間內可利用給定時間幀的所有采集的數據點。該特征在如下情況下很有用:在該情況下,數據中心管理者需要詳細學習在具體時間處在數據中心中發生的事件,并且圍繞關注的具體時間幀采集的所有數據點的可利用性對于該事件的分析很重要。
[0034]分布式事件和數據點存儲庫
[0035]參照圖5,高層級圖示出了 DCM系統100的每個遠程訪問裝置1300可以如何包括各種組件,以使得遠程訪問裝置1300組可以共同地用于形成“分布式”事件存儲庫。在該實施方式中,遠程訪問裝置1300與總線1302通信,在該示例中,總線1302可以是Oracle服務總線(“OSB”)。0SB1302進行操作以將事件路由至DCM解決方案100的公共平臺服務(CPS)層1304(其中,可選地,層1304還可以包括圖1的CPS400的各種組件)。在圖5中,標記“A”的箭頭表示事件流,標記“B”的箭頭表示隊列,而標記“C”的箭頭表示命令流。遠程訪問裝置1300用于監視一個或更多個被管理設備或與被管理設備相關聯的一個或更多個傳感器。應當注意的是,如果在遠程訪問裝置1300和CPS層1304之間失去通信,則直到與CPS層1304恢復通信時為止事件和數據可以存儲在遠程訪問裝置中的適當數據庫中。
[0036]遠程訪問裝置1300(下文為“裝置1300”)可以包括元素庫框架1306。元素庫框架1306可以用于執行若干功能,如采集數據點和事件;基于預定策略對所接收的事件標準化;以及發送所采集的事件、數據點和SNMP (簡單網絡管理協議)陷講。事件采集器1308可以用于訂閱SNMP陷阱以使用“進棧(push) ”和輪循模式兩者采集設備事件、在數據總線1310上發送事件采集信號,以及對事件標準化。由機器可執行代碼形成的且在遠程訪問裝置1300的處理器上運行的事件輸出服務1311可以用于接收事件采集信號。事件輸出服務1311可以用于更新策略(例如,添加或修改過濾器),以應用該策略接收事件信號(例如,以便排除不滿足閾值嚴重性的事件類型或事件),并且形成至少兩個通道1302a和1302b用于輸出事件。可以指派通道之一(如通道1302a)用于高優先級事件,而可以指派另一通道1302b用于所有其他事件,即,沒有被認為是高優先級事件的那些事件。
[0037]裝置1300還可以包括事件存儲服務1312。事件存儲服務1312可以是具有合適的軟件和硬件的數據庫,該數據庫接收表示所采集的事件的信號、更新策略(例如,保留策略)以及查詢事件數據(例如,事件類型、嚴重性和數據范圍)。事件存儲服務1312還可以將原始事件異步地寫入數據庫1314,在該示例中,數據庫1314可以是PostgreSQU開放源碼)數據庫服務器。
[0038]裝置1300還可以包括用于復雜事件處理(CEP)的子系統1316,其接收數據點、事件相關信號并且分析事件和發出事件生成信號。裝置1300可以包含服務管理控制器1318,服務管理控制器1318可以用于啟動、停止、暫停、重新開始和更新在數據總線1310上操作的所有服務的策略。另一服務(如MBeans服務1320)可以用于實現對服務管理控制器1318的遠程訪問。
[0039]裝置1300還可以包括網頁(Web)服務器1322,網頁服務器1322將RESTful服務調用路由至事件查詢服務1324。網頁服務器1322還可以處理安全性功能,如認證和加密套接字協議層(SSL)傳輸以及DOS (拒絕服務)攻擊。網頁服務器1322還可以包含審核日
O
[0040]0SB1302可以包含至少一個高優先級事件隊列1302al以及至少一個低優先級事件隊列1302bl。當0SB1302接收從裝置1300推出的事件時,0SB1302寫入高優先級隊列1302al或低優先級隊列1302bl。另一代理可以從每個隊列1302al和/或1302bl讀取,并且發布該事件以存儲在CPS層1304內的事件數據庫1326中。Java消息服務(JMS) 1328可以用于執行用戶接口 1330、復雜事件處理1332的另一子系統、警報服務1334與事件服務子系統1336之間的消息操作 。事件服務子系統1338便于將用于存儲的事件轉發至事件數據庫1326,并且處理用于從事件數據庫1326檢索所存儲的事件的請求,其中,事件服務子系統1338可以包括在處理器上運行的機器可執行代碼。
[0041]圖5中示出的實施方式的重要優點在于,重要事件可以立即被“上推”至CPS層1304,而所有事件也可以存儲在裝置1300處(即,通過數據庫1314)。也可以從CPS層1304處的數據庫1326或從數據庫1314(例如,PostgreSQL數據庫服務器)檢索所存儲的事件。圖5中示出的體系結構還形成可容易升級的“分布式”事件記錄和檢索系統。這是因為每個裝置1300將包括用于記錄和檢索高優先級事件和低優先級事件所需要的這些子系統。隨著數據中心處的被管理設備的數量擴展,可以容易地添加裝置1300以處理被管理設備,而無需修改CPS層1304或0SB1302。
[0042]現在參照圖6,示出了具有用于獲得、記錄和檢索數據點的分布式體系結構的裝置1400。實際上,圖5和圖6兩者示出的體系結構可以被合并到裝置1300或裝置1400中。
[0043]然而,該實施方式中的裝置1400包括具有用于監視是否違背了預定義規則的閾值違背子系統1416a的CEP子系統1416。閾值違背子系統1416a可以是在遠程訪問裝置1400的處理器上運行的機器可執行代碼。閾值違背(即,規則違背)子系統1416a可以檢測何時違背了用戶設置的閾值(即,規則),例如何時所獲得的數據點高于或低于閾值。具有一個或更多個聚合規則的聚合子系統1416b可以包括在CEP子系統1416中,以根據用戶定義的聚合策略聚合所采集的數據點。數據點存儲服務1412可以用于接收數據點、更新與數據點有關的保留策略,以及將數據點異步寫入數據庫1414。可以包括在裝置1400的處理器上運行的數據點查詢服務1424(即,軟件),以通過日期范圍、設備ID、數據點ID或通過任何其他用戶期望的度量來查詢數據點。
[0044]數據點采集器1408可以用于根據用戶定義的策略來調度采集任務。元素庫框架1406可以用于采集數據點,以基于用戶選擇的“值變化”(COV)生成數據點并且將最新的數據點值保存在其存儲器中。通過“C0V”,其表示用戶定義的變化量級如百分比或為絕對值。
[0045]元素庫框架1406可以提供元素庫(包括但不限于Java插件框架)的公共接口。元素庫可以是允許管理(發現、采集、配置等)一組被管理設備的軟件。元素庫可以具有兩個組件:被管理元素(或元素組)的“設備驅動器”、以及與被管理元素(或元素組)相關聯的“產品知識”。設備驅動器組件可以包括與用于與被管理元素通信、命令受被管理元素等的協議相關的信息。另外,設備驅動器組件可以對從被管理設備發送的消息(數據等)提供標準化,將其標準化為DCIM系統100理解的公共標準,以及對從DCIM系統100發送到被管理設備的消息(數據等)提供去標準化。“產品知識”組件可以包含與和被管理元素相關聯的各種操作特性有關的信息,包括但不限于被管理元素支持什么通信協議,以及什么數據點、什么事件、命令和閾值規則與被管理元素相關和/或由被管理元素采集。此外,由DCIM系統100使用的圖形符號可以存儲在元素庫內。
[0046]雖然可以容易地實現兩個以上的等級,但在該示例中聚合子系統1416b提供了標記為“LI”和“L2”的兩個聚合等級。在該示例中,數據庫1414分開地存儲與數據總線1410通信的LI聚合數據和L2聚合數據,如數據存儲庫1414a和1414b所示。數據存儲庫1414a(LI)可以聚合每五分鐘獲得的數據點,如通過每五分鐘獲得/更新運行平均而獲得的數據點。數據存儲1414b (L2)保持所采集的數據點的十五分鐘的運行平均。以這種方式,極大地壓縮存儲的數據點的數量。一旦獲得了新的運行平均,則可以丟棄先前的運行平均。也可以丟棄在先前間隔期間采集的數據點。數據庫1414還可以包含LI聚合數據點和L2聚合數據點中每個的映射,聚合數據點包括被存儲的LI數據點和L2數據點中每個的平均值、最小值和最大值。數據點可以被異步寫入存儲器。數據點輸出服務1409可以通過HTTPS協議將采集的數據點輸出至0SB1402。可以對于長間隔的數據點異步地調用數據點輸出服務1409。事件輸出服務1411可以用于將事件輸出至0SB1402。
[0047]0SB1402也可以具有至少兩個通道:一個通道1402a,用于來自高優先級被管理設備(或可能地關鍵被管理設備)的數據點,以及第二通道1402b,用于從作為非高優先級設備(即,非關鍵的被管理設備)的所有其他設備采集的數據點。在連接故障的情況下,可以將數據點寫入數據庫1414。數據點還可以通過0SB1402、JMS (Java消息服務API) 1428以及由在處理器上運行的機器可執行代碼形成的數據點服務1437被向上輸出至CPS層1404。CPS層1404也可以具有與JMS1428通信的CEP1432。數據點可以從數據點服務1437發送和存儲在與CPS層1404相關聯的時間序列數據庫(TSD) 1426中。如同裝置1300,裝置1400也可以包括服務管理控制器1418和MBeans服務器1420。服務管理控制器1418可以用于啟動、停止、暫停、重新開始和更新D-總線上操作的所有服務的策略。MBeans服務器1420可以用于實現對服務管理控制器1418的遠程訪問。
[0048]根據關于圖6的前述討論,將理解的是,顯著的優點在于,使用每個裝置1400以“分布式”方式進行數據點的采集和聚合。這使得能夠通過使用現有的裝置1400或通過隨著數據中心中的被管理設備的量增加而添加的新裝置來容易地接納新的被管理設備。重要地,在裝置1400處發生數據點聚合,這意味著將動態地減少需要在網絡上發送至CPS層1404的大量數據點信息。這顯著降低了發送數據點相關信息時網絡上使用的帶寬。然而,同樣重要的是,違背閾值策略的數據點可以直接生成事件,可以使用事件輸出服務1411將該事件直接上發至CPS層1404。更進一步,用戶或應用可以基本上實時地直接查詢來自被管理設備的數據點,以及在數據庫1414中查詢存儲且聚合的數據點。
[0049]現在參照圖7,示出了稍微類似于裝置1400的裝置1500的另一實施方式。與裝置1400的這些組件相同的組件使用比用于描述裝置1400的那些附圖標記增大100的附圖標記來指定。在該示例中,裝置1500利用在裝置的處理器上運行的閾值監視服務1516a(即,軟件)。如果違背閾值,則閾值監視服務1516a生成事件。數據庫1515 (例如,PostgreSQL數據庫服務器)可以包括其中存儲從某個標準或百分比改變預定的值變化的所生成的事件的COV (值變化)事件數據存儲庫1515a。也通過聚合服務1516b執行LI和L2聚合,聚合服務1516b可以包括在裝置1500的處理器上運行的機器可執行代碼,聚合服務1516b獨立于CEP子系統1516,并且將聚合的LI和L2數據點分別轉發至LI數據庫1514a和1514b。可以與數據總線1510通信的、由在裝置1500的處理器上運行的機器可執行代碼形成的數據點輸出服務1509也直接從聚合服務1516b輸出數據點。也由在適當的處理器上運行的機器可執行代碼形成的數據點查詢服務1524處理通過0SB1502被路由至裝置1500的來源于CPS層1504的數據點的查詢。數據點輸出服務1509也通過0SB1502和JMS1528將聚合的L2數據點上推至CPS層1504。包括在適當的處理器上運行的機器可執行代碼的數據點出口服務1537指引聚合的L2數據點上推至與平臺1504相關聯的時間序列數據庫(TSD) 1526以存儲。
[0050]圖8示出了使用通信路徑和兩個隊列來分開地且同時地處理高優先級事件和正常優先級事件的高級實現。圖8中示出的實現確保來自所有裝置1600的事件的點對點保證傳輸。標記為“Al”和“BI”的箭頭分別表示用于高優先級事件的點對點保證傳輸通信路徑和發布/訂閱通信路徑。標記為“A2”和“B2”的箭頭分別表示用于“正常”優先級(“非高”優先級)事件的點對點保證傳輸通信路徑和發布/訂閱通信路徑。箭頭B3和B4表示可以由高優先級事件和正常優先級事件兩者共享的通信路徑。
[0051]OSB代理1700可以通過HTTPS協議傳輸從裝置1600接收不同通道上的高優先級事件和低優先級事件兩者。OSB代理1700使用變換服務1702以變換和/或標準化高優先級事件和正常優先級事件兩者,然后將標準化的事件傳遞至子系統1704,子系統1704在事件被發送至分開的隊列(如JMSCJava消息隊列)隊列1802 (“高優先級”隊列)和1804 (“正常優先級”隊列))之前將事件分離,其構成事件傳輸網絡1800的一部分。發布/訂閱子系統1806可以通過通信路徑B3向與DCM系統100的CPS層1900相關聯的事件查看器1902發布事件(高優先級和正常優先級兩者)。分布/訂閱子系統1806還可以向與CPS層1900相關聯的警報處理1904發布事件(高優先級和正常優先級兩者)。
[0052]在操作中,裝置1600可以向OSB代理1700發送同步的HTTP請求。OSB代理1700將這些調用路由至JMS隊列1802和1804。優選地,高優先級事件和正常優先級事件兩者也存留到事件數據庫1906。每個隊列的用戶僅接收一個消息。在用戶不可使用的情況下,消息可以被傳輸直到滿足期滿策略。優選地,該策略與存留在每個裝置1600上的事件的保留策略相同。優選地,該策略也是通過管理控制臺可配置的。該配置的優點是如果大量事件被報告并且CPS1900不能夠跟上被傳輸的事件,則事件可以在隊列1802和/或1804處排隊。
[0053]圖9示出了稍微類似于圖8的實施方式的另一實施方式2000。實施方式2000檢測事件傳輸網絡1800內的高優先級事件,并且根據對于事件查看器1902的發布/訂閱策略以保證方式將事件存留到數據庫1906用于事件存儲和傳輸。實施方式2000還將事件存留到警報處理1904。來自關鍵設備和非關鍵設備兩者的數據點以及COV事件可以根據發布/訂閱策略全部被傳輸至CPS層1900。
[0054]雖然已經描述了各種實施方式,但是本領域技術人員將認識到在不偏離本公開內容的情況下可以進行修改或變型。示例示出各種實施方式且并不意在限制本公開內容。因此,本說明書和權利要求書應當被自由地解釋,而僅具有鑒于相關的現有技術所必需的限制。
【權利要求】
1.一種用于使用與數據中心基礎設施管理(DCIM)系統相關聯的遠程訪問裝置構成分布式數據存儲庫的方法,所述方法包括: 生成與由所述DCIM系統監視的被管理設備的操作相關聯的數據; 使用至少一個遠程訪問裝置來接收所述數據并且使用元素庫框架來根據所述數據生成事件,并且還使用所述遠程訪問裝置來實現復雜事件處理子系統以分析所述事件并且根據所述事件生成事件相關信號; 使用總線將所述事件相關信號從所述裝置發送至所述DCIM系統的公共平臺服務(CPS)子系統;以及 使用所述CPS子系統來接收所述事件相關信號并且使用所述事件相關信號來通知用戶所述被管理設備的性能方面。
2.根據權利要求1所述的方法,其中,使用元素庫框架包括以下中的至少一個: 采集由所述遠程訪問裝置從所述被管理設備獲得的數據點; 基于預定策略對所接收的事件進行標準化; 發送由所述遠程訪問裝置采集的數據點中的一個或更多個;以及 生成簡單網絡管理協議(SNMP)陷阱。
3.根據權利要求1所述的方法,還包括:使用與所述遠程訪問裝置相關聯的事件存儲服務來接收表示所采集的事件的信號并且進行以下中的至少一個: 更新用于新數據的保留策略;或者 查詢事件數據類型、事件數據嚴重性和事件數據范圍中的至少一個。
4.根據權利要求3所述的方法,還包括:使用所述事件存儲服務來將原始事件異步地寫入開源數據庫。
5.根據權利要求1所述的方法,還包括:使用事件采集器來訂閱由所述元素庫框架生成的簡單網絡管理(SNMP)陷阱。
6.根據權利要求1所述的方法,還包括:使用閾值違背子系統來檢測由所述遠程訪問裝置接收的采集數據點何時違背了用戶設置的閾值。
7.根據權利要求1所述的方法,還包括:使用聚合子系統來聚合由所述遠程訪問裝置采集的數據點,并且根據兩個不同的用戶設置聚合策略提供對所采集的數據點的第一等級的聚合和第二等級的聚合。
8.根據權利要求7所述的方法,其中,所述元素庫框架包括根據所述第一等級的聚合而聚合的數據點,所述根據所述第一等級的聚合而聚合的數據點與根據所述第二等級的聚合而聚合的數據點分開存儲。
9.根據權利要求1所述的方法,還包括:根據用戶定義的策略,使用與所述遠程訪問裝置相關聯的數據點采集器來調度采集任務。
10.根據權利要求1所述的方法,其中,由所述元素庫框架接收的數據包括數據點,并且其中,所述元素庫框架基于所述數據點相比于用戶選擇的值變化(COV)的分析來生成新數據點。
11.根據權利要求1所述的方法,其中,由所述元素庫框架接收的數據的形式是數據點,并且所述方法還包括:使用數據點查詢服務來按照日期范圍、被管理設備標識或數據點標識中的至少一個查詢所述數據點。
12.根據權利要求1所述的方法,還包括:使用所述總線通過兩個通道發送從多個被管理設備采集的數據點。
13.根據權利要求2所述的方法,還包括:使用所述總線通過第一通道發送從所述被管理設備中的一個被管理設備采集的數據點,并且通過第二通道發送從所述被管理設備中的不同的一個被管理設備采集的數據點。
14.一種用于傳輸與由數據中心基礎設施管理(DCM)系統監視的被管理設備相關聯的事件的方法,所述方法包括: 使用服務總線代理子系統經由超文本傳輸協議(HTTP)傳輸在不同通道上從與所述DCIM系統相關聯的遠程訪問裝置接收高優先級事件和低優先級事件兩者; 將所述通道之一指派為高優先級事件通道,并且將所述通道中的另一通道指派為非高優先級事件通道;以及 使用事件傳輸網絡來: 形成兩個分開的消息隊列,所述消息隊列用于從兩個通道中的每一個接收事件并且將高優先級事件和非高優先級事件發送至分開的存儲子系統;以及 同時向事件查看器和警報處理中的至少一個發布所述高優先級事件和所述非高優先級事件中的至少一個。
15.根據權利要求14所述的方法,還包括:使用變換服務將所述事件標準化成高優先級標準化的事件和非高優先級標準化的事件,然后將所述高優先級標準化的事件和所述非高優先級標準化的事件發送至所述兩個消息隊列。
16.根據權利要求14所述的方法,還包括: 使用第一分離子系統將所述高優先級事件發送至所述消息隊列和發布訂閱子系統;以及 使用第二分離子系統將所述非高優先級事件發送至所述消息隊列和所述發布/訂閱子系統。
17.根據權利要求14所述的方法,其中,所述事件傳輸網絡還操作用于接收關鍵的數據點和非關鍵的數據點以及使用發布/訂閱子系統來發布所述關鍵的數據點和所述非關鍵的數據點。
18.根據權利要求14所述的方法,其中,所述事件傳輸網絡操作用于接收值變化(COV)事件以及使用發布/訂閱子系統來發布所述COV事件。
【文檔編號】G06F17/00GK103999077SQ201280061412
【公開日】2014年8月20日 申請日期:2012年12月12日 優先權日:2011年12月12日
【發明者】巴拉特·A·胡季, 薩沙·約維契奇, 史蒂文·格芬 申請人:阿沃森特亨茨維爾公司