專利名稱:用于在分布式計算系統中的性能和策略分析的方法和裝置的制作方法
技術領域:
本發明主要涉及計算系統,尤其涉及用于其中多個計算站點共享資源的分布式計算機系統的策略分析。
背景技術:
圖1是描述通常的分布式計算網絡或系統100的示意圖。系統100包括多個以通信方式相連的計算站點1021~102n(在下文中將其統稱為“站點102”),其中每一個計算站點都充當了一個或多個應用的宿主。每一個站點102都可以訪問相應的多個本地資源(例如服務器、處理器、存儲器等等)1041~104n(在下文中將其統稱為“資源104”)。此外,每一個站點102都會接收相應的工作負荷1061~106n(在下文中將其統稱為“工作負荷106”),其中所述工作負荷包含了對運行在站點102上的應用的請求。
站點102使用其相應的本地資源104來滿足其相應的工作負荷106。此外,在諸如系統100之類的分布式計算系統中,以通信方式相連的站點102可以與其它站點102共享其相應的資源104,由此,站點102可以從某個遠端站點102借用資源104,以便有效地處理其工作負荷106,或者站點102也可以將其資源104借給某個遠端站點102,以便輔助該遠端站點102進行工作負荷處理。每一個站點102都具有自己的策略集合,該策略集合支配著站點102如何以及何時出借/借用資源104可以進行管理。
這些單獨的策略極大地影響了整個系統100有效處理工作負荷106的能力。然而,由于這種策略是隨著站點的不同而改變的,因此,這些策略對整個系統100及其處理工作負荷106的能力所產生的作用是很難量化的。
由此,在本領域中需要一種用于在分布式計算系統中的性能和策略分析的方法和裝置。
發明內容
本發明的用于分布式計算系統中的性能和策略分析的方法和設備的一個實施例包括將分布式計算系統性能描繪成一個狀態轉換模型。然后,在所述狀態轉換模型上疊加一個排隊網絡,并且根據所述排隊網絡的解來識別一個或多個策略對于所述分布式計算系統產生的作用。
由此,通過參考附圖中描述的實施例,可以得到關于上述簡單綜述的本發明的更具體的描述,并且可以得到用于詳細理解和實現上述發明實施例的方式。然而應該注意的是,附圖描述的僅僅是本發明的通常的實施例,因此不應將其視為是對的范圍進行限制,因為本發明還可能包括其它效果等價的實施例。
圖1是描述通常的分布式計算網絡或系統的示意圖;圖2是描述根據本發明的用于分析與分布式計算系統相關聯的資源共享策略集合的分析工具的一個實施例的示意圖;圖3是描述根據本發明的用于對圖2所示的不同輸入進行處理從而產生總成本的方法的一個實施例的流程圖;圖4是描述根據本發明的用于建造狀態轉換模型的方法的一個為了便于理解,在這里盡可能使用了相同的參考數字來表示附圖中共有的相同部件。
具體實施例方式
在一個實施例中,本發明是一種用于分布式計算系統中的性能和策略分析的方法和設備。本發明的實施例可以有效地分析適用于單個計算站點的各種資源共享策略對于包含計算站點的整個分布式計算系統的性能所產生的作用。
圖2是描述根據本發明而對關聯于分布式計算系統的資源共享策略集合進行分析的分析工具200的一個實施例的示意圖。如所示,分析工具200被適配成接收與分布式計算系統相關的多個輸入,并且對這些輸入進行處理,以便提供可供用戶確定是否可以接受與分布式計算系統相關聯的現有資源共享策略的信息。
在所描述的實施例中,分析工具200接收到的輸入包括與分布式計算系統/站點相關的多個模型202。在一個實施例中,對分布式計算系統中的每一個計算站點而言,這些模型至少包括如下模型站點模型、工作負荷模型、工作負荷狀態模型、站點狀態模型、事件模型或成本模型。此外,對包含了計算站點的整個分布式計算系統來說,應用于該分布式計算系統的策略模型也被提供給了分析工具202。分析工具200則對這些輸入進行處理,以便產生與分布式計算系統性能相關聯的一個或多個量度206。在一個實施例中,這些量度包括下文中將更詳細描述的用于實施特定策略的成本,此外還包括一個或多個系統性能量度(例如反映了分布式計算系統的響應時間、吞吐量、資源可用性等等的量度)。
站點模型描述的是站點的靜態(例如不依賴于工作負荷狀態而變化)參數,在一個實施例中,<ns,pt>數組陣列描繪一個站點,其中ns指的是池類型pt資源的數量。本領域技術人員將會了解,雖然站點模型所描述的參數相對于工作負荷狀態變化而言可以被視為是靜態的,但在其所相關聯的站點獲得或失去資源的時候,這些參數也可以有所改變。在一個實施例中,每一個池都包含了多個資源。屬于共同的池的所有資源基本上都是同類的,這是因為這其中的任何一個資源都可以運行給定的應用。舉例來說,在一個實施例中,資源是基于一個或多個標準而被分組到池中的,這些標準包括下列標準中的至少一個服務器硬件、操作系統以及軟件棧。此外,站點模型還包括一個策略集合p,該集合描述的是與站點相關聯的特定策略(例如資源共享策略)。
工作負荷模型不但描繪了由某個站點充當宿主的應用,而且還描繪了服務等級協定(SLA),該協定明確規定了該站點為其所服務的客戶機(例如提供工作負荷的用戶)提供的保證。每一個工作負荷都是從至少一個池類型pt資源提取其資源的。在任何給定的時間,每一個工作負荷都是處于n個等級中的某一個等級的。其中的每一個等級轉而將會映射到特定的資源(例如特定數量的服務器),而這些資源則是根據SLA來對相關聯的工作負荷滿意地進行處理所必需的。
此外,工作負荷模型還描繪了一個n×n的轉換概率矩陣tpm,該矩陣規定了相關聯的工作負荷如何在等級之間進行轉換,其中tpm(i,j)規定的是工作負荷從等級i轉換到等級j的概率(1≤i,j≤n)。假設某個給定工作負荷保持在等級i上的時間量分布是未知的。在一個實施例中,這種分布是指數分布或帕累托(Pareto)分布。
在一個實施例中,工作負荷狀態模型被描繪<lv,nl,nb>,其中lv指的是當前的工作負荷等級(例如上文所述的工作負荷模型所描述的),nl指的是當前為該工作負荷提供服務的本地資源(例如服務器數量),nb則是一個陣列(每一個遠端站點為其中一個元素),它指的是代表該工作負荷而從其它站點借取的資源(例如服務器數量)。在一個實施例中,無論是本地資源還是遠端資源,當前為工作負荷提供服務的所有資源都是屬于該工作負荷所需要的一個共有的池類型pt。
站點狀態模型描繪的是相關聯的站點的當前狀態,其中站點“狀態”定義了該站點的本地資源可用性。因此,與描述關聯于該站點的靜態參數的站點模型相反,相關聯的站點狀態模型描繪的是與站點相關聯的時變參數。在一個實施例中,站點狀態被描繪為<ws,nd,as>,其中ws是本地工作負荷狀態陣列,nd是表示該站點為處于另一個站點的遠端工作負荷所貢獻的資源(例如服務器數量)的陣列(每一個遠端工作負荷為其中一個元素),as則是表示處于有效模式的本地資源的有效資源(例如服務器)的陣列(每一個池類型pt為其中一個元素),其中處于有效模式的資源是那些當前可以用于為工作負荷提供服務的資源。
策略模型描繪的是分布式計算系統對系統事件做出響應的方式。在一個實施例中,策略模型被描繪為P(S,e),其中P是應用于系統(例如借助系統中包含的單個站點)的策略集或策略集合,S表示的是分布式計算系統的當前狀態(例如資源可用性),e則是調用了集合P中的一個或多個策略的外部事件(例如下文中更詳細描述的工作負荷事件或服務器事件)。當系統處于狀態S時,如果出現這種外部事件e,則通過應用策略集P而將系統指引到可能存在的新狀態的集合,其中所有這些狀態都是符合該策略集的。例如,在發生外部事件e的時候,如果當前系統狀態是S,那么可以應用策略集P,從而形成{(S1,p1),(S2,p2),...,(Sn,pn)},其中Si(1≤i≤n)是根據策略集P的有效的下一個狀態,pi則是系統被建議為轉換到狀態Si的概率,并且∑i=1npi=1。
應該指出的是,如果n=1,那么與策略集P相符合的下一個狀態只有一個。可選擇的是,如果n>1,那么系統將會從集合{Si1≤i≤n}中以概率統計的方式選擇下一個狀態。策略模型是一般性的,它可以容納大范圍的用于分布式計算的策略。
事件模型描述的是觸發狀態變化的事件或是外部變化,由此需要系統在系統工作負荷之間重新分配或是重新分發系統資源,以便滿足系統業務目標。在一個實施例中,事件模型描述的是以下兩種普通類型事件中的至少一種(1)工作負荷事件,它是在一個或多個站點的工作負荷需要從第一等級移動到第二等級時候發生;以及(2)資源事件,它是在在資源(例如服務器)出現故障、轉換到待用模式時發生,或是從故障中恢復以及維護結束后重新恢復到系統之中的時候發生。通常,對給定的狀態S而言存在一個事件集合E,當系統處于狀態S時,有可能發生這些事件。對每一個工作負荷事件e∈E來說,其變換到下一個事件e的時間的概率分布是從上述工作負荷模型中獲取的。對每一個資源事件來說,假設資源是獨立發生故障(以及恢復)的,并且發生故障(和恢復)的時間是指數分布的。
成本模型描述的是在擴展時段中在分布式計算系統內部操作多個站點的成本。由此,成本模型被用于評估各種站點專用策略對于整個分布式計算系統的作用。在一個實施例中,成本模型描述了至少三種主要成本(1)違規成本VC,它表示的是違反給定工作負荷SLA的成本;(2)遠端資源成本RRC,它表示的是使用遠端資源處理給定工作負荷的成本;以及(3)重新分配成本RC,它表示的是用于給定工作負荷的初始建立和供應成本。
在另外的實施例中,該成本模型還描述了至少三個較低等級成本函數。第一個較低等級成本函數α(S,w)描述的是在系統處于狀態S時被用于工作負荷W的違規成本。這個違規成本與num_deficit_servers(S,w)是成比例的,所述num_deficit_servers(S,w)描述的則是處理工作負荷w所需要的資源(例如服務器數量)與實際分配給工作負荷w的資源(本地和遠端)之間的差別。由此,在工作負荷SLA中,違規成本α(S,w)被表述成是單位時間內的每個虧損資源的處罰。
第二個較低等級成本函數γ(S,w)描述的是在系統處于狀態S時使用遠端資源來處理工作負荷w的遠端資源成本。這個遠端資源成本與num_borrowed_servers(S,w)成比例,所述num_borrowed_servers(S,w)描述的則是在系統處于狀態S時代表工作負荷w所借取的遠端資源(例如服務器數量)。在這種情況下,在站點策略集合中,遠端資源成本γ(S,w)被表述成是單位時間內每一個遠端資源的處罰。在一個實施例中,遠端資源成本γ(S,w)對從不同站點借取的資源進行了區分。在這種情況下,用于某一個被借取的資源的遠端資源成本γ(S,w)至少部分取決于用以出借資源的站點。
第三個較低等級成本函數β(S,w)描述的是在系統從狀態S轉換到狀態S’時用于工作負荷w的重新分配成本。重新分配成本β(S,w)至少部分取決于重新分配的資源在被重新分配時處于空閑還是在運行某些工作負荷,并且至少部分取決于重新分配的資源相對于工作負荷而言處于本地還是遠端,此外還至少部分取決于提供和建立工作負荷的成本。
圖3是描述根據本發明來處理圖2所示的各種輸入202,以便產生總體成本206的方法300的一個實施例的流程圖。其中舉例來說,方法300是可以在分析工具200中實現的。
方法300在步驟302開始并且進行到步驟304,在步驟304中,方法300使用狀態轉換模型來描繪分布式計算系統的分析。特別地,方法300將分布式計算系統在給定時間的狀況描繪成是狀態轉換模型中的狀態。在一個實施例中,狀態轉換模型是從與包括在分布式計算系統中的站點相關聯的各種模型(如上所述)中建造的。在一個實施例,這包括將每一個站點上的資源可用性建模成一個狀態,將站點上的資源可用性的變化(例如由于資源故障、恢復、借入或借出)模擬成狀態轉換模型,以及將站點工作負荷變化建模成狀態轉換模型。此外,應用于站點的任何策略都建模為站點狀態和站點轉換的約束條件。在以下更詳細描述的圖4中說明了根據與站點相關聯的模型來建造狀態轉換模型的方法的一個實施例。在一個實施例中,狀態轉換模型的建造包括將單個站點策略編碼到上述函數P(S,e)中。
一旦建造了狀態轉換模型,那么方法300進行到步驟306,并且會在狀態轉換模型上疊加一個排隊網絡。在一個實施例中,在狀態轉換模型上疊加排隊網絡的處理包括識別用于分布式計算網絡的有效狀態以及狀態轉換。然后,這些有效狀態轉換將會使用其發生的概率(舉例來說,該概率取決于相關聯的工作負荷的特性以及資源故障/恢復特性)以及與策略相關聯的概率(舉例來說,該概率可以是與策略相關聯的操作的概率,其中該操作可以包括將分布式計算網絡轉換到一個或多個不同狀態)來加以注釋。
在一個實施例中,方法300將一個排隊網絡疊加在狀態轉換模型之上,以便使用與之相關聯的概率分布函數來注釋狀態轉換T。根據步驟306,轉換T:S→eS’是用數組<fe,pr>來標記的,其中函數fe描述的是導致系統從狀態S轉換到狀態S’的事件e的概率分布。在一個實施例中,函數fe是基于希望的精確度等級來選擇的恰當的統計分布(例如指數分布或帕累托分布)。概率pr描述的是系統響應于事件e而從狀態S轉換到狀態S’的概率。
在步驟308中,方法300通過求解排隊網絡(例如通過求解馬爾可夫(Markov)鏈)來推導出至少一個成本度量。根據本發明,排隊網絡模型的解為分布式計算系統的不同狀態給出了穩態概率。在一個實施例中,排隊網絡的解為所有狀態S給出了pr(S),并且為所有轉換T給出了rate(T),其中pr(S)描述的是系統處于狀態S的概率(在某個擴展時段中),rate(T)描述的則是系統執行轉換T的速率(在某個擴展時段中)。在一個實施例中,與工作負荷相關聯的成本是根據下式來推導的(用單位時間的平均成本單位來表示)VC(w)=∑S∑wα(S,w)*pr(S) (等式1)RRC(w)=∑S∑wγ(S,w)*pr(S) (等式2)RC(w)=∑T:S→S’∑wβ(S,S’,w)*rate(T)(等式3)項pr(S)和rate(T)可以采用如下方式而從排隊網絡模型中確定。在一個實施例中,其中工作負荷事件e是指數分布的,那么,穩定的概率分布是通過使用標準的分析技術來求解馬爾可夫鏈而被計算得到的。這個穩定的概率分布為所有的狀態S提供了pr(S)。對每一個轉換T:S->eS′來說,rate(T)=pr(S)*rate(fe)(等式4)其中rate(fe)描述的是指數分布fe的速率。
在一個替代的實施例中,工作負荷事件e遵循的是一個重尾帕累托分布,其中可以通過應用一個離散事件模擬來求解排隊網絡模型。在一個實施例中,該模擬是在一個很長的時段tsim中執行的。并且在一個實施例中,tsim表示的是在分布式計算系統上運行的應用達到穩態所需要的時間量(例如對某些應用而言,該時間量可以是大約8,000秒)。在模擬過程中,對處于任何狀態S中的系統所消耗的時間量通過t(S)進行了測量,并且使用了這個消耗時間來計算pr(S),由此pr(S)=t(S)/Tsim(等式5)同樣,系統從狀態S轉換到狀態S’所耗費的時間量n(T)是使用轉換T通過n(T)來測量的,由此可以將rate(T)估計成rate(T)=n(T)/tsim(等式6)在為所有的狀態S給出了pr(S)并且為所有的轉換T給出了rate(T)的情況下,工作負荷成本可以參考等式1、2、3并以上文所述的方式來估計。
對分布式計算性能而言,其附加度量(例如響應時間、吞吐量、資源可用性等等)也可以作為排隊網絡解的函數來計算。由此,用戶可以對方法300產生的度量進行檢查,以便確定用于分布式計算系統的當前策略集P是否能使分布式計算系統以一種令人滿意的方式來處理工作負荷。然后,方法300在步驟310結束。
由此,方法300有助于對適合單個站點的各種資源共享策略對于包含了站點的整個分布式計算系統所產生的作用進行有效的分析。通過使用狀態轉換模型,以及隨后通過應用給定策略來識別有效的分布式計算狀態和狀態轉換,可以快速確定給定所述策略對分布式計算系統的成本和性能所產生的影響,并且采用一種易于分析的形式來顯示所述影響。
圖4是描述根據本發明并用于基于上述與站點相關聯的模型來建造狀態轉換模型的方法400的一個實施例的流程圖。其中舉例來說,方法400是可以根據方法300中的步驟304來加以實施的。
方法400始于步驟402并且進行到步驟404,在步驟404中,方法400將會根據所有事件的集合E以及應用于分布式計算系統中的站點的所有站點策略的共同策略集合P而對用于分布式計算系統的工作負荷狀態進行初始化處理。
在步驟406,方法400初始化系統起始狀態S0。然后,方法400會將系統起始狀態S0添加到狀態池中。該狀態池包含了一個或多個由方法400推導得到的分布式計算系統的狀態。
在步驟410,方法400確定狀態池中是否存在未經調查的系統狀態。在一個實施例中,對一個系統狀態而言,如果不存在下一個潛在狀態并且已經為該系統狀態確定了相應的轉換速率,那么這個系統狀態是未經調查的。如果方法400確定狀態池中并未保留未經調查的系統狀態,那么方法400在步驟421終止。方法400的終止表明已經建立了狀態轉換模型,并且可以結合上文中參考圖3所描述的方法300來實施該狀態轉換模型。
作為選擇,如果方法400確定在狀態池仍舊存在一個或多個未經調查的系統狀態,那么方法400前進到步驟414,并且從狀態池中檢索未經調查的狀態Sn。然后,方法400前進到步驟416b,如果存在與檢索到的狀態Sn相關聯的下一個狀態,那么方法400產生下一個狀態以及與檢索到的狀態Sn相關聯的相應的轉換速率。在一個實施例中,生成下一個狀態以及相應的轉換速率的處理是根據狀態Sn以及策略集P中的站點專用策略來執行的。
在步驟418中,方法400將會根據步驟416中產生的下一個狀態以及相應的轉換速率來為分布式計算系統更新狀態轉換矩陣。然后,在步驟420中,所述這些下一個狀態被添加到狀態池中。
在步驟422中,方法400將檢索到的狀態Sn表示成是未經調查的。然后,方法400返回步驟410并以上述方式繼續進行,以便調查狀態池中任何剩余的未經調查的狀態。步驟410~422可被重復執行所需要的次數,直至調查了狀態池中的所有狀態以及無法將新狀態添加到狀態池中為止。本領域技術人員將會了解,一旦沒有將新的狀態添加到狀態池中,則不重復執行步驟412并且該步驟只會出現一次。
圖5是使用通用計算設備500所實現的策略分析方法的高級框圖。在一個實施例中,通用計算設備500包含了處理器502、內存504、策略分析模塊505以及例如顯示器的各種輸入/輸出(I/O)設備506、鍵盤、鼠標、調制解調器等等。在一個實施例中,至少有一個I/O設備是存儲設備(例如磁盤驅動器、光盤驅動器、軟盤驅動器)。應該理解的是,策略分析模塊505可以實現為物理設備,也可以實現為經由通信信道而與處理器相連的子系統。
作為選擇,策略分析模塊505也可以用一個或多個軟件應用(甚至是軟件和硬件的組合來表示,其中舉例來說,該組合可以用專用集成電路(ASIC)來實現)來表示,其中軟件是從存儲介質(例如I/O設備506)加載并在通用計算設備500的內存504中由處理器502來操作的。由此,在一個實施例中,對在這里參考先前附圖所描述的用于分析與分布式計算系統相關聯的性能和策略的策略分析模塊505可以存儲在計算機可讀介質或載體上(例如RAM、磁或光驅動器或磁盤等等)。
由此,本發明描述了分布式計算系統分析領域中的一個顯著進步。在這里提供的方法和設備可以有效地分析適合單個站點的各種資源共享策略施加對包含站點的整個分布式計算系統產生的作用。通過將狀態轉換建模為狀態轉換模型,以及隨后應用給定策略來識別有效的分布式計算狀態和狀態轉換,可以快速識別給定所述策略對分布式計算系統的成本和性能所產生的影響,并且采用排隊網絡分析來顯示所述影響。
雖然上文涉及的是本發明的優選實施例,但在不脫離本發明的基本范圍的情況下,可以設想本發明的其它實施例,本發明的范圍是由下列權利要求確定的。
權利要求
1.一種用于對適合多個計算站點的一個或多個策略進行分析的方法,所述計算站點在分布式計算系統中對相應的工作負荷進行處理,所述方法包括將所述分布式計算系統表示成狀態轉換模型;在所述狀態轉換模型上疊加一個排隊網絡模型;以及根據所述排隊網絡模型的解來確定所述一個或多個策略施加于所述分布式計算系統性能的作用。
2.根據權利要求1所述的方法,其中所述表示包括根據表示所述多個計算站點特性的至少一個模型來建造所述狀態轉換模型,其中所述至少一個模型包括下列模型中的至少一個站點模型、工作負荷模型、工作負荷狀態模型、站點狀態模型、策略模型、事件模型或成本模型。
3.根據權利要求2所述的方法,其中所述站點模型表示的是與相應的計算站點相關聯的靜態參數。
4.根據權利要求3所述的方法,其中所述靜態參數包括下列參數中的至少一個與所述相應計算站點相關聯的多個資源,一種所述的資源或一個或多個策略,其中所述策略規定的是所述相應計算站點用以與第二計算站點共享資源的方式。
5.根據權利要求2所述的方法,其中所述工作負荷模型表示的是下列各項中的至少一項由相應計算站點充當宿主的應用,所述相應計算站點所提供的一個或多個服務等級協定或是轉換概率矩陣,其中該轉換概率矩陣規定的是由所述相應計算站點處理的工作負荷如何在與處理所述工作負荷所需要的相應資源數量相關聯的兩個或多個等級之間轉換。
6.根據權利要求2所述的方法,其中所述工作負荷狀態模型表示的是下列各項中的至少一項與相應計算站點相關聯的當前工作負荷等級,其中所述等級指的是處理工作負荷所需要的資源數量、與當前服務于所述工作負荷的所述相應計算站點相關聯的本地資源數量,或是用于指示代表所述工作負荷而從第二計算站點借取的資源的陣列。
7.根據權利要求2所述的方法,其中所述站點狀態模型表示的是與相應計算站點相關聯的一個或多個時變參數。
8.根據權利要求7所述的方法,其中所述一個或多個時變參數包括下列參數中的至少一個與所述相應的計算站點相關聯的工作負荷狀態,由所述相應計算站點借出到第二計算站點的資源數量,或是與不處于維護模式的所述相應計算站點相關聯的資源數量。
9.根據權利要求2所述的方法,其中所述策略模型表示的是所述分布式計算系統對系統事件作出響應的方式。
10.根據權利要求9所述的方法,其中所述策略模型描述的是所述分布式計算系統響應于特定外部事件而可以轉換成的一個或多個可能的狀態,其中所述外部事件在所述分布式計算系統處于給定的狀態的時候發生。
11.根據權利要求2所述的方法,其中所述事件模型表示的是在所述分布式計算系統中觸發狀態變化的一個或多個事件。
12.根據權利要求11所述的方法,其中所述狀態變化導致所述分布式計算系統在與一個或多個所述計算站點相關聯的兩個或多個工作負荷之間重新分配資源。
13.根據權利要求2所述的方法,其中所述成本模型表示的是在擴展時段中用以操作所述分布式計算系統的一個或多個成本。
14.根據權利要求13所述的方法,其中所述一個或多個成本包括下列成本中的至少一個與服務等級協定的違規相關聯的成本,其中所述協定與由所述分布式計算系統所處理的給定工作負荷相關聯,與從遠端計算站點借取資源來處理給定工作負荷相關聯的成本,或是與為遠端計算站點上的工作負荷的初始建立和供應相關聯的成本。
15.根據權利要求2所述的方法,其中對所述分布式計算系統的所述描述包括在計算站點上將相關聯的資源的可用性建模成狀態;在所述計算站點上將相關聯的工作負荷發生的變化以及所述相關聯的資源的可用性發生的變化建模成狀態轉換;以及將規定所述計算站點與第二計算站點共享資源的方式的策略建模成對所述狀態以及所述狀態轉換的約束條件。
16.根據權利要求15所述的方法,其中所述重疊所述排隊網絡包括將用于表示所述工作負荷變化的狀態轉換與取決于所述相關聯的工作負荷的特性的第一概率相關聯;將用于表示所述資源可用性變化的狀態轉換與取決于所述相關聯的資源故障和恢復的特性的第二概率相關聯;將所述第一概率以及所述第二概率與相應的策略相關聯;將所述相應策略中的每一個與第三概率相關聯,其中所述第三概率取決于根據相應策略所采取的至少一個操作;以及根據排隊網絡分析技術來推導所述分布式計算系統的至少一個狀態的至少一個穩態概率。
17.根據權利要求16所述的方法,其中所述識別包括將至少一個成本模型應用于所述至少一個穩態概率;以及計算與所述分布式計算系統性能相關聯的至少一個度量,其中所述性能是所述至少一個穩態概率的至少一個函數。
18.根據權利要求1所述的方法,其中所述至少一個度量包括以下各項中的至少一項與所述分布式計算系統相關聯的響應時間,與所述分布式計算系統相關聯的吞吐量,或是與所述分布式計算系統相關聯的資源可用性。
19.一種用于對適合多個計算站點的一個或多個策略進行分析的設備,所述計算站點在分布式計算系統中對相應的工作負荷進行處理,所述設備包括用于將所述分布式計算系統表示成狀態轉換模型的裝置;用于在所述狀態轉換模型上疊加一個排隊網絡模型的裝置;以及用于根據所述排隊網絡模型的解來確定所述一個或多個策略施加于所述分布式計算系統性能的作用的裝置。
全文摘要
用于分布式計算系統中的性能和策略分析的方法和設備的一個實施例包括將分布式計算系統性能表示成一個狀態轉換模型。然后,在所述狀態轉換模型上疊加一個排隊網絡,并且根據所述排隊網絡的解來識別一個或多個策略施加于所述分布式計算系統的作用。
文檔編號G06F9/46GK1955932SQ20061013922
公開日2007年5月2日 申請日期2006年9月18日 優先權日2005年10月25日
發明者默西·德瓦拉康達, 尼斯雅·拉杰馬尼, 馬德哈卡·斯里瓦特薩 申請人:國際商業機器公司