使用周期性熱評價的電子裝置的維護預測的制作方法
【專利摘要】一種用于確定是否執行針對電子裝置的維護的方法,包括在基線日期為電子裝置的發熱部件生成熱性能的基線表征。該方法還包括在基線日期后的評估日期生成熱性能的評估表征。該方法進一步包括生成包括基線表征和評估表征的歷史趨勢。另外,該方法包括基于歷史趨勢和指定的維護參數確定是否執行針對發熱部件的維護。
【專利說明】使用周期性熱評價的電子裝置的維護預測
【技術領域】
[0001]所要求保護的主題一般涉及熱系統。更具體地,所要求保護的主題涉及用于電子裝置的冷卻系統。
【背景技術】
[0002]通常,服務器以及其他計算裝置使用為整體所必需的冷卻系統來管理溫度敏感部件。一種冷卻方法是強制對流。強制對流冷卻涉及在裝置內部吸取空氣、將空氣引導至部件以用于冷卻。部件典型地包括散熱器,其有助于將熱量從部件移走并移到環境空氣中,該環境空氣被排出裝置外。
[0003]然而,吸到裝置內的空氣中包含纖維、灰塵顆粒和其他顆粒。這些顆粒積聚在裝置內,引起被稱為散熱器結垢的情況,這逐漸惡化冷卻系統的有效性。解決灰塵積聚的當前方法是執行定期維護以去除灰塵。在某些情況下,空氣過濾器可以幫助延長維護周期的長度。但是,空氣過濾器通常使灰塵散布在更大的表面區域上,并且僅推遲了不可避免的維護。空氣過濾器的使用還引起增加的系統流量阻抗,從而導致系統風扇以更高的速度運行并在冷卻該系統方面花費更多的能量。
【專利附圖】
【附圖說明】
[0004]圖1是根據所要求保護主題的實施例的電子裝置的方框圖;
[0005]圖2是根據所要求保護主題的實施例的中央處理單元(CPU)熱堆(thermalstack)的方框圖;
[0006]圖3是根據實施例的針對用以安排熱系統維護的方法的流程圖;以及
[0007]圖4是根據所要求保護主題的實施例的示例計算機系統的方框圖。
[0008]遍及本公開和附圖使用相同的數字來引用相同的部件和特征。100系列中的數字指代最初出現在圖1中的特征;200系列中的數字指代最初出現在圖2中的特征;等等。
【具體實施方式】
[0009]在下面的詳細描述中,闡述了許多具體細節,以便提供全面的理解。然而,對本領域技術人員來說將顯而易見的是,實施例可以在沒有這些具體細節的情況下被實踐。在其他實例中,以方框圖形式而非詳細地示出公知的結構和裝置,以便避免使實施例難理解。
[0010]說明書中對“一個實施例”或“實施例”的引用意味著連同實施例一起描述的特定的特征、結構或特性被包括在至少一個實施例中。說明書中各個地方中用語“在一個實施例中”的出現不一定都指的是相同的實施例。
[0011]典型地,數據中心針對數據中心中的所有服務器以定期間隔安排維護。維護通常包括從散熱器清潔灰塵和顆粒。定期維護有助于確保服務器保持在熱力目標(powerthermal target)內。熱力目標可以是針對致力于維持環境溫度的功率量的預算。然而,這種方法是昂貴的,因為正運行在熱力目標內的許多系統以得到保養而告終。
[0012]有利的是,當數百或數千服務器被部署在數據中心中,并且數據中心操作者或所有者希望最小化停機時間(down-time)時,有可能盡可能地推遲維護,除非功耗成為一個因素。在那時,清潔這些系統可能導致改進的冷卻以及降低的風扇功率。
[0013]圖1是根據所要求保護主題的實施例的電子裝置100的方框圖。裝置100可以是計算裝置,例如服務器、臺式計算機、筆記本電腦、平板電腦、智能手機等。該裝置100包括發熱部件102、散熱器104、風扇106、熱管理器108、以及性能模型110。發熱部件102可以是處理器、磁盤驅動器、高功率半導體器件、功率晶體管、光電器件等。發熱部件102包括具有熱規范114的存儲器。溫度規范114識別部件102的可靠性限度、功能性限度以及損壞限度。可靠性限度是用以優化冷卻和聲學效果的溫度限度。功能限度是用以優化部件性能和功率管理的溫度限度。損壞限度是當達到時會導致部件102被關閉以避免損壞的溫度限度。
[0014]散熱器104是通過將部件的熱量向周圍空氣中耗散來冷卻相關聯的發熱部件102的熱交換器。在一些情況下,散熱器104與風扇106相連接,該風扇106增加了通過散熱器104的氣流。風扇106由熱管理器108來操作,該熱管理器108基于當前的環境溫度以及該部件的操作溫度來使風扇接通、關斷以及設定風扇速度。要注意的是,移動裝置(例如電話和平板電腦)使用自然對流冷卻,并因此不包括風扇106。
[0015]在裝置100內部,具有窄風道或其他收縮管道的各種表面可能引起散熱器結垢。散熱器結垢涉及到來自空氣的纖維在散熱器104的表面上的聚集。纖維積聚以形成捕捉更精細顆粒的墊子。散熱器104變得越阻塞,墊子變得越善于捕捉更小的顆粒。由于結垢,散熱器104的熱性能惡化。熱性能表示散熱器104從相關聯的部件102轉移走熱量的能力。
[0016]最初,散熱器結垢導致風扇速度上的增加,這是由于熱管理器108調整速度來將部件溫度維持在其指定的限度內。更大的風扇速度導致更高的功耗。典型地,功耗隨風扇速度的數學立方而增加。結垢導致熱系統增加的流動阻抗。這導致降低的氣流和更高的部件溫度。風扇速度控制算法增加風扇轉速以維持指定的部件溫度。以這種方式,即使在散熱器結垢的狀態中,增加的風扇速度也維持足夠的氣流。
[0017]如果風扇以其最大速度操作來維持部件溫度,則任何附加的結垢會導致作為節流的結果的部件102的性能退化。節流涉及減少處理(例如,CPU處理)的速率以限制由部件102生成的熱量。熱系統的進一步退化可能導致部件102關閉以防止過熱。
[0018]在一個實施例中,熱管理器108生成熱系統的性能模型110。性能模型110包括熱系統的基線114和周期性評估116。基線114和評估116是熱系統在基線時期(當新裝置100首次被安裝并加電時)以及在安排的間隔下的表征。
[0019]熱系統典型地被設計為沒有裕度,使用針對要支持的環境的高應力工作負荷條件。因此,可以通過運行恒定的功率基準來生成基線114和評估116。這個基準提供穩態熱性能信息,包括但不限于,部件功耗、部件入口處的空氣溫度、部件排氣口處的空氣溫度、部件溫度以及風扇速度。
[0020]性能模型110還包括維護參數118。維護參數118指定為安排維護指定了條件。參數118可以為功耗、風扇速度、熱性能等指定閾值,超出這些閾值將安排維護。這些參數可以指定:例如如果恒定功率基線示出了當前評估116中在基線114之上的50%的功率增力口,則安排維護。在一個實施例中,熱管理器108和性能模型110被實現在裝置100的固件中。
[0021]熱管理器108將熱系統的當前評估116與基線114相比較。如果該比較示出了性能模型I1落在維護參數118外,則為裝置100安排維護。維護可以包括在部件102和散熱器104周圍從裝置100內部去除灰塵,以及更換熱系統的材料。
[0022]在一個實施例中,熱管理器108估計當前評估116和基線114之間的平均功率增力口。此外,熱管理器108可以推薦維護日期。所推薦的維護日期在部件102將在維護參數118之外進行操作之前,并且可以基于平均功率增加,或基于對于超出部件的熱規范的預計時間。在每個評估期間,例如入口溫度、部件溫度、風扇速度、部件功率、系統功率等參數的值被存儲以創建歷史趨勢。該歷史趨勢被用于預計將在被預期超出部件的熱規范之前過去的時間量。如果該預計時間將在下一個安排的評估之前結束,則發出警報以執行維護。
[0023]圖2是根據所要求保護主題的實施例的中央處理單元(CPU)熱堆200的方框圖.CPU熱堆200包括由熱界面材料I和2 0?Μ1和TIM2)分離的CPU封裝202和散熱器204,以及集成驅熱片(integrated heat spreader,IHS) 206。CPU 封裝 202 包括 IHS 206、基板210上的CPU 208,該基板210插入到母板214的插座212中。--Μ1是CPU和IHS 206之間的熱界面材料。--Μ2是CPU封裝202和散熱器204之間的熱界面材料。
[0024]隨著時間的推移,--Μ1和--Μ2可能會退化,從而使熱系統的有效性退化。在這種情況下,從部件102去除灰塵不提供如所預期的那樣多的在熱性能上的改進。在一個實施例中,在從部件102去除灰塵后,熱管理器108生成評估116,以確定熱系統是否符合熱規范114。如果不是,則熱管理器108安排維護以更換--Μ2,并且如果--Μ1已經退化超出指定的參數118,則可能更換該部件本身。
[0025]圖3是根據實施例的安排熱系統維護的方法300的流程圖。該方法開始于塊302處,其中為特定的部件102運行基線基準。在塊304處,基于該基準生成基線114。
[0026]塊306-316以定期安排的評估間隔進行重復,直至性能模型110超出維護參數118。在塊308處,執行評估基準。評估基準被用于生成評估116。存儲例如入口溫度、部件溫度、風扇速度等參數的值以創建歷史趨勢。
[0027]在塊310處,熱管理器108生成由基線114和評估116示出的歷史趨勢。熱管理器108將評估參數值的歷史保持為評估日期的函數。像這樣的歷史數據被用來評價各種參數將如何趨向,以及被用在預計日期方面,在該日期下,執行維護可以保持發熱部件102操作在維護參數118內。
[0028]基于歷史趨勢,在塊312處,熱管理器確定基線114和每個相繼的評估116之間的平均功率增加。在塊314處,熱管理器108估計還有多久熱系統將操作在維護參數118之夕卜。由基線114和評估116示出的歷史趨勢被用于確定在預期超出部件的熱規范之前過去的時間量。如果這個時間是在下一個安排的評估之后,則在塊316處,生成報告,該報告包括但不限于,平均功率增加、估計的維護日期,以及預計的風扇轉速增加。如果預計的時間在下一個安排的評估之前,則方法300流向塊318,其中發出警報以在容納該部件的裝置上執行維護。
[0029]在塊320處,可以執行維護。例如,清潔散熱器104。
[0030]在塊322處,可以運行新的基準以生成新的評估116。在塊324處,熱管理器確定TIM2是否將被更換。如果--Μ2被更換,則可以生成新的評估116,以確定是否由于--Μ1的退化而更換部件102本身。--Μ1是不可更換的。
[0031]圖3中所示的過程可以在任何合適的硬件中被實現,硬件包括邏輯電路、被配置為執行計算機可讀指令的一個或多個處理器,等等。
[0032]圖4是根據實施例的示例計算機系統400的方塊圖。該計算機系統可以包括但不限于服務器、臺式計算機、筆記本電腦、平板電腦、智能手機等。雖然未示出,但計算機系統400可以從直流(DC)源(例如電池)或從交流(AC)源(例如,通過連接到電源插座)接收電力。計算機系統400包括耦合到總線404的中央處理單元(CPU)或處理器402,該總線404提供與系統400的其他部件的連接性。
[0033]處理器402可以包括連接到主存儲器404的存儲器控制器(未示出)。主存儲器404可以存儲數據和由處理器402或系統400內的任何其他部件執行的指令序列。在一個實施例中,主存儲器404包括計算機可讀介質,例如,易失性存儲器和非易失性存儲器。非易失性存儲器可以包括只讀存儲器(ROM)、可編程ROM(PROM)、電可編程ROM(EPROM)、電可擦除可編程ROM(EEPROM)、閃存等。
[0034]易失性存儲器可以包括隨機存取存儲器(RAM),諸如靜態RAM(SRAM)、動態RAM (DRAM)、同步 DRAM (SDRAM)、雙倍數據速率 SDRAM (DDR SDRAM)、增強型 SDRAM (ESDRAM)、DRAM (SLDRAM)、直接 RAM(RDRAM)、直接動態 RAM (DRDRAM)、動態 RAM(RDRAM)。
[0035]總線404可以被連接到外圍部件互連(PCI)總線408。PCI總線408可以在處理器402與例如音頻裝置410和磁盤驅動器412等外圍裝置之間提供數據路徑。雖然沒有示出,但其他裝置也可以被連接到PCI總線408。
[0036]處理器402和磁盤驅動器412是發熱裝置的示例,其中的每一個都與散熱器414和風扇416連接。CPU熱堆418包括處理器402和散熱器414。
[0037]要理解的是,前述示例中的細節可以被用在一個或多個實施例中的任何地方。例如,上述計算裝置的特征可以替代地相對于本文中所描述的方法和計算機可讀介質中任一來實現。此外,雖然本文的附圖描述了實施例,但所要求保護的主題的實施例并不限于那些示圖或對應的描述。例如,流程不需要以本文所說明相同的特定順序來經過圖4的每個所圖示的框進行移動。
[0038]實施例不限于本文中列出的特定細節。事實上,受益于本公開的本領域技術人員將認識到,可以做出根據前面的描述和附圖的許多其他變形。因此,是包括對其的任何修改的以下的權利要求限定了范圍。
【權利要求】
1.一種用于確定是否執行針對電子裝置的維護的方法,包括:在基線日期為所述電子裝置的發熱部件生成熱性能的基線表征;在所述基線日期后的評估日期生成所述熱性能的評估表征;為所述發熱部件生成歷史趨勢,其包括所述基線表征和評估表征;以及基于所述歷史趨勢和指定的維護參數來確定是否執行針對所述發熱部件的維護。
2.如權利要求1的方法,其中,生成所述歷史趨勢包括:為包括所述評估表征的多個評估確定作為評估日期的函數的評估參數值;以及為每個評估參數值確定趨勢。
3.如權利要求1的方法,其中,生成所述基線表征包括:運行恒定功率基準;以及確定包括所述發熱部件的系統的入口溫度;確定所述發熱部件的操作溫度;以及確定所述發熱部件的功耗。
4.如權利要求3的方法,其中,生成所述基線表征包括確定風扇速度。
5.如權利要求1的方法,包括如果時間在所述發熱部件的下一個安排的評估之前則發出維護警報。
6.如權利要求5的方法,包括:確定直到超出指定的維護參數為止的時間段;呈現報告,所述報告包括:平均增加;以及所述時間段。
7.如權利要求1的方法,包括:在從所述發熱部件去除灰塵后,執行附加的評估表征;以及確定熱界面材料將被更換。
8.如權利要求7的方法,其中,所述熱界面材料包括熱界面材料2。
9.一種系統,包括:處理器;以及存儲器,其包括計算機可執行指令,所述計算機可執行指令被配置為使所述處理器:在基線日期為電子裝置的發熱部件生成熱性能的基線表征;在所述基線日期后的評估日期生成所述熱性能的評估表征;為所述發熱部件生成歷史趨勢,其包括所述基線表征和評估表征;以及基于所述歷史趨勢和指定的維護參數來確定是否執行針對所述發熱部件的維護。
10.如權利要求9的系統,其中,生成所述基線表征包括:運行恒定功率基準;以及確定所述發熱部件的入口溫度;確定所述發熱部件的操作溫度;以及確定所述發熱部件的功耗。
11.如權利要求10的系統,其中,生成所述基線表征包括確定風扇速度。
12.如權利要求9的系統,包括代碼,所述代碼被配置為使所述處理器確定在所述基線日期與所述評估日期之間在功耗上的平均增加。
13.如權利要求12的系統,包括代碼,所述代碼被配置為使所述處理器確定直到滿足指定的維護參數為止的時間段。
14.如權利要求13的系統,包括代碼,所述代碼被配置為使所述處理器呈現報告,所述報告包括: 所述平均增加;以及 所述時間段。
15.如權利要求9的系統,包括代碼,所述代碼被配置為使所述處理器: 在從所述發熱部件去除灰塵后,執行附加的評估表征;以及 確定熱界面材料將被更換。
16.如權利要求15的系統,其中,所述熱界面材料包括熱界面材料2。
17.一種計算機可讀介質,包括代碼,所述代碼被配置為使處理器: 在基線日期為電子裝置的發熱部件生成熱性能的基線表征; 在所述基線日期后的評估日期生成所述熱性能的評估表征; 為所述發熱部件生成歷史趨勢,其包括所述基線表征和所述評估表征; 基于所述歷史趨勢來確定所述發熱部件將在指定的維護參數之外執行的時間; 基于所述時間確定是否執行針對所述發熱部件的維護;以及 生成指示所述時間和所述歷史趨勢的報告。
18.如權利要求17的計算機可讀介質,其中,生成所述評估表征包括: 運行恒定功率基準;以及 確定所述發熱部件的入口溫度; 確定所述發熱部件的操作溫度;以及 確定所述發熱部件的功耗。
19.如權利要求17的計算機可讀介質,其中,生成所述基線表征包括確定風扇速度。
20.如權利要求17的計算機可讀介質,包括代碼,所述代碼被配置為使所述處理器確定在所述基線日期與所述評估日期之間在功耗上的平均增加。
21.如權利要求20的計算機可讀介質,包括代碼,所述代碼被配置為如果所述時間在所述發熱部件的下一個安排的評估之前則發出維護警報。
22.如權利要求21的計算機可讀介質,包括代碼,所述代碼被配置為使所述處理器呈現報告,所述報告包括: 所述平均增加;以及 所述時間段。
23.一種電子裝置,包括: 用以在基線日期為電子裝置的發熱部件生成熱性能的基線表征的邏輯; 用以在所述基線日期后的評估日期生成所述熱性能的評估表征的邏輯; 用以為所述發熱部件生成歷史趨勢的邏輯,所述歷史趨勢包括所述基線表征和評估表征;以及 用以基于所述歷史趨勢和指定的維護參數來確定是否執行針對所述發熱部件的維護的邏輯。
24.如權利要求23的電子裝置,其中,用以生成所述歷史趨勢的邏輯包括: 用以為包括所述評估表征的多個評估確定作為評估日期的函數的評估參數值的邏輯;以及 用以為每個評估參數值確定趨勢的邏輯。
25.如權利要求23的電子裝置,其中,用以生成所述基線表征的邏輯包括: 用以運行恒定功率基準的邏輯;以及 用以確定包括所述發熱部件的系統的入口溫度的邏輯; 用以確定所述發熱部件的操作溫度的邏輯;以及 用以確定所述發熱部件的功耗的邏輯。
26.如權利要求25的電子裝置,其中,用以生成所述基線表征的邏輯包括用以確定風扇速度的邏輯。
27.如權利要求23的電子裝置,包括用以如果時間在所述發熱部件的下一個安排的評估之前則發出維護警報的邏輯。
28.如權利要求27的電子裝置,包括: 用以確定直到超出指定的維護參數為止的時間段的邏輯; 用以呈現報告的邏輯,所述報告包括: 平均增加;以及 所述時間段。
29.如權利要求23的電子裝置,包括: 用以在從所述發熱部件去除灰塵后,執行附加的評估表征的邏輯,;以及 用以確定熱界面材料將被更換的邏輯。
30.如權利要求29的電子裝置,其中,所述熱界面材料包括熱界面材料2。
【文檔編號】G06F1/20GK104335133SQ201380017289
【公開日】2015年2月4日 申請日期:2013年12月19日 優先權日:2012年12月27日
【發明者】R·A·施泰因布雷赫, N·阿烏哈, S·阿烏哈 申請人:英特爾公司