It運維服務器的運行狀態檢測方法
【技術領域】
[0001] 本發明涉及電子信息領域,具體而言,涉及IT運維服務器的運行狀態檢測方法。
【背景技術】
[0002] 隨著電子信息技術的發展,互聯網和移動互聯網的使用已經得到了大范圍的推 廣。互聯網技術是指計算機技術的基礎上開發建立的一種信息技術。通常所說的使用互聯 網,是用戶通過操作電腦終端來向網絡端,或者是另一個終端發送信息,并且接收相應的反 饋信息的過程。通常情況下,兩個終端之間進行信息交互同樣需要由網絡端進行中轉,也就 是,兩個終端進行信息交互的時候,需要先將發送給對方的信息傳送給網絡端,再由網絡端 轉發給指定的終端,這種信息的傳遞也是使用服務器的基礎。
[0003] 如常見的聊天軟件的使用,便是當用戶A需要傳遞消息給用戶B時。首先由用戶A通 過操作第一終端,將所要發送的消息上傳給網絡端(由服務商所控制的服務器),上傳的內 容除了消息外,還有如第一終端的識別碼、地址、第二終端(用戶B所操作的終端)的識別碼 和地址等。網絡端在接收到第一終端所上傳的內容后,按照第一終端的識別碼來驗證第一 終端是否有權限,并在確認之后,按照第二終端的地址,將消息傳送給第二終端,進而使操 作第二終端的用戶能夠查看到。相類似的,其他依賴互聯網技術也是采用這種方式將信息 由A方傳遞給B方。具體的,所傳遞的消息不限于用戶想傳遞的消息,還有如指令、代碼等等。
[0004] 不論是哪種互聯網技術,在進行信息傳遞的時候都會利用到服務器進行身份的驗 證和消息的中轉。通常情況下,一個服務器只對同一個服務(或者是某個服務中的子服務) 進行處理,但在處理任務的時候,則需要同事面對大量的終端(通常一個終端對應著一個用 戶)。因此,當服務器的運行出現問題的時候,會有大量用戶受到影響,如,當網絡聊天服務 器宕機的時候,則導致通過該服務器進行信息中轉的用戶,無法再進行信息的傳輸。
[0005] 尤其是,在當前大數據技術快速發展的情況下,對IT技術進行指出的服務器如果 出現宕機問題,則會導致某個數據傳輸環節的嚴重遲緩,甚至導致包含該數據傳輸環節的 整個系統無法工作。
【發明內容】
[0006] 本發明的目的在于提供IT運維服務器的運行狀態檢測方法,以降低服務器宕機的 概率。
[0007 ]第一方面,本發明實施例提供了 IT運維服務器的運行狀態檢測方法,包括:
[0008] 獲取目標運維服務器中的多種主要監控信息,主要監控信息包括以下三種:服務 器性能、服務器容量和服務器狀態;
[0009] 分別比較每種主要監控信息是否超過相應的閾值;
[0010] 若一種主要監控信息超過預定的閾值,則觸發第一報警動作。
[0011] 結合第一方面,本發明實施例提供了第一方面的第一種可能的實施方式,其中,還 包括:
[0012] 獲取目標運維服務器中的多種次要監控信息,次要監控信息包括以下一種或多 種:服務器配置、服務器進程、服務器溫度和服務器服務;
[0013] 分別判斷每種次要監控信息是否符合預設的要求;
[0014] 若一種次要監控信息不符合預設的要求,則觸發第二報警動作。
[0015] 結合第一方面,本發明實施例提供了第一方面的第二種可能的實施方式,其中,分 別比較每種主要監控信息是否超過相應的閾值包括:
[0016]分別比較服務器性能中,每種服務器子性能是否超過預定的閾值,服務器子性能 包括CPU性能、內存性能、進程性能、磁盤性能、網口性能和風扇性能;
[0017] 若多種服務器子性能中的一種超過預定的閾值,則執行步驟觸發第一報警動作。
[0018] 結合第一方面,本發明實施例提供了第一方面的第三種可能的實施方式,其中,分 別比較每種主要監控信息是否超過相應的閾值包括:
[0019] 分別比較服務器容量中,每種服務器子容量是否超過預定的閾值,服務器子容量 包括文件系統當前使用百分比和文件系統當前使用大小;
[0020] 若多種服務器子容量中的一種超過預定的閾值,則執行步驟觸發第一報警動作。
[0021] 結合第一方面,本發明實施例提供了第一方面的第四種可能的實施方式,其中,分 別比較每種主要監控信息是否超過相應的閾值包括:
[0022] 分別比較服務器狀態中,每種服務器子狀態是否超過預定的閾值,服務器子狀態 包括內存狀態、光纖網卡狀態、在線用戶數狀態、風扇運行狀態、路由運行狀態、系統板卡工 作狀態、硬盤狀態燈、硬盤狀態、電源工作狀態、文件系統運行狀態、VIDEO卡運行狀態、CPU 運行狀態、DVD卡運行狀態和FCHBA卡運行狀態;
[0023] 若多種服務器子狀態中的一種超過預定的閾值,則執行步驟觸發第一報警動作。
[0024] 結合第一方面,本發明實施例提供了第一方面的第五種可能的實施方式,其中,分 別比較每種次要監控信息是否符合預設的要求包括:
[0025] 分別判斷服務器進程中,每種服務器子進程是否符合預設的要求,服務器子進程 包括進程狀態、進程父ID、進程名、進程實際調用時間、進程占用的虛擬內存的大小和進程 占用的核心內存;
[0026] 若多種服務器子進程中的一種不符合預設的要求,則執行步驟觸發第二報警動 作;
[0027]和/或,分別判斷服務器溫度中,每種服務器子溫度是否符合預設的要求,服務器 子溫度包括系統溫度、CPU溫度和內存溫度;
[0028] 若多種服務器子溫度中的一種不符合預設的要求,則執行步驟觸發第二報警動 作;
[0029] 和/或,分別判斷服務器服務中,每種服務器子服務是否符合預設的要求,服務器 子服務包括服務狀態、服務所擁有的組、服務啟動時間、服務名稱、服務Pid;
[0030] 若多種服務器子服務中的一種不符合預設的要求,則執行步驟觸發第二報警動 作。
[0031] 結合第一方面,本發明實施例提供了第一方面的第六種可能的實施方式,其中,還 包括:
[0032] 獲取目標運維服務器的服務器類型;
[0033] 從多個不同類型的腳本中,選擇與服務器類型相對應的目標腳本,目標腳本中攜 帶有獲取主要監控信息的代碼;
[0034] 將目標腳本寫入目標運維服務器中;
[0035] 通過調用寫入目標運維服務器中的目標腳本,以執行步驟獲取目標運維服務器中 的多種主要監控信息。
[0036] 結合第一方面,本發明實施例提供了第一方面的第七種可能的實施方式,其中,若 一種主要監控信息超過預定的閾值,則觸發第一報警動作包括:
[0037] 若主要監控信息的數值位于第一閾值范圍,則觸發第一子報警動作;
[0038] 若主要監控信息的數值位于第二閾值范圍,則觸發第二子報警動作;第一閾值范 圍和第二閾值范圍數值上相鄰。
[0039] 結合第一方面,本發明實施例提供了第一方面的第八種可能的實施方式,其中,還 包括:在步驟通過調用寫入目標運維服務器中的目標腳本,以執行步驟獲取目標運維服務 器中的多種主要監控信息前,還包括:
[0040] 獲取寫入目標運維服務器中的目標腳本;
[0041 ]根據目標運維服務器的故障記錄,調整目標腳本中所攜帶的代碼;
[0042]將調整后的目標腳本寫入目標運維服務器中。
[0043]本發明實施例提供的IT運維服務器的運行狀