專利名稱:一種采用自檢機(jī)制的業(yè)務(wù)監(jiān)控與故障快速定位方法
技術(shù)領(lǐng)域:
本發(fā)明涉及業(yè)務(wù)支撐系統(tǒng)的監(jiān)控、分析、故障排除,特別是一種采用自檢機(jī) 制的業(yè)務(wù)監(jiān)控與故障快速定位方法。
背景技術(shù):
隨著計(jì)算機(jī)技術(shù)的發(fā)展,各個(gè)公司的業(yè)務(wù)開(kāi)始逐漸和計(jì)算機(jī)軟硬件結(jié)合,根 據(jù)公司的業(yè)務(wù)建立模型,以計(jì)算機(jī)系統(tǒng)為核心,結(jié)合其他軟硬件設(shè)施,定制形成 了公司的業(yè)務(wù)支撐系統(tǒng)。如通信行業(yè)的計(jì)費(fèi)系統(tǒng),銀行的交易管理系統(tǒng),網(wǎng)站的 交易、支付系統(tǒng)等,都是典型的業(yè)務(wù)支撐系統(tǒng)。
在業(yè)務(wù)支撐系統(tǒng)中,有些關(guān)鍵業(yè)務(wù)需要長(zhǎng)時(shí)間穩(wěn)定運(yùn)行,在公司的運(yùn)營(yíng)中, 越早發(fā)現(xiàn)這些業(yè)務(wù)系統(tǒng)的故障,越早定位系統(tǒng)的故障點(diǎn),就可以減少因系統(tǒng)故障 導(dǎo)致的運(yùn)營(yíng)損失。目前運(yùn)用較多的為系統(tǒng)監(jiān)控技術(shù)和故障字典方法來(lái)發(fā)現(xiàn)和定位 系統(tǒng)故障。
系統(tǒng)監(jiān)控方法采用在系統(tǒng)設(shè)置檢測(cè)點(diǎn),通過(guò)專用的檢測(cè)儀器、程序,將檢測(cè) 數(shù)據(jù)與設(shè)定的閥值進(jìn)行比較,如果超過(guò)閥值則可知該檢測(cè)點(diǎn)設(shè)備出現(xiàn)故障。監(jiān)控 方法多用于對(duì)系統(tǒng)中某一環(huán)節(jié)設(shè)備進(jìn)行故障檢測(cè)與告警。
故障字典方法采用預(yù)先根據(jù)系統(tǒng)測(cè)試,模擬各種系統(tǒng)故障,編制相應(yīng)的故障 現(xiàn)象與故障定位情況字典,在出現(xiàn)故障時(shí),根據(jù)檢測(cè)到的故障現(xiàn)象查閱故障字典 實(shí)現(xiàn)故障定位。
系統(tǒng)監(jiān)控方法需在系統(tǒng)設(shè)置檢測(cè)點(diǎn),使用專用的檢測(cè)儀器或編寫專用的檢測(cè) 程序,實(shí)施時(shí)需對(duì)系統(tǒng)的各個(gè)環(huán)節(jié)進(jìn)行改造,成本高;專用的檢測(cè)儀器或檢測(cè)程 序容易對(duì)被監(jiān)控系統(tǒng)產(chǎn)生影響,檢測(cè)儀器或檢測(cè)程序本身出問(wèn)題時(shí),可能產(chǎn)生故 障誤報(bào),甚至破壞被監(jiān)控系統(tǒng)。在現(xiàn)實(shí)中,在同一臺(tái)主機(jī)上可能運(yùn)行了很多業(yè)務(wù) 程序,這些業(yè)務(wù)可能相互獨(dú)立,但任何一個(gè)業(yè)務(wù)程序出問(wèn)題,可能都會(huì)導(dǎo)致監(jiān)控 檢查點(diǎn)檢測(cè)到異常(如通常的cpu使用率、內(nèi)存使用情況等監(jiān)測(cè)指標(biāo)異常),而從 這些異常指標(biāo)又很難定位是哪個(gè)業(yè)務(wù)程序出了問(wèn)題,也就是系統(tǒng)監(jiān)控方法難以做 到按業(yè)務(wù)監(jiān)控。采用系統(tǒng)監(jiān)控的思想,對(duì)監(jiān)控方法加以改進(jìn),按業(yè)務(wù)設(shè)置檢査點(diǎn),如檢查業(yè) 務(wù)日志是否更新,業(yè)務(wù)的關(guān)鍵進(jìn)程是否存在,在某段時(shí)間業(yè)務(wù)量是否達(dá)到閎值等, 能在一定程度上實(shí)現(xiàn)對(duì)業(yè)務(wù)的監(jiān)控,但由于這些檢査方法大多只能檢査到狀態(tài)量 (如日志更新/未更新、進(jìn)程存在/不存在、超過(guò)閥值/未超過(guò)閥值),且這些指標(biāo) 又與正常的業(yè)務(wù)量變化密切相關(guān),故難以區(qū)分和判斷檢測(cè)到的狀態(tài)變化是由于系 統(tǒng)異常引起還是業(yè)務(wù)量變化引起,監(jiān)控的準(zhǔn)確性難以保證,容易出現(xiàn)故障誤報(bào)和 故障未報(bào)的現(xiàn)象。而這種方法最大的問(wèn)題在于要定位故障,必須盡可能監(jiān)控業(yè)務(wù) 流程的每一個(gè)環(huán)節(jié),監(jiān)控系統(tǒng)建設(shè)成本非常高。
故障字典方法需要在系統(tǒng)設(shè)計(jì)時(shí)即對(duì)可能出現(xiàn)的故障進(jìn)行周密的考慮,并預(yù)
先進(jìn)行大量測(cè)試,模擬系統(tǒng)故障情況,編寫故障字典,故也存在成本高的問(wèn)題; 故障字典根據(jù)故障現(xiàn)象往往還無(wú)法定位故障,需要使用測(cè)量等各種輔助手段,在
需要測(cè)量等輔助手段時(shí)即無(wú)法準(zhǔn)確定位故障點(diǎn),而測(cè)量等輔助手段往往又增加了 系統(tǒng)排故成本,并可能對(duì)系統(tǒng)會(huì)產(chǎn)生不良影響;故障字典方法的另一個(gè)大問(wèn)題是 無(wú)法檢測(cè)和定位未知故障,在故障現(xiàn)象超出故障字典范圍時(shí),這一方法便不再有 效。
更為重要的是,系統(tǒng)監(jiān)控和故障字典方法對(duì)現(xiàn)已有的業(yè)務(wù)支撐系統(tǒng),實(shí)現(xiàn)起 來(lái)多存在問(wèn)題,因?yàn)楫?dāng)初的市場(chǎng)形勢(shì)所迫,可能業(yè)務(wù)支撐系統(tǒng)設(shè)計(jì)時(shí)并未考慮測(cè) 量點(diǎn),新增測(cè)量點(diǎn)可能對(duì)原系統(tǒng)改造較大,實(shí)施困難;由于開(kāi)發(fā)進(jìn)度所限,可能 并未考慮建立故障字典以及故障字典的編碼索引(如故障編碼),重新建立故障編 碼可能也需要進(jìn)行較多的系統(tǒng)改造,故障字典的編制和使用就存在較大的困難。
發(fā)明內(nèi)容
本發(fā)明為解決上述問(wèn)題,提出了一種采用自檢機(jī)制的業(yè)務(wù)監(jiān)控與故障快速定 位方法,可以在最少對(duì)原系統(tǒng)的改造的基礎(chǔ)上實(shí)現(xiàn)對(duì)業(yè)務(wù)支撐系統(tǒng)的業(yè)務(wù)監(jiān)控與 故障快速定位,從而減少企業(yè)的成本支出,具有很強(qiáng)的實(shí)用性。
一種采用自檢機(jī)制的業(yè)務(wù)監(jiān)控與故障快速定位方法,其特征在于通過(guò)虛擬 用戶關(guān)鍵ID產(chǎn)生自檢業(yè)務(wù)請(qǐng)求,業(yè)務(wù)支撐系統(tǒng)對(duì)自檢業(yè)務(wù)請(qǐng)求進(jìn)行處理,然后采 集自檢業(yè)務(wù)請(qǐng)求觸發(fā)的系統(tǒng)反饋結(jié)果,同時(shí)以虛擬用戶關(guān)鍵ID作為搜索關(guān)鍵字在 業(yè)務(wù)支撐系統(tǒng)各業(yè)務(wù)處理環(huán)節(jié)的日志中進(jìn)行搜索,最后根據(jù)系統(tǒng)反饋結(jié)果和搜索 結(jié)果,對(duì)比正常業(yè)務(wù)請(qǐng)求的相關(guān)情況,判斷系統(tǒng)健康狀況、根據(jù)對(duì)比得出的差異 情況定位系統(tǒng)故障點(diǎn)。所述定位系統(tǒng)故障點(diǎn)是從發(fā)現(xiàn)差異情況的位置逐層往上尋找起始差異點(diǎn),從 而確定系統(tǒng)的故障點(diǎn)。
所述虛擬用戶ID是自檢業(yè)務(wù)請(qǐng)求標(biāo)識(shí),或者是自檢業(yè)務(wù)請(qǐng)求標(biāo)識(shí)與自檢業(yè)務(wù) 請(qǐng)求的發(fā)起時(shí)間信息的混合編碼形成的。
所述虛擬用戶關(guān)鍵ID與業(yè)務(wù)支撐系統(tǒng)處理用戶請(qǐng)求時(shí),使用的用戶關(guān)鍵ID 相似。如在電信系統(tǒng),使用電話號(hào)碼作為系統(tǒng)處理用戶各種業(yè)務(wù)請(qǐng)求的關(guān)鍵ID, 在混合編碼時(shí),形成的虛擬用戶關(guān)鍵ID應(yīng)該與電話號(hào)碼盡可能相似;又如在銀行 系統(tǒng),使用用戶的銀行帳號(hào)作為處理用戶各種業(yè)務(wù)請(qǐng)求的關(guān)鍵ID,在混合編碼時(shí),
形成的虛擬用戶關(guān)鍵ID應(yīng)該與用戶帳號(hào)盡可能相似;在網(wǎng)上交易系統(tǒng)中,以用戶
注冊(cè)ID (如淘寶網(wǎng)注冊(cè)的支付寶帳號(hào))作為處理用戶請(qǐng)求的關(guān)鍵ID,則在混合編 碼時(shí),形成的虛擬用戶關(guān)鍵ID應(yīng)該與用戶注冊(cè)ID盡可能相似。
所述自檢業(yè)務(wù)請(qǐng)求是用于檢査系統(tǒng)的業(yè)務(wù)請(qǐng)求,自檢業(yè)務(wù)請(qǐng)求與用戶正常發(fā) 起的業(yè)務(wù)請(qǐng)求相同或相似的請(qǐng)求。
自檢業(yè)務(wù)請(qǐng)求可以通過(guò)專用的模擬器、自動(dòng)測(cè)試軟件或真實(shí)的用戶發(fā)起產(chǎn)生, 如在電信運(yùn)營(yíng)商的使用短信完成充值的空中充值系統(tǒng),可以編寫一個(gè)短信收發(fā)的 模擬器,發(fā)送充值短信到業(yè)務(wù)支撐系統(tǒng),也可以使用測(cè)試號(hào)碼(真實(shí)的用戶)向 業(yè)務(wù)支撐系統(tǒng)發(fā)送充值短信;又如營(yíng)業(yè)廳前臺(tái)或網(wǎng)上營(yíng)業(yè)廳業(yè)務(wù),可以使用自動(dòng) 測(cè)試軟件發(fā)起自檢業(yè)務(wù)請(qǐng)求。
所述自檢業(yè)務(wù)請(qǐng)求標(biāo)識(shí)是指自檢業(yè)務(wù)請(qǐng)求可以區(qū)分正常業(yè)務(wù)請(qǐng)求和自檢業(yè)務(wù) 請(qǐng)求的特征。例如,向電信業(yè)務(wù)支撐系統(tǒng)中發(fā)起自檢業(yè)務(wù)請(qǐng)求,發(fā)起請(qǐng)求的測(cè)試 號(hào)碼編碼的全部或一部分(電話號(hào)碼或號(hào)段),這時(shí)自檢業(yè)務(wù)請(qǐng)求標(biāo)識(shí)即可以是該 測(cè)試號(hào)碼或號(hào)段;又例如短信收發(fā)模擬器產(chǎn)生的虛擬號(hào)碼的全部或一部分,如特 定的虛擬號(hào)碼,或以"9"開(kāi)頭/結(jié)尾/居中某一位(或以其他數(shù)字、字符及其所處 位置為特征的虛擬號(hào)碼),這時(shí),自檢業(yè)務(wù)請(qǐng)求標(biāo)識(shí)即可以是該特定的虛擬號(hào)碼, 或以"9"開(kāi)頭/結(jié)尾/居中的號(hào)碼(或以其他數(shù)字、字符及其所處位置為特征的虛 擬號(hào)碼)。
所述自檢業(yè)務(wù)請(qǐng)求的發(fā)起時(shí)間信息是在發(fā)起自檢業(yè)務(wù)時(shí)可記錄的以編碼、字 符串等形式的精確或模糊的時(shí)間信息,如在2008年3月17日10點(diǎn)41分10秒發(fā) 起的自檢業(yè)務(wù)請(qǐng)求,其發(fā)起時(shí)間信息可記錄為20080317104110,或省略年、秒記 錄為03in041,以及10: 41: 10, 10: 41等形式根據(jù)實(shí)際情況都可采用。所述采集自檢業(yè)務(wù)請(qǐng)求觸發(fā)的系統(tǒng)反饋結(jié)果在收集業(yè)務(wù)支撐系統(tǒng)對(duì)自檢業(yè)務(wù) 請(qǐng)求進(jìn)行處理而生成的處理結(jié)果記錄,或處理請(qǐng)求過(guò)程中向業(yè)務(wù)請(qǐng)求端反饋的處 理結(jié)果信息。采集的方法可以使用真實(shí)的用戶終端接收,或使用專用的模擬器接 收,或使用合適的設(shè)備、儀器讀取處理結(jié)果記錄。
所述各業(yè)務(wù)處理環(huán)節(jié)的日志在系統(tǒng)處理業(yè)務(wù)請(qǐng)求時(shí)所記錄的處理過(guò)程以及結(jié) 果的信息,日志可以以文件、數(shù)據(jù)庫(kù)或其他可以保存信息的形式存在。
所述搜索利用操作系統(tǒng)搜索/査找命令(如gr印命令),數(shù)據(jù)庫(kù)SQL語(yǔ)句 (select語(yǔ)句),或搜索程序?qū)ο到y(tǒng)各業(yè)務(wù)請(qǐng)求處理的各環(huán)節(jié)的日志進(jìn)行搜索。
在搜索的時(shí)候,以自檢業(yè)務(wù)請(qǐng)求標(biāo)識(shí)與自檢業(yè)務(wù)請(qǐng)求的發(fā)起時(shí)間信息的混合 編碼形成的虛擬用戶關(guān)鍵ID作為搜索關(guān)鍵字或搜索條件。
所述根據(jù)系統(tǒng)反饋結(jié)果和搜索結(jié)果,對(duì)比正常業(yè)務(wù)請(qǐng)求的相關(guān)情況,來(lái)判斷 系統(tǒng)健康狀況、定位系統(tǒng)故障點(diǎn),根據(jù)自檢業(yè)務(wù)請(qǐng)求觸發(fā)的系統(tǒng)反饋結(jié)果和在各 環(huán)節(jié)日志搜索的結(jié)果,對(duì)比正常業(yè)務(wù)請(qǐng)求觸發(fā)的系統(tǒng)反饋結(jié)果和日志記錄,可以 判斷系統(tǒng)健康狀況、定位系統(tǒng)故障點(diǎn)。如根據(jù)系統(tǒng)反饋結(jié)果的時(shí)間和內(nèi)容,對(duì)比 正常業(yè)務(wù)反饋結(jié)果所需的時(shí)間、應(yīng)該反饋的內(nèi)容,可以判斷系統(tǒng)處理是否正常; 根據(jù)各環(huán)節(jié)日志的搜索結(jié)果,對(duì)比正常業(yè)務(wù)的處理所需時(shí)間、記錄內(nèi)容等信息, 可以判斷在該環(huán)節(jié)系統(tǒng)是否正常;將各環(huán)節(jié)搜索結(jié)果串起來(lái),經(jīng)過(guò)簡(jiǎn)單的對(duì)比分 析,可以快速定位故障點(diǎn)。如業(yè)務(wù)支撐系統(tǒng)處理一筆業(yè)務(wù)請(qǐng)求需要依次經(jīng)過(guò)A、 B、 C三個(gè)環(huán)節(jié),如在A環(huán)節(jié)搜索到自檢業(yè)務(wù)請(qǐng)求的正常處理日志記錄,而在B、 C環(huán) 節(jié)搜索無(wú)記錄,則可快速判斷系統(tǒng)故障在B環(huán)節(jié)。又如在A環(huán)節(jié)搜索到處理日志 記錄有與正常情況相比有延時(shí),在B、 C環(huán)節(jié)可以看到大致相同的延時(shí),可知系統(tǒng) 在A環(huán)節(jié)發(fā)生了業(yè)務(wù)積壓或其他導(dǎo)致處理延時(shí)的問(wèn)題。
設(shè)置不同的自檢業(yè)務(wù)請(qǐng)求序列,根據(jù)各自檢業(yè)務(wù)請(qǐng)求序列(模擬不同的并發(fā) 業(yè)務(wù)量情況)的系統(tǒng)反饋結(jié)果和日志搜索結(jié)果,還可以準(zhǔn)確建立業(yè)務(wù)量-系統(tǒng)性能 模型,從而結(jié)合歷史業(yè)務(wù)量趨勢(shì)情況,對(duì)將來(lái)的系統(tǒng)超負(fù)荷的時(shí)間點(diǎn)做出預(yù)判, 可以有充足的時(shí)間提前準(zhǔn)備擴(kuò)容、優(yōu)化等工作。
采用本發(fā)明方法,根據(jù)實(shí)際需要,還可采用定時(shí)發(fā)起自檢業(yè)務(wù)請(qǐng)求,實(shí)現(xiàn)對(duì) 系統(tǒng)的實(shí)時(shí)/準(zhǔn)實(shí)時(shí)監(jiān)控,如每分鐘發(fā)起一筆自檢業(yè)務(wù)請(qǐng)求,接收端也應(yīng)該每分鐘 收到一筆自檢業(yè)務(wù)請(qǐng)求觸發(fā)的系統(tǒng)反饋,系統(tǒng)各環(huán)節(jié)也應(yīng)該以分鐘為頻率記錄處 理日志,如偏離正常范圍,則可產(chǎn)生監(jiān)控告警。也可設(shè)定一個(gè)發(fā)起自檢業(yè)務(wù)請(qǐng)求的時(shí)間序列(時(shí)間序列可以根據(jù)實(shí)際業(yè)務(wù)情況建立模型得到),在設(shè)定的時(shí)間序列 點(diǎn)發(fā)起自檢業(yè)務(wù)請(qǐng)求,再以這些自檢業(yè)務(wù)請(qǐng)求和其觸發(fā)的系統(tǒng)反饋信息進(jìn)行監(jiān)控 和故障定位,以達(dá)到更加實(shí)用、有效的監(jiān)控和故障快速定位效果。 本發(fā)明優(yōu)點(diǎn)如下
1、 本發(fā)明可實(shí)現(xiàn)按業(yè)務(wù)監(jiān)控系統(tǒng)健康狀況;
2、 不需要專門的檢測(cè)、監(jiān)控設(shè)備,可利用現(xiàn)有系統(tǒng)的日志記錄、搜索命令等 已有資源,對(duì)現(xiàn)系統(tǒng)改造小,甚至不需改造。故成本低,可推廣性強(qiáng),也不會(huì)出 現(xiàn)因監(jiān)控測(cè)量影響被監(jiān)控系統(tǒng)的風(fēng)險(xiǎn);
3、 不需進(jìn)行大量的測(cè)試,編制故障字典,可根據(jù)自檢業(yè)務(wù)請(qǐng)求觸發(fā)的系統(tǒng)反 饋和日志記錄對(duì)比正常情況快速定位故障;
4、 采用將自檢業(yè)務(wù)請(qǐng)求標(biāo)識(shí)與自檢業(yè)務(wù)請(qǐng)求的發(fā)起時(shí)間信息的混合編碼,形 成的虛擬用戶關(guān)鍵ID的方法,可最大限度較少對(duì)原系統(tǒng)的改造,模擬真實(shí)的用戶 請(qǐng)求處理過(guò)程;
5、 可更準(zhǔn)確識(shí)別監(jiān)控指標(biāo)異常是由于正常業(yè)務(wù)量影響還是系統(tǒng)故障影響,減 少監(jiān)控的故障誤報(bào)和故障不報(bào)現(xiàn)象;
6、 使用本發(fā)明可以在生產(chǎn)系統(tǒng)上采集系統(tǒng)性能數(shù)據(jù),不影響系統(tǒng)的正常業(yè)務(wù) 處理,不需購(gòu)置和生產(chǎn)系統(tǒng)相似的鏡像系統(tǒng)。
具體實(shí)施方式
實(shí)施例1
一種采用自檢機(jī)制的業(yè)務(wù)監(jiān)控與故障快速定位方法,通過(guò)虛擬用戶關(guān)鍵ID產(chǎn) 生自檢業(yè)務(wù)請(qǐng)求,業(yè)務(wù)支撐系統(tǒng)對(duì)自檢業(yè)務(wù)請(qǐng)求進(jìn)行處理,然后采集自檢業(yè)務(wù)請(qǐng) 求觸發(fā)的系統(tǒng)反饋結(jié)果,同時(shí)以虛擬用戶關(guān)鍵ID作為搜索關(guān)鍵字在業(yè)務(wù)支撐系統(tǒng) 各業(yè)務(wù)處理環(huán)節(jié)的日志中進(jìn)行搜索,最后根據(jù)系統(tǒng)反饋結(jié)果和搜索結(jié)果,對(duì)比正 常業(yè)務(wù)請(qǐng)求的相關(guān)情況,判斷系統(tǒng)健康狀況、根據(jù)對(duì)比得出的差異情況定位系統(tǒng) 故障點(diǎn)。
所述定位系統(tǒng)故障點(diǎn)是從發(fā)現(xiàn)差異情況的位置逐層往上尋找起始差異點(diǎn),從 而確定系統(tǒng)的故障點(diǎn)。
所述虛擬用戶ID是自檢業(yè)務(wù)請(qǐng)求標(biāo)識(shí),或者是自檢業(yè)務(wù)請(qǐng)求標(biāo)識(shí)與自檢業(yè)務(wù) 請(qǐng)求的發(fā)起時(shí)間信息的混合編碼形成的。
所述虛擬用戶關(guān)鍵ID與業(yè)務(wù)支撐系統(tǒng)處理用戶請(qǐng)求時(shí),使用的用戶關(guān)鍵ID相似。如在電信系統(tǒng),使用電話號(hào)碼作為系統(tǒng)處理用戶各種業(yè)務(wù)請(qǐng)求的關(guān)鍵ID, 在混合編碼時(shí),形成的虛擬用戶關(guān)鍵ID應(yīng)該與電話號(hào)碼盡可能相似;又如在銀行 系統(tǒng),使用用戶的銀行帳號(hào)作為處理用戶各種業(yè)務(wù)請(qǐng)求的關(guān)鍵ID,在混合編碼時(shí), 形成的虛擬用戶關(guān)鍵ID應(yīng)該與用戶帳號(hào)盡可能相似;在網(wǎng)上交易系統(tǒng)中,以用戶 注冊(cè)ID (如淘寶網(wǎng)注冊(cè)的支付寶帳號(hào))作為處理用戶請(qǐng)求的關(guān)鍵ID,則在混合編 碼時(shí),形成的虛擬用戶關(guān)鍵ID應(yīng)該與用戶注冊(cè)ID盡可能相似。
所述自檢業(yè)務(wù)請(qǐng)求是用于檢査系統(tǒng)的業(yè)務(wù)請(qǐng)求,自檢業(yè)務(wù)請(qǐng)求與用戶正常發(fā) 起的業(yè)務(wù)請(qǐng)求相同或相似的請(qǐng)求。
自檢業(yè)務(wù)請(qǐng)求可以通過(guò)專用的模擬器、自動(dòng)測(cè)試軟件或真實(shí)的用戶發(fā)起產(chǎn)生, 如在電信運(yùn)營(yíng)商的使用短信完成充值的空中充值系統(tǒng),可以編寫一個(gè)短信收發(fā)的 模擬器,發(fā)送充值短信到業(yè)務(wù)支撐系統(tǒng),也可以使用測(cè)試號(hào)碼(真實(shí)的用戶)向 業(yè)務(wù)支撐系統(tǒng)發(fā)送充值短信;又如營(yíng)業(yè)廳前臺(tái)或網(wǎng)上營(yíng)業(yè)廳業(yè)務(wù),可以使用自動(dòng) 測(cè)試軟件發(fā)起自檢業(yè)務(wù)請(qǐng)求。
所述自檢業(yè)務(wù)請(qǐng)求標(biāo)識(shí)是自檢業(yè)務(wù)請(qǐng)求區(qū)分正常業(yè)務(wù)請(qǐng)求和自檢業(yè)務(wù)請(qǐng)求的 特征。例如,向電信業(yè)務(wù)支撐系統(tǒng)中發(fā)起自檢業(yè)務(wù)請(qǐng)求,發(fā)起請(qǐng)求的測(cè)試號(hào)碼編 碼的全部或一部分(電話號(hào)碼或號(hào)段),這時(shí)自檢業(yè)務(wù)請(qǐng)求標(biāo)識(shí)即可以是該測(cè)試號(hào) 碼或號(hào)段;又例如短信收發(fā)模擬器產(chǎn)生的虛擬號(hào)碼的全部或一部分,如特定的虛 擬號(hào)碼,或以"9"開(kāi)頭/結(jié)尾/居中某一位(或以其他數(shù)字、字符及其所處位置為 特征的虛擬號(hào)碼),這時(shí),自檢業(yè)務(wù)請(qǐng)求標(biāo)識(shí)即可以是該特定的虛擬號(hào)碼,或以"9" 開(kāi)頭/結(jié)尾/居中的號(hào)碼(或以其他數(shù)字、字符及其所處位置為特征的虛擬號(hào)碼)。
所述自檢業(yè)務(wù)請(qǐng)求的發(fā)起時(shí)間信息是指在發(fā)起自檢業(yè)務(wù)時(shí)可記錄的以編碼、 字符串等形式的精確或模糊的時(shí)間信息,如在2008年3月17日10點(diǎn)41分10秒 發(fā)起的自檢業(yè)務(wù)請(qǐng)求,其發(fā)起時(shí)間信息可記錄為20080317104110,或省略年、秒 記錄為03171041,以及10: 41: 10, 10: 41等形式根據(jù)實(shí)際情況都可采用。
所述采集自檢業(yè)務(wù)請(qǐng)求觸發(fā)的系統(tǒng)反饋結(jié)果是收集業(yè)務(wù)支撐系統(tǒng)對(duì)自檢業(yè)務(wù) 請(qǐng)求進(jìn)行處理而生成的處理結(jié)果記錄,或處理請(qǐng)求過(guò)程中向業(yè)務(wù)請(qǐng)求端反饋的處 理結(jié)果信息。采集的方法可以使用真實(shí)的用戶終端接收,也可使用專用的模擬器 接收,或使用合適的設(shè)備、儀器讀取處理結(jié)果記錄。
所述各業(yè)務(wù)處理環(huán)節(jié)的日志在系統(tǒng)處理業(yè)務(wù)請(qǐng)求時(shí)所記錄的處理過(guò)程以及結(jié) 果的信息,日志可以以文件、數(shù)據(jù)庫(kù)或其他可以保存信息的形式存在。所述搜索利用操作系統(tǒng)搜索/査找命令(如gr印命令),數(shù)據(jù)庫(kù)SQL語(yǔ)句 (select語(yǔ)句),或搜索程序?qū)ο到y(tǒng)各涉及業(yè)務(wù)請(qǐng)求處理的各環(huán)節(jié)的日志進(jìn)行搜 索。
所述以虛擬用戶關(guān)鍵ID作為搜索關(guān)鍵字,是指在搜索的時(shí)候,以自檢業(yè)務(wù)請(qǐng) 求標(biāo)識(shí)與自檢業(yè)務(wù)請(qǐng)求的發(fā)起時(shí)間信息的混合編碼形成的虛擬用戶關(guān)鍵ID作為搜 索關(guān)鍵字或搜索條件。
所述根據(jù)系統(tǒng)反饋結(jié)果和搜索結(jié)果,對(duì)比正常業(yè)務(wù)請(qǐng)求的相關(guān)情況,來(lái)判斷 系統(tǒng)健康狀況、定位系統(tǒng)故障點(diǎn),是指根據(jù)自檢業(yè)務(wù)請(qǐng)求觸發(fā)的系統(tǒng)反饋結(jié)果和 在各環(huán)節(jié)日志搜索的結(jié)果,對(duì)比正常業(yè)務(wù)請(qǐng)求觸發(fā)的系統(tǒng)反饋結(jié)果和日志記錄, 可以判斷系統(tǒng)健康狀況、定位系統(tǒng)故障點(diǎn)。如根據(jù)系統(tǒng)反饋結(jié)果的時(shí)間和內(nèi)容, 對(duì)比正常業(yè)務(wù)反饋結(jié)果所需的時(shí)間、應(yīng)該反饋的內(nèi)容,可以判斷系統(tǒng)處理是否正 常;根據(jù)各環(huán)節(jié)日志的搜索結(jié)果,對(duì)比正常業(yè)務(wù)的處理所需時(shí)間、記錄內(nèi)容等信 息,可以判斷在該環(huán)節(jié)系統(tǒng)是否正常;將各環(huán)節(jié)搜索結(jié)果串起來(lái),經(jīng)過(guò)簡(jiǎn)單的對(duì) 比分析,可以快速定位故障點(diǎn)。如業(yè)務(wù)支撐系統(tǒng)處理一筆業(yè)務(wù)請(qǐng)求需要依次經(jīng)過(guò)A、 B、 C三個(gè)環(huán)節(jié),如在A環(huán)節(jié)搜索到自檢業(yè)務(wù)請(qǐng)求的正常處理日志記錄,而在B、 C 環(huán)節(jié)搜索無(wú)記錄,則可快速判斷系統(tǒng)故障在B環(huán)節(jié)。又如在A環(huán)節(jié)搜索到處理日 志記錄有與正常情況相比有延時(shí),在B、 C環(huán)節(jié)可以看到大致相同的延時(shí),可知系 統(tǒng)在A環(huán)節(jié)發(fā)生了業(yè)務(wù)積壓或其他導(dǎo)致處理延時(shí)的問(wèn)題。
采用本發(fā)明方法,根據(jù)實(shí)際需要,還可采用定時(shí)發(fā)起自檢業(yè)務(wù)請(qǐng)求,實(shí)現(xiàn)對(duì) 系統(tǒng)的實(shí)時(shí)/準(zhǔn)實(shí)時(shí)監(jiān)控,如每分鐘發(fā)起一筆自檢業(yè)務(wù)請(qǐng)求,接收端也應(yīng)該每分鐘 收到一筆自檢業(yè)務(wù)請(qǐng)求觸發(fā)的系統(tǒng)反饋,系統(tǒng)各環(huán)節(jié)也應(yīng)該以分鐘為頻率記錄處 理日志,如偏離正常范圍,則可產(chǎn)生監(jiān)控告警。也可設(shè)定一個(gè)發(fā)起自檢業(yè)務(wù)請(qǐng)求 的時(shí)間序列(時(shí)間序列可以根據(jù)實(shí)際業(yè)務(wù)情況建立模型得到),在設(shè)定的時(shí)間序列 點(diǎn)發(fā)起自檢業(yè)務(wù)請(qǐng)求,再以這些自檢業(yè)務(wù)請(qǐng)求和其觸發(fā)的系統(tǒng)反饋信息進(jìn)行監(jiān)控 和故障定位,以達(dá)到更加實(shí)用、有效的監(jiān)控和故障快速定位效果。 實(shí)施例2
電信業(yè)務(wù)支撐系統(tǒng)空中充值業(yè)務(wù)自檢與故障快速定位系統(tǒng)。 空中充值業(yè)務(wù)在BOSS側(cè)需經(jīng)過(guò)較多環(huán)節(jié)的處理,如短信接收、短信解析、中
間件、充值服務(wù)、帳務(wù)到帳、短信下發(fā)等,在日常維護(hù)中,如何快速發(fā)現(xiàn)和定位 故障對(duì)保障系統(tǒng)穩(wěn)定高效運(yùn)行具有非常重要的作用。采用自檢業(yè)務(wù)請(qǐng)求識(shí)別與自檢業(yè)務(wù)請(qǐng)求的時(shí)間的混合編碼,以208作為自檢 業(yè)務(wù)請(qǐng)求標(biāo)識(shí),自檢業(yè)務(wù)請(qǐng)求的時(shí)間和識(shí)別碼以直接連接方式混合編碼,如2008 年3月10日11點(diǎn)15分的自檢業(yè)務(wù)請(qǐng)求混合編碼為20803101115,與手機(jī)號(hào)同為 ll位數(shù)字,便于系統(tǒng)處理。
在BOSS短信網(wǎng)關(guān)前端設(shè)置短信收發(fā)模擬器,模擬器定時(shí)(如每5分鐘或1分 鐘,可根據(jù)情況設(shè)置間隔)產(chǎn)生"偵察兵"業(yè)務(wù)請(qǐng)求短信(即自檢業(yè)務(wù)請(qǐng)求),送 至系統(tǒng)各個(gè)環(huán)節(jié)進(jìn)行處理,在BOSS下發(fā)"偵察兵"業(yè)務(wù)請(qǐng)求觸發(fā)的短信(充值成 功或錯(cuò)誤)至短信中心前,使用模擬器接收。根據(jù)模擬器接收的自檢業(yè)務(wù)請(qǐng)求處 理情況,可判斷系統(tǒng)是否正常(并可根據(jù)實(shí)際情況生成各個(gè)等級(jí)預(yù)警,啟動(dòng)相應(yīng) 的處理流程),在不正常的時(shí)候,在各環(huán)節(jié)日志搜索不正常時(shí)刻的自檢業(yè)務(wù)請(qǐng)求混 合編碼,可快速定位系統(tǒng)故障點(diǎn)。
如2008年3月10日11點(diǎn)15分產(chǎn)生一條充值短信,進(jìn)入系統(tǒng)后,在系統(tǒng)的 各個(gè)環(huán)節(jié)即會(huì)產(chǎn)生20803101115為標(biāo)識(shí)的日志記錄,在充值成功時(shí),產(chǎn)生號(hào)碼 20803101115的到帳記錄,觸發(fā)下發(fā)到帳成功短信(失敗時(shí)則觸發(fā)失敗短信),經(jīng) 過(guò)短信下行的各個(gè)環(huán)節(jié)處理,最后到達(dá)短信收發(fā)模擬器。在系統(tǒng)正常時(shí), 20803101115的充值成功短信應(yīng)該在正常的時(shí)間范圍內(nèi)到達(dá)模擬器,如果不在正常 范圍,則可對(duì)各環(huán)節(jié)的日志以20803101115為標(biāo)識(shí)進(jìn)行搜索,根據(jù)搜索結(jié)果快速 定位在哪個(gè)環(huán)節(jié)出現(xiàn)故障點(diǎn)。如在短信接收環(huán)節(jié)可發(fā)現(xiàn)為20803101115充值的正 常的短信接收記錄,在短信解析環(huán)節(jié)發(fā)現(xiàn)處理有延時(shí),可定位故障在短信解析環(huán) 節(jié),從而進(jìn)行相應(yīng)的排故工作。
權(quán)利要求
1、一種采用自檢機(jī)制的業(yè)務(wù)監(jiān)控與故障快速定位方法,其特征在于通過(guò)虛擬用戶關(guān)鍵ID產(chǎn)生自檢業(yè)務(wù)請(qǐng)求,業(yè)務(wù)支撐系統(tǒng)對(duì)自檢業(yè)務(wù)請(qǐng)求進(jìn)行處理,然后采集自檢業(yè)務(wù)請(qǐng)求觸發(fā)的系統(tǒng)反饋結(jié)果,同時(shí)以虛擬用戶關(guān)鍵ID作為搜索關(guān)鍵字在業(yè)務(wù)支撐系統(tǒng)各業(yè)務(wù)處理環(huán)節(jié)的日志中進(jìn)行搜索,最后根據(jù)系統(tǒng)反饋結(jié)果和搜索結(jié)果,對(duì)比正常業(yè)務(wù)請(qǐng)求的相關(guān)情況,判斷系統(tǒng)健康狀況、根據(jù)對(duì)比得出的差異情況定位系統(tǒng)故障點(diǎn)。
2、 根據(jù)權(quán)利要求1所述的一種采用自檢機(jī)制的業(yè)務(wù)監(jiān)控與故障快速定位方法,其特征在于所述定位系統(tǒng)故障點(diǎn)是從發(fā)現(xiàn)差異情況的位置逐層往上尋找起始差 異點(diǎn),從而確定系統(tǒng)的故障點(diǎn)。
3、 根據(jù)權(quán)利要求1所述的一種采用自檢機(jī)制的業(yè)務(wù)監(jiān)控與故障快速定位方法, 其特征在于所述虛擬用戶ID是自檢業(yè)務(wù)請(qǐng)求標(biāo)識(shí),或者是自檢業(yè)務(wù)請(qǐng)求標(biāo)識(shí)與 自檢業(yè)務(wù)請(qǐng)求的發(fā)起時(shí)間信息的混合編碼形成的。
4、 根據(jù)權(quán)利要求1所述的一種采用自檢機(jī)制的業(yè)務(wù)監(jiān)控與故障快速定位方法, 其特征在于所述自檢業(yè)務(wù)請(qǐng)求是用于檢查系統(tǒng)的業(yè)務(wù)請(qǐng)求,自檢業(yè)務(wù)請(qǐng)求與用 戶正常發(fā)起的業(yè)務(wù)請(qǐng)求相同或相似的請(qǐng)求。
5、 根據(jù)權(quán)利要求1所述的一種采用自檢機(jī)制的業(yè)務(wù)監(jiān)控與故障快速定位方法, 其特征在于所述發(fā)起自檢業(yè)務(wù)時(shí),發(fā)起時(shí)間信息就是記錄的以編碼、字符串等 形式的精確或模糊的時(shí)間信息。
6、 根據(jù)權(quán)利要求1所述的一種采用自檢機(jī)制的業(yè)務(wù)監(jiān)控與故障快速定位方法, 其特征在于所述采集自檢業(yè)務(wù)請(qǐng)求觸發(fā)的系統(tǒng)反饋結(jié)果是收集業(yè)務(wù)支撐系統(tǒng)對(duì) 自檢業(yè)務(wù)請(qǐng)求進(jìn)行處理而生成的處理結(jié)果記錄,或處理請(qǐng)求過(guò)程中向業(yè)務(wù)請(qǐng)求端 反饋的處理結(jié)果信息。
7、 根據(jù)權(quán)利要求1所述的一種采用自檢機(jī)制的業(yè)務(wù)監(jiān)控與故障快速定位方法, 其特征在于所述各業(yè)務(wù)處理環(huán)節(jié)在系統(tǒng)處理業(yè)務(wù)請(qǐng)求時(shí)所記錄的處理過(guò)程以及 結(jié)果的信息為日志,所述日志以文件、數(shù)據(jù)庫(kù)或其他可以保存信息的形式存在。
8、 根據(jù)權(quán)利要求1所述的一種采用自檢機(jī)制的業(yè)務(wù)監(jiān)控與故障快速定位方法, 其特征在于所述搜索利用操作系統(tǒng)搜索/査找命令,數(shù)據(jù)庫(kù)SQL語(yǔ)句,或搜索程 序?qū)ο到y(tǒng)各涉及業(yè)務(wù)請(qǐng)求處理的各環(huán)節(jié)的日志進(jìn)行搜索。
9、根據(jù)權(quán)利要求1所述的一種采用自檢機(jī)制的業(yè)務(wù)監(jiān)控與故障快速定位方法, 其特征在于所述根據(jù)系統(tǒng)反饋結(jié)果和搜索結(jié)果,對(duì)比正常業(yè)務(wù)請(qǐng)求的相關(guān)情況, 根據(jù)自檢業(yè)務(wù)請(qǐng)求觸發(fā)的系統(tǒng)反饋結(jié)果和在各環(huán)節(jié)日志搜索的結(jié)果,對(duì)比正常業(yè) 務(wù)請(qǐng)求觸發(fā)的系統(tǒng)反饋結(jié)果和日志記錄得出差異情況,然后通過(guò)差異情況判斷系 統(tǒng)健康狀況、定位系統(tǒng)故障點(diǎn)。
全文摘要
本發(fā)明公開(kāi)了一種采用自檢機(jī)制的業(yè)務(wù)監(jiān)控與故障快速定位方法,其特征在于將自檢業(yè)務(wù)請(qǐng)求標(biāo)識(shí)與自檢業(yè)務(wù)請(qǐng)求的發(fā)起時(shí)間信息的混合編碼形成虛擬用戶關(guān)鍵ID,通過(guò)虛擬用戶關(guān)鍵ID產(chǎn)生自檢業(yè)務(wù)請(qǐng)求,業(yè)務(wù)支撐系統(tǒng)對(duì)自檢業(yè)務(wù)請(qǐng)求進(jìn)行處理,然后采集自檢業(yè)務(wù)請(qǐng)求觸發(fā)的系統(tǒng)反饋結(jié)果,同時(shí)以虛擬用戶關(guān)鍵ID作為搜索關(guān)鍵字在業(yè)務(wù)支撐系統(tǒng)各業(yè)務(wù)處理環(huán)節(jié)的日志中進(jìn)行搜索,最后根據(jù)系統(tǒng)反饋結(jié)果和搜索結(jié)果,對(duì)比正常業(yè)務(wù)請(qǐng)求的相關(guān)情況,判斷系統(tǒng)健康狀況、定位系統(tǒng)故障點(diǎn);本發(fā)明可以在最少對(duì)原系統(tǒng)的改造的基礎(chǔ)上實(shí)現(xiàn)對(duì)業(yè)務(wù)支撐系統(tǒng)的業(yè)務(wù)監(jiān)控與故障快速定位,從而減少企業(yè)的成本支出,具有很強(qiáng)的實(shí)用性。
文檔編號(hào)H04L12/24GK101420340SQ20081014772
公開(kāi)日2009年4月29日 申請(qǐng)日期2008年11月28日 優(yōu)先權(quán)日2008年11月28日
發(fā)明者徐苛杰 申請(qǐng)人:中國(guó)移動(dòng)通信集團(tuán)四川有限公司