01. 場(chǎng)景簡(jiǎn)述
采用WeOps監(jiān)控+健康巡檢模塊,將原本線下手工例行巡檢工作,替換為平臺(tái)上自動(dòng)實(shí)現(xiàn),原本需要4個(gè)人日的工作量縮短成1個(gè)人兼任即可完成,同時(shí),對(duì)系統(tǒng)可用性和業(yè)務(wù)效率等帶來極大提升。
02. 故事背景
該公司全國(guó)有1400+臺(tái)服務(wù)器,主要分布在香港、深圳、順德、武漢四個(gè)大區(qū),共12個(gè)小區(qū)。
IDC數(shù)據(jù)中心關(guān)鍵職責(zé)是保證服務(wù)器及系統(tǒng)的穩(wěn)定性,要求每天完成所有資源的例行巡檢,主要包括:服務(wù)器資源、系統(tǒng)日志、備份及網(wǎng)絡(luò)等;每個(gè)區(qū)域安排1人,以人力巡檢為主,幾乎需要花一整天的時(shí)間才能完成,四個(gè)區(qū)域總計(jì)每天需要4個(gè)人/日的工作量,效率低;巡檢準(zhǔn)確度低,手工容易錯(cuò)漏;并且由于范圍廣,一邊還沒有巡檢完,另一邊就有系統(tǒng)報(bào)障,難以實(shí)時(shí)監(jiān)測(cè),發(fā)現(xiàn)問題以被動(dòng)為主,時(shí)效性低。
1)用WeOps健康巡檢+監(jiān)控,自動(dòng)完成巡檢工作的同時(shí),實(shí)時(shí)監(jiān)測(cè)資源運(yùn)行狀態(tài)
通過在香港、深圳、順德、武漢等四個(gè)大區(qū),共12個(gè)小區(qū)部署Proxy節(jié)點(diǎn),集中接管1400+臺(tái)服務(wù)器,實(shí)時(shí)監(jiān)控系統(tǒng)資源、系統(tǒng)日志關(guān)鍵字、備份任務(wù)狀態(tài)及網(wǎng)絡(luò)狀態(tài);
配置每天巡檢任務(wù),對(duì)系統(tǒng)資源、備份狀態(tài)等進(jìn)行日常檢查,自動(dòng)輸出巡檢報(bào)告,用于趨勢(shì)分析,提前消除隱患;
根據(jù)業(yè)務(wù)需求,調(diào)優(yōu)告警策略,巡檢的同時(shí),保持對(duì)系統(tǒng)的實(shí)時(shí)監(jiān)測(cè),提升告警準(zhǔn)確性。
2)WeOps實(shí)現(xiàn)效果:
03. 場(chǎng)景適用性
該IDC例行日檢場(chǎng)景,對(duì)于高度關(guān)注服務(wù)器及系統(tǒng)穩(wěn)定性、有嚴(yán)格的運(yùn)維規(guī)范要求的客戶特別適用,例如金融行業(yè)、醫(yī)院等企業(yè)。系統(tǒng)例行檢查自動(dòng)化,極大提升巡檢效率,變被動(dòng)為主動(dòng),釋放運(yùn)維工程師的精力完成更有價(jià)值的工作。
ITSM運(yùn)營(yíng):?jiǎn)栴}管理持續(xù)改進(jìn)
查看詳細(xì)
智能運(yùn)維時(shí)代的PPTR:變革、融合與展望
查看詳細(xì)
ITSM運(yùn)營(yíng):變更管理持續(xù)改進(jìn)
查看詳細(xì)
AI驅(qū)動(dòng)的運(yùn)維資源體系:從數(shù)據(jù)資產(chǎn)到智能能力的全面升級(jí)
查看詳細(xì)
AI驅(qū)動(dòng)的運(yùn)維工具演進(jìn):從工具整合到智能進(jìn)化
查看詳細(xì)
數(shù)據(jù)孤島到智能中樞:一體化運(yùn)維平臺(tái)賦能日志價(jià)值升級(jí)
查看詳細(xì)
申請(qǐng)演示