進(jìn)入數(shù)字化時(shí)代,IT架構(gòu)面臨的復(fù)雜性越來(lái)越高,業(yè)務(wù)連續(xù)性管理這項(xiàng)IT最基本的工作,也成為了很多行業(yè)或企業(yè)IT運(yùn)維的最核心任務(wù);業(yè)務(wù)連續(xù)性管理是一個(gè)持續(xù)不斷提升的過(guò)程,圍繞“快速發(fā)現(xiàn)事件→快速響應(yīng)事件→快速定位與處理事件→減少事件發(fā)生”的事件生命周期閉環(huán),結(jié)合一體化運(yùn)維平臺(tái),是提高業(yè)務(wù)連續(xù)性保障水平的一種好思路。
01. IT運(yùn)維的趨勢(shì)與挑戰(zhàn)
當(dāng)前,各行各業(yè)正如火如荼持續(xù)推進(jìn)自身業(yè)務(wù)和管理模式的數(shù)字化轉(zhuǎn)型。數(shù)字化轉(zhuǎn)型在提升客戶體驗(yàn)、加快業(yè)務(wù)創(chuàng)新交付、為運(yùn)營(yíng)提能增效方面確實(shí)可以為企業(yè)帶來(lái)重要價(jià)值;但與此同時(shí),企業(yè)數(shù)字化轉(zhuǎn)型給IT運(yùn)維帶來(lái)極大挑戰(zhàn),數(shù)字化轉(zhuǎn)型推動(dòng)新技術(shù)、新場(chǎng)景的快速迭代,讓運(yùn)維面臨的復(fù)雜度、不確定性因素加大,企業(yè)業(yè)務(wù)連續(xù)性面臨更大挑戰(zhàn)和不確定性。
02. ITIL事件生命周期
ITIL將IT服務(wù)管理分為十個(gè)核心流程和一項(xiàng)管理職能。這十個(gè)核心流程分別是服務(wù)級(jí)別管理、IT服務(wù)財(cái)務(wù)管理、能力管理、IT服務(wù)持續(xù)性管理、可用性管理、配置管理、變更管理、發(fā)布管理、事件管理、問(wèn)題管理,一項(xiàng)管理職能是服務(wù)臺(tái)。
ITIL V3中把事件定義為“任何可被發(fā)現(xiàn)或辨別的事情,此類事情對(duì)于基礎(chǔ)設(shè)施的管理或IT服務(wù)的交付有重要意義,以及有助于評(píng)估可能導(dǎo)致服務(wù)出現(xiàn)的偏差。” 與ITIL V3相比,ITIL 4給出的定義更清晰,事件(Incident)是指服務(wù)的意外中斷或服務(wù)質(zhì)量的降低。
在ITIL中,IT事件管理是IT基礎(chǔ)架構(gòu)管理策略的一部分,包括監(jiān)控、調(diào)查、上報(bào)和響應(yīng)IT平臺(tái)上發(fā)生的事件。在ITIL 事件管理生命周期中,ITIL 提供了一個(gè)七步流程來(lái)處理事件:
步驟一:事件識(shí)別
這是服務(wù)臺(tái)第一次意識(shí)到問(wèn)題的時(shí)候。用戶可能會(huì)檢測(cè)到與用戶體驗(yàn)相關(guān)的事件,并提出投訴。另一方面,技術(shù)事故通常是在日常監(jiān)控中發(fā)現(xiàn)的。
步驟二:事件記錄
一旦確定了事件,服務(wù)臺(tái)就應(yīng)該將其記錄下來(lái)。他們通常會(huì)要求確定事件的人的姓名、發(fā)現(xiàn)的日期和時(shí)間以及對(duì)錯(cuò)誤的描述。然后服務(wù)臺(tái)將進(jìn)行事件分類。這是一種確定問(wèn)題類型的方法。事件分類有兩個(gè)目標(biāo):使服務(wù)臺(tái)能夠查找任何趨勢(shì),并通知事件優(yōu)先級(jí)。事件優(yōu)先級(jí)是確定解決方案緊迫性的過(guò)程。這通常被定義為“高”、“中”或“低”,并基于受影響用戶的數(shù)量和事件造成的破壞程度。
步驟三:事故調(diào)查與診斷
這是解決事件的第一步。受影響的用戶與服務(wù)臺(tái)的一名成員討論該事件,以查看是否有立即解決的方法,或者他們是否可以快速識(shí)別問(wèn)題。如果服務(wù)臺(tái)的假設(shè)成功,則問(wèn)題已解決,可以直接跳到步驟 5。但是,如果沒(méi)有立即修復(fù),事件將需要進(jìn)入下一階段。
步驟四:事件分配或升級(jí)
由于需要進(jìn)一步工作,服務(wù)臺(tái)會(huì)將事件分配給現(xiàn)場(chǎng)技術(shù)人員或經(jīng)過(guò)認(rèn)證的支持人員,他們將尋找解決方法,然后調(diào)查事件原因。
步驟五:事件解決
顧名思義,此步驟涉及服務(wù)臺(tái)確認(rèn)事件已解決。
步驟六:事件結(jié)束
此時(shí),事件被視為已結(jié)束,流程結(jié)束。
步驟七:用戶滿意度調(diào)查
組織可能會(huì)要求用戶在問(wèn)題解決后完成一份簡(jiǎn)短的問(wèn)卷,以確定他們是否對(duì)服務(wù)交付感到滿意。這是識(shí)別事件管理過(guò)程中任何問(wèn)題的好方法,例如無(wú)用的服務(wù)臺(tái)員工或不滿意的解決方案。同時(shí),壓倒性的積極反饋是提高員工士氣的好方法,它可以幫助識(shí)別在工作中表現(xiàn)出色的團(tuán)隊(duì)成員。
將上述事件生命周期的七步流程抽象為快速發(fā)現(xiàn)事件、快速響應(yīng)事件、快速定位與處理事件,但這些環(huán)節(jié)偏事件發(fā)生后的事后應(yīng)對(duì)處理環(huán)節(jié),可以再補(bǔ)充偏事前的減少事件發(fā)生環(huán)節(jié),形成完整的事件生命周期如下圖,下文主要圍繞下圖事件生命周期展開解析如何提升業(yè)務(wù)連續(xù)性。
03. 圍繞事件生命周期提升業(yè)務(wù)連續(xù)性
1)快速發(fā)現(xiàn)事件
以前,通常是根據(jù)最終用戶和IT專家的信息來(lái)報(bào)告大多數(shù)事件,這種獲取信息的方法仍被廣泛使用,但是現(xiàn)在一個(gè)好的實(shí)踐建議是自動(dòng)發(fā)現(xiàn)和報(bào)告事件。可以在事件發(fā)生后和開始影響用戶之前立即被發(fā)現(xiàn)。這種方法具有多種好處:
總體來(lái)看,事件主要從服務(wù)臺(tái)與監(jiān)控體系而來(lái),用戶反饋到服務(wù)臺(tái)屬于被動(dòng)發(fā)現(xiàn),監(jiān)控體系屬于主動(dòng)發(fā)現(xiàn),監(jiān)控體系又包括針對(duì)IT資源對(duì)象的指標(biāo)監(jiān)控、針對(duì)應(yīng)用系統(tǒng)的調(diào)用鏈監(jiān)控和針對(duì)資源與應(yīng)用的日志監(jiān)控。
被動(dòng)發(fā)現(xiàn)維度,可以通過(guò)提升用戶報(bào)障渠道的便利性從而提升事件發(fā)現(xiàn)的及時(shí)性,比如電話、郵件、IM入口、應(yīng)用系統(tǒng)嵌入入口、工單系統(tǒng)等;主動(dòng)發(fā)現(xiàn)維度,通過(guò)提升監(jiān)控對(duì)象的覆蓋率、指標(biāo)的及時(shí)性、告警的有效性等促進(jìn)快速主動(dòng)發(fā)現(xiàn)事件故障。
2)快速響應(yīng)事件
所有的事件都應(yīng)該被完整地記錄下來(lái),無(wú)論是由服務(wù)臺(tái)受理的還是由監(jiān)控告警自動(dòng)生成的。所有與事件相關(guān)的信息都應(yīng)該被記錄下來(lái)形成一份完整的歷史記錄,這樣如果其它支持組查詢事件時(shí)他們能夠獲得所有相關(guān)信息來(lái)幫助他們。事件需要被分配合適的事件類型代碼。這樣,準(zhǔn)確的事件類型就被記錄下來(lái)。通過(guò)事件類型或頻率確定趨勢(shì),用于問(wèn)題管理、供應(yīng)商管理和其他IT服務(wù)管理活動(dòng),這一點(diǎn)十分重要。
在一些用戶只是尋求某種信息的事件(服務(wù)請(qǐng)求)中,服務(wù)臺(tái)可以很快的解決這種服務(wù)請(qǐng)求。對(duì)于服務(wù)臺(tái)無(wú)法處理的事件,為了實(shí)現(xiàn)快速響應(yīng),需要快速精準(zhǔn)的分配給一線支持人員。派單規(guī)則可結(jié)合值班管理與配置管理,步驟可參考比如示例:
如果一線支持人員也難以快速解決問(wèn)題,則需要進(jìn)行事件升級(jí)。事件升級(jí)包括職能性升級(jí)與管理性升級(jí)兩類:
職能性升級(jí):即將一個(gè)事件從一線轉(zhuǎn)到二線及以上的支持,這樣可以得到更多的專業(yè)技術(shù)、時(shí)間或者資源來(lái)解決事件。職能性升級(jí)也可能發(fā)生在協(xié)議規(guī)定的時(shí)間到期后,事件仍然沒(méi)有解決的情況;
管理性升級(jí):即將事件單升級(jí)到更高級(jí)別的管理人員,以協(xié)調(diào)必需的資源來(lái)解決事件。管理性升級(jí)也可以發(fā)生在事件解決流程的任何時(shí)刻。
3)事件快速定位與處理
事件管理是記錄和解決事件問(wèn)題的過(guò)程。事件管理的首要目標(biāo)是盡快將運(yùn)營(yíng)恢復(fù)到正常狀態(tài),并將對(duì)業(yè)務(wù)運(yùn)營(yíng)的影響降到最低。在這個(gè)過(guò)程中,問(wèn)題定位與恢復(fù)速度往往是重中之重。甚至通常是先通過(guò)臨時(shí)修復(fù)而不是永久解決方案來(lái)解決,稍后才會(huì)進(jìn)行永久性修復(fù)。
如何做到事件快速處理和業(yè)務(wù)快速恢復(fù)呢?需要從故障快速分析和故障快速處理兩個(gè)維度著手。
① 故障快速排查分析定位
基于監(jiān)控?cái)?shù)據(jù)進(jìn)行綜合分析:結(jié)合時(shí)序指標(biāo)(metric)、日志(log)、調(diào)用鏈(trace),將收集到的所有數(shù)據(jù)通過(guò)數(shù)據(jù)標(biāo)簽體系進(jìn)行關(guān)聯(lián),在一套界面上展示所有的信息,從而快速定位問(wèn)題;
結(jié)合配置管理CMDB拓?fù)溥M(jìn)行關(guān)聯(lián)分析:按照應(yīng)用或?qū)ο筮M(jìn)行事件聚合,展示告警事件的詳情與關(guān)聯(lián)拓?fù)洌焖倥耪希?/span>
基于歷史經(jīng)驗(yàn)進(jìn)行定位:借助沉淀到ITSM知識(shí)庫(kù)中積累的知識(shí)經(jīng)驗(yàn)輔助分析,知識(shí)庫(kù)需要持續(xù)運(yùn)營(yíng);
② 故障快速處理恢復(fù)
對(duì)故障進(jìn)行分類分級(jí)處理,針對(duì)不同類型故障采用不同處理方法,比如代碼缺陷引發(fā)的故障采用回滾操作、組件異常故障采用高可用集群切換或組件重啟、微服務(wù)調(diào)用復(fù)雜場(chǎng)景的故障采用限流降級(jí)等手段
使用故障自愈手段,故障自愈是采用"故障自動(dòng)化處理"解決方案,提升企業(yè)的服務(wù)可用性和降低故障處理的人力投入,實(shí)現(xiàn)故障自愈從“人工處理”到“無(wú)人值守”的變革。通過(guò)自動(dòng)化處理節(jié)省人力投入,通過(guò)預(yù)定的恢復(fù)流程讓恢復(fù)過(guò)程更可靠,通過(guò)并行分析達(dá)到更快的故障定位和恢復(fù)。
一句話總結(jié):實(shí)時(shí)發(fā)現(xiàn)告警,預(yù)診斷分析,自動(dòng)恢復(fù)故障,并打通周邊系統(tǒng)實(shí)現(xiàn)整個(gè)流程的閉環(huán)。故障自愈常見(jiàn)快速恢復(fù)手段包括進(jìn)程啟停、清磁盤、主備切換等。
另外,借助ITIL最佳實(shí)踐,快速恢復(fù)的實(shí)現(xiàn)手段還包括:
集中會(huì)診:尤其是出現(xiàn)重大故障時(shí),技術(shù)專家要聚集起來(lái),集中解決故障,恢復(fù)服務(wù)。
事件模型:對(duì)于經(jīng)常發(fā)生的問(wèn)題,可以定義事件模型進(jìn)行記錄。
減少事件發(fā)生:“上醫(yī)治未病,中醫(yī)治欲病,下醫(yī)治已病”,實(shí)際上,為了更好的增強(qiáng)業(yè)務(wù)連續(xù)性、提升IT服務(wù)質(zhì)量、提升企業(yè)客戶滿意度,應(yīng)該盡量減少事件的發(fā)生才是上策。
如何減少事件發(fā)生呢?可以從提升變更質(zhì)量、加強(qiáng)問(wèn)題管理、巡檢體系建設(shè)、提升災(zāi)備演練與自動(dòng)化切換能力著手。
① 強(qiáng)化變更管理
80%的故障都是變更引起。ITIL4將變更支持實(shí)踐中定義的最大化成功服務(wù)和產(chǎn)品的變更主要表現(xiàn)在以下三個(gè)方面:確保已正確評(píng)估風(fēng)險(xiǎn)、授權(quán)進(jìn)行變更、管理變更時(shí)間表。促成變更的五個(gè)主要活動(dòng)是:記錄、計(jì)劃、批準(zhǔn)、執(zhí)行、回顧。
記錄:包括在公共位置記錄或記錄變更內(nèi)容,以便所有利益相關(guān)者都能了解變更的原因和優(yōu)先級(jí)。記錄有助于審查,評(píng)估,評(píng)估變更的優(yōu)先級(jí)。
計(jì)劃:包括調(diào)整任務(wù)以及準(zhǔn)備資源和組件。計(jì)劃階段的目標(biāo)是確保成功進(jìn)行變更,同時(shí)將對(duì)現(xiàn)有服務(wù)和組件的影響降到最低。
審批:是進(jìn)行變更需要正式授權(quán)。 授權(quán)的級(jí)別取決于變更和公司的文化,高風(fēng)險(xiǎn)的變更與規(guī)避風(fēng)險(xiǎn)的文化相結(jié)合可能需要更多的利益相關(guān)者批準(zhǔn)。
執(zhí)行:主要是變更的實(shí)施。按照所有利益相關(guān)者記錄的議定時(shí)間表和步驟執(zhí)行和實(shí)施變更。溝通至關(guān)重要。客戶、員工和其他用戶需要知道短期和長(zhǎng)期的變化期望。執(zhí)行可以在演練環(huán)境中進(jìn)行驗(yàn)證,測(cè)試對(duì)于確保功能和非功能需求至關(guān)重要,盡管測(cè)試級(jí)別可能會(huì)根據(jù)變更類型而有所不同。
回顧:為了提升變更的效率與減少變更的出錯(cuò)率,變更會(huì)遵循計(jì)劃的變更時(shí)間表,在變更工具平臺(tái)(比如變更自動(dòng)化系統(tǒng)、發(fā)布自動(dòng)化系統(tǒng))進(jìn)行自動(dòng)變更。如果變更出錯(cuò),需要執(zhí)行回滾計(jì)劃。
② 升級(jí)問(wèn)題管理
與事件管理強(qiáng)調(diào)事件恢復(fù)的速度不同,問(wèn)題管理強(qiáng)調(diào)的是找出事件產(chǎn)生的根源,從而制定恰當(dāng)?shù)慕鉀Q方案或防止其再次發(fā)生的預(yù)防措施。
問(wèn)題管理流程在運(yùn)作過(guò)程中需要與其他多個(gè)流程進(jìn)行信息上的溝通。它需要根據(jù)事件管理、容量管理、配置管理、服務(wù)級(jí)別管理等流程提供的信息制定解決方案和應(yīng)急措施;同時(shí)它所產(chǎn)生的解決方案和變更請(qǐng)求等信息又需要輸入事件管理和變更管理流程的運(yùn)作過(guò)程。
③ 巡檢體系建設(shè)
如何保證信息系統(tǒng)的安全穩(wěn)定運(yùn)行,及時(shí)發(fā)現(xiàn)和消除信息系統(tǒng)隱患是對(duì)企業(yè)信息系統(tǒng)運(yùn)維人員的巨大挑戰(zhàn)。自動(dòng)化巡檢的應(yīng)用提升了信息系統(tǒng)運(yùn)行的可靠性,減輕了運(yùn)維人員的工作壓力,對(duì)大型復(fù)雜信息系統(tǒng)的運(yùn)維工作模式具有重要示范意義。
通過(guò)對(duì)機(jī)房基礎(chǔ)環(huán)境設(shè)備、網(wǎng)絡(luò)設(shè)備、主機(jī)、數(shù)據(jù)庫(kù)及中間件系統(tǒng)等實(shí)現(xiàn)巡檢,自動(dòng)收集各種巡檢項(xiàng)指標(biāo),及時(shí)發(fā)現(xiàn)系統(tǒng)缺陷和故障,為不同角色的運(yùn)維人員提供統(tǒng)一的工作平臺(tái)。巡檢體系包括對(duì)巡檢對(duì)象實(shí)現(xiàn)全方位的健康性檢測(cè)和告警,包含軟硬件基本信息、系統(tǒng)配置、安全配置、系統(tǒng)運(yùn)行狀態(tài)和系統(tǒng)性能狀態(tài)等方面的檢查。
④ 災(zāi)備演練管理
一般來(lái)說(shuō),災(zāi)備的級(jí)別可以分為數(shù)據(jù)級(jí)、應(yīng)用級(jí)和業(yè)務(wù)級(jí)三個(gè)級(jí)別。無(wú)論數(shù)據(jù)級(jí)還是應(yīng)用級(jí),都只是災(zāi)備建設(shè)的技術(shù)手段。災(zāi)備建設(shè)作為一項(xiàng)系統(tǒng)工程,遠(yuǎn)遠(yuǎn)超出了這個(gè)技術(shù)范疇。要想災(zāi)備系統(tǒng)在關(guān)鍵時(shí)刻能發(fā)揮應(yīng)有的作用,完善的災(zāi)備應(yīng)急預(yù)案、定期的災(zāi)備演練、自動(dòng)化的災(zāi)備切換和恢復(fù)能力不可缺少。
04. 事件生命周期管理最佳實(shí)踐
嘉為藍(lán)鯨一體化運(yùn)維PaaS平臺(tái),基于藍(lán)鯨平臺(tái)打造,實(shí)現(xiàn)企業(yè)一體化運(yùn)維,覆蓋配置管理中心(CMDB)、可觀測(cè)中心、IT服務(wù)管理中心(ITSM)、自動(dòng)化運(yùn)維中心和多云管理中心的企業(yè)運(yùn)維場(chǎng)景,并為客戶提供了強(qiáng)大的擴(kuò)展能力,滿足當(dāng)前及未來(lái)運(yùn)維管理所需。
嘉為藍(lán)鯨可觀測(cè)中心,通過(guò)監(jiān)控、告警、日志實(shí)現(xiàn)故障發(fā)現(xiàn)、故障處理和故障復(fù)盤;覆蓋基礎(chǔ)設(shè)施、應(yīng)用、云原生等企業(yè)各類IT對(duì)象,并實(shí)現(xiàn)告警治理、指標(biāo)治理、監(jiān)控統(tǒng)一、可視化統(tǒng)一的整體解決方案,并與配置管理中心、IT服務(wù)管理中心、自動(dòng)化運(yùn)維中心無(wú)縫集成,實(shí)現(xiàn)事件生命周期閉環(huán)管理,包括告警收斂、告警關(guān)聯(lián)定位、告警自動(dòng)轉(zhuǎn)工單、故障自愈等。
同時(shí),通過(guò)嘉為藍(lán)鯨自動(dòng)化運(yùn)維中心的變更管理、應(yīng)用自動(dòng)化發(fā)布、自動(dòng)化巡檢、災(zāi)備切換自動(dòng)化,以及IT服務(wù)管理中心的問(wèn)題管理,減少事件故障發(fā)生的概率。
進(jìn)入數(shù)字化時(shí)代,IT架構(gòu)面臨的復(fù)雜性越來(lái)越高,業(yè)務(wù)連續(xù)性管理這項(xiàng)IT最基本的工作,也成為了很多行業(yè)或企業(yè)IT運(yùn)維的最核心任務(wù);業(yè)務(wù)連續(xù)性管理是一個(gè)持續(xù)不斷提升的過(guò)程,圍繞”快速發(fā)現(xiàn)事件→快速響應(yīng)事件→快速定位與處理事件→減少事件發(fā)生”的事件生命周期閉環(huán),結(jié)合一體化運(yùn)維平臺(tái),是提高業(yè)務(wù)連續(xù)性保障水平的一種不錯(cuò)思路。
ITSM運(yùn)營(yíng):服務(wù)請(qǐng)求管理持續(xù)改進(jìn)
查看詳細(xì)
AI驅(qū)動(dòng)IT運(yùn)維轉(zhuǎn)型:從審批流到AI工作流
查看詳細(xì)
國(guó)產(chǎn)化替代實(shí)踐:嘉為藍(lán)鯨全棧智能觀測(cè)中心對(duì)比IBM Tivoli
查看詳細(xì)
嘉為藍(lán)鯨平臺(tái):三位一體,打造云原生數(shù)字化基座
查看詳細(xì)
嘉為藍(lán)鯨DevOps研發(fā)效能管理平臺(tái):AI賦能研運(yùn),效能再進(jìn)化
查看詳細(xì)
ITSM運(yùn)營(yíng):事件管理持續(xù)改進(jìn)
查看詳細(xì)
申請(qǐng)演示