本文我們聚焦可觀測(cè)的另一個(gè)重要支柱——日志管理,從日志的數(shù)據(jù)特點(diǎn)角度出發(fā),分析日志數(shù)據(jù)在可觀測(cè)體系中的意義,深度剖析日志與可觀測(cè)體系融合建設(shè)的難點(diǎn)與思路,并分享企業(yè)日志系統(tǒng)設(shè)計(jì)選型思路以及落地實(shí)踐參考。
01. 從數(shù)據(jù)特點(diǎn)看日志與可觀測(cè)
1)指標(biāo)數(shù)據(jù)和日志數(shù)據(jù)的區(qū)別
首先我們來看一個(gè)企業(yè)中比較普遍的現(xiàn)象,當(dāng)系統(tǒng)發(fā)生故障時(shí),運(yùn)維人員通常關(guān)注指標(biāo)類數(shù)據(jù),而研發(fā)人員更“鐘情“于日志數(shù)據(jù),為什么會(huì)有這種區(qū)別呢?
從兩個(gè)方面來分析,第一個(gè)方面就是運(yùn)維與研發(fā)自身職責(zé)的不同,運(yùn)維更希望能夠快速的解決問題,而研發(fā)更注重于準(zhǔn)確找到問題的根源。第二個(gè)方面就是指標(biāo)數(shù)據(jù)與日志數(shù)據(jù)的本身特點(diǎn)具備著差異性。
運(yùn)維人員能夠通過指標(biāo)數(shù)據(jù),快速地了解當(dāng)前系統(tǒng)的狀態(tài),通過指標(biāo)聚合,從業(yè)務(wù)一步步追隨到集群、再到具體的節(jié)點(diǎn)。而日志數(shù)據(jù)能夠詳細(xì)記錄到代碼執(zhí)行的過程,如果能夠收集到包含根因的日志數(shù)據(jù),那么研發(fā)人員就可以非常準(zhǔn)確地鎖定故障發(fā)生的位置和原因,從而進(jìn)行修復(fù)工作。
指標(biāo)數(shù)據(jù):以數(shù)字形式呈現(xiàn),可聚合并持續(xù)穩(wěn)定輸出,數(shù)據(jù)直觀、精確,通常用于查詢和展示。
日志數(shù)據(jù):以文本形式承載,不可聚合,輸出并不具備周期性,通常數(shù)據(jù)量較大,需要從海量日志中找到所需要的字段進(jìn)行進(jìn)一步的處理。
2)如何實(shí)現(xiàn)破局,發(fā)揮日志數(shù)據(jù)價(jià)值?
透過以上這類現(xiàn)象,不難發(fā)現(xiàn),日志數(shù)據(jù)在傳統(tǒng)的運(yùn)維過程中,由于數(shù)據(jù)量大,價(jià)值信息少,文本形式的數(shù)據(jù)也無法像指標(biāo)一樣,進(jìn)行有效聚合,掌握全貌,日志數(shù)據(jù)無法高效定位,也使得日志在傳統(tǒng)運(yùn)維中應(yīng)用范圍受到限制。
而如今可觀測(cè)時(shí)代下,日志數(shù)據(jù)要想解決以上存在的這些問題,發(fā)揮數(shù)據(jù)價(jià)值,實(shí)現(xiàn)成功破局,核心必須聚焦在提升日志數(shù)據(jù)傳遞到人的價(jià)值密度。通常商業(yè)化或開源日志工具會(huì)具備以下四種特點(diǎn),實(shí)現(xiàn)日志數(shù)據(jù)價(jià)值呈現(xiàn):
前三種往往是單獨(dú)在日志系統(tǒng)內(nèi)部可以完成的,第四種則會(huì)涉及到可觀測(cè)的體系化建設(shè),這里可能不只是一個(gè)技術(shù)實(shí)現(xiàn)的問題,還需要依賴企業(yè)對(duì)可觀測(cè)理念的感知和認(rèn)可。本文也重點(diǎn)就這個(gè)話題進(jìn)行展開。
3)可觀測(cè)三大支柱數(shù)據(jù)聯(lián)動(dòng),快速定位問題
云原生時(shí)代IT可觀測(cè)的三大支柱數(shù)據(jù):Metrics,Tracing,Logging,日志數(shù)據(jù)在其中承擔(dān)著“排障的最后一公里”的角色,基于其信息量大的特點(diǎn)為研發(fā)、運(yùn)維提供最直觀豐富了解到IT系統(tǒng)運(yùn)行的細(xì)節(jié)信息。
隨著可觀測(cè)體系的技術(shù)發(fā)展,可觀測(cè)三大數(shù)據(jù)的融合和串聯(lián),已經(jīng)成為提升日志價(jià)值信息密度的重要手段,前端的Metrics,Tracing數(shù)據(jù)就宛如快捷的交通工具,而故障的最后一公里就需要依賴日志數(shù)據(jù)來支撐,融合串聯(lián),快速定位關(guān)鍵信息點(diǎn)。
4)日志數(shù)據(jù)在可觀測(cè)時(shí)代的全新意義
近年來,隨著SRE理論的推廣,運(yùn)維角色職能發(fā)生了變化,從聚焦于底層資源的穩(wěn)定性,變?yōu)樾枰P(guān)注整個(gè)服務(wù)對(duì)上層業(yè)務(wù)支撐的可靠性,這個(gè)過程中,對(duì)全局架構(gòu)和上層業(yè)務(wù)的一定了解是必須的。
在這種情況下,傳統(tǒng)的監(jiān)控指標(biāo)已經(jīng)不滿足于運(yùn)維的需求,要從運(yùn)維角度去了解整體架構(gòu)和業(yè)務(wù),而這一過程中,可觀測(cè)技術(shù)就是一把鑰匙。在可觀測(cè)體系中,日志數(shù)據(jù)代表著一個(gè)個(gè)Event事件,不再是大面積的平鋪陳列,而是作為觀測(cè)結(jié)果的必備屬性,與其他數(shù)據(jù)相輔相成,在新的運(yùn)維模式下扮演著更加重要的角色。如此即是可觀測(cè)技術(shù)發(fā)展給日志數(shù)據(jù)賦予的全新意義。
02. 開源社區(qū)與企業(yè)實(shí)踐探討
以上是基于理論來闡述新時(shí)代日志和可觀測(cè)密不可分的關(guān)系,那么在實(shí)踐層面,可觀測(cè)技術(shù)又是如何推動(dòng)日志數(shù)據(jù)的呢?我們首先先了解一下開源社區(qū)關(guān)于日志的發(fā)展歷程。
早期的可觀測(cè)開源項(xiàng)目基本都是圍繞著 Trace 這一類數(shù)據(jù)開展的,而隨著可觀測(cè)技術(shù)的發(fā)展,可以看到,日志在最新的OT協(xié)議中,已經(jīng)被納入標(biāo)準(zhǔn)規(guī)范。
OT協(xié)議希望能夠統(tǒng)一日志規(guī)范,其目的也是想將可觀測(cè)三支柱數(shù)據(jù)中最難結(jié)構(gòu)化的數(shù)據(jù)也進(jìn)行一定程度的規(guī)范,最終形成一套相互關(guān)聯(lián)的數(shù)據(jù)作為可觀測(cè)平臺(tái)的數(shù)據(jù)后臺(tái)。這個(gè)在其官方推薦的新版OT數(shù)據(jù)采集架構(gòu)中就可以體現(xiàn),它希望我們?cè)趨R聚三種數(shù)據(jù)的時(shí)候,有一個(gè)統(tǒng)一的富化過程,加強(qiáng)三種數(shù)據(jù)的關(guān)聯(lián)性,從而能更好發(fā)揮觀測(cè)數(shù)據(jù)的實(shí)際效用。
接下來我們來看一個(gè)有趣的企業(yè)實(shí)踐,很多企業(yè)會(huì)嘗試去使用日志數(shù)據(jù)作為底座來建設(shè)可觀測(cè)平臺(tái),認(rèn)為這是可觀測(cè)性建設(shè)的一種可靠方案,但事實(shí)上,基于日志數(shù)據(jù)構(gòu)建可觀測(cè)體系的方式仍然是優(yōu)劣并存的。
如果未來OT協(xié)議真的能覆蓋到每種觀測(cè)對(duì)象并將日志輸出標(biāo)準(zhǔn)統(tǒng)一,那么這種方式確實(shí)有一定的好處,除了代碼無入侵以及組件復(fù)雜度降低,更重要的一點(diǎn)好處就是日志數(shù)據(jù)和其他的觀測(cè)數(shù)據(jù)可以天然串聯(lián),更方便實(shí)現(xiàn)前文所提到的串聯(lián)排障以及架構(gòu)分析。
但是目前這種方式也存在很大的局限性,規(guī)范推行的本身也是需要一定時(shí)間的,而且很多企業(yè)所擁有的存量系統(tǒng)十分繁多復(fù)雜,如果進(jìn)行改造,建設(shè)可行性和周期都是一個(gè)很大的問號(hào)。
接下來我們就來針對(duì)日志與可觀測(cè)融合建設(shè)的幾個(gè)難點(diǎn)進(jìn)行更加深入剖析,給出一些的有效的建設(shè)思路和方法。
03. 日志與可觀測(cè)體系融合建設(shè)的難點(diǎn)與思路
1)可觀測(cè)體系中的日志與其他數(shù)據(jù)串聯(lián)的難點(diǎn)
前面提到,日志數(shù)據(jù)可以通過可觀測(cè)數(shù)據(jù)的相互串聯(lián)來提升自身的數(shù)據(jù)價(jià)值,那么在具體建設(shè)中會(huì)遇到哪些難點(diǎn)呢?
① 難點(diǎn)一:數(shù)據(jù)格式不統(tǒng)一。在中大型企業(yè)中,還有不少老舊設(shè)備的日志,這些日志數(shù)據(jù)需要經(jīng)過加工處理才可以識(shí)別出必要字段
解決思路:清洗轉(zhuǎn)化,格式兼容
② 難點(diǎn)二:數(shù)據(jù)采集方式不統(tǒng)一。指標(biāo)類數(shù)據(jù),目前流行的采集方式已達(dá)上百種,有特有協(xié)議,有自定義輸出,但一般會(huì)在demension中包含資源ID之類的上下文信息
解決思路:提取公共因子為關(guān)聯(lián)線索(時(shí)間、資源ID等)
③ 難點(diǎn)三:煙囪式工具,前臺(tái)界面無法串聯(lián)。很多企業(yè)有傳統(tǒng)的監(jiān)控工具,也有專門的日志系統(tǒng),即使數(shù)據(jù)關(guān)聯(lián)上了,兩者的界面難以打通,串聯(lián)觀測(cè)的體驗(yàn)仍舊不佳
解決思路:盡量選用可拓展性較強(qiáng)的產(chǎn)品,或者一開始建設(shè)時(shí)就選用融合設(shè)計(jì)的產(chǎn)品
2)關(guān)聯(lián)日志數(shù)據(jù)的解決方案
針對(duì)這些難以關(guān)聯(lián)的問題,我們也有對(duì)應(yīng)的關(guān)聯(lián)手段。同時(shí)企業(yè)間存量日志情況各不相同,可以使用不同的方式做可觀測(cè)關(guān)聯(lián)。
在實(shí)際的可觀測(cè)系統(tǒng)落地的過程中,不同類型日志需要采用不一樣的關(guān)聯(lián)方式,常見關(guān)聯(lián)方式如下圖:
04. 企業(yè)日志系統(tǒng)設(shè)計(jì)思路與選型建議
1)日志系統(tǒng)設(shè)計(jì)思路
如何設(shè)計(jì)企業(yè)日志系統(tǒng)呢?傳統(tǒng)日志系統(tǒng)通常采用5層式獨(dú)立結(jié)構(gòu),但這樣的建設(shè)模式,排障時(shí)需從大量日志數(shù)據(jù)入手,難以快速定位到問題。
而隨著可觀測(cè)技術(shù)的發(fā)展,很多企業(yè)開始建設(shè)監(jiān)控系統(tǒng)、日志管理系統(tǒng)、調(diào)用鏈追蹤系統(tǒng),但由于分開建設(shè),底層數(shù)據(jù)之間無關(guān)聯(lián)。雖然實(shí)現(xiàn)了三大支柱數(shù)據(jù)的系統(tǒng)建設(shè),但彼此之間屬于煙囪模式,無法有效聯(lián)動(dòng),難以有效提升故障定位效率。
而雙價(jià)值鏈條所驅(qū)動(dòng)的企業(yè)級(jí)日志系統(tǒng),通過日志數(shù)據(jù)流轉(zhuǎn)鏈和可觀測(cè)全景數(shù)據(jù)鏈的驅(qū)動(dòng),解決了日志數(shù)據(jù)“管理難”,“應(yīng)用難”的問題。全棧可觀測(cè)平臺(tái)的建設(shè),提供了一站式的排障能力,支持統(tǒng)一告警與統(tǒng)一展示,降低故障排查難度,提升排障效率。
2)企業(yè)日志系統(tǒng)選型建議:
結(jié)合上文提到的設(shè)計(jì)思路和難點(diǎn),我們?yōu)槠髽I(yè)日志系統(tǒng)選型提供以下幾點(diǎn)建議:
① 選用覆蓋完整的,且各類觀測(cè)工具可自由組合的可觀測(cè)平臺(tái)
覆蓋完的工具或平臺(tái),往往從一開始就會(huì)考慮幾種數(shù)據(jù)之間的融合設(shè)計(jì)(不僅局限于數(shù)據(jù),還有UI界面上的串聯(lián)),避免煙囪式建設(shè)。
同時(shí)以融合理念進(jìn)行設(shè)計(jì)的產(chǎn)品,可以根據(jù)自身現(xiàn)狀分批、分階段建設(shè),有限控制建設(shè)成本,實(shí)現(xiàn)最終的可觀測(cè)體系建設(shè),讓企業(yè)能夠順利轉(zhuǎn)型過渡。
② 選用支持開源協(xié)議的云平臺(tái)或商業(yè)產(chǎn)品
③ 需具備強(qiáng)大的日志清洗能力,沉淀常用組件清洗模板
助力標(biāo)準(zhǔn)化建設(shè):有利于減輕落地推廣的難度,提升觀測(cè)體系的覆蓋度,沉淀經(jīng)驗(yàn)和標(biāo)準(zhǔn),也有利于規(guī)范的落地。
05. 案例分享
1)某新能源企業(yè)運(yùn)維一體化項(xiàng)目
① 建設(shè)背景
② 建設(shè)內(nèi)容
針對(duì)該企業(yè)現(xiàn)狀,嘉為鯨眼日志中心為其打造了相契合的解決方案,集中納管公司60+業(yè)務(wù)、4000+節(jié)點(diǎn)的日志,日數(shù)據(jù)量3TB+,制定60+系統(tǒng)的200+項(xiàng)監(jiān)控策略,出現(xiàn)故障問題及時(shí)多渠道通知對(duì)應(yīng)的專業(yè)人員進(jìn)行排查,故障響應(yīng)效率提升30%以上。
2)某銀行企業(yè)日志集中化改造項(xiàng)目
① 建設(shè)背景
② 建設(shè)內(nèi)容
銀行對(duì)于日志數(shù)據(jù)的安全和存儲(chǔ)都有更高的要求,嘉為藍(lán)鯨根據(jù)企業(yè)組織進(jìn)行了精細(xì)授權(quán)管理,同時(shí)日志數(shù)據(jù)流轉(zhuǎn)處理過程中都進(jìn)行了加密和脫敏處理,保障銀行的安全性需求。除此之外,針對(duì)銀行海量的日志數(shù)據(jù)存儲(chǔ)需求,采用三層存儲(chǔ)金字塔架構(gòu),降低存儲(chǔ)成本。
完成了數(shù)據(jù)源接入2000+,數(shù)據(jù)清洗1700+,日數(shù)據(jù)量1TB+,存儲(chǔ)成本降低50%以上,監(jiān)控策略300+,儀表盤60+,沉淀30+采集配置模板、清洗模板、儀表盤模板。
3)某車企云管&研發(fā)運(yùn)維一體化項(xiàng)目
① 建設(shè)背景
② 建設(shè)內(nèi)容
該大型企業(yè)主要問題在于業(yè)務(wù)的高速發(fā)展帶來了海量數(shù)據(jù),復(fù)雜的技術(shù)棧,頻繁的變更,對(duì)運(yùn)維的要求越來越高,人工運(yùn)維已經(jīng)難以快讀定位并處理問題。通過Trace全景分析+Metirc波動(dòng)分析的建設(shè),結(jié)合明細(xì)日志log數(shù)據(jù),建立全景數(shù)據(jù)鏈條,從根源解決問題,快速定位故障根因。
對(duì)于人工運(yùn)維難度大的問題,引入嘉為鯨眼AI能力,對(duì)日志進(jìn)行日志聚類、模式智能異常檢測(cè)、模式趨勢(shì)可視化等人工智能手段方式,幫助運(yùn)維人員快速掌握日志全貌,敏銳捕捉動(dòng)態(tài)異常,動(dòng)態(tài)配置監(jiān)控策略,大大提升運(yùn)維人員故障定位效率。
以上是嘉為在日志建設(shè)中的一些典型案例,感興趣的讀者可以點(diǎn)擊下方圖片查看回放或下載直播PPT獲得更多相關(guān)內(nèi)容。
當(dāng)前,可觀測(cè)性建設(shè)仍然在高速探索的階段,不同的企業(yè)運(yùn)維建設(shè)階段不同,對(duì)于全棧可觀測(cè)能力的構(gòu)建也有適合各自的建設(shè)路徑,本期我們僅僅是對(duì)日志系統(tǒng)之于可觀測(cè)的意義以及日志運(yùn)維場景工具設(shè)計(jì)和落地實(shí)踐進(jìn)行了分享,如果您在日常運(yùn)維中也遇到了可觀測(cè)建設(shè)的相關(guān)問題,或是對(duì)可觀測(cè)有建設(shè)需求,歡迎聯(lián)系我們!
ITSM運(yùn)營:服務(wù)請(qǐng)求管理持續(xù)改進(jìn)
查看詳細(xì)
AI驅(qū)動(dòng)IT運(yùn)維轉(zhuǎn)型:從審批流到AI工作流
查看詳細(xì)
國產(chǎn)化替代實(shí)踐:嘉為藍(lán)鯨全棧智能觀測(cè)中心對(duì)比IBM Tivoli
查看詳細(xì)
嘉為藍(lán)鯨平臺(tái):三位一體,打造云原生數(shù)字化基座
查看詳細(xì)
嘉為藍(lán)鯨DevOps研發(fā)效能管理平臺(tái):AI賦能研運(yùn),效能再進(jìn)化
查看詳細(xì)
ITSM運(yùn)營:事件管理持續(xù)改進(jìn)
查看詳細(xì)
申請(qǐng)演示