无套内谢大学处破女_一本一道精品欧美中文字幕|HD中文字幕在线播放,国产精品深夜福利,99久久精品无码一区二区毛片,久久国产加勒比精品无码

首頁

/

IT可觀測系列剖析——日志體系建設(shè),企業(yè)運維排障“最后一公里”

發(fā)布日期:2024-09-09 15:04:39

分享到

01. 何為排障“最后一公里”

為什么說在企業(yè)運維排障中,日志體系建設(shè)通常被稱為"最后一公里"

這是因為日志是在系統(tǒng)出現(xiàn)問題時提供關(guān)鍵信息的重要數(shù)據(jù)來源。在排障過程中,日志記錄了系統(tǒng)運行時的各種活動和事件,可以幫助運維人員追蹤問題的根源。

“最后一公里”指的是在排障過程中,當(dāng)其他排查方法都無法解決問題時,運維人員會轉(zhuǎn)向日志來查找答案。日志記錄了系統(tǒng)的運行狀態(tài)、錯誤信息、異常情況等,通過分析日志可以幫助定位問題,找到解決方案。

舉例來說,核心交付系統(tǒng)每天處理數(shù)百萬筆交易。有一天,客戶投訴稱“一小部分交易失敗,而且無法追蹤失敗原因”。工程師利用監(jiān)控工具檢測到一些異常指標(biāo),但這些指標(biāo)無法提供問題的具體細節(jié)。通過對比成功和失敗的交易日志,工程師發(fā)現(xiàn)交易失敗的根本原因在于與第三方服務(wù)的通信故障。于是,工程師與第三方服務(wù)的支持團隊聯(lián)系,并共享了相關(guān)日志,成功解決了問題,恢復(fù)了交易正常運行,讓相關(guān)的失敗情況不再重復(fù)發(fā)生

以上提到的只是一種故障場景,說明日志對于排障處理起到關(guān)鍵作用。日志數(shù)據(jù)記錄了系統(tǒng)或程序在執(zhí)行過程中每個事件的明細詳情。通過收集日志數(shù)據(jù),可以獲得系統(tǒng)或程序發(fā)生故障時的現(xiàn)場快照,精確了解根本問題所在。如果在前期能夠聚焦范圍,鎖定少量關(guān)鍵日志,那么大部分的故障根因問題就可以被快速確認。

因此,日志體系建設(shè)在企業(yè)運維中扮演著至關(guān)重要的角色,它不僅可以幫助提高故障排查的效率,還可以提升系統(tǒng)的穩(wěn)定性和可靠性。所以,人們常說日志體系建設(shè)是企業(yè)運維排障中的“最后一公里”。

那為什么需要建設(shè)日志體系?其面臨的挑戰(zhàn)又是什么?我們應(yīng)當(dāng)如何建設(shè)日志體系呢?


02. 為什么要建設(shè)日志工具

1)面向運維者

主動發(fā)現(xiàn):能精準(zhǔn)從日志數(shù)據(jù)中捕捉異常并告警;

輔助運維:通過日志了解到詳細信息,以判斷下一步運維操作;

采集便捷:無侵入式采集,中心化采集,便于推廣實施。

2)面向開發(fā)者

快速查詢集中查詢,跨應(yīng)用查詢,不需要來回切換機器;

根因定位能精準(zhǔn)獲取到日志的上下文做代碼根因定位;

輔助優(yōu)化:從日志信息中獲取有效信息,優(yōu)化現(xiàn)有代碼。

3)面向部門管理者

建設(shè):避免煙囪式建設(shè)運維工具,需要體系化打通數(shù)據(jù)和上下游;

管理:日志數(shù)據(jù)權(quán)限管控,統(tǒng)一查看,統(tǒng)一存儲和管理;

規(guī)范:日志規(guī)范落地需要平臺和工具的承載。

4)面向企業(yè)領(lǐng)導(dǎo)者

競爭:通過完整的可觀測體系讓公司運營效率超過競爭對手;

合規(guī):讓日志的記錄符合政策法規(guī),避免審計風(fēng)險;

安全:各類訪問和操作日志數(shù)據(jù)是信息安全的重要信息來源。


03. 日志體系建設(shè)所面臨的挑戰(zhàn)

  • 數(shù)據(jù)量大:運維系統(tǒng)產(chǎn)生的日志數(shù)據(jù)量通常很大,每天可能產(chǎn)生幾十億條、上百GB甚至TB級的日志數(shù)據(jù),需要有效的存儲和管理機制來處理這些海量數(shù)據(jù)。
  • 日志格式多樣:不同的系統(tǒng)和應(yīng)用程序可能會生成不同格式的日志,需要有效地從海量日志數(shù)據(jù)中提取有用信息和進行數(shù)據(jù)分析,并將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)。
  • 日志安全性:日志中可能包含敏感信息,需要確保日志的安全性,避免泄露敏感信息。
  • 監(jiān)控和告警:建立有效的監(jiān)控和告警機制,及時發(fā)現(xiàn)問題并采取措施是關(guān)鍵,但也是一個挑戰(zhàn)。
  • 日志保留策略:制定合適的日志保留策略,既要滿足合規(guī)要求,又要兼顧存儲成本和性能。
  • 日志可視化:將日志數(shù)據(jù)可視化展示,便于運維人員快速了解系統(tǒng)狀態(tài)和問題,但搭建可視化平臺也是一個挑戰(zhàn),需要考慮到性能因素。
  • 日志采集和傳輸:確保日志的完整性和及時性,需要建立高效的日志采集和傳輸機制。

故日志體系建設(shè)所面臨的挑戰(zhàn)需要綜合考慮技術(shù)、安全、隱私、性能等多方面因素,只有解決上述問題才能建立起一個完善的運維日志體系


04. 日志建設(shè)實踐引導(dǎo)

1)日志數(shù)據(jù)標(biāo)準(zhǔn)化,確保規(guī)范

① 定義日志規(guī)范

  • 確定日志格式:定義日志記錄的格式,包括字段、分隔符和結(jié)構(gòu)。可以選擇使用通用的格式(如JSON)或自定義格式。
  • 確定關(guān)鍵字段:識別和定義需要記錄的關(guān)鍵字段,如時間戳、事件類型、請求URL、用戶ID等。確保關(guān)鍵字段的準(zhǔn)確性和一致性。
  • 定義日志級別:確定日志的級別,如調(diào)試、信息、警告和錯誤。根據(jù)實際需求選擇適當(dāng)?shù)募墑e。

② 記錄關(guān)鍵信息

  • 時間戳:確保每條日志記錄都包含準(zhǔn)確的時間戳信息,以便進行時間相關(guān)的分析和調(diào)查。
  • 事件類型:明確記錄每個日志事件的類型,以便在后續(xù)的分析和查詢中能夠準(zhǔn)確識別和過濾。
  • 請求信息對于涉及網(wǎng)絡(luò)請求的日志,記錄關(guān)鍵的請求信息,如請求URL、請求方法、請求參數(shù)等。這有助于跟蹤和分析請求流程和性能。
  • 異常信息:在錯誤和異常情況下,記錄詳細的異常信息,包括異常類型、堆棧跟蹤、錯誤碼等,以便進行故障排查和錯誤分析。

③ 支持開源協(xié)議

  • 順應(yīng)業(yè)界主流趨勢,開源社區(qū)(OT)已經(jīng)在很早期就開始設(shè)計可觀測數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,且在最新的OpenTelemetry規(guī)范中,制定了日志數(shù)據(jù)的規(guī)范。
  • 方便拓展對接:支持開源協(xié)議,可以與自己早期使用的開源工具或者組件相互對接,兼容存量系統(tǒng)。
  • 生態(tài)長存:采集和處理工具千千萬,唯開源生態(tài)長存,可拓展和替換是企業(yè)建設(shè)工具時必須考慮的因素。

④ 實踐建議

  • 避免冗余信息:避免在日志中記錄重復(fù)或冗余的信息。只記錄必要的、關(guān)鍵的信息,以減少日志量和存儲開銷。
  • 敏感信息保護:注意保護日志中可能包含的敏感信息,如用戶密碼、個人身份信息等。采用適當(dāng)?shù)拿撁舸胧_保敏感信息不會泄露。
  • 日志注釋和上下文:在關(guān)鍵的日志記錄中,添加注釋和上下文信息,以便更好地理解日志的背景和意義。這有助于后續(xù)的分析和調(diào)查工作。

遵循日志規(guī)范準(zhǔn)確記錄關(guān)鍵信息是建設(shè)穩(wěn)健可靠的日志系統(tǒng)的關(guān)鍵所在。定義規(guī)范、記錄關(guān)鍵信息、并遵循最佳實踐可以更好地利用日志數(shù)據(jù)進行故障排查、性能優(yōu)化和安全審計等工作。這些步驟旨在確保日志信息經(jīng)過明確、準(zhǔn)確和一致的格式,從而更好地滿足業(yè)務(wù)需求。


2)日志數(shù)據(jù)精煉,優(yōu)化清洗

日志數(shù)據(jù)是文本數(shù)據(jù),難以讀懂,更難以通過統(tǒng)計分析賦能運維、運營、業(yè)務(wù)人員。因此,構(gòu)建日志體系時需要考慮工具是否具備強大的日志清洗能力,支持將各類格式的日志進行結(jié)構(gòu)化解析,從而可以基于結(jié)構(gòu)化數(shù)據(jù)構(gòu)建資源監(jiān)控、業(yè)務(wù)監(jiān)控、業(yè)務(wù)分析等場景。

除了強大的日志清洗能力外,預(yù)置固定清洗模板也十分重要,不僅可以提升日志清洗的效率,還可以助力企業(yè)日志標(biāo)準(zhǔn)化建設(shè),有利于減輕落地推廣的難度。


3)日志數(shù)據(jù)安全保護,數(shù)據(jù)脫敏

日志數(shù)據(jù)作為系統(tǒng)運行和活動的記錄,可能包含敏感信息,如個人身份信息、密碼、信用卡號等。這些敏感數(shù)據(jù)如果在日志中以明文形式存在,可能會造成嚴(yán)重的安全風(fēng)險,如數(shù)據(jù)泄露、隱私侵犯等問題。因此,對日志數(shù)據(jù)進行脫敏處理是必要的。

通過數(shù)據(jù)脫敏,可以有效保護敏感信息的安全性,避免泄露風(fēng)險。脫敏技術(shù)可以將敏感數(shù)據(jù)轉(zhuǎn)換為無意義的、難以識別的數(shù)據(jù),保留數(shù)據(jù)的結(jié)構(gòu)和格式,同時隱藏真實內(nèi)容。這樣既能保護用戶隱私,又能確保數(shù)據(jù)的完整性和可用性,同時遵守相關(guān)的隱私法規(guī)和合規(guī)要求。


4)持久存儲,日志長周期保留策略

為了滿足合規(guī)性、監(jiān)管要求、故障排查、趨勢分析和歷史記錄等目的,某些日志數(shù)據(jù)需要被長期保留,但長期存儲會面臨存儲成本和維護成本過高的問題。我們可以通過以下的思路來制定日志長周期存儲策略。

① 合理選擇存儲介質(zhì)

  • 將高頻查看且較新的日志存儲在Elasticsearch或其他閃存設(shè)備上,這樣可以方便搜索和分析。
  • 將低頻查看但需要合規(guī)審計的日志存儲在較便宜和容量較大的大數(shù)據(jù)存儲設(shè)備上,如HDFS等,以降低存儲和維護成本。

② 數(shù)據(jù)備份及可恢復(fù)

  • 對于兩種不同的存儲介質(zhì),應(yīng)具備數(shù)據(jù)自動遷移/備份的能力。不再需要頻繁查看的日志數(shù)據(jù)可以平滑地遷移至容量更大的存儲設(shè)備上。如果審計部門或工程師需要查看歷史久遠的日志數(shù)據(jù),可以通過簡單的界面化操作快速將日志數(shù)據(jù)重新載入到Elasticsearch或閃存設(shè)備上進行查詢和分析。

③ 數(shù)據(jù)壓縮

  • 為了節(jié)省存儲空間,對長期存儲的日志數(shù)據(jù)進行壓縮也是十分必要的。我們需要選擇適當(dāng)?shù)膲嚎s算法和壓縮比例,以平衡存儲成本和數(shù)據(jù)訪問的效率。
  • 實施這些策略后,企業(yè)能夠更好地維護日志長周期存儲,節(jié)省存儲成本和維護成本,并使存儲數(shù)據(jù)更加高效、安全、規(guī)范化。


5)日志檢索,提升運維效能

日志檢索在日志體系建設(shè)中扮演著關(guān)鍵的角色,其目標(biāo)是為用戶提供一種快速定位系統(tǒng)問題和異常的能力,以便加速故障排查和問題診斷的過程。為實現(xiàn)這一目標(biāo),日志檢索需要具備基礎(chǔ)的查詢語法,允許用戶根據(jù)關(guān)鍵詞、時間范圍等條件來檢索日志數(shù)據(jù),以快速定位所需信息。在日志檢索過程中,用戶還可以使用通配符等高級查詢語法,以更精準(zhǔn)地過濾和搜索日志數(shù)據(jù)。同時考慮到一些安全合規(guī),日志檢索還需具備脫敏檢索功能,可以在保障數(shù)據(jù)隱私的前提下,依然能夠有效地進行日志檢索和分析。

另外,日志檢索還應(yīng)具備用戶友好的查詢界面和交互體驗,使用戶能夠輕松地輸入查詢條件、查看搜索結(jié)果,并進行進一步的篩選和分析。除了基礎(chǔ)的字段過濾外,一些高級功能如統(tǒng)計分析、可視化展示等也可以幫助用戶更全面地理解日志數(shù)據(jù),快速發(fā)現(xiàn)系統(tǒng)中的問題和異常。

在涉及多業(yè)務(wù)之間日志檢索時,還需要支持多日志數(shù)據(jù)之間的聯(lián)合檢索功能,用戶可以同時查詢不同業(yè)務(wù)生成的日志數(shù)據(jù),進行比對和分析,全面了解業(yè)務(wù)運行情況。這樣的功能有助于提高故障排查和問題診斷的效率,促進系統(tǒng)運行的穩(wěn)定性和可靠性。


6)日志高效排障,快速定位問題

日志最為典型和核心的應(yīng)用場景之一便是用于排障。通過利用日志,快速定位問題并走完排障的“最后一公里”。在查詢?nèi)罩?/span>時,以下步驟可以幫助實現(xiàn)高效定位問題:

  1. 確定問題:首先要明確正在解決的問題是什么,明確問題有助于縮小日志查詢范圍,集中精力查找與問題相關(guān)的日志。
  2. 確定日志源確定產(chǎn)生問題日志的應(yīng)用程序、系統(tǒng)組件或服務(wù)。這將幫助篩選日志源并減少查詢范圍。
  3. 使用過濾器和關(guān)鍵字搜索:通過日志工具,根據(jù)問題的特征或關(guān)鍵字使用過濾器和搜索功能。這將有助于快速篩選出與問題相關(guān)的日志條目。
  4. 時間范圍限制:確定問題發(fā)生的時間范圍,并將查詢限制在這個時間段內(nèi)。這將減少查詢的數(shù)據(jù)量,提高定位問題日志的速度。
  5. 關(guān)注錯誤和警告:錯誤和警告日志通常是問題跡象最明顯的地方。查看這些記錄,是否包含與問題相關(guān)的錯誤消息或警告提示。
  6. 日志上下文:對于找到的問題日志條目,查看其上下文信息。通常日志條目提供有關(guān)請求、響應(yīng)或其他事件的上下文相關(guān)信息,有助于更好地理解問題的背景及其成因。

除了以上步驟外,還可以利用人工智能(AI)能力和可觀測上下游聯(lián)動能力,進一步縮小日志查詢的時間和空間范圍,進一步提高故障定位效率。


7)智能化日志聚類能力

企業(yè)日志數(shù)量一般相當(dāng)大,每天可能產(chǎn)生TB級別的日志數(shù)。當(dāng)工程師需要從千萬條日志數(shù)據(jù)中尋找異常日志進行問題定位時,時間成本很高。在這種情況下,如果日志工具提供了日志聚類能力,那么千萬條日志數(shù)據(jù)就可以聚合成十幾種格式類型,提高信息密度。這將使工程師避免查找重復(fù)日志而浪費大量時間。


8)可觀測上下游聯(lián)動

基于可觀測系統(tǒng)設(shè)計模式,可以將指標(biāo)數(shù)據(jù)、鏈路數(shù)據(jù)與日志數(shù)據(jù)進行打標(biāo)關(guān)聯(lián)。這樣做的好處是,當(dāng)在上游發(fā)現(xiàn)指標(biāo)或鏈路數(shù)據(jù)異常時,在排障過程中可以直接下鉆定位到關(guān)聯(lián)的下游日志數(shù)據(jù),省去了在千萬條日志中查找異常日志的過程,大大提高了定位問題的速度。

云原生時代IT可觀測的三大支柱數(shù)據(jù):Metrics,Tracing,Logging,日志數(shù)據(jù)在其中承擔(dān)著排障的“最后一公里”的角色,基于其信息量大的特點,為研發(fā)、運維提供最直接且詳盡的視角,深入了解IT系統(tǒng)運行的細節(jié)信息。

隨著可觀測體系的技術(shù)發(fā)展,可觀測三大數(shù)據(jù)的融合和串聯(lián),已經(jīng)成為提升日志價值信息密度的重要手段,前端的Metrics,Tacing數(shù)據(jù)就宛如快捷的交通工具,而排障的“最后一公里”就需要依賴日志數(shù)據(jù)來支撐,融合串聯(lián),快速定位關(guān)鍵信息點。

實現(xiàn)排障的“最后一公里”,需要在數(shù)據(jù)采集、數(shù)據(jù)監(jiān)控、數(shù)據(jù)告警、數(shù)據(jù)分析四個層面上進行Metrics、Tracing、Logging的融合打通。

  • 數(shù)據(jù)采集需要支持將日志和資源實例、Trace進行關(guān)聯(lián),能識別出該條日志是哪個資源實例產(chǎn)生的,以及關(guān)聯(lián)的Trace ID和Span ID。
  • 數(shù)據(jù)監(jiān)控需要支持在一個策略內(nèi)同時檢測Metrics、Tracing、Logging,并可自由組合各類數(shù)據(jù)閾值進行告警通知相關(guān)人員。例如,應(yīng)用系統(tǒng)日志發(fā)生異常,但操作系統(tǒng)、中間件和數(shù)據(jù)庫指標(biāo)都正常,則告警通知該應(yīng)用系統(tǒng)的業(yè)務(wù)運維人員。
  • 數(shù)據(jù)告警需要支持通過告警事件下鉆查看相關(guān)的Metrics、Tracing、Logging,協(xié)助運維人員快速定位故障問題,無需運維人員耗費時間去尋找關(guān)聯(lián)的可觀測數(shù)據(jù)。
  • 數(shù)據(jù)分析需要在觀測場景或數(shù)據(jù)查詢分析頁面,支持Metrics、Tracing、Logging之間的互相跳轉(zhuǎn),以便故障排查和業(yè)務(wù)分析。

因此企業(yè)在建設(shè)可觀測日志體系時,建議選用覆蓋完整,且各類觀測工具可自由組合的可觀測平臺,因為這些平臺往往從一開始就會考慮幾種數(shù)據(jù)之間的融合設(shè)計,不僅數(shù)據(jù)之間可以實現(xiàn)融合打通,UI界面上的串聯(lián)排障過程也很絲滑,避免煙囪式建設(shè)


同時以融合理念進行設(shè)計的產(chǎn)品,企業(yè)可以根據(jù)自身現(xiàn)狀分批、分階段建設(shè),有效控制建設(shè)成本,實現(xiàn)最終的可觀測體系建設(shè),讓企業(yè)能夠順利轉(zhuǎn)型過渡。


9)深度挖掘日志價值,解鎖數(shù)據(jù)潛力

日志數(shù)據(jù)是故障排除的關(guān)鍵,但僅保存日志是遠遠不夠的。由于日志數(shù)據(jù)包含了豐富全面的信息,因此我們可以通過挖掘日志數(shù)據(jù)來實現(xiàn)以下場景:

全監(jiān)控
  • 借助日志數(shù)據(jù)信息豐富詳細的特點,實現(xiàn)對企業(yè)系統(tǒng)的訪問記錄、安全漏洞、惡意攻擊、網(wǎng)絡(luò)犯罪等的監(jiān)控。日志中可能包含有關(guān)攻擊者行為的詳細信息,企業(yè)可以通過日志監(jiān)控及時發(fā)現(xiàn)潛在的安全威脅,并采取相應(yīng)的措施進行防范和應(yīng)對。
故障定位和診斷
  • 日志是診斷故障的重要工具。當(dāng)系統(tǒng)出現(xiàn)故障時,運維人員可以通過分析日志文件來查找故障原因。日志中可能包含有關(guān)系統(tǒng)運行狀態(tài)、處理請求時的錯誤、訪問權(quán)限等信息,輔助運維人員快速定位和解決問題。
性能優(yōu)化
  • 日志可以幫助運維人員監(jiān)測系統(tǒng)的性能,找出系統(tǒng)瓶頸并進行優(yōu)化。通過分析日志,運維人員可以識別系統(tǒng)處理請求時的常見錯誤、延遲等問題,并采取相應(yīng)的措施來優(yōu)化系統(tǒng)性能。
合規(guī)審計
  • 許多企業(yè)和組織需要遵守相關(guān)的法律法規(guī)和標(biāo)準(zhǔn),例如金融監(jiān)管要求日志審計。日志建設(shè)可以幫助管理員確保滿足這些法規(guī)和標(biāo)準(zhǔn)的要求,例如對數(shù)據(jù)進行適當(dāng)?shù)谋Wo和管理。
開發(fā)和維護
  • 伴隨云原生時代的到來,許多企業(yè)的應(yīng)用系統(tǒng)敏捷開發(fā)、快速迭代,頻繁的業(yè)務(wù)變更增加了運維人員定位故障問題的難度。日志建設(shè)可以幫助開發(fā)團隊和運維團隊更好地理解和調(diào)試系統(tǒng)。在開發(fā)和維護過程中,開發(fā)人員和運維人員可以通過分析日志來查找和解決問題,并優(yōu)化系統(tǒng)的性能和穩(wěn)定性。
業(yè)務(wù)分析
  • 通過將業(yè)務(wù)指標(biāo)數(shù)據(jù)與相應(yīng)的日志數(shù)據(jù)進行關(guān)聯(lián),可以深入了解業(yè)務(wù)指標(biāo)的影響因素,找出影響業(yè)務(wù)績效的關(guān)鍵日志事件,并采取對應(yīng)的業(yè)務(wù)運營措施。



05. 結(jié)語

綜上所述,在當(dāng)今數(shù)字化時代,日志數(shù)據(jù)的重要性不容忽視。通過建立完善的日志體系,并利用各類觀測工具進行數(shù)據(jù)融合,企業(yè)可以實現(xiàn)安全監(jiān)控、故障定位、性能優(yōu)化、合規(guī)審計、開發(fā)維護以及業(yè)務(wù)分析等多方面的價值。而充分挖掘日志數(shù)據(jù)潛力,有助于企業(yè)更有效地管理和優(yōu)化系統(tǒng)運營,促進持續(xù)發(fā)展。因此,日志體系的建設(shè)將成為企業(yè)數(shù)據(jù)管理和運營中不可或缺的戰(zhàn)略舉措。

免費申請演示

聯(lián)系我們

服務(wù)熱線:

020-38847288

QQ咨詢:

3593213400

在線溝通:

立即咨詢
查看更多聯(lián)系方式

申請演示

請登錄后在查看!