發(fā)布日期:2022-11-24 17:40:18
嘉為長(zhǎng)期深耕于AD領(lǐng)域,對(duì)AD的規(guī)劃、建設(shè)、升級(jí)、運(yùn)維管理、災(zāi)難恢復(fù)、故障處理等均有實(shí)踐經(jīng)驗(yàn),建立起了理念、技術(shù)、方案和人才的豐富儲(chǔ)備,能夠?qū)崿F(xiàn)AD在企業(yè)內(nèi)部的從無到有,從有到優(yōu)。
然而并非所有企業(yè)都能成功建立起了合適的AD運(yùn)維模式,其運(yùn)維人員也不得不面對(duì)一個(gè)個(gè)“傷筋動(dòng)骨”的AD故障。
下面將通過講述某科技公司,以非良性AD運(yùn)維模式為誘因,AD域內(nèi)所有域控均發(fā)生故障,必須進(jìn)行林恢復(fù)的真實(shí)案例,與大家共同分享嘉為在AD領(lǐng)域的實(shí)踐經(jīng)驗(yàn)。
01. 案例背景
1)故事的起點(diǎn)——常規(guī)恢復(fù)手段失效
2022年6月13日,該企業(yè)IT管理員突然發(fā)現(xiàn),在企業(yè)內(nèi)部的無線網(wǎng)絡(luò)無法正常認(rèn)證連接,部分服務(wù)器的DNS無法解析域名。
在經(jīng)過簡(jiǎn)單排查后發(fā)現(xiàn),出現(xiàn)異常的客戶端,其DNS服務(wù)器均指向主域控(指PDC角色所有者,這臺(tái)主域控同時(shí)也是提供內(nèi)部證書服務(wù)的CA服務(wù)器),隨后IT管理員臨時(shí)將DNS服務(wù)、應(yīng)用LDAP連接從主域控遷移到同站點(diǎn)同機(jī)房的另一臺(tái)域控制器上,同時(shí)臨時(shí)取消了無線網(wǎng)絡(luò)的認(rèn)證規(guī)則。
暫時(shí)恢復(fù)業(yè)務(wù)后,IT管理員按照日常方式,重新搭建了域控制器,以此來替代舊服務(wù)器,但將新服務(wù)器升級(jí)為域控時(shí)卻出現(xiàn)了新的報(bào)錯(cuò),報(bào)錯(cuò)中提到新服務(wù)器無法加入域,同時(shí)DNS注冊(cè)異常。
在將常規(guī)手段全部嘗試了一遍無果后,管理員開始尋求外部協(xié)助。
02. 雷厲風(fēng)行,嘉為迅速介入
1)故障初步排查——提供常見恢復(fù)方案
2022年6月15日晚,該企業(yè)管理員通過集團(tuán)總部聯(lián)系到嘉為服務(wù)團(tuán)隊(duì),嘉為立即提供了遠(yuǎn)程支持,通過遠(yuǎn)程連接到AD域環(huán)境后,發(fā)現(xiàn)以下問題:
經(jīng)過上述檢查后,嘉為技術(shù)人員以業(yè)務(wù)恢復(fù)為第一原則,做出以下判斷:
2)尷尬而危險(xiǎn)的平衡——更高的恢復(fù)要求
2022年6月16日凌晨,在提交初步解決方案后,嘉為技術(shù)團(tuán)隊(duì)與開始域IT管理員溝通實(shí)施細(xì)節(jié),卻發(fā)現(xiàn)遠(yuǎn)程實(shí)施該方案存在著以下不可預(yù)估的風(fēng)險(xiǎn):
由于當(dāng)前主要業(yè)務(wù)功能未受到很大影響,于是約定當(dāng)日下午到企業(yè)現(xiàn)場(chǎng)進(jìn)行故障處理。經(jīng)過現(xiàn)場(chǎng)溝通,我們對(duì)其AD域故障事件的復(fù)雜性有了全面的認(rèn)知:
① 恢復(fù)方案不能中斷業(yè)務(wù):主域控?zé)o法停機(jī),任何涉及重啟的修復(fù)操作不在考慮范圍之內(nèi)。
② 恢復(fù)方案受復(fù)雜環(huán)境影響大:AD域環(huán)境混亂,恢復(fù)方案需要排除的影響點(diǎn)過多,其中包括:
③ 恢復(fù)方案的時(shí)間壓力大:618期間,業(yè)務(wù)流量大,連續(xù)性要求高,當(dāng)前僅一臺(tái)域控制器提供認(rèn)證,隨時(shí)可能發(fā)生業(yè)務(wù)中斷,必須盡快恢復(fù)。
既不能停機(jī),又沒有AD健康備份的保障,再加上參差不齊的服務(wù)器配置、復(fù)雜難捋的網(wǎng)絡(luò)環(huán)境以及業(yè)務(wù)高峰的現(xiàn)實(shí)壓力,此時(shí)這套AD系統(tǒng),正處在一個(gè)尷尬而危險(xiǎn)的平衡點(diǎn),隨時(shí)有可能繃斷。
在對(duì)故障信息有了以上清晰的認(rèn)知后,嘉為團(tuán)隊(duì)提出了一個(gè)新的解決方案,用過隔離輔助域控,進(jìn)行林恢復(fù)。
3)新方案的制定——保障業(yè)務(wù)連續(xù)穩(wěn)健恢復(fù)
2022年6月17日上午,嘉為團(tuán)隊(duì)再一次對(duì)企業(yè)AD域環(huán)境進(jìn)行了深度調(diào)研,獲取各個(gè)域控的基本信息、應(yīng)用角色以及受損情況。
針對(duì)域控上的服務(wù)角色,如DHCP、DPS、CA等,分別制定了遷移方案,以此形成了服務(wù)器信息調(diào)研表、拓?fù)鋱D,故障恢復(fù)流程、checklist、恢復(fù)備案等合一的AD環(huán)境故障恢復(fù)方案。
同時(shí)與企業(yè)AD管理員、網(wǎng)絡(luò)管理員、應(yīng)用管理員等幾乎所有相關(guān)的IT管理員溝通,并組織了多次的方案討論,最終確定了恢復(fù)方案。
在最終確定的恢復(fù)方案中,高版本的輔助域控將作為恢復(fù)基點(diǎn),在隔離環(huán)境中執(zhí)行以下操作:
確保林恢復(fù)完成后,再進(jìn)行一系列的域控搭建、服務(wù)角色遷移、脫域計(jì)算機(jī)處理等操作:
4)新方案的執(zhí)行——些許波折,成功執(zhí)行
2022年6月18日晚。所有人到崗待命,開始執(zhí)行恢復(fù)方案。
然而在準(zhǔn)備隔離環(huán)境域控制器第一步時(shí),就發(fā)生了令氣壓驟增的情況,原定計(jì)劃需要使用生產(chǎn)環(huán)境的輔助域控進(jìn)行裸機(jī)備份,再將裸機(jī)備份還原到隔離環(huán)境中,進(jìn)行修復(fù)。
然而,企業(yè)整體環(huán)境中的虛擬化平臺(tái)資源極少,大部分服務(wù)器均為物理機(jī),在進(jìn)行裸機(jī)備份還原的過程中,客戶提供的虛擬機(jī)始終無法成功還原備份。
在經(jīng)過2小時(shí)的嘗試后,嘉為團(tuán)隊(duì)決定采用備份還原驗(yàn)證域生產(chǎn)服務(wù)器恢復(fù)并行的策略,即將備份提供給嘉為,讓其使用其他可用環(huán)境還原驗(yàn)證,同時(shí)將一臺(tái)生產(chǎn)環(huán)境的輔助域控制器進(jìn)行隔離,進(jìn)行恢復(fù)操作。
這樣的決定,雖然稍微提高了對(duì)生產(chǎn)環(huán)境服務(wù)器的風(fēng)險(xiǎn),但范圍可以接受(限定在1臺(tái)輔助域控制器)。終于在次日凌晨3點(diǎn),成功在隔離環(huán)境中執(zhí)行了林恢復(fù),應(yīng)用接入認(rèn)證正常,常規(guī)域服務(wù)功能驗(yàn)證正常。
凌晨6點(diǎn)時(shí),其他站點(diǎn)的輔助域控制器進(jìn)行了替換,服務(wù)角色特逐步開始遷移,終于在員工上班前,所有角色完成了遷移并通過了功能驗(yàn)證。完成上述工作后,企業(yè)AD域的基本業(yè)務(wù)均已恢復(fù),AD域的可用性得到保障,所有人都松了一口氣。
03. 案例示警
針對(duì)上述AD域故障恢復(fù)案例,我們可以提供一些具體的建議或建設(shè)范疇:
正如開頭所說,AD是一套在許多企業(yè)內(nèi)部落地的的基礎(chǔ)架構(gòu)系統(tǒng),許多事件的參考信息可以很便捷地在網(wǎng)絡(luò)上查閱,有關(guān)特定事件的處理、特定的功能實(shí)現(xiàn)也有齊備的文檔參考,但這僅僅只能提高運(yùn)維人員處理特定問題的能力,卻無法在AD運(yùn)維的整體邏輯上提供保障。
實(shí)際上,我們?nèi)匀粫?huì)一遍又一遍的建議和幫助客戶建立起適用于企業(yè)的AD運(yùn)維管理規(guī)范,它們是圍繞AD的操作文檔、規(guī)章制度、流程管理、運(yùn)維工具和一系列運(yùn)維實(shí)踐,是這些要素共同服務(wù)于企業(yè)IT管理理念的產(chǎn)物。對(duì)于AD而言,健壯的“體魄”,而非“藥石”,能更好地避免“傷筋動(dòng)骨”。
04. 嘉為AD運(yùn)維服務(wù)
針對(duì)企業(yè)AD運(yùn)維,嘉為團(tuán)隊(duì)提供全面一站式的技術(shù)服務(wù),包括:AD及基礎(chǔ)架構(gòu)實(shí)施、AD域升級(jí)與架構(gòu)優(yōu)化、AD安全加固、AD HW服務(wù)等,助企業(yè)打造堅(jiān)如磐石的IT系統(tǒng),為企業(yè)信息系統(tǒng)保駕護(hù)航。
除此之外,嘉為還提供規(guī)劃咨詢服務(wù)、系統(tǒng)建設(shè)服務(wù)、二線專家服務(wù)、系統(tǒng)優(yōu)化服務(wù)、IT運(yùn)維整體外包服務(wù)、人員派駐等服務(wù),企業(yè)可以根據(jù)需求自由組合選擇使用的服務(wù)內(nèi)容和范圍。
05. 智能轉(zhuǎn)型——WeOps一體化運(yùn)維平臺(tái)
針對(duì)該科技公司AD域故障事件,嘉為團(tuán)隊(duì)后續(xù)推薦了WeOps一體化運(yùn)維平臺(tái),持續(xù)賦能,幫助企業(yè)運(yùn)維逐步邁向智能化。
嘉為藍(lán)鯨WeOps,是一款專注于保障企業(yè)業(yè)務(wù)連續(xù)性、支持國產(chǎn)化的一站式運(yùn)維平臺(tái),以故障定位和全生命周期管理為核心,融合聯(lián)動(dòng)資源中心、健康掃描、監(jiān)控告警、知識(shí)庫、數(shù)字大屏及自動(dòng)化運(yùn)維工具等多項(xiàng)功能。
有關(guān)企業(yè)AD運(yùn)維,WeOps平臺(tái)可從預(yù)防和監(jiān)控故障處理兩方面保駕護(hù)航:
1)預(yù)防
WeOps平臺(tái)可針對(duì)日常排查時(shí)發(fā)現(xiàn)的一系列隱患做到及時(shí)預(yù)防。案例中由于企業(yè)AD不規(guī)范導(dǎo)致系統(tǒng)存在沒有備份、沒有補(bǔ)丁安裝、網(wǎng)絡(luò)環(huán)境負(fù)載等隱患,而WeOPs平臺(tái)可通過作業(yè)平臺(tái)定時(shí)自動(dòng)備份、通過補(bǔ)丁安裝進(jìn)行定期安裝、通過平臺(tái)進(jìn)行網(wǎng)絡(luò)設(shè)備的自動(dòng)發(fā)現(xiàn),生成拓?fù)渫昝澜鉀Q上述問題。
2)監(jiān)控故障處理
WeOps平臺(tái)中的監(jiān)控告警系統(tǒng),可做到持續(xù)監(jiān)控,智能告警,提前發(fā)現(xiàn)問題,降低業(yè)務(wù)影響,一旦發(fā)生故障,可通過拓?fù)鋱D分析關(guān)聯(lián)影響,同時(shí)結(jié)合資產(chǎn)管理分析資產(chǎn)影響情況,最后采用自動(dòng)化工具快速解決故障,持續(xù)保障企業(yè)業(yè)務(wù)連續(xù)性。
嘉為藍(lán)鯨WeOps平臺(tái)滿足國產(chǎn)化兼容,支持在國產(chǎn)環(huán)境下的一站式運(yùn)維,自主可控,幫助用戶解決工具功能單一、眾多IT運(yùn)維對(duì)象管理難、自動(dòng)化程度低、信創(chuàng)生態(tài)產(chǎn)品兼容等問題,助力客戶安全落地一站式運(yùn)維場(chǎng)景。
「經(jīng)過與嘉為團(tuán)隊(duì)的協(xié)作,對(duì)其他站點(diǎn)的輔助域控制器進(jìn)行了替換,服務(wù)角色特逐步開始遷移,終于在員工上班前,所有角色完成了遷移并通過了功能驗(yàn)證。完成上述工作后,企業(yè)AD域的基本業(yè)務(wù)均已恢復(fù),AD域的可用性得到保障,所有人都松了一口氣。」
某科技公司近年來,面對(duì)全球新冠疫情危機(jī)以及嚴(yán)峻復(fù)雜的國內(nèi)外環(huán)境,傳統(tǒng)鋁型材制造業(yè)遭遇到了嚴(yán)峻挑戰(zhàn),但是作為南海區(qū)制造業(yè)頭部企業(yè),堅(jiān)美鋁業(yè)積極響應(yīng)《廣東省佛山市落實(shí)推動(dòng)制造業(yè)數(shù)字化智能化轉(zhuǎn)型發(fā)展》的政策號(hào)召,攻堅(jiān)克難,加大對(duì)升級(jí)建設(shè)自動(dòng)化生產(chǎn)基地的投入,擴(kuò)大產(chǎn)能,保持企業(yè)良好的增長(zhǎng)勢(shì)頭。
創(chuàng)立于1929年的周大福,是全球著名的珠寶集團(tuán),零售網(wǎng)絡(luò)遍及中國、日本、韓國、東南亞與美國。嘉為藍(lán)鯨WeOps平臺(tái)上線后,除了主機(jī)監(jiān)控,監(jiān)控范圍增加了操作系統(tǒng)、數(shù)據(jù)庫、中間件、虛擬化、云平臺(tái)、基礎(chǔ)應(yīng)用等維度,運(yùn)維人員可以主動(dòng)針對(duì)影響業(yè)務(wù)的關(guān)鍵指標(biāo)設(shè)置發(fā)現(xiàn)和解決問題的流程。
自新型冠狀病毒爆發(fā)以來,地產(chǎn)行業(yè)面臨前所未有的挑戰(zhàn),業(yè)務(wù)線上化已成為全面需求,某大型地產(chǎn)集團(tuán)積極做出業(yè)務(wù)調(diào)整,全面實(shí)施線上賣房。通過線上應(yīng)用服務(wù),客戶可以選擇在線上享受看房、推薦及認(rèn)購等一站式服務(wù),該大型集團(tuán)打破時(shí)間與空間的限制,為客戶提供安全且便捷的服務(wù)。
申請(qǐng)演示