2020年,你需要一个全网通用的网站平台

文安小程序分享什么是网站维护中的事后分析?

编辑:文安新城建站 关注: 时间:2019-12-06 11:58:14


温馨提示:专业网站建设、小程序制作、APP开发,尽在新城建站,详询 15544599750(手机、微信、QQ同号)

事后分析至少要包含这些内容:

1.事故描述。

2.根本原因描述。

3.事件是如何稳定或修复的。

4.用于解决事故的行动的时间表。

5.事故是如何影响客户的。

6.纠正或改正动作。

前5项让有关各方对事实有共同的了解。很多事故重复发生,就是因为人们不理解到底发生了什么,以及问题是如何修复的。不同团队以及不同层级的管理者聚集在一起进行事后分析时,对到底发生了什么的理解是不同的。事后分析时,与事故明显有关的人员都要同时到场,对事故的真实情况作出共同的描述。对真实情况没有确实的描述,就无法明确及正确地采取行动,而这应该是事后分析的最大用处。



确定根本原因应该是做,而不是说。但我却无法告诉你,有多少次这样的事后分析会,与会者花了大量的时间争论每一个可能的纠正项或者有多少客户受影响,只是觉得他们在浪费时间,因为根本就没搞清真正的根本原因。

对于稳定步骤也是如此。往往在一次重大事故故的混乱中,有多个人会试图进行多次修复。要确定真正的根本原因以及采取的步骤,在继续之前要使系统稳定下来。注意,事件也有可能不需要修复就可以稳定下来。像重启服务器以解决内存泄漏这样的事件,不需要修复的,但要消除对客户造成的影响。尽管可以稳定一段时间,但如果没有找到真正的根本原因的话,服务器很快就会又发生内存不够的问题了。

确定事故多久能够修复的时间表是很重要的。同样,每个人对时间表的理解也各不相同。在动手修复之前,让每个人都列出自己所了解的修复项,会减少修复时间(Timetoresolve-ttr)。要确保回答下面的问题:

● 事故什么时候开始影响客户的?(注:并非所有事故都对客户有影响)

● 公司中什么时候有人开始意识到发生问题了?

● 此人是如何意识到发生问题的?通过监控?客服团队?还是个人报告?

● 有关事故的情况到达最终解决问题的人,要花多长时间?

● 什么使得人们能够对错误进行早期诊断?(例如,更好的监控,能够被充分理解的排错指南,等等)

● 稳定步骤要花很长时间吗?能否将稳定步骤自动化,或者简化稳定步骤以加快速度?减少事故的TTR时间,就跟消除事故本身一样重要。最终,重要的是影响客户的总时间(TTRX受影响的客户数)。有些宕机是无法避免的,但假如能够保证快速恢复,则受益的还是客户。

在确定了客户所受影响之后,你可能需要对事件赋予一个严重级别。可以建立自己的严重程度的类别,或者使用这个例子:

严重级别1:网站宕机影响大批客户方。

严重级别2:网站降级运行、性能问题或很难应对的功能故障。

严重级别3:对客户影响不大或易于应对的其他服务问题。

对网站建设维护问题赋予严重级别,将帮助你按照轻重缓急来处理纠正项,而且对于活跃事件的评估也是有用的。在试图解决问题之前,可能已经对其赋予了一个严重级别,所以,就能够确定,当前事件是一个5级火警,从而需要全力以赴,还是仅仅是雷达上的一个小光点。

拓展阅读:

文安建站谈作为职业的Web运维,为什么Web运维如此艰难?

文安SEO谈想做好网站运维你必须具备三点

文安小程序开发分享网站什么地方适合云计算(以及为什么!)

文安建站公司分享网站运维如何从学徒到师傅?

文安小程序开发谈网站Web数据库需求一直在线支持

文安网站建设公司分享计算机网络安全的本质是什么?

文安小程序谈如何给测量数据加入报警机制?

文安建站分享是什么使网站变得很慢?

本文由新城建站整理发布,喜欢请收藏,转载请保留链接 文安小程序分享什么是网站维护中的事后分析?https://www.nccpu.net/langfang/wenan/8623.html

服务支持

我们珍惜您每一次在线询盘,有问必答,用专业的态度,贴心的服务。

让您真正感受到我们的与众不同!