虽说IT运维无小事,一件小事处理不好、处理不及时就可能引发大问题,但是运维确实也有不少琐事,常说的脏活、累活。如果对这些琐事不加以管理,有技巧的去处理,那很有可能被这些琐事淹没。长期处理琐事造成工作重点不突出,绩效差,个人能力无提升,长期下去消耗掉工作激情。
有哪些琐事
如何处理维护中的琐事,首先要知道哪些工作是琐事,常见的有:
1、答复用户问题
2、例行维护,包括清理磁盘空间、监控系统状况等
3、处理常见告警
4、统计业务数据
5、日报、周报
6、定位常见问题
总结来看有下面两个特征:
1)耗费时间不多
2)重复性工作
除有计划的例行维护和总结汇报,很多琐事是突发性的,特别是常见告警的处理、用户问题答复,这些可能随时随地发生,打乱手上正在处理的工作,导致工作上下文切换,无法专注手头事情,影响工作效率。
如何应对琐事
**1、组织层面 **
常见的琐事消耗着个人工作激情,影响个人绩效,也影响到组织的绩效。所以应对琐事不仅仅是运维人员个人的事情,也是组织管理者应该关注的事情。
值班制度
制定合理的值班制度,每日有专人负责处理突发的问题,避免突发性的重复工作不断打扰每个成员。google 运维有on-call制度,每月会安排专人负责on-call值班,处理紧急突发问题,这样一个人可能一年只会有1~2月轮值到处理紧急突发问题,其他时间可以专注于优化运维的项目性工作。细节可以阅读《SRE google运维解密》。
自动化
运维自动化是运维人员一直追求的目标,自动化水平高低也反映一个公司IT运维的成熟度,初级阶段的运维很多工作需要人工处理,处于“人肉运维”阶段;中级阶段很多工作可以有脚本或者程序来完成,但是还需要人工去执行,处于“机器运维”阶段;高级阶段整个运维系统有充分的监控感知,有智能中心根据感知的数据自行判断执行自动化脚本和程序,处于“智能运维”阶段。
在三阶段运维中,最后的智能运维要求最高、实现最难,但是很多组织完全可以通过努力实现第二阶段的运维。将日常重复的,需要人工处理的工作,逐步的用自动化脚本或者程序来实现。做到这个也有些前提:
1、安排好值班制度,让一部分人力投入到运维自动化开发工作中;
2、选择运维人才不能仅仅会linux命令、会sql语句,而要招聘部分有开发背景的人才,运维自动化的开发必须依靠运维人员自己才能做好。
经验总结
运维工作很多时间要应对电话或者工单的咨询、申诉。很多问题是重复的,定期对处理经验梳理、总结、共享,可以节约很多重复性工作。手段包括定期召集相关人员开会总结、交流;借助wiki等知识分享工具方便内部成员查询、学习;将常见问题汇总成FAQ或者指导手册分享给用户,减少用户重复咨询。
** 2、个人层面 **
时间管理
因为日常琐事比较多,从事运维工作更需要学习时间管理方法。每天对要处理的工作列出清单,按照重要性和紧急程度进行分类处理,重要非紧急问题重点处理。
学会总结
拿处理用户反馈问题的工作举例,有两位处理QQ、微信群问题咨询的A和B,两人每天都认认真真的答复着群里的问题,对于重复咨询的问题,A每次都手写答复,B将常见的问题专门做整理,将答复内容事先整理好,到时只需要copy&post一下,并且B对发现的问题每日进行汇总,如果是BUG需要研发通过版本解决的,会将问题提出BUG,做好跟踪,了解解决进展。B虽然每天多花了一点时间整理,但是长期来看B的工作效率,工作绩效远远超过A。
另外,运维自动化也需要运维人员在日常工作中对重复性工作进行整理、总结、抽象,才能更好实现自动化运维体系。
当整天忙的喝水时间都没有,又觉得没做什么事情的时候就需要静下来想一想,我们忙的是不是琐事,如何应对这些琐事,否则长期来看工作只是重复,毫无经验积累可言,只能是消耗掉我们的工作激情,个人能力难以得到提升。