细致周到、安全合规是运维人员抵御系统风险的重要原则
细致者,认真也,一丝不苟地完成每一次操作和检查,不遗漏不轻视
周到者,全面也,多角度看待系统存在的风险和隐患,不盲目不狭隘
安全者,防护也,培养信息安全意识和安全攻防技能,不惧内不怕外
合规者,底线也,按照法律法规和公司规章制度操作,不违法不妄动
以通用的Web系统为例,系统所面临的风险主要服务不可用、数据不可用、内外部攻击等。服务不可用的原因包括应用服务器宕机、资源使用率过高、服务异常终止、服务请求过大等,数据不可用包括数据损坏、数据丢失、数据库服务器异常等,内外部攻击包括软硬件安全漏洞等。为了防范上述风险,有如下主要措施:
1.有备无患,做好预案。作为运维人员,首先要对所运维的系统有全面的认识,熟悉系统功能、软件架构、业务量、风险点等关键内容并在此基础上编写运维手册和应急处置方案,内容包括但不限于运维背景、系统介绍、巡检与监控、备份与恢复、安全配置与防护、应急处置、沟通机制等。
2.做好系统巡检和监控。按日或不定期地对应用服务器和数据库服务器的运行情况进行检测,检测内容包括磁盘/内存/CPU/网络带宽使用率、Web/FTP等服务可用性、业务请求量等。一旦发现异常情况,要及时通过资源扩容、服务重启等方式予以解决。
3.做好系统备份和恢复。对于业务应用程序包,要在每一次投产前进行备份并编码;对于业务数据,要通过全量或增量等方式进行备份。一旦发生程序包损坏或数据丢失,要启动恢复机制,及时回滚/替换应用或数据。
4.做好系统安全配置。应用系统无论是对外还是对内,只要存在就有安全隐患,因此要按照基线要求对服务器和软件进行安全配置,修复已知的安全漏洞,同时定期开展安全扫描,及时发现安全隐患。对于新发现的安全漏洞,要及时打补丁。除了外部安全隐患,内部安全隐患同样不能忽略,主要措施一是对运维终端进行安全加固,二是不出借运维终端及运维账号,三是定期开展运维账号审计。
5.按章操作,合规运维。作为运维人员,主要职责是保障系统的稳定运行,因此未经允许非经测试,不擅动生产系统和生产数据。对于生产数据的改动,要经过审批,记录在案,明确责任人和事由。
6.及时沟通,多方协作。对于巡检和监控中发现的问题,要及时反馈,按照处置流程与相关领导和技术人员进行沟通,协力处置系统风险事件,避免擅自行动、自行消化。
系统运维即是小事也是大事:小的时候天下宁静,一切均是常规动作,运维人员没有存在感;大的时候却能影响公司的正常经营,严重者导致巨大经济损失或公司倒闭,微M的删库事件还在眼前。
最后总结一句,风险不可消除,只能避免,而避免风险的主要原则就是细致周到、安全合规,但愿天下宁静。