一千零一夜 第一夜
大家好,我是PA集团的运维总监,管理着规模不大的IT组,努力保证各种系统稳定运行,PA公司是位于北京西二旗的一家IT公司,主要服务于保险公司,基本已经覆盖了国内百分之80以上市场份额。即使是在不被重视的IT部门,我也想打下自己的一片天地。今夜是无眠的第一夜,欢迎到来。
现在是凌晨三点钟,欢快动感的歌曲从手机中倾泻而去,IT有句话如果你想毁掉一首歌就把它设置成告警音乐吧。监控系统就开始疯狂告警,内部机房温度过高,看IT群,已经有同事赶去现场了,我也赶紧起床奔去公司。科比说:你知道凌晨四点的洛杉矶是什么样子吗?不好意思,北京的夜晚基本无眠。
来到公司,几个同事已经在处理故障了,现在机房温度已经达到了35度,在冬天有这个温度确实让人感觉温暖,但是如果出现在了机房这种地方,一切就显得不那么美好了。
为了保证温度不在升高,我们关闭了一些不重要的业务和服务器。“谢天谢地”,我心里这样想。去年也出现过类似的问题,当天早上起来,电话就疯狂的响。各种业务部门反馈说系统不可用了,而我并未收到任何告警,(很遗憾当时我们的告警系统,就安装在内部机房服务器的某个虚拟机上。)来到公司打开机房问,发现温度已经热的不行了,还是空调制冷损坏,这次故障好死不死的让核心数据库服务器造成了损坏。多个内部业务没了数据库还玩个毛线,虽然进行了紧急恢复,但是业务还是中断了2个小时。
后期分析此次事件,空调制冷应该是凌晨3点出现了问题,导致内部机房温度过过高,但是当时的告警根本就没有记录服务器硬件设备的温度,在3个小时后,温度已经到达极限,造成服务器硬件设备损坏。当天一共由于温度过高造成了8台服务器宕机和两台设备损坏,当然影响最大的还是这台数据库。
为了杜绝此类事件,我们进行各种监控温度的测试,(也许你会问为什么不从根本解决空调的问题,很遗憾解决空调问题成本较高,这个成本是时间成本、业务成本、金钱成本、人力成本等等的,总之就是现在公司情况并不适合更换空调,当然空调问题我们也做了规划。)OK继续监控问题经过各种服务器硬件测试和网络设备硬件测试,也考虑通过树莓派自己写一个硬件监控设备来进行监控,经过各种方案的测试,最终我们用50块钱搞定了,买了两个小米家庭温湿度监控小设备,机房的各个角落放了一个,每个人手机开个APP实时告警实时查看(PS后来我们家也买了两个,还买了个烟感效果同样很好。)温度监控的问题就这样搞定了,当然这只是个临时解决办法,但这确实起到了实际作用。今天出现类似问题的时候,我们第一时间接收到了警报赶往现场处理,未造成实际业务影响,这对于我们来说已经谢天谢地了。处理完所有问题已经接近凌晨5点了,也许你会说这种接近方式是不是太low了,我们公司用的某某监控,我们有NOC我们基础施舍很稳定,但是我想说,每个公司的IT环境都有各种各样的问题,所以需要我们灵活的去处理所有的挑战,不要让一个坑绊倒我们两次。
在公司门口早点摊服务员熟悉的目光中,我们该吃早点吃早点,该回家睡觉回家睡觉。而我忙碌的一天又开始了。
第一夜结束。
我是EC君,如果你喜欢我的文章,请帮忙点个关注!点个喜欢吧!
也可以点击作者信息,扫描微信二维码关注我的个人微信公众号。
你的鼓励将是我们共同进步的源泉。