携程宕机事件,尽显众生相。
这次我们不谈技术,只谈人性。
造谣
先是一波波跳出来瞎基八扯蛋的谣言,什么数据库被“物理”删除,什么总监睡了运维的女朋友,什么前员工离职报复……总之,这些一眼看上去就觉得不靠谱的信息,彰显造谣者的水平,基本是娱乐圈出来的。
传谣
不明真相的群众开始争相转发,喜大普奔。在枯燥的日子里,能有一个出名的网站歇菜的新闻来幸灾乐祸,真是好得不得了,况且前天晚上还有支付宝被挖断光纤的乐事,简直是好事成双。所以不管上面造的谣有多离谱,转发准没错,反正这两天我不需要在上面订酒店和机票。什么?流量转去收购的艺龙了?携程真狡猾啊!再去访问一下艺龙,也倒了啊,哈哈哈,太欢乐了!
猜测
等非技术流happy完,就轮到技术流上了。携程忙活了大半天还没有恢复,技术流已经按捺不住了,纷纷发表自己的看法,分析怎么会这么久,怎么会这么难,顺便宣传一下自己公司在这方面有多牛逼,收获一包脑残粉。其实他们说的都是靠猜,你猜我猜,反正没有确切信息,携程的人已经忙得要死,根本没人有空透露风声,有空也不敢。反正就是一个个自作聪明旁观者清的分析尸爬出屏幕,紧接着又是趁热打铁的个人和公司软广占高插旗,IT小蝌蚪就忙着刷屏学习膜拜。
自危
这时候,很多不懂IT的老板开始背后发凉,转头抓住他的CTO来问,要是我们的系统也遭此一劫,怎么破?顾命大臣开始安慰皇上:放心好了,我们也有数据备份,也有那个……那个要新上的监控和灾备方案的预算,老板你好像还没批啊,要是真遇上大劫,还真不好说…… 老板听完马上拍板同意,买买买!
官方
经过一天多的血汗与泪光,携程终于恢复过来,然后发个公告,“老实”交代原因,是员工错误操作,删除了生产机的执行代码。其实到这个时候,原因已经不是那么重要的事了,大家对这个“平淡”的原因也没有太大的兴奋,好像大家原本都知道似的。而且,官方发出的公告,一般都是PS过的,轻描淡写算好的了,扭曲事实会更普遍一些。
哑巴
在这么多噪声里,唯独没有这次事件真正的主角:运维狗。这不仅包括携程的运维,更包括千千万万每天在破电脑屏幕前埋头苦干的运维狗们。他们已经陷入了深深的沉思,几乎听不到外界的干扰。故事到底是怎样的,要是自己团队也遇到类似问题,会怎么应对。他们也知道自己难免会有敲错键盘的一天,或者已经错过好几次了。谁要是说自己干运维没出过糗事的,要么是神,要么是撒谎。干错事不要紧,重要的是如何去预防和应对,这才是考验一个运维团队是否路边水货的重要手段。那些只会制定更加严厉的惩罚制度,以及让基层员工背锅的,同时也出卖了他们的领导水平。
致敬
我们习惯于歌颂敬仰那些总设计师,首席架构师,却经常挖苦程序猿、码农。其实比码农更没存在感的是运维狗。很多人以为运维的工作不就是修服务器,换硬盘之类的活,基本没有技术含量,那就错了。如果开发是把0变成1的话,运维就是把1变成10,100,1000,10000000,直到无穷。他们的工作保障了你可以无时无刻上网,刷屏,网购,八卦,煲剧,打车,约X…… 难道这么多功劳的人,你不应该致以一万倍的敬意吗?