昨日晚间,中国地震台网正式测定,四川阿坝州九寨沟县发生7级地震,中国地震局启动I级应急响应,派出现场工作队赶赴震区开展应急处置工作,武警部队、应急人员和医疗队也已经在第一时间投入抢险救援。
让我们一起为九寨沟地震遇难人员祈福……
说到地震,又想起了不久前苹果公司在贵州建立数据中心的事件。我们都知道,云厂商对于数据中心的选址考察,主要有六个方面,其中处于首要地位的便是其地理位置。
诚然其他的因素比如说自然环境、社会资源、能源条件等等都不容忽视,但是不怕一万就怕万一,地震、台风、洪水等自然灾害对于数据中心的影响往往是毁灭性的。
地震可以给数据中心带来断电、机房、机柜坍塌、线缆损坏、数据丢失等诸多问题,其中设备损坏等有形的损失可以弥补,而宝贵的数据丢失造成的损失则是无法计算的。
我们来细数一下这些年数据中心可能受到的伤害:
洪灾
2009年9月9日,土耳其伊斯坦布尔遭遇暴雨并引发了洪水。疯狂肆虐的洪水淹没了该市Ikitelli区的大部分地段,也淹没位于该区的Vodafone数据中心。
还有2010年澳大利亚的Datacom网络中心,当时的大暴雨将Datacom主机代管中心的天花板冲毁,使得服务器、存储和网络设备都遭损坏。
2008年Hunt Valley数据中心也曾遭遇了“有惊无险”的侵袭。当时洗手间的一根管道爆裂并涌出大量的水。好在该中心的服务器机柜设计较为合理,离地间距为4英寸(1英寸=0.0254米),而且管理人员在午休回来后及时发现并处理了该险情。
从中我们不难发现,为了避免洪灾对数据中心带来的潜在危害,我们应该对数据中心的选址、海拔、机柜离地间距甚至是整个数据中心建筑物的设计,都需要有一个充分的科学论证,以防后患。
火灾
俗话说“大火无情”,一旦出现火灾事故,后果不堪设想。也正是如此,数据中心往往都备有消防装备。
2008年3月19日,美国威斯康辛数据中心被火烧得一塌糊涂,该数据中心耗时十天才得以完全恢复过来,足以说明该数据中心在当时并没有完备的备份计划。
同样还遭遇火灾影响的数据中心,有来自莫斯科的ISP服务器机房。该数据中心起火原因是墙壁上的电闸开关短路而导致的,然而值得称赞的是,尽管如此,该机房并没有中断电力。因为他们部署了UPS系统,这一点对于其他数据中心的设计和建筑来说都极具参考意义。
2009年7月,位于西雅图的Fisher Plaza数据中心的变压器起火引发火灾。此次火灾影响甚大,造成了包括微软Bing Travel、Authorize.net、Redfin、Big Fish Games、Survey Analytics等网站服务器的中断运行,这次事故在同一时间段引发了很多其他数据中心的宕机。
从此次灾难中,我们应该学会在选择数据中心服务商的时候,应该了解事故发生后网站需要多长时间从宕机中恢复过来。如果答案在几天甚至几周,那么可以考虑选择其他更值得信赖的服务商。
另外,我们也特别需要有完整灾备计划的事后措施,在数据中心场地和周边,务必有科学合理的消防设备和设计方案,数据中心的各个角落应该有尽可能多的消防器材。(在不影响通行和通风散热的情况下。)
网络/电力中断
光纤网络在很多偏远地区并不常见,如果路由器、交换机出现宕机或者人为误操作(误配置)导致网络中断,后果同样不堪设想。没有网络的数据中心宛如一座孤岛——对于提供 网络或者云服务的数据中心来尤其如此。
相比网络中断,电力中断带来的麻烦更大,没有电力的数据中心就如同一堆废铁。
地震
说到地震,就不能不提到日本。日本处于地震多发地带,往往还有台风和海啸。
2011年3月11日,日本遭受了9级大地震,在此次地震中,日本东京的IBM数据中心受损严重。包括很多大型机和传统服务器受损,服务器机柜东倒西歪,金属外框也出现了变形,甚至有些大型机的线缆都暴露在外。
不过,由于IBM数据中心线缆长度和松紧度的合理设计,而且,作为自动触发进行错误检查的一项预防措施,IBM存储单元也同样保持正常运行。在此次地震中的IBM服务器还能正常运行。
由此可见,身处地震带或者地震频发周边的数据中心尤其要注意在防震方面的设计和构建。
除了以上灾害,另外,数据泄露、系统崩溃、网络攻击、人为失误和冗余出错,都会给数据中心的正常运营带来巨大危害。
数据中心灾备计划
诚然,我们在对数据中心进行选址的时候,会考虑到很多因素,数据中心也往往不会建立在地震多发地带,但是,我们不能因为地震发生的概率低,那么就忽视这种风险的存在,必须要部署一些应对之策。
这样,即使发生诸如地震、水灾、雷击、火灾、机器故障这些偶然事件,也必须具备很高的安全可靠性以保证业务不会停止。为了提高数据中心的安全可靠性,有必要建立完善的数据中心灾备计划。
我国内陆大部分地区位于地震烈度6度以上区域(见图1),50%的国土面积位于7度以上的地震高烈度区域,包括23个省会城市和2/3的百万人口以上的大城市。防震减灾是国家公共安全的重要组成部分。
即使选择在平原地区,历史上从未发生过大型地震的地方,也不能保证未来就一定不会发生大地震,防震的相应工作也要展开。
防震的资金投入无疑会增加数据中心的运营成本,对数据中心来说不是一件好事。所以数据中心的防震工作要做到什么程度,和数据中心的业务重要性,数据中心的资金实力,数据中心技术等都有很大关系,这是一个矛与盾的选择过程。
很多时候,数据中心在防震方面投入了很多,却一直也没有遇到地震。也有的数据中心基本没有投入,却又遇到了地震,有时真的要靠点运气才行。在数据中心防震方面,投不投,投入多少也一直是数据中心内部争议的话题,这已经成为了数据中心最为头疼的话题之一。
灾备计划其实应该包括软硬件层面。软件层面包括人为的风险评估、定期审查、软件系统的相互依存和备份。硬件层面包括硬件冗余、UPS、数据备份、异地灾备等等。
地震的破坏力主要表现就是对建筑物进行左右、前后的晃动。现在的建筑物都要求能够抗8级地震,数据中心的建筑也不例外。为了避免数据中心内部的设备被晃到了地上,从机架跌落,往往会将设备固定在机架上,然后再将机架固定在机房地板上。设备随着机房的地板而晃动,即使设备不发生跌落,也会由于频繁的震荡而导致设备损坏。
数据中心也有很多的减震技术,主要有:升降防震地台、地震滑行器、内地板防震支架,还有防爆墙及安全缓冲区、防震机柜等等。
为了预防地震,数据中心不是部署了各种防震工具就可以高枕无忧了,理论上依然存在发生地震对设备造成损伤的可能性。最好的方式就是建设双活数据中心,或者部署多活数据中心,这些双活的数据中心需要建在不同的地理位置上,一旦一个地方发生故障,业务可以及时切换到正常的数据中心上。
当然,建设多个数据中心,将大大增加了数据中心的运营成本,但只有这种方式可以完全避免地震给数据中心从设备到数据的全面伤害。究竟是采用双活/多活,还是选择部署防震器,都是希望用最小的代价换来数据中心的长治久安,一个数据中心究竟应该在防震上投入多少,要结合自己的资金实力,业务重要性和机房实际防震情况,综合评估出结果。
结束语
地震给或是其他自然灾害我们带来的灾害是无法避免的,所以我们更加应该反思如何才能采取更多更有效的措施来防止或者说减小它们带来的损失。
无论是政府还是数据中心的管理者都应该及时做好工程的防震设防、加强地震的知识培训以及提出更多、更有效的机房设备防震解决方案,只有这样才能更好的保护数据中心设备的安全,以及减少灾难给企业造成的无法估计的损失。