我们考虑到了最坏的情况,为此建立了数据中心应急预案,打造了冗余系统,还进行了实战演习。幸运的是这样的极端情况从未发生过。未雨绸缪总是好的,比如去年美国的桑迪飓风边是让人警醒的案例。
桑迪于2012年10月在新泽西州登陆,大风和风暴潮相结合所带来的破坏性影响及损害非常严重,沿海社区的居民们到现在都还没缓和过来。数据中心行业也同样,飓风所带来的巨大冲击,在经过了好几个月后仍然无法平息。最近在纽约举办的数据中心讨论会上,桑迪飓风仍然是焦点话题。
很多讨论都是从此次飓风对个人产生的影响开始,然后不可避免地转向了工作方面。当水位开始上升时,企业的哪些设备还能正常运转,哪些不行了。而那些专为偶然发生的突发事件所准备的应急预案,在现实中却被用来应对自然灾害。
从中固然有很多成功的经验值的讨论,但更有很多关于那些没有发挥作用的教训值得我们总结。可以说,桑迪飓风为我们提供了难得的机会,来检验我们的应急预案,把我们带入到一个活生生的实验室进行实打实的测试,这将帮助我们更好地准备未来最坏的情况的发生。本文将概述三方面的关键经验教训。这些经验教训都是此次桑迪飓风的洪水退去过后,与资深的专业数据中心人士们的交流与沟通中学到的。
您企业的燃料供应链是否准备好了?
与梅尔•吉布森《疯狂的麦克斯》电影中所讲的一样,我们从桑迪飓风中所学到的最大教训之一便是:在发生危机时,汽油最为稀缺、而且消耗得最快。数据中心灾难计划把备用发电机作为重中之重,这样所带来的结果便是:当燃料被耗尽之前,所有的工程项目和技术、系统都可以表现得很好,直到柴油燃料被悲剧般地耗尽了……而没有了燃料,发电机根本不能发挥任何作用。通过此次飓风灾害,我们发现许多企业并没对燃料供应链有足够的关注。
在飓风灾害发生之后,天然气供应短缺会持续相当长的一段时间,这无疑会造成许多设施停顿问题。即使企业能够获得燃料供应商的支持,他们也要防止在需要的时候遭遇灾害事故引起的交通瘫痪问题。届时,就算他们可以购买到燃料,而受制于运送路线的障碍,他们所急需的燃料也无法到手。这是我们这个行业亟待解决的一个重要问题,这些问题可能会在其他情况下发生,如地震、飓风、龙卷风造成的重大民用基础设施损害。而我们从桑迪飓风中所汲取到的一个关键的教训便是,我们作为一个行业需要在燃料的供应链冗余、地理和备用运输路线方面投入更多的关注。
您企业的合约细则是什么?
在桑迪飓风过后,很多公司发现了一个在数据中心的合同中经常被忽视的部分:“不可抗力因素”条款。这更通俗地说,可以被称为“天灾”条款。这在客户的合同条款中给了数据中心操作员一个如果事情超出了他们的控制,使他们无法履行义务的借口。但一些数据中心公司了解到,他们的客户合同中存在着一些薄弱环节或者并不存在不可抗力因素的条款,却也没有很好地保护他们。
另一方面,作为数据中心的客户,当发生的天灾影响到他们的业务时,哀叹合同中规定了不可抗力因素条款。没有人曾想过这些不可抗力因素的情况将会发生,所以这样的条款常常只是作为一种标准合同语言,而被忽视掉。桑迪飓风告诉我们的经验是:这一条款要在合同谈判双方在着眼于长远的未来的情况下签订,以便数据中心服务供应商和客户双方充分理解该合同的语言,感受自身在发生自然灾害情况下的受保护程度。
您的企业是否制定了人员安置计划,而不仅仅只是保证数据中心的技术周全?
企业的数据中心应急预案往往首先注重系统和技术问题,但他们往往缺乏足够的先见之明,预见到在发生诸如桑迪飓风这样的灾害天气时企业人员的安全问题。由于桑迪的损害范围广,企业不能只专注于技术方面。他们还需要能够支持企业运转的员工,他们试图在工作中履行自己的职责的同时,飓风同样会对他们的家园及其家人造成影响。
应急计划的制定,往往就是为了让企业的员工在发生紧急事件时保持良好的心态,以便知道自己应该采取怎样的应对措施。其往往假设员工在需要的时候,并不会分散注意力,就像是普通的一天一样工作。但现实情况是,像桑迪这样的风暴只会让员工奋力想着自身的安全,同时还要兼顾他们的工作职责。现实是应急预案必须做到一个更好的预测和响应工作。此外,还有许多关于企业员工安置的非常现实的问题,企业也需要提前做好准备:风暴会使得员工长时间被困在工作岗位,新员工也无法来上班,主要负责人找不到,迫使人们在工作场所睡觉,导致解决员工的食宿也成为困难等等。许多企业建立了专项应急预案以解决员工们的需求,其中包括交通、安排饮食、休息等。
不同于数据中心的冗余设备唯一目的便是致力于保护数据中心的故障转移功能,人的因素要复杂得多。冗余问题固然是必需的,这样不会造成单一某一个人成为企业操作的关键,但是当受灾地区是指家里时,事前安排N+1个人可能也是不够的。像发生桑迪这样的灾难时,更广泛的交叉培训的价值就变得格外清晰了,这将帮助数据中心解决很大的难题。
本文并不是关于桑迪飓风最为权威的教训讨论,但希望能够在此起到抛砖引玉的作用,以便全行业能够展开广泛的关于我们的行业接下来将要面临的形势要求我们应该落实怎样的应急计划的讨论。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
看IBM数据科学团队如何助力企业用户AI项目
在下面的Q&A中,IBM公司的Seth Dobrin探讨了如何提高企业用户对机器学习和AI项目的兴趣, […]
-
DR基础知识:灾难恢复计划和灾难恢复策略
IT灾难恢复(DR)计划的主要目标是制定详细的恢复计划,以在意外中断时执行。 这种计划应该列明详细步骤,说明在 […]
-
为超融合架构选择合适的数据中心冷却系统
超融合基础架构会给新的数据中心冷却方面带来一些新的挑战,在选择和实施之前,我们来看看哪些温度和冷却单元的效率是最好的……
-
IDC Directions 2017:值得期待的智能数据中心技术
智能技术能够让数据中心变得更为自动化、简单,不过企业需要为其实施做好准备,了解如何从旧的设备平稳过渡至智能的数据中心。