对于世纪互联而言,11月18日无疑是个黑色星期五。从周四下午5点左右开始,世纪互联天津塘沽运营商核心机房开始断电,对外公布的断电原因是大铲车意外将机房电缆挖断。之后,断电一直持续了16个小时以上,傲游浏览器、豌豆荚、新浪邮箱、爱词霸等多家企业的服务受到不同程度的影响,直到今天早上9点-11点,一些主要的服务才逐步恢复。
超过12个小时的电力中断,对于配备双路/三路市电、UPS和柴油发电机的标准机房而言,似乎是个不可想象的事情;根据业内人士分析,意外停电的情况,一般在3-5小时之内肯定能恢复电力了;这次事故与其说是电缆被挖断,倒更像是光缆被挖断所造成的。应该说,这次的事故是有疑点的,而这疑点由于世纪互联目前尚未公布具体的事故报告,暂时还无法了解细节,恐怕需要等待世纪互联将事故报告和赔偿方案提交给他们的客户之后,才会有一些详细的情况公布出来。
事故的处理目前已经暂告一段落,对于以上遭受波及的企业而言,在将服务恢复正常的同时,一方面要出事故报告,另一方面也有赔偿的事要协商(赔偿的方式和金额一般都在企业和IDC的服务条款当中,协议内容一般都是保密的,因此每家企业的情况都不一样)。对于其他企业的IT管理人员而言,如何在发生类似意外事故的时候尽可能的减少负面影响,才是我们最需要关注的事情。
为此,51CTO编辑联系了一位对IDC相当熟悉的业内人士cno,请他介绍了一下有关IDC的选择,以及紧急情况如何处理的一些问题。
如何选择IDC
根据cno的介绍,一般企业在选择机房的时候,大多数会考虑代理商,也可以直接租用电信、联通等运营商的机房。代理商的优势在于多线全国互联,价格一般也便宜一些;而直接接入运营商机房的好处则在与少了一层中间环节,出问题的概率较小,出问题后解决问题的效率也高。
对于规模较大、成本控制方面比较宽松的企业,技术部门在提方案的时候,一般只会考虑业界信誉好的几家IDC,根据服务器量和带宽的需求,一般需求高的都会获得一些优惠。另外,也会根据企业的其他应用进行调整,比如使用了蓝讯的CDN的企业,那么合理的方案则是将自己的源站放在蓝讯的IDC。
冗余灾备方面的考虑
冗余方案可以说是应对此类事故的唯一解决方案,不过出于成本的考虑,不少企业省下了这一步,其实是非常危险的。这次豌豆荚和新浪邮箱都没有遭遇完全的服务中断,而傲游和爱词霸的核心业务则彻底不能访问,正是由于这一点区别。
核心中心做冗余的费用较高,这样的话做一个备份节点也是可以的,不过别放在同一个机房,否则遇到今天这样的事故也是白搭。一般在北京的公司,备份节点放在廊坊的很多,因为费用较低。
发生了事故怎么办?
如果你之前做过冗余方案或异地备份,那么直接切换过去就是了,备份的情况切换要复杂一些,服务质量肯定会受到一些影响,但不会彻底死掉。要是之前什么灾备方案都没做的话,就只能干等了……是了,你可以在焦急的等待中考虑未来的灾备方案应该如何做。
最后,51CTO编辑还想补充的一点是,面对怨念冲天的用户,早点公开事故的原因,向用户道歉,并实时更新最新的进展情况,要远远胜过对用户不闻不问,抛下一条冷冰冰的、言语不详的通告。在服务中断或不稳定的时候,如何向用户作交代,让用户感到受重视,其实重要度并不亚于尽快恢复服务的工作。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
世纪互联与IBM联合宣布承载企业核心应用的“CMS企业云”正式上线
近日,世纪互联与IBM联合宣布基于IBM全球统一标准的企业级云平台“CMS (Cloud Managed Services云管理服务)企业云”在世纪互联正式上线。
-
公有云之上的企业选择
2013年12月18日,亚马逊宣布其云计算服务Amazon Web Services(AWS)即将进入中国市场,而IBM宣布与世纪互联展开合作,将“高价值”云服务带给中国的企业。
-
圣诞节亚马逊数据中心发生宕机事件
圣诞节平安夜,亚马逊AWS位于美国东部的数据中心发生故障,其弹性负载均衡服务中断,导致Netflix和Heroku受到影响。
-
杯具大盘点:2012下半年数据中心十大宕机事件
2012年下半年宕机事件也不少,最为典型的例子是云中断,下面又到了盘点这些层出不穷的“杯具”时间。