亚马逊位于弗吉尼亚地区的数据中心六月末发生了一起断电事件,影响到了其Web服务,包括Pinterest、Netflix还有Instagram,官方在表示这次事故主要是因为发电机故障。
这是本地区六月发生的第二起因为发电机引起的事故。
North American Access Technologies的CTO Julius Neudorfer认为即使大部分情况是因为发电机,但是问题在不同数据中心具体不同。但是这些故障都意味着后备系统没有在故障模式中测试。
“显然他们没有从每个问题中寻找教训,似乎他们通常只是测试运行的设备,而没有注意测试的时候关注故障那一方面。”
亚马逊的AWS Service Event报告申明在6月29的电力风暴中,亚马逊东区十个数据中心中的两个被迫转移发电机电力。
其中一个数据中心故障转移没有成功,因为“每个发电机都发生了各自的故障,导致无法提供稳定电压。结果发电机不能承担负载(报告中的描述)”。因此服务器开始运行UPS。
亚马逊在稳定初级和后备的发电机,ups系统耗尽,服务器在晚上8:04开始失去电力。十分钟后后备发电机稳定了,UPS也重起了,这时能源又开始存储下来。整个设备在8:24电力回到正轨。
但是断电还没结束,EC2灾难恢复步骤中的瓶颈和Elastic Load Balancer控制仪表的故障使得部分受影响的客户无法上线,直到11:15至12点。
本月14日的故障首要原因是线缆问题,但是某个后备发电机的风扇也坏了。而这次故障中,第二个后备电源也坏了。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
翻译
相关推荐
-
圣诞节亚马逊数据中心发生宕机事件
圣诞节平安夜,亚马逊AWS位于美国东部的数据中心发生故障,其弹性负载均衡服务中断,导致Netflix和Heroku受到影响。
-
杯具大盘点:2012下半年数据中心十大宕机事件
2012年下半年宕机事件也不少,最为典型的例子是云中断,下面又到了盘点这些层出不穷的“杯具”时间。
-
小型云托管企业或将成为云市场炮灰?
如果小型数据中心托管公司不将资源整合起来的话,它们将失去价值600亿美元的市场。如果数据中心托管商错失云计算托管市场的机会,它们可能只能支持3年。
-
2012年云计算数据中心的九个杯具
尽管投入各种高新复杂技术,尽管投入海量巨资,云计算还是显得有些脆弱,在过去的几年里不乏动辄就宕机数小时的事件,甚至有的长达一天或数天,并导致数据丢失。