TechTarget《预防数据中心宕机》系列专家答疑一共三部分,我们昨天讲了《预防数据中心系统宕机:做好计划是关键》,本文是该系列答疑的第二部分,第三部分请看《预防数据中心系统宕机:请把IT人员当人看!》。 我分析那些著名的宕机事故时,发现系统中有一种古怪的模式,能导致它们试图自动自我修复时发生故障,例如亚马逊的云计算中心宕机事故。在这些事故中,系统某些部分瘫痪,然后云试图发挥自我修复能力,却驱使过度,结果系统出故障了。我还发现了一点,在你的网络中,节点和活动部分越多,越容易发生问题。
因为虚拟化、云计算和其他IT设备的发展,IT需要管理越来越多的设备。即使故障比率一样,一旦发生故障,波及到……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
TechTarget《预防数据中心宕机》系列专家答疑一共三部分,我们昨天讲了《预防数据中心系统宕机:做好计划是关键》,本文是该系列答疑的第二部分,第三部分请看《预防数据中心系统宕机:请把IT人员当人看!》。
我分析那些著名的宕机事故时,发现系统中有一种古怪的模式,能导致它们试图自动自我修复时发生故障,例如亚马逊的云计算中心宕机事故。在这些事故中,系统某些部分瘫痪,然后云试图发挥自我修复能力,却驱使过度,结果系统出故障了。我还发现了一点,在你的网络中,节点和活动部分越多,越容易发生问题。因为虚拟化、云计算和其他IT设备的发展,IT需要管理越来越多的设备。即使故障比率一样,一旦发生故障,波及到的设备会更多。
在某种程度上,宕机问题缘于缺乏计划,但这样说也有失公允。在进程变得缓慢而且成本高昂前,你没有太多时间计划。像NASA这样的大型组织可以花大量时间金钱来保证正常运行(就算这样它们也会不时出错),其他组织可没这么幸运。有一个坚如磐石的IT系统是奢侈的,大多数公司并不打算给IT足够的预算。
在某种程度上,宕机对于那些“超级IT侠”来说是令人兴奋的,可以把这种事类比成英雄漫画:系统因为某种诡异的原因宕机了,无人可解,只有一个“The One”能够拯救公司!不管是程序员还是管理员,都会因为能够为系统进行良好的故障检修而受到嘉奖。毕竟,如果系统从来都不出问题的话,IT人员就没什么事干了,所以事实上IT设备的问题保住了很多人的饭碗。
当然,如果IT服务不断地出问题,IT人员自然要接受惩罚,要不挨骂,要不降薪或者解雇,他们自己也会丧失信心。但是,只有出现问题,才能学会应对问题。从宕机中,我们能学到很多东西。必须要避免的是:杜绝那些只知道应付过去的错误,却不知道考虑将来问题的方针政策。如果你去看一下IT以外行业的政策,你会发现无数错误已经被证实了——就像机场安全一样。
宕机首先会影响客户的满意度,不管是对于企业内部,还是对于外部客户。IT部门试图在内部向企业证明他们的力量,当时宕机却证明了企业的真实想法:IT就是烧钱的。过去几年,Google、亚马逊、Facebook等等,都成为了文化的一部分,我们已经见识到了IT在社会生活中,已经成为了人们的重要满意来源。
每次内部的IT设备坏了,企业都想知道IT部门出了什么问题。他们会想:“这难道有多难吗?”此时他们却忘了,那些自认为简单的定制和不合理要求都是谁丢给IT的。
外部客户对于宕机会更加火大。他们有很多备用选项,这样等于给他们更多取消服务的借口,量化资产负债表就变得麻烦了。假如你是客户,你每个月付钱,也没什么所谓的“客户忠诚度”,因为没有更好的选项才选择了他们。一旦他们的IT服务出了问题,你就不能很快得到自己想要的,你生气了,于是想要换别的服务商。大多数企业没法让客户产生忠诚,一旦宕机,就很难保住客户。
测试是减少宕机的方法之一,我喜欢Netflix的Chaos Monkey方法——运行系统时,随机破坏其中一部分组件。这种方法看起来极端,但是可以有效提高测试和应对故障的能力。我们还没办法重建系统,但是这种方法还是很吸引人的。
作者
翻译
相关推荐
-
迁移云端,关于容量规划、灾难恢复你都想好了吗?
在将工作负载迁移到云端之前,管理员通常需要解决大量相关的问题,包括从软件即服务应用程序到灾难恢复以及容量规划
-
IT业务连续性规划:托管方式与云端有何不同?
为了避免启用灾难恢复安全网络,应为数据中心构建IT业务连续性规划。然而在开始之前,我们要先权衡一下使用托管与云端两种方式的利弊……
-
数据中心灾难恢复报告:六大隐患点你中枪了吗
在这份灾难恢复报告中指出了一些导致大灾难的故障点,并说明如何做出正确的决定才能使数据中心正常运行。
-
2016年IT目标:DevOps及自动化
新的一年意味着一次机遇,许多IT专业人士也都怀着紧张的情绪期盼2016年在灾难恢复、DevOps以及其他项目在速度上会有所提升。