专家答疑:数据中心系统宕机的成因与代价(一)

日期: 2011-07-28 作者:Robert Macfarlane翻译:王启 来源:TechTarget中国

IT管理者痛恨系统宕机,残酷的现实却告诉我们:哪怕最佳的计划和准备也无法彻底避免宕机,同时最小的疏忽也会像滚雪球一样越滚越大,直到无法控制。因此我们请到了几名Advisory Board的专家,对数据中心宕机的成因,以及对人员工作状态的影响和带来的IT花费进行解读。   Robert McFarlane是Shen Milsom Wilke Inc的总裁,同时也是数据中心设计专家。   权威研究已经表明大约75%的宕机是由人为引起。

但是说到这些人为错误的根本原因,人们很容易把责任推给“训练不足”,但是训练再好,人也会出错,比如在赶工导致注意不足,或者身心疲惫无法全力工作,甚至可能是为了偷懒,对细……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

IT管理者痛恨系统宕机,残酷的现实却告诉我们:哪怕最佳的计划和准备也无法彻底避免宕机,同时最小的疏忽也会像滚雪球一样越滚越大,直到无法控制。因此我们请到了几名Advisory Board的专家,对数据中心宕机的成因,以及对人员工作状态的影响和带来的IT花费进行解读。

  Robert McFarlane是Shen Milsom Wilke Inc的总裁,同时也是数据中心设计专家。

  权威研究已经表明大约75%的宕机是由人为引起。但是说到这些人为错误的根本原因,人们很容易把责任推给“训练不足”,但是训练再好,人也会出错,比如在赶工导致注意不足,或者身心疲惫无法全力工作,甚至可能是为了偷懒,对细节问题产生侥幸心理。我总是偏向于“计划不足”这个理由。这一直是我在讨论何种原因导致人为错误时的常用说法,因为它们在布局上不合理,标记上蹩脚,注定了会让一些可怜的IT人员掉进“陷阱”。而这些问题,如果在计划时就做好了,根本不会发生。

  例如,现在几乎什么东西都是“双接线”,把两个可能来自于不同电力中心的插口接在一起。电工把事情交托给他们的设备,在仪表板A上把插口连接到断路器7,然后在仪表板B上把其他插口连接到断路器16。另外,他们还可能把电路标签放在机柜里面的插座上,这导致标签几乎没法看,或者把能识别的信息都放在仪表板清单上,以至于无法和机柜对上号。这一切,都导致不同机柜里的电路过于容易被人切断,或者无法关掉想关的机柜。

  这导致工作状态被系统宕机严重影响,因为IT人总是害怕错误。小错误烦心,大错误足以让整个团队丧失信心。毕竟,人们期望系统能够好好运转,就像能量、石油、水源一样安安稳稳,即使出错了也能够很快恢复。但是IT人员清楚故障会给业务带来什么后果,这甚至会影响到人的生命安全,结果是事故起因将会被调查清除,可能会被公开化,导致丢掉饭碗。于是IT人员每天都得面对预防宕机的压力,但是在灾难恢复的压力也是无比庞大的。如果你问我有多少数据中心是正常上下班的,我可以告诉你我只见过一个。

  系统宕机最容易忽视的后果是公司形象。它通常被其业务所决定,但是对于一部分公司,毁掉他们形象的可能不只是经济相关的东西。另外一个后果是客户流失,想象一下某个厂商提供的自动化产业突然因为数据中心宕机,导致运货系统中断运转。在想象一下某个汽车公司,平时依靠准时制进行运输,一旦延误就马上调整到第二货源。如果发生了故障,顾客可能永远不会再来。

  减轻宕机率不是件容易的事。IT行业压力大,可能今天这里安装了一个服务器,明天又有一个应用被移走,所以很少有时间和资源来仔细操作或严格记录IT资产。所以有时候,你得站在管理层面前义正言辞地说:“这时间安排不现实,真按这样来,我们就是在给故障大亮绿灯。”对于计划和实施步骤,一定要有相应的规定和守则,以上说到的都要有所涉及。人都会犯错误,但我们不能把IT部门扔进满是错误陷阱的局面,等宕机发生了才大吃一惊。

  相关阅读:

  专家答疑:数据中心系统宕机的成因与代价(二)

  专家答疑:数据中心系统宕机的成因与代价(三)

  专家答疑:数据中心系统宕机的成因与代价(四)

翻译

王启
王启

相关推荐