深入研究机房电力设计产生的单点故障

日期: 2011-12-11 作者:Robert McFarlane翻译:孙少忆 来源:TechTarget中国 英文

冗余和在线时间在IT行业里实际上表达同样意思。在新建或翻修过的数据中心里,很难想象没有冗余系统或是元件。常见的有多个冗余电源支持的“双核”服务器和网络交换机。数据中心基础设施通常包括冗余空调、不间断电源(UPS)系统、发电机,甚至包括冗余应用补给以支持某台可靠设备。

本文将向大家提示隐藏在数据中心电力设计中的一些单点故障缺陷,并告诉大家如何补救或避免这些问题。   冗余是否会消除故障呢?当然不会!它会大大降低故障机率,但是决不要认为所需做的就是买两个完全相同的元件。在很多情况下,一套系统在设计和安装之前并没有对整个处理链进行过全面分析。这就意味着,所有者在附加的电源和冷却设备上进行了大额投资,但……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

冗余和在线时间在IT行业里实际上表达同样意思。在新建或翻修过的数据中心里,很难想象没有冗余系统或是元件。常见的有多个冗余电源支持的“双核”服务器和网络交换机。数据中心基础设施通常包括冗余空调、不间断电源(UPS)系统、发电机,甚至包括冗余应用补给以支持某台可靠设备。本文将向大家提示隐藏在数据中心电力设计中的一些单点故障缺陷,并告诉大家如何补救或避免这些问题。

  冗余是否会消除故障呢?当然不会!它会大大降低故障机率,但是决不要认为所需做的就是买两个完全相同的元件。在很多情况下,一套系统在设计和安装之前并没有对整个处理链进行过全面分析。这就意味着,所有者在附加的电源和冷却设备上进行了大额投资,但该设备却可能因为疏忽或误解容易受到基础架构中某个断路器、阀门或其它单点故障的影响。

  下面是一些电力方面的案例,全部取材于实际项目。虽然经过伪装避免相关人受到责难,但从该图仍能看出那些会致使高级冗余硬件变得毫无用处的潜在缺陷。同时也表明了对这些隐患进行补救的方法。但是值得强调的是,对于设计缺陷,永远不可能有解决办法。这些补救方法只是作为说明在此列出,并不表示是在对如何进行一个专门设计提出要求。

图1

图2

  多重隐患

  图1显示的是一个完整的电力系统。它包括N+1发电机冗余,2N不间断电源冗余,以及一个完整的空中电源母线通道型2N陈列,共同支持双核服务器。在这一设计中,暴露了很多缺陷和故障,我们集中讨论其中四个主要的问题。图2对我们最关心的区域(突出标记为红色)进行了放大并作了注解。后续的图表分别展示了每一种情况。

图3

  虚假发电机冗余

  图3显示了一台具备N+1冗余的发电机设计。(在这个例子中,标成绿色的发电机被视为冗余单位,但在实际中,四台中的任一台发电机都会被其它三台视作冗余。)换句话说,如果有一台发电机发生故障,其余的三台发电机能够承担起处理数据中心最大负荷量的任务。完全没问题。

  但是请等一下。在这个案例中,发电机是成对安放的,这使得冗余要依赖两个B型断路器中(突出显示为红色)的任何一个。每个发电机都分别由A型断路器提供保护,如果其中一个A型断路器跳闸,冗余依旧存在。但若是B型断路器中的一个跳闸,与其相联的两个发电机将进入脱机状态,立马损失一半的发电能力。假设实际上只需要四个发电机中的三个就能处理负荷量,这将引起其余两个发电机以及/或者另外一个B型断路器的过载,结果将导致系统快速关闭所有发电机电源。对数据中心来说,这是一个严重的后果。

图4

  图4给出了一个可能的补救办法。这是一个比较传统的铺设方式。它让发电机在这种并联装置中分别连接到共同母线上,从而避免了单点故障的发生。但由于这是N+1设计,仍存在一个小缺陷。那就是这种并联装置必须以牺牲后备发电机的条件下发挥作用。要避免这种情况,就需要有完全的2N设计。但如果能在没有暴风雨,没有地面开挖的情况下定期维护配电盘,那么,不用斥资进行2N设计,装置故障的可能性以及对备用发电机的需求也将大大降低。

  自动转换开关的瓶颈

图5

  带备用发电机的设计完全依赖于自动转换开关(ATSes)。这种开关能感应电源故障,启动发电机,并在发电机电源稳定之后向其转移负荷。这种设计里尽管包含了诸多冗余,但如图5所示,当ATS或其断路器发生故障时,会导致整个数据中心瘫痪。举个例子,如果负责UPS交换机的自动转换开关发生故障,一旦UPS电池耗尽,数据中心将会关闭。类似地,如果负责机械交换机的自动转换开关发生故障,一旦温度超过临界值,数据中心也将关闭。实际上,这是连锁反应。像刀片机这样的高密度计算机,最先关机,其余设备将根据其所处的房间位置以及房间温度上升情况陆续关闭。当UPS过热时,将出现全面停机,这种情况可能会在设备过热前就已发生。即使自动转换开关通常是非常可靠的,但潜在问题是它们没有预设旁路,所以不可能对其进行维护,及时在某个点排除故障。

图6

  一个可能的解决方案如图6所示。因为UPS系统现在被当作N+1设计的冗余,每个UPS能够由一个独立的,体积更小的自动转换开关负责。这样一来,价格未免会更贵,但并非这样不可,因为每个自动转换开关容量更低。在一个高可靠性的数据中心电力系统中,自动转换开关冗余单元增加的成本往往被视为合理支出。

  同理,在图6中,机械系统可以被分为两部分并且分别由两套自动转换开关负责。这要求冷却系统也被分为两部分(或者甚至是更理想的情形,分成三部分而且由三套自动转换开关负责)。这部分内容图示里没有,但它要求冷却系统里配备有双配套(虽然体积要小些)机械交换机以及其它一些可能的双配套元件。和电子备份不同,冷却系统冗余体积可能会小些,在局部故障时,能够在一段时间内把温度维持在允许的范围内。当然,温度会上升,但是查阅ASHRAE TC 9.9 Thermal Guidelines这一文档就能确定,在不造成实质伤害而且也不会被取消保修权利情况下,这些硬件能够在比建议的温度高很多的环境里运转好几天。所以,即使是在N+1设计中,分离冷却系统也是对元件冗余的高昂投资进行保护的一个好办法。

  UPS冗余和维护旁路

图7

  数据中心电力设计的另一个难题是UPS旁路在主母线上。所以要对UPS主连接进行操作时,就需要把整个冗余UPS放到旁路,并让数据中心在市电系统上运行。但这并不是一个明智的做法。要在UPS上进行“大动作”,UPS的内部维护旁路是不够的。外部的“全方位”旁路,如图7所示,会让UPS和它的变压器完全处于电力链之外。这样的话,旁路就能完全打开并在需要的时候运转起来。

  小型断路器

图8

  图8所示的N+1设计的UPS,它包含了一个非常隐秘的单点故障缺陷。这个冗余设计的问题在于,如果耗电量没有得到适当监控,冗余设计可能会被加载超出其预计容量的负荷。如果没有控制好电源,更有可能发生的是,电源系统的三个阶段会严重失衡,其中一个阶段承载了不正常比例的负荷。不管发生上述哪种情况,容易导致冗余UPS终止对一部分正常负载的支持,甚至在大家都没意识到之前。如果未来扩展模块已经有了预规划,那么在一段时间内有意使用冗余容量也不是稀奇的事。这不过是因为,即使电力供应加大了,但是增加模块的资金并没到位。

  图8,UPS系统由3个625kVA(功率系统为9的562千瓦)的UPS模块组成。旨在让UPS能够支持高达1250kVA或1124千瓦的负荷。每个UPS通常只承担三分一负荷。但其中任意两个UPS能够在第三个UPS发生故障或关闭时随时承担起总负荷量的一半。但是断路器将在现行电流安培数值下运转。而且,除非标明“100%额定”(这个设计中只有一个符合条件),断路器的响应设定只会设计成持续处于额定跳闸电流的80%(根据代码)一段时间后。超出规定时间值,最终将触发断路器,关闭电源。

  在这个设计中,标成红色的部分是两个潜在的故障点。断路器B的跳闸额定为2500安培,或是持续状态下的2000安培。不过,我们要把注意力集中在位于自动转换开关上游的断路器A,因为断路器B虽然有可能出于下文即将谈到的原因导致过载,但其过载可能性大大降低了。

  断路器A在主电源链上,额定持续负荷功率是1440安培(1800X80%)。不过,只要两个UPS模块以最大容量运转就会使电流功率至少会升到1504安培(这还只是计算了UPS容量,并未考虑进用电效率损失)。如果负荷接近设计容量,即使这种情况只发生在一个失衡阶段管上,断路器A也会跳闸,切断电源并把负荷转移到发电机上。这里出现了同样的单点故障缺陷,甚至前面提到的其它故障。

  一个似乎显而易见的情况怎么会发生在专业工程师的设计作品中呢?答案是:两重性。第一点,断路器尺寸选择首先要考虑到几个因素,包括设备厂商的建议和代码问题。但接着,工程师可能会一头扎进调配断路器、研究故障电流(短路)这个复杂棘手的关键性任务中,导致“只见树木,不见森林”。让同伴对自己的复杂设计进行检查绝对是个好主意。

  令人困惑的设计图

图9

  图9的设计,包括了完整的2N冗余电力系统,2N冗余UPS系统,以及双路馈电箱输送。正常和冗余路径分别用蓝色和绿色表示。旁路用紫色表示。通过这种方式,把电路板的缺陷掩饰了起来,但我们从红色高亮部分可以看出UPS路径的单点故障。尽管为了支持数据中心而在重复设备和开关设备上进行了大笔投入,但结果是数据中心完全依赖一个电力母线和一个断路器。使情况更糟的是,关键路径上的断路器是旁路电路板的一个组成部分,所以是电驱动的。因此,对于正常跳闸和控制电路发生问题这两种情形同样存在隐患。

图10

  重新简单画过后(图10),该电路板不仅高亮显示出要确保电力,UPS,转换开关及输送系统的冗余所花费的大量努力,而且指出了该硬件对一个断路器的依赖性究竟有多大。

图11

  图11显示了在2N电力设计中现今越来越普遍的输送方案。有了2N系统,没有理由再把电力并入单一输出母线,因为现在几乎所有的运算硬件都是双核的,一个核发生故障,仍能依赖另一个核保持运转。单核设备获取保护的方式可以是,利用本地机架安装的静态转换开关(STSes),或者,如果偏好使用“带挂式”,可以在UPS输出馈电口之间安装一个大型的STS。如图中所示。(许多人把大型STSes看作是另一个潜在的单点故障而不再使用。其实这只是偏好问题。)不管怎样,对于想要实施全面冗余保护的项目来讲,这只会占用总体投入很小的一部分。

  检查设计,仔细测试

  冗余代价高昂。只有当管理层做出决定,认为在额外硬件和空间上的货币投入换来持续可靠的数据中心运转是值得的,冗余才会是合理的。但单有冗余可能只会提供安全感假象,因为设计本身的单点故障可能没有被排除,从而否定了最初的目的和价值。设计是复杂的工作,因此总会有疏忽失察发生。在对重复设备进行大幅投入之前,能够以全新的视角对冗余设计进行检查是很重要的。

相关推荐