一个兆瓦级数据中心UPS系统故障的启示

日期: 2009-10-18 来源:TechTarget中国 英文

  本文通过一个供电系统故障的例子说明机器质量、价格与可靠性的关系,由此对一些用户的糊涂概念进行了剖析,并指出走出误区的途径。

  一、概念的误区

  人们总是在有些事情上明白,在另一些事情上又犯糊涂。比如穿衣服,谁都知道毛料衣服比化纤质量好,有机食品比一般食品好,真丝领带比尼龙领带好…但在另一些事情上就糊涂起来,现举一个例子。

  有的认为工频机UPS就是可靠,而且不管什么牌子都一样,既然一样那就是越便宜越好。这在电源的购买问题上表现得淋漓尽致,结果买了便宜货后起火的、冒烟的不在少数。这里边就有个质量问题,比如同样是工频机结构200kVA的UPS,有的重量是1600kg,而有的还不到1000kg,相差的这近600kg是有内容的:为了提高可靠性,加了很多冗余环节,所以在应用中前者不出故障,而后者就没有这些冗余环节;又比如模块化UPS,有的平均重量在2kg/kVA以上,而有的就还不到1kg/kVA,同样是10kVA的容量,但带载的能力就不一样了。在竞争激烈的今天谁不想用降低成本来提高竞争能力!但要有个度,若离得太远就令人深思了。

  二、一起故障的启示

  某数据中心由于容量较大采用了4台大容量工频机UPS构成4+1供电系统,如图1所示。

一个兆瓦级数据中心UPS系统故障的启示

图1 4+1供电系统

  一般来说这样的供电系统如果设备选好的话可靠性会非常高。即使价格便宜一些的设备,以来说故障率也还可以,但把握性不如前者高,这就要看运气了。但问题还是出现了,而且这次故障还是很少见的。

  1.故障状况

  在3+1冗余并联系统中UPS2逆变器功率管爆炸,并由此而导致输出开关断路器1、2、3跳闸;旁路1、旁路2和旁路3启动,如图2所示。这样一来就导致负载全面断电。

一个兆瓦级数据中心UPS系统故障的启示

图2 UPS2逆变器故障导致几路开关动作,负载断电

  2.故障状态分析

  为什么UPS2的逆变器爆炸会引起整个机房断电呢?一般来说,凡是功率管爆炸都是由过高的温度引起,过高的温度来自过大的功率损耗,过大的功率损耗来自过大的电流。其典型的过流莫过于短路,逆变器功率管爆炸一定是发生了短路。如图3(a)所示,假如由于VT2的质量问题而击穿,即使是由于耐压不够而导致的电压击穿,对功率管而言由于其结构的原因也会造成PN结首先烧熔短路,这就形成了电流的直接通路,如图中短粗黑线所示,这样一来变压器B2初级的上端就直接连到了直流电源的正极,原来当VT2和VT3截止时,整个直流电压由这两支管子分担,各分担二分之一。但现在由于VT2的穿通,整个直流电压就全部加到了VT3上,此高压一举将该管击穿。这样一来,输出变压器B2的初级就将直流电压短接,形成短路负载。或者即使VT3当时不能击穿,在VT4导通时也会击穿,即使一次不会击穿,连续几次也给击穿了,总之变压器初级的短路就肯定形成了。

  UPS有一个特点,在逆变器故障时也会打开旁路,此时从旁路来的市电再不给负载供电,而直接流向短路变压器绕组。另一方面,UPS1和UPS3(甚至UPS4)的逆变器由于发现了比负载更容易通过电流的短路环节,其电流也流向UPS2的短路变压器绕组,从而形成强大过流,因此在控制电路的控制下关闭逆变器而打开相应的旁路,使旁路电流经相应的输出断路器流向UPS2的短路变压器绕组,如此强大的过流使输出断路器跳闸,以保护设备,否则就会起火,这是电路设计的保护措施。这就是为什么UPS2的逆变器爆炸会导致输出开关断路器1、2、3跳闸;旁路1、旁路2和旁路3启动的原因。那为什么断路器4和旁路4正常呢?照理论上说断路器4和旁路4也应该动作,但在这里其他3路旁路电流已将短路绕组上的电压抬的足够高,而且在UPS4还没来得及动作前,短路UPS2的断路器已跳闸,保护了整个冗余系统,否则其它几台UPS的旁路都得烧毁。实际上旁路4也应该已经打开了,原因是并联UPS系统必须同时转旁路,这是并联系统的特点,如果这些UPS不是这样,那就在产品设计上有问题了。

一个兆瓦级数据中心UPS系统故障的启示

图3 正常UPS和故障UPS2之间的电流关系

  那为什么以前几乎没有发现此故障呢?这就牵涉到器件的质量问题。如果是很好的、价格不菲的机器,其功率管选择的等级会高一些,即使有一个管子比如VT2击穿,直流电压全部加到了VT3上,但由于管子的耐压等级高,就不会连续击穿,最多退出并联系统。决不会发生连续故障事件。尤其对一个很重要的系统来说,往往在购买价格上斤斤计较,省了芝麻丢了西瓜。一般说产品贵有贵的道理,便宜有便宜的原因,不是都一样,也不能凭运气做事情。

  三、认为只要有冗余,即使设备质量差一些也没关系

  这又是一个概念上的误区。不错,冗余是提高了供电系统的可靠性,并有如图4的可靠性曲线。从图中可以看出,冗余系统的可靠性是不随时间而变的,于是就有的人得出这样一个结论:机器好坏无所谓,只要冗余就能提高可靠性。实际上并不是这样,现举一个例子。

  例:如果用两台平均无故障时间为50h量级的UPS并联,设一台平均无故障时间为50h,另一台平均无故障时间为51h,二者的最小公倍数是2550h,即这冗余的两台UPS每隔2550h就同时出现故障,两台UPS同时故障了就必须停机维修,可靠性与可用性就无从说起了;若用质量好的产品,那么如果一台平均无故障时间为500h,另一台平均无故障时间为510h,二者的最小公倍数就是255000h,即这冗余的两台UPS每隔255000h才同时出现故障,系统可靠性提高了100倍。所以冗余与质量是统一的,且不可偏废。上面的3+1冗余系统故障已说明了可靠性与机器质量的关系。

  四、认为花钱越多,系统越可靠

  这又是另一种糊涂概念。问题是这些钱该不该花,花得有价值,可以提高可靠性,花得没价值,适得其反。比如某金融系统,本来用5台机柜构成的供电系统可以实现万分之一的故障率,但却用了20个机柜构成两组双总线系统,多投资数倍,系统故障率反而提高到了万分之十五,理论上故障率是前者的15倍!像这样的配置例子还不止一个,值得深思。

一个兆瓦级数据中心UPS系统故障的启示

图4 系统结构的可靠性比较

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐