数据中心机房UPS电源的三种故障处理办法

日期: 2010-01-21 来源:TechTarget中国 英文

  在计算机、服务器等设备环境中,供电系统都装有高速欠压保护和热保护电路。其主要的作用是:当电网欠压时,依靠滤波电容中的能量来维持工作,一般能够维持10ms左右。由于市电电网的供电质量达不到服务器类设备对供电的要求,因此在大型的和比较重要的计算机机房,供电基本上都是双路电源加UPS供电,以保证计算机系统的正常运行。因此,我们对计算机等负载设备供电系统的管理主要是针对双电路和UPS系统的管理。

  突然掉电

  故障原因:UPS过载

  双电源固然好,但如果UPS坏了,设备照样可能断电,因为由布线图可以看出,它们是串联的。有一次,UPS电源中断输出,指示灯全不亮了,信息中心机房的所有设备全部停止运行,网络随即全部瘫痪。总经理亲自打电话到机房,要求以最快的速度恢复正常。

  突然掉电会造成机器硬件很大的损伤,还对企业运营产生影响。庆幸的是,当时管理员都在上班。为了尽快恢复设备运行,我们首先试着重新启动 UPS,居然启动成功并正常运行了。但是伴有不间断的鸣叫声,于是查看UPS维护说明,对应找到此类蜂鸣表示的故障原因——UPS过载。

  大家很快想起在不久前刚增加一台功率500W左右的服务器,可能是它使得UPS负载超出警戒上限,最后导致自动停机保护。那为什么超载了,又没有蜂鸣报警呢?原来有人无意识地关闭了蜂鸣,没有考虑到它已经超负荷,反正能供电就把蜂鸣当作误报处理给关了。

  根据分析出的原因,我们立刻停运了几台不重要的设备,让UPS的负载指示率低于90%,UPS又开始安静地工作了。看来使用UPS也要量力而行,我们下一步就只能增加UPS容量来解决问题。

  UPS意外跳转

  故障原因:地线干扰

  一次市电正常,大家都能正常上网,可UPS总是跳转到电池组供电模式。在此模式下,蜂鸣总是不断地鸣叫提示。我们马上组织人员检查电路,分析故障原因。最后和机房的立式空调联系起来了,每次启动空调不一会,就自动转为电池组供电。显然这是市电输出受到大功率空调机影响所致。但是他们是分开两路单独供电的,是从不同的配电室里面的配电盘接来的,怎么会产生互相干扰呢?

  带着这样的疑问,电工就顺着电线打开天花板、地板、接线盒等逐点进行排查。看是不是什么地方电路虚接到一起了,最后发现它们的零线和地线接到了一块。如此模糊的干扰,对UPS的影响都能被体现到,果然是个精密设备,不能有一点的含糊。

  我们决定对空调的地线进行分开处理。分开零线和地线后,再启动空调,发现没有再出现UPS跳转电池组的情况。那么以前怎么没有表现出来呢?我们分析认为是2007年夏天太热了,空调满负荷运转,加大了功率消耗。

  电源的质量对企业网络能否稳定、安全至关重要。但网络电源安全实际上还有很多属性,如高性能、可扩展性、可靠性、功能性、准确性和可用性等。为了使企业网络电源能持续稳定地运行下去,除了平常的规范使用外,周期性地利用各种测试工具,对网络电源环境实施维护测试也是必须的。整个机房供电安全系统,需要技术人员认真维护,并要做好日常排查工作,及时发现问题,分析处理非计划停机造成的影响等。

  双电源跳转失败

  故障原因:金属生锈

  我公司以前旧的机房空间狭小,屋内的配套设施不完备,导致问题百出,给正常的业务办理带来很多麻烦,其中的供电系统就是维护重点。在公司季度停电检修中,双电源自动转换开关在正常的转换中失败了,没有能自动跳转,静静地一点反应也没有。同时,备用的电源就没有起到应有作用,UPS上的市电显示灯没有输入电显示。

  看到这种情况,部门所有的人员都齐聚来查找故障原因。我们断开电源,使用工具打开转换开关,发现里面所有的接触开关上的金属触点都生锈了,金属生锈导致自动跳转失灵。幸运的是,开关绝缘做得不错,没有发生短路。我们估计生锈有两个原因:长时间没有使用该功能,化工企业环境条件比较差。经过一番清理除锈工作,我们重新安装好了开关,然后手动转换恢复供电。

  经过这件事情,我们总结的经验是,双电源转换开关一定要有专人维护,定期查看组件损坏情况,及时更新。值得注意的是,由于转换开关上面的接线比较多、比较紧凑,拆卸和使用的时候一定要小心谨慎。我们就曾经经历一次双电源开关损坏的情况。当时是在一次机房改造搬迁中,旧的开关在拆卸时因用力过猛而导致里面固定座脱落,跳转功能丧失,最后只能更换一个新的。

  双电源自动转换开关具有过载、短路等保护功能。当电源出现故障时,转换开关能自动完成常用电源到备用电源的转换,以保证机房的持续供电,这是第一层保护。当然,前提是这个常备电源必须是从不同原点接入的。

  从电源的最适宜环境的角度考虑,较低温度下可以有较高相对湿度,在周围空气温度为+40℃时机房的空气相对湿度不宜超过50%。同时,如果该月的平均最低温度为+25℃,就需要考虑到因温度变化在设备表面上发生的凝露。当常用电源下降至有效值的70%以下或常用电源其中一相或者三相电压中断时,常用电源延时切换至备用电源,并在常用电源恢复正常时,又将备用电源延时切换至常用电源。这样就给输入UPS的电源一个安全屏障,减少设备的停运次数。

  做一个细心的、有热情的人,照管好自己的设备,这就是维护工程师的成就。

  UPS温度控制维护

  在UPS的构成中除了冷却用的风扇和断路器开关部件外,还有大量的固态电子器件。它们基本上不存在机械磨损,因此能够长期地工作在最佳运行状态之中。如果要及时发现可能出现的故障苗头,并防止故障隐患扩大,就要使UPS工作在适宜的环境中,并做好日常维护。UPS的工作环境应该与计算机的工作环境相同,温度应控制在5℃以上,22℃以下;相对湿度控制在50%以下,上下幅度不超过10%。当然,和这些因素同样重要的是应保持UPS工作间的清洁、无灰尘、无污染、无有害气体,因为这些因素同样影响UPS的使用寿命和引发故障。

  在UPS的日常维护工作中,工程师需要每日进行例行检查,其主要目的是为了积累UPS电源的运行经验和及时发现故障苗头,因此每日的例行检查都要细心。

  有效接地防雷击

  为了保护建筑物内的电子电器设备不被静电雷击所损坏,电源布线时必须连接地线。要清醒地认识到,电源无地线是十分危险的。设备外壳接地要独立引线接到室外,并且保证系统符合对接地电阻的要求,防静电可以安装永久性防静电地板,要使用防静电手套等防静电产品,在操作设备时必须要戴上机柜上准备的防静电套腕,每天用湿拖把拖地板1至2次;操作设备前洗手等措施。

  建筑物的防雷器只是保护建筑物不被直击雷损坏,而不能保护建筑物内部的电子电器设备免遭感应雷损坏。

  雷击通过电源电缆或通信线路进入到建筑物内部的机会较大。在这种情况下,感应电压的峰值将对建筑物内部的“敏感电子设备”造成破坏。建筑物内部的计算机或者敏感电子设备还需要有自己的“二级保护”;如包括安装适合的浪涌保护设备。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐

  • 一起数据中心电源崩溃事故的启示

    前不久,我处理了一桩IT设备崩溃事故:一个中等规模数据中心内的UPS失效了。目前先进的UPS采用ABM三阶段智能化电池管理方案,第一阶段是恒流均衡充电……