数据中心关键设施运营和维护最佳实践

日期: 2009-10-09 作者:John Collins and Terry Rodgers翻译:黄永兵 来源:TechTarget中国 英文

如今,数据中心关键设施的运营和维护(O&M)正受到与建设和设计这些复杂场所同等地位的对待。由于关键基础设施变得更加复杂,提高了容错性和并行维护能力,建立同等的O&M实践管理这些设施的重要性变得日益明显。研究显示,有60%甚至更多的事故都与人类的活动相关,包括例行的维护和关键系统的重新配置,维护任务以及人为失误。   支持连续运营的必要人员和程序必须在数据中心运行第一天到位,这需要在数据中心开始运营之前就做好这些准备工作,最好在规划和需求定义阶段就开始准备。

  数据中心设计时的考虑   关键设施的高可用性通常需要复杂的冗余架构,如2N、2(N+1)或2(N+1)/3配置,要达到……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

如今,数据中心关键设施的运营和维护(O&M)正受到与建设和设计这些复杂场所同等地位的对待。由于关键基础设施变得更加复杂,提高了容错性和并行维护能力,建立同等的O&M实践管理这些设施的重要性变得日益明显。研究显示,有60%甚至更多的事故都与人类的活动相关,包括例行的维护和关键系统的重新配置,维护任务以及人为失误。

  支持连续运营的必要人员和程序必须在数据中心运行第一天到位,这需要在数据中心开始运营之前就做好这些准备工作,最好在规划和需求定义阶段就开始准备。

  数据中心设计时的考虑

  关键设施的高可用性通常需要复杂的冗余架构,如2N、2(N+1)或2(N+1)/3配置,要达到即使关键设备或系统失效,也要有足够的冗余支持业务不间断运行。

  但如果受影响的基础设施未配置适当的手段隔离失效的设备,那在持续运行环境中,随后的修复或设备替换工作可能无法顺利进行,仍有可能需要将业务短暂中断。这意味着在设计和建设阶段就必须要考虑关键设备的连续运行需求,这就是所谓的可维护性设计。

  建设、启动和调试

  最好的设计也比不上施工期间的实施重要,在施工期间需要提供严格的质量监督和过程控制,需要经常检查各方面取得的进展。此外,在正式运营之前必须要进行试运行,同时要确保项目有适当的人员配置,并为工作人员提供良好的培训和练习机会,每天都要详细记录运行文档。

  从设计阶段开始就应该执行可维护性审查,确保设计意图符合业主的需求和设施的性能预测标准,试运行还包括各种级别的测试和验证,包括工厂验收测试、装运和接收的要求,预功能性和性能测试,以及最终的集成测试。

  数据中心O&M人员应该参加整个调试、施工、启动和现场测试过程,这为O&M人员提供了一次宝贵的学习机会,可以为今后的运营维护做好准备。

  运营和维护人员及组织

  指派运营和关键设施维护的人员时应深思熟虑,O&M人员上岗前应得到良好的培训。需要重点考虑的是运营和维护人员需要具备哪些技能,这个部门应该向谁报告?哪些应该由工作人员负责,哪些应该外包出去,应该具有什么样的服务水平协议?这些都应该考虑进去。

  第一个问题应该是“一个O&M组织应该包含所有的关键和非关键O&M活动吗?”,理想情况下,应指定专人负责关键基础设施和非关键基础设施,连续运营需要保证系统7/24小时可用,应该为关键业务系统指派责任心强的专用工作人员,避免做其它工作导致分心。同样,关键O&M预算应该多一些。

  运营&维护过程

  运营和关键设施的维护不仅仅是一套程序,它应该是一个完整的战略,包括明确的目标和目的,明确的角色和职责,应将重点放在业务连续性上,需要配备足够的资源来保证目标能够顺利实现。

  运维阶段应考虑数据中心什么时候最脆弱?最佳工作人员应是什么样子?晚上和周末,什么时候承包商和供应商最难抵达现场?工作日如果停电可能会有多大的影响?很显然,所有答案都与数据中心的重要性有关。如果数据中心只是在正常工作时间显得非常重要,那你可能得到的是一个答案,但如果数据中心在7/24小时范围内都很重要,那你的答案可能会不一样。

  针对这些问题的答案,可以引出更多的问题。例如,关键零配件放在哪里的?需要环境调节或例行维护吗(像旋转设备润滑和维修弯曲的轴)?需要监测和控制系统吗?对系统进行操作需要什么专业知识和技能?哪些零配件是最关键的?哪些工具,设备和库存是必需的?需要一套电脑维护管理系统吗?如果需要,由谁来构建和配置呢?

  一般的数据中心维护计划中可能会稍有不同,更倾向于关键设施和高端设备,大多数设施具有某种级别的常规维护计划。基于时间间隔或频率的例行维护被称为预防性维护,例如,对于特定的设备,每月可能都会检查一次,每季度都会检查和调整皮带,每6个月需要更换过滤器,每年需对传感器进行校准等。这样做的缺点是没有考虑真实的运营情况,如果考虑设备的实际运行情况,这些计划还可以进一步改进。改进的方法是实施基于条件的监测技术,让维护工作真正以真实运营情况而定。一个简单的例子是使用差压传感器监测筛选条件。当过滤器负载上升,△P增加,这个时候就应该替换过滤器了。

  使用这些条件监测技术,对数据趋势加以分析,你可以提前预测何时应该执行维护操作,这就是所谓的预知性维护。阀值可以指定预警和报警条件,通过趋势分析,可以预测何时将超过阀值,甚至可以预测故障发生时间。

  条件监测技术的一些例子包括振动分析,摩擦学(润滑分析)和红外热扫描,这些技术可以揭示设备的运行状况,这真的让人有些难以置信。

  小结

  在数据中心规划和建设期间,越早设计运营和维护计划越有利,否则可能就没有机会将O&M需求嵌入到数据中心设计和建设规划中去了。设计和建设数据中心应该是一笔不小的投资,需提前考虑关键设施、人员、程序和相关资源的重要性,总之要保证数据中心运营和维护正常化,使其达到预期的寿命。