数据中心停机通常是由设备故障,或突发事件的连锁反应引起的,但引起数据中心停机的主要原因是人为失误,据Uptime协会发起的一项研究显示,数据中心大约70%的问题都是人为错误引起的,可见人对于数据中心来说是多么的可怕。
那该如何缓解这个问题呢?电力技术支持主管Ahmad Moshiri说:“毫无疑问,导致数据中心停机的人为错误可以通过一些简单的步骤来回避”。下面就是其总结出来的避免数据中心人为错误导致故障的最佳实践。
1、屏蔽紧急关闭按钮
紧急关机(Emergency Power Off,EPO)按钮一般都位于数据中心门口附近,通常,这些按钮没有盖子或做上标记,在紧急情况下很容易错误地关闭整个数据中心的电力供应,给EPO按钮帖上标签或加装一个盖子,可以避免按钮被意外按下。
2、根据文档指定的方法操作
按照厂商给定的文档一步一步操作,可以减少或消除执行维护任务时的误操作,除此之外,还应该在备份计划中包括突发事件时的应对办法。
3、正确的组件标签
要正确和安全地操作电源系统,所有开关设备必须正确标识,还需要数据中心的单线电路图,确保正确的操作顺序,每执行一个操作前,都应该仔细检查设备的标签有无不妥。
4、一致的操作方式
有时,数据中心管理人员疏于职守,不按照标准操作程序执行,忘记或直接跳过某些步骤,或是凭自己的记忆操作,可能无意中就错误地关闭了某个设备,因此,保持所有操作说明文档不断更新,并严格按照说明进行操作是至关重要的。
5、不断进行人才培养
确保每个人都可以独立进入数据中心,包括IT、应急、保安和设施维护人员,让他们了解与设备相关的基本知识,以免误关电源。
6、安全访问策略
没有数据中心登陆策略的组织安全风险是很大的,特别是外来访问者进入数据中心时需要有人陪伴,要让数据中心管理人员知道谁来了,什么时候离开的。
7、强制实施食品/饮料政策
液体造成的短路是计算机关键部件最大的风险,最好是在门口张贴告示禁止携带任何食品和饮料进入数据中心,并建立起实施监控机制,凡是有违反的情况,一律依据章程进行严惩。
8、避免污染物
恶劣的室内空气质量可能会导致不必要的尘埃粒子和碎片进入服务器和其它IT基础设施,大部分问题可以通过要求进入数据中心的人穿防静电鞋或在数据中心门外放一个垫子得到缓解,此外,安装设备时,应该在数据中心门外进行拆箱,如果将箱子一道搬进数据中心,箱子上的纤维附着在机架和其它IT基础设施上的机会就大大增加了。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
企业是否应该考虑系统管理服务?
我们都知道,系统管理服务为企业提供了一整套关键服务,这对企业有着很大吸引力,但企业必须确保选择具有良好客户服务 […]
-
DCIM工具在现代数据中心行业中的地位如何?
随着数据中心变得越来越复杂,管理员应该转向使用DCIM工具来更好地管理灾难预防,容量规划以及资产和能源管理。
-
企业需要DCIM工具来做什么?
数据中心基础设施管理工具帮助管理员更深入地了解其IT基础架构和设施的性能。随着DCIM工具的逐步成长以及市场的不断发展,它们能提供更先进的功能,可以更深入地探究数据中心业务核心。
-
因地制宜:为企业数据中心添加自动化
如今,自动化是很多数据中心的建设重点,这个术语已与云计算融合。人们都在宣扬自动化,在某些情况下,IT人员甚至不确定什么是自动化或为什么需要自动化……