每个有汽车的人都知道,定期更换机油和更换轮胎有助于汽车行驶更顺畅、寿命更长久,从而保护现有投入。同样,采取几个预防性措施也可以帮助数据中心的服务器运行更顺畅、寿命更长久。而更为重要的是,这些措施有助于防止服务器出现停运;在一些情况下,服务器停运很快就会导致蒙受巨额经济损失。
为了让你的服务器在最佳状况下运行,你需要保持合适的环境、积极主动地维护和监控,并且制定一项计划,那样万一服务器果真出现了故障,员工知道该怎么做。
保持良好适宜的机房环境
大型数据中心大多有先进的设备来监控数据中心的物理状况,但是许多比较小的公司其服务器机房并不是处在适当的温度或湿度范围,或者没有做到应有的干净。TERiX计算机服务公司的营销专员Joe Guenther指出:“系统在过热、过湿、灰尘过多的环境下也许仍可以运行,但是它们绝对达不到应有的使用寿命,而且较之于在建议的环境状况下运行,更容易受到环境条件的影响,因而频出故障。”
污染控制服务公司的数据中心服务部门经理Mark Gonsalves表示,数据中心应该排好每季度清洁一次的时间表,地板下面每年至少要打扫一次。他说:“环境越清洁,数据中心运行起来越顺畅。”他补充说,确保环境清洁意味着,没必要更换成本高昂的设备。他表示,要是你的数据中心环境特别脏,一些硬件制造商会宣布硬件保修无效。
积极主动 防患于未然
如果采用预防性维护和合适的监控软件,就可以避免或减少另外的许多服务器问题。SEI服务公司的产品支持经理Chad Peters说:“你可以在问题还没有出现之前及早发现。”
预防性维护主要包括三项工作:仔细检查错误日志,查找固件或软件的更新版,以及跑到机房去检查。Peters表示,他公司对错误日志每年检查一两次。他解释:“我们有没有哪个硬盘开始将错误记入日志?我们有没有哪只风扇的转速没有达到应有的水平?我们有没有哪块光纤网卡开始出现一些问题,一些错误被记入了日志?如果有的话,那么我们就能积极主动地更换,以免相应部件出现故障。”
你在检查错误日志时,正好也可以趁此机会,重新检查一下服务器上的固件和软件,确保没有漏掉任何重要的更新版。TERiX公司的销售和营销专员Larry Quinn说:“要清楚地了解你有什么样的系统,在上面运行的操作系统使用什么样的补丁版本。如果你在资产和补丁管理方面偷工减料,短期来看节省了费用,但是保证会增加长期费用。”
预防性维护还应该包括跑到数据中心去检查,确保所有线缆连接到位,确保空气流动管理设备仍然在原位,确保机房保持应有的清洁程度。
在下一次计划的预防性维护到来之前,你应该使用监控解决方案,以便服务器开始出现问题时,你能够第一时间收到警报。现在市面上有种类繁多的复杂性和价格不一的解决方案,所以你需要做一番比较,找到最适合自己需要的那款解决方案。
制定灾难恢复支持计划
最后要记住:问题难免会发生。如果你制定了一项灾难恢复计划,并且对员工进行相应的培训,知道何时联系支持人员、如何联系,就有助于缩短任何服务器故障所引起的停运时间。
TERiX公司的营销专员Christiana Johnson说:“确保寻求支持的途径对于每一个IT员工来说都很容易。这可能包括,备一份时常更新的打印下来的所有维护合同和联系人号码(以防你的维护问题包括停电故障或灾难管理事件),明确指示要是哪一个平台、品牌名或原始设备制造商(OEM)产品出现故障,应该找哪个有关方或联系人。”无论你的支持直接来自OEM厂商还是来自第三方,都要立马联系对方,这有助于你尽快让服务器重新恢复运行。
重要小贴士
防止意外事件。注意细小方面有助于尽量减少你遇到的意外事件的次数和严重程度。工作人员应该采取必要的措施来避免静电释放,平时只用干净的手接触部件。此外,“千万不要在敞开机箱的上方拿着螺丝钉或其他小零件,因为你在进行维护任务时,可能一不小心就会掉下去,”TERiX公司的营销专员Christiana Johnson如此劝告。
确保供电大小一致。TERiX公司的营销专员Christiana Johnson表示,“电源陡增和陡降会给服务器系统带来负担;而且在极端情况下,电源陡降会引起性能出现异常,而电源陡增会给电源装置和内部系统造成永久性损坏。”为了避免出现问题,就要确保你至少使用不间断电源系统;如果可能的话,还要使用专用的电气架构。
保持环境干净。服务器及其他电气设备总是会吸附一定量的灰尘,但是你可以采取一些措施,减少服务器机房里面的灰尘。污染控制服务公司的数据中心服务部门经理Mark Gonsalves说:“最佳实践包括,限制进入机房或数据中心的通道,别在机房或数据中心里面打开薄纸板或其他箱子,或者拆开设备的包装。”他表示,此外,只要施工完成,就要格外认真地打扫干净。由于数据中心里面的气流通常相当大,石膏灰胶纸夹板的颗粒经常会悬浮在空中,可能会损坏关键部件。
如果服务器变得效率很低,就要及时停用。最后,就因为你的维护工作很到位,因而延长了服务器的使用寿命,并不是说应该将这台服务器一直用下去。TERiX的营销经理Monica Bower说:“某台服务器对公司而言早就过了实际使用寿命,却还能顺畅地运行,这种可能性的确存在。”如果某个硬件更换已过了好多年,如果把它停用,升级到更新颖、效率更高的硬件,实际上能够省钱。
从何处着手
为了让服务器保持良好的状态,你需要一套监控解决方案,或来自OEM厂商,或来自第三方。优秀的监控软件会在潜在问题变得严重之前及时发出警报,那样你就能有所计划,在系统停运之前更换掉相应部件。你还需要使用资产管理解决方案,该解决方案可以帮你查明你有什么样的硬件,已经安装了什么样的固件更新版和补丁。
你手头应该备有压缩空间、高效微粒空气(HEPA)吸尘器和小毛巾,保持服务器干净。负责物理维护的任何工作人员还需要螺丝起子、其他手动工具和防静电设备。
行动计划
- 保持环境一尘不染,让服务器在合适的温度和湿度下运行。
- 排好预防性维护和干净工作的时间表。
- 安装一套出现问题时,能够及时向你发出警报的监控解决方案。
- 对员工进行最佳实践方面的培训,确保他们知道何时寻求帮助、如何寻求帮助。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
盘点2013年全球十大服务器宕机事件
本文列出了2013年十项重大服务器停机事件。每起事件都给客户和终端用户带来了不少麻烦。这也促使我们吸取经验教训:完善数据中心和应用程序,使其变得更加可靠。
-
中国银行服务器宕机4个小时之后的思考
最近,中国银行服务器宕机4个小时的话题越演越烈,从这件事情中,你能想到什么?得出什么经验?这里跟大家一起分享。
-
Google服务在今日在亚洲宕机约半个小时
北京时间今天10点24分左右,Google服务下线,下线持续了约27分钟。CloudFlare网络工程团队分析后认为下线是边界网关协议路由错误导致的。
-
如何减少服务器宕机:从阿里得到的教训
近日,阿里云阿里云部分服务器于出现短暂无法访问情况。就这次严重事件,我们总结了如何做好减少服务器宕机的方法。