预防数据中心系统宕机：请把IT人员当人看！

这是《预防数据中心系统宕机》系列专家答疑的最后一篇，前两篇请看《预防数据中心系统宕机：做好计划是关键》和《预防数据中心系统宕机：学会从错误中吸取教训》。　　依我过去几年所见，系统宕机最主要成因是硬件故障。不管是服务器硬件还是基础设施（数据中心电源或者制冷设备），硬件故障使得系统损坏，造成运行中断，比用户人为错误或者软件配置错误造成的故障都要多。　　工作人员的士气遭受了宕机的挑战。

在宕机时，必须支持鼓励工作人员的工作，使他们有足够士气修复错误，令服务重回正轨，至于批评还是留在解决完问题之后吧。当IT人员肩负压力，努力解决宕机时，管理层不能揪住他们的脖子说：“这都是你们的错！怎么还没修好？”这……

查看全文

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget

官方微博

TechTarget中国

取消回复

这是《预防数据中心系统宕机》系列专家答疑的最后一篇，前两篇请看《预防数据中心系统宕机：做好计划是关键》和《预防数据中心系统宕机：学会从错误中吸取教训》。

　　依我过去几年所见，系统宕机最主要成因是硬件故障。不管是服务器硬件还是基础设施（数据中心电源或者制冷设备），硬件故障使得系统损坏，造成运行中断，比用户人为错误或者软件配置错误造成的故障都要多。

　　工作人员的士气遭受了宕机的挑战。在宕机时，必须支持鼓励工作人员的工作，使他们有足够士气修复错误，令服务重回正轨，至于批评还是留在解决完问题之后吧。当IT人员肩负压力，努力解决宕机时，管理层不能揪住他们的脖子说：“这都是你们的错！怎么还没修好？”这会让他们精神崩溃的。不如等机器运转正常，服务恢复之后，开个会好好讨论一下故障的起因、解决措施，做好决议。

　　诊断和解决运行中断，确实比起日常的管理压力要大。对于管理层来说，让IT人员加班加点修复，在短期内把问题解决，这样做会导致IT人员身心的双重疲劳。由此可能会导致更多问题。

　　管理层应当意识到IT人员需要付出多少额外的努力和时间，并公开承认这事实。所以应当给他们一定的休假来补偿加班花费的额外时间，总之要把他们当人，而不是当机器人。

　　做好计划可以减少宕机。比如说：时机合适的管理步骤改变，造成计划内的运行中断要好于意外断电。

　　在技巧方面，敏捷的头脑最为重要。打破惯例思考问题，尽可能快地提出解决方法。有时候修复也与“大力胶铁丝网”有关，这也可以，只要你能做出计划好的维护窗口期，能够应对长期解决方案就行。

　　最糟的状况最好的方法

　　我们知道了，预防宕机没有绝对的方法。人和装置太多，对于各个因素的依赖也越来越多，导致公司已经无法控制。所以预防系统宕机的工作固然重要，仔细考虑发生宕机以后每一步该做什么同样重要。宕机之后，有很多东西值得学习，明智的企业会通过宕机，吸取教训，提升自己。

作者

: Bill Bradford

翻译

: 王启

预防数据中心系统宕机：请把IT人员当人看！

取消回复

作者

Bill Bradford

翻译

王启

相关推荐

迁移云端，关于容量规划、灾难恢复你都想好了吗？

IT业务连续性规划：托管方式与云端有何不同？

数据中心灾难恢复报告：六大隐患点你中枪了吗

2016年IT目标：DevOps及自动化