这是《预防数据中心系统宕机》系列专家答疑的最后一篇,前两篇请看《预防数据中心系统宕机:做好计划是关键》和《预防数据中心系统宕机:学会从错误中吸取教训》。 依我过去几年所见,系统宕机最主要成因是硬件故障。不管是服务器硬件还是基础设施(数据中心电源或者制冷设备),硬件故障使得系统损坏,造成运行中断,比用户人为错误或者软件配置错误造成的故障都要多。 工作人员的士气遭受了宕机的挑战。
在宕机时,必须支持鼓励工作人员的工作,使他们有足够士气修复错误,令服务重回正轨,至于批评还是留在解决完问题之后吧。当IT人员肩负压力,努力解决宕机时,管理层不能揪住他们的脖子说:“这都是你们的错!怎么还没修好?”这……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
这是《预防数据中心系统宕机》系列专家答疑的最后一篇,前两篇请看《预防数据中心系统宕机:做好计划是关键》和《预防数据中心系统宕机:学会从错误中吸取教训》。
依我过去几年所见,系统宕机最主要成因是硬件故障。不管是服务器硬件还是基础设施(数据中心电源或者制冷设备),硬件故障使得系统损坏,造成运行中断,比用户人为错误或者软件配置错误造成的故障都要多。
工作人员的士气遭受了宕机的挑战。在宕机时,必须支持鼓励工作人员的工作,使他们有足够士气修复错误,令服务重回正轨,至于批评还是留在解决完问题之后吧。当IT人员肩负压力,努力解决宕机时,管理层不能揪住他们的脖子说:“这都是你们的错!怎么还没修好?”这会让他们精神崩溃的。不如等机器运转正常,服务恢复之后,开个会好好讨论一下故障的起因、解决措施,做好决议。
诊断和解决运行中断,确实比起日常的管理压力要大。对于管理层来说,让IT人员加班加点修复,在短期内把问题解决,这样做会导致IT人员身心的双重疲劳。由此可能会导致更多问题。
管理层应当意识到IT人员需要付出多少额外的努力和时间,并公开承认这事实。所以应当给他们一定的休假来补偿加班花费的额外时间,总之要把他们当人,而不是当机器人。
做好计划可以减少宕机。比如说:时机合适的管理步骤改变,造成计划内的运行中断要好于意外断电。
在技巧方面,敏捷的头脑最为重要。打破惯例思考问题,尽可能快地提出解决方法。有时候修复也与“大力胶铁丝网”有关,这也可以,只要你能做出计划好的维护窗口期,能够应对长期解决方案就行。
最糟的状况 最好的方法
我们知道了,预防宕机没有绝对的方法。人和装置太多,对于各个因素的依赖也越来越多,导致公司已经无法控制。所以预防系统宕机的工作固然重要,仔细考虑发生宕机以后每一步该做什么同样重要。宕机之后,有很多东西值得学习,明智的企业会通过宕机,吸取教训,提升自己。
翻译
相关推荐
-
迁移云端,关于容量规划、灾难恢复你都想好了吗?
在将工作负载迁移到云端之前,管理员通常需要解决大量相关的问题,包括从软件即服务应用程序到灾难恢复以及容量规划
-
IT业务连续性规划:托管方式与云端有何不同?
为了避免启用灾难恢复安全网络,应为数据中心构建IT业务连续性规划。然而在开始之前,我们要先权衡一下使用托管与云端两种方式的利弊……
-
数据中心灾难恢复报告:六大隐患点你中枪了吗
在这份灾难恢复报告中指出了一些导致大灾难的故障点,并说明如何做出正确的决定才能使数据中心正常运行。
-
2016年IT目标:DevOps及自动化
新的一年意味着一次机遇,许多IT专业人士也都怀着紧张的情绪期盼2016年在灾难恢复、DevOps以及其他项目在速度上会有所提升。