你要认识到正常运行时间的重要性,以及如何在数据中心最大限度地延长正常运行时间。
哪怕系统停机时间只有短短几分钟,都有可能降低生产力、导致你失去潜在的销售额,或者造成更严重的后果,具体要看受到影响的是什么系统。但是你心里可能会问:99.9%的正常运行时间与99.99%的正常运行时间到底有啥区别?为了获得更多的一个9或两个9,不惜投入成本值不值得?Uptime软件公司首席执行官Phil Didaskalou为贵公司描述了一种可能很吓人的情景,这个场景表明了正常运行时间到底有多么重要、为什么多一个9关系那么大。
“你已经比较了其他供应商,看了看自己的预算,一切看起来都基本上都在你的承受能力范围之内,于是与那家供应商签了合约,信心十足地认为,99.9%的正常运行时间对贵公司来说够好了,”Didaskalou说。“两个星期后,贵公司在周三下午1点启动了年度促销活动,向受众发出了40万封电子邮件——你认为在这个时间段开展这项年度促销活动最合适,可以覆盖到你的受众。一个小时后,你这家新的网站托管提供商整整停机了20分钟。从统计学上来说,你知道,电子邮件接收者大多会在促销活动的60分钟内打开和点击浏览你的促销内容。那么,这到底有什么后果呢?你很可能刚刚失去了30%的受众。”
一连串9到底说明了什么?
你只要稍微简单算一下(一年8760小时乘以0.001或0.0001等),就会明白,如果正常运行时间是99.9%、99.99%或99.999%,那么预计全年的总停机时间分别是8.76个小时、52.6分钟和5.26分钟。一般来说,正常运行时间比例中9的个数越多,你遇到长时间停机的可能性就越小。
如果贵公司主要通过网站来卖产品,那么不难看出这些正常运行时间比例对贵公司会带来怎样的影响。设想一下:你每分钟可以卖掉价值100美元的商品。如果是99.9%的正常运行时间,那么你每年损失的销售额很可能超过5万美元;相比之下,如果是99.999%的正常运行时间,那么只会损失526美元。但是这还有其他影响,比如说频繁停机有损贵公司的声誉。
从公司内部的角度来看,停机时间对生产力大有影响。如果员工们无法稳定地访问服务器、网络及其他的必要工具,他们就很难顺利完成工作。最重要的事情是找到这样的正常运行时间解决方案:不仅成本合理,还可以确保贵公司不会在无法接受的时间段遭遇停机。
选购解决方案
在你开始选购正常运行时间解决方案之前,你必须先关注贵公司的要求。你得找到这样的产品:既适用于虚拟环境和云环境,又适用于你的所有物理服务器,而且能够正确地计算出正常运行时间,那样你就能对基础架构进行相应的优化。
Didaskalou表示,你还应该确定一天当中哪些时间段确保正常运行时间最重要,确定应该多么频繁地监控应用程序和服务,确定在非工作时间多长的停机时间是可以接受的。而一旦你搞清楚了这些问题,就可以比较分析所有可能的服务提供商,确保他们的能力与贵公司需要的能力相一致。
Didaskalou说:“我会建议探究得更深入一些。应询问对方使用什么监控工具,对方在什么平台上运行监控软件,针对监控和主机托管基础架构落实了什么硬件备份和故障切换系统。”
Didaskalou建议,公司应该监控和计算自己实际的正常运行时间和停机时间,确保自己实际得到的正常运行时间就是掏钱购买的那种正常运行时间,因为选择99.999%而不是99.99%需要一笔相当庞大的投入。你进行的监控越频繁、越准确,发现一致或不一致的可能性也就越大。
学习与改进
如果公司明白正常运行时间有多重要、哪些是最关键的时间段,以及需要怎样长的正常运行时间才能确保成功,很显然将处于领先位置,但不能满足于此。你一定要搞清楚自己的应用程序、服务及其他业务工具中哪些最容易出现潜在的停机,然后要想方设法来防止停运。你还必须充分了解正常运行时间的每一个方面和你所使用的服务,那样才能提高效率,并确保客户始终随时可用。Didaskalou还给出了需要牢记的另外几个注意事项,那样你就能避免最糟糕的情况。
他劝告:“要知道正常运行时间对贵公司的业务来说意味着什么,要明确关键时间段和非工作时间段。确立可用性方面的目标,并记入文档。要在你的操作人员当中营造恪守职责、关注客户的文化氛围。部署成熟可靠的工具,要有准确监控、提醒和服务级别协议(SLA)报告等机制,从而建立必要的反馈回路。确保你明白自己的SLA意味着什么,还要明白提供商所使用数据的完整性。”
文章要点
正常运行时间极其重要,有助于维护贵公司的声誉,让你的产品和服务对客户来说随时可用,以及在高峰经营时间保持高效运作。
多一个9就无异于缩短了停机时间,只要你用来计算贵公司正常运行时间和停机时间的服务很适宜。
要延长正常运行时间,关键是知道贵公司需要什么,并不断监控你的应用程序和基础架构,以便找到薄弱环节。
更到位的监控间隔意味着衡量起来更精确
一些正常运行时间监控解决方案只能在5分钟或10分钟的间隔里检查服务和应用程序,因而可能会漏过在此期间短暂的停机时间段。这可能导致监控结果不准确,以为正常运行时间比例让人比较满意,实则不然。
要解决这个问题,最好的办法就是你自己定期监控正常运行时间,或者找到能够以尽可能小的时间间隔来进行监控的解决方案。如果你没有不断监控自己的系统,最后有可能掏99.999%正常运行时间的钱,一年下来得到的只有99.99%或更差劲的服务。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
Veeam进入中国一年半:多云是撬动市场的最大机会
多云不只是针对中国市场,在全球市场也是一个巨大的机会。无论是物理机系统、虚机、云的工作负载还是云原生负载都为让多云成为一个必备的条件……
-
SLES 12从三方面增强企业Linux服务器可用性
SUSE上一个版本的企业级Linux服务器操作系统默认是Btrfs,有几个功能专门用于随时在线服务。
-
StruxureWare™ 7.4版 优化数据中心管理功能
施耐德电气宣布推出数据中心运维管理平台StruxureWare7.4版,该款产品提供全新功能和访问可操作智能的通道,有效实现高可用性和高能效间的完美平衡。
-
数据中心断电事故频发 你的机房真的保险吗
企业数据中心建设涉及建筑施工、强电、弱电、暖通制冷、网络、消防、监控、机柜微环境和装饰装修等多个工序,复杂程度远超一般IT管理的能力。