高可靠性总是与关键业务联系在一起。据统计,金融系统宕机所造成的损失为平均为1000万美元。因此,关键业务应用总是要求系统7×24小时不中断运行。对可靠性的要求高达99.999%,也就是5个9的水平,这意味每年宕机时间累计不超过5分钟。久而久之,具有5个9高可靠性的容错服务器总是和关键业务应用联系在一起。
关键业务应用需要高可靠性,但是容错服务器并不是金融、电信计费的专利。在很多需要高可靠性的应用场合,容错服务器都有用武之地。以首都机场小火车为例,国际港旅客进出都要乘坐小火车。如此小火车的调度和控制非常关键,系统的计算量不大,但是需要高可靠性,就需要承担调度和控制任务的服务器具有高可靠性。在电力控制、钢铁企业都需要系统具有高可靠性。
随着芯片技术的进步,以及生产工艺水平的提高,服务器产品标准化日趋成熟,如今系统的可靠性大大提升。可以说,服务器宕机是小概率事件。“小概率事件一经产生就是一个大事件。”某行业企业CIO说。
为了应对服务器宕机,用户多采用双机系统冗余。当其中一个系统宕机时,由另外一个系统接替服务器工作。但是需要注意的是,双机系统很难实现无缝过渡,备用服务器接替工作需要时间。如果是首都机场小火车,就会出现停运的事件。春节期间,香港昂平360缆车故障,都在提醒我们,可靠性问题没有小事情。
如今,虚拟机倍受追捧。系统可靠性并不依赖于单台服务器的质量,而是构建在虚拟资源池的基础上,系统应用与物理服务器无关。在虚拟化时代,高可靠性的问题是否迎刃而解呢?
Vmotion,也就是虚拟机在线迁移被寄予厚望。当虚拟机产生故障时,在线迁移到另外一台虚拟机。实际上,这是一种典型的误解。Vmotion可以解决计划内的停机,如系统维护、升级时,可以暂时将虚拟机迁移到其他服务器,维护升级完成之后,在迁移回来。此外,利用Vmotion的功能,可以在一定阶段,如晚间业务的波谷期,将虚拟机迁移到少数服务器,关闭多余的服务器,达到绿色节能,降低运维成本的目的。但Vmotion不能够解决计划外的意外宕机。但承载虚拟机的物理服务器意外宕机时,虚拟机是没有办法进行热迁移的。
从VMware的解决方案就可以看出结论,虚拟机环境下提升系统的可靠性,不是通过Vmotion,而是通过HA模块来提供的。所谓HA就是虚拟机环境中的双机冗余。同样的,HA的切换也需要时间。针对高可靠性的需求,VMware不是依靠HA,而是提供了Fault Tolerance模块,也就是类似容错机的解决方案。从VMware的选择,就可以知道容错较之双机具有更高的可靠性。
采用虚拟机Fault Tolerance方案,还需要容错服务器吗?从原理上看,容错服务器的处理器、内存以及I/O全部是冗余设计,通过锁步技术,对软件每一个进程的计算结果进行比对,结果一致才确信处理的正确性,可以有效解决可能的硬件故障。虚拟机Fault Tolerance是否具有同等水平的高可靠性,还需要实践的检验。实际上,在虚拟化环境下,承担管理和调度任务的服务器,就需要采用容错服务器。
如果你需要高可靠性,实际上,你就需要容错服务器。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
Veeam进入中国一年半:多云是撬动市场的最大机会
多云不只是针对中国市场,在全球市场也是一个巨大的机会。无论是物理机系统、虚机、云的工作负载还是云原生负载都为让多云成为一个必备的条件……
-
从蒙古骑兵和中国高铁来看NEC 4D容错服务器
NEC的IT产品线很全面,包括平板电脑、台式机、PC服务器、容错服务器、刀片服务器、HPC超算服务器、磁盘阵列、磁带库等。NEC最新推出的4D容错服务器具有高性价比。
-
SLES 12从三方面增强企业Linux服务器可用性
SUSE上一个版本的企业级Linux服务器操作系统默认是Btrfs,有几个功能专门用于随时在线服务。
-
StruxureWare™ 7.4版 优化数据中心管理功能
施耐德电气宣布推出数据中心运维管理平台StruxureWare7.4版,该款产品提供全新功能和访问可操作智能的通道,有效实现高可用性和高能效间的完美平衡。