无错之愿 利用高级技术实现可靠性服务器

日期: 2014-04-27 作者:Stephen J. Bigelow翻译:唐琼瑶 来源:TechTarget中国 英文

圣诞节就快来临了,在IT人员的愿望清单里,可靠的服务器必不可少。随着虚拟化技术的出现,一台物理服务器承载了几十个工作负载,对可靠性的需求就更加强烈,因为硬件故障与失败的迁移都会导致服务器崩溃,那就麻烦了。 与服务器可靠性相关的技术,如冗余电源供应、内存错误监测与纠正都进行得有点慢。需要识别、容纳与解决故障条件的协议与行为花费太昂贵,而且横跨所有层的交互操作并没有广泛的实施标准。

本文介绍一些最新的工具,方便IT人士打造可靠的服务器。 存储子系统可靠性 检查奇偶校验位与错误纠正码ECC的技术可追溯到十多年前,较新的内存热备份与镜像都也比较完善。当然,随着内存数量与其重要性在服务器中伴随着虚拟化蹭蹭……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

圣诞节就快来临了,在IT人员的愿望清单里,可靠的服务器必不可少。随着虚拟化技术的出现,一台物理服务器承载了几十个工作负载,对可靠性的需求就更加强烈,因为硬件故障与失败的迁移都会导致服务器崩溃,那就麻烦了。

与服务器可靠性相关的技术,如冗余电源供应、内存错误监测与纠正都进行得有点慢。需要识别、容纳与解决故障条件的协议与行为花费太昂贵,而且横跨所有层的交互操作并没有广泛的实施标准。本文介绍一些最新的工具,方便IT人士打造可靠的服务器。

存储子系统可靠性


检查奇偶校验位与错误纠正码ECC的技术可追溯到十多年前,较新的内存热备份与镜像都也比较完善。当然,随着内存数量与其重要性在服务器中伴随着虚拟化蹭蹭上升,我们需要更强悍的内存控制技术。

请求与巡视清除是ECC内存的高级应用。在请求清除中,系统可在运行期间纠正随机或偶然的ECC阅读错误。巡视清除可积极主动地定位并纠结系统内存中的错误。如果这些行动对于修复内存错误还不管用,那么就意味着永久性故障。潜在的永久性故障触发弹性功能,如使用镜像内存模式拖拽数据。有些系统会将失败位置打上标签,防止今后使用有问题的内存。

EEC只能在任何内存位置上纠正单位错误,如果是其他高级错误就得用上其他技术。如单台设备数据纠正器SDDC或高级ECC,其结合ECC模式在单个内存芯片里纠正多位内存错误。通过比较,双设备数据纠正器DDDC可让服务器抵御两个内存芯片上同时发生的多位错误。增强型的DDDC或DDDC+1能在此基础上发现并纠正额外的单位错误。这些技术解决了范围更广的内存小故障,预防共工作负载崩溃。

内存镜像通过提供DIMM保护内存,对内存内容进行同步化的复制。当监测到有内存故障,系统交换到镜像副本,直到替换出故障的DIMM。市面上的新款服务器支持局部内存镜像:只对任务关键工作负载所用服务器部分内存进行镜像。显然,这是降低成本的一种方式。

处理器子系统可靠性


服务器可靠性最大的威胁是在于当内存或处理器故障传达到系统,并且在工作负载之间传递。数据遏制模式识别一个或多个内存位置有错误,预防其他进程继续使用。例如在发生不可纠正错误时,过滤模式阻止系统将网络数据移动到PCIe总线,隔离服务器,阻止任何意外的网络数据传输到用户或其他服务器那去。

服务器使用处理器清除,将工作负载从有错的处理器核心无缝迁移到空闲的核心。有错的处理器就一直空闲着,直到解决了错误问题。至于内存清除,处理器清除只能在你的服务器有空余核心时才能发挥效用,所以对于利用率高的主机来说不太方便,因为无法忍受宕机时间。如果你的服务器使用插座禁用功能,它甚至可以启动一个有故障的处理器。

可靠性服务器的其他功能


过去,服务器故障会导致关闭整个系统,修复有错的设备。某些服务器现在包括热添加或热插拔功能,所有在服务器运行期间,有相关技术能升级或替换核心组件,如CPU、DIMM、PCIe卡等。

热添加是电气工程的、BIOS和操作系统智能的结晶。某些操作系统,如Windows Server 2008 R2、Red Hat Enterprise Linux 6与SUSE Linux Enterprise Server 11,可在服务器运行期间识别新资源并加以配置。

作者

Stephen J. Bigelow
Stephen J. Bigelow

数据中心和虚拟化网站的高级技术编辑,拥有20年的PC和技术写作经验。

相关推荐

  • 提升服务器存储该选哪款SSD?

    基于PCIe的闪存存储相比基于SAS的设备,在数据中心服务器中面临的挑战更少,但同时有多种选择。

  • 高速PCI Express将把服务器带入新纪元

    PCIe的传输速度已经达到20甚至100Gbps,而且具备即插即用与可扩展性,这是数据中心迈出的有趣一步,因为有了更高的带宽,我们正在重新定义“什么是服务器”。

  • PCIe的未来是什么样?

    PCIe未来是什么样的?更新换代更快?PCIe是作为外围设备中占据统治地位的接口出现的,使用PCIe 4.0的系统与设备将在2016年面世。

  • 入门知识:服务器热插拔技术

    一旦服务器出现故障,通常不太可能像PC机那样停下机来进行长时间的维修(除非迫不得已),而是采用在线更换故障配件来进行维护的,这就是本文所要介绍的“热插拔”。