计算新标杆:RAS2.0,重新定义关键业务服务器

日期: 2015-09-10 来源:TechTarget中国

提及关键业务服务器,必有一个与之紧密相关的词会伴随左右,那就是RAS特性(Reliability,可靠性、Availability,可用性和Serviceability,可维护性),甚至不夸张地讲,用户对于RAS特性的关注程度不亚于对性能、可扩展性的重视。这是为什么呢?因为RAS特性关乎关键业务能否连续地运行下去,而关键业务一旦出现问题,造成的损失是难以估量的,其关系到企业的声誉、关乎企业未来发展。

根据Network Computing, the Meta Group and Contingency Planning Research于2011年发布的一份调研报告显示,由关键业务服务器非计划内停机造成的损失,金融业为648万美元/小时,能源行业是280万美元/小时,电信行业是200万美元/小时……而且这些还不包括由此带来的包括客户流失、品牌影响力下降等无法直接衡量的负面影响。

到此,相信你也能够明白为什么x86架构的关键业务服务器在与小型机争夺市场过程中要不断强化RAS特性了,说白了RAS特性对于企业关键应用而言太重要了,要想与小型机争夺市场,提升RAS特性是必需的。那问题来了,时至今日,x86关键业务服务器的RAS特性与小型机相比究竟如何,二者是否能同日而语呢?

x86关键业务服务器面临的挑战

严格意义上说,在关键业务领域,x86服务器的RAS特性已经逼近小型机,甚至已经超过了部分小型机,这一点从众多第三方研究机构发布的测试报告就能略知一二。比如,根据ITIC(Information Technology Intelligence Consulting Corp.)2014年发布的过去12个月各服务器平台的非计划停机时间对比报告显示,IBM的x86服务器可以达到与Power服务器一样的水平(94%的服务器停机时间小于等于40分钟,有5%的停机时间在41分钟至4小时之间,剩余仅有1%的停机时间在4小时以上),而这也超过了其它像安腾、SPARC等小型机平台的可靠性。

ITIC 2014年发布的过去12个月各服务器平台的非计划停机时间对比报告

至于原因嘛,与技术的演进、英特尔的努力都密不可分。这些年,不断有增强平台RAS特性的技术出现,同时,英特尔也在不断地将原本只存在于小型机上的一些技术下移到x86平台,从而使x86平台的实力得到了大幅提升,才有了今天比肩小型机的可能性。

ITIC 2014年发布的服务器可靠性调查报告显示,从2009年到2014年,x86服务器+Linux操作系统的可靠性大幅提升,已经无限逼近IBM Power+IBM AIX的组合。

不过话说回来,即便如此,在不少用户的印象或者认知中:x86的可靠性、可用性仍然赶不上小型机,倒不是这些用户不相信第三方的评测报告,也不是他们冥顽不灵、只认可小型机,只能说这与x86服务器的发展路径有着些许关联。

众所周知,x86服务器的演进路线是从低端逐渐迈向高端、从单路服务器向多路服务器,再到关键业务服务器,一步步地扩充、完善产品线,直到今天。反观小型机,则一直是高高在上的一种姿态。举个不太恰当的例子,这就好比大众辉腾和奔驰、宝马之间的关系,纵使辉腾品质与同级的奔驰、宝马差不多,甚至还要高于奔驰、宝马,但于用户而言,接受辉腾总是需要一个过程的。从这个层面来看,对于用户而言,接受x86关键业务服务器无疑也是需要时间的。

另外,造成用户对x86关键业务服务器认知有偏差的还有一个因素就是厂商水平的良莠不齐。同样是英特尔至强E7 v3处理器,可能限于开发流程、器件选择、研发能力的差异,不同厂商设计生产出来的产品就是不一样。这一点从ITIC发布的报告多少也能看出,同样是x86服务器,品质并不相同,这也给用户带来了一定的困惑。

人们都说机会和挑战往往是并存的,前文谈到了x86关键业务服务器所面临的挑战,主要是两点:一是用户认知问题,二是厂商水平参差不齐。前者需要通过不断的技术验证、案例应用以给用户更多的信心,后者则真正考验着服务器厂商的实力,谁有能力做的更好,谁可能会最先得到用户的认可。在这方面,华为可以说是走在行业前列的。究竟华为做了哪些超前的准备,我们下面来一一展开。

机会与挑战往往并存

在讲华为关键业务服务器的RAS特性之前,在此有必要明确一点,那就是一般x86服务器厂商所生产服务器的RAS特性如何。用通俗的话解释,一般的x86服务器,其RAS特性主要依赖于处理器的RAS特性。什么意思呢?就是处理器有的特性,你这服务器可能有,处理器没有的,你这服务器基本就没有。在这里笔者特别强调了“可能”和“基本”两个词,“可能”意味着即便处理器有这项特性,但厂商不一定有能力把它用起来,而“基本”则意味着如果处理器没这项特性,厂商几乎也没能力通过其他方面做弥补。

其实,“可能”和“基本”两个词也是在笔者看来做x86关键业务服务器的两个层面,第一个层面是你有能力实现x86处理器原有的特性,二是在基础上还能做进一步的深化。做个形象的比喻,第一个层面好比考试时的必答题,第二个层面则是加分题,能完成必答题说明你已经有一定的实力,而只有答完加分题才能脱颖而出。

因此,之所以说华为走在了关键业务服务器的前列,也是因为其不仅能够完成必答题,而且加分题做的也不错。比如,在必答题项,华为能够100%实现英特尔至强E7系列处理器的RAS特性;而在加分题项,华为深入每一个器件,以保证最终产品的可靠性。

华为自研的BMC(板载管理芯片)

具体而言,以必答题为例,为实现100%的Intel Run Sure RAS特性,华为从底层芯片(包括板载管理芯片BMC、存储控制芯片等)到操作系统(华为Euler OS)均考虑到了可靠性设计。举个例子,其自研的BMC和BIOS凭借固件优先模式能够先于操作系统发现并处理故障,通过此项技术可屏蔽60%的可能引发操作系统宕机的故障;再比如,在存储控制芯片中,华为利用自研的均衡型读写磨损算法,可有效避免存储颗粒高频度非均衡读写导致的存储设备寿命提前结束、数据丢失等问题,实现5个9的数据可靠性。更多华为独有的创新之处这里不再一一列举,就像前文所讲从底层芯片到操作系统每个细节都体现着华为的创新精神。

RAS2.0,加出来的1.0体现在哪?

说完了必答题,我们再讲讲加分题。如果说能够100%实现处理器本身RAS特性所生产的服务器我们称其RAS特性为1.0水平的话,那华为关键业务服务器俨然就是2.0的标准。下面我们看看华为是如何深入每个器件保证系统可靠性的。简单来说,就是两个原则,使用正确的器件和正确的使用器件,这不是绕口令,前者代表会选,后者意味着会用。这么听起来可能比较抽象,下面通过一个较为完整的流程,带你大致了解下华为对于器件的选择和使用。

首先,在器件供应商的选择上,华为会采用TQRDC-ES原则,分别从技术、质量、响应、供货表现、社会责任、环境保护等多个层面进行严格筛选。其次,器件选定后,华为会100%采用降额设计,也就是使器件工作中所承受的压力(主要是电应力和温度应力)低于额定值,以达到降低器件故障率,提升可靠性的目的,而且在此基础上,华为还设有专门的器件中心对器件进行工艺剖析、失效分析,以确定器件能够满足华为的要求。

随后进入下一阶段,FMEA:failure mode and effect analysis(失效模式和影响分析)。在该阶段,华为会分析所有故障影响,优化故障管理能力。对于严重故障,要求避免;对于需要处理的故障,要求能检测并定位到FRU。接下来是高可靠硬盘设计、热设计、冗余&热插拔设计。

到此并不算完,经历过所有这一切研发、生产出的成品还要经历一系列严苛的测试,比如降额审查(对单板选用的器件进行降额审查,以确保所选器件满足降额要求)、环境气候测试、振动冲击试验、EMC试验等,最终才会出现在客户面前。

可能以上筛选、测试、设计环节听着比较抽象,我们看看通过这一套流程最终得到的产品究竟是什么样。鉴于我们不可能把产品所有方方面面的特性都列举在此,因此只举几个典型的例子来说明一下。比如,全模块免开箱更换部件设计,1分钟就能免工具实现部件更换;再比如全模块100%热插拔设计,像风扇、电源、硬盘的热插拔已不值一提,而包括CPU模块和内存板的热插拔均能在华为关键业务服务器上得以体现。除此之外,还有像PFA(预故障分析)、分区技术也都处于业界领先地位。

更多特性这里不再一一列举,如前文所讲,如果说完成必答题的水平是1.0的话,那华为在RAS特性方面可以说已经到了2.0的水平,其能够为用户提供增强的可靠性、可用性及可服务性,给用户更多保障。当然这话也不是笔者说的,而是得到业界和用户认可的。

他们都说好

如果只有少部分人说你好,那你并不一定真的好,但如果得到了大多数用户的认可,那就能说明一些问题了。根据华为给出的数据显示,在一系列严苛的筛选、测试、分析……后,最终研发、生产出来的关键业务服务器成品相比标准x86服务器,RAS特性能够提升达30倍,宕机时间减少85%,并达到5个9(99.999%)的可靠性。

华为FusionServer RH8100 V3 关键业务服务器荣获2015东京Interop银奖

而借助着超乎寻常的可靠性,华为关键业务服务器不仅获得了多项大奖,且在对可靠性要求极为严苛的电力、金融等领域也深受用户好评。比如,在2015东京Interop大奖评选中,华为FusionServer RH8100 V3 关键业务服务器,凭借创新的高可靠性设计、灵活扩展能力和卓越的计算性能荣获Interop银奖。

同时,根据IDC去年发布的报告显示,2014年华为四路、八路关键业务服务器均获得了长足进步。 在国内电信运营商、金融、能源、政府等行业陆续以大份额赢得了行业大单。同样,放眼海外市场,其在西欧、亚太、中东、拉美等地区同样取得了不俗的业绩。具体来说,IDC数据显示,2014年前三季度华为四路和八路服务器的发货量为2013年全年的4倍。由此可见华为关键业务服务器成长之快,用户认可程度之高。

笔者并不想过分地去夸华为关键业务服务器怎么好怎么棒,更想通过全方位地介绍,让你了解其有关关键业务服务器的种种。可以肯定的是,华为并不甘于只做必答题,让其关键业务服务器停留在RAS1.0的时代,而是会通过不断地创新,增强服务器的RAS特性,为用户提供更可靠的关键业务服务器产品。所以回到题目本身,对于x86架构的关键业务服务器而言,RAS2.0未来必然会成为标配,华为无疑走在了前列。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐