中国银行服务器宕机4个小时之后的思考

日期: 2013-01-15 来源:TechTarget中国

  随着“中行宕机4个小时”话题愈演愈烈,编辑部近日偶然收到了读者的投稿,而在阅读了这篇文章之后,我们认为有必要将之与大家分享,这是其中的第一篇。

  都说主机的可用性高,最高能达到99.999%。97年在IBM培训的时候,说主机每年的宕机时间就5分钟,对7*24的业务带来无比的自信。而相比工业标准服务器,很多客户感觉就是没有安全感。所以很多人单单对主机崇拜。

  最常见拿飞机和汽车作为例子进行比较,主机和工业标准服务器的可用性,就像飞机的安全系数远比汽车高很多,是很形象。飞机每100万次飞行,重大事故才不到一次,而中国每年汽车事故死亡的人数就超过10万。同时这个正是一个很客观的比较。我们不妨延伸一下这个例子:

  1、飞机的冗余部分相当多,引擎都是2个(大机型还是4个),坏了一个,另一个能保证全程飞行。而且一般都有电子和机械两套控制系统,连机长都是两个。汽车就简单了很多,除了刹车失灵有个手刹,爆胎有个备胎外,我没有想到其他冗余的部件了。主机和飞机也一样,很多部件是冗余的,连执行流水线都是冗余的,两个流水线同时执行一条指令,如果结果不一致,重新执行。再不一致,激活空闲的处理器,而普通服务器就不可能做到这点。

  2、开飞机的都是经过一年多培训的专业飞行员,花费上百万。飞行员本身的身体要求也是极高的。而开汽车的什么鬼都有,还有持假驾照的,我以前一个同学一个眼睛严重弱视,居然还在每天开车。主机的系统管理员需要专业的知识和经验,就像飞行员,我们每次坐飞机听到年长一点的机长讲话,心里好像更踏实一点。而普通的服务器管理员很多都是新手(高手都做领导了),误操作时有发生。

  3、飞行的整个操作流程也是很严密的,必须准确无误,尽管重复了几千次,但每次起飞,降落,机长还是对着手册念一遍。而开汽车,很多人都乱来,还有违章的。而比如主机当中对参数的修改,必须要提出change request,任何未经授权的改动都是不允许的

  4、飞机的航路,航速有明确的规定,而且有塔台指挥。而开汽车就是全凭自己指挥,随意超速,随意并线,加塞的是常态。主机的硬件也是不能由客户主机随意改动,而现实生活中,x86服务器是很容易被客户随意改换处理器,内存,硬盘配置的。我还遇见过客户随意改动内存配置大小,结果把RDIMM和UDIMM搞混,造成大面积不明原因的宕机,却归咎于质量问题的情况。

  5、飞机遇雨雪大雾等恶劣天气,就会取消飞行,而汽车强行上路的却大有人在。

  6、飞机一飞一检,汽车基本一年一检。

  尽管飞机事故是小概率事件,而汽车事故每天都在发生,但通过以上一些分析,至少有一个共同点,绝大部分飞机或汽车的事故,都是操作不当或是外界因素引起的。如果每个人能像驾驶飞机一样去驾驶汽车,维护汽车,一样合规,一样诚惶诚恐。那汽车事故一定会降低到一个人们可接受的范围。飞机目前的事故率也不是零,而是控制在一个人们可接受的范围内,不是吗?

  所以,使用服务器,道理却是一样的。就单个部件的可靠性而言,主机和工业标准服务器一样。就整个硬件系统而言,主机有优势。而最终的可用性是不是在你的接受范围之内,主要取决于你怎么使用和管理这个硬件,进而带来的整体系统的可用性的差距。比如,微软05年就提出了Windows DataCenter的版本。那不是一个单卖的OS,而是和硬件的集成系统。硬件配置不允许随意改动,所用软件也必须是认证的。这样的系统,也能达到非常高的可用性。而我那个弱视的同学开汽车,无疑就是使用不当,给主机安装了一个不知道哪个网店淘来的硬盘,不宕机才怪。

  在工业标准服务器快速发展的今天。云、大数据大行其道的今天。我们更应该合理地,合规地使用好,管理好这些设备,克服人们心中的障碍,用最合理的成本,构筑你理想的数据城堡。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐