上文中我们已经总结了一些X86服务器的常见硬件故障,本文中,我们将继续介绍其它几种故障。
硬盘
故障回放:某服务器近期经常出现死机、无征兆的重启,经数据中心IT运维人员进行检测后发现是硬盘工作时间太长,出现了物理坏道。于是立即将此硬盘拆下,将硬盘内的数据导出,结果在转移数据的过程中,不停地弹出I/O错误,这直接导致数据转移的速度非常慢,且丢失了很多重要数据。
解决方案:这种情况多数是磁头或者盘片出现了错误。联系专业的数据恢复公司,拆开硬盘,果然是盘片出现了划伤,好在划伤面积并不大,更换磁头后重新恢复数据,恢复了95%以上的数据,算是比较好的结果了。
这个故障发现的及时,在盘片没有出现更多物理损伤前予以解决,如盘片损坏严重,数据将永久性丢失,为了避免这种状况的发生我们需要做到以下几点:
选择质量上乘的服务器硬盘,比如:平均无故障时间超过1600000小时,年故障率低于0.55%,抗震方面要有300G/2ms的以上的耐冲击能力等等;
关键服务器采用RAID模式,比如:RAID5,它由至少3块硬盘组成,在向硬盘写入数据信息的同时,还写入校验信息,当其中有1块硬盘出现故障时,可以根据算法从另外2块硬盘上得出这块故障硬盘的数据,安全性大大提高。
RAID
故障回放:某企业更换新的数据中心,服务器需要逐步迁移,一台文件服务器成为先行者。这是一台采用的RAID1容灾策略的服务器,迁移过程中没有任何问题,但是使用不久一次雷暴天气后服务器异常关闭,经检测防雷系统并没有起到应有的作用,导致服务器两块硬盘同时损坏。
解决方案:对于RAID1来说,只能允许一块硬盘的损坏,当2块硬盘同时损坏后,数据将全部丢失,对于RAID3、5来说同样如此;而对于RAID6,虽然支持两块硬盘同时掉线,但是第三块盘再度掉线后,系统将也将全面崩溃!
上述故障数据将是不可逆性恢复,由此可见RAID技术虽好,仍有一些弊端,因此对于极其重要的服务器我们不仅仅要做出RAID的策略,还要将核心数据同步备份到其他介质,比如:磁带、磁盘等。
主板
故障回放:根据日志的记录,Wsus服务器在凌晨2点宕机了,回滚当日监控录像和环境记录,没有任何异常,起初怀疑是病毒或者策略等软件因素造成的意外状况,但是重启服务器时却是另外一番景象。
开机→风扇转动,电源模块指示灯狂闪→尚未自检,随即再次启动→电源模块指示灯再次闪烁,如此周而复始。
解决方案:更换CPU、内存插槽,更换电源模块,插拔硬盘,故障依旧,将这些设备放置到同型号的服务器上,没有任何问题。于是怀疑主板损坏,联系厂家工程师,经检测确实是主板故障,更换主板后恢复正常。
同CPU一样,主板的故障率是比较低的,但是它的危害程度却远高于CPU,对于多路服务器来讲,单一CPU的损坏并不会影响整个服务器的运转,我们失去的或许只是性能和速度;而对于主板,它几乎没有替代品,只能依靠厂家的更换,因此它的危险性较高。
静电
防静电、雷击的UPS已普及
故障回放:一间极为普通的机房内,春节过后,准备手动升级病毒库,刚刚触摸服务器,瞬间一个电火花出现,紧接着服务器死机了,重新启动服务器很多数据莫名其妙的丢失。
解决方案:不要小看这电火花,当人体接触金属物质产生电火花时,人体的静电电压已经超过3000伏,而硬盘只需1000伏左右的静电就会造成数据丢失,因此防静电工作务必做好,如今机房最为普遍、最为简便的防静电措施就是铺设防静电地板,它不仅能过滤很多的静电,在防火、防潮、防锈方面也起到很大作用,保护效果非常明显。
另外,闪电、雷暴等自然灾害也会造成硬件的损坏,这要破坏要远远高于静电,所以保护硬件安全也需要部署B/C级防雷。
不明原因的故障
故障回放:有故障现象,无故障原因
解决方案:类似的事情有很多,比如说系统蓝屏,可能是软件冲突,也可能是病毒,还可能是内存,亦有可能是主板电容爆掉……,面对这种故障我们很难第一时间与以判断,这个时候我们就需要在综合的角度进行考量。
首先重装系统,排除软件的故障;然后,逐一替换系统硬件,排除硬件故障的可能性;如问题依旧就需要考察服务器的应用环境是否正常,比如电力供应是否满足需求,温湿度是否在正常指标之内,机房的洁净度是否合规,服务期内的灰尘是否太多等等。很多时候故障出现的时间并不固定,短则几分钟,长则数天,没有任何规律,对于我们排错和控制造成了很多麻烦,但是细心+耐心总能找出问题的关键点,最终解决。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
提升应用程序弹性:保障工作负载正常运行
应用程序的弹性和可用性是现代企业工作负载的关键属性。应用程序需要在硬件故障发生后,扛过服务故障(例如负载平衡器和域名系统错误)保持工作状态,并且可以忍受局域网和互联网中断的影响……
-
进行电源循环测试以避免硬件故障
不要让意外停机时间中断你的数据中心。进行电源循环测试以主动监控系统,并以有条不紊、有序的方式识别硬件故障……
-
联想建立欧洲x86服务器生产地 八一八背后的原因?
根据最新消息,联想将与Flex联合在匈牙利设立首个欧洲数据中心服务器、存储和网络等产品的生产地。联想称此举将为欧洲客户带来更快的交货时间和更低的成本。
-
戴尔x86服务器出货量2015年第一季度再次领先中国市场
戴尔日前宣布,根据IDC 2015年第一季度亚太区x86服务器市场季度跟踪报告显示,戴尔以21.7%的市场份额并列中国区x86服务器2015年一季度出货量第一。