如何在服务器在线模式下诊断硬件故障

日期: 2012-08-20 来源:TechTarget中国

    服务器技术已经发展几十年,但随着互联网信息技术的发展。云技术和移动平台成为新的技术标准。为了使终端更便捷,客户端会采用手持式移动设备和浏览器,并要求相关的数据和程序须保留在“云”端。随着云技术和移动平台的发展,服务器的数量和规模必将成几何级数的增长。故障和问题也会成倍增长。但和在个人使用的情况不同,网络化的服务器由于同时支持众多的操作者。运行不同的网络应用程序。管理众多的本地和远程设备。其设备的故障诊断就相对复杂。

    UNIX本身是为复杂网络化环境设计的操作系统,而AIX操作系统是最大的系统集成商IBM开发的第二代UNIX,具有性能完善,使用方便,扩充性强,适合企业关键业务等特点,所以本文实例均在AIX环境下实现。

    1、故障概述

    服务器的在线模式故障是指服务器发生了一般性错误。这些错误虽然不至于系统崩溃。但影响系统的正常运行,影响数据的健壮性,并有进一步扩大危害的可能。系统的问题和故障应该及早发现。并及时进行处理和解决,避免进一步的危害,引起严重后果。及早的预判。及早的发现。及早的排查是故障诊断的关键。

    2、系统故障分析和判断

    系统硬件故障分析可以使用diag命令进行分析和判断。

    在系统管理员状态下运行命令#diag进行硬件诊断程序。检测主机内硬件存在的问题。

图1 系统故障分析和判断
   

    1)基本系统

    2)I/O设备

    3)异步设备

    4)图形设备

    5)SCSI设备

    6)存储设备

    7)通信设备

    8)多媒体设备

    #diag —S

    在所有资源上运行诊断。

    3、查看系统的错误日志

    在系统运行时,一些系统错误会记录在errlog中,其中有些错误还会在终端上显示。检查错误日志可用以下命令

图2 查看系统的错误日志

   
    4、DUMP

    当系统发生软硬件故障导致宕机时,系统将搜集故障发生时系统的内存和处理器状态等信息,产生DUMP文件,并且在液晶屏上显示888开始的代码。记录第二段开始的故障码,并分析DUMP状态码有助于分析故障原因,找到问题所在。

    5、日常检查服务器状态的项目及其相关命令

    作为辅助。定期运行检查服务器性能的相关工具和命令,有助于掌握服务器状态,预测故障点,相关命令包括:

    Iostat

    查看系统I/O状态。分析CPU对各端口的服务占比,了解硬盘swap空间和内存的数据比例关系。

    Vmstat

    查看系统虚拟内存状态信息。

    Sar

    Sat查看系统活动状态信息。

    Topas

    Topas可以监控系统内存,CPU,I/O端口,swap空间的情况

    no 命令用来修改内核参数。调整系统性能。

    Svmon

    svm on 命令用来查看系统当前的内存的具体使用。

    6、结论

    任何完好的系统它都不可能一点错误或故障都没有,网络服务器系统在运行时总是会或多或少的问题出现,虽然AIX系统具有自动诊断错误和故障的能力,但用户熟悉系统,并定期监视诊断系统的运行情况,方可避免不必要故障的发生。本文相关维护方法在IBM P520服务器,AIX 6.1操作系统下实现通过。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐