一切为了全局:大型机系统监控工具巡礼

日期: 2011-08-21 作者:Robert Crawford翻译:黄永兵 来源:TechTarget中国 英文

及时全面的监控是大型机管理的重要任务之一,幸运的是,有一个历史悠久的工具可以提供对大型机系统的深入洞察,本文将讨论各类大型机系统监控软件,并提供现实工作中可以使用的工具,我将系统监控工具分为三大类:应用程序性能分析器、报告系统和系统监视器。   应用程序性能分析器   应用程序性能调优可能很困难,有时问题在测试环境中无法复制,系统跟踪会导致开销过大,却没有包含足够正确的信息。   专门设计用于收集详细信息的工具,不仅能提供应用程序性能分析报告,还为减少I/O,提高数据库效率提供专业的建议。   如Compuware的Strobe和Trilog的TriTune,使用了低开销采样技术,从主体提取信……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

及时全面的监控是大型机管理的重要任务之一,幸运的是,有一个历史悠久的工具可以提供对大型机系统的深入洞察,本文将讨论各类大型机系统监控软件,并提供现实工作中可以使用的工具,我将系统监控工具分为三大类:应用程序性能分析器、报告系统和系统监视器。

  应用程序性能分析器

  应用程序性能调优可能很困难,有时问题在测试环境中无法复制,系统跟踪会导致开销过大,却没有包含足够正确的信息。

  专门设计用于收集详细信息的工具,不仅能提供应用程序性能分析报告,还为减少I/O,提高数据库效率提供专业的建议。

  如Compuware的Strobe和Trilog的TriTune,使用了低开销采样技术,从主体提取信息的过程只要几微秒,在分析的样品后,引用一个内存映射,识别重度使用的例程或“热点”,经过分析,应用程序开发人员可以使用这些信息,弄清楚如何使例程更有效率。

  系统监视器

  系统监视器使用探针(钩子)进入系统和子系统内部收集底层数据,这些工具可以显示各种信息,从整体性能到地址空间详细信息,甚至可以显示逻辑分区中任何字节,许多系统监视器也提供了修改系统设置的功能,轰击存储,这样的功能必须谨慎使用。
有些厂商提供的系统监视器适合不同的子系统,有z/OS监视器的公司可能也有CICS监视器,可以链接到DB监视器,在不同产品之间提供“synergy”。

  许多不同的系统监控工具可以提供不同水平的监控功能,唯一受限的是客户愿意支付的金额。

  最著名的是IBM的Omegamon,BMC的Main View和CA的Sysview。

  此外,还有很多自动化工具和监视器紧密联系在一起,看起来是理所当然的,因为自动化工具可以在第一时间发现问题并报告,并且可以做出自动化响应。

  报告系统

  监控工具善于在华丽的网页上以仪表板形式显示不同时间点的数据,但是,其它如容量规划和详细的事后剖析侦错,需要能够汇总和报告海量数据的工具,大型机子系统已经提供了这类摘要信息类型的工具,如MXG可以很容易地吸收z/OS上每一种系统管理工具(SMF)创建的记录,IBM的资源测量工具(RMF)及其配套的报告工具每隔60秒就可以刷新一次资源使用情况的详细信息。

  当然,原始信息是好的,但汇总数据进行分析更好,SAS Institute的IT资源管理(ITRM)很好地汇总了MXG收集的数据,IBM也有一些工具汇总各子系统产生的数据,如CICS性能分析器和各种DB2性能工具。

  好监视器的品质

  根据我的经验,监视器是最贵的软件类型之一,价格通常会达到6位数,因此,在付钱之前要睁大眼睛看清楚,下面是我整理的一个清单,描述了监控软件选型时需要考虑的因素的重要性。

  信息:企业购买监控工具是想洞察他们的系统和应用程序的行为,如真实工作负载下的处理性能,确保工具报告的内容是你希望看到的,它们还应该清晰地展示信息,简洁,毫不含糊。呈现信息的方式多样,但应该满足你的具体要求,最后,一个好的汇总程序可以使你收集、汇总和分析数据变得简单和优雅。

  开销:实时系统和应用程序监控不是“免费”的,它们总会消耗一些CPU或其它计算资源,一个好的监视器在收集数据时应该开销很低,做得更好的应该让用户选择收集数据的详细程度,试想一下,我们本想追踪一下可望而不可及的性能问题,但却发现监视器本身拖累了系统。报告系统很少对自身的开销有说明,如果每天都连续收集,肯定会引起新的性能问题,此外,收集的数据存储也是一个问题。

  系统接口:为了收集底层信息,监视器必须应用软件探针(钩子)深入到目标系统,设置探针的方法也有好有坏,最好的方法,包括利用IBM提供的退出点和有文档记录的接口,软件需要重新连接系统模块,或最糟糕的是修改系统代码都不太理想。

  可靠性:系统监视器或应用程序性能工具在各种敏感的应用程序上运行,这要求速度要快,并且代码无缺陷,监视器应该提供安全控制调用,监控软件中的一个错误可能会导致整个重要子系统崩溃,如JES2,安全性不好的监控工具,可能会给那些没有经验或不怀好意的人破坏系统提供机会。

  集成:正如前面提到的,有些监视器可以和各种子系统良好协作,具有一致的用户界面,完整的接口,例如,标识CICS区域CPU使用量高的监视器是很好的,你可以从表象下钻,直到发现循环CICS事务。

  易于维护:有些工具可能难以维护,因为它们有多个系统接口,但是,好的软件将按照IBM的建议安装和执行程序。

  展现:Web用户界面都很漂亮,容易使用和阅读,但是,一个漂亮的前端必须填充相关和广泛的信息,对我来说,更重要的是获得必要的信息,即使这意味着要登录到一个基于文本的屏幕。

作者

Robert Crawford
Robert Crawford

数据中心专家

相关推荐