日志分析工具:数据中心管理的新装备

日期: 2015-06-04 作者:Stephen J. Bigelow翻译:徐继军 来源:TechTarget中国 英文

一种新型管理工具正在IT组织中成为主流。和繁琐的测试或评估方法不同,这些新兴工具关注的是系统和应用程序最常见的共同点:日志文件。 在复杂而严苛的数据中心环境中,通常会使用一些成熟的管理工具来查找隐患,但是这些工具无法感知细微的因果关联,数据中心的日常排错和优化目标难以实现。日志分析工具可以填补这些空缺,让IT专业人员在面对复杂的数据中心基础架构时能做出更有效和正确的决策。

几乎所有的系统和应用程序都会产生日志文件。日志是带时间标记的足迹,记录行为、条件和事件。在实际环境中,单独的日志文件价值有限。但当日志工具自动归纳和比较各种不同的日志文件之后,管理员就能拥有一个关于重点和问题的全新视图,并能……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

一种新型管理工具正在IT组织中成为主流。和繁琐的测试或评估方法不同,这些新兴工具关注的是系统和应用程序最常见的共同点:日志文件。

在复杂而严苛的数据中心环境中,通常会使用一些成熟的管理工具来查找隐患,但是这些工具无法感知细微的因果关联,数据中心的日常排错和优化目标难以实现。日志分析工具可以填补这些空缺,让IT专业人员在面对复杂的数据中心基础架构时能做出更有效和正确的决策。

几乎所有的系统和应用程序都会产生日志文件。日志是带时间标记的足迹,记录行为、条件和事件。在实际环境中,单独的日志文件价值有限。但当日志工具自动归纳和比较各种不同的日志文件之后,管理员就能拥有一个关于重点和问题的全新视图,并能对根本不可能手工处理的巨量日志实现深入分析。

泛滥的日志


在计算机程序执行过程中记录关键事件并非什么新发明。自从软件开发职业出现,程序员们就一直使用“output”语句(具体语句取决于编程语言)来报告重要的事件,将所有事件保存到一个文件供以后参考也就成了标准做法。如今的操作系统和应用程序通常会例行公事地记录一切事件,无论是好事还是坏事。例如,Web服务器可能会记录每个成功或失败的页面请求;微软Active Directory会跟踪记录用户的登录尝试或变动;数据库服务器会记录查询请求和结果,等等。

单纯的日志记录有其局限性。每个日志文件只与其所属的应用程序或操作系统关联,因此,管理员需要单独打开并查看每一个相关的日志。想在某个特定的日志中找到错误或关键事件并不难,但想要确定不同的系统或应用程序之间事件的因果关系则极其困难。即便是最厉害的管理员也无法在有生之年完成对多个日志的逐一筛查;让人类来处理海量事件的全部记录并要求看透其中复杂的关联,这是根本不可能的。

日志管理和分析工具负责对整个数据中心内的硬件系统、操作系统、虚拟化平台和应用产生的日志数据进行筛选、处理和生成报告。分析的最终结果能成为关键决策的有力支持。

日志分析有助于找出事件之间的关联和排除故障。例如,网络交换机配置的改变可能会导致某些应用程序用户的存储子系统出现超时问题。日志分析能展示问题点,并提示问题产生之前的任何事件记录。这种做法提高了寻找问题根源的能力,锁定变化多端或看似无关的问题原因以便对症修复。

“我开始对组织内部的IT运维分析工作产生兴趣,是因为只需汇总各种基础设施的功能日志文件条目就能轻松识别各种问题,而这些问题之前只能从单个服务器或单个应用程序上找原因,”Reach IPS IT主管和顾问委员会成员Tim Noble表示。Noble热爱和擅长大规模系统的故障排查和优化工作。

安全是日志分析的另一个重要目的。例如,Active Directory中新增用户的操作可能会伴随非法存储访问尝试记录显著增长。日志分析能报告这些尝试,并关联值得注意的事件,提供关于安全隐患的重要线索或者提示恶意用户的身份。作为另一个例子,受政府或行业监管的组织可以依靠日志分析来确保自己在安全、系统访问权限等各方面遵从管理法规。

为了维持或提高服务性能,日志报告和错误消息可以成为容量规划或架构变动的有效依据。

选择工具


面对种类繁多的日志分析工具,IT决策者必须根据自身数据中心和业务需求来选择最适合的一种或一套工具。这需要仔细比较每个产品的功能集和要求。

“我会从价格、安全性、可靠性和功能几个方面来评估SaaS日志工具。我需要归纳数据、创建明晰的仪表板,通过Api进行交互,并设置日志监视和警报,”旧金山湾地区技术顾问Ben Whaley表示。

在选择最佳工具时要重点考虑以下内容:

1. 评估日志分析需求。不同的工具在收集、解析和处理日志文件方面的能力各不相同,所以应该理清自己需要针对哪种日志文件进行管理和分析处理。不同类型日志的例子包括:来自Windows或Linux服务器的操作系统日志;Windows Active Directory日志以及来自DHCP服务器、防火墙、VPN、路由器和交换机的网络日志。日志管理和分析工具必须具备虚拟化感知能力。侧重安全的日志分析可能需要配合端点安全或身份验证工具,例如LDAP轻量级目录访问协议、Trustwave Data Loss Prevention网络数据丢失防范、Vormetric数据安全系列产品等。您还可能需要通过特定的商业应用程序(如 Microsoft SharePoint)、数据库平台(如Oracle 或SQL)、电子医疗记录等来源获取日志。

2. 权衡分析和报告功能。只能兼容当前的日志文件是不够的。因为日志管理和分析工具种类的急剧增长,这些工具也会变得专用化,适合不同专长的IT团队。例如,如果你的基本目标是安全事件的识别和调查,请考虑采用针对安全信息和事件管理的SIEM工具,而不需要考虑额外的容量预测等功能。

留意数据处理、访问和报告的途径。一些工具提供直观的驾驶舱式的仪表盘,而其它工具则会生成详细的、正式的、可配置的报告。

支持搜索功能的分析工具允许用户随时按需定位和关联事件。“整合日志分析让我们能够使用‘成功启动’和‘处理失败’等关键字搜索和鉴别系统中发生的好事和坏事,从而通过收集事件来评估我们的升级是否成功,定位和跟踪发生的问题,”某联邦政府承包商CTO表示。

3. 选择平台。和多数传统管理工具一样,某些日志管理和分析工具会使用本地安装和部署模式。本地安装的例子包括ManageEngine的EventLog Analyzer、SolarWinds的Log和Event Manager以及AWStats。本地安装模式下,用户直接操作安装过程,包括数据采集、储存、处理和报告相关的设定。

越来越多的工具可以作为云服务或软件即服务(SaaS)提供在线使用,例如Loggly、Splunk、Sumo Logic和Sematext等等。这些服务按月收取费用,不再需要任何硬件,也不会产生安装或维护管理工具的IT人员开销。

别忘了接口API,它们是企业的工具和各种日志或其它应用程序之间的桥梁。

4. 审查工具的扩展性。无论选择哪种平台,都应确保所选的日志管理和分析平台足够应对当前和可预见的未来规模。确定自己是希望从数以万计的需求各异的服务器和设备收集、存储、处理、关联和报告日志数据,还是只需要管理几百个系统。

5. 评估安装的前期条件。任何日志管理和分析软件都会增加运算和环境压力,所以请确认您有足够的服务器和存储资源来支持该工具的正常部署。例如,SolarWinds的Log and Event Manager安装要求中指出,要求VMware ESXi 4.0或Hyper-V Server 2008 R2和更高版本,一个双处理器服务器,3MHz计算资源、8GB系统内存和250MB的应用程序存储空间。更高的数据采集速率,或涉及大型数据中心基础设施的部署往往对应更高的要求,例如更多的处理器和更多的网络带宽。

另一种选择是:以一体化设备形式部署的工具:例如,SevOne的Performance Log Appliance采用整机部署,不需要额外的计算机硬件。

规避日志分析误区


这听起来很简单:只要将所有的日志文件导入工具,分析向导就会给你展示事件和关联。

实际上并不简单。

日志的兼容性是最值得注意的问题。不同硬件设备、操作系统、应用程序和其它来源产生的日志文件在结构、格式、上下文和内容各方面差异巨大。面对由整个基础架构的方方面面产生的纷繁的日志类型和格式,单个日志管理和分析工具可能难以全部打开和提取。事先评估组织的分析需求可以减少兼容性问题,但仍然难以完全避免。

Whaley表示:“大多数厂商的多行格式的日志似乎并不好对付。如果一个日志的语句包含多行,在管理界面中信息就会分散,而且很难拼凑完整。”

第二个问题和日志底层的时间标识有关。日志工具通常根据时间戳来为不同日志之间的事件建立关联(尤其是非实时执行的的事后分析)。时钟误差并不会阻碍严重事件被记录或报告,但可能会导致日志工具错过不同日志之间潜在的因果关联——这可是你使用此工具的主要目的。检查你是否需要同步设备的时钟,或者是否需要使用工具来让不同日志之间的时间能正常对应。

第三个限制来自分析结果。查看每一个事件的流水帐几乎毫无意义;你可能只需要关注负面事件,或者找出特定的事件。搜索功能的有限或缺失会使特定问题的定位非常困难,例如查找存储错误或失败的登录尝试等等。在发现一个问题并产生警报的同时,该工具还应该能够提供可操作的指导,如果没有搜索能力,这一点也难以实现。在检测到问题时能够向你发出问题警报,按需定位问题提供可操作的建议,这样的日志管理和分析工具才真正有用。查看关联动作会有收获,但要想解决一些严重故障,或需要仔细排查以确定实际问题,最需要的不是工具,而是你的用心投入。

尽职尽责,就一定能阻止每一个潜在的问题。利用供应商提供的免费演示来测试最新的日志管理和分析产品,长期在理论验证项目上投资,通过这些措施来仔细审核日志工具。寻找最有利于你的组织的产品或服务,并且一定要检查产品路线图,考察日志工具的未来版本发展是否能跟上你自己的数据中心规划。

挖掘宝藏


经历几年的积累之后,日志内容的潜在规律会逐步显露,这会让工具在发现和报告问题方面有更好的表现。

“我希望在检测到异常时能有自动警报,”Whaley表示,“我希望看到一些获得全部厂商支持的标准,然后开发人员们就可以利用内部应用程序为每条日志消息的涵义给出通用的解释。”

对于许多IT组织已经在使用的各类系统或基础设施管理工具而言,日志管理和分析工具并不是替代品。但是,筛选并利用已有的各种(通常被忽视的)日志信息,挖掘潜在价值——这无疑是一项能与当前的管理措施并存的备受期待的新功能。

本文选自《IT新架构》四五月刊:物联网号

作者

Stephen J. Bigelow
Stephen J. Bigelow

数据中心和虚拟化网站的高级技术编辑,拥有20年的PC和技术写作经验。

翻译

徐继军
徐继军

TechTarget中国特约作者

相关推荐