揭秘机器学习算法

日期: 2015-07-29 作者:Mike Matchett翻译:张冀川 来源:TechTarget中国 英文

由于我们所提供的信息,数据中心机器正在变得越来越智能。怎样使机器学习为你所用呢?

机器学习是大数据能够给组织带来智能运营的关键组成部分。尽管机器学习算法趣味无穷,但技术本身很快就会变得复杂起来。所有人不可能都成为数据科学家,但IT专业人士需要了解我们的机器是如何学习的。 

揭开神秘的算法 

我们越来越多地看到机器学习在实用和可实现的目标上的价值,例如针对数据寻找可用的模式然后进行预测。通常,这些预测模型用于操作流程以优化决策过程,但同时它们也可以提供关键的洞察力和信息来报告战略决策。

机器学习的基本前提是算法训练,提供特定的输入数据时预测某一概率区间内的输出值。请记住机器学习的技巧是归纳而非推断——与概率相关,并非最终结论。

构建这些算法的过程被称之为预测建模。一旦掌握了这一模型,有时就可以直接对原始数据进行分析,并在新数据中应用该模型以预测某些重要的信息。模型的输出可以是分类、可能的结果、隐藏的关系、属性或者估计值。

机器学习技术通常预测的是绝对值,比如标签、颜色、身份或者质量。比如,某个主题是否属于我们试图保留的用户?用户会付费购买吗?用户会积极响应邀约吗?

如果我们关心的是估算值或者连续值,预测也可以用数字表示。输出类型决定了最佳的学习方法,并会影响我们用于判断模型质量的尺度。

谁对机器学习方法进行监督?

机器学习方法可以是有人监督也或者是无人干预的。区别不在于算法是否可以为所欲为,而是是否要从具备真实结果的训练数据中学习——预先确定并添加到数据集中以提供监管——或者尝试发现给定数据集中的任何自然形态。大多数企业使用预测模型,对训练数据使用监督方式,而且通常旨在预测给定实例——邮件、人员、公司或者交易是否属于某个有趣的分类——垃圾邮件、潜在买家、信用良好或者获得后续报价。

如果在开始之前你不是很清楚在寻找什么,那么无人干预的机器学习方法能够提供全新的洞察力。无人干预的学习还能够生成集群与层次结构图,显示数据的内在联系,还能够发现哪些数据字段看起来是独立的,哪些是规则描述、总结或者概括。反过来,这些洞察能够为构建更好的预测方法提供帮助。

构建机器学习模型是一项反复练习的过程,需要清理数据和动手实验。目前市场上正在涌现一些自动和有向导的模型工具,它们承诺降低对数据科学家的依赖性,同时在常见领域获得最高的投资回报率。然而这里面真正的差别很可能需要你自己去发现。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者

Mike Matchett
Mike Matchett

Mike Matchett is a senior analyst and consultant at Taneja Group.

翻译

张冀川
张冀川

TechTarget中国特约专家,任职于某国企信息中心,负责数据中心硬件基础设施及信息系统运维管理工作,对虚拟化及云计算技术有浓厚兴趣,并在工作中积极应用

相关推荐