英特尔说:翻滚吧!Spark

日期: 2014-12-17 作者:唐琼瑶 来源:TechTarget中国

在近日举行的2014中国大数据技术大会上,Hadoop与Spark无疑是主角。

Spark软件诞生之初,是作为第一代Hadoop中央处理组件MapReduce的替代品出现的,脱胎于UC Berkeley AMP lab(美国加州大学伯克利分校的实验室),是一个功能强大的开源处理引擎,围绕速度、易用性以及复杂分析而建立的。之后成为Apache项目的重要部分,今年早些时候发布了1.0版本。

Spark的炫酷之处

提及大数据,处理速度非常关键。在Spark上运行的Hadoop批处理应用程序能比在MapReduce上快100倍,而在磁盘中的速度甚至也能加快10倍之多。Spark支持多语言,允许用Java、Scala或是Python快速编写应用程序。同时支持SQL查询,流数据,还有诸如机器学习和开箱即用的图形算法之类的复杂分析。

英特尔大数据首席架构师戴金权表示,基于Spark软件栈的下一代大数据分析大致分为两类:一是类似SQL数据分析,进行关系型云运算二是达到实时、快速的数据分析速度。他认为,利用Spark构建下一代大数据分析,能够为用户构建新的应用场景及新的分析应用。

英特尔大数据首席架构师戴金权

不仅如此,Spark可以处理实时流数据,使用Spark Streaming来操纵实时数据。除了MapReduce支持的批处理应用程序,Spark还支持很多其他应用程序,比如迭代和机器学习应用程序,尤其是包含不断更新的事件数据流的应用程序。Spark包含很多机器学习算法、支持SQL查询的API接口,图处理和通用数据流。

此外,Apache Spark基本上是一个并行数据处理框架,它可以和Apache Hadoop协同并让开发工作变得更加快速、容易。Spark可以让大数据与快数据应用结合在一起,可以通过流数据处理让所有的数据进行交互式分析。

英特尔与Spark啥关系?

作为芯片提供商的英特尔对大数据钟爱有加。前有自己的Hadoop发行版,后有大手笔投资Cloudera。其实,英特尔在三年前就和美国加州伯克利大学进行了很紧密的合作,围绕Apache Spark软件做了大量贡献。戴金权表示,Hadoop发展到今天,越来越多的下一代新的大数据的应用或者趋势,包括像实时的,不管是交互式的还是流式的,或者是利用非常复杂的数学模型做非常复杂的分析,以及基于内存支持上传这些复杂的分析。

英特尔云创新中心解决方案架构师程从超补充,英特尔做大数据首先是提供一个完全开放的架构,最底下的硬件层是一个始能平台,提供多种不同型号的CPU,针对不同的行业应用,并与Cloudera、华为等友商一起开发;其次是贡献开源社区,利用硬件平台帮客户建立他们的行业解决方案;三是英特尔在中国构建云创新中心,为大客户与合作伙伴一起,针对特定行业做垂直解决方案,将软件、硬件于行业有机结合起来,形成端到端的大数据完整解决方案。

英特尔云创新中心解决方案架构师程从超

Spark是否会取代MapReduce?

Spark非常适用于内存处理,它可以在单一内存引擎上运行多种分析方式,与磁盘绑定的MapReduce相比,又是一个飞跃。很多人认为它将成为大数据通用的技术。

戴金权表示,MapReduce是Hadoop的组成部分。实际上确实有大量的MapReduce应用迁移到Spark框架上。另一方面,如果把MapReduce看作一种处理的架构和模式的话,Spark也是类似于像Mapreduce这样的分布式数据流处理的一个框架,它Mapreduce是对更高级别的实现。作为一个在Hadoop里面处理或者分析的引擎,Spark可能是未来新下一代引擎。

Spark还应在哪些地方提升?

当然,Spark那么炫酷了但还在一些方面需要提升。首先,它还处于软件发展的初级阶段。如果你用了内存处理,就要付出很高的成本,因为内存处理很贵。同时在使用SQL查询语言探测数据时,效果还不太理想。

戴金权告诉TechTarget中国,Spark能够很高效地利用内存进行不管是实时的还是复杂的分析。“我觉得两个方面。一、并不只是在内存中进行,由于成本各种原因,其实是把内存做了高效的缓存,由底层的包括内存、SSD等存储系统,这作为一个整体来进行管理。不管是从可靠性、性能,包括管理方面,我们会在上面做大量的工作,能够高效地支持这件事情。”

SQL的确在分析和处理中是非常重要的一个场景。英特尔与社区伙伴,比如Cloudera、Map等等,在进行Hive Spark的工作,包括在Spark内部的Spark SQL的工作,以便能够提供更好地在Spark上面对SQL的查询,让SQL处理用到Spark各种各样的优势。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐