在近日举行的2014中国大数据技术大会上,Hadoop与Spark无疑是主角。
Spark软件诞生之初,是作为第一代Hadoop中央处理组件MapReduce的替代品出现的,脱胎于UC Berkeley AMP lab(美国加州大学伯克利分校的实验室),是一个功能强大的开源处理引擎,围绕速度、易用性以及复杂分析而建立的。之后成为Apache项目的重要部分,今年早些时候发布了1.0版本。
Spark的炫酷之处
提及大数据,处理速度非常关键。在Spark上运行的Hadoop批处理应用程序能比在MapReduce上快100倍,而在磁盘中的速度甚至也能加快10倍之多。Spark支持多语言,允许用Java、Scala或是Python快速编写应用程序。同时支持SQL查询,流数据,还有诸如机器学习和开箱即用的图形算法之类的复杂分析。
英特尔大数据首席架构师戴金权表示,基于Spark软件栈的下一代大数据分析大致分为两类:一是类似SQL数据分析,进行关系型云运算二是达到实时、快速的数据分析速度。他认为,利用Spark构建下一代大数据分析,能够为用户构建新的应用场景及新的分析应用。
英特尔大数据首席架构师戴金权
不仅如此,Spark可以处理实时流数据,使用Spark Streaming来操纵实时数据。除了MapReduce支持的批处理应用程序,Spark还支持很多其他应用程序,比如迭代和机器学习应用程序,尤其是包含不断更新的事件数据流的应用程序。Spark包含很多机器学习算法、支持SQL查询的API接口,图处理和通用数据流。
此外,Apache Spark基本上是一个并行数据处理框架,它可以和Apache Hadoop协同并让开发工作变得更加快速、容易。Spark可以让大数据与快数据应用结合在一起,可以通过流数据处理让所有的数据进行交互式分析。
英特尔与Spark啥关系?
作为芯片提供商的英特尔对大数据钟爱有加。前有自己的Hadoop发行版,后有大手笔投资Cloudera。其实,英特尔在三年前就和美国加州伯克利大学进行了很紧密的合作,围绕Apache Spark软件做了大量贡献。戴金权表示,Hadoop发展到今天,越来越多的下一代新的大数据的应用或者趋势,包括像实时的,不管是交互式的还是流式的,或者是利用非常复杂的数学模型做非常复杂的分析,以及基于内存支持上传这些复杂的分析。
英特尔云创新中心解决方案架构师程从超补充,英特尔做大数据首先是提供一个完全开放的架构,最底下的硬件层是一个始能平台,提供多种不同型号的CPU,针对不同的行业应用,并与Cloudera、华为等友商一起开发;其次是贡献开源社区,利用硬件平台帮客户建立他们的行业解决方案;三是英特尔在中国构建云创新中心,为大客户与合作伙伴一起,针对特定行业做垂直解决方案,将软件、硬件于行业有机结合起来,形成端到端的大数据完整解决方案。
英特尔云创新中心解决方案架构师程从超
Spark是否会取代MapReduce?
Spark非常适用于内存处理,它可以在单一内存引擎上运行多种分析方式,与磁盘绑定的MapReduce相比,又是一个飞跃。很多人认为它将成为大数据通用的技术。
戴金权表示,MapReduce是Hadoop的组成部分。实际上确实有大量的MapReduce应用迁移到Spark框架上。另一方面,如果把MapReduce看作一种处理的架构和模式的话,Spark也是类似于像Mapreduce这样的分布式数据流处理的一个框架,它Mapreduce是对更高级别的实现。作为一个在Hadoop里面处理或者分析的引擎,Spark可能是未来新下一代引擎。
Spark还应在哪些地方提升?
当然,Spark那么炫酷了但还在一些方面需要提升。首先,它还处于软件发展的初级阶段。如果你用了内存处理,就要付出很高的成本,因为内存处理很贵。同时在使用SQL查询语言探测数据时,效果还不太理想。
戴金权告诉TechTarget中国,Spark能够很高效地利用内存进行不管是实时的还是复杂的分析。“我觉得两个方面。一、并不只是在内存中进行,由于成本各种原因,其实是把内存做了高效的缓存,由底层的包括内存、SSD等存储系统,这作为一个整体来进行管理。不管是从可靠性、性能,包括管理方面,我们会在上面做大量的工作,能够高效地支持这件事情。”
SQL的确在分析和处理中是非常重要的一个场景。英特尔与社区伙伴,比如Cloudera、Map等等,在进行Hive Spark的工作,包括在Spark内部的Spark SQL的工作,以便能够提供更好地在Spark上面对SQL的查询,让SQL处理用到Spark各种各样的优势。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
布局机器学习 英特尔携手Cloudera为数据分析提速
8月6日在京举办的英特尔 & Cloudera数据分析媒体沟通会上,来自英特尔及Cloudera的发言人共同表示,双方将继续携手,从硬件和软件全面加速数据分析应用,为我们的生活带来更多“精彩”。
-
Spark太火 大数据训练营AMPCamp都来中国了
Spark火遍IT业界已是不可置疑的事实。作为Apache一大开源项目,这款大数据处理引擎文能连接车辆与物联网,武能识别隐秘的洗钱行为。
-
Cloudera与英特尔细数过去一年合作成果
2014年3月,业内IT大佬英特尔花费7.4亿美金收购Cloudera公司18%的股份。一年过去了,两家在大数据创新领域方面取得了哪些进展呢?
-
大数据的未来:英特尔与Cloudera让Hadoop平民化
在火爆的大数据领域,Hadoop显然是炙手可热的明星。有分析机构预测,到2020年,Hadoop的市场价值会超过500亿美金。