在火爆的大数据领域,Hadoop显然是炙手可热的明星。有分析机构预测,到2020年,Hadoop的市场价值会超过500亿美金。这个出现8年左右的技术以低廉的存储与快速的处理能力迅速渗透进各种大中小型企业。尤其是在大数据管理领域,Hadoop当仁不让成为首选。
英特尔料理大数据之道
作为业界顶级的芯片提供商,英特尔对大数据的钟爱表露无遗,在两年前发布了Apache Hadoop软件分发版,并成功应用于电信、交通,金融与医疗等行业。今年3月又宣布以7.4亿美元收购大数据软件解决方案提供商Cloudera的18%股份,并在五分月将双方优势融合在Cloudera分发版的Hadoop中,进一步优化大数据平台。与此同时,Cloudera于12月10日正式宣布在中国设立肯睿(上海)软件有限公司,携手英特尔加强技术方面的合作研发,一起扩展中国本地市场。
很多人认为关于大数据话题的讨论应该交给Cloudera这样的软件企业领衔,“但是解决大数据的问题也需要强大的计算力和基于开放架构的平台,而这些则是英特尔所擅长的,”英特尔中国研究院院长吴甘沙在近期举行的英特尔iTalk活动上表示,“英特尔的目标是让大数据说人话,并让相关应用尽快平民化。”
英特尔中国研究院院长吴甘沙
大数据如何说人话?它要能够提取人能够理解的价值,让数据的工具与人、数据科学家与行业专家,以及终端用户天人合一。大数据应用的平民化是指降低数据分析的门槛,把高级的数据分析功能平民化,使得它能够迈入主流的应用,使得它能够实现规模的经济效应。
英特尔的策略是提供强大的且能够进行软件定义的计算力,并在此基础上携手尽可能多的合作伙伴,打造出一个开放的,激励创新的大数据平台。具体而言,英特尔提出大数据的分析框架,最底层是开放架构基础设施,而且是可以实现软件定义计算、存储和网络的基础设施,把它们做成开放式的构建模块,使得整个行业进入大数据创新领域的门槛得以降低,让更多的创新者能够一起参与,一起构建标范性的解决方案,再把它变成可扩展的参考架构,使其能够被复制到每一个行业,每一家企业中去。
为此,英特尔对大数据的研发布局也作出了相应调整。之前,1-3年是由英特尔产品部门提供建议与技术,3-5年由英特尔研究院开发布局,然后由生态系统合作研发,5-8年是与大学合作研究。“IT的趋势变化很快,”吴甘沙说,“我们将研发周期进一步缩短,与大学的合作研究提前进行以尽快将技术推向市场。”英特尔过去几年主要聚焦在三个领域:一是数据与机器的关系,二是人与数据的关系,三是数据与数据的关系。
在开放式协作创新的框架下,英特尔加入安全流通以及定价研究。新近的研究平台是“数据咖啡馆”,理念是希望让不同领域不同公司的数据集合在一起产生新的价值。吴甘沙举了个例子,两个电商对于客户的画像是非常片面的,如果能够把他们的数据在数据咖啡馆里进行融合,他们就能够获得对客户完整的刻画,这里面很重要的一点是叫做相逢但不相识。这两家电商愿意把数据融合,但是不愿意对方能够看到自己的数据,如何能够在不相识的这样一种前提下让他们相逢,让他们能够做数据的分析,这一定程度上解决了数据隐私安全的问题。
英特尔架构的大数据技术在智慧交通与金融等行业已经获得成功应用。国内某城市的交通监控系统产生的数据量以TB级计算,使用至强+Hadoop平台可以在1秒以内从24亿条过车数据中查到某辆车的精确结果与行车轨迹。
Hadoop光芒耀眼
一份来自《2014年数据库技术现状调查》的数据显示,13%的受访者已经将Hadoop应用于产品生产和测试。随着数据的猛增,企业对数据分析和存储能力的需求必然大幅上升。相对于传统数据库和数据仓库技术,Hadoop的优势在于将数据分析和存储平民化。
虽然Hadoop的应用已经很广泛,但普及仍然需要一段时间。一是Hadoop起步很晚,很多工具只发展了三四年,所以成熟度还不够。其次是现在还没有图形界面,不懂技术的人无法成为Hadoop用户,因为很多工作还是在命令层面完成的。此外,治理没有结构的数据几乎是不可能的。
Hadoop之父、Apache Hadoop社区的发起者和领导者,现任Cloudera公司首席架构师的Doug Cutting告诉TechTarget中国:“Hadoop的技术历史是比较短,面临不成熟的问题。但是每年有越来越多的人与企业在使用该技术,易用性越来越好。我们现在处在发展过程中,还有空间提升。”
Cloudera公司首席架构师的Doug Cutting
SQL可以在Hadoop上很好运行,有很多现成的工具可用,采用的门槛并不高。Doug说:“Cloudera这样分布的模式是很容易的,你可以在几分钟之内完成。所以如果你想在开源项目当中把所有的事情都做完,那可能会比较难。”
Cloudera公司副总裁苗凯翔表示,Hadoop有几个特点,一个是开源,二是代表未来新的分布式架构,三是复杂性。“在中国很多人没有完全了解Hadoop,认为开源就完全可以自己搞定,其实不现实。所以Cloudera的目的就是帮助用户轻松使用Hadoop。”
Cloudera公司副总裁苗凯翔
吴甘沙补充,虽然Hadoop的管理和使用还没有达到完美,但还是能够帮助我们更容易地处理更大量的数据。Hadoop本身是一个有高度包容性的生态系统,如果越过它直接去开发软件栈的话,是不科学的做法。
物联网作为IT发展的下一个技术热点,会成为变革IT的新力量。传统的数据库技术很难应对大量的传感器数据,而Hadoop将脱颖而出,承担更多的存储和分析功能。同时,对Hadoop的分析能力与安全性也提出了更高的要求。
对于大数据未来的发展,吴甘沙表示,以后会出现“大数据乘”,它的乘法效应会给我们现在的产业互联网带来更大的生机。
Doug说:“我希望越来越多的人使用的时候会觉得更加舒服,我们现在有很多的大学,他们都设计了相关的课程学习Hadoop,有很多人毕业了也知道怎么样来使用这样的工具。我们期望能通过Cloudera与英特尔的合作,为大家开发更多的大数据工具,实现更为丰富的功能,弥补各个创新项目的空缺和彼此间的差距,让用户能够更有效地整合和利用数据,并从中获益。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
探索Hadoop发行版以管理大数据
Hadoop是一种开源技术,它也是数据管理平台,现在它通常与大数据分布相关联。它的创建者在2006年设计了原始 […]
-
数据经理应该研究GPU深度学习
与AI相关的深度学习和机器学习技术已经变成大数据圈常见的讨论话题。这一趋势对于数据管理者们来说是值得关注的,原 […]
-
机器学习在崛起:但其算法的结果是否公平?
算法正在通过很多很不可思议的方法控制着我们的生活。但在没有透明度的情况下,我们很难知道机器学习算法所评估的结果是否公平……
-
速度至上:提升Apache Spark处理速度你需要这五个办法
现在,我们手里有数据,大量的数据。我们的存储中有区块、文件和对象。我们的数据库中有表、键值以及图形。还有越来越多涌进来的媒体、机器数据和事件流……