Spark技术内幕:深入解析Spark内核架构设计与实现原理
- 资料大王PDF
-
0 次阅读
-
0 次下载
-
2023-11-19 22:56:35
微信
赏
支付宝
文档简介:
序
Apache Spark项目的高速发展超出了很多人的预期。在2009年到2013年,Spark还是UC Berkeley大学AMPLab的一个研究项目,因为其架构设计得简洁和高效,逐
渐吸引了工业界和学术界的广泛关注。我还记得2013年2月份在Santa Clara召开的Strata Conference上,虽然是长达一整天的Spark技术培训,大厅里还是人满为患,大
家都在认真学习这种新的计算框架,并被其高速的性能所折服。尽管在随后的一年半时间内,主流的Hadoop厂商并没有接受这个新框架:Cloudera在忙着开发自己的
Impala引擎,Hortonworks经过评估后认为可以改造Map/Reduce来实现类似Spark的DAG机制,也就是后来的Tez,而MapR还在纠结是否要全力投入Drill项目。但在
2014年的夏天,第二次Spark Summit召开时,已经在Spark上积累大量开发者和用户,从互联网到传统行业,甚至是生物神经学家都用Spark来分析脑活动的数据。在这
次会议上,大部分的Hadoop厂商以及应用开发商开始接受Spark,并宣布支持Spark作为Hadoop上的另一个计算引擎。自此以后,Spark的被接受程度飞速提高。到2014
年10月份,几乎所有的大数据厂商都宣布支持Spark,Spark作者们创办的DataBricks公司也宣布认证了50多个以Spark为基础的应用系统。而到了2015年,大家在谈论的
是Spark即将全面替代Hadoop中的Map/Reduce。
星环科技从2013年创业的第一天,就开始改造Spark引擎来开发批处理和交互式分析引擎。今天在星环的全系列产品中,已经几乎看不到Map/Reduce计算框架。星环
科技已经证明了在所有Map/Reduce擅长的领域,Spark计算引擎都可以更高效地执行,性能可以提升数倍到数十倍,并且可以7x24稳定运行。这也从侧面证明了Spark引
擎的潜力。
本书详细剖析了Spark核心引擎的源代码及其工作原理,内容翔实准确,也是我目前看到的一本比较全面解析Spark Core的不可多得的好书。特别是有志于Spark内核
开发的研发人员,仔细阅读本书并研读代码,将起到事半功倍的效果。
孙元浩
星环科技创始人兼CTO
2015年8月上海
前言
诞生于2005年的Hadoop解决了大数据的存储和计算问题,已经成为大数据处理的事实标准。但是,随着数据规模的爆炸式增长和计算场景的丰富细化,使得Hadoop
越来越难以满足用户的需求。针对不同的计算场景,开源社区和各大互联网公司也推出了各种大数据分析的平台,旨在满足特定应用场景下的计算需求。但是,众多的平台
使得用户......
评论
发表评论