Spark快速大数据分析
- 资料大王PDF
-
0 次阅读
-
0 次下载
-
2024-10-20 20:32:29
微信
赏
支付宝
文档简介:
版权信息
书名:Spark快速大数据分析
作者:[美] Holden Karau Andy Konwinski,Patrick Wendell [加] Matei
Zaharia
译者:王道远
ISBN:978-7-115-40309-4
本书由北京图灵文化发展有限公司发行数字版。版权所有,侵权必
究。
您购买的图灵电子书仅供您个人使用,未经授权,不得以任何方式复制
和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐
号等维权措施,并可能追究法律责任。
图灵社区会员 张海川(zhanghaichuan@ptpress.com.cn) 专享 尊重版权
版权声明
O'Reilly Media, Inc. 介绍
业界评论
推荐序
译者序
序
前言
读者对象
本书结构
相关书籍
排版约定
使用代码示例
Safari® Books Online
联系我们
致谢
第 1 章 Spark 数据分析导论
1.1 Spark是什么
1.2 一个大一统的软件栈
1.2.1 Spark Core
1.2.2 Spark SQL
1.2.3 Spark Streaming
1.2.4 MLlib
1.2.5 GraphX
1.2.6 集群管理器
1.3 Spark的用户和用途
1.3.1 数据科学任务
1.3.2 数据处理应用
1.4 Spark简史
1.5 Spark的版本和发布
1.6 Spark的存储层次
第 2 章 Spark 下载与入门
2.1 下载Spark
2.2 Spark中Python和Scala的shell
2.3 Spark核心概念简介
2.4 独立应用
2.4.1 初始化SparkContext
2.4.2 构建独立应用
2.5 总结
第 3 章 RDD 编程
3.1 RDD基础
3.2 创建RDD
3.3 RDD操作
3.3.1 转化操作
3.3.2 行动操作
3.3.3 惰性求值
3.4 向Spark传递函数
3.4.1 Python
3.4.2 Scala
3.4.3 Java
3.5 常见的转化操作和行动操作
3.5.1 基本RDD
3.5.2 在不同RDD类型间转换
3.6 持久化(缓存)
3.7 总结
第 4 章 键值对操作
4.1 动机
4.2 创建Pair RDD
4.3 Pair RDD的转化操作
4.3.1 聚合操作
4.3.2 数据分组
4.3.3 连接
4.3.4 数据排序
4.4 Pair RDD的行动操作
4.......
评论
发表评论