Hadoop数据分析
- 资料大王PDF
-
0 次阅读
-
0 次下载
-
2024-09-11 23:25:25
微信
赏
支付宝
文档简介:
版权信息
书名:Hadoop数据分析
作者:[美] Benjamin Bengfort Jenny Kim
译者:王纯超
ISBN:978-7-115-47964-8
本书由北京图灵文化发展有限公司发行数字版。版权所有,侵权必
究。
您购买的图灵电子书仅供您个人使用,未经授权,不得以任何方式复制
和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐
号等维权措施,并可能追究法律责任。
图灵社区会员 那口虫(wt92328@gmail.com) 专享 尊重版权
版权声明
O'Reilly Media, Inc. 介绍
业界评论
前言
本书目标
目标读者
阅读方式
内容概述
编程和示例代码
GitHub仓库
执行分布式作业
使用示例代码
反馈及作者联系方式
Safari® Books Online
联系我们
致谢
电子书
第一部分 分布式计算入门
第 1 章 数据产品时代
1.1 什么是数据产品
1.2 使用Hadoop构建大规模数据产品
1.2.1 利用大型数据集
1.2.2 数据产品中的Hadoop
1.3 数据科学流水线和Hadoop生态系统
大数据工作流
1.4 小结
第 2 章 大数据操作系统
2.1 基本概念
2.2 Hadoop架构
2.2.1 Hadoop集群
2.2.2 HDFS
2.2.3 YARN
2.3 使用分布式文件系统
2.3.1 基本的文件系统操作
2.3.2 HDFS文件权限
2.3.3 其他HDFS接口
2.4 使用分布式计算
2.4.1 MapReduce:函数式编程模型
2.4.2 MapReduce:集群上的实现
2.4.3 不止一个MapReduce:作业链
2.5 向YARN提交MapReduce作业
2.6 小结
第 3 章 Python 框架和 Hadoop Streaming
3.1 Hadoop Streaming
3.1.1 使用Streaming在CSV数据上运行计算
3.1.2 执行Streaming作业
3.2 Python的MapReduce框架
3.2.1 短语计数
3.2.2 其他框架
3.3 MapReduce进阶
3.3.1 combiner
3.3.2 partitioner
3.3.3 作业链
3.4 小结
第 4 章 Spark 内存计算
4.1 Spark基础
4.1.1 Spark栈
4.1.2 RDD
4.1.3 使用RDD编程
4.2 基于PySpark的交互性Spark
......
评论
发表评论