Spark高级数据分析
- 187*324
-
1 次阅读
-
0 次下载
-
2024-03-08 21:33:48
微信
赏
支付宝
文档简介:
版权信息
书名:Spark高级数据分析(第2版)
作者:[美] 桑迪· 里扎 [美] 于里·莱瑟森 [英] 肖恩·欧文 [美] 乔希·威尔斯
译者:龚少成 邱鑫
ISBN:978-7-115-48252-5
本书由北京图灵文化发展有限公司发行数字版。版权所有,侵权必
究。
您购买的图灵电子书仅供您个人使用,未经授权,不得以任何方式复制
和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐
号等维权措施,并可能追究法律责任。
图灵社区会员 yanggz(99508488@qq.com) 专享 尊重版权
版权声明
O'Reilly Media, Inc. 介绍
业界评论
推荐序
译者序
序
前言
本书内容
第2版说明
使用代码示例
O'Reilly Safari
联系我们
致谢
电子版
第 1 章 大数据分析
1.1 数据科学面临的挑战
1.2 认识Apache Spark
1.3 关于本书
1.4 第2版说明
第 2 章 用Scala和Spark进行数据分析
2.1 数据科学家的Scala
2.2 Spark编程模型
2.3 记录关联问题
2.4 小试牛刀:Spark shell和SparkContext
2.5 把数据从集群上获取到客户端
2.6 把代码从客户端发送到集群
2.7 从RDD到DataFrame
2.8 用DataFrame API来分析数据
2.9 DataFrame的统计信息
2.10 DataFrame的转置和重塑
2.11 DataFrame的连接和特征选择
2.12 为生产环境准备模型
2.13 评估模型
2.14 小结
第 3 章 音乐推荐和Audioscrobbler数据集
3.1 数据集
3.2 交替最小二乘推荐算法
3.3 准备数据
3.4 构建第一个模型
3.5 逐个检查推荐结果
3.6 评价推荐质量
3.7 计算AUC
3.8 选择超参数
3.9 产生推荐
3.10 小结
第 4 章 用决策树算法预测森林植被
4.1 回归简介
4.2 向量和特征
4.3 样本训练
4.4 决策树和决策森林
4.5 Covtype数据集
4.6 准备数据
4.7 第一棵决策树
4.8 决策树的超参数
4.9 决策树调优
4.10 重谈类别型特征
4.11 随机决策森林
4.12 进行预测
4.13 小结
第 5 章 基于K均值聚类的网络流量异常检测
5.1 异常检测
5.2 K均值聚类
5.3 网络入侵
5.4 KDD Cup ......
评论
发表评论