PySpark实战指南:利用Python和Spark构建数据密集型应用并规模化部署.html
- 资料大王PDF
-
0 次阅读
-
0 次下载
-
2023-11-19 22:34:17
微信
赏
支付宝
文档简介:
译者序
为什么要翻译这本书
年初的时候我们从机械工业出版社华章公司那里知道有一本关于大数据的书正在征集翻译,在看过英文版并翻译了样章后,
我们几位志同道合的软件工程师一块儿接受了《Learning PySpark》的翻译工作。我们都非常兴奋,因为作为软件工程师,能有
机会把当前最热最新的技术介绍给大家是何其荣幸。
Python是数据分析最常用的语言之一,而Apache Spark是一个开源的强大的分布式查询和处理引擎。本书用详尽的例子介
绍了如何使用Python来调用Spark的新特性,如何处理结构化和非结构化的数据,如何使用PySpark中一些基本的可用数据类
型,如何生成机器学习模型、操作图像、阅读串流数据以及在云上部署你的模型。
数据是每个人身边都存在的,理解学习比较容易,但是数据量足够大才是一个相对准确的学习平台。在实践中,如何确定训
练集合、如何将脏数据处理为清洁数据、如何填充数据等等,需要结合本书的知识理论,清楚了解待处理的大数据特性。每一种
数据的特征或特性都不一致,所以前期的准备和调研必不可少。本书不仅仅是一本工具书,也是一本能深入浅出、结合简单实例
来介绍PySpark语言的书。不管使用什么语言和工具,万变不离其宗。希望阅读此书的人,除了看懂示例,还能够结合实际经验
来推敲,这样就能明白作者举这些例子的良苦用心。
希望大家喜欢这本书,因为译者的水平有限,翻译中的错漏缺点在所难免,希望读者批评指正。
读者对象
本书适合以下几类读者阅读:
·对大数据的前沿技术非常感兴趣的人。
·有志于成为一名数据科学家的从业人员。
·有一定算法和编程基础的技术爱好者。
译者分工
本书由来自IBM中国开发中心的软件工程师联合翻译完成。其中:
·栾云杰(目前就职于IBM中国开发中心)翻译了第5章、第6章。
·陈瑶(原IBM工程师,现就职于某大数据公司)翻译了第2章、第3章、第4章、第11章。
·刘旭斌(目前就职于IBM中国开发中心)翻译了第7章、第8章、第9章。
另外,第1章由栾云杰、陈瑶、刘旭斌三人共同翻译,第10章由栾云杰、陈瑶两人共同翻译。
致谢
感谢华章公司引进了该书的中译本版权,这是该中译本得以面市的最核心要素。
感谢华章公司的和静老师给予我们的支持和信任。因为这份信任,我们才有机会来翻译这本关于大数据和Apache Spark的书
籍。
感谢本次翻译组的小伙伴们。翻译本书的过程,是一种学习与思考的结合,也是和伙伴合作与交流的经历。非常庆幸遇到了
睿智又勤奋的伙伴,即使在繁忙的工作和节奏极快的生活中,也努力完成了翻译和审阅计划。
另外,也要感谢我们的家人对我们的支持,正是有他们的支持和鼓励,我们才能坚持下来。
序......
评论
发表评论