Greenplum企业应用实战.html
- 资料大王PDF
-
0 次阅读
-
0 次下载
-
2023-11-19 22:34:19
微信
赏
支付宝
文档简介:
前言
为什么写作本书
阿里巴巴是国内最早使用Greenplum作为数据仓库计算中心的公司。从2009年到2012年Greenplum都是阿里巴巴B2B最重要的数据计算中心,它替换掉了之前的Oracle RAC,有非常多的优点。
·Greenplum的性能在数据量为TB级别时表现非常优秀,单机性能相比Hadoop要快好几倍。
·Greenplum是基于PostgreSQL的一个完善的数据库,在功能和语法上都要比Hadoop上的SQL引擎Hive好用很多,对于普通用户来说更加容易上手。
·Greenplum有着完善的工具,相比Hive,整个体系都比较完善,不需要像Hive一样花太多的时间和精力进行改造,非常适合作为一些大型的数据仓库解决方案。
·Greenplum能够方便地与Hadoop进行结合,可直接把数据写在Hadoop上,还可以直接在数据库上写MapReduce任务,并且配置简单。
从2010年毕业加入阿里巴巴B2B的数据仓库起,我就开始接触Greenplum数据库,并有幸维护了一年多的Greenplum数据库,积累了很多数据库的相关知识。Greenplum在国内的应用相对比较少,
尤其是网上资料相当匮乏。在使用Greenplum的过程中,阿里巴巴遇到了很多困难,也积累了很多宝贵经验。
由于学习资料的匮乏,我和何勇有了将阿里巴巴使用Greenplum的一些经验技巧汇聚成书的想法,这样既总结和沉淀了自身知识,同时也可以给国内使用Greenplum的同行们提供一点帮助。
本书组织结构
本书从实战角度出发,结合了大量实践案例(附有详细的代码),由浅入深介绍了Greenplum。本书由15章组成,主要分为3篇。
上篇(第1~3章)——基础篇
基础篇目的是帮助读者快速了解Greenplum,从实战的角度介绍一些入门必备的基础知识。从如何安装部署Greenplum开始,一步步引导读者搭建自己的Greenplum数据库,然后介绍基本的语法及
相关操作。本篇最后通过分析两个具体的数据仓库ETL的案例,加强读者对Greenplum功能特性的了解,提高实践能力。
中篇(第4~7章)——进阶篇
进阶篇重点介绍Greenplum的数据字典、执行计划、架构以及一些高级特性。
数据字典是Greenplum对元数据信息的组织方式,执行计划是数据库执行SQL的灵魂,高级特性则是Greenplum的优势所在。本篇结合了大量案例对以上内容进行了深入分析。通过对这些内容的学
习,可以深入理解数据库的工作原理,是进阶的必经之路,可以让读者游刃有余地应对各种Greenplum的日常操作。
下篇(第8~15章)——管理篇
管理篇主要介绍一些与数据库管理员相关的知识,包括线上部署、性......
评论
发表评论