安装APP,随时看

您好，欢迎访问PDF电子书资源免费下载网

当前位置：首页 > 专业书籍 > 计算机类 > 其他 > 企业大数据处理：Spark、Druid、Flume与Kafka应用实践

企业大数据处理：Spark、Druid、Flume与Kafka应用实践

资料大王PDF
0 次阅读
0 次下载
2023-11-19 23:03:53

举报
收藏

二扫码支付

微信

赏

二扫码支付

支付宝

还剩... 页未读，继续阅读

免费阅读已结束，点击付费阅读剩下 ... 页

¥ 0 元，已有0人购买

免费阅读

阅读已结束，您可以下载文档离线阅读

¥ 1 元，已有0人下载

付费下载

文档简介：

前言我写本书的初衷是将自己在企业工作中应用的技术归纳总结，系统地将大数据处理相关技术融合在一起，给已经从事大数据相关技术研发工作的朋友，或是准备从其他行业转行进入大数据领域学习相关技术的朋友提供一份参考资料。希望本书能够帮助更多从事大数据相关工作的人，也希望通过本书结识更多热爱大数据的朋友。目前，大数据已不只停留在概念阶段，而是在各领域成功落地，并取得了丰硕的成果。大数据已经渗透到生活中的各个方面，距离我们最近且与我们生活息息相关的大数据项目有交通大数据、医疗大数据、金融大数据、社交媒体大数据、互联网大数据等。如此多的大数据项目能够成功落地，关键原因在于数据来源的多样化，数据量的爆发式增长，新兴技术的快速发展，以及市场创新需求的不断增多，这为各种大数据项目提供了庞大的数据源，通过多种技术的综合应用，可不断挖掘出大数据背后的社会价值和商业价值。随着开源社区的不断发展，越来越多的优秀项目被开源，以处理各种大数据场景下的问题和挑战。作为目前大数据生态系统内的早期开源项目，Hadoop在廉价机器上实现了分布式数据存储和高性能分布式计算，大大降低了数据存储和计算成本。Hadoop提供的分布式存储系统HDFS、大数据集并行计算编程模型MapReduce、资源调度框架YARN已经被广泛应用，为大数据生态系统的发展奠定了坚实的基础。如今，Hadoop大数据生态圈发展已经非常全面，涉及领域众多，在大数据处理系统中常用的技术框架包括数据采集、数据存储、数据分析、数据挖掘、批处理、实时流计算、数据可视化、监控预警、信息安全等。下图展示了大数据生态系统内比较流行并且已经在生产环境验证过的开源技术。（1）Spark Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎，具有高吞吐、低延时、通用易扩展、高容错等特点。Spark内部提供了丰富的开发库，集成了数据分析引擎Spark SQL、图计算框架GraphX、机器学习库MLlib、流计算引擎Spark Streaming。Spark在函数式编程语言Scala中实现，提供了丰富的开发API，支持Scala、Java、Python、R等多种开发语言。同时，它提供了多种运行模式，既可以采用独立部署的方式运行，也可以依托Hadoop YARN、Apache Mesos等资源管理器调度任务运行。目前，Spark已经在金融、交通、医疗、气象等多种领域中广泛使用。大数据生态系统中的开源技术（2）Druid Druid是由美国MetaMarkets公司创建并开源的分布式提供海量时序数据存储、支持实时多维数据分析的OLAP系统，主要应用于广告数据分析、网络系统监控等场景。Druid具有高吞吐......

资料大王PDF

资料大王PDF

86406
文档
343.816
金币

Ta的主页发私信

共86406篇文档

相关文档

企业大数据处理：Spark、Druid、Flume与Kafka应用实践 0

企业大数据处理：Spark、Druid、Flume与Kafka应用实践 2

Spark 0

Spark-原理、机制及应用 0

Python+Spark 2.0+Hadoop机器学习与大数据实战_2017 0

相关搜索

企业大数据处理：Spark、Druid、Flume与Kafka应用实践

评论

发表评论

< /0 > 付费下载 ¥ 1 元

扫描二维码
关注官方微信

联系我们

电话 : 18700007324

邮箱 : 1184733552@qq.com

Q Q : 1184733552

地址 : 安徽省滁州市南谯区

Powered by 阿里PDF-免费文档电子书下载

Copyright © PDF电子书资源免费下载网 All Rights Reserved. 皖ICP备2021018472号-4

保存成功