这本书分为两个部分。第一部分介绍了Hadoop生态系统及其流行组件。第二部分是实战篇,通过具体项目将大数据与数据挖掘融为一体。
在第一部分中,介绍了Hadoop的HDFS文件系统和MapReduce、数据仓库Hive、分布式协调框架ZooKeeper、分布式数据库HBase、分布式计算框架Spark(包括SparkCore、SparkSQL、SparkMLlib和SparkStreaming)、采集框架Flume和消息订阅系统Kafka。每个组件都进行了详细的概念解释、使用原理、框架结构、具体配置和应用场景的分析。这部分省去了过时的Pig组件,增加了现在流行的实时数据仓库分析系统的一些组件,如Flume、Kafka和ZooKeeper。通过一个广告日志数据分析系统项目的实际操作,手把手地让读者掌握如何采集数据、传输数据及使用框架进行分析。
在第二部分的实战篇中,有三个具体项目实践。第一个项目是图书热度实时分析系统,包括数据采集、指标构建、实时计算和实时分析等步骤。该项目使用Scala语言编写的SparkStreaming实时系统。第二个项目是当前热门的O2O平台的优惠券个性化投放,主要通过多维度指标构建以及决策树、梯度提升和XGBoot等模型,将数据挖掘融入到大数据系统项目中,结合O2O平台营销手段和策略分析,完整展示一个实际项目中的应用。第三个项目是消费者人群画像,利用偏差分析、关联特征和随机森林模型深入了解MLlib这个数据挖掘库如何解决实际问题。
强烈推荐想往数据挖掘方向发展的大数据初学者阅读此书,跟着作者的思路可以真正地了解互联网企业的真实项目,并同时深入学习各个步骤的原理。
相关推荐
© 2023-2025 百科书库. All Rights Reserved.
发表评价