本书从技术维度系统讲解了用户画像的方法论和一些常见的工程化解决方案。全书共分为9个章节。
第一章 用户画像基础:讲述用户画像的一些基础概念、数据仓库架构、整个项目开发的流程、以及画像相关的表结构设计;
第二章 数据指标体系:从用户属性、用户行为、用户消费、风险控制等四个维度详细罗列了常用到的用户标签。这些标签基本涵盖了大部分场景一半以上的标签需求。同时介绍了标签的规范化命名方式;
第三章 标签数据存储:讲了为什么使用Hive、MySQL、hbase等数据库对标签数据进行存储,以及存储实现方式;
第四章 标签数据开发:本章是全书的重点章节,讲述了统计类标签、规则类标签、挖掘类标签、流式计算类标签的开发。以及用户特征库、人群计算、标签权重计算、打通数据服务层等方面的开发;
第五章 开发性能调优:主要包括数据倾斜调优、开发中间表、读取小文件处理、redis缓存热数据等数据性能优化方面;
第六章 作业流程调度:数据的ETL调度是数据开发中的重要内容,本章主要讲了如何使用当下热门的开源调度工具Airflow进行数据的调度及场景调度异常的排查工作;
第七章 用户画像产品化:开发画像后的标签数据,如果只是“躺在”数据仓库中,并不能发挥更大的业务价值。只有将画像数据产品化后才能更方便业务方的使用。本章主要讲述了产品端的用户画像是什么样子?如何帮助业务人员进行分析,提供服务的;
第八章 用户画像应用:用户画像的应用包括用户分析、商品分析、流量分析、push、短信、邮件等营销以及站内的个性化推荐等应用场景;
第九章 实践案例详解:前面的八个章节主要从工程化开发的角度讲了如何从0到1搭建起用户画像系统及其应用场景。本章从完整的工业实践应用角度,通过两个实践案例帮助读者更好地理解画像系统是如何切入到应用场景中,帮助提升工作效率、提高ROI的。
赵宏田,资深大数据技术专家,先后在中国地质大学(武汉)和武汉大学获得工学和经济学双学士学位。在大数据、数据分析和数据化运营领域有多年的实践经验,擅长Hadoop、Spark等大数据技术,以及业务数据分析、数据仓库开发、爬虫、用户画像系统搭建等。开源项目的贡献者,知乎专栏作者,撰写了大量专业文章,广受好评。著有畅销书《数据化运营:系统方法与实践案例》。
相关推荐
© 2023-2025 百科书库. All Rights Reserved.
发表评价