阿里资深专家详解大数据与机器学习的实践方法与行业案例

冷暖自知 提交于 2020-01-15 00:45:51

前言:

大数据方面的书籍可谓琳琅满目,有的讲解理论,有的介绍方法,有的传播理念。但是,大数据从业人员(如数据工程师、数据分析师、业务分析师、算法设计师等)应该掌握哪些知识与技能,如何应用数据解决现实的业务问题呢?恐怕最能给出答案的还是实际的数据从业者。为此,三位作者基于近10年的数据分析与应用经验,融合各自在商业银行、互联网金融和电商领域的切身体验,寓理论于实战,选取多个详实的案例,站在企业实际应用的角度介绍数据分析应用过程并公布源代码,并最终形成本书。本书对于读者开展数据分析工作能够提供直接帮助,为有志于在大数据领域发展的读者启航。

第一部分:数据与平台篇

**第一章:**数据与数据平台
本章首先将从数据的基本形态人手,介绍企业中数据的来源和表现形态;然后介绍与之相关的数据平台,并简单介绍两类应用系统。在着手处理数据之前,让我们先对数据有一个清晰的认识。
在这里插入图片描述
第二章:数据体系
数据的流动伴随着形态的变化(回忆数据的三种形态:生产数据、原始数据、分析数据),我们知道数据最终仍然要回归于生产系统(从生产中来,到生产中去),一切离开了生产应用的数据分析和处理都是徒劳无益的。
在这里插入图片描述
在这里插入图片描述
第三章:实战:打造数据闭环
前面两章已经介绍了数据闭环的各个主要环节和涉及的技术,本章将基于前文提出的理念和技术来实现数据闭环。按照数据的流转过程以及主要负责人的职责,整个数据闭环将由三个环节组成。
在这里插入图片描述

第二部分:分析篇

第四章:数据预处理
数据之于数据分析,好比食材之于烹饪,砖瓦之于高楼,其质量是否可靠,处理是否得当,将直接决定数据分析的结论是否准确可靠。在整个数据分析过程中,数据的清洗处理占据相当大的工作比重。
在这里插入图片描述
第五章:聚类、简单易用的客户细分方法
在产品同质化的市场环境下,企业之间的竞争已经由产品品质的竞争转变为顾客满意度的竞争,企业着眼于长远发展和领先市场的核心是针对不同人群的不同需求提供真正差异化的产品、服务以及营销策略。客户天生就存在差异,无论是行为特征、需求偏好还是价值贡献,因此同质化的营销策略在大量客户面前不仅毫无作用,还会让敏感的客户产生不被理解的感觉而选择离去。
在这里插入图片描述
第六章:关联规则挖掘,发现产品加载和交叉销售机会
核心价值。在众多业务领域中,交叉销售是应用关联规则提升销售成功率和客户价值贡献的典范,通过发现产品或客户行为之间的关联规则,例如有些产品经常被一起购买、 代发工资日开放式理财产品旺销、购买寿险的客户往往也会购买健康险等,构建交叉销售体系,实现销售额、服务效率和客户体验的综合提升。
在这里插入图片描述
第七章:社交网络分心,从“关系”的角度分析问题
社交网络分析关注的焦点是关系和关系的模式,采用的方式和方法从概念上有别于传统的统计分析和数据处理方法。十年前,IBM公司使用这种方法研究团队建设和知识管理,在当时绝无仅有。而现在,这种分析越来越时髦,其研究思路在众多业务领域中得以应用,并成为大数据分析的重要方向。
在这里插入图片描述
第八章:线性回归,预测客户价值
预测分析方法有很多种,根据目标变量的类型,大体可分为两种:回归分析和分类。预测的结果如果是离散选项(比如用户会1不会购买某种产品、偏好短信/电话/微信渠道等),则通常称为分类;预测的结果如果是连续数值(比如交易量、客户价值等),则通常称为回归分析。本章将介绍统计学领域最经典的线性回归方法,随着对更多预测方法的了解。
在这里插入图片描述
第九章:Logistics回归,精准营销的主要支撑算法
除了足够多的数据,机器学习算法是另一个必要条件。机器学习算法有很多,目前最主流的莫过于分类算法,与专注于连续值预测的回归类算法不同,分类算法通过对类别(主要是二元,例如购买1不购买、拖欠1不拖欠)的对比,发现其中的统计规律并用于预测。Logistic回归算法因其操作简单、结果易用、拓展性强等优点而得到广泛应用。
在这里插入图片描述
第十章:决策树类算法,反欺诈模型“专家”
很多预测问题的本质是分类,例如营销预测模型的目标变量多是客户“买"还是“没买",风险预测模型的目标变量则是客户“拖欠”或“未拖欠",客户偏好的渠道是“网银”“手机”还是“微信”,诸如此类的问题皆为“分类”。Logistics 回归是解决“分类”问题的专家,尤其擅长分析线性关系,对数据整体结构的把握良好,能够给出每条记录的评分。
在这里插入图片描述
第十一章:数据可视华,是分析更是设计
本章根据笔者的实际经验,介绍图表和报告制作的一些经典规则,并结合两种个性化图形的制作方法,抛砖引玉,当Excel. Tableau等可视化工具的默认功能不支持时,应该怎样充分利用免费资源,体现出自己的个性化。
在这里插入图片描述

第三部分:应用篇

第十二章:标签系统
从批量处理的分析环境到偏重“点”处理(逐条)的应用系统,着重要解决的是数据处理的时效问题。当数据应用系统接收到业务请求时,系统需要快速得出结果,做出反馈。因此,效率问题是数据应用于生产面临的首要问题。
在这里插入图片描述
第十三章:数据自助营销平台
当公司具备充分条件时,再来看数据营销,将是一件水到渠成的事情。当然,数据营销同样应该系统化、自动化,这是数据应用系统的又一个实证。
在这里插入图片描述
第十四章:基于Mahout的个性化
学习本章,你不需要掌握那些“高深”的数学知识,甚至不需要知晓推荐算法的具体细节,因为这些已经被Mahout封装在各个java类中,你所要具备的是对应用场景的理解及与Mahout推荐引擎相关的知识。
在这里插入图片描述
第十五章:图计算与社会网络
社会网络是个体之间彼此关联形成的一个网状体系,它是一个网状图。个体称为节点,个体之间的关联称为关系(边), 所以社会网络也可以称为关系网络。
在这里插入图片描述
由于篇幅限制,小编就不一一介绍了,喜欢小编的文章可以关注哦·

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!