数据分析师
数据分析师CDA
level1
第一章 part 1 数据分析概述
描述阶段
- 常用报表
- 即席查询
- 多维分析
- 警报
- 统计分析
挖掘阶段
- 预报
- 预测型模型
- 优化
数据分析中越高级的阶段使用的挖掘的技巧就越多,方便人为的进行决策
大数据对传统小数据的拓展及其区别与联系
数据上:小数据重抽样,大数据重全体。由于传统小数据分析的本质是基于样本推断总体,因此在分析过程中十分注重抽样的科学性,只有抽样是科学的,其推断结果才具有科学意义,而大数据不一定是总体,但由于在建模方法上已经更偏向于机器学习,因此抽样已经不是必要的手段和方法论了。
方法上:小数据重实证,大数据重优化。传统的小数据在方法上更视实证研究,强调在相关理论的前提下建立假设,收集数据,建立模型并验证假设。而大数据往往更重视方法论中的自我迭代和自我优化过程,可能运算的第一个结果与标准答案相差甚远,但是可以通过与正确答案的不断校准(往往建立损失函数),使得模型的精度不断提高。
目标上:小数据解释,大数据重预测小数据的分析往往注重归因分析,探索变量之间的内部影响机理,例如究竟什么样的生活习惯会提高癌症的发病率。但是大数据往往关心的是对于未知对象的预例如判别某个人是否患有癌症或者患有癌症的概率是多少。
数据分析目标的意义、过程及其本质
可以认为数据分析涉及到公司运营的方方面面,这包括对企业部门经营情况的评估、内部员工的管理、生产流程的监管、产品结构优化与新产品开发、财务成本优化、市场结构的分析和客户关系的管理其中,关于客户与市场的数据分析是“重头戏”。下面以客户全生命周期管理为例介绍数据分析运用场景和挖掘主题,如下图所示。
潜在客户
1.潜在客户--发掘潜在客户
2.响应客户--客户获取初始信用评分,客户价值预测
3.既得客户--客户市场细分,交叉销售,产品精准营销,行为信用评分,欺诈侦测,客户保留,客户关系网
4.流失客户--流失客户时间判断,流失客户类型判断
数据挖掘方法论
CRISP方法论
CRISP-DM方法论将数据挖掘项目生命周期分为6个阶段,它们分别是业务理解、数据理解、数据准备、建模、模型评估和模型发布,如下图所示
下图呈现了通用数据挖掘方法论(CRISP-DM)流程的6个阶段下面简短地介绍了每个阶段的要点
●业务理解( Business Understanding)
该初始阶段集中在从商业角度理解项目的目标和要求,通过理论分析转化为数据挖掘可操作的问题,制定实现目标的初步计划
●数据理解( Data Understanding)
数据理解阶段开始于原始数据的收集,后是熟悉数据、标明数据质量问题、探索对数据的初步理解、发觉有趣的子集以形成对探索关系的假设
●数据准备( Data Preparation)
数据准备阶段包括所有从原始的、未加的数据构造数据挖所信息的活动数据准备任务可能被实施多次,而且没有任何规定的顺序,这些任务的主要目的是从源系统根据维度分析的要求,获取所需要的信息,需要对数据进行转换和清洗。
●建模( Modeling)
在此阶段,主要是选择和应用各种建模技术,同时对它们的参数进行校准,以达到最优值通常对同一个数据挖掘问题类型,会有多种建模技术一些技术对数据格式有特殊的要求,因此,常常需要返回到数据准备阶段
●模型评估( Evaluation)
在模型最后发布前,根据商业目标评估模型和检查建立模型的各个步骤。此阶段关键目的是,判断是否存在一些重要的商业问题仍未得到充分考虑
●模型发布( Deployment)
模型完成后,由模型使用者(客户)根据当时背景和目标完成情况,决定如何在现场使用模型比如,在网页的实时个人化中或营销数据的重复评分中
SEMMA方法论
SAS公司的数据挖掘项目实施方法论,对 CRISP-DM方法中的数据准备和建模环节进行了拓展,被称为 SEMMA方法,如下图所示
●数据整理
涉及数据采集、数据合并与抽样的操作,目的是为了构造分析用到的数据。分析人员根据维度分析获得的结果作为整理数据的依据,将散落在公司内部与外部的数据进行整合
●样本探索
这个步骤的主要任务是对数据质量的探索。变量质量方面涉及错误值(如:年龄=-30)、恰当性(客户的某些业务指标为缺失值,实际上是没有这个业务,值应该为“0°)、缺失值(没有客户的收入信息)致性(收入单位为人民币而支出单位为美元)、平稳性(某些数据的均值变化过于剧烈)、重复值(相同的交易被记录两次)和及时性(银行客户的财务数据更新的滞后时长)等方面这部分的探索主要解决变量是错误时是否可以修改、是否可以使用的问题
●变量修改
根据变量探索的结论,需要对数据质量问题和变量分布情况分别作变量修改。数据质量问题的修改涉及改正错误编码、缺失值填补、单位统一等操作。变量分布情况的修改涉及函数转换和标准化方法具体的修改方法需要与后续的统计建模方法相结合
●建模
根据分析的目的选取合适的模型,这部分内容在“数据分析方法分类介绍”已经作了详细的阐述,这里不再赘述。
●模型检验
这里指模型的样本内验证,即使用历史数据对模型表现的优劣进行评估。比如对有监督学习会使用ROC曲线和提升度等技术指标评估模型的预测能力
数据分析中不同人员的角色与职责
业务问题是需求,最终需要转换成统计或数据挖掘等问题,用数据分析的思路来解决因此数据分析师在业务与数据间起到协调作用,是业务问题能否成功转换成统计问题的关键。通常来说,业务问题需要一个或多个字段来表达,这些字段以什么形式出现(如测量级别),因为字段的形式会决定选择的方法,而每种方法又用于解决特定的需求,此外由于模型对业务人员或企业高管来说可能过于专业,因此需要将模型输出通俗的表达出来。所以协调者、数据分析师、报告人的角色,决定了数据分析师是一名(精通数理和软件的)综合型人才