引言
全局的概览+八个案例+窜一下
抽象的一般具有连续的性质,分类变量的小数位是没有意义的。抽象的变量,它的0往往是没有意义的,比如说幸福感。同样是连续性变量,有的0是有意义的,比如说订单量,如果0是有意义的,可以进行加减乘除运算,0没有意义,加减是可以的。标度可以分:间距(抽象的)和比率(0是有意义的,不抽象的变量)。抽象叫潜,不抽象叫显,潜变量和显变量。潜变量是用来表示未来的,显变量是表示现在和过去。显变量不是预测,是用来描述,潜变量是用来预测的。显是用来归一,潜是用来
四种测量,名义、有序、间距和比率。名义和有序,顺序。有序、间距,等距。间距、比率,抽象。Y讲测量,X讲选择。关于XY,就是角色。角色就是演戏,主角Y,通过一系列的过程塑造出来,主要是输入和目标在演,其他四个是跑龙套的。测量在统计是重点,角色不是特别重要,建议也设,拿到数据,先看一下行有多大,再看列,在了解业务的基础上设。Excel中没有,因为不是专业的统计软件。
知识点:数据流(项目流)、数据测量、y和x
线性回归流程
量化需求Y,比如客户流失,然后找到客户流失的因素,x1/x2/x3……,对Y的影响不是相同的,y=β0+β1x1+βx+……+ε
R方,再加上一个误差。我想知道这个客户未来会不会走,我需要知道未来的x,未来昂贵的y不容易获得,但是可以获得廉价的x,比如雨季来临,蛋糕销售量增加,这就是廉价的x和昂贵的y,每年减少1250亿欧元。如果未来的x很昂贵,你的模型就是无意义的。
这个时候y如果是连续性变量,就是线性回归:
第一歩就是画散点图,描述变量之间相关性的图形,这是我们学统计学第一个要学习的图,散点图第一个要看它的主体和模式,第一个是看相关,第二个看趋势,第三个看异常。
回归的箱数就是15节以内,后面的x是不能很多的,影响y的因素是很多的,r相关公式,判断一个x和y之间的关系,一个一个x来看的,第二个这个相关的应用场景,小数据和大数据,第三个相关和归因之间的关系,这是相关回答三个问题。
第三步,x和y之间的关系叫回归,需要解读回归,局部β,整体R方,评估整体前两个y和x,还有一个尾巴,就是残差。
第四歩,残差分析。y身上有两样东西,固定的是有用的,随机的是没有用的,把固定的提取出来的,随机不会贡献相关,固定的会贡献相关。
第五步,就是模型的应用,分四种。主次归因、规则归因,老样本和新样本预测。
统计学家从均值开始,老百姓是从0开始的,方差就是研究偏离均值的差异,每个点偏离均值的远见,才会构成统计信息,方差本来定义就是偏离大众的远近,1234都是方差,只不过2是最有名的方差而已,两个方差相乘就是协方差,相关:在万事万物中,两个变量方向和大小的,
一三象限是正相关的,二四象限是负相关,
主体模式:椭圆,r 0-1,
(常用:第一级 ;默认:第二级(自由不不自由之间的界限),这就是统计学的主流方法。Python和SAS就没有默认。)
大数据:数据库、云、种包(开源)。P值在大数据就不用了,是在小数据里用的。我的这个课是由小数据逐渐过渡到大数据,比较这四天的课和前面的统计学的不同,因为很多推翻了前面的方法,机器学习和统计学的不同。大数据用的是智能技术,而不是假设检验。P不能用了,用什么呢?效应表,注意不是效用表。效应表就是0-1,<0.1无相关,0.1-0.35低相关,0.35-0.7统计研究的多数内容都是这个范围的,0.1-0.7几乎是我们遇到的大部分数据场景,0.7-0.9高相关,0.9-1高危相关(共变关系)。
(模型变好的三个途径:调参、找更好的x,做合理的预分析。)
小数据要归因,大数据不归因。不是不归因,而是工具归因。雨季来临,蛋糕销量增加,雨季就是工具归因,方便原则,第二个是经济原则。
小结:相关第一个重点就是公式,工具归因,第三个就是相关效应的大小。
三、回归
观测值和估计值,相信估计值。测量-方差-回归。估计值除以测量值,就是效度指标。F回答有无用处,R方回答模型多大程度可信。
价格细目表、百分制
二八原理
线性回归和逻辑回归擅长解决的是主次归因,而不是规则归因。新样本预测是没有y值的,老样本是有的。大数据分析的是老样本。小数据是新样本预测。
统计模型怎么学习:
机器学习一般是干什么的,然后你不要做机器学习可以做的,无人驾驶的例子,大部分的银行已经把评分卡做好了,现在主要是做速度,因此银行现在需要培养业务专家就好,配合数据算法,建议你不管学什么算法,学一点相关的机器学习,现在写作的领域都可以用机器学习代替了,树立未来的方向,每学一个统计学习的算法,就学一个相关的人工智能的算法。
预习:逻辑回归的前提、优缺点、一般使用。