统计学

双因子方差分析|adjusted R|强度|SSA|SSE|SST|

浪尽此生 提交于 2019-12-01 19:51:24
应用统计学 方差分析的基本假设: 组间组平均与总平均的不同是由 treatment 引发的。单个值与组平均的不同是由组内 error 引发的。 如果没有处理误差 SSA=SSE ,所以右尾假设如果 F>1 则处理效应更强 本质上样本方差,所以是总体方差的无偏估计。 描述强度: 增加 n (维度), R 变大, adjusted R 变大。但是 n 过大就会出现过拟合的现象,此时 R 虽然变大,但是并不好,并不能反映客观情况,客观情况是变量间差异是本身就很大,而不是因为维度升高导致的。 双因子方差分析除了增加一个因素之外还有两个因素之间的交互作用。 来源: https://www.cnblogs.com/yuanjingnan/p/11715388.html

人工智能体系理解

时光毁灭记忆、已成空白 提交于 2019-12-01 18:50:49
人工智能元年来临,大数据在这里充当什么角色?数据分析是什么定位?职业区分? https://blog.csdn.net/blueheart20/article/details/71036779 https://blog.csdn.net/zw0pi8g5c1x/article/details/80768132 https://www.jianshu.com/p/c3956e0669c6 看一张小白能即刻理解的图片 简单问题? 全球最大的旅行房屋租赁社区Airbnb曾在2011年纠结于新用户增长的缓慢,有一天,他们的数据分析团队发现房源照片的精美程度,跟房源的预定人数成很大的正相关。于是,他们提出一种假设,即“附有专业摄影照片的房源要更抢手,因此房主肯定会愿意申请Airbnb提供的此项服务”。他们迅速上线了一个提供专业摄影照片服务的版本,然后跟原版本做A/B Test,发现同一个房源,使用专业摄影服务的比不使用的多了2-3倍的订单量。 复杂问题? 2010年前后,门户时代崛起的网易、搜狐、腾讯三巨头向移动端转型,几乎垄断了当时的新闻客户端市场。而仅仅2年后,今日头条,使用“机器学习”这把屠龙刀向用户个人性化推荐用户感兴趣的新闻,一举打破巨头垄断,成为新闻客户端老大。虽然,后来腾讯和网易为了对抗头条,推出了类似的产品的天天快报和网易号,但因起步晚和算法不成熟,都失败了。 白话总结

统计学基础知识

僤鯓⒐⒋嵵緔 提交于 2019-12-01 17:06:17
为理解下面的知识需要先区分好下面几个概念: 总体均值: \(u\) 总体标准差: \(σ\) 样本均值: \(u'\) 样本标准差: \(σ'\) 样本中符合条件A的占比: \(p'\) 是样本大小: \(n\) 总体大小: \(N\) 抽样 数据分析中,虽然数据越多越齐越好,可是受限于各类因素的制约,我们并不能获取全部的数据。比如Excel的性能限制,比如数据库不支持大文件导出、或者是无法全量进行的用户调研等。 抽样是一种应对方法,通过样本来推断总体,抽样结果提供的仅仅是相应总体特征的估计,「估计」这一点很重要。 抽样有很多方式,样本首要满足随机性。比如进行社会访谈,你不能只选择商场人流区,因为采访到的人群明显是同一类人群,反而会遗漏郊区和乡镇的人群,遗漏宅男,遗漏老人。 互联网产品中,抽样也无处不在,大名鼎鼎的AB测试就是一种抽样,选取一部分人群验证运营策略或者产品改进。通常筛选用户ID末尾的数字,比如末尾选择0~4,于是抽样出了50%的用户,这既能保证随机性,也能保证控制性。 毕竟抽样的目的是验证和检验,需要始终保证用户群体的完全隔离,不能用户一会看到老界面,一会看到改进后的新界面。以上也适用于推荐算法的冠军挑战,用户分群等。 至于放回抽样,分层抽样,在互联网的数据分析中用不太到,这里就略过了。 点估计 设总体 X 的分布函数形式已知, 但它的一个或多个参数为未知,

【机器学习】逻辑回归(logistics regression)

℡╲_俬逩灬. 提交于 2019-12-01 16:21:19
一、逻辑回归的概念 逻辑回归又称logistic 回 归分析,是一种广义的线性回归分析模型,常用于数据挖掘,经济预测等领域。 逻辑回归从本质来说属于二分类问题,是基于Sigmoid函数(又叫“S型函数”)的有监督二类分类模型。 二、 Sigmoid函数 Sigmoid函数公式为: 其导数形式为:(注意,导数形式在后期会被用到) Sigmoid函数其图像如下所示,其取值范围被压缩到0到1之间。 我们知道有监督分类问题需要有带类别标记的训练样本, 中的 就对应训练集中某个样本的信息。 而样本信息通常用一系列特征的线性组合来表示,即 其中 表示 n 个特征, 是每个特征的权重,代表对应特征的重要程度, 是偏移,上式通常被写成向量形式: ( 对应的 等于1)。那么Sigmoid函数就可以相应地写为如下的形式: 假设我们知道了某个样本对应的特征取值和权重参数,那么只要将其带入上式即可得到一个0到1之间的数,通常认为 则属于正类别,反之属于负类别,即这个数其实反映了该样本属于正类别的概率。现在的问题是,我们手上有了训练集,即样本的都是已知的,而模型参数是未知的。我们需要通过训练集来确定未知的值。一旦被确定,每当面临新样本时,我们就可以将其对应的 扔到 中,根据结果是否大于0.5,轻松加愉快地得出新样本的类别了。 三、 逻辑回归为什么要用sigmoid函数而不是用其他呢? 首先需要了解几个知识点

方差分析||MSA/MSE|

℡╲_俬逩灬. 提交于 2019-12-01 14:03:39
应用统计学 - 方差分析 数值型数据使用线性回归来研究因素对因变量的影响。类别型数据使用方差分析来研究因素对因变量的影响。方差分析是使用方差比 MSA/MSE 来检验均值是否全相等,即相等是 H0 假设,而不全相等是 H1 假设。 自变量是因素,而因素取值是水平。比如,降水量是因素,降水量大、中和小是因素的三个水平。 看方差是否相等,来判断组间差异是不是很大, 组内组间都有随机误差,但是不是一种随机误差 来源: https://www.cnblogs.com/yuanjingnan/p/11689644.html

时间序列学习笔记1

我们两清 提交于 2019-12-01 12:16:22
时间序列 1.定义 时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。经济数据中大多数以时间序列的形式给出。根据观察时间的不同,时间序列中的时间可以是年份、季度、月份或其他任何时间形式。例如:北京市月度CPI同比数据。 http://data.eastmoney.com/cjsj/cpi.html 具体的定义去找度娘奥。 2.构成要素 与其说构成要素,不如说一个时间序列可以分解成哪些 构成要素:长期趋势,季节变动,循环变动,不规则变动。 1)长期趋势( T )现象在较长时期内受某种根本性因素作用而形成的总的变动趋势。 2)季节变动( S )现象在一年内随着季节的变化而发生的有规律的周期性变动。 3)循环变动( C )现象以若干年为周期所呈现出的波浪起伏形态的有规律的变动。 4)不规则变动(I )是一种无规律可循的变动,包括严格的随机变动和不规则的突发性影响很大的变动两种类型. 通过构成要素可以发现,时间序列可以用来分析事物的发展变化趋势,根据变化趋势进行预测等,为有关部分制定相关政策提供参考。 3.组合模型 时间序列的组合模型主要有两种形式 加法模型:\begin{equation} Y=T+S+C+l \end{equation}(即为上面几种趋势的相加) 乘法模型:\mathrm{Y}

机器学习:在SAS中运行随机森林

我的梦境 提交于 2019-12-01 11:55:58
原文链接: http://tecdat.cn/?p=7661 为了在SAS中运行随机森林,我们必须使用PROC HPFOREST指定目标变量,并概述天气变量是“类别”还是“定量”。为了进行此分析,我们使用了目标(Repsone变量),该目标是分类的(SAS语言中标称的),如下面的图像代码中所描述的黄色和红色: ​ 运行代码后,我们得到了一系列表格,这些表格将详细分析数据。例如,模型信息让我们知道,随机选择了3个变量来测试每个节点或每个树中可能的分割(黄色)。我们还可以看到,运行的最大树数为100,如蓝色下划线所示。 HPFOREST仅使用在任何观察值下均没有缺失记录的有效变量。但是,我们还可以看到,在研究样本的213个国家中,有213个被利用。 ​ ​ 接下来,我们可以看到模型生成带有“基线拟合统计量”的表。就本研究中的数据而言,我们可以看到该模型识别出38%的误分类,换句话说是62%的准确分类。这表示大部分样本已在每个随机选择的样本中正确分类。 ​ 在下表中分析森林时,我们可以看到误分类率已经达到了最低点,这表明在OOB样本中使用该模型进行测试时,误分类率仅在22%。 ​ 最后,我们看到SAS POC HPFOREST为我们提供了“损失减少变量的重要性”表。下表概述了每个变量如何有助于模型的可预测性的重要性等级。如下图所示,酒精变量排名最高。 现在

线性相关|回归分析|

有些话、适合烂在心里 提交于 2019-12-01 07:20:20
生物统计学 ----- 相关与回归 描述和预测统计之后,相关与回归预测变量之间的关系。 相关关系是变量间关系不能用函数精确表达,即不一一对应而是点分布在直线周围。 评价指标是相关系数,有总体相关系数和样本相关系数 , 协方差的正负性与相关系数的正负性同步,当相关系数为 0 时虽然无线性相关,但是可能存在其他非线性关系: 相关系数具有对称性,改变坐标系和尺度不改变 r 大小(但协方差不满足该性质,只能表明某两个因素有线性相关性,但不一定因果关系。通常,还会对相关系数做假设检验。 回归方程进行预测是从一组样本出发,在筛选得到教较有影响力的因素后建立方程,利用回归方程由自变量得到因变量的结果。与相关区别在于线性相关中 x 、 y 是平等的且都是随机变量,而在回归中要求 x 是自变量且是否是随机变量都无所谓, y 是被解释的必须是随机变量。线性相关是用于描述的,而回归分析是用于描述和预测的。 回归分析类型可以是一元或多元的。 回归模型中, X 是自变量。 y 是因变量。 是 误差项,随机因素,是用来不能用线性关系解释的部分,满足均值为零方差相同的正态分布,是独立的。 但是每个 x 得到的信息都不相关独立,输入 x 得到的是所有可能 y 的均值。 求两个系数使用拉格朗日乘法(最小二乘法),即偏导数为零的点,得到系数。 离差平方和的分解,即 SST=SSR+SSE 。 SST

重复测量的方差分析|Mauchly's Test of Sphericity|

回眸只為那壹抹淺笑 提交于 2019-12-01 07:19:10
生物统计学 - 重复测量的方差分析 之前的方差分析应用条件要求组之间是独立的,即某种因素下相同时段测量的结果数据,但 4 月与 5 月数据是有关系的,所以必须考虑某种因素下不同时段测量的结果数据,即使用重复测量的方差分析,即处理 * 基于时间因素的重复测量 * 同一时间下的重复测量。 这样的好处是克服时间效应,在样本数少的情况下数据量不会太少,但是重复测量使得对象有三种效应。假定测定时间对对象无影响是配对样本 t 检验的前提,否则用重复测量的方差分析。 使用条件是样本个体之间相互独立,即 A 患者与 B 患者没有关系。方差齐性是每种处理方差相同,即所有患者在接受不同处理后的数据,患者 A 的所有数据与患者 B 的所有数据的方差都是相同的;协方差球对称性,即通过球对称检验,否则就是有偏的,这需要调自由度。 总变异 = 个体间(患者在不同处理下的差异) + 个体内(患者不同时间点的差异) 1. 建立假设 2. 检验对称性(不同检验方法) 常见是一致的,如果不一致就选择第一个 多重比对必须经过球对称检验:即 p-value 必须非显著的: Mauchly's Test of Sphericity a Measure: MEASURE_1 Within Subjects Effect Mauchly's W Approx. Chi-Square df Sig. Epsilon b

十月第二周统计学~王菲

风格不统一 提交于 2019-12-01 06:08:42
spss发新版本的说法正确的是B A 两年发行一个版本 B 一年发行一个新版本 C.没有任何规律 D 三点发行一个新版本 2.哪些是SPSS统计分析软件的基本窗口:A A.结果查看器窗口B.枢轴表窗口 C.决策树视图窗口D.箱图编辑窗口 SPS帮助系统可以损供D A.算法指导 C.根据统计分析主题组织的帮助系统 D.以上都对 B.语法命令参 4.下列哪些模块是SPSS18.0的新增模块C A.回归分析模块B.自抽样模块C.神经网络模块D.市场直销模块 5.些方式不是SPS提供的运行方式A A.完全窗口菜单方式 B.程序运行方式 C.生产作业方式 D.互联网运行方式 些功能是SPSS基本模块(Base)所不能够直接实现的功能B A.数据管理与准备B.数据访问 C.统计分析 D.数据计划E.数据收集 7.哪些类型的文件是SPSS不能够直接打开的 A.say数据文件和sys数据文件B.·dbf数据文件C.·.dbf数据文件 D.SAS统计软件产生的数据文件E.hml文件 8.从总体抽取的样本应该具有B A.随机性 B.代表性 C.正态性 D.以上都是E.以上都不是 二、问答题 1.指出下列变量是定性变量还是定量变量。然后,指出每个变量的度量水平 (1)年销售量 定量变量 (2)星巴克咖杯的大小(大杯,中杯,小杯)) 定型变量 (3)每股收益 定量变量 (4)支付方法({现金,支付宝