样本容量

CDA 数据分析师 level1 part 3

孤人 提交于 2019-12-06 12:33:33
数据分析师 数据分析师 抽样分布及参数估计 随机的基本概念 随机试验 随机试验是概率论的一个基本概念。概括地讲,在概率论中把符合下面三个特点的试验叫做随机试验: ●可以在相同的条件下重复的进行。 ●每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果。 ●进行一次试验之前不能确定哪一个结果会出现。 随机事件 在概率论中,随机事件(或简称事件)指的是一个被赋予机率的事物集合,也就是样本空间中的一个子集。简单来说,在一次随机试验中,某个特定事件可能出现也可能不出现;但当试验次数增多,我们可以观察到某种规律性的结果,就是随机事件。 随机变量 设随机试验的样本空间 S={e},X=X{e} 是定义在样本空间S上的单值实值函数,称X为随机变量。 正态分布的图像形式 既然介绍变量的分布情况,就要介绍一下正态分布。首先,正态分布是关于均值左右对称的,呈钟形,如下图所示。其次,正态分布的均值和标准差具有代表性只要知道其均值和标准差,这个变量的分布情况就完全知道了在正态分布中,均值=中位数=众数。 抽样分布 中心极限定理 从均值为μ,方差为 \sigma^2 的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ,方差为 \sigma^2 /n的正态分布。 根据中心极限定理,我们知道如果做很多次抽样的话会得到很多个样本均值,而这些样本均值排列起来会形成正态分布

中心极限定理(Central Limit Theorem)

我只是一个虾纸丫 提交于 2019-12-06 09:50:46
中心极限定理:从总体中抽取容量为n的简单随机样本,当样本容量很大时,样本均值的抽样分布近似服从正态分布。 (注:总体数据需独立同分布) 那么样本容量应该达到多大时,才能应用中心极限定理呢?答:对于大多数应用,当样本容量大于或等于30时就可以。 从下图中可以看出,不管总体是什么样的分布情况,当样本量达到30的时候,样本均值的分布就是钟形分布了: 中心极限定理的作用: (1)在没有办法得到总体全部数据的情况下,可以用样本来估计总体。 (2)根据总体的平均值和标准差,判断某个样本是否属于总体。 附: 20世纪初概率学家大都称呼该定理为极限定理(Limit Theorem),由于该定理在概率论中处于如此重要的中心位置,如此之多的概率学武林高手为它魂牵梦绕,于是数学家波利亚(G.Polya)于1920年在该定理前面冠以"中心"一词,由此后续人们都称之为中心极限定理。 来源: https://www.cnblogs.com/HuZihu/p/10052254.html

2019.11.28 杨鑫蕊课上重点

余生长醉 提交于 2019-12-06 00:48:40
今天所学代码 : INPUT PROGRAM. VECTOR X(100). LOOP #I =1TO 50. LOOP #J=1 TO 100. COMPUTE X(#J)=RV.NORMAL(1,0). END LOOP. END CASE. END LOOP. 定义 : 经验分布:实质是几的样本服从分布,观测到的样本数据的相对频率 抽样分布:是指样本统计量(原本均值,样本的方差,样本的标准差),所服从的分布 置信区间:指样本统计量所构造的总体参数的估计区间 置信区间的前提是数据必须服从正态分布 置信区间 :分析-描述性统计-探索-统计-描述性-设置置信区间的置信度-继续-选择变量-确定 均值的95%置信区间的含义:如果我们从一个总体中重复抽取容量为n的样本为100个,那么这100个样本均值置信区间中,至少有95个会包含总体均值 假设思想: 假设检验思想: 反证法及小概率原理 假设检验有可能范两类错误 第一类错误:原假设正确,而错误的拒绝了他,所以拒真的有错误 第二类错误:原假设不正确,而错误的没有拒绝他,所以受伪错误 假设思想俗称“杠精” 来源: https://www.cnblogs.com/yangxinrui123456/p/11954171.html

11.28spss

人盡茶涼 提交于 2019-12-06 00:46:12
理论分布:指总体所服从的分布,可以有个解析表达式,该表达式,一般是具有特定参数的概率分布函数。 经验分布:是指实际的样本服从分布,观测到的样本数据的,相对频率称为经验分布。 抽样分布:是指样本统计量样本均值样本的方差样本的标准差,所以服从的分布。 置信区间:只样本统计量所构造的总体参数的估计区间。 置信区间 置信区间的前提:数据必须服从正态分布 置信区间:分析——描述性统计——探索——统计——描述性——设置置信区间的置信度——继续——选择变量——确定 均值的95%置信区间的含义:如果我们从一个总体中重复抽取容量为n的样本100个,那么从这100个样本均值置信区间中,至少有95个会包含总体均值 假设思想 假设检验的思想:反证法及小概率原理 假设检验有可能犯两类错误   第一类错误:原假设正确,而错误的拒绝了他  及拒真的错误   第二类错误:原假设不正确,而错误的没有拒绝他 ,及受伪错误 来源: https://www.cnblogs.com/zengtianyu123/p/11954143.html

深度学习各种优化函数详解

寵の児 提交于 2019-12-05 07:39:12
深度学习各种优化函数详解 深度学习中有众多有效的优化函数,比如应用最广泛的SGD,Adam等等,而它们有什么区别,各有什么特征呢?下面就来详细解读一下 一、先来看看有哪些优化函数 BGD 批量梯度下降 所谓的梯度下降方法是无约束条件中最常用的方法。假设f(x)是具有一阶连续偏导的函数,现在的目标是要求取最小的f(x) : min f(x) 核心思想:负梯度方向是使函数值下降最快的方向,在迭代的每一步根据负梯度的方向更新x的值,从而求得最小的f(x)。因此我们的目标就转变为求取f(x)的梯度。 当f(x)是凸函数的时候,用梯度下降的方法取得的最小值是全局最优解,但是在计算的时候,需要在每一步(xk处)计算梯度,它每更新一个参数都要遍历完整的训练集,不仅很慢,还会造成训练集太大无法加载到内存的问题,此外该方法还不支持在线更新模型。其代码表示如下: for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad 1 2 3 我们首先需要针对每个参数计算在整个训练集样本上的梯度,再根据设置好的学习速率进行更新。 公式表示如下: 假设h(theta)是我们需要拟合的函数,n表示参数的个数

模型评估、过拟合欠拟合以及超参数调优方法

人走茶凉 提交于 2019-12-03 17:31:23
机器学习入门系列(2)–如何构建一个完整的机器学习项目,第十一篇! 该系列的前 10 篇文章: 机器学习入门系列(2)–如何构建一个完整的机器学习项目(一) 机器学习数据集的获取和测试集的构建方法 特征工程之数据预处理(上) 特征工程之数据预处理(下) 特征工程之特征缩放&特征编码 特征工程(完) 常用机器学习算法汇总比较(上) 常用机器学习算法汇总比较(中) 常用机器学习算法汇总比较(完) 简单聊聊模型的性能评估标准 上一篇文章 介绍了性能评估标准,但如何进行模型评估呢,如何对数据集进行划分出训练集、验证集和测试集呢?如何应对可能的过拟合和欠拟合问题,还有超参数的调优,如何更好更快找到最优的参数呢? 本文会一一介绍上述的问题和解决方法。 2. 模型评估的方法 2.1 泛化能力 泛化能力 :指模型对 未知的、新鲜的数据的预测能力 ,通常是根据 测试误差 来衡量模型的泛化能力,测试误差越小,模型能力越强; 统计理论表明:如果训练集和测试集中的样本都是独立同分布产生的,则有 模型的训练误差的期望等于模型的测试误差的期望 。 机器学习的“没有免费的午餐定理”表明:在所有可能的数据生成分布上,没有一个机器学习算法总是比其他的要好。 该结论仅在考虑所有可能的数据分布时才成立。 现实中特定任务的数据分布往往满足某类假设,从而可以设计在这类分布上效果更好的学习算法。

PRML学习笔记第一章

匿名 (未验证) 提交于 2019-12-03 00:41:02
【转】 模式识别的目标 自动从数据中发现潜在规律,以利用这些规律做后续操作,如数据分类等。 模型选择和参数调节 类似的一族规律通常可以以一种模型的形式为表达,选择合适模型的过程称为模型选择(Model Selection)。模型选择的目的只是选择模型的形式,而模型的参数是未定的。 从数据中获得具体规律的过程称为训练或学习,训练的过程就是根据数据来对选定的模型进行参数调节(Parameter Estimation)的过程,此过程中使用的数据为训练数据集(Training Set)。 对于相同数据源的数据来讲,规律应该是一般的(泛化Generalization),因此评估一个学习结果的有效性可以通过使用测试数据集(Testing Set)来进行的。 预处理 对于大多数现实中的数据集来讲,使用其进行学习之前,通常需要进行预处理,以提高学习精度及降低学习的开销。 以图像识别为例,若以像素做为一个特征,往往一幅图像的特征就能达到几万的数量级,而很多特征(如背景色)都是对于图像辨识起不到太大作用的,因此对于图像数据集,预处理过程通常包括维数约减(特征变换,特征选择),仅保留具有区分度的特征。 文本数据分类任务中,对训练文本也有类似的处理方式,只不过此时扮演特征的是单词,而不是像素值。 监督学习和非监督学习 输入向量(input vector): ,响应向量(target vector):

数据分析

一个人想着一个人 提交于 2019-12-02 06:23:45
@ TOC 不懂统计和数据分析讲的是什么?看这篇就够了 python爬虫人工智能大数据 今天 以下文章来源于Ray的数据分析自习室 ,作者Ray Ray的数据分析自习室 Ray的数据分析自习室 数据干货 | 商业评论 | 职业发展 1 数据分析概述 数据分析是基于某种业务目的,有目的的处理数据,提取有价值的信息,解决各种业务问题的过程。 目的/出发点:设立目标或业务需求,明确问题 方法:根据不同场景选定分析方法 结果:目标解释或业务应用(to do),创造价值 1.1 数据分析流程 目的和内容:明确项目整体框架或业务问题 数据收集:根据假设或问题树收集相应数据,要求数据准确、有效;SQL、业务调整信息 数据预处理:检验-清理,可比(例如标准化、得分转换等),论证 数据分析:方法、工具的选取 数据表达:图表 数据报告:结论、建议&解决方案 1.2 数据分析方法 预处理加工:描述性统计分析(数据分布、数据趋势)、相关分析(正负相关、拟合、相关系数) 基于数理统计:方差分析、回归分析、因子分析 数据挖掘:聚类(层次分析、K均值、模糊聚类、高斯回归)、分类(决策树、神经网络、贝叶斯分类、SVM、随机森林)、回归分析(线性回归、logistic回归) 1.3 数据分析工具 Excel-SQL、R、Python、BI、HADOOP、Spark… 2 数据趋势 2.1 计量尺度

几个常用算法的适应场景及其优缺点!

℡╲_俬逩灬. 提交于 2019-11-29 07:56:30
机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在 深度学习 很火热, 神经网络 也是一个不错的选择。 假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cross-valida ti on)对各个算法一个个地进行 测试 ,进行比较,然后调整参数确保每个算法达到最优解,最后选择最好的一个。但是如果你只是在寻找一个“足够好”的算法来解决你的问题,或者这里有些技巧可以参考,下面来分析下各个算法的优缺点,基于算法的优缺点,更易于我们去选择它。 1.天下没有免费的午餐 在机器学习领域,一个基本的定理就是“没有免费的午餐”。换言之,就是没有算法能完美地解决所有问题,尤其是对监督学习而言(例如预测建模)。 举例来说,你不能去说神经网络任何情况下都能比决策树更有优势,反之亦然。它们要受很多因素的影响,比如你的数据集的规模或结构。 其结果是,在用给定的测试集来评估性能并挑选算法时,你应当根据具体的问题来采用不同的算法。 当然,所选的算法必须要适用于你自己的问题,这就要求选择正确的机器学习任务。作为类比,如果你需要打扫房子,你可能会用到吸尘器、扫帚或是拖把,但你绝对不该掏出铲子来挖地。 2. 偏差

数据分析的统计基础5

一个人想着一个人 提交于 2019-11-28 11:13:10
样本均值、样本比例和样本方差的抽样分布 样本均值的抽样分布 在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布 一种理论概率分布 推断总体均值 \(\mu\) 的理论基础 大数定律表明:当来自于独立同分布(i.i.d)的总体(该总体均值为 \(\mu\) ,方差为 \(\sigma^2\) )中 \(n\) 个随机变量 \(X_1,X_2,...X_n\) ,其均值 \(\bar X = n^{-1}\sum \limits_{i=1}^{n}X_i\) ,随着 \(n \to \infty\) ,有 \(E(\bar X)=\mu,Var(\bar X) =\sigma^2/n\) ,中心极限定理告诉表明:随着 \(n \to \infty\) , \(\bar X = n^{-1}\sum \limits_{i=1}^{n}X_i\) 近似服从正态分布。综合两者有: \(\bar X = n^{-1}\sum \limits_{i=1}^{n}X_i \sim N(\mu,\sigma^2/n)\) 两样本均值差的分布 两个总体都为正态分布,即$ X_1 \sim N(\mu_1 ,\sigma_1^2)​$ ,$ X_2 \sim N(\mu_2 ,\sigma_2^2 )​$ 两个样本均值之差 \(\bar X_1 - \bar X_2​\)