样本容量 | 易学教程

CDA 数据分析师 level1 part 3

阅读更多关于 CDA 数据分析师 level1 part 3

数据分析师数据分析师抽样分布及参数估计随机的基本概念随机试验随机试验是概率论的一个基本概念。概括地讲，在概率论中把符合下面三个特点的试验叫做随机试验： ●可以在相同的条件下重复的进行。 ●每次试验的可能结果不止一个，并且能事先明确试验的所有可能结果。 ●进行一次试验之前不能确定哪一个结果会出现。随机事件在概率论中，随机事件（或简称事件）指的是一个被赋予机率的事物集合，也就是样本空间中的一个子集。简单来说，在一次随机试验中，某个特定事件可能出现也可能不出现；但当试验次数增多，我们可以观察到某种规律性的结果，就是随机事件。随机变量设随机试验的样本空间 S={e},X=X{e} 是定义在样本空间S上的单值实值函数，称X为随机变量。正态分布的图像形式既然介绍变量的分布情况，就要介绍一下正态分布。首先，正态分布是关于均值左右对称的，呈钟形，如下图所示。其次，正态分布的均值和标准差具有代表性只要知道其均值和标准差，这个变量的分布情况就完全知道了在正态分布中，均值=中位数=众数。抽样分布中心极限定理从均值为μ，方差为 \sigma^2 的一个任意总体中抽取容量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ，方差为 \sigma^2 ／n的正态分布。根据中心极限定理，我们知道如果做很多次抽样的话会得到很多个样本均值，而这些样本均值排列起来会形成正态分布

中心极限定理（Central Limit Theorem）

阅读更多关于中心极限定理（Central Limit Theorem）

中心极限定理：从总体中抽取容量为n的简单随机样本，当样本容量很大时，样本均值的抽样分布近似服从正态分布。（注：总体数据需独立同分布）那么样本容量应该达到多大时，才能应用中心极限定理呢？答：对于大多数应用，当样本容量大于或等于30时就可以。从下图中可以看出，不管总体是什么样的分布情况，当样本量达到30的时候，样本均值的分布就是钟形分布了：中心极限定理的作用：（1）在没有办法得到总体全部数据的情况下，可以用样本来估计总体。（2）根据总体的平均值和标准差，判断某个样本是否属于总体。附： 20世纪初概率学家大都称呼该定理为极限定理(Limit Theorem)，由于该定理在概率论中处于如此重要的中心位置，如此之多的概率学武林高手为它魂牵梦绕，于是数学家波利亚(G.Polya)于1920年在该定理前面冠以"中心"一词，由此后续人们都称之为中心极限定理。来源： https://www.cnblogs.com/HuZihu/p/10052254.html

2019.11.28 杨鑫蕊课上重点

阅读更多关于 2019.11.28 杨鑫蕊课上重点

今天所学代码： INPUT PROGRAM. VECTOR X(100). LOOP #I =1TO 50. LOOP #J=1 TO 100. COMPUTE X(#J)=RV.NORMAL(1,0). END LOOP. END CASE. END LOOP. 定义：经验分布：实质是几的样本服从分布，观测到的样本数据的相对频率抽样分布：是指样本统计量（原本均值，样本的方差，样本的标准差），所服从的分布置信区间：指样本统计量所构造的总体参数的估计区间置信区间的前提是数据必须服从正态分布置信区间 :分析-描述性统计-探索-统计-描述性-设置置信区间的置信度-继续-选择变量-确定均值的95%置信区间的含义：如果我们从一个总体中重复抽取容量为n的样本为100个，那么这100个样本均值置信区间中，至少有95个会包含总体均值假设思想: 假设检验思想：反证法及小概率原理假设检验有可能范两类错误第一类错误：原假设正确，而错误的拒绝了他，所以拒真的有错误第二类错误：原假设不正确，而错误的没有拒绝他，所以受伪错误假设思想俗称“杠精” 来源： https://www.cnblogs.com/yangxinrui123456/p/11954171.html

11.28spss

阅读更多关于 11.28spss

理论分布：指总体所服从的分布，可以有个解析表达式，该表达式，一般是具有特定参数的概率分布函数。经验分布：是指实际的样本服从分布，观测到的样本数据的，相对频率称为经验分布。抽样分布：是指样本统计量样本均值样本的方差样本的标准差，所以服从的分布。置信区间：只样本统计量所构造的总体参数的估计区间。置信区间置信区间的前提：数据必须服从正态分布置信区间：分析——描述性统计——探索——统计——描述性——设置置信区间的置信度——继续——选择变量——确定均值的95％置信区间的含义：如果我们从一个总体中重复抽取容量为n的样本100个，那么从这100个样本均值置信区间中，至少有95个会包含总体均值假设思想假设检验的思想：反证法及小概率原理假设检验有可能犯两类错误　　第一类错误：原假设正确，而错误的拒绝了他　　及拒真的错误　　第二类错误：原假设不正确，而错误的没有拒绝他，及受伪错误来源： https://www.cnblogs.com/zengtianyu123/p/11954143.html

深度学习各种优化函数详解

阅读更多关于深度学习各种优化函数详解

深度学习各种优化函数详解深度学习中有众多有效的优化函数，比如应用最广泛的SGD，Adam等等，而它们有什么区别，各有什么特征呢？下面就来详细解读一下一、先来看看有哪些优化函数 BGD 批量梯度下降所谓的梯度下降方法是无约束条件中最常用的方法。假设f(x)是具有一阶连续偏导的函数，现在的目标是要求取最小的f(x) : min f(x) 核心思想：负梯度方向是使函数值下降最快的方向，在迭代的每一步根据负梯度的方向更新x的值，从而求得最小的f(x)。因此我们的目标就转变为求取f(x)的梯度。当f(x)是凸函数的时候，用梯度下降的方法取得的最小值是全局最优解，但是在计算的时候，需要在每一步（xk处）计算梯度，它每更新一个参数都要遍历完整的训练集，不仅很慢，还会造成训练集太大无法加载到内存的问题，此外该方法还不支持在线更新模型。其代码表示如下： for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad 1 2 3 我们首先需要针对每个参数计算在整个训练集样本上的梯度，再根据设置好的学习速率进行更新。公式表示如下：假设h(theta)是我们需要拟合的函数，n表示参数的个数

模型评估、过拟合欠拟合以及超参数调优方法

阅读更多关于模型评估、过拟合欠拟合以及超参数调优方法

机器学习入门系列（2）–如何构建一个完整的机器学习项目，第十一篇！该系列的前 10 篇文章：机器学习入门系列(2)–如何构建一个完整的机器学习项目(一) 机器学习数据集的获取和测试集的构建方法特征工程之数据预处理（上）特征工程之数据预处理（下）特征工程之特征缩放&特征编码特征工程(完) 常用机器学习算法汇总比较(上）常用机器学习算法汇总比较(中）常用机器学习算法汇总比较(完）简单聊聊模型的性能评估标准上一篇文章介绍了性能评估标准，但如何进行模型评估呢，如何对数据集进行划分出训练集、验证集和测试集呢？如何应对可能的过拟合和欠拟合问题，还有超参数的调优，如何更好更快找到最优的参数呢？本文会一一介绍上述的问题和解决方法。 2. 模型评估的方法 2.1 泛化能力泛化能力：指模型对未知的、新鲜的数据的预测能力，通常是根据测试误差来衡量模型的泛化能力，测试误差越小，模型能力越强；统计理论表明：如果训练集和测试集中的样本都是独立同分布产生的，则有模型的训练误差的期望等于模型的测试误差的期望。机器学习的“没有免费的午餐定理”表明：在所有可能的数据生成分布上，没有一个机器学习算法总是比其他的要好。该结论仅在考虑所有可能的数据分布时才成立。现实中特定任务的数据分布往往满足某类假设，从而可以设计在这类分布上效果更好的学习算法。

PRML学习笔记第一章

阅读更多关于 PRML学习笔记第一章

【转】模式识别的目标自动从数据中发现潜在规律，以利用这些规律做后续操作，如数据分类等。模型选择和参数调节类似的一族规律通常可以以一种模型的形式为表达，选择合适模型的过程称为模型选择（Model Selection）。模型选择的目的只是选择模型的形式，而模型的参数是未定的。从数据中获得具体规律的过程称为训练或学习，训练的过程就是根据数据来对选定的模型进行参数调节（Parameter Estimation）的过程，此过程中使用的数据为训练数据集（Training Set）。对于相同数据源的数据来讲，规律应该是一般的（泛化Generalization），因此评估一个学习结果的有效性可以通过使用测试数据集（Testing Set）来进行的。预处理对于大多数现实中的数据集来讲，使用其进行学习之前，通常需要进行预处理，以提高学习精度及降低学习的开销。以图像识别为例，若以像素做为一个特征，往往一幅图像的特征就能达到几万的数量级，而很多特征（如背景色）都是对于图像辨识起不到太大作用的，因此对于图像数据集，预处理过程通常包括维数约减（特征变换，特征选择），仅保留具有区分度的特征。文本数据分类任务中，对训练文本也有类似的处理方式，只不过此时扮演特征的是单词，而不是像素值。监督学习和非监督学习输入向量（input vector）：，响应向量（target vector）：

数据分析

阅读更多关于数据分析

@ TOC 不懂统计和数据分析讲的是什么？看这篇就够了 python爬虫人工智能大数据今天以下文章来源于Ray的数据分析自习室，作者Ray Ray的数据分析自习室 Ray的数据分析自习室数据干货 | 商业评论 | 职业发展 1 数据分析概述数据分析是基于某种业务目的，有目的的处理数据，提取有价值的信息，解决各种业务问题的过程。目的/出发点：设立目标或业务需求，明确问题方法：根据不同场景选定分析方法结果：目标解释或业务应用（to do），创造价值 1.1 数据分析流程目的和内容：明确项目整体框架或业务问题数据收集：根据假设或问题树收集相应数据，要求数据准确、有效；SQL、业务调整信息数据预处理：检验-清理，可比（例如标准化、得分转换等），论证数据分析：方法、工具的选取数据表达：图表数据报告：结论、建议&解决方案 1.2 数据分析方法预处理加工：描述性统计分析（数据分布、数据趋势）、相关分析（正负相关、拟合、相关系数）基于数理统计：方差分析、回归分析、因子分析数据挖掘：聚类（层次分析、K均值、模糊聚类、高斯回归）、分类（决策树、神经网络、贝叶斯分类、SVM、随机森林）、回归分析（线性回归、logistic回归） 1.3 数据分析工具 Excel-SQL、R、Python、BI、HADOOP、Spark… 2 数据趋势 2.1 计量尺度

几个常用算法的适应场景及其优缺点！

阅读更多关于几个常用算法的适应场景及其优缺点！

机器学习算法太多了，分类、回归、聚类、推荐、图像识别领域等等，要想找到一个合适算法真的不容易，所以在实际应用中，我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法，诸如SVM，GBDT，Adaboost，现在深度学习很火热，神经网络也是一个不错的选择。假如你在乎精度（accuracy）的话，最好的方法就是通过交叉验证（cross-valida ti on）对各个算法一个个地进行测试，进行比较，然后调整参数确保每个算法达到最优解，最后选择最好的一个。但是如果你只是在寻找一个“足够好”的算法来解决你的问题，或者这里有些技巧可以参考，下面来分析下各个算法的优缺点，基于算法的优缺点，更易于我们去选择它。 1.天下没有免费的午餐在机器学习领域，一个基本的定理就是“没有免费的午餐”。换言之，就是没有算法能完美地解决所有问题，尤其是对监督学习而言（例如预测建模）。举例来说，你不能去说神经网络任何情况下都能比决策树更有优势，反之亦然。它们要受很多因素的影响，比如你的数据集的规模或结构。其结果是，在用给定的测试集来评估性能并挑选算法时，你应当根据具体的问题来采用不同的算法。当然，所选的算法必须要适用于你自己的问题，这就要求选择正确的机器学习任务。作为类比，如果你需要打扫房子，你可能会用到吸尘器、扫帚或是拖把，但你绝对不该掏出铲子来挖地。 2. 偏差

数据分析的统计基础5

阅读更多关于数据分析的统计基础5

样本均值、样本比例和样本方差的抽样分布样本均值的抽样分布在重复选取容量为n的样本时，由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值 $\mu$ 的理论基础大数定律表明：当来自于独立同分布(i.i.d)的总体(该总体均值为 $\mu$ ，方差为 $\sigma^2$ )中 $n$ 个随机变量 $X_1,X_2,...X_n$ ，其均值 $\bar X = n^{-1}\sum \limits_{i=1}^{n}X_i$ ，随着 $n \to \infty$ ，有 $E(\bar X)=\mu，Var(\bar X) =\sigma^2/n$ ，中心极限定理告诉表明：随着 $n \to \infty$ ， $\bar X = n^{-1}\sum \limits_{i=1}^{n}X_i$ 近似服从正态分布。综合两者有： $\bar X = n^{-1}\sum \limits_{i=1}^{n}X_i \sim N(\mu,\sigma^2/n)$ 两样本均值差的分布两个总体都为正态分布，即$ X_1 \sim N(\mu_1 ,\sigma_1^2)$ ，$ X_2 \sim N(\mu_2 ,\sigma_2^2 )$ 两个样本均值之差 $\bar X_1 - \bar X_2$

订阅样本容量