总体方差

关于数据

a 夏天 提交于 2020-03-25 21:01:28
数据是一切的根本。 一.获取数据 1.可以使用爬虫scrapy获取数据,但是更一般的是自家数据库中的数据 2.可以获得公用数据集: http://www.kaggle.com/datasets 等网站 3.可以自己创建虚拟数据 4.注意:1)数据量尽可能多、利于训练,(2)数据内容尽可能有效,能对预测产生作用(有用的特征),(3)数据尽可能要均匀(分类),即全面 5.注意:无论是数据获取还是处理,都要注意多做备份,有能力每步都要备份,数据的价值难以想象。 二.原始数据 1.数据的本质是信息的具体化,原始数据有很多种:数字、文字、图片....我们可以从这些数据中看出里面所包含的信息。 2.计算机接收进行处理的是数字,根据经验,把原始数据转换为数字是比较容易的(比如把图片转化为矩阵的形式), 3.我们得到的原始数据可能有这样那样的问题,所以要进行下一步的数据清洗 ------原始数据是杂乱的,含有不完整、重复、错误的数据,因此要先进行数据清洗------- 三.数据清洗(Data cleaning) 1.数据清洗是为了对数据进行重新审查和校验,目的在于删除重复信息、纠正存在的错误,并提供数据一致性 2.不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类 (1)缺失数据(数据为空Null):如果缺失数据的记录占比较小,可以直接剔除(主要包括删除样本或删除特征两种

多重比较和多重比较陷阱

白昼怎懂夜的黑 提交于 2020-03-06 12:53:45
方差分析中的多重比较 1.当拒绝原假设时,表明μi(i=1,2,…,k)之间的差异是显著的,但μ1与μ2、μ1与μ3、…、μ1与μk、…、μk-1与μk之间究竟是哪两个均值不同呢? 这就需要做进一步的分析,所使用的方法就是 多重比较方法 (例如最小显著差异方法),它是通过对总体均值之间的配对比较来进步检验到底哪些均值之间存在差异。 2.方差分析中多重比较的作用是什么? 答:多重比较方法是通过对总体均值之间的配对比较来进步检验到底哪些均值之间存在差异。多重比较的方法有许多,常用的是由费希尔提出的最小显著差异方法(LSD)。 也可以说是 已知主效应显著 的情况下 看看具体是自变量的哪几个水平间差异显著 (因为方差分析一般是3个以上自变量水平间的比较,当然也可以做两水平的,但两水平不存在多重分析)。 多重比较又称事后检验,是紧接着方差分析后的分析步骤,当方差分析结果显示某变量主效应显著时,用多重比较进一步分析差异具体在该变量的哪个水平上。简单效应检验针对的是两个变量或多个变量间的交互作用,也是方差分析之后的步骤,当交互作用显著时,用简单效应检验考察某变量的效应在另一个变量的不同水平上的差异。 大概的理解是找出y除了μ1这个主效应之外其他相关μ指标。 多重比较陷阱 1.μ指标可能会有相互矛盾 2.还有可能出现过拟合的情况 未必能得出准确的结果 3.一开始就业务理解错误(那年杏花微雨

机器学习 - 统计学中的均值、方差、标准差

为君一笑 提交于 2020-03-05 02:29:49
统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 方差: 标准差: 均值描述的是样本集合的中间点,它告诉我们的信息是有限的。 方差(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。方差是衡量源数据和期望值相差的度量值。 而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。 以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是n,是因为这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。 来源: CSDN 作者: weixin_45664706 链接: https://blog.csdn.net/weixin_45664706/article/details/104652506

偏差-方差,过拟合-欠拟合

大憨熊 提交于 2020-03-04 04:06:11
偏差(Bias)与方差(Variance)   记协变量为 X X X ,预测变量为 y y y ,设 X X X 和 y y y 之间的关系可通过模型 y = f ( X ) + ϵ y=f(X)+\epsilon y = f ( X ) + ϵ ,其中误差项 、 ϵ 、\epsilon 、 ϵ 服从均值为0的正态分布,即 ϵ ∼ N ( 0 , σ ϵ ) \epsilon\sim\mathcal{N}(0,\sigma_\epsilon) ϵ ∼ N ( 0 , σ ϵ ​ ) 。   设通过某个统计模型得到 f ( X ) f(X) f ( X ) 的估计为 f ^ ( X ) \hat{f}(X) f ^ ​ ( X ) ,在点 x x x 处的均方预测误差(泛化误差)定义为,模型在点 x x x 的预测值 f ^ ( x ) \hat{f}(x) f ^ ​ ( x ) 与真实值 y y y 差值平方的期望,即: P M S E ( x ) = E [ ( f ^ ( x ) − y ) 2 ] PMSE(x)=E[(\hat{f}(x)-y)^2] P M S E ( x ) = E [ ( f ^ ​ ( x ) − y ) 2 ] 该项可做以下分解: P M S E ( x ) = E [ ( f ^ ( x ) − y ) 2 ] = E [ ( f ^ ( x

numpy计算

纵然是瞬间 提交于 2020-03-02 13:12:38
Python 中的 numpy 包 和 pandas 包都能够计算均值、方差等,本文总结一下它们的用法。 1. Numpy 计算均值、方差、标准差 一般的均值可以用 numpy 中的 mean 方法求得: >>> import numpy as np >>> a = [5, 6, 16, 9] >>> np.mean(a) 9.0 numpy 中的 average 方法不仅能求得简单平均数,也可以求出加权平均数。average 里面可以跟一个 weights 参数,里面是一个权数的数组,例如: >>> np.average(a) >>> 9.0 >>> np.average(a, weights = [1, 2, 1, 1]) >>> 8.4 计算方差时,可以利用 numpy 中的 var 函数,默认是总体方差(计算时除以样本数 N),若需要得到样本方差(计算时除以 N - 1),需要跟参数 ddo f= 1,例如 >>> import pnumpy as np >>> a = [5, 6, 16, 9] >>> np.var(a) # 计算总体方差 18.5 >>> np.var(a, ddof = 1) # 计算样本方差 24.666666666666668 >>> b = [[4, 5], [6, 7]] >>> b [[4, 5], [6, 7]] >>> np.var(b

机器学习基础-数理统计

三世轮回 提交于 2020-02-24 05:58:47
数理统计与参数估计 统计量 期望/方差/偏度/峰度 协方差和相关系数 独立和不相关 期望 数学期望(均值)是实验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。 离散型 如果随机变量只取得有限个值或无穷能按一定顺序一一列出,其值域为一个或若干个有限或无限区间 连续的 设连续性随机变量X的概率密度函数为f(x),若积分绝对收敛,则称积分的值 为随机变量的数学期望,记为E(X) 期望的性质 无条件成立 E(kX) = kE(X) E(X + Y) = E(X) + E(Y) 若X和Y相互独立 E(XY) = E(X)E(Y) 反之不成立,若E(XY)=E(X)E(Y),只能说明X和Y不相关 方差 用来度量随机变量和数学期望之间的偏离程度(统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数) 标准差、方差越大,离散程度越大 方差的性质 D(CX) = C^2*D(X), D(X+C)=D(X) D(X+Y) = D(X) + D(Y) + 2Cov(X,Y) 当X, Y 是不相关的随机变量则:D(X+Y)=D(X)+D(Y) 协方差:Cov(X,Y) = E{[X - E(X)][Y - E(Y)]} 方差就是协方差的一种特殊情况,即两个变量相同 离散型方差计算: 展开后 连续性方差计算: 展开后 随机变量的期望和方差 离散型: 连续型:

深入理解 “协方差矩阵”(python 模拟)

烂漫一生 提交于 2020-02-21 05:25:23
深入理解“协方差矩阵”(python模拟) 协方差矩阵时机器学习中常用的概念,应该是像是牛顿三大定律一样章口就莱。但是真当用到的时候却还是模棱两可,需要重新查资料确认,这次就写一篇文章一次性给自己说清楚,也争取能给大家说清楚。 方差和协方差 先弄清楚方差和协方差才能深入理解协方差矩阵(以下给出的均为统计学中的定义) 方差 :是用来度量单个随机变量的变化程度(也称离散程度) 协方差 :用于衡量两个随机变量总体变化程度。 有的地方说:“协方差刻画两个随机变量的相似程度”,这种表述是不够准确的,可以说:“刻画两个随机变量偏离各自期望的的程度的程度”。这么说就很绕,下面给出百度百科的解释 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。(百度百科) 网上还有一种比喻就是说方差就像是在一群人中衡量一个人的身高;而协方差是在一群中衡量一个人的升高和体重(也许对有些人会比较好理解,下面的说明也会用到这个例子) 下面给出 方差 的方程: σ x 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 \sigma_x^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-

学习matlab(四)——概率与数理统计

风格不统一 提交于 2020-02-10 20:21:36
概率和数理统计是大学数学的重要内容,无论是在科学研究还是在工程实际中都有着非常广泛的应用。在MATLAB中,提供了专门的统计工具箱Staticstics,该工具箱有几百个专用于求解概率和数理统计问题的函数。本章将详细的介绍随机数的产生,随机变量的概率密度函数和数字特征,以及假设检验、方差分析和统计绘图等。 0.随机数 随机数的产生是概率统计的基础,概率论和数理统计就是对各种样本数据进行分析。在MATLAB中,各种样本数据可以用一些经典的随机分布数来表示。下面对常用的二项分布、均匀分布、指数分布、正态分布等随机数据进行详细的介绍。 <1>二项分布随机分布 在MATLAB中,使用函数binornd()产生二项分布的随机数据。该函数的的调用方式如下:R=binornd(N,P):在该函数中N和P为二项分布的两个参数,返回服从参数为N和P的二项分布随机数。R=binornd(N,P,M):在该函数中参数M指定随机数的个数,与返回结果R同维数。 <2>泊松分布 在MATLAB中,使用函数poissrnd()产生泊松分布的随机数据。该函数的调用方式如下:R=poissrnd(LAMBDA):在该函数中LAMBDA为泊松分布的参数,返回服从参数为LAMBDA的泊松分布随机数,其中R与LAMBDA维数相同。R=poissrnd(LAMBDA,M,N):在该函数中LAMBDA为泊松分布的参数

数字图像处理(八)——Matlab实现单阈值与多阈值分割

青春壹個敷衍的年華 提交于 2020-02-01 10:30:32
实验内容 对左侧图像进行单阈值、多阈值分割,分别得到右侧的结果。请大家实现这两种方法的分割,对比单阈值与多阈值以及不同阈值的分割效果。 实验一:单阈值分割 方法一:人工阈值选择法: 阈值分割最简单的方法就是人工选择法。基于灰度阈值的分割方法,其关键是如何合理的选择阈值。人工选择方法是通过人眼的观察,应用人对图像的知识,在分析图像直方图的基础上,人工选择出合理的阈值。也可以在人工选择出阈值后,根据分割的效果,不断地进行交互操作,从而选择出最佳的阈值。首先,图像的原图如下: 其次,利用imhist()函数显示出图像的灰度直方图: 通过观察图像灰度直方图可以发现,在150-200之间的灰度值出现很少,而在两边出现了明显的两个高峰,因此根据人工选择阈值法选取183作为图像的阈值分割点,得到的实验效果图如下图所示: 通过观察可以发现人工阈值选择法成功得出了实验效果图,利用灰度直方图的峰谷阈值方法是一种有效且简单的阈值方法,但是该方法有一个局限性,就是要求图像的灰度直方图必须具有双峰型。 方法二:Ostu法: Ostu法是一种使类间方差最大的自动确定阈值的方法,该方法具有简单、处理速度快的特点,是一种常用的阈值选取方法。算法的具体步骤如下: 1、给定一个初始阈值Th,将图像分为C1和C2两类。 2、分别计算出每个灰度值在图像矩阵中的个数,存放在count()矩阵当中。 3

总体方差与样本方差分母的小小区别,n还是n-1?

孤者浪人 提交于 2020-01-31 22:17:57
总体方差与样本方差分母的小小区别,n还是n-1? 引入 方差概念 方差计算 无偏估计 样本方差公式 相关参考链接 样本方差的自由度是n-1 引入 方差概念 方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量,用来度量随机变量和其数学期望(即均值)之间的偏离程度。 方差计算 定义: D X = E ( X − E X ) 2 = E X 2 − ( E X ) 2 D X=E(X-E X)^{2}=E X^{2}-(E X)^{2} D X = E ( X − E X ) 2 = E X 2 − ( E X ) 2 离散型和连续型的随机变量计算公式分别为: D ( X ) = { ∑ k = 1 ∞ [ x k − E ( X ) ] 2 p k , ∫ − ∞ ∞ [ x k − E ( X ) ] 2 f ( x ) d x \boldsymbol{D}(\boldsymbol{X})=\left\{\begin{array}{c} {\sum_{k=1}^{\infty}\left[\boldsymbol{x}_{k}-\boldsymbol{E}(\boldsymbol{X})\right]^{2} p_{k},} \\ {\int_{-\infty}^{\infty}\left[\boldsymbol{x}_{k}-\boldsymbol{E}(