总体方差

机器学习笔试知识点

痴心易碎 提交于 2019-11-28 15:14:56
Q1. 在回归模型中,下列哪一项在权衡欠拟合(under-fitting)和过拟合(over-fitting)中影响最大? ¶ A. 多项式阶数 B. 更新权重 w 时,使用的是矩阵求逆还是梯度下降 C. 使用常数项 答案:A 解析:选择合适的多项式阶数非常重要。如果阶数过大,模型就会更加复杂,容易发生过拟合;如果阶数较小,模型就会过于简单,容易发生欠拟合。如果有对过拟合和欠拟合概念不清楚的,见下图所示: Q2. 假设你有以下数据:输入和输出都只有一个变量。使用线性回归模型(y=wx+b)来拟合数据。那么使用留一法(Leave-One Out)交叉验证得到的均方误差是多少? A. 10/27 B. 39/27 C. 49/27 D. 55/27 答案:C 解析:留一法,简单来说就是假设有 N 个样本,将每一个样本作为测试样本,其它 N-1 个样本作为训练样本。这样得到 N 个分类器,N 个测试结果。用这 N个结果的平均值来衡量模型的性能。 对于该题,我们先画出 3 个样本点的坐标: 使用两个点进行线性拟合,分成三种情况,如下图所示: 第一种情况下,回归模型是 y = 2,误差 E1 = 1。 第二种情况下,回归模型是 y = -x + 4,误差 E2 = 2。 第三种情况下,回归模型是 y = -1/3x + 2,误差 E3 = 2/3。 则总的均方误差为: M S E = 1 3

均值、方差、协方差、协方差矩阵、特征值、特征向量

家住魔仙堡 提交于 2019-11-28 06:54:54
均值: 描述的是样本集合的中间点。 方差: 描述的是样本集合的各个样本点到均值的距离之平均,一般是用来描述一维数据的。 协方差: 是一种用来度量两个随机变量关系的统计量。 只能处理二维问题。 计算协方差需要计算均值。 如下式: 方差与协方差的关系 方差是用来度量单个变量 “ 自身变异”大小的总体参数,方差越大表明该变量的变异越大 协方差是用来度量两个变量之间 “协同变异”大小的总体参数,即二个变量相互影响大小的参数,协方差的绝对值越大,则二个变量相互影响越大。 协方差矩阵: 协方差矩阵能处理多维问题; 协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。 协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。 样本矩阵中若每行是一个样本,则每列为一个维度,所以计算协方差时要 按列计算均值 。 如果数据是3维,那么协方差矩阵是: 特征值与 特征向量 线性变化: 线性变换 (线性映射)是在作用于 两个向量空间之间的函数 ,它保持 向量加法和标量乘法 的运算,从一个向量空间变化到另一个向量空间。 实际上线性变换表现出来的就是一个矩阵 。 特征值和特征向量 是一体的概念: 对于一个给定的线性变换(矩阵A),它的特征向量 ξ 经过这个线性变换之后,得到的新向量仍然与原来的 ξ 保持在同一條直線上,但其长度也许會改变。一个特征向量的长度在该线性变换下缩放的比例(λ)称为其特征值

标准差和方差的区别

南笙酒味 提交于 2019-11-27 02:38:16
相同: 标准差(StandardDeviation),在 概率 统计中最常使用作为 统计分布 程度(statisticaldispersion)上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的 平方根 。它反映组内个体间的离散程度。测量到分布程度的结果,原则上具有两种 性质 : 为非负数值,与测量 资料 具有相同单位。一个总量的标准差或一个 随机变量 的标准差,及一个子集合样品数的标准差之间,有所差别。 简单来说,标准差是一组数据 平均值 分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。 因此方差越大,数据的波动越大;方差越小,数据的波动就越小。 标准差是反映一组数据离散程度最常用的一种量化形式,是表示精确度的重要指标。 方差与我们要处理的数据的量纲是不一致的,虽然能很好的描述数据与均值的偏离程度,但是处理结果是不符合我们的直观思维的。 举个例子:一个班级里有60个学生,平均成绩是70分,标准差是9,方差是81,成绩服从正态分布,那么我们通过方差不能直观的确定班级学生与均值到底偏离了多少分,通过标准差我们就很直观的得到学生成绩分布在[61,79]范围的概率为0.6826,即约等于下图中的34.2%*2 来源: https://blog.csdn.net/qq_35240226

数据分析-统计知识(一)

自古美人都是妖i 提交于 2019-11-26 19:18:59
1.辛普森悖论 2.四分位数 四分位数间距 IQR = Q3 - Q1 3.总体方差、样本方差 关于样本方差分母 n - 1 的证明 1.总体 已知总体方差,μ 为总体平均值 2.样本 有偏估计: 已知如下: 对有偏估计求期望: 来源: https://www.cnblogs.com/Jacon-hunt/p/11330563.html