方差

多元高斯分布

戏子无情 提交于 2019-11-28 08:39:38
让我们回到小球检测的栗子,在一元高斯分布下,我们只使用了色相值这一个性质。然而,颜色其实是用多个维度来定义的。比如,在HSV模型下,除了色相值还有饱和度(Saturation)和亮度(Value)。而我们通常使用的三原色光模式(RGB模型)将颜色表示成红色(R)、绿色(G)和蓝色(B)的叠加。如果我们用RGB值来表示一个颜色,怎样表示我们栗子中的小球呢?我们将图片中所有像素点的RGB值用散点图的形式画出来可以得到下面的图: 那我们怎样对这种图形进行建模呢?如这一节的题目所说,我们将一元高斯分布扩展到多元高斯分布并对RGB值进行建模。 让我们首先来介绍多元高斯分布的数学形式吧: 多元高斯分布和一元高斯分布是十分相似的,我们用加粗的 来表示变量(一个向量), 表示维度(元的数目),加粗的 表示平均向量,大写的 表示协方差矩阵(Covariance Matrix,是一个方阵), 表示 的行列式值, 表示矩阵 的转置。 值得一提的是协方差矩阵,它由两部分组成,方差(Variance)和相关性(Correlation),对角线上的值表示方差,非对角线上的值表示维度之间的相关性。拿一个二维协方差矩阵作栗子: 其中,对角线上的 和 分别表示变量 和 的独立方差,非对角线上的 表示两个变量之间的相关性(注意 和 是相等的)。 回到小球检测的栗子,我们考虑用RGB来对“红色

均值、方差、协方差、协方差矩阵、特征值、特征向量

家住魔仙堡 提交于 2019-11-28 06:54:54
均值: 描述的是样本集合的中间点。 方差: 描述的是样本集合的各个样本点到均值的距离之平均,一般是用来描述一维数据的。 协方差: 是一种用来度量两个随机变量关系的统计量。 只能处理二维问题。 计算协方差需要计算均值。 如下式: 方差与协方差的关系 方差是用来度量单个变量 “ 自身变异”大小的总体参数,方差越大表明该变量的变异越大 协方差是用来度量两个变量之间 “协同变异”大小的总体参数,即二个变量相互影响大小的参数,协方差的绝对值越大,则二个变量相互影响越大。 协方差矩阵: 协方差矩阵能处理多维问题; 协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。 协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。 样本矩阵中若每行是一个样本,则每列为一个维度,所以计算协方差时要 按列计算均值 。 如果数据是3维,那么协方差矩阵是: 特征值与 特征向量 线性变化: 线性变换 (线性映射)是在作用于 两个向量空间之间的函数 ,它保持 向量加法和标量乘法 的运算,从一个向量空间变化到另一个向量空间。 实际上线性变换表现出来的就是一个矩阵 。 特征值和特征向量 是一体的概念: 对于一个给定的线性变换(矩阵A),它的特征向量 ξ 经过这个线性变换之后,得到的新向量仍然与原来的 ξ 保持在同一條直線上,但其长度也许會改变。一个特征向量的长度在该线性变换下缩放的比例(λ)称为其特征值

PCA的数学原理

↘锁芯ラ 提交于 2019-11-28 04:05:06
原帖地址: http://blog.codinglabs.org/articles/pca-tutorial.html PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的数学推导。希望读者在看完这篇文章后能更好的明白PCA的工作原理。 数据的向量表示及降维问题 一般情况下,在数据挖掘和机器学习中,数据被表示为向量。例如某个淘宝店2012年全年的流量及交易情况可以看成一组记录的集合,其中每一天的数据是一条记录,格式如下: (日期, 浏览量, 访客数, 下单数, 成交数, 成交金额) 其中“日期”是一个记录标志而非度量值,而数据挖掘关心的大多是度量值,因此如果我们忽略日期这个字段后,我们得到一组记录,每条记录可以被表示为一个五维向量,其中一条看起来大约是这个样子: 注意这里我用了转置,因为习惯上使用列向量表示一条记录(后面会看到原因),本文后面也会遵循这个准则

ZROI 19.08.11模拟赛

痞子三分冷 提交于 2019-11-27 20:31:26
传送门 写在前面:为了保护正睿题目版权,这里不放题面,只写题解。 dlstql,wsl A \(10pts:\) \(a=100,T=100\) ,对每个排列构造一个反的,一步到位即可。 \(20pts:\) \(a=50\) ,构造 \(1\) 和所有元素交换的排列,实现交换 \((v,u)\) 可以令两者分别与 \(1\) 交换,选择排序即可。 \(40pts:\) \(a=30\) ,构造前 \(25\) 个元素与 \(1\) 交换的排列,另有一个排列交换前 \(25\) 个与后 \(25\) 个元素。 \(a=20\) 时可以分三块处理。 \(100pts:\) 考虑 \(a=2\) ,步数不限时怎么做。 只需构造一个 \(2-n\) 的环,再构造一个 \(1-2\) 的交换。 每次可以把位置 \(1\) 上的数放到它在循环里的对应位置。 但是一步的期望是 \(\frac{n}2\) 次操作,实际步数无法承受。 考虑倍增。由于 \(a=5\) 的限制,难以二进制倍增,可以考虑三进制倍增。 【update:经过同学们反映,必须用dls的 \(\{1,3,8,20\}\) 才能获得满分】 一步的期望大约是 \(4.5\) 次操作,随机数据下可以通过。 B 欣赏一下swk的神奇错误: \(\frac{1}n \sum(a_i-\frac 1n \sum a_i)^2=\frac

机器学习:数据归一化(Scaler)

北战南征 提交于 2019-11-27 18:02:34
数据归一化(Feature Scaling) 一、为什么要进行数据归一化 原则:样本的所有特征,在特征空间中,对样本的距离产生的影响是同级的; 问题:特征数字化后,由于取值大小不同,造成特征空间中样本点的距离会被个别特征值所主导,而受其它特征的影响比较小; 例:特征1 = [1, 3, 2, 6, 5, 7, 9],特征2 = [1000, 3000, 5000, 2000, 4000, 8000, 3000],计算两个样本在特征空间的距离时,主要被特征2所决定; 定义:将所有的数据(具体操作时,对每一组特征数据进行分别处理)映射到同一个尺度中; 归一化的过程,是算法的一部分; 二、数据归一化的方法  1)最值归一化(normalization)   1、思路:把所有数据映射到0~1之间;   2、公式:        # x为数据集中每一种特征的值;    # 将数据集中的每一种特征都做映射;   3、特点:多适用于 分布有明显边界 的情况;如考试成绩、人的身高、颜色的分布等,都有范围;而不是些没有范围约定,或者范围非常大的数据;    # 明显边界:同一特征的数据大小相差不大;不会出现大部分数据在0~200之间,有个别数据在100000左右;   4、缺点:受outlier影响较大;  2)Z-score(standardization)   1、思路:把所有数据归一到均值为

机器学习数据预处理——标准化/归一化方法

杀马特。学长 韩版系。学妹 提交于 2019-11-27 18:01:59
通常,在Data Science中,预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用 sklearn文档 中的一些东西来说明,主要把各个标准化方法的应用场景以及优缺点总结概括,以来充当笔记。 首先,我要引用我自己的文章 Feature Preprocessing on Kaggle 里面关于Scaling的描述 Tree-based models doesn’t depend on scaling Non-tree-based models hugely depend on scaling 一、标准化/归一化的好处 1.1 提升模型精度 在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化),许多学习算法中目标函数的基础都是假设所有的特征都是零均值并且具有同一阶数上的方差。如果某个特征的方差比其他特征大几个数量级,那么它就会在学习算法中占据主导位置,导致学习器并不能像我们说期望的那样,从其他特征中学习。 举一个简单的例子,在KNN中,我们需要计算待分类点与所有实例点的距离。假设每个实例点(instance)由n个features构成。如果我们选用的距离度量为欧式距离,如果数据预先没有经过归一化,那么那些绝对值大的features在欧式距离计算的时候起了决定性作用,soga。 从经验上说,归一化是让不同维度之间的特征在数值上有一定比较性

PSNR和SSIM

空扰寡人 提交于 2019-11-27 14:38:54
PSNR(Peak Signal to Noise Ratio) 峰值信噪比,一种全参考的图像质量评价指标。 其中,MSE表示当前图像X和参考图像Y的均方误差(Mean Square Error),H、W分别为图像的高度和宽度;n为每像素的比特数,一般取8,即像素灰阶数为256. PSNR的单位是dB,数值越大表示失真越小。 PSNR是最普遍和使用最为广泛的一种图像客观评价指标,然而它是基于对应像素点间的误差,即基于误差敏感的图像质量评价。由于并未考虑到人眼的视觉特性( 人眼对空间频率较低的对比差异敏感度较高,人眼对亮度对比差异的敏感度较色度高,人眼对一个区域的感知结果会受到其周围邻近区域的影响等 ),因而经常出现评价结果与人的主观感觉不一致的情况。 SSIM(structural similarity) 结构相似性,也是一种全参考的图像质量评价指标,它分别从亮度、对比度、结构三方面度量图像相似性。 其中u x 、u y 分别表示图像X和Y的均值,σ X 、σ Y 分别表示图像X和Y的方差,σ XY 表示图像X和Y的协方差,即 C1、C2、C3为常数,为了避免分母为0的情况,通常取C1=(K1*L)^2, C2=(K2*L)^2, C3=C2/2, 一般地K1=0.01, K2=0.03, L=255. 则 SSIM取值范围[0,1],值越大,表示图像失真越小. 在实际应用中

机器学习的模型泛化

纵然是瞬间 提交于 2019-11-27 04:57:29
机器学习的模型泛化 1、机器学习的 模型误差主要含有三个方面的误差:模型偏差、模型方差以及不可避免的误差。 2、对于机器学习训练模型的 偏差主要因为对于问题本身的假设不对 ,比如非线性误差假设为线性误差进行训练和预测,算法层面上 欠拟合是产生较大偏差的主要原因 。另外主要来自于特征参量与最终结果的相关性,如果相关性很低或者高度不相关的话也会导致较大的偏差。 3、对于机器学习模型的 方差主要是来自于数据的扰动以及模型的过于复杂,在算法层面上过拟合是引起模型方差较大的主要原因 ,因为过拟合会导致整体模型的复杂度太高,从而引起方差很大。 4、对于不同的算法其存在误差种类是不同的,有些算法是天生的高方差算法,比如KNN算法, 非参数算法一般都是高方差算法 ,因为它不对问题的前提进行假设。有些算法天生是高偏差的算法,比如线性回归算法, 参数学习算法一般都属于高偏差算法 , 因为它对数据具有极强的假设。 5、大多数算法都可以通过调节其中的超参数调整模型的方差和偏差,并且 一般情况下模型的方差和偏差是矛盾的 ,降低偏差,会增大方差,降低方差,也会增大偏差。 6、机器学习的主要挑战主要来自于方差,当然这样的结论主要局限于算法层面, 解决机器学习算法模型的方差 的主要方式有以下几个方面: (1)降低模型的复杂度; (2)减小数据的维度:PCA算法进行降维和降噪; (3)增加数据的样本数; (4

双因素方差分析

亡梦爱人 提交于 2019-11-27 02:56:34
统计学简介之十七——双因素方差分析 一、双因素方差分析定义 二、分析过程 2.1 数据结构 2.2 分析步骤 来源: https://blog.csdn.net/kylin_learn/article/details/99300884

KNN算法之KD树

孤街浪徒 提交于 2019-11-26 21:00:54
KD树算法是先对数据集进行建模,然后搜索最近邻,最后一步是预测。 KD树中的K指的是样本特征的维数。 一、KD树的建立 m个样本n维特征,计算n个特征的方差,取方差最大的第k维特征作为根节点。选择第k维特征的中位数作为切分点,小于中位数的放左子树,大于中位数的放右子树,递归生成。 举例 有二维样本6个,{(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)}: 1、找根节点,6个数据点在x、y维度上的方差分别是6.97,5.37,x维度方差最大,因此选择x维进行键树; 2、找切分点,x维中位数是(7,2),因此以这个点的x维度的取值进行划分; 3、x=7将空间分为左右两个部分,然后递归使用此方法,最后结果为: 二、搜索最近邻 kd树生成之后就可以预测测试集里的目标样本了。 首先找到包含目标样本的 来源: https://www.cnblogs.com/pacino12134/p/11333238.html