方差

斯坦福【概率与统计】课程笔记(六):EDA | 标准差和方差

筅森魡賤 提交于 2019-11-26 17:09:22
这一篇比较简单,就不展开记录了,方差和标准差的计算方法记住了就可以。 计算mean 计算每个样本与mean的差值的平方,将其累加后除以(样本数-1) 【注:这里的除数可以是n-1也可以是n】 ,即得到方差 方差开根号,即得到标准差 另外,记得标准差和方差都是衡量样本集中程度的,方差或标准差越大,样本越向两边离散;方差或标准差越小,样本越向mean集中。 标准差在对称分布下面,有几个在统计学上非常有用的数字:68%,95%,99.7%,意思是: 用median和标准差stdDev(下面简称SD)的1倍、2倍、3倍值,将整个分布分成8份 68%的样本都会落在-1SD 到 +1SD之间 95%的样本都会落在-2SD 到 +2SD之间 99.7%的样本都会落在-3SD 到 +3SD之间 < -3SD和>+3SD的两部分,加起来只有0.3%的样本会分布到那里 举个例子: 这3个经验数据会用在非常多的领域:金融、IT、项目管理等等都会直接使用,他们省去了很多繁琐计算的过程 靠上述这种划分和统计方法,在大部分不需要很精确计算的场景下,直接套用来评估就可以了 来源: https://www.cnblogs.com/zhongmiaozhimen/p/11328321.html

机器学习算法比较

|▌冷眼眸甩不掉的悲伤 提交于 2019-11-26 12:27:46
本文主要回顾下几个常用算法的适应场景及其优缺点! 机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地进行测试,进行比较,然后调整参数确保每个算法达到最优解,最后选择最好的一个。但是如果你只是在寻找一个“足够好”的算法来解决你的问题,或者这里有些技巧可以参考,下面来分析下各个算法的优缺点,基于算法的优缺点,更易于我们去选择它。 偏差&方差 在统计学中,一个模型好坏,是根据偏差和方差来衡量的,所以我们先来普及一下偏差和方差: 偏差:描述的是预测值(估计值)的期望E’与真实值Y之间的差距。偏差越大,越偏离真实数据。 方差:描述的是预测值P的变化范围,离散程度,是预测值的方差,也就是离其期望值E的距离。方差越大,数据的分布越分散。 模型的真实误差是两者之和。 如果是小训练集,高偏差/低方差的分类器(例如,朴素贝叶斯NB)要比低偏差/高方差大分类的优势大(例如,KNN),因为后者会过拟合。但是,随着你训练集的增长,模型对于原数据的预测能力就越好

【论文阅读&mdash;遗传算法】Multi-Thresholding Image Segmentation Using Genetic Algorithm

房东的猫 提交于 2019-11-26 06:46:35
论文题目:Multi-Thresholding Image Segmentation Using Genetic Algorithm(遗传算法多阈值图像分割) 一、综述 作者使用遗传算法对多对象和背景的图像进行分割。 二、研究内容与方法 (1)介绍 图像分割的准确率受预处理结果影响较大。 作者结合多阈值分割和遗传算法,通过寻找阈值,将阈值问题转换成优化问题。最大化目标与背景之间的方差,最小化目标自身的背景像素间的方差。 (2)图像阈值 由于灰度图像处理简单,因此一般将彩色图像转换为灰度图像进行预处理。最常用的灰度级为256(0-255)。 图像阈值是一种用在灰度图上的分割方法。该方法旨在寻找一个合适的阈值,将背景和目标对象分隔开来,像素值低于阈值为背景,否则为目标对象。 基于阈值的算法通常被分为单极阈值和多级阈值。通常若图像中包含n个对象和背景,则定义n 个阈值。 如何寻找适合分割的阈值:将彩色图像转换成灰度图,绘制图像的一维直方图,直观显示具有相同灰度级的像素个数。二分类只有一个阈值,尝试所有0—L-1的数,找到划分最好的那个值作为阈值;多分类需要找到多个阈值,那么如何寻找拥有好的性能的多组阈值是接下来要做的。 (3)遗传算法 遗传算法是一种模仿基因的元启发式算法,当不存在一个确定的方法或着确定的方法计算复杂时可以用该算法做最优近似。 遗传算法具有N个种群,则初始值为N个随机解

PCA

北慕城南 提交于 2019-11-26 06:07:05
对影像进行主成分分析,只有第一主成分被分离出来了,后面的主成分好像都相同 均值: 标准差: 方差: 描述数据之间关系的统计量 标准差和方差一般是用来描述一维数据的,但现实生活我们常常遇到含有多维数据的数据集。 面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解这几科成绩之间的关系,这时,我们就要用协方差,协方差就是一种用来度量两个随机变量关系的统计量 1.正向主成分(PC)旋转 正向PC旋转用一个线性变换使数据方差达到最大。当使用正向PC旋转时,ENVI允许计算新的统计值,或根据已经存在的统计值进行旋转。输出值可以存为字节型、浮点型、整型、长整型或双精度型。也可以基于特征值来提取PC旋转的输出内容,生成只包含所需的PC波段的输出。 计算新的统计值和旋转 使用Compute New Statistics and Rotate选项可以计算数据特征值、协方差或相关系数矩阵以及PC正向旋转。 选择Transforms > Principal Components > Forward PC Rotation > Compute New Statistics and Rotate。 当出现Principal Components Input File对话框时,选择输入文件或用标准ENVI选择程序选取子集。将会出现Forward PC Rotation