样本方差

5.多项式回归与模型泛化

 ̄綄美尐妖づ 提交于 2019-11-27 03:59:11
(一)什么是多项式回归 还记得线性回归法吗?线性回归法有一个很大的局限性,那就是需要数据是有一定的线性关系的,但是现实中的很多数据是没有线性关系的。多项式就是用来解决这个问题的,可以处理非线性数据 在线性回归中,我们是假设数据具有线性关系的,因此我们在简单线性回归中,将直线的方向设置为y=ax+b的形式,那么我们求出a和b即可。 而对于有些数据,我们虽然也可以使用线性回归,但是显然具有更加强的非线性的关系,换句话说,如果我们用一个二次曲线来拟合这些点,效果会更好。因此函数就变成了了y=ax^2+bx+c,我们求出a、b、c即可。但是本质上,和线性回归一样,目前都是只有一个特征,只不过我们为样本多添加了一些特征,这些特征是原来的多项式项。求出了对原来的特征而言,一个非线性的曲线。 生成数据集 import numpy as np import matplotlib.pyplot as plt # 生成一百个样本,每个样本只有一个特征 X = np.random.uniform(-3, 3, size=(100, 1)) y = 0.5 * X ** 2 + X + 2 + np.random.normal(0, 1, size=(100,1)) plt.scatter(X, y) plt.show() 可以看到数据大概满足一条二次曲线,但是我们使用线性回归法来拟合一下 from

4.pca与梯度上升法

给你一囗甜甜゛ 提交于 2019-11-26 21:00:39
(一)什么是pca pca,也就是主成分分析法(principal component analysis),主要是用来对数据集进行降维处理。举个最简单的例子,我要根据姓名、年龄、头发的长度、身高、体重、皮肤的白皙程度(随便想的)等特征来预测一个人的性别,但这些特征中有一个是最没有用的,是什么的?显然是年龄,因为年龄的大小跟这个人的性别无关。还有姓名,这个特征显然起不到决定性作用,因为有的男孩的名字起的就像女孩(比如我本人),反之亦然,但是起码绝大多数情况还是能判断的。同理还有身高,一个180CM的很大概率是男孩,当然女孩也有180cm的,比如模特。像这样我从样本的特征中,挑选出最能代表样本、或者对样本预测起到决定性作用最大的n个特征,就叫做主成分分析。为什么会有pca呢?可以想象一个,显示生活中,样本的特征很多,成百上千个也是正常的,但是我们训练不可能用全部的特征进行训练,因为肯定有很多特征是没有用的,或者说起到的作用是很小的,我们的目的就是希望找到起到决定性最大的n个特征。 主成分分析的特征 一个非监督的机器学习算法 主要用于数据的降维 通过降维,可以发现更便于人类理解的特征 其他特征:可视化,去噪等等 我们举一个只有两个特征的例子 如果我们只考虑特征1,不考虑特征2的话,那么显然,蓝色的点要从二维映射到一维 那么同理,如果我们只考虑特征2,不考虑特征1的话,那么显然会是这样

数据分析-统计知识(一)

自古美人都是妖i 提交于 2019-11-26 19:18:59
1.辛普森悖论 2.四分位数 四分位数间距 IQR = Q3 - Q1 3.总体方差、样本方差 关于样本方差分母 n - 1 的证明 1.总体 已知总体方差,μ 为总体平均值 2.样本 有偏估计: 已知如下: 对有偏估计求期望: 来源: https://www.cnblogs.com/Jacon-hunt/p/11330563.html

斯坦福【概率与统计】课程笔记(六):EDA | 标准差和方差

筅森魡賤 提交于 2019-11-26 17:09:22
这一篇比较简单,就不展开记录了,方差和标准差的计算方法记住了就可以。 计算mean 计算每个样本与mean的差值的平方,将其累加后除以(样本数-1) 【注:这里的除数可以是n-1也可以是n】 ,即得到方差 方差开根号,即得到标准差 另外,记得标准差和方差都是衡量样本集中程度的,方差或标准差越大,样本越向两边离散;方差或标准差越小,样本越向mean集中。 标准差在对称分布下面,有几个在统计学上非常有用的数字:68%,95%,99.7%,意思是: 用median和标准差stdDev(下面简称SD)的1倍、2倍、3倍值,将整个分布分成8份 68%的样本都会落在-1SD 到 +1SD之间 95%的样本都会落在-2SD 到 +2SD之间 99.7%的样本都会落在-3SD 到 +3SD之间 < -3SD和>+3SD的两部分,加起来只有0.3%的样本会分布到那里 举个例子: 这3个经验数据会用在非常多的领域:金融、IT、项目管理等等都会直接使用,他们省去了很多繁琐计算的过程 靠上述这种划分和统计方法,在大部分不需要很精确计算的场景下,直接套用来评估就可以了 来源: https://www.cnblogs.com/zhongmiaozhimen/p/11328321.html

机器学习算法比较

|▌冷眼眸甩不掉的悲伤 提交于 2019-11-26 12:27:46
本文主要回顾下几个常用算法的适应场景及其优缺点! 机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地进行测试,进行比较,然后调整参数确保每个算法达到最优解,最后选择最好的一个。但是如果你只是在寻找一个“足够好”的算法来解决你的问题,或者这里有些技巧可以参考,下面来分析下各个算法的优缺点,基于算法的优缺点,更易于我们去选择它。 偏差&方差 在统计学中,一个模型好坏,是根据偏差和方差来衡量的,所以我们先来普及一下偏差和方差: 偏差:描述的是预测值(估计值)的期望E’与真实值Y之间的差距。偏差越大,越偏离真实数据。 方差:描述的是预测值P的变化范围,离散程度,是预测值的方差,也就是离其期望值E的距离。方差越大,数据的分布越分散。 模型的真实误差是两者之和。 如果是小训练集,高偏差/低方差的分类器(例如,朴素贝叶斯NB)要比低偏差/高方差大分类的优势大(例如,KNN),因为后者会过拟合。但是,随着你训练集的增长,模型对于原数据的预测能力就越好