样本均值

线性判别分析(Linear Discriminant Analysis)(一)

删除回忆录丶 提交于 2019-12-23 05:17:05
1. 问题 之前我们讨论的PCA、ICA也好,对样本数据来言,可以是没有类别标签y的。回想我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维,但PCA没有将类别标签考虑进去,属于无监督的。 比如回到上次提出的文档中含有“learn”和“study”的问题,使用PCA后,也许可以将这两个特征合并为一个,降了维度。但假设我们的类别标签y是判断这篇文章的topic是不是有关学习方面的。那么这两个特征对y几乎没什么影响,完全可以去除。 再举一个例子,假设我们对一张100*100像素的图片做人脸识别,每个像素是一个特征,那么会有10000个特征,而对应的类别标签y仅仅是0/1值,1代表是人脸。这么多特征不仅训练复杂,而且不必要特征对结果会带来不可预知的影响,但我们想得到降维后的一些最佳特征(与y关系最密切的),怎么办呢? 2. 线性判别分析(二类情况) 回顾我们之前的logistic回归方法,给定m个n维特征的训练样例 (i从1到m),每个 对应一个类标签 。我们就是要学习出参数 ,使得 (g是sigmoid函数)。 现在只考虑二值分类情况,也就是y=1或者y=0。 为了方便表示,我们先换符号重新定义问题,给定特征为d维的N个样例, ,其中有 个样例属于类别 ,另外 个样例属于类别 。 现在我们觉得原始特征数太多,想将d维特征降到 只有一维

统计学第八周:参数统计

你离开我真会死。 提交于 2019-12-22 18:32:19
统计学:参数估计 概念 1.利用总体统计不方便甚至是无法完成的现实状况,采用抽样的方式,利用样本提供的信息来推断总体的特征。 2.点估计:point estimate, 用样本统计量的某个取值直接作为总体参数的估值。 但一个点估计值的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量。 当围绕点估计值构造总体参数的一个区间,这就是区间估计。 3.区间估计:interval estimate ,在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。 根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。 在区间估计中,由样本统计量所构成的总体参数的估计区间称为置信区间,其中区间的最小值称为置信下限,最大值称为置信上限。 置信水平:将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例,称为置信水平 confidence level ,也称为置信度或置信系数。 如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包括总体参数的真值,那么用该方法构造的区间称为置信水平位95%的置信区间。 评价估计量的标准 🔽无偏性:指估计量抽样分布的数学期望等于被估计的总体参数。 设 总 体 参 数 位 θ , 所 选 择 的 估 计 量 为 θ ⃗ , 如 果 E

参数估计

隐身守侯 提交于 2019-12-22 02:58:47
1、点估计:矩估计法 2、区间估计:总体均值的区间估计、总体比例的区间估计、总体方差的区间估计、两个总体均值之差的区间估计、两个总体比例之差的区间估计、两个总体方差比的区间估计 3、样本量的确定:估计总体均值时样本量的确定、估计总体比例时样本量的确定 点估计和区间估计属于总体参数估计问题。 ##一、点估计 ####定义: 是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。 ####估计量:统计量的样本的(不含未知总体参数的)函数,用于估计的统计量 ####估计值:若得到一组观察值,代入估计量得到具体的数值 例如,若总体分布服从正态分布: ,其中μ是总体均值, 是总体方差,未知参数可记为θ=(μ,σ)。σ/μ(μ≠0)称为变异系数,它是总体的一阶原点矩(即均值)μ与二阶中心矩(即方差) 的函数。设有样本X=(X1、X2…Xi),其一阶样本原点矩为,二阶样本中心矩为,而用估计 σ/μ,就是一个典型的矩估计方法。 ###(1)最大似然估计法 此法作为一种重要而普遍的点估计法,由英国统计学家R.A.费希尔在1912年提出。后来在他1921年和1925年的工作中又加以发展。设样本X=(X1,X2,…,Xn)的分布密度为L(X,θ),若固定X而将L视为θ的函数,则称为似然函数,当X是简单随机样本时,它等于ƒ(X1,θ)ƒ(X2,θ)

为什么样本方差(sample variance)的分母是 n-1?

﹥>﹥吖頭↗ 提交于 2019-12-15 17:21:13
总体方差 ,也叫做有偏估计,其实就是我们从初高中就学到的那个标准定义的方差: ,其中, 为总体的均值, 为总体的标准差, 为总体的样本数。 样本方差, 无偏方差,在实际情况中,总体均值 是很难得到的,往往通过抽样来计算,于是有样本方差,计算公式如下: 或者 ,其中, 为样本的均值, 为样本的标准差, 为样本的个数。 实际操作中,我们一般通过抽样来验证总体。就会面临以下两种情况: (总体的均值)已知 即无偏估计,方差 (总体的均值)未知 即有偏估计,此时, 如果直接使用 作为估计,那么你会倾向于低估方差! 这是因为 换言之,除非正好 ,否则我们一定有 ,而不等式右边的那位才是的对方差的“正确”估计! 那么,在不知道随机变量真实数学期望的前提下,如何“正确”的估计方差呢?答案是把上式中的分母 换成 ,通过这种方法把原来的偏小的估计“放大”一点点,我们就能获得对方差的正确估计了: 那么,至于为什么分母是 而不是 或者别的什么数呢? 即证明 来源: CSDN 作者: 虾nen nen 链接: https://blog.csdn.net/huangguohui_123/article/details/103547309

总体样本方差的无偏估计样本方差为什么除以n-1

梦想与她 提交于 2019-12-14 07:00:04
总体样本方差的无偏估计样本方差为什么除以n-1 本文链接: https://blog.csdn.net/qq_16587307/article/details/81328773 我们先从最基本的一些概念入手。 如下图,脑子里要浮现出总体样本 ,还有一系列随机选取的样本 。只要是样本,脑子里就要浮现出它的集合属性,它不是单个个体,而是一堆随机个体集合。样本 是总体样本中随机抽取一系列个体组成的集合,它是总体样本的一部分。 应该把样本 和总体样本 一样进行抽象化理解,因此样本 也存在期望 和方差 。 这里有一个重要的假设,就是随机选取的样本 与总体样本同分布,它的意思就是说他们的统计特性是完全一样的,即他们的期望值一样,他们的方差值也是一样的: 另外,由于每个样本的选取是随机的,因此可以假设 不相关(意味着协方差为0,即 ),根据方差性质就有: 另外,还需要知道方差另外一个性质: 为常数。 还有一个,别忘了方差的基本公式: 以上的公式都很容易百度得到,也非常容易理解。这里不赘述。 2)无偏估计 接下来,我们来理解下什么叫无偏估计。 定义 :设统计量 是总体中未知参数 的估计量,若 ,则称 为 的 无偏估计量 ;否则称为有偏估计量。 上面这个定义的意思就是说如果你拿到了一堆样本观测值,然后想通过这一堆观测值去估计某个统计量 ,一般就是想估计总体的期望或方差

裴逸洋-2019-12-6-spss作业

谁都会走 提交于 2019-12-08 20:04:27
由于均值过程只对第一层的自变量进行方差分析和线性相关检验,由此两个图表或者两个以上因素的均值分析过程的方差分析结果和单因素一样,多因素的描述统计量是对于各个交叉组别进行统计 T检验的适用条件,一,样本来自正态总体或近似正态总体 二,两样本总体无差相等,即具有方差齐行(在实际应用时,如于上述条件略有偏离,对结果亦不会有太大影响) 三,两组样本应互相独立 单样本T检验即检验某个变量的总体均值和某指定值之间是否存在着显著性差异。 如果大样本的单样本检验,统计教科书上称为U检验,采用服从正态分布的U统计量作为检验统计量;如果是小样本并且样本服从正态分布,则采用服从t分布的t统计量进行单样本T检验,否则采取非参数检验。 T检验稳健性较好,如果样本分布偏离正态分布不太严重也可采用T检验 “t”列为T统计量的值 ,“df”列为自由度,“Sig(双侧)”列为p值。“均值差值”列为各个机器号的均值减去322的差,“下限”和“上限”列分别为第5列给出的均值差值的95%的置信区间的下限和上限 来源: https://www.cnblogs.com/peiyiyang/p/11997509.html

假设检验总结以及如何用python进行假设检验(scipy)

倖福魔咒の 提交于 2019-12-07 18:56:28
几种常见的假设检验总结如下: 假设检验名称 Z检验 t检验 χ2检验 F检验 原假设 H 0 : μ≥μ 0 H 0 : μ≤μ 0 H 0 : μ=μ 0 (样本和总体均值) H 0 : μ 1 -μ 2 ≥0 H 0 : μ 1 -μ 2 ≤0 H 0 : μ 1 -μ 2 =0 (两总体均值) H 0 : μ d ≥0 H 0 : μ d ≤0 H 0 : μ d =0 (两总体前后差值均值) H 0 : σ 2 ≥σ 0 2 H 0 : σ 2 ≤σ 0 2 H 0 : σ 2 =σ 0 2 (样本和总体方差) H 0 : σ 1 2 ≤σ 2 2 H 0 : σ 1 2 =σ 2 2 (两总体方差,即方差齐性) H 0 : 两类别型变量相互独立 (独立性检验) H 0 : 总体服从某个概率分布 (拟合优度检验) H 0 : 总体均值相等 (方差分析)--- 通常用于三个及以上的总体 备择假设 H a : μ<μ 0 H a : μ>μ 0 H a : μ≠μ 0 (样本和总体均值) H a : μ 1 -μ 2 <0 H a : μ 1 -μ 2 >0 H a : μ 1 -μ 2 ≠0 (两总体均值) H a : μ d <0 H a : μ d >0 H a : μ d ≠0 (两总体前后差值均值) H a : σ 2 <σ 0 2 H a : σ 2 >σ 0 2

SciPy k均值聚类

十年热恋 提交于 2019-12-03 17:03:49
章节 SciPy 介绍 SciPy 安装 SciPy 基础功能 SciPy 特殊函数 SciPy k均值聚类 SciPy 常量 SciPy fftpack(傅里叶变换) SciPy 积分 SciPy 插值 SciPy 输入输出 SciPy 线性代数 SciPy 图像处理 SciPy 优化 SciPy 信号处理 SciPy 统计 聚类(K-means clustering)是在一组未标记的数据中,将相似的数据(点)归到同一个类别中的方法。聚类与分类的最大不同在于分类的目标事先已知,而聚类则不知道。 K-means是聚类中最常用的方法之一,它是基于点与点的距离来计算最佳类别归属,即靠得比较近的一组点(数据)被归为一类。 K-means的算法原理如下: 随机选取k个点作为中心点 遍历所有点,将每个点划分到最近的中心点,形成k个聚类 根据聚类中点之间的距离,重新计算各个聚类的中心点 重复2-3步骤,直到这k个中线点不再变化(收敛了),或达到最大迭代次数 SciPy中,cluster包已经很好地实现了K-Means算法,我们可以直接使用它。 使用SciPy中的k均值聚类功能 导入 K-Means 导入要使用的模块: from SciPy.cluster.vq import kmeans,vq,whiten 样本数据生成 准备样本数据: from numpy import vstack

python分类预测模型的特点

巧了我就是萌 提交于 2019-12-03 09:42:52
python分类预测模型的特点 模型 模型特点 位于 SVM 强大的模型,可以用来回归,预测,分类等,而根据选取不同的和函数,模型可以是线性的/非线性的 sklearn.svm 决策树 基于"分类讨论,逐步细化"思想的分类模型,模型直观,易解释 sklearn.tree 朴素贝叶斯 基于概率思想的简单有效的分类模型,能够给出容易理解的概率解释 sklearn.naive_bayes 神经网络 具有强大的拟合能力,可疑用于拟合,分类等,它有多个增强版本,如递神经网络,卷积神经网络,自编吗器等,这些是深度学习的模型基础 Keras 逻辑回归 比较基础的线性分类模型,很多时候是简单有效的选择 sklearn.linear_model 随机森林 思想跟决策树类似,精度通常比决策树要高,缺点是由于随机性, 丧失了决策树的可解释性 sklearn.ensemble python建模的步骤: 建立一个对象(这个对象是空白的,需要进一步训练) 然后,我们要设置模型的参数 接着就是通过fit()方法对模型进行训练 最后通过predict()方法预测结果 对模型的评估score()方法等 聚类分析 常用聚类分析算法 与分类不同,聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法.与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可疑建立在吴磊标记的数据上

浅谈均值、方差、标准差、协方差的概念及意义

匿名 (未验证) 提交于 2019-12-03 00:34:01
统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 标准差: 方差: 均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。 以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是n,是因为这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。 标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义: 来度量各个维度偏离其均值的程度,协方差可以这样来定义: 协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义)