统计学

【统计学 第八周】参数估计

纵饮孤独 提交于 2019-12-23 00:36:47
梳理大纲: 参数估计 1 点估计:矩估计法 2 区间估计:总体均值的区间估计、总体比例的区间估计、总体方差的区间估计、两个总体均值之差的区间估计、两个总体比例之差的区间估计、两个总体方差比的区间估计 3 样本量的确定:估计总体均值时样本量的确定、估计总体比例时样本量的确定 参考资料: 【木东居士】【数据科学家学习小组】公众号 From 统计学Statistics 学习小组:由【木东居士】公众号 定期发起 对数据感兴趣的伙伴们 可一同在此交流学习 参数估计:用样本统计量去估计总体的参数 参数估计是推断统计的重要内容之一,它是在抽样及抽样分布的基础上,根据样本统计量来推断所关心的总体参数 参股估计的方法有: 点估计 和 区间估计 两种 1 点估计 点估计:用样本统计量θ的某个取值直接作为总体参数的θ的估计值 矩估计法 :即矩估计,也称“矩法估计”,就是利用样本矩来估计总体中相应的参数 如:用样本平均值估计总体的平均值,用样本的方差来估计总体的方差 2 区间估计 区间估计: 在点估计的基础上,给出总体参数估计的一个区间范围,该范围通常由样本统计量加减估计误差得到。 置信区间: 在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间,其中区间的最小值称为置信下限,最大值称为置信上线。 置信水平/置信度/置信系数: 如果将构造置信区间的步骤重复多次

统计学第八周:参数统计

你离开我真会死。 提交于 2019-12-22 18:32:19
统计学:参数估计 概念 1.利用总体统计不方便甚至是无法完成的现实状况,采用抽样的方式,利用样本提供的信息来推断总体的特征。 2.点估计:point estimate, 用样本统计量的某个取值直接作为总体参数的估值。 但一个点估计值的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量。 当围绕点估计值构造总体参数的一个区间,这就是区间估计。 3.区间估计:interval estimate ,在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。 根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。 在区间估计中,由样本统计量所构成的总体参数的估计区间称为置信区间,其中区间的最小值称为置信下限,最大值称为置信上限。 置信水平:将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例,称为置信水平 confidence level ,也称为置信度或置信系数。 如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包括总体参数的真值,那么用该方法构造的区间称为置信水平位95%的置信区间。 评价估计量的标准 🔽无偏性:指估计量抽样分布的数学期望等于被估计的总体参数。 设 总 体 参 数 位 θ , 所 选 择 的 估 计 量 为 θ ⃗ , 如 果 E

概率论知识点误区

蓝咒 提交于 2019-12-15 03:14:26
1. 为什么要写这篇博客?   最近在和几个小伙伴一起复习《统计学习方法》。由于该书为经典教材,所以采用 一字不差 的方法进行阅读。但在学习过程中遇到了各种各样的问题,总结了一下原因,其中很重要的一点是 基本概念 理解不透彻(甚至从来就没理解)。所以将概率论的 容易理解错误 而且 至关重要 的 基本概念 整理出来,从而方便大家学习。   如果基础较好,可以直接看2.5(极大似然估计)部分,如果对叙述中的概念都非常明了,就可以去学习更多高阶的知识了。反之,建议从基本概念开始学起,除了博客的内容,更推荐去阅读参考教材1。 2. 基本概念 2.0 伯努利分布和二项分布的区别是什么?   伯努利分布和两点分布是一样的。该问题较为简单,就是有时候容易记混。 2.1 什么是随机变量?   随机变量并不是变量,而是函数,它是把随机试验的结果转换为数值的函数。数值有两种可能,一种是实数(有大小关系),另外一种只是数字化后的结果(没有大小关系,类似于LabelEncoder的结果,这点来自于参考教材1)。   常见误区如下所示: 随机变量是一个变量。 随机变量的值域中的值与值之间为大小关系。 2.2 p()中;和,的区别   具体来说,这个问题就是 p ( x , θ ) p(x,\theta) p ( x , θ ) 和 p ( x ; θ ) p(x;\theta) p ( x ; θ )

【概率论与数理统计】统计学必看的书!

拥有回忆 提交于 2019-12-14 12:46:01
《概率论与数理统计》 《Statistical Inference》 《A Course in Probability Theory, Second Edition》 《Probability: Theory and Examples》 《Approximation Theorems of Mathematical Statistics》 《Theory of Point Estimation》 来源: CSDN 作者: 裴来凡 链接: https://blog.csdn.net/qq_41985559/article/details/103537510

机器学习必知必会10大算法

只谈情不闲聊 提交于 2019-12-13 18:17:57
自Medium 作者:garvitanand2 转载自公众号:机器之心 本文介绍了 10 大常用机器学习算法,包括线性回归、Logistic 回归、线性判别分析、朴素贝叶斯、KNN、随机森林等。 1. 线性回归 在统计学和机器学习领域,线性回归可能是最广为人知也最易理解的算法之一。 预测建模主要关注的是在牺牲可解释性的情况下,尽可能最小化模型误差或做出最准确的预测。我们将借鉴、重用来自许多其它领域的算法(包括统计学)来实现这些目标。 线性回归模型被表示为一个方程式,它为输入变量找到特定的权重(即系数 B),进而描述一条最佳拟合了输入变量(x)和输出变量(y)之间关系的直线。 线性回归 例如:y = B0 + B1 * x 我们将在给定输入值 x 的条件下预测 y,线性回归学习算法的目的是找到系数 B0 和 B1 的值。 我们可以使用不同的技术来从数据中学习线性回归模型,例如普通最小二乘法的线性代数解和梯度下降优化。 线性回归 大约有 200 多年的历史,并已被广泛地研究。在使用此类技术时,有一些很好的经验规则:我们可以删除非常类似(相关)的变量,并尽可能移除数据中的噪声。线性回归是一种运算速度很快的简单技术,也是一种适合初学者尝试的经典算法。 2. Logistic 回归 Logistic 回归是机器学习从统计学领域借鉴过来的另一种技术。它是二分类问题的首选方法。 像线性回归一样

数据挖掘学习图谱

南笙酒味 提交于 2019-12-13 11:53:32
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 接下来的三个月打算用来攻下数据挖掘这一座大山。可以算是从零基础开始入门,希望我的课表能给将来的学习者提供一些学习上的捷径。 1. 数学基础 机器学习必要的数学基础主要包括:多元微积分,线性代数 Calculus One Calculus: Single Variable Multivariable Calculus Linear Algebra 2. 统计基础 Data Analysis and Statistical Inference | 课程笔记 Introduction to Statistics: Descriptive Statistics 概率 Introduction to Statistics: Inference 3. 编程基础 Programming for Everybody Introduction to Computer Science:Build a Search Engine & a Social Network 4. 机器学习 Statistical Learning Machine Learning 机器学习基石 机器学习技法 下面是近期的给外行人读的泛数学科普书籍,由浅至深,作用除了感受数学之美之外,更重要的是可以作用每天学习的鸡血,因为这些书都比较好读…… 1.《数学之美

机器学习组成:模型、策略、优化

。_饼干妹妹 提交于 2019-12-13 03:47:39
《统计 机器学习 》中指出:机器学习=模型+策略+算法。其实机器学习可以表示为:Learning= Representation+Evalution+Optimization。我们就可以将这样的表示和李航老师的说法对应起来。机器学习主要是由三部分组成,即:表示(模型)、评价(策略)和优化(算法)。 表示(或者称为:模型):Representation 表示主要做的就是建模,故可以称为模型。模型要完成的主要工作是转换:将实际问题转化成为计算机可以理解的问题,就是我们平时说的建模。类似于传统的计算机学科中的算法,数据结构,如何将实际的问题转换成计算机可以表示的方式。这部分可以见“简单易学的机器学习算法”。给定数据,我们怎么去选择对应的问题去解决,选择正确的已有的模型是重要的一步。 评价(或者称为:策略):Evalution 评价的目标是判断已建好的模型的优劣。对于第一步中建好的模型,评价是一个指标,用于表示模型的优劣。这里就会是一些评价的指标以及一些评价函数的设计。在机器学习中会有针对性的评价指标。 分类问题 优化:Optimization 优化的目标是评价的函数,我们是希望能够找到最好的模型,也就是说评价最高的模型。 来源: CSDN 作者: qq_2353304647 链接: https://blog.csdn.net/qq_39888135/article/details

机器学习必学10大算法

余生长醉 提交于 2019-12-12 11:11:01
本文介绍了 10 大常用机器学习算法,包括线性回归、Logistic 回归、线性判别分析、朴素贝叶斯、KNN、随机森林等。 1. 线性回归 在统计学和机器学习领域,线性回归可能是最广为人知也最易理解的算法之一。 预测建模主要关注的是在牺牲可解释性的情况下,尽可能最小化模型误差或做出最准确的预测。我们将借鉴、重用来自许多其它领域的算法(包括统计学)来实现这些目标。 线性回归模型被表示为一个方程式,它为输入变量找到特定的权重(即系数 B),进而描述一条最佳拟合了输入变量(x)和输出变量(y)之间关系的直线。 线性回归 例如:y = B0 + B1 * x 我们将在给定输入值 x 的条件下预测 y,线性回归学习算法的目的是找到系数 B0 和 B1 的值。 我们可以使用不同的技术来从数据中学习线性回归模型,例如普通最小二乘法的线性代数解和梯度下降优化。 线性回归大约有 200 多年的历史,并已被广泛地研究。在使用此类技术时,有一些很好的经验规则:我们可以删除非常类似(相关)的变量,并尽可能移除数据中的噪声。线性回归是一种运算速度很快的简单技术,也是一种适合初学者尝试的经典算法。 2. Logistic 回归 Logistic 回归是机器学习从统计学领域借鉴过来的另一种技术。它是二分类问题的首选方法。 像线性回归一样,Logistic 回归的目的也是找到每个输入变量的权重系数值。但不同的是