概率论

统计学第八周:参数统计

你离开我真会死。 提交于 2019-12-22 18:32:19
统计学:参数估计 概念 1.利用总体统计不方便甚至是无法完成的现实状况,采用抽样的方式,利用样本提供的信息来推断总体的特征。 2.点估计:point estimate, 用样本统计量的某个取值直接作为总体参数的估值。 但一个点估计值的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量。 当围绕点估计值构造总体参数的一个区间,这就是区间估计。 3.区间估计:interval estimate ,在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。 根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。 在区间估计中,由样本统计量所构成的总体参数的估计区间称为置信区间,其中区间的最小值称为置信下限,最大值称为置信上限。 置信水平:将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例,称为置信水平 confidence level ,也称为置信度或置信系数。 如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包括总体参数的真值,那么用该方法构造的区间称为置信水平位95%的置信区间。 评价估计量的标准 🔽无偏性:指估计量抽样分布的数学期望等于被估计的总体参数。 设 总 体 参 数 位 θ , 所 选 择 的 估 计 量 为 θ ⃗ , 如 果 E

朴素贝叶斯算法原理小结

↘锁芯ラ 提交于 2019-12-20 02:16:01
    文本主题模型之LDA(一) LDA基础      文本主题模型之LDA(二) LDA求解之Gibbs采样算法      文本主题模型之LDA(三) LDA求解之变分推断EM算法     在前面我们讲到了基于矩阵分解的LSI和NMF主题模型,这里我们开始讨论被广泛使用的主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,以下简称LDA)。注意机器学习还有一个LDA,即线性判别分析,主要是用于降维和分类的,如果大家需要了解这个LDA的信息,参看之前写的 线性判别分析LDA原理总结 。文本关注于隐含狄利克雷分布对应的LDA。 1. LDA贝叶斯模型     LDA是基于贝叶斯模型的,涉及到贝叶斯模型离不开“先验分布”,“数据(似然)”和"后验分布"三块。在 朴素贝叶斯算法原理小结 中我们也已经讲到了这套贝叶斯理论。在贝叶斯学派这里: 先验分布 + 数据(似然)= 后验分布     这点其实很好理解,因为这符合我们人的思维方式,比如你对好人和坏人的认知,先验分布为:100个好人和100个的坏人,即你认为好人坏人各占一半,现在你被2个好人(数据)帮助了和1个坏人骗了,于是你得到了新的后验分布为:102个好人和101个的坏人。现在你的后验分布里面认为好人比坏人多了。这个后验分布接着又变成你的新的先验分布,当你被1个好人(数据)帮助了和3个坏人(数据

概率论中弄混淆的概念

我只是一个虾纸丫 提交于 2019-12-19 07:29:29
连续型随机变量(or 连续型概率分布) 离散型随机变量(or 离散型概率分布) F (概率)分布函数 F (概率)分布函数 P 概率(函数) P 概率(函数)、分布列、分布律 f 概率密度(函数)PDF PDF、PMF、CDF 的区别详见 https://blog.csdn.net/wzgbm/article/details/51680540 来源: CSDN 作者: smilingRat 链接: https://blog.csdn.net/smilingRat/article/details/103603534

概率论——随机试验、随机事件、样本空间

丶灬走出姿态 提交于 2019-12-16 02:12:01
1. 随机试验 随机试验就是试验结果呈现出不确定性的试验,且满足以下三个条件: (1) 试验可在 相同条件 下 重复 进行 (2) 试验的可能结果 不止一个 ,且所有可能结果可 事先预知 (3)每次试验的结果 只有一个 ,但 不能事先预知 例子:抛硬币,袋中摸球等。 2. 样本空间和样本点 随机试验的所有可能结果组成的 集合 称为样本空间,该集合的 元素 称为样本点。对于抛掷硬币试验,样本空间 = { 正面,反面 },正面就是此样本空间的一个样本点。 3. 随机事件和随机变量的区别联系 各自定义: (1)随机事件:随机事件是样本空间的 子集 。在每次试验中, 当且仅当 该子集中的任意 一个元素 发生时,称该随机事件发生。 (2)随机变量:随机变量是定义在样本空间上的映射。通常是将样本空间映射到 数字空间 ,这样做的目的是方便引入高等数学的方法来研究随机现象。例如,在抛掷硬币试验中,将正面与1对应,反面与0对应,那么样本空间 = { 正面,反面 } 与 随机变量X = { 1,0 } 之间建立起了 一一对应 的关系。 区别: 对于随机事件A,P(A)表示 随机事件发生 的概率;对于随机变量X,P(X)表示 随机变量取值为X 的概率。从某种意义上来说,与随机变量相比,随机事件更像是定义在样本空间上的随机常量。 ········ 来源: CSDN 作者: youroldz 链接:

概率论知识点误区

蓝咒 提交于 2019-12-15 03:14:26
1. 为什么要写这篇博客?   最近在和几个小伙伴一起复习《统计学习方法》。由于该书为经典教材,所以采用 一字不差 的方法进行阅读。但在学习过程中遇到了各种各样的问题,总结了一下原因,其中很重要的一点是 基本概念 理解不透彻(甚至从来就没理解)。所以将概率论的 容易理解错误 而且 至关重要 的 基本概念 整理出来,从而方便大家学习。   如果基础较好,可以直接看2.5(极大似然估计)部分,如果对叙述中的概念都非常明了,就可以去学习更多高阶的知识了。反之,建议从基本概念开始学起,除了博客的内容,更推荐去阅读参考教材1。 2. 基本概念 2.0 伯努利分布和二项分布的区别是什么?   伯努利分布和两点分布是一样的。该问题较为简单,就是有时候容易记混。 2.1 什么是随机变量?   随机变量并不是变量,而是函数,它是把随机试验的结果转换为数值的函数。数值有两种可能,一种是实数(有大小关系),另外一种只是数字化后的结果(没有大小关系,类似于LabelEncoder的结果,这点来自于参考教材1)。   常见误区如下所示: 随机变量是一个变量。 随机变量的值域中的值与值之间为大小关系。 2.2 p()中;和,的区别   具体来说,这个问题就是 p ( x , θ ) p(x,\theta) p ( x , θ ) 和 p ( x ; θ ) p(x;\theta) p ( x ; θ )

分类算法之朴素贝叶斯分类

早过忘川 提交于 2019-12-12 16:47:12
贝叶斯分类是一类分类 算法 的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分类算法,希望有利于他人理解。 1 分类问题综述 对于分类问题,其实谁都不会陌生,日常生活中我们每天都进行着分类过程。例如,当你看到一个人,你的脑子下意识判断他是学生还是社会上的人;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱”之类的话,其实这就是一种分类操作。 既然是贝叶斯分类算法,那么分类的数学描述又是什么呢? 从数学角度来说,分类问题可做如下定义:已知集合 和 ,确定映射规则y = f(x),使得任意 有且仅有一个 ,使得 成立。 其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合(特征集合),其中每一个元素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。 分类算法的内容是要求给定特征,让我们得出类别,这也是所有分类问题的关键。那么如何由指定特征,得到我们最终的类别,也是我们下面要讲的,每一个不同的分类算法,对应着不同的核心思想。 本篇文章,我会用一个具体实例,对朴素贝叶斯算法几乎所有的重要知识点进行讲解。 2 朴素贝叶斯分类 那么既然是朴素贝叶斯分类算法,它的核心算法又是什么呢? 是下面这个贝叶斯公式: 换个表达形式就会明朗很多

概率论迷思

白昼怎懂夜的黑 提交于 2019-12-10 00:32:55
当你抛起一枚硬币,你不知道它会是正面还是反面,但你确切的知道正面与反面的概率都是50%。 概率论的神奇之处在于,它居然能从不确定性中找到确定性。 本文不教科书,只是阐述我的观点和思考,如有谬误,欢迎讨论或指正。 一些有趣的观点: 一个事情有N种发生的可能性,我们不能确信哪种会发生,是因为我们不能控制结果的发生,影响结果的许多因素不在我们的支配范围之内,这些因素影响结果的机理或者我们不知道,或者太复杂以至于超出了我们大脑或电脑的运算能力。比如:我们不确定掷硬币得到正面或反面,是因为我们的能力不足以用一些物理方程来求解这个结果。再比如:你不能断定你期末能考88分,因为出题、阅卷的不是你。 对于未发生之事,我们无法掌握其所有参数或无法计算。对于已经发生之事,事情都已经发生了,结果已定,也会因为掌握的信息不全而产生所谓概率。 即过去发生的事情虽然事实上是确定的,但因为我们的无知,它成了随机的。 我们在某个地方挖出了一块瓷器的碎片,它可能是孔子的夜壶,可能是秦始皇的餐具,也可能是隔壁老王的破茶壶从他家到垃圾站又被埋在了这个地方。 因此:概率在实质上就是无知,而不是说事物本身是随机的。 这一点很重要,不要误以为概率应该是客观事实。如果你有上帝视角的话,那么一切都是注定,任何事的概率都是100%,也就没有所谓概率之说了。 所以概率论是建立在人们有限的认知中的,不是真正的客观事实

朴素贝叶斯法

心不动则不痛 提交于 2019-12-07 18:58:31
朴素贝叶斯法 朴素贝叶斯(naive bayes) 法是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布,然后基于此分布,对给定的输入 \(x\) 利用贝叶斯定理求其后验概率最大的输出。 一、朴素贝叶斯法的学习 1.1 基本方法 设输入空间 \(\chi \subseteq R^n\) 为n维向量的集合,输出空间维类标记集合 \(Y = \{c_1,c_2,...,c_k\}\) 。输入特征向量 \(x \in \chi\) ,输出为类标记 \(y \in Y\) 。 \(p(x,y)\) 是 \(x,y\) 的联合概率分布。训练的数据集: \[ T = \{(x_1,y_1),(x_2,y_2),...,(x_N,y_n\} \] 由 \(p(x,y)\) 独立同分布产生。 要得到训练数据集的联合概率分布,先得学习以下先验概率和条件概率: \[ \begin{align} p(Y=c_k) ,k=1,2,...,K \notag \\ p(X=x|Y=c_k) = p(x^{(1)},x^{(2)},...,x^{(n)}|c_k) \tag{1} \end{align} \] 其中(1)的条件概率分布,不太好算,假设每个 \(x^{(l)}\) 由 \(a\) 个数值可供选择,那么计算(1)式就需要考虑 \(a

中心极限定理(Central Limit Theorem)

我只是一个虾纸丫 提交于 2019-12-06 09:50:46
中心极限定理:从总体中抽取容量为n的简单随机样本,当样本容量很大时,样本均值的抽样分布近似服从正态分布。 (注:总体数据需独立同分布) 那么样本容量应该达到多大时,才能应用中心极限定理呢?答:对于大多数应用,当样本容量大于或等于30时就可以。 从下图中可以看出,不管总体是什么样的分布情况,当样本量达到30的时候,样本均值的分布就是钟形分布了: 中心极限定理的作用: (1)在没有办法得到总体全部数据的情况下,可以用样本来估计总体。 (2)根据总体的平均值和标准差,判断某个样本是否属于总体。 附: 20世纪初概率学家大都称呼该定理为极限定理(Limit Theorem),由于该定理在概率论中处于如此重要的中心位置,如此之多的概率学武林高手为它魂牵梦绕,于是数学家波利亚(G.Polya)于1920年在该定理前面冠以"中心"一词,由此后续人们都称之为中心极限定理。 来源: https://www.cnblogs.com/HuZihu/p/10052254.html

朴素贝叶斯

岁酱吖の 提交于 2019-12-05 11:23:49
基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对于给定的输入,利用贝叶斯定理求出后验概率最大的输出 \(y\) 。 朴素贝叶斯法通过训练数据集学习联合概率分布 \(P(X,Y)\) 。具体地,学习以下先验概率分布及条件概率分布。先验概率分布: \[P(Y=c_k),\quad k=1,2,\cdots,K\] 条件概率分布: \[P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k),\quad k=1,2,\cdots, K\] 于是基于上面两个概率就学到了联合概率分布。但条件概率分布有指数级数量的参数,其估计实际上是不可行。 朴素贝叶斯法对条件概率分布做了条件独立性假设: \[\begin{aligned} P(X=x|Y=c_k) & =P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k) \\ & = \prod \limits_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k) \end{aligned}\] 朴素贝叶斯法实际上学习到生成数据的机制,属于生成模型。条件独立假设等于说用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得简单