随机变量

概率论知识点误区

蓝咒 提交于 2019-12-15 03:14:26
1. 为什么要写这篇博客?   最近在和几个小伙伴一起复习《统计学习方法》。由于该书为经典教材,所以采用 一字不差 的方法进行阅读。但在学习过程中遇到了各种各样的问题,总结了一下原因,其中很重要的一点是 基本概念 理解不透彻(甚至从来就没理解)。所以将概率论的 容易理解错误 而且 至关重要 的 基本概念 整理出来,从而方便大家学习。   如果基础较好,可以直接看2.5(极大似然估计)部分,如果对叙述中的概念都非常明了,就可以去学习更多高阶的知识了。反之,建议从基本概念开始学起,除了博客的内容,更推荐去阅读参考教材1。 2. 基本概念 2.0 伯努利分布和二项分布的区别是什么?   伯努利分布和两点分布是一样的。该问题较为简单,就是有时候容易记混。 2.1 什么是随机变量?   随机变量并不是变量,而是函数,它是把随机试验的结果转换为数值的函数。数值有两种可能,一种是实数(有大小关系),另外一种只是数字化后的结果(没有大小关系,类似于LabelEncoder的结果,这点来自于参考教材1)。   常见误区如下所示: 随机变量是一个变量。 随机变量的值域中的值与值之间为大小关系。 2.2 p()中;和,的区别   具体来说,这个问题就是 p ( x , θ ) p(x,\theta) p ( x , θ ) 和 p ( x ; θ ) p(x;\theta) p ( x ; θ )

数学基础 | (3) cs229概率论基础

陌路散爱 提交于 2019-12-09 20:52:56
目录 1. 概率的基本要素 2. 随机变量 3. 两个随机变量 4. 多个随机变量 1. 概率的基本要素 为了定义集合上的概率,我们需要一些基本元素: 样本空间 :随机实验的所有结果的集合(所有样本点的集合)。在这里,每个结果(样本点) 可以被认为是实验结束时现实世界状态的完整描述。 事件集(事件空间) F:事件 ,事件A是 的子集,即 是一个实验可能结果的集合(包含一些样本点)。 F需要满足以下三个条件: 概率(度量)P:函数P是一个 (事件集到实数集的映射),满足: 以上三条性质被称为 概率公理 。 例子 性质 条件概率与独立性 2. 随机变量 考虑一个实验,我们翻转 10 枚硬币,我们想知道正面硬币的数量。这里,样本空间 的元素是长度为 10 的序列。例如,我们可能有: 然而,在实践中,我们通常不关心获得任何特定正反序列的概率。相反,我们通常关心结果的实值函数,比如我们 10 次投掷中出现的正面数。在某些技术条件下,这些函数被称为 随机变量 。 更正式地说,随机变量X是一个 (样本空间/样本集到实数集的映射)的函数。通常,我们将使用大写字母 或更简单的X(其中隐含对随机结果 的依赖)来表示随机变量。我们将使用小写字母x来表示随机变量的值。 例子 在我们上面的实验中,假设 是在投掷序列 中出现的正面的数量。假设投掷的硬币只有 10 枚,那么 只能取有限数量的值,因此它被称为

深度学习入门之数学基础概念

独自空忆成欢 提交于 2019-12-06 16:33:48
深度学习之线代复习 标量、向量、矩阵和张量 标量(scalar):一个标量就是一个单独的数。 向量:一个向量是一列数,这些数是有序排列的。我们可以把向量看作空间中的点,每个元素是不同坐标轴上的坐标。 矩阵:矩阵是一个二维数组,其中的每一个元素被两个索引(而非 一个)所确定。 张量(tensor):在某些情况下,我们会讨论坐标超过两维的数组。一般地,一 个数组中的元素分布在若干维坐标的规则网格中,我们称之为张量。 矩阵的向量相乘 在深度学习中, 我们也使用一些不那么常规的符号。我们允许矩阵和向量相 加,产生另一个矩阵:C = A + b,其中 C i , j C_{i,j} C i , j ​ = A i , j A_{i,j} A i , j ​ + b j b_j b j ​ 。换言之,向量 b 和矩阵 A 的每一行相加。这个简写方法使我们无需在加法操作前定义一个将向量 b 复制 到每一行而生成的矩阵。这种隐式地复制向量 b 到很多位置的方式,被称为广播。 A ⊙ B(dot product)被称为元素对应乘积(element-wise product)或者Hadamard乘积(Hadamard product) 矩阵乘积满足分配律,结合率,但不一定满足AB=BA的交换律。 单位矩阵和逆矩阵 任意 向量和单位矩阵相乘,都不会改变。我们将保持 n 维向量不变的单位矩阵记作 I n

熵的直观理解

坚强是说给别人听的谎言 提交于 2019-12-06 16:13:59
熵定义:随机变量的概率分布对应的 **信息量的平均值 ** 就叫做随机变量的熵。 我们暂时把信息看做在学习x的值时候的”惊讶程度” 比如,苹果一定落地,信息量就很小。苹果落到某个盒子,熵也就大了,信息量比较大,不确定性也比较大了。 熵越大随机变量的不确定性就越大。 id3算法的核心就是从根节点开始,对节点计算所有可能的特征的信息增益,选择信息增益最大的特征作为节点的特征,由该特征取不同的值建立子节点;再对子节点递归调用以上方法。直到 所有特征的信息增益都很小停止调用。 来源: https://www.cnblogs.com/heracles-Mercury/p/11993503.html

条件随机场简介

走远了吗. 提交于 2019-12-05 02:58:28
之前学习了隐马尔可夫模型,现在记录一下条件随机场。本文主要参考了《统计学习方法》,如有错误,请各位多多指教 1、什么是条件随机场 首先我们先了解什么是随机场。 在概率论中,随机场的定义为:由 样本空间 Ω = {0, 1, ..., G − 1}n取样构成的 随机变量 Xi所组成的S = {X1, ..., Xn}。若对所有的ω∈Ω下式均成立,则称π为一个随机场。更直白一点的理解是随机场是由若干个位置组成的整体,当给每一个位置中按照某种分布随机赋予一个值之后,其全体就叫做随机场。就如一句话对他进行词性标注,先不论对错,只要对每个词标注了就形成一个随机场。 接着我们来了解什么是马尔科夫随机场。 先看《统计学习方法》中对马尔科夫随机场的定义。 概率无向图模型,又称为马尔可夫随机场,是一个可以由无向图表示的联合概率分布。 图(graph)是由结点(node)及连接结点的边(edge)组成的集合。结点和边分别记作 v 和 e,结点和边的集合分别记作 V 和 E,图记作G=(V,E)。无向图是指边没有方向的图。设有联合概率分布P(Y),Y是一组随机变量。由无向图G=(V,E)表示概率分布P(Y),即在图G中,每个结点 v 表示一个随机变量Yv;每条边e表示随机变量之间的概率依赖关系。 定义:设有联合概率分布P(Y)由无向图G=(V,E)表示,在图G中,结点表示随机变量

hdu 1145(离散型随机变量)

有些话、适合烂在心里 提交于 2019-12-04 13:49:59
这是我第一道求连续型随机变量期望的题,感觉还是蛮有难度的 概率知识扫盲: 对于p均与分布于(t,1),其期望是(1+t)/2,很好验证 这题刚开始想,就觉得是dp,因为只有选和不选,和TC上一题很像但具体,怎么推却不太好想 dp[i]表示已经做完i题 刚开始我想dp[i] = max((1+t)/2*dp[i+1],(1<<i)) 样例都不过。。。显得过于简单 在想 想考虑绝对情况 对于dp[i] if dp[i+1]*t >= 2^i 那肯定继续,,即dp[i] = (1+t)/2*dp[i+1]; 同样if dp[i+1] <= 2^i dp[i] = 2^i; 最后对于p在t - 1之间 概率p,使dp[i+1]*p > 2^i 出现的概率,根据概率密度算出p出现的概率是(1-2^i/dp[i+1]) /(1-t); 此时继续游戏 即有pp = (1-2*i/dp[i+1]) /(1-t)的概率继续游戏 反之,同理 综上 dp[i] = pp * dp[i+1] * (1+p)/2 + (1-pp) * (1<<i) 要注意的是player采取的是最佳方案,即可能出现的最有结果 来源: CSDN 作者: xiaohuan1991 链接: https://blog.csdn.net/xiaohuan1991/article/details/6929717

jmeter配置文件--随机变量

匿名 (未验证) 提交于 2019-12-03 00:41:02
发现jmeter4.0 中的配置元件中有个随机变量元素,研究一下,发现可以生成随机变量 说明: 变量名称:名称可以引用,如 ${aaa} 输出格式:列如此处输入b,那么得到结果是b1、b2之类的格式 最小值:输入生成随机数的最小数字 最大值:输入生成随机数的最大数字 随机种子:还没有发现有什么用处 线程数设置为10,执行一下 原文:https://www.cnblogs.com/gezirui/p/9326906.html

概率分布与马尔科夫链的关系讨论

匿名 (未验证) 提交于 2019-12-03 00:34:01
概率分布与马尔科夫链的关系讨论2018年6月24日 22:38Copyright ? 2018 Lucas Yu 小编原创,任何形式传播(转载或复制),请注明出处,谢谢! 摘要: 本文主要讨论使用一个简单的例子,采用实证的方式来讨论一般概率分布与马尔科夫链的关系,将二者联系起来。读者有一定概率论和随机过程基础会对理解有帮助。涉及内容包括:伯努利分布、伯努利过程以及马尔科夫链等。 本文的研究方法步骤:先确定研究单元(研究对象,它决定了研究的粒度和层级),然后才去讨论其相关性质。对象域确定很重要,以便明确目标,就像物体运动的研究不会去讨论物体的化学性质一样;论证方式采用层层递进论证(由粒度决定),并争取从多角度讨论。 素材:先上一段代码,供后面使用,使用时解释。 基本概念 伯努利分布:又名两点分布或者0-1分布,是一个离散型概率分布。若伯努利试验成功,则伯努利随机变量取值为1;若伯努利试验失败,则伯努利随机变量取值为0。记其成功概率为p,则失败概率为 1 ? p。 (baidu 2018) 伯努利过程:是一个由有限个或无限个的独立随机变量 X1, X2, X3 ,..., 所组成的离散时间随机过程,其中 X1, X2, X3 ,..., 满足如下条件: 对每个 i, Xi 等于 0 或 1; 对每个 i, Xi = 1 的概率等于 p. 换言之,伯努利过程是一列独立同分布的伯努利试验

第十一章-CRF的奇妙之处

匿名 (未验证) 提交于 2019-12-03 00:09:02
上篇中,我们了解到HMM的相关知识,并且知道HMM属于概率有向图模型,接下来,让我们一起学习总结概率无向图模型――条件随机场(Conditional Random Field, CRF)。 概率无向图模型又称为马尔可夫随机场,是一个可以由无向图表示的联合概率分布。 \[ 设有联合概率分布P(Y),由无向图G=(V,E)表示,V表示结点集合,E表示边集合,\\在图G中,结点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布P(Y)满足\\成对、局部或全局马尔可夫性,就称此联合概率分布为概率无向图模型或马尔可夫随机场。 \] 如图上,一共有10个结点(即10个随机变量),任意找两个没有边直接连接的结点,假设有两个随机变量(u,v)没有边相连,剩下的8个随机变量记为O,当给定O时,u和v是独立的,即P(u,v|O)=P(u|O)P(v|O)。 如上图,任意找一个结点v,与v有边相连的所有结点记为W,其余5个结点记为O,当给定W时,v和O是独立的,即P(v,O|W)=P(v|W)P(O|W)。 一共有8个结点(即有8个随机变量),取中间两个随机变量记为集合C,当将集合C从图中删掉之后,那么剩下的6个结点分成了两个部分,可知左边的3个结点和右边的3个结点没有任何边将它们相连,当给定C时,A和B是独立的,即P(A,B|C)=P(A|C)P(B|C)。 注意

协方差矩阵的概念及matlab的实现

匿名 (未验证) 提交于 2019-12-02 23:52:01
对于协方差矩阵的概念,我只想说,该来的总是要来,躲得了今天跑不了明天。所以今天在此想通过这边文章彻底搞清楚这个梗!(纯手工,有什么不妥的地方,望大家的指点与谅解!) 说起协方差矩阵,自然就会想到均值,期望,方差・・・这一系列的统计学概念。(这里提示一下,很多文章都说,均值是统计学的概念,期望是概率论的概念・・・至于两者的历史范畴犹如老树盘根,这里我就不多絮了,大家可以看看相关文章!)接下来就由浅入深的说一下这些概念和相关的公式。 首先说一下均值,均值是一个统计量,是对一次实验的观察与统计。而期望是一种概率论概念,是一个数学特征。比方做一个实验,掷5次骰子,统计一下它们出现的点数,5次骰子出现的点数分别为2 4 5 1 6,那我们可以说这次实验的样本均值是(2+4+5+1+6)/5 = 3.6,但是期望不能说是3.6,因为我们仅仅掷了5次骰子。当随着次数的不断增多,我们会发现样本均值会无限趋近一个数 3.5!而这个3.5就是期望。由此可以看出,均值跟期望的关系 犹如频率和概率的关系!也可以说他们之间的关系是完全一致的,因为均值就等于随机事件中随机变量与它出现的频率相乘求和,而期望就是随机事件中所有的随机变量与它的概率相乘求和!!因此大多数文章中都会总结到: 概率是频率随样本趋于无穷的极限 期望是平均数随样本趋于无穷的极限 均值的公式为: 所以均值描述的是一个样本集合的中间点