最大熵模型

[白话解析] 深入浅出最大熵模型

。_饼干妹妹 提交于 2020-01-31 16:35:42
[白话解析] 深入浅出最大熵模型 0x00 摘要 本文将尽量使用易懂的方式,尽可能不涉及数学公式,而是从整体的思路上来看,运用感性直觉的思考来解释最大熵模型。并且从名著中找了几个具体应用场景来帮助大家深入这个概念。 0x01 背景概念 1. 什么是熵? 熵这个概念可以从多个角度来理解。 1.1 从物理学角度理解熵 熵最早来原于物理学。德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能量在空间中分布的均匀程度,能量分布得越均匀,熵就越大。即,熵是表示物质系统状态的一种度量,用它来表征系统的无序程度。 熵越大,系统越无序,意味着系统结构和运动的不确定和无规则; 熵越小,系统越有序,意味着系统具有确定和有规则的运动状态。 1.2 从系统复杂度理解熵 信息熵还可以作为一个系统复杂程度的度量,即物质系统有序化,组织化,复杂化状态的一种度量。 如果系统越复杂,出现不同情况的种类越多,那么他的信息熵是比较大的。 如果一个系统越简单,出现情况种类很少(极端情况为1种情况,那么对应概率为1,对应的信息熵为0),此时的信息熵较小。 熵越大则该系统不确定性就越大,该系统未来发展就存在越多的可能性。 1.3 熵的推导&定义 熵的定义是:𝐇(𝐱) = −𝒔𝒖𝒎(𝒑(𝒙)𝒍𝒐𝒈𝟐𝒑(𝒙)) 其中,𝑝(𝑥)代表随机事件𝑥的概率,H(X) 就被称为随机变量 x 的熵,它是表示随机变量不确定的度量

【坑】最大熵模型

Deadly 提交于 2020-01-08 02:19:50
1、最大熵模型 2、最优化算法 最大熵模型归结为,使用似然函数为目标函数的最优化问题。 最优化问题,往往使用,迭代尺度法,梯度下降法,牛顿法,拟牛顿法等。 3.1改进的迭代尺度算法IIS 思路:求似然对数函数的值,然后以ω=ω+δ来更新参数变量ω,重复求似然对数函数,直到找到最大值为止。 技巧:直接求L(ω+δ)-L(ω),使用不等式来减少变量,获得极值。例如δ变量就有δi,i=1,2,…,n.我们就使用不等式减小变量,把其中一个变量固定。 算法: 1)通过等式,来求δi; 2)ωi=ωi+δi,更新ωi; 来源: CSDN 作者: rosefunR 链接: https://blog.csdn.net/rosefun96/article/details/103858278

逻辑回归与最大熵模型

匆匆过客 提交于 2019-12-05 11:23:51
逻辑回归 sigmoid函数= \(\sigma(x)=\frac{1}{1+e^{-x}}=\frac{e^{x}}{1+e^{x}}\) 二项逻辑回归模型 有如下条件概率分布, \(w\) 内已经包含了偏置 \(b\) : \[P(Y=1|x)=\frac{\exp(w\cdot x)}{1+\exp(w\cdot x)}\] \[P(Y=0|x)=\frac{1}{1+\exp(w\cdot x)}\] 对数几率: \[\text{logit}(p)=\frac{P(Y=1|x)}{1-P(Y=1|x)}=\frac{p}{1-p}=w\cdot x\] 参数估计 设: \(P(Y=1|x)=\pi (x), \qquad P(Y=0|x)=1-\pi (x)\) 似然函数为 \[\prod \limits_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}\] 对数似然函数为 \[\begin{aligned} \mathcal{L}(w) &=\sum \limits_{i=1}^N[y_i\log \pi(x_i)+(1-y_i)\log (1-\pi(x_i))] \\ & = \sum \limits_{i=1}^N[y_i(w_i \cdot x_i)-\log (1+\exp(w \cdot x_i))] \end

最大熵模型 推导

此生再无相见时 提交于 2019-11-28 22:44:56
1、似然函数   概率和似然的区别:概率是已知参数的条件下预测未知事情发生的概率,而似然性是已知事情发生的前提下估计模型的参数。我们通常都是将似然函数取最大值时的参数作为模型的参数。   那么为何要取似然函数取最大值的参数作为模型的参数?我们基于这样的假设:对于已经发生的事情,在同样条件下再次发生的概率就会很大。假如模型的参数固定,然后用这个参数固定的模型来预测已经发生的事情,这时我们得到的概率不一定很大,并且不同的参数得到概率是不一样的,但是事实上这个事情已经发生了,也就是说发生这个事情的概率为1,此时我们就需要让模型对这个事情的预测概率越大越好。即概率越大其发生的可能性越大,也就越符合已经发生的事情。   最大似然估计也是统计学中经验风险最小化的例子。计算极大似然估计的方法:首先写出似然函数,对似然函数取对数并整理,然后求导数,最后解似然方程。其中似然函数常用概率密度函数。 2、预分析   假设分类模型为条件概率分布P(y|x),训练集为T={(x1,y1),(x2,y2),…,(xn,yn)}。则联合分布P(x,y)的经验分布和边缘分布P(x)的经验分布为:   对于训练集特征i的函数f i (x,y),设: :表示特征函数f在训练数据T上关于 的数学期望。其计算公式为: :表示特征函数f在模型上关于P(x,y)的数学期望。其计算公式为:   由于P(x)是未知的,我们使用

最大熵马尔科夫模型(MEMM)

依然范特西╮ 提交于 2019-11-28 16:18:50
定义: MEMM是这样的一个概率模型,即在给定的观察状态和前一状态的条件下,出现当前状态的概率。 Ø S表示状态的有限集合 Ø O表示观察序列集合 Ø Pr(s|s­­’,o):观察和状态转移概率矩阵 Ø 初始状态分布:Pr0(s) 注:O表示观察集合,S表示状态集合,M表示模型 最大熵马尔科夫模型(MEMM)的缺点: 看下图,由观察状态O和隐藏状态S找到最有可能的S序列: 路径:s1-s1-s1-s1的概率:0.4*0.45*0.5=0.09 路径s2-s2-s2-s2的概率:0.2*0.3*0.3=0.018 路径s1-s2-s1-s2的概率:0.6*0.2*0.5=0.06 路径s1-s1-s2-s2的概率:0.4*0.55*0.3=0.066 由此可得最优路径为s1-s1-s1-s1 实际上,在上图中,状态1偏向于转移到状态2,而状态2总倾向于停留在状态2,这就是所谓的标注偏置问题,由于分支数不同,概率的分布不均衡,导致状态的转移存在不公平的情况。 由上面的两幅图可知,最大熵隐马尔科夫模型(MEMM)只能达到局部最优解,而不能达到全局最优解,因此MEMM虽然解决了HMM输出独立性假设的问题,但却存在标注偏置问题。 如图所示,“因为”是介词词性p,而 MEMM却错误标注其词性为连词c。产生该情况的原因正是一种偏置问题。 原因:“是”存在两个词性,动词v和代词r

一文搞懂HMM(隐马尔可夫模型)

时光怂恿深爱的人放手 提交于 2019-11-28 04:18:49
什么是熵(Entropy) 简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。 熵最早来原于 物理学 . 德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能量在空间中分布的均匀程度,能量分布得越均匀,熵就越大。 一滴墨水滴在清水中,部成了一杯淡蓝色溶液 热水晾在空气中,热量会传到空气中,最后使得温度一致 更多的一些生活中的例子: 熵力的一个例子是耳机线,我们将耳机线整理好放进口袋,下次再拿出来已经乱了。让耳机线乱掉的看不见的“力”就是熵力,耳机线喜欢变成更混乱。 熵力另一个具体的例子是弹性力。一根弹簧的力,就是熵力。 胡克定律其实也是一种熵力的表现。 万有引力也是熵力的一种(热烈讨论的话题)。 浑水澄清[1] 于是从微观看,熵就表现了这个系统所处状态的 不确定性程度 。香农,描述一个信息系统的时候就借用了熵的概念,这里熵表示的是这个信息系统的 平均信息量 ( 平均不确定程度 ) 。 最大熵模型 我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the maximum