马尔可夫

概率图模型(PGM)

夙愿已清 提交于 2019-11-28 18:09:59
从各个地方摘抄过来,仅当自己的学习笔记,勿怪,侵删! 概率图模型分为贝叶斯网络(Bayesian Network)和马尔可夫网络(Markov Network)两大类。贝叶斯网络可以用一个有向图结构表示, 马尔可夫网络可以表示成一个无向图的网络结构。 更详细地说,概率图模型包括了朴素贝叶斯模型、最大熵模型、隐马尔可夫模型、条件随机场、主题模型等,在机器学习的诸多场景中都有着广泛的应用。 概率图模型 概率图模型在实际中(包括工业界)的应用非常广泛与成功。这里举几个例子。隐马尔可夫模型(HMM)是语音识别的支柱模型,高斯混合模型(GMM)及其变种K-means是数据聚类的最基本模型,条件随机场(CRF)广泛应用于自然语言处理(如词性标注,命名实体识别),Ising模型获得过诺贝尔奖,话题模型在工业界大量使用(如腾讯的推荐系统)等等 机器学习的一个核心任务是从观测到的数据中挖掘隐含的知识,而概率图模型是实现这一任务的一种很elegant,principled的手段。PGM巧妙地结合了图论和概率论。   从图论的角度,PGM是一个图,包含结点与边。结点可以分为两类:隐含结点和观测结点。边可以是有向的或者是无向的。   从概率论的角度,PGM是一个概率分布,图中的结点对应于随机变量,边对应于随机变量的dependency或者correlation关系。   给定一个实际问题

一文搞懂HMM(隐马尔可夫模型)

时光怂恿深爱的人放手 提交于 2019-11-28 04:18:49
什么是熵(Entropy) 简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。 熵最早来原于 物理学 . 德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能量在空间中分布的均匀程度,能量分布得越均匀,熵就越大。 一滴墨水滴在清水中,部成了一杯淡蓝色溶液 热水晾在空气中,热量会传到空气中,最后使得温度一致 更多的一些生活中的例子: 熵力的一个例子是耳机线,我们将耳机线整理好放进口袋,下次再拿出来已经乱了。让耳机线乱掉的看不见的“力”就是熵力,耳机线喜欢变成更混乱。 熵力另一个具体的例子是弹性力。一根弹簧的力,就是熵力。 胡克定律其实也是一种熵力的表现。 万有引力也是熵力的一种(热烈讨论的话题)。 浑水澄清[1] 于是从微观看,熵就表现了这个系统所处状态的 不确定性程度 。香农,描述一个信息系统的时候就借用了熵的概念,这里熵表示的是这个信息系统的 平均信息量 ( 平均不确定程度 ) 。 最大熵模型 我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the maximum

机器学习算法:隐马尔可夫算法

我是研究僧i 提交于 2019-11-27 12:10:52
隐马尔可夫算法 适用问题:标注问题的统计学习模型 模型类型:生成模型 模型特点:观测序列与状态序列联合概率分布模型 学习策略:极大似然估计、极大后验概率估计 学习的损失函数:对数似然函数 学习算法:概率计算公式、EM算法 总结: 1.隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态的序列,再由各个状态随机生成个观测序列的过程. 隐马尔可夫模型由初始状态概率向量n、状态转移概率矩阵A和观测概率矩阵B决定.因此,隐马尔可大模型可以写成h=(A,B,n). 隐马尔可夫模型是一个生成模型,表示状态序列和观测序列的联合分布,但是状态序列是隐藏的,不可观测的. 隐马尔可夫模型可以用于标注,这时状态对应着标记标注问题是给定观测序列预测其对应的标记序列. 2.概率计算问题.给定模型h=(A,B,n)和观测序列O= (01,02,03),计算在模型A下观测序列0出现的概率P(O|h).前向-后向算法是通过递推地计算前向-后向概率可以高效地进行隐马尔可夫模型的概率计算. 3.学习问题.已知观测序列O= (01,02,03),估计模型h=(A,B,n)参数,使得在该模型下观测序列概率P(O|h)最大.即用极大似然估计的方法估计参数. Baum-Welch算法,也就是EM算法可以高效地对隐马尔可夫模型进行训练.它是一种非监督学习算法, 4.预测问题.已知模型h=(A,

数据分析-统计知识(二)

柔情痞子 提交于 2019-11-27 02:34:00
4.切比雪夫不等式、马尔可夫不等式 切比雪夫不等式: 马尔可夫不等式: 5.五数概括法、箱线图 最小值、第一四分位数、中位数、第三四分位数、最大值 6.皮尔逊相关系数 7.贝叶斯定理,计算后验概率 来源: https://www.cnblogs.com/Jacon-hunt/p/11331283.html

数学之美

 ̄綄美尐妖づ 提交于 2019-11-26 17:13:54
强推啊。 永远无法知道概率论的利用会如此之大。 摘要: 不同的文字系统在记录信息上的能力是等价的。 文字只是信息的载体,而非信息本身。 机器翻译和语言识别,全都靠的是数学,更准确的是统计。 20世纪60年代,基于乔姆斯基形式语言的编译器技术得到了很大的发展,计算机高级程序语言都可以概括成上下文无关的文法,这是一个在算法上可以在多项式时间内解决的问题。 上下文无关算法可以想看计算理论导论... 基于统计的语言处理的核心模型是通信系统加隐含马尔可夫模型。 统计语言模型:马尔可夫假设:(二元模型) 假设任意一个词出现的概率只同它前面的词有关。 因为有了大量机读文本,也就是专业人士讲的语料库,只要数一数Wi-1,Wi这对词在统计的文本中前后相邻出现了多少次,以及Wi-1本身在同样的文本中出现了多少次,然后用两个数分别除以语料库的大小,即可得到这些词或者二元组的相对频度。 根据大数定理,只要统计量足够,相对频度就等于概率。 如上是统计语言模型的理论。用来解决复杂的语音识别、机器翻译等问题。 假定文本中的每个词Wi和前面的N-1个词有关,而与更前面的词无关。这样当前词wi的概率只取决于前面的N-1个词 P(Wi-N+1,Wi-N+2,...,Wi-1). 这种假设被称为N-1阶马尔可夫假设,对应的语言模型称为N元模型。N=1的一元模型实际上是一个上下文无关模型