概率计算

通俗理解LDA主题模型

回眸只為那壹抹淺笑 提交于 2020-02-12 04:57:22
通俗理解LDA主题模型 0 前言 印象中,最開始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不知是由于这篇文档的前序铺垫太长( 如今才意识到这些“铺垫”都是深刻理解LDA 的基础,但假设没有人帮助刚開始学习的人提纲挈领、把握主次、理清思路,则非常easy陷入LDA的细枝末节之中 ),还是由于当中的数学推导细节太多,导致一直没有完整看完过。 2013年12月,在我组织的Machine Learning读书会 第8期 上,@夏粉_百度 讲机器学习中排序学习的理论和算法研究。@沈醉2011 则讲主题模型的理解。又一次碰到了主题模型,当时貌似仅仅记得沈博讲了一个汪峰写歌词的样例。依旧没有理解LDA究竟是怎样一个东西(但理解了LDA之后。再看沈博主题模型的 PPT 会非常赞)。 直到昨日下午。 机器学习班 第12次课上,邹讲完LDA之后,才真正明确LDA原来是那么一个东东!上完课后,趁热打铁,再次看LDA数学八卦,发现曾经看不下去的文档再看时居然一路都比較顺畅。一口气看完大部。看完大部后,思路清晰了。知道理解LDA。能够分为下述5个步骤: 一个函数:gamma函数 四个分布:二项分布、多项分布、beta分布、Dirichlet分布 一个概念和一个理念:共轭先验和贝叶斯框架 两个模型:pLSA

读书笔记 数据化营销

霸气de小男生 提交于 2020-02-12 01:15:38
1.1 现代营销理论的发展历程 1.1.1 从4P到4C 1960年 杰罗姆·麦卡锡(E.Jerome McCarthy) 著作《基础营销》BasicMarketing) 1967年 现代营销之父 菲利普·科特勒 著作《营销原理》 4P product : 注重产品功能,强调独特卖点 price : 根据不同市场定位,制定不同的价格策略 place :注重分销商的培养和销售网络的建设 promotion :企业通过改变销售行为来刺激消费者,以短期的行为(如让利、买赠、满减)促成消费的增长,吸引其他品牌的消费者前来消费,或者促使老主顾提前来消费,从而达到销售的目的。 4P理论的核心是Product(产品)。因此,以 4P 理论为核心的企业营销战略又可以简称为 以产品为中心 的营销战略。 随着时代的发展,商品丰富起来,市场竞争也日益激励。传统的4P营销组合已经无法适应商业时代的需求,营销界开始研究新的营销理论和营销要素。最具代表的是4C理论。 4C Consumer 消费者的需求和愿望 Cost 消费者得到满足的成本 Convenience 用户购买的方便性 Communication 与用户的沟通与交流 简称 以消费者为中心 的营销 1.1.2 从4C到3P3C 随着科技的发展,大数据时代的来临,4C理论再次落后。 日益白热化的市场竞争 越来越严苛的营销预算 海量的数据堆积和存储

随机采样方法整理与讲解(MCMC、Gibbs Sampling等)

拟墨画扇 提交于 2020-02-11 20:02:39
http://www.tuicool.com/articles/fqEf6f 本文是对参考资料中多篇关于sampling的内容进行总结+搬运,方便以后自己翻阅。其实参考资料中的资料写的比我好,大家可以看一下!好东西多分享!PRML的第11章也是sampling,有时间后面写到PRML的笔记中去:) 背景 随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在最早的计算机上进行编程实现。[3] 随机模拟中有一个重要的问题就是给定一个概率分布 p ( x ) ,我们如何在计算机中生成它的样本。一般而言均匀分布 U n i f o r m ( 0 , 1 ) 的样本是相对容易生成的。 通过线性同余发生器可以生成伪随机数,我们用确定性算法生成 [ 0 , 1 ] 之间的伪随机数序列后,这些序列的各种统计指标和均匀分布 U n i f o r m ( 0 , 1 ) 的理论计算结果非常接近。这样的伪随机序列就有比较好的统计性质,可以被当成真实的随机数使用。 下面总结这么几点: 1、蒙特卡洛数值积分 2、均匀分布

学习matlab(四)——概率与数理统计

风格不统一 提交于 2020-02-10 20:21:36
概率和数理统计是大学数学的重要内容,无论是在科学研究还是在工程实际中都有着非常广泛的应用。在MATLAB中,提供了专门的统计工具箱Staticstics,该工具箱有几百个专用于求解概率和数理统计问题的函数。本章将详细的介绍随机数的产生,随机变量的概率密度函数和数字特征,以及假设检验、方差分析和统计绘图等。 0.随机数 随机数的产生是概率统计的基础,概率论和数理统计就是对各种样本数据进行分析。在MATLAB中,各种样本数据可以用一些经典的随机分布数来表示。下面对常用的二项分布、均匀分布、指数分布、正态分布等随机数据进行详细的介绍。 <1>二项分布随机分布 在MATLAB中,使用函数binornd()产生二项分布的随机数据。该函数的的调用方式如下:R=binornd(N,P):在该函数中N和P为二项分布的两个参数,返回服从参数为N和P的二项分布随机数。R=binornd(N,P,M):在该函数中参数M指定随机数的个数,与返回结果R同维数。 <2>泊松分布 在MATLAB中,使用函数poissrnd()产生泊松分布的随机数据。该函数的调用方式如下:R=poissrnd(LAMBDA):在该函数中LAMBDA为泊松分布的参数,返回服从参数为LAMBDA的泊松分布随机数,其中R与LAMBDA维数相同。R=poissrnd(LAMBDA,M,N):在该函数中LAMBDA为泊松分布的参数

Coursera台大机器学习课程笔记3 – 机器学习的可能性

江枫思渺然 提交于 2020-02-09 04:57:31
提纲: 机器学习为什么可能? 引入计算橙球概率问题 通过用 Hoeffding's inequality 解决上面的问题,并得出 PAC 的概念,证明采样数据学习到的 h 的错误率可以和全局一致是 PAC 的 将得到的理论应用到机器学习,证明实际机器是可以学习 机器学习的大多数情况下是让机器通过现有的训练集( D )的学习以获得预测未知数据的能力,即选择一个最佳的 h 做为学习结果, 那么这种预测是可能的么?为什么在采样数据上得到的 h 可以认为适用于全局,也就是说其泛化性的本质是什么? 课程首先引入一个情景: 如果有一个装有很多(数量很大以至于无法通过数数解决)橙色球和绿色球的罐子,我们能不能推断橙色球的比例? 很明显的思路是利用统计中抽样的方法,既然我们无法穷尽数遍所有罐子中的球,不如随机取出几个球,算出其中两种颜色球的比例去近似得到我们要的答案, 这样真的可以么?我们都知道小概率事件也会发生,假如罐子里面大部分都是橙色球,而我们恰巧取出的都是绿色,这样我们就判断错了,那么到底通过抽样得出的比例能够说明什么呢?似乎两者 不能直接划等号 。 由此,课程中引入了一个非常重要的概念, PAC ,要理解这个,先得理解一个超级重要的不等式: Hoeffding's inequality 这个不等书说明了对于未知的那个概率,我们的抽样概率可以根它足够接近只要抽样的样本够大或者容忍的限制变松

(updating)[学习笔记]概率与期望进阶

谁说胖子不能爱 提交于 2020-02-08 22:19:02
组合数学,概率与期望,数论 大概是我学的最差的几个板块吧… Part 1 高斯消元 1.1 概述 最常见的当然是随机游走问题了… • f u = ∑ p u , v ∗ ( f v + w u , v ) f_u=\sum p_{u,v}* (f_{v}+w_{u,v}) f u ​ = ∑ p u , v ​ ∗ ( f v ​ + w u , v ​ ) • 计算期望在这个节点上,停留多少步: f u = ∑ p v , u ∗ f v + [ u = S ] f_u=\sum p_{v,u}* f_v + [u=S] f u ​ = ∑ p v , u ​ ∗ f v ​ + [ u = S ] HNOI 2013 游走 SDOI 2012 走迷宫 1.2 Band Matrix 带宽:对于 ∀ ( i , j ) ∈ G , a i , j = 1 存 在 一 个 x , ( x , x ) ∈ G 且 ∣ i − x ∣ + ∣ j − x ∣ ≤ d \forall (i,j)\in G,a_{i,j}=1 存在一个x,(x,x)\in G且|i-x|+|j-x|\leq d ∀ ( i , j ) ∈ G , a i , j ​ = 1 存 在 一 个 x , ( x , x ) ∈ G 且 ∣ i − x ∣ + ∣ j − x ∣ ≤ d ,当 d d d

朴素贝叶斯

喜欢而已 提交于 2020-02-08 18:00:02
介绍 朴素贝叶斯是监督学习分类算法 分类方法 :比如已知一个数据集由两类数据(类A,类B)组成,对于一个数据x,如果x属于A的概率大于x属于B的概率,那么x属于A类。 如何计算相关概率 :使用条件概率进行分类 条件概率 在事件B发生的条件下事件A发生的概率 \(p(A|B)\) \(p(A|B)=\frac{p(A \cap B)}{p(B)}\) \(p(A \cap B)=p(A|B){p(B)}\) \(p(A \cap B)=p(B|A){p(A)}\) 所以可得 贝叶斯公式 \(P(A | B)=\frac{P(A) P(B | A)}{P(B)}\) 其中先验概率p(A)后验概率p(A|B) 所以通过贝叶斯公式求得 \(p(x|A)\) 与 \(p(a|B)\) 的值进行比较,因为公式中p(x)都是相同的,所以实际只需要分别计算 \(P(A) P(x | A)\) 和 \(P(B) P(x | B)\) 比较即可 朴素的含义 在此算法中,是假定每一个属性是独立的,所以对于 \(p(w_{i}|B)\) 可由 \(p(w_{1}|B)p(w_{2}|B)···p(w_{n}|B)\) 得到 朴素贝叶斯实现方式 一种是贝努利模型(只考虑出不出现),一种是多项式模型(考虑属性出现的次数) 一篇贝叶斯算法的推导文章 https://www.cnblogs.com

卡方检验再次复习

。_饼干妹妹 提交于 2020-02-08 02:57:47
两类问题介绍: 两个样本之间的比例是否一样,比如两个城市的有钱人和穷人比例是否一致。 两个分类变量之间是否独立,比如时间和级别是否存在依赖关系。时间可以划分n个等级,级别也可以划分几个等级,然后df为(r-1)*(c-1) 二者区别: 感觉上计算卡方值公式都是一样的,但实际上是由区别。 1:抽样顺序不同,前者是已经分好类,再抽,后者是直接抽再分类 2:假设检验的内容不同,前面是各类别的比例等于某个期望概率,后者是两个变量是否相互独立 3:计算前者卡方是∑(实际-期望)*2/期望,后者是概率相乘 计算方法: 1:excel可以用chitest函数 2:r语言用chisq.test tablefc1<-matrix(c(36.67,66.66,90,93.33,93.33,33.33,63.34,63.33,76.67,76.67),nrow=2,ncol=5) chisq.test(tablefc1) 来源: https://www.cnblogs.com/marszhw/p/12275398.html

如何通俗地讲解 viterbi 算法?

好久不见. 提交于 2020-02-07 18:22:55
原文链接 一、通俗地讲解 viterbi 算法 这篇回答你绝对看得懂!如下图,假如你从S和E之间找一条最短的路径,除了遍历完所有路径,还有什么更好的方法? 答案:viterbi (维特比)算法。 过程非常简单: 为了找出S到E之间的最短路径,我们先从S开始从左到右一列一列地来看。 首先起点是S,从S到A列的路径有三种可能:S-A1、S-A2、S-A3,如下图: 我们不能武断的说S-A1、S-A2、S-A3中的哪一段必定是全局最短路径中的一部分,目前为止任何一段都有可能是全局最短路径的备选项。 我们继续往右看,到了B列。B列的B1、B2、B3逐个分析。 先看B1: 如上图,经过B1的所有路径只有3条:S-A1-B1S-A2-B1S-A3-B1以上这三条路径,我们肯定可以知道其中哪一条是最短的(把各路径每段距离加起来比较一下就知道哪条最短了)。假设S-A3-B1是最短的,那么我们就知道了经过B1的所有路径当中S-A3-B1是最短的,其它两条路径路径S-A1-B1和S-A2-B1都比S-A3-B1长,绝对不是目标答案,可以大胆地删掉了。删掉了不可能是答案的路径,就是viterbi算法(维特比算法)的重点,因为后面我们再也不用考虑这些被删掉的路径了。现在经过B1的所有路径只剩一条路径了,如下图: 接下来,我们继续看B2: 如上图,经过B2的路径有3条:S-A1-B2S-A2-B2S-A3

第二讲 cs224n系列之word2vec & 词向量

*爱你&永不变心* 提交于 2020-02-07 09:48:47
本系列是一个基于深度学习的NLP教程,2016年之前叫做CS224d: Deep Learning for Natural Language Processing,之后改名为CS224n: Natural Language Processing with Deep Learning。新版主讲人是泰斗Chris Manning和Richard Socher(这是旧版的讲师),两人分别负责不同的章节。博主在学习的同时,对重点内容做成系列教程,与大家分享! 系列目录(系列更新中) 第二讲 cs224n系列之word2vec & 词向量 1.语言模型 神经概率语言模型(Neural Probabilistic Language Model)中词的表示是向量形式、面向语义的。两个语义相似的词对应的向量也是相似的,具体反映在夹角或距离上。甚至一些语义相似的二元词组中的词语对应的向量做线性减法之后得到的向量依然是相似的。词的向量表示可以显著提高传统NLP任务的性能,例如《基于神经网络的高性能依存句法分析器》中介绍的词、词性、依存关系的向量化对正确率的提升等。 2.word2vec word2vec是一个计算word vector的开源工具。当我们在说word2vec算法或模型的时候,其实指的是其背后用于计算word vector的CBoW模型和Skip-gram模型