条件分布

统计学习方法 李航---第5章 决策树

北城以北 提交于 2020-02-06 04:58:44
第5章 决策树 决策树(decision tree)是一种基本的分类与回归方法。本章主要讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。 5.1 决策树模型与学习 定义5.1 (决策树) : 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部结点(internal node )和叶结点(leaf node)。内部结点表示一个特征或属性,叶结点表示一个类。 用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;这时,每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶结点。最后将实例分到叶结点的类中。 图中圆和方框分别表示内部结点和叶结点. 决策树与if-then规则 可以将决策树看成一个if-then规则的集合,转换成if-then规则的过程:由决策树的根结点到叶结点的每一条路径构建一条规则

[白话解析] 深入浅出最大熵模型

。_饼干妹妹 提交于 2020-01-31 16:35:42
[白话解析] 深入浅出最大熵模型 0x00 摘要 本文将尽量使用易懂的方式,尽可能不涉及数学公式,而是从整体的思路上来看,运用感性直觉的思考来解释最大熵模型。并且从名著中找了几个具体应用场景来帮助大家深入这个概念。 0x01 背景概念 1. 什么是熵? 熵这个概念可以从多个角度来理解。 1.1 从物理学角度理解熵 熵最早来原于物理学。德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能量在空间中分布的均匀程度,能量分布得越均匀,熵就越大。即,熵是表示物质系统状态的一种度量,用它来表征系统的无序程度。 熵越大,系统越无序,意味着系统结构和运动的不确定和无规则; 熵越小,系统越有序,意味着系统具有确定和有规则的运动状态。 1.2 从系统复杂度理解熵 信息熵还可以作为一个系统复杂程度的度量,即物质系统有序化,组织化,复杂化状态的一种度量。 如果系统越复杂,出现不同情况的种类越多,那么他的信息熵是比较大的。 如果一个系统越简单,出现情况种类很少(极端情况为1种情况,那么对应概率为1,对应的信息熵为0),此时的信息熵较小。 熵越大则该系统不确定性就越大,该系统未来发展就存在越多的可能性。 1.3 熵的推导&定义 熵的定义是:𝐇(𝐱) = −𝒔𝒖𝒎(𝒑(𝒙)𝒍𝒐𝒈𝟐𝒑(𝒙)) 其中,𝑝(𝑥)代表随机事件𝑥的概率,H(X) 就被称为随机变量 x 的熵,它是表示随机变量不确定的度量

数理统计要点

*爱你&永不变心* 提交于 2019-12-03 07:48:03
虽然我也粗读过统计学的几本书,但从易懂性来说,都没有学校老师给的ppt好,或者说自己看书比较困难,但是听老师讲课就很容易懂。所以,我建议有条件的同学能够选修统计学这门课,没条件的同学可以去网上找一些相关视频,配套书籍可以选择茆诗松的《概率论与数理统计》。另外,《Head First Statistics》一书可以用来预热。 学了统计学,你至少应该知道: 基本的抽样方法 数据分布的描述统计量有哪些?一组样本数据分布的数值特诊可以从三个方面进行描述: 描述水平的统计量: 数据的水平:也称为集中趋势或位置度量,反应全部数据的数值大小。 均值、中位数、分位数、众数 描述差异的统计量 数据的差异:反应数据间的离散程度。 极差和四分位差、方差和标准差、变异系数、标准分数 描述分布形状的统计量 分布的形状:反应数据分布的偏度和峰度。 偏度系数、峰度系数 你需要了解一些重要的分布,比如正态分布、chi-square分布、t分布、F分布等。 假设检验是用来做什么的、置信区间的概念、MSE (Mean Squared Error)均方误差、RMSE(Root Mean Squard Error)均方根误差、MAE(平均绝对误差)、R-squared(拟合优度)的含义等等。 怎样进行数据预处理 怎样整理和显示数据 你需要了解各种图的作用和适用场景,常用图包括条形图、饼图、直方图、折线图、箱线图、散点图

最大似然估计、最大后验估计与朴素贝叶斯分类算法

你。 提交于 2019-12-02 22:40:25
最大似然估计、最大后验估计与朴素贝叶斯分类算法 目录   一、前言   二、概率论基础   三、最大似然估计   四、最大后验估计   五、朴素贝叶斯分类   六、参考文献 一、前言   本篇文章的主要内容为笔者对概率论基础内容的回顾,及个人对其中一些知识点的解读。另外,在这些上述知识的基础之上,回顾了概率推断的基础内容最大似然估计与最大后验估计。最后,文章的结尾回顾了朴素贝叶斯分类方法的基本流程,并且用一个小案例来帮助读者更好地掌握该方法的基本流程。 二、概率论基础 (1)概率   定义[1]:设E是随机实验,S是它的样本空间。对于E的每一个事件A赋予一个实数,记为P(A),称为事件A的概率,如果集和函数P(.)满足如下条件:   (1)非负性:对每一个事件A,有P(A)>=0;   (2)规范性:对于必然事件S,有p(S)=1;   (3)可列可加性:设A1,A2,...是两两互不相容的事件,即对于AiAj=Ø,i≠j,i,j=1,2,...,有:   P(A1∪A2∪A3...)=P(A1)+P(A2)+P(A3)+.... (2)随机变量    一个随机变量指的是一个可以随机地取多种数值的的变量,本文中使用大写字母来表示随机变量,其取值则用小写字母表示,如:随机变量X,可以取值为{x 1 ,x 2 ,x 3 ,...}。随机变量只是一种对随机现象所有可能状态的表示

从随机过程的熵率和马尔科夫稳态过程引出的一些思考 - 人生逃不过一场马尔科夫稳态

旧时模样 提交于 2019-11-26 19:21:01
1. 引言 0x1:人生就是一个马尔科夫稳态 每一秒我们都在做各种各样的选择,要吃青菜还是红烧肉、看电影还是看书、跑步还是睡觉,咋一看起来,每一个选择都是随机的,而人生又是由无数个这样的随机选择组成的结果。从这个前提往下推导,似乎可以得出一个结论,即人生是无常的,未来是不可预测的。但事实真的是如此吗? 以前的老人流行说一句话,三岁看小,七岁看老。这似乎是一句充满迷信主义色彩的俗语,但其实其中暗含了非常质朴而经典的理论依据,即随机过程不管其转移概率分布如何,随着时序的增大,最终会收敛在某个稳态上。用人话说就是:人在七岁时,其核心性格会定型,在今后的一生中,不管其经历了什么,最终都会殊途同归,到达同一个人生结局。 现在很流行一句话叫,性格决定命运。这句话从很多不同的学科中可以得到不同的解释,例如现代心理学会说性格的本质就是潜意识,而潜意识影响所有的思想和行为,进而影响了命运。社会行为学会说性格决定了你的人际网络拓朴结构与网络信息交互率等因素,而成功的人往往是那种同时占据了多个重要结构洞的关键人物,例如国家领导人或者公司高层。用信息论马尔柯夫随机过程的理论来解释就说,每个人的概率转移函数在很小的时候就会基本定型,对于每个人来说,出生、天赋这些都不是至关重要的因素,而相反,决定一个人最终能得到多少成就的决定因素是你的n,也即你能在多大程度上延伸生命的长度,生命周期n越长