统计学

特征工程

浪尽此生 提交于 2019-11-28 08:33:39
特征工程是用数学转换的方法将原始输入数据转换为用于机器学习模型的新特征。特征工程提高了机器学习模型的准确度和计算效率,体现在以下五个方面 1、把原始数据转换成与目标相关的数据 我们可以使用特征工程对原始数据进行转换,使其更接近目标变量,转换后的特征对目标更有预测性。在这种情况下,虽然未加工输入出现在原始数据集中,但如果将转换后的特征作为输入,则机器学习将提高预测的准确性。 2、引入额外的数据源 特征工程可以使从业者向机器学习模型引入额外的数据源。对于首次注册的用户,我们可以猜测该用户的终生价值。在众多指标中,我们可以捕捉每个用户的地理位置。虽然这个数据可以直接作为分类特征(例如,IP地址和邮政编码)提供,但模型基于这些来确定位置信息仍存在困难。 通过第三方的人口统计数据,我们可以做的更好。例如,这将允许我们计算每个用户区域的平均收入和人口密度,并把这些因素直接插入到训练集中。现在,这些预测性因素立即变得更容易推断,而不是依赖模型从原始位置数据推断这种微妙的关系。更进一步,位置信息转换成收入和人口密度的特征工程,可使我们估计这些位置衍生出的特征哪一个更为重要。 3、使用非结构化的数据源 特征工程可使我们在机器学习模型中使用非结构化的数据源。许多数据源本质上并不是结构化的特征向量。非结构化数据,如文本、时间序列、图像、视频、日志数据和点击流等,占创建数据的绝大多数

相关分析与列联分析

这一生的挚爱 提交于 2019-11-28 04:57:34
一、相关分析 相关分析是什么?有哪些分类?各类相关分析的用途是什么? 相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。(两个变量间线性关系的方向和强度) (1)按变量的多少划分: ①单相关 ②复相关 (2)按表现形态划分: ①直线相关 ②曲线相关 (3)从变动的方向划分: ①正相关 ②负相关 (4)按相关的程度不同分:①完全相关 ②统计相关③完全无关 1、线性相关分析:研究两个变量间线性关系的程度。用相关系数r来描述。 (1)正相关:如果x,y变化的方向一致,如身高与体重的关系,r>0;一般地, ·|r|>0.95 存在显著性相关; ·|r|≥0.8 高度相关; ·0.5≤|r|<0.8 中度相关; ·0.3≤|r|<0.5 低度相关; ·|r|<0.3 关系极弱,认为不相关 (2)负相关:如果x,y变化的方向相反,如吸烟与肺功能的关系,r<0; (3)无线性相关:r=0。 如果变量Y与X间是函数关系,则r=1或r=-1;如果变量Y与X间是统计关系,则-1<r<1。 (4)r的计算有三种: ①Pearson相关系数:对定距连续变量的数据进行计算。 ②Spearman和Kendall相关系数:对分类变量的数据或变量值的分布明显非正态或分布不明时,计算时先对离散数据进行排序或对定距变量值排(求

《模式识别与机器学习PRML》PDF中英文+代码测试+习题答案+勘误笔记

て烟熏妆下的殇ゞ 提交于 2019-11-27 19:52:36
学习机器学习必须具备一定的研究基础,应该仔细学习《模式识别与机器学习》,详略难易得当。由于内容选取的少而精,所以作者可以深入浅出的介绍每一种模型,不会因为太过简略而使读者疑惑,同时对于高阶的内容又点到为止,使得整本书的难度保持在了一个对于初学者可以接受的范围内。基本上,当年看这本书时,就是把它当成一个个的tutorial来看。比如在学EM算法的时候,主要就是以这本书的内容为主,配合网上其他资源学习。这一点在学习Graphical model的时候更加明显。众所周知这个领域比较经典的著作是Probabilistic GraphicalModels以及Bayesian Reasoning and Machine Learning,但是这是两本大部头的书,一开始读起来会比较吃力。而本书的作者Bishop本身就是搞Bayesian learning以及graphical model的,PRML这边书用几章的内容就把这个领域最核心的概念以及方法解释了一遍,不得不让人佩服作者的功力。 《模式识别与机器学习》内容选取得当。书中所介绍的所有模型以及算法,放到今天,依然是理解学习ML最最基本的组成部分,这些内容,对于读者了解更高级的算法,几乎都是必不可少的。这本书并没有试图涵盖当时所有的机器学习算法,而是精选了ML里面最本质最fundamental的方法,由此可以看出

概率论与数理统计总结

耗尽温柔 提交于 2019-11-27 18:53:15
前置知识: \(1.\) 高中数学相关知识。 \(2.\) 高等数学(微分,定积分,不定积分,泰勒展开,极限等) 定积分常用计算方式:牛顿—莱布尼兹公式:( \(F()\) 为 \(f()\) 的原函数,即 \(F^{'}()=f()\) ) \[ \int_a^b{f(x)dx}=F(b)-F(a) \] 泰勒中值定理 \(1\) : \(f(x)=f(x_0)+f'(x_0)(x-x_0)+\frac{f''(x_0)}{2!}(x-x_0)^2+...+\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n+R_n(x)\) ,满足 \(f(x)\) 在 \(x_0\) 处有 \(n\) 阶导数, \(x\) 为 \(x_0\) 的一个邻域中的任意值, \(R_n(x)=o((x-x_0))^n\) 称为佩亚诺余项。 泰勒中值定理 \(2\) : \(f(x)=f(x_0)+f'(x_0)(x-x_0)+\frac{f''(x_0)}{2!}(x-x_0)^2+...+\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n+R_n(x)\) ,满足 \(f(x)\) 在 \(x_0\) 的某一邻域中有 \(n+1\) 阶导数, \(x\) 为 \(x_0\) 该邻域中的任意值, \(R_n(x)=\frac{f^{n+1}(\xi)}{(n+1)!}(x

统计学基础之常用统计量和抽样分布

一笑奈何 提交于 2019-11-27 18:41:06
目录: 一、统计量 1、概念 2、常用统计量 二、抽样分布 1、常见三大抽样分布 一、统计量: 1、概念: 统计量是统计理论中用来对数据进行分析、检验的变量。在实际应用中,当我们从某个总体中抽取一个样本(X1,X2,X3......,Xn)后,并不能直接用它对总体的有关性质和特征进行推断,因为样本虽说是从总体中获取的代表,含有总体性质的信息,但还是会比较分散。当我们需要将统计的推断变成可能的,必须要把分散在样本中的信息集中起来,针对不同的目的,构造不同的样本函数,这种函数在统计学中成为统计量。 统计量是样本的一个函数。有样本构造具体的统计量,实际是对样本所含的总体信息按照一些要求进行加工处理,把分散在样本中的信息集中都统计量的取值上。不同的统计推断问题要求构造不同的统计量。统计量是统计推断的基础,相当于概率论中的随机变量。 在统计量的公式中不能依赖于总体分布的未知参数,如包含E(X),D(X)的都不是统计量。 2、常用统计量:   一般在概率论中,将数学期望和方差等概念用‘矩’的概念描述。当n充分大时,有定理可以保证经验分布函数Fn(x)很靠近总体分布函数F(x)。所以,经验分布函数Fn(x)的各阶矩就反映了总体各阶矩的信息。通常把经验分布函数的各阶矩称为样本各阶矩。常用的样本各阶矩及其函数都是实际应用中的具体统计量。 2.1、样本均值 ,反映出总体X数学期望的信息。 2.2

1.1机器学习介绍上

て烟熏妆下的殇ゞ 提交于 2019-11-27 16:42:27
1. 课程介绍 2. 机器学习 (Machine Learning, ML) 2.1 概念:多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 2.2 学科定位:人工智能(Artificial Intelligence, AI)的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。 2.3 定义:探究和开发一系列算法来如何使计算机不需要通过外部明显的指示,而可以自己通过数据来学习,建模,并且利用建好的模型和新的输入来进行预测的学科。 Arthur Samuel (1959): 一门不需要通过外部程序指示而让计算机有能力自我学习的学科 Langley(1996) : “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能” Tom Michell (1997): “机器学习是对能通过经验自动改进的计算机算法的研究” 2.4: 学习:针对经验E (experience) 和一系列的任务 T (tasks) 和一定表现的衡量 P,如果随之经验E的积累,针对定义好的任务T可以提高表现P,就说计算机具有学习能力 例子: 下棋,语音识别,自动驾驶汽车等 3.

机器学习-KNN近邻算法

会有一股神秘感。 提交于 2019-11-27 15:29:15
参看文章: 《机器学习-周志华》 《机器学习实战-Peter Harrington》 《统计学习方法-李航》 算法介绍: k近邻学习是一种常用的 监督学习 方法,其工作机制如下,给定测试样本,基于某种距离度量( 曼哈顿距离、欧氏距离、切比雪夫距离、Lp距离、Minkowski距离 )找出训练集中与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测。 argmax(f(x))是使得 f(x)取得最大值所对应的变量点x 投票法: 在 分类 任务中使用,选择k个样本出现最多的类别标记作为预测结果 平均法: 在 回归 任务中使用,即将k个样本的实值输出标记的平均值作为预测结果 距离权重法: 称为k近邻算法的优化算法,为每个点的距离增加一个权重,使得距离近的点可以得到更大的权重,既可用于 加权平均又可用于加权投票。 优点: 1.理论成熟,思想简单,既可以用来做分类又可以做回归 2.训练时间复杂度为O(n);无数据输入假定; 3.可用于数值型数据和离散型数据; 4.对异常值不敏感 缺点: 1.计算复杂度高,因无显示的训练过程 2.对k值、距离敏感,不同k值与距离计算方法可能结果不同 3.无法给出任何数据的基础结构信息 最近邻分类器(k = 1) 错误率(暂未看懂) 实现方法: 1. kd树 2. 传统法 代码: 来源: https://www.cnblogs.com/Jacon

《机器学习实战》9.3树回归之模型树和项目案例

梦想的初衷 提交于 2019-11-27 13:41:28
《机器学习实战》9.3树回归之模型树和项目案例 搜索微信公众号:‘AI-ming3526’或者’计算机视觉这件小事’ 获取更多人工智能、机器学习干货 csdn:https://blog.csdn.net/baidu_31657889/ github:https://github.com/aimi-cn/AILearners 本文出现的所有代码,均可在github上下载,不妨来个Star把谢谢~: Github代码地址 一、引言 这一节我们来介绍模型树以及进行一个简单的树回归的项目实战 二、模型树 2.1 模型树简介 回归树的叶节点是常数值,而模型树的叶节点是一个回归方程。 用树来对数据建模,除了把叶节点简单地设定为常数值之外,还有一种方法是把叶节点设定为分段线性函数,这里所谓的 分段线性(piecewise linear) 是指模型由多个线性片段组成。 我们看一下图中的数据,如果使用两条直线拟合是否比使用一组常数来建模好呢?答案显而易见。可以设计两条分别从 0.0-0.3、从 0.3-1.0 的直线,于是就可以得到两个线性模型。因为数据集里的一部分数据(0.0-0.3)以某个线性模型建模,而另一部分数据(0.3-1.0)则以另一个线性模型建模,因此我们说采用了所谓的分段线性模型。 决策树相比于其他机器学习算法的优势之一在于结果更易理解。很显然

机器学习分类算法评价指标

半腔热情 提交于 2019-11-27 12:15:35
//2019.08.14 #机器学习算法评价分类结果 1、机器学习算法的评价指标一般有很多种, 对于回归问题一般有MAE,MSE,AMSE等指标 ,而对于分类算法的评价指标则更多: 准确度score,混淆矩阵、精准率、召回率以及ROC曲线、PR曲线 等。 2、对于分类算法只用准确率的评价指标是不够的,并且对于一些情况它是存在问题的, 对于极度偏斜的数据集(比如对于癌症的发生预测),准确度的评价指标是存在问题的 ,需要使用混淆矩阵进行进一步的分析。 3、 混淆矩阵(Confusion Matrix): 混淆矩阵的行数和列数一般是由分类算法的分类结果数目决定的, 对于n各分类结果,混淆矩阵是nxn的矩阵 ,行和列的索引就是n个分类结果,其中行代表真实值,而列代表的是预测值。 矩阵Axy每个网格里的值代表了真实值在x的情况下预测为y的数据样本个数。 图 4、根据混淆矩阵得到的矩阵结果,我们可以再次定义两个评价指标,称为 精准率precision和召回率recall ,其中 精准率precision=预测正确个数/预测总数,召回率recall=预测正确个数/真实所有个数 。 图 5、 精准率和召回率的算法评判指标的解读应该结合具体分析问题的方向和实际场景,不同的场景对于不同指标的侧重点是不一样的 。比如在股票预测里面我们更加注重精准率,我们更加注重预测结果的准确度

贾俊平统计学——概率

情到浓时终转凉″ 提交于 2019-11-27 11:12:11
统计学分为描述性统计和推断统计。推断统计是指通过样本数据对总体特征作出推断,它有3个要素:1.随机观测的样本数据;2.问题的条件和假定;3.对总体所做出的以概率的形式进行表述的推断。因此推断统计与概率论是密不可分的。 随机事件、基本事件、样本空间 随机事件 是概率论中一个很重要的概念,它不是指一个试验,而是指一个试验的 结果 ,可以用A、B、C等表示,必然事件用$\Omega$表示,不可能事件用$\Phi$表示。 随机事件简称为事件,要注意这一概念是指试验的结果(而不是试验本身),这个结果可以是数值,也可以用文字表述。 基本事件 是指不能分解成多个事件的随机事件。在一次试验中,虽然试验的结果有多种可能性,但一次试验的结果只能是所有结果中的一个,即只能发生一种基本事件。而试验的所有结果的总和,即所有基本事件的全体,称为 样本空间 ,记为$\Omega$(必然事件)。 随机事件的概率 上面说了一次试验的结果是有多种可能的,那么所有结果中,事件A(可能是基本事件,也可能是几个基本事件的组合)发生的可能性有多大?这个可能性就是事件A的 概率 ,记为$P(A)$,它显然是一个数值。概率有古典定义、统计定义、主观概率定义,我们重点关注统计定义。 概率的统计定义: 相同条件下,随机试验$n$次,事件A发成$m$次,比值$m\/n$称为事件A发生的频率;随着$n$的增大,该频率在一常数$p