统计学

Machine Learning-A Probabilistic Perspective笔记——第一章 INTRODUCTION

一个人想着一个人 提交于 2020-01-02 20:40:31
Machine Learning-A Probabilistic Perspective笔记 MLAPP是统计机器学习领域内一本经典著作。就兴起先后顺序来说,统计机器学习较如今大火的深度学习神经网络更久远,不同于神经网络作为一个端到端的系统,将输入到输出过程看做一个黑匣子,统计机器学习更多地从概率论和数理统计角度诠释数据,可解释性更强。 关于这本书,有类似的博客: 参考博客 上述博客的博主写得很详尽,其初衷和经历亦与我类似,于是我决定在其上进行自己的补充。 MLAPP——第一章 Introduction We are drowning in information and starving for knowledge.——John Naisbitt 第一章概述机器学习的一些基本概念。要点如下: 监督学习与无监督学习 分类与回归 机器学习应用举例 参数模型和非参数模型 在统计学中,参数模型通常假设总体(随机变量)服从某一个分布,该分布由一些参数确定(比如正太分布由均值和方差确定),在此基础上构建的模型称为参数模型;非参数模型对于总体的分布不做任何假设,只是知道总体是一个随机变量,其分布是存在的(分布中也可能存在参数),但是无法知道其分布的形式,更不知道分布的相关参数,只有在给定一些样本的条件下,能够依据非参数统计的方法进行推断。 从上述的区别中可以看出,问题中有没有参数

统计与机器学习 | Statistics & Machine Learning

会有一股神秘感。 提交于 2020-01-02 07:59:12
统计是什么?机器学习是什么?他们有什么关系? 在本科酒店管理专业有门统计学课,学完后我知道统计是小学数学就学的平均数,是做人口统计等工作时采用的抽样调查;很幸运地,后来我对数据感兴趣后,在研究生课程里又学了一遍统计(是结合概率论一起学的,作为学习机器学习算法的入门课),这时候引入的概念多了起来,还和概率论纠缠不清,包括随机数,各种分布,假设检验,置信区间。总结概括,其最核心、有挑战性、最有趣的就是 --- 用’样本‘推导’总体‘特征。 围绕着这句话扩展仿佛就是给自己打开了一扇新世界的大门。其实,机器学习领域的人知道这个就是机器学习算法的“最终”目的,用机器学习语言表述为 --- 用数据(历史数据,已有数据,抽样数据)来预测结果。如果有时间维度的话很可以是forecast未来的结果。 剩下的就是怎么达成这个目标呢?统计上,会有假设,假设总体的分布(就是事物的特征,这里区别与机器学习的特征,那是multivariate的情况了),比如满足平均值是M的正态分布或者概率是p的伯努利分布。 之所以可以假设,是因为我们对事物的性质有基本的判断,例如上海人的身高是符合正态分布,即大多数人都在胡歌的水平线,姚明(太高),那个谁(上海有名的矮个子我还真不知道~)这些属于少数。 之所以要假设,是为了利用前人总结出来的规律让我们的问题变简单,例如当假设身高符合正态分布后,我们就可以用正态分布的函数

我的书单(2019)

隐身守侯 提交于 2019-12-30 05:12:22
分类 书名 概要 读后感 推荐指数 效率 极简思考 提出 结构化思维 概念,帮助提高方案通过率。 对于设计方案具有一定的参考价值,可以借鉴。 *** 深度思考 微服务 微服务设计 从微服务的各个角度阐述如何设计微服务。 微服务理论教材,入手微服务入门。 *** 生产微服务 从生产的角度讲述如何构建一个标准化的微服务体系。 讲述了微服务的一套标准化,企业应用微服务借鉴。 ***** 机器学习 工程数学线性代数 线性代数基础教材 机器学习基础的一部分。 *** 概率论与数理统计 概率、统计相关知识的基础教材 机器学习基础的一部分,与机器学习贴合较为紧密。 **** 机器学习-周志华 机器学习理论教材,介绍了各种模型和算法。 比较好的机器学习入门教材。 ***** 统计学习方法-李航 机器学习理论教材,介绍了各种模型和算法。 与【机器学习-周志华】讲述内容差不多,没有周讲的全面。 *** Python机器学习 机器学习实战 Python自然语言处理实战:核心技术与算法 知识图谱完整项目实战 知识图谱实战案例完全剖析 知识图谱导论 《知识图谱》 神经网络与深度学习 业务  全面实施预算绩效管理专业基础 来源: https://www.cnblogs.com/havery/p/10894587.html

人工智能和机器学习的前世今生

折月煮酒 提交于 2019-12-30 03:27:02
https://www.jianshu.com/p/8506cd0dd90f 摘要: 阅读本文以了解更多关于人工智能、机器学习和深度学习方面的知识,以及它们对商业化意味着什么。 如果正确的利用模式识别进行商业预测和决策,那么会为企业带来巨大的利益。机器学习(ML)研究这些模式,并将人类决策过程编码成算法。这些算法可以被应用到几个实例以得出有意义的结论。在这篇文章中,我们将了解一些机器学习的基础、工作原理及特点。 举例来了解机器学习 经研究预测,截至到2020年,企业采用机器学习、人工智能和深度学习、物联网(IOT)以及大数据将从他们那些不太知情的同行那里带走超过1兆2000亿美元。 数据是机器学习的关键。算法从一定数量的数据中学习,然后应用这种学习来做出明智的决策。Netflix有一个很好的关于下一个你想看的节目的想法,Facebook可以在照片中识别你和你的朋友,这要感谢机器学习.。 机器学习是关于自动执行任务的,它的应用跨越了广泛的行业领域。数据安全公司可以使用机器学习来追踪恶意软件,而金融公司可以使用它来增强其盈利能力这里有个例子,让我们考虑一个手电筒,无论什么时候,当“黑暗”一词出现在一个短语中的时候,它就会被程序打开。我们将使用的几个短语作为关于手电筒的机器学习算法的输入数据。 用程序语言来表达机器学习 为了解决业务的复杂性,并带来机器学习的技术创新

机器学习各种距离优缺点

两盒软妹~` 提交于 2019-12-28 00:07:46
1 欧式距离 欧氏距离(Euclidean distance)也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。在二维和三维空间中的欧氏距离的就是两点之间的距离。 **缺点:**就大部分统计问题而言,欧氏距离是不能令人满意的。(每个坐标对欧氏距离的贡献是同等的。当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。它将样品的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求。没有考虑到总体变异对距离远近的影响。 2 曼哈顿距离 曼哈顿距离是由十九世纪的赫尔曼·闵可夫斯基所创词汇,是种使用在几何度量空间的几何学用语,用以标明两个点在标准坐标系上的绝对轴距总和 图中红线代表曼哈顿距离,绿色代表欧氏距离,也就是直线距离,而蓝色和黄色代表等价的曼哈顿距离。高纬度曼哈顿距离计算公式如下. 曼哈顿距离的一个优点是计算速度快 他的应用例如在西洋棋盘当中. 3 切比雪夫距离 两个高维度向量中,每个维度之差绝对值的最大值.例如两个i维的向量 x 1 ( x 11 , x 12 . . . . x 1 n ) , x 2 ( x 21 , x 22 , . . . x 2

贝叶斯决策理论(1)

蹲街弑〆低调 提交于 2019-12-26 18:11:41
  数据来自于一个不完全清楚的过程。以投掷硬币为例,严格意义上讲,我们无法预测任意一次投硬币的结果是正面还是反面,只能谈论正面或反面出现的概率。在投掷过程中有大量会影响结果的不可观测的变量,比如投掷的姿势、力度、方向,甚至风速和地面的材质都会影响结果。也许这些变量实际上是可以观测的,但我们对这些变量对结果的影响缺乏必要的认知,所以退而求其次,把投掷硬币作为一个随机过程来建模,并用概率理论对其进行分析。      概率有时也被解释为频率或可信度,但是在日常生活中,人们讨论的概率经常包含着主观的因素,并不总是能等同于频率或可信度。比如有人分析中国足球队打进下次世界杯的概率是10%,并不是说出现的频率是10%,因为下次比赛还没有开始。我们实际上是说这个结果出现的可能性,由于是主观的,因此不同的人将给出不同的概率。   在数学上,概率研究的是随机现象背后的客观规律。我们对随机没有兴趣,感兴趣的是通过大量随机试验总结出的数学模型。当某个试验可以在完全相同的条件下不断重复时,对于任意事件E(试验的可能结果的集合,事件是集合,不是动作),结果在出现在E中的次数占比趋近于某个常量,这个常数极限是事件E的概率,用P(E)表示。   我们需要对现实世界建模,将现实世界的动作映射为函数,动作结果映射为数。比如把投硬币看作f(z),z是影响结果的一系列不可观测的变量,x 表示投硬币的结果,x = f(z)

统计学

妖精的绣舞 提交于 2019-12-26 11:38:40
“You can, for example, nerve foretell what any one man will do, but you can say with precision what an average number will be up to. Individuals vary, but percentages remain constant. So says the statistician ” “通常我们无法预测某个人在未来某一时刻的行为,但是却能够准确地说出大多数人在这一时刻的行为.个体可能变化,然而总的可能性不变—这就是统计学。” 夏洛克·福尔摩斯 《四签名》 来源: CSDN 作者: 切糕好不好吃 链接: https://blog.csdn.net/m0_45204938/article/details/103708595

【机器学习】(二)模型评估与选择

↘锁芯ラ 提交于 2019-12-26 09:30:05
误差与过拟合 误差 假设m个样本中有a个样本分类错误 错误率(error rate):分类错误的样本数占样本总数的比例,E=a/m 精度(accuracy):分类正确的样本数占样本总数的比例,1-a/m 精度=1-错误率 误差(error):学习器的实际预测输出与样本的真实输出之间的差异 学习器在训练集上的误差称为 训练误差 (training error)/ 经验误差 (empirical error) 学习器在新样本上的误差称为 泛化误差 (generalization error) 机器学习的目标是得到泛化误差小的学习器,但是实际能做的是努力使经验误差最小化 过拟合与欠拟合 当学习器把训练样本学得太好的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。这种现象在机器学习中称为 过拟合 (overfitting)。与过拟合相对的是 欠拟合 (underfitting),这是指对训练样本的一般性质尚未学好。 过拟合是机器学习中的 关键障碍 评估方法 通常,通过实验测试来对学习器的泛化误差进行评估。为此,需使用一个 测试集 (testing set)来测试学习器对新样本的判别能力,然后以测试集上的 测试误差 (testing error)作为泛化误差的近似。 通常我们假设测试样本也是从样本真实分布中独立同分布采样而得

机器学习基石 1 The Learning Problem

百般思念 提交于 2019-12-23 14:46:42
机器学习基石 1 The Learning Problem Introduction 什么是机器学习 机器学习是计算机通过数据和计算获得一定技巧的过程。 为什么需要机器学习 1 人无法获取数据或者数据信息量特别大; 2 人的处理满足不了需求。 使用机器学习的三个关键要素 1 存在一个模式可以让我们对它进行改进; 2 规则不容易定义; 3 需要有数据。 Components of Machine Learning Machine Learning and Other Fields ML VS DM 两者密不可分: 两者是一致的 能够找出的有用信息就是我们要求得的近似目标函数的假设。 两者是互助的 能够找出的有用信息就能帮助我们找出近似的假设,反之也可行。 两者的区别 传统的数据挖掘更关注与从大量的数据中的计算问题。 ML VS AI 机器学习是实现人工智能的一种方式。 ML VS Statistic 统计是一种实现机器学习的方法。 传统的统计学习更关注与数学公式,而非计算本身。 来源: https://www.cnblogs.com/eathen/p/6489248.html

2019-12-6[鞠明辰]SPSS统计学课后总结

你。 提交于 2019-12-23 00:53:27
1.由于均值过程只对第一层的自变进行方差分析和线性相关检验,因此两个因素或者两个以上因素的均值分析过程的方差分析结果和单因素一样,不同的是描述性统计最多因素的描述性统计量是对于各个交叉组别进行统计。 2.t检验的适用条件:①样本来自正态总体或近似正态总体,②两个样本总体方差相等,即具有方差齐性(在实际应用时,如与上述条件各有偏离,对结果亦不会有太大影响)。③两组样本应相互独立。 3.单样本T检验即检验某个变量的总体均值和某指定值之间是否存在这显著性差异。如果是大样本的单样本检验,统计教科书上称为U检验,采用服从正态分布的U统计量作为检验统计量。如果是小样本并且服从正态分布则采用服从t分布的统计量进行单样本的T检验;否则,采用非参数检验。T检验稳健性较好,如果样本分布偏离正态分布不太严重,也可采用T检验。1 来源: https://www.cnblogs.com/jumingchen/p/11999719.html