统计学

机器学习基础系列--先验概率 后验概率 似然函数 最大似然估计(MLE) 最大后验概率(MAE) 以及贝叶斯公式的理解

♀尐吖头ヾ 提交于 2020-01-08 23:15:48
目录 机器学习基础 1. 概率和统计 2. 先验概率 3. 后验概率 4. 似然函数 5. 有趣的野史--贝叶斯和似然之争-最大似然概率(MLE)-最大后验概率(MAE)-贝叶斯公式 总结:先验概率 后验概率以及似然函数的关系 机器学习基础 1. 概率和统计 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。 顾名思义: 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。在实际研究中,也是通过观察数据,推测模型是高斯分布的、指数分布的、拉普拉斯分布的等,然后,可以进一步研究,推测模型参数。 一句话总结: 概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。 2. 先验概率 百度百科定义:先验概率(prior probability)是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现的概率。 维基百科定义: 在贝叶斯统计中,某一不确定量p的先验概率分布是在考虑"观测数据"前,能表达p不确定性的概率分布。 可以看到二者定义有一个共同点,即先验概率是不依靠观测数据的概率分布,也就是与其他因素独立的分布。所以可以用 \(P(θ)\) 表示。

机器学习实战(一)机器学习基础

混江龙づ霸主 提交于 2020-01-08 21:04:28
1.1 机器学习概念: 机器学习能让我们从数据集中受到启发,换句话说,我们会利用计算机来彰显数据背后的真实含义。 机器学习就是把无序的数据转换成有用的信息。 1.2 机器学习的主要任务: 大多数人都见过回归的例子——数据拟合曲线:通过给定数据点的最优拟合曲线。分类和回归属于监督学习(因为这类算法必须知道预测什么,即目标变量的分类信息)。 无监督学习中,将数据集合分成由类似的对象组成的多个类的过程被称为聚类;将寻找描述数据统计值的过程称之为密度估计。 1.3 使用机器学习算法的目的: 首先考虑使用机器学习算法的目的。如果是预测目标变量的值,可以选择监督学习算法,否则选择无监督学习算法。确定选择监督学习后,再判断目标变量的类型,离散型(如是/否,1/2/3,A/B/C或者红/黄/黑等),则可以选择分类算法;如果目标是连续型变量,如0.0~100.00、-999~999或者+∞~-∞等,则需要选择回归算法。 如果不想预测目标变量的值,则可以选择无监督学习算法,进一步分析是否需要将数据划分为离散的组,如果这是唯一的需求,则使用聚类算法;如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法。 1.4 开发机器学习应用程序的步骤: (1)收集数据 (2)准备输入数据(得到数据后,必须确保数据格式符合要求) (3)分析输入数据(人工分析以前得到的数据——是否为空值,异常值,) (4

01-机器学习基础

天涯浪子 提交于 2020-01-08 09:26:05
第1章 机器学习基础 机器学习 概述 机器学习(Machine Learning,ML) 是使用计算机来彰显数据背后的真实含义,它为了把无序的数据转换成有用的信息。是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。 海量的数据 获取有用的信息 机器学习 研究意义 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

第一章:机器学习基础

∥☆過路亽.° 提交于 2020-01-08 04:23:38
第一部分:分类 本书前两部分主要探讨监督学习(supervisedieaming)。在监督学习的过程中,我们只需要给定 输入样本集 ,机器就可以从中推演出指定 目标变量 的可能结果。监督学习相对比较简单,机器只需从输入数据中 预测合适的模型 ,并从中 计算出目标变量的结果 。 监督学习一般使用两种类型的目标变量:标称型和数值型。标称型目标变量的结果只在有限目标集中取值,如真与假、动物分类集合{爬行类、鱼类、哺乳类、两栖类、植物、真菌};数值型目标变量则可以从无限的数值集合中取值,如0.100、42.001、000.743等。 数值型目标变量主要用于回归分析 ,将在本书的第二部分研究, 第一部分主要介绍分类 。 本书的前七章主要研究分类算法,第2 章讲述最简单的分类算法:k-近邻算法,它使用距离矩阵进行分类;第3 章引入了决策树,它比较直观,容易理解,但是相对难于实现;第4 章将讨论如何使用概率论建立分类器;第5 章将讨论Logistic 回归,如何使用最优参数正确地分类原始数据,在搜索最优参数的过程中,将使用几个经常用到的优化算法;第6 章介绍了非常流行的支持向量机;第一部分最后的第7 章将介绍元算法— AdaBoost, 它由若干个分类器构成,此外还总结了第一部分探讨的分类算法在实际使用中可能面对的非均衡分类问题,一旦训练样本某个分类的数据多于其他分类的数据

快速读懂机器学习(附送详细学习资源)

巧了我就是萌 提交于 2020-01-08 00:17:13
前言:   机器学习作为人工智能中的伟大分支,让我们先来聊聊人工智能把。现在人工智能已经非常普遍了,从之前的阿尔法狗到现在中国人工智能机器人解答北京高考数学卷 考了105分。以及2017.6.6的苹果WWDC大会上宣布开发机器学习API,苹果想通过借此之举,让更过苹果开发者用户开发出更过用户体验好的应用,人工智能的例子真是数不胜数,已经渗透到我们生活的各方各面,比较常见的比如金融以及医疗,而且之前看了一篇文章这样评价金融业:随着人工智能的发展与普遍,以后金融业对求职者的要求需要掌握人工智能相关知识来通过测试。好言归正传,我们来聊聊机器学习吧! 1. 什么是机器学习?   机器学习是人工智能的一个分支。人工智能的研究是从以“推理”为重点到以“知识”为重点,再到以“学习”为重点,一条自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题. 简单来说就是机器通过分析大量数据来进行学习。 比如说,不需要通过编程来识别猫或人脸,它们可以通过使用图片来进行训练,从而归纳和识别特定的目标。 2. 机器学习主要涉及知识以及应用范围   机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律

机器学习算法—KNN算法原理

人走茶凉 提交于 2020-01-07 02:49:50
机器学习算法—KNN算法原理 概述: KNN算法一般也会经常被称为K邻近算法,其核心思想是根据训练集中的样本分类计算测试集中样本与训练集中所有样本的距离,根据所设定的K值选取前K个测试样本与训练样本最近的结果,结果中大多数训练样本所处在的类别即是本测试样本的类别。因训练样本的分类结果为已知因此KNN算法属于有监督学习算法。 算法原理: 1、以下图样本散点图展示训练集的整体分布情况 从散点图中可以发现训练集的数据分类数量为3个类别,分别为蓝色类别、红色类别和黄色类别,训练样本总数为15个。 2、导入第一个测试样本 3、需要根据已知的训练样本分类结果判断测试样本的类别,因此计算测试样本与所有训练样本的距离 因训练样本数量为15,所以计算完成的距离参数为15个。 4、K值是KNN算法中唯一需要设定的参数,假定K值为3则在15个距离参数中选择最近的3个 统计3个距离中大部分训练样本所处的分类即为本测试样本的分类,本次分类中距离最近的3个训练样本有2个属于红色类别,因此本测试样本被分类为红色 5、对下一个测试样本以相同方式进行距离计算和分类 注意事项: 1、K的取值尽量为奇数以确保距离计算结果必定会有一个K个距离中包括较多的类别,比如例子中取3,则3个中有2个训练样本为红色类别以此判断测试样本属于红色类别。如K取4产生下图中的情况 4个距离参数中,2个训练样本为红色类别

概率论与数理统计教学内容

≡放荡痞女 提交于 2020-01-05 22:09:13
概率论部分 Chapter 1: 随机事件及其概率 1 随机试验;样本点;样本空间 2 随机事件, 必然事件, 不可能事件, 互不相容事件, 对立事件;随机事件的关系及运算 3 概率的定义 4 概率的性质:有限可加性,减法公式,加法公式,及推论 5 条件概率及乘法公式 6 两个事件相互独立的定义及性质;多个事件相互独立的定义及性质 7 伯努利概率模型 8 全概率公式 9 贝叶斯公式 Chapter 2: 随机变量及其分布 1 随机变量;离散型随机变量;连续型随机变量 2 分布函数及性质 3 离散型随机变量的分布率及性质;连续性随机变量的概率密度函数及性质 4 常见的离散型随机变量的分布:0-1 分布;二项分布;泊松分布 5 常见的连续型随机变量的分布: 均匀分布;指数分布;正态分布 6 随机变量的函数的分布: 离散型随机变量函数的分布;连续型随机变量函数的分布(分布函数法和公式法) Chapter 3: 数字特征 1 数学期望;离散型随机变量的期望;连续型随机变量的期望;随机变量的函数的期望 2 数学期望的性质 3 方差;标准差 4 方差的性质 5 变异系数(注:不是很重要) 6 常见随机变量的期望和方差: 两点分布的期望和方差;泊松分布的期望和方差;均匀分布的期望和方差;指数分布的期望和方差;正态分布的期望和方差 Chapter 4 : 随机向量(或称多维随机变量)及其分布 1

快速读懂机器学习(附送详细学习资源)

主宰稳场 提交于 2020-01-04 09:19:14
前言:   机器学习作为人工智能中的伟大分支,让我们先来聊聊人工智能把。现在人工智能已经非常普遍了,从之前的阿尔法狗到现在中国人工智能机器人解答北京高考数学卷 考了105分。以及2017.6.6的苹果WWDC大会上宣布开发机器学习API,苹果想通过借此之举,让更过苹果开发者用户开发出更过用户体验好的应用,人工智能的例子真是数不胜数,已经渗透到我们生活的各方各面,比较常见的比如金融以及医疗,而且之前看了一篇文章这样评价金融业:随着人工智能的发展与普遍,以后金融业对求职者的要求需要掌握人工智能相关知识来通过测试。好言归正传,我们来聊聊机器学习吧! 1. 什么是机器学习?   机器学习是人工智能的一个分支。人工智能的研究是从以“推理”为重点到以“知识”为重点,再到以“学习”为重点,一条自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题. 简单来说就是机器通过分析大量数据来进行学习。 比如说,不需要通过编程来识别猫或人脸,它们可以通过使用图片来进行训练,从而归纳和识别特定的目标。 2. 机器学习主要涉及知识以及应用范围   机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律

机器学习实战笔记-1-机器学习基础

Deadly 提交于 2020-01-04 09:08:22
# 机器学习基础 监督学习简介 监督学习的两个任务: 分类 和 回归分析 (预测数值型数据)。 分类思路 分类方法思路: 这个表至关重要,叫做特征向量表 特征1 特征2 … 目的变量(类别) 实例1 … … … … 实例2 … … … … … … … … … 如上表,分类思路如下: 找到输入采样集中的特征(属性)-用你的大脑 给各特征一个值,并确定该值的类型(十进制,二值型,枚举型) 根据特征值进行分类: 算法训练(如何分类): 用大量的已分类数据(其目标变量的值已给出)组成的训练集进行训练,该训练集由若干个训练样本构成,每个训练样本是一个实例 测试样本(不提供目标变量) 比较目标变量的预测值和实际样本的目标变量值,计算得到算法的精确度。 监督学习的另一个任务是回归分析。 无监督学习简介 无目标变量(无类别信息),其主要任务有: 聚类:将数据集合分成由类似的对象组成的多个类的过程; 密度估计:寻找描述数据统计值的过程 减少数据特征的维度,方便用2/3维图形直观展示数据信息 机器学习算法的主要用途总结 监督学习的用途 k-近邻算法 朴素贝叶斯算法 支持向量机 决策树 线性回归 局部加权线性回归 Ridge回归 Lasso最小回归系数估计 其中深橙色表示分类算法,浅蓝色表示回归分析算法。 无监督学习的用途 k-均值 最大期望算法 DBSCAN Parzen窗设计

机器学习和统计学习的交锋

不问归期 提交于 2020-01-04 08:46:23
转载自:https://zhuanlan.zhihu.com/p/43360613 机器学习≠数据统计 「融资的时候, 我们讲人工智能 ;找工作的时候,我们说深度学习;但做项目的时候,我们讲 logistic 回归。」 ——推特上每个人都这么说   这篇文章的主题是,机器学习不仅是对数据统计的再包装——这一领域有更大型的计算机和更好听的名字。这个概念来源于统计学的概念和术语,这些概念和术语在机器学习中非常常见,像回归、权重、偏置、模型等等。此外,很多模型近似统计函数:分类模型的 softmax 输出由 logits 组成,使得图像分类器的训练过程成为 logistic 回归。 尽管这种思路在技术层面是对的,但将机器学习作为一个整体看作只是统计学的一个分支还为时过早。这种比较没有什么意义。统计学是处理数据和解释数据的数学领域。机器学习只不过是一种计算算法(诞生于计算机科学)。很多情况下,这些算法在帮助理解数据方面毫无用处,只能帮助某些类型的不可理解的预测建模。例如在强化学习中,算法可能都不会使用已有的数据集。另外,在图像处理中,将图像视为以像素为特征的数据集,从一开始就有点牵强。   问题的关键当然不在于这个荣誉应该属于计算科学家还是属于统计学家;就像其它领域一样,能取得今天的成功是各个学术学科的功劳,其中当然包括统计学和数学。然而,为了正确评估机器学习方法的巨大影响力和潜力