统计学

林轩田机器学习基石笔记1—The Learning Problem

北城以北 提交于 2019-11-29 04:25:12
机器学习分为四步: When Can Machine Learn? Why Can Machine Learn? How Can Machine Learn? How Can Machine Learn Better? 一、What is Machine Learning Q:什么是“学习”? A:学习就是人类通过观察、积累经验,掌握某项技能或能力。就好像我们从小学习识别字母、认识汉字,就是学习的过程。 机器学习(Machine Learning),顾名思义,就是让机器(计算机)也能向人类一样,通过观察大量的数据和训练,发现事物规律,获得某种分析问题、解决问题的能力。 机器学习可以被定义为:Improving some performance measure with experence computed from data. 也就是机器从数据中总结经验,从数据中找出某种规律或者模型,并用它来解决实际问题。 机器学习应用场合大致可归纳为三个条件: 事物本身存在某种潜在规律 某些问题难以使用普通编程解决 有大量的数据样本可供使用 二、Applications of Machine Learning 机器学习在我们的衣、食、住、行、教育、娱乐等各个方面都有着广泛的应用,我们的生活处处都离不开机器学习。 1)Food data:网上的餐厅信息(位置,评价) skill

机器学习和python学习之路技术书从入门到进阶pdf版附网盘链接(珍藏版)

寵の児 提交于 2019-11-28 20:09:44
转载自某大佬博客: https://pymlovelyq.github.io/2018/10/15/machineLearning/ “机器学习/深度学习并不需要很多数学基础!”也许你在不同的地方听过不少类似这样的说法。对于鼓励数学基础不好的同学入坑机器学习来说,这句话是挺不错的。不过,机器学习理论是与统计学、概率论、计算机科学、算法等方面交叉的领域,对这些技术有一个全面的数学理解对理解算法的内部工作机制、获取好的结果是有必要的。机器学习确实需要对一些数学领域有深入理解,缺乏必要的数学知识,很可能在更深入的学习中不断遇到挫折,甚至导致放弃。 说的很多小伙伴恐怕心都凉了一半,或者已经开始打退堂鼓了。不要紧,山人自有妙法。下面就给大家分享一下,主要是一些资源(书籍或者视频课程)。人工智能(机器学习或数据挖掘等)中最最重要的数学就是线性代数与概率论(还有其他,但这两者比重最大)。 所以我找了个书单自学,电子书为主,顺便分享出来。使用电子书的形式是因为,个人偏好。即使我买了实体书,一旦找到了电子书,我马上就会把纸质书扔到床底下。如果侵犯了任何人的权益,烦请及时通知。 前言:技术书阅读方法论 一.速读一遍(最好在1~2天内完成) 人的大脑记忆力有限,在一天内快速看完一本书会在大脑里留下深刻印象,对于之后复习以及总结都会有特别好的作用。 对于每一章的知识,先阅读标题,弄懂大概讲的是什么主题

机器学习笔试知识点

痴心易碎 提交于 2019-11-28 15:14:56
Q1. 在回归模型中,下列哪一项在权衡欠拟合(under-fitting)和过拟合(over-fitting)中影响最大? ¶ A. 多项式阶数 B. 更新权重 w 时,使用的是矩阵求逆还是梯度下降 C. 使用常数项 答案:A 解析:选择合适的多项式阶数非常重要。如果阶数过大,模型就会更加复杂,容易发生过拟合;如果阶数较小,模型就会过于简单,容易发生欠拟合。如果有对过拟合和欠拟合概念不清楚的,见下图所示: Q2. 假设你有以下数据:输入和输出都只有一个变量。使用线性回归模型(y=wx+b)来拟合数据。那么使用留一法(Leave-One Out)交叉验证得到的均方误差是多少? A. 10/27 B. 39/27 C. 49/27 D. 55/27 答案:C 解析:留一法,简单来说就是假设有 N 个样本,将每一个样本作为测试样本,其它 N-1 个样本作为训练样本。这样得到 N 个分类器,N 个测试结果。用这 N个结果的平均值来衡量模型的性能。 对于该题,我们先画出 3 个样本点的坐标: 使用两个点进行线性拟合,分成三种情况,如下图所示: 第一种情况下,回归模型是 y = 2,误差 E1 = 1。 第二种情况下,回归模型是 y = -x + 4,误差 E2 = 2。 第三种情况下,回归模型是 y = -1/3x + 2,误差 E3 = 2/3。 则总的均方误差为: M S E = 1 3

概率论概念总结

你。 提交于 2019-11-28 13:52:42
随机变量   何谓随机变量?即给定样本空间 ,其上的实值函数 称为(实值)随机变量。 期望   离散随机变量的一切可能值与其对应的概率P的乘积之和称为数学 期望 方差   一个随机变量的方差(Variance)描述的是它的离散程度,也就是该变量离其期望值的距离 协方差   在概率论和统计学中用于衡量两个变量的总体误差。而 方差 是 协方差 的一种特殊情况,即当两个变量是相同的情况。 相关系数   衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1]。相关系数的绝对值越大,则表明X与Y相关度越高。当X与Y线性 时,   相关系数取值为1(正线性相关)或-1(负线性相关)。 中心极限定理  心极限定理说明,在适当的条件下,大量相互独立 随机变量 的均值经适当标准化后 依分布收敛 于 正态分布 。这组定理是 数理统计学 和误差分析的理   论基础,指出了大量随机变量之和近似服从正态分布的条件。并且呈正态分布。 贝叶斯公式    P ( h ∣ D ) = P ( h ) P ( D ∣ h )/ P ( D ) ​    贝叶斯定理 是关于随机事件A和B的条件概率的一则定理。其中P是在B发生的情况下A发生的可能性 ,把x关于y的后验概率,转换成了y关于x的后验概率和先验概率,简单说,把不好计算的条件概率转换为好计算的条件概率 全概率公式 设实验E的样本空间为S

机器学习算法推导

别说谁变了你拦得住时间么 提交于 2019-11-28 09:45:17
心血来潮,想将所学到的知识写篇博客,作者所研究的方向为机器学习,刚学习的时候,走了很多弯路,看的书不少,在推导机器学习一些算法时候遇到了不少困难,查了不少资料,在刚才学的时候,有很多公式推导起来很困难,或者说大多数人都会遇到这样的问题,本博客目的就是解决在机器学习公式推导过程中遇到的问题。 关于机器学习的参考书,周志华的机器学习,李航的统计学习方法,及国外的PRML都是不错的阅读材料。还有Andrew Ng的网上课程。相关链接在本博客最后。 本博客以周志华机器学习为背景,在阅读中,不断抛出疑问,然后在博客中一一解答。 一. 线性模型及其核化 1.1 线性模型 解答 1.为什么要用均方误差呢? 2.公式3.10的推导。 3.当X^TX不是满秩的情况下,w如何确定 4.怎么样去核化 下面为大家共享出一些资料。 参考资料: [1] 机器学习周志华 [2] 矩阵分析与应用 [3] 统计学习方法 [4] 机器学习导论 https://pan.baidu.com/s/1c0Jo8e 密码:41ib 来源: CSDN 作者: 猪先生1994 链接: https://blog.csdn.net/qq_19645269/article/details/78127785

7天入门机器学习总结

人走茶凉 提交于 2019-11-28 09:44:39
初识机器学习 机器学习的概念 机器学习是一种从数据当中发现复杂规律,并且利用规律对未来时刻、未知状况进行预测和判定的方法。机器学习是一种从数据当中发现复杂规律,并且利用规律对未来时刻、未知状况进行预测和判定的方法。 机器学习的类型 按学习方式分为三大类 监督学习(Supervised learning):从给定的训练数据集(历史数据)中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集需要包括输入和输出,也可以说是特征和目标/Label。训练集中的目标是由人标注的。 非监督学习(Unsupervised learning):与监督学习相比,输入的数据没有人为标注的结果,模型需要对数据的结构和数值进行归纳。 强化学习(Reinforcement learning):输入数据可以刺激模型并且使模型做出反应。反馈不仅从监督学习的学习过程中得到,还从环境中的奖励或惩罚中得到。 机器学习的一般过程 机器学习是一个由数据建立模型的过程。 首先是对训练数据进行数据处理,选择算法进行建模和和评估,再对算法进行调优,最后得到一个模型。 数据处理到算法调优这个过程是一个不断完善、循环往复的过程,这个过程相当于做实验,直到得出一个在接受度范围内的模型,但是这个过程是可以被一些先验经验指导的,需要识别问题、识别场景、算法原理掌握等等。 机器学习中的数据处理 样本级数据处理

机器学习实践应用

淺唱寂寞╮ 提交于 2019-11-28 09:43:55
内容简介 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度等多门学科,专门研究计算机怎样模拟或实现人类的学习行为。机器学习是人工智能的核心,是使计算机具有 智能的根本途径。 本书通过对机器学习的背景知识、算法流程、相关工具、实践案例以及知识图谱等内容的讲解,全面介绍了机器学习的理论基础和实践应用。书中涉及机器学习领域的多个典型算法,并详细给出了机器学习的算法流程。 本书适合任何有一定数据功底和编程基础的读者阅读。通过阅读本书,读者不仅可以了解机器学习的理论基础,也可以参照一些典型的应用案例拓展自己的专业技能。同时,本书也适合计算机相关专业的学生以及对人工智能和机器学习感兴趣的读者阅读。 通过阅读本书,你将了解到: 机器学习全流程的串联方式,包括数据预处理、特征工程、算法、模型评估等; 最常用的机器学习算法,包括逻辑回归、随机森林、支持向量机、KMEANS、DBSCAN、K 近邻、马尔科夫决策、LDA、标签传播等; 机器学习算法在实际业务中的应用,涉及金融、医疗、新闻、电商等诸多领域; 机器学习的常用工具:R、Spark-MLib、TensorFlow、PAI 等; 时下最热门的技术领域:深度学习、知识图谱等。 作者简介 李博,花名“傲海”。目前任阿里云数据产品经理,主要负责机器学习平台的产品化建设以及对外业务应用。本科、硕士毕业于北京邮电大学

对于机器学习初学者,三本书带你进入机器学习!

此生再无相见时 提交于 2019-11-28 09:43:32
人工智能包括机器学习、深度学习、神经网络,想要入行机器学习,这几本书籍可以带你进入机器学习: 机器学习导论:这本书系统全面,既可以自学又可以作为研究参圪,既道出了机器学习的前世今生,又展望了未来的发展,让道听途说的信息止于智者,本书主题包括贝叶斯分类器、近邻分类器、线性和多项式分类器、决策树、神经网络以及支持向量机。 图解机器学习:用丰富的图示,从最小二乘法出发,对基于最小二乘法实现的各种机器学习算法进行了详细的介绍。 机器学习实战:通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效的可复用Python代码来阐释如何处理统计数据,进行数据分析及可视化。 机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存、谋发展的决定性手段,这使得分析师和数据科学家,越来越为人们所瞩目!   人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文: 1.四大机器学习编程语言对比:R、Python、MATLAB、Octave http://www.duozhishidai.com/article-16728-1.html 2.机器学习已经被广泛应用,但是入行机器学习主要难在哪里 http://www.duozhishidai

机器学习简介

我是研究僧i 提交于 2019-11-28 09:41:56
主要内容 • 机器学习的概念 • 机器学习主要分类 • 监督 学习 三要素 • 监督学习模型评估策略 • 监督学习模型求解算法 一、机器学习的概念 • 机器学习 是什么 • 机器学习的开端 • 机器学习的定义 • 机器学习的过程 • 机器学习示例 机器学习是什么 • 什么是学习 – 从人的学习说起 – 学习理论 ;从实践经验中 总结 – 在理论上推导;在实践中检验 – 通过各种手段获取知识或技能的过程 • 机器怎么学习? – 处理某个特定的任务,以大量的“经验”为基础 – 对任务完成的好坏,给予一定的评判标准 – 通过分析经验数据,任务完成得更好了 机器学习的定义 • 机器学习 (Machine Learning, ML) 主要研究 计算机系统 对于特定任务的性能, 逐步 进行 改善的算法和统计模型 。 • 通过输入海量训练数据对模型进行训练,使模型掌握数据所蕴含的潜在规律,进而对新输入的数据进行准确的分类或预测 。 • 是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸优化、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 机器学习的过程 二 、机器学习的分类 • 机器学习的主要分类 • 无监督学习 • 无监督学习应用 • 监督学习 • 监督学习应用 机器学习主要分类 • 有监督学习