统计学

什么是机器学习

走远了吗. 提交于 2020-01-18 20:28:32
原文链接: https://www.cnblogs.com/lsgsanxiao/p/6955502.html 机器学习入门好文,强烈推荐(转) 转自 飞鸟各投林 史上最强----机器学习经典总结---入门必读----心血总结-----回味无穷 让我们从机器学习谈起 导读:在本篇文章中,将对 机器学习 做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。当然,本文也面对一般读者,不会对阅读有相关的前提要求。 在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢? 我并不直接回答这个问题前。相反,我想请大家看两张图,下图是图一: 图1 机器学习界的执牛耳者与互联网界的大鳄的联姻 这幅图上上的三人是当今机器学习界的执牛耳者。中间的是Geoffrey Hinton, 加拿大多伦多大学的教授,如今被聘为“Google大脑”的负责人。右边的是Yann LeCun, 纽约大学教授,如今是Facebook人工 智能 实验室的主任。而左边的大家都很熟悉,Andrew Ng,中文名吴恩达,斯坦福大学副教授,如今也是“百度大脑”的负责人与百度首席科学家。这三位都是目前业界炙手可热的大牛,被互联网界大鳄求贤若渴的聘请,足见他们的重要性。而他们的研究方向,则全部都是机器学习的子类-- 深度学习 。 下图是图二: 图2

机器学习中数据预处理方法

眉间皱痕 提交于 2020-01-17 05:15:06
在知乎上也看到了这个,不知道哪个是原创,这里粘上链接 https://zhuanlan.zhihu.com/p/51131210 前言 数据预处理的重要性? 熟悉数据挖掘和机器学习的小伙伴们都知道, 数据处理相关的工作时间占据了整个项目的70%以上 。 数据的质量,直接决定了模型的预测和泛化能力的好坏 。它涉及很多因素,包括:准确性、完整性、一致性、时效性、可信性和解释性。而在真实数据中,我们拿到的数据可能包含了大量的缺失值,大量的噪声,也可能因为人工录入的错误数据导致有异常点存在,非常不利于算法模型的训练。 数据清洗的结果是对各种脏数据进行对应方式的处理,得到标准的、干净的、连续的数据,提供给数据统计、数据挖掘等使用 。 常见的数据预处理的方法有哪些? 数据预处理的主要步骤分为: 数据清理、数据集成、数据规约和数据变换 。本文将从这四个方面详细的介绍具体的方法。如果在一个项目中,你在这几个方面的数据处理做的都很不错,对于之后的建模具有极大的帮助,缩短开发周期。 一、数据清理 数据清理( data cleaning ) 的主要思想是通过填补缺失值、光滑噪声数据,平滑或删除离群点,并解决数据的不一致性来“清理“数据。如果用户认为数据是脏乱的,他们不太会相信基于这些数据的挖掘结果,即输出的结果是不可靠的。 1、缺失值的处理 由于现实世界中,获取信息和数据的过程中

机器学习算法 --- 线性回归

前提是你 提交于 2020-01-16 01:50:51
一、线性回归算法的简介    线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。   回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为 多元线性回归 分析。   本文主要介绍线性回归算法的演绎推导,关于线性回归的详细介绍请参阅 线性回归在百度百科中的介绍 。   线性回归算法是机器学习中的基础算法,所以对于想要学习机器学习的读者来说,最好完全理解该算法。 二、线性回归算法的演绎推导    假设,在银行中申请行用卡的额度与如下两个参数有关,即年龄和工资,有一申请人的资料如下图,那么知道一个人的年龄和工资该如何预测出他所能申请信用卡的额度呢?   对于一个线性关系,我们使用y=ax+b表示,但在这种关系中y只受一个x的影响,二者的关系可用一条直线近似表示,这种关系也叫一元线性回归。而在本例中,设额度为h,工资和年龄分别为x1和x2,则可以表示成下式, ,在这种关系中结果收到多个变量的影响,称为 多元线性回归 分析。   我们将上式中的θ和x分别表示成两个一维矩阵[θ0 θ1 θ2]和[x0 x1 x2],则可将上式化为

什么是回归分析?

我与影子孤独终老i 提交于 2020-01-16 01:50:26
回归分析(Regression Analysis)是一种统计学上分析数据的方法,目的在于了解两个或多个变数间是否相关、相关方向与强度,并建立数学模型以便观察特定变数来预测研究者感兴趣的变数。 一元线性回归分析 在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。 比方说有一个公司,每月的广告费用和销售额,如下表所示: 如果我们把广告费和销售额画在二维坐标内,就能够得到一个散点图,如果想探索广告费和销售额的关系,就可以利用一元线性回归做出一条拟合直线: 这条线是怎么画出来的 对于一元线性回归来说,可以看成Y的值是随着X的值变化,每一个实际的X都会有一个实际的Y值,我们叫Y实际,那么我们就是要求出一条直线,每一个实际的X都会有一个直线预测的Y值,我们叫做Y预测,回归线使得每个Y的实际值与预测值之差的平方和最小,即(Y1实际-Y1预测)^2+(Y2实际-Y2预测)^2+ …… +(Yn实际-Yn预测)^2的和最小。 现在来实际求一下这条线: 我们都知道直线在坐标系可以表示为Y=aX+b,所以(Y实际-Y预测)就可以写成(Y实际-(aX实际+b)),于是平方和可以写成a和b的函数。只需要求出让Q最小的a和b的值,那么回归线的也就求出来了。 参考:一元线性回归的细节 http://www.jianshu.com/p

机器学习?深度学习?人工智能?这都是些什么

人盡茶涼 提交于 2020-01-15 19:22:20
机器学习 Machine Learning 机器学习是 人工智能 的一个分支 。人工智能的研究是从以“ 推理 ”为重点到以“ 知识 ”为重点,再到以“ 学习 ”为重点,一条自然、清晰的脉络。显然, 机器学习是实现人工智能的一个途径 ,即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域 交叉学科 ,涉及 概率论 、 统计学 、 逼近论 、 凸分析 、 计算复杂性理论 等多门学科。 机器学习理论主要是设计和分析一些让 计算机 可以自动“ 学习 ”的 算法 。机器学习算法是一类从 数据 中自动分析获得 规律 ,并利用规律对未知数据进行预测的算法。 因为学习算法中涉及了大量的统计学理论,机器学习与 推断统计学 联系尤为密切,也被称为 统计学习理论。 分类 监督学习: 带有人为标注信息。 常见算法有回归分析和统计分类 无监督学习: 不带有人为标注信息。 常见算法有聚类 半监督学习:介于两者之间 增强学习:通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断。 具体算法 构造间隔理论分布:聚类分析和模式识别 人工神经网络 决策树 感知器 支持向量机 集成学习AdaBoost 降维与度量学习 聚类 贝叶斯分类器 构造条件概率:回归分析和统计分类 高斯过程回归 线性判别分析 最近邻居法 径向基函数核

team-learning Task01:机器学习概述

那年仲夏 提交于 2020-01-15 05:07:18
Day01 机器学习概述 学习目标: 机器学习概述并且以自己的学习方式掌握知识 学习最好的方式是组队学习,在交流中成长,Fighting!!! 理论部分 机器学习介绍 机器学习是什么?怎么来的?理论基础是什么?为了解决什么问题? 2016年3月,阿尔法围棋与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜. 深度学习开始进行大众的视野中. 深度学习其实是机器学习的一个分支,我们今天来看看机器学习是什么. 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。如果让我讲解机器学习,我可能会说一句话:机器学习就是模仿人,它有点像人类的决策过程。 机器学习发展历程 机器学习分类 学习方式划分 学习方式 描述 监督式学习(Supervised Learning) 训练集目标:有标注; 如回归分析,统计分类 非监督式学习(Unsupervised Learning) 训练集目标:无标注;如聚类、GAN(生成对抗网络) 半监督式学习(Semi-supervised Leanring) 介于监督式与无监督式之间 增强学习(Reinforcement Leanring)

机器学习-生成学习算法

感情迁移 提交于 2020-01-14 02:14:04
本讲大纲: 1.生成学习算法(Generative learning algorithm) 2.高斯判别分析(GDA,Gaussian Discriminant Analysis) 3.朴素贝叶斯(Naive Bayes) 4.拉普拉斯平滑(Laplace smoothing) 1.生成学习算法 判别学习算法(discriminative learning algorithm): 直接学习 p(y|x) (比如说logistic回归)或者说是从输入直接映射到{0,1}. 生成学习算法(generative learning algorithm): 对 p(x|y)(和p(y)) 进行建模. 简单的来说,判别学习算法的模型是通过一条分隔线把两种类别区分开,而生成学习算法是对两种可能的结果分别进行建模,然后分别和输入进行比对,计算出相应的概率。 比如说良性肿瘤和恶性肿瘤的问题,对良性肿瘤建立model1(y=0),对恶性肿瘤建立model2(y=1),p(x|y=0)表示是良性肿瘤的概率,p(x|y=1)表示是恶性肿瘤的概率. 根据 贝叶斯公式(Bayes rule) 推导出y在给定x的概率为: 2.高斯判别分析 GDA是我们要学习的第一个生成学习算法. GDA的两个假设: 假设输入特征x∈Rn,并且是连续值; p(x|y)是 多维正态分布(multivariate normal

统计学第十周打卡:假设检验

孤街醉人 提交于 2020-01-11 02:33:43
整体思路:先对整体统计量做一个猜想,然后用样本统计量进行验证猜想是否准确。 假设检验中可能出现的概率问题 假设检验的流程: 1、首先提出原假设和备选假设; H0和H1 2、确定合适的统计量,并进行计算。其中计算假设量,就类似于计算一个分数,分数确定概率大小; 3、最终进行判断,看概率是落入拒绝域还是允许域。其中P值是我们用来做决策的重要指标,一般情况下没有说明显著性水平情况下,P小于0.05即可认为原假设成立,在说明显著性水平情况下,P值需小于显著性水平才可认为原假设成立。 单侧检验 单侧检验分左侧检验和右侧检验。左侧检验又称下限检测(比如灯泡寿命不得小于1K小时),右侧检验又称上线检测(比如产品的次品率不得低于0.05)。 一个总体参数的确定 由于假设检验的统计量和统计条件不同,用的的统计量主要有三个:Z统计、T统计量(用于均值和比例的检验)、和卡方统计量(用于方差的检验) 考虑因素:样本量n的大小(样本量大的情况下(即可用Z统计量进行计算):总体正态-样本正态,总体非正态-样本渐进正态),总体标准差(不知道的情况下可以用样本量方差S代替)是否已知 总体归纳如下: 两个总体参数的检验 总体方法和参数估计差不多,就是看哪个参数存在哪个不存在,然后选择不同方法,基础中的基础还是抽样分布的知识,理解清楚几个抽样分布量的计算条件和计算方法,即可推算出检验统计量的数值。 来源: CSDN

机器学习(1)

感情迁移 提交于 2020-01-10 08:56:45
机器学习是人工智能中不可或缺的一部分,这篇随笔将记录这段时间学习机器学习的几点感悟,希望对以后的学习有所帮助。参考了以下几本书: 《机器学习》-周志华 《机器学习实践》-Peter Harrington 在这里我也发现了一篇很不错的文章 《从机器学习谈起》 ,生动有趣,可以加深大家对机器学习的认识。 第一章 机器学习基础 1.什么是机器学习? 机器学习就是把无序的数据转换成有用的信息。 机器学习方法是计算机利用已有的数据(经验),得出了某种模型,并利用此模型预测未来的一种方法。 一般来说,数据越多,最后机器学习生成的模型预测的效果越好。 机器学习的过程与人类对历史经验归纳的过程做个比对,如下图: 2.关键术语 特征: 下图测量的四个属性为特征,也可以成为属性。它们通常是训练样本集的列,他们是独立测量得到的结果,逗哥特征联系在一起共同组成一个训练样本。 分类: 机器学习的主要任务。这部分工作可以看成: 知识表示。 算法训练: 学习如何分类。通常为算法输入大量已分类数据作为算法的 训练集 。 通常建立两套独立的样本集: 训练数据和测试数据。 3.机器学习的主要任务 (1)监督学习(知道预测什么): 分类(将数据分到合适的分类) 回归 (用于测试数值型数据)eg:数据拟合曲线 (2)无监督学习(没有类别信息,也不会给定目标值): 聚类 密度估计(寻找描述数据统计值的过程) 4

机器学习介绍

瘦欲@ 提交于 2020-01-09 20:50:06
1. 监督学习(supervised learning): 给定输入样本集,机器可以从中推演出指定目标的可能结果。 一般采用两种类型的目标变量:标称型和数值型。 - 标称型:标称型目标变量的结果只有在有限目标集中取值,如真与假,动物分类集合 {爬行类,鱼类, 哺乳类,两栖类} - 数值型:数值型目标变量可以在无限数值集合中取值,如 0.001、 42.001、 1000.743 等。数 值型目标变量主要用于回归分析。 2. 无监督学习:数据没有类别信息,不会给定目标值。 - 聚类:无监督学习中,将数据集合分成由类似对象组成的多个类的过程 - 密度估计:将寻找数据统计值的过程称为密度估计 机器学习基础 ------------ 1. 概念:何为机器学习,将无序的数据转换成有用的信息 2. 数据获取:譬如可以在人们手机上装app,通过许多手机的磁力计得到信息 3. 术语: - 专家系统 - 属性/特征 - 分类 - 目标变量(类别) - 训练数据和测试数据 4. 任务: 1. 监督学习(知道预测什么,即目标变量的分类信息) - 分类:将实例数据划分到合适的分类中,譬如数据拟合曲线 - 回归:主要用于预测数值型数据 2. 无监督学习(数据无类别信息,不给目标值) - 聚类:数据集合分成类似对象组成的集合 - 密度估计:寻找数据统计值的过程 - 无监督学习还可以减少数据特征的维度