统计学

机器学习基础-数理统计

三世轮回 提交于 2020-02-24 05:58:47
数理统计与参数估计 统计量 期望/方差/偏度/峰度 协方差和相关系数 独立和不相关 期望 数学期望(均值)是实验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。 离散型 如果随机变量只取得有限个值或无穷能按一定顺序一一列出,其值域为一个或若干个有限或无限区间 连续的 设连续性随机变量X的概率密度函数为f(x),若积分绝对收敛,则称积分的值 为随机变量的数学期望,记为E(X) 期望的性质 无条件成立 E(kX) = kE(X) E(X + Y) = E(X) + E(Y) 若X和Y相互独立 E(XY) = E(X)E(Y) 反之不成立,若E(XY)=E(X)E(Y),只能说明X和Y不相关 方差 用来度量随机变量和数学期望之间的偏离程度(统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数) 标准差、方差越大,离散程度越大 方差的性质 D(CX) = C^2*D(X), D(X+C)=D(X) D(X+Y) = D(X) + D(Y) + 2Cov(X,Y) 当X, Y 是不相关的随机变量则:D(X+Y)=D(X)+D(Y) 协方差:Cov(X,Y) = E{[X - E(X)][Y - E(Y)]} 方差就是协方差的一种特殊情况,即两个变量相同 离散型方差计算: 展开后 连续性方差计算: 展开后 随机变量的期望和方差 离散型: 连续型:

机器学习数据集汇总

ぐ巨炮叔叔 提交于 2020-02-21 11:12:12
来源:机器学习算法与Python实战 本文 多干货 ,建议 收藏 本文为你汇总机器学习相关数据集。 大学公开数据集 (Stanford)69G大规模无人机(校园)图像数据集【Stanford】 http://cvgl.stanford.edu/projects/uav_data/ 人脸素描数据集【CUHK】 http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html 自然语言推理(文本蕴含标记)数据集【NYU】 https://www.nyu.edu/projects/bowman/multinli/ Berkeley图像分割数据集BSDS500【Berkeley】 https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html 宠物图片(分割)数据集【Oxford】 http://www.robots.ox.ac.uk/~vgg/data/pets/ 发布ADE20K场景感知/解析/分割/多目标识别数据集【MIT】 https://groups.csail.mit.edu/vision/datasets/ADE20K/ 多模态二元行为数据集【GaTech】 http://www.cbi.gatech.edu/mmdb/ 计算机视觉/图像

机器学习概述

二次信任 提交于 2020-02-17 06:08:59
一、 1.什么是机器学习: 机器学习是从人工智能中产生的一个重要学科分支,是实现智能化的关键。 2.机器学习是一门多淋浴交叉学科,设计概率论、统计学、逼近学、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,已获得新知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 3.机器学习的一般过程: 训练数据----------->f(x)----------->未知测试数据(泛华问题) 4.模型--------->策略(损失函数选择,模型选择)--------->算法(在假设空间,确定参数,最优化) 二、 1.发展历程: 推理期、知识期、学科形成、繁荣期。 2.机器学习方法: 有监督学习:从给定的有标注的训练数据集中学习初几个函数(模型参数),当新的数据到来时可以根据这个函数预测结果。常见任务包括分类与回归。 分类:输出是类别标签 回归:输出是实数 3.无监督学习:没有标注的训练数据集,需要根据样本间的统计规律对样本集进行分析,常见任务如聚类等。 4.半监督学习:结合少量的标注训练数据和大量的未标注数据进行数据的分类学习 两个基本假设: 聚类假设:处在相同聚类中的样示例有较大的的可能拥有相同的标记。 流行假设:处于一个很小的局部区域内的样本示例具有相似的性质,因此,其标记也应该相似 5.增强学习:外部环境对输出只给出评价信息而非正确答案

贝叶斯机器学习路线图

无人久伴 提交于 2020-02-12 00:25:16
这是一份贝叶斯机器学习路线图, 正在不断更新中. 路线图由简短的介绍配以相应的学习资源组成, 读者不一定要按顺序学习, 可以直接定位到自己需要的地方. 很多时候, 我们希望自学某个领域的知识, 学习能力是不差的, 但苦于不知该学哪些, 从何学起, 看什么书/视频好? 各个概念/知识点之间是怎样的联系? 这份路线图是为解决以上问题而生的, 对于学习贝叶斯机器学习应该十分有帮助. 若您发现错漏, 欢迎评论指正! 也希望有更多的人愿意分享自己所在领域的"学习路线图"! (注意: 文中部分资源链接需要科学上网方可打开) 本文目录结构如下: 核心主题 中心问题 参数估计 模型比较 非贝叶斯方法 最大似然 正则化 EM算法 基本推断算法 MAP估计 Gibbs采样 马尔科夫链蒙特卡洛(MCMC) 变分推断(Variational inference) 模型 混合高斯 因子分析 隐马尔科夫模型(HMM) 贝叶斯模型比较 贝叶斯信息准则(Bayesian information criterion) 拉普拉斯近似(Laplace approximation) 进阶主题 模型 逻辑回归(Logistic regression) 贝叶斯网络(Bayesian networks) Latent Dirichlet allocation(LDA) 线性动态系统(Linear dynamical

机器学习综述

99封情书 提交于 2020-02-10 15:47:47
机器学习综述 从海量数据中抽取有价值的信息 机器学习的任务是分类,将实例数据划分到合适的分类中 一般是使用训练集样本作为算法的输入,训练完成之后输入测试样本 监督学习 已知类别的样本,知道预测什么,从标记的训练数据集推断一个功能的机器学习任务 常见的监督学习包括分类和回归 knn算法 朴素贝叶斯算法 支持向量机 决策树 线性回归 局部加权线性回归 Ridge回归 lasso最小回归系数估计 无监督学习 数据没有类别信息,也不会给定目标值。将数据集分成由类似的对象组成的多个类的过程叫做聚类,将寻找描述数据统计值的过程称之为密度估计 k-means DBSCAN 最大期望算法 如何选择合适的算法 若是预测目标变量的值,可以选择监督算法 若需要将数据化为离散的组,则需要进行聚类 需要考虑数据是离散变量还是连续变量,特征值中是否存在缺失值,是何种原因造成的缺失值,数据中是否存在异常值,某个特征发生的频率如何 分析步骤 收集数据 处理数据 分析数据,可以通过图形的展示 训练算法(针对监督学习的,无监督学习不需要训练算法 评估算法 应用 需要掌握的python的几个库 numpy pandas scikit-learn 待补充 来源: https://www.cnblogs.com/gaowenxingxing/p/12290923.html

机器学习:基本概念、一般步骤、工具

戏子无情 提交于 2020-02-06 02:06:23
人工智能(Artificial Intelligence) 通过计算机模拟人类智慧,以完成很多只有人类才可以完成,甚至连人类都无法完成的任务 比如专家系统、图像识别、语音识别、自然语言处理、自动驾驶、推荐系统、人机博弈、电脑游戏、机器人等 人类利用计算机完成了很多对人类而言非常困难的工作,但一些人类可以很容易解决的问题比如驾驶汽车、语言图像识别,计算机却很难解决,这是人工智能需要解决的问题 早期人工智能只能解决简单的特定环境下的问题,比如国际象棋 机器学习(Machine Learning) 通过分析已有的数据,从中学习,然后对新数据进行预测、决策、判断 人们发现有些问题通过逻辑分析很难解决,还不如通过对已有的数据进行统计分析 机器学习需要有海量数据进行训练,很多数据量小或是靠逻辑分析能解决的问题并不适合使用机器学习 深度学习(Deep Learning) 传统的机器学习,需要人工选取特征值,计算机从数据中提取人工指定的特征值然后进行训练 然而有些问题,靠人工的方式无法很好的提取特征值 深度学习不需要人工指定特征值,而是自动提取简单的特征值,并组合成更复杂的特征值,然后进行训练 深度学习使用的主要是神经网络 监督学习(Supervised Learning) 给定样本集 (X, Y),机器从中推演出合适的模型 y = F(x),然后对新的 X 数据,通过 F 预测相应的 Y

机器学习简介

浪尽此生 提交于 2020-02-05 04:54:25
1. 课程介绍 2. 机器学习 (Machine Learning, ML) 2.1 概念:多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 2.2 学科定位:人工智能(Artificial Intelligence, AI)的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。 2.3 定义:探究和开发一系列算法来如何使计算机不需要通过外部明显的指示,而可以自己通过数据来学习,建模,并且利用建好的模型和新的输入来进行预测的学科。 Arthur Samuel (1959): 一门不需要通过外部程序指示而让计算机有能力自我学习的学科 Langley(1996) : “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能” Tom Michell (1997): “机器学习是对能通过经验自动改进的计算机算法的研究” 2.4: 学习:针对经验E (experience) 和一系列的任务 T (tasks) 和一定表现的衡量 P,如果随之经验E的积累,针对定义好的任务T可以提高表现P,就说计算机具有学习能力 例子: 下棋,语音识别,自动驾驶汽车等 3.

《女士品茶》与统计检验

无人久伴 提交于 2020-02-04 04:11:58
在2008年参加国家统计局举办的建模大赛期间,书店书架上的《女士品茶(The Lady Tasting Tea)――20世纪统计怎样变革了科学》引起了我们的关注,《女士品茶》书名一改以往统计类书籍的枯燥和灰暗,新意盎然。匆匆翻过后,便买下了。《女士品茶》并不是一本女性读物,也不是一本专门讲茶的读物,而是一本20世纪统计发展史的科普读物,留心一下本书的副标题就可以知道这一点。为什么作者取了这么个名字?其巧妙的构思令人赞叹,原来“女士品茶”是一个统计发展史上非常有名的统计实验,而且是由大名鼎鼎的费歇尔(Fisher)主持的。《女士品茶》全书以“女士品茶”这一个早期的统计学实验开始,详细地叙述了一个多世纪以来统计学的诞生和发展的历史,通过一些有趣的统计故事,在一个个精彩的人物中将统计学各个领域的思想向读者进行了简明扼要的介绍。但是让这本书成为经典的不是其中的学术分析,而是其视野的独特和广阔。   译者邱东先生定位的首选读者是:统计专业的学生、研究生、教师和科研工作者。其次是对科学发展文化传承感兴趣的各界读者,定位层次何以如此悬殊?似乎在于作者和译者各自的生活环境不同,正如作者所说:“统计的观点应用如此广泛,以至于基本的假设已经成为西方世界通俗文化的一部分,就如同一尊泥菩萨一样立在那里,洋洋得意。”所以这本书归类“科普读物”。    一、关于“女士品茶”的统计实验   20世纪20年代后期

概率统计丨陈希孺《概率论与数理统计》思维导图

走远了吗. 提交于 2020-02-04 00:49:49
除了线性代数,概率论(Probability theory)和统计学(Statistics)也是机器学习中常用的数学工具。陈希孺老先生的《概率论与数理统计》在知乎上的评价很高,我在上学期花时间读了一遍,读完的感觉是,本书的概率论部分可读性较强,举了很多例子帮助理解,通俗易懂,阐明了很多原理和联系,如二项分布、泊松分布、超几何分布、几何分布之间的关系。但数理统计部分,更加严谨的概念定义和公理化相对晦涩,让我不易理解。当然,主要原因还是我水平太低。我觉得本书的数理统计部分可以结合其他材料学习。 此外再推荐一下其他的学习资源。 公开课 可汗学院公开课:统计学 书 《概率导论》 《概率论与数理统计》 《深入浅出统计学》 讲义 CS229概率论讲义 来源: https://www.cnblogs.com/vincent1997/p/12258176.html

随机过程学习笔记0

…衆ロ難τιáo~ 提交于 2020-02-03 00:04:32
随机过程的定义 随机变量:从样本空间到实数域的当时的映射; 样本空间:随机试验所有可能的结果; 在之前的概率论中,无论是中心极限定理还是大数定理,研究的都是一些相互独立的随机变量之间的关系和他们的统计特性。而随机过程所研究的是一族随机变量,且相互之间不是独立的。 对定义的理解: 随机变量族:随t变化的一族(无穷个)随机变量,且随机变量之间彼此有一定的关系,这个关系体现在t变化时,他们之间存在关系,可能时线性的,也可能是非线性的,即一族相互关联的随机变量构成了一个随机过程。例4中质点在直线上的随机游走,小虫在直线上的固定跳动,奇数偶数的讨论,充分说明了随机变量之间的关联性。 T:称为指标集或参数集,一般表示时间或空间;T是一个离散的可列集时,随机过程叫随机序列。 随机过程的描述:X(t,w)或 X(t),w表示一个样本点。 固定t,X(t,w)就是一个定义在样本空间Ω上的函数,即为一随机变量,取遍所有t,就是一族有关联的随机变量; 固定w,X(t,w)是一个关于参数t的确定函数,叫样本函数。即表示固定w,做了一次试验,取遍过程中的t,做了n次实验,也叫随机过程的一次实现,对随机过程观测了一遍。所有样本函数的集合确定了一个随机过程,如果能获得所有的样本函数,则随机过程的统计特性确定,但显然很多时候是不现实的。因此需要随机过程的数字特征和统计特性描述。 随机过程的分类 状态空间