贝叶斯

贝叶斯分析助你成为优秀的调参侠:自动化搜索物理模型的参数空间

柔情痞子 提交于 2021-01-02 14:01:19
©PaperWeekly 原创 · 作者|庞龙刚 学校|华中师范大学 研究方向|能核物理、人工智能 做研究的时候经常莫名其妙的发现自己成了调参侠,为了使用物理模型拟合某组实验数据,不断在模型参数空间人肉搜索。运气好的话很快找到一组看上去不错的参数,大约能近似的描述实验数据。运气不好的话,怎么调都跟实验数据对不上。你肯定想过,要是电脑能帮自己调参,自动寻找能够描述实验数据的最好的那组物理模型参数该多好。 这一节介绍如何使用贝叶斯分析完成这件事,做个出色的调参侠。 学习内容 1. 贝叶斯公式 2. 科学的研究方法与贝叶斯分析 3. 如何自动化搜索物理模型的参数空间 贝叶斯公式 随机变量 的联合概率密度分布 可以写成以下两种形式: 若将左边的 除到右边,则有: 这就是 著名的贝叶斯公式,后面马上会用到。 科学的研究方法与贝叶斯分析 下面这段话介绍了费曼眼中的科研: First you guess. Don't laugh, this is the most important step. Then you compute the consequences. Compare the consequences to experience. If it disagrees with experience, the guess is wrong. In that simple statement

如何理解 Graph Convolutional Network(GCN)?

点点圈 提交于 2020-12-30 16:59:31
几年前如果熟练使用TensorFlow,同时掌握基本的AI算法就可以很容易找到一份高薪的工作,但现在不一样了,AI岗位的要求越来越高,对知识的深度也提出了更高的要求。 如果现在 一个面试官 让你从零推导SVM的Dual、从零实现CRF、推导LDA、设计一个QP问题、从零编写XLNet、编写GCN/GNN、改造SkipGram模型、用一天时间复现一篇顶级会议.... 这些要求一点都不过分。相反,连这些基本内容都有些吃力,就需要重新审视一下自己的核心技术壁垒了。 为了迎合时代的需求,我们去年推出了 《机器学习高端训练营》 班。这个训练营的目的很简单: 想培养更多高端的人才,帮助那些即将或者目前从事科研的朋友,同时帮助已从事AI行业的提高技术深度。 在本期训练营(第四期)中我们对内容做了大幅度的更新,一方面新增了对前沿主题的讲解如 图神经网络(GCN,GAT等) ,另外一方面对核心部分(如凸优化、强化学习)加大了对 理论层面上的深度 。 除此之外,也会包含 科 研方法论、元学习、解释性、Fair learning 等系列主题。 目前在全网上应该找不到类似体系化的课程。 课程仍然采用 全程直播 授课模式。 那什么样的人适合来参加高阶班呢? 从事AI行业多年,但技术上总感觉不够深入,感觉在技术上遇到了瓶颈; 停留在使用模型/工具上,很难基于业务场景来提出新的模型; 对于机器学习背后的优化理论

《概率机器人》PDF习题代码课件+《人工智能一种现代的方法第3版》PDF中英文+《凸优化》PDF习题题解分析

允我心安 提交于 2020-12-30 07:04:49
研究机器人时,使机器人能够应对环境、传感器、执行机构、内部模型、近似算法等所带来的不确定性是必须面对的问题。 概率机器人在slam领域被推荐,内容也很充实,对概率机器人学这一新兴领域进行了全面的介绍。概率机器人学依赖统计技术表示信息和进行决策,以容纳当今大多数机器人应用中必然存在的不确定性,是机器人学的一个分支。它依赖统计技术表示信息和制定决策。这样做,可以接纳在当今大多数机器人应用中引起的不确定性。本书主要专注于算法,对于每种算法,均提供了四项内容:伪码示例;完整的数学推导;实验结果;算法优缺点的详细讨论。 《概率机器人》PDF中英文F+代码+习题解答+课件,中文PDF,513页,文字可以复制;英文PDF,668页,文字可以复制;配套习题解答和代码;配套课件。 下载: https://pan.baidu.com/s/1qjJG7E-3KYmn8cXteT6i6Q 提取码: bkyq 《概率机器人》包括了基础知识、定位、地图构建、规划与控制四大部分。共17章,每章的后都提供了练习题和动手实践的项目。致力于用概率的方法明确地表示不确定性,并研究机器人感知和机器人规划与控制的不确定性,以降低机器人系统的不确定性,使机器人能 工作于应用环境中,完成定位、地图构建、规划与控制。 学习人工智能概论时,推荐看看《人工智能:一种现代的方法第三版》,最权威、最经典的人工智能教材

《AI算法工程师手册》

两盒软妹~` 提交于 2020-12-25 18:34:13
本文转载自: http://www.huaxiaozhuan.com/ 这是一份机器学习算法和技能的学习手册,可以作为学习工作的参考,都看一遍应该能收获满满吧。 作者华校专,曾任阿里巴巴资深算法工程师,现任智易科技首席算法研究员,《Python 大战机器学习》的作者。 这是作者多年以来学习总结的笔记,经整理之后开源于世。目前还有约一半的内容在陆续整理中,已经整理好的内容放置在此。 曾有出版社约稿,但是考虑到出版时间周期较长,而且书本购买成本高不利于技术广泛传播,因此作者采取开源的形式。 笔记内容仅供个人学习使用,非本人同意不得应用于商业领域。 笔记内容较多,可能有些总结的不到位的地方,欢迎大家探讨。联系方式:huaxz1986@163.com 另有个人在 github 上的一些内容: "《算法导论》的C++实现"代码:https://github.com/huaxz1986/cplusplus-_Implementation_Of_Introduction_to_Algorithms 《Unix 环境高级编程第三版》笔记:https://github.com/huaxz1986/APUE_notes 数学基础 1.线性代数基础 一、基本知识 二、向量操作 三、矩阵运算 四、特殊函数 2.概率论基础 一、概率与分布 二、期望和方差 三、大数定律及中心极限定理 五、常见概率分布 六

下载 | 9G火爆的Python爬虫教程+ 520页《图解机器学习》

眉间皱痕 提交于 2020-12-20 07:14:09
前段时间,小伙伴多次在后台留言询问 Python爬虫教程 的问题。经过这两个多月以来的收集与整理,汇集了 多个高校以及公开课视频教程 ,包括 python爬虫的入门、进阶与实践,共9G左右 。爬虫作为机器学习语料库构建的主要方式,建议大家都了解学习一下,现在不用并不代表将来用不到, 建议将视频资源收藏或保存 。 《 9G 爬虫视频教程 》已经打包好,可以通过下述步骤来获取: 1.扫描下方二维码 2. 回复关键词: 爬虫教程 👆长按上方二维码 2 秒 回复「 爬虫教程 」即可获取资料 另外 ,还有一份图文并茂的机器学习笔记送给你: 520页《图解机器学习》 , 以浅显易懂的方式去讲解它,降低大家的学习门槛 。我为此花费了数月时间,经常做到深夜,把自己的学习笔记整理成了这份教程。 既适合非专业人士了解有关机器学习的基础概念,又适合有专业背景的学生进一步学习。 《 图解机器学习 》PDF已经打包好,可以通过下述步骤来获取: 1.扫描下方二维码 2. 回复关键词: 机器学习 👆长按上方二维码 2 秒 回复「 机器学习 」即可获取资料 从结构来看,全部教程包含两部分: Part 1 介绍了基本概念,包括: 机器学习的流程 数据处理 建模 评估指标(如 MSE、ROC 曲线) 模型部署 过度拟合 正则化等 在 Part2,作者介绍了 常用的算法,包括: 线性回归 逻辑回归 神经网络 SVM

收藏|Pandas缺失值处理看这一篇就够了!

心不动则不痛 提交于 2020-12-19 14:55:17
Pandas 是一个强大的分析结构化数据的工具集,它的使用基础是Numpy(提供高性能的矩阵运算),用于数据挖掘和数据分析,同时也提供数据清洗功能。 在往期文章中,已经详细讲解了Pandas做分析数据的四种基本操作: 索引 、 分组 、 变形 及 合并 。 现在,开始正式介绍Pandas的数据结构类型: 缺失数据、文本数据、分类数据和时序数据。 在接下来的两章中,会接触到数据预处理中比较麻烦的类型,即缺失数据和文本数据(尤其是混杂型文本)。今天,我们首先对缺失数据进行系统地梳理。 本文目录 1. 基础概念 1.1. 缺失值分类 1.2. 缺失值处理方法 2. 缺失观测及其类型 2.1. 了解缺失信息 2.2. 三种缺失符号 2.3. Nullable类型与NA符号 2.4. NA的特性 2.5. convert_dtypes方法 3. 缺失数据的运算与分组 3.1. 加号与乘号规则 3.2. groupby方法中的缺失值 4. 填充与剔除 4.1. fillna方法 4.2. dropna方法 5. 插值 5.1. 线性插值 5.2. 高级插值方法 5.3. interpolate中的限制参数 6. 问题及练习 6.1. 问题 6.2. 练习 基础概念 首先,对缺失值分类和缺失值处理方法进行讲解。 缺失值的分类 按照数据缺失机制可分为: 可忽略的缺失 完全随机缺失(missing

机器学习背后的数学原理--学习笔记4

一世执手 提交于 2020-12-11 11:35:56
事实上,概率模型的训练过程就是参数估计 (parameter estimation) 的过程。对于参数的估计,统计学界的两个学派提供了不同的解决方案【1】: 频率主义学派 认为参数虽然未知,但却是客观存在的固定值,因此,可通过优化似然函数等准则来确定参数值; 贝叶斯学派 (Bayesian) 则认为参数是未观察到的随机变量,其本身也可有分布,因此,可假设参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。 贝叶斯学派统计思维 vs 频率学派统计思维 完全理解为什么在我们使用贝叶斯统计的时候,要求首先理解频率统计失败的地方。 大多数人在听到 “ 概率 ” 这个词的时候,频率统计是首先想到的统计类型。它涉及应用一些数学理论来分析事件发生的概率,明确地说,我们唯一计算的数据是先验数据 (prior data) 。 举个例子,假设我给了你一个骰子,问你掷出 6 点的几率是多少,大多数人都会说是六分之一。 但是,如果有人给你个特定的骰子总能掷出 6 个点呢 ? 因为频率分析仅仅考虑之前的数据,而给你作弊的骰子的因素并没有被考虑进去。 贝叶斯统计确实考虑了这一点,我们可以通过贝叶斯法则来进行说明 : 这里 E: 当前发生的现象 (evidence) , 本例中是“投掷骰子,出现点数 6 ”; H :某种假设( hypothesis ),本例中指“筛子处于正常状态”; P(E)

《Python与机器学习实战》笔记+源码

白昼怎懂夜的黑 提交于 2020-12-05 19:46:38
向AI转型的程序员都关注了这个号 👇👇👇 机器学习AI算法工程 公众号:datayx Python与机器学习这一话题是如此的宽广,仅靠一本书自然不可能涵盖到方方面面,甚至即使出一个系列的书也难能做到这点。单就机器学习而言,其领域就包括但不限于如下:有监督学习(Supervised Learning),无监督学习(Unsupervised Learning)和半监督学习(Semi-Supervised Learning)。而其具体的问题又大致可以分为两类:分类问题(Classification)和回归问题(Regression)。 Python本身带有许多机器学习的第三方库,但《Python与机器学习实战:决策树、集成学习、支持向量机与神经网络算法详解及编程实现》在绝大多数情况下只会用到Numpy这个基础的科学计算库来进行算法代码的实现。这样做的目的是希望读者能够从实现的过程中更好地理解机器学习算法的细节,以及了解Numpy的各种应用。不过作为补充,《Python与机器学习实战:决策树、集成学习、支持向量机与神经网络算法详解及编程实现》会在适当的时候应用scikit-learn这个成熟的第三方库中的模型。 《Python与机器学习实战:决策树、集成学习、支持向量机与神经网络算法详解及编程实现》适用于想了解传统机器学习算法的学生和从业者,想知道如何高效实现机器学习算法的程序员

机器学习-数学基础

对着背影说爱祢 提交于 2020-12-04 08:27:54
常见函数 常函数: 一次函数: 二次函数: 幂函数: 指数函数: ,a的取值范围为: a>0&a≠1 对数函数: , a的取值范围为: a>0&a≠1 对数的运算 指数的运算 导数 一个函数在某一点的导数描述了这个函数在这一点附近的变化率,也可以认为是函数在某一点的导数就是该函数所代表的曲线在这一点的切线斜率。导数值越大,表示函数在该点处的变化越大。 定义:当函数y=f(x)在自变量x=x0上产生一个增量Δx时,函数输出值的增量Δy和自变量增量Δx之间的比值在Δx趋近与0的时候存在极限值a,那么a即为函数在x0处的导数值。 常见的导函数 偏导数 在一个多变量的函数中,偏导数就是关于其中一个变量的导数而保持其它变量恒定不变。假定二元函数z=f(x,y),点(x0,y0)是其定义域内的一个点,将y固定在y0上,而x在x0上增量Δx,相应的函数z有增量Δz=f(x0+Δx, y0) - f(x0,y0);Δz和Δx的比值当Δx的值趋近于0的时候,如果极限存在,那么此极限值称为函数z=f(x,y)在处对x的偏导数(partial derivative) z=x2+xy2 在(2,1)处的对x的偏导数=? 梯度 梯度:梯度是一个向量,表示某一函数在该点处的方向导数沿着该方向取的最大值,即函数在该点处沿着该方向变化最快,变化率最大(即该梯度向量的模) 泰勒公式 Taylor(泰勒

机器学习的数学基础

吃可爱长大的小学妹 提交于 2020-12-04 02:19:48
点击上方蓝色字关注我们~ 一、概述 我们知道,机器学习的特点就是: 以计算机为工具和平台,以数据为研究对象,以学习方法为中心; 是概率论、线性代数、数值计算、信息论、最优化理论和计算机科学等多个领域的交叉学科。 所以本文就先介绍一下机器学习涉及到的一些最常用的的数学知识。 二、线性代数 2-1、标量 一个标量就是一个单独的数,一般用小写的的变量名称表示。 2-2、向量 一个向量就是一列数,这些数是有序排列的。 用过次序中的索引,我们可以确定每个单独的数。 通常会赋予向量粗体的小写名称。 当我们需要明确表示向量中的元素时,我们会将元素排 列成一个方括号包围的纵柱: 我们可以把向量看作空间中的点,每个元素是不同的坐标轴上的坐标。 2-3、矩阵 矩阵是二维数组,其中的每一个元素被两个索引而非一个所确定。 我们通常会赋予矩阵粗体的大写变量名称,比如A。 如果一个实数矩阵高度为m,宽度为n,那么我们说 。 矩阵这东西在机器学习中就不要太重要了! 实际上,如果我们现在有N个用户的数据,每条数据含有M个特征,那其实它对应的就是一个N*M的矩阵呀; 再比如,一张图由16*16的像素点组成,那这就是一个16*16的矩阵了。 现在才发现,我们大一学的矩阵原理原来这么的有用! 要是当时老师讲课的时候先普及一下,也不至于很多同学学矩阵的时候觉得莫名其妙了。 2-4、张量