机器学习

机器学习 Coursera Note

雨燕双飞 提交于 2021-02-10 09:51:28
系列笔记 机器学习Coursera By Andrew Ng 机器学习笔记, 质量高 ,有一些补充公式的推导。 作者博客还包含有其他课程的笔记 机器学习与深度学习 (包括 吴恩达和CS231的笔记) 吴恩达机器学习系列作业目录 给出了课后作业的Python代码实现,实现过程中有讲解 吴恩达2014机器学习教程笔记目录 文字内容全,基本全部翻译,目录结构完整。但是图像不能显示。 http://wangxin123.com/ 作者的其他文章 专题部分 大叔学ML第四:线性回归正则化 (给出了正则化正规方程方法的推导) 来源: oschina 链接: https://my.oschina.net/u/4353169/blog/3612829

ML.NET生成器带来了许多错误修复和增强功能以及新功能

我只是一个虾纸丫 提交于 2021-02-10 09:30:45
ML.NET是一个开源的跨平台机器学习框架,适合 .NET 开发人员。它允许将机器学习集成到 .NET 应用中,而无需离开 .NET 生态系统,甚至拥有 ML 或数据科学背景。ML.NET工具(Visual Studio 中的 UI 模型生成器和跨平台 ML.NET CLI),可根据您的场景和数据自动训练自定义机器学习模型。 此版本ML.NET生成器带来了许多错误修复和增强功能以及新功能,包括高级数据加载选项和来自 SQL Server的流训练数据。 高级数据加载选项 以前,模型生成器不提供任何数据加载选项,它依赖于 AutoML 来检测列、标头和分隔符以及十进制分隔符样式。 让我们看一下模型生成器中使用出租车费数据集中新的高级数据加载选项。这是一个回归问题,您可以根据旅行距离、付款类型和乘客人数等几个因素预测出租车票价金额。 在模型生成器中, 选择值预测方案和本地训练环境后,您将最终进入 "数据" 步骤。选择 "文件" 作为数据源类型 ,浏览出租车票价数据集,选择数据集后,将 "列"更改为"预测" fare_amount。 选择 "高级数据"选项以打开高级数据加载选项对话框。 在此对话框中,有两个部分 - 列设置 和数据格式 。 列设置 在" 列设置 "部分中,您可以将每个要素列(用于预测标签的列)的列更改为 分类、 文本 、数字或 忽略: 分类列包含在标记组离散数量中的数据

SpringBoot是如何加载配置文件的?

 ̄綄美尐妖づ 提交于 2021-02-10 08:59:26
前言 本文针对版本 2.2.0.RELEASE 来分析SpringBoot的配置处理源码,通过查看SpringBoot的源码来弄清楚一些常见的问题比如: SpringBoot从哪里开始加载配置文件? SpringBoot从哪些地方加载配置文件? SpringBoot是如何支持 yaml 和 properties 类型的配置文件? 如果要支持 json 配置应该如何做? SpringBoot的配置优先级是怎么样的? placeholder是如何被解析的? 带着我们的问题一起去看一下SpringBoot配置相关的源代码,找出问题的答案。 SpringBoot从哪里开始加载配置文件? SpringBoot加载配置文件的入口是由 ApplicationEnvironmentPreparedEvent 事件进入的,SpringBoot会在SpringApplication的构造函数中通过 spring.factories 文件获取ApplicationListener的实例类: public SpringApplication(ResourceLoader resourceLoader, Class<?>... primarySources) { ... setListeners((Collection) getSpringFactoriesInstances

用机器学习构建模型,进行信用卡反欺诈预测

╄→гoц情女王★ 提交于 2021-02-09 20:04:35
本文通过利用信用卡的历史交易数据进行机器学习,构建信用卡反欺诈预测模型,提前发现客户信用卡被盗刷的事件。 1. 数据的下载和数据介绍 数据的下载地址为 https://www.kaggle.com/dalpozz/creditcardfraud/data 数据集是2013年9月使用信用卡进行交易的数据。此数据集显示两天内发生的交易,其中284,807笔交易中有492笔被盗刷。数据集非常不平衡,被盗刷占所有交易的0.172%。不幸的是,由于保密问题,我们无法提供原始数据。特征V1,V2,... V28是使用PCA获得的主要组件。特征Class是响应变量,如果发生被盗刷,则取值1,否则为0。 数据包含了Time,V1,V2,..V28,Amount,Class一共31列,其中Class是标签列,其中0代表没有被盗刷,1表示被盗刷。 2. 分析工具介绍 我们使用的工具是FEA-spk技术,它的底层基于最流行的大数据开发框架spark,对各种算子的操作都是基于DataFrame的,使用FEA-spk来做交互分析,不但非常简单易懂而且几乎和spark的功能一样强大,更重要的一点,它可以实现可视化,处理的数据规模更大,可以进行分布式的机器学习等 3. 案例的具体实现步骤如下 1. 数据预处理(Pre-processing Data) (1) 加载数据 查看一下数据的大小

Python和JavaScript——这两种流行的编程语言之间的主要区别是什么?

怎甘沉沦 提交于 2021-02-09 19:04:37
如果你想了解Python和JavaScript之间的区别,那么本文适合你。 这两种语言非常流行且功能强大,但是它们之间确实存在关键差异,我们将在这里详细介绍它们。 在本文中,你将学习: Python和JavaScript在现实世界中的不同应用。 Python和JavaScript之间关键的语法和功能差异。 让我们开始! ✨ Python VS JavaScript:实际应用 我们将从快速浏览它们的实际应用程序开始。 Python 由于其强大的功能和多功能性,Python已经成为世界上几乎每一个科学应用程序中必不可少的工具,它是一种支持不同编程范式的通用编程语言。 它广泛用于科学和专业应用,包括数据科学、人工智能、机器学习、计算机科学教育、计算机视觉和图像处理、医学、生物学甚至天文学。 它还用于Web开发,这是我们可以开始将其应用程序与JavaScript应用程序进行比较的地方。Python用于后端开发,这是Web开发领域,负责创建用户看不见的元素,例如应用程序的服务器端。 JavaScript 尽管可以使用Python开发Web应用程序的后端部分,但是可以使用JavaScript开发应用程序的后端和前端。 前端是用户看到并与之交互的应用程序部分。每当你看到网站或Web应用程序或与之交互时,即在“幕后”使用JavaScript。 同样,当你与移动应用程序进行交互时

梯度下降(Gradient Descent)

空扰寡人 提交于 2021-02-09 15:53:30
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。 1. 梯度     在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂y) T ,简称grad f(x,y)或者▽f(x,y)。对于在点(x 0 ,y 0 )的具体梯度向量就是(∂f/∂x 0 , ∂f/∂y 0 ) T .或者▽f(x 0 ,y 0 ),如果是3个参数的向量梯度,就是(∂f/∂x, ∂f/∂y,∂f/∂z) T ,以此类推。     那么这个梯度向量求出来有什么意义呢?他的意义从几何意义上讲,就是函数变化增加最快的地方。具体来说,对于函数f(x,y),在点(x 0 ,y 0 ),沿着梯度向量的方向就是(∂f/∂x 0 , ∂f/∂y 0 ) T 的方向是f(x,y)增加最快的地方。或者说,沿着梯度向量的方向,更加容易找到函数的最大值。反过来说,沿着梯度向量相反的方向,也就是 -(∂f/∂x 0 , ∂f/∂y 0 ) T 的方向,梯度减少最快,也就是更加容易找到函数的最小值。      2. 梯度下降与梯度上升     在机器学习算法中

百度算法提前批 面试复盘

浪尽此生 提交于 2021-02-09 15:35:18
作者 | liu_sy 来源 | 见文末『阅读原文』处 整理 | NewBeeNLP公众号 面试锦囊之面经分享系列,持续更新中 欢迎后台回复" 面试 "加入讨论组交流噢 文末也有内推,需要的同学自取哈 写在前面 之前通过非定向内推提前批,简历一直处于筛选状态中,然后大概在8.18在牛客看到一个前辈所在部门(推荐搜索)招人,就把简历发给了前辈,然后隔了两三天就通知了面试。 一面 (8.21 46分钟) 自我介绍 在广告算法比赛中,是如何构建特征的,以及如何识别哪些特征是重要的 word2vector 原理 lstm中的attention是怎么操作的 梯度消失及解决方法 BN的作用 手撕代码:链表相加(leetcode第二题)。需要注意的是最好提前练习如何写链表的示例,因为我们刷题只用写个函数 二面(8.24 60分钟左右) 自我介绍 提问项目和广告比赛,问了一些深度学习基础和机器学习基础 神经网络初始化方法。我回答了随机初始化和He初始化。面试官问我随机初始化有什么问题,He初始化解决了什么问题 BN的原理和作用。这里我的回答面试官提出了很多很多疑问,因为网上关于BN的解释也是说法不一,比如说一种常见说法是BN解决了 Internal Covariate Shift,但是他用sigmoid举例,那现在基本都用relu,relu大于0的时候,梯度都为1,也有这种问题吗

gradient-descent

百般思念 提交于 2021-02-09 13:34:00
http://ruder.io/optimizing-gradient-descent/ https://www.quora.com/Whats-the-difference-between-gradient-descent-and-stochastic-gradient-descent https://en.wikipedia.org/wiki/Stochastic_gradient_descent https://zh.coursera.org/learn/deep-neural-network/lecture/lBXu8/understanding-mini-batch-gradient-descent https://zh.coursera.org/learn/deep-neural-network/lecture/qcogH/mini-batch-gradient-descent https://am207.github.io/2017/wiki/gradientdescent.html http://leon.bottou.org/publications/pdf/online-1998.pdf References Sutton, R. S. (1986). Two problems with backpropagation and other steepest

深度学习调参技巧

一世执手 提交于 2021-02-09 09:52:40
1. 前言 我们在学习人工智能的时候,不管是机器学习还是深度学习都需要经历一个调参的过程,参数的好坏直接影响这模型效果的好坏。今天我们介绍下在深度学习中,调参的技巧主要分为哪些。 2. 深度学习中的主要参数 学习率(learning rate):学习率的取值一般是1、0.1、0.01、0.001等,我的建议是学习率从大到小,因为大的学习率运算的快,验证错误的速度快。并且我们的学习的过程一般通过Adam进行动态调整,基本问题不大。 网络层数:先从1层开始。 每层结点数:16,32,128,超过1000的情况比较少见。 batch size: 128左右开始 。batch取太大会陷入局部最小值,batch取太小会抖动厉害,因此要选择一个合适的batch size。 梯度裁剪: 限制最大梯度,如果梯度超过了阈值就进行截断。 dropout:在训练的时候可以设置一定的dropout,提升网络的健壮性,也能提升网络的计算速度。 词向量embedding大小:embedding的大小一般是128和256。 正负样本比例: 这个是非常忽视,但是在很多分类问题上,又非常重要的参数。很多人往往习惯使用训练数据中默认的正负类别比例,当训练数据非常不平衡的时候,模型很有可能会偏向数目较大的类别,从而影响最终训练结果。除了尝试训练数据默认的正负类别比例之外,建议对数目较小的样本做过采样,例如进行复制

淘宝技术部算法专家(杭州/北京)招聘

橙三吉。 提交于 2021-02-09 03:36:32
在淘宝技术部,你将要解决的问题包括(但不限于)面向商家端的智能决策系统、面向用户端的商品、feeds、短视频的挖掘及推荐系统以及基于移动智能设备的AI平台算法,这不仅要考虑CTR(点击率)、成交额、用户日活等业务指标,还需要系统化的解决上千万卖家流量博弈的机制设计,团队内的算法工程师和科学家将与你一起解决世界上规模最大电商平台上最困难的业务技术难题。 数据与自然语言处理算法专家 岗位描述 1. 参与淘宝核心场景的算法研发,提升场景的点击率、转化率、成交、停留时长等核心指标; 2. 设计面向On Device AI的高容错分布式机器学习系统及新的模型; 3. 构建面向电商领域的知识图谱; 4. 面向大淘宝千万卖家的生态机制算法设计。 职位描述 1. 计算机、统计、数学等相关专业; 2. 具有丰富的数据建模实践经验 3. 2年以上机器学习、自然语言处理、数据挖掘、文本处理等相关经验,精通其中一两个领域; 4. 熟练掌握Python/Java/C++等至少一种语言; 5.具有良好的技术洞察力、商业敏感度和优秀的数据分析技能,能够开发创新而实际的分析方法以解决复杂的商业问题 如果你还满足以下要求,我们会优先考虑 1. 熟练掌握Hive/SQL,拥有海量数据处理经验者优先; 2. 有企业级搜索、推荐系统、大数据算法优化经验 3. 在相关领域会议或期刊有文章发表 工位地点:北京、杭州