机器学习面试

机器学习算法

谁说我不能喝 提交于 2020-03-28 07:40:58
转载自: http://www.cnblogs.com/tornadomeet   朴素贝叶斯:   有以下几个地方需要注意:   1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分类为例),比如说是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。   2. 计算公式如下:      其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是 的计算方法,而由朴素贝叶斯的前提假设可知, = ,因此一般有两种,一种是在类别为ci的那些样本集中,找到wj出现次数的总和,然后除以该样本的总和;第二种方法是类别为ci的那些样本集中,找到wj出现次数的总和,然后除以该样本中所有特征出现次数的总和。   3. 如果 中的某一项为0,则其联合概率的乘积也可能为0,即2中公式的分子为0,为了避免这种现象出现,一般情况下会将这一项初始化为1,当然为了保证概率相等,分母应对应初始化为2(这里因为是2类,所以加2,如果是k类就需要加k,术语上叫做laplace光滑, 分母加k的原因是使之满足全概率公式)。    朴素贝叶斯的优点:   对小规模的数据表现很好,适合多分类任务,适合增量式训练。    缺点 :   对输入数据的表达形式很敏感。   决策树:   决策树中很重要的一点就是选择一个属性进行分枝,因此要注意一下信息增益的计算公式,并深入理解它

机器学习岗位面试总结:简历应该关注的5个重点

£可爱£侵袭症+ 提交于 2020-03-16 15:06:43
机器学习简历的一些小技巧 如今的公司很难找到优秀的机器学习人才。当然,任何特定技能的要求都取决于机器学习项目的用途和要求,但是您的机器学习履历中必须具备的某些技能在各种项目要求中是一致的。 通常,公司希望面试者具备丰富的机器学习技能,理论和编码能力,以便在需要时能够跨部门参与机器学习项目。 该领域的专家不仅需要具有扎实的机器学习算法水平,了解什么时候该应用什么算法,还需要掌握如何集成和接口。所需的核心技能是专门的,要求具有良好的数学理解,分析思维和解决问题的能力。尽管每个项目文件要求的特定技能各不相同,但对于所有角色而言,核心的机器学习技能都是不变的。 简历上必须出现的技能 概率与统计 概率论是大多数机器学习算法的主要内容。熟悉概率可以使您能够处理数据的不确定性。如果您从事与模型构建和评估有关的机器学习工作,掌握诸如Python,高斯混合模型和隐马尔可夫模型等概率理论,是非常必要的。 与概率论密切相关的是数据统计。 它提供了构建和验证模型所需的测度,分布和分析方法。 它还提供了用于创建模型和检验假设的工具和技术。 它们共同构成了机器学习模型的框架。这是制作机器学习简历时要考虑的第一件事。 计算机科学和数据结构 机器学习使用大量数据集,因此必须掌握计算机科学和底层体系结构的基础知识,还必须具备大数据分析和复杂数据结构方面的专业知识。 因此

机器学习160道面试题

爷,独闯天下 提交于 2020-03-06 10:19:46
数据科学职位的典型面试过程会有很多轮,其中通常会涉及理论概念,目的是确定应聘者是否了解机器学习的基础知识。 在这篇文章中,我想总结一下我所有的面试经历(面试or被面试)并提出了160多个数据科学理论问题的清单。 其中包括以下主题: 线性回归 模型验证 分类和逻辑回归 正则化 决策树 随机森林 GBDT 神经网络 文本分类 聚类 排序:搜索和推荐 时间序列 这篇文章中的问题数量似乎远远不够,请记住,面试流程是根据公司的需求和你的工作经历而定的。因此,如果你的工作中没有用过时间序列模型或计算机视觉模型,就不会收到类似的问题。提示:如果不知道某些面试问题的答案,不要灰心。为了简化起见,我根据难度将问题分为三类: 👶容易 ⭐️中号 🚀专家 开始吧! 有监督的机器学习 什么是有监督学习?👶 线性回归 什么是回归?哪些模型可用于解决回归问题?👶 什么是线性回归?什么时候使用它?👶 什么是正态分布?为什么要重视它?👶 如何检查变量是否遵循正态分布?‍⭐️ 如何建立价格预测模型?价格是否正态分布?需要对价格进行预处理吗?‍⭐️ 解决线性回归的模型有哪些?‍⭐️ 什么是梯度下降?它是如何工作的?‍⭐️ 什么是正规方程?‍⭐️ 什么是SGD-随机梯度下降?与通常的梯度下降有何不同?‍⭐️ 有哪些评估回归模型的指标?👶 什么是MSE和RMSE?👶 验证方式 什么是过拟合?👶 如何验证模型?👶

160个机器学习面试题

半城伤御伤魂 提交于 2020-03-06 09:30:23
原文: https://hackernoon.com/160-data-science-interview-questions-415s3y2a Alexey Grigorev(Lead Data Scientist at OLX Group) 数据科学职位的典型面试过程会有很多轮,其中通常会涉及理论概念,目的是确定应聘者是否了解机器学习的基础知识。 在这篇文章中,我想总结一下我所有的面试经历(面试or被面试)并提出了160多个数据科学理论问题的清单。 其中包括以下主题: 线性回归 模型验证 分类和逻辑回归 正则化 决策树 随机森林 GBDT 神经网络 文本分类 聚类 排序:搜索和推荐 时间序列 这篇文章中的问题数量似乎远远不够,请记住,面试流程是根据公司的需求和你的工作经历而定的。因此,如果你的工作中没有用过时间序列模型或计算机视觉模型,就不会收到类似的问题。 提示:如果不知道某些面试问题的答案,不要灰心。为了简化起见,我根据难度将问题分为三类: 👶容易 ⭐️中号 🚀专家 开始吧! 有监督的机器学习 什么是有监督学习?👶 线性回归 什么是回归?哪些模型可用于解决回归问题?👶 什么是线性回归?什么时候使用它?👶 什么是正态分布?为什么要重视它?👶 如何检查变量是否遵循正态分布?‍⭐️ 如何建立价格预测模型?价格是否正态分布?需要对价格进行预处理吗?‍⭐️ 解决线性回归的模型有哪些?

机器学习复习6-优化器等

扶醉桌前 提交于 2020-03-05 23:16:52
预备知识 一、正定和半正定矩阵 半正定矩阵包括了正定矩阵 。 不定矩阵:特征值有正有负 半正定 矩阵: 所有特征值为 非负 。 半负定矩阵:所有特征值为非正。 二、牛顿法和拟牛顿法(二阶优化方法) 由于我主要是做NLP,机器学习方面基本功扎实后,更加偏机器学习的方法浅尝辄止即可, 面试的时候知道有这些东西即可。这里只提一提。 牛顿法(Newton method)和拟牛顿法(quasi Newton method)是 求解无约束最优化问题的常用方法 ,有收敛速度快的优点。 牛顿法是迭代算法,每一步都需求解目标函数的海塞矩阵 (Hessian Matrix),计算比较复杂。 拟牛顿法通过正定矩阵近似海塞矩阵的逆矩阵或海塞矩阵 ,简化了这一计算过程。 1 牛顿法 : 2 拟牛顿法 : 拟牛顿法主要常见有DFP法(逼近Hession的逆)、BFGS(直接逼近Hession矩阵)、 L-BFGS(可以减少BFGS所需的存储空间)。均是用不同的构造方法来近似海塞矩阵或其逆。 3 牛顿法和梯度下降法 : 4 牛顿法和深度学习 : 三、海塞矩阵 四、鞍点问题 高维非凸优化问题之所以困难,是因为 存在大量的鞍点而不是局部极值 。 神经网络优化问题中的 鞍点即一个维度向上倾斜且另一维度向下倾斜的点 。 鞍点和局部极值的区别: 鞍点和局部极小值, 相同 的是,在该点处的 梯度都等于零 , 不同在于

最全知乎专栏合集:编程、python、爬虫、数据分析、挖掘、ML、NLP、DL...

与世无争的帅哥 提交于 2020-02-04 17:39:24
上一篇文章 《爬取11088个知乎专栏,打破发现壁垒》 里提到,知乎官方没有搜素专栏的功能,于是我 通过爬取几十万用户个人主页所关注的专栏从而获取到11088个知乎专栏 。 本回筛选出其中涉及: 编程、python、爬虫、数据分析、挖掘、ML、NLP、DL等 关键词的专栏, 按照排名、关注人数、专栏名称、专栏简介等顺序,罗列出史上最全专栏合集 ,以供大家顺藤摸瓜、前去观摩和学习。 筛选出来的专栏数据和全部11088个专栏数据,已经绑定到公众号“牛衣古柳”(ID:Deserts-X)后台 。本文可能遗漏少数优质专栏,可在原始数据里自行挖掘;对其他主题专栏感兴趣的也可自行筛选和整理;有兴致搞个“专栏”搜索功能的小伙伴可以尝试下! 另外 已开始对11088个专栏里更详细的数据进一步爬取 ,之后会挖掘更多数据,超详细数据集也会随后分享。 TOP29系列,1万+关注: 排名,关注人数,专栏名称,专栏简介: No.1, 157960, 数据冰山 , 微信公众号:数据冰山 (No.2, 112088, 学习编程 ,莫道君行早,更有早行人。全心敲代码,天道自酬勤)(不小心漏了 @路人甲 的TOP2专栏,简直蠢哭) No.2, 62106, 行为与认知神经科学 , 神经科学 | 认知科学 I 脑机接口 | 人工智能 No.3, 50136, 机器之心 , 关注人工智能学术和技术实现 No.4,

机器学习和大数据优质资料打包下载,宅在家里学习吧!

限于喜欢 提交于 2020-01-29 17:59:24
与其宅在家里无聊,不如利用网络免费资源丰富一下自己的知识储备。这里我总结了一下大数据和AI相关领域的免费资源,这些书籍和资料都是我个人阅读过,一些阅读经验也和大家分享一下。鉴于当前形势,购买书籍不太方便,我已经将这些书籍的电子版打包整理好,文末有下载方式。 机器学习 机器学习 入门机器学习有两本必读的中文书:周志华的《机器学习》和李航的《统计学习方法》。这两本书主要介绍机器学习的统计学原理,深入浅出,是机器学习必不可少的好书。其中,周志华的《机器学习》封面是一个西瓜,内容中大量使用了瓜来举例,因此被称为西瓜书。我认为,对于零基础的朋友,周志华的这本西瓜书入门机器学习更合适。《统计学习方法》适合面试算法工程师前快速地回顾和梳理知识。我建议在有一定的《机器学习》阅读基础后,再学习《统计学习方法》。 深度学习 深度学习领域很多人推荐Ian Goodfellow和Yoshua Bengio等大牛的《Deep Learning》,因其封面是一幅花的油画,被称为花书。中文本由北大张志华老师团队翻译。我自己读过中文版,读了两三章放弃了,因为整本书主要介绍深度学习背后的各种数学推导,即使有一定数学基础的朋友也可能需要花费大量精力啃明白书中的各种数学符号,因此这本书更适合深度学习相关的博士生和研发人员。有英文基础的朋友可以直接在线阅读:http://www.deeplearningbook.org/

机器学习知识点QA

[亡魂溺海] 提交于 2020-01-28 04:12:05
浮沙之上,勿筑高台 自己整理的笔记文章内容都是自己从自学机器学习以来涉及到的一些知识点、经历等等,包括研一上学期默默的学习机器学习理论知识,从李航老师的 《统计学习方法》 和周志华老师的 《机器学习》 西瓜书一步步地入门机器学习领域。这两本书从研一到确认工作陪伴了我两年,从入门学习到面试准备时都给予了我很大的帮助,以后这两本书也要经常的回头看看。 理论学习后参加的数据挖掘类竞赛以及幸运的实习经历,不仅让我认识了优秀的挚友和一群优秀的同事,也让我迈入了推荐算法和NLP的领域。在这里面 基础的算法理论知识 , 熟悉每一个基础算子 , 算法的实现 , 跟进学习前沿的算法 , 熟练的工程能力 , 深刻的业务理解能力 等等…我认为都是非常非常重要的。 我想抽出时间听着歌静下心来整理整理学习过程中的知识点、实践经历等等,同时也要以这种方式去更多的学习新的知识,保持学习。这里面参考了很多很多优秀前辈们的传授、总结、踩坑…感谢各位老师! 写知识点总结,一方面是对自己入门机器学习以来的一个回顾整理以免生疏,一方面是通过写笔记来督促自己保持学习。 知识点QA整理主要参考了(也是自己看过学习的书籍、视频、博客等),包括: 《统计学习方法》(李航老师) 《机器学习》(西瓜书) 《百面机器学习》(HuLu) 《机器学习实战》 《推荐系统实战》 《深度学习》(花书) 等…

机器学习——贝叶斯和朴素贝叶斯

China☆狼群 提交于 2020-01-19 11:39:52
贝叶斯判定准则: 最小化总体风险,只需在每个样本上选择能使条件风险R(c|x)最小的类别标记 一、极大似然估计 1.估计类的常用策略 :先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计。即概率模型的训练过程就是参数估计过程。 2.参数估计两大学派 :频率主义学派和贝叶斯学派。 (1)频率主义 :参数虽然未知,但却是客观存在的固定值,因此,可通过优化似然函数等准则来确定参数值(最大似然)。 (2)贝叶斯学派 :参数是未观察到的随机变量,本身也可以有分布,因此,可假定参数服从一个先验分布,然后基于观察到的数据来计算参数的后验分布。 二、朴素贝叶斯 (1)思想: 对于给定的待分类项x,通过学习到的模型计算后验概率分布,即:在此项出现的条件下各个目标类别出现的概率,将后验概率最大的类作为x所属的类别。后验概率根据贝叶斯定理计算。 (2)关键: 为避免贝叶斯定理求解时面临的组合爆炸、样本稀疏问题,引入了条件独立性假设。 即假设各个特征之间相互独立 (3)工作原理: 贝叶斯公式:    对条件概率做了条件独立假设,公式为: (4)工作流程: 1)准备阶段: 确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本。 2)训练阶段: 对每个类别计算在样本中的出现频率p(y),并且计算每个特征属性划分对每个类别的条件概率p(yi | x

机器学习之路--常用面试题目

烂漫一生 提交于 2020-01-19 00:46:28
该内容大部分来自<<百面机器学习算法工程师>> 1.特征工程 1.1为什么需要对数值类型进行归一化? 使各个指标处于同一数值量级,消除数据之间的量纲影响。 比如分析一个人的身高和体重对健康的影响。 1.2补充知识点 结构化数据 :关系数据库的一张表,每列都有清晰的定义,包含 了数值型和类别型 非结构化数据 : 文本,图像,音频,无法使用简单的数值表示,也没有清晰的类别定义, 并且每条数据的大小各不相同 1.3方法 线性归一化 (Min-Max Scaling) 它对原始数据进行线性变换,使结果映射到 [0,1]的范围,实现对原始数据 的等比缩放。 零均值归一化 (Z-Score Normalization) 它使原始数据映射到均值为 0,标准差为1的正太分布 1.4 注意 通过梯度下降算法通常需要归一化,包括线性回归,逻辑回归, SVM,神经网络等模型 但是决策树模型不需要归一化 1.2在对数据进行预处理时,应该怎样处理类别型特征? 序号编码 (Ordinal Encoding) 通常用于处理类别间具有大小关系的数据。 比如成绩可以分为低中高三个档那么高表示为 3,中表示2,低表示为1 独热编码 (One-hot Encoding) 处理类别间不具有大小关系的特征。 例如血型 (A型血,B型血,AB型血,O型血) A型血(1,0,0,0),B型血(0,1,0,0),AB型血(0,0