算法工程师

AI算法工程师炼成之路

你。 提交于 2020-02-19 07:22:23
AI算法工程师炼成之路 面试题: l 自我介绍/项目介绍 l 类别不均衡如何处理 l 数据标准化有哪些方法/正则化如何实现/onehot原理 l 为什么XGB比GBDT好 l 数据清洗的方法有哪些/数据清洗步骤 l 缺失值填充方式有哪些 l 变量筛选有哪些方法 l 信息增益的计算公式 l 样本量很少情况下如何建模 l 交叉检验的实现 l 决策树如何剪枝 l WOE/IV值计算公式 l 分箱有哪些方法/分箱原理是什么 l 手推SVM:目标函数,计算逻辑,公式都写出来,平面与非平面 l 核函数有哪些 l XGB原理介绍/参数介绍/决策树原理介绍/决策树的优点 l Linux/C/Java熟悉程度 l 过拟合如何解决 l 平时通过什么渠道学习机器学习(好问题值得好好准备) l 决策树先剪枝还是后剪枝好 l 损失函数有哪些 l 偏向做数据挖掘还是算法研究(好问题) l bagging与boosting的区别 l 模型评估指标有哪些 l 解释模型复杂度/模型复杂度与什么有关 l 说出一个聚类算法 l ROC计算逻辑 l 如何判断一个模型中的变量太多 l 决策树与其他模型的损失函数、复杂度的比较 l 决策树能否有非数值型变量 l 决策树与神经网络的区别与优缺点对比 l 数据结构有哪些 l model ensembling的方法有哪些 来源: https://www.cnblogs.com

大数据专业未来就业前景如何?

风流意气都作罢 提交于 2020-01-20 20:54:46
大数据专业未来就业前景如何? 大数据人才稀缺 据数联寻英发布《大数据人才报告》显示,目前全国的大数据人才仅46万,未来3-5年内大数据人才的缺口将高达150万。 据职业社交平台LinkedIn发布的《2016年中国互联网最热职位人才报告》显示,研发工程师、产品经理、人力资源、市场营销、运营和数据分析是当下中国互联网行业需求最旺盛的六类人才职位。其中研发工程师需求量最大,而数据分析人才最为稀缺。领英报告表明,数据分析人才的供给指数最低,仅为0.05,属于高度稀缺。数据分析人才跳槽速度也最快,平均跳槽速度为19.8个月。 根据中国商业联合会数据分析专业委员会统计,未来中国基础性数据分析人才缺口将达到1400万,而在BAT企业招聘的职位里,60%以上都在招大数据人才。 大数据专业就业三大方向 大数据主要的三大就业方向:大数据系统研发类人才、大数据应用开发类人才和大数据分析类人才。 在此三大方向中,各自的基础岗位一般为大数据系统研发工程师、大数据应用开发工程师和数据分析师。 大数据专业人才就业薪资 1基础人才:数据分析师  北京数据分析平均工资:¥ 10630/月,取自 15526 份样本,较 2016 年,增长 9.4%。 数据分析师岗位职责 业务类别:技术 业务方向:数据分析  工作职责: 1. 根据公司产品和业务需求,利用数据挖掘等工具对多种数据源进行诊断分析

从0到后端工程师

一个人想着一个人 提交于 2020-01-18 10:02:12
一, 面的是一家上海的创业公司,地址比较偏远,找了半天,过去的时候还发现他们在搬家,心想,创业公司真不容易啊,什么都要自己来。 期间他问到了我的Python基础知识,我答得支支吾吾,各种不确定,还有被问到了后端组件的知识,我也是不了解。框架的知识就也是各种不了解。第一次面试就这样结束了,不过考虑到自己刚学Python不久,只是试试水温,所以还好。 改进: 继续了解Python基础知识; 继续了解后端组件和后端框架; 二 面的是北京某大明星公司,同学进行的内推,它问的Redis的操作,但是自己记不起来了😓,所以自己后来把Redis中所有的操作都背下来了,然后她又问了关于算法的文章,同样的,我只想到暴力解,显然面试官不满意,经过几次的提醒以后还是不会做,于是面试就让我走了。 改进: 背下所有的Redis中的操作; 把剑指Offer过了一遍; 三 面的是北京一家做出行搜索的公司,电话面试,面试过程中提到求二叉树中任意两个结点的距离的问题,当时自己真的是一脸的蒙逼,经过面试官些许提示,题目转化成求LCA,但是自己还是记不起来了,最重要的是这还是自己总结过的知识,于是面试翻着我自己写的博客跟我说。。。面试官还问了动态规划的问题,我并没有了解这个的概念,只是做过这样的题目,所以就说了状态方程相关的,显然面试官并不是想要这个答案。所以面试官就挂了电话。。。 改进: LCA问题都看了一遍;

算法工程师耗尽心血终成TensorFlow深度学习应用实践,值得一学!

a 夏天 提交于 2020-01-17 14:28:40
本篇总的指导思想是在掌握深度学习的基本知识和特性的基础上,培养使用TensorFlow进行实际编程以解决图像处理相关问题的能力。全篇力求深入浅出,通过通俗易懂的语言和详细的程序分析,介绍TensorFlow的基本用法、高级模型设计和对应的程序编写。 本篇强调理论联系实际,重点介绍TensorFlow编程解决图像识别的应用,提供了大量数据集,并以代码的形式实现了深度学习模型,以供读者参考。 本篇可作为学习人工神经网络、深度学习TensorFlow 程序设计以及图像处理等相关内容的程序设计人员学习。 **本篇共22章,内容包括Python类库的安装和使用、TensorFlow 基本数据结构和使用、TensorFlow 数据集的创建与读取、人工神经网络、反馈神经网络、全卷积神经网络的理论基础、深度学习模型的创建、模型的特性、算法、ResNet、 Slim、 GAN等。 由于细节内容实在是太多了,所以小编只把部分知识点截图出来粗略的介绍,每个小节都有更加细化的内容,希望大家能够从中得到真谛!** 第1章介绍深度学习的基本内容,初步介绍深度学习应用于计算机视觉和发展方向,介绍使用深度学习解决计算机视觉问题的应用前景,旨在说明使用深度学习和人工智能实现计算机视觉是未来的发展方向,也是必然趋势。 第2章介绍Python的安装和最常用的类库。Python语言是易用性非常强的语言

大二机器学习算法工程师实习生面经

…衆ロ難τιáo~ 提交于 2019-12-25 13:09:56
投了近20家大厂,由于才大二,简历内容也不算丰富,所以大多数在简历关就挂了.得到笔试机会的有网易,今日头条,百词斩. 百词斩(一面挂) 一面: 平时如何学习相关知识. 项目经历. 讲一个最喜欢的机器学习算法.我答了神经网络. 为什么神经网络的激励函数要用非线性的.没有回答出来.正确答案是线性函数叠加仍是线性函数,非线性函数才能起到层与层之间的变化. 了解决策树吗,决策树划分结点的方法有哪些. 详细解释信息增益. 什么是过拟合?如何防止过拟合? 讲讲KNN和K-Means的不同. K-Means一般如何选取K值和初始质心.选取K值应该讲到平均轮廓系数,答得不好. 一般怎么做交叉验证. 百词斩题库中有很多阅读题,现在如何判断新出的题目和已有题目的相似度.我的回答是用词袋向量计算夹角余弦值. 有监督学习和无监督学习的区别是什么. 总共持续了半小时左右,面试官比较和蔼.由于恰好感冒所以问题回答的都不大好. 今日头条(二面挂) 一面: 手写代码:旋转有序数组的二分查找,磕磕绊绊写出来了 项目经历 了解哪些机器学习算法 二面: 项目经历 了解集成学习吗,讲讲bagging和boosting 随机森林 GBDT 如果单棵决策树在数据集上的表现很差,还要尝试随机森林吗 知道哪些分类和回归的算法 分类和回归常用的损失函数 手写代码:有20000个词频,如何选出前100个高频词

非算法工程师面试必问的算法面试理论

帅比萌擦擦* 提交于 2019-12-22 02:58:12
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 非算法方向的你 面了多少次试? 最后,因为不懂算法, 死在了半路上? 这些痛, 作为技术创新型公司的小编——个推君 怎么会不懂? 为此,个推君特请了我司经验丰富的面试官 为你奉上一份热乎的 面试宝典 。 宝典可不是面试题哦 仅送给想认真钻研的童鞋 帮大家梳理知识点 让大家举一反三, offer拿到手软! 注:此处建议大家使用 C 语言来学习数据结构与算法。 一、数据结构 数据结构是算法的基础。大家需要对数据结构有个清晰的概念,因为大部分的算法题均需要带入数据结构的概念来处理。科班出身的程序员或多或少学习过数据结构。我们推荐大家可以重温下这本书,温故而知新。 时间复杂度与空间复杂度 在说算法之前和大家科普两个重要的理论知识:算法的时间复杂度与空间复杂度。 时间复杂度 算法的时间复杂度,用来度量算法的运行时间,记作: T(n) = O(f(n))。它表示随着 输入大小n 的增大,算法执行需要的时间的增长速度可以用 f(n) 来描述,并且会忽略常量部分。 举个例子 int aFunc(void) { printf("Hello, World!\n"); // 需要执行 1 次 return 0; // 需要执行 1 次} 调用此方法,printf("Hello, World!\n"); 执行了一次,那么我们记作 T

《深度学习,统计学习,数学基础》人工智能算法工程师手册

喜欢而已 提交于 2019-12-14 21:45:30
[ 导读 ] 市面上很多人工智能相关的书籍。大部分的书,面向小白,内容深度不够;小部分教材书或者科研书,内容艰深,又过于复杂。那么有没有,面向算法工程师(程序员)人群的,面向有一定数学基础、算法基础,能够快速上手写代码的人群的人工智能手册呢?有的!而且免费开源,非常有程序员范!《AI算法工程师手册》你值得拥有! 作者Github: https://github.com/huaxz1986 手册地址: http://www.huaxiaozhuan.com/ 作者简介: 华校专,清华航天学院工程力学本科,国防科大计算机专业硕士。清华四年每年成绩都是本系头名,曾任阿里巴巴资深算法工程师,现任智易科技首席算法研究员,《Python 大战机器学习》的作者 手册目录: 数学基础 1. 线性代数基础 一、基本知识 二、向量操作 三、矩阵运算 四、特殊函数 2. 概率论基础 一、概率与分布 二、期望和方差 三、大数定律及中心极限定理 五、常见概率分布 六、先验分布与后验分布 七、信息论 八、其它 3. 数值计算基础 一、数值稳定性 二、梯度下降法 三、二阶导数与海森矩阵 四、牛顿法 五、拟牛顿法 六、 约束优化 4. 蒙特卡洛方法与 MCMC 采样 一、蒙特卡洛方法 二、马尔可夫链 三、MCMC 采样 统计学习 0. 机器学习简介 一、基本概念 二、监督学习 三、机器学习三要素 机器学习的对象是

Java 工程师应该掌握的知识

为君一笑 提交于 2019-12-05 08:35:25
以 Java 工程师应该掌握的知识为例,按重要程度排出六个梯度: 第一梯度: 计算机组成原理、数据结构和算法、网络通信原理、操作系统原理。 第二梯度: Java 基础、JVM 内存模型和 GC 算法、JVM 性能调优、JDK 工具、设计模式。 第三梯度: Spring 系列、Mybatis、Dubbo 等主流框架的运用和原理。 第四梯度: MySQL(含SQL编程)、Redis、RabbitMQ/RocketMQ/Kafka、ZooKeeper 等数据库或者中间件的运用和原理。 第五梯度: CAP 理论、BASE 理论、Paxos 和 Raft 算法等其他分布式理论。 第六梯度: 容器化、大数据、AI、区块链等等前沿技术理论。 来源: https://www.cnblogs.com/tang88seng/p/11915492.html

NLP算法工程师(实习生)面试总结(持续更新)

你离开我真会死。 提交于 2019-12-02 18:50:51
爱奇艺 1. attention《attention is all you need》 2. 相关项目 3. 逻辑回归 4. linux的指令(重命名文件,vim替换,vim指向文章最末行) 5. 编程题:实现开根号函数 6. 编程题:实现前缀树 百度 1. bert模型结构 2. bert中的mask和word2vec模型有什么相同点和不同点 3. 相关项目 4. 实习中的工作有没有检验的指标 是否上线 自己的项目是否有检验的指标 5. 编程题:计算两个矩形的公共面积(从二维的线段入手,两端重合线段的乘积,就不用分类讨论了) 6. 编程题:给定一个词表【vocabulary,count】按照不同count的比例进行采样(将count化成占比,将每个单词的占比与之前累加,随机生成一个0-1之间的数,问题转化为一条线段的分割) 7. 介绍一下apriori,fpgrowth及其复杂度 8. 反向传播 存在的问题:关于NLP的理论方面的了解,模型方面的了解比较少 来源: https://www.cnblogs.com/yuanninesuns/p/11758370.html

揭开算法的神秘面纱

断了今生、忘了曾经 提交于 2019-12-02 02:42:26
前言 其实我一直想写一篇揭秘算法的文章,因为,据我所见,大多数写算法的软件工程师,其实,就是普通程序员,并非高人一等。 但我一直不知道从何下手,今天姑且尝试着乱写一点。 最唬人的高大上 算法最唬人的东西莫过于公式了。 而公式中最唬人的摸过于∑了;这个符号叫sigma,如下图: 举个例子: 某公司开会讨论项目功能实现,与会人员有:一个项目经理,三个A组成员,三个B组成员和一个算法工程师。 然后,讨论着,讨论着,就遇到了一个争议功能。 A组成员认为该功能应该循环来处理,B组成员认为应该使用递归来处理,双方争议不下。 此时,项目经理为了搁置争议,共同开发。。。然后,请算法工程师发表意见。 算法工程师走到黑板,刷刷刷写下了上图的公式。。。然后开始了表演。。。呃,是讲解。 “我们这个功能,我觉使用这个公式来实现最好,这个Ki乘以Mi,然后我们求一下和,巴拉巴拉。。。” 然后,A组B组成员就都蒙了,因为他们看不懂,也没听懂。因为程序员的特质是严谨,所以一旦遇到不懂的事情,他们通常是不发表意见的。 然后,在这小小的会议室中,算法工程师的形象就瞬间高大了起来。 "沉默就表示同意了,那这个功能就这么处理吧"项目经理说道。 最后,会议结束,因为没人能看懂这个公式,所以,A组组长和B组组长私下讨论了一个解决方案把问题处理掉了。。。 ------------------------------------