作者 | Ivyoake 整理 | NewBeeNLP
面试锦囊之面经分享系列,持续更新中
可以后台回复"面试"加入交流讨论组噢
今天上午已收到意向书,岗位算法工程师-机器学习,地点杭州。
一面(简历面 半小时)
当时在过马路时收到了电话,站在人行道上面试了半小时..
-
询问基本情况(研究方向及实习) -
就实习阶段所做的超分辨率算法工作进行了详细的询问:数据如何生成,从概率的角度解释网络为何能够学到LR和SR的映射关系,如何搭建和训练网络,如何解决模型落地问题 -
了解到答主在做超分时遇到的问题后,对业界前沿的技术做了相关询问,用了哪些GAN模型,GAN模型的loss函数如何设计,为什么这么设计 -
询问答主为什么要从深度学习方向转到机器学习方向,以及约定了两天后的详细面试;
二面(视频面 四十分钟)
-
介绍一个机器学习项目后就项目的pipeline和相关知识点进行了询问 -
介绍随机森林和GBDT的区别,为什么Bagging降方差,Boosting降偏差 -
介绍XGB对GBDT的提升,LGB对XGB的提升,以及既然使用了LGB为什么还要使用XGB -
介绍stacking的模型融合方式,以及模型融合为什么有效 -
编程题:找到一个无序数组里面连续的最长整数数组长度。顺带考察了基数排序和快速排序
三面(P9交叉面 一小时)
-
了解答主的两段实习经历,分别承担怎样的角色,具体做什么,简单考察了如何解决实际问题 -
就项目中数据处理方式做了详细的询问,生成的多张数据集如何使用,缺失值的处理需要考察到哪些问题,均值填充是否科学等 -
特征工程中具体衍生出来的特征进行了详细的询问,为什么要生成这样的特征,依据是什么,为什么要使用PCA进行降维,如何存在多个特征高度共线会有什么问题 -
为什么要大量使用树模型,有什么优势 -
XGB如何处理缺失值,LGB的差加速和直方图算法的底层代码是否有过了解 -
开放题:双十一时向用户发放优惠券,希望在成本一定的前提下,使得盈利最大化,该如何建模发放给用户?用户无法做AB测试,该怎样划定正负样本? -
数学题:长度为1的线段,随机地取两点A和B,求AB长度的概率密度函数
四面(四十分钟):
-
是否做过机器学习算法上的性能优化,介绍了项目中超分算法优化的内容 -
为什么要对连续型数值进行离散化,这样做有什么优势 -
stacking模型最后一层用于二分类的LR是用离散型的数据还是连续型的数据,有什么区别 -
详细解释了弱模型特征的生成方法和思考角度
五面(主管面 现场面 一小时五十分钟):
四面当晚收到去现场面试的通知,经历了春招和秋招以来时间最久和最紧张的一场面试,所幸面试官人很好,缓和了一些
-
详细介绍了第一段实习的个性化推荐的项目,以及团队内的分工合作,自己负责什么领域。生成的模型方案如何评价和测试,处理样本时是否遇到样本不均衡的问题,如何解决 -
分别解释分层采样和蓄水池采样 -
就第二段实习经历询问了GAN模型和多帧模型以及loss设计 -
就机器学习项目的pipeline进行了详细的介绍,询问的问题部分重复,在此不述 -
开放题:就之前的面试记录来看,想继续询问优惠券发放的问题,你是否有了更深入的了解和更好的思路 -
编程题:有log日志,每行有两列(用户ID,访问的商品ID),若两个用户均有访问一个商品ID的记录,则两个用户关系指数加一,求所有用户对中关系指数最大的TopK;如果内存中无法存入全部数据,该如何解决。能否使用hadoop的方式解决,原理和思路?能否使用合理的切片方式,使得分布式的机子上的排序结果汇总后就是最终结果? -
思维题:有一座桥,A通过需要25分钟,B通过需要20分钟,C通过需要10分钟,D通过需要5分钟,一个桥同时只能走两人,且快的人需要等慢的人到达才能一起到达。走桥时必须要有手电筒才能经过,且手电筒只有一个,问如何在60分钟内使得四人均通过
HR面(三十分钟):
现场面结束后主管告诉我本轮已经是最后一场技术面,如何有后续面试就是HR面,在返程地铁上就收到了第二天的电话面试通知,非常高兴
-
简单自我介绍 -
讲述自己的特点和所擅长做的事 -
就两段实习经历讲讲自己对于两家公司的看法 -
讲讲自己对于一个公司的期望 -
认为自己在工作中最有优势的事情是什么 -
自己希望从事怎样方向的工作,是科研型的还是工程型的 -
自己的兴趣爱好是什么 -
有什么想问的
- END -
本文分享自微信公众号 - NewBeeNLP(NewBeeNLP)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。
来源:oschina
链接:https://my.oschina.net/u/4594481/blog/4441611