面试题:
l 自我介绍/项目介绍
l 类别不均衡如何处理
l 数据标准化有哪些方法/正则化如何实现/onehot原理
l 为什么XGB比GBDT好
l 数据清洗的方法有哪些/数据清洗步骤
l 缺失值填充方式有哪些
l 变量筛选有哪些方法
l 信息增益的计算公式
l 样本量很少情况下如何建模
l 交叉检验的实现
l 决策树如何剪枝
l WOE/IV值计算公式
l 分箱有哪些方法/分箱原理是什么
l 手推SVM:目标函数,计算逻辑,公式都写出来,平面与非平面
l 核函数有哪些
l XGB原理介绍/参数介绍/决策树原理介绍/决策树的优点
l Linux/C/Java熟悉程度
l 过拟合如何解决
l 平时通过什么渠道学习机器学习(好问题值得好好准备)
l 决策树先剪枝还是后剪枝好
l 损失函数有哪些
l 偏向做数据挖掘还是算法研究(好问题)
l bagging与boosting的区别
l 模型评估指标有哪些
l 解释模型复杂度/模型复杂度与什么有关
l 说出一个聚类算法
l ROC计算逻辑
l 如何判断一个模型中的变量太多
l 决策树与其他模型的损失函数、复杂度的比较
l 决策树能否有非数值型变量
l 决策树与神经网络的区别与优缺点对比
l 数据结构有哪些
l model ensembling的方法有哪些
来源:https://www.cnblogs.com/liuys635/p/11141604.html