【技术分享】GBDT算法-原理篇
本文原作者:蒋凯,经授权后发布。 原文链接: https://cloud.tencent.com/developer/article/1509000 导语 :工业界机器学习大杀器解读。 GBDT是常用的机器学习算法之一,因其出色的特征自动组合能力和高效的运算大受欢迎。 这里简单介绍一下GBDT算法的原理,后续再写一个实战篇。 1、决策树的分类 决策树分为两大类,分类树和回归树。 分类树用于分类标签值,如晴天/阴天/雾/雨、用户性别、网页是否是垃圾页面; 回归树用于预测实数值,如明天的温度、用户的年龄、网页的相关程度; 两者的区别: 分类树的结果不能进行加减运算,晴天+晴天没有实际意义; 回归树的结果是预测一个数值,可以进行加减运算,例如20岁+3岁=23岁。 GBDT中的决策树是回归树,预测结果是一个数值,在点击率预测方面常用GBDT,例如用户点击某个内容的概率。 2、GBDT概念 GBDT的全称是Gradient Boosting Decision Tree,梯度提升决策树。 要理解GBDT,首先就要理解这个B(Boosting)。 Boosting是一族可将弱学习器提升为强学习器的算法,属于集成学习(ensemble learning)的范畴。Boosting方法基于这样一种思想:对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断