Kaggle教程 机器学习中级6 XGBoost
在本课程中,你将学习如何使用 梯度增强 方法来构建和优化模型。这个方法在Kaggle竞赛中占据优势地位,并且在不同的数据集中取到得很好的结果。 1、介绍 在本课程的大部分时间里,你已经使用随机森林方法进行了预测,该方法比单个决策树有更好的性能。 我们把随机森林方法称为“集成方法”。根据定义, 集成方法 结合了几个模型(例如,在随机森林的案例中有好几个树)的预测。 接下来,我们将学习另一种集成方法,称为 梯度增强 。 2、梯度增强 梯度增强是一种通过循环迭代将模型添加到集合中的方法。 它首先用一个模型初始化集合,这个模型的预测可能非常简单。(即使它的预测非常不准确,后续添加的集合将解决这些错误。) 然后,我们开始循环迭代: 首先,我们使用当前集成来为数据集中的每个观测结果生成预测。为了进行预测,我们将所有模型的预测添加到集成中。 这些预测被用来计算损失函数(例如, 平均平方误差 )。 然后,我们使用损失函数来适应一个新的模型,这个模型将被添加到集成中。具体地说,我们确定模型参数,以便将这个新模型添加到集成中来减少损失。(注:“梯度推进”中的“梯度”指的是我们将对损失函数使用梯度下降法来确定新模型中的参数。) 最后,我们将新的模型加入到集成中,并且重复… 3、案例 我们首先加载训练和验证数据 X_train 、 X_valid 、 y_train 和 y_valid 。 import