集成学习之随机森林
/*--> */ /*--> */ /*--> */ /*--> */ /*--> */ /*--> */ /*--> */ /*--> */ 随机森林的主要作用是降低模型的复杂度,解决模型的过拟合问题。 1、随机森林概述 ¶ 随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候投票决定测试样本的最终类别。 2、随机森林算法流程 ¶ 随机森林是非常具有代表性的Bagging集成算法,它的所有基评估器都是决策树,分类树组成的森林就叫做随机森林分类器,回归树所集成的森林就叫做随机森林回归器。其主要包括4个部分:随机选择样本;随机选择特征;构建决策树;随机森林投票分类。 随机森林的分类算法流程如下图: 1.样本选择 自助采样:假设训练数据集包含m个样本,随机从样本集中可放回的抽取m次,得到与训练集数量相同的训练集。经过K轮自助采样,可以得到K个包含m个训练样本的采样集。随机选择样本是有放回!!! 2.特征选择 在随机森林中,我们不计算所有特征的增益。如果每个特征的样本维度为M,指定一个常数m<<M,随机地从M个特征中选取m个特征。然后计算m个特征的增益,选择最优特征(属性)。若M=m,则与传统决策树相同,一般而言,推荐$m=\log_2{M}$或$m=\sqrt{M}$。随机选择特征是无放回!!! 3.决策树构建 基于随机采样后采样后的数据集进行多个决策树的构建