随机森林(Random Forest, RF)
秉承bagging; 构造多颗相互独立CART决策树,形成一个森林,共同决策输出; 两个随机: 1)输入数据随机:从全体数据中又放回的选取部分数据; 2)每颗决策树构建的特征是从全体特征中随机选取;(从M个特征中选m个,再从这m个选取最优特征作为节点) 优点: 1)不易过拟合,抗噪能力强; 2)高度并行,运算快; 3)无偏估计; 4)对部分特征缺失不敏感; 随机森林调参 1、算法类型:ID3,C4.5,CART 2、树的数目(n_estimator) (0,100] 较多的子树,提高模型的性能,降低速度; 3、随机属性个数(max_features) logN、N/3、sqrt(N)、N 增加随机属性个数,提高模型性能,降低单个树的多样性,降低速度; 4、树的最大深度 $[1,\infty )$ -1表示树的完全生长; 5、叶子节点最少记录数(min_sample_leaf): 叶节点数据的最小个数,最小为2,一般50左右 较小的叶子是模型更容易捕捉训练数据的噪声,训练数据效果更好,模型越复杂; 6、叶子节点最少记录百分比 叶节点数据个数占父节点的最小比例; 来源:博客园 作者: DanniX 链接:https://www.cnblogs.com/danniX/p/10719752.html